葛蓉, 胡勤友, 涂興華, 徐鐵
(1.江蘇海事職業(yè)技術(shù)學(xué)院 航海技術(shù)學(xué)院,南京 211170; 2.上海海事大學(xué) 商船學(xué)院,上海 201306)
近年來(lái),我國(guó)經(jīng)濟(jì)的飛速發(fā)展帶動(dòng)航運(yùn)業(yè)繁榮.水上交通安全工作是一項(xiàng)基礎(chǔ)性工作,歷來(lái)受到海事部門的高度重視,因此正確及時(shí)地掌握水上交通安全形勢(shì)是開展水上交通安全監(jiān)管工作的前提和依據(jù).目前,經(jīng)過一些學(xué)者的研究分析,運(yùn)用于水上交通安全評(píng)價(jià)的數(shù)學(xué)模型或方法有很多,如加權(quán)評(píng)價(jià)法、神經(jīng)網(wǎng)絡(luò)法、故障樹分析法等.其中加權(quán)評(píng)價(jià)法操作性強(qiáng)、簡(jiǎn)便易算,常用的有模糊綜合評(píng)判法[1]、層次分析法、德爾菲法等,這幾種方法均能將定性和定量相結(jié)合、步驟完善、所得的評(píng)價(jià)結(jié)果有一定的參考價(jià)值和預(yù)見性,因而在水上交通安全評(píng)價(jià)中被廣泛應(yīng)用.
根據(jù)評(píng)價(jià)水上交通的目的和特征,通常由專家調(diào)查的方式確定較吻合的指標(biāo)體系,同時(shí)由一定數(shù)量的領(lǐng)域內(nèi)專家主觀賦值確定指標(biāo)權(quán)重,因此對(duì)專家存在較強(qiáng)的依賴.認(rèn)識(shí)到指標(biāo)權(quán)重的主觀性較強(qiáng),為使權(quán)重更準(zhǔn)確可信、符合邏輯,很多學(xué)者在這方面進(jìn)行研究[2],在一些常見方法的基礎(chǔ)上提出更多的數(shù)學(xué)模型和方法[3].
文獻(xiàn)[4]研究Delphi-AHP(Analytic Hierarchy Process,層次分析法)構(gòu)權(quán)過程中專家意見一致性的統(tǒng)計(jì)檢驗(yàn)問題,提出用p階對(duì)稱均值比指標(biāo)度量,并建議用極差法和模擬法確定閾值,是一致性檢驗(yàn)的新方法;文獻(xiàn)[5]將集對(duì)分析(Set Pair Analysis,SPA)模型引入安全評(píng)價(jià);文獻(xiàn)[6]將SPA與AHP比較,得出SPA法能夠?qū)<遗袛嗟耐恍院筒町愋赃M(jìn)行有效處理,更易于區(qū)分各指標(biāo)的權(quán)重;文獻(xiàn)[7]在安全評(píng)價(jià)中引入模糊變權(quán)法,權(quán)重與單指標(biāo)評(píng)價(jià)值相關(guān)聯(lián),突出不理想指標(biāo),使評(píng)價(jià)結(jié)果更符合實(shí)際情況.
上述幾種方法都僅僅在一定程度上對(duì)單個(gè)專家賦權(quán)值進(jìn)行修正,對(duì)整個(gè)專家權(quán)重向量集中的異常向量不能進(jìn)行有效識(shí)別.這些異常向量會(huì)降低評(píng)價(jià)結(jié)果的準(zhǔn)確性,為提高權(quán)重向量的可信度,應(yīng)盡早發(fā)現(xiàn)并消除.本文提出一種基于DBSCAN算法的權(quán)重向量異常分析方法,能快速、有效地檢測(cè)出專家權(quán)重向量集中的異常向量.
在運(yùn)用加權(quán)評(píng)價(jià)法評(píng)價(jià)復(fù)雜的水上交通系統(tǒng)安全時(shí),有以下3個(gè)關(guān)鍵步驟:
步驟1確定評(píng)價(jià)指標(biāo).主要是根據(jù)水上交通特點(diǎn)和評(píng)價(jià)目的,選擇影響安全形勢(shì)的因素作為評(píng)價(jià)指標(biāo),如自然條件、船舶狀況等,并構(gòu)造判斷矩陣.
步驟3得出評(píng)價(jià)結(jié)果.對(duì)權(quán)重向量w和評(píng)判矩陣R進(jìn)行矩陣運(yùn)算B=wR,得出評(píng)價(jià)結(jié)果.
評(píng)價(jià)中的權(quán)重向量集通常為數(shù)值屬性的多維數(shù)據(jù)集,在大多數(shù)情況下沒有提前標(biāo)記,而當(dāng)某向量區(qū)別于其他多數(shù)向量時(shí),將其標(biāo)記為異常向量.導(dǎo)致異常的原因可能是專家主觀判斷失誤等,識(shí)別這些異常權(quán)重向量正是分析的目標(biāo).
檢測(cè)異常數(shù)據(jù)是聚類的一種附屬結(jié)果,故往往選取聚類算法作為檢測(cè)方法.文獻(xiàn)[8]對(duì)基于聚類的異常挖掘算法進(jìn)行大量研究;文獻(xiàn)[9]基于密度聚類算法對(duì)樣本數(shù)據(jù)庫(kù)進(jìn)行異常檢測(cè),為運(yùn)用聚類算法進(jìn)行權(quán)重向量異常分析提供基礎(chǔ).
聚類是數(shù)據(jù)挖掘[10-11]中的一項(xiàng)重要技術(shù),根據(jù)向量之間的“相似程度”將向量劃分為不同的簇,目的是使同一簇中的向量相似度最大化、不同簇中的向量相似度最小化.完成聚類后,可能剩余少數(shù)向量無(wú)法歸入任何簇中,這些少數(shù)向量即為檢測(cè)出的異常向量.[12]傳統(tǒng)的聚類算法根據(jù)數(shù)據(jù)類型、聚類目的等大致可以被分為5類:層次方法、劃分方法、基于密度方法、基于網(wǎng)格方法和基于模型方法.文獻(xiàn)[13]就異常數(shù)據(jù)分析對(duì)PAM算法、BIRCH算法、DBSCAN算法和CURE算法這4種典型的聚類算法進(jìn)行比較,其中DBSCAN算法適用于任意形狀的聚類,對(duì)異常數(shù)據(jù)最為敏感,故DBSCAN算法對(duì)于權(quán)重向量的異常分析有一定的可行性.
DBSCAN算法是一種較具有代表性的基于密度的聚類算法,根據(jù)密度閾值控制簇的增長(zhǎng),采用迭代法查找對(duì)象歸入簇.[14]運(yùn)用DBSCAN算法需指定2個(gè)參數(shù):①鄰域半徑E,由權(quán)重向量間的歐氏距離確定;②鄰域半徑范圍內(nèi)的權(quán)重向量最小數(shù)目M.設(shè)定M和E后,算法步驟如下:
步驟1檢測(cè)權(quán)重向量集中且其鄰域半徑E范圍內(nèi)包含的權(quán)重向量數(shù)目≥M的權(quán)重向量p,以p為核心對(duì)象建立新簇C,并將其包含的所有權(quán)重向量加入C.
步驟2對(duì)C中尚未處理的權(quán)重向量q,若其鄰域半徑E范圍內(nèi)包含的權(quán)重向量數(shù)目≥M,則將其所包含的權(quán)重向量(已處理的權(quán)重向量除外)加入C;若包含的權(quán)重向量數(shù)目 步驟3重復(fù)步驟2,擴(kuò)展C所包含的權(quán)重向量,直到?jīng)]有新的權(quán)重向量加入. 步驟4重復(fù)步驟1~3,直到權(quán)重向量集中的所有向量都?xì)w入某一簇,同時(shí)未加入任何一簇的權(quán)重向量標(biāo)記為異常向量. DBSCAN算法流程見圖1. 圖1 DBSCAN算法流程 為檢驗(yàn)DBSCAN算法對(duì)權(quán)重向量異常分析的效果,參照調(diào)查專家意見,按照“人-機(jī)-環(huán)境”理論選定這3項(xiàng)為分析影響水上交通的指標(biāo),取130位專家填寫的問卷結(jié)果,構(gòu)造判斷矩陣,再計(jì)算出130個(gè)專家指標(biāo)權(quán)重向量如下: 對(duì)上述權(quán)重向量作三維散點(diǎn)圖,見圖2.由圖2可以看出,權(quán)重向量總體集中分布,但在密度上存在一定的差異,且邊緣處可能存在個(gè)別權(quán)重向量異常偏離. 圖2 權(quán)重向量三維散點(diǎn)圖 參照數(shù)據(jù)量和向量分布情況,采用DBSCAN算法進(jìn)行異常分析.為簡(jiǎn)化計(jì)算可設(shè)定參數(shù)M=5.為確定E,計(jì)算向量集中的某一權(quán)重向量wi=(wi1,wi2,…,wik)與其第M(M=5)個(gè)最鄰近對(duì)象wj=(wj1,wj2,…,wjk)之間的歐氏距離: d(wi,wj)= 在本實(shí)例中,k=3.對(duì)計(jì)算所得d四舍五入精確到小數(shù)點(diǎn)后兩位有效數(shù)字,并按大小排序,統(tǒng)計(jì)其所對(duì)應(yīng)的數(shù)據(jù)個(gè)數(shù),見圖3. 圖3 計(jì)算所得d所對(duì)應(yīng)的數(shù)據(jù)個(gè)數(shù)統(tǒng)計(jì) 觀察圖中曲線走勢(shì),將圖中曲線峰值對(duì)應(yīng)的d設(shè)定為E,即E=0.10. 運(yùn)用MATLAB編寫DBSCAN算法程序,將對(duì)應(yīng)的M和E參數(shù)值輸入,可得部分聚類結(jié)果,見表1.表1中:K表示第K類聚類簇;K值為空的權(quán)重向量為游離狀態(tài),未歸入任何一個(gè)聚類簇,這些權(quán)重向量即為分析出的異常權(quán)重向量,見圖4. 表1 部分聚類結(jié)果 圖4 權(quán)重向量異常分析結(jié)果 指標(biāo)權(quán)重向量在常用的水上交通安全加權(quán)評(píng)價(jià)法中扮演著重要的角色,因評(píng)價(jià)中的權(quán)重系數(shù)通常由一定數(shù)量的領(lǐng)域內(nèi)專家主觀賦權(quán),因此得到的權(quán)重向量可能產(chǎn)生異常.DBSCAN算法是一種基于密度的聚類算法,適用于任意形狀的聚類,對(duì)異常數(shù)據(jù)敏感性高.本文將DBSCAN算法運(yùn)用于異常權(quán)重向量的分析,實(shí)驗(yàn)顯示:在130組數(shù)據(jù)中,異常權(quán)重向量共3組,從數(shù)據(jù)分布情況看,分析出的異常向量與正常向量有比較明顯的差異,因而此方法可行.總之,對(duì)權(quán)重向量集進(jìn)行分析后,可防止異常權(quán)重向量的干擾,對(duì)提高評(píng)價(jià)結(jié)果的質(zhì)量有一定的效果. 參考文獻(xiàn): [1]張侃, 趙仁余. 模糊綜合評(píng)判中零關(guān)系指標(biāo)對(duì)船舶航行環(huán)境安全評(píng)價(jià)結(jié)果的影響[J]. 上海海事大學(xué)學(xué)報(bào), 2007, 28(3): 16-18. [2]王靖, 張金鎖. 綜合評(píng)價(jià)中確定權(quán)重向量的幾種方法比較[J]. 河北工業(yè)大學(xué)學(xué)報(bào), 2001, 30(2): 52-57. [3]孫曉東, 田澎. 群決策中基于一致性強(qiáng)度的專家意見集結(jié)方法[J]. 系統(tǒng)工程與電子技術(shù), 2008, 30(10): 1895-1898. [4]蘇為華,吳鑑洪.Delphi-AHP構(gòu)權(quán)過程中專家意見一致性的統(tǒng)計(jì)檢驗(yàn)問題研究[J].統(tǒng)計(jì)研究, 2010, 27(7): 84-88. [5]吳建軍,肖英杰.基于集對(duì)分析的定線制水域航行環(huán)境的綜合安全評(píng)價(jià)[J].上海海事大學(xué)學(xué)報(bào), 2011, 32(1): 30-34. [6]吳建軍,蔡垚,劉正江.綜合安全評(píng)價(jià)中指標(biāo)權(quán)重的集對(duì)分析[J].中國(guó)航海, 2010, 33(3): 60-63. [7]劉強(qiáng), 王鳳武, 岳興旺. 模糊變權(quán)法在船舶綜合安全評(píng)價(jià)中的應(yīng)用[J]. 大連海事大學(xué)學(xué)報(bào), 2010, 36(4): 21-22. [8]蘇曉珂. 基于聚類的異常挖掘算法研究[D]. 上海: 東華大學(xué), 2010. [9]張曉. 基于密度聚類算法的異常檢測(cè)[J]. 伊犁師范學(xué)院學(xué)報(bào):自然科學(xué)版, 2010(4): 51-54. [10]TAN Pang-Ning, STEINBACH M, KUMAR V. 數(shù)據(jù)挖掘?qū)д揫M]. 范明, 范宏建, 譯. 北京: 人民郵電出版社, 2006: 383-464. [11]HAN Jiawei, KAMBER M. 數(shù)據(jù)挖掘概念與技術(shù)[M]. 范明, 孟小峰, 譯. 2版. 北京:機(jī)械工業(yè)出版社, 2007: 251-303. [12]王天真, 劉萍, 湯天浩, 等. 一種基于k-means聚類的航運(yùn)信息孤立點(diǎn)分析算法[J].上海海事大學(xué)學(xué)報(bào), 2011, 32(3): 54-57. [13]楊延?jì)? 門維江. 基于異常點(diǎn)挖掘的聚類算法比較研究[J]. 甘肅聯(lián)合大學(xué)學(xué)報(bào), 2008, 22(1): 87-90. [14]熊忠陽(yáng), 孫思, 張玉芳, 等. 一種基于劃分的不同參數(shù)值的DBSCAN算法[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2005, 26(9): 2319-2321.3 權(quán)重向量異常分析實(shí)例
3.1 確定參數(shù)
3.2 實(shí)驗(yàn)結(jié)果
4 結(jié)束語(yǔ)