李可欣,郭健,王宇君,李宗明,繆坤,陳輝
(1.信息工程大學(xué),鄭州 450001;2.32022 部隊(duì),廣州 510000;3.31682 部隊(duì),蘭州 730000;4.陸軍特種作戰(zhàn)學(xué)院,廣西 桂林 541000;5.31438 部隊(duì),沈陽 110031)
隨著經(jīng)濟(jì)全球化程度的不斷加深,各類船舶逐漸實(shí)現(xiàn)高速化和大型化,持續(xù)增長的海洋運(yùn)輸需求與日趨飽和的航道容量之間的矛盾日益加劇,影響著海洋航運(yùn)的安全與效率。為了更好地加強(qiáng)對海洋船舶的監(jiān)控與管理,為海事監(jiān)管人員提供更具針對性的解決方案,對大規(guī)模軌跡數(shù)據(jù)中的孤立、偏離、新穎數(shù)據(jù)點(diǎn)等進(jìn)行檢測。實(shí)現(xiàn)對海上船舶異常軌跡的識別與研究,從而實(shí)現(xiàn)對海域的智能高效全監(jiān)控。在智慧海洋態(tài)勢感知與管理方面具有重要的應(yīng)用價(jià)值。
船舶自動(dòng)識別系統(tǒng)(Automatic Identification System, AIS)包含船舶靜態(tài)以及航行運(yùn)動(dòng)動(dòng)態(tài)信息,已經(jīng)成為了海上監(jiān)控管理的主要數(shù)據(jù)來源。由于AIS信息最初是為避免碰撞而設(shè)計(jì)的,缺乏關(guān)于數(shù)據(jù)質(zhì)量的元數(shù)據(jù),如可靠性、確定性等,這使得利用AIS檢測船舶異常成為一項(xiàng)非常困難的任務(wù)。AIS 數(shù)據(jù)包含地理空間特征、時(shí)序特征等一般數(shù)據(jù)所沒有的特定特征,并且缺乏具有代表性的真實(shí)數(shù)據(jù)集,因此如網(wǎng)絡(luò)流量[1]、網(wǎng)絡(luò)安全[2]等領(lǐng)域的異常檢測方法以及神經(jīng)網(wǎng)絡(luò)[3]、支持向量[4]等有監(jiān)督模式的識別方法不適用該類數(shù)據(jù)。上述方法不僅要花費(fèi)大量的時(shí)間對數(shù)據(jù)進(jìn)行標(biāo)記,類別不均衡也易導(dǎo)致檢測結(jié)果的準(zhǔn)確率降低。
針對AIS 數(shù)據(jù)特性,近年來關(guān)于海上異常檢測的研究方法可以分為基于規(guī)則的異常檢測[5]以及基于學(xué)習(xí)的異常檢測[6]。前者通過明確定義異常行為實(shí)現(xiàn)對異常的檢測,具有可解釋性,但需要基于大量歷史數(shù)據(jù)對規(guī)則進(jìn)行總結(jié),但對一些隱式規(guī)則難以發(fā)現(xiàn)和描述,實(shí)際可用性較低。后者基于歷史數(shù)據(jù)學(xué)習(xí)一般模式中隱藏的規(guī)則,成為海上異常檢測的主導(dǎo)方法?;趯W(xué)習(xí)的異常檢測方法一般可分為2個(gè)階段:學(xué)習(xí)船舶軌跡的一般模式;檢測偏離模式的偏差。在第1 階段,以聚類分析為代表的無監(jiān)督模式識別得到了廣泛的應(yīng)用,如K–Means 算法[7]、DBSCAN 算法[8]、OPTICS 算法[9]、CURD 算法[10],ST–DBSCAN 算法[11]、ST–OPTICS 算法[12]等。對于密度聚類通常只考慮空間信息這一問題,張春瑋等[13]構(gòu)建了船舶行為相似度模型,基于DBSCAN 對船舶軌跡行為模式進(jìn)行識別。王永明[14]綜合 K–means 和DBSCAN 算法對船舶軌跡進(jìn)行聚類,以發(fā)現(xiàn)船舶航行軌跡異常。利用專家調(diào)查法和層次分析法對敏感水域的異常行為進(jìn)行檢測和排序。李楠等[15]通過聚類算法找到類簇中心點(diǎn),利用軌跡信息和飛行距離構(gòu)建異常因子,實(shí)現(xiàn)航空器異常檢測。杜志強(qiáng)等[16]基于卡爾曼濾波,通過距離計(jì)算實(shí)現(xiàn)異常判別。孟祥澤等[17]采用ST–DBSCAN 算法從老年人軌跡中提取行為模式鏈,結(jié)合空間環(huán)境信息構(gòu)建異常分析模型。馮宏祥等[18]通過船舶軌跡更新距離的均值和標(biāo)準(zhǔn)差,實(shí)現(xiàn)對AIS 誤用等多種海上船舶異常的發(fā)現(xiàn)與數(shù)據(jù)處理。上述方法中聚類參數(shù)的選擇往往基于經(jīng)驗(yàn),由于缺乏異常數(shù)據(jù)的標(biāo)簽,無法對所選參數(shù)的優(yōu)劣進(jìn)行評估,故難以獲取最優(yōu)參數(shù)。李文杰等[19]根據(jù)數(shù)據(jù)及自身分布特性生成候選集,基于參數(shù)尋優(yōu)策略實(shí)現(xiàn)聚類過程的全自動(dòng)化,但是在密度分布差異大的數(shù)據(jù)集上聚類效果差。萬佳等[20]基于KANN–DBSCAN 方法,結(jié)合去噪衰減和多密度聚類,在實(shí)現(xiàn)參數(shù)自適應(yīng)的前提下,提升了方法在密度分布差異大數(shù)據(jù)集上的聚類效果,但是該方法仍需設(shè)置密度閾值,且計(jì)算復(fù)雜度較高。
針對上述問題,本文提出一種基于降維密度聚類的船舶異常軌跡識別方法,將T–SNE 和自適應(yīng)密度聚類結(jié)合,實(shí)現(xiàn)高效可靠的聚類,并根據(jù)聚類結(jié)果提取中心類簇構(gòu)建類簇特征向量;最后根據(jù)不同距離閾值判別軌跡相似度,實(shí)現(xiàn)對異常軌跡的識別。構(gòu)建海洋船舶軌跡異常模式識別模型,可以為智能海洋交通管理與優(yōu)化提供科學(xué)化的數(shù)據(jù)支撐。
異常是指數(shù)據(jù)中不符合一般行為規(guī)范的模式。具體到海洋交通領(lǐng)域,異常軌跡一般包括:劇烈變速、劇烈轉(zhuǎn)向、位置漂移等運(yùn)動(dòng)學(xué)異常以及船舶軌跡偏離一般航線、行駛在禁漁區(qū)或禁航區(qū)等規(guī)則異常。結(jié)合軌跡數(shù)據(jù)特點(diǎn),設(shè)計(jì)基于自適應(yīng)降維密度聚類的船舶異常軌跡識別方法如圖1 所示。首先對AIS 數(shù)據(jù)進(jìn)行預(yù)處理,通過隨機(jī)森林分類器構(gòu)建最優(yōu)多維特征組合;然后通過降維密度聚類生成軌跡聚類結(jié)果;根據(jù)聚類結(jié)果計(jì)算類簇特征向量,通過計(jì)算數(shù)據(jù)集中點(diǎn)與特征向量的位置距離和速度角度距離,生成判斷相似度檢測軌跡異常的距離閾值;最后結(jié)合軌跡段航行距離評估置信度,實(shí)現(xiàn)對軌跡異常的檢測。
圖1 基于DR–DBSCAN 的軌跡異常識別分析Fig.1 Analysis of trajectory anomaly identification based on DR-DBSCAN
1.1.1 數(shù)據(jù)清洗
由于軌跡數(shù)據(jù)本身具有的多源異構(gòu)性以及數(shù)據(jù)質(zhì)量差等特點(diǎn),需要對原始數(shù)據(jù)進(jìn)行處理,軌跡數(shù)據(jù)處理通常需要解決以下3 個(gè)問題:過濾清洗,去除由于采樣頻率、采樣精度、人為失誤等產(chǎn)生的噪聲數(shù)據(jù);降低計(jì)算量;提高軌跡數(shù)據(jù)的精度。
對軌跡數(shù)據(jù)進(jìn)行缺失值刪除、插值等預(yù)處理操作后,對軌跡基礎(chǔ)信息進(jìn)行分析計(jì)算構(gòu)建多維特征,根據(jù)MMSI 號將軌跡點(diǎn)分為完整軌跡段。船舶軌跡的集合M_traj、具體某一艘船舶的完整軌跡M_traji以及船舶軌跡點(diǎn)信息P可表示為:
式中:x、y為軌跡點(diǎn)經(jīng)緯度信息;d為根據(jù)經(jīng)緯度計(jì)算的地理空間距離;t為此段軌跡航行的總時(shí)間;v為AIS 報(bào)告的船舶速度;C為AIS 報(bào)告的船舶航向;H為AIS 報(bào)告的船舶艏向;Acal為根據(jù)H計(jì)算的角度變化;Arep為根據(jù)C計(jì)算的角度變化量;vrep為根據(jù)時(shí)間距離計(jì)算的航跡平均速度。
1.1.2 多維特征構(gòu)建
數(shù)據(jù)集所選取的特征屬性離散性或相異性越高,數(shù)據(jù)的聚類效果則越好。原始軌跡數(shù)據(jù)包含經(jīng)緯度、航行速度、航行方向等信息。為了更充分地挖掘軌跡特征,計(jì)算軌跡的航行距離、平均航行速度、加速度、轉(zhuǎn)向角等特征,避免偏離數(shù)據(jù)干擾,每個(gè)特征指標(biāo)分別取平均值、最大值、最小值、中值構(gòu)建軌跡特征數(shù)據(jù)集。由于特征之間也存在干擾,利用隨機(jī)森林分類器對軌跡數(shù)據(jù)進(jìn)行分析,對多維特征軌跡進(jìn)行評估,構(gòu)建最佳特征組合,避免特征間的相互干擾,提高計(jì)算精度和計(jì)算效率。
1.1.3 軌跡分段和靜止點(diǎn)提取
停止點(diǎn)一般是船舶的運(yùn)動(dòng)狀態(tài)或行為模式發(fā)生變化的點(diǎn),可以反映出停泊區(qū)、捕魚區(qū)、低速作業(yè)區(qū)等停止區(qū)域,具有重要的分析意義。從清洗后的AIS數(shù)據(jù)中提取同時(shí)滿足計(jì)算速度和報(bào)告速度均為靜止?fàn)顟B(tài)的軌跡點(diǎn),構(gòu)建靜止軌跡點(diǎn),并依據(jù)靜止點(diǎn)對完整軌跡段進(jìn)行劃分。
根據(jù)保留的特征屬性信息,軌跡劃分的流程分為2 步:首先計(jì)算相鄰軌跡點(diǎn)的距離、轉(zhuǎn)向角以及速度;然后根據(jù)設(shè)定的速度閾值和最小軌跡長度,以靜止點(diǎn)以及發(fā)生較大轉(zhuǎn)向的點(diǎn)作為斷點(diǎn)對軌跡段進(jìn)行劃分,篩除長度不符合要求的軌跡段,根據(jù)原始數(shù)據(jù)計(jì)算構(gòu)造多維特征的時(shí)序子軌跡段特征。保留時(shí)序位置的子軌跡段集合S_traj_sequence可表示為:
對子軌跡段的多維特征進(jìn)行處理,將多點(diǎn)二維信息轉(zhuǎn)化為單點(diǎn)二維信息,子軌跡段特征集合S_traj_features可表示為:
1.2.1 算法原理
由于海上航行相較于陸上交通具有更高的自由度,不同海洋區(qū)域船舶航行規(guī)律具有較大差別,因此很難提前確定聚類數(shù)目。由于AIS 數(shù)據(jù)本身具有不確定性,報(bào)告數(shù)據(jù)中包含許多錯(cuò)誤軌跡構(gòu)成的噪聲點(diǎn),因此本文基于DBSCAN 算法,同時(shí)針對DBSCAN 算法超參數(shù)難以確定的問題,提出一種充分利用數(shù)據(jù)分布特性的基于多維特征降維的聚類方法(Dimensionality Reduction-Density-Based Spatial Clustering of Applications with Noise, DR-DBSCAN)。引入T–SNE 作為數(shù)據(jù)特征提取模塊,借助多流形聚類[21]的思想,從高維數(shù)據(jù)中提取和構(gòu)建更高質(zhì)量和更具魯棒性的數(shù)據(jù)特征低維有效表示。該方法的處理流程如圖2 所示。
圖2 DR–DBSCAN 算法流程Fig.2 DR-DBSCAN algorithm flow chart
對于多維特征數(shù)據(jù)集,常采用維數(shù)約減的方法降低特征間的復(fù)雜關(guān)系,減少噪聲。常用的手段有特征刪除、特征選擇以及特征抽取。前2 種手段往往容易導(dǎo)致信息丟失,PCA 和T–SNE 都屬于特征抽取的方法,在原始特征的基礎(chǔ)上通過空間映射創(chuàng)建新的特征,能更好地挖掘特征間的深層聯(lián)系。PCA 是一種線性降維方法,計(jì)算復(fù)雜度低但是特征表征效果較差;T–SNE 屬于非線性方法,計(jì)算復(fù)雜度高但對特征映射效果較好。隨機(jī)森林是一種由多個(gè)決策樹組成的機(jī)器學(xué)習(xí)模型,具有很好的數(shù)據(jù)集適應(yīng)能力,對高維數(shù)據(jù)、離散或連續(xù)型數(shù)據(jù)都能很好的處理,魯棒性強(qiáng)。因此,本文將2 種方法結(jié)合,在提高計(jì)算效率的同時(shí)充分挖掘特征間的相關(guān)關(guān)系,使得在聚類時(shí)能充分利用數(shù)據(jù)特征間的關(guān)系;然后利用隨機(jī)森林模型學(xué)習(xí)聚類標(biāo)簽,并判斷樣本類型。
在DR–DBSCAN 算法中,具體步驟如下:
1)將輸入的多維特征數(shù)據(jù)通過局部PCA 方法進(jìn)行投影,再利用快速T–SNE 模型將PCA 處理后的數(shù)據(jù)轉(zhuǎn)化為低維嵌入。
2)計(jì)算低維嵌入層數(shù)據(jù)的平均成對距離作為eps候選集設(shè)置的基數(shù)構(gòu)建候選集,并將數(shù)據(jù)劃分為訓(xùn)練集和測試集。
3)分別將低維嵌入層數(shù)據(jù)和訓(xùn)練集數(shù)據(jù)代入DBSCAN 模型中進(jìn)行聚類,提取集群的聚類標(biāo)簽,去除聚類簇?cái)?shù)不符合設(shè)置最小聚類簇?cái)?shù)的數(shù)據(jù)。
4)分別用嵌入層及其訓(xùn)練集的聚類標(biāo)簽訓(xùn)練隨機(jī)森林分類器。
5)將測試集代入步驟4 中訓(xùn)練的2 個(gè)分類器,經(jīng)過K 折交叉驗(yàn)證得到聚類參數(shù)最優(yōu)值,輸出聚類結(jié)果。
1.2.2 算法分析及評價(jià)
為了更好地驗(yàn)證所提出算法的性能,綜合考慮內(nèi)部和外部聚類評估標(biāo)準(zhǔn)構(gòu)建算法評價(jià)體系。外部評價(jià)指標(biāo)是指基于已知標(biāo)簽或模型,將聚類結(jié)果與其進(jìn)行比較。選取的數(shù)據(jù)集均為有標(biāo)簽數(shù)據(jù),為了對聚類結(jié)果進(jìn)行準(zhǔn)確評價(jià),引入外部聚類指標(biāo)F1分?jǐn)?shù)、調(diào)整蘭德系數(shù)(Adjusted Rand index,ARI)、歸一化互信息(Normalized Mutual Information,NMI)作為評價(jià)指標(biāo),計(jì)算公式如下。
F1分?jǐn)?shù)是精確率和召回率的調(diào)和平均數(shù),F(xiàn)1越高則模型越穩(wěn)健,公式見式(7)。
式中:P為精確率;R為召回率。
ARI的取值范圍為[?1,1],相比蘭德系數(shù)具有更高的區(qū)分度,值越大則表示聚類結(jié)果越吻合,計(jì)算式見式(8)。
式中:RI為蘭德系數(shù),取值范圍為[0,1],表示聚類標(biāo)簽和真實(shí)標(biāo)簽的比值情況。
NMI值用來衡量2 個(gè)數(shù)據(jù)間的相關(guān)性,在聚類中用于度量2 個(gè)聚類結(jié)果的相近程度,NMI值越大則表示劃分越準(zhǔn)確,公式見式(9)。
式中:H(X)、H(Y)分別為聚類標(biāo)簽和真實(shí)標(biāo)簽的信息熵,即出現(xiàn)的概率;MI(X,Y)為互信息,是聯(lián)合分布與乘積分布的相對熵。
內(nèi)部評價(jià)指標(biāo)是根據(jù)數(shù)據(jù)集的固有特征來對算法結(jié)果進(jìn)行評估。引入聚類性能內(nèi)部評價(jià)指標(biāo)包含輪廓系數(shù)(Silhouette Coefficient,SC)和Davies–Boulding指數(shù)(DBI)。輪廓系數(shù)結(jié)合了凝聚度和分離度,取值為[?1, 1],其值越大越好,輪廓系數(shù)的計(jì)算式見式(10)。
式中:為a(i)簇內(nèi)不相似度;b(i)為簇間不相似度。
DBI指數(shù)又稱分類適確性指標(biāo),DBI越小說明聚類效果越好,計(jì)算式見式(11)。
式中:m(CI)和m(Cj)為樣本間平均距離;d(μi,μj)為簇中心點(diǎn)距離。
1.3.1 類簇特征向量提取
在利用DR–DBSCAN 算法對軌跡進(jìn)行聚類后,類簇可以代表船舶的一般運(yùn)動(dòng)模式。通過構(gòu)建類簇特征向量來提取類簇特征,避免使用每個(gè)類簇的所有軌跡點(diǎn)進(jìn)行計(jì)算所產(chǎn)生的巨大運(yùn)算量,導(dǎo)致軌跡數(shù)據(jù)異常檢測的效率降低。類簇特征向量表達(dá)式可表示為式(12)。
提取類簇特征向量表示船舶行為的一般模式,通過計(jì)算訓(xùn)練數(shù)據(jù)集中軌跡點(diǎn)與類簇特征向量的聚類距離,生成距離閾值,根據(jù)特征向量和距離閾值對測試集軌跡點(diǎn)進(jìn)行異常檢測。最后根據(jù)船舶軌跡中異常點(diǎn)的占比來判斷軌跡段是否異常。類簇特征向量提取示意圖如圖3 所示。首先計(jì)算類簇平均航向角;然后根據(jù)平均航向角以及類簇點(diǎn)的經(jīng)緯度范圍構(gòu)建基礎(chǔ)網(wǎng)格;根據(jù)不同基礎(chǔ)網(wǎng)格的經(jīng)緯度跨度,將基礎(chǔ)網(wǎng)格劃分為小網(wǎng)格;計(jì)算每個(gè)網(wǎng)格中的類簇點(diǎn)的平均速度、平均經(jīng)緯度、平均距離以及最大轉(zhuǎn)向角;保存各個(gè)網(wǎng)格的特征向量,構(gòu)建類簇特征向量集合。
圖3 類簇特征向量提取示意圖Fig.3 Feature vector extraction of class cluster
1.3.2 距離判定閾值計(jì)算
對于一個(gè)待檢測的軌跡數(shù)據(jù)P,首先根據(jù)P點(diǎn)的經(jīng)緯度坐標(biāo),利用半正矢公式計(jì)算P與類簇特征向量的地理距離Dp。
式中:R為地球半徑,此處取地球平均半徑R=6 371.393 km。
保留使得所求地理距離最小的類簇特征向量lGVi,根據(jù)該特征向量對應(yīng)的其他特征分量計(jì)算該軌跡的相對距離d_l、速度轉(zhuǎn)角距離d_sa,見式(14)—(15)。
去除噪聲數(shù)據(jù)和聚類異常數(shù)據(jù)后,通過計(jì)算訓(xùn)練數(shù)據(jù)集中軌跡數(shù)據(jù)與類簇特征向量的距離,生成各個(gè)距離閾值,實(shí)現(xiàn)對異常軌跡的識別與評估。
本實(shí)驗(yàn)選取2019 年1 月1 日的AIS 數(shù)據(jù)作為訓(xùn)練集,設(shè)置美國西海岸、美國東海岸和墨西哥灣3 個(gè)實(shí)驗(yàn)區(qū)域進(jìn)行分析。
由圖4 可以看出,美西和美東均分布有較多較為重要的港口,這2 個(gè)區(qū)域的客船和貨船占比相對較多,分別為35.45%和28.24%。墨西哥灣北部為佛羅里達(dá)半島,人口密度較大,該區(qū)域的船舶分布較為密集,且游艇占比較大。特殊船舶包含各種水上或水下作業(yè)船舶,如引航、搜救、挖掘、潛水等,墨西哥灣的淺大陸棚區(qū)蘊(yùn)藏大量的石油和天然氣,該區(qū)域特殊船舶占比較高。船舶分布與地區(qū)地理環(huán)境具有很高的相關(guān)性,根據(jù)某地區(qū)的船舶類型分布可以推論該地區(qū)的地理環(huán)境特征。
圖4 實(shí)驗(yàn)區(qū)域船舶類型分布Fig.4 Vessel type distribution in the experimental area
原始AIS 軌跡數(shù)據(jù)共7 516 408 條,包含船舶13 115 艘。經(jīng)過數(shù)據(jù)清洗和預(yù)處理后的AIS 軌跡數(shù)據(jù)共7 515 892 條,提取靜止點(diǎn)615 977 個(gè)。根據(jù)設(shè)定的速度閾值篩選靜止點(diǎn)以及航向發(fā)生重大變化的點(diǎn)作為斷點(diǎn)對軌跡段進(jìn)行劃分,保留所有軌跡長度在10 以上的軌跡段,得到軌跡段為5 812 條,包含船舶4 740 艘。
為了確保結(jié)果的準(zhǔn)確性與有效性,使用過濾法結(jié)合隨機(jī)森林模型對特征進(jìn)行組合選擇,以得到最佳特征組合。進(jìn)行了多組對比實(shí)驗(yàn),每組實(shí)驗(yàn)迭代運(yùn)行5次以消除隨機(jī)性,實(shí)驗(yàn)結(jié)果如表1 所示。根據(jù)實(shí)驗(yàn)結(jié)果最終保留經(jīng)緯度、報(bào)告轉(zhuǎn)角以及報(bào)告速度的最大值、最小值、中位數(shù)和均值信息作為最終特征組合。
表1 軌跡特征組合評估Tab.1 Trajectory feature combination evaluation
由于軌跡數(shù)據(jù)無標(biāo)簽,為了驗(yàn)證聚類方法的精確性和普適性,選取4 個(gè)經(jīng)典的具有不同維度特征的UCI 數(shù)據(jù)集進(jìn)行聚類分析,評估DR–DBSCAN 算法解決實(shí)際問題的能力。綜合考慮內(nèi)部和外部聚類評估標(biāo)準(zhǔn)構(gòu)建算法評價(jià)體系,通過屬性數(shù)以及類別數(shù)的變化,觀察相對變化下算法的聚類性能。數(shù)據(jù)集在不同算法下的聚類指標(biāo)對比信息見表2。
從 3 個(gè)外部聚類指標(biāo)F1、ARI和NMI來看,DR–DBSCAN 在4 個(gè)數(shù)據(jù)集上均有較好得分,明顯優(yōu)于其他幾種算法,但內(nèi)部聚類指標(biāo)DBI評估結(jié)果相對較差。說明本文算法DR–DBSCAN 能深入挖掘數(shù)據(jù)內(nèi)部特征,而不是單純從點(diǎn)跡的空間分布上挖掘信息,因此能在數(shù)據(jù)分布較為離散的情況下,實(shí)現(xiàn)較高的分類準(zhǔn)確度。綜合實(shí)驗(yàn)結(jié)果分析,本文算法DR–DBSCAN 通過數(shù)據(jù)集低維嵌入特征層的構(gòu)建,深入挖掘數(shù)據(jù)集特征分布特性,能夠得到更符合數(shù)據(jù)特性的密度閾值。本文算法相較于一般的密度聚類方法,在實(shí)現(xiàn)參數(shù)自適應(yīng)的同時(shí)能較好地處理多維數(shù)據(jù)集,在幾個(gè)密度分布不均勻的多維數(shù)據(jù)集上均有較好的表現(xiàn)。
異常檢測的實(shí)質(zhì)就是學(xué)習(xí)一般行為模式,發(fā)現(xiàn)與一般模式相異的數(shù)據(jù)。DR–DBSCAN 算法能根據(jù)數(shù)據(jù)特征,擬合數(shù)據(jù)分布特性,構(gòu)建數(shù)據(jù)分布一般模式的類簇,從而可以實(shí)現(xiàn)異常數(shù)據(jù)的識別。
在3 個(gè)試驗(yàn)區(qū)中,美國西海岸區(qū)域包含軌跡數(shù)據(jù)897 條;墨西哥灣區(qū)域包含軌跡2 033 條;美國東海岸區(qū)域包含軌跡數(shù)據(jù)1 027 條。根據(jù)隨機(jī)森林分類器所構(gòu)建的軌跡數(shù)據(jù)特征組合,對3 個(gè)實(shí)驗(yàn)區(qū)域的軌跡段進(jìn)行聚類,去除掉無法聚類的噪聲點(diǎn)或異常軌跡,聚類結(jié)果與船舶類型分布較為類似。根據(jù)每個(gè)區(qū)域的聚類結(jié)果,劃分網(wǎng)格并提取類簇特征向量,計(jì)算距離閾值。3 個(gè)區(qū)域的位置距離閾值分別為美國西海岸2.249 27、墨西哥灣1.805 97、東海岸1.740 78;速度方向距離閾值分別為美國西海岸1.777 7、墨西哥灣1.952 8、東海岸1.705 02。
根據(jù)聚類結(jié)果獲取相應(yīng)區(qū)域的距離閾值,將軌跡點(diǎn)超出閾值范圍的視為異常點(diǎn)。對于一條軌跡,當(dāng)異常點(diǎn)占比超過70%,則該軌跡視為異常軌跡。選取2019 年1 月1 日的AIS 數(shù)據(jù)進(jìn)行異常檢測,經(jīng)過數(shù)據(jù)劃分后,根據(jù)距離閾值判斷異常軌跡點(diǎn)。經(jīng)過距離計(jì)算和異常判定,美國西海岸軌跡數(shù)據(jù)898 條,檢測出異常軌跡57 條,其中速度或方向異常速度的軌跡19 條,位置異常軌跡38 條;墨西哥灣軌跡數(shù)據(jù)2 160條,檢測出異常軌跡60 條,其中速度或方向異常速度的軌跡17 條,位置異常軌跡43 條;美國東海岸軌跡數(shù)據(jù)1 054 條,檢測出異常軌跡45 條,其中速度或方向異常速度的軌跡23 條,位置異常軌跡312 條。
美國西海岸和美國東海岸區(qū)域沿岸為主要航道,美西向東為內(nèi)河流域,向西為大西洋;美東向西為內(nèi)河流域,向東為太平洋,二者內(nèi)河與沿岸區(qū)域航道明顯,大洋區(qū)域軌跡較為離散。墨西哥灣區(qū)域內(nèi)河流域和離港航線分布較為清晰,但在中部區(qū)域軌跡分布較為雜亂。異常檢測通過計(jì)算距離閾值,將超出閾值范圍的判定為異常。位置異??梢越忉尀榉植济黠@偏離航道的軌跡,或同一艘船舶短時(shí)間內(nèi)位置出現(xiàn)顯著飄移等情況。將行駛方向與一般軌跡不一致或突然發(fā)生較大轉(zhuǎn)向或速度變動(dòng)的軌跡標(biāo)記為速度方向異常;將軌跡方向與周圍軌跡相異的視為方向異常;將軌跡發(fā)生較大轉(zhuǎn)向的可視為轉(zhuǎn)向異常。2 種方向異常都可以由軌跡分布和軌跡形狀進(jìn)行判斷。
本文提出了一種基于降維密度聚類的船舶異常軌跡識別方法。利用隨機(jī)森林分類器對軌跡多維特征的重要性進(jìn)行評估,構(gòu)建軌跡特征的最優(yōu)特征組合?;贒R–DBSCAN 聚類算法對歷史AIS 數(shù)據(jù)進(jìn)行聚類分析,學(xué)習(xí)船舶的一般行為模式構(gòu)建船舶類簇特征向量并計(jì)算距離閾值。在保證聚類精度的前提下,有效提高了聚類效率,減少了調(diào)參過程中對人工的依賴。采用4 種經(jīng)典UCI 數(shù)據(jù)集驗(yàn)證DR–DBSCAN 算法的精確度和有效性,并使用2019 年1 月1 日的真實(shí)航跡數(shù)據(jù)在3 個(gè)不同的實(shí)驗(yàn)區(qū)域進(jìn)行分析,以減少水文地理環(huán)境對方法有效性與準(zhǔn)確性的干擾。結(jié)果表明,該方法能夠有效檢測出船舶的位置異常、速度方向異常,對加強(qiáng)船舶交通行為分析和船舶交通監(jiān)管具有重要意義。由于硬件設(shè)施限制,本文選取數(shù)據(jù)集時(shí)空范圍較小,對多種類型的異常劃分和定義不夠詳細(xì)。未來可以進(jìn)一步修改模型架構(gòu)在更大區(qū)域進(jìn)行驗(yàn)證,更為明確地劃分各種類型的異常,并將模型拓展至陸空交通運(yùn)輸領(lǐng)域,更好地分析判斷不同的軌跡異常行為,為海陸空運(yùn)輸及交通管理提供數(shù)據(jù)支撐。