朱 剛 胥 剛
中國電子科技集團(tuán)公司第二十八研究所 江蘇 南京 210007
隨著船舶業(yè)的快速發(fā)展,水上安全監(jiān)管形勢越發(fā)嚴(yán)峻。準(zhǔn)確及時(shí)地掌握對方規(guī)律,預(yù)判對手的行為特點(diǎn),實(shí)現(xiàn)戰(zhàn)場態(tài)勢實(shí)時(shí)感知[1]、海上搜救和海上交通指揮是海事系統(tǒng)的關(guān)鍵內(nèi)容。船舶實(shí)時(shí)航跡數(shù)據(jù)作為直觀反映船舶與環(huán)境、船舶與船舶的相互作用、相互影響的時(shí)空證據(jù),其中蘊(yùn)含了船舶行為模式,通過有效的方式對船舶航跡數(shù)據(jù)的挖掘,能夠?yàn)楸孀R船舶行為、進(jìn)行有效的船舶行為監(jiān)控和管理提供新的方式[2],因此,如何有效利用船舶的海量航跡數(shù)據(jù),識別船舶運(yùn)動(dòng)模式,進(jìn)一步輔助水上安全監(jiān)管,已經(jīng)成為當(dāng)前海事領(lǐng)域的熱點(diǎn)課題。
由于海上船舶航跡數(shù)據(jù)無典型的相似性,難以正確選擇樣本進(jìn)行標(biāo)注,因此本論文采用無需標(biāo)注數(shù)據(jù)的非監(jiān)督學(xué)習(xí)聚類方法,對船舶歷史軌跡進(jìn)行聚類,并生成航行規(guī)則模型。針對船舶運(yùn)動(dòng)建模,通常有基于軌跡點(diǎn)和基于軌跡段兩種。本課題采用基于軌跡段的方式。該方法首先依據(jù)輪廓將船舶航跡分成線段,獲取航跡點(diǎn)數(shù)量不等的軌跡線段集合。在每個(gè)線段中,采用起始點(diǎn)、結(jié)束點(diǎn)的運(yùn)動(dòng)狀態(tài)(位置、航向、航速)及變化描述船舶的運(yùn)動(dòng)特征。線段的集合作為密度空間聚類算法(DBSCAN)的輸入。DBSCAN 將集合中的所有點(diǎn)分為核心點(diǎn)、邊界點(diǎn)和噪聲點(diǎn),判斷一個(gè)數(shù)據(jù)點(diǎn)是何種類型主要由算法中的兩個(gè)參數(shù)ε、Min Pts。ε 確定對象的領(lǐng)域范圍大小的半徑,Min Pts是設(shè)定的閾值[3]。
基于線段的密度空間聚類算法原理如下:假定數(shù)據(jù)集Li、Lj、Lk為數(shù)據(jù)集D中的單條線段。
(1)ε-鄰域集Nε:Nε(Li)為Li在數(shù)據(jù)集D 內(nèi)所有與Li距離小于領(lǐng)域范圍ε的數(shù)據(jù)集合。
(2)核心線段;給定數(shù)值參數(shù)ε、Min Pts,若Nε(Li)中的數(shù)據(jù)量大于等于Min Pts,則認(rèn)為Li為核心線段。
(3)直接密度可達(dá);給定數(shù)值參數(shù)ε、Min Pts,若Lj為核心線段,Li在它的ε-鄰域集當(dāng)中,則認(rèn)為Li從Lj直接密度可達(dá)。
(4)密度可達(dá):給定數(shù)值參數(shù)ε、Min Pts,若從Li到Lk直接密度可達(dá),從Lk到Lj也直接密度可達(dá),則認(rèn)為Li到Lj密度可達(dá)。
(5)密度相連:給定數(shù)值參數(shù)ε、Min Pts 若存在Lk,Li與Lj同時(shí)從Lk密度可達(dá),則認(rèn)為Li與Lj互相密度相連。
(6)噪聲:給定數(shù)值參數(shù)ε、Min Pts,若Li與數(shù)據(jù)集D內(nèi)所有數(shù)據(jù)都不密度相連,則認(rèn)為Li為噪聲。
訓(xùn)練數(shù)據(jù)是大量歷史航跡點(diǎn),其中包含了正常航跡點(diǎn)和部分的異常航跡。本項(xiàng)目使用非監(jiān)督聚類的方法,將航跡聚類,挖掘航跡線段間的關(guān)聯(lián),剔除異常信息,針對聚類后數(shù)據(jù)進(jìn)行網(wǎng)格訓(xùn)練,生成網(wǎng)格區(qū)域的航向和航速特征。
3.1 數(shù)據(jù)預(yù)處理 數(shù)據(jù)預(yù)處理主要是為了剔除數(shù)據(jù)中的無效數(shù)據(jù),避免異常值產(chǎn)生的偏差。數(shù)據(jù)預(yù)處理首先將歷史數(shù)據(jù)按照船舶類型進(jìn)行分類,接著去除速度、位置、方向異常值;然后對航跡點(diǎn)位置進(jìn)行坐標(biāo)變換;最后對目標(biāo)的航跡進(jìn)行關(guān)鍵點(diǎn)進(jìn)行提取,進(jìn)行航跡抽稀處理。
3.2 航跡聚類 對預(yù)處理后的航跡數(shù)據(jù)進(jìn)行聚類分析,目的是為了提取航跡中具有相似特性的航跡集,剔除離群的航跡。本文使用基于線段的密度空間聚類算法。根據(jù)數(shù)據(jù)中發(fā)現(xiàn)的描述對象及其關(guān)系的信息,將數(shù)據(jù)對象分組。其目標(biāo)是組內(nèi)的對象相互之間相似,而不同組中的對象不相似。針對不同類型的目標(biāo)航跡需要單獨(dú)訓(xùn)練相關(guān)屬性,并且從歷史數(shù)據(jù)中剔除異常數(shù)據(jù)。
3.3 區(qū)域網(wǎng)格化 區(qū)域網(wǎng)格化將海上區(qū)域劃分為指定區(qū)域大小的位置網(wǎng)格,分別訓(xùn)練每個(gè)網(wǎng)格中航跡點(diǎn)總數(shù)、方向、速度的規(guī)則模型。
3.4 航線規(guī)則訓(xùn)練生成 位置模型訓(xùn)練的是從歷史數(shù)據(jù)中提取船舶位置規(guī)律,學(xué)習(xí)各類型艦船主要去的區(qū)域。具體方法是統(tǒng)計(jì)在網(wǎng)格化區(qū)域中的各個(gè)區(qū)域通過的船舶數(shù)量,因?yàn)榇昂铰方?jīng)過的網(wǎng)格會有大量歷史航跡點(diǎn),而非正常線路的歷史航跡點(diǎn)很少或沒有。位置模型可輔助支持對船舶航行異常區(qū)域行為的監(jiān)測。
速度模型訓(xùn)練的是從歷史數(shù)據(jù)中提取船舶速度規(guī)律,學(xué)習(xí)各艘船舶在不同區(qū)域的速度分布。具體方法是通過統(tǒng)計(jì)直方圖和箱型圖來統(tǒng)計(jì)區(qū)域網(wǎng)格內(nèi)的最大和最小速度分布。速度模型可以為船舶速度異常、疑似漂航行為提供支持。
方向模型訓(xùn)練是從歷史數(shù)據(jù)中提取船舶在各位置的航向規(guī)律,學(xué)習(xí)各航道各艘船舶在不同區(qū)域的正常航向范圍,方向模型可以為船舶偏離航線行為提供支持。
本文提出一種基于非監(jiān)督學(xué)習(xí)的海上目標(biāo)行為分析方法,利用目標(biāo)航跡的模擬數(shù)據(jù),進(jìn)行航道聚類,挖掘航跡線段間的關(guān)聯(lián),剔除異常信息,針對聚類后數(shù)據(jù)進(jìn)行網(wǎng)格訓(xùn)練,生成網(wǎng)格區(qū)域的航向和航速特征,針對實(shí)時(shí)航跡數(shù)據(jù),進(jìn)行對船舶行為進(jìn)行監(jiān)測。
通過試驗(yàn),模擬2000批目標(biāo)進(jìn)行實(shí)時(shí)檢測,對航行異常區(qū)域行為的發(fā)現(xiàn)率是90%,對船舶速度異常的發(fā)現(xiàn)率是92%,對船舶偏離航線行為的發(fā)現(xiàn)率是95%。
當(dāng)前系統(tǒng)主要靠人工設(shè)定規(guī)則和指揮員經(jīng)驗(yàn)來發(fā)現(xiàn)船舶的異常行為,過程比較復(fù)雜且與船舶實(shí)際航行規(guī)律存在偏差,誤報(bào)警過多,且容易遺漏船舶異常行為。本論文將機(jī)器學(xué)習(xí)方法應(yīng)用到海上目標(biāo)行為分析中,可以改進(jìn)系統(tǒng)自動(dòng)對船舶異常行為監(jiān)控能力,提升系統(tǒng)的自動(dòng)化和智能化水平。