常吉亮 謝 磊 魏志威 楊 洋 趙建偉
(武漢理工大學(xué)國(guó)家水運(yùn)安全工程技術(shù)研究中心1) 武漢 430063)(武漢理工大學(xué)船海與能源動(dòng)力工程學(xué)院2) 武漢 430063) (中國(guó)船舶工業(yè)綜合技術(shù)經(jīng)濟(jì)研究院3) 北京 100081)
船舶自動(dòng)識(shí)別系統(tǒng)(automatic identification system,AIS)是一種開放式數(shù)據(jù)傳輸系統(tǒng),廣泛應(yīng)用在船舶交通信息采集與分析[1-2]、船舶航行監(jiān)測(cè)[3]以及水上交通規(guī)劃[4]等領(lǐng)域.通過AIS收集到的船舶軌跡數(shù)據(jù)具有海量性、地理范圍大等優(yōu)點(diǎn),但數(shù)據(jù)時(shí)間間隔過大、質(zhì)量不高,給船舶軌跡分類帶來挑戰(zhàn).
目前船舶軌跡分類的具體應(yīng)用場(chǎng)景包括船舶類型識(shí)別和船舶運(yùn)動(dòng)模式識(shí)別,其實(shí)現(xiàn)過程包括船舶軌跡特征提取和軌跡分類模型構(gòu)建.Chen等[5]基于稀疏表示分類算法實(shí)現(xiàn)了對(duì)AIS船舶軌跡的分類,該方法以稀疏表示捕捉船舶軌跡的特征,但忽視了船舶軌跡的空間特征.Kraus等[6]通過對(duì)船舶軌跡的地理特征(航行路線、停留區(qū)等)和行為特征(航向、航速等)的提取,利用隨機(jī)森林算法實(shí)現(xiàn)了對(duì)船舶類型的分類,但是特征提取過程過于繁瑣.Sánchez等[7]基于AIS船舶軌跡,使用SVM和決策樹實(shí)現(xiàn)是否為漁船的二分類問題,但SVM和決策樹模型還有提升的空間.Sheng等[8]將船舶軌跡分為錨泊、直行、轉(zhuǎn)向三種運(yùn)動(dòng)模式,根據(jù)航速、航向等因素,提取三種模式行為特征,以邏輯回歸為模型建立船舶軌跡特征分類模型,同樣欠缺對(duì)船舶軌跡空間特征的考慮.崔彤彤等[9]將LSTM與CNN結(jié)合,建立了一種混合分類模型,使用航速、加速度、航首向和曲率為特征,以特征向量為模型輸入,輸出為船舶種類.該方法利用了CNN提取軌跡數(shù)據(jù)的空間特征,利用LSTM提取軌跡數(shù)據(jù)的時(shí)序性特征.因?yàn)榇败壽E數(shù)據(jù)屬于空間性數(shù)據(jù),文中在研究工作中又參考了部分針對(duì)軌跡圖像分類的方法,Chen等[10]將船舶軌跡數(shù)據(jù)轉(zhuǎn)化為船舶軌跡圖像數(shù)據(jù),根據(jù)航向變化對(duì)每條船舶軌跡的運(yùn)動(dòng)模式進(jìn)行劃分,以紅綠藍(lán)三種顏色表示船舶軌跡的三種運(yùn)動(dòng)模式,建立CNN-SMMC卷積神經(jīng)網(wǎng)絡(luò),實(shí)現(xiàn)對(duì)船舶軌跡不同運(yùn)動(dòng)模式的分類.
上述研究在采用有監(jiān)督算法進(jìn)行船舶軌跡分類時(shí),對(duì)船舶軌跡空間特征信息利用較少,并且在船舶軌跡航向、航速等特征提取過程過于繁瑣.為克服上述不足,文中以船舶軌跡圖像為數(shù)據(jù)基礎(chǔ),提出一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的船舶軌跡分類方法.在方法實(shí)現(xiàn)過程中,考慮到單純的經(jīng)緯度數(shù)據(jù)難以準(zhǔn)確的描述軌跡的空間特征,故結(jié)合船舶軌跡的位置信息,將船舶軌跡數(shù)據(jù)轉(zhuǎn)換為船舶軌跡圖像數(shù)據(jù).發(fā)揮深度卷積神經(jīng)網(wǎng)絡(luò)在空間數(shù)據(jù)特征提取的優(yōu)勢(shì)[11-12],建立了船舶軌跡分類模型,開展網(wǎng)絡(luò)訓(xùn)練.選取全連接神經(jīng)網(wǎng)絡(luò)模型和多類別SVM模型作為對(duì)照,與文中方法進(jìn)行對(duì)比分析.
文中選取了2019年1月—3月的美國(guó)沿海AIS船舶交通數(shù)據(jù)開展算法研究和驗(yàn)證(https://marinecadastre.gov/ais/),該數(shù)據(jù)集包括2 229條不同的船舶,263 149個(gè)軌跡點(diǎn).選取的分析水域位于北緯48°54′7.28″~49°3′44.28″,西經(jīng)123°1′43.33″~123°25′2.71″,在美國(guó)察華遜卑詩(shī)渡輪碼頭附近,圖1為分析水域的電子地圖和電子海圖.
圖1 分析水域的電子地圖和電子海圖
針對(duì)該水域的電子海圖進(jìn)行分析,發(fā)現(xiàn)其包含四條傳統(tǒng)航道,以2019年1月的真實(shí)船舶軌跡為基礎(chǔ)繪制交通流密度圖,可以發(fā)現(xiàn):真實(shí)船舶軌跡的可視化結(jié)果與電子海圖中的傳統(tǒng)航道結(jié)果基本一致,只是多出了一條由碼頭對(duì)岸向北延伸的航線.因此,本文將該水域的船舶軌跡分為五類,分別對(duì)應(yīng)四條傳統(tǒng)航道和一條非傳統(tǒng)航道,并在數(shù)據(jù)集的人工標(biāo)注中以此為依據(jù).圖2為分析水域所包含的航道及其交通流密度圖.
圖2 分析水域包含的航道及其交通流密度圖
船舶軌跡預(yù)處理的主要工作是無(wú)效軌跡剔除.無(wú)效軌跡剔除通常是基于時(shí)間間隔和船舶速度變化的,表1為其處理步驟的偽代碼,表2為船舶軌跡預(yù)處理的閾值參數(shù)設(shè)置,表3為船舶軌跡預(yù)處理之后的統(tǒng)計(jì)結(jié)果.
表1 無(wú)效軌跡剔除處理步驟的偽代碼
表2 船舶軌跡預(yù)處理的閾值參數(shù)設(shè)置
表3 船舶軌跡預(yù)處理之后的統(tǒng)計(jì)結(jié)果
將分析水域視為一個(gè)矩形區(qū)域,計(jì)算其長(zhǎng)寬比并確定圖像分辨率.文中使用Haversine公式計(jì)算兩經(jīng)緯度坐標(biāo)點(diǎn)之間的距離,見式(1).R為地球半徑,可取平均值為6 371 km;φ1、φ2為兩點(diǎn)的緯度;Δλ為兩點(diǎn)經(jīng)度的差值.經(jīng)過計(jì)算,選取的分析水域長(zhǎng)度為28.41 km,寬度為17.82 km,長(zhǎng)寬比近似比例為14∶9.
cos(φ1)cos(φ2)haversin(Δλ)haversin(θ)=
(1)
將分析水域映射成一個(gè)具有同樣長(zhǎng)寬比的矩形圖像,其分辨率設(shè)置為112×72.映射后,緯度取值范圍[49.06,48.90]被轉(zhuǎn)換至像素取值范圍[0,71],經(jīng)度取值范圍[-123.42,-123.03]被轉(zhuǎn)換至像素取值范圍[0,111],即:映射后的矩形圖像,其左上點(diǎn)像素坐標(biāo)(0,0)對(duì)應(yīng)了經(jīng)緯度坐標(biāo)(-123.42,49.06),右下點(diǎn)像素坐標(biāo)(111,71)對(duì)應(yīng)了經(jīng)緯度坐標(biāo)(-123.03,48.90).
按照2.1所給出的映射關(guān)系,對(duì)預(yù)處理后的船舶軌跡經(jīng)緯度數(shù)據(jù)進(jìn)行轉(zhuǎn)換,以得到船舶軌跡的圖像數(shù)據(jù).在1.1的航道分析結(jié)果中,已確定船舶軌跡的種類一共有五種,因此船舶軌跡的標(biāo)簽取值范圍為:0、1、2、3、4,分別對(duì)應(yīng)上述五種船舶軌跡種類.圖3為一些代表性的船舶軌跡數(shù)據(jù)集,其中,左邊為船舶軌跡所屬航道類簇,右邊為對(duì)應(yīng)的船舶軌跡數(shù)據(jù).具體的數(shù)據(jù)集詳細(xì)信息以及訓(xùn)練集和測(cè)試集的劃分見表4.
表4 船舶軌跡數(shù)據(jù)集詳細(xì)信息
圖3 代表性的船舶軌跡數(shù)據(jù)集
基于殘差網(wǎng)絡(luò)構(gòu)建了船舶軌跡分類網(wǎng)絡(luò)模型[13].船舶軌跡分類網(wǎng)絡(luò)模型所采用的殘差網(wǎng)絡(luò)子結(jié)構(gòu)件見圖4.其具有三個(gè)特點(diǎn):①它直接將輸入加到經(jīng)過卷積操作得到的輸出上,這樣可以避免梯度消失的問題,并且可以捕捉到很小的擾動(dòng);②它的首末兩端使用1×1的卷積,分別減少和恢復(fù)數(shù)據(jù)維度,這兩種結(jié)構(gòu)的時(shí)間復(fù)雜度相似,但卻加深了網(wǎng)絡(luò)層數(shù)和結(jié)構(gòu)數(shù)量,解決了網(wǎng)絡(luò)退化和訓(xùn)練過程性能提升慢的問題;③它全部采用3×3和1×1的小尺寸卷積核,并且使用到了Batch Normalization技術(shù).
圖4 殘差網(wǎng)絡(luò)子結(jié)構(gòu)圖
船舶軌跡分類網(wǎng)絡(luò)結(jié)構(gòu)見表5.該結(jié)構(gòu)由五個(gè)卷積塊依次堆疊而成,每一個(gè)卷積塊中都包含圖4的殘差結(jié)構(gòu)網(wǎng)絡(luò)子結(jié)構(gòu),不同卷積塊中的殘差結(jié)構(gòu)網(wǎng)絡(luò)子結(jié)構(gòu)具有不同的卷積核數(shù)目.
表5 船舶軌跡分類網(wǎng)絡(luò)結(jié)構(gòu)表
船舶軌跡分類網(wǎng)絡(luò)模型的輸入層維度參數(shù)設(shè)置為112×72×3,Mini Batch Size設(shè)置為64,輸出層類別設(shè)置為5,具體的參數(shù)設(shè)置見表6.
表6 船舶軌跡分類網(wǎng)絡(luò)參數(shù)
對(duì)于多分類問題,使用交叉熵為損失函數(shù)(Categorical_crossentropy),并配合Softmax激活函數(shù)進(jìn)行使用.交叉熵的損失函數(shù)E的定義為
(2)
圖5為訓(xùn)練過程中的loss值的變化情況.隨著訓(xùn)練次數(shù)的增加,模型對(duì)訓(xùn)練集中的驗(yàn)證數(shù)據(jù)的分類準(zhǔn)確率迅速上升,在迭代次數(shù)達(dá)到7次以后,準(zhǔn)確率維持在98.90%附近,同樣說明模型已經(jīng)具備有效的分類能力,圖6為訓(xùn)練過程中驗(yàn)證數(shù)據(jù)的分類準(zhǔn)確率.
圖5 訓(xùn)練期間loss值變化曲線圖
圖6 針對(duì)驗(yàn)證數(shù)據(jù)的分類準(zhǔn)確率變化曲線圖
表7為測(cè)試集分類結(jié)果的混淆矩陣,其中,第一類、第二類和第三類的分類準(zhǔn)確率為100%,第四類和第五類的334個(gè)樣本中,出現(xiàn)了兩個(gè)誤識(shí)別樣本.圖7為分析水域內(nèi)第四類和第五類船舶軌跡的對(duì)照?qǐng)D,從中可以看出,在第四類和第五類船舶軌跡中,有極少部分船舶沒有行駛在所對(duì)應(yīng)的航道內(nèi),而是在兩個(gè)航道之間的分隔帶內(nèi)航行,這事實(shí)上違反了《船舶定線制的一般規(guī)定》,同時(shí)也導(dǎo)致出現(xiàn)了誤分類船舶軌跡.盡管如此,文中船舶軌跡分類模型仍然在測(cè)試集上取的了99.61%的準(zhǔn)確率,實(shí)現(xiàn)了對(duì)分析水域內(nèi)船舶軌跡類別的準(zhǔn)確分類.
表7 測(cè)試集分類結(jié)果的混淆矩陣
圖7 分析水域內(nèi)第四類和第五類船舶軌跡對(duì)照?qǐng)D
選取以經(jīng)緯度數(shù)據(jù)格式為輸入的全連接神經(jīng)網(wǎng)絡(luò)模型和多類別SVM模型作為對(duì)照,開展對(duì)比分析.全連接神經(jīng)網(wǎng)絡(luò)對(duì)比模型的參數(shù)信息見表8,其中,全連接神經(jīng)網(wǎng)絡(luò)要求數(shù)據(jù)輸入格式統(tǒng)一,所以文中借鑒文獻(xiàn)[5]的方法,利用三次樣條插值,將每條船舶軌跡數(shù)據(jù)采樣為50個(gè)點(diǎn).
表8 全連接神經(jīng)網(wǎng)絡(luò)對(duì)比模型的參數(shù)信息
參與對(duì)比的全連接神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)格式為50×2的數(shù)組,其中2為船舶軌跡數(shù)據(jù)的經(jīng)度和緯度,50為每條軌跡經(jīng)過采樣后的軌跡數(shù)據(jù)長(zhǎng)度.參與對(duì)比的SVM模型的輸入數(shù)據(jù)格式為100×1的數(shù)組,100為將上述50×2的數(shù)據(jù)扁平化的結(jié)果,核函數(shù)為RBF.所有模型均進(jìn)行了十折交叉驗(yàn)證.圖8為三種模型的十折交叉驗(yàn)證結(jié)果,表9為三種模型十折交叉驗(yàn)證得到的平均準(zhǔn)確率.由實(shí)驗(yàn)對(duì)比結(jié)果可知,文中提出的船舶軌跡分類網(wǎng)絡(luò)模型達(dá)到了98.72%的準(zhǔn)確率,高于全連接神經(jīng)網(wǎng)絡(luò)模型93.53%的準(zhǔn)確率和SVM模型91.73%的準(zhǔn)確率,從而驗(yàn)證了船舶軌跡航道分類模型在船舶軌跡分類性能方面的優(yōu)越性.
圖8 三種模型的十折交叉驗(yàn)證結(jié)果
表9 三種模型十折交叉驗(yàn)證的平均準(zhǔn)確率 單位:%
文中針對(duì)船舶軌跡分類研究中存在的問題,提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的船舶軌跡分類方法.基于AIS數(shù)據(jù)的時(shí)間間隔和船速變化,對(duì)船舶軌跡數(shù)據(jù)進(jìn)行劃分與剔除處理,以得到連續(xù)的、有效的船舶子軌跡;將軌跡經(jīng)緯度數(shù)據(jù)轉(zhuǎn)換為高維軌跡圖像數(shù)據(jù),提取了船舶軌跡的空間特征;基于殘差網(wǎng)絡(luò)原理構(gòu)建了船舶軌跡分類模型,實(shí)現(xiàn)了船舶軌跡分類;將船舶軌跡的經(jīng)緯度數(shù)據(jù)作為輸入,構(gòu)建了全連接神經(jīng)網(wǎng)絡(luò)模型和SVM模型作為對(duì)照模型,與本文提出的模型進(jìn)行對(duì)比實(shí)驗(yàn).實(shí)驗(yàn)結(jié)果顯示:本模型在測(cè)試集上的準(zhǔn)確率為99.61%,十折交叉驗(yàn)證的準(zhǔn)確率為98.72%,高于全連接神經(jīng)網(wǎng)絡(luò)的93.53%和SVM的91.73%.
通過上述對(duì)比結(jié)果可以發(fā)現(xiàn):將船舶軌跡轉(zhuǎn)換成圖像數(shù)據(jù),在保留了其空間特征表達(dá)能力的同時(shí)簡(jiǎn)化了數(shù)據(jù)的特征提取工作,提高了數(shù)據(jù)處理的效率;使用深度卷積神經(jīng)網(wǎng)絡(luò)完成軌跡分類任務(wù),可以充分的利用了軌跡數(shù)據(jù)的空間特征;與全連接神經(jīng)網(wǎng)絡(luò)模型和SVM模型相比,文中提出的方法擁有更高的船舶軌跡分類準(zhǔn)確性.