葉仁道+黃靚瑩
【摘 要】 為獲取船舶停泊行為規(guī)律,以大連港、天津港、青島港、德國(guó)羅斯托克港、巴西桑托斯港和荷蘭格羅寧根港等全球六大港口水域?yàn)槔?,基于Hive數(shù)據(jù)倉(cāng)庫(kù)和R語(yǔ)言平臺(tái),利用網(wǎng)格化DBSCAN算法,提取船舶在各港口水域停泊點(diǎn)位置、面積等信息,進(jìn)而基于停泊點(diǎn)可視化結(jié)果,驗(yàn)證這六大港口實(shí)時(shí)可視化結(jié)果與基于歷史數(shù)據(jù)挖掘結(jié)果相符。研究成果有助于保障港口水域船舶安全通航,亦為船舶交通管理系統(tǒng)智能化奠定基礎(chǔ),從而推動(dòng)港口行業(yè)持續(xù)、健康發(fā)展。
【關(guān)鍵詞】 船舶自動(dòng)識(shí)別系統(tǒng)(AIS);數(shù)據(jù)挖掘技術(shù);Hive數(shù)據(jù)倉(cāng)庫(kù);網(wǎng)格化;空間密度聚類(DBSCAN)
0 引 言
港口作為海上交通樞紐及實(shí)現(xiàn)對(duì)外貿(mào)易往來的窗口,在促進(jìn)地區(qū)經(jīng)濟(jì)發(fā)展方面起著重要作用。在世界經(jīng)濟(jì)全球化的今天,國(guó)際貿(mào)易量增長(zhǎng)促進(jìn)了港口行業(yè)的快速發(fā)展。在此背景下,加快港口水域船舶通航安全建設(shè)迫在眉睫,挖掘停泊點(diǎn)信息對(duì)于提高船舶安全通航至關(guān)重要。
借助數(shù)據(jù)挖掘技術(shù)和船舶自動(dòng)識(shí)別系統(tǒng)(AIS),可對(duì)港口水域AIS數(shù)據(jù)進(jìn)行深入數(shù)據(jù)挖掘,以獲取船舶停泊行為規(guī)律。在船舶通航安全研究方面,現(xiàn)有研究較多考慮船舶交通流特征來分析船舶通航規(guī)律[1-2],未考慮停泊點(diǎn)作為港口水域運(yùn)輸樞紐在安全通航管理中的重要性。鑒于此,本文基于Hive數(shù)據(jù)倉(cāng)庫(kù)和R語(yǔ)言平臺(tái),結(jié)合港口水域船舶交通特征和網(wǎng)格化具有噪聲的空間密度聚類(DBSCAN)法,對(duì)大連港、天津港、青島港、德國(guó)羅斯托克港、巴西桑托斯港和荷蘭格羅寧根港等全球六大港口水域的停泊點(diǎn)位置、面積等信息進(jìn)行數(shù)據(jù)挖掘,進(jìn)而基于動(dòng)態(tài)船舶地圖上的停泊點(diǎn)可視化,從停泊點(diǎn)面積、經(jīng)緯度偏差兩個(gè)方面,對(duì)比這六大港口實(shí)時(shí)可視化停泊點(diǎn)位置與歷史數(shù)據(jù)挖掘結(jié)果比對(duì),驗(yàn)證本文研究方法的有效性、合理性。
1 六大港水域船舶交通情況
船舶停泊點(diǎn)包括港口和錨地,其中:港口是船舶安全往來的運(yùn)輸樞紐,在國(guó)際貿(mào)易和運(yùn)輸系統(tǒng)中發(fā)揮著重要作用;錨地是船舶??坎次磺暗暮虿磮?chǎng)所,其大小在一定程度上影響船舶通航安全。[3] 因此,本文以全球具代表性的大連港、天津港、青島港、德國(guó)羅斯托克港、巴西桑托斯港和荷蘭格羅寧根港等六大港為例,利用AIS數(shù)據(jù),對(duì)港口水域船舶停泊點(diǎn)進(jìn)行數(shù)據(jù)挖掘。六大港口水域經(jīng)緯度范圍見表1,經(jīng)緯度選取均在為提高數(shù)據(jù)利用率和算法運(yùn)行效率,對(duì)六大港口水域AIS動(dòng)態(tài)數(shù)據(jù)進(jìn)行以下預(yù)處理:首先,從Hive數(shù)據(jù)倉(cāng)庫(kù)中導(dǎo)出2015年1月1日―5月31日數(shù)據(jù),利用R語(yǔ)言平臺(tái)進(jìn)行數(shù)據(jù)清理,包括去除重復(fù)及異常數(shù)據(jù);其次,基于船舶在停泊點(diǎn)附近具有船速趨于零的特征,篩選出船速等于零的AIS觀測(cè)數(shù)據(jù)。各港口水域船舶觀測(cè)量見表2,其中:天津港船舶觀測(cè)量最多,累計(jì)達(dá)26 661 494艘次;桑托斯港船舶觀測(cè)量最少,累計(jì)達(dá)1 952 459艘次。
2 船舶停泊點(diǎn)數(shù)據(jù)挖掘算法及步驟
基于網(wǎng)格化的劃分構(gòu)造了一個(gè)全新的獨(dú)立數(shù)據(jù)空間,將大量原始數(shù)據(jù)點(diǎn)放進(jìn)具有經(jīng)緯度范圍屬性的網(wǎng)格單元中,從而減少聚類對(duì)象以及降低噪聲。DBSCAN算法可以過濾低密度區(qū)域,發(fā)現(xiàn)稠密度樣本區(qū)域,因此將網(wǎng)格劃分法與DBSCAN算法相結(jié)合,提出船舶停泊點(diǎn)數(shù)據(jù)挖掘的思路和方法。
利用Hive數(shù)據(jù)倉(cāng)庫(kù)和R語(yǔ)言平臺(tái),建立基于網(wǎng)格化的DBSCAN算法,從船舶停泊行為角度數(shù)據(jù)挖掘分析船舶交通行為,分析海上船舶停泊點(diǎn),具體步驟如下:
步驟1:針對(duì)清理后的AIS數(shù)據(jù),將經(jīng)緯度進(jìn)行網(wǎng)格化操作。選定港口水域經(jīng)緯度范圍均為00*100個(gè)網(wǎng)格。
步驟2:統(tǒng)計(jì)每個(gè)網(wǎng)格內(nèi)的船舶數(shù)、航行速度、船舶停泊時(shí)間等信息,其中,若一艘船舶在同一個(gè)網(wǎng)格內(nèi)出現(xiàn)的天數(shù)為n,則記船舶數(shù)為n。
步驟3:設(shè)定網(wǎng)格單元船舶數(shù)閾值,對(duì)網(wǎng)格進(jìn)行篩選。當(dāng)網(wǎng)格內(nèi)船舶數(shù)低于150艘時(shí),不予保存。
步驟4:針對(duì)篩選后的網(wǎng)格,利用DBSCAN算法進(jìn)行聚類,得到若干分類簇作為停泊點(diǎn),密度聚類半徑參數(shù)設(shè)定為0.02,最小目標(biāo)數(shù)為3。
步驟5:基于DBSCAN結(jié)果,統(tǒng)計(jì)各分類的位置信息和船舶信息,并將數(shù)據(jù)挖掘結(jié)果與動(dòng)態(tài)船舶地圖上的停泊點(diǎn)參照位置(Marine Traffic網(wǎng)站港口標(biāo)識(shí)位置)進(jìn)行比對(duì),驗(yàn)證研究方法的正確性和有效性。
3 實(shí)證分析
3.1 國(guó)內(nèi)三大港口停泊點(diǎn)數(shù)據(jù)挖掘結(jié)果
基于網(wǎng)格化DBSCAN算法,挖掘大連港、天津港、青島港國(guó)內(nèi)三大港口水域的停泊點(diǎn)數(shù)據(jù),分別挖掘出停泊點(diǎn)4個(gè)、5個(gè)和4個(gè),詳情見表3。
驗(yàn)證結(jié)果如下:
(1)大連港水域1~4號(hào)停泊點(diǎn)的面積分別為3.23 km2、56.70 km2、27.00 km2和54.40 km2,停泊點(diǎn)的船舶艘數(shù)分別為、、和,其中2號(hào)停泊點(diǎn)的面積和船舶艘數(shù)均為最大,1號(hào)停泊點(diǎn)的面積和船舶艘數(shù)均最小。通過比較停泊點(diǎn)的面積和停泊點(diǎn)的船舶艘數(shù),認(rèn)為運(yùn)用DBSCAN算法所得的大連港停泊點(diǎn)面積大小與實(shí)際情況相符,進(jìn)而將數(shù)據(jù)挖掘所得停泊點(diǎn)中心位置坐標(biāo)與參照位置坐標(biāo)進(jìn)行對(duì)比,經(jīng)度和緯度誤差均在1 km內(nèi),這證明大連港停泊點(diǎn)數(shù)據(jù)挖掘結(jié)果是合理的。
(2)天津港水域1~5號(hào)停泊點(diǎn)的面積分別為5.10 km2、208.00 km2、21.00 km2、36.00 km2和6.00 km2,停泊點(diǎn)的船舶艘數(shù)分別為、、、和562;青島港水域1~4號(hào)停泊點(diǎn)的面積分別為4.90 km2、117.00 km2、23.56 km2和11.20 km2,停泊點(diǎn)的船舶艘數(shù)分別為、、和。比較停泊點(diǎn)的面積和停泊點(diǎn)的船舶艘數(shù),運(yùn)用DBSCAN算法所得的天津港和青島港停泊點(diǎn)面積大小與實(shí)際情況同樣相符,進(jìn)而比較中心位置坐標(biāo)與參照位置坐標(biāo),經(jīng)緯度誤差均在可接受范圍內(nèi),這證明天津港和青島港的停泊點(diǎn)數(shù)據(jù)挖掘結(jié)果同樣合理。
以動(dòng)態(tài)船舶地圖將停泊點(diǎn)數(shù)據(jù)挖掘結(jié)果進(jìn)行可視化,進(jìn)一步驗(yàn)證網(wǎng)格化DBSCAN結(jié)果的合理性。大連、天津、青島這三大港口停泊點(diǎn)可視化結(jié)果見圖1,從左至右分別為大連港、天津港、青島港,其中:紅色大矩形圈定本文研究水域范圍內(nèi)的實(shí)時(shí)動(dòng)態(tài)船舶地圖;紅色數(shù)字代表挖掘所得停泊點(diǎn)的中心位置;黃色標(biāo)志代表港口所在位置;標(biāo)志代表處于在航狀態(tài)的船舶,不同顏色對(duì)應(yīng)不同類型船舶;菱形標(biāo)志代表處于停泊狀態(tài)的船舶。endprint
基于歷史AIS數(shù)據(jù)挖掘所得停泊點(diǎn)(數(shù)字標(biāo)識(shí)區(qū)域)基本上覆蓋大連、天津、青島這三大港口水域范圍的實(shí)際停泊點(diǎn)(菱形標(biāo)志密集區(qū)域)。天津港停泊點(diǎn)可視化結(jié)果表明,2號(hào)停泊點(diǎn)的??看皵?shù)最多且覆蓋面積最大,1號(hào)停泊點(diǎn)的??看皵?shù)最少且覆蓋面積最小,這與表3分析結(jié)果完全一致;同理,大連港和青島港的停泊點(diǎn)可視化結(jié)果與表3分析結(jié)果同樣一致,這說明大連、天津、青島等國(guó)內(nèi)三大港口水域停泊點(diǎn)的實(shí)時(shí)可視化結(jié)果與基于歷史AIS數(shù)據(jù)挖掘結(jié)果相符。
3.2 國(guó)外港口停泊點(diǎn)數(shù)據(jù)挖掘結(jié)果
選擇對(duì)德國(guó)羅斯托克港、巴西桑托斯港、荷蘭格羅寧根港等3個(gè)國(guó)外港水域進(jìn)行停泊點(diǎn)數(shù)據(jù)挖掘分析,得出3個(gè)國(guó)外港口水域的停泊點(diǎn)分別是2個(gè)、1個(gè)和6個(gè),詳情見表4。
驗(yàn)證結(jié)果如下:
(1)羅斯托克港水域1號(hào)和2號(hào)停泊點(diǎn)的面積分別為52.38 km2和7.80 km2,停泊點(diǎn)的船舶艘數(shù)分別為和475,其中1號(hào)停泊點(diǎn)的面積和船舶艘數(shù)均大于2號(hào)。通過比較停泊點(diǎn)的面積和停泊點(diǎn)的船舶數(shù),運(yùn)用DBSCAN算法所得的羅斯托克港停泊點(diǎn)面積大小與實(shí)際情況相符,將數(shù)據(jù)挖掘所得的停泊點(diǎn)中心位置坐標(biāo)與參照坐標(biāo)進(jìn)行對(duì)比,結(jié)果表明:1號(hào)停泊點(diǎn)的2個(gè)坐標(biāo)非常接近,而2號(hào)停泊點(diǎn)的中心位置坐標(biāo)與參照坐標(biāo)之間存在偏差。出現(xiàn)偏差的原因一方面與網(wǎng)頁(yè)停泊點(diǎn)參考坐標(biāo)信息的實(shí)時(shí)性相關(guān),另一方面與該水域AIS船舶數(shù)據(jù)樣本量少且不完整有關(guān)。總體而言,羅斯托克港數(shù)據(jù)挖掘結(jié)果較為合理。
(2)桑托斯港水域數(shù)據(jù)挖掘得出1個(gè)停泊點(diǎn),面積為69.70 km2,船舶數(shù)為艘;格羅寧根港水域1~6號(hào)停泊點(diǎn)面積分別為3.15 km2、23.20 km2、1.80 km2、2.09 km2、8.74 km2和24.00 km2,船舶艘數(shù)分別為、、668、、和。對(duì)比停泊點(diǎn)面積和船舶艘數(shù),運(yùn)用DBSCAN算法所得的格羅寧根港停泊點(diǎn)面積大小與實(shí)際情況相符,將數(shù)據(jù)挖掘所得停泊點(diǎn)中心位置坐標(biāo)與參照坐標(biāo)進(jìn)行對(duì)比,結(jié)果表明經(jīng)緯度誤差均在1 km內(nèi)――桑托斯港和格羅寧根港停泊點(diǎn)數(shù)據(jù)挖掘結(jié)果同樣合理。
對(duì)停泊點(diǎn)數(shù)據(jù)挖掘結(jié)果進(jìn)行可視化,這3個(gè)港口停泊點(diǎn)可視化結(jié)果見圖2(從左至右分別為羅斯托克港、桑托港、格羅寧根港)。類比國(guó)內(nèi)港口停泊點(diǎn)可視化分析過程,得到如下結(jié)論:這3個(gè)國(guó)外港口水域停泊點(diǎn)的實(shí)時(shí)可視化結(jié)果與基于歷史AIS數(shù)據(jù)挖掘的結(jié)果一致。
參考文獻(xiàn):
[1] 潘家財(cái),邵哲平,姜青山.數(shù)據(jù)挖掘在海上交通特征分析中的應(yīng)用研究[J].中國(guó)航海,2010(2):60-62.
[2] 朱飛祥,張英俊,高宗江.基于數(shù)據(jù)挖掘的船舶行為研究[J].中國(guó)航海,2012,(2):50-54.
[3] 郭曉清,黃建設(shè).廈門港與我國(guó)主要港口競(jìng)爭(zhēng)力的比較分析[J].中國(guó)航海,2015(4):121-124.endprint