基于深度學習方法的海上艦船目標檢測

2019-01-30 06:37:00袁明新張麗民朱友帥

艦船科學技術 2019年1期

袁明新，張麗民，朱友帥，姜烽，申燚

(1. 江蘇科技大學機械工程學院，江蘇鎮(zhèn)江 212003；2. 張家港江蘇科技大學產(chǎn)業(yè)技術研究院，江蘇張家港 215600)

0 引言

近年來，水面無人艇作為海上環(huán)境檢測和權益維護的先進工具和武器得到各國的高度重視，并成為國內(nèi)外智能化海洋裝備的研究熱點[1-2]。海上艦船目標檢測識別技術是保證水面無人艇自主運行的核心功能模塊，是實現(xiàn)無人艇自主航行的前提和避障決策控制的重要依據(jù)。該任務的主要難點在于真實海面場景下的艦船目標會因形變、光照及背景等變化而難以檢測。傳統(tǒng)的目標檢測方法，首先通過滑動窗口搜索出圖像中目標可能出現(xiàn)的位置，然后采用SIFT[3]和HOG[4]等特征對圖像中的目標進行特征提取，最后將提取到的目標特征輸入SVM[5]和Adaboost[6]等分類器進行分類識別。對于傳統(tǒng)目標檢測方法，其基于滑動窗口的區(qū)域選擇策略會導致大量冗余窗口及計算耗時。此外，在特征提取階段，SIFT和HOG等特征實際上是一種手工設計的特征。圖像中目標物體的形變、背景、光照、遮擋物及噪聲等因素，使得此類手工設計的特征難以準確描述目標物體。因此，傳統(tǒng)目標檢測方法在實際任務中難以達到足夠的精度。針對以上不足，傳統(tǒng)目標檢測方法也在不斷進行優(yōu)化，最成功的方法是可變形組件模型（deformable parts model，DPM）[7]。DPM采用了基于圖結構的多組件策略，有效解決了目標物體的形變和多視角問題。DPM算法在目標檢測任務上取得了不錯的效果，但DPM算法也存在明顯的弊端：其模型較為復雜，計算量大，且檢測速度較慢。對于目標檢測任務，傳統(tǒng)算法處于瓶頸階段，近些年來一直未取得突破性的進展。

隨著深度學習理論的迅速發(fā)展，目標檢測進入了新階段。與傳統(tǒng)目標檢測方法中手工設計特征的方式不同，通過深度卷積神經(jīng)網(wǎng)絡[8]可以自動提取特征，在大量數(shù)據(jù)進行有監(jiān)督訓練的基礎下，得到的特征具有很強泛化性，對物體形變、背景、光照、遮擋物及噪聲具有一定的魯棒性。文獻[9]提出的R-CNN框架，首次成功將CNN用于目標檢測任務之中。R-CNN采用CNN進行目標特征提取，取代了傳統(tǒng)方法中手工設計特征的方式。在PASCAL VOC2007任務上，R-CNN得到的平均準確率均值（mean average precision，MAP）為66%，相比于DPM的34.3%，提升了近32%。但R-CNN也有著訓練耗時過長、占用磁盤空間過大及檢測速度達不到實時性等缺點。在R-CNN之后，基于深度學習的目標檢測方法得到了迅速發(fā)展?；赗-CNN，出現(xiàn)了 SPP-Net[10]，F(xiàn)ast R-CNN[11]及 Faster R-CNN[12]等典型目標檢測方法。其中Faster R-CNN方法是目前目標檢測領域最主流的方法，其將區(qū)域建議、分類與識別整合為一體，實現(xiàn)了端到端的目標檢測。深度學習中的目標檢測算法存在另一個分支——基于回歸方法的目標檢測，如 YOLO[13]， SSD[14]，YOLO9000[15]等方法。這類方法依據(jù)回歸思想，直接在輸入圖像的多個位置上回歸出所有位置的目標類別和包圍邊框。YOLO等方法是目標檢測中一個新穎的思路，在檢測速度方面有較大優(yōu)勢，但在檢測精度方面不如Faster R-CNN等算法。為此，本文基于卷積神經(jīng)網(wǎng)絡、區(qū)域建議網(wǎng)絡及Fast R-CNN檢測框架構建艦船檢測系統(tǒng)，并依靠海上艦船樣本數(shù)據(jù)集完成系統(tǒng)網(wǎng)絡的訓練，實現(xiàn)了海上艦船目標檢測任務。實驗測試結果表明，該系統(tǒng)在海上艦船目標檢測任務上，具有高檢測準確率和高檢測速率。

1 艦船檢測系統(tǒng)框架

圖1 艦船目標檢測系統(tǒng)整體框架圖Fig. 1 System overall framework of ship target detection

圖1為一艦船目標檢測系統(tǒng)整體框架圖。首先搜集并獲取真實海面場景下的艦船圖像樣本；然后依據(jù)PASCAL VOC2007數(shù)據(jù)集格式制作艦船數(shù)據(jù)集；接著再將艦船圖片輸入共享的CNN網(wǎng)絡。CNN網(wǎng)絡經(jīng)前向傳播得到的特征圖，一方面作為RPN網(wǎng)絡的輸入，得到圖像中存在艦船目標的區(qū)域建議；另一方面作為Fast R-CNN框架的輸入，繼續(xù)前向傳播至其特有卷積層，產(chǎn)生更高維的特征圖。將RPN網(wǎng)絡得到的艦船目標的區(qū)域建議參數(shù)輸入給Fast R-CNN。Fast R-CNN通過其獨有的高維特征圖和RPN輸入的區(qū)域建議，提取出對應于區(qū)域建議的局部特征，并繼續(xù)訓練直到系統(tǒng)網(wǎng)絡收斂，進而得到艦船目標檢測的最終模型，實現(xiàn)艦船目標檢測。

1.1 基于CNN的艦船圖像特征提取

在基于深度學習的目標檢測領域中，特征提取階段最主流的方法是CNN[8]。CNN依據(jù)人類視覺機理中感受野的概念，在常規(guī)神經(jīng)網(wǎng)絡的基礎上，引入卷積、池化等操作，構成了一種局部連接、權值共享的深度神經(jīng)網(wǎng)絡。相比于傳統(tǒng)手工設計特征的方法，通過訓練卷積神經(jīng)網(wǎng)絡可以自動提取特征，在大量訓練數(shù)據(jù)的基礎下，得到具有很強泛化性的特征。圖2為CNN的典型網(wǎng)絡結構圖，即先通過CNN來得到每艘艦船圖像的特征圖，接著繼續(xù)進行該目標檢測系統(tǒng)的訓練及檢測。

圖2 典型卷積神經(jīng)網(wǎng)絡結構圖Fig. 2 Structure of typical convolution neural network

1.2 基于RPN的艦船目標區(qū)域提取

1.2.1 RPN原理

RPN用來產(chǎn)生高質量的區(qū)域建議，其得到區(qū)域建議所需的時間遠低于Selective Search[16]和Edge Boxes[17]等方法。對于任意大小的艦船圖像輸入，RPN輸出圖像中可能存在艦船目標的區(qū)域建議，即一系列標記目標位置的矩形包圍框（位置坐標編碼），且每個矩形包圍框帶有其是否為艦船類別的得分。

圖3為RPN網(wǎng)絡結構示意圖。如圖所示，RPN將共享的CNN得到的特征圖作為輸入。為了生成區(qū)域建議框，用3×3的窗口在該特征圖上進行滑動。每滑動一個特征圖便得到一個1維向量，輸入的特征圖為256維，故最終滑動窗口生成的低維向量為256維。接著，將此低維向量輸入給2個同級的全連接層，即分類層和回歸層。分類層對每個矩形包圍框內(nèi)的物體進行類別判斷，得到其是否為艦船目標的概率；回歸層對矩形包圍框進行邊框回歸，實現(xiàn)位置精修，得到能夠更準確包圍艦船目標的矩形包圍框。最后，將得到了所有區(qū)域建議即矩形包圍邊框的坐標編碼，作為Fast R-CNN框架的輸入，繼續(xù)進行系統(tǒng)的訓練。此外，在每一個滑動窗口的位置，文中以當前滑動窗口中心為中心，采用9種窗口，即3種尺度和3種長寬比。故在每一個滑動窗口位置有k=9種anchor核心，這樣有助于RPN獲得很大尺度范圍內(nèi)的艦船目標。

圖3 區(qū)域建議網(wǎng)絡原理圖Fig. 3 Schematic of regional recommendations network

1.2.2 RPN的訓練

在RPN網(wǎng)絡中，每一個anchor便會得到一個矩形包圍框及類別得分。對于RPN網(wǎng)絡的訓練，文中首先對每一個anchor分配標簽。對以下2種類型的anchor分配正標簽：1）該anchor的矩形包圍框與任一真實邊界包圍框（RPN的訓練為有監(jiān)督訓練，訓練樣本中人工標記出的艦船目標包圍框即為真實邊界包圍框）的交并集之比（IoU，intersection over union）最高；2）該anchor的矩形包圍框與任一真實邊界包圍框的IoU大于0.7。對于與所有真實邊界包圍框，其IoU均低于0.3的anchor分配負標簽。未獲得標簽的anchor均舍棄，不參與RPN的訓練。

本文采用多任務損失目標函數(shù)。對每一艦船圖像的損失函數(shù)定義為：

式中，Lcls為分類損失函數(shù)，由式（2）計算得到。Lreg為回歸損失函數(shù)，由式（3）計算。Ncls為訓練批量的大小，Nreg為區(qū)域建議的數(shù)量。i為anchor的索引值，pi為第i個anchor帶有的類別得分，pi*為第i個anchor的標簽值。若該anchor的標簽為正，則pi*的值為1；若該anchor的標簽為負，則pi*的值為0。ti為第i個anchor得到的矩形包圍框的坐標向量，ti*是當?shù)趇個anchor的標簽為正，與此anchor得到的矩形包圍框相對應的真實邊界包圍框的坐標向量。λ為權重平衡參數(shù)，作為平衡分類損失函數(shù)Lcls和回歸損失Lreg的權重值。

分類損失函數(shù)Lcls的定義為：

回歸損失函數(shù)Lreg的定義為：

式中，R為smoothL1函數(shù)，

綜上，當anchor的標簽為負時，其pi*的值為0，故式（1）第2項整體的值為0。因此，標簽為負的anchor僅有類別損失，沒有回歸損失，不進行邊框回歸。

根據(jù)定義的多任務損失函數(shù)，文中采用隨機梯度下降（stochastic gradient descent，SGD）優(yōu)化算法，通過RPN網(wǎng)絡的有限次迭代來最小化損失函數(shù)，求得最優(yōu)的參數(shù)。最終，RPN對于每艘測試艦船圖片，便可生成最優(yōu)的區(qū)域建議。

1.3 基于Fast R-CNN的艦船目標識別

Fast R-CNN[11]針對R-CNN[9]訓練耗時過長及檢測速度過慢等問題而提出。Fast R-CNN中的感興趣區(qū)域（region of interest，ROI）池化層，可從整幅圖像的特征圖中，提取出對應于ROI的局部特征圖，將此局部特征輸入Softmax分類器，即實現(xiàn)ROI的分類與識別。在Fast R-CNN中，輸入的區(qū)域建議即設為ROI。

Fast R-CNN的缺點在于：它依靠由Selectice Search或Edge Box等方法獲取的目標區(qū)域建議作為整個框架的輸入。Selectice Search或Edge Box等方法為了得到區(qū)域建議時，將花費約1.5 s，極大地影響了Fast R-CNN的檢測速率，故文中用RPN替代Selectice Search及Edge Box等方法，由RPN生成區(qū)域建議，并將獲得的區(qū)域建議作為Fast R-CNN的輸入，繼續(xù)完成Fast RCNN的訓練，即可實現(xiàn)艦船目標的分類與識別。

2 實驗

2.1 艦船檢測數(shù)據(jù)集

目前，在國際上沒有公開的關于真實海面場景下的艦船目標檢測數(shù)據(jù)集，故文中自建了真實海面場景下的艦船目標檢測數(shù)據(jù)集，如表1所示。

表1 海真實面場景下艦船檢測數(shù)據(jù)集Tab. 1 Ship detection data sets under sea real scene

文中數(shù)據(jù)集格式采用PASCAL VOC數(shù)據(jù)集格式，故需將自建的海面場景下的艦船數(shù)據(jù)集轉換為PASCAL VOC2007格式，制作步驟如下：

步驟1 依據(jù)PASCAL VOC2007數(shù)據(jù)集格式，將自建艦船數(shù)據(jù)集中的圖片的較長邊縮放為500，保持原寬高比不變。

步驟2 對經(jīng)上一步驟縮放后的圖片進行篩選，去除經(jīng)縮放后圖中艦船目標分辨率過低的圖片。

步驟3 手工標記每一圖片中所有出現(xiàn)的艦船目標的包圍邊框（即真實邊界包圍框），記錄下每一包圍框的坐標信息（左上角坐標及右下角坐標）。

步驟4 將每一圖片中的所有包圍框的坐標信息、類別信息（文中即艦船類）以及圖片名稱，制作成PASCAL VOC2007數(shù)據(jù)集所需格式的xml文件。

經(jīng)過上述步驟，文中制成的艦船樣本數(shù)據(jù)集包括：Images：1016張/JPG；Labels：1 016個/XML；Bounding Boxes：1 452個/Rectangles。圖4為艦船檢測數(shù)據(jù)集樣例。

2.2 實驗步驟

在文中艦船檢測系統(tǒng)中，RPN負責生成最優(yōu)的區(qū)域建議，后續(xù)的檢測任務則由Fast R-CNN[11]完成。文中采用交替優(yōu)化策略，使得RPN和Fast R-CNN之間在實現(xiàn)共享CNN的情況下，完成艦船檢測系統(tǒng)的訓練，主要包括以下4個步驟：

圖4 艦船檢測數(shù)據(jù)集樣例Fig. 4 Examples of ship detection data set

步驟1 在訓練初始化階段，采用ImageNet[18]預訓練模型進行RPN初始化，接著進行RPN訓練，通過有限次迭代來微調(diào)RPN網(wǎng)絡參數(shù)；

步驟2 將RPN提供的區(qū)域建議作為Fast R-CNN輸入，訓練Fast R-CNN；

步驟3 將Fast R-CNN訓練得到的網(wǎng)絡參數(shù)，重新進行RPN初始化，并再次進行RPN訓練。訓練過程中，保持共享CNN不變，只微調(diào)RPN獨有的層；

步驟4 再一次將RPN得到的區(qū)域建議作為Fast R-CNN輸入，并進行Fast R-CNN訓練。同樣，在訓練過程中，保持共享CNN不變，只微調(diào)Fast R-CNN獨有的層。

通過以上4個步驟，實現(xiàn)網(wǎng)絡參數(shù)地交替訓練。最終，當Fast R-CNN收斂，即完成整個艦船檢測系統(tǒng)的訓練。

文中選擇ZF模型[19]作為共享CNN來提取圖像特征，ZF模型相比于VGG16[20]等其他開源網(wǎng)絡模型更為輕量級，在訓練時間、檢測速度和準確率上能達到很好的平衡。文中將4個訓練步驟的最大迭代次數(shù)分別設為40 000，20 000，40 000及20 000，訓練過程均基于深度學習框架Caffe[21]完成，計算機的具體配置為Intel i3處理器、8 G內(nèi)存、NVIDIA GTX 960顯卡及Ubuntu 14.04操作系統(tǒng)。

2.3 實驗結果與分析

在艦船檢測系統(tǒng)網(wǎng)絡成功訓練后，即可得到最終艦船檢測模型，將待測試艦船圖片輸入最終模型，即可完成檢測，測試結果如圖5所示。

圖5 艦船測試結果Fig. 5 Test results of ships

由圖可以看出，圖中所有的艦船目標都能夠被完整檢測出來，無論是單個艦船目標還是多個艦船目標，目標包圍框都能夠準確框出艦船目標。此外，如前所述，RPN在獲得區(qū)域建議時采用3種不同的大小和長寬比，故文中的艦船檢測系統(tǒng)可獲得很大尺度范圍內(nèi)的艦船目標。從圖5（c）及圖5（d）中可以看出，不管是近景大目標還是遠景小目標，文中的艦船檢測系統(tǒng)都能夠準確的檢測出來，并以相應尺度的包圍框準確地框出艦船目標。

為了進一步驗證文中方法的有效性和優(yōu)越性，文中將檢測結果與傳統(tǒng)的HOG+SVM算法、Fast R-CNN算法及YOLO算法進行對比，檢測結果如表2所示。

表2 算法對比結果Tab. 2 Comparison results among different algorithms

由表2可以看出，首先，傳統(tǒng)機器學習方法HOG+SVM的準確率（mAP）為69.52%，檢測速率為3.1 s/幀，不論是準確率還是檢測速率都沒有達到預期效果。這是因為此類傳統(tǒng)檢測方法需要通過遍歷整個圖像來獲取艦船目標的特征，且需要大量計算，故檢測速率過慢。其次，即便基于大量冗余計算獲取的特征，其69.52%的mAP結果仍然低于其他3種算法。

Fast R-CNN算法相比傳統(tǒng)HOG+SVM算法有了很大改善，其mAP為79.81%，比傳統(tǒng)目標檢測算法高出約10%。但Fast R-CNN的劣勢依然明顯，其檢測速度過慢。因為Fast R-CNN本質上需要依靠Selectice Search或Edge Box等方法來提供區(qū)域建議，僅這一步就將花費約1.5 s，故考慮整個Fast R-CNN框架所耗時間，將達到約2.3 s/幀，無法滿足艦船檢測的實時性要求。

而文中的艦船檢測方法是基于RPN生成區(qū)域建議，并通過Fast R-CNN進行艦船檢測，使得區(qū)域建議的耗時約10 ms，幾乎可以忽略不計，在檢測速度上達到了0.05 s/幀，相比于Fast R-CNN有了極大提高。此外，文中的艦船檢測系統(tǒng)通過RPN生成區(qū)域建議，通過Fast R-CNN框架進行艦船目標檢測，采用了交替優(yōu)化策略進行該系統(tǒng)的訓練，使得艦船目標檢測的mAP從Fast R-CNN的79.81%提高到了83.79%。

此外，文中還選取了當前基于深度學習的目標檢測算法中代表算法——YOLO進行了測試，YOLO算法的mAP為72.60%，檢測速率為0.025 s/幀。由此可以看出，YOLO算法的新穎之處在于：其檢測速率非常高，完全滿足了實時檢測的需要。但其缺點也很明顯，在準確率方面，遠不如Fast R-CNN及文中算法。

綜上所述，文中艦船檢測系統(tǒng)中所采用的RPN結合Fast R-CNN的方法，在檢測精度和檢測速率上都達到了預期要求，取得相對最優(yōu)的平衡。

3 結語

文中依據(jù)Faster R-CNN算法的思想構建艦船目標檢測系統(tǒng)，通過共享的CNN提取艦船圖像的特征，通過RPN獲得高質量的區(qū)域建議，最后通過Fast RCNN框架實現(xiàn)了對艦船目標的檢測。通過自建真實海面場景下的艦船數(shù)據(jù)集來進行系統(tǒng)的訓練。在訓練過程中，通過交替優(yōu)化策略，在實現(xiàn)共享CNN的情況下，完成該艦船目標檢測系統(tǒng)的訓練。對比實驗表明：文中艦船檢測系統(tǒng)在檢測準確率及檢測效率方面都優(yōu)于傳統(tǒng)的機器學習算法，其準確率達到83.79%，檢測速率達到0.05 s/幀。文中的艦船目標檢測系統(tǒng)將基于深度學習的目標檢測方法引入海上艦船目標檢測之中，成功完成水面無人艇的海上艦船目標檢測任務，但該系統(tǒng)在檢測速率方面還有進一步提高的空間，這將是本項目后續(xù)的研究目標。