黃志堅(jiān) 張成 王慰慈
摘要:
為解決船舶圖像與視頻檢測(cè)算法識(shí)別率低、實(shí)時(shí)性差的問題,提出基于回歸深度卷積網(wǎng)絡(luò)的船舶圖像與視頻檢測(cè)方法。結(jié)合YOLOv2特征提取層和YOLOv3的特征金字塔網(wǎng)絡(luò)(feature?pyramid?network,?FPN)?層思想設(shè)計(jì)新的網(wǎng)絡(luò)結(jié)構(gòu),驗(yàn)證不同激活函數(shù)效果,采用聚類算法設(shè)計(jì)錨框大小。實(shí)驗(yàn)表明,相比于YOLO系列網(wǎng)絡(luò),本文的方法在船舶圖像與視頻檢測(cè)中效果更好,在測(cè)試集上平均精度均值為0.920?9,召回率為0.981?8,平均交并比為0.799?1,在視頻檢測(cè)中每秒鐘檢測(cè)的幀數(shù)為78~80。為港口船舶智能管理和無人船視覺處理提供一種準(zhǔn)確度高和實(shí)時(shí)性好的船舶檢測(cè)方法。
關(guān)鍵詞:
船舶檢測(cè);?回歸深度卷積網(wǎng)絡(luò);?YOLO;?港口管理;?無人船
中圖分類號(hào):U675.79文獻(xiàn)標(biāo)志碼:A
收稿日期:?2018-11-07
修回日期:?2019-03-01
基金項(xiàng)目:?國(guó)家自然科學(xué)基金(61403250)
作者簡(jiǎn)介:
黃志堅(jiān)(1979—),男,江西九江人,高級(jí)工程師,博士,研究方向?yàn)榭刂扑惴ǎ‥-mail)zjhuang@shmtu.edu.cn
Ship?image?and?video?detection?based?on?regression
deep?convolutional?network
HUANG?Zhijian1,?ZHANG?Cheng1,?WANG?Weici2
(1.Merchant?Marine?College,?Shanghai?Maritime?University,?Shanghai?201306,?China;
2.The?711st?Research?Institute,?China?Shipbuilding?Heavy?Industry?Group,?Shanghai?201108,?China)
Abstract:
In?order?to?solve?the?problems?of?low?recognition?rate?and?poor?real-time?performance?of?ship?image?and?video?detection?algorithm,?a?ship?image?and?video?detection?method?based?on?the?regression?deep?convolutional?network?is?proposed.?Combining?the?YOLOv2?feature?extraction?layer?and?the?YOLOv3?feature?pyramid?network?(FPN)?layer,?a?new?network?structure?is?designed,?the?effects?of?different?activation?functions?are?verified,?and?the?anchor?size?is?designed?by?the?clustering?algorithm.?Experiments?show?that,?compared?with?the?YOLO?series?network,?the?proposed?method?is?better?in?ship?image?and?video?detection.?The?mean?average?precision?on?the?test?set?is?0.920?9,?the?recall?rate?is?0.981?8,?the?mean?intersection?over?union?is?0.799?1,?and?the?number?of?frames?detected?per?second?is?78?to?80?in?the?video?detection.?It?provides?a?ship?detection?method?with?high?accuracy?and?good?real-time?performance?for?port?ship?intelligent?management?and?unmanned?ship?visual?processing.
Key?words:
ship?detection;?regression?deep?convolutional?network;?YOLO;?port?management;?unmanned?ship
0?引?言
隨著我國(guó)經(jīng)濟(jì)飛速發(fā)展,以及對(duì)外貿(mào)易日益增長(zhǎng),航運(yùn)事業(yè)的發(fā)展也開始向智能化邁進(jìn)。借助于計(jì)算機(jī)視覺的船舶圖像與視頻檢測(cè)已開始在港口監(jiān)管服務(wù)以及無人船中應(yīng)用。準(zhǔn)確快速的檢測(cè)方法,不僅對(duì)港口管理具有重要的意義,也能夠保障無人船的安全行駛。
傳統(tǒng)的船舶圖像與視頻檢測(cè)分類方法多是基于船舶結(jié)構(gòu)形狀進(jìn)行人工特征設(shè)計(jì)的方法:2014年蔣少峰等[1]提出基于結(jié)構(gòu)特征的商用船舶分類算法;2016年YKSEL等[2]從三維船舶模型的輪廓圖像中提取了船舶特征。這些研究雖然取得了較好的效果,但是在環(huán)境背景復(fù)雜、船體差異小的情況下不能得到較好的效果,且對(duì)船舶的多分類情況識(shí)別率不理想。
相對(duì)于傳統(tǒng)的船舶圖像與視頻檢測(cè)分類方法,深度卷積神經(jīng)網(wǎng)絡(luò)以其優(yōu)越的性能在船舶檢測(cè)分類應(yīng)用中的地位越來越重要:2016年RAINEY等[3]利用深度卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了對(duì)衛(wèi)星船舶的分類;2017年戚超等[4]用8層卷積神經(jīng)網(wǎng)絡(luò)與支持向量機(jī)結(jié)合實(shí)現(xiàn)了對(duì)船舶的精細(xì)分類;2018年王新立等[5]通過改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了船舶的目標(biāo)檢測(cè)。這些利用深度卷積神經(jīng)網(wǎng)絡(luò)的船舶檢測(cè)分類方法都取得了不錯(cuò)的效果。
隨著工程應(yīng)用中對(duì)船舶檢測(cè)分類的準(zhǔn)確率和實(shí)時(shí)性的要求不斷提高,本文提出基于回歸深度卷積網(wǎng)絡(luò)的船舶圖像與視頻檢測(cè)方法,結(jié)合YOLO[6-8]系列網(wǎng)絡(luò),通過端到端的訓(xùn)練,最終在7類船舶圖片上實(shí)現(xiàn)了定位精度高、平均準(zhǔn)確率高、檢測(cè)速度快的效果。
1?深度卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)最早是由加拿大多倫多大學(xué)的LeCun教授提出的,主要用于圖像的識(shí)別。經(jīng)過十多年的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)的深度和寬度不斷增加,圖像識(shí)別的準(zhǔn)確率也不斷提高。常用的卷積神經(jīng)網(wǎng)絡(luò)包括Lenet-5[9]、AlexNet[10]、VGG[11]、GoogLenet[12]、ResNet[13]和DenseNet[14]等。
卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)見圖1,主要由輸入層、卷積層、池化層、全連接層和輸出層組成。
1.1?輸入層
輸入層的功能是接收輸入圖像,并存儲(chǔ)為矩陣
形式。假定卷積神經(jīng)網(wǎng)絡(luò)有L層,由x(l)代表第l層的特征,l=1,2,…,L。其中x(l)又由多個(gè)特征圖組
成,可表示為x(l)=x(l)1,
x(l)2,…,x(l)j,j表示第l層的特征圖數(shù)量,彩色圖像對(duì)應(yīng)的特征表示為
x(1)=x(1)1,x(1)2,
x(1)3,其中x(1)1、x(1)2和
x(1)3分別表示R、G和B通道的數(shù)據(jù)。
1.2?卷積層
卷積層的作用是通過卷積操作提取特征。經(jīng)過合適的設(shè)計(jì),隨著卷積層的增加,網(wǎng)絡(luò)的特征表達(dá)能力增強(qiáng)。
第l層卷積層的特征圖x(l)j通過以下方式計(jì)算:
式中:k(l)i,j和b(l)j分別表示卷積核和卷積層的偏移量;
G(l)i,j表示該卷積層與前一層特征圖之間的連接矩陣,
G(l)i,j取1時(shí)x(l-1)i與x(l)j相關(guān)聯(lián),取0時(shí)無關(guān)聯(lián);符號(hào)代表卷積操作;函數(shù)f(·)表示激活函數(shù)。
1.3?池化層
池化層一般設(shè)在卷積層后面,池化操作保持了一定的空間不變性,第l層的池化層的特征圖x(l)j計(jì)算式為
x(l)j=px(l-1)j(2)
式中:p(·)表示池化操作。
1.4?全連接層
全連接層設(shè)置在特征提取層后面,將提取的深層特征映射為特征向量,全連接層之間的特征向量x(l)?計(jì)算式為
x(l)=fw(l)x(l-1)+b(l)(3)
式中:w(l)表示權(quán)重;b(l)表示偏移量;f(·)表示激活函數(shù)。
1.5?損失函數(shù)
卷積神經(jīng)網(wǎng)絡(luò)通過前向傳播獲得預(yù)測(cè)值,通過損失函數(shù)計(jì)算預(yù)測(cè)值的誤差,在圖像分類中常用的損失函數(shù)交叉熵?fù)p失計(jì)算式為
C=-1nxyln?+(1-y)ln(1-)
(4)
式中:x表示樣本;y表示預(yù)測(cè)的輸出;表示實(shí)際輸出;n表示樣本總數(shù)量。
2?本文設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)
常用的深度卷積神經(jīng)網(wǎng)絡(luò)可以分為兩類:(1)基于區(qū)域提名的RCNN(region-based?convolutional?neural?network)[15]、Fast-RCNN[16]和Faster-RCNN[17]等;(2)基于回歸的ssd[18]、YOLO[6]、YOLOv2[7]和YOLOv3[8]等?;诨貧w的深度卷積神經(jīng)網(wǎng)絡(luò)將卷積神經(jīng)網(wǎng)絡(luò)作為回歸器,將待檢測(cè)圖像看成一個(gè)候選區(qū)輸入卷積神經(jīng)網(wǎng)絡(luò),回歸目標(biāo)在待檢測(cè)圖像中的位置信息,通過端到端的訓(xùn)練,快速獲得最終的邊界框和分類結(jié)果。
本次研究結(jié)合目前流行的回歸深度卷積網(wǎng)絡(luò)YOLO系列,針對(duì)YOLOv2檢測(cè)效果不理想以及YOLOv3網(wǎng)絡(luò)龐大、訓(xùn)練識(shí)別速度慢的缺點(diǎn),利用YOLOv2的特征提取層和YOLOv3的特征金字塔(feature?pyramid?network,F(xiàn)PN)層思想設(shè)計(jì)新的網(wǎng)絡(luò),驗(yàn)證不同激活函數(shù)的效果,采用聚類算法設(shè)計(jì)錨值,在船舶圖像與視頻檢測(cè)上取得了較高的準(zhǔn)確率和良好的實(shí)時(shí)性。研究得到的的網(wǎng)絡(luò)結(jié)構(gòu)見圖2。該網(wǎng)絡(luò)主要由3部分組成:特征提取層、FPN層和預(yù)測(cè)層,具體介紹如下。
由表2可知:本文設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)在3個(gè)評(píng)價(jià)指標(biāo)上均超過了其他兩個(gè)網(wǎng)絡(luò)。
3.3?激活函數(shù)的有效性驗(yàn)證
為測(cè)試激活函數(shù)的影響,結(jié)合本文設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu),選取Relu、Elu和Leaky-Relu激活函數(shù)作為對(duì)比,在測(cè)試集上得到表3所示的結(jié)果。由于Leaky-Relu激活函數(shù)檢測(cè)效果更好,且比Elu激活函數(shù)的運(yùn)算量更小,故選取Leaky-Relu作為激活函數(shù)。
3.4?網(wǎng)絡(luò)效果展示
為達(dá)到更好的網(wǎng)絡(luò)效果,在訓(xùn)練網(wǎng)絡(luò)時(shí),首先加載使用Imagenet[19]數(shù)據(jù)集預(yù)訓(xùn)練得到的特征提取層權(quán)重參數(shù),然后繼續(xù)訓(xùn)練本文設(shè)計(jì)的網(wǎng)絡(luò)和YOLOv3、YOLOv2。通過在測(cè)試集上進(jìn)行測(cè)試以及對(duì)視頻進(jìn)行測(cè)試,最終得到的結(jié)果見表4。
可以看出,本文設(shè)計(jì)的網(wǎng)絡(luò)在使用預(yù)訓(xùn)練權(quán)重時(shí)平均精度均值稍低于YOLOv3,但是其他指標(biāo)均優(yōu)于YOLOv3,尤其在視頻檢測(cè)速度上比YOLOv3的優(yōu)勢(shì)更明顯。本文設(shè)計(jì)的網(wǎng)絡(luò)除視頻檢測(cè)速度略低外,其他各項(xiàng)指標(biāo)均優(yōu)于YOLOv2。本文設(shè)計(jì)的網(wǎng)絡(luò)檢測(cè)效果代表性結(jié)果見圖5。
用本文設(shè)計(jì)的網(wǎng)絡(luò)對(duì)一張有多艘漁船的圖片進(jìn)行檢測(cè),并與用YOLOv3和YOLOv2檢測(cè)得到的結(jié)果做對(duì)比。由圖6可知,本文設(shè)計(jì)的網(wǎng)絡(luò)取得了更好的效果。
4?結(jié)束語(yǔ)
基于計(jì)算機(jī)視覺中目標(biāo)檢測(cè)技術(shù)的理論基礎(chǔ),結(jié)合回歸深度卷積網(wǎng)絡(luò)YOLO系列,利用YOLOv2和YOLOv3各自的優(yōu)勢(shì),設(shè)計(jì)新的網(wǎng)絡(luò)結(jié)構(gòu),驗(yàn)證不同激活函數(shù)對(duì)檢測(cè)效果的影響,聚類產(chǎn)生錨值大小,將得到優(yōu)化的回歸深度卷積網(wǎng)絡(luò)用于對(duì)船舶圖像與視頻的檢測(cè),為港口智能化管理和無人船的安全行駛提供了可靠性強(qiáng)、實(shí)時(shí)性好的視覺信息處理方法。盡管受限于數(shù)據(jù)集,只做了7種類別的檢測(cè),但本文的方法具有一定的指導(dǎo)意義。
參考文獻(xiàn):
[1]蔣少峰,?王超,?吳樊,?等.?基于結(jié)構(gòu)特征分析的COSMO-SkyMed圖像商用船舶分類算法[J].?遙感技術(shù)與應(yīng)用,?2014,?29(4):?607-615.?DOI:?10.11873/j.issn.1004-0323.2014.4.0607.
[2]YKSEL?G?K,?YALITUNA?B,?TARTAR??F,?et?al.?Ship?recognition?and?classification?using?silhouettes?extracted?from?optical?images[C]//Signal?Processing?and?Communication?Application?Conference.?IEEE,?2016:?1617-1620.?DOI:?10.1109/SIU.2016.7496065.
[3]RAINEY?K,?REEDER?J?D,?CORELLI?A?G.?Convolution?neural?networks?for?ship?type?recognition[C]//Automatic?Target?Recognition?XXVI.?International?Society?for?Optics?and?Photonics,?2016,?9844:?984409.
[4]戚超,?王曉峰.?基于卷積神經(jīng)網(wǎng)絡(luò)的運(yùn)輸船舶分類識(shí)別方法[J].?微型機(jī)與應(yīng)用,?2017,?36(17):?52-55.?DOI:?10.19358/j.issn.1674-7720.2017.17.015.
[5]王新立,?江福才,?寧方鑫,?等.?基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的船舶目標(biāo)檢測(cè)[J].?中國(guó)航海,?2018,?41(2):?41-45.?DOI:?CNKI:SUN:ZGHH.0.2018-02-009.
[6]REDMON?J,?DIVVALA?S,?GIRSHICK?R,?et?al.?You?only?look?once:?unified,?real-time?object?detection[C]//Proceedings?of?the?IEEE?conference?on?computer?vision?and?pattern?recognition.?IEEE,?2016:?779-788.?DOI:?10.1109/CVPR.2016.91.
[7]REDMON?J,?FARHADI?A.?YOLO9000:?better,?faster,?stronger[C]//Proceedings?of?the?IEEE?conference?on?computer?vision?and?pattern?recognition.?IEEE,?2017:?7263-7271.?DOI:?10.1109/CVPR.2017.690.
[8]REDMON?J,?FARHADI?A.?YOLOv3:?an?incremental?improvement[J].?arXiv:?1804.02767,?2018.
[9]LECUN?Y,?BOTTOU?L,?BENGIO?Y,?et?al.?Gradient-based?learning?applied?to?document?recognition[J].?Proceedings?of?the?IEEE,?1998,?86(11):?2278-2324.?DOI:?10.1109/5.726791.
[10]KRIZHEVSKY?A,?SUTSKEVER?I,?HINTON?G?E.?ImageNet?classification?with?deep?convolutional?neural?networks[J].?Communications?of?the?ACM,?2017,?60(6):?84-90.?DOI:?10.1145/3065386.
[11]SIMONYAN?K,?ZISSERMAN?A.?Very?deep?convolutional?networks?for?large-scale?image?recognition[J].?arXiv:?1409.1556,?2014.
[12]SZEGEDY?C,?LIU?Wei,?JIA?Yangqing,?et?al.?Going?deeper?with?convolutions[C]//Proceedings?of?the?IEEE?conference?on?computer?vision?and?pattern?recognition.?IEEE,?2015:?1-9.?DOI:?10.1109/CVPR.2015.7298594.
[13]HE?Kaiming,?ZHANG?Xiangyu,?REN?Shaoqing,?et?al.?Deep?residual?learning?for?image?recognition[C]//Proceedings?of?the?IEEE?Conference?on?Computer?Vision?and?Pattern?Recognition.?IEEE,?2016:?770-778.?DOI:?10.1109/CVPR.2016.90.
[14]HUANG?Gao,?LIU?Zhuang,?VAN?DER?MAATEN?L,?et?al.?Densely?connected?convolutional?networks[C]//Proceedings?of?the?IEEE?Conference?on?Computer?Vision?and?Pattern?Recognition.?IEEE,?2017:?4700-4708.?DOI:?10.1109/CVPR.2017.243.
[15]GIRSHICK?R,?DONAHUE?J,?DARRELL?T,?et?al.?Rich?feature?hierarchies?for?accurate?object?detection?and?semantic?segmentation[C]//Proceedings?of?the?IEEE?Conference?on?Computer?Vision?and?Pattern?Recognition.?IEEE,?2014:?580-587.?DOI:?10.1109/CVPR.2014.81.
[16]GIRSHICK?R.?Fast?R-CNN[C]//Proceedings?of?the?IEEE?International?Conference?on?Computer?Vision.?IEEE,?2015:?1440-1448.?DOI:?10.1109/ICCV.2015.169.
[17]REN?Shaoqing,?HE?Kaiming,?GIRSHICK?R,?et?al.?Faster?R-CNN:?towards?real-time?object?detection?with?region?proposal?networks[C]//Advances?in?Neural?Information?Processing?Systems.?IEEE,?2015:?91-99.?DOI:?10.1109/TPAMI.2016.2577031.
[18]LIU?Wei,?ANGUELOV?D,?ERHAN?D,?et?al.?SSD:?single?shot?multibox?detector[C]//European?Conference?on?Computer?Vision.?Springer,?Cham,?2016:?21-37.?DOI:?10.1007/978-3-319-46448-0_2.
[19]RUSSAKOVSKY?O,?DENG?Jia,?SU?Hao,?et?al.?Imagenet?large?scale?visual?recognition?challenge[J].?International?Journal?of?Computer?Vision,?2015,?115(3):?211-252.?DOI:?10.1007/s11263-015-0816-y.
(編輯?賈裙平)