羅逸豪 劉奇佩 張 吟 周河宇 張鈞陶 曹 翔
①(宜昌測試技術(shù)研究所 宜昌 443003)
②(軍事科學(xué)院系統(tǒng)工程研究院 北京 100141)
③(長沙學(xué)院 長沙 410022)
隨著工業(yè)及軍事應(yīng)用中智能化水下探測的需求增多,水下圖像目標(biāo)檢測相關(guān)研究日益活躍,涉及水生物探測、水環(huán)境勘探、海床建模、打撈救助、海底管道探測、反水雷、反潛等眾多項(xiàng)任務(wù)[1]。由于水下環(huán)境復(fù)雜多變、信號衰減失真、信號獲取傳輸成本高,水下圖像目標(biāo)檢測也是計算機(jī)視覺和圖像處理領(lǐng)域中最具挑戰(zhàn)性的應(yīng)用研究之一[2]。目前國內(nèi)水下無人探測尚未進(jìn)行大規(guī)模應(yīng)用,一個重要的原因就是檢測算法性能不足,多數(shù)情況需要人工進(jìn)行干預(yù)。如何提高算法精度和速度、豐富水下圖像數(shù)據(jù)集、增強(qiáng)應(yīng)對復(fù)雜環(huán)境的魯棒性、提高算法的泛化性、降低模型計算復(fù)雜度,均是該領(lǐng)域中亟需解決的關(guān)鍵問題。
目標(biāo)檢測需要對圖像中的目標(biāo)進(jìn)行分類和定位,早期依賴人工提取圖像特征。然而面對各式各樣的應(yīng)用場景和復(fù)雜的環(huán)境干擾,傳統(tǒng)的人工特征已經(jīng)無法滿足日益增長的需求。隨著2012年A lexNet[3]采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)在ImageNet[4]大規(guī)模圖像分類數(shù)據(jù)集上取得的突破性效果,深度學(xué)習(xí)被逐步應(yīng)用于計算機(jī)視覺領(lǐng)域中的各項(xiàng)應(yīng)用。深度學(xué)習(xí)利用大數(shù)據(jù)對網(wǎng)絡(luò)模型進(jìn)行端到端訓(xùn)練,克服了傳統(tǒng)方法的諸多缺點(diǎn)。在水下圖像目標(biāo)檢測領(lǐng)域,深度學(xué)習(xí)方法借助數(shù)據(jù)驅(qū)動的優(yōu)勢,已在魚類圖像數(shù)據(jù)集Fish4-Know ledge、全國水下機(jī)器人大賽(Underwater Robot Professional Contest, URPC)等開源可見光圖像數(shù)據(jù)集和一些非公開聲吶圖像數(shù)據(jù)集中實(shí)現(xiàn)了更優(yōu)的效果[2,5]。
系統(tǒng)性、模塊化地分析通用目標(biāo)檢測算法框架,對水下圖像目標(biāo)檢測的應(yīng)用研究具有十分重要的指導(dǎo)意義,而目前的相關(guān)綜述較為陳舊。數(shù)年前就有文獻(xiàn)[6]對早期基于深度學(xué)習(xí)的通用目標(biāo)檢測(comm on ob ject detection)研究進(jìn)行了分類與總結(jié),并與傳統(tǒng)方法進(jìn)行了對比,體現(xiàn)出深度學(xué)習(xí)的杰出效果。近幾年深度學(xué)習(xí)算法研究呈井噴式增長,克服了模型設(shè)計和訓(xùn)練過程中的諸多難題,精度已接近早期深度學(xué)習(xí)方法的兩倍。然而,較新的綜述[7,8]依舊沿用早期的模型分類方法(2階段與1階段檢測),未對較新的研究進(jìn)行歸納。針對水下圖像應(yīng)用領(lǐng)域,林森等人[9]對光學(xué)圖像中目標(biāo)探測關(guān)鍵技術(shù)進(jìn)行了總結(jié),文獻(xiàn)[1,5]對聲吶圖像目標(biāo)檢測研究進(jìn)行了總結(jié),但他們梳理的文獻(xiàn)較舊,并且對深度學(xué)習(xí)方法提及過少。Fayaz等人[10]著重介紹了早期通用目標(biāo)檢測算法,未對水下相關(guān)應(yīng)用研究進(jìn)行詳細(xì)梳理。
基于此,本文第2節(jié)對基于深度學(xué)習(xí)的通用目標(biāo)檢測算法框架進(jìn)行了系統(tǒng)性梳理,分類總結(jié)了最新研究工作;第3節(jié)從數(shù)據(jù)集構(gòu)建及方法研究兩方面總結(jié)了水下可見光圖像目標(biāo)檢測最新進(jìn)展;第4節(jié)對前視、側(cè)掃、合成孔徑3種聲吶圖像目標(biāo)檢測研究進(jìn)行了歸納分析;第5節(jié)進(jìn)行總結(jié)與展望。
2013年—2019年處于深度學(xué)習(xí)目標(biāo)檢測算法早期研究階段,人們主要根據(jù)是否存在顯式的候選框提取過程,將目標(biāo)檢測模型分為2階段(two-stage)和1階段(one-stage)。2階段檢測模型通過候選框提取方法首先篩選感興趣區(qū)域(Region of Interest,Ro I),然后再進(jìn)行識別與定位,精度更高,代表作是R-CNN家族[11—13]。1階段檢測模型直接使用固定的錨框(anchor)進(jìn)行識別定位,速度更快,代表作包括SSD(Single Shot Detector)系列[14]和YOLO(You Only Look Once)家族[15—17]。隨著研究的深入,人們提出了更多類型的檢測模型,比如根據(jù)是否需要顯式定義先驗(yàn)錨框,可以分為基于錨框(anchor-based)和無錨框(anchor-free)方法,后者可以避免人工預(yù)先設(shè)置錨框,通用性更強(qiáng),代表作為CenterNet[18]和FCOS(Fu lly Convolutional One-Stage object detection)[19]。大部分2階段模型屬于基于錨框的方法,而1階段模型則兩者皆有。最近,T ransformer[20]目標(biāo)檢測模型又開辟了基于目標(biāo)查詢和集合預(yù)測的新范式,不同于常規(guī)CNN。因此,僅以2/1階段檢測模型類別來概括現(xiàn)有方法已不再合適。
借鑒開源項(xiàng)目MMDetection[21]的代碼實(shí)現(xiàn)方式,本文將深度學(xué)習(xí)通用目標(biāo)檢測算法框架總結(jié)為6個要素:骨干網(wǎng)絡(luò)、頸部模塊、檢測頭部、訓(xùn)練算法、推理策略、數(shù)據(jù)集。其中前3項(xiàng)要素屬于模型設(shè)計過程,以構(gòu)成目標(biāo)檢測網(wǎng)絡(luò)模型,如圖1所示。本節(jié)將總結(jié)每個要素的功能、存在問題及最新的算法研究工作,為解決水下圖像目標(biāo)檢測應(yīng)用難題提供支撐。
圖1 基于深度學(xué)習(xí)的目標(biāo)檢測模型
骨干網(wǎng)絡(luò)作為圖像特征提取模塊,可以提取層次化、模塊化、抽象化的特征信息,是深度學(xué)習(xí)模型最重要的組成部分之一。大多數(shù)在圖像分類領(lǐng)域中具備良好效果的骨干網(wǎng)絡(luò)也可在目標(biāo)檢測中獲得較高精度。在A lexNet[6]開啟CNN研究熱潮之后,許多研究致力于對網(wǎng)絡(luò)模型進(jìn)行加深加寬,但這會引起計算成本增長與梯度消失問題。2017年ResNet[22]通過殘差學(xué)習(xí)和跳躍連接(skip connection)緩解了梯度消散問題,可以構(gòu)建上百層甚至更深的網(wǎng)絡(luò),廣泛應(yīng)用于眾多視覺任務(wù),并不斷被改進(jìn)優(yōu)化,比如DenseNet[23]等。近年來,許多不同于常規(guī)CNN卷積濾波核的骨干網(wǎng)絡(luò)被提出,比如可變形卷積(Deformable Convolutional Network, DCN)[24]、多層感知機(jī)(M u ltiLayer Percep tron, M LP)[25]和Transformer[26],它們的性能不弱于CNN。
隨著嵌入式環(huán)境中目標(biāo)檢測任務(wù)需求日益上升,人們對目標(biāo)檢測算法的實(shí)時性要求也水漲船高。由于精度提升往往伴隨著模型規(guī)模和參數(shù)量大幅增長,許多研究工作致力于在保證精度的同時設(shè)計輕量化骨干網(wǎng)絡(luò)。M obileNet系列模型[27]深度可分離卷積,將標(biāo)準(zhǔn)CNN分解成深度(dep thw ise)卷積和逐點(diǎn)(pointw ise)卷積,大幅降低了模型參數(shù)量與運(yùn)算量。輕量化的骨干網(wǎng)絡(luò)設(shè)計可以確保系統(tǒng)運(yùn)行的實(shí)時性,適用于缺陷檢測、水下探測等眾多工業(yè)應(yīng)用項(xiàng)目。
頸部模塊提取多尺度特征,以提高模型檢測精度。深度神經(jīng)網(wǎng)絡(luò)理論認(rèn)為模型中不同的層具備不同的功能,即捕捉不同感受野(receptive field)的信息。通常來說,淺層網(wǎng)絡(luò)提取的高分辨率特征具有更豐富的空間、邊緣等信息,其較小的感受野更適合檢測小尺寸的目標(biāo);深層網(wǎng)絡(luò)提取的低分辨率特征具有更豐富的語義信息,其較大的感受野更適合檢測大尺寸的目標(biāo)。為解決單張?zhí)卣鲌D對大、中、小目標(biāo)適應(yīng)性差的問題,特征金字塔網(wǎng)絡(luò)[28](Feature Pyram id Network, FPN)以自頂向下的方式將不同層級的骨干網(wǎng)絡(luò)輸出特征逐級融合,再對各個尺度執(zhí)行獨(dú)立的預(yù)測。FPN由于簡單的結(jié)構(gòu)設(shè)計和優(yōu)越的性能,成為頸部模塊的標(biāo)準(zhǔn)范式。然而FPN結(jié)構(gòu)本身也存在一定的缺陷,比如高層特征通道信息衰減、特征融合過程中的信息稀釋和混疊歧義。
為了改善這些問題,PAFPN[29]在FPN原有的自頂向下結(jié)構(gòu)后,又增加了自底向上的連接,使得各層特征都能較好地融合其他層的信息,實(shí)現(xiàn)更加豐富的多尺度特征表示。之后以RCNet[30]為代表的諸多研究工作嘗試堆疊更多的特征圖節(jié)點(diǎn)與連接來增強(qiáng)特征,并引入注意力機(jī)制優(yōu)化特征表達(dá)。然而復(fù)雜的特征堆疊會使FPN的計算復(fù)雜度急劇上升。因此,以NAS-FCOS[31]為代表的方法權(quán)衡模型精度與推理效率,在保證不引入復(fù)雜計算量的情況下設(shè)計了更為健壯的FPN結(jié)構(gòu)。
水下圖像目標(biāo)檢測應(yīng)用場景對小目標(biāo)檢測和實(shí)時性要求較高,因此頸部模塊需要兼顧精度與速度。
檢測頭部通常包含采樣、分類器和回歸器,一般也是多尺度的,在提取的各尺度特征圖上進(jìn)行正負(fù)樣本的采樣,然后將其輸入到分類器和回歸器網(wǎng)絡(luò)模型(通常為CNN)中進(jìn)行預(yù)測,得到最終的檢測結(jié)果。
采樣過程包含樣本生成和類別分配,這也是2階段、1階段、無錨框、T ransformer檢測模型的主要區(qū)別所在。2階段檢測模型[11—13]采用區(qū)域推薦網(wǎng)絡(luò)(Region Proposal Network, RPN)提取一定數(shù)量的正負(fù)樣本;1階段模型[14—17]將特征圖上的每一個坐標(biāo)點(diǎn)都視作具有潛在目標(biāo),以固定錨框長寬比和數(shù)量生成訓(xùn)練樣本;無錨框方法[18,19]不需要人工設(shè)定錨框,直接預(yù)測目標(biāo)框的關(guān)鍵點(diǎn),或是以坐標(biāo)點(diǎn)是否落入真實(shí)框內(nèi)來區(qū)分正負(fù)樣本,并額外設(shè)計適用于無錨框的輸出分支;T ransform er[20]設(shè)計基于目標(biāo)查詢的可學(xué)習(xí)位置編碼,通過解碼器生成一定數(shù)量的預(yù)測框。而隨著各類研究的不斷深入,不同類型的檢測模型在通用目標(biāo)檢測數(shù)據(jù)集上的效果沒有較大差異,性能差異主要體現(xiàn)在精度與速度的權(quán)衡。
為了獲得更精確的定位結(jié)果,以SABL(Side-Aware Boundary Localization)[32]為代表的研究利用語義特征來引導(dǎo)高質(zhì)量錨框生成,同時適用于1階段檢測器和2階段檢測器的RPN。在此基礎(chǔ)上,W u等人[33]重新思考了分類分支和回歸分支模型結(jié)構(gòu)的并行設(shè)計,并根據(jù)它們的相關(guān)性設(shè)計了交互相關(guān)的模型結(jié)構(gòu),不再將它們看作為獨(dú)立的并行結(jié)構(gòu)。延續(xù)該思路,TOOD(Task-aligned One-stage Object Detection)[34]等工作進(jìn)一步挖掘分類任務(wù)和回歸任務(wù)的關(guān)聯(lián)性,共同優(yōu)化了分類和回歸分支。
目標(biāo)檢測訓(xùn)練算法為每個輸出分支設(shè)計相應(yīng)的損失函數(shù)對比樣本預(yù)測值和真實(shí)值(標(biāo)簽)以產(chǎn)生損失值,通過迭代最小化損失使得預(yù)測結(jié)果逼近真實(shí)值。在早期研究階段,分類損失通常采用交叉熵函數(shù)進(jìn)行計算,回歸損失通常采用Smooth L1函數(shù)或預(yù)測框與真實(shí)框交并比(Intersection over Union,IoU)計算。目前目標(biāo)檢測模型在訓(xùn)練階段面臨3個主要問題:正負(fù)樣本不平衡、樣本框質(zhì)量低、任務(wù)優(yōu)化失衡。
在一幅圖像中待檢測目標(biāo)面積通常只占小部分,因此在采樣過程中會出現(xiàn)大量的背景負(fù)樣本。目前主流的思想就是依據(jù)重要性對訓(xùn)練樣本進(jìn)行加權(quán),以平衡正負(fù)樣本對梯度的影響。早期難樣本挖掘(Hard-exam p le m ining)方法認(rèn)為難樣本(產(chǎn)生較大損失值的樣本)對訓(xùn)練更加重要,比如Focal Loss[35]和Libra R-CNN[36]巧妙地減弱簡單樣本的權(quán)重并加大難樣本的重要程度。最近的研究重新思考了何為重要樣本,以IQDet(Instance-w ise Quality Distribution sam p ling detector)[37]為代表的方法引入概率得分作為樣本重要性的依據(jù),ATSS(Adap tive T raining Sam p le Selection)[38]等方法則是根據(jù)IoU設(shè)計自適應(yīng)的樣本選擇策略。除此之外,OTA(Optimal T ransport Assignment)[39]將樣本分配問題看作運(yùn)輸優(yōu)化問題,以最小運(yùn)輸成本求解最優(yōu)運(yùn)輸計劃;基于AP-Loss[40]的方法利用平均精度設(shè)計損失函數(shù),將分類任務(wù)替換為排序任務(wù)。
樣本框質(zhì)量低可以在檢測頭部模型設(shè)計中得到一定改善(2.3節(jié))。在訓(xùn)練階段主要體現(xiàn)在優(yōu)化回歸損失函數(shù)。Libra R-CNN[36]設(shè)計了平衡的L1損失函數(shù)來減少異常值和離群值對回歸損失的影響;Dynam ic R-CNN[41]采用動態(tài)訓(xùn)練方法來調(diào)整訓(xùn)練過程中損失函數(shù)的閾值,逐步提高錨框的質(zhì)量。由于預(yù)測框與真實(shí)框的IoU可以直觀反映其質(zhì)量高低,基于IoU的回歸損失[42]也被廣泛研究。
訓(xùn)練過程同時對分類任務(wù)和回歸任務(wù)進(jìn)行優(yōu)化,屬于多任務(wù)學(xué)習(xí)(multi-task learning)。梯度較大的任務(wù)將會占據(jù)訓(xùn)練優(yōu)化的主導(dǎo)地位,造成任務(wù)優(yōu)化失衡的問題[43]。因此,以SWN(Sam p le W eighting Network)[44]為代表的方法通過同方差不確定性為分類和回歸損失設(shè)置權(quán)重。后續(xù)GFL(Generalized Focal Loss)[45]等方法研究梯度、分布、質(zhì)量等分類和回歸的相關(guān)性因素,巧妙地設(shè)計了可以進(jìn)行協(xié)同優(yōu)化的總體損失函數(shù)。
除此之外,訓(xùn)練過程中還可以采用數(shù)據(jù)增強(qiáng)方法來達(dá)到提升模型精度的目的。通常而言,訓(xùn)練數(shù)據(jù)越龐大、樣本越豐富,模型泛化能力更好。數(shù)據(jù)增強(qiáng)方法包括翻轉(zhuǎn)、旋轉(zhuǎn)、裁剪、變形、縮放等幾何變換操作,以及顏色和空間變換[17]。在水下圖像數(shù)據(jù)缺乏時,數(shù)據(jù)增強(qiáng)方法至關(guān)重要。
訓(xùn)練結(jié)束的目標(biāo)檢測模型用于推理,通常會輸出數(shù)量繁多的預(yù)測框,需要后處理方法刪除冗余的預(yù)測框以得到精準(zhǔn)的結(jié)果。目前最常用的方法是非極大值抑制(Non-M axim um Suppression, NMS),通過迭代算法刪除冗余框。當(dāng)同類目標(biāo)分布密集且存在遮擋時,NMS極易產(chǎn)生漏檢。Soft-NMS[46]在后處理過程中不是粗暴地刪除IoU大于閾值的預(yù)測框,而是降低其置信度,在密集目標(biāo)檢測任務(wù)中效果優(yōu)越。
由于NMS的獨(dú)立性,目標(biāo)檢測算法并不是嚴(yán)格意義上的端到端結(jié)構(gòu)。NMS-Loss[47]致力于NMS與檢測模型的共同優(yōu)化訓(xùn)練。最近,Sparse R-CNN[48]和POTO(Prediction-aware OneTo-One)[49]顛覆性地提出了稀疏性目標(biāo)檢測新結(jié)構(gòu),拋棄了常規(guī)的大量候選框提取和NMS過程,取得了較高的檢測精度,但尚未在工業(yè)界廣泛應(yīng)用。
在水下圖像應(yīng)用場景中,如果需要檢測密集的水下生物,比如魚群、珊瑚群,可以借助Soft-NMS方法得到更精確的結(jié)果。如果需要在廣闊海域中搜尋個別物體,比如水雷、潛艇,不需要大量的候選框提取過程,可以嘗試類似Sparse R-CNN的端到端新架構(gòu)。此外,圖像預(yù)處理在推理過程中也至關(guān)重要,諸如圖像增強(qiáng)、超分辨率[50]等方法能改善水下圖像質(zhì)量,以獲得更準(zhǔn)確的結(jié)果。
隨著模型規(guī)模和參數(shù)量越來越大,深度神經(jīng)網(wǎng)絡(luò)對于訓(xùn)練數(shù)據(jù)的依賴也越高,為提升并驗(yàn)證模型精度以及泛化性,建立大規(guī)模數(shù)據(jù)集至關(guān)重要。最常用的通用目標(biāo)檢測數(shù)據(jù)集是PASCAL VOC(Pattern Analysis, Statical m odeling and Com putA tional Learning V isual Ob ject C lasses)[51]和MS COCO(M icroSoft Comm on Objects in COntext)[52],分別包含20類與80類常見目標(biāo),共計接近200 000張可見光圖像。基于這兩個數(shù)據(jù)集的目標(biāo)檢測模型與訓(xùn)練/推理算法研究常具備較好的泛化性,被廣泛應(yīng)用于醫(yī)學(xué)圖像檢測、紅外目標(biāo)檢測等具體應(yīng)用場景[7]。不同的目標(biāo)檢測應(yīng)用任務(wù)的主要區(qū)別在于圖像風(fēng)格差異,而檢測模型與算法類似。當(dāng)訓(xùn)練集和測試集圖像風(fēng)格差異較大時(比如用可見光圖像訓(xùn)練,在聲吶圖像上測試),模型檢測精度通常很低。
因此在水下可見光、聲吶圖像目標(biāo)檢測應(yīng)用中,首要任務(wù)是構(gòu)建各自的大規(guī)模數(shù)據(jù)集,防止深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練欠擬合或過擬合,同時便于不同的網(wǎng)絡(luò)模型進(jìn)行精度對比。然后,再基于數(shù)據(jù)集及圖像的特性,對通用目標(biāo)檢測模型與算法進(jìn)行優(yōu)化。
水下可見光圖像信息量較為豐富,在近距離的水下目標(biāo)探測任務(wù)中具有突出優(yōu)勢。然而,由于受水下特殊成像環(huán)境的限制,可見光圖像往往存在顏色失真、噪聲多、邊緣紋理模糊、可見度低等眾多問題,比通用目標(biāo)檢測更具挑戰(zhàn)性。遵循第2節(jié)概括的檢測框架,本節(jié)從數(shù)據(jù)集發(fā)展、模型設(shè)計、訓(xùn)練算法3個方面總結(jié)了水下可見光圖像目標(biāo)檢測研究進(jìn)展。
水下場景環(huán)境具備多樣性,在不同水域/海域采集的圖像具有不同的圖像質(zhì)量與目標(biāo)種類。為了面對不同類型的探測需求,研究者構(gòu)建了種類繁多的水下數(shù)據(jù)集。表1按照3個部分歸納了目前一些可用于水下可見光圖像目標(biāo)檢測的公開數(shù)據(jù)集,其中表示標(biāo)注信息未公開,“-”表示未專門劃分測試集。
表1 可用于水下可見光圖像目標(biāo)檢測的數(shù)據(jù)集
針對水下機(jī)器人自主抓取所需的感知探測技術(shù),中國連續(xù)數(shù)年舉辦了全國水下機(jī)器人大賽[53](Underwater Robot Professional Contest, URPC),采集海參、海膽、扇貝、海星等近海底常見目標(biāo)構(gòu)建數(shù)據(jù)集。URPC2017存在大量相似或重復(fù)的圖像,精簡后的URPC2018常用于算法的對比,后續(xù)的版本在前一年的圖像庫中逐漸增加新圖像。美中不足的是,URPC的部分?jǐn)?shù)據(jù)缺少海星標(biāo)簽,容易出現(xiàn)錯誤或標(biāo)簽缺失,并且測試集圖像的標(biāo)注沒有公開。RUIE(Real-time Underwater Image Enhancement)[54]數(shù)據(jù)集構(gòu)建了目標(biāo)檢測子集,但是圖像數(shù)量不多。為了解決上述問題,UDD(Underwater open-sea farm object Detection Dataset)[55]收集了高清海底圖像并進(jìn)行了精細(xì)的標(biāo)注;UWD(Under-W ater Dataset)[56]收集了URPC及大量互聯(lián)網(wǎng)圖像,構(gòu)建超過一萬張圖像的大型數(shù)據(jù)集進(jìn)行模型訓(xùn)練。DUO(Detecting Underwater Objects)[57]基于相關(guān)數(shù)據(jù)集進(jìn)行收集和重新注釋,并公平比較了十余種通用目標(biāo)檢測模型的效果,為后續(xù)研究提供了重要實(shí)驗(yàn)數(shù)據(jù)支撐。
為了研究海洋生態(tài)與動物,F(xiàn)ish4Know ledge[58]構(gòu)建了目前最大的海底魚類目標(biāo)檢測數(shù)據(jù)集,包含23種不同的魚類以及密集、遮擋、模糊等干擾情況;Brackish數(shù)據(jù)集[59]擴(kuò)充了水母、螃蟹等更多的海洋生物。為了研究海洋污染問題,F(xiàn)ulton等人[60]引入了塑料垃圾和人為目標(biāo)兩種大類,與海洋生物進(jìn)行區(qū)分;T rashCan數(shù)據(jù)集[61]將海底垃圾和海洋生物進(jìn)行了更加細(xì)致的分類,并且對目標(biāo)包含的像素點(diǎn)進(jìn)行了標(biāo)注。為了應(yīng)對海底打撈與救助任務(wù),海洋與機(jī)器人研究者標(biāo)注了SUIM(Segmentation of Underwater IM agery)[62]水下圖像語義分割數(shù)據(jù)集。
還有一些用于其他視覺任務(wù)的水下圖像數(shù)據(jù)集,經(jīng)過處理或轉(zhuǎn)換之后可以用于目標(biāo)檢測。日本海洋地球科學(xué)技術(shù)廳提供了大型深海海洋生物分類數(shù)據(jù)集Kyutech10K[63],由于圖像中海洋生物清晰可辨,可以對包含的動物進(jìn)行定位標(biāo)注。用于水下圖像增強(qiáng)算法評估的UIEB(Underwater Image Enhancem ent Benchm ark)數(shù)據(jù)集[64],圖像可見度及分辨率高,也可以進(jìn)行目標(biāo)標(biāo)注。MUED(M arine Underwater Environment Database)數(shù)據(jù)集[65]包含8 600張圖像上430個目標(biāo)的顯著性像素點(diǎn)標(biāo)注,將目標(biāo)類別合并之后可以用于目標(biāo)檢測訓(xùn)練。UOT32[66]和UOT 100[67]是用于海底目標(biāo)跟蹤的數(shù)據(jù)集,部分單目標(biāo)視頻標(biāo)注可以直接用于檢測模型訓(xùn)練。
早期的大型水下可見光圖像目標(biāo)檢測數(shù)據(jù)集較少,因此相關(guān)研究并不火熱。2017年前后,研究者[68—70]分別將當(dāng)時最受歡迎的3種通用目標(biāo)檢測模型(YOLO[15], SSD[14], Faster R-CNN[12])直接應(yīng)用到魚類檢測,優(yōu)于傳統(tǒng)算法。這說明當(dāng)訓(xùn)練數(shù)據(jù)和計算資源充足時,深度神經(jīng)網(wǎng)絡(luò)也可以在水下目標(biāo)檢測任務(wù)取得良好效果。隨著更多水下數(shù)據(jù)集的建立,越來越多的研究將通用模型運(yùn)用到水下目標(biāo)檢測,并不同程度地改進(jìn)了骨干網(wǎng)絡(luò)、頸部模塊和檢測頭部。
YOLOv3模型[16]由于運(yùn)行速度快且易于部署實(shí)現(xiàn)深受歡迎。Knausg?rd等人[71]利用SE(Squeezeand-Excitation)模塊改進(jìn)了YOLOv3的骨干網(wǎng)絡(luò),取得了更高的魚類檢測精度。葉趙兵等人[72]以YOLOv3-SPP骨干網(wǎng)絡(luò)為基礎(chǔ),增加網(wǎng)絡(luò)預(yù)測尺度以提高URPC數(shù)據(jù)集[53]中小目標(biāo)檢測性能,同時利用K-Means++聚類算法篩選最佳的錨框。張艷等人[73]基于通道注意力突出不同通道特征圖的顯著性,提高了骨干網(wǎng)絡(luò)對水下圖像高頻信息的提取能力,并且優(yōu)化了頸部模塊多尺度特征融合過程,在URPC上取得了較大提升。
無錨框能夠避免人工預(yù)先設(shè)置錨框,通用性更強(qiáng),可以改進(jìn)水下目標(biāo)漏檢問題。王蓉蓉等人[74]改進(jìn)了CenterNet[34]的骨干網(wǎng)絡(luò),降低了模型參數(shù)量以提升網(wǎng)絡(luò)推理速度,同時引入空間注意力和通道注意力,使骨干網(wǎng)絡(luò)和頸部模塊關(guān)注重要目標(biāo)特征信息,在URPC上取得了良好效果。蔡達(dá)等人[75]設(shè)計了自適應(yīng)加權(quán)融合特征金字塔優(yōu)化FCOS[19]模型,實(shí)現(xiàn)多尺度空間特征選擇,同時借鑒了基于空間特征解耦的檢測頭部,實(shí)現(xiàn)了中心和邊界區(qū)域的特征選擇。
兩階段模型由于運(yùn)行速度較慢,未被廣泛應(yīng)用于水下可見光圖像目標(biāo)檢測。為了改進(jìn)此問題,喻明毫等人[76]設(shè)計了一種輕量級檢測器,首先使用高效卷積池化來獲取不同特征表達(dá),然后在稠密連接結(jié)構(gòu)的基礎(chǔ)上增加兩路稠密連接以提高網(wǎng)絡(luò)表征能力,在RUIE[54]和M arine Litter數(shù)據(jù)集[60]上實(shí)現(xiàn)了較高精度和速度的平衡。除此之外,Liang等人[77]借鑒了特征解耦、位置編碼和注意力機(jī)制優(yōu)化Ro I特征,設(shè)計了一種通用的檢測頭部,在2階段和1階段檢測器中均實(shí)現(xiàn)了較大的精度提升。
盡管最近研究者構(gòu)建了諸多水下可見光圖像數(shù)據(jù)集,它們離MS COCO的規(guī)模大小仍相去甚遠(yuǎn)。因此許多工作在模型訓(xùn)練過程中引入數(shù)據(jù)增強(qiáng)方法,充分挖掘模型擬合能力。早期的數(shù)據(jù)增強(qiáng)方法通常對單個圖像進(jìn)行操作,Lin等人[78]研究了用于模擬重疊、遮擋和模糊對象的增強(qiáng)策略,提出了Ro IM ix方法,從不同圖像中提取的目標(biāo)混合在一起創(chuàng)建新的訓(xùn)練圖像。與此類似,史朋飛等人[79]設(shè)計了一種數(shù)據(jù)增強(qiáng)方法以模擬水下生物重疊、遮擋等顯示不完全的情形,增強(qiáng)了網(wǎng)絡(luò)模型魯棒性。除了直接針對圖像操作的數(shù)據(jù)增強(qiáng)方法,Li等人[80]提出了一種多任務(wù)訓(xùn)練方法,引入自監(jiān)督去模糊子網(wǎng)絡(luò)以獲得高質(zhì)量圖像,同時設(shè)計了基于視角變換的改進(jìn)空間變換網(wǎng)絡(luò),自適應(yīng)豐富網(wǎng)絡(luò)內(nèi)的圖像特征。上述方法均在URPC上實(shí)現(xiàn)了精度提升。
正負(fù)樣本不平衡問題在水下應(yīng)用中也十分嚴(yán)重,因此一些方法延用了重要樣本加權(quán)的思想。SW IPNET(Sam ple-W eIghted hyPEr NETwork)模型[81,82]引入了一種噪聲魯棒的訓(xùn)練范式CMA,首先在每個訓(xùn)練迭代中減少未檢測到的目標(biāo)的損失權(quán)重,因?yàn)樗鼈兒芸赡苁窃肼晹?shù)據(jù),然后在模型趨于收斂時增加難例正樣本的權(quán)重值,直至模型收斂。類似地,Boosting R-CNN模型[83]設(shè)計了多級RPN,并引入boosting reweighting難樣本挖掘方法,在RPN錯誤地計算了樣本的對象先驗(yàn)概率時,增加樣本在檢測頭部的分類損失值,同時減少具有準(zhǔn)確估計先驗(yàn)的簡單樣本的損失,在水下數(shù)據(jù)集Brackish[59]和通用目標(biāo)檢測數(shù)據(jù)集上均取得了性能提升。
可見光圖像僅在近距離水下探測時具有較高清晰度,在船舶海洋業(yè)應(yīng)用中限制極大。成像聲吶能夠在低可見度條件下可靠運(yùn)行,是目前最常用的水下探測手段。成像聲吶設(shè)備主要包括前視聲吶、側(cè)掃聲吶、合成孔徑聲吶、干涉合成孔徑聲吶等,其中前三者最為常用[1]。成像聲吶通常安裝在水下航行器或水面船只拖曳設(shè)備上,在行進(jìn)過程中不斷發(fā)射和接收聲信號,根據(jù)回波信號成像。聲吶圖像的自主目標(biāo)識別(Autonom ous Target Recognition,ATR)即目標(biāo)檢測,對可疑目標(biāo)進(jìn)行定位并確定類別。海水介質(zhì)的非均勻性會造成聲信號的衰減和畸變,同時各種漂浮物和顆粒都會增大聲波傳輸過程中的多徑效應(yīng)[5],使得聲吶圖像目標(biāo)檢測難度遠(yuǎn)大于可見光圖像。隨著深度學(xué)習(xí)技術(shù)的成熟,越來越多的研究者借助深度神經(jīng)網(wǎng)絡(luò)解決聲吶圖像目標(biāo)檢測難題。本章從聲吶圖像特點(diǎn)與數(shù)據(jù)集發(fā)展、模型設(shè)計和訓(xùn)練算法方面總結(jié)了前視、側(cè)掃、合成孔徑聲吶圖像目標(biāo)檢測相關(guān)研究。
前視聲吶使用1個或多個波束對前方扇形區(qū)域進(jìn)行掃描,需要擴(kuò)大探測區(qū)域時通常轉(zhuǎn)動波束或增加波束數(shù)量。其優(yōu)點(diǎn)是可以使用多個頻率的波束進(jìn)行探測,能耗較低且尺寸較小,因此在民用和軍事領(lǐng)域中被廣泛應(yīng)用;缺點(diǎn)是圖像分辨率低,扇形圖像包含的目標(biāo)信息量少且對噪聲敏感,旁瓣干擾嚴(yán)重。
側(cè)掃聲吶基于目標(biāo)物對入射聲波的反向散射原理,將回波數(shù)據(jù)逐行排列以生成圖像,能夠直觀地反映水下目標(biāo)物形態(tài)。其優(yōu)點(diǎn)是圖像分辨率高,左右聲吶生成的矩形圖像探測覆蓋面大,因此常被用于大面積海域的勘探、搜救、探雷等任務(wù);缺點(diǎn)是圖像質(zhì)量較低,難以從大圖上辨識小目標(biāo)輪廓。
合成孔徑聲吶是將合成孔徑雷達(dá)原理推廣到水聲領(lǐng)域而形成的一種新型高分辨率水下成像聲吶[1],通過小孔基陣移動而在不同位置接受回波信號。其優(yōu)點(diǎn)是圖像分辨率和精度高,相比于側(cè)掃聲吶減弱了探測距離對圖像質(zhì)量的影響;缺點(diǎn)是數(shù)據(jù)處理量極大,對設(shè)備要求高,因此合成孔徑聲吶設(shè)備往往價格高昂。
由于前視聲吶使用成本較低,研究者多在仿真環(huán)境或小型試驗(yàn)場地自采數(shù)據(jù)集進(jìn)行算法驗(yàn)證。Im age Gallery數(shù)據(jù)集[84]是由搭載在水下機(jī)器人上的前視聲吶采集而成的,共有1 500幅圖像,包含魚、鯊魚、沉船、管道、人等10類目標(biāo)的位置標(biāo)注。Singh等人[85]也使用此設(shè)備在室內(nèi)模擬的海洋環(huán)境中捕獲了1868幅前視聲吶圖像,包含瓶子、罐頭、鏈條、掛鉤等11類海洋垃圾目標(biāo)的像素點(diǎn)標(biāo)注,可以用于檢測與分割模型訓(xùn)練。盡管如此,1 000多張圖像的訓(xùn)練集規(guī)模依然很小,易造成訓(xùn)練欠擬合或過擬合問題。
側(cè)掃和合成孔徑聲吶圖像風(fēng)格類似,因?yàn)殡y以在室內(nèi)及小型試驗(yàn)場地中進(jìn)行采集,湖試海試成本高昂,同時涉及軍事保密問題,所以目前公開的數(shù)據(jù)集十分有限,現(xiàn)有的研究工作多在各自采集的非公開數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試。Barngrover等人[86]提供了一些真實(shí)水雷的側(cè)掃聲吶圖像和合成圖像,用于自主目標(biāo)識別算法的訓(xùn)練。SeabedOb jects-KLSG數(shù)據(jù)集[87]用于側(cè)掃聲吶圖像分類任務(wù),含有沉船殘骸圖像385張、溺水受害者36張、失事飛機(jī)62張、水雷129張、海底圖像578張,如需用于目標(biāo)檢測模型訓(xùn)練,還需在原始聲吶圖像上進(jìn)行矩形位置標(biāo)注。最近,聲吶常見目標(biāo)檢測數(shù)據(jù)集(Sonar Common Target Detection dataset, SCTD)[88]收集了497張分辨率較高的圖像,包含水下沉船、失事飛機(jī)殘骸、遇難者3類典型目標(biāo)的位置標(biāo)注,共計596個樣本。這些樣本以側(cè)掃聲吶圖像為主,還包含了一些合成孔徑聲吶圖像、干涉合成孔徑聲吶圖像、前視聲吶圖像。雖然SCTD 1.0圖像數(shù)量較少,但它填補(bǔ)了開源的側(cè)掃、合成孔徑聲吶圖像目標(biāo)檢測數(shù)據(jù)集的空白。
基于深度學(xué)習(xí)的聲吶圖像目標(biāo)檢測模型設(shè)計大致可分為3類:特征提取與分類模型、通用目標(biāo)檢測模型、語義分割模型。
早期訓(xùn)練數(shù)據(jù)相對匱乏時,研究者通常采用傳統(tǒng)方法和深度學(xué)習(xí)相結(jié)合的思路設(shè)計目標(biāo)檢測算法,以借鑒深度學(xué)習(xí)模型提取圖像特征的優(yōu)勢。2016年左右CNN被應(yīng)用到前視聲吶目標(biāo)識別任務(wù)中[89]。在此基礎(chǔ)上,Valdenegro-Toro[90]使用共享CNN提取的128維圖像特征向量進(jìn)行邊界框和類標(biāo)簽的訓(xùn)練,與R-CNN[11]類似采用SVM作為分類器,分為多個步驟實(shí)現(xiàn)目標(biāo)檢測。Palomeras等人[91]采用CNN提取聲吶圖像特征,將檢測器、分類器與概率網(wǎng)格圖相結(jié)合,通過概率圖過濾誤報信息并與檢測結(jié)果相組合,極大限度地提高了算法檢測精度。Zhou等人[92]首先采用FCM和K-m eans聚類方法對聲吶圖像進(jìn)行全局聚類,以獲得更多的Ro I,然后使用CNN提取特征,經(jīng)過非線性變換器和Fisher判別器得到分類結(jié)果。該方法的檢測精度和實(shí)時性較好,不亞于一些深度學(xué)習(xí)方法。
將CNN用于側(cè)掃、合成孔徑聲吶圖像切片分類也可實(shí)現(xiàn)定位效果。Gebhard t等人[93]采用CNN提取側(cè)掃聲吶海底圖像中水雷的特征并進(jìn)行分類,Hoang 等人[94]借助DenseNet[23]識別合成孔徑聲吶圖像中的未爆炸彈藥。由于側(cè)掃聲吶探測面積廣,目標(biāo)只占據(jù)圖像中極小部分,因此他們將原始圖像切片逐一分類,可以得到粗略的定位結(jié)果。雖然此類方法得到的定位框并不能緊密包含目標(biāo),但相較于高分辨率的海底聲吶圖像,此定位誤差可以忽略不計。
隨著端到端模型訓(xùn)練的成熟,許多研究將通用目標(biāo)檢測模型應(yīng)用到水下檢測任務(wù)。相比于較易采集的水下可見光圖像,3種聲吶圖像均缺少大型開源數(shù)據(jù)集,深度神經(jīng)網(wǎng)絡(luò)易在小規(guī)模數(shù)據(jù)集上訓(xùn)練會產(chǎn)生參數(shù)冗余和過擬合的問題,這極大限制了聲吶圖像目標(biāo)檢測的應(yīng)用研究。因此,許多工作使用輕量化設(shè)計的骨干網(wǎng)絡(luò)緩解此問題,其中YOLO系列模型[15—17]被頻繁采用。
對于前視聲吶圖像,F(xiàn)an等人[95]利用殘差模塊構(gòu)建了32層骨干網(wǎng)絡(luò),取代了Mask R-CNN[13]中的Resnet50/101,在保證檢測性能的同時大幅減少了網(wǎng)絡(luò)的訓(xùn)練參數(shù),這對實(shí)時性和嵌入式部署具有重要意義。類似地,F(xiàn)an等人[96]對YOLOv4[17]中的骨干網(wǎng)絡(luò)進(jìn)行改進(jìn),以減少模型參數(shù)和網(wǎng)絡(luò)深度;同時,他們借鑒了自適應(yīng)空間特征融合模塊(ASFF)優(yōu)化了頸部模塊PAFPN,以獲得更好的特征融合效果。Zhang等人[97]也優(yōu)化了YOLOv5骨干網(wǎng)絡(luò)以提高檢測速度。最近,Zhu等人[98]結(jié)合了Sw in T ransformer[26]和DCN[24]設(shè)計了骨干網(wǎng)絡(luò)和檢測頭部,構(gòu)建了一種無錨框檢測模型STAFNet,在自采前視聲吶數(shù)據(jù)集上對受害者、船只、飛機(jī)3類目標(biāo)達(dá)到了優(yōu)越的檢測性能,領(lǐng)先于YOLOv5,Faster R-CNN,FCOS等經(jīng)典模型。
對于側(cè)掃、合成孔徑聲吶圖像,W ang和Li等人[99,100]直接將YOLOv3應(yīng)用于該任務(wù)即可實(shí)現(xiàn)較好的檢測效果。陳禹蒲等人[101]改進(jìn)了YOLOv3模型檢測頭部的采樣過程,設(shè)計了一種超參數(shù)錨框映射關(guān)系對聚類后的錨框進(jìn)行拉伸變換,改進(jìn)了檢測精度。雖然他們耗時數(shù)月采集了26 689張側(cè)掃聲吶圖像,但由于大量區(qū)域是海底背景,最終符合要求的圖像僅有237張,由此可見側(cè)掃聲吶數(shù)據(jù)的采集成本極高。為了應(yīng)對側(cè)掃圖像目標(biāo)稀疏和特征貧乏的特點(diǎn),Yu等人[102]將T ransformer[20]的自注意力機(jī)制引入到Y(jié)OLOv5s的骨干網(wǎng)絡(luò)和頸部模塊,提高模型在全局圖像中檢測小目標(biāo)的能力。Fu等人[103]也采用了空間和通道注意力模塊來改善YOLOv5的頸部模塊。李寶奇等人[104]設(shè)計了一種可擴(kuò)張、可選擇的輕量化CNN,改進(jìn)了SSD[14]的骨干網(wǎng)絡(luò),在中國科學(xué)院聲學(xué)研究所采集的高頻合成孔徑聲吶圖像數(shù)據(jù)上取得了優(yōu)越的檢測效果。Zhang等人[105]提出了一種具有靈活搜索空間和內(nèi)存高效的可差分結(jié)構(gòu)搜索算法(FL-DARTS),自動設(shè)計輕量CNN處理雷達(dá)或聲吶圖像,在SCTD1.0和合成孔徑雷達(dá)船舶檢測數(shù)據(jù)集SSDD[106]上實(shí)現(xiàn)了良好的性能。
此外,基于語義分割的深度學(xué)習(xí)模型也可以用于聲吶目標(biāo)檢測。W u 等人[107]設(shè)計編碼器-解碼器結(jié)構(gòu)對側(cè)掃聲吶圖像進(jìn)行像素級分類,連續(xù)大面積的前景類別像素點(diǎn)構(gòu)成目標(biāo)。MB-CEDN模型[108]設(shè)計多分支網(wǎng)絡(luò),通過級聯(lián)的方式細(xì)化合成孔徑聲吶圖像分割結(jié)果。然而此類方法容易受到海底地形的影響,降低小目標(biāo)檢測精度,在實(shí)際應(yīng)用中性能可能不佳。
為緩解聲吶圖像數(shù)據(jù)不足、樣本不均衡等問題,許多工作采用遷移學(xué)習(xí)或圖像生成等方法,隱式或者顯式地擴(kuò)充訓(xùn)練數(shù)據(jù)。
Fuchs等人[109]預(yù)先使用來自不同領(lǐng)域的數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)模型,以學(xué)習(xí)通用特征,再通過遷移學(xué)習(xí)的方法將模型應(yīng)用到前視聲吶數(shù)據(jù)上。Lee等人[110]采用CNN設(shè)計了一種端到端的前視聲吶圖像合成方法,通過風(fēng)格轉(zhuǎn)換使仿真數(shù)據(jù)逼近真實(shí)數(shù)據(jù),然后使用從水箱和海水中獲得的真實(shí)水下聲吶圖像測試仿真圖像。Lou等人[111]借鑒了顯著性特征可視化方法和生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks, GAN)[112]學(xué)習(xí)光學(xué)圖像和聲吶圖像之間的轉(zhuǎn)換關(guān)系,來解決目標(biāo)檢測CNN欠擬合的問題。然而使用模擬生成的前視聲吶圖像訓(xùn)練的模型并未在實(shí)際場景中得到驗(yàn)證。Jegorova等人[113]基于Pix2Pix[112]引入了一種馬爾可夫策略,旨在真實(shí)模擬聲傳感器、物體高度和環(huán)境因素的特定偽影,定量評估結(jié)果表明生成的圖像與真實(shí)數(shù)據(jù)幾乎沒有區(qū)別。凡志邈等人[114]借鑒了合成孔徑雷達(dá)圖像轉(zhuǎn)換思路,基于CycleGAN[115]實(shí)現(xiàn)光學(xué)圖像到合成孔徑聲吶圖像的風(fēng)格遷移,利用生成圖像訓(xùn)練的Mask R-CNN[13]能夠在真實(shí)環(huán)境中良好應(yīng)用。
遷移學(xué)習(xí)和圖像生成方法也可結(jié)合使用。盛子旗等人[116]首先根據(jù)側(cè)掃聲吶成像機(jī)理建立水雷目標(biāo)的仿真模型進(jìn)行樣本生成,然后采用開源數(shù)據(jù)集Im ageNet[4]對深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,再分別用仿真和真實(shí)水雷樣本對骨干網(wǎng)絡(luò)進(jìn)行微調(diào),最后,將骨干網(wǎng)絡(luò)嵌入Faster R-CNN, YOLOv3等目標(biāo)檢測模型,使用真實(shí)水雷樣本進(jìn)行訓(xùn)練。該方法分3步實(shí)現(xiàn)整個訓(xùn)練過程,大幅提高了模型檢測精度。
水下圖像目標(biāo)檢測技術(shù)在工業(yè)及軍事應(yīng)用中有著巨大的發(fā)展前景,受到越來越多研究者的關(guān)注。近年來隨著深度學(xué)習(xí)的發(fā)展,該領(lǐng)域取得了較大突破,但仍存在一些問題,總結(jié)如下:
(1)水下復(fù)雜多變的環(huán)境使得圖像信息易衰減失真,目標(biāo)檢測難度高。近幾年基于深度學(xué)習(xí)的通用目標(biāo)檢測算法在骨干網(wǎng)絡(luò)、頸部模塊、檢測頭部、訓(xùn)練算法、推理策略方面均取得了眾多研究成果。然而水下圖像目標(biāo)檢測研究相對滯后,許多工作僅將數(shù)年前的深度學(xué)習(xí)模型稍加改動進(jìn)行簡單應(yīng)用,對于該領(lǐng)域的特點(diǎn)和困難進(jìn)行針對性的研究較少,比如在水下可見光圖像中目標(biāo)極易發(fā)生密集、遮擋、模糊等情況,在水下聲吶圖像中目標(biāo)具有分布稀疏、特征匱乏等特點(diǎn)。
(2)水下可見光圖像目標(biāo)檢測數(shù)據(jù)集眾多,然而大部分?jǐn)?shù)據(jù)集只包含少量類別的水下目標(biāo),一味地擴(kuò)充圖像數(shù)量并不能增加深度學(xué)習(xí)模型在更多類別目標(biāo)中的通用性。同時,眾多的數(shù)據(jù)集使得不同算法模型之間的公平對比存在困難。
(3)水下聲吶圖像由于采集成本高昂、涉及軍事秘密等原因,公開數(shù)據(jù)集較少,限制了深度學(xué)習(xí)模型的應(yīng)用。遷移學(xué)習(xí)、數(shù)據(jù)增強(qiáng)、圖像生成等訓(xùn)練方法能夠在一定程度上改善數(shù)據(jù)量不足的問題。現(xiàn)有研究工作的訓(xùn)練集和測試集規(guī)模小,雖然取得了良好的推理精度,但模型的泛化能力未能驗(yàn)證。
結(jié)合深度學(xué)習(xí)最新研究,對水下圖像目標(biāo)檢測的未來研究做出如下展望:
(1)大規(guī)模數(shù)據(jù)集構(gòu)建與T ransform er模型研究。通過大規(guī)模數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)模型具有更好的精度和泛化性,因此構(gòu)建大規(guī)模的水下可見光圖像和聲吶圖像目標(biāo)檢測數(shù)據(jù)集是未來重要的發(fā)展方向。此外,CNN在處理圖像數(shù)據(jù)中更關(guān)注局部信息,注重空間上的緊密元素,限制了數(shù)據(jù)集規(guī)模的上限。T ransform er模型關(guān)注圖像全局信息,計算復(fù)雜度更低,還能避免深層特征過度平滑,在大規(guī)模數(shù)據(jù)集上表現(xiàn)出更優(yōu)越的性能。
(2)基于圖像修復(fù)與目標(biāo)檢測的多任務(wù)模型研究。為了應(yīng)對水下可見光圖像模糊、聲吶圖像失真等問題,一些工作采用圖像預(yù)處理方法[1,9],但效果并不突出。深度學(xué)習(xí)領(lǐng)域中的多任務(wù)學(xué)習(xí)可以令一個網(wǎng)絡(luò)同時學(xué)習(xí)多項(xiàng)任務(wù),旨在不同任務(wù)之間能夠協(xié)同優(yōu)化,實(shí)現(xiàn)“1+1>2”。因此,將圖像修復(fù)和目標(biāo)檢測作為子任務(wù),設(shè)計端到端的多任務(wù)網(wǎng)絡(luò)模型,可以更好地應(yīng)對圖像信息受損的問題。
(3)小樣本學(xué)習(xí)相關(guān)訓(xùn)練算法研究。水下聲吶圖像數(shù)據(jù)量少,用于訓(xùn)練深度學(xué)習(xí)模型屬于小樣本學(xué)習(xí)任務(wù)。同時已有數(shù)據(jù)可能存在標(biāo)注缺失、類別不明確、標(biāo)注錯誤等問題。除了人工擴(kuò)充數(shù)據(jù)與標(biāo)注,研究數(shù)據(jù)增強(qiáng)、無監(jiān)督、弱監(jiān)督、半監(jiān)督等訓(xùn)練算法,可以充分利用已有的少量聲吶圖像數(shù)據(jù)提高目標(biāo)檢測模型精度,也是重要的研究方向之一。
(4)多模態(tài)融合算法研究。多模態(tài)學(xué)習(xí)即是從多個模態(tài)表達(dá)或感知事物,比如通過兩種不同成像原理的設(shè)備采集的數(shù)據(jù)進(jìn)行協(xié)同與融合分析。未來在水下探測任務(wù)中,可以同時使用可見光相機(jī)、前視聲吶、側(cè)掃聲吶采集圖像數(shù)據(jù),研究多模態(tài)數(shù)據(jù)特征之間的關(guān)聯(lián)關(guān)系,有助于提高數(shù)據(jù)的利用率,構(gòu)建魯棒的算法系統(tǒng)。