郝紫霄,王 琦
(江蘇科技大學 計算機學院,江蘇 鎮(zhèn)江,212003)
海洋的戰(zhàn)略價值獨特而重大:海洋是資源富饒的寶藏,是生物物種的搖籃,是新時代經濟的增長點,是戰(zhàn)略的新疆域,是聯(lián)系世界的通道[1]。水下目標檢測是水下圖像處理的基礎,也是利用與開發(fā)海洋資源等水域資源的基礎任務之一。水下目標檢測已經廣泛應用于水中武器探測[2]、水中兵器追蹤與自導[3]、海洋生物追蹤[4]、漁業(yè)養(yǎng)殖與打撈[5]以及水下環(huán)境勘探[6]等民用與軍事領域。相比于光學成像等水下成像探測技術,聲吶成像具有探測距離遠、穿透能力強、適用于渾濁水域等優(yōu)點。成像聲吶分為側掃聲吶[7]、合成孔徑聲吶[8]和多波束聲吶[9]等類型,各類型的優(yōu)缺點如表1 所示,一般以裝載于潛艇等水下航行器的形式進行探測任務。
表1 多種成像聲吶類型及優(yōu)缺點Table 1 Advantages and disadvantages of various imaging sonars
基于聲吶圖像的水下目標檢測主要涵蓋對水下目標進行定位與分類兩方面。有效的特征提取與特征處理是目標檢測任務實施的關鍵。聲吶圖像作為不同于自然圖像的一種特殊圖像,具有更特殊的紋理特征、邊緣特征、矩陣特征和統(tǒng)計特征等?;诼晠葓D像的水下目標檢測的傳統(tǒng)方法可分為基于數(shù)理統(tǒng)計的目標檢測、基于數(shù)學形態(tài)學的目標檢測與基于像素的目標檢測。其中,提取特征常應用尺度不變特征變換(scale-invariant feature transform,SIFT)算法[10]及在其基礎上改進的加速穩(wěn)健特征(speeded up robust features,SURF)算法[11]、方向梯 度直方 圖(histograms of oriented gradients,HOG)算法[12]等,特征處理常用的算法有支持向量機(support vector machine,SVM)算法[13]和貝葉斯算法[14]等。近年來,隨著深度學習與遷移學習的不斷發(fā)展,相關技術也被廣泛應用于基于聲吶圖像的水下目標檢測任務,比如用于特征提取的卷積神經網絡[15]與用于特征處理的特征金字塔網絡等[16]。
文中結合聲吶圖像水下目標檢測的原理、方法、算法和模型等,從多方面多層次對聲吶圖像的水下目標檢測進行了詳細論述。首先給出基于聲吶圖像的傳統(tǒng)目標檢測以及基于深度學習、遷移學習與深度學習結合的目標檢測的最新研究進展分析,然后總結了相關方向亟待解決的問題,最后對未來的發(fā)展趨勢作出展望。
聲吶圖像處理得到的直方圖具有的均值、標準差、峰值等數(shù)理統(tǒng)計特性與聲吶圖像處理得到的共生矩陣所具有的相關性、對比度、熵值等數(shù)理特性都可以反映聲吶圖像中的物體分布與物體種類。因此,利用聲吶圖像的數(shù)理統(tǒng)計特性來實現(xiàn)水下目標檢測具有可行性。
聲吶圖像具有顯著的數(shù)理統(tǒng)計特性主要由于其特殊的紋理特征,聲吶圖像中不同的底質呈現(xiàn)在聲吶圖像中的紋理特征不同。作為物體所具有的內在特征之一,紋理特征越來越受到重視。由于紋理可以直接反映海底表面結構的粗糙度,紋理特征常被用于聲吶圖像的分析,各種紋理特征的對比如表2 所示。陳強等[17]將合成孔徑聲吶圖像的統(tǒng)計特性和紋理特性相結合,將提取到的數(shù)理統(tǒng)計特性輸入到SVM 分類器中進行訓練,并經實驗驗證取得良好效果。王濤等[18]利用灰度共生矩陣提取側掃聲吶圖像的紋理特征,并利用Kmeans 算法進行海洋底質分類,從而實現(xiàn)對泥、砂和巖石3 種海底底質類型的目標檢測。然而常用于聲吶圖像目標檢測的紋理特征也具有諸多局限性,比如灰度共生矩陣的數(shù)理統(tǒng)計特性的計算量宏大且在處理過程中尋找特征無關的特征量組合比較困難。針對這一問題,董凌宇等[19]根據盒維數(shù)、毯維數(shù)與多重分形譜的側掃聲吶圖像紋理提取算法,設計了基于分形紋理特征的Adaboost 分類器,通過更便捷有效地處理紋理特征的數(shù)理統(tǒng)計特性獲得更好的沉船目標檢測效果。
表2 不同紋理特征的對比Table 2 Comparison of texture features
由于海洋環(huán)境復雜多變,探測系統(tǒng)航行過程中可能產生氣泡從而影響能量的發(fā)射和接收,同時聲吶載體平臺的搖擺變化也可能造成聲吶圖像的失真,這些問題的存在使聲吶圖像的處理存在諸多難點。為應對聲吶圖像中目標檢測的挑戰(zhàn),圖像數(shù)理統(tǒng)計特性的有效利用尤為關鍵。王其林等[20]提出了優(yōu)化后的Hough 變換和線段檢測算法用于側掃聲吶圖像直線特征的提取,建立圖像邊緣掩碼矩陣使相應的特征點都能參與到直線特征的形成中,并建立了一種新的斷裂線特征擬合方法。但是,利用較為單一的形狀描述子進行特定特征的提取仍無法滿足水下目標檢測的精度要求。田曉東等[21]定義了幾種不同的形狀特征描述子,并統(tǒng)計計算描述子直方圖,根據直方圖所反映的聲吶圖像的數(shù)理特性計算直方圖間的相似性,用于完成聲吶圖像中的目標檢測與識別等任務。針對聲吶圖像的強干擾性致使二值化后的聲吶圖像在背景區(qū)中摻雜孤立區(qū)等問題,盧逢春等[22]將直方圖的概念推廣到屬性直方圖,并將其應用到Otsu 法中形成一種基于聲吶圖像數(shù)理統(tǒng)計特性的圖像處理方法。
國內外在基于數(shù)理統(tǒng)計方法的聲吶圖像水下目標檢測上也不斷發(fā)展。Yang 等[23]在所提技術的水下目標檢測中,利用物體幾何特征的直方圖計算物體屬性的相關系數(shù)并進行聚類,達到了較強魯棒性的效果。但是僅通過一類數(shù)理統(tǒng)計特征無法充分反映聲吶圖像復雜的背景特征與紋理特征,因此多種數(shù)理統(tǒng)計特征的綜合使用成為趨勢。王曉等[24]分別采用HSV (hue,saturation,value)空間模型、方向梯度直方圖和局部二值模式的方法處理聲吶圖像的色度、形狀和紋理特征,為水下自動目標檢測任務的開展提供良好基礎。將基于數(shù)理統(tǒng)計的方法與高效的目標檢測模型結合也被證實效果良好。Sun 等[25]將聲吶圖像紋理識別算法與YOLO(you only look once)算法融合,在海洋沉積物檢測上取得了優(yōu)于原始算法的結果。
聲吶圖像在目標檢測的特征提取階段存在難點主要是由于海洋環(huán)境的復雜性與檢測方式的特殊性所導致的特征地貌邊緣檢測困難、噪聲干擾大等因素。為應對這些問題,在水下目標檢測任務中采用數(shù)學形態(tài)方法對聲吶圖像進行相應處理至關重要。數(shù)學形態(tài)學是分析幾何形狀和結構的科學,是用集合論的方法定量描述目標幾何結構的方法。羅進華等[26]利用數(shù)學形態(tài)學方法對側掃聲吶圖像進行處理,用具有一定形態(tài)的結構元素度量和提取聲吶圖像中的對應形狀,并通過實驗驗證了其方法可以有效得到連續(xù)化、粗化、圓滑的特征邊緣。針對聲吶圖像對比度低、成像質量差、前景與背景的對比度低等問題所造成的自然目標與人造目標物的正確區(qū)分率低的問題,鄒崗等[27]基于數(shù)學形態(tài)學算子,通過定義多尺度形狀的數(shù)學形態(tài)結構元素,對各像素點進行形態(tài)開閉運算,并且用閾值評判法實現(xiàn)對水中人造目標的快速有效檢測。
聲吶圖像相比自然圖像的水下目標檢測更困難的原因還包括聲吶圖像存在散斑噪聲等多種噪聲綜合作用的問題。目前的聲吶圖像目標檢測任務廣泛進行了數(shù)學形態(tài)學濾波的處理,如表3 所示。Mallet 等[28]提出了一種新的基于小波的形態(tài)學濾波方法,通過設計新的小波閾值方法,解決合成孔徑聲吶圖像被斑點噪聲(顆粒乘法噪聲)破壞的問題,在合成孔徑聲吶圖像的海底目標檢測中取得了優(yōu)于相關濾波方法的效果。Isar 等[29]結合小波域散斑抑制方法與貝葉斯算法提出了一種新的聲吶圖像中水下目標的檢測方法,創(chuàng)新點為基于雙邊濾波器的變體獲得一種對數(shù)據進行非線性運算的斑點抑制方法,可以有效抑制散斑噪聲,提升目標檢測精度。金鳳來等[30]結合改進的Lee 濾波與中值濾波,提出了一種新的聲吶圖像處理方法。然而,基于小波理論的方法計算量較大,實時性差,缺乏實用性;基于Lee 濾波等常用的散斑抑制方法也存在無法平衡濾波效果與邊緣檢測的局限性。為解決之前方法存在的弊端,郭海濤等[31]設計了一種抑制聲吶圖像散斑噪聲的多尺度多方向結構元素的兩級級聯(lián)形態(tài)學濾波器,在一定程度上解決了散斑噪聲嚴重影響基于聲吶圖像的海底小目標檢測的問題。
表3 應用于聲吶圖像水下目標檢測的數(shù)學形態(tài)學方法對比Table 3 Comparison of mathematical morphology methods applied to sonar image in underwater target detection
在處理聲吶圖像進行水下目標檢測特別是運動目標檢測時,常用的基于像素的方法主要有背景幀差法和消減法等。幀差法是用圖像流,即視頻序列中的相鄰幀作差分運算,根據閾值將得到的像素差值區(qū)域分為背景和前景,差值大于閾值的區(qū)域為前景,差值小于閾值的區(qū)域為背景。幀差法具有對動態(tài)背景不敏感、無需背景建模、計算簡單及實時性好等優(yōu)點。背景消減法又稱為背景減除法,適用于背景相對靜止情況下的水下運動目標檢測。背景消減法將視頻序列的當前幀與背景幀作差分運算,利用設置的閾值將像素差區(qū)域劃分為背景與前景,差值大于閾值的區(qū)域劃分為前景,小于閾值的區(qū)域劃分為背景。因此,背景消減法也可以理解為一種特殊的幀差法。崔杰等[32]提出了一種基于幀差法的多波束前視聲吶運動目標檢測方法,采用三幀差分法,從三幀聲吶數(shù)據中得到運動目標的二值圖像,從而實現(xiàn)運動目標的檢測。但是,幀差法也存在空洞現(xiàn)象,不易獲取完整準確的水下運動目標的輪廓。為解決這一問題,崔杰等[33]又提出了一種基于聲吶圖像序列的背景消減法的改進Mean Shift 水下運動目標檢測算法,經實驗驗證,該算法可以取得更高的檢測精度。然而,背景減除法也具有對光照變化和背景變化十分敏感的缺陷。結合多種基于像素方法進行聲吶圖像的水下目標檢測任務已成為趨勢,多種算法的結合可以發(fā)揮不同算法的優(yōu)勢并在一定程度上彌補其中單一算法的局限性,Liu 等[34]結合背景減除法與三幀差分法,提出了一種更適應水下復雜環(huán)境和光照條件的水下目標檢測方法。
相比于幀差法等傳統(tǒng)的基于像素的目標檢測算法,恒虛警率(constant false alarm rate,CFAR)算法也常被應用于高分辨水下圖像的目標檢測。CFAR算法在聲吶圖像處理領域已經非常成熟,并具有較高處理效率。Kalyan 等[35]將CFAR 技術應用到聲吶目標檢測任務中,使用平均決策閾值(average decision threshold,ADT)作為度量,該方法 可以較好地克服目標干擾,實現(xiàn)水下目標檢測。Li 等[36]將CFAR 應用于聲吶圖像的處理,提出了一種基于雙參數(shù)自適應窗口的聲吶圖像目標檢測方法,可以實現(xiàn)對復雜多目標的高精度檢測。但由于CFAR 算法是基于局部滑動窗口對聲吶圖像進行逐像素檢測,會產生計算速度低的問題。為解決這一問題,CFAR 算法的諸多改進算法被提出,比如單元平均恒虛警率(cell averaging-constant false alarm rate,CA-CFAR)、有序統(tǒng)計恒虛警率(order statistics-constant false alarm rate,OS-CFAR)等。相比于原始CFAR 算法,CA-CFAR 算法通過對圖像中單個像素的能量與檢測閾值比較來判定是否為檢測目標,其自適應檢測閾值根據背景雜波的分布函數(shù)和設定的虛警率計算得到,因此可以取得比CFAR 算法更低的復雜度與更高的運算速度。Villar 等[37]提出了一種基于OS-CFAR 的側掃聲吶圖像目標檢測方法,在總任務的基礎工作即目標檢測階段,應用OS-CFAR以克服環(huán)境波動,該算法相比傳統(tǒng)CFAR 算法速度更快,且在高分辨率下能有更優(yōu)的性能。
近年,基于深度學習的目標檢測方法逐漸成為主流。基于深度學習的目標檢測方法主要分為一階段和二階段,又分別被稱為基于候選區(qū)域的目標檢測方法與基于回歸的目標檢測方法。2020 年后,DETR(detection transformer)方法的提出也為聲吶圖像的水下目標檢測領域帶來了新活力。目前,基于深度學習的方法在聲吶圖像的水下目標檢測任務中已取得了廣泛應用與良好效果。
以區(qū)域卷積神經網絡(region-convolutional neural network,R-CNN)[38]及其改進算法快速區(qū)域卷積神經網絡(Fast R-CNN)[39]、更快速區(qū)域卷積神經網絡(Faster R-CNN)[40]等為代表的二階段目標檢測算法先由算法生成一系列作為樣本的候選框,再通過CNN 進行樣本分類,其算法流程圖如圖1所示。這種將目標檢測任務分解為2 個階段的方式精度很高,但也存在實時性差的缺點。
圖1 二階段目標檢測算法流程圖Fig.1 Flow chart of two-stage target detection algorithm
曾文冠等[41]將Faster R-CNN 模型(見圖2)應用到聲吶圖像中的海星、貝類等水下目標的檢測任務中,全類平均精度(mean average precision,mAP)可達63.03%,單張圖像的處理時長可達1.172 s,均優(yōu)于傳統(tǒng)的目標檢測方法。
圖2 Faster R-CNN 示意圖Fig.2 Diagram of Faster R-CNN
針對之前應用Faster R-CNN 模型的聲吶圖像水下目標檢測系統(tǒng)所存在的參數(shù)量過大、訓練復雜度高、檢測速度慢等問題,Fang 等[42]使用一系列CNN 提取圖像特征,并構造RPN 提取可能包含目標的區(qū)域,提出了更為優(yōu)化的基于Faster R-CNN的聲吶圖像目標檢測方法。Ma 等[43]也提出了基于優(yōu)化的Faster R-CNN的目標檢測方法,引入了噪聲對抗網絡(noise adversarial networks,NAN)解 決聲吶圖像質量受環(huán)境噪聲干擾嚴重的問題。然而,二階段目標檢測模型的噪聲魯棒性存在缺陷,不利于聲吶圖像的目標檢測,馬麒翔[44]在二階段模型Faster R-CNN 的基準上進行改進,引入對抗學習方法提高了目標檢測模型的噪聲魯棒性,并利用生成對抗網絡生成樣本,改善了聲吶圖像樣本稀少導致的模型過擬合、泛化性差等問題,相比原始二階段目標檢測模型,精度提升了4.8%[45]。
以YOLO 系列、輕量級目標檢測SSD(single shot multi-box detector)系列為代表的一階段目標檢測方法直接回歸物體的類別概率和位置坐標值[46-47],因此速度遠快于二階段目標檢測方法,其算法流程如圖3 所示,最終會得到反映是否包含目標的置信度(confidence)參數(shù)與描述包圍框位置的坐標參數(shù)。但一階段目標檢測方法直接通過主干網絡給出物體類別和位置信息,沒有使用RPN 網絡,所以其精度略低于二階段目標檢測方法。一階段目標檢測更適應于對實時性與檢測效率要求高的任務,因而在水下目標檢測中效果顯著。
圖3 一階段目標檢測算法流程圖Fig.3 Diagram of one-stage targe detection algorithm
目前基于深度學習的聲吶圖像目標檢測所面臨的挑戰(zhàn)主要有兩方面:一方面是相關數(shù)據集較少且圖像樣本不足;另一方面是檢測精度與速度之間的平衡。Wu[48]將YOLO-v3 模型應用于聲吶圖像水下目標檢測任務中,以數(shù)據增強策略解決樣本不足問題,以重新構建骨干網絡的方式解決檢測效率低的問題。然而,YOLO-v3 模型也存在局限,因此研究者更傾向于將改進后的YOLO 模型應用到水下目標檢測中。王霞等[49]利用改進后的Tiny-YOLO-v3 模型設計了一種更適應于水下小目標檢測的方法,通過圖像去噪的方式應對樣本不足的問題,并通過采用輕量化YOLO 模型的方式應對實時性不足的問題。Fan 等[50]將YOLOv4 模型應用到聲吶圖像水下目標檢測中,改進YOLO-v4 的主干網絡以解決原始網絡模型參數(shù)量較大、模型深度過深引起的速度較慢的問題;改進特征增強模塊以解決樣本不足的問題。Yu 等[51]提出了一種基于YOLO-v5 的側掃聲吶圖像水下目標檢測算法TR-YOLO-v5,通過引入注意力機制、添加Transformer 模塊,以適應聲吶圖像目標稀疏、特征貧乏的特點,從而提升檢測精度;引入數(shù)據增強技術生成更多具有水下目標的側掃聲吶圖像,以解決樣本缺乏的問題;在訓練中使用錨聚類方法,以提高收斂速度[52]。
SSD 網絡也是基于聲吶圖像的水下目標檢測領域常用的一階段目標檢測網絡。SSD 網絡與YOLO 網絡的對比如表4 所示。與YOLO 類似,SSD 算法將目標檢測任務的目標判定與目標識別合而為一,省去區(qū)域提名環(huán)節(jié),對輸入的聲吶圖像直接傳入CNN,在不同尺度的卷積層提取特征,從而完成水下目標檢測任務。凡志邈等[53]采用SSD網絡實現(xiàn)基于聲吶圖像的水下單目標檢測,并通過實驗驗證其精度與速度優(yōu)于傳統(tǒng)的水下目標檢測方法。然而原始的SSD 模型存在小目標檢測精度低、模型參數(shù)過大等問題。因此對二階段目標檢測方法進行改進,再應用到水聲圖像的目標檢測中更能滿足特定應用場景的需求。李寶奇等[54]利用可擴張、可選擇的卷積核模塊(ESK)重新搭建了SSD 的基礎網絡與附加特征提取網絡,并采用SSD 的輕量化模型SSD-MV2,最終構建了SSDMV2ESK 模型,在水聲圖像目標檢測的精度上比原始算法提高了4.71%,速度也得到了提升。
表4 YOLO 與SSD 的對比Table 4 Comparison between YOLO and SSD
基于深度學習的聲吶圖像目標檢測目前的研究難點包括數(shù)據集不足、小目標檢測精度低、實時性差及準確率低等,這與水下環(huán)境的復雜性與聲吶成像的特殊性有關。一階段模型更為輕便快速,二階段模型更為精確,在實際使用中往往根據應用需求進行選擇與改進。
DETR[55]是Facebook 團隊提出的基于Transformer[56]的端到端的目標檢測算法,將目標檢測視為集合預測的問題,從全局上將檢測出的目標整體視為目標,而不是單獨預測感興趣物體。相比于主流檢測算法Faster-RCNN、YOLO 等,其舍棄了定義與編碼錨框、非極大值抑制等操作,實現(xiàn)了端到端。湯寓麟等[57]將DETR 與YOLO 模型融合,并引入通道注意力機制,加入多尺度特征復融合模塊,提出一種適用于側掃聲吶圖像的沉船目標檢測算法DETR-YOLO,并驗證了DETR 算法具有只用少量錨框即可完成目標預測的特征,可提升水下小目標檢測精度,并使模型輕量化,實時性更強。
相比于傳統(tǒng)算法,深度學習在目標檢測的特征提取方面具有顯著優(yōu)越性,但深度學習是由數(shù)據驅動的,當數(shù)據集規(guī)模不夠大時,容易造成過擬合的問題。而遷移學習的方法可以將大規(guī)模數(shù)據集上訓練好的模型遷移到體量較小的數(shù)據集上,再進行微調[58]。近些年,由于聲吶圖像相關數(shù)據集所存在的樣本少、無法大量獲取有標記的數(shù)據等問題,遷移學習被廣泛應用到水下目標檢測任務中。
朱兆彤等[59]提出了一種利用遷移學習訓練深度CNN 實現(xiàn)聲吶圖像目標檢測的方法,利用遷移學習的思想,通過對已有的訓練網絡進行微調與再訓練,達到了更優(yōu)的檢測率與速度。武鑠等[60]提出了一種融合遷移學習與深度學習的側掃聲吶圖像檢測方法,先用強相關數(shù)據集與弱相關數(shù)據集訓練網絡,再用Shipwreck 數(shù)據集進行網絡訓練,經實驗驗證,采用遷移學習比未采用時正確率提高了9.81%,且小目標的檢測正確率與泛化性提升明顯。
與之前研究中利用結構較簡單的深度卷積神經網絡構建基于遷移學習和深度學習的聲吶圖像目標檢測系統(tǒng)不同,于淼[61]利用遷移模型,在利用組合池化方式豐富特征層的改進后的YOLO-v3模型上訓練數(shù)據,并通過生成對抗網絡擴充數(shù)據集,最終實現(xiàn)準確快速的目標檢測。盛子旗等[62]將在ImageNet 數(shù)據集中預訓練好的VGG16 網絡、Darknet53 網絡的初始參數(shù)遷移到深度學習模型Faster R-CNN、SSD 和YOLO-v3 中,并通過真實樣本與仿真樣本結合的方法進行實驗,提升了水雷目標檢測精度。Tang 等[63]將在COCO(common objects in context)數(shù)據集上訓練的部分卷積層進行YOLO-v3 模型的遷移學習,并改進了特征金字塔網絡與多尺度特征融合操作,完成針對側掃聲吶圖像的水下目標檢測。
為進一步兼顧精度與速度,許多結合深度學習、遷移學習以及傳統(tǒng)方法的水下圖像目標檢測方法也被提出。付同強等[64]將數(shù)理統(tǒng)計特性、形態(tài)學濾波的思想應用到深度學習框架中,并通過遷移學習進行微調,最終提出一種采用優(yōu)化二維變分模態(tài)分解(two dimensions vavational mode decomposition,2D-VMD)與小波變換的,利用遷移學習再訓練深度學習模型Inception V3 的水下目標檢測方法。
聲吶圖像的獲取與標注十分困難且成本較高,而小樣本的數(shù)據集用于深度學習訓練時的局限性較大。針對此問題,聯(lián)合遷移學習和深度學習的方法已取得較好的解決效果,在一定程度上解決了基于聲吶圖像的水下目標檢測所面對的數(shù)據集不足、小目標檢測精度低、效率較低等難題。
在目前國際形勢嚴峻、經濟發(fā)展高速、挑戰(zhàn)與機遇并存的情況下,海洋資源的勘探與開發(fā)、海域軍事部署、水下武器反爆破等民用與軍事領域都需要水下目標檢測技術提供支持。基于聲吶圖像的水下目標檢測受到廣泛關注,取得了諸多研究成果,同時也存在多項挑戰(zhàn)。
在基于聲吶圖像的水下目標檢測領域,傳統(tǒng)方法可以利用聲吶圖像的數(shù)理統(tǒng)計特性、數(shù)學形態(tài)學處理、圖像幀之間的像素差異等實現(xiàn)較有效的目標檢測,但其精度與速度都存在很大的局限性;基于深度學習的目標檢測由于其精度與速度上的顯著優(yōu)越性,已成為主流方法;但聲吶圖像相關數(shù)據集的不足又會限制深度學習的訓練,為應對樣本不足,遷移學習與深度學習被結合應用于聲吶圖像目標檢測任務?,F(xiàn)有技術可以有效地實現(xiàn)聲吶圖像的水下目標檢測,但精度與速度都仍有較大提升空間,且存在受環(huán)境因素影響大、對聲吶圖像質量要求高、小目標漏檢及誤檢率較高等問題。當前,我國在聲吶圖像的水下目標檢測應用領域已走在世界前列,但在目標檢測的模型構建和算法更新上原創(chuàng)性不足,理論支撐較薄弱,與國外仍存在客觀差距。
水下環(huán)境復雜多變,聲吶圖像目標檢測還存在亟待解決的難題,如小尺度目標的檢測、實時檢測等,未來可以對水下聲吶圖像的目標檢測的發(fā)展趨勢作出以下預測:1)由于水下小目標具有特征提取困難的特點,如何實現(xiàn)對其的精準檢測是未來研究的重要課題;2)由于聲吶圖像在成像方式、圖像特征、應用場景等方面具有區(qū)分于普通圖像的特殊性,因此如何改進聲吶圖像的預處理對未來水下目標檢測的發(fā)展具有重要意義;3)多種算法與模型的融合成為未來研究趨勢,比如傳統(tǒng)方法、深度學習方法、遷移學習方法的融合等;4)更輕量化的水下目標檢測模型成為未來研究熱點。