蔣昕昊, 蔡偉, 張志利, 姜波, 楊志勇, 王鑫
(火箭軍工程大學(xué) 導(dǎo)彈工程學(xué)院, 陜西 西安 710025)
在自然界,部分生物為了提升生存能力,可以對(duì)自身外形特征進(jìn)行自適應(yīng)偽裝,或者根據(jù)適者生存的原則保留與棲息地環(huán)境更融合的外形特征,從而避免被攻擊者捕食以及更好地埋伏獵物[1]。前者如變色龍,身體表皮顏色可以隨外界環(huán)境做出變化[2],后者如白蛾與黑蛾的適者生存實(shí)例。
近年來(lái),隨著科學(xué)技術(shù)的進(jìn)步,仿生動(dòng)物偽裝技術(shù)在高科技戰(zhàn)爭(zhēng)中得到了廣泛應(yīng)用,如不斷推陳出新的軍用迷彩服和偽裝網(wǎng)[3],根據(jù)戰(zhàn)場(chǎng)環(huán)境的差異針對(duì)性設(shè)計(jì)出的荒漠迷彩、叢林迷彩等具有高偽裝性能的偽裝裝備。狙擊手可以利用偽裝技術(shù)躲避敵方搜索,特種車輛、裝甲車可以利用偽裝技術(shù)騙過(guò)敵方可見(jiàn)光偵察。圖1所示士兵和坦克憑借迷彩服、迷彩涂層以及地物遮擋等因素,近乎完美地達(dá)到了與背景融為一體的效果。
圖1 軍用偽裝目標(biāo)示例Fig.1 Example of military camouflaged object
但是,現(xiàn)階段的可見(jiàn)光COS研究寥寥無(wú)幾。在軍事領(lǐng)域中,往往會(huì)通過(guò)借助紅外、高光譜、偏振等其他技術(shù)識(shí)別偽裝目標(biāo)[4-6],雖然在一定程度上緩解了可見(jiàn)光識(shí)別偽裝目標(biāo)的局限性,卻忽略了可見(jiàn)光波段下如何精準(zhǔn)分割偽裝目標(biāo)這一科學(xué)問(wèn)題的研究??梢?jiàn)光波段的偽裝目標(biāo)精確分割仍是需要解決的技術(shù)難題。因此,必須提出一種可提高可見(jiàn)光波段偽裝目標(biāo)分割(COS)準(zhǔn)確率的算法。
針對(duì)現(xiàn)實(shí)需求,本文提出了一種基于人類視覺(jué)系統(tǒng)的COS網(wǎng)絡(luò)—COSNet的可見(jiàn)光波段COS算法。首先,根據(jù)場(chǎng)景多樣、類別多樣、目標(biāo)偽裝效果多樣的數(shù)據(jù)集構(gòu)建原則,構(gòu)建出數(shù)據(jù)集MiCOD。然后針對(duì)性地構(gòu)建出COSNet網(wǎng)絡(luò)模型,模型由特征提取模塊、聚焦放大模塊和多尺度特征圖融合模塊3部分組成。其中,針對(duì)偽裝目標(biāo)與背景融合度高的特點(diǎn)設(shè)計(jì)的聚焦放大模塊為模型關(guān)鍵模塊,通過(guò)模擬人類視覺(jué)系統(tǒng)以提高分割精度。包含兩個(gè)關(guān)鍵串行模塊,即關(guān)鍵點(diǎn)聚焦模塊和感受野放大模塊。關(guān)鍵點(diǎn)聚焦模塊通過(guò)模擬人類注意力高度集中的觀察過(guò)程降低虛警率,而感受野放大模塊用以增大觀測(cè)感受野以提升分割精度。最后為COS設(shè)計(jì)了更加適用的關(guān)鍵點(diǎn)區(qū)域加權(quán)感知損失,通過(guò)權(quán)重給予偽裝目標(biāo)更高的關(guān)注度。
本文的主要貢獻(xiàn)如下:
1)構(gòu)建了以模擬真實(shí)戰(zhàn)場(chǎng)環(huán)境為基礎(chǔ),具有多樣性場(chǎng)景和目標(biāo)的MiCOD,通過(guò)大量實(shí)驗(yàn)證明可為COS的研究提供有效的數(shù)據(jù)支撐。
2)基于人類視覺(jué)系統(tǒng)提出了一種可見(jiàn)光波段COSNet,針對(duì)性設(shè)計(jì)了關(guān)鍵點(diǎn)聚焦模塊和感受野放大模塊的串行結(jié)構(gòu),提出了關(guān)鍵點(diǎn)區(qū)域加權(quán)感知損失以提升分割效果。
3)所提出的COSNet網(wǎng)絡(luò)在自建數(shù)據(jù)集上和通用數(shù)據(jù)集上均有最好的表現(xiàn)性能,各項(xiàng)指標(biāo)均優(yōu)于已公開的優(yōu)秀算法。
本節(jié)主要對(duì)與本文相關(guān)的可見(jiàn)光COS算法和語(yǔ)義分割算法進(jìn)行梳理。
1)可見(jiàn)光COS算法。2020年可以作為基于深度學(xué)習(xí)的可見(jiàn)光偽裝目標(biāo)識(shí)別的研究元年,有許多學(xué)者對(duì)此開展了研究。周靜等[7]提出了基于光流場(chǎng)分割的偽裝色運(yùn)動(dòng)目標(biāo)傳統(tǒng)檢測(cè)算法。Fan等提出了比較完備的通用偽裝目標(biāo)數(shù)據(jù)集COD10K,并提出了相應(yīng)的COS網(wǎng)絡(luò)SINet,推動(dòng)了偽裝目標(biāo)識(shí)別的快速發(fā)展[8],但該數(shù)據(jù)集未收錄軍用偽裝目標(biāo)。2021年,Mei等模擬動(dòng)物捕食過(guò)程,提出了基于分心挖掘的COS網(wǎng)絡(luò)PFNet[9],但該算法由粗到細(xì)的定位聚焦比較耗時(shí)??偨Y(jié)來(lái)看,現(xiàn)有的COS模型在設(shè)計(jì)原理和網(wǎng)絡(luò)結(jié)構(gòu)上都比較復(fù)雜。
2)基于深度學(xué)習(xí)的圖像分割算法。近年來(lái),通過(guò)逐像素進(jìn)行圖像分類的語(yǔ)義分割技術(shù)作為圖像理解的高級(jí)任務(wù),得到了廣泛的研究[10-12]。大量基于深度學(xué)習(xí)的語(yǔ)義分割工作相繼被提出[13-16]。目前主要可以分為基于全卷積網(wǎng)絡(luò)(FCN)[17]、卷積神經(jīng)網(wǎng)絡(luò)(CNN)[18]、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[19]和對(duì)抗神經(jīng)網(wǎng)絡(luò)(GAN)[20]4種。與此同時(shí),還衍生出基于深度學(xué)習(xí)的顯著目標(biāo)分割和醫(yī)學(xué)圖像分割等應(yīng)用。
數(shù)據(jù)集的質(zhì)量直接決定了網(wǎng)絡(luò)模型訓(xùn)練的優(yōu)劣,在極大程度上影響著模型的落地應(yīng)用。而偽裝目標(biāo)數(shù)據(jù)集的制作十分困難,因?yàn)閭窝b目標(biāo)和背景有較高的“融合度”,相似性極強(qiáng),難以區(qū)分目標(biāo)和背景的分界線。當(dāng)前使用量最多的通用偽裝目標(biāo)數(shù)據(jù)集主要有2個(gè):1)CAMO數(shù)據(jù)集包含8個(gè)種類的 1 250張偽裝圖像[21];2)COD10K通用偽裝目標(biāo)數(shù)據(jù)集,具有78子類的10 000張圖像,該數(shù)據(jù)集標(biāo)注十分精細(xì),具有相當(dāng)大的挑戰(zhàn)性[8]。
軍用偽裝目標(biāo)由于價(jià)值極高,難以獲取公開的圖像和數(shù)據(jù),制備難度極大,并且在真實(shí)的戰(zhàn)場(chǎng)環(huán)境中偽裝目標(biāo)并不是時(shí)時(shí)刻刻出現(xiàn)的,大量不含偽裝目標(biāo)的自然場(chǎng)景是對(duì)網(wǎng)絡(luò)模型的極大挑戰(zhàn)。使用通用偽裝目標(biāo)數(shù)據(jù)集難以保證適用于軍用偽裝目標(biāo)的分割,因此收集構(gòu)建完備的軍用偽裝數(shù)據(jù)集具有極高的軍事意義[22]。
軍用偽裝數(shù)據(jù)集的構(gòu)建需要滿足以下原則:
1)軍用偽裝目標(biāo)類別多樣;
2)采集場(chǎng)景多樣;
3)環(huán)境條件多樣。
遵循以上條件構(gòu)建的多樣性軍用偽裝目標(biāo)數(shù)據(jù)集,既能滿足圖像分割的基本條件,又可以防止數(shù)據(jù)量少帶來(lái)的過(guò)擬合現(xiàn)象,還能提升網(wǎng)絡(luò)模型的分割魯棒性。
需要注意的是,在現(xiàn)實(shí)環(huán)境中偽裝目標(biāo)并不總是存在于所有圖像中。因此在數(shù)據(jù)集中添加了大量的真實(shí)場(chǎng)景不含偽裝目標(biāo)實(shí)例的圖像,以更加符合真實(shí)的戰(zhàn)場(chǎng)環(huán)境,減小虛警率。
綜上所述,軍用偽裝數(shù)據(jù)集使用可見(jiàn)光攝像機(jī)實(shí)地采集、網(wǎng)絡(luò)搜集典型軍用偽裝目標(biāo)數(shù)據(jù)相結(jié)合的方式進(jìn)行構(gòu)建。
首先對(duì)采集到的所有數(shù)據(jù)按照構(gòu)建原則進(jìn)行二次篩選,保留拍攝效果好、應(yīng)用價(jià)值高的影像資料,剔除無(wú)用數(shù)據(jù)。編程實(shí)現(xiàn)視頻取幀,生成連續(xù)的圖像數(shù)據(jù)。
其次通過(guò)數(shù)據(jù)增廣緩解樣本數(shù)量少、分布不均衡的情況。為保證增廣后的數(shù)據(jù)滿足實(shí)際環(huán)境,內(nèi)容自然,采用隨機(jī)增廣策略,按照隨機(jī)概率對(duì)數(shù)據(jù)進(jìn)行平移、水平/垂直翻轉(zhuǎn)、旋轉(zhuǎn)、縮放、裁剪、剪切、對(duì)比度處理、色彩抖動(dòng)處理等操作。對(duì)比度和色彩變化等操作通過(guò)Pytorch函數(shù)實(shí)現(xiàn)。圖像變換公式為
(1)
式中:xorg和yorg表示變換前的圖像坐標(biāo);xpro和ypro表示變換后的圖像坐標(biāo);H表示變換矩陣,包括但不限于表1內(nèi)的變換矩陣。表1中,Hshift為平移矩陣,dx和dy為橫縱坐標(biāo)移動(dòng)的距離常數(shù),Hrotation為旋轉(zhuǎn)矩陣,θ為順時(shí)針旋轉(zhuǎn)角,Hhorizon為水平翻轉(zhuǎn)矩陣,Hvertical為垂直翻轉(zhuǎn)矩陣,Hscale為縮放矩陣,sx和sy為水平縮放因子和垂直縮放因子,Hshear為錯(cuò)切矩陣,shx和shy為水平錯(cuò)切角和垂直錯(cuò)切角。此外,數(shù)據(jù)增廣還可采用組合增廣(多矩陣相乘)的方式。
表1 變換矩陣
而后通過(guò)標(biāo)注工具Labelme對(duì)數(shù)據(jù)集進(jìn)行像素級(jí)分割標(biāo)注,獲取數(shù)據(jù)集中所有的分割真值圖(GT),用于模型的分割訓(xùn)練和測(cè)試結(jié)構(gòu)的精確驗(yàn)證。
通過(guò)2.3節(jié)的數(shù)據(jù)集處理步驟,最終構(gòu)建出所需的MiCOD,數(shù)據(jù)集的概況如表2所示,共4 000張。數(shù)據(jù)集處理后按照一一對(duì)應(yīng)命名放置,每一類的示例圖如圖2所示。
圖2 數(shù)據(jù)集示例(左為RGB圖像,右為真值圖)Fig.2 Example of dataset (RGB images on the left, GT maps on the right)
表2 數(shù)據(jù)集概況
Hall等[23]通過(guò)實(shí)驗(yàn)證明,識(shí)別圖像中的偽裝目標(biāo)與注意力集中程度和觀測(cè)時(shí)間呈正比。這是因?yàn)楫?dāng)人觀測(cè)一幅圖像時(shí),往往會(huì)首先關(guān)注圖像中的顯著區(qū)域,但當(dāng)集中注意力避免分心時(shí),便可以聚焦搜索到圖像中的可疑區(qū)域,進(jìn)而以此為中心,逐步增大觀測(cè)面積直至確定目標(biāo)。
圖3 COSNet目標(biāo)分割模型網(wǎng)絡(luò)結(jié)構(gòu)聚焦放大模塊真值圖Fig.3 Network structure of COSNet object segmentation model
(2)
下面分別對(duì)3個(gè)組成部分和損失函數(shù)的設(shè)計(jì)思路和具體實(shí)現(xiàn)進(jìn)行詳細(xì)論述。
3.2.1 關(guān)鍵點(diǎn)聚焦模塊KPFM
圖4 關(guān)鍵點(diǎn)聚焦模塊結(jié)構(gòu)圖Fig.4 Diagram of KPFM structure
(3)
(4)
(5)
3.2.2 感受野放大模塊RFAM
圖5 感受野放大模塊結(jié)構(gòu)圖Fig.5 Diagram of RFAM structure
(6)
算法1多尺度特征圖融合模塊。
# 1.首輪融合操作
# 2.次輪融合操作
# 3.末輪生成操作
在大量的目標(biāo)分割算法中,二元交叉熵(BCE)函數(shù)和交并比(IOU)損失最為常見(jiàn)[25]。然而BCE損失和IOU損失平均處理每個(gè)像素點(diǎn)的方式不能適用于偽裝目標(biāo)檢測(cè)。在圖像中,偽裝物體相比于其他物體(尤其是顯著性物體),由于其難以分辨的特性,需要更加關(guān)注。
結(jié)合設(shè)計(jì)的聚焦放大模塊,本文提出一種關(guān)鍵點(diǎn)區(qū)域加權(quán)感知損失Lkawa,在BCE損失和IOU損失的基礎(chǔ)上,加入關(guān)鍵點(diǎn)區(qū)域感知權(quán)重,聯(lián)合得到Lkawa損失函數(shù):
Lkawa=Lwbce(P,GT)+Lwiou(P,GT)
(7)
(8)
(9)
式中:P為預(yù)測(cè)圖;GT為真值圖;Lbce(P,GT)為原始BCE損失函數(shù);wij為關(guān)鍵點(diǎn)區(qū)域感知權(quán)重,
(10)
2)范圍越大越需要更大的計(jì)算量,意味著訓(xùn)練速度越慢,因此應(yīng)使用保證有效的最小值;
3) 應(yīng)避免出現(xiàn)權(quán)重等于1/2的情況,故選取奇數(shù)。
總結(jié)以上3點(diǎn),本文選取17×17大小的區(qū)域范圍。從式(10)中可以看出,無(wú)論偽裝目標(biāo)在該區(qū)域的占比如何,關(guān)鍵點(diǎn)區(qū)域感知權(quán)重均能給予偽裝目標(biāo)較高的關(guān)注度,從而使得模型訓(xùn)練朝著有利于分割偽裝目標(biāo)的方向進(jìn)行。
實(shí)驗(yàn)訓(xùn)練測(cè)試階段使用的硬件平臺(tái)配置為:顯卡為NVIDIA Quadro GV100,顯存為32 GB,使用Pytorch深度學(xué)習(xí)開發(fā)框架。CPU為Inter Xeon Silver 4210,操作系統(tǒng)為Windows 10操作系統(tǒng)。訓(xùn)練時(shí)使用Adam優(yōu)化器進(jìn)行網(wǎng)絡(luò)優(yōu)化,圖片輸入大小設(shè)置為352×352,學(xué)習(xí)率設(shè)置為0.000 1。
采用3種設(shè)置方式對(duì)網(wǎng)絡(luò)和訓(xùn)練方式進(jìn)行綜合性評(píng)估:
1)遵循通用偽裝目標(biāo)數(shù)據(jù)集的設(shè)置方式,假設(shè)每幅圖像均含有偽裝目標(biāo)。即只在包含偽裝目標(biāo)的圖像上進(jìn)行訓(xùn)練和測(cè)試。將2 700張含有偽裝目標(biāo)的圖像采用6∶2∶2的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。此種訓(xùn)練方式更能證明網(wǎng)絡(luò)的分割準(zhǔn)確性的高低。
2)模擬真實(shí)的戰(zhàn)場(chǎng)環(huán)境,即偽裝目標(biāo)并不總是在視場(chǎng)中出現(xiàn),即在所有圖像上進(jìn)行訓(xùn)練和測(cè)試。將4 000張圖像采用6∶2∶2的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。此種訓(xùn)練方式更能證明網(wǎng)絡(luò)的分割虛警率的高低。
3)為證明COSNet算法的泛化性,使用公開的通用偽裝目標(biāo)數(shù)據(jù)集進(jìn)行綜合性評(píng)估。通用偽裝目標(biāo)數(shù)據(jù)集選取CAMO[21]以及COD10K數(shù)據(jù)集[8],CAMO有1 250張圖像,COD10K有5 066張偽裝圖像,一共組合為6 316張圖像,按照6∶2∶2的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
目前適用于COS的指標(biāo)很多,各項(xiàng)指標(biāo)關(guān)注點(diǎn)均不同,選取了8種常用的評(píng)價(jià)指標(biāo)。平均絕對(duì)誤差(MAE)計(jì)算的是預(yù)測(cè)圖和真值對(duì)應(yīng)位置之間的像素差異的絕對(duì)值之和[26];結(jié)構(gòu)度量Sm是一種結(jié)構(gòu)相似性評(píng)價(jià)指標(biāo),著重評(píng)估預(yù)測(cè)圖的結(jié)構(gòu)信息[27];自適應(yīng)E-MeasureadpEm可以評(píng)估像素級(jí)相似效果,也可以獲取圖像級(jí)統(tǒng)計(jì)信息[28];自適應(yīng)F-MeasureadpFm是一種綜合的關(guān)于預(yù)測(cè)圖精確度和召回率的評(píng)估方法[29];平均dice系數(shù)Dicmean用以計(jì)算分割準(zhǔn)確的面積占GT圖像中真實(shí)面積的百分比[30];平均交并比IOUmean計(jì)算的是分割預(yù)測(cè)圖和GT圖之間的交集與并集的面積比;平均靈敏度Senmean可以衡量實(shí)際為正樣本的結(jié)果有多少被預(yù)測(cè)為了正樣本,靈敏度越高則漏檢率越低;平均特異度Spemean可以衡量實(shí)際為負(fù)樣本的結(jié)果有多少被預(yù)測(cè)為了負(fù)樣本,特異度越高,虛警率就越低。
為了證明本文COSNet算法的有效性,選取8個(gè)經(jīng)典算法以及最新算法進(jìn)行比較。其中包括醫(yī)學(xué)圖像分割算法UNet++[31]、PraNet[32]、UACANet-L[33],顯著性目標(biāo)分割算法BASNet[34]、SCRN[35]、F3Net[25]和COS算法SINet-V1[8]、PFNet[9]。
為了公平地比較算法的分割性能,所有算法均采用4.1節(jié)提出的實(shí)驗(yàn)配置平臺(tái)和實(shí)驗(yàn)參數(shù)設(shè)置,輸入尺寸均設(shè)置為352×352。此外,評(píng)價(jià)指標(biāo)的計(jì)算均采用同一套代碼。評(píng)測(cè)代碼、測(cè)試圖片及評(píng)測(cè)結(jié)果將公布在:https:∥github.com/jiangxinhao2020/COD-eval。
4.5.1 對(duì)比結(jié)果1(每幅圖片均含有偽裝目標(biāo))
表3為本文COSNet算法與其他8種算法在MiCOD數(shù)據(jù)集上的實(shí)驗(yàn)對(duì)比結(jié)果。由于每張圖像上均有偽裝目標(biāo),對(duì)于各種優(yōu)秀網(wǎng)絡(luò)的挑戰(zhàn)性不強(qiáng),主要體現(xiàn)了網(wǎng)絡(luò)本身的特征提取能力和分割精準(zhǔn)度。由表3可以看出,COSNet算法在7項(xiàng)指標(biāo)上達(dá)到最優(yōu),綜合分割能力最好,尤其是平均靈敏度Senmean較最新算法UACANet-L提升了6%,這意味著COSNet算法具有最低的漏檢率。由于每張圖像均有偽裝目標(biāo),故每種模型的平均特異度Spemean值均比較高,而COSNet算法仍高出1%,即說(shuō)明COSNet算法同時(shí)具有最低的虛警率。漏檢率和虛警率的平衡在實(shí)際應(yīng)用中尤為重要,代表了網(wǎng)絡(luò)模型的穩(wěn)定性。
表3 在自建MiCOD數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果1(每幅圖片均含有偽裝目標(biāo))
注:□表示醫(yī)學(xué)圖像分割算法,◇表示顯著性目標(biāo)分割算法,?表示COS算法。
4.5.2 對(duì)比結(jié)果2(模擬真實(shí)環(huán)境,每幅圖片不總是含有偽裝目標(biāo))
表4為模擬真實(shí)環(huán)境,數(shù)據(jù)集4 000張圖片全部參與訓(xùn)練測(cè)試時(shí)的實(shí)驗(yàn)結(jié)果。從表4中可以看出,相較于設(shè)置方式1的評(píng)價(jià)結(jié)果,僅有Sm和adpEm整體有所提升,這是因?yàn)镾m評(píng)估的是預(yù)測(cè)圖和真值圖之間的結(jié)構(gòu)相似性,adpEm的評(píng)價(jià)計(jì)算中則涉及全局統(tǒng)計(jì)平均值,大量不含偽裝目標(biāo)的圖像使得這兩項(xiàng)指標(biāo)平均下來(lái)得分較高。而其他評(píng)價(jià)指標(biāo)下降較大,表明模擬真實(shí)環(huán)境的MiCOD數(shù)據(jù)集對(duì)于目標(biāo)分割網(wǎng)絡(luò)模型十分具有挑戰(zhàn)性。但在本文實(shí)驗(yàn)中,COSNet算法在8項(xiàng)指標(biāo)上均優(yōu)于其他算法,其中,平均交并比IOUmean提升最為明顯,較最新算法UACANet-L大幅提升了7.5%,實(shí)現(xiàn)了性能的顯著增強(qiáng),證明了本文提出的COSNet算法在MiCOD數(shù)據(jù)集上的有效性和精準(zhǔn)性。
表4 在自建MiCOD數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果2(每幅圖片不總是含有偽裝目標(biāo))
表5為本節(jié)在自建MiCOD數(shù)據(jù)集對(duì)比實(shí)驗(yàn)的可視化對(duì)比結(jié)果。由表5可以看出,COSNet算法能夠更加精準(zhǔn)地分割出偽裝目標(biāo)。關(guān)鍵點(diǎn)聚焦模塊通過(guò)模擬人類視覺(jué)注意力機(jī)制,可以獲取通道上和空間上更為重要的信息,從而可以精準(zhǔn)分割出偽裝目標(biāo)的細(xì)節(jié)區(qū)域(如圖像5坦克頂部的細(xì)節(jié)區(qū)域)。感受野放大模塊通過(guò)放大感受野和融合多尺度特征可以較好地識(shí)別出隱藏在復(fù)雜背景中的小目標(biāo)和細(xì)長(zhǎng)目標(biāo)(如圖像1中士兵手持的武器)。關(guān)鍵點(diǎn)區(qū)域加權(quán)感知損失函數(shù)的引入使得網(wǎng)絡(luò)模型更加關(guān)注偽裝目標(biāo)關(guān)鍵點(diǎn)附近區(qū)域,從而減少分割虛警率(如最后一列不含偽裝目標(biāo)的背景圖)。
表5 在自建MiCOD數(shù)據(jù)集上的可視化對(duì)比結(jié)果
4.5.3 對(duì)比結(jié)果3(通用偽裝目標(biāo)數(shù)據(jù)集)
COSNet算法與其他8種算法在通用偽裝目標(biāo)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比如表6所示。由表6可以看出,通用偽裝目標(biāo)數(shù)據(jù)集類別比較復(fù)雜,但COSNet算法仍能在7項(xiàng)指標(biāo)上優(yōu)于其他算法,其中提升最明顯的是adpFm,比UACANet-L算法提升了2.3%,僅有adpEm指標(biāo)與UACANet-L算法持平。綜合分析來(lái)看,COSNet在通用COS數(shù)據(jù)集上的泛化性能良好,證明了COSNet算法在COS這一任務(wù)上的優(yōu)勢(shì)。
表6 在通用偽裝目標(biāo)數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果
表7為通用偽裝目標(biāo)數(shù)據(jù)集全部對(duì)比實(shí)驗(yàn)的可視化結(jié)果。由表7可以看出,COSNet算法可以較好地排除其他干擾,精準(zhǔn)定位偽裝目標(biāo)關(guān)鍵點(diǎn),且能夠清晰地識(shí)別出目標(biāo)輪廓。依賴于關(guān)鍵點(diǎn)聚焦模塊,模型可以精準(zhǔn)分割出如圖像1中昆蟲觸須等細(xì)節(jié)區(qū)域,感受野放大模塊則使得模型可以適用于各個(gè)尺度的偽裝目標(biāo),如圖像4中的小目標(biāo)也能較好地分割出來(lái)。關(guān)鍵點(diǎn)區(qū)域加權(quán)感知損失函數(shù)則通過(guò)權(quán)重的變化使得網(wǎng)絡(luò)模型能夠處理如圖像3偽裝目標(biāo)被部分遮擋的情況。
為驗(yàn)證針對(duì)性設(shè)計(jì)的兩個(gè)仿生模塊(即關(guān)鍵點(diǎn)聚焦模塊KPFM和感受野放大模塊RFAM)的有效性,在數(shù)據(jù)集第1種設(shè)置方式(即每幅圖片均含偽裝目標(biāo))的條件下進(jìn)行了消融實(shí)驗(yàn)。
表8全面展示了COSNet算法的消融實(shí)驗(yàn)結(jié)果(√表示使用該模塊)。從表8中可以發(fā)現(xiàn),分別單獨(dú)添加兩個(gè)模塊后,對(duì)模型性能均有不同程度的提高。其中,單獨(dú)添加關(guān)鍵點(diǎn)聚焦模塊KPFM,對(duì)各項(xiàng)指標(biāo)雖提高不明顯,但該模塊的效果主要體現(xiàn)在對(duì)辨別特征圖的重要程度上(見(jiàn)定性分析);而單獨(dú)添加感受野放大模塊RFAM后,使得adpEm達(dá)到最優(yōu),這是因?yàn)镽FAM的感受野放大機(jī)制起了作用,提升了像素級(jí)相似效果,通過(guò)多尺度特征提取,實(shí)現(xiàn)了全局圖像級(jí)統(tǒng)計(jì)信息的高效利用。最終的融合圖則達(dá)到了性能上的綜合最優(yōu)效果。
表8 在自建MiCOD數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果
將關(guān)鍵點(diǎn)聚焦模塊KPFM和感受野放大模塊RFAM輸出的特征圖進(jìn)行可視化,并與最終融合后的特征圖進(jìn)行對(duì)比,結(jié)果如表9所示。KPFM輸出的特征圖證明了該模塊更加關(guān)注偽裝目標(biāo)的關(guān)鍵點(diǎn),即目標(biāo)中心區(qū)域,確保模型能夠找到正確的偽裝目標(biāo),從而降低復(fù)雜環(huán)境下目標(biāo)分割的虛警率;而RFAM模塊在找到關(guān)鍵點(diǎn)的基礎(chǔ)上,通過(guò)增大觀測(cè)感受野,從全局出發(fā)尋找偽裝目標(biāo),從而保留更多偽裝目標(biāo)的重要信息,可以有效解決多尺度目標(biāo)分割的難題。融合后的輸出偽裝特征圖結(jié)合了兩個(gè)模塊的特點(diǎn),實(shí)現(xiàn)了仿生人類視覺(jué)系統(tǒng)探測(cè)目標(biāo)的過(guò)程,可以以偽裝目標(biāo)中心為關(guān)鍵點(diǎn),通過(guò)放大感受野,精準(zhǔn)尋找關(guān)鍵點(diǎn)附近偽裝目標(biāo)的重要信息,以提高分割的準(zhǔn)確性,使得分割的漏檢率和虛警率實(shí)現(xiàn)較好的平衡。
表9 在自建MiCOD數(shù)據(jù)集上的消融實(shí)驗(yàn)可視化對(duì)比結(jié)果
為了實(shí)現(xiàn)更加精準(zhǔn)的COS,本文從數(shù)據(jù)集和網(wǎng)絡(luò)模型兩方面入手開展研究。首先依據(jù)現(xiàn)實(shí)需求和真實(shí)戰(zhàn)場(chǎng)環(huán)境,構(gòu)建了軍用偽裝目標(biāo)數(shù)據(jù)集MiCOD,共4 000張圖片,均為像素級(jí)標(biāo)注。然后通過(guò)仿生人類視覺(jué)系統(tǒng)構(gòu)建了COS網(wǎng)絡(luò)—COSNet,針對(duì)性設(shè)計(jì)了串行的關(guān)鍵點(diǎn)聚焦模塊和感受野放大模塊,且提出了更加適用的關(guān)鍵點(diǎn)區(qū)域加權(quán)感知損失函數(shù)。
在自建的MiCOD數(shù)據(jù)集和通用偽裝目標(biāo)數(shù)據(jù)集上進(jìn)行了充分的對(duì)比實(shí)驗(yàn),證明了COSNet在COS方面的綜合性性能優(yōu)勢(shì),8項(xiàng)指標(biāo)均達(dá)到最優(yōu)效果,且通過(guò)消融實(shí)驗(yàn)證明了COSNet關(guān)鍵模塊的作用原理和仿生效果。
使用模擬真實(shí)戰(zhàn)場(chǎng)環(huán)境的數(shù)據(jù)集時(shí),COSNet平均靈敏度Senmean為0.622,平均特異度Spemean為0.670,表明自建的MiCOD數(shù)據(jù)集具有一定的挑戰(zhàn)性,各項(xiàng)指標(biāo)仍有很大的提高空間,可為后續(xù)COS的研究提供較好的數(shù)據(jù)支持。