韓 彤,曹鐵勇,鄭云飛,王 楊,陳 雷,王燁奎,付炳陽
(1.陸軍工程大學(xué) 指揮控制工程學(xué)院,江蘇 南京 210007;2.95911部隊,甘肅 酒泉 735000;3.陸軍炮兵防空兵學(xué)院,江蘇 南京 211100;4.31401部隊,吉林 長春 130000)
迷彩偽裝是最基本的軍事偽裝技術(shù)之一,其設(shè)計旨在模仿背景的顏色及紋理等特征來降低目標的顯著性,以此規(guī)避人眼及機器偵察。近年來,基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[1]來檢測迷彩偽裝目標的研究取得了良好的進展[2-6]。如何進一步提升其檢測模型的遷移性和有效性,關(guān)鍵之一在于需要深入分析迷彩偽裝目標檢測模型的內(nèi)在機理。然而,神經(jīng)網(wǎng)絡(luò)的黑盒性質(zhì)使得模型的運行機制難以被準確理解。
近來的研究表明,CNN與人類視覺系統(tǒng)(Human Visual System,HVS)的決策機制有相似之處[7-8]。研究者嘗試分析顏色、形狀、紋理特征在常規(guī)對象識別中的作用,但相關(guān)研究[9-10]主要針對的是顯著性目標分類,其結(jié)果無法直接用于指導(dǎo)迷彩偽裝目標檢測模型的優(yōu)化。
為此,該文從人類視覺特征角度出發(fā),針對迷彩偽裝目標檢測的特點,設(shè)計了一種新的視覺特征解耦方法,在此基礎(chǔ)上研究了CNN迷彩偽裝目標檢測模型對不同視覺特征的偏向性。在迷彩偽裝人員數(shù)據(jù)集與常規(guī)人員檢測數(shù)據(jù)集上進行的對比實驗表明,CNN目標檢測模型對于迷彩偽裝目標偏向于學(xué)習(xí)其紋理,對于常規(guī)目標偏向于學(xué)習(xí)其形狀,顏色特征在二者的檢測中均不占主導(dǎo)地位。
20世紀中期,迷彩偽裝技術(shù)逐漸成熟并廣泛用于軍事領(lǐng)域。早期研究人員通過設(shè)計特定的紋理提取算子來檢測迷彩圖案[11-14]。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,研究人員開始使用基于卷積神經(jīng)網(wǎng)絡(luò)的模型來解決迷彩發(fā)現(xiàn)問題。Zheng等人[15-16]構(gòu)建了迷彩偽裝人員數(shù)據(jù)集并對迷彩偽裝目標進行分割。文獻[2-6]使用基于CNN的目標檢測模型實現(xiàn)了迷彩偽裝目標的精準分類與定位。文獻[17]使用相同的對抗樣本對不同迷彩偽裝目標檢測模型進行攻擊,產(chǎn)生了不同程度的性能下降,然而該文獻缺乏對模型機理的進一步研究。文中工作一方面有助于檢測模型的改進,另一方面對提升迷彩偽裝目標檢測的對抗攻擊效果有指導(dǎo)意義。
神經(jīng)科學(xué)研究證明,顏色、形狀和紋理是人類視覺系統(tǒng)中最重要的三個特征且相互獨立[18-23]。由于人類視覺系統(tǒng)是許多計算機視覺算法的黃金標準,研究[7-8]將HVS與CNN進行比較。2018年,Geirhos等人[9]使用風(fēng)格遷移構(gòu)建具有沖突線索的數(shù)據(jù)集,通過實驗揭示了在ImageNet上訓(xùn)練的分類模型具有紋理偏重并且提高形狀偏重可以提升模型的魯棒性。此后,研究人員致力于設(shè)計提高模型形狀偏重的方法[24-25],對任務(wù)本身的特征偏重研究較少。直至2022年,文獻[10]指出,模型的偏向性是任務(wù)相關(guān)的。例如,識別同樣形狀但不同類別的鳥主要依靠顏色,而區(qū)分斑馬和印有斑馬條紋的汽車主要依靠形狀。
為了對模型的視覺特征偏重進一步研究,Ge等人[10]提出了常規(guī)目標分類模型的特征解耦框架,分別提取數(shù)據(jù)集的顏色、形狀、紋理特征。在提取顏色時將圖片變換到頻域進行相位加擾再逆變換;在提取形狀時,通過分割圖像的顯著區(qū)域得到形狀掩膜;在提取紋理時,先將圖像的顯著區(qū)域進行灰度化處理,然后將其切割成多個方塊,取其中四個方塊拼接成一個新的圖像,作為該圖像的紋理特征。
解耦并分析迷彩偽裝目標檢測模型的視覺特征有助于解釋模型工作機理、提高模型性能。然而目前還沒有針對該問題的研究?,F(xiàn)有研究旨在提取單一視覺特征,無法用于迷彩偽裝目標檢測,具體表現(xiàn)在:如果對全圖提取單一視覺特征會導(dǎo)致目標位置信息丟失,如果只對目標提取單一視覺特征會破壞目標的偽裝性。
與以往框架不同,所提框架旨在分別消除目標某單一特征并保留其余特征?;诖丝蚣?分別在顏色、紋理、形狀方面設(shè)計解耦方法。
分析框架如圖1所示。首先,在數(shù)據(jù)集的訓(xùn)練集上訓(xùn)練好模型;其次,對數(shù)據(jù)集的原始測試集分別解耦顏色、紋理、形狀特征得到三個特征解耦測試集;最后,在訓(xùn)練好的模型上分別驗證特征解耦測試集。分別計算模型mAP的變化率,并進行歸一化處理,用不同特征的占比表示模型的視覺特征偏好。
圖1 視覺特征偏好分析框架
在對不同屬性特征進行解耦時應(yīng)遵循以下原則:一是最大化改變一種屬性特征的同時其余屬性應(yīng)盡量保持不變;二是紋理的變化應(yīng)遵循迷彩的特點和規(guī)律,不應(yīng)破壞其偽裝性;三是在迷彩偽裝場景下,目標自身結(jié)構(gòu)被迷彩紋理破壞,目標的形狀特征體現(xiàn)在目標的外圍輪廓。解耦方法將目標分割輪廓視作目標形狀,將分割輪廓內(nèi)的灰度圖像視作目標紋理,使用RGB空間描述圖像的顏色。
2.2.1 消除顏色
(1)
其中,w1為0.299,w2為0.587,w3為0.114分別表示圖像的R,G,B分量加權(quán)值。式1為灰度心理學(xué)公式,該公式的權(quán)重系數(shù)根據(jù)心理學(xué)上關(guān)于人類視覺系統(tǒng)對綠色最敏感等結(jié)論得出。
2.2.2 破壞紋理
紋理是人類視覺系統(tǒng)的一種感知形式,迄今還沒有文字或公式化定義,但諸多研究認為:局部紋理體現(xiàn)在像素及其周圍空間鄰域的灰度分布,全局紋理體現(xiàn)在局部紋理不同程度的重復(fù)性[26-29]。改變紋理的方法包括對像素值的操作(如濾波、仿射變換)和對像素空間關(guān)系的操作(如交換、置亂)。像素值的改變可能影響顏色信息,為了保持形狀和顏色不變,選擇在目標分割輪廓內(nèi)對像素的空間關(guān)系進行操作。此處借鑒像素置亂的思想,對區(qū)域內(nèi)的紋理塊進行置亂。
給定圖像X,將目標輪廓內(nèi)的區(qū)域切分為若干個N×N像素的紋理塊,然后將紋理塊的空間位置進行置亂。具體流程如算法1所示,其中n表示尺寸為N×N的紋理塊。由于紋理的破壞程度受置亂區(qū)域的大小影響,在此進行了不同尺度的區(qū)域置亂實驗,效果如圖2所示。分別設(shè)置N為20,10,5,2,1,當(dāng)N=1時即為像素置亂。
圖2 不同尺度的區(qū)域置亂
算法1:區(qū)域置亂
輸入:圖像X、圖像X的二值化mask、空數(shù)組E
2.whilen∈Pdo
3.E=E∪{Xn}
4.end while
5.E=Shuffle(E)
6.whilet∈Eandn∈Pdo
8.end while
2.2.3 改變形狀
對目標形狀的破壞包括消除目標輪廓和改變目標輪廓為其他形狀。在消除輪廓時,嘗試使用濾波方法將目標輪廓與背景融合,當(dāng)濾波區(qū)域較小時不能達到明顯消除輪廓的效果,當(dāng)濾波區(qū)域較大時,背景與前景邊界處的紋理產(chǎn)生了較大改變。因此,研究改變目標形狀的方法。
給定一幅寬W高H的圖像X,對目標輪廓內(nèi)區(qū)域隨機取最大內(nèi)接圓形或內(nèi)接矩形,步驟如算法2所示。
算法2:取目標最大內(nèi)接圓或內(nèi)接矩形
輸入:寬W高H的圖像X,X的掩膜mask
輸出:目標最大內(nèi)接圓或內(nèi)接矩形的掩膜maskc
1.對mask先腐蝕后膨脹,消除尖端和噪聲,得到mask
2.對mask'進行輪廓提取
3.隨機選擇取圓形或取矩形,若取圓形則轉(zhuǎn)步驟4,若取矩形則轉(zhuǎn)到步驟5
4.遍歷每個輪廓的所有坐標,取輪廓內(nèi)點到輪廓的最大值為圓半徑,此時的點為圓心。繪制寬W高H的掩膜maskc,令圓形區(qū)域內(nèi)像素值為1,其余為0
5.遍歷每個輪廓的所有坐標,使用中心擴散法[30]求四個邊界點坐標。繪制寬W高H的掩膜maskc,令矩形區(qū)域內(nèi)為像素值1,其余為0
為解決取內(nèi)接形狀后,內(nèi)接形狀和原始輪廓之間像素缺失問題,考慮以下兩種方案:一是用背景紋理覆蓋整個目標真實框,二是用背景紋理覆蓋目標輪廓。可視化模型輸出后,發(fā)現(xiàn)方案一產(chǎn)生的定位偏差更小,方案二仍然能檢測到原始目標形狀,因此使用方案一更合適。在提取背景紋理時,以目標最小外接矩形為單元,以8鄰域內(nèi)的背景單元作為候選區(qū)域,如圖3所示。
圖3 背景候選區(qū)域
為了選擇與目標顏色相似度最大的背景單元,計算目標區(qū)域與背景單元的顏色直方圖,使用巴氏系數(shù)表示顏色相似度:
(2)
(3)
其中,maskc為內(nèi)接形狀的掩膜,B為使用背景單元M覆蓋目標GT框區(qū)域所得的圖像。
本節(jié)重點對迷彩偽裝目標檢測模型的視覺特征進行分析,為了比較迷彩偽裝目標與常規(guī)目標檢測任務(wù)在視覺特征偏向性的差異,使用第2節(jié)提出的視覺特征偏好分析框架及解耦方法,選取相同的CNN模型在迷彩偽裝目標與常規(guī)目標兩類數(shù)據(jù)集上進行實驗。
CAMP[15]是一種公開的迷彩偽裝數(shù)據(jù)集,由2 600張迷彩偽裝人員圖片及其分割標注構(gòu)成。該文對原數(shù)據(jù)集中的分割標注結(jié)果用最小外接矩形框重新標注,以用于檢測任務(wù)。
由于CAMP數(shù)據(jù)集目標為人,為方便對比,對于常規(guī)目標檢測的實驗,數(shù)據(jù)集中的目標也應(yīng)設(shè)置為人。SBD數(shù)據(jù)集對PASCAL VOC數(shù)據(jù)中沒有分割標注的數(shù)據(jù)重新進行了標注。從SBD數(shù)據(jù)集中選擇類別為人的圖片,設(shè)置為常規(guī)人員檢測數(shù)據(jù)集(以下簡稱為SBD_PERSON)。實驗數(shù)據(jù)集的類別及樣本劃分情況見表1。
表1 數(shù)據(jù)集類別及樣本劃分
現(xiàn)有CNN目標檢測模型可分為基于候選區(qū)域的Anchor-based模型(以Faster R-CNN[31]算法為代表)、基于回歸的Anchor-based模型(主要有SSD[32],RetinaNet[33],YOLO系列算法)和Anchor-free的檢測模型(包括FCOS[34],CenterNet2[35]等)。實驗使用Faster R-CNN,Cascade R-CNN[36],Mask R-CNN[37],SSD,RetinaNet,YOLOv5s,YOLOv7[38],FCOS,CenterNet2共9種通用的CNN目標檢測模型。
3.3.1 平均準確度均值
目標檢測的結(jié)果按是否正確可分為:真正例(True Positive,TP)、真反例(True Negative,TN)、假正例(False Positive,FP)、假反例(False Negative,FN)。由此可計算模型的查準率p和查全率r,計算公式如下:
(4)
(5)
平均準確度均值(mean Average Precision,mAP)反映了模型中各類別檢測的平均精度的均值,其計算如下:
(6)
其中,Q是數(shù)據(jù)集中包含的類別數(shù),AP指某一類別的平均精度,AP計算如下:
(7)
3.3.2 mAP變化率
不同模型訓(xùn)練得到的初始mAP值不同,為了便于分析,使用mAP變化率作為評價指標。將mAP變化率定義為視覺特征解耦后mAP值的變化量占原始mAP值的比率,其計算如下:
(8)
3.4.1 區(qū)域置亂的尺度選擇
為比較不同置亂尺度下的紋理特征破壞程度,使用顏色直方圖衡量顏色相似度,使用SSIM指標衡量紋理相似度。給定圖像X、經(jīng)紋理破壞后的圖像Y,SSIM指標計算如下:
(9)
其中,μX,μY分別為X,Y的平均值,σX,σY,σXY分別為X的標準差、Y的標準差、XY的協(xié)方差。計算不同尺寸N下紋理塊置亂圖與原圖在紋理和顏色特征的相似度,結(jié)果見表2。置亂后的測試集與原始測試集的顏色相似度始終較高,SSIM值隨N逐漸減小,這說明顏色特征的統(tǒng)計量不受置亂區(qū)域的大小影響,紋理特征的破壞程度隨N的減小而增大。故取N=1(像素值亂)的區(qū)域置亂用于特征解耦方法中紋理特征的破壞。
表2 不同尺度紋理置亂圖與原圖相似度
3.4.2 解耦方法的有效性驗證
文獻[10]制作了在人類視覺上分別具有顏色偏重、形狀偏重和紋理偏重的三個分類數(shù)據(jù)集并且對每個數(shù)據(jù)集分別訓(xùn)練了顏色、形狀和紋理三種特征編碼器。為驗證所提解耦方法的有效性,使用所提解耦方法對不同屬性偏置數(shù)據(jù)集分別解耦其對應(yīng)偏置屬性的特征。將解耦后的數(shù)據(jù)輸入特征編碼器中,與將原始圖像輸入特征編碼器輸出的準確率進行比較,結(jié)果見表3。括號外和括號內(nèi)的數(shù)字分別表示不使用解耦方法和使用解耦方法后的準確率。
表3 特征解耦數(shù)據(jù)與原始數(shù)據(jù)在視覺特征編碼器的表現(xiàn)
由表3知,在特定屬性偏置數(shù)據(jù)集上使用視覺特征解耦方法,可以消除對應(yīng)屬性的特征,導(dǎo)致該屬性特征編碼器失效,但不影響其他屬性特征編碼器的性能。因此,提出的特征解耦方法能夠消除數(shù)據(jù)集某一屬性特征,同時不改變其他屬性特征。
3.4.3 方法對比
文獻[10]中提取圖像單一特征的解耦方法僅適用于常規(guī)目標的分類任務(wù),而該文提出的分析框架及方法在分類任務(wù)和檢測任務(wù)、常規(guī)場景和偽裝場景中均可使用。為比較兩種方法的效果,在常規(guī)目標的分類任務(wù)上進行分析。使用文獻[10]提供的數(shù)據(jù)集,在數(shù)據(jù)集原始圖像上訓(xùn)練好模型,分別將使用文獻[10]中方法所得圖像和使用文中方法所得圖像輸入模型,模型準確率如表4所示。解耦方法為表格第一列,方法中是否保留顏色、紋理、形狀特征示于表格第二至四列,Ds1,Ds2,Ds3分別為顏色偏置數(shù)據(jù)集、紋理偏置數(shù)據(jù)集、形狀偏置數(shù)據(jù)集。
表4 不同解耦方法對模型準確率的影響比較
文獻[10]提取單一特征輸入模型,模型在特征解耦數(shù)據(jù)的準確率越高表示在該特征偏好越強。文中方法消除圖像的單一特征,模型準確率越低表示在該特征的偏好越強。由表4知,當(dāng)使用文獻[10]中方法時,對數(shù)據(jù)集Ds1,模型的準確率均保持較低水平,難以比較模型的偏向性。對Ds2,模型對紋理特征有較強偏好,但對顏色特征和形狀特征的偏向性難以區(qū)分;對于Ds3,模型在顏色和形狀特征的偏向性難以區(qū)分。使用文中方法,模型在數(shù)據(jù)集上對顏色、紋理、形狀特征的偏向性區(qū)分更加明顯。
在CAMP數(shù)據(jù)集上應(yīng)用所提視覺特征解耦方法,效果如圖4所示。將原始測試集與特征解耦后的測試集輸入訓(xùn)練良好的目標檢測模型,檢測結(jié)果見表5,括號外數(shù)據(jù)為mAP值,括號內(nèi)數(shù)據(jù)為mAP變化率。
表5 CAMP數(shù)據(jù)集特征解耦后模型mAP
圖4 特征解耦效果
由表5知,對于CAMP數(shù)據(jù)集,表中9個CNN目標檢測模型皆對紋理特征更為敏感。當(dāng)消除顏色特征時,模型的mAP變化率范圍為2.1%~9.8%,均值為4.5%;破壞紋理特征后,模型的mAP變化率范圍為55.9%~86.6%,均值為74.1%;改變形狀特征后,模型的mAP變化率范圍為26.1%~59.6%,均值為40.2%。取三種特征解耦數(shù)據(jù)上的mAP變化率均值,歸一化處理后,可得模型在CAMP數(shù)據(jù)集上的視覺特征偏向性為:紋理(62%)>形狀(34%)>顏色(4%)。
在SBD_PERSON上進行同樣的實驗,實驗結(jié)果見表6。由表6知,對于SBD_PERSON數(shù)據(jù)集,模型皆對形狀特征更為敏感。消除顏色后,模型的mAP變化率均值為8.5%;破壞紋理后,模型的mAP變化率均值為42%;改變形狀后,模型的mAP變化率均值為68.4%。取三種特征解耦數(shù)據(jù)上的mAP變化率均值,歸一化處理后,可得模型在SBD_PERSON數(shù)據(jù)集上的視覺特征偏向性為:形狀(58%)>紋理(35%)>顏色(7%)。
基于上述研究結(jié)果,得出如下結(jié)論:盡管不同模型對不同視覺特征的敏感程度略有不同,總體來講,現(xiàn)有基于CNN的通用目標檢測模型在學(xué)習(xí)迷彩偽裝目標的特征時具有較強的紋理偏好,在學(xué)習(xí)常規(guī)目標的特征時具有較強的形狀偏好。
同時,相對于形狀和紋理特征,顏色特征對二者的檢測影響較小。因此,迷彩偽裝目標的檢測任務(wù)不應(yīng)與常規(guī)目標的檢測任務(wù)一概而論,針對迷彩偽裝目標檢測的模型改進可以從設(shè)計特征網(wǎng)絡(luò)使之捕捉更精細的紋理特征、使用紋理增強的方法進行數(shù)據(jù)處理等方面入手。
通過實驗對比了迷彩偽裝目標與常規(guī)目標的視覺特征在目標檢測任務(wù)中的敏感程度。實驗證明:對于CNN目標檢測模型,迷彩偽裝目標的檢測主要依賴其紋理,常規(guī)目標的檢測主要依賴其形狀。同時,顏色特征在二者的檢測中不占主導(dǎo)地位。
實驗結(jié)論可用于指導(dǎo)下一步迷彩偽裝技術(shù)的發(fā)展和迷彩目標檢測模型的改進。實驗中運用的視覺特征解耦方法和思路可用于驗證不同數(shù)據(jù)集在計算機視覺任務(wù)中的特征偏向性,指導(dǎo)設(shè)計具有特定偏向性的數(shù)據(jù)集和網(wǎng)絡(luò)模型。