張凱,王凱迪,楊曦,*,李少毅,王曉田
1. 西北工業(yè)大學 航天學院,西安 710072 2. 南京南瑞信息通信科技有限公司,南京 211106
紅外空空導彈是近距空戰(zhàn)的主戰(zhàn)武器,是近距格斗空戰(zhàn)勝負的關鍵,然而當前紅外空空導彈面臨的核心問題,就是抗干擾問題,特別是伴隨新型干擾裝備使用和各種復雜作戰(zhàn)天地背景環(huán)境的出現(xiàn),抗干擾問題愈發(fā)凸顯,成為限制空空導彈作戰(zhàn)能力和技術發(fā)展的瓶頸,由工程需求牽引的基礎性問題,依然沒有攻克。
紅外空空導彈攻擊過程極為復雜,目標從點、亞成像到成像階段,不同的攻擊進入角,戰(zhàn)斗機等典型目標在導引頭探測系統(tǒng)中投影的一致性、規(guī)律性差,目標的形狀、灰度、尺寸都會發(fā)生劇烈變換。同時,在攻擊過程中,目標機會進行大過載機動,伴隨投放大量的人工誘餌彈,高溫高光譜輻射的誘餌彈在導引頭探測系統(tǒng)中會對目標造成全面遮蔽、大面積黏連、干擾目標分離后特性相近、視場內出現(xiàn)多個疑似目標點等問題,隨機性強、對抗復雜、態(tài)勢多變、規(guī)律性難以把握。因此,即便是美國號稱世界最為先進的AIM-9X“響尾蛇”空空導彈,面對抗干擾問題,也無法確保命中率,美軍將抗干擾問題作為導彈的核心技術問題,成立“空中目標算法開發(fā)(ATAD)”中心,專門負責空中目標自動識別算法的開發(fā)工作,以提高和改善導彈武器在低信噪比和復雜背景下的自主目標捕獲能力、自適應抗干擾能力[1]。
傳統(tǒng)基于模板匹配的目標識別算法是利用模板和待檢測圖像的相似度進行目標搜索和識別。高晶等[2]提出了一種基于形狀模板的目標識別方法,通過構建高斯多尺度空間并引入模糊集理論分離目標與背景。用改進的Hausdorff距離算法精確定位目標[2]。趙天生采用混合高斯模型的背景減除法與邊緣檢測算法融合提取運動目標,將模板更新、卡爾曼運動預測和基于單元灰度熵的模板匹配技術結合,避免目標模板“退化”現(xiàn)象導致目標丟失[3]。雖然模板匹配技術易于實現(xiàn),但是對于模板的選擇有非常嚴苛的要求,并且簡單的模板很難應對各種復雜的場景,魯棒性較差[4]?;跈C器學習的紅外目標識別算法通過已有的經(jīng)驗和專業(yè)知識,人為設計一個數(shù)據(jù)特征提取器,從圖像中獲得所需的特征數(shù)據(jù)用于紅外目標識別。郭文誠等[4]提出了一種利用Zernike矩旋轉與縮放不變性提取紅外目標幾何特征,并以此訓練量子粒子群算法優(yōu)化后的相關向量機方法,進而識別紅外目標。張旭艷等[5]使用不變矩與紅外目標幾何形態(tài)特征組成的聯(lián)合特征量提取紅外目標特征,并選取歐氏距離作為目標分類識別的判別準則。張迪飛等利用分割算法提取紅外圖像中的連通區(qū)域[6],提取HOG(Histogram of Oriented Gridients)高維特征離線訓練SVM(Support Vector Machine)分類器并在線識別目標。上述兩類方法的特征都是事先定義的,算法性能的優(yōu)劣主要依靠設計者的先驗知識和設計經(jīng)驗。
近年來,深度學習等人工智能算法在計算機視覺等領域獲得了巨大的成功,在目標分類、識別領域展示出了突破性的能力[7-9],為解決紅外目標抗干擾識別問題指出了新的技術途徑。朱大煒[10]針對RCNN模型框架的不足,采用SSD[11](Single Shot MultiBox Detector)模型框架實現(xiàn)了對紅外飛機目標的檢測。對原始的VGG[12](Visual Geometry Group)網(wǎng)絡進行了改進,通過微調遷移學習對SSD網(wǎng)絡進行訓練,經(jīng)測試在保證檢測正確率的基礎上,實現(xiàn)了對紅外圖像中飛機目標的實時檢測[10]。何謙[13]使用YOLOv3[14](You Only Look Once)作為深度學習目標識別算法,基于仿真建立圖像數(shù)據(jù)集,改進YOLOv3算法,對圖像中隱身飛機和誘餌彈的特征進行學習,輸出權重文件用于測試,通過相應的指標對訓練結果給出評價。徐小婷基于YOLOv3對紅外的多場景數(shù)據(jù)集進行模型的訓練及測試,在YOLOv3原有的網(wǎng)絡基礎上,再添加了3個小尺寸的特征圖用于檢測,解決了在檢測成像距離較近的大目標時YOLOv3的錯檢和漏檢的現(xiàn)象[15]。
但目前深度學習等算法在紅外目標識別中的應用依然存在較多基礎性問題未能解決。僅僅訓練通用深度學習網(wǎng)絡并應用于紅外目標識別,沒有針對空中紅外目標抗干擾識別面臨的尺度、形狀、灰度變化問題,抗干擾遮蔽、相似問題,制定針對性的解決方案。
針對空空導彈紅外目標抗干擾識別的核心問題,本文設計一種新的基于信息特征提取的深度卷積神經(jīng)網(wǎng)絡DNET(Dense NET)空中紅外目標抗干擾識別算法。網(wǎng)絡整體采用多個特征融合模塊密集連接,提取淺層、深層網(wǎng)絡的語義信息并保存于前部通道中,以保證在紅外點目標階段具有足夠的物理特征。同時,網(wǎng)絡末端引入特征注意力機制,進一步提取保存的特征信息,實現(xiàn)特征自適應校準。針對目標形狀、尺度劇烈變化及抗干擾的問題,增加多尺度密集連接模塊,并與多尺度特征融合檢測結合,提升大尺度變化條件下的特征提取能力和目標識別效果。
本文提出一種基于信息特征提取的深度卷積神經(jīng)網(wǎng)絡DNET空中紅外目標抗干擾識別算法,在滿足實時檢測的條件下保持對紅外目標全過程檢測的精確性、尺度變化適應性等。本文識別算法主要由以下5部分組成:① 小目標跟蹤階段,提出小尺寸卷積核融合策略,解決卷積網(wǎng)絡在小目標識別效果不佳的問題;② 構建特征融合M模塊,凸顯邊緣信息特征識別權重,更好地聯(lián)合淺層的邊緣特征與深層的語義信息;③ 采用目標特征注意力機制,建立FA(Feature Attention)模塊,篩選最能表征目標深層特性的特征;④ 改進YOLO算法用于檢測分類,滿足實時監(jiān)測紅外目標的要求;⑤ 最后針對導彈攻擊全過程,建立多尺度M模塊和多尺度特征檢測策略,提升算法多尺度目標特征提取能力。網(wǎng)絡整體結構及參數(shù)分別如圖1和圖2所示。
圖1 DNET網(wǎng)絡結構示意圖Fig.1 Diagram of DNET network structure
圖2 DNET網(wǎng)絡參數(shù)Fig.2 DNET net work parameters
在卷積神經(jīng)網(wǎng)絡中,不同尺寸的卷積核對圖像具有不同大小的感受野。傳統(tǒng)卷積神經(jīng)網(wǎng)絡在提取特征信息的過程中,使用大尺寸卷積核獲得大的感知域。然而,卷積核尺寸的增大必然帶來計算量指數(shù)級增大。為了壓縮計算量提升檢測速度,本文使用多個3×3卷積核代替5×5、7×7等大尺寸卷積核。相比于使用單個大尺寸卷積核的方法,連續(xù)使用多個小尺寸卷積核可以獲得與大卷積核相同的感受野,同時減少參數(shù)量。
卷積神經(jīng)網(wǎng)絡每一層輸出特征圖的像素點在原始圖像上映射的區(qū)域大小定義為感受野,計算公式為
(1)
式中:l為卷積層數(shù);RFl為層l的感知域,RF0=1;fl為層l的卷積核尺寸;si為層i的步幅,s0=1。si可由式(2)計算得到:
si=s1×s2×…×si-1
(2)
在一個由3層3×3卷積核組成的卷積神經(jīng)網(wǎng)絡中,第1層網(wǎng)絡輸出的像素映射在原始圖像的3×3區(qū)域,故而第1層的感受野為3,字母表示為RF1=3;第2層網(wǎng)絡輸出的像素映射在第1層輸出的3×3區(qū)域,第1層輸出的3×3區(qū)域映射在原始圖像的5×5區(qū)域,故而第2層的感受野為5,即RF2=5;同理可得,第3層的感受野為7,即RF3=7。
卷積運算期間的參數(shù)量是影響整個網(wǎng)絡實時性能的因素之一。卷積運算的參數(shù)量越小,網(wǎng)絡的速度性能越好。卷積運算中的參數(shù)量由式(3)計算得到:
Cost=Kh×Kw×Cin×Cout
(3)
式中:Cost為卷積參數(shù)量;Kh、Kw為卷積核的高度和寬度;Cin、Cout為輸入和輸出的通道數(shù)。小卷積核堆疊策略和大卷積核策略的感受野和參數(shù)量的比較結果如表1所示。
由表1可以看出,當圖像大小固定時,在獲得相同大小感受野的情況下,使用2個3×3卷積核
表1 卷積核尺寸比較Table 1 Convolution kernel size comparison
參數(shù)代替5×5卷積核,計算量從25×Cin×Cout降為18×Cin×Cout,使用3個3×3卷積核代替7×7卷積核,計算量從49×Cin×Cout降為27×Cin×Cout,因此,使用多個小尺寸卷積核可以大幅減少卷積過程中參數(shù)量。并且,更多的卷積層數(shù)意味著網(wǎng)絡中融入更多的激活函數(shù),使得整體網(wǎng)絡具有更多的非線性函數(shù),有利于網(wǎng)絡提取更豐富的特征,同時提升網(wǎng)絡的分類能力。
在網(wǎng)絡中加入1×1卷積核作為瓶頸層,可以在保持特征圖尺寸不變的情況下,進一步降低計算量,提升網(wǎng)絡速度。例如,對一個512通道的輸入特征圖進行3×3的卷積操作,并降維到128通道的輸出特征圖。是否加入1×1卷積瓶頸層的參數(shù)量對比如表2所示。
表2 卷積組合計算量比較
由表2可以明顯看出,加入1×1卷積瓶頸層可以大幅降低改變特征圖通道數(shù)時的計算開銷。另外,增加1×1卷積層提升網(wǎng)絡非線性,同時融合多通道信息,加深網(wǎng)絡。
為了兼顧不同尺寸的目標,大多數(shù)的檢測網(wǎng)絡使用VGG[11]或者殘差網(wǎng)絡ResNet[16]作為基礎結構。在連接深層網(wǎng)絡與淺層網(wǎng)絡時,只是簡單將深層網(wǎng)絡的輸出上采樣后,與淺層網(wǎng)絡的輸出相疊加。本文受到DenseNet[17]中密集連接方式(dense操作)的啟發(fā),在密集連接中,輸入的每層網(wǎng)絡的特征圖是之前所有層輸出特征圖的總和,在57×57尺度盡可能地保存各個輸出層的信息。而其本身的特征圖作為之后所有層輸入特征圖的一部分,更好地聯(lián)合淺層的邊緣特征與深層的語義信息。因此,本文將使用的特征融合模塊命名為M模塊,如圖3所示。
圖3 M模塊結構Fig.3 Structure of M module
M模塊中輸出與輸入的關系定義為
Xn=Mc(δ(CXn-1)+Xn-1)
(4)
式中:Xn-1為輸入特征圖,從X0開始到Xn為第n層的輸出特征圖,到X7結束;C為卷積操作;δ為leaky激活函數(shù);Mc(a,b)=Concat(a,b)表示將2個特征圖進行通道疊加。
DenseNet作者使用密集連接的方式緩解梯度消失問題,網(wǎng)絡在加深的同時獲得更好的表達效果。本文發(fā)現(xiàn)密集連接可以在同一尺度上融合淺層與深層信息,對小尺寸的紅外小目標檢測有更好的識別與定位能力。另外,密集連接兼有正則化的效果,有利于不使用預訓練網(wǎng)絡而直接重新訓練網(wǎng)絡模型。
為驗證本文網(wǎng)絡對小目標識別的精確度,本文設計了4種不同結構的M模塊進行小目標識別對比實驗,參數(shù)設置如表3所示。M模塊的輸入特征圖尺寸為57×57×128通道。其中,結構A由7個M小組組成,各M小組包括一次conv3-dense操作,輸出57×57×1024的特征圖。在結構A的基礎上,結構B在每小組中加入一個尺寸為1×1×128的卷積瓶頸層。由于密集網(wǎng)絡的串聯(lián)操作會使通道數(shù)快速增加,在特征提取層前加入瓶頸層,以顯著降低計算量。同時網(wǎng)絡借助激活函數(shù)融入更多的非線性,提升網(wǎng)絡表達能力。結構C采用64通道的瓶頸層conv1替換結構B中128通道的瓶頸層conv1,結構D采用64通道的卷積層conv3替換結構B中128通道的卷積層conv3。
表3 4種M模塊的參數(shù)設置Table 3 Parameter setting of four M modules
經(jīng)過M模塊的特征融合操作,淺層網(wǎng)絡與深層網(wǎng)絡的特征已經(jīng)保存在特征圖的各個通道中。下一步加入特征注意力機制(Feature Attention Mechanism),自適應地在128層特征圖中篩選出最能表征目標深層特性的特征。將篩選出的特征與原特征融合,提升重要特征的權重參數(shù)。即利用全局信息,使得網(wǎng)絡有選擇地增強有益的特征,從而實現(xiàn)特征通道的自適應校準。因此,DNET在骨干網(wǎng)絡的最后加入FA模塊,其結構如圖4所示。
FA模塊的特征計算為
(5)
式中:P為全局平均池化;C1為1×1×8的卷積操作;C2為1×1×128的卷積操作;U表示放大倍數(shù)為57的上采樣操作。
FA模塊的輸入X0為57×57×128通道的特征圖。多數(shù)神經(jīng)網(wǎng)絡中的卷積核只對部分目標特征進行卷積,無法有效使用卷積區(qū)域外的特征。而且較低網(wǎng)絡層次的感受野尺寸較小,情況會更加嚴重?;诖?,本文網(wǎng)絡采用全局平均池化對各特征圖進行壓縮,使特征圖變?yōu)?×1×128的實數(shù)數(shù)列。該數(shù)列具有全局感受野,使得淺層網(wǎng)絡的特征圖同樣具有利用全局特征信息的能力。為了利用擠壓操作中聚合的信息,使用激勵操作全面捕獲通道依賴性。
首先,使用1×1×8通道卷積層的降維操作與1×1×128通道卷積層的升維操作。其中,1×1卷積發(fā)揮全連接的作用,并獲得每個特征通道的重要程度。同時,在卷積操作中加入Leaky激活函數(shù)。相對于ReLU激活函數(shù),Leaky的負半軸保留一個很小的正值(在本研究中設為0.1),緩解“死”ReLU問題。當x<0時,ReLU輸出為0,導致模型無法學習特征。若學習率設置過大,導致網(wǎng)絡部分神經(jīng)元處于“死掉”的狀態(tài),無法有效訓練。因此,在使用ReLU激活函數(shù)時,需要合理設計網(wǎng)絡的學習率。最后,經(jīng)過上采樣還原得到尺寸為57×57的X1。將X1與原輸入X0相加,增強原輸入中有益的特征,得到最終輸出。
圖4 FA模塊結構Fig.4 Structure of FA module
在檢測部分,選擇一步算法YOLO作為檢測方法。首先,如FAST-RCNN[18-19](Fast Region Convluation Neural Network),F(xiàn)ASTER-RCNN[20](Faster Region Convluation Neural Network)等2步檢測算法,均需要通過區(qū)域提議網(wǎng)絡等方法得到候選區(qū)域,進而使用高質量的分類器進行分類。這使得計算開銷非常大,不利于實時檢測。YOLO將提取候選區(qū)和分類2個任務融合至一個網(wǎng)絡,直接利用回歸方法提高檢測速度,更好地滿足紅外目標檢測的實時性需求,避免了提議區(qū)域生成邊界框坐標和各類別的概率。另外,有研究表明[21],只有單步算法可以在沒有預先訓練的情況下成功收斂,這是由于兩步方法中的ROI池化為各推薦區(qū)域生成特征,從而阻礙了梯度從區(qū)域級平滑反向傳播至卷積特征映射。同時,基于區(qū)域建議的方法[19]必須與預先訓練的網(wǎng)絡模型同時工作,因為參數(shù)初始化對卷積層具有促進作用。
SSD的多尺度檢測算法僅適用于飽滿大中小目標的通用數(shù)據(jù)集,但是針對紅外小目標檢測問題并沒有特別大的意義。因此,在一步算法中選擇YOLO,而不是多數(shù)通用網(wǎng)絡選擇的SSD[10]。
YOLO檢測原理如圖5所示。YOLO網(wǎng)絡將輸入圖片分為57×57個區(qū)域,如果目標中心落在某個區(qū)域中,則負責預測目標和3個邊框。
YOLO網(wǎng)絡分為每個訓練中的圖像,設置為7×7個網(wǎng)格。每個網(wǎng)格負責檢測落在其中的目標,其中需要預測B個邊界框與C個類別信息,每個邊界框要預測目標的中心橫坐標x、中心縱坐標y、寬度w、高度h、置信度5個值。輸出為一個S×S×(5×B+C)的張量。在YOLO中,B=2,C=20。置信度定義為
(6)
圖5 YOLO檢測原理Fig.5 Detection principle of YOLO
YOLO的損失函數(shù)為
Loss=Errorcoord+Erroriou+Errorclass
(7)
式中:Errorcoord、Erroriou和Errorclass分別代表預測數(shù)據(jù)與標定數(shù)據(jù)之間的坐標誤差、IoU誤差和分類誤差。
坐標預測誤差函數(shù)Errorcoord定義為
Errorcoord=
(8)
IoU誤差函數(shù)Erroriou定義為
(9)
分類誤差函數(shù)Errorclass定義為
(10)
由于空中目標全過程識別的尺度與形狀變化較大,在256×256的圖片中,目標最初大小約為4×4,結束時目標充滿整個視場,大小變?yōu)?56×256。因此,在經(jīng)過3次下采樣與8次卷積操作得到合適的尺寸后,分別使用M模塊在28×28、14× 14、7×7這3個尺度上提取不同大小目標的特征信息,模塊參數(shù)如圖6所示。
其中,各M模塊由7個M小組組成,各M小組包括一次conv1-conv3-dense操作。第1個M模塊在28×28的尺度使用1×1×64與3×3× 128的卷積組合1,每次dense疊加可以在特征圖上增加128通道,得到28×28×1 024的特征圖。再次使用卷積組合1得到28×28×128的大尺度特征圖。
第2個M模塊在14×14的尺度上使用1×1× 128與3×3×256的卷積組合2,經(jīng)過dense疊加得到14×14×2 048的特征圖。再次使用卷積組合2得到14×14×256的中尺度特征圖。
第3個M模塊在7×7的尺度上使用1×1×256與3×3×512的卷積組合3,同樣經(jīng)過dense疊加得到7×7×4 096的特征圖。再次使用卷積組合3得到14×14×256的小尺度特征圖。
然而,加入多尺度M模塊的DNET仍然無法完全適應目標圖像的尺度變化。這是由于實驗過程中目標的尺度由點目標不斷增大,直至充滿整個視場,變化的劇烈程度遠超通用數(shù)據(jù)集。同時,由于預選框與檢測特征圖的分配是人為設置的,導致預選框無法正確匹配真實框。因此,本文選擇單尺度檢測作為最佳方法。
圖6 多尺度M模塊參數(shù)Fig.6 Parameters of multiscale M module
本文算法選擇單尺度檢測方法,即只使用一個尺度的特征圖,且目標的尺度與形狀變化劇烈,因此需要這個特征圖盡可能多的包含各尺度目標的各類特征。大小為7×7的特征圖可以滿足對大尺度目標檢測的需求,但是對于小物體仍需更加精細的特征,因此在DNET的末端加入重組層以提升網(wǎng)絡的表達能力。在尺度為7×7的網(wǎng)絡層盡可能保存各輸出層的信息,更好地聯(lián)合淺層的邊緣特征與深層的語義信息。
以2×2的重組層為例,如圖7所示。重組操作是在原特征圖上抽取每個2×2的局部區(qū)域,將其中4個值分別分配到4個特征圖中。對于14× 14×32的特征圖,經(jīng)重組層處理后變?yōu)?×7×128的新特征圖(特征圖大小降低4倍,通道增加4倍),與7×7×512特征圖連接在一起,形成7×7×640的特征圖,并在此基礎上卷積作預測。
將DNET與重組層相結合,得到多尺度特征融合檢測網(wǎng)絡DNET,如圖8所示。具體操作如下:首先,在28×28維度使用1×1×16卷積核,將其28×28×1 024的特征圖降至16維,該操作看做在1024通道中篩選出最重要的16個通道。其次,通過4×4的重組操作生成7×7×256的特征圖,在14×14尺度使用1×1×32的卷積核,將其14×14×2 048的特征圖降至32維。然后,通過2×2的重組操作生成7×7×128的特征圖。最后,將7×7×256、7×7×128的特征圖與7×7維度的256維特征圖連接,得到7×7×640的特征圖。
圖7 重組操作示意圖Fig.7 Diagram of recombination
圖8 多尺度特征融合檢測網(wǎng)絡結構示意圖Fig.8 Structure diagram of multi-scale feature fusion detection network
骨干網(wǎng)絡最后的輸出層包含了28×28、14×14和7×7尺度的特征信息。因此,僅使用7×7的特征圖進行類別與坐標回歸,實現(xiàn)對各個大小的目標魯棒。最后,在回歸層前連續(xù)使用3次1× 1×256與3×3×512的卷積層組合。
為了驗證本文提出的DNET網(wǎng)絡在導引頭攻擊全過程對空中紅外目標識別的有效性和準確性,本章分別進行小目標識別實驗和全程目標抗干擾識別實驗。
目前,基于卷積神經(jīng)網(wǎng)絡的目標檢測算法中,性能較為突出的通用網(wǎng)絡為:FASTER-RCNN[20]、SSD[10]、YOLOv3[13]。尤其是YOLOv3相對于YOLOv2,在檢測精確度與檢測速度上的表現(xiàn)均較為突出,著重改進了對小目標的檢測效果。因此,本文將DNET與FASTER-RCNN、SSD、YOLOv3進行全程目標抗干擾識別對比實驗,訓練參數(shù)設置與DNET相同。
本文硬件實驗環(huán)境為:GPU:NVIDIA GeForce 1080Ti;CPU:Inter?CoreTMi7-8700, 3.20 GHz;RAM為16 GB。程序實現(xiàn)使用DARKNET框架編寫,在Ubuntu環(huán)境中運行。
3.1.1 實測小目標圖像數(shù)據(jù)集
本文采用的實測數(shù)據(jù)集為紅外熱像儀采集的多組640×512像素的紅外小目標圖像序列,5組圖像共29 630張,部分圖像如圖9所示。從中選取500張作為訓練集,其他作為測試集。
圖9 部分紅外小目標數(shù)據(jù)Fig.9 Data of infrared small target
測試集的統(tǒng)計情況如表4所示。由于圖像序列中包括目標飛出視場或者被遮擋的情況,因此含有待檢測目標的圖片數(shù)較總圖片數(shù)稍少。其中,序列1~4為海天背景,包括海天線與海雜波;序列5為海天、云層背景,包括海雜波、海天線與云邊緣。5組序列中,目標最小尺寸為2像素×2像素, 最大尺寸為27像素×34像素。
表4 測試集的目標數(shù)量與尺寸范圍Table 4 Target number and size range of test set
3.1.2 仿真彈道圖像數(shù)據(jù)集
仿真數(shù)據(jù)集采用基于實驗室的戰(zhàn)場態(tài)勢對抗仿真實驗平臺,生成紅外空戰(zhàn)仿真數(shù)據(jù)集進行算法測試。全程抗干擾識別測試樣本集包括初始發(fā)射條件、目標機動、干擾投射策略3個維度對抗條件的參數(shù)。在此限定范圍內,設計所有近距對抗條件參數(shù)并進行量化,主要量化參數(shù)如下:
1) 初始對抗態(tài)勢參數(shù):目標高度、載機高度、目標速度、載機速度、水平進入角、發(fā)射距離、綜合離軸角(可分解為水平離軸角、垂直離軸角)。
2) 目標機動類型:無機動、左機動、右機動。
3) 紅外人工干擾參數(shù):總彈數(shù)、組數(shù)、彈間隔、組間隔。
因此,識別率仿真數(shù)據(jù)集設置條件如下:
1) 導彈發(fā)射距離為7 000 m。
2) 目標高度和載機高度均為6 000 m。
3) 目標速度和載機速度均為Ma=0.8。
4) 點源干擾彈投射總數(shù)為24枚。
5) 目標機動類型為無機動、左機動、左機動。
6) 組間隔為1.0 s,彈間隔0.1 s,投彈組數(shù)分別為24、12、6。
7) 水平進入角在0°~180°范圍內每隔15°選取。
結合上述量化參數(shù)設置,仿真數(shù)據(jù)集共包含117條序列。選取其中15條作為訓練集,如表5所示;其余序列作為測試集,如表6所示。
表5 訓練集序列參數(shù)Table 5 Parameter of sequences of training set
表6 測試集序列參數(shù)Table 6 Parameters of sequences of test set
3.1.3 數(shù)據(jù)增強
為擴大原始數(shù)據(jù)生成新實例,實驗針對所有紅外圖像數(shù)據(jù)采用數(shù)據(jù)增強技術,使用90°、180°和270°的角度旋轉對數(shù)據(jù)集進行3次增強,從而獲得具有更好檢測性能的紅外小目標檢測網(wǎng)絡。
為了驗證本文所提出的檢測網(wǎng)絡DNET的有效性,實驗主要從精確度、召回率、速度3個指標評價算法。對于分類問題,樣本的分類結果可以分為4種:真正例(TP)、假正例(FP)、真負例(TN)、假負例(FN)。
精確度(P)定義為正類預測正確的樣本數(shù)占預測的正類樣本數(shù)的比例。其表達式為
(11)
召回率(R)定義為正類預測正確的樣本數(shù)占實際的正類樣本數(shù)的比例。其表達式為
(12)
通常,算法無法同時兼顧模型的精確度和召回率,提升精確度往往會降低召回率,反之亦然。為了更好地評估算法的性能,本文使用F1值同時考慮精確度和召回率。其表達式為
(13)
3.3.1 實測數(shù)據(jù)實驗與分析
1) 網(wǎng)絡訓練
根據(jù)3.1節(jié)生成的數(shù)據(jù)集訓練本文目標識別網(wǎng)絡DNET。表7提供訓練過程中的參數(shù)設置,如學習率、批大小、權重衰減系數(shù)、訓練步數(shù),學習率在60 000步之后衰減到0.000 1。
表7 訓練參數(shù)Table 7 Training parameters
選擇合適的批量大小,對于提高網(wǎng)絡模型的收斂速度和準確性具有重要意義。在本文中,根據(jù)本次實驗的硬件配置,最終選擇的批量大小為96,并將其分成8個子批次進行訓練。
實驗使用選取的數(shù)據(jù)集和訓練參數(shù),訓練本文紅外目標檢測網(wǎng)絡DNET-A、B、C、D。圖10顯示訓練期間損失值的趨勢??梢钥闯?,4個網(wǎng)絡的準確性隨著訓練次數(shù)的增加而逐漸增加,最終均收斂于0.05左右。
2) 識別結果分析
選取的25張代表圖片的識別結果如圖11和表8所示。其中,表8統(tǒng)計各序列的平均置信度(漏判或多判的置信度記為0)。
比較結果可以發(fā)現(xiàn),在具有小目標大尺度變換、目標脫離視場和海天背景的數(shù)據(jù)集中,本文中提出的4種網(wǎng)絡的性能相對YOLOv3具有明顯優(yōu)勢,精確度、召回率、F1值均有不同程度的提高,速度更是提高至YOLOv3的2倍,在保證高精確度的同時滿足了實時檢測的要求。其中,DNET-C平均精確度為99.39%,平均召回率為99.80%,平均F1值為0.996。相比于YOLOv3和其他3種DNET模型,DNET-C具有更明顯的優(yōu)勢,同時檢測速度達到105幀。DNET所用的回歸部分與YOLO相同,明顯的性能提升證明了針對性設計特征提取骨干網(wǎng)絡的重要性與有效性。
DNET-B、DNET-C、DNET-D的平均F1值高于DNET-A,體現(xiàn)在M模塊中加入瓶頸卷積層的重要性,在降低計算量的同時提升網(wǎng)絡檢測速度。而且在網(wǎng)絡中加入更多的非線性,使得網(wǎng)絡有更好的表達效果。瓶頸層的加入最高可以提升50%的計算效率。本文認為,在M模塊中,瓶頸卷積層conv1主要是用于壓縮凝練上層M小組的輸出,卷積層conv3主要用于提取特征。而DNET-C的效果優(yōu)于DNET-D,說明在設計網(wǎng)絡時,使conv3小于conv1的通道數(shù)有更好的效果,即在特征提取時,應使用比瓶頸層更寬的網(wǎng)絡。
圖10 DNET-A,B,C,D 4種網(wǎng)絡的損失函數(shù)變化曲線Fig.10 Loss function curves of DNET-A, B, C, D
表8 網(wǎng)絡檢測置信度比較Table 8 Detection confidence comparison of network
在本次實驗的5條測試序列中,目標均發(fā)生了較大的尺度變化,目標在2×2的點目標與27×34 的亞成像目標中往復變化。作為對比算法,YOLOv3對于亞成像目標的檢測效果接近DNET,但在檢測點目標時與DNET拉開差距。當點目標在640×512像素的圖片中僅占據(jù)2×2像素時,YOLOv3基本無法檢測目標,而DNET-C依然成功標出目標位置,且DNET對目標的尺度變化也有很強的適應性。序列1~5的海天背景與海天線均未對DNET的結果造成影響,且DNET在序列5中的云層背景下也有出色的識別效果。各序列的算法識別結果對比如表9~表13所示。
圖11 實測小目標圖像序列1-5識別結果Fig.11 Detection results of image sequences 1-5 of measured small target
表9 序列1的識別結果比較Table 9 Comparison of recognition results of sequence 1
表10 序列2的識別結果比較Table 10 Comparison of recognition results of sequence 2
表11 序列3的識別結果比較Table 11 Comparison of recognition results of sequence 3
表12 序列4的識別結果比較Table 12 Comparison of recognition results of sequence 4
表13 序列5的識別結果比較Table 13 Comparison of recognition results of sequence 5
3.3.2 仿真數(shù)據(jù)實驗與分析
本節(jié)進一步使用3.3.1節(jié)效果最好的紅外小目標檢測網(wǎng)絡DNET-C,進行仿真紅外小目標抗干擾識別實驗。在3.1.2節(jié)的訓練集序列中挑選紅外點目標圖片480張作為訓練樣本集,手工進行目標類別標注和邊界框標注。同時,在測試集序列中挑選紅外點目標圖片共2 259張作為測試集,分別測試和對比DNET-C和YOLOv3的抗干擾識別結果。
1) 網(wǎng)絡訓練
表14提供訓練過程中的參數(shù)設置,如學習率、批大小、權重衰減系數(shù)、訓練步數(shù),學習率在60 000步之后衰減到0.000 1。
表14 小目標識別訓練參數(shù)Table 14 Training parameters of small target recognition
2) 結果分析
DNET-C與YOLOv3的紅外抗干擾識別結果如表15所示。在2 259個飛機目標中,DNET-C正確識別出2 199個,漏檢60個,漏檢率僅為YOLOv3的1/3,虛警7個。召回率97.34%,相比于YOLOv3提升了5.57%,精確度為99.68%,F(xiàn)1值為0.985,相比于YOLOv3提升了0.29。識別速度105.7 fps,為YOLOv3的2倍,達到實時識別的要求。圖12(c)和圖12(d)分別為YOLOv3和DNET-C的識別效果圖(為了明顯展示結果圖細節(jié),DNET-C的識別效果圖經(jīng)過剪裁,為原圖的1/9中心區(qū)域)。
表15 DNET-C與YOLOv3識別結果Table 15 Recognition results of DNET-C and YOLOv3
圖12 DNET與3種通用網(wǎng)絡的識別效果對比Fig.12 Recognition effects of DNET and three universal networks
由于飛機幾乎完全被干擾遮擋,僅憑單張圖片而不參考整個序列的情況下,人眼無法從所示圖片中辨認出飛機目標及位置。所以,在實驗的訓練集中有意回避了這種情況,即并未選取此類圖片作為訓練集。但是,算法DNET-C依然通過單幀檢測,精確地識別飛機目標,即可以識別未出現(xiàn)在訓練集中,且人眼無法識別的目標。同時有力證明了DNET-C準確的特征提取能力。
3.4.1 訓練參數(shù)
根據(jù)3.1.2節(jié)生成的仿真彈道數(shù)據(jù)集,訓練3.3節(jié)中效果最好紅外目標抗干擾識別網(wǎng)絡DNET-C。同時,訓練通用網(wǎng)絡FASTER-RCNN(ZF)、SSD、YOLOv3并與DNET-C進行測試對比分析。表16提供訓練過程中的參數(shù)設置,如學習率、批大小、訓練步數(shù),學習率在70 000步之后衰減到0.000 1。
表16 全程抗干擾目標識別訓練參數(shù)
根據(jù)本次實驗硬件配置,最終選擇了256的批量大小,并將其分成8個子批次進行訓練,相當于批量大小為32。
3.4.2 結果分析
4種網(wǎng)絡在102條序列,共89 380張圖片的識別結果如表17所示。4種網(wǎng)絡的部分識別效果分別如圖12和圖13所示。
表17 4種算法的識別結果對比Table 17 Comparison of recognition results of algorithms
圖13 部分態(tài)勢下的DNET-C識別效果Fig.13 Recognition effect of DNET-C in part of situation
FASTER-RCNN算法的總識別率為52.0%,識別速度為43 fps。當目標較小時,F(xiàn)ASTER-RCNN完全無法識別。在目標成像階段,算法的表現(xiàn)較好,識別率達到95.6%。但是在飛機與誘餌相互黏連的情況下會造成算法無法識別,F(xiàn)ASTER-RCNN抗遮擋性能較差。在序列末端,目標充滿視場時,識別效果同樣較差,如圖12(a)所示。另外,F(xiàn)ASTER-RCNN在連續(xù)識別圖片序列時,識別框抖動較大,定位效果較差。
SSD算法的總識別率為55.8%,略高于FASTER-RCNN,識別速度為23 fps。SSD對小目標抗干擾識別的效果依然不好,僅正確識別很少部分小目標圖像。在目標成像階段,在目標與誘餌的黏連狀態(tài),SSD同樣無法識別目標,抗干擾性能較差,如圖12(b)所示。由于SSD算法中加入了多尺度檢測,因此對目標圖像尺度變化的適應性較好,在目標幾乎充滿視場時,并未出現(xiàn)FASTER-RCNN錯誤識別的情況。
YOLOv3算法的總識別率94.0%,識別速度55 fps。YOLOv3主要加強了小目標的識別效果,因此在本次實驗中可以識別整個序列。YOLOv3的漏檢主要是發(fā)生在點目標和亞成像階段,無法準確區(qū)分目標與干擾,如圖12(c)所示。同時,進入彈道末端攻擊階段的目標即將充滿或已經(jīng)視場,YOLOv3同樣完全無法識別。主要原因是人為分配預選框,使得網(wǎng)絡在訓練時預選框匹配不合理,無法正確匹配真實框。另外,當目標完全充滿視場時,YOLOv3同樣無法識別目標。本文進一步將識別效果較好的YOLOv3與DNET-C進行評價指標對比,如表18所示。
表18 DNET和YOLOv3的評價指標Table 18 Evaluation indicators of DNET and YOLOv3
DNET-C的召回率為96.95%,是4種算法中最高的,相比于YOLOv3提升6.85%。精確度為99.36%,F(xiàn)1值為0.981,相比于YOLOv3提升0.37。識別速度132.0 fps,為YOLOv3的2.3倍,達到實時識別的要求。DNET-C可以準確識別飛機在視場中由遠及近的全過程,解決了YOLOv3無法識別序列末端的問題。
可以看出,DNET-C網(wǎng)絡保留了對點目標、亞成像目標準確的抗干擾識別能力,擁有很高的小目標識別能力。同時,當飛機翻轉、投放誘餌時,DNET-C可以準確識別目標,擁有較高的抗干擾識別能力。在序列末端,目標充滿視場時準確識別目標,DNET-C擁有較強的尺度適應性。
本文針對紅外空空導彈精確探測制導的人工干擾博弈問題,提出一種基于目標信息特征提取的深度卷積神經(jīng)網(wǎng)絡DNET空中紅外圖像目標抗干擾識別算法,主要結論如下:
1) 針對紅外圖像點目標階段的檢測問題,提出一種依據(jù)信息特征提取的深度卷積神經(jīng)網(wǎng)絡DNET,采用M模塊密集連接技術,可更好地融合淺層網(wǎng)絡的位置信息與深層網(wǎng)絡的語義信息。
2) 針對全程目標形狀、尺度劇烈變化及抗干擾識別問題,在DNET網(wǎng)絡中加入多尺度密集鏈接模塊,并與多尺度特征圖檢測相結合,顯著提高網(wǎng)絡在全攻擊過程中對圖像目標的特征提取能力。
3) 通過目標抗干擾識別實驗表明,本文算法在目標遭受遮蔽、黏連、相似等嚴重人工干擾,以及目標自身形狀、尺度、輻射特性等發(fā)生劇烈變化情況下,具備目標識別精確度和召回率高、識別速度快等優(yōu)點,并具有良好的魯棒性。
保證跟蹤精度的前提下,對目標遭受干擾嚴重遮擋、自身尺度、姿態(tài)變化等情況具有較好的魯棒性。
4) 本文算法采用單幀識別方法可達到圖像序列識別的能力,可滿足紅外抗干擾的實時性要求,初步解決了紅外空空導彈攻擊全過程的抗干擾識別問題。但在充分利用圖像序列之間的幀間相關性方面,有待進一步改進提高。
[21] ZHANG X, DING Q, LUO H, et al. Infrared small target detection based on an image-patch tensor model[J]. Infrared Physics & Technology, 2019, 99: 55-63.