葉 濤,趙宗揚,柴興華,張 俊
(1.中國礦業(yè)大學(北京)機電與信息工程學院,北京 100083;2.中國電子科技集團公司第五十四研究所,石家莊 050081)
無人機由于具有在增加國防力量[1-2]的同時還可以進行自然災害的監(jiān)測與救援、代替人類執(zhí)行高危任務并供人們進行拍攝和娛樂等優(yōu)點,已迅速應用于國家和社會生活的不同方面。但無人機在為人們提供極大便利的同時,一些侵犯人們隱私、影響人們的日常生活的“黑飛”的無人機經(jīng)常進入大眾的視野,對公民的隱私及個人及公共安全造成了嚴重威脅,甚至還會有非法分子通過無人機攜帶危險物品來實施恐怖襲擊。因此研究一種能夠快速準確地檢測無人機目標的理論和方法非常有必要,可以為無人機行動的防護壓制提供精準依據(jù)以降低“黑飛”現(xiàn)象,進而保護公民隱私并維護公眾的生命和財產(chǎn)安全,具有很現(xiàn)實的意義。
許多學者對無人機檢測算法進行了大量的研究,無人機檢測算法分為傳統(tǒng)的無人機檢測算法和基于深度學習的無人機檢測算法。傳統(tǒng)的無人機檢測算法通常使用方向梯度直方圖(histogram of oriented gradient,HOG)[3]與支持向量機(support vector machine,SVM)[4]等分類方法的組合實現(xiàn)特征的提取和目標類別的檢測。然而,傳統(tǒng)的特征提取方法存在著提取手工特征較為復雜、過于依賴設計者經(jīng)驗等問題,且不能自適應提取特征,遷移到其他場景的能力也差。而基于深度學習的目標檢測算法可以通過卷積神經(jīng)網(wǎng)絡[5-7]自適應的提取特征且檢測速度和精度都較高,近年來涌現(xiàn)出的單級多框預測(single shot multibox detector,SSD)[8]、YOLO(you only live once)[9-12]系列等性能優(yōu)良的框架被廣泛應用在目標檢測中。李秋珍等[13]提出了兩種基于SSD算法的實時無人機識別方法,一種是基于SSD獲取視頻流中的無人機位置,另一種方法是將SSD檢測到的無人機目標圖像進行微調(diào),相比之下第二種方法的準確性較高,但對于在真實應用場景下無人機的識別率比較低、區(qū)分無人機種類的能力差,無人機的識別準確率仍有待提高。陳亞晨等[14]通過縮減YOLOv3的網(wǎng)絡層數(shù)以提升檢測速度,但算法的檢測精度卻有待提高,對小目標的檢測能力也有待驗證。馬旗等[15]通過優(yōu)化YOLOv3的殘差網(wǎng)絡及多尺度融合的方式提高了對低空無人機目標的檢測精度,但其數(shù)據(jù)集的類別較為有限導致其檢測性能受限且對處于夜間或較為昏暗的光線條件下的小目標無人機檢測識別仍有待改進。陶磊等[16]采用改進的YOLOv3 模型檢測視頻幀中是否存在無人機,可以實現(xiàn)對無人機的實時檢測,但其檢測精度仍有較大的提升空間,且對小目標無人機的研究尚淺。綜上所述,無人機目標檢測算法的精度和實時性的平衡以及實現(xiàn)小目標準確高效的檢測往往是算法難以解決的重點問題。
針對上述問題,為了在平衡算法的檢測速度和精度的同時提高對小目標無人機的檢測精度,現(xiàn)基于YOLOv3提出多尺度目標檢測網(wǎng)絡(multi-scale object detection network,MS-Net),實現(xiàn)檢測精度和檢測速度的良好平衡。該網(wǎng)絡通過K-均值(K-means)聚類重新生成錨值更加精確的預測目標區(qū)域的位置,在特征提取部分插入空間金字塔池化(spatial pyramid pooling,SSP)[17]模塊將局部特征和全局特征進行融合,實現(xiàn)多尺度圖像特征提取的同時提升了分類精度;在檢測部分提出增強壓縮和激活(enhanced sequeeze and excitation,ESE)通道注意力增強方法重新分配權重,在基本不影響檢測速度的同時提高模型的多尺度目標檢測精度,在由無人機、風箏、鳥等組成的數(shù)據(jù)集上檢測精度為91.39%,比YOLOv3提升了6.42%。檢測速度為51 FPS,對實際應用中對低空無人機等“低慢小”目標的高精度實時性檢測,為實現(xiàn)后續(xù)的防護壓制提供重要依據(jù)。
多尺度目標檢測網(wǎng)絡借鑒了 YOLO 系列目標檢測算法僅需要一次前向卷積運算就可以得到目標邊界框和類別預測可能性,實現(xiàn)模型端到端訓練的思想。圖1闡述了多尺度目標檢測網(wǎng)絡模型的總體結構,該模型首先利用尺度縮放將輸入圖像縮放到固定分辨率(416×416),然后通過K-means聚類所得到的最優(yōu)錨值和主干網(wǎng)絡中的SPP模塊對輸入特征圖像進行更為豐富精確的圖像特征提取,進而產(chǎn)生不同大小的特征圖,并利用ESE注意力增強機制和多尺度特征融合操作將不同特征圖進行融合來進行目標分類與回歸。
圖1 MS-Net總體結構圖Fig.1 The overall structure diagram of MS-Net
1.2.1K-means聚類得到最優(yōu)錨值
YOLOv3 會在每個網(wǎng)格單元上預測出3個錨盒,每個錨盒預測3個邊界框,每個邊界框會預測出4個值,分別為tx、ty、tw、th,若目標中心在單元格相對于圖像左上角有偏移(cx,cy),如圖2所示,則進行修正,其公式為
圖2 錨盒修正Fig.2 Modification of anchor box
bx=σ(tx)+cx
(1)
by=σ(ty)+cy
(2)
bw=pwetw
(3)
bh=pheth
(4)
式中:pw和ph為網(wǎng)格對應錨盒的寬。
但YOLOv3中anchor值是根據(jù)COCO等開源數(shù)據(jù)集設定的,故使用了K-means聚類方法重新分析自己所制作的包含鳥、風箏、無人機三類檢測目標數(shù)據(jù)集中真值框?qū)捀?、尺寸比例分?根據(jù)式(5)不斷迭代質(zhì)心后找到合適的候選框種類組合重新確定anchor值,使得候選框的寬高維度對目標的輪廓形狀具有更好、更有代表性的先驗信息,從而在之后的回歸計算對目標區(qū)域的位置的預測更加準確。錨盒的具體大小及分配情況如表1所示。
表1 改進后錨盒的尺寸Table 1 The sizes of the improved anchor boxes
d(box,centroid)=1-IOU(box,centroid)
(5)
式(5)中:box為數(shù)據(jù)集中的邊框尺寸樣本;centroid為每一類簇的中心尺寸數(shù)值。
1.2.2 SPP特征融合提升分類精度
為使全連接層的輸入圖像的尺寸固定,在對不同大小圖像的預處理操作中會造成一定程度的圖像失真。通過圖3所示的SPP模塊使用固定分塊的池化操作,對不同尺寸的輸入實現(xiàn)相同大小的輸出,避免了圖像失真,實現(xiàn)局部特征和全局特征融合并豐富最終特征圖的表達能力,從而實現(xiàn)了檢測精度的提高。
CBL表示Yolov3網(wǎng)絡結構中的最小組件,由Conv+Bn+Leaky_relu激活函數(shù)三者組成圖3 SPP結構示意圖Fig.3 Schematic diagram of SPP structure
YOLOv3算法因計算速度快可以實現(xiàn)實際場景下的實時檢測,但其在對整張圖片進行特征提取和目標框的回歸時易受到復雜背景的影響導致檢測性能下降出現(xiàn)漏檢和錯檢現(xiàn)象。針對這一問題,MS-Net中加入了ESE通道注意力模塊,通過通道注意力[18]對卷積網(wǎng)絡提取的特征進行選擇,降低了復雜背景對檢測結果的影響和漏檢率,在基本不影響檢測速度的同時提升了算法的小目標識別能力。
ESE模塊如圖4所示,將輸入通道分為平均分為兩個分支,分支一使用3×3的卷積進行特征提取,分支二使用5×5的卷積提取特征獲得更大的感受野,最后將取得不同感受野的特征圖進行融合,建立全局上下文關系,并建模通道之間的相互依賴關系,自適應地重新校準通道的特征響應,篩選出了針對通道的注意力,增加了極小的計算量,但提升了檢測精度。ESE注意力機制模塊的計算過程為
s1=g(F)
(5)
s2=ReLU(W1s1)
(6)
s3=Sigmoid(W2s2)
(7)
F=s3F
(8)
式中:F∈RC×H×W為輸入特征圖;函數(shù)g為平均池化操作;s1∈RC×1×1為平均池化后的輸出;W1∈RC/16×C為全連接層FC1的參數(shù),s2∈RC/16×1×1為經(jīng)過FC1和ReLU函數(shù)處理后的輸出;W2∈RC×C/16為經(jīng)過全連接層FC2的參數(shù);s3∈RC×1×1為FC2和Sigmoid函數(shù)處理后的輸出。
C、H、W分別為輸入圖像的通道數(shù)、高和寬;C1、H1、W1分別為輸出特征圖的通道數(shù)、高和寬圖4 ESE模塊結構圖Fig.4 ESE module structure diagram
為了評估該目標檢測模型的有效性,在包含無人機、風箏、鳥三類“低慢小”目標的數(shù)據(jù)集上進行了實驗,并在多場景下進行測試。訓練用服務器使用Intel? CoreTM i7-6950X CPU處理器,配備四塊NVIDIA GeForce GTX 1080TI顯卡,每塊顯卡內(nèi)存11 G。實驗在基于Ubuntu18.04操作系統(tǒng)下的Pytorch1.7.0深度學習框架上實現(xiàn),采用GPU (GTX1080Ti)進行訓練和測試。
為評估SCS-Net對于“低慢小”目標檢測的性能,建立了私有數(shù)據(jù)集。該數(shù)據(jù)集是通過采集真實場景中的視頻和圖像來獲取的,包含了不同天氣、光照和復雜背景的圖像;然后利用視頻抽幀方法生成了6 904張圖片,將收集到的圖像分為三類進行標注:無人機、鳥、風箏。將該數(shù)據(jù)集的70%圖像用來進行訓練和驗證,30%圖像用于測試。
檢測模型的主干網(wǎng)絡是Darknet-53,測試圖像的輸入尺寸為416×416,采用尺寸為52×52、26×26、13×13的特征圖來檢測多尺度的物體。圖像批處理量大小為32,優(yōu)化方法為SGD,動量為0.9,初始學習率為0.001,所有實驗的最大迭代次數(shù)為105。將SCS-Net的檢測結果與SSD、YOLOv3-tiny和YOLOv3模型的檢測結果作對比,使用平均精度(mean average precision,mAP)來評估模型的有效性并將最好的結果突出顯示,實驗結果如表2所示。
表2 模型試驗結果對比Table 2 Comparison of model test results
實驗結果表明:MS-Net在檢測精度的性能明顯優(yōu)于其他模型,尤其針對風箏這一類其他模型識別精度較低的目標的識別能力很明顯有著巨大的提升。而且還將MS-Net與不同的檢測方法對比進行消融實驗,實驗結果如表3所示。結果表明:在檢測精度方面,MS-Net相比于其他所有檢測模型和方法在所檢測的三類目標中都取得了最佳成績,檢測精度較其他模型有著顯著的提高;在檢測速度方面,由于MS-Net的網(wǎng)絡層數(shù)較深,所以檢測速度略有降低,但仍可以保證實時檢測,符合工業(yè)現(xiàn)場的應用要求。
表3 消融試驗結果對比Table 3 Comparison of ablation test results
將所提出的方法與不同模型進行比較,圖 5顯示了幾種不同模型的對比結果。所有模型均在同一數(shù)據(jù)集上進行訓練和測試。從左到右,每列分別表示YOLOv3、YOLOv3+SPP、YOLOv3+SPP+CBAM 和 MS-Net的檢測結果。第一行中的目標較為清晰,此時4種網(wǎng)絡模型都能對其進行準確地檢測,但MS-Net具有最高的檢測精度;第二行中的目標尺寸變化顯著,且存在被遮擋的小目標,YOLOv3模型存在漏檢現(xiàn)象,而MS-Net可以很好地檢測出被遮擋的小目標,且精度較高;最后一行所檢測的都是小目標物體,從檢測結果可以看出,MS-Net對于小目標的檢測能力較其他模型有著很大幅度的提升。實驗結果表明,MS-Net能夠有效地檢測出各類目標的位置,具有較高的魯棒性,特別是在多尺度或小目標的情況下。
圖5 不同模型的檢測結果Fig.5 Detection results of different models
該模型在不同環(huán)境下的魯棒性分析如圖6所示。圖6(a)中由于光照較暗并存在著背景干擾,圖像成像質(zhì)量較差,而MS-Net仍可以很好地檢測出無人機目標,且精度較高,即使是在圖6(b)中陰暗環(huán)境檢測目標較小時也能保證較高的識別精度。實驗結果表明,MS-Net能夠有效地檢測出目標的位置,實現(xiàn)不同場景下的目標檢測,并具有較高的魯棒性,即便是昏暗環(huán)境下或存在背景干擾及多目標檢測中,仍有著極強的小目標識別能力,在滿足實際應用中實時性檢測要求的同時有著較高的檢測精度。
圖6 不同場景的魯棒性測試Fig.6 The robustness test in different scenario
針對“黑飛”無人機侵犯公民隱私、危害個人及公共安全,而現(xiàn)有的無人機檢測算法難以平衡檢測速度和精度且對小目標的檢測精度較低等問題,提出了一種基于 YOLOv3 的無人機目標檢測算法MS-Net,經(jīng)過理論分析和實驗驗證,得到以下結論。
(1)使用SPP將局部特征和整體特征相融合,提升網(wǎng)絡的特征提取能力,并使用K-means聚類生成最優(yōu)錨值在之后的檢測中更加精確的預測目標區(qū)域,提高檢測精度。
(2)提出了ESE通道注意力機制,使用不同尺寸的卷積建立全局上下文關系,并建模通道之間的相互依賴關系,自適應地重新校準通道的特征響應,在保證檢測速度的同時提升了檢測精度。
(3)MS-Net在低空數(shù)據(jù)集上以 21 ms 檢測每張圖片取得了91.39%的檢測精度,檢測精度比 YOLOv3 網(wǎng)絡提高了6.42%,特別是在無人機目標上的檢測精度提升了7.42%,檢測性能更強,并能夠滿足實際場景下的實時性檢測要求,為實現(xiàn)后續(xù)對“黑飛”無人機的精準壓制提供了重要依據(jù),具有較高的理論價值和實際應用前景。