宋 歡,沈 韜,曾 凱
(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,昆明 650500) (昆明理工大學(xué) 云南省計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室,昆明 650500)
太赫茲(THz)被認(rèn)為是最具發(fā)展?jié)摿Φ男屡d技術(shù)之一,已經(jīng)在生物醫(yī)學(xué)[1]、無線通信[2]、無損檢測[3]、安全檢查[4]等各個(gè)領(lǐng)域發(fā)揮重要作用.太赫茲成像是基于太赫茲波進(jìn)行成像的技術(shù),具有較低的光子能量和獨(dú)特的無損傷檢測特性,這些特性使得太赫茲技術(shù)在安檢反恐領(lǐng)域廣受關(guān)注.從太赫茲圖像中提取目標(biāo)特征,自動(dòng)并準(zhǔn)確地對各類目標(biāo)進(jìn)行分類和定位,是提高安檢效率和實(shí)現(xiàn)智能化排查的關(guān)鍵,針對太赫茲圖像的目標(biāo)檢測研究具有重要的現(xiàn)實(shí)意義.
近年來,深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域中取得了突破的進(jìn)展.相比于傳統(tǒng)目標(biāo)檢測算法,基于深層卷積神經(jīng)網(wǎng)絡(luò)的算法具有特征自動(dòng)提取,泛化能力強(qiáng)等優(yōu)點(diǎn)[5].目前,基于深度學(xué)習(xí)的目標(biāo)檢測算法主要分為兩類:1)兩階段檢測算法,如Faster R-CNN[6]、Mask R-CNN[7],該類方法具有較高的檢測精度,但是檢測速度較慢;2)單階段檢測算法,如SSD(Single Shot multibox Detector)[8]、YOLO(You Only Look Once)[9]、PeleeNet[10]算法,與兩階段法相比,該類方法在檢測速度上有較大提高,但檢測精度稍有不足.現(xiàn)有的目標(biāo)檢測算法在自然光學(xué)圖像的檢測中取得了不錯(cuò)的效果,然而與自然光學(xué)圖像不同,太赫茲圖像的特征受觀察角度、目標(biāo)結(jié)構(gòu)和材料等因素的影響,目標(biāo)邊緣特征模糊,細(xì)節(jié)缺失[11].在實(shí)際的日常人體安檢中,要檢測的對象通常為人們隨身攜帶的手機(jī)、打火機(jī)、刀具、鑰匙等物品,待檢目標(biāo)通常占據(jù)整個(gè)圖像的小部分,所涵蓋的特征信息量少.同時(shí),太赫茲圖像分辨率較低,背景與目標(biāo)亮度相近,目標(biāo)在卷積神經(jīng)網(wǎng)絡(luò)中特征表征能力不足,不利于模型進(jìn)行判斷,針對太赫茲圖像的目標(biāo)檢測面臨諸多挑戰(zhàn).目前,已有很多學(xué)者基于深度學(xué)習(xí)的方法對太赫茲圖像中的目標(biāo)檢測進(jìn)行了研究,Xiao[12]等提出一種結(jié)合預(yù)處理和結(jié)構(gòu)優(yōu)化的檢測框架,在Faster R-CNN網(wǎng)絡(luò)中加入去噪和增強(qiáng)模塊,并將網(wǎng)絡(luò)分層裁剪以減少卷積層和池化層的數(shù)量,有效提高了檢測精度和速度;Yang等[13]通過稀疏低秩分解方法挖掘太赫茲圖像的時(shí)空信息,實(shí)現(xiàn)對可疑對象的高精度自動(dòng)檢測和識別;侯等[14]使用在線困難樣本挖掘緩解太赫茲圖像數(shù)據(jù)集中正負(fù)樣本失衡問題,進(jìn)一步提升了檢測性能.上述方法取得了不錯(cuò)的進(jìn)展,但直接使用卷積神經(jīng)網(wǎng)絡(luò)提取特征,沒有關(guān)注不同特征對網(wǎng)絡(luò)檢測任務(wù)的不同貢獻(xiàn)程度,不利于在干擾較大的太赫茲圖像中提取有效特征,同時(shí)沒有考慮上下文信息對檢測太赫茲圖像中低分辨率目標(biāo)的重要性.
為解決上述問題,論文提出一種融合多尺度注意力的目標(biāo)檢測框架(MSAD-SSD).針對太赫茲圖像分辨率較低,特征信息模糊的問題,MSAD-SSD采用不同膨脹率的膨脹卷積[15]獲得多尺度特征圖,提高網(wǎng)絡(luò)的感受野,結(jié)合上下文信息加強(qiáng)網(wǎng)絡(luò)對目標(biāo)表征的準(zhǔn)確性.針對太赫茲圖像存在背景干擾的問題,使用通道注意力機(jī)制[16]增強(qiáng)目標(biāo)的關(guān)鍵特征,抑制冗雜特征,提高網(wǎng)絡(luò)對重要特征的表征能力.本文的主要貢獻(xiàn)包括:
1)以SSD檢測框架為基礎(chǔ),提出了一種融合多尺度注意力的目標(biāo)檢測框架MSAD-SSD,使用ResNet101作為特征提取網(wǎng)絡(luò),通過殘差連接使網(wǎng)絡(luò)在干擾較強(qiáng)的太赫茲圖像中提取更為穩(wěn)定有效的特征.
2)在ResNet101網(wǎng)絡(luò)中設(shè)計(jì)一種多尺度注意力模塊,該模塊通過多支路的膨脹卷積充分獲取目標(biāo)的上下文信息,利用通道注意力機(jī)制生成顯著特征圖,使網(wǎng)絡(luò)重點(diǎn)關(guān)注圖像中的關(guān)鍵特征.
SSD算法是目前主流的一種單階段多框檢測算法,由基礎(chǔ)的特征提取網(wǎng)絡(luò)以及附加卷積層組成,采用金字塔結(jié)構(gòu)的多尺度特征對目標(biāo)進(jìn)行檢測.SSD網(wǎng)絡(luò)通過深層網(wǎng)絡(luò)提取的特征信息檢測大物體,依賴淺層網(wǎng)絡(luò)提取的低層特征信息檢測小物體.鑒于此,增強(qiáng)SSD淺層網(wǎng)絡(luò)的特征提取和特征表達(dá)能力,可以有效提高太赫茲圖像中各類目標(biāo)的檢測性能.
論文所提MSAD-SSD使用ResNet101作為特征提取網(wǎng)絡(luò),ResNet101具有更深的網(wǎng)絡(luò)結(jié)構(gòu),能夠提高網(wǎng)絡(luò)的特征提取能力,同時(shí)通過卷積層之間的跳躍性連接將輸入直接傳遞到輸出,能夠有效避免特征信息的丟失,使網(wǎng)絡(luò)在干擾較強(qiáng)的太赫茲圖像中提取更為穩(wěn)定有效的特征.論文在ResNet101中設(shè)計(jì)多尺度注意力模塊構(gòu)建MSAD-SSD檢測框架,MSAD-SSD網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示.
圖1 MSAD-SSD網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Structure of MSAD-SSD
MSAD-SSD檢測框架以ResNet101作為特征提取網(wǎng)絡(luò),并在淺層網(wǎng)絡(luò)Conv3后加入多尺度注意力模塊,特征經(jīng)多尺度注意力模塊后與Conv3層原始的輸出特征進(jìn)行融合,輸入下一步的檢測模塊中.網(wǎng)絡(luò)通過卷積層Conv3、Conv5、Conv6、Conv7、Conv8、Conv9對輸入圖像進(jìn)行特征提取,結(jié)合不同分辨率的特征映射用于預(yù)測不同大小的目標(biāo).其中Conv6、Conv7、Conv8、Conv9為原SSD網(wǎng)絡(luò)的附加卷積層.
太赫茲圖像對比度低,細(xì)節(jié)特征信息弱,目標(biāo)在太赫茲圖像中呈現(xiàn)出不同亮度的特性,相似亮度的背景極易覆蓋目標(biāo)的特征信息,造成干擾.因此,如何利用有限的特征信息準(zhǔn)確檢測出目標(biāo),是太赫茲圖像檢測的難點(diǎn).本文設(shè)計(jì)了一種多尺度注意力模塊,使用多尺度膨脹卷積擴(kuò)展網(wǎng)絡(luò)的視野感知域,獲取豐富的上下文信息,有利于充分利用太赫茲圖像有限的特征信息.同時(shí),引入通道注意力機(jī)制增強(qiáng)圖像中的關(guān)鍵特征,通道注意力機(jī)制通過學(xué)習(xí)的方式獲取特征間的依賴關(guān)系及各部分的重要程度,并根據(jù)重要性突出高頻信息,有利于抑制太赫茲圖像中與目標(biāo)無關(guān)的背景信息,減少無關(guān)信息的干擾,多尺度注意力模塊如圖2所示.
圖2 多尺度注意力模塊Fig.2 Multi-scale attention moudle
多尺度注意力模塊并行引入了3個(gè)不同膨脹率的膨脹卷積,形成多支路膨脹卷積層.使用膨脹率為1、2、5,卷積核為3×3大小的膨脹卷積對輸入進(jìn)行采樣,在特征圖上進(jìn)行不同膨脹率的卷積運(yùn)算,充分獲取目標(biāo)的上下文信息,得到特征圖不同尺度和不同區(qū)域間的信息變化.隨后再分別經(jīng)通道注意力模塊學(xué)習(xí)特征圖各個(gè)通道的重要程度并賦予不同的權(quán)重,使網(wǎng)絡(luò)聚焦于目標(biāo)的關(guān)鍵特征,最后不同分支的輸出進(jìn)行特征融合,得到多尺度融合特征.
2.2.1 膨脹卷積
膨脹卷積也稱空洞卷積,最早被提出用于圖像分割.膨脹卷積在原卷積核中插入不同數(shù)量的空洞來擴(kuò)展卷積的大小,可以在不增加計(jì)算復(fù)雜度的同時(shí)擴(kuò)展卷積層的感受野.傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)使用下采樣擴(kuò)大網(wǎng)絡(luò)的接收范圍,但隨著下采樣次數(shù)的增加,會(huì)導(dǎo)致特征圖分辨率降低,丟失邊緣、紋理等細(xì)節(jié)信息,不利于目標(biāo)的檢測.膨脹卷積在原始卷積的基礎(chǔ)上增加一個(gè)參數(shù)膨脹率,通過控制膨脹率的大小對卷積核進(jìn)行不同數(shù)量的空洞填充,能夠擴(kuò)展網(wǎng)絡(luò)的感受野而不降低特征圖的分辨率.
假設(shè)原始的卷積核大小為k,膨脹率為r,則經(jīng)過膨脹后卷積核的大小k′為:
k′=r(k-1)+1
(1)
卷積核經(jīng)過膨脹后的視野接收域?yàn)椋?/p>
v=((k+1)×(r-1)+k)2
(2)
使用膨脹卷積可以有效地?cái)U(kuò)展網(wǎng)絡(luò)的視野接收域,獲得輸入圖像更全面和準(zhǔn)確的表達(dá).
2.2.2 通道注意力機(jī)制
Hu等人首次提出利用注意力機(jī)制對特征圖各通道間的依賴性進(jìn)行建模,通過權(quán)重值大小表征各個(gè)通道的重要程度,獲得顯著性特征映射,指導(dǎo)網(wǎng)絡(luò)重點(diǎn)關(guān)注信息量豐富的特征,抑制冗雜特征的干擾,通道注意力模塊如圖3所示.
圖3 通道注意力模塊Fig.3 Channel attention moudle
輸入圖像經(jīng)過特征提取操作Ftr后得到維度為H×W×C的特征圖U,其中H為特征圖高度,W為特征圖寬度,C為通道數(shù).通道注意力機(jī)制通過以下步驟實(shí)現(xiàn):
1)通道特征權(quán)重提?。簩×W×C的特征圖,在每個(gè)通道上對特征圖的空間維度進(jìn)行壓縮,轉(zhuǎn)換成維度為1×1×C的特圖征,通道數(shù)保持不變.
(3)
式中:uc為輸入特征的第c個(gè)通道特征,i、j對應(yīng)特征圖上每一個(gè)像素點(diǎn)的位置,對輸入特征進(jìn)行平均池化,得到輸出特征zc.
2)通道特征權(quán)重更新:特征經(jīng)FC(Fully Connected)全連接層進(jìn)行通道信息融合,通過學(xué)習(xí)的方式獲取0~1之間的歸一化權(quán)重,該權(quán)重表征各個(gè)通道特征的重要程度.
S=Fex(z,W)=σ(W2δ(W1z))
(4)
3)權(quán)重映射:將上述歸一化后的輸出權(quán)重值與原輸入特征圖進(jìn)行逐通道加權(quán),得到經(jīng)權(quán)重映射后的輸出特征.
(5)
(6)
本文所有實(shí)驗(yàn)均在Ubuntu 16.04系統(tǒng)下進(jìn)行,采用深度學(xué)習(xí)框架Pytorch搭建實(shí)驗(yàn)運(yùn)行環(huán)境,編程語言為Python,硬件配置為:NVIDIA Geforce GTX 2060,顯存為16GB,通過GPU加速運(yùn)算.實(shí)驗(yàn)最大迭代次數(shù)為100000次,初始學(xué)習(xí)率為0.001,當(dāng)網(wǎng)絡(luò)訓(xùn)練至80000次時(shí),學(xué)習(xí)率降為0.0001.批量大小為16,動(dòng)量為0.9,權(quán)重衰減率為0.0005.
本文使用的太赫茲圖像數(shù)據(jù)集中包含安檢過程中幾種典型的隱匿物:手機(jī)、刀具和水瓶,共 2450張圖像,采用JPEG格式,按照8:2的比例隨機(jī)劃分為訓(xùn)練集和測試集.
實(shí)驗(yàn)采用目標(biāo)檢測領(lǐng)域常用的模型評價(jià)指標(biāo):平均精度(Average Precision,AP)和平均精度均值(mean Average Precision,mAP)對模型的檢測效果進(jìn)行定量的評估.平均精度AP由召回率(Recall)與準(zhǔn)確率(Precision)共同決定,是評價(jià)模型在單類別檢測中檢測性能的直觀標(biāo)準(zhǔn).
(7)
(8)
(9)
式中TP、FP、FN分別是真陽性、假陽性和假陰性的數(shù)目.
mAP值為多類目標(biāo)的平均精度均值,通過mAP 值衡量模型在所有類別中的綜合檢測性能.
(10)
式中,N為數(shù)據(jù)集中待檢測目標(biāo)的類別數(shù)目,本實(shí)驗(yàn)中N=3.
3.3.1 準(zhǔn)確率對比
為驗(yàn)證所提方法的檢測性能,我們以對太赫茲圖像中隱匿物品的分類和定位為基礎(chǔ),對比模型在手機(jī)(Phone)、刀具(Knife)、水瓶(Bottle)3種物品中的檢測平均精度,以及各類別的平均精度均值.將MSAD-SSD與目前主流的目標(biāo)檢測算法:Faster R-CNN、R-FCN、YOLO v3、SSD算法進(jìn)行了對比實(shí)驗(yàn),表1為數(shù)據(jù)集在不同算法下的準(zhǔn)確率對比.
表1 不同算法下數(shù)據(jù)集的準(zhǔn)確率(%)對比Table 1 Comparison of the accuracy(%) of the dataset under different algorithms
由表1可知,MSAD-SSD網(wǎng)絡(luò)對太赫茲圖像數(shù)據(jù)集中的3類目標(biāo):刀具、手機(jī)、水瓶均有較好的檢測效果.對比不同的目標(biāo)檢測算法,其中Faster R-CNN的平均檢測精度為79.62%,R-FCN的平均檢測精度為78.44%,YOLO v3的平均檢測精度為80.65%,SSD的平均檢測精度為79.26%,MSAD-SSD的平均檢測精度為82.63%,證明論文所提方法對太赫茲圖像中各類目標(biāo)檢測性能提升的有效性.
為直觀的展示所提方法對太赫茲圖像中目標(biāo)的檢測效果,論文將MSAD-SSD與SSD算法在測試集中的檢測結(jié)果進(jìn)行了對比分析.在檢測結(jié)果中,所有的檢出目標(biāo)都用邊框標(biāo)記其位置,并顯示該目標(biāo)的所屬類別以及置信度值,檢測結(jié)果示例如圖4所示.
圖4 檢測結(jié)果對比圖Fig.4 Comparison of test results
其中,圖4(a)為SSD網(wǎng)絡(luò)的檢測結(jié)果圖,圖4(b)為MSAD-SSD網(wǎng)絡(luò)的檢測結(jié)果圖.太赫茲圖像中各類目標(biāo):手機(jī)、刀具、水瓶與人體的亮度相近,對比度低且邊緣特征模糊,導(dǎo)致SSD 算法不能準(zhǔn)確檢測,造成部分目標(biāo)漏檢.MSAD-SSD網(wǎng)絡(luò)提高了對目標(biāo)細(xì)節(jié)特征的學(xué)習(xí)能力,能更好地區(qū)分人體和人體攜帶的物品,在圖4(b)的檢測結(jié)果中,能夠準(zhǔn)確檢測出太赫茲圖像中的各類目標(biāo).
3.3.2 消融實(shí)驗(yàn)
為驗(yàn)證所提多尺度注意力模塊中通道注意力機(jī)制和膨脹卷積對模型檢測性能的影響,論文進(jìn)行了消融實(shí)驗(yàn).其中Attention代表在SSD網(wǎng)絡(luò)中加入通道注意力機(jī)制;Dilated Conv代表在SSD網(wǎng)絡(luò)中加入膨脹卷積;MSAD代表在SSD網(wǎng)絡(luò)中加入論文所提多尺度注意力模塊,實(shí)驗(yàn)結(jié)果如表2所示.
表2 不同方法對模型檢測性能的影響Table 2 Influence of different methods on the detection performance of model
實(shí)驗(yàn)結(jié)果表明,在SSD網(wǎng)絡(luò)中引入通道注意力機(jī)制與多尺度膨脹卷積,能有效提高網(wǎng)絡(luò)的檢測性能.在SSD網(wǎng)絡(luò)的基礎(chǔ)上增加通道注意力機(jī)制,mAP值從79.26%提高到81.51%;在SSD網(wǎng)絡(luò)中引入多尺度膨脹卷積,mAP值從79.26%提高到80.45%.當(dāng)在SSD網(wǎng)絡(luò)中加入所提多尺度注意力模塊時(shí),能夠有效地增強(qiáng)目標(biāo)的重要特征信息,擴(kuò)大網(wǎng)絡(luò)的感受野,獲得更豐富的上下文信息,模型對太赫茲圖像中各類目標(biāo)的平均檢測精度達(dá)到最佳,mAP值可提高至82.63%.
綜合上述實(shí)驗(yàn)結(jié)果,論文所提MSAD-SSD檢測框架對太赫茲圖像中的可疑物品具有良好的檢測效果,可以有效地提高目標(biāo)的檢測精度,提高了算法的適應(yīng)性和準(zhǔn)確性.
太赫茲圖像分辨率低,目標(biāo)涵蓋信息量少,目標(biāo)與背景之間對比度低,為了提高目標(biāo)檢測算法對太赫茲圖像中可疑物品的檢測能力,論文以SSD為基礎(chǔ),提出了一種融合多尺度注意力的目標(biāo)檢測框架MSAD-SSD.MSAD-SSD引入不同膨脹率的膨脹卷積獲取多尺度特征圖,結(jié)合多個(gè)尺度的特征圖進(jìn)行預(yù)測,對低分辨率的太赫茲圖像實(shí)現(xiàn)更準(zhǔn)確的特征表達(dá).同時(shí),利用通道注意力機(jī)制對每個(gè)通道的特征進(jìn)行權(quán)重分配,抑制背景信息并實(shí)現(xiàn)對重要特征的自適應(yīng)增強(qiáng).改進(jìn)后的算法對太赫茲圖像具有較好的檢測效果,提高了太赫茲圖像中可疑物品的檢測精度.有利于在安檢過程中對人體攜帶的可疑物品做出準(zhǔn)確警報(bào),提高自動(dòng)檢測的可靠性和準(zhǔn)確性.
在后續(xù)工作中,我們將收集更多的太赫茲圖像擴(kuò)充數(shù)據(jù)集,增加安檢過程中常見的可疑物品種類,保證所提方法對太赫茲圖像目標(biāo)檢測的普適性.