李志剛,郭琪美,宋曉婷,韓國(guó)峰,李瑩琦*
(1.華北理工大學(xué)人工智能學(xué)院,河北 唐山 063210;2.河北省工業(yè)智能感知重點(diǎn)實(shí)驗(yàn)室,河北 唐山 063210;3.唐山市就業(yè)服務(wù)中心,河北 唐山 063210)
近年來,軍事戰(zhàn)爭(zhēng)越來越依靠尖端技術(shù),傳統(tǒng)戰(zhàn)爭(zhēng)已經(jīng)逐步向智能化戰(zhàn)爭(zhēng)轉(zhuǎn)變。準(zhǔn)確高效的軍事目標(biāo)獲取及檢測(cè),對(duì)快速掌握戰(zhàn)場(chǎng)情況、目標(biāo)精確制導(dǎo)以及軍事偵察起著重要作用。目標(biāo)檢測(cè)已經(jīng)成為軍事戰(zhàn)爭(zhēng)中重要的一部分。此外,由于戰(zhàn)爭(zhēng)環(huán)境的復(fù)雜多變性,傳統(tǒng)的目標(biāo)檢測(cè)算法在復(fù)雜背景下的檢測(cè)效果不佳。因此,構(gòu)建一種高效、輕量化的復(fù)雜背景下的軍事目標(biāo)檢測(cè)模型具有重要意義。
由于軍事戰(zhàn)場(chǎng)的復(fù)雜多變,導(dǎo)致軍事目標(biāo)檢測(cè)尤為困難。因此,許多研究人員將目標(biāo)檢測(cè)算法應(yīng)用到軍事領(lǐng)域中致力于獲得精確的檢測(cè)結(jié)果。PAN等提出了一種基于遷移學(xué)習(xí)和幾何特征約束的級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)框架用于飛機(jī)檢測(cè)[1]。該方法在少樣本下實(shí)現(xiàn)了高精度、高效的檢測(cè)。JANAKIRAMAIAH等介紹了一種基于深度學(xué)習(xí)的膠囊網(wǎng)絡(luò)方法,用于檢測(cè)復(fù)雜背景中的軍事目標(biāo),該方法具有較高的識(shí)別精度[2]。朱家提出了一種改進(jìn)的Faster-RCNN 算法[3]。在Faster-RCNN 的基礎(chǔ)上,通過添加聚類算法來減少軍事目標(biāo)漏檢、誤檢的發(fā)生,同時(shí)采用Soft-NMS 代替NMS,提高了檢測(cè)率。但是針對(duì)光照不足或者遮擋目標(biāo),該算法的檢測(cè)性能較差。于博文等提出一種復(fù)雜背景軍事目標(biāo)檢測(cè)方法[4]。該方法結(jié)合了ResNet50-D 殘差網(wǎng)絡(luò)和雙注意力機(jī)制等算法來抑制背景干擾,增強(qiáng)目標(biāo)特征,從而來提升檢測(cè)精度。此外,GUPTA 等還考慮了一種輕量型的Yolov3 模型用于復(fù)雜背景下的軍用車輛分類和檢測(cè),實(shí)現(xiàn)了高效檢測(cè)[5]。MENG 等考慮了一種基于視覺注意機(jī)制和改進(jìn)的生成對(duì)抗網(wǎng)絡(luò)算法用于復(fù)雜地面背景中的軍事目標(biāo)識(shí)別,該方法在低分辨率和復(fù)雜環(huán)境中具有較好的識(shí)別效果[6]。此外,劉茹茹等考慮了一種Light-Yolov3 模型用于復(fù)雜背景下的軍事目標(biāo)檢測(cè),有效解決了軍事目標(biāo)遮擋問題[7]。LUO 等針對(duì)復(fù)雜背景下遙感圖像中飛機(jī)檢測(cè)性能不足的問題,考慮了一種改進(jìn)的Yolov5 算法,該算法能夠有效提高遙感圖像中飛機(jī)目標(biāo)的檢測(cè)精度和速度,同時(shí)更加易于收斂[8]。上述方法雖然在復(fù)雜背景下可以達(dá)到一定的檢測(cè)效果,但都不能很好地同時(shí)滿足高精度、高速度、低復(fù)雜度的要求。尤其是在資源受限的設(shè)備下進(jìn)行檢測(cè)任務(wù)時(shí),龐大的網(wǎng)絡(luò)結(jié)構(gòu)是不切實(shí)際的,無法達(dá)到預(yù)期效果。
為了解決上述問題,在Yolov4-Tiny 框架下,本文提出了一種高效且輕量化的軍事目標(biāo)檢測(cè)模型。特別地,為了使得模型更加關(guān)注目標(biāo)信息,本文在特征金字塔(feature pyramid network,F(xiàn)PN)中引入了卷積注意力模塊(convolutional block attention module,CBAM),將其與Yolov4-Tiny 模型進(jìn)行有效整合,整合后的模型具有高檢測(cè)性能、低復(fù)雜度的特點(diǎn)??梢詫⑵洳渴鹪趩伪鲬?zhàn)頭盔、無人機(jī)等資源受限的設(shè)備上,實(shí)現(xiàn)高效檢測(cè),為指揮員及時(shí)作出正確的戰(zhàn)略部署提供準(zhǔn)確信息。
在軍事戰(zhàn)爭(zhēng)中,瞬息萬變的戰(zhàn)場(chǎng)環(huán)境總是伴隨著強(qiáng)烈的光線變化以及障礙物、煙霧遮擋,而且軍事目標(biāo)所處的環(huán)境也較為復(fù)雜。因此,相比于傳統(tǒng)目標(biāo)的檢測(cè),軍事目標(biāo)檢測(cè)更具挑戰(zhàn)性。本文以電影《長(zhǎng)津湖》為基礎(chǔ)來構(gòu)建數(shù)據(jù)集,重點(diǎn)考慮4 種戰(zhàn)場(chǎng)環(huán)境下的復(fù)雜背景干擾類型和3 種軍事目標(biāo)的特征。圖1 展示了不同復(fù)雜背景干擾下具有多種特點(diǎn)的軍事目標(biāo)圖片。
圖1 戰(zhàn)場(chǎng)環(huán)境中的復(fù)雜背景Fig.1 Complex background in a battlefield environment
戰(zhàn)場(chǎng)環(huán)境下的復(fù)雜背景包括飛石干擾、火光干擾、煙霧干擾和黑夜干擾。具體描述如下:1)飛石干擾:在軍事戰(zhàn)場(chǎng)環(huán)境中,對(duì)坦克、軍用車輛、士兵存在大量的炮火攻擊,從而引起軍事目標(biāo)周圍產(chǎn)生大量的飛石、沙礫,以及炸彈碎片等干擾物,增加了軍事目標(biāo)的檢測(cè)難度。2)火光干擾:在戰(zhàn)場(chǎng)環(huán)境下,還會(huì)因?yàn)楦鞣N炮火攻擊產(chǎn)生強(qiáng)烈的光線變化,導(dǎo)致目標(biāo)周圍的光線差異較大,使得軍事目標(biāo)檢測(cè)困難。3)煙霧干擾:由于戰(zhàn)場(chǎng)環(huán)境中大量使用導(dǎo)彈,火箭炮等裝備來進(jìn)行攻擊,會(huì)產(chǎn)生大量的煙霧,它們充斥在目標(biāo)周圍,使得目標(biāo)變得模糊。4)黑夜干擾:由于戰(zhàn)場(chǎng)作戰(zhàn)的連續(xù)性,經(jīng)常會(huì)在黑夜情況下作戰(zhàn),此時(shí)的軍事目標(biāo)也會(huì)由于光線不足的影響導(dǎo)致難以被檢測(cè)出來。
由于戰(zhàn)場(chǎng)環(huán)境下的軍事目標(biāo)會(huì)受到光照、煙霧等各種類型的復(fù)雜背景干擾,這使得軍事目標(biāo)的特征變得極為不明顯。本文分別從以下幾個(gè)角度分析了軍事目標(biāo)的特征:1)戰(zhàn)場(chǎng)環(huán)境是復(fù)雜多變的,而軍事目標(biāo)所處環(huán)境也極其豐富,叢林、荒漠等都是其藏身之處,而外部物體會(huì)對(duì)其造成一定的遮擋,常常使得目標(biāo)變形,增加了軍事目標(biāo)的檢測(cè)難度。2)由于拍攝設(shè)備以及拍攝距離的不同,會(huì)使得軍事目標(biāo)尺寸相差較大。大尺寸目標(biāo)包含特征較多,而小尺寸目標(biāo)的形狀、邊緣等紋理特征較為模糊,能給檢測(cè)模型提供的信息很少。3)在戰(zhàn)場(chǎng)中,還會(huì)出現(xiàn)軍隊(duì)大規(guī)模出動(dòng)的情況,而此時(shí)的士兵以及一些武器裝備是比較密集的,軍事目標(biāo)間也會(huì)出現(xiàn)互相遮擋的情況,增加了軍事目標(biāo)的檢測(cè)難度。
由于軍事數(shù)據(jù)的保密性和安全性,國(guó)內(nèi)外沒有公開的軍事目標(biāo)數(shù)據(jù)集。在進(jìn)行軍事目標(biāo)檢測(cè)算法研究時(shí),缺乏專門的數(shù)據(jù)集。為了有效地解決這一問題,本文以電影《長(zhǎng)津湖》為主,截取出其中的軍事戰(zhàn)爭(zhēng)視頻,再利用Adobe Premiere Pro 2020 軟件對(duì)視頻進(jìn)行逐幀提取,然后篩選出存在軍事目標(biāo)的圖片,將其保存為JPG 格式的圖片。通過此操作,獲取了含有飛機(jī)、坦克、戰(zhàn)艦、士兵以及軍用車輛這五大類軍事戰(zhàn)爭(zhēng)圖片。為了提高模型的泛化能力和魯棒性,對(duì)獲取到的軍事圖片采用了數(shù)據(jù)增強(qiáng)的方式,包括旋轉(zhuǎn)、平移、cutout 等。圖2 展示了同一張圖片進(jìn)行數(shù)據(jù)增強(qiáng)后的不同效果。其中,第1 張是原圖,然后依次做了水平翻轉(zhuǎn)、旋轉(zhuǎn)、加噪、平移和cutout 操作。增強(qiáng)后的數(shù)據(jù)是原來數(shù)據(jù)量的8 倍,最終數(shù)據(jù)集圖片總量為12 060 張。其中,屬于復(fù)雜背景下的圖片數(shù)約占70%。數(shù)據(jù)集劃分為了3 部分,分別是訓(xùn)練集、驗(yàn)證集和測(cè)試集。其中,訓(xùn)練集圖片數(shù)為9 768 張,驗(yàn)證集圖片數(shù)為1 086 張,測(cè)試集圖片數(shù)為1 206 張。(訓(xùn)練集+驗(yàn)證集)和測(cè)試集的比例為9∶1,訓(xùn)練集和驗(yàn)證集的比例為9∶1。本文利用了k-means 聚類算法獲取到了數(shù)據(jù)集中目標(biāo)的大小分布情況。從圖3 中可以看出,數(shù)據(jù)集中存在少量小目標(biāo),主要集中為大中型目標(biāo)。數(shù)據(jù)集中各類軍事目標(biāo)數(shù)量如下頁表1 所示。
表1 軍事目標(biāo)類型及數(shù)量Table 1 Type and number of military targets
圖2 軍事目標(biāo)增強(qiáng)效果展示圖Fig.2 Illustration of military target enhancement effects
圖3 軍事目標(biāo)尺寸大小分布情況Fig.3 Size distribution of military targets
針對(duì)從《長(zhǎng)津湖》中獲取的復(fù)雜背景下的軍事目標(biāo)圖片,利用Labelimg 軟件對(duì)圖片中的坦克、戰(zhàn)船等軍事目標(biāo)進(jìn)行標(biāo)注,下頁圖4 左側(cè)展示了標(biāo)注界面,右側(cè)展示了對(duì)應(yīng)的xml 文件。在開始標(biāo)注時(shí),通過Open dir 和Change save dir 選項(xiàng)分別指定圖片文件和存放標(biāo)簽文件的路徑。從第1 張開始標(biāo)注,首先選擇Create Rectbox 選項(xiàng),從目標(biāo)左上角開始標(biāo)注,確保標(biāo)注的方框可以將目標(biāo)準(zhǔn)確地框出。然后在彈出的Boxlabels 中輸入標(biāo)注目標(biāo)的類別。標(biāo)注完成后點(diǎn)擊Save 進(jìn)行保存,即可生成對(duì)應(yīng)的xml 標(biāo)注文件。該標(biāo)注文件中包含了圖片名稱、圖片所屬路徑以及關(guān)于目標(biāo)的具體信息等。
圖4 軍事目標(biāo)標(biāo)注及相應(yīng)的xml 文件Fig.4 Military target annotation and corresponding XML file
本文在Yolov4-Tiny[9]的框架下,提出了一種高效且輕量化的復(fù)雜背景下的軍事目標(biāo)檢測(cè)模型。其結(jié)構(gòu)如下頁圖5 所示。從圖中可以看出,該模型包含三大部分:CSPDarknet53-Tiny 主干特征提取網(wǎng)絡(luò)、FPN+CBAM 加強(qiáng)特征提取網(wǎng)絡(luò)、以及Yolo head。CSPDarknet53-Tiny 是用來對(duì)復(fù)雜背景下含有軍事目標(biāo)的圖片進(jìn)行初始特征提取,獲得初始特征圖。FPN+CBAM 加強(qiáng)特征提取網(wǎng)絡(luò)是對(duì)特征圖進(jìn)行特征融合,以獲得具有高語義信息的特征圖。特別地,為了使得模型能更加關(guān)注目標(biāo)信息,在FPN 中引入了輕量型注意力模塊CBAM,以提高特征融合效果。Yolo head 是對(duì)具有高語義信息的特征圖進(jìn)行目標(biāo)分類回歸預(yù)測(cè),得到模型分類預(yù)測(cè)結(jié)果。各模塊的功能接下來會(huì)詳細(xì)介紹。表2 展示了模型訓(xùn)練的偽代碼。
表2 Yolov4-Tiny+CBAM 模型訓(xùn)練Table 2 Yolov4-Tiny+CBAM model training
圖5 Yolov4-Tiny+CBAM 模型結(jié)構(gòu)圖Fig.5 Yolov4-Tiny+CBAM model structure diagram
在本文提出的復(fù)雜背景下的軍事目標(biāo)檢測(cè)模型中,CSPDarknet53-Tiny 主干網(wǎng)絡(luò)是用來對(duì)復(fù)雜背景下的軍事圖片進(jìn)行初始特征提取。該網(wǎng)絡(luò)由3 個(gè)Darknet 層和3 個(gè)殘差塊組成。其中,Darknet 層是由卷積核大小為3*3 的卷積層、Batch_Norm 層和Leaky-Relu 激活函數(shù)構(gòu)成。具體公式如下:
其中,p 表示初始輸入張量;bn表示Batch_Norm 層;α 表示Leaky-Relu 激活函數(shù);Conv3*3為卷積核大小為3*3 的卷積層;P1表示輸出張量。
此外,每個(gè)殘差塊內(nèi)包含4 個(gè)Darknet 層、兩個(gè)Concat 層和一個(gè)最大池化層。殘差塊的內(nèi)部還嵌套了小殘差塊。利用殘差塊既能保持精度又減少了模型計(jì)算量。殘差塊的公式可以簡(jiǎn)單表示為:
其中,F(xiàn)(x)表示要學(xué)習(xí)的殘差映射;x 表示要學(xué)習(xí)的殘差映射的輸入;y 表示殘差映射的輸出。
從圖5 中可以看出,輸入圖片首先經(jīng)過兩個(gè)Darknet 層生成208*208*32 大小的特征張量,再經(jīng)過3 次殘差塊處理,在第2 次殘差塊之后輸出大小為26*26*256 大小的初始特征圖,在第3 次殘差塊之后再進(jìn)行一次Darknet 操作,獲得大小為13*13*512 大小的初始特征圖。最終,通過該主干網(wǎng)絡(luò)獲得了兩個(gè)不同大小的初始特征圖。
加強(qiáng)特征提取網(wǎng)絡(luò)是對(duì)初始特征圖進(jìn)行加強(qiáng)特征提取。其是由FPN 加強(qiáng)特征提取網(wǎng)絡(luò)和CBAM組成的。CBAM[10]是一種輕量型的注意力模塊,它由通道注意力模塊(channel attention module,CAM)和空間注意力模塊(spatial attention module,SAM)組成,前者側(cè)重于“是什么”,而后者側(cè)重于“在哪里”,這兩個(gè)模塊存在互補(bǔ)關(guān)系,以充分獲取目標(biāo)信息,其結(jié)構(gòu)如圖5 所示。CAM 分別對(duì)輸入特征進(jìn)行平均池化和最大池化操作,以此來聚集特征圖的空間信息。然后,分別采用兩次卷積和一次Relu 激活函數(shù),對(duì)獲取的信息進(jìn)行整合。最后,通過Sigmoid 函數(shù)激活操作進(jìn)行數(shù)據(jù)歸一化,獲得通道注意力特征圖。公式如下:
其中,I 表示輸入特征;MC(I)表示通道注意力特征;?表示逐元素相乘;β 表示Relu 激活函數(shù);б 表示Sigmoid 激活函數(shù);Conv1*1為卷積核大小為1*1 的卷積層。I1 表示通道注意力特征和輸入特征的逐元素相乘的結(jié)果。
SAM 的輸入即通道注意力特征圖和輸入特征圖進(jìn)行逐元素乘法操作,然后對(duì)其進(jìn)行平均池化和最大池化操作,聚合特征圖的通道信息。再對(duì)它們進(jìn)行連接、卷積等處理,得到空間注意力特征圖。最后,將通道注意力特征圖和空間注意力特征圖進(jìn)行逐元素相乘,得到最終的特征圖。具體公式如下所示:
其中,Conv7*7表示卷積核大小為7*7 的卷積層;Ms(I)表示空間注意力特征;I2 即最終的特征輸出。
FPN 結(jié)構(gòu)較為簡(jiǎn)單,是由兩個(gè)Darknet、一個(gè)上采樣層以及一個(gè)Concat 層構(gòu)成。其中,Darknet 層包括卷積核大小為1*1 的卷積層、Batch_Norm 層和Leaky-Relu 激活函數(shù)。從圖5 中可以看出,首先將第2 個(gè)特征圖輸入到Darknet 中,然后獲得一個(gè)具有高語義信息的特征張量。然后將其作為CBAM 的輸入,得到施加注意力后的特征張量,再輸入到Darknet+Upsampling 中,將該特征張量的寬高和第1個(gè)初始特征張量的寬高調(diào)整一致。接著再次施加CBAM 注意力模塊,再將最后獲取的特征張量與第1 個(gè)初始特征張量進(jìn)行Concat 操作,得到第2 個(gè)具有高語義信息的特征張量。
Yolo head 是用來獲取分類回歸預(yù)測(cè)結(jié)果的模塊。由一個(gè)Darknet 層和一個(gè)卷積核大小為1*1 的卷積層構(gòu)成。其中,Darknet 層包括卷積核大小為3*3 的卷積層、Batch_Norm 層和Leaky-Relu 激活函數(shù)。Darknet 層用來進(jìn)行特征整合,1*1 的卷積用來調(diào)整通道數(shù)。Yolo head 公式表示如下:
其中,t 表示輸入特征張量;bn 表示Batch_Norm層,α 表示Leaky-Relu 激活函數(shù);Conv3*3為卷積核大小為3*3 的卷積層;Conv1*1為卷積核大小為1*1 的卷積層,T1表示輸出張量。最終,通過Yolo head 獲得大小分別為13*13*36 和26*26*36 大小的輸出張量,其中包含了軍事目標(biāo)分類回歸預(yù)測(cè)結(jié)果。
本章在復(fù)雜背景下的軍事目標(biāo)數(shù)據(jù)集的基礎(chǔ)上,對(duì)本文所提出的目標(biāo)檢測(cè)模型進(jìn)行了綜合的性能評(píng)估,來驗(yàn)證其有效性。同時(shí),將其與當(dāng)前主流的目標(biāo)檢測(cè)模型作了對(duì)比實(shí)驗(yàn),包括Faster-RCNN[11]、Yolov3[12]等算法。相關(guān)的實(shí)驗(yàn)環(huán)境設(shè)置如下:實(shí)驗(yàn)平臺(tái)包括64 位的Windows 操作系統(tǒng);12 GB 顯存的GPU NVIDIA GeForce GTX 2080Ti。訓(xùn)練過程和參數(shù)設(shè)置方面,模型包括凍結(jié)訓(xùn)練和解凍訓(xùn)練兩個(gè)部分。每部分包含50 個(gè)epoch。凍結(jié)訓(xùn)練和解凍訓(xùn)練的BatchSize 分別設(shè)置為4 和2。初始學(xué)習(xí)率設(shè)置為0.000 1,權(quán)重衰減設(shè)置為0.000 5。評(píng)價(jià)指標(biāo)方面,本文將精確率(precision,P)、召回率(recall,R)、平均精確率(average precision,AP)、均值平均精確率(mean average precision,mAP)、檢測(cè)速率FPS(frame per second,F(xiàn)PS)、浮點(diǎn)運(yùn)算數(shù)(floating point operations,F(xiàn)LOPs)和模型參數(shù)量作為評(píng)價(jià)指標(biāo)。評(píng)價(jià)指標(biāo)公式如式(8)~式(11)所示:
其中,tp 實(shí)際為正,預(yù)測(cè)為正的樣本數(shù);fp 實(shí)際為負(fù),預(yù)測(cè)為正的樣本數(shù);fn 實(shí)際為正,預(yù)測(cè)為負(fù)的樣本數(shù)。
圖6 展示了Yolov4-Tiny 和Yolov4-Tiny+CBAM模型的訓(xùn)練損失對(duì)比,從圖中可以看出,隨著Epoch次數(shù)不斷地增加,改進(jìn)后的模型和原模型的損失在不斷地降低。訓(xùn)練到最后,Yolov4-Tiny 模型和Yolov4-Tiny+CBAM 模型的訓(xùn)練損失值分別收斂于0.90 和0.88 左右。在整個(gè)訓(xùn)練過程中,改進(jìn)后的模型訓(xùn)練損失明顯小于原模型。值得注意的是,上述兩個(gè)模型從第51 個(gè)epoch 開始解凍訓(xùn)練,因此,兩個(gè)模型的訓(xùn)練損失略有提升。此外,表3 給出了不同模型的檢測(cè)性能結(jié)果。其中,Pw、Pm、Pt、Ps和Pp分別代表戰(zhàn)船、軍用車輛、坦克、士兵、飛機(jī)的精確率,APw、APm、APt、APs和APp是戰(zhàn)船、軍用車輛、坦克、士兵、飛機(jī)的平均精確率。mAP 為5 類軍事目標(biāo)的平均精確率。從表中可以看出,所有模型在飛機(jī)、坦克和軍用車輛的各項(xiàng)檢測(cè)指標(biāo)都比較低,這是由于飛機(jī)目標(biāo)尺寸較小,而坦克和軍用車輛的數(shù)量相比于其他類別的數(shù)量較少所導(dǎo)致的。相比于Yolov4-Tiny,Yolov4-Tiny+CBAM 模型在戰(zhàn)艦、軍用車輛、坦克上的P 值分別提高了2%、4%和2%。且該模型在這3 類目標(biāo)上的AP 值在所有檢測(cè)模型中達(dá)到了最高。但是,該模型在士兵和飛機(jī)等目標(biāo)上的檢測(cè)能力略有下降,不過也在可接受范圍內(nèi)。改進(jìn)后的模型在所有模型中的mAP 值也達(dá)到了最高。進(jìn)一步,表4 對(duì)比了7 種模型的參數(shù)量、FLOPs 和FPS 這3個(gè)指標(biāo)。Yolov4-Tiny+CBAM 比Yolov4-Tiny 模型在參數(shù)量和FLOPs 指標(biāo)上有所上升,檢測(cè)時(shí)間也略有增加,但還是滿足實(shí)時(shí)性需求。與Yolov3、Yolov4、Faster-RCNN 等模型相比來看,本文模型在檢測(cè)速度和模型參數(shù)量上保持著絕對(duì)優(yōu)勢(shì)。這足以表明Yolov4-Tiny+CBAM 模型可以很容易部署到資源受限的設(shè)備上來完成檢測(cè)任務(wù)。
表3 模型檢測(cè)性能對(duì)比/%Table 3 Model detection performance comparison/%
表4 不同模型大小和檢測(cè)速度對(duì)比Table 4 Comparison of different model sizes and detection speeds
圖6 訓(xùn)練損失對(duì)比圖Fig.6 Training loss comparison chart
下頁圖7 展示了不同模型PR 曲線圖。從PR 曲線下的面積來看,本文模型對(duì)坦克、軍用車輛和戰(zhàn)船的檢測(cè)性能優(yōu)于其他模型。但該模型在飛機(jī)和士兵上的檢測(cè)性能較弱。這是由于這兩種目標(biāo)尺寸相對(duì)較小。此外,圖8 展示了不同檢測(cè)模型在同一張圖片上的檢測(cè)效果。該圖片展示了煙霧干擾下的遮擋軍事目標(biāo)。從圖中可以看出,由于目標(biāo)間存在一些遮擋,這導(dǎo)致每種檢測(cè)模型對(duì)坦克和士兵都存在一定的漏檢情況。尤其是SSD、Yolov3、Yolov4 等模型都有著較高的漏檢數(shù)量,而且還漏檢尺寸較大的坦克目標(biāo)。相比較來說,Yolov4-Tiny+CBAM 模型的目標(biāo)漏檢數(shù)量最低,且模型對(duì)坦克和士兵的檢測(cè)精度都較高,檢測(cè)效果明顯優(yōu)于其他模型,這得益于CBAM 的引入,通過該模塊使得模型更加關(guān)注目標(biāo)信息,提高了特征融合效果。綜上,Yolov4-Tiny+CBAM檢測(cè)模型在檢測(cè)精度和速度方面均優(yōu)于目前典型的一些目標(biāo)檢測(cè)模型,且在火光、煙霧等復(fù)雜背景的干擾下仍保持著較高的檢測(cè)能力。
圖7 不同模型的PR 曲線圖Fig.7 PR curves for different models
圖8 不同模型的檢測(cè)效果Fig.8 The detection effects of different models
本文結(jié)合CBAM 和Yolov4-Tiny 算法提出了一種高效且輕量化的復(fù)雜背景下軍事目標(biāo)檢測(cè)模型,通過在加強(qiáng)特征提取時(shí)融入CBAM,使得模型更加關(guān)注目標(biāo)信息,減少目標(biāo)細(xì)節(jié)丟失,在略微犧牲檢測(cè)速度的前提下,提高了軍事目標(biāo)檢測(cè)精度,更適合部署在資源受限的設(shè)備上來完成檢測(cè)任務(wù),具有較高的實(shí)用價(jià)值。該模型未來的相關(guān)工作包括以下幾點(diǎn):1)由于軍事目標(biāo)的常存在遮擋的情況,導(dǎo)致模型在檢測(cè)過程中存在一定程度的漏檢,如何使得模型減少漏檢是未來的研究工作之一。2)在軍事數(shù)據(jù)集中類別不均衡的情況下,如何提升數(shù)量少的目標(biāo)檢測(cè)精度也是需要進(jìn)一步研究的工作。