劉 穎,孫海江,趙勇先
(1.中國(guó)科學(xué)院 長(zhǎng)春光學(xué)精密機(jī)械與物理研究所,吉林 長(zhǎng)春 130033;2.中國(guó)科學(xué)院大學(xué),北京 100049)
目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域中的核心任務(wù)之一,也是目標(biāo)跟蹤、圖像分割、場(chǎng)景理解等其他復(fù)雜任務(wù)的基礎(chǔ)。與可見(jiàn)光成像系統(tǒng)相比,紅外成像系統(tǒng)可以全天時(shí)、全天候工作,無(wú)需借助外部光源,具有隱蔽性好、不易受惡劣環(huán)境影響的優(yōu)點(diǎn),在軍事、民用、安防等領(lǐng)域應(yīng)用十分廣泛。但由于紅外成像系統(tǒng)靠溫差成像,與可見(jiàn)光圖像相比,紅外圖像往往成像模糊、易受噪點(diǎn)或條紋噪聲的干擾,且圖像對(duì)比度低。此外,紅外圖像上的弱小目標(biāo)像素占比少,國(guó)際光學(xué)工程學(xué)會(huì)(SPIE)將紅外弱小目標(biāo)定義為,在一幅(256×256)像素的紅外圖像中,目標(biāo)占比不超過(guò)(9×9)像素[1]。其目標(biāo)分辨率低、特征細(xì)節(jié)不明顯,對(duì)比度通常不超過(guò)15%[2],在復(fù)雜場(chǎng)景下對(duì)紅外小目標(biāo)進(jìn)行準(zhǔn)確檢測(cè)是一個(gè)具有挑戰(zhàn)性的難題[3]。
紅外弱小目標(biāo)檢測(cè)的多幀型算法通常用于序列圖像,綜合利用時(shí)空域信息進(jìn)行弱小目標(biāo)的檢測(cè)[4]。傳統(tǒng)的多幀紅外弱小目標(biāo)檢測(cè)算法中,往往會(huì)在相鄰幀中假設(shè)背景為靜態(tài)或選取某個(gè)一致的目標(biāo),以此利用目標(biāo)在圖像序列中的時(shí)空連續(xù)性對(duì)目標(biāo)進(jìn)行檢測(cè)[5]。近年來(lái),預(yù)警需求使得單幀探測(cè)任務(wù)逐漸受到重視。當(dāng)目標(biāo)運(yùn)動(dòng)軌跡不規(guī)則時(shí),傳統(tǒng)的多幀型算法很難對(duì)隨機(jī)的運(yùn)動(dòng)目標(biāo)進(jìn)行準(zhǔn)確檢測(cè),需要通過(guò)提高單幀紅外圖像的目標(biāo)檢測(cè)能力,來(lái)增強(qiáng)序列圖像的檢測(cè)準(zhǔn)確率,因此,對(duì)單幀紅外圖像目標(biāo)檢測(cè)的研究十分重要。傳統(tǒng)的單幀紅外弱小目標(biāo)檢測(cè)算法中,通常假設(shè)弱小目標(biāo)在整幅圖像中具有較高的對(duì)比度和較好的細(xì)節(jié)描述,但實(shí)際檢測(cè)中往往只對(duì)顯著性高的目標(biāo)具有較好的效果,算法性能取決于設(shè)計(jì)者的先驗(yàn)知識(shí),且特征設(shè)計(jì)中參數(shù)量有限,目標(biāo)檢測(cè)的通用性不強(qiáng)。對(duì)于對(duì)比度低且背景復(fù)雜的紅外圖像,檢測(cè)時(shí)易受到噪聲的干擾產(chǎn)生虛警,通常需要引入其他方法來(lái)進(jìn)一步降低虛警率,排除噪聲干擾。采用傳統(tǒng)的目標(biāo)檢測(cè)方法很難對(duì)單幀紅外圖像進(jìn)行穩(wěn)定、魯棒、通用的目標(biāo)檢測(cè)[6]。針對(duì)以上問(wèn)題,本文以深度學(xué)習(xí)網(wǎng)絡(luò)為基礎(chǔ),設(shè)計(jì)更適用于復(fù)雜背景的單幀紅外弱小目標(biāo)的檢測(cè)網(wǎng)絡(luò)。
深度學(xué)習(xí)為計(jì)算機(jī)視覺(jué)領(lǐng)域中許多具有挑戰(zhàn)性的問(wèn)題引入了有效的、非傳統(tǒng)的解決方案[7],它可以通過(guò)網(wǎng)絡(luò)的訓(xùn)練自動(dòng)學(xué)習(xí)特征信息,網(wǎng)絡(luò)結(jié)構(gòu)靈活,特征提取能力和泛化能力強(qiáng)。與傳統(tǒng)目標(biāo)檢測(cè)算法相比,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)任務(wù)對(duì)于不同場(chǎng)景的適應(yīng)性強(qiáng),無(wú)需手動(dòng)設(shè)計(jì)特征且可移植性好,更適用于復(fù)雜場(chǎng)景下的目標(biāo)檢測(cè)任務(wù),且卷積神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元共享權(quán)重參數(shù),可以降低計(jì)算機(jī)的內(nèi)存占用[8]。目前用于目標(biāo)檢測(cè)的深度學(xué)習(xí)網(wǎng)絡(luò)分為以R-CNN[9]及其變體Fast R-CNN[10]、Faster R-CNN[11]為代表的兩階段目標(biāo)檢測(cè)算法和以SSD[12]、YOLO[13-15]系列算法為代表的單階段目標(biāo)檢測(cè)算法。對(duì)于一般場(chǎng)景中目標(biāo)分散且不具有重疊或遮擋現(xiàn)象的中、大型目標(biāo),這些經(jīng)典算法的檢測(cè)效果較好,但對(duì)于紅外圖像中小目標(biāo)的平均檢測(cè)精度均值不佳,檢測(cè)效果遠(yuǎn)低于一般場(chǎng)景中的中、大型目標(biāo)。針對(duì)此問(wèn)題,本文以單階段目標(biāo)檢測(cè)網(wǎng)絡(luò)YOLOv5為基礎(chǔ),設(shè)計(jì)SimAMC3 注意力機(jī)制模塊,并設(shè)計(jì)更適合紅外弱小目標(biāo)的目標(biāo)檢測(cè)頭,最后改進(jìn)預(yù)測(cè)框篩選方式。優(yōu)化后的目標(biāo)檢測(cè)網(wǎng)絡(luò)保留了深度學(xué)習(xí)方法自動(dòng)提取特征的優(yōu)勢(shì),同時(shí)對(duì)紅外弱小目標(biāo)有更強(qiáng)的適應(yīng)性,可以檢測(cè)出不同復(fù)雜背景中的弱小目標(biāo),體現(xiàn)出了良好的魯棒性和適應(yīng)性,能有效應(yīng)用于紅外弱小目標(biāo)的檢測(cè)。
YOLOv5網(wǎng)絡(luò)含有4種模型,分別是YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x[16-17]。不同的網(wǎng)絡(luò)模型所含的C3 個(gè)數(shù)不同,通過(guò)兩個(gè)不同的參數(shù)控制網(wǎng)絡(luò)的深度和特征圖的寬度,其中,YOLOv5s 的深度和寬度最小,參數(shù)量少,適用于不同尺寸小目標(biāo)的檢測(cè),其網(wǎng)絡(luò)模型如圖1 所示。
圖1 YOLOv5s 網(wǎng)絡(luò)模型結(jié)構(gòu)圖Fig.1 YOLOv5 network model structure
YOLOv5s 模型主要由特征提取網(wǎng)絡(luò)Backblone、特征融合網(wǎng)絡(luò)Neck 以及檢測(cè)頭Head 組成,主干特征提取網(wǎng)絡(luò)用來(lái)進(jìn)行目標(biāo)特征的提取,包含1 個(gè)Focus 層、4 個(gè)卷積層、4 個(gè)C3 層和1 個(gè)SPP層。Focus 結(jié)構(gòu)對(duì)圖片進(jìn)行切片操作,可以使圖片在下采樣的過(guò)程中減少信息的丟失,并且可以減少參數(shù)計(jì)算量。卷積層對(duì)圖像進(jìn)行特征提取。C3 結(jié)構(gòu)是對(duì)殘差特征進(jìn)行學(xué)習(xí)的主要模塊,包含3 個(gè)標(biāo)準(zhǔn)卷積層和多個(gè)BottleNeck 模塊,其結(jié)構(gòu)分為兩支,其中一支僅經(jīng)過(guò)一個(gè)標(biāo)準(zhǔn)卷積,另一只經(jīng)過(guò)一層卷積和多個(gè)BottleNeck 層,最終兩個(gè)支路進(jìn)行融合。C3 結(jié)構(gòu)在降低網(wǎng)絡(luò)參數(shù)量的同時(shí),可以增強(qiáng)網(wǎng)絡(luò)對(duì)目標(biāo)特征的學(xué)習(xí)和提取能力,防止網(wǎng)絡(luò)因?qū)訑?shù)增加而產(chǎn)生梯度消失或梯度爆炸的現(xiàn)象??臻g金字塔池化SPP 層,通過(guò)池化核大小分別為1×1、5×5、9×9 和13×13 的4 個(gè)最大池化層,實(shí)現(xiàn)不同尺度的特征融合。特征融合網(wǎng)絡(luò)采用FPN+PAN 的特征金字塔結(jié)構(gòu)。FPN 是一個(gè)自上而下的網(wǎng)絡(luò)結(jié)構(gòu),將高層特征逐漸傳遞下去,而PAN 是一個(gè)自下而上的網(wǎng)絡(luò),將低層的特征信息向上傳播。兩者將不同尺度的特征進(jìn)行融合,可以有效提高模型對(duì)不同尺寸目標(biāo)的檢測(cè)能力。檢測(cè)頭部分用于進(jìn)行分類回歸預(yù)測(cè),包含3 個(gè)檢測(cè)頭,分別用來(lái)檢測(cè)大、中、小目標(biāo)。在訓(xùn)練階段采用了CIOU_Loss 和NMS 預(yù)測(cè)框篩選方式。
除此之外,YOLOv5 網(wǎng)絡(luò)在進(jìn)行特征提取前,會(huì)對(duì)圖像進(jìn)行一系列預(yù)處理操作,如馬賽克數(shù)據(jù)增強(qiáng)、自適應(yīng)錨框計(jì)算以及自適應(yīng)圖片縮放,提升檢測(cè)的平均精度均值。
首先,對(duì)于序列紅外圖像,一些傳統(tǒng)的目標(biāo)檢測(cè)方法有幀差法、背景減除法等。它們利用幀間的動(dòng)靜差異來(lái)檢測(cè)移動(dòng)的弱小目標(biāo),適用于背景相對(duì)靜止情況下的運(yùn)動(dòng)目標(biāo)檢測(cè)。對(duì)于單幀紅外圖像,每張圖像背景不同且不像序列圖像那樣具有時(shí)間關(guān)聯(lián)性。一些常規(guī)的傳統(tǒng)算法如高通濾波、形態(tài)學(xué)等方法,常常需要通過(guò)手工調(diào)整閾值來(lái)將目標(biāo)與背景分離,從而實(shí)現(xiàn)紅外弱小目標(biāo)的檢測(cè)。對(duì)于不同復(fù)雜程度的背景來(lái)說(shuō),難以設(shè)定同一閾值來(lái)滿足所有場(chǎng)景的分離需求。
其次,深度學(xué)習(xí)算法從本質(zhì)上來(lái)說(shuō),利用神經(jīng)元學(xué)習(xí)多層次的抽象表示,隱式地利用了上下文信息。除此之外,YOLOv5 算法還具有兩個(gè)適合紅外弱小目標(biāo)檢測(cè)的設(shè)計(jì)。一是在輸入端加入了Mosaic 數(shù)據(jù)增強(qiáng),豐富了檢測(cè)數(shù)據(jù)集,增加了很多小目標(biāo),使網(wǎng)絡(luò)的魯棒性更好。并且能有效解決模型訓(xùn)練中“小目標(biāo)不如大目標(biāo)那樣準(zhǔn)確地被檢測(cè)到”的問(wèn)題。二是特征融合部分的FPN+PAN的特征金字塔結(jié)構(gòu),將低層特征層中更顯著的位置信息和高層特征層中更豐富的語(yǔ)義信息進(jìn)行融合,從而充分利用全局上下文信息更加有效地提取弱小目標(biāo)的特征,提高目標(biāo)被檢測(cè)到的準(zhǔn)確率,尤其對(duì)于小目標(biāo)的檢測(cè)性能的提升更為顯著[18]。
最后,本文優(yōu)化后的網(wǎng)絡(luò)引入了SimAM 注意力機(jī)制,它通過(guò)能量函數(shù)找到具有“空間抑制現(xiàn)象”的神經(jīng)元,即需要被關(guān)注的目標(biāo)像素所在區(qū)域,來(lái)獲取紅外弱小目標(biāo)的空間位置信息,增強(qiáng)了圖像的局部上下文信息關(guān)聯(lián)。
YOLOv5網(wǎng)絡(luò)模型與經(jīng)典的兩階段網(wǎng)絡(luò)相比,具有更佳的檢測(cè)速度,同時(shí)其檢測(cè)精度在眾多單階段檢測(cè)網(wǎng)絡(luò)中也脫穎而出,故本文以YOLOv5網(wǎng)絡(luò)為基礎(chǔ)進(jìn)行改進(jìn),使其更加適用于弱小目標(biāo)在不同的紅外復(fù)雜場(chǎng)景下的檢測(cè)。圖2 展示了優(yōu)化后的紅外弱小目標(biāo)檢測(cè)框架。紅外圖像輸入目標(biāo)檢測(cè)網(wǎng)絡(luò)中,首先進(jìn)行馬賽克數(shù)據(jù)增強(qiáng)、自適應(yīng)錨框計(jì)算以及自適應(yīng)圖像縮放的預(yù)處理操作。其次經(jīng)過(guò)含有SimAMC3 注意力機(jī)制模塊的主干特征提取網(wǎng)絡(luò),使模型可以更好地提取弱小目標(biāo)的空間位置信息;然后經(jīng)過(guò)特征融合網(wǎng)絡(luò),通過(guò)增加網(wǎng)絡(luò)的特征融合層,改變其開(kāi)始特征提取的深度,從第一個(gè)SimAMC3 模型開(kāi)始提取特征,以此得到新的弱小目標(biāo)檢測(cè)層,使淺層特征層更好地保留弱小目標(biāo)的空間信息,從而增強(qiáng)弱小目標(biāo)的空間關(guān)聯(lián)性,避免空間位置信息過(guò)度丟失;最后,改進(jìn)預(yù)測(cè)框篩選方式,將DIOU[19]作為抑制準(zhǔn)則,將預(yù)測(cè)框與真實(shí)框的重疊區(qū)域,以及兩框中心之間的距離共同作為抑制冗余框的限制條件,不僅可以提高對(duì)距離較近或具有重疊遮擋現(xiàn)象的小目標(biāo)的檢測(cè)精度,還可以解決原方法存在的目標(biāo)回歸不準(zhǔn)確的問(wèn)題,加快模型的收斂速度。
圖2 優(yōu)化后的紅外弱小目標(biāo)檢測(cè)框架圖Fig.2 Optimized infrared dim-small target detection frame
注意力機(jī)制(Attention Mechanism)類似于人類視覺(jué)所特有的大腦信號(hào)處理機(jī)制,即視覺(jué)注意力機(jī)制。在目標(biāo)檢測(cè)任務(wù)中,注意力機(jī)制首先對(duì)圖像進(jìn)行掃描,通過(guò)生成的權(quán)重來(lái)判斷每個(gè)區(qū)域的重要程度,從而使網(wǎng)絡(luò)將注意力資源投入到目標(biāo)所在的區(qū)域,獲取與目標(biāo)相關(guān)的信息并抑制冗余的背景和雜波干擾。由于弱小目標(biāo)在圖像中像素占比少,背景信息龐大,通過(guò)注意力機(jī)制可以幫助網(wǎng)絡(luò)從復(fù)雜紅外圖像中快速篩選出弱小目標(biāo)的特征信息,增強(qiáng)局部上下文信息的關(guān)聯(lián)性,更準(zhǔn)確地提取目標(biāo)的空間位置。
常見(jiàn)的注意力機(jī)制通常分為通道注意力機(jī)制、空間注意力機(jī)制和通道與空間混合的注意力機(jī)制。通道注意力機(jī)制沿著通道維度進(jìn)行特征細(xì)化操作,生成一維權(quán)重,對(duì)圖像的不同通道分別進(jìn)行處理,而對(duì)所有空間位置同等對(duì)待??臻g注意力機(jī)制沿著空間維度進(jìn)行特征細(xì)化操作,生成二維權(quán)重,對(duì)圖像的不同位置分別進(jìn)行處理,而對(duì)所有通道同等對(duì)待。它們只能沿著通道或空間維度細(xì)化特征,從而限制了學(xué)習(xí)注意力權(quán)重的靈活性,這些權(quán)重在通道和空間上都是不同的。
SimAM[20]是一個(gè)簡(jiǎn)單有效的、具有三維權(quán)重的注意力模塊。與現(xiàn)有的空間注意力模塊和通道注意力模塊不同,它在不向原始網(wǎng)絡(luò)添加參數(shù)的情況下,通過(guò)提出的能量函數(shù)來(lái)發(fā)掘每個(gè)神經(jīng)元的重要性,從而推斷特征圖的三維注意力權(quán)重。能量越低,當(dāng)前神經(jīng)元與周圍神經(jīng)元的區(qū)別越大,重要性越高。SimAM 模塊與其他注意力模塊相比更加靈活,并且仍然保持輕量級(jí)。常見(jiàn)的注意力機(jī)制如圖3 所示。
圖3 注意力機(jī)制原理圖。(a)通道注意力機(jī)制;(b)空間注意力機(jī)制;(c)SimAM 注意力機(jī)制。Fig.3 Schematic diagram of the attention mechanism.(a)Channel attention module;(b)Spatial attention module;(c)SimAM attention module.
SimAM 注意力機(jī)制的具體實(shí)現(xiàn)原理如下:在視覺(jué)神經(jīng)科學(xué)中,當(dāng)某個(gè)神經(jīng)元與周圍的神經(jīng)元放電模式不同時(shí),其往往含有較大的信息量,此外,這種神經(jīng)元也可能抑制其周圍神經(jīng)元的活動(dòng),Webb等人稱之為空間抑制現(xiàn)象[21]。在視覺(jué)處理中,表現(xiàn)出空間抑制現(xiàn)象的神經(jīng)元重要程度更高,即被處理的優(yōu)先級(jí)應(yīng)更高。為了找到這些具有優(yōu)先級(jí)的神經(jīng)元,SimAM 注意力機(jī)制給每個(gè)神經(jīng)元定義了能量函數(shù),用能量函數(shù)來(lái)測(cè)量這種神經(jīng)元與其他神經(jīng)元之間的線性可分性,如式(1)所示:
引入設(shè)計(jì)的SimAMC3 注意力機(jī)制模塊后的網(wǎng)絡(luò)整體結(jié)構(gòu)圖和SimAMC3 注意力機(jī)制模塊結(jié)構(gòu)圖分別如圖4 和圖5 所示。SimAMC3 注意力機(jī)制模塊在主干特征提取部分,優(yōu)化網(wǎng)絡(luò)的特征提取層,通過(guò)能量函數(shù)找到表現(xiàn)出具有空間抑制現(xiàn)象的神經(jīng)元,使網(wǎng)絡(luò)能夠更有效地提取紅外弱小目標(biāo)的空間位置信息,抑制復(fù)雜背景及噪聲等冗余信息的干擾。SimAM 注意力本身參數(shù)量為零,在不給原網(wǎng)絡(luò)增加任何參數(shù)量的情況下,有效提升了弱小目標(biāo)的檢測(cè)準(zhǔn)確率。
圖4 引入SimAMC3 模塊后的網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.4 Structure diagram of network after SimAMC3 module is introduced
圖5 SimAMC3 模塊結(jié)構(gòu)圖Fig.5 SimAMC3 module
隨著主干特征提取網(wǎng)絡(luò)層數(shù)的增加,下采樣倍數(shù)增加,感受野也隨之增大,模型能夠?qū)W習(xí)到更豐富的語(yǔ)義信息。此方法對(duì)于中、大型目標(biāo)的檢測(cè)具有較好的效果,但對(duì)于像素占比少、對(duì)比度低的弱小目標(biāo)來(lái)說(shuō),網(wǎng)絡(luò)層數(shù)的增加會(huì)導(dǎo)致空間位置信息的丟失,如果不能有效利用淺層特征層提取的信息,則容易出現(xiàn)漏檢和誤檢的現(xiàn)象,致使檢測(cè)準(zhǔn)確率下降。
為了能更好地保留弱小目標(biāo)的空間位置信息,本文設(shè)計(jì)了更適合紅外弱小目標(biāo)的目標(biāo)檢測(cè)頭,具體實(shí)現(xiàn)為如下兩點(diǎn)。首先,改變特征融合網(wǎng)絡(luò)開(kāi)始進(jìn)行特征提取的深度,通過(guò)優(yōu)化特征融合網(wǎng)絡(luò),在目標(biāo)檢測(cè)頭部增加一個(gè)弱小目標(biāo)檢測(cè)層,優(yōu)化后的網(wǎng)絡(luò)結(jié)構(gòu)如圖6 所示。首先,在網(wǎng)絡(luò)的特征融合Neck 部分增加了7 層,分別為兩個(gè)卷積層、兩個(gè)C3 層、兩個(gè)特征融合層和一個(gè)上采樣層,以此來(lái)改變網(wǎng)絡(luò)開(kāi)始進(jìn)行特征提取的深度,將主干特征提取網(wǎng)絡(luò)的第二層SimAMC3 層提取到的特征進(jìn)行特征融合,得到的結(jié)果送至新增加的弱小目標(biāo)檢測(cè)頭。優(yōu)化后的特征融合網(wǎng)絡(luò)可以更好地利用全局上下文信息來(lái)提取弱小目標(biāo)的特征。其次,在新增加的弱小目標(biāo)檢測(cè)頭和原小目標(biāo)檢測(cè)頭前分別增加了一層SimAM 注意力機(jī)制,使網(wǎng)絡(luò)更好地聚焦于小目標(biāo)的檢測(cè)。經(jīng)實(shí)驗(yàn)驗(yàn)證,融入更適合紅外弱小目標(biāo)的檢測(cè)頭后,能夠顯著提高檢測(cè)的平均精度均值。
原YOLOv5 網(wǎng)絡(luò)采用普通的非極大值抑制NMS(Non Maximum Suppression)方 法。NMS通過(guò)篩選出局部極大值得到最優(yōu)解,在實(shí)際運(yùn)算中,利用交并比IOU(Intersection Over Union)抑制圖片中冗余的預(yù)測(cè)框,IOU 的評(píng)判標(biāo)準(zhǔn)為真實(shí)框與預(yù)測(cè)框的重疊區(qū)域,無(wú)法判斷兩者沒(méi)有交集的情況,且不能精確地反映兩者重合度大小,對(duì)于大目標(biāo)易產(chǎn)生誤檢現(xiàn)象,而對(duì)于小目標(biāo)易產(chǎn)生漏檢現(xiàn)象。
本文將非極大值抑制準(zhǔn)則改為DIOU(Distance Intersection Over Union),采用DIOU_NMS非極大值抑制,同時(shí)考慮尺度、重疊率以及目標(biāo)與錨框之間的距離,能夠直接將兩個(gè)邊界框之間的距離最小化,解決原抑制準(zhǔn)則對(duì)目標(biāo)框回歸不準(zhǔn)確、不穩(wěn)定的問(wèn)題,訓(xùn)練過(guò)程不易發(fā)散,且收斂速度更快,可以提高對(duì)距離相近和被遮擋目標(biāo)的檢測(cè)能力,提升模型的檢測(cè)精度,如式(2)所示:
其中:b=(x,y,w,h),x、y、w、h分別為預(yù)測(cè)框的中心坐標(biāo)和長(zhǎng)寬;bgt=(xgt,ygt,wgt,hgt),xgt、ygt、wgt、hgt分別為真實(shí)框的中心坐標(biāo)和長(zhǎng)寬;d是預(yù)測(cè)框與真實(shí)框中心點(diǎn)的距離,c是兩框最小外接矩形的對(duì)角線長(zhǎng)度,ρ(?)是歐幾里得距離。DIOU 原理如圖7 所示,其中綠色框?yàn)轭A(yù)測(cè)框,黑色框?yàn)檎鎸?shí)框,灰色虛線寬為預(yù)測(cè)框與真實(shí)框的最小外接矩形。
圖7 DIOU 原理圖Fig.7 Schematic diagram of DIOU
深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)靈活、可自動(dòng)提取特征、數(shù)據(jù)處理能力強(qiáng)。與傳統(tǒng)的目標(biāo)檢測(cè)方法相比,具有性能高、實(shí)際應(yīng)用廣等優(yōu)點(diǎn),更適用于不同復(fù)雜紅外場(chǎng)景中弱小目標(biāo)的檢測(cè)。但深度學(xué)習(xí)網(wǎng)絡(luò)的檢測(cè)效果需要大量數(shù)據(jù)支持,因此數(shù)據(jù)集的質(zhì)量、數(shù)量、以及場(chǎng)景的多樣化,對(duì)網(wǎng)絡(luò)魯棒性和泛化能力有很大影響。
現(xiàn)有的紅外小目標(biāo)檢測(cè)的開(kāi)源數(shù)據(jù)集非常稀少,大多數(shù)傳統(tǒng)方法都是在其內(nèi)部數(shù)據(jù)集上進(jìn)行評(píng)估,僅發(fā)布了少數(shù)可供深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行訓(xùn)練的紅外小目標(biāo)數(shù)據(jù)集。Dai 等人[22]用高質(zhì)量圖像和標(biāo)簽構(gòu)建了第一個(gè)真正的單幀紅外弱小目標(biāo)數(shù)據(jù)集NUAA-SIRST。該數(shù)據(jù)集共有427 張紅外圖像,包含480 個(gè)目標(biāo),約55%的目標(biāo)僅占圖像面積的0.02%。在給定分辨率為300×300 的圖像中,目標(biāo)僅為(3×3)像素。NUAA-SIRST 數(shù)據(jù)集由數(shù)百個(gè)圖像序列中選取最具代表性的圖像構(gòu)建而成,目標(biāo)亮度微弱、對(duì)比度低、缺乏顏色和紋理信息,且隱藏在云層、城市、海洋等復(fù)雜的背景環(huán)境中,受到強(qiáng)光源、片狀云層、海面及天空邊緣的干擾,許多目標(biāo)人眼甚至難以辨識(shí),檢測(cè)難度較大。Li等人[23]為豐富單幀紅外弱小目標(biāo)數(shù)據(jù)集的目標(biāo)大小、類型和復(fù)雜場(chǎng)景,開(kāi)發(fā)了大規(guī)模紅外小目標(biāo)數(shù)據(jù)集NUDT-SIRST。該數(shù)據(jù)集有5 個(gè)主要場(chǎng)景,分別為云層、城市、海洋、曠野和高亮場(chǎng)景,涵蓋了各種目標(biāo)。其所有場(chǎng)景都是通過(guò)將仿真的紅外小目標(biāo)與真實(shí)紅外背景渲染合成的,共包含1 327 張紅外圖像,分辨率均為256×256。圖8 和圖9 分別展示了以上兩個(gè)數(shù)據(jù)集所包含的典型場(chǎng)景圖像,表1列出了數(shù)據(jù)集的主要特征。
表1 本文所選數(shù)據(jù)集的主要特征Tab.1 Main characteristics of the data set selected in this paper
圖8 NUAA-SIRST 數(shù)據(jù)集典型場(chǎng)景圖像示例。(a)云層背景;(b)城市背景;(c)海面背景。Fig.8 Sample images of typical scenes in NUAA-SIRST.(a)Cloud background;(b)City background;(c)Sea background.
圖9 NUDT-SIRST 數(shù)據(jù)集典型場(chǎng)景圖像示例。(a)云層背景;(b)城市背景;(c)海面背景;(d)曠野背景;(e)高亮背景。Fig.9 Sample images of typical scenes in NUDT-SIRST.(a)Cloud background;(b)City background;(c)Sea background;(d)Field background;(e)Highlight background.
表2 樣例劃分Tab.2 Sample classification
平均精度均值mAP 通過(guò)對(duì)目標(biāo)分類及定位性能的綜合評(píng)價(jià)反映網(wǎng)絡(luò)模型的檢測(cè)性能。AP是某類目標(biāo)的檢測(cè)精度,mAP 是所有類目標(biāo)的檢測(cè)精度,不同類別的AP 取算術(shù)平均值,即為mAP,其值越大,表明當(dāng)前網(wǎng)絡(luò)模型的檢測(cè)效果越好,其公式如式(3)所示。mAP@0.5 表示當(dāng)交并比IOU 設(shè)為0.5 時(shí),對(duì)不同類別的AP 取算數(shù)平均值得到的平均精度均值。
準(zhǔn)確率(Precision),又名查準(zhǔn)率。代表將正類目標(biāo)正確預(yù)測(cè)為正類占全部預(yù)測(cè)為正類目標(biāo)的比例,其公式如式(4)所示:
召回率(Recall),又名查全率。代表將正類目標(biāo)正確預(yù)測(cè)為正類占全部實(shí)際為正類目標(biāo)的比例,其公式如式(5)所示:
因此,準(zhǔn)確率可以衡量網(wǎng)絡(luò)模型對(duì)樣本進(jìn)行正確分類的能力,召回率可以反映網(wǎng)絡(luò)模型能否將正樣本全部檢測(cè)出的能力。
為了更好地驗(yàn)證優(yōu)化網(wǎng)絡(luò)的檢測(cè)性能,首先根據(jù)NUAA-SIRST 和NUDT-SIRST 兩個(gè)數(shù)據(jù)集給出的mask 掩碼,采用LabelImg 工具對(duì)其進(jìn)行標(biāo)注。然后將兩個(gè)數(shù)據(jù)集分別按照6∶2∶2 的比例進(jìn)行劃分,作為實(shí)驗(yàn)的訓(xùn)練集、驗(yàn)證集和測(cè)試集。實(shí)際劃分情況如表3 所示。
表3 紅外弱小目標(biāo)數(shù)據(jù)集劃分Tab.3 Infrared dim-small target data set classification
本實(shí)驗(yàn)在Ubuntu20.04 運(yùn)行,用Pytorch 深度學(xué)習(xí)框架搭載網(wǎng)絡(luò)訓(xùn)練環(huán)境。以5.0 版本的YOLOv5s 網(wǎng)絡(luò)模型為Baseline,網(wǎng)絡(luò)訓(xùn)練權(quán)重采用yolov5s.pt,輸入圖像尺寸為640×640,使用0.01的初始學(xué)習(xí)率,衰減權(quán)重設(shè)置為0.000 5,批尺寸(batch size)為16,訓(xùn)練批次(epoch)設(shè)為100。實(shí)驗(yàn)所用的具體配置如表4所示。圖10展示了NUDTSIRST 數(shù)據(jù)集訓(xùn)練過(guò)程的損失下降曲線,網(wǎng)絡(luò)訓(xùn)練初期的損失下降較快,在第25 輪左右達(dá)到拐點(diǎn),之后的損失下降梯度減緩,在第70 輪左右趨于穩(wěn)定,最終損失收斂在0.000 2 左右。
表4 實(shí)驗(yàn)配置Tab.4 Experimental configuration
圖10 損失下降曲線圖Fig.10 Loss decline curve
4.4.1 消融實(shí)驗(yàn)
老年肺心病合并呼吸衰竭患者臨床中癥狀多樣化,因?yàn)槠渌A(chǔ)疾病的存在,導(dǎo)致了患者的身體機(jī)能下降[2]。老年患者出現(xiàn)肺心病后,在失代償期會(huì)合并呼吸衰竭癥狀,臨床中我們對(duì)患者的病因進(jìn)行分析,認(rèn)為和患者的呼吸道感染以及氧流量控制不當(dāng)有關(guān),呼吸道的痰液沒(méi)有及時(shí)排出,鎮(zhèn)靜劑使用不當(dāng)?shù)染鶗?huì)引起患者的發(fā)病。
為充分驗(yàn)證本文設(shè)計(jì)的檢測(cè)網(wǎng)絡(luò)對(duì)不同復(fù)雜場(chǎng)景的適用性以及對(duì)紅外弱小目標(biāo)檢測(cè)的有效性,分別對(duì)NUAA-SIRST 和NUDT-SIRST數(shù)據(jù)集進(jìn)行了消融實(shí)驗(yàn),其檢測(cè)效果如表5 所示。
表5 消融實(shí)驗(yàn)Tab.5 Ablation experiments
第1 組為原始YOLOv5 網(wǎng)絡(luò)模型;第2 組為在原網(wǎng)絡(luò)中添加了設(shè)計(jì)的SimAMC3 模塊;第3組在第2 組的基礎(chǔ)上,引入設(shè)計(jì)的目標(biāo)檢測(cè)頭;第4 組在第3 組的基礎(chǔ)上,修改預(yù)測(cè)框的篩選方式,將抑制準(zhǔn)則改為DIOU,為最終的優(yōu)化網(wǎng)絡(luò)模型。由表5 可以看出,第2 組引入SimAMC3 模塊后,NUAA 和NUDT 數(shù)據(jù)集的mAP 分別提升了1.9%和1.6%,說(shuō)明本文設(shè)計(jì)的SimAMC3 模塊引入主干特征提取網(wǎng)絡(luò)后,可以有效抑制復(fù)雜背景及噪聲等冗余信息的干擾,對(duì)紅外弱小目標(biāo)的特征提取有一定的幫助。第3 組引入設(shè)計(jì)的目標(biāo)檢測(cè)頭后,兩組數(shù)據(jù)的mAP 分別提升了4.7%和2.7%,均有顯著提升。這是因?yàn)樵谶M(jìn)行特征提取時(shí),弱小目標(biāo)本身極少的特征信息會(huì)隨著網(wǎng)絡(luò)的加深而丟失,從淺層網(wǎng)絡(luò)開(kāi)始進(jìn)行特征提取能夠更好地保留小目標(biāo)的空間位置信息,這也表明,紅外弱小目標(biāo)更適合用相對(duì)較淺的網(wǎng)絡(luò)來(lái)檢測(cè)。第4 組在網(wǎng)絡(luò)的預(yù)測(cè)部分,將預(yù)測(cè)框篩選方式的抑制準(zhǔn)則換為DIOU,優(yōu)化后的mAP 均提升了0.5%。DIOU 抑制準(zhǔn)則主要針對(duì)距離相近或存在遮擋情況的多目標(biāo),由于兩個(gè)數(shù)據(jù)集中多數(shù)圖像為單目標(biāo),只有少部分圖像中存在多目標(biāo)距離相近的情況,故改進(jìn)預(yù)測(cè)框的篩選方式后,mAP 的提升較少。最終優(yōu)化后的網(wǎng)絡(luò)與原始YOLOv5 網(wǎng)絡(luò)相比,其mAP分別提升了4.8%和7.1%,取得了較好的檢測(cè)效果。
經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,采用DIOU_NMS 非極大值抑制能夠有效地檢測(cè)出距離相近的兩個(gè)小目標(biāo),部分結(jié)果如圖11所示。其中(a)為采用以IOU為抑制準(zhǔn)則的NMS 方法得到的檢測(cè)結(jié)果,錯(cuò)誤地將兩個(gè)距離相近的目標(biāo)判斷成一個(gè)目標(biāo),存在誤檢現(xiàn)象;(b)為采用以DIOU 為抑制準(zhǔn)則的DIOU_NMS 方法得到的檢測(cè)結(jié)果,正確地檢測(cè)出了兩個(gè)弱小目標(biāo),提高了目標(biāo)的定位精度,使檢測(cè)結(jié)果更加準(zhǔn)確。
圖11 檢測(cè)結(jié)果對(duì) 比圖。(a)IOU 抑制 準(zhǔn)則;(b)DIOU抑制準(zhǔn)則。Fig.11 Comparison of test results.(a)IOU inhibition criteria;(b)DIOU inhibition criteria.
4.4.2 對(duì)比實(shí)驗(yàn)
4.4.2.1 傳統(tǒng)算法實(shí)驗(yàn)效果
本文在用于單幀紅外弱小目標(biāo)檢測(cè)的傳統(tǒng)算法中選取了3 種經(jīng)典的算法進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)效果如圖12 所示,其中(a)為標(biāo)注出目標(biāo)的原圖,(b)為形態(tài)學(xué)算法中的頂帽運(yùn)算,(c)為局部對(duì)比度算法中的MLCM(Multiscale Local Contrast Method)[24],(d)為以超完備稀疏表示法為基礎(chǔ)的IPI(Infrared Patch-Image)算 法[25]。其中頂 帽運(yùn)算在具體實(shí)現(xiàn)中通過(guò)控制卷積核的大小來(lái)實(shí)現(xiàn)不同程度的背景抑制。MLCM 利用所提出的局部對(duì)比度度量獲得輸入圖像的局部對(duì)比度圖,之后采用自適應(yīng)閾值來(lái)分割目標(biāo)。IPI 利用背景的非局部自相關(guān)性,將目標(biāo)檢測(cè)轉(zhuǎn)化為低秩矩陣和稀疏矩陣的優(yōu)化問(wèn)題。
圖12 傳統(tǒng)算法實(shí)驗(yàn)效果圖。(a)標(biāo)注目標(biāo)的原圖;(b)頂帽運(yùn)算;(c)MLCM;(d)IPI。Fig.12 Experimental effect of traditional algorithm.(a)Original image with labelled targets;(b)Top Hat;(c)MLCM;(d)IPI.
這些算法的普遍問(wèn)題在于容易受高亮點(diǎn)噪聲的干擾,往往需要在紅外弱小目標(biāo)圖像檢測(cè)前加入一定的預(yù)處理步驟,或輔以其他算法來(lái)抑制與目標(biāo)相似噪點(diǎn)的干擾。而且當(dāng)調(diào)整參數(shù)使其滿足某一背景的目標(biāo)檢測(cè)需求時(shí),在另一復(fù)雜背景中的檢測(cè)效果卻不佳,如圖12 所示,其中紅色框標(biāo)注為目標(biāo),藍(lán)色框標(biāo)注為噪點(diǎn)。對(duì)于背景較為單一的Data1 來(lái)說(shuō)抑制效果較好,但在Data2 云層背景和Data3 曠野背景中,3 種算法均受到了不同程度的高亮噪聲干擾,且部分目標(biāo)本身經(jīng)過(guò)算法處理之后亮度減弱。對(duì)于單幀的紅外數(shù)據(jù)集來(lái)說(shuō),普適性不強(qiáng)。
4.4.2.2 深度學(xué)習(xí)算法對(duì)比實(shí)驗(yàn)
本文方法可從訓(xùn)練數(shù)據(jù)中自動(dòng)獲取最優(yōu)權(quán)重參數(shù),實(shí)現(xiàn)端到端的紅外弱小目標(biāo)檢測(cè)。為了進(jìn)一步驗(yàn)證所提算法的有效性,將本文優(yōu)化算法與原YOLOv5 網(wǎng)絡(luò)模型以及經(jīng)典的深度學(xué)習(xí)目標(biāo)檢測(cè)網(wǎng)絡(luò)Faster R-CNN、SSD、YOLOv3 進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)效果如表6 所示。
表6 對(duì)比實(shí)驗(yàn)Tab.6 Contrast experiment
從表6 可以看出,與經(jīng)典的目標(biāo)檢測(cè)網(wǎng)絡(luò)Faster R-CNN、SSD、YOLOv3相比,本文優(yōu)化網(wǎng)絡(luò)的mAP 在NUAA 和NUDT 數(shù)據(jù)集上分別提升了62.0%、32.0%、15.7%和55.5%、26.5%、14.1%,充分驗(yàn)證了所提網(wǎng)絡(luò)模型對(duì)復(fù)雜背景下紅外弱小目標(biāo)檢測(cè)的有效性,且優(yōu)化網(wǎng)絡(luò)的準(zhǔn)確率、召回率、平均精度均值都有明顯的提升,能很好地查準(zhǔn)、查全目標(biāo),具有良好的魯棒性。
最終優(yōu)化的紅外弱小目標(biāo)檢測(cè)模型在兩個(gè)數(shù)據(jù)集上的平均精度均值、準(zhǔn)確率和召回率如圖13所示。從圖中可知,NUDT 數(shù)據(jù)集在訓(xùn)練約40 個(gè)epoch 后,目標(biāo)檢測(cè)的平均精度均值、準(zhǔn)確率和召回率均趨于穩(wěn)定,NUAA 數(shù)據(jù)集在約第70 個(gè)epoch 后趨于穩(wěn)定,網(wǎng)絡(luò)模型能夠快速收斂。
圖13 訓(xùn)練模型參數(shù)圖。(a)平均精度均值;(b)準(zhǔn)確率;(c)召回率。Fig.13 Training model parameter.(a)Mean average precision;(b)Precision;(c)Recall.
為了能夠更直觀地對(duì)模型的檢測(cè)性能進(jìn)行分析,在NUAA 和NUDT 數(shù)據(jù)集上選取了部分具有代表性的數(shù)據(jù)。圖14 展示了各網(wǎng)絡(luò)模型的可視化檢測(cè)效果,其中,Data1 為云層背景,目標(biāo)被云層遮擋,檢測(cè)時(shí)易受到塊狀云層的干擾;Data2為城市背景,目標(biāo)與樓宇有相對(duì)距離,但目標(biāo)亮度相對(duì)于樓宇來(lái)說(shuō)并不突出;Data3 為海面背景,在海天交匯處含有兩個(gè)距離較近的艦船小目標(biāo);Data4 為曠野背景,弱小目標(biāo)呈點(diǎn)狀,圖像對(duì)比度低、背景復(fù)雜且有條紋噪聲干擾。Data5 為高亮背景,目標(biāo)淹沒(méi)在云層中,且與周圍云層亮度相近。Data6 為距離相近的多目標(biāo),目標(biāo)亮度大,背景相對(duì)單一。從圖13 的檢測(cè)結(jié)果可知,F(xiàn)aster RCNN 和SSD 網(wǎng)絡(luò)模型易受圖像中亮度高的像素點(diǎn)影響而產(chǎn)生虛警,并且當(dāng)圖像背景復(fù)雜、目標(biāo)像素占比極少或多目標(biāo)距離較近時(shí),存在漏檢的現(xiàn)象。其原因在于,F(xiàn)aster R-CNN 只用卷積網(wǎng)絡(luò)的最后一層來(lái)進(jìn)行預(yù)測(cè),其經(jīng)過(guò)多層卷積的特征提取之后,得到的特征圖非常小,導(dǎo)致弱小目標(biāo)的空間位置信息丟失,不利于后續(xù)的檢測(cè)回歸。特征提取網(wǎng)絡(luò)的低層特征層往往能夠保留相對(duì)高分辨率的弱小目標(biāo)特征,而SSD 網(wǎng)絡(luò)沒(méi)有有效利用低層特征層提取到的信息,所以在相對(duì)復(fù)雜的背景中容易產(chǎn)生漏檢現(xiàn)象。YOLOv3和YOLOv5的檢測(cè)效果顯著優(yōu)于Faster R-CNN 和SSD 網(wǎng)絡(luò),其原因在于充分利用了淺層特征信息,對(duì)淺層和深層特征層進(jìn)行了特征融合,并設(shè)置了3 個(gè)不同的檢測(cè)尺度,能夠根據(jù)數(shù)據(jù)集的實(shí)際情況檢測(cè)不同大小的目標(biāo)。相比之下,YOLOv5 網(wǎng)絡(luò)輸入端加入了數(shù)據(jù)增強(qiáng)來(lái)豐富數(shù)據(jù)集,并且采用了更佳的損失函數(shù)來(lái)優(yōu)化模型參數(shù)。但對(duì)背景復(fù)雜或距離相近的小目標(biāo)來(lái)說(shuō),兩者均存在漏檢現(xiàn)象。
圖14 各網(wǎng)絡(luò)模型可視化檢測(cè)效果圖。(a)Faster R-CNN;(b)SSD;(c)YOLOv3;(d)YOLOv5;(e)本文優(yōu)化網(wǎng)絡(luò);(f)標(biāo)注目標(biāo)的原圖。Fig.14 Visual test effect diagram of each network model.(a)Faster R-CNN;(b)SSD;(c)YOLOv3;(d)YOLOv5;(e)Ours;(f)Original image with labelled targets.
本文設(shè)計(jì)的目標(biāo)檢測(cè)網(wǎng)絡(luò)相對(duì)于以上網(wǎng)絡(luò)的平均精度均值有明顯提升,檢測(cè)效果與標(biāo)簽基本一致,且漏檢率、誤檢率低。其原因在于,設(shè)計(jì)的SimAMC3 模塊使網(wǎng)絡(luò)在進(jìn)行特征提取時(shí),可以有效地提取與弱小目標(biāo)相關(guān)的特征信息并舍棄無(wú)關(guān)信息,并且設(shè)計(jì)了更適用于紅外弱小目標(biāo)的目標(biāo)檢測(cè)頭,使網(wǎng)絡(luò)能夠充分利用淺層特征層提取到的相對(duì)高分辨率的弱小目標(biāo)空間位置信息,避免隨著卷積層數(shù)的加深而丟失信息,提高模型的檢測(cè)精度。最后,修改了預(yù)測(cè)框的篩選方式,使網(wǎng)絡(luò)能夠精確檢測(cè)出距離較近的弱小目標(biāo)。
本文所設(shè)計(jì)的網(wǎng)絡(luò)模型主要針對(duì)復(fù)雜場(chǎng)景下單幀紅外圖像中弱小目標(biāo)像素占比少、特征細(xì)節(jié)不明顯致使目標(biāo)特征提取困難、檢測(cè)準(zhǔn)確率低的問(wèn)題,首先,設(shè)計(jì)SimAMC3 注意力機(jī)制模塊,優(yōu)化網(wǎng)絡(luò)的特征提取層,加入該模塊后網(wǎng)絡(luò)的平均精度均值在NUAA 和NUDT 數(shù)據(jù)集上分別提升了1.9%和1.6%,提高了模型的特征提取能力和檢測(cè)精度。其次,設(shè)計(jì)更適合紅外弱小目標(biāo)的目標(biāo)檢測(cè)頭,通過(guò)增加網(wǎng)絡(luò)的特征融合層,改變其開(kāi)始特征提取的深度,從第一個(gè)SimAMC3模型開(kāi)始提取特征,以此得到新的弱小目標(biāo)檢測(cè)層,使淺層特征層更好地保留弱小目標(biāo)的空間信息,從而避免弱小目標(biāo)空間位置信息過(guò)度丟失。最后,改進(jìn)預(yù)測(cè)框篩選方式,以DIOU 為抑制準(zhǔn)則,將預(yù)測(cè)框與真實(shí)框的重疊區(qū)域,以及兩框中心之間的距離共同作為抑制冗余框的限制條件,解決原方法回歸不準(zhǔn)確的問(wèn)題。本文算法與Faster R-CNN、SSD、YOLOv3、YOLOv5相比,平均精度均值(mAP)在NUAA 和NUDT數(shù)據(jù)集上分別提升了62.0%、32.0%、15.7%和55.5%、26.5%、14.1%,在不同復(fù)雜背景下均可有效檢測(cè)出紅外弱小目標(biāo),體現(xiàn)出了良好的魯棒性和適應(yīng)性,可以有效應(yīng)用于紅外弱小目標(biāo)的檢測(cè)。