李邵港,高 晉,王 剛,王以政,李 椋
(1.南華大學(xué),湖南 衡陽 421001;2.軍事醫(yī)學(xué)研究院軍事認(rèn)知與腦科學(xué)研究所,北京 100850;3.中國科學(xué)院自動(dòng)化研究所,北京 100190)
無人機(jī)行業(yè)的興起為農(nóng)業(yè)、交通、娛樂等領(lǐng)域帶來巨大商業(yè)機(jī)會。然而,利用無人機(jī)進(jìn)行擾航、走私、恐怖襲擊等時(shí)有發(fā)生,對無人機(jī)的不當(dāng)使用,也會對公共安全造成嚴(yán)重威脅。因此,對無人機(jī)目標(biāo)進(jìn)行監(jiān)控具有重要意義。
紅外傳感器是基于物體表面的熱輻射成像,其穿透能力強(qiáng),可避免灰塵、煙霧等遮擋,且對光照變化不敏感,可在完全黑暗的環(huán)境下使用,適合視頻監(jiān)控等需全天候工作的應(yīng)用場景,采用紅外探測手段對無人機(jī)目標(biāo)進(jìn)行檢測與跟蹤具有良好的應(yīng)用前景。
近年來,深度學(xué)習(xí)在目標(biāo)跟蹤中得到了廣泛應(yīng)用。在線更新目標(biāo)跟蹤方法在跟蹤過程中使用在線更新機(jī)制不斷更新目標(biāo)表觀模型,適應(yīng)目標(biāo)及背景變化。ATOM 使用IoUNet 目標(biāo)檢測算法中提出的目標(biāo)框回歸方法估計(jì)目標(biāo)尺寸[1-2]。DiMP 使用模型優(yōu)化器對目標(biāo)的表觀模型進(jìn)行更新,并提出具有判別力的損失函數(shù)[3]。PrDiMP 則提出了概率回歸模型并應(yīng)用于DiMP 模型[4]。KYS 通過維持一個(gè)目標(biāo)鄰近區(qū)域的狀態(tài)向量將背景信息的建模到跟蹤框架中,以提高跟蹤的魯棒性[5]。與KYS 類似,KeepTrack指出僅依靠表觀模型不足以區(qū)分目標(biāo)和干擾物,需要對潛在目標(biāo)保持跟蹤[6]。多數(shù)Siamese 系列跟蹤算法離線訓(xùn)練分類和目標(biāo)框回歸分支,在跟蹤過程中不更新模板。Siamese 系列算法始于SINT[7]。SiamFC將深度卷積網(wǎng)絡(luò)作為通用相似性學(xué)習(xí)器[8]。Siam-RPN 引入了目標(biāo)檢測算法中的候選框機(jī)制[9]。SiamRPN++設(shè)計(jì)了一種高效的深度可分離互相關(guān)操作[10]。SiamMask 提出了視覺目標(biāo)跟蹤和視覺目標(biāo)分割的統(tǒng)一框架,通過像素級的分割預(yù)測結(jié)果獲得更精準(zhǔn)的目標(biāo)框[11]。SiamBAN 利用全卷積網(wǎng)絡(luò)預(yù)測搜索區(qū)域每一個(gè)點(diǎn)的而非錨框的信息[12]。最近,Transformer 在計(jì)算機(jī)視覺領(lǐng)域應(yīng)用日益增多,DETR使用Transformer 進(jìn)行物體檢測和分割[13]。ViT 使用Transformer 進(jìn)行圖像分類[14]。TransT 將Transformer結(jié)構(gòu)引入目標(biāo)跟蹤模型[15]。STARK 通過Transformer 學(xué)習(xí)魯棒的時(shí)空聯(lián)合表示并將目標(biāo)跟蹤建模成一個(gè)直接的邊界框預(yù)測問題,提出一種全新的跟蹤框架[16]。當(dāng)紅外圖像中目標(biāo)對比度反轉(zhuǎn)時(shí),目標(biāo)外觀發(fā)生變化,因此,本文選擇在線更新方法進(jìn)行改進(jìn)以適應(yīng)目標(biāo)變化。
多數(shù)跟蹤算法都是針對可見光圖像設(shè)計(jì),由于紅外圖像與可見光圖像的差別,使得這類算法直接應(yīng)用在紅外目標(biāo)跟蹤任務(wù)中效果不佳。自2015 年的紅外目標(biāo)追蹤挑戰(zhàn)賽[17](thermal infrared visual object tracking challenge,VOT-TIR)以來,基于深度學(xué)習(xí)的高性能的紅外目標(biāo)跟蹤算法已經(jīng)成為一個(gè)頗受關(guān)注的研究領(lǐng)域。文獻(xiàn)[18]設(shè)計(jì)了一個(gè)針對紅外無人機(jī)的跟蹤框架,將局部跟蹤器、攝像機(jī)運(yùn)動(dòng)估計(jì)、目標(biāo)框優(yōu)化、重檢測以及表觀模型更新集成到統(tǒng)一的框架中。文獻(xiàn)[19]認(rèn)為在紅外圖像中,由于被跟蹤的目標(biāo)外觀是均勻的而導(dǎo)致全卷積神經(jīng)網(wǎng)絡(luò)的識別能力沒有得到充分利用,因此,提出一種結(jié)合隨機(jī)采樣和聚類前景輪廓的兩階段采樣方法,以及結(jié)合外觀、可靠性和距離分?jǐn)?shù)的多模型FCNN(multiple-model FCNN)目標(biāo)跟蹤算法。
盡管現(xiàn)有算法針對紅外圖像作出改進(jìn),但其魯棒性仍有待提升。由于紅外圖像根據(jù)物體熱輻射成像,當(dāng)無人機(jī)目標(biāo)在不同溫度的背景物之間穿梭時(shí),受背景干擾,目標(biāo)成像可能發(fā)生對比度反轉(zhuǎn),這給紅外目標(biāo)跟蹤帶來困難。
紅外圖像分辨率較低,圖像中物體缺乏精細(xì)的紋理、顏色等特征。為增強(qiáng)紅外圖像特征,文獻(xiàn)[20]結(jié)合原始紅外圖像與其灰度反轉(zhuǎn)圖像,基于偽暗原色處理實(shí)現(xiàn)紅外圖像的對比度增強(qiáng)及細(xì)節(jié)突出。文獻(xiàn)[21]針對紅外圖像紋理細(xì)節(jié)不足和對比度下降的問題,利用顯著性特征圖及反轉(zhuǎn)紅外圖像的透視圖對圖像進(jìn)行增強(qiáng)??梢娊Y(jié)合原始紅外圖像及其灰度反轉(zhuǎn)圖像能增強(qiáng)圖像特征,提升紅外目標(biāo)跟蹤精度。
SiamDAH(double adjust head siamese network)提出一種雙分支孿生網(wǎng)絡(luò)結(jié)構(gòu),使用不同的分支處理目標(biāo)內(nèi)部區(qū)域和輪廓處的特征提?。?2]。觀察到在圖像分類任務(wù)中學(xué)習(xí)到的語義特征和在相似性匹配任務(wù)中學(xué)習(xí)到的外觀特征是相輔相成的,SA-Siam 分別使用語義分支和外觀分支提取不同的特征,并將兩個(gè)分支的特征進(jìn)行融合獲得更高的跟蹤性能[23]。此外,利用可見光與紅外圖像的互補(bǔ)性提升算法的性能日益成為一個(gè)研究熱點(diǎn)[24]。文獻(xiàn)[25]使用雙流卷積神經(jīng)網(wǎng)絡(luò)分別提取可見光和紅外圖像特征,并通過一個(gè)由兩個(gè)獨(dú)立的卷積層組成的融合網(wǎng)絡(luò)去除無用特征,以實(shí)現(xiàn)更高準(zhǔn)確度和效率。mfDiMP 基于DiMP 提出一種雙分支的目標(biāo)跟蹤模型,使用不同的分支分別提取可見光和紅外圖像特征并將其按通道拼接后用于預(yù)測目標(biāo)狀態(tài)[26]。文獻(xiàn)[27]提出一種紅外- 可見光雙模態(tài)輸入孿生網(wǎng)絡(luò)跟蹤方法,并提出一種模態(tài)權(quán)值自更新策略融合用于特征融合。綜上所述,在算法中使用多個(gè)分支提取不同層次的特征或融合不同模態(tài)的特征能提高跟蹤性能。因此,本文使用兩個(gè)分支分別處理原始紅外圖像與反轉(zhuǎn)紅外圖像以期獲得更好的跟蹤性能。
根據(jù)上述分析,本文提出一種基于紅外-反轉(zhuǎn)紅外圖像的雙分支無人機(jī)目標(biāo)跟蹤算法,使用兩個(gè)骨干網(wǎng)絡(luò)分支分別提取原始紅外圖像和反轉(zhuǎn)紅外圖像兩個(gè)模態(tài)的特征。同時(shí),為適應(yīng)無人機(jī)目標(biāo)的變化,選取對目標(biāo)表觀模型進(jìn)行在線更新的SuperDiMP1 目標(biāo)跟蹤模型作為基準(zhǔn)進(jìn)行改進(jìn),該模型組合PrDiMP[4]的目標(biāo)框回歸分支和DiMP[3]的分類分支以達(dá)到更好的性能。在處理流程上,SuperDiMP 先進(jìn)行分類得到目標(biāo)位置,再對目標(biāo)框進(jìn)行回歸,本文算法使用兩個(gè)分類分支對不同模態(tài)進(jìn)行處理得到目標(biāo)位置,并將兩個(gè)模態(tài)的特征進(jìn)行融合輸入到目標(biāo)框回歸分支中預(yù)測目標(biāo)框。
本文的主要貢獻(xiàn)如下:
1)設(shè)計(jì)了雙分支目標(biāo)跟蹤網(wǎng)絡(luò),兩個(gè)分支分別提取原始紅外圖像和反轉(zhuǎn)紅外圖像的特征,在后續(xù)跟蹤時(shí)分別匹配兩個(gè)分支的模板特征對目標(biāo)進(jìn)行定位,使跟蹤器對紅外目標(biāo)的亮度變化更具魯棒性。
2)設(shè)計(jì)了一種高效的互相關(guān)特征融合模塊,在目標(biāo)框回歸時(shí),將原始紅外圖像與反轉(zhuǎn)紅外圖像的特征進(jìn)行融合,增強(qiáng)目標(biāo)區(qū)域的特征,從而實(shí)現(xiàn)更準(zhǔn)確的目標(biāo)框回歸。
本文提出的雙分支紅外目標(biāo)跟蹤器,其核心思想為:1)雙分支多層次特征提?。河商卣魈崛【W(wǎng)絡(luò)分別對原始紅外圖像和反轉(zhuǎn)紅外圖像兩個(gè)模態(tài)進(jìn)行多層特征提取(對應(yīng)ResNet50[28]的第3 層和第4層特征),分別用于目標(biāo)初定位和目標(biāo)框回歸;2)雙分類分支:第3 層特征作為分類特征,兩個(gè)模態(tài)的分類特征分別由兩個(gè)分類分支處理進(jìn)行初定位得到目標(biāo)位置;3)基于互相關(guān)特征融合的目標(biāo)框回歸分支:基于IoU(intersection over union)預(yù)測進(jìn)行目標(biāo)框回歸,選取第3 層和第4 層特征作為IoU 特征,兩個(gè)模態(tài)特征經(jīng)過互相關(guān)特征融合模塊后輸入目標(biāo)框回歸模塊,最終由目標(biāo)框回歸分支根據(jù)融合后IoU 特征得到目標(biāo)框;4)同步初始化,異步訓(xùn)練:雙分支網(wǎng)絡(luò)初始化時(shí)使用相同的預(yù)訓(xùn)練權(quán)重,在紅外數(shù)據(jù)集上訓(xùn)練,進(jìn)行微調(diào)。本文所提模型如圖1所示。
圖1 本文所提模型框架Fig.1 Framework of the proposed model
為解決紅外圖像中小目標(biāo)易受背景雜波干擾發(fā)生對比度反轉(zhuǎn)現(xiàn)象造成跟蹤失效的問題,將原始紅外圖像和反轉(zhuǎn)紅外圖像作為模型輸入,提取不同模態(tài)下的圖像特征,增強(qiáng)模型對紅外目標(biāo)灰度特征的辨別力。
雙分支分類的流程框架如下頁圖2 所示,由進(jìn)行特征提取的兩個(gè)孿生網(wǎng)絡(luò)以及兩個(gè)分類分支構(gòu)成。提取原始紅外圖像和反轉(zhuǎn)紅外圖像的特征,分別輸入到分類分支,分類分支對目標(biāo)和背景進(jìn)行區(qū)分,從而確定目標(biāo)在當(dāng)前幀的定位。
圖2 雙分支特征提取及分類模塊Fig.2 Dual-branch feature extraction and classification module
具體的,給定模板圖像Torg和搜索圖像Sorg,先將原始紅外圖像Torg和Sorg反轉(zhuǎn)得到反轉(zhuǎn)紅外圖像:
使用ResNet50 作為骨干網(wǎng)絡(luò),選擇其Block3的輸出作為分類分支的輸入特征,由孿生網(wǎng)絡(luò)中的模板分支對Torg和Trev進(jìn)行特征提取,搜索分支對Sorg和Srev進(jìn)行特征提取得到對應(yīng)骨干網(wǎng)絡(luò)特征,該骨干網(wǎng)絡(luò)特征Xorg3,Xrev3,Zorg3,Zrev3經(jīng)過一個(gè)卷積模塊得到分類特征,計(jì)算過程如下:
式中,ψo(hù)rg表示針對原始紅外圖像的卷積模塊;ψrev表示針對反轉(zhuǎn)紅外圖像的卷積模塊,兩個(gè)孿生網(wǎng)絡(luò)結(jié)構(gòu)相同但不共享參數(shù)。
模板特征經(jīng)過一個(gè)表觀模型在線更新模塊D(model predictor)后得到目標(biāo)模板的表觀模型forg和frev,表觀模型與搜索圖像特征進(jìn)行卷積得到得分響應(yīng)圖和:
對于在線更新的目標(biāo)跟蹤算法,需在跟蹤過程中根據(jù)新的目標(biāo)位置和尺度在當(dāng)前幀中對目標(biāo)進(jìn)行采樣,用于更新目標(biāo)的表觀模型,因此,準(zhǔn)確的目標(biāo)框回歸對模型更新至關(guān)重要。對于易受背景干擾的紅外圖像小目標(biāo),為使目標(biāo)框回歸更準(zhǔn)確,于是將原始紅外圖像與反轉(zhuǎn)紅外圖像的特征進(jìn)行融合,獲得更具判別力的特征,并使用融合后的特征輸入到基于IoU 預(yù)測的目標(biāo)框回歸模塊。具體流程圖如下頁圖3 所示。
圖3 特征融合及目標(biāo)框回歸模塊Fig.3 Feature fusion and bounding box regression module
原始紅外圖像和反轉(zhuǎn)紅外圖像經(jīng)過骨干網(wǎng)絡(luò)ResNet50 進(jìn)行特征提取,分別取其Block3 和Block4作為目標(biāo)框回歸分支的輸入特征,提取模板圖像和搜索圖像的骨干網(wǎng)絡(luò)特征得到Xorg3,Xorg4,Zorg3,Zorg4,Xrev3,Xrev4,Zrev3,Zrev4。原始紅外圖像的模板圖像特征與搜索圖像特征及候選框輸入到一個(gè)基于調(diào)制的網(wǎng)絡(luò)M,提取各個(gè)候選框的IoU 特征Fiou_org,對反轉(zhuǎn)紅外圖像做同樣操作得到Fiou_rev。
使用互相關(guān)融合模塊CF 將原始紅外圖像的IoU 特征Fiou_org與反轉(zhuǎn)紅外圖像的IoU 特征Fiou_rev融合得到Fiou:
即將兩個(gè)輸入分別經(jīng)過線性變換后相乘。對于乘法而言,兩個(gè)輸入的向量中,較大的值與較大的值相乘擴(kuò)大的倍數(shù)比較小的值與較小的值相差擴(kuò)大的倍數(shù)更大,從而可以實(shí)現(xiàn)增強(qiáng)兩個(gè)模態(tài)中強(qiáng)響應(yīng)區(qū)域,抑制較弱響應(yīng)區(qū)域的目的。由于兩個(gè)模態(tài)的特征互補(bǔ),當(dāng)其中一個(gè)模態(tài)目標(biāo)區(qū)域響應(yīng)不顯著,另一個(gè)模態(tài)目標(biāo)區(qū)域顯著時(shí),經(jīng)過互相關(guān)運(yùn)算,目標(biāo)區(qū)域響應(yīng)不顯著的模態(tài)將被增強(qiáng);對于兩個(gè)模態(tài)響應(yīng)均顯著的區(qū)域,表明該區(qū)域?yàn)槟繕?biāo),則經(jīng)過互相關(guān)運(yùn)算,該區(qū)域?qū)⒈贿M(jìn)一步增強(qiáng);此外,對于兩個(gè)模態(tài)中響應(yīng)均不顯著的區(qū)域,表明該區(qū)域是與目標(biāo)無關(guān)的,經(jīng)過互相關(guān)運(yùn)算,該區(qū)域?qū)⒈灰种疲灰虼?,對兩個(gè)模態(tài)的特征使用互相關(guān)進(jìn)行融合,是對目標(biāo)區(qū)域增強(qiáng)、對背景區(qū)域抑制的過程。
1)損失函數(shù)。整個(gè)網(wǎng)絡(luò)由兩個(gè)模態(tài)的特征提取網(wǎng)絡(luò),兩個(gè)分類網(wǎng)絡(luò)及一個(gè)目標(biāo)框回歸網(wǎng)絡(luò)組成。損失函數(shù)由原始紅外分支和反轉(zhuǎn)紅外分支的目標(biāo)分類損失和目標(biāo)框回歸損失組成:
其中,對于分類分支,離線訓(xùn)練時(shí),隨機(jī)選擇原始紅外視頻序列的連續(xù)6 幀,前3 幀和后3 幀分別為和作為原始紅外圖像的訓(xùn)練幀,將其灰度值反轉(zhuǎn)得到和。迭代優(yōu)化表觀模型在線更新模塊D,得到表觀模型forg和frev,該部分的誤差為。用建立好的表觀模型和對測試幀和進(jìn)行目標(biāo)和背景的分類,并計(jì)算分類誤差:
2)訓(xùn)練細(xì)節(jié)。骨干網(wǎng)絡(luò)使用基于Image-Net 預(yù)訓(xùn)練的ResNet50,使用ICCV2021 Anti-UAV 數(shù)據(jù)集[29]的test-dev 作為訓(xùn)練集。訓(xùn)練時(shí),在原始紅外圖像和反轉(zhuǎn)紅外圖像上分別訓(xùn)練單分支SuperDiMP 模型,之后將訓(xùn)練得到的權(quán)重用于初始化雙分支SuperDiMP 模型,進(jìn)行網(wǎng)絡(luò)微調(diào)。兩次訓(xùn)練均訓(xùn)練50輪,每輪訓(xùn)練均通過在訓(xùn)練集中采樣20 000 個(gè)視頻片段,學(xué)習(xí)率每15 輪降低0.2,分類損失權(quán)重β=102,迭代優(yōu)化線更新模塊D 時(shí)Niter=5。
3)在線跟蹤。對每一幀的原始紅外圖像進(jìn)行灰度反轉(zhuǎn),經(jīng)過骨干網(wǎng)絡(luò)提取特征后,分別輸入到分類網(wǎng)絡(luò)和目標(biāo)框回歸網(wǎng)絡(luò)中。對于兩個(gè)分類分支的初始幀表觀模型建立、候選框生成以及更新策略與DiMP[3]一致,兩個(gè)模態(tài)各生成10 個(gè)候選框。IoU 特征提取模塊提取兩個(gè)模態(tài)的IoU 特征,使用互相關(guān)融合模塊CF 得到融合后特征,由IoU 預(yù)測模塊P根據(jù)融合后的特征預(yù)測各個(gè)候選框的IoU。最終,對于每個(gè)候選框,通過5 次梯度上升迭代最大化該候選框的IoU,取IoU 最大的前3 個(gè)候選框的均值作為當(dāng)前幀目標(biāo)邊界框的預(yù)測值。
模型的訓(xùn)練和測試分別使用Anti-UAV[29]數(shù)據(jù)集的訓(xùn)練集和測試集。該數(shù)據(jù)集包含訓(xùn)練集testdev 和測試集test-challenge 各140 段紅外視頻,視頻中有不同尺度的無人機(jī)目標(biāo),涉及快速運(yùn)動(dòng)、目標(biāo)消失、目標(biāo)對比度反轉(zhuǎn)等挑戰(zhàn)。圖像分辨率為640×512 像素。訓(xùn)練時(shí)使用ImageNet 上與訓(xùn)練的ResNet50 作為骨干網(wǎng)絡(luò),以及Anti-UAV 訓(xùn)練集dev進(jìn)行訓(xùn)練。
評價(jià)標(biāo)準(zhǔn)采用成功率和精確率,即對于每一幀,計(jì)算算法預(yù)測目標(biāo)框與標(biāo)注框的IoU 以及它們之間中心位置距離,對于成功率,IoU 閾值設(shè)置為0.5,對于精確率,中心點(diǎn)距離閾值設(shè)置為20 個(gè)像素。
2.2.1 整體對比
本文算法基于SuperDiMP 進(jìn)行改進(jìn),選取使用Anti-UAV 訓(xùn)練集test-dev 微調(diào)過的SuperDiMP 作為基準(zhǔn)算法。本文算法在Nvidia Tesla A100 上運(yùn)行速度12 幀/s,其中,雙分支的特征提取骨干網(wǎng)絡(luò)速度為50 幀/s,雙分支分類模塊速度為125 幀/s,特征融合及目標(biāo)框回歸模塊速度為18 幀/s。
表1 是本文所提方法與基準(zhǔn)算法的對比。從表1 可以看出,在測試集Anti-UAV test-challenge 上,本文所提算法成功率(Success)和精確率(Precision)分別達(dá)到78.39%和80.07%,較基準(zhǔn)算法的成功率和精確率72.55%和75.55%分別提升5.84%和4.52%。
表1 Anti-UAV test-challenge 對比結(jié)果Table 1 Comparision results on Anti-UAV test-challenge
2.2.2 不同場景與目標(biāo)尺寸對比
為深入分析本文算法高成功率和準(zhǔn)確率的來源,按視頻中目標(biāo)的平均尺寸分類計(jì)算跟蹤精確率。目標(biāo)尺寸計(jì)算方法為人工標(biāo)注的矩形框的面積。表2 記錄了本文算法與基準(zhǔn)算法對Anti-UAV測試集test-challenge 中不同大小目標(biāo)的跟蹤精確率??梢钥闯觯瑢τ诓煌叽绲哪繕?biāo),本文算法均優(yōu)于基準(zhǔn)算法。
表2 不同目標(biāo)尺寸跟蹤精確率(%)Table 2 Tracking precision results(%)of different target sizes
將140 段視頻分為不同場景,其中,凈空云層73 段,建筑物背景50 段,山地背景15 段以及海面背景2 段,分別測試精確率。從表3 可以看出,本文算法在凈空、云層、建筑物及海面背景均具有較高跟蹤性能,而在復(fù)雜的山地背景,跟蹤效果不佳。
表3 不同場景跟蹤精確率(%)Table 3 Tracking precision results(%)of different scenarios
結(jié)合目標(biāo)大小與場景分析,當(dāng)目標(biāo)尺寸大于1 600 像素時(shí),本文算法與基準(zhǔn)算法精確率都較高,相較于基準(zhǔn)算法,本文算法精確率有提升但提升不大,主要是由于該類視頻目標(biāo)尺寸大,包含較多凈空場景,跟蹤難度較低。
當(dāng)目標(biāo)尺寸為400~900 像素、900~1 600 像素時(shí),相較于基準(zhǔn)算法,本文算法精確率提升顯著,分別提升10.39%和7.82%。該部分視頻主要由凈空場景、云層背景及建筑物背景組成,對于凈空背景和云層背景,兩個(gè)算法均能保持穩(wěn)定跟蹤,而對于建筑物背景,本文算法有更高的魯棒性。
當(dāng)目標(biāo)尺寸小于100 像素以及在100~400 像素之間時(shí),相較于基準(zhǔn)算法,本文算法精確率提升分別為3.14%及3.22%。該部分視頻主要由凈空背景、云層背景、山地背景、建筑物背景組成。對于凈空背景和云層背景,兩個(gè)算法均能保持穩(wěn)定跟蹤;對于小目標(biāo)在山地背景的穿梭,兩個(gè)算法都無法對目標(biāo)進(jìn)行持續(xù)跟蹤;對于小目標(biāo)在建筑物中穿梭,本文算法魯棒性更高。
2.2.3 典型場景對比
Anti-UAV 數(shù)據(jù)集涵蓋多種挑戰(zhàn),尺度變化,運(yùn)動(dòng)模糊,相似物干擾,目標(biāo)對比度反轉(zhuǎn)等。在這些挑戰(zhàn)中,本文算法顯示了優(yōu)越的跟蹤效果。圖4 是本算法與基準(zhǔn)算法的跟蹤結(jié)果。
圖4 本文算法與基準(zhǔn)算法對比Fig.4 Comparison between the proposed method and benchmark algorithm
尺度變化。序列1 中,無人機(jī)往遠(yuǎn)處飛行,尺度逐漸變小,本文算法與基準(zhǔn)算法均能較好地適應(yīng)無人機(jī)的尺度變化,保持穩(wěn)定跟蹤。
對比度反轉(zhuǎn)。序列2 中,無人機(jī)自右向左從溫度較低的凈空背景飛行穿越溫度較高的建筑物,在建筑物背景中無人機(jī)對比度發(fā)生反轉(zhuǎn)?;鶞?zhǔn)算法無法適應(yīng)該變化,而本文算法可以持續(xù)跟蹤目標(biāo)。
運(yùn)動(dòng)模糊。序列3 中,無人機(jī)目標(biāo)與樓宇背景較為相似,由于鏡頭轉(zhuǎn)動(dòng),導(dǎo)致圖像模糊?;鶞?zhǔn)算法首先漂移到目標(biāo)的局部,然后跟丟,而本文算法在該場景下依然保持穩(wěn)定跟蹤。
相似物干擾。在序列4 中,無人機(jī)目標(biāo)進(jìn)入樓宇背景,存在大量窗戶與無人機(jī)較為相似,在第253幀時(shí),兩個(gè)算法均能跟蹤到目標(biāo),而第282 幀時(shí),基準(zhǔn)算法丟失目標(biāo),本文算法繼續(xù)保持跟蹤。
失敗場景。在該數(shù)據(jù)集中,失敗場景主要集中在山地背景。序列5 展示了當(dāng)目標(biāo)由凈空背景進(jìn)入山地背景時(shí),本文算法與基準(zhǔn)算法均出現(xiàn)了目標(biāo)丟失。
對于圖4 第2 行的對比度反轉(zhuǎn)場景,其熱力圖如圖5 所示,目標(biāo)在進(jìn)入建筑物背景之前,相對溫度更高,目標(biāo)區(qū)域灰度值更大,因此,跟蹤的目標(biāo)模板灰度值較大。當(dāng)目標(biāo)進(jìn)入建筑物背景中,目標(biāo)與背景間對比度發(fā)生反轉(zhuǎn),目標(biāo)灰度值較低,而周圍背景的灰度值較高,因此,背景的響應(yīng)值較大。而在反轉(zhuǎn)圖像中,目標(biāo)的灰度值較高,背景的灰度值低,目標(biāo)區(qū)域的響應(yīng)值較大??梢姡崔D(zhuǎn)紅外圖像能在該場景能與原始紅外圖像進(jìn)行互補(bǔ),提高跟蹤性能。
圖5 原始紅外圖像及反轉(zhuǎn)紅外圖像目標(biāo)置信分響應(yīng)圖Fig.5 Confidence responsive maps of the target objects in original infrared images and inverted infrared images
下頁表4 是本文所提方法與基準(zhǔn)算法以及以下主流算法在測試集Anti-UAV test-challenge 的對比:ECO[30],SuperDiMP,TransT[15],SiamRPN++[10],SiamMask[11]??梢钥闯?,在測試數(shù)據(jù)集上,本文所提算法具有最佳成功率和精確率,分別達(dá)到78.39%和80.07%,均高于其他算法。
表4 Anti-UAV test-challenge 測試結(jié)果Table 4 Test results of the Anti-UAV test-challenge
此外,在本文所提跟蹤模型中,分別使用相加和互相關(guān)對IoU 特征進(jìn)行融合,以驗(yàn)證本文算法的有效性及不同融合方式對算法的影響,對比結(jié)果如表5 所示??梢钥闯觯ハ嚓P(guān)融合方法相較于相加,成功率和精確率分別提升7.3%和6.3%。這是由于互相關(guān)不僅能將目標(biāo)區(qū)域的特征增強(qiáng),同時(shí)非目標(biāo)區(qū)域的特征會被抑制,而相加的方法,不僅對目標(biāo)區(qū)域增強(qiáng),也會對背景區(qū)域進(jìn)行增強(qiáng)。
表5 Anti-UAV test-challenge 上的消融實(shí)驗(yàn)Table 5 Ablation experiment on Anti-UAV test-challenge
為驗(yàn)證同時(shí)使用原始紅外圖像和反轉(zhuǎn)紅外圖像的必要性,分別僅使用原始紅外圖像和僅使用反轉(zhuǎn)紅外圖像作為模型輸入進(jìn)行測試,對比結(jié)果如表6 所示??梢钥闯?,僅使用原始紅外圖像(Org)和僅使用反轉(zhuǎn)紅外圖像(Rev)作為模型輸入時(shí),算法的精確率和成功率均低于同時(shí)使用原始紅外圖像和反轉(zhuǎn)紅外圖像(Org+Rev)作為輸入時(shí)模型的精確率和成功率。
表6 不同輸入圖像對比Table 6 Comparison of different input images
本文提出了一種雙分支紅外目標(biāo)跟蹤算法,不同分支分別提取原始紅外圖像及反轉(zhuǎn)紅外圖像的特征。在不同分支對目標(biāo)進(jìn)行匹配提高跟蹤性能;雙分支特征進(jìn)行互相關(guān)融合增強(qiáng)目標(biāo)區(qū)域特征使目標(biāo)框回歸更精準(zhǔn)。
在ICCV2021 Anti-UAV 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文所提算法成功率和精確率均超越基準(zhǔn)算法,在目標(biāo)對比度反轉(zhuǎn)等不同挑戰(zhàn)下具備較高魯棒性。相較于基準(zhǔn)算法,跟蹤成功率和精確率分別提升5.84%和4.52%。實(shí)驗(yàn)表明使用紅外圖像及其灰度反轉(zhuǎn)圖的雙分支目標(biāo)跟蹤網(wǎng)絡(luò)能提升紅外目標(biāo)跟蹤的性能。
當(dāng)前算法主要存在未達(dá)到實(shí)時(shí)運(yùn)行速度,以及在復(fù)雜山地背景下跟蹤效果不佳的問題。未來的工作重點(diǎn)是優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),提高算法速度;另一個(gè)是解決紅外復(fù)雜背景下目標(biāo)跟蹤難點(diǎn)。