張兆宇,田春娜,周 恒,田西蘭
(1.西安電子科技大學(xué) 電子工程學(xué)院,陜西 西安 710071;2.中國電子科技集團(tuán)第38研究所 數(shù)字技術(shù)研發(fā)中心,安徽 合肥 230088)
視覺目標(biāo)跟蹤可以確定各種場景下的視頻序列中給定目標(biāo)的位置和大小,是計算機(jī)視覺和模式識別交叉領(lǐng)域的一項經(jīng)典研究課題,在視頻監(jiān)控、自動駕駛和人機(jī)交互等方面應(yīng)用廣泛[1-2]。盡管目前相關(guān)的研究取得了很大進(jìn)展[3-5],但單模態(tài)信息的局限性和不確定性影響了跟蹤效果[6],如可見光成像受光照、雨、煙和霾等環(huán)境條件的影響較大。紅外成像雖受環(huán)境影響小,但其成像機(jī)理導(dǎo)致紅外圖像分辨率較低、紋理少,在熱交叉條件下目標(biāo)與背景難于區(qū)分等。因此,越來越多的研究轉(zhuǎn)向融合可見光和熱紅外(RGB/Thermal,RGBT)的目標(biāo)跟蹤方法[7],旨在利用兩種模態(tài)的關(guān)聯(lián)和互補(bǔ)信息,降低單模態(tài)信息的局限性和不確定性,提高跟蹤的魯棒性。
RGBT目標(biāo)跟蹤算法可分為傳統(tǒng)算法、基于相關(guān)濾波的算法和基于深度學(xué)習(xí)的算法。傳統(tǒng)算法主要是采用手工特征,如方向梯度直方圖(Histogram of Oriented Gradient,HOG)、尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)等,結(jié)合卡爾曼濾波[8]、粒子濾波[9]等運(yùn)動估計算法實(shí)現(xiàn)跟蹤。相關(guān)濾波算法通過濾波模板與目標(biāo)候選區(qū)域特征的相關(guān)運(yùn)算,獲得輸出響應(yīng),根據(jù)響應(yīng)峰值來確定目標(biāo)位置。ZHAI等[10]提出一種基于交叉模式相關(guān)濾波器的RGBT跟蹤算法,在跟蹤過程中,對每個模態(tài)采用相關(guān)濾波,然后引入低秩約束來聯(lián)合學(xué)習(xí)濾波器,實(shí)現(xiàn)模態(tài)協(xié)同融合。YUN等[11]提出一種判別融合相關(guān)學(xué)習(xí)模型,通過早期估計與晚期融合獲得融合學(xué)習(xí)濾波器,以提高基于判別相關(guān)濾波器的跟蹤性能。熊躍軍等[12]提出一種RGBT 雙模態(tài)加權(quán)相關(guān)濾波跟蹤算法,先通過雙模態(tài)信息聯(lián)合求解權(quán)重圖,然后利用權(quán)重圖引導(dǎo)相關(guān)濾波器求解過程,并根據(jù)其推斷目標(biāo)遮擋情況。上述方法中由于手工特征的表示能力有限,因此這兩類跟蹤算法的精度和魯棒性受到影響。
基于深度學(xué)習(xí)算法通過數(shù)據(jù)驅(qū)動的深度神經(jīng)網(wǎng)絡(luò)構(gòu)建具有強(qiáng)大特征表示能力的跟蹤器,與前兩類算法相比,在精度和魯棒性方面均有顯著提升[13]。XU等[14]將紅外圖像作為可見光圖像的第4個通道,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的RGBT像素級融合跟蹤算法。LI等[15]提出一種多適配器卷積網(wǎng)絡(luò),通過不同的適配器提取RGBT雙模態(tài)共有與特有的信息。ZHU等[16]為RGBT跟蹤網(wǎng)絡(luò)設(shè)計了特征聚合和特征剪枝模塊,聚合模塊為目標(biāo)對象提供豐富的RGBT特征表示,剪枝模塊從聚合的RGBT特征中去除噪聲或冗余特征。LU等[17]提出一種對偶性選通互條件網(wǎng)絡(luò),以充分利用雙模判別信息,并抑制數(shù)據(jù)噪聲,同時設(shè)計了基于光流的重采樣策略,應(yīng)對相機(jī)的突然運(yùn)動。由于額外的模態(tài)增加了計算量,且上述算法多采用生成候選區(qū)域的思想[18],網(wǎng)絡(luò)需要進(jìn)行多次前向傳播,影響跟蹤速度。
近年來,孿生網(wǎng)絡(luò)在可見光目標(biāo)跟蹤中取得了較高的精度與速度,如SiamFC[4]、SiamRPN++[5]和Siamban[19]等,該類方法也被應(yīng)用到RGBT目標(biāo)跟蹤中。ZHANG等[20]提出一種基于像素級融合的深度學(xué)習(xí)跟蹤方法,首先融合可見光和紅外圖像,然后輸入孿生網(wǎng)絡(luò)進(jìn)行跟蹤。ZHANG等[21]利用兩個孿生網(wǎng)絡(luò)分別提取可見光和紅外圖像的特征,然后對雙模態(tài)多層特征分別融合,并利用多層融合特征進(jìn)行跟蹤。申亞麗[22]將孿生網(wǎng)絡(luò)中雙模態(tài)模板與搜索圖的特征進(jìn)行拼接獲得融合特征,并引入相關(guān)濾波器層來提高跟蹤效率。
現(xiàn)有基于孿生網(wǎng)絡(luò)的跟蹤算法中,圖像融合或特征拼接的方式不能充分挖掘可見光與紅外圖像的關(guān)聯(lián)和互補(bǔ)信息,且容易造成特征冗余;同時,孿生網(wǎng)絡(luò)未進(jìn)行在線學(xué)習(xí),在跟蹤過程中易受干擾物的影響。為解決上述問題,筆者以孿生網(wǎng)絡(luò)跟蹤算法Siamban為基礎(chǔ)框架,提出一種RGBT雙模態(tài)跟蹤算法,主要貢獻(xiàn)有以下兩個方面:
(1) 提出一種基于雙注意力機(jī)制的特征融合方式,充分利用RGBT雙模態(tài)的關(guān)聯(lián)與互補(bǔ)信息,使網(wǎng)絡(luò)自適應(yīng)學(xué)習(xí)模態(tài)權(quán)重,有效地融合可見光與紅外特征。
(2) 引入在線分類模塊,通過分類器在線學(xué)習(xí),減少干擾物對跟蹤的影響,適應(yīng)目標(biāo)在跟蹤過程中的變化,提高目標(biāo)跟蹤的魯棒性。
以Siamban為基礎(chǔ)框架,筆者提出一種改進(jìn)的RGBT雙模態(tài)跟蹤器,如圖1所示。RGBT雙模態(tài)跟蹤器包括離線模塊與在線模塊:離線模塊為孿生網(wǎng)絡(luò)RGBT跟蹤器,其輸入為可見光與紅外圖像,完成對目標(biāo)和背景的分類與目標(biāo)邊界框的回歸任務(wù);在線模塊以可見光圖像作為輸入,完成對目標(biāo)與背景的分類任務(wù)。跟蹤器首先將兩模塊分類結(jié)果進(jìn)行加權(quán)求和,得到最終的分類結(jié)果,確定目標(biāo)位置;然后根據(jù)離線模塊回歸結(jié)果,確定目標(biāo)的精確位置與大小。離線網(wǎng)絡(luò)是通過大量RGBT圖像數(shù)據(jù)離線訓(xùn)練所得到的,跟蹤魯棒性較高;在線網(wǎng)絡(luò)通過在線訓(xùn)練,學(xué)習(xí)特定目標(biāo)的外觀特征,提高對目標(biāo)與語義背景的區(qū)分能力,通過RGBT孿生網(wǎng)絡(luò)跟蹤算法融合在線分類任務(wù),實(shí)現(xiàn)離線網(wǎng)絡(luò)與在線網(wǎng)絡(luò)優(yōu)勢互補(bǔ),提升跟蹤器的性能。
圖1 融合在線分類任務(wù)的雙注意力RGBT孿生網(wǎng)絡(luò)跟蹤算法框架
圖2 RGBT頭網(wǎng)絡(luò)
1.1.1 模型構(gòu)建
如圖1所示,孿生網(wǎng)絡(luò)RGBT跟蹤器結(jié)構(gòu)包括孿生主干網(wǎng)絡(luò)與3個RGBT頭網(wǎng)絡(luò)。主干網(wǎng)絡(luò)含模板分支和搜索分支,分別用于提取RGBT雙模態(tài)模板與搜索圖的特征。在RGBT頭網(wǎng)絡(luò)中進(jìn)行特征融合,完成分類與回歸任務(wù)。孿生主干網(wǎng)絡(luò)采用ResNet-50,為保留詳細(xì)的空間信息,去掉最后兩個卷積塊中的下采樣操作,同時使用空洞卷積擴(kuò)大感受野,空洞率分別為2和4[19]。
(1)
(2)
其中,αi,βi分別為每個頭網(wǎng)絡(luò)輸出結(jié)果的權(quán)重,隨網(wǎng)絡(luò)一同優(yōu)化。在訓(xùn)練過程中,利用模板與搜索區(qū)域圖像對進(jìn)行端到端訓(xùn)練。對于分類與回歸任務(wù),分別采用交叉熵?fù)p失與IOU損失進(jìn)行優(yōu)化[19]。
訓(xùn)練樣本是從有標(biāo)注的RGBT視頻數(shù)據(jù)集中獲得的。正樣本對從同一RGBT視頻序列中得到,其間隔小于100幀;負(fù)樣本對從不同RGBT視頻序列中得到。具體過程為從RGBT視頻序列中任意選取兩幀分別作為模板幀和搜索幀。對于模板幀,以它的真實(shí)邊界框的中心點(diǎn)為中心,裁剪一個l×l大小的圖像塊,并將其縮放為127×127;對于搜索幀,以它的真實(shí)邊界框的中心點(diǎn)為中心,裁剪一個2l×2l大小的圖像塊,并將其縮放為255×255。l的大小為
l=((a+p)×(b+p))1/2,
(3)
其中,a,b為真實(shí)邊界框的寬和高,p=(a+b)/2。在裁剪過程中,若裁剪大小超出了原圖邊界,則使用原圖的顏色平均值填充。對于紅外圖像,通過復(fù)制將其擴(kuò)展到三通道,與可見光圖像保持一致。之后進(jìn)行雙模態(tài)圖像的數(shù)據(jù)增廣,如圖像平移、尺度變換等。對于可見光圖像,單獨(dú)進(jìn)行顏色變換操作。
1.1.2RGBT特征融合
在RGBT特征融合過程中,并非雙模態(tài)的所有特征都是同等重要的。只有突出雙模態(tài)特征中的有用信息,抑制無用信息,才能獲得高質(zhì)量的融合特征。因此,借助注意力機(jī)制,從繁雜的信息中選擇出對當(dāng)前任務(wù)目標(biāo)更關(guān)鍵的信息。SENet[23]是一種經(jīng)典的通道注意力網(wǎng)絡(luò),其利用自身特征的全局信息通過學(xué)習(xí)的方式自動獲取每個特征通道的重要程度,依此來提升對當(dāng)前任務(wù)有用的特征并抑制作用較小的特征。對于RGBT雙模態(tài)特征,提出一種雙注意力特征融合方法:對單個模態(tài),利用SENet的自注意力機(jī)制,通過模態(tài)內(nèi)信息自適應(yīng)學(xué)習(xí)特征通道的權(quán)重;此外,為充分利用RGBT模態(tài)間的關(guān)聯(lián)性和互補(bǔ)性,引入跨模態(tài)協(xié)同注意力,利用跨模態(tài)信息指導(dǎo)模態(tài)特征的學(xué)習(xí),通過模態(tài)內(nèi)與模態(tài)間信息的相互作用,更好地融合特征。
如圖2所示,用V=[V1,V2,V3,…,Vc]代表可見光模板特征Vx與搜索圖特征Vz的深度互相關(guān)特征,采用T=[T1,T2,T3,…,Tc]代表紅外模板特征Tx與搜索圖特征Tz的深度互相關(guān)特征,V∈Rh×w×c,T∈Rh×w×c,其中h,w,c分別為特征的高、寬與通道數(shù)。特征融合過程如下:
首先,對V與T進(jìn)行全局平均池化(Global Average Pooling,GAP)獲取可見光與紅外模態(tài)的全局信息,即向量p=[p1,p2,p3,…,pc],向量q=[q1,q2,q3,…,qc],其中pc與qc的計算方法為
(4)
(5)
然后,通過兩個全連接層(Fully Connected layers,F(xiàn)C)建模通道間的相關(guān)性,生成可見光與紅外模態(tài)的特征通道權(quán)重sV,sT,并通過RELU函數(shù)引入非線性關(guān)系:
(6)
(7)
(8)
(9)
為充分利用模態(tài)間的關(guān)聯(lián)性和互補(bǔ)性[24-25],采用上述方法利用可見光與紅外模態(tài)的全局信息分別生成對方模態(tài)的特征通道權(quán)重,獲得跨模態(tài)信息指導(dǎo)的重標(biāo)定特征VT、TV,與VV、TT共同組成模態(tài)重標(biāo)定特征,即
(10)
(11)
然后,通過逐元素相加對重標(biāo)定特征進(jìn)行融合,獲得最終的RGBT融合特征:
(12)
如圖2所示,融合特征最后通過卷積網(wǎng)絡(luò),獲得分類與回歸結(jié)果:
(13)
(14)
孿生網(wǎng)絡(luò)跟蹤器采用離線訓(xùn)練的模型對跟蹤目標(biāo)建模,在區(qū)分前景和非語義背景方面具有較好的表現(xiàn),但當(dāng)存在語義背景即干擾物時,往往會降低目標(biāo)跟蹤的魯棒性[26]。因而,引入在線分類模塊,通過在線學(xué)習(xí),將目標(biāo)與場景中的干擾物區(qū)分開來,以提高孿生網(wǎng)絡(luò)對目標(biāo)的鑒別能力,進(jìn)一步提高跟蹤器的性能。文獻(xiàn)[27]采用分類器在線學(xué)習(xí)完成目標(biāo)的粗略定位,僅通過在線過程學(xué)習(xí)網(wǎng)絡(luò)參數(shù),訓(xùn)練樣本較少,但不能保證分類器的性能。孿生網(wǎng)絡(luò)模型充分利用大量的離線訓(xùn)練數(shù)據(jù),具有較高的魯棒性。因此,將在線分類器與離線孿生網(wǎng)絡(luò)結(jié)合,共同完成目標(biāo)定位任務(wù)。由于雙模態(tài)在線學(xué)習(xí)計算量較大,并且紅外圖像缺乏顏色與紋理信息,因此在線分類模塊僅采用可見光圖像作為輸入。
1.2.1 網(wǎng)絡(luò)結(jié)構(gòu)
在線分類模塊如圖3所示,其網(wǎng)絡(luò)結(jié)構(gòu)包括特征提取器與分類頭網(wǎng)絡(luò)兩部分。特征提取器為在ImageNet上預(yù)訓(xùn)練的ResNet-50,其以可見光圖像作為輸入提取特征。分類頭網(wǎng)絡(luò)為兩層全卷積神經(jīng)網(wǎng)絡(luò):第1個卷積層輸入為ResNet-50第4個卷積塊提取的特征,輸出通道為64維,對特征進(jìn)行壓縮;第2個卷積層輸出是1維的,獲得前景與背景的分類結(jié)果,分類過程可以表示為
(15)
圖3 在線分類模塊框圖
1.2.2 在線學(xué)習(xí)
2003年,黃委在全國水利系統(tǒng)建立第一個突發(fā)性水污染事件應(yīng)急機(jī)制。自機(jī)制建立以來,黃委聯(lián)手流域相關(guān)?。ㄗ灾螀^(qū))水利、環(huán)保部門,先后快速高效處置50余起各類突發(fā)性水污染事件,為保障黃河供水水質(zhì)安全提供了有力支撐。
首先對于每一個跟蹤序列,根據(jù)第1幀的注釋,通過應(yīng)用不同程度的平移、旋轉(zhuǎn)、模糊等操作對第1幀進(jìn)行數(shù)據(jù)增廣[29],產(chǎn)生30個初始訓(xùn)練樣本;然后采用共軛梯度法[27]通過初始訓(xùn)練樣本對分類頭網(wǎng)絡(luò)參數(shù)進(jìn)行在線學(xué)習(xí),損失函數(shù)為
(16)
其中,第1項為L2分類誤差,γ為權(quán)重,Xi表示訓(xùn)練樣本主干特征,f(Xi;wonline)表示樣本i的網(wǎng)絡(luò)預(yù)測分類結(jié)果,Yi表示其對應(yīng)的分類置信度真值,設(shè)置為以目標(biāo)位置為中心的二維高斯分布。第2項為L2正則項,μ為權(quán)重。在后續(xù)幀中,根據(jù)跟蹤到的目標(biāo)與其置信度更新分類器參數(shù),以適應(yīng)目標(biāo)在跟蹤過程中外觀發(fā)生的變化。
通過將在線分類模塊的分類結(jié)果與離線訓(xùn)練的孿生網(wǎng)絡(luò)分類結(jié)果進(jìn)行加權(quán)求和,獲得最終的分類結(jié)果:
(17)
其中,λ1,λ2分別代表孿生網(wǎng)絡(luò)與在線分類結(jié)果的權(quán)重,它們的取值在節(jié)2.1的實(shí)驗(yàn)中給出。在線分類器與離線孿生網(wǎng)絡(luò)結(jié)合,可以有效地彌補(bǔ)兩者的劣勢。
在兩個RGBT跟蹤基準(zhǔn)數(shù)據(jù)集RGBT234[30]、GTOT[31]上設(shè)計實(shí)驗(yàn),驗(yàn)證所提方法的有效性。RGBT234數(shù)據(jù)集有23.4萬幀圖像,包含234個在空間和時間上對齊的RGB-T視頻序列和12種帶注釋的屬性;GTOT 數(shù)據(jù)集有1.58萬幀圖像,包含50個在空間和時間上對齊的RGB-T視頻和7種帶注釋的屬性。采用目標(biāo)跟蹤中廣泛使用的精確率(Precision Rate,PR)和成功率(Success Rate,SR)作為評價指標(biāo)。PR指輸出位置和真實(shí)位置之間的距離在閾值內(nèi)的幀的百分比。GTOT數(shù)據(jù)集與RGBT234數(shù)據(jù)集的閾值設(shè)置分別為5和20像素。對于SR指標(biāo),定義某一閾值下的成功率為輸出邊界框和真值邊界框之間的重疊比大于該閾值的幀的比例,繪制閾值在區(qū)間[0,1]的成功率圖,SR指標(biāo)為成功率圖的曲線下面積。
首先設(shè)計消融實(shí)驗(yàn)來驗(yàn)證RGBT特征融合和在線分類模型對所提跟蹤算法的有效性;然后將GTOT數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果與10種先進(jìn)的跟蹤算法(MacNet[32],DAPNet[17],LTDA[33],MDNet[18],MDNet[18]+RGBT,CMR[34],SGT[35],SiamDW[36],SiamDW[36]+RGBT,SiamFC[4])進(jìn)行對比,以驗(yàn)證算法的性能。算法采用Pytorch深度學(xué)習(xí)框架來實(shí)現(xiàn)。在訓(xùn)練過程中,首先使用在ImageNet上預(yù)先訓(xùn)練的權(quán)重初始化主干網(wǎng)絡(luò),然后采用隨機(jī)梯度下降法(Stochastic Gradient Descent,SGD)對網(wǎng)絡(luò)進(jìn)行訓(xùn)練。小批量為12對,總共訓(xùn)練迭代次數(shù)為60次,前20次的學(xué)習(xí)率為0.001到0.005,后40次的學(xué)習(xí)率從0.005到0.000 05逐漸衰減。在前20次迭代訓(xùn)練中,只訓(xùn)練RGBT頭網(wǎng)絡(luò);在后40次迭代訓(xùn)練中,以當(dāng)前學(xué)習(xí)率的10%對主干網(wǎng)絡(luò)進(jìn)行微調(diào),對于權(quán)重衰減和動量參數(shù)分別設(shè)置為0.000 1和0.9。實(shí)驗(yàn)環(huán)境為Python3.7,CPU:Intel i7-7700k,GPU是GTX TITAN,操作系統(tǒng)是ubuntu16.04。
為了驗(yàn)證所提算法的有效性,對添加不同改進(jìn)策略的算法進(jìn)行性能測試。實(shí)驗(yàn)包括4種算法:
(1) 基線算法(baseline),采用siamban跟蹤器,以可見光與紅外特征逐元素相加的方式融合特征;
(2) 添加單模態(tài)自注意力的算法(siamban+self);
(3) 同時添加單模態(tài)自注意力與跨模態(tài)協(xié)同注意力的算法(siamban+dual);
(4) 同時添加雙注意力,并引入在線分類模型的算法(siamban+dual+online)。
2.1.1 定量實(shí)驗(yàn)
首先在RGBT234數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,在RGBT數(shù)據(jù)集上隨機(jī)選取60個序列作為測試數(shù)據(jù)集,剩余174個序列作為訓(xùn)練數(shù)據(jù)集,測試實(shí)驗(yàn)結(jié)果如圖4所示;然后通過RGBT數(shù)據(jù)集與GTOT數(shù)據(jù)集進(jìn)行跨數(shù)據(jù)集實(shí)驗(yàn)驗(yàn)證:以GTOT數(shù)據(jù)集中50個序列作為測試數(shù)據(jù)集,以RGBT234數(shù)據(jù)集中234個序列作為訓(xùn)練數(shù)據(jù)集,測試實(shí)驗(yàn)結(jié)果如圖5所示。
(a) 精確率圖
(a) 精確率圖
在RGBT234的60個序列與GTOT數(shù)據(jù)集的測試結(jié)果中,siamban+self在PR/SR兩個指標(biāo)上分別比baseline提高了約2.7%/1.5%,1.6%/1.7%,表明添加模態(tài)自注意力機(jī)制可以更好地挖掘可見光與紅外模態(tài)內(nèi)的有用信息,抑制無用信息,提高特征表示能力,為后續(xù)跟蹤提供可靠的深度特征;siamban+dual在PR與SR兩個指標(biāo)上分別比siamban+self提高了約1.6%/0.9%,1.7%/0.6%,表明跨模態(tài)協(xié)同注意力機(jī)制可以通過模態(tài)間信息的關(guān)聯(lián)性和互補(bǔ)性指導(dǎo)特征的學(xué)習(xí),提高融合特征質(zhì)量,從而提高跟蹤器的性能;siamban+dual+online在PR/SR兩個指標(biāo)上分別比siamban+dual提高了約2.7%/2.2%,2.2%/2.0%,表明通過在線學(xué)習(xí)可以將目標(biāo)與場景中的其他對象區(qū)分開來,彌補(bǔ)孿生網(wǎng)絡(luò)對跟蹤目標(biāo)與背景相似物判別能力的不足,進(jìn)一步提高跟蹤器的性能。
表1 λ1,λ2不同取值時GTOT數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果
對于超參數(shù)λ1,λ2,選取了4組具有代表性的權(quán)重組合進(jìn)行實(shí)驗(yàn),如表1所示。前3組的PR/SR比無在線分類模塊的模型(λ1=1,λ2=0)分別提高了約0.1%/0.1%、0.6%/0.5%、2.2%/2.0%。結(jié)果表明,在線分類對于目標(biāo)定位具有指導(dǎo)意義。由于離線模型基于大量數(shù)據(jù)訓(xùn)練得到,比在線模型穩(wěn)定性高,因此當(dāng)離線模型具有較大權(quán)重時,即λ1=0.8,λ2=0.2 時,算法取得了最優(yōu)性能。
2.1.2 定性分析
如圖6所示,在LightOcc序列中,由于目標(biāo)被部分遮擋,導(dǎo)致基線算法跟蹤失?。晃闹刑砑与p注意力的算法(siamban+dual)可以充分利用未遮擋部分可見光與紅外信息,完成目標(biāo)跟蹤。在WalkingOcc序列中,由于相似物的干擾,導(dǎo)致基線算法與siamban+dual算法跟蹤失??;文中引入在線分類模型的算法(siamban+dual+online),可以通過在線學(xué)習(xí)目標(biāo)外觀信息,完成目標(biāo)跟蹤。
(a) LightOcc (b) WalkingOcc
在GTOT數(shù)據(jù)集[33]上,將文中方法與10種先進(jìn)的跟蹤器進(jìn)行比較,即MacNet[32],DAPNet[17],LTDA[33],MDNet[18],MDNet[18]+RGBT,CMR[34],SGT[35],SiamDW[36],SiamDW[36]+RGBT,SiamFC[4]。其中SiamFC、SiamDW與MDNet為RGB跟蹤器,其他均為RGBT跟蹤器。圖7顯示,文中的算法明顯優(yōu)于GTOT數(shù)據(jù)集上其他先進(jìn)的跟蹤器。具體來說,文中算法的PR/SR分別比MacNet和DAPNet提升了約2.6%/2.4%和2.4%/3.1%。此外,與其他跟蹤器相比,文中方法也有顯著的性能提升。
GTOT數(shù)據(jù)集包含7種不同的屬性:遮擋(OCC)、大尺度變化(LSV)、快速運(yùn)動(FM)、低照度(LI)、熱交叉(TC)、小目標(biāo)(SO)和形變(DEF)。為了分析文中算法對不同屬性的敏感性,還將其與10種先進(jìn)的算法進(jìn)行了比較,即MacNet[32],DAPNet[17],LTDA[33],MDNet[18],MDNet[18]+RGBT,CMR[34],SGT[35],SiamDW[36],SiamDW[36]+RGBT,SiamFC[4]。表2中的結(jié)果顯示,文中提出的跟蹤器在大尺度變化、快速運(yùn)動、低照度屬性下表現(xiàn)出了最優(yōu)的性能,這表明跟蹤器通過融合在線學(xué)習(xí),可以不斷地適應(yīng)目標(biāo)在跟蹤過程中的變化,從而提高目標(biāo)跟蹤的魯棒性。同時表明引入模態(tài)內(nèi)與跨模態(tài)協(xié)同注意力機(jī)制,可以充分挖掘RGBT雙模態(tài)信息,利用雙模態(tài)信息的相互作用,更好地應(yīng)對由快速運(yùn)動造成的運(yùn)動模糊以及由環(huán)境因素造成的單模態(tài)成像效果差的問題。此外,文中的跟蹤器在遮擋、熱交叉、形變和小目標(biāo)屬性下也表現(xiàn)出了較高的性能,可以較好地處理各種挑戰(zhàn)性。
(a) 精確率圖
表2 GTOT數(shù)據(jù)集7種屬性算法的性能對比(PR/SR) %
筆者提出一種聯(lián)合在線分類任務(wù)的雙注意力RGBT孿生網(wǎng)絡(luò)跟蹤算法,通過端到端訓(xùn)練,學(xué)習(xí)可見光圖像和熱紅外圖像的深度特征,并采用模態(tài)內(nèi)與模態(tài)間的注意力機(jī)制獲得高質(zhì)量的融合特征,同時將離線孿生網(wǎng)絡(luò)與在線分類網(wǎng)絡(luò)聯(lián)合,提升跟蹤器的性能。實(shí)驗(yàn)表明,所提算法在多種挑戰(zhàn)屬性下可實(shí)現(xiàn)準(zhǔn)確魯棒的目標(biāo)跟蹤。
文中的RGBT特征融合方法中主要采用通道注意力算法,空間注意力、時間注意力等對于多模態(tài)特征的學(xué)習(xí)也具有重要的幫助。在后續(xù)工作中,將針對不同模態(tài)設(shè)計注意力算法,進(jìn)一步提高融合特征的質(zhì)量。