付利華, 王路遠(yuǎn), 章海濤, 閆紹興, 吳會(huì)賢, 王俊翔
(北京工業(yè)大學(xué)信息學(xué)部, 北京 100124)
視頻目標(biāo)跟蹤(video object tracking,VOT)是對視頻序列中特定目標(biāo)進(jìn)行檢測以獲取其位置和運(yùn)行軌跡信息的任務(wù). 基于第1幀給定的特定目標(biāo)框,在視頻序列后續(xù)幀中標(biāo)注相同目標(biāo)物體框,即為半監(jiān)督的單目標(biāo)視頻跟蹤. 單目標(biāo)視頻跟蹤是計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn),廣泛應(yīng)用于智能安防、無人機(jī)、自動(dòng)駕駛等諸多領(lǐng)域.
目前,VOT方法主要有2種方法:基于相關(guān)濾波的VOT方法和基于孿生網(wǎng)絡(luò)的VOT方法. 基于相關(guān)濾波的VOT方法的思想是利用樣本周期矩陣生成大量圖像,并利用生成的圖像對濾波器進(jìn)行訓(xùn)練,然后將訓(xùn)練后的濾波器與當(dāng)前幀中感興趣區(qū)域的特征在傅里葉域進(jìn)行卷積以獲得相關(guān)性響應(yīng)圖,從而依據(jù)響應(yīng)圖中的峰值位置得出目標(biāo)在當(dāng)前幀中的位置. 這種方法主要是通過訓(xùn)練一個(gè)判別力強(qiáng)的相關(guān)濾波器來區(qū)分前景和背景[1-2]. 隨著對特征改進(jìn)的不斷研究,相關(guān)濾波所采用的特征變得越來越復(fù)雜,計(jì)算速度逐漸降低,使得這類方法具有的實(shí)時(shí)性優(yōu)勢也逐漸消失.
基于孿生網(wǎng)絡(luò)的VOT方法,通過將目標(biāo)跟蹤問題簡化為相似度匹配問題,將第1幀中以目標(biāo)為中心的圖像塊作為模板幀,與當(dāng)前幀的搜索區(qū)域做互相關(guān)操作,求取目標(biāo)在當(dāng)前幀的位置. 基于孿生網(wǎng)絡(luò)的VOT方法無須在線更新,跟蹤速度快,是目前主流的實(shí)時(shí)VOT方法. AlexNet[3]作為現(xiàn)有大多數(shù)基于孿生網(wǎng)絡(luò)的VOT方法所采用的特征提取網(wǎng)絡(luò),特征提取能力不強(qiáng),此類方法僅采用網(wǎng)絡(luò)最后一層輸出的特征,雖然其語義信息較為豐富,但缺點(diǎn)是表觀信息不足,達(dá)不到目標(biāo)跟蹤精準(zhǔn)定位的需求;另外,離線訓(xùn)練的深度特征不適用于訓(xùn)練集中沒有出現(xiàn)的目標(biāo).
針對以上問題,本文提出基于殘差密集孿生網(wǎng)絡(luò)的VOT方法. 該方法采用殘差密集孿生網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò),提高網(wǎng)絡(luò)的特征提取能力,進(jìn)而提高目標(biāo)跟蹤的性能.
本文提出一種基于殘差密集孿生網(wǎng)絡(luò)的VOT方法,網(wǎng)絡(luò)模型具有孿生特征提取子網(wǎng)和多個(gè)區(qū)域候選網(wǎng)絡(luò)(region proposal network,RPN). 孿生特征提取子網(wǎng)由參數(shù)共享的模板分支殘差密集網(wǎng)絡(luò)和檢測分支殘差密集網(wǎng)絡(luò)組成. 此外,本文將卷積注意力機(jī)制(convolutional block attention module,CBAM)[4]引入殘差密集網(wǎng)絡(luò)中的殘差密集塊,進(jìn)一步提高了模型對目標(biāo)區(qū)域特征的判別能力. 基于殘差密集孿生網(wǎng)絡(luò)的視頻單目標(biāo)跟蹤的網(wǎng)絡(luò)整體結(jié)構(gòu)如圖1所示.
殘差密集網(wǎng)絡(luò)[5]最先是在圖像超分辨率重構(gòu)中提出的,其殘差密集塊能更好地融合各卷積層的特征,獲取豐富的細(xì)節(jié)信息. 本文在殘差密集網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行改進(jìn),并融入到VOT任務(wù)中以獲得更高的跟蹤精度.
參數(shù)共享的模板分支和檢測分支是構(gòu)成殘差密集孿生網(wǎng)絡(luò)的主要部分. 其中每個(gè)分支包含淺層特征提取模塊和殘差密集特征提取模塊. 淺層特征提取模塊提取圖像的淺層特征,由2個(gè)卷積層構(gòu)成;殘差密集特征提取模塊由4個(gè)級聯(lián)的殘差密集塊組成. 表1展示了殘差密集網(wǎng)絡(luò)的詳細(xì)參數(shù)設(shè)置.
殘差密集塊包括3個(gè)部分:密集特征提取、密集特征融合和卷積注意力. 密集特征提取包含一組緊密連接的瓶頸層,密集特征融合包含一個(gè)Concat層和一個(gè)1×1卷積層. 圖2展示了殘差密集塊的網(wǎng)絡(luò)結(jié)構(gòu).
圖2 殘差密集塊結(jié)構(gòu)
在密集特征提取中,每一層的輸入是之前所有層的輸出.通過密集連接,網(wǎng)絡(luò)保留了之前特征圖中的所有有用信息,提高了模型的泛化能力.對于密集特征提取中的第l個(gè)卷積層,其特征是之前所有卷積層的輸出特征Fi,i=0, 1, …,l-1,第l個(gè)卷積層的特征輸出為Fl,其數(shù)學(xué)表述公式為
Fl=φConv([F0,F1,…,Fl-1])
(1)
式中:φConv表示卷積操作;[F0,F1, …,Fl-1]表示對特征使用Concat連接.
使用一組緊密連接的卷積層提取特征后,通過密集特征融合來自適應(yīng)地保留特征信息,并調(diào)整特征通道的數(shù)量以進(jìn)行殘差學(xué)習(xí);將密集特征融合后的特征輸入卷積注意力,通過注意力機(jī)制進(jìn)行特征的自適應(yīng)加權(quán),抑制背景信息且更關(guān)注目標(biāo)區(qū)域;最后,殘差學(xué)習(xí)將上一層殘差塊的特征融合到當(dāng)前殘差密集塊,促進(jìn)塊之間信息的交流.
注意力機(jī)制在圖像分割、目標(biāo)跟蹤和目標(biāo)識別等許多領(lǐng)域有廣泛應(yīng)用.卷積注意力結(jié)合了通道注意力和空間注意力以達(dá)到特征的自適應(yīng)優(yōu)化.本文模型在殘差密集塊中引入卷積注意力以抑制背景信息,增強(qiáng)目標(biāo)的相關(guān)特征,從而增強(qiáng)模型對特征的區(qū)分能力,提高模型對目標(biāo)外觀變化的反應(yīng)能力.
如圖3所示,卷積注意力包含通道注意力和空間注意力,從通道和空間學(xué)習(xí)不同位置上的特征信息的重要性.基于學(xué)習(xí)得到的結(jié)果,對特征信息進(jìn)行自適應(yīng)地加權(quán),提高了特征的判別性.
圖3 卷積注意力結(jié)構(gòu)
給定特征圖F∈RC×H×W,輸入卷積注意力,輸出一維通道注意力圖WC∈RC×1×1和二維空間注意力圖WS∈R1×H×W,其數(shù)學(xué)表述公式為
F′=WC(F)?F
(2)
F″=WS(F′)?F′
(3)
式中?表示元素級乘法.
在進(jìn)行元素級乘法時(shí),需要保證注意力特征圖與輸入特征圖具有同樣的維度.F″為經(jīng)過卷積注意力優(yōu)化后的特征.
(4)
式中:σ表示sigmoid函數(shù);W0、W1為全連接層的參數(shù).
(5)
區(qū)域候選網(wǎng)絡(luò)由分類分支和回歸分支兩部分組成,分類分支對前景和背景進(jìn)行區(qū)分,回歸分支對目標(biāo)邊界框的偏移進(jìn)行估計(jì),其結(jié)構(gòu)如圖4所示.通過區(qū)域候選網(wǎng)絡(luò),將VOT中的前景- 背景分類與目標(biāo)邊界框估計(jì)相分離,可以獲取更為精確的邊界框預(yù)測,提升跟蹤器的性能.
圖4 區(qū)域候選網(wǎng)絡(luò)結(jié)構(gòu)
本文為了實(shí)現(xiàn)2個(gè)分支的相互關(guān)操作,將通道互相關(guān)引入?yún)^(qū)域候選網(wǎng)絡(luò).首先,使用3×3卷積層調(diào)整殘差密集塊的特征以適應(yīng)跟蹤任務(wù).因?yàn)檫吔缈蚧貧w和基于錨點(diǎn)的分類是非對稱的,所以采用2個(gè)不同的卷積層對模板分支和檢測分支的特征分別進(jìn)行調(diào)整;然后,對2個(gè)有同樣通道數(shù)的特征圖逐通道進(jìn)行互相關(guān)操作;最后,基于1×1卷積將不同通道的輸出進(jìn)行融合,分別獲得2個(gè)分支的結(jié)果.
基于通道互相關(guān),顯著降低了目標(biāo)跟蹤的計(jì)算成本和內(nèi)存使用,使2個(gè)分支的參數(shù)量得到平衡,提高了訓(xùn)練過程的穩(wěn)定性.
對于模板分支,通過殘差密集網(wǎng)絡(luò)提取特征Fx,將其輸入到區(qū)域候選網(wǎng)絡(luò)的2個(gè)分支,通過卷積核大小為3×3的卷積層對其進(jìn)行處理,得到特征Fx,cls和Fx,reg;同樣,對于檢測分支,使用相同的方式對特征Fz進(jìn)行處理,得到特征Fz,cls和Fz,reg.進(jìn)一步,在分類分支和回歸分支分別執(zhí)行逐通道的互相關(guān)操作,并通過卷積核大小為1×1的卷積層融合來自不同通道的輸出,具體過程為
(6)
(7)
Acls中每個(gè)點(diǎn)都是一個(gè)2 000維向量,為對應(yīng)每個(gè)錨點(diǎn)的原圖區(qū)域的前景與背景概率.類似地,Areg中每個(gè)點(diǎn)都是一個(gè)4 000維向量(dx, dy, dw, dh),描述錨點(diǎn)與對應(yīng)的實(shí)際標(biāo)注間的距離.
在訓(xùn)練階段中,分類分支采用交叉熵?fù)p失函數(shù).對于回歸分支,首先需要計(jì)算錨框與實(shí)際標(biāo)注間的歸一化距離,計(jì)算公式為
(8)
(9)
(10)
(11)
式中:Ax、Ay、Aw、Ah分別為錨點(diǎn)中心點(diǎn)的坐標(biāo)與長寬;Gx、Gy、Gw、Gh分別為相應(yīng)的實(shí)際標(biāo)注的中心點(diǎn)坐標(biāo)與長寬.
然后,通過平滑L1損失smoothL1來指導(dǎo)錨點(diǎn),拉近其與真實(shí)標(biāo)注間的距離,其數(shù)學(xué)表述為
(12)
式中:x為模型的預(yù)測值;σ為模型的超參數(shù).
回歸分支的損失計(jì)算為
(13)
此外,分類分支采用交叉熵?fù)p失.最后,模型的總損失為
loss=Lcls+λLreg
(14)
式中:Lcls為分類分支的損失;λ為平衡兩部分損失的超參數(shù).
因?yàn)槟繕?biāo)跟蹤需要區(qū)分前景和背景,進(jìn)行準(zhǔn)確的目標(biāo)定位,所以僅使用單層特征是不夠的,基于不同層的特征便于進(jìn)行精確的跟蹤定位和提高模型的魯棒性.
考慮到感受野的差異,殘差密集網(wǎng)絡(luò)中不同層的特征有較大差異.淺層特征主要是預(yù)測目標(biāo)邊界框所要求的外觀信息,例如顏色和紋理等;深層特征主要是語義信息,對于運(yùn)動(dòng)模糊、明顯外觀變形等挑戰(zhàn)性的場景,深度特征可以提高模型魯棒性,避免跟蹤器漂移.
在本文模型中,基于殘差密集網(wǎng)絡(luò)的第2、3和第4殘差密集塊的特征一起進(jìn)行目標(biāo)跟蹤.分別將對應(yīng)的3個(gè)特征圖作為3個(gè)獨(dú)立候選區(qū)域網(wǎng)絡(luò)的輸入,再將3個(gè)候選區(qū)域網(wǎng)絡(luò)的輸出做加權(quán)求和,公式為
(15)
(16)
式中:Acls,l為第l個(gè)殘差密集塊特征對應(yīng)區(qū)域候選網(wǎng)絡(luò)中分類分支的輸出;Areg,l為第l個(gè)殘差密集塊特征對應(yīng)區(qū)域候選網(wǎng)絡(luò)中回歸分支的輸出;αl和βl分別為融合分類分支和回歸分支輸出的權(quán)重.
本文在公開數(shù)據(jù)集OTB100和VOT2016上進(jìn)行實(shí)驗(yàn),以評價(jià)本文模型的有效性.本文模型在Intel(R) Core i7-8700K@ 3.70GHz CPU、NVIDIA GeForce GTX 1080 Ti GPU和Ubuntu 16.04操作系統(tǒng)下,基于PyTorch開源框架實(shí)現(xiàn).
為了更好地將殘差密集網(wǎng)絡(luò)適用于VOT,先基于ImageNet數(shù)據(jù)集[6]對主網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練;然后使用ImageNet VID[6]、COCO[7]、ImageNet DET[6]和YouTube-BB數(shù)據(jù)集[8]訓(xùn)練整個(gè)網(wǎng)絡(luò),以學(xué)習(xí)VOT中對通用目標(biāo)的相似性度量.
類似于SiamRPN[9]提取訓(xùn)練樣本的方法,從以上訓(xùn)練數(shù)據(jù)集中選取幀間間隔小于100幀的圖像對進(jìn)行裁剪和縮放,模板幀圖像的大小為127×127像素,檢測幀圖像的大小為255×255像素.為克服平移不變性對孿生網(wǎng)絡(luò)不能適用深度網(wǎng)絡(luò)的限制,進(jìn)一步處理訓(xùn)練樣本,通過均勻分布的采樣方法將目標(biāo)在中心點(diǎn)附近偏移,偏移范圍為圖像中心±64像素.
基于隨機(jī)梯度下降方式對網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練.整個(gè)訓(xùn)練階段有20個(gè)epoch,對前5個(gè)epoch采用固定的主網(wǎng)絡(luò)參數(shù),基于0.001 0的學(xué)習(xí)率對區(qū)域候選網(wǎng)絡(luò)進(jìn)行訓(xùn)練.后續(xù)的15個(gè)epoch對整個(gè)網(wǎng)絡(luò)進(jìn)行了學(xué)習(xí)率從0.005 0衰減到0.000 5的端到端的訓(xùn)練.
本文比較了本文算法與目前流行的4種實(shí)時(shí)目標(biāo)跟蹤算法,包括SiamRPN[9]、SiamFC[10]、CREST[11]和DCFNet[12].將本文算法與上述4種算法在OTB2015數(shù)據(jù)集中的Biker、Bird1、Bolt、Liquor和Singer2等5個(gè)視頻序列進(jìn)行比較和測試.圖5展示了不同VOT方法在5個(gè)有代表性的幀上的跟蹤結(jié)果.
圖5 本文算法與4種VOT算法在OTB2015的部分定性結(jié)果
如圖5所示,對VOT中遇到的相關(guān)挑戰(zhàn),本文算法大多數(shù)情況下可以較好地跟蹤圖像中的目標(biāo)位置.
1) 視頻幀序列Biker的主要挑戰(zhàn)是快速運(yùn)動(dòng)和平面外旋轉(zhuǎn).當(dāng)目標(biāo)快速旋轉(zhuǎn)時(shí),目標(biāo)的外觀變化很快.實(shí)時(shí)更新的目標(biāo)跟蹤算法CREST[11]在目標(biāo)轉(zhuǎn)身時(shí)發(fā)生更新錯(cuò)誤,導(dǎo)致跟蹤漂移;在目標(biāo)轉(zhuǎn)身時(shí),SiamRPN[9]同樣丟失了跟蹤目標(biāo);在跟蹤過程中,DCOCNet[12]產(chǎn)生了更新錯(cuò)誤,導(dǎo)致跟蹤位置發(fā)生偏差.本文方法利用殘差密集孿生網(wǎng)絡(luò)和卷積注意力機(jī)制,即使目標(biāo)發(fā)生了平面外旋轉(zhuǎn),在整個(gè)視頻幀序列也都能表現(xiàn)良好,達(dá)到較好的目標(biāo)跟蹤精度.
2) 視頻幀序列Bird1的主要挑戰(zhàn)是遮擋和尺度變化,當(dāng)目標(biāo)被遮擋時(shí),容易出現(xiàn)跟蹤漂移,不能很好地預(yù)測目標(biāo)所在的位置.從圖5中的第2行可以看出,其他4種比較方法都發(fā)生了跟蹤漂移.CREST[11]和DCFNet[12]在目標(biāo)跟蹤中在線更新網(wǎng)絡(luò)模型,當(dāng)目標(biāo)被遮擋時(shí),錯(cuò)誤更新了網(wǎng)絡(luò)模型,以至于發(fā)生了目標(biāo)丟失;SiamRPN[9]和SiamFC[10]因?yàn)槠渚W(wǎng)絡(luò)模型相對簡單,所以算法不能很好地應(yīng)對遮擋和尺度變化等挑戰(zhàn),同樣在跟蹤過程中發(fā)生了目標(biāo)丟失.本文方法基于密集殘差網(wǎng)絡(luò)提取獲取對目標(biāo)更具判別力的特征,并采用卷積注意力機(jī)制進(jìn)一步增強(qiáng)了特征中的有用信息,因此,在整個(gè)視頻序列的跟蹤過程中沒有產(chǎn)生跟蹤漂移.
3) 視頻幀序列Bolt和Liquor的主要挑戰(zhàn)是相似語義的干擾.由于SiamRPN[9]和SiamFC[10]采用特征提取能力有限的AlexNet[3]作為主網(wǎng)絡(luò),使得模型不能很好判別同一類別的物體,當(dāng)目標(biāo)周圍有與目標(biāo)非常相似的物體時(shí),會(huì)出現(xiàn)目標(biāo)跟蹤漂移.因?yàn)镃REST[11]和DCFNet[12]在目標(biāo)跟蹤過程中實(shí)時(shí)更新網(wǎng)絡(luò)模型以獲得視頻序列中目標(biāo)持續(xù)的外觀變化,所以這2種方法對于相似語義的干擾在整個(gè)過程中具有較好的跟蹤表現(xiàn).本文方法基于殘差密集網(wǎng)絡(luò)可以提取細(xì)粒度的特征,并且卷積注意力能夠提高模型的類內(nèi)辨別力,因此,在整個(gè)視頻序列的跟蹤過程中,本文方法表現(xiàn)良好.
4) 視頻幀序列Singer2的主要挑戰(zhàn)是背景雜亂.在Singer2的場景中光線昏暗,無法區(qū)分目標(biāo)穿著的衣服和周圍的環(huán)境,背景信息很容易誤導(dǎo)跟蹤.在跟蹤過程中,SiamFC[10]提取的特征不能很好地區(qū)分目標(biāo),在跟蹤過程中發(fā)生了跟蹤漂移;DCFNet[12]對網(wǎng)絡(luò)模型進(jìn)行實(shí)時(shí)更新,當(dāng)受到目標(biāo)周圍背景的干擾時(shí),可能會(huì)錯(cuò)誤更新網(wǎng)絡(luò)模型而丟失目標(biāo).本文方法基于殘差密集網(wǎng)絡(luò)可以提取對目標(biāo)具有更強(qiáng)判別力的特征,將目標(biāo)與背景進(jìn)行區(qū)分,而其余方法則在一定程度上存在目標(biāo)跟蹤漂移問題.
本文分別在OTB2015數(shù)據(jù)集和VOT2016數(shù)據(jù)集上將本文算法與目前比較流行的VOT算法進(jìn)行了定量實(shí)驗(yàn),包括SiamRPN[9]、SiamFC[10]、CREST[11]、DCFNet[12]、ECO-HC[13]、CSR-DCF[14]、SiamRPN++[15]、SiamDW[16]、GradNet[17]和SiamR-CNN[18].
2.3.1 OTB2015數(shù)據(jù)集
OTB2015數(shù)據(jù)集有100個(gè)廣泛使用的跟蹤視頻序列.評估方法是準(zhǔn)確率圖和成功率圖.準(zhǔn)確率圖顯示跟蹤結(jié)果中心位置與目標(biāo)實(shí)際標(biāo)注中心位置之間的距離小于20像素的幀數(shù)百分比.成功率圖顯示當(dāng)閾值在0~1變化時(shí)跟蹤成功幀的比例.成功率圖的曲線下面積(area under curve,AUC)用于對跟蹤算法進(jìn)行排名.圖6展示了本文方法和現(xiàn)有主流跟蹤方法在OTB2015數(shù)據(jù)集上的評估結(jié)果.
圖6 不同跟蹤方法在OTB2015上的成功率和準(zhǔn)確率
1) 本文方法獲得比基于相關(guān)濾波的VOT算法CREST[11]、DCFNet[12]、ECO-HC[13]和CSR-DCF[14]更高的準(zhǔn)確率和成功率.本文方法基于度量學(xué)習(xí)對搜索區(qū)域中的候選圖像與模板圖像進(jìn)行相似度比較,并且具有更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)和大量的訓(xùn)練樣本,因此,本文方法具有比以上算法更優(yōu)的跟蹤性能.
2) 本文方法獲得比基于孿生網(wǎng)絡(luò)的VOT算法SiamRPN[9]、SiamFC[10]、SiamDW[14]和GradNet[17]更高的準(zhǔn)確率和成功率.本文方法將殘差密集孿生網(wǎng)絡(luò)作為主網(wǎng)絡(luò),網(wǎng)絡(luò)層次更深,特征提取能力也更好,因此,本文方法具有比以上4種算法更優(yōu)的跟蹤性能.與SiamR-CNN[18]相比,本文方法的跟蹤精度還存在一定的差距.
3) 本文獲得比基準(zhǔn)算法SiamRPN[9]更高的準(zhǔn)確率和成功率,說明了本文方法的有效性.本文方法的跟蹤性能與SiamRPN++[15]相比仍存在一定差距,主要原因是本文方法的網(wǎng)絡(luò)模型參數(shù)較少,是SiamRPN++[15]的1/2,但本文方法能獲得比SiamRPN++[15]更快的運(yùn)行速度,達(dá)到67幀/s.
2.3.2 VOT2016數(shù)據(jù)集
VOT2016數(shù)據(jù)集包括60個(gè)具有不同挑戰(zhàn)難點(diǎn)的公開視頻序列.與其他VOT方法類似,本文采用VOT競賽的評價(jià)標(biāo)準(zhǔn),即利用準(zhǔn)確率、魯棒性和期望平均重疊率(expected average overlap,EAO)評估本文跟蹤方法.
表2展示了評估結(jié)果.由表可知:1) 本文方法在VOT2016數(shù)據(jù)集上能獲得較高的準(zhǔn)確率和魯棒性,其準(zhǔn)確率和EAO分別是0.61和0.396,僅落后于SiamRPN++[15]算法.2) 本文方法的魯棒性與SiamDW[16]相當(dāng),并列第3位.本文方法與基準(zhǔn)方法SiamRPN[9]相比,在3個(gè)衡量指標(biāo)上都有所提高.
表2 不同跟蹤方法在VOT2016數(shù)據(jù)集上的評估結(jié)果
1) 本文提出一個(gè)基于殘差密集孿生的VOT方法,能有效地處理VOT問題. 本文方法設(shè)計(jì)了參數(shù)共享的殘差密集孿生網(wǎng)絡(luò),能提取更細(xì)粒度的、不同層次的特征,解決了以往基于孿生網(wǎng)絡(luò)的VOT方法特征提取能力不足,無法很好應(yīng)對目標(biāo)表觀變形、平面外旋轉(zhuǎn)等挑戰(zhàn)的問題.
2) 針對以往基于孿生網(wǎng)絡(luò)的VOT方法沒有關(guān)注感興趣區(qū)域的問題,本文在殘差密集網(wǎng)絡(luò)的殘差密集塊中設(shè)計(jì)了一種卷積注意力,可以提高模型對目標(biāo)外觀變化的響應(yīng)能力. 為了進(jìn)一步提高模型的跟蹤精度,將殘差密集網(wǎng)絡(luò)的不同層特征進(jìn)行融合,共同用于目標(biāo)跟蹤. 實(shí)驗(yàn)結(jié)果表明,本文方法能有效地解決目標(biāo)遮擋、目標(biāo)表觀變化過大等問題,較好地實(shí)現(xiàn)目標(biāo)的跟蹤.