陳詩欣 陳子峰 李瑞珠
摘要:由于現(xiàn)有跟蹤算法僅依據(jù)初始幀模板進行跟蹤,跟蹤過程中模板不更新導(dǎo)致跟蹤漂移的問題。文章提出一種融合多模板與位置增強模型的目標跟蹤算法,構(gòu)建UPRnet神經(jīng)網(wǎng)絡(luò)對目標各階段外觀特征模板做融合,并借助相關(guān)濾波器DCF對目標位置作增強,從而實現(xiàn)對當前幀中目標的更準確跟蹤。在標準數(shù)據(jù)集上進行的實驗結(jié)果表明,提出的方法在運動目標外觀發(fā)生變化時,相比于其他算法能夠取得更優(yōu)異的跟蹤性能。
關(guān)鍵詞:目標跟蹤;孿生網(wǎng)絡(luò);在線更新;模板融合;位置增強
中圖分類號:TP18? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)27-0021-03
開放科學(xué)(資源服務(wù))標識碼(OSID):
視覺目標跟蹤作為計算機視覺的重要部分,被廣泛應(yīng)用于自動駕駛、智能交通監(jiān)控、人機交互等領(lǐng)域。在跟蹤過程中,運動目標會發(fā)生位姿變化、背景變化、被遮擋等情形,時常導(dǎo)致跟蹤丟失。雖然近年來目標跟蹤方法獲得突破性進展,但仍未有成熟穩(wěn)定、魯棒性強的目標跟蹤器。
目標跟蹤算法[1-3]一般由特征提取、搜索策略和模型觀測等模塊組成。傳統(tǒng)的跟蹤算法在特征提取階段主要采取方向梯度直方圖、顏色特征提取等方法,但這些方法提取到的特征信息不完整,且存在噪聲,容易導(dǎo)致跟蹤準確度降低。
近幾年,卷積神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于視覺目標跟蹤算法。Bertinetto等[4]提出了一種基于全卷積孿生網(wǎng)絡(luò)跟蹤算法(Fully-Convolutional Siamese Networks, SiamFC)。該算法通過相關(guān)操作計算候選區(qū)域與初始幀模板區(qū)域的相似度來預(yù)測目標在當前幀的位置區(qū)域。SiamFC在跟蹤過程中不對網(wǎng)絡(luò)參數(shù)進行更新,因此其實時性較高。Li[5]等人基于SiamFC的基礎(chǔ)上提出了SiamRPN算法,通過加入?yún)^(qū)域生成網(wǎng)絡(luò)(Region Proposal Network,RPN)模塊來控制候選區(qū)域的尺度大小,從而達到更高的跟蹤精度。雖然這些跟蹤方法取得了不錯的效果,但由于使用固定不變的模板進行跟蹤,在目標發(fā)生旋轉(zhuǎn)、形變和運動模糊等外觀變化時會出現(xiàn)模板匹配出錯情況,從而導(dǎo)致跟蹤失敗。
本文針對SiamRPN算法在跟蹤過程中模板更新問題,提出了一種融合上下文時空信息的目標跟蹤算法。該算法在特征級上建立模板庫,存儲目標不同形態(tài)下的外觀信息,并融合上下文目標的時空信息得到更準確的目標位置。在標準數(shù)據(jù)集上進行的實驗結(jié)果表明,提出的方法在運動目標外觀發(fā)生變化時,相比于其他算法能夠取得更優(yōu)異的跟蹤性能。
1 多模板更新與位置增強網(wǎng)絡(luò)UPRnet構(gòu)建
構(gòu)建UPRnet(Update and Position Reinforcement Net)神經(jīng)網(wǎng)絡(luò)對目標各階段外觀特征模板做融合,并借助相關(guān)濾波器DCF對目標位置作增強,從而實現(xiàn)對當前幀中目標的更準確跟蹤。
1.1目標外觀特征增強模型
本文提出一個對目標外觀特征模板信息進行在線更新方法,該更新方法可使用公式(2)進行描述:
[Ti=?TGT0,Ti-1,Ti]? ? ? ? ? ? ? ? ? ? ? ? (2)
式中,函數(shù)[?]由一個卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn),稱之為Update-Reinforcement-Net,簡稱URnet;[TGT0]為追蹤器初始化時設(shè)定的基準目標外觀特征;[Ti-1]為前i-1幀的目標外觀融合特征,其中結(jié)合了自起始幀至第i-1幀中目標所有的外觀特征;[Ti]為第i幀目標外觀特征,由追蹤器預(yù)測目標在第i幀位置,并對該位置區(qū)域范圍內(nèi)的彩色圖像進行特征提取得到。該方法通過融合當前幀目標外觀特征[Ti]的信息到前一時刻外觀融合特征[Ti-1]中,實現(xiàn)對目標外觀特征模板的更新。
URnet整體結(jié)構(gòu)如圖1所示,在更新上一時刻的融合模板[Ti-1]時,不但會響應(yīng)目標在當前幀的外觀特征[Ti]與融合外觀[Ti-1]的不同而產(chǎn)生的更新請求,而且在每一次刷新融合外觀模板[Ti-1]時,也充分考慮到基準外觀特征[TGT0]信息,因此模板所包含的信息既兼顧了可靠性,也具有更強的魯棒性。
1.2 目標位置增強模型
雖然 URnet輸出一個充分表達的目標外觀特征,但是它有時對于一些極為相似的目標仍然不能做到很好的區(qū)別,導(dǎo)致跟蹤過程中魯棒性有所下降。針對提升目標定位魯棒性這一需求,判別相關(guān)濾波器DCF(Discrimination Correlation Filters)的性能表現(xiàn)出色。該方法以幾何約束模型的方式來表示目標, 有高效的算法[6-8]已被開發(fā)去適應(yīng)目標的特征差異變化,當目標外觀出現(xiàn)一定形變時,仍然能夠可靠地跟蹤目標。
因此,筆者采用了深度DCF公式[9]在本目標位置增強模型中,并稱該模型為 Position-Reinforcement-Net,簡稱為PRnet,其結(jié)構(gòu)如圖2所示。為了適配前述公式,對從骨干網(wǎng)絡(luò)輸出的特征圖使用1×1卷積核的卷積層降維至64通道。降維后的特征圖與64通道的DCF做互相關(guān)操作經(jīng)由PeLU非線性激活層激活得到目標位置響應(yīng)圖,在相關(guān)操作所得的響應(yīng)圖中,具有最大數(shù)值區(qū)域?qū)⒈灰暈槟繕俗钣锌赡艽嬖诘膮^(qū)域。
隨后,該響應(yīng)圖與搜索區(qū)域的特征圖作疊加操作并由1×1卷積核完成對搜索區(qū)域的特征增強。前述的DCF濾波器由一個極高效的反向傳播公式進行優(yōu)化。
2 融合UPRnet的SiamURN跟蹤器
本文使用Update-Reinforcement-Net與Position-Reinforcement-Net 組成UPPRnet,與SiamRPN++跟蹤器相結(jié)合成SiamUPRN跟蹤器,能夠取得更好的跟蹤效果。
SiamUPRN跟蹤器網(wǎng)絡(luò)整體結(jié)構(gòu)如圖3所示,通過引入UPRnet實時對目標模板進行更新; 同時PRnet提升目標位置分辨效果,達到總體上跟蹤效果的提升。
由于SiamUPRN總計有3個SiameseRPN模塊,每一個模塊對來自骨干網(wǎng)絡(luò)不同深度的外觀特征進行處理,因此對每一個SiameseRPN模塊均前置設(shè)置一對UPRnet更新器,來對目標外觀特征進行特征融合以及對搜索區(qū)域目標位置進行增強。
每對UPRnet模塊中的張量流圖如圖3右所示,其中[Ti]每一次輸出后均會被保存下來,并作為下一次更新操作中的[Ti-1]輸入;特別地,在跟蹤器進行初始化時,即跟蹤過程中的第一幀,會先使用骨干網(wǎng)絡(luò)處理目標基準信息,并保存為[TGT0],同時[Ti],[Ti-1]與[TGT0]三者保持一致。
3? 實驗分析
為了驗證本文提出的算法性能,使用常用數(shù)據(jù)集VOT2018[10]和LaSOT[11]對算法性能進行驗證,參與對比算法為開源代碼或根據(jù)原文復(fù)現(xiàn)得到,并在同一硬件平臺上進行性能對比。
本文在兩個標志性的跟蹤評價基準上驗證FusionNet的訓(xùn)練結(jié)果,分別是:VOT2018[10]和LaSOT[11]。
3.1 跟蹤指標以及跟蹤速度
在本節(jié)中,筆者評估SiamUPRN跟蹤器的綜合性能,并與其他跟蹤器作對比,包括SiamRPN++,以及同時期的SOTA跟蹤器,包括DRT [12]、DeepSTRCF [13]、LSART [14]、R_MCPF [15]、SRCT [16]、CSRDCF [17]、LADCF [18]、MFT [19]、UPDT [20]和ATOM [21]等。
圖4中,豎軸為VOT2018 的評判基準EAO;橫軸為跟蹤速度,在對數(shù)坐標軸尺度上,是跟蹤器一秒能處理的幀數(shù)(Frames Per Second (FPS)),該指標由跟蹤器運行在一塊NVIDIA TITIAN X GPU上測得。
筆者通過將SiamUPRN與SiamRPN++及其他目前高水平的方法作比較,得出結(jié)果是URNet確實為SiamRPN++跟蹤器帶來性能提升,且未影響其跟蹤的實時性。
對于性能,在圖5中,對跟蹤器性能作出了降序排序,可以看出本文提出的方法讓SiamRPN++跟蹤器性能表現(xiàn)更為出色。具體數(shù)值上,對比SiamRPN++跟蹤器與集成了UPRNet的SiamUPRN跟蹤器在EAO上的差別,后者相對前者取得了5.26%的性能提升。
對于實時性,觀察圖4,可以看出本文提出的方法并未影響SiamRPN++跟蹤器的跟蹤實時性,SiamUPRN在測試時運行幀數(shù)為31 FPS。
3.2 LaSOT數(shù)據(jù)集測試評估
本文也在LaSOT數(shù)據(jù)集上測試了本文提出的模型,因其中包含長期序列。而在長期跟蹤中,更新器的性能對于跟蹤器表現(xiàn)來說是極其重要的,因為在跟蹤過程中,目標外觀可能會出現(xiàn)突然變化,并且目標外觀也可能與最開始跟蹤的時候不同。
在圖6中,依據(jù)官方的算法,驗證了多個跟蹤器的性能,并展示了性能表現(xiàn)前10的跟蹤器,包括本文提出的SiamUPRN以及SiamRPN++[9]、MDNet[22]、VITAL [23]、 Struct-Siam [24]、DSiam[25]、 SINT [26]、STRCF [13]、ECO [7]和SiamFC [4]。通過圖中數(shù)據(jù)可以看出,UPRNet增強了SiamRPN++的跟蹤能力,在跟蹤準確度與精確度上對比SiamRPN++均有一定的增強。同時在該數(shù)據(jù)集上,SiamUPRN超越了所有其余參與測試的跟蹤器。這進一步驗證了SiamUPRN的先進性,讓目標跟蹤定位更準確。
4 結(jié)論
針對沒有使用任何更新策略更新其目標模板的跟蹤器,以深度學(xué)習的方式把更新步驟作為一個優(yōu)化問題。設(shè)計UPRnet網(wǎng)絡(luò),對目標外觀模板以及位置做增強。將UPRnet網(wǎng)絡(luò)融合到孿生網(wǎng)絡(luò)中形成SiamUPRN跟蹤方法,在兩個數(shù)據(jù)集VOT2018 和LaSOT上均顯示出優(yōu)異的跟蹤性能。
參考文獻:
[1] Liu L W,Xing J L,Ai H Z,et al.Hand posture recognition using finger geometric feature[C]//Proceedings of the 21st International Conference on Pattern Recognition (ICPR2012).Tsukuba,Japan.IEEE,2012:565-568.
[2] Emami A, Dadgostar F, Bigdeli A,et al. Role of spatiotemporal oriented energy features for robust visual tracking in video surveillance. In 2012 IEEE Ninth International Conference on Advanced Video and Signal-Based Surveillance. IEEE, 2012: 349-354.
[3] Renoust B,Le D D,Satoh S.Visual analytics of political networks from face-tracking of news video[J].IEEE Transactions on Multimedia,2016,18(11):2184-2195.
[4] Bertinetto L,Valmadre J,Henriques J F,et al.Fully-convolutional Siamese networks for object tracking[C]//Computer Vision – ECCV 2016 Workshops,2016:850-865.
[5] Li B,Yan J J,Wu W,et al.High performance visual tracking with Siamese region proposal network[J].2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition,2018:8971-8980.
[6] Bolme D S,Beveridge J R,Draper B A,et al.Visual object tracking using adaptive correlation filters[J].2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2010:2544-2550.
[7] Danelljan M,Bhat G,Khan F S,et al.ECO:efficient convolution operators for tracking[J].2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR),2017:6931-6939.
[8] Guo Q,F(xiàn)eng W,Zhou C,et al.Learning dynamic Siamese network for visual object tracking[J].2017 IEEE International Conference on Computer Vision (ICCV),2017:1781-1789.
[9] Li B,Wu W,Wang Q,et al.SiamRPN++:evolution of Siamese visual tracking with very deep networks[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach,CA,USA.IEEE,2019:4277-4286.
[10] Kristan M, Pflugfelder R, Leonardis A, et al.The Visual Object Tracking VOT2014 Challenge Results[C]// ECCV, 2014.
[11]? Fan H, Lin L, Yang F, et al. Lasot: A high-quality benchmark for large-scale single object tracking[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2019: 5374-5383.
[12] Yan.SiamRPN++: Evolution of Siamese visual tracking with very deep networks[EB\OL].[2021-03-15]. Available: http://arxiv.org/abs/1812.11703.
[13] Fan H,Ling H B.Siamese cascaded region proposal networks for real-time visual tracking[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Long Beach,CA,USA.IEEE,2019:7944-7953.
[14] Wu Y,Lim J,Yang M H. Online object tracking: a benchmark[C]//in Proc. of IEEE Conference on Computer Vision and Pattern Recognition,2013:241-245.
[15] Sun C,Wang D,Lu H C,et al.Correlation tracking via joint discrimination and reliability learning[J], In CVPR, 2018.
[16] Li F,Tian C,Zuo W,et al.Learning spatial-temporal regularized correlation filters for visual tracking[J]. In CVPR, 2018
[17] Sun C,Lu H C,Yang M H.Learning spatial-aware regressions for visual tracking[J]. In CVPR, 2018.
(下轉(zhuǎn)第32頁)
(上接第23頁)
[18] Tianzhu Zhang, Changsheng Xu, Ming-Hsuan Yang.Learning Multi-task Correlation Particle Filters for Visual Tracking[J].IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI), 2019,41(2): 365-378.
[19] Lee H,Kim D.Salient region-based online object tracking[C]//2018 IEEE Winter Conference on Applications of Computer Vision (WACV).March 12-15,2018.Lake Tahoe,NV.IEEE,2018.
[20] Lukezic A,Vojir T,Zajc L C,et al.Discriminative correlation filter with channel and spatial reliability[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).July 21-26,2017.Honolulu,HI.IEEE,2017.
[21] Tianyang Xu, Zhenhua Feng, Xiao-Jun Wu.Adaptive Channel Selection for Robust Visual Object Tracking with Discriminative Correlation Filters[J].International Journal of Computer Vision, 2021,129(5):1359-1375.
[22] Matej K, Ales L, Jiri M, et al. The sixth visual object tracking vot 2018 challenge results. ECCV workshop,2018:2-8.
[23] Bhat G,Johnander J,Danelljan M,et al.Unveiling the power of deep tracking[J]. In ECCV, 2018.
[24] Danelljan M,Bhat G,Khan F,et al.ATOM:accurate tracking by overlap maximization[J].In CVPR,2018
[25] Nam H,Han B.Learning multi-domain convolutional neural networks for visual tracking[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition.Las Vegas,NV,USA.IEEE,2016:4293-4302.
[26] Song Y B,Ma C,Wu X H,et al.VITAL:VIsual tracking via adversarial learning[J]. In CVPR, 2018.
【通聯(lián)編輯:唐一東】