陳志良,石繁槐
同濟大學電子與信息工程學院,上海 201804
視覺目標跟蹤(visual object tracking,VOT)在機器人(Held等,2016)、視覺監(jiān)控(Xing等,2010)、醫(yī)學影像分析(Liu等,2012)、人機交互(Zhang和Vela,2015)和自動駕駛(Lee和Hwang,2015)等許多計算機視覺領域都有廣泛應用。給定一個視頻序列,目標跟蹤的核心任務是對每一幀圖像魯棒地估計目標的運動狀態(tài)(位置、尺寸等),但是對于計算機來說,實現(xiàn)準確的目標跟蹤非常困難,主要挑戰(zhàn)包括旋轉(zhuǎn)、遮擋、形變、尺度變換和背景干擾等。
基于判別相關濾波器(discriminative correlation filter,DCF)的目標跟蹤方法在精度和魯棒性方面較傳統(tǒng)的跟蹤算法有了很大提高。Bolme等人(2010)通過最小化傅里葉域下的期望輸出與實際輸出之間的平方誤差之和,提出了MOSSE(minimum output sum of squared error)跟蹤算法,是最早利用相關濾波器研究跟蹤的工作?;贛OSSE,Henriques等人(2012)提出核循環(huán)結構(circulant structure with kernal,CSK)跟蹤算法,利用目標外觀的循環(huán)結構構建大量樣本,并且用核正則化最小二乘法訓練相關濾波器,實現(xiàn)了更精確的目標定位。Danelljan等人(2015)提出空間正則化判別相關濾波器(spatially regularized discriminative correlation filters,SRDCF)算法,解決了訓練樣本周期性假設引起的邊界效應,在學習階段引入空間正則化分量,并且根據(jù)空間位置對相關濾波器系數(shù)進行懲罰。為了避免通過窮舉尺度空間搜索估計目標大小,DSST(discriminative scale space tracking)跟蹤算法(Danelljan等,2017b)通過學習相關濾波器分別估計平移和尺度,提出了一種新的尺度自適應跟蹤方法。ECO(efficient convolution operators)算法(Danelljan等,2017a)重新優(yōu)化了DCF框架的核心公式,引入因式分解的卷積操作和生成樣本空間模型,大幅減少了參數(shù)量,解決了DCF框架過擬合和計算復雜性過高的問題,提高了ECO算法的速度和精度。
近年來,基于深度學習技術,特別是基于孿生網(wǎng)絡的目標跟蹤算法(Zhu等,2018;Li等,2019a)引起了廣泛關注。基于孿生網(wǎng)絡的目標跟蹤算法將視覺目標跟蹤問題轉(zhuǎn)化為學習模板圖像與候選搜索區(qū)域圖像之間的通用相似度得分圖,在主流的目標跟蹤公開數(shù)據(jù)集中取得了不錯的性能,運行速度也滿足實時性要求。然而,絕大多數(shù)基于孿生網(wǎng)絡的跟蹤算法都有一個很大的局限性,即當跟蹤目標被遮擋或出現(xiàn)較大外觀變化時,跟蹤性能通常會顯著下降。針對現(xiàn)有基于孿生網(wǎng)絡的跟蹤算法存在的問題,本文提出一種高效、魯棒的基于孿生網(wǎng)絡的雙模板融合目標跟蹤算法(siamese tracker with double template fusion,Siam-DTF),改善當前孿生網(wǎng)絡跟蹤算法在目標遮擋和較大外觀變化情況下跟蹤性能下降問題,在OTB2015(object tracking benchmark 2015)(Wu等,2015)、VOT2016(visual object tracking 2016)(Kristan等,2016)和VOT2018(Kristan等,2018)3個大型目標跟蹤數(shù)據(jù)集上均獲得了最先進的跟蹤結果,運行速度超過實時,可達47 幀/s。本文工作的主要貢獻有:1)對當前基于孿生網(wǎng)絡的跟蹤算法在目標遮擋和較大外觀變化情況下跟蹤效果下降的原因進行分析,發(fā)現(xiàn)其核心原因是單一固定的初始模板。2)為了克服單一模板的不足,提出一種新穎有效的雙模板機制,提高了基于孿生網(wǎng)絡的跟蹤算法的性能。3)提出一個外觀模板搜索模塊(appearance template search module,ATSM),在跟蹤過程中為目標對象獲取合適、高質(zhì)量的外觀模板,同時設計了有效的融合策略,從而獲得更加魯棒的跟蹤結果。
近年來,視覺目標跟蹤得到了廣泛研究,提出了許多提高跟蹤性能的方法(Smeulders等,2014;Henriques等,2015;Li等,2018a;Bhat等,2019;Wang等,2018,2019;Danelljan等,2016)。
基于孿生網(wǎng)絡的跟蹤算法在精確性和效率上取得了不錯的平衡。與傳統(tǒng)的基于相關濾波的跟蹤算法不同,基于孿生網(wǎng)絡的目標跟蹤算法將視覺跟蹤描述為一個互相關問題,可以更好地利用深度網(wǎng)絡支持端到端學習的優(yōu)點。典型的孿生網(wǎng)絡由兩個具有共享參數(shù)的分支組成,即學習目標特征表示的模板分支和代表當前搜索區(qū)域的搜索分支。模板通常是從視頻幀序列中的第1幀的標注框中得到,記為z,后續(xù)每一幀的搜索區(qū)域記為x。孿生網(wǎng)絡以z和x兩個分支作為輸入,用一個離線訓練好的共享權值的主干網(wǎng)絡φ提取兩個分支的特征,主干網(wǎng)絡的參數(shù)為θ。對模板分支和搜索分支的特征進行卷積運算,可以得到當前幀的跟蹤響應圖,響應圖上的數(shù)值代表了目標出現(xiàn)在每個位置的得分大小。響應圖計算為
fθ(z,x)=φθ(z)*φθ(x)+b
(1)
式中,b表示模擬相似度偏移的偏差項。式(1)相當于模板z在圖像x上的執(zhí)行窮盡搜索,得到每個位置的相似度得分。
一般來說,孿生網(wǎng)絡通過從訓練視頻中搜集大量的圖像對(z,x)和相應的真實標簽y進行離線訓練。訓練過程中,主干網(wǎng)絡的參數(shù)θ得到不斷優(yōu)化。為了使響應圖fθ(z,x)中的最大值與目標位置相匹配,通常在訓練集中最小化邏輯損失l,即
(2)
在上述理論基礎上,為了提高跟蹤性能,對基于孿生網(wǎng)絡的跟蹤算法提出了許多改進,通常使用經(jīng)典的相對較淺的AlexNet(Krizhevsky等,2017)作為框架的主干網(wǎng)絡。SiameseFC(fully-convolutional siamese networks)跟蹤算法(Bertinetto等,2016)以圖像對作為輸入,一個圖像對包括一幅模板圖像和一幅候選搜索區(qū)域圖像,然而,SiameseFC算法無法準確估計目標尺度,只能通過多尺度搜索處理尺度變化。SiamRPN(siamese region proposal network)跟蹤算法(Li等,2018a)通過在孿生網(wǎng)絡之后引入?yún)^(qū)域候選網(wǎng)絡(region proposal network,RPN)解決這一問題。RPN網(wǎng)絡最初用于目標檢測(Ren等,2017;Liu等,2016),可以進行聯(lián)合分類和回歸,并且支持端到端離線訓練。DaSiamRPN(distractor-aware siamese region proposal network)跟蹤算法(Zhu等,2018)增加了一個干擾物感知模塊,并在在線跟蹤過程中顯式地抑制干擾物的得分。此外,Li等人(2019a)提出SiamRPN++ 跟蹤算法,采用一種有效的采樣策略打破了空間不變性的限制,將最初放置在中心的目標移動不同的像素,使訓練樣本中目標的空間分布更加均衡,消除了中心偏差的影響,充分利用深層網(wǎng)絡的表征能力,首次在更深層的ResNet50(deep residual networks)(He等,2016)主干網(wǎng)絡上成功訓練出高效的孿生網(wǎng)絡。HASiam(hierarchical attention siamese network)算法(Shen等,2020)構造了一個層次化的注意力孿生網(wǎng)絡,提高了跟蹤性能。上述基于孿生網(wǎng)絡的跟蹤算法在速度和精度方面都取得了優(yōu)異的性能。
深層神經(jīng)網(wǎng)絡中不同層次的特征具有不同的代表能力,淺層特征包含更多細節(jié)的空間信息,高層特征包含更多抽象的語義線索。許多跟蹤算法已經(jīng)證明,使用特征融合可以提高視覺跟蹤算法的魯棒性。C-RPN(siamese cascaded region proposal networks)算法(Fan和Ling,2019)使用一種多階段的跟蹤框架,通過級聯(lián)一系列RPN,將高層特征融合到低級RPN中。SiamRPN++算法(Li等,2019a)從ResNet50最后3個殘差塊中提取多級特征,然后對RPN輸出采用加權求和,這種特征的分層聚合獲得了可觀的收益。
隨著深度學習和大規(guī)模視覺目標跟蹤數(shù)據(jù)集的發(fā)展,跟蹤性能有了很大提高。雖然當前基于孿生網(wǎng)絡的跟蹤算法已經(jīng)可以應付許多復雜的挑戰(zhàn),但仍有一些困難的情況會導致跟蹤失敗。
為了進一步提高基于孿生網(wǎng)絡的跟蹤算法的魯棒性,本文分析了當前孿生網(wǎng)絡跟蹤框架的內(nèi)在機制,發(fā)現(xiàn)性能下降的原因在于使用了單一固定的初始模板。在當前的孿生網(wǎng)絡跟蹤框架下,算法通常有初始模板z和搜索區(qū)域x兩個輸入分支。式(1)表明,孿生網(wǎng)絡跟蹤相當于在給定模板z的前提下在當前幀x中找到與模板z最相似的位置。圖1展示了當前孿生網(wǎng)絡跟蹤框架下單一固定模板的限制,圖1各子圖中左上角數(shù)字表示圖像處于序列的第幾幀,綠框為真實標注。在整個跟蹤過程中,飛行的鳥先后經(jīng)歷了云層遮擋和較大的外觀變化。而現(xiàn)有的基于孿生網(wǎng)絡的跟蹤算法只使用第1幀的標注框作為模板,在面對上述復雜情況時的跟蹤性能自然會不可避免地下降。單一固定的初始模板無法很好地應對目標出現(xiàn)的各種復雜變化,同時也限制了模型對于跟蹤歷史幀的深層特征的充分利用。
圖1 單一固定模板的局限性Fig.1 Limitation of the single fixed template
為了克服上述限制,提高基于孿生網(wǎng)絡的跟蹤算法的魯棒性,本文提出了一種新的雙模板機制。除了使用第1幀的標注框作為初始模板外,增加1個外觀模板分支,通過外觀模板搜索模塊,在跟蹤過程中為目標獲取合適、高質(zhì)量的外觀模板。與現(xiàn)有基于孿生網(wǎng)絡的跟蹤算法一樣,初始模板從第1幀的標注框獲取并且在整個跟蹤過程中固定不變。而外觀模板則是根據(jù)歷史幀的跟蹤結果得到的,可以靈活調(diào)整,能適應目標物體的復雜外觀變化。在雙模板機制下,初始模板與外觀模板相結合,二者起到互補的作用。最后,通過精心設計的融合模塊可以充分利用雙模板,提高了跟蹤算法的魯棒性。
如圖2所示,本文提出的Siam-DTF算法框架由初始模板z、外觀模板za和搜索區(qū)域x共3個分支組成,φ(x)表示特征提取。虛線區(qū)域是當前主流的基于孿生網(wǎng)絡的跟蹤算法框架,只使用單一固定的初始模板。響應圖由式(1)計算得到。圖2底部是本文添加的外觀模板分支,通過外觀模板搜索模塊可以獲得與當前搜索區(qū)域x最對應的外觀模板za,然后通過計算得到更精確的響應圖,具體計算為
圖2 本文提出的Siam-DTF算法框架Fig.2 Illustration of our proposed Siam-DTF framework
fθ(za,x)=φθ(za)*φθ(x)+b
(3)
式中,φθ和b的含義與式(1)相同。
值得注意的是,本文提出的雙模板機制同時利用了長期和短期記憶信息。初始模板z作為目標對象的真實標注,包含了對目標的長期記憶,而根據(jù)歷史幀獲得的外觀模板za則包含更多的短期記憶。在整個在線跟蹤過程中,本文算法融合了初始模板z和外觀模板za的輸出,優(yōu)化了最終的跟蹤結果,大幅提高了基于孿生網(wǎng)絡的跟蹤算法的魯棒性。
模板的選擇是基于孿生網(wǎng)絡的跟蹤算法中的一個關鍵部分。好的模板可以產(chǎn)生準確穩(wěn)定的結果,而不合適的模板則會嚴重降低跟蹤算法的性能。本文提出的外觀模板搜索模塊的目的在于從歷史幀中獲得與當前搜索區(qū)域x最對應的外觀模板za。
跟蹤響應圖的置信度得分表示模板與搜索區(qū)域在各位置的相似程度。考慮到相鄰幀之間的圖像內(nèi)容差異很小,本文提出的外觀模板搜索模塊從具有最高置信度得分的歷史幀中裁剪出一個新的最近模板z′,表示為
(4)
圖3 外觀模板搜索模塊Fig.3 Illustration of the proposed appearance template search module
在大部分的遮擋、模糊或相似物干擾場景下,本文都能找到這樣合適的z′作為外觀模板。但是在少部分場景下,利用置信度得分裁剪出的圖像塊z′本身可能與當前目標圖像外觀不太一致,或者有模糊、位置誤差等,此時低質(zhì)量的z′會對跟蹤結果造成較大偏差,導致后續(xù)幀出現(xiàn)跟蹤漂移。為了過濾掉這些低質(zhì)量的模板,本文在外觀模板上添加了置信度得分和回歸框交并比(intersection-of-union,IoU)兩個約束項,大幅提高了外觀模板的質(zhì)量。對于低質(zhì)量的模板本文直接丟棄,采用穩(wěn)妥可靠的初始模板,從而防止對跟蹤結果造成負面影響。最終的外觀模板za表示為
(5)
理論上可以在每一幀都獲取新的外觀模板,但實驗分析和常識表明沒有必要每一幀都激活雙模板機制。圖4顯示了SiamRPN++跟蹤算法在OTB2015數(shù)據(jù)集basketball序列上的置信度得分變化??梢钥吹剑谛蛄星懊娌糠值慕^大多數(shù)幀中,跟蹤算法的置信度得分非常高(大多高于0.97)。通過分析每一幀圖像的內(nèi)容,可以發(fā)現(xiàn)跟蹤置信度得分的急劇下降通常意味著嚴峻的挑戰(zhàn)。例如,圖4中的點A和點B分別出現(xiàn)了遮擋、較大外觀變化和干擾物??傊?,跟蹤算法的置信度得分變化很大程度上反映了當前幀的跟蹤質(zhì)量。
圖4 SiamRPN++跟蹤算法在OTB2015數(shù)據(jù)集basketball序列上的置信度得分變化Fig.4 The confidence change of SiamRPN++ tracker on sequence basketball in OTB2015 dataset
在上述分析啟發(fā)下,本文引入一種自適應策略確定是否執(zhí)行外觀模板搜索模塊獲得外觀模板。具體地說,在當前幀的最大置信度得分以一定閾值m低于歷史N幀的平均置信度得分時,本文算法開始啟動外觀模板搜索模塊并通過式(5)獲取外觀模板。換句話說,這個稀疏更新機制保證本文算法在初始模板與當前幀不匹配時獲取適當?shù)耐庥^模板。
為了充分發(fā)揮雙模板機制的優(yōu)勢,在這兩個分支后面設計了一個融合模塊,分別使用響應圖融合和特征融合兩種不同的融合方法組合初始模板和外觀模板分支。
1)響應圖融合。最直接、簡單和有效的方法是融合初始模板分支和外觀模板分支的輸出響應圖。具體方法為根據(jù)式(1)和式(3)分別獲得兩個分支對應的響應圖,然后直接在響應圖上采用加權和,即
s=α·fθ(z,x)+(1-α)·fθ(za,x)
(6)
式中,s是最終融合后的響應圖,α∈[0,1]表示響應圖融合時的權重系數(shù)。通常,參數(shù)α表示初始模板與當前搜索區(qū)域的相似程度。α越小,初始模板與當前搜索區(qū)域的相似程度越低。如果α=1,則式(6)退化為原來的式(1),意味著只使用初始模板。
響應圖融合策略兼顧了初始模板和外觀模板各自的優(yōu)點,有效提高了視覺跟蹤算法的魯棒性。
2)特征融合。已經(jīng)有許多研究表明(Li等,2019a;Fan和Ling,2019),使用特征融合可以提高視覺跟蹤算法的魯棒性。淺層特征包含更多細節(jié)的空間信息,而高層特征包含更多抽象的語義線索。由于這兩個分支具有相同的空間分辨率,可以先融合初始模板和外觀模板的特征,然后利用融合后的模板特征和搜索區(qū)域特征計算最終的響應圖。具體為
(7)
式中,s是最終的響應圖,β∈[0,1]表示特征融合時的權重系數(shù)。β越大,則特征融合時初始模板所占的權重越大,反之外觀模板占的權重越大。
對以上兩種融合方法均進行了測試,實驗結果表明,直接使用響應圖融合即可獲得明顯的性能提升,在響應圖融合的基礎上添加特征融合后性能可以進一步得到提升。提出的Siam-DTF跟蹤算法的整體流程如下:
輸入:視頻序列f1,f2,…,fL;初始目標狀態(tài)s1。
輸出:目標在后續(xù)第i幀中的狀態(tài)si。
1)根據(jù)前一幀的跟蹤結果si-1獲取當前幀的搜索區(qū)域xi。
2)開始跟蹤:使用式(1)計算由初始模板z生成的響應圖fθ(z,x)。
4)使用融合模塊,通過式(6)和式(7)計算當前幀的跟蹤結果si。
本文提出的Siam-DTF算法使用共享權值的主干網(wǎng)絡提取各分支的特征,可以省去額外的離線訓練階段,直接使用已有的孿生網(wǎng)絡模型。因此,本文提出的Siam-DTF方法可以很容易地應用在任何基于孿生網(wǎng)絡的跟蹤算法上。在后續(xù)實驗中,本文將該方法應用到SiamRPN++跟蹤算法上。
為了驗證Siam-DTF跟蹤方法的性能,本文在OTB2015(Wu等,2015)、VOT2016(Kristan等,2016)和VOT2018(Kristan等,2018)3個大型跟蹤數(shù)據(jù)集上進行實驗。跟蹤算法遵循與SiamRPN++(Li等,2019a)相同的配置過程,并且在所有實驗中使用統(tǒng)一、公開的評估標準。
本文提出的Siam-DTF方法基于Python3.7和PyTorch 0.4.1實現(xiàn),硬件GPU為單張GeForce GTX 2080 Ti 顯卡。初始模板的輸入尺寸為127 × 127像素,搜索區(qū)域尺寸為255 × 255像素。外觀模板搜索模塊(ATSM)和融合模塊的參數(shù)N、m、u、v和α根據(jù)經(jīng)驗分別設置為7、0.15、0.6、0.15和0.75。值得注意的是,對于同一數(shù)據(jù)集中的所有視頻序列,所有的超參數(shù)設置都固定不變。
本文提出的Siam-DTF方法高效,主要有兩個原因。首先,只有在當前幀響應圖的置信度得分滿足一定條件時,外觀模板搜索模塊(ATSM)才會激活,在大部分簡單場景下不會啟動。因此這種稀疏觸發(fā)的策略只帶來很小的計算量,很好地在速度和精度之間保持了平衡。其次,大部分額外增加的計算量來自于外觀模板特征φθ(za)的計算。由于za是從歷史幀xk中裁剪出來的,歷史幀xk的特征φθ(xk)已經(jīng)計算過,因此可以隱式地對φθ(xk)進行線性變換獲得外觀模板的特征φθ(za)?;谝陨蟽牲c原因,Siam-DTF跟蹤方法的性能在有效提升的同時,能夠保持以47幀/s的速度高效運行。
為了進一步驗證Siam-DTF跟蹤方法的性能,與當前主流、先進的跟蹤算法進行了對比。本文選取了一些最新的基于孿生網(wǎng)絡的跟蹤算法,以及其他主流的基于判別相關濾波器(DCF)的跟蹤算法進行比較。對比實驗在OTB2015(Wu等,2015)、VOT2016(Kristan等,2016)和VOT2018(Kristan等,2018)3個大型公開跟蹤數(shù)據(jù)集上完成。
3.3.1 在OTB2015數(shù)據(jù)集上的對比實驗
表1 不同方法在OTB2015數(shù)據(jù)集上的性能比較Table 1 Comparison of performance among different methods on OTB2015 dataset
圖5 不同方法在OTB2015數(shù)據(jù)集上的成功率曲線Fig.5 Curves of rate of success by different methods on OTB2015 dataset
圖6 不同方法在OTB2015數(shù)據(jù)集上的精準度曲線Fig.6 Curves of precision by different methods on OTB2015 dataset
3.3.2 在VOT2016數(shù)據(jù)集上的對比實驗
VOT2016數(shù)據(jù)集由60個具有挑戰(zhàn)性的視頻序列組成,是近年來流行的目標跟蹤數(shù)據(jù)集之一。VOT2016數(shù)據(jù)集根據(jù)精確度和魯棒性對算法的性能進行評估。精確度(accuracy)指成功跟蹤時的平均重疊,魯棒性使用失敗(failure)次數(shù)表示。整體性能評估通過期望平均重疊(expected average overlap,EAO)衡量,該指標同時考慮了精確度和魯棒性。實驗中,將本文方法與SiamRPN++(Li等,2019a)、SiamDW(Zhang和Peng,2019)、C-RPN(Fan和Ling,2019)、SiamMask_E(Chen和Tsotsos,2019)、ASRCF(adaptive spatially-regularized correlation filters)(Dai等,2019)、DaSiamRPN(Zhu等,2018)、SiamRPN(Li等,2018a)、ECO(Danelljan等,2017a)和ECO-HC(Danelljan等,2017a)等VOT挑戰(zhàn)賽排名靠前的跟蹤算法進行比較,結果如表2所示??梢钥闯?,Siam-DTF方法的EAO得分最高,達到了0.477,失敗次數(shù)最少,僅為0.172。在EAO得分上,本文方法比基礎算法SiamRPN++提高了1.6%,比得分第2高的SiamMask_E算法提高了1.1%。雖然相比于SiamMask_E,本文方法的精確度得分相對較低,但是值得注意的是,SiamMask_E算法是額外利用了分割標注信息預測旋轉(zhuǎn)矩形框,對非剛體目標會得到相對更精確的預測框。與SiamRPN++算法相比,本文方法的失敗次數(shù)從0.200降低到0.172,充分表明了Siam-DTF方法在面臨復雜環(huán)境挑戰(zhàn)時具有更高的魯棒性。
表2 不同方法在VOT2016數(shù)據(jù)集上的性能比較Table 2 Comparison of performance among different methods on VOT2016 dataset
3.3.3 在VOT2018數(shù)據(jù)集上的對比實驗
VOT2018數(shù)據(jù)集由60個具有挑戰(zhàn)性的視頻序列組成,數(shù)據(jù)集標注和評估標準與VOT2016數(shù)據(jù)集相同。實驗中,將本文方法與SiamRPN++(Li等,2019a)、SiamDW(Zhang和Peng,2019)、C-RPN(Fan和Ling,2019)、ATOM(Danelljan等,2019)、LADCF(learning adaptive discriminative correlation filters)(Xu等,2019)、DaSiamRPN(Zhu等,2018)、SiamRPN(Li等,2018a)和ECO(Danelljan等,2017a)等 8種最先進的跟蹤算法進行比較,具體指標的比較結果如表3所示。
表3 不同方法在VOT2018數(shù)據(jù)集上的性能比較Table 3 Comparisons of performance among different methods on VOT2018 dataset
從表3可以看出,與SiamRPN++和ATOM相比,本文方法Siam-DTF表現(xiàn)出了具有競爭力的跟蹤性能。此外,在所有跟蹤算法中,Siam-DTF方法在精確度得分上獲得了最好的結果,達到0.608。精確度得分的顯著提升進一步表明本文方法能有效輔助對跟蹤目標的定位。
圖7進一步展示了本文算法與SiamRPN++、ECO和Siam-DTF等跟蹤算法在3個挑戰(zhàn)性的視頻序列bird1、jumping和ironman上的定性對比結果。
從圖7(a)可以看出,在跟蹤目標遮擋時,SiamRPN++和ECO算法均出現(xiàn)了目標丟失,當遮擋物消失后也無法恢復,而本文方法則在遮擋剛開始發(fā)生以及遮擋消失后均可以跟蹤目標。從圖7(b)可以看出,本文方法在面對目標出現(xiàn)運動模糊和較大外觀變化時依然具有良好的跟蹤效果,SiamRPN++算法則出現(xiàn)了跟蹤漂移。從圖7(c)可以看出,本文方法在光線差、目標快速運動以及遮擋等復雜環(huán)境下的跟蹤結果依然良好,魯棒性相比于SiamRPN++和ECO算法更佳。通過在具有挑戰(zhàn)性的視頻序列上的定性對比表明,本文提出的Siam-DTF方法在遮擋、模糊和目標出現(xiàn)較大外觀變化的情況下仍然可以準確定位目標,而SiamRPN++和ECO算法均出現(xiàn)了跟蹤目標丟失的情況。本文提出的雙模板機制可以大幅提高孿生網(wǎng)絡跟蹤算法的魯棒性,除了定位更準確以外,本文方法比其他跟蹤算法預測的邊界框也更加精確(如圖6(c))。
圖7 在3個挑戰(zhàn)性的視頻序列上的跟蹤結果比較Fig.7 Qualitative results of trackers on 3 challenging video sequences((a)bird1;(b)jumping;(c)ironman)
為驗證外觀模板搜索模塊及置信度約束和IoU約束的作用,使用SiamRPN++和本文方法進行消融實驗,結果如表4所示??梢钥闯觯琒iamRPN++方法直接將z′作為外觀模板,沒有取得預期的收益,反而因為低質(zhì)量的模板略微降低了算法的綜合性能。而本文方法對外觀模板添加了置信度約束和IoU約束后,過濾掉了低質(zhì)量的外觀模板,因此Siam-DTFb和Siam-DTFc分別取得了一定的性能提升。值得注意的是,IoU約束相比于置信度約束帶來的性能提升更明顯,AUC提升分別為+0.4%和+0.2%,精確度提升分別為+1.0%和+0.4%,這是因為IoU對回歸框的位置和尺度約束更強。本文方法最終采用式(5)方案,同時對外觀模板添加了置信度約束和IoU約束,可以有效提取出與當前幀目標外觀一致的外觀模板,剔除低質(zhì)量的模板,因此獲得了更大的性能提升。
表4 外觀模板搜索模塊消融實驗Table 4 Ablation experiment on appearance template search module /%
本文通過理論分析和實驗驗證,總結出超參數(shù)的建議取值區(qū)間如表5所示。參照表5進行超參數(shù)設置時,本文雙模板機制可以得到更好的發(fā)揮,算法可以取得穩(wěn)定、明顯的性能提升。
表5 超參數(shù)建議取值區(qū)間Table 5 Recommended value range for hyper-parameters
本文分析了當前基于孿生網(wǎng)絡的跟蹤算法在面對目標出現(xiàn)遮擋及較大外觀變化時的不足,提出了一個高效、魯棒的雙模板融合孿生網(wǎng)絡跟蹤算法Siam-DTF,可以充分利用歷史幀的信息,獲得靈活的、能適應目標外觀變化的外觀模板。這種新穎的雙模板機制打破了傳統(tǒng)基于孿生網(wǎng)絡的跟蹤算法中單一固定模板的局限性,提高了算法在面對遮擋、外觀變化和相似干擾物時的跟蹤性能。本文提出的外觀模板搜索模塊能在初始模板與當前幀不匹配時有效地獲得合適、高質(zhì)量的外觀模板,最后使用的融合模塊也充分結合了這兩種模板的優(yōu)點。在3個主流的目標跟蹤公開數(shù)據(jù)集上的實驗證明了本文方法的有效性,在3個數(shù)據(jù)集上Siam-DTF均取得了優(yōu)秀的跟蹤結果。
本文提出的外觀模板搜索模塊取得了有效的性能提升,但是從歷史幀中裁剪出一個外觀模板的做法相對簡單,雙模板機制可以進一步擴充為多模板機制。后續(xù)工作將通過聚類的方式建立一個外觀模板庫,每個外觀模板即為對目標在不同狀態(tài)下的典型表達,通過融合多個外觀模板和初始模板的結果,進一步提升算法的魯棒性。