劉 藝,李蒙蒙,鄭奇斌,秦 偉,任小廣
1.國防科技創(chuàng)新研究院,北京100071
2.軍事科學(xué)院,北京100091
視頻目標(biāo)跟蹤是計算機視覺領(lǐng)域的重要問題,指利用視頻或圖像序列的上下文信息,對目標(biāo)的外觀和運動信息進(jìn)行建模,從而對目標(biāo)運動狀態(tài)進(jìn)行預(yù)測并標(biāo)定位置的技術(shù)。視頻目標(biāo)跟蹤在視頻監(jiān)控、無人駕駛等實際環(huán)境中有著廣泛的應(yīng)用。盡管近年來關(guān)于視頻目標(biāo)跟蹤算法的研究取得了很大的進(jìn)展,但是由于跟蹤目標(biāo)的外觀變化、尺寸變化、物體遮擋、運動模糊、跟蹤背景干擾等因素的影響,現(xiàn)有方法的效果仍未達(dá)到理想狀態(tài)。根據(jù)是否涉及背景環(huán)境,可以將視頻目標(biāo)跟蹤面臨的挑戰(zhàn)分為目標(biāo)自身因素和背景因素兩方面。目標(biāo)自身變化帶來的挑戰(zhàn)主要有外形變化、尺度變化、運動模糊和目標(biāo)旋轉(zhuǎn)等;除了目標(biāo)自身變化帶來的挑戰(zhàn),背景因素的影響也較為顯著,主要包括遮擋與消失、光照變化和相似背景干擾等。具體分類如圖1所示。
圖1 視頻目標(biāo)跟蹤面臨的挑戰(zhàn)Fig. 1 Challenges of video object tracking
按照跟蹤方法的不同,本文將視頻目標(biāo)跟蹤算法分為基于相關(guān)濾波的視頻目標(biāo)跟蹤算法和基于深度學(xué)習(xí)的視頻目標(biāo)跟蹤算法?;谙嚓P(guān)濾波的視頻目標(biāo)跟蹤算法在跟蹤的過程中主要利用相關(guān)濾波器計算模板圖像和預(yù)測圖像之間的相似度來確定目標(biāo)位置;而基于深度學(xué)習(xí)的視頻目標(biāo)跟蹤算法主要是通過訓(xùn)練深層網(wǎng)絡(luò)來學(xué)習(xí)目標(biāo)特征,完成視頻目標(biāo)跟蹤。相關(guān)濾波方法最早源自信號領(lǐng)域,旨在通過卷積操作判斷兩個信號的相似程度。文獻(xiàn)[5]首次將相關(guān)濾波引入到視頻目標(biāo)跟蹤問題中,提出了誤差平方和最小濾波器(minimum output sum of squared error,MOSSE)算法,之后基于相關(guān)濾波的算法逐漸成為了視頻目標(biāo)跟蹤領(lǐng)域的主流方法。但是,隨著AlexNet 網(wǎng)絡(luò)的提出,基于深度學(xué)習(xí)的視頻目標(biāo)跟蹤算法逐漸興起,近幾年受到了廣泛關(guān)注,已經(jīng)產(chǎn)生了很多性能優(yōu)異的算法模型。
本文對視頻目標(biāo)跟蹤算法的研究做詳細(xì)的總結(jié),為從事視頻目標(biāo)跟蹤方面研究的學(xué)者了解相關(guān)領(lǐng)域的進(jìn)展提供參考。首先從核相關(guān)濾波算法、尺度自適應(yīng)相關(guān)濾波算法和多特征融合相關(guān)濾波算法三方面描述了基于相關(guān)濾波的視頻目標(biāo)跟蹤算法,從基于孿生網(wǎng)絡(luò)的視頻目標(biāo)跟蹤算法和基于卷積神經(jīng)網(wǎng)絡(luò)的視頻目標(biāo)跟蹤算法兩個角度總結(jié)了近幾年基于深度學(xué)習(xí)的視頻目標(biāo)跟蹤算法,然后概述了視頻目標(biāo)跟蹤領(lǐng)域常用的數(shù)據(jù)集和評價指標(biāo),最后總結(jié)了全文并探討了該領(lǐng)域未來的發(fā)展趨勢。
MOSSE 算法是最典型的基于相關(guān)濾波的視頻目標(biāo)跟蹤算法,其主要思想是將視頻目標(biāo)跟蹤問題抽象為模板圖像與候選區(qū)域的相似度匹配問題。該類算法在跟蹤過程中首先訓(xùn)練一個濾波器,然后利用該濾波器對候選區(qū)域的特征做卷積操作,輸出響應(yīng)值,響應(yīng)最大值在候選區(qū)域中對應(yīng)的位置即為跟蹤目標(biāo)下一幀所在位置。相關(guān)濾波算法的流程如下所示。
(1)用邊界框在視頻第一幀中標(biāo)定跟蹤目標(biāo),生成模板圖像;
(2)提取模板圖像的特征圖F;
(3)利用高斯函數(shù)生成特征圖F的輸出響應(yīng)圖G;
(5)后續(xù)圖像特征圖經(jīng)過傅里葉變換之后與相關(guān)濾波器相乘,結(jié)果進(jìn)行逆傅里葉變換,生成輸出響應(yīng)圖,獲得當(dāng)前幀跟蹤目標(biāo)的位置;
(6)利用當(dāng)前幀的目標(biāo)位置訓(xùn)練更新相關(guān)濾波器,用于之后的預(yù)測。
MOSSE 算法雖然具有669 frame/s 的實時速度,且針對亮度、尺寸和形狀等不嚴(yán)格的變形具有很好的魯棒性,但是也具有準(zhǔn)確度不高等缺陷。針對此問題,研究學(xué)者提出了一系列基于MOSSE算法的優(yōu)化策略與改進(jìn)算法,其中一類重要的改進(jìn)算法是基于核函數(shù)的相關(guān)濾波算法。
文獻(xiàn)[7]針對MOSSE算法中訓(xùn)練樣本數(shù)量較少,容易產(chǎn)生過擬合的問題提出了CSK(circulant structure with kernels)算法,該算法在MOSSE算法的基礎(chǔ)上增加了正則化項,采用循環(huán)矩陣進(jìn)行稠密采樣,有效解決了濾波器過擬合的問題;此外,該算法還引入了核技巧,提高了在高維空間中的分類速度。文獻(xiàn)[8]在CSK 算法的基礎(chǔ)上提出了KCF/DCF(kernelized/dual correlation filter)算法,該算法把視頻目標(biāo)跟蹤問題抽象為目標(biāo)檢測問題。首先利用嶺回歸方法訓(xùn)練了一個目標(biāo)檢測器,然后利用訓(xùn)練的目標(biāo)檢測器預(yù)測候選位置是否為下一幀目標(biāo)的位置。此外,該算法利用循環(huán)矩陣在傅里葉空間對角化的性質(zhì)將矩陣運算轉(zhuǎn)化為向量的Hadamad 運算(即元素的點乘),提高了算法的運算速度;同時引入了高斯核函數(shù),將低維空間中的線性不可分問題轉(zhuǎn)化為高維空間中的線性可分問題。KCF/DCF算法進(jìn)一步引進(jìn)了基于多通道的方向梯度直方圖(histogram of oriented gradient,HOG)進(jìn)行特征提取,進(jìn)一步提升了算法的跟蹤精度。KCF/DCF算法雖然在跟蹤速度和跟蹤精度兩方面都有了很大改進(jìn),但是其對尺度變化較大的視頻目標(biāo)跟蹤效果不太理想,主要是由于其僅采用單一尺度的候選圖像。針對此問題,相關(guān)學(xué)者提出多尺度縮放策略用于解決尺度變化較大的視頻目標(biāo)跟蹤問題。
近幾年,一些核相關(guān)濾波視頻目標(biāo)跟蹤算法也相繼被提出。文獻(xiàn)[13]針對KCF/DCF算法在目標(biāo)遮擋和尺度變化問題中的局限性提出了一個基于核相關(guān)濾波的魯棒跟蹤算法。該算法針對目標(biāo)遮擋問題提出了損失辨別和重定位策略,根據(jù)當(dāng)前幀和第一幀的相似度判定目標(biāo)是否被遮擋,當(dāng)目標(biāo)被遮擋時,算法在一定范圍內(nèi)重新定位目標(biāo);此外,該算法針對尺度變化問題引入了多尺度濾波器以緩解目標(biāo)漂移問題。文獻(xiàn)[14]針對衛(wèi)星數(shù)據(jù)中目標(biāo)較小且目標(biāo)與背景相似的問題提出了一個混合核相關(guān)濾波算法(hybrid kernel correlation filter,HKCF)。該算法利用光流和方向梯度直方圖兩個互補的特征進(jìn)行自適應(yīng)融合以檢測目標(biāo)變化。文獻(xiàn)[15]為了提高視頻目標(biāo)跟蹤算法在遇到背景雜波、遮擋等問題時的魯棒性,提出了一種基于自適應(yīng)更新策略和再檢測技術(shù)的關(guān)聯(lián)跟蹤算法。該算法的自適應(yīng)更新策略根據(jù)跟蹤結(jié)果的置信度自適應(yīng)調(diào)整模板更新系數(shù),當(dāng)目標(biāo)遭受遮擋時,利用再檢測策略對目標(biāo)進(jìn)行重新檢測,不僅降低了目標(biāo)漂移概率,還提高了算法的糾錯能力。
在跟蹤過程中由于目標(biāo)與相機的距離經(jīng)常發(fā)生變化導(dǎo)致跟蹤目標(biāo)尺度不一。為適應(yīng)目標(biāo)尺度縮放的問題,文獻(xiàn)[10]提出的SAMF(scale adaptive with multiple features tracker)算法提出了尺度池策略,其主要思想是對候選區(qū)域的目標(biāo)做七個尺度的縮放,再與上一幀樣本進(jìn)行匹配,選擇相似度最高的候選區(qū)域作為最終的跟蹤目標(biāo)。尺度池策略的引入使得算法能夠在小范圍內(nèi)實現(xiàn)尺度自適應(yīng),提高了跟蹤精度。文獻(xiàn)[11]提出的DSST(discriminative scale space tracker)算法將視頻目標(biāo)跟蹤看成平移跟蹤和尺度跟蹤兩個問題,算法除了訓(xùn)練平移濾波器之外,還訓(xùn)練了尺度濾波器以解決目標(biāo)尺度變化的問題。尺度濾波器以目標(biāo)位置為中心進(jìn)行空間位置采樣,距離原始目標(biāo)越近抽樣越精細(xì),獲得33 個不同尺度的樣本。文獻(xiàn)[12]在DSST算法的基礎(chǔ)上提出了一種魯棒的旋轉(zhuǎn)估計算法。該算法基于等角度間隔策略在目標(biāo)中心區(qū)域進(jìn)行采樣,并訓(xùn)練角度濾波器,結(jié)合DSST 算法中的平移濾波器和尺度濾波器形成了一個由三層濾波器組成的跟蹤器,實現(xiàn)了對旋轉(zhuǎn)目標(biāo)的精確跟蹤。
結(jié)合卷積神經(jīng)網(wǎng)絡(luò)深層特征的相關(guān)濾波跟蹤算法具有較好的跟蹤性能,但是無殘差的卷積神經(jīng)網(wǎng)絡(luò)深層特征缺乏目標(biāo)局部信息,容易受到相似物和背景噪聲的影響。針對此問題,文獻(xiàn)[16]提出尺度自適應(yīng)的視頻目標(biāo)跟蹤算法。該算法從ResNet網(wǎng)絡(luò)的不同層提取特征生成響應(yīng)圖,然后基于AdaBoost 算法進(jìn)行融合,再利用尺度濾波器估計目標(biāo)尺寸,實現(xiàn)準(zhǔn)確跟蹤。文獻(xiàn)[17]提出了一種可變尺度因子學(xué)習(xí)方法,該方法克服了常用的多尺度搜索方法中固定尺度因子的局限性,其次使用多尺度縱橫比方法替換固定尺度縱橫比方法進(jìn)一步緩解目標(biāo)尺度變化問題。
尺度池策略和尺度自適應(yīng)方法的提出使得基于相關(guān)濾波的視頻目標(biāo)跟蹤算法在目標(biāo)尺度縮放、目標(biāo)外觀變化等挑戰(zhàn)下的跟蹤精度得到較大提升,但是如何得到一個合適的尺度濾波器對候選圖像進(jìn)行采樣仍是該領(lǐng)域面臨的難題。
文獻(xiàn)[18]認(rèn)為提取合適的特征能夠顯著提升模型的跟蹤效果。因此,通過多特征融合的方法來提高視頻目標(biāo)跟蹤精度成為了當(dāng)下研究的熱點。
在早期的視頻目標(biāo)跟蹤算法中,主要采用顏色直方圖或者單通道的灰度特征來辨別目標(biāo)。該類方法簡單高效,但是學(xué)習(xí)到的目標(biāo)信息較少,跟蹤精度較低。為了提高算法跟蹤精度,文獻(xiàn)[7-8,11]采用了HOG 特征,該特征是在圖像的局部方格單元上進(jìn)行操作,對圖像幾何變化和光照變化都具有較好的魯棒性。文獻(xiàn)[21]將RGB 三通道細(xì)化為11 種顏色,在跟蹤過程中將11 維顏色特征降為兩維,自適應(yīng)選擇顏色特征。文獻(xiàn)[22-24]則根據(jù)不同的顏色特征方法進(jìn)行視頻目標(biāo)跟蹤。
自深度學(xué)習(xí)快速發(fā)展以來,基于深度特征的相關(guān)濾波跟蹤算法得到了廣泛的研究和發(fā)展。文獻(xiàn)[25]將SRDCF(spatially regularized discriminative correlation filters)算法中的傳統(tǒng)手工特征替換為基于卷積神經(jīng)網(wǎng)絡(luò)的深度特征,提出了deepSRDCF算法,取得了較好的跟蹤效果。C-COT(continuous convolution operator tracker)算法結(jié)合深度特征和傳統(tǒng)的手工特征共同進(jìn)行跟蹤。首先采用深度網(wǎng)絡(luò)VGGNet進(jìn)行特征提取,然后將提取的深度特征與HOG 和顏色直方圖等手工特征進(jìn)行融合實現(xiàn)視頻目標(biāo)跟蹤,深淺層特征的融合顯著提升了算法的跟蹤精度。
采用深層特征的視頻目標(biāo)跟蹤算法雖然在性能上得到了顯著的提升,但是跟蹤速度卻明顯地下降。針對此問題,ECO(efficient convolution operators)算法深入分析了影響算法速度的三個主要原因:模型復(fù)雜度、訓(xùn)練集尺寸和模型更新策略。并針對不同的原因提出了相應(yīng)的解決方案:(1)跟蹤過程中僅選擇貢獻(xiàn)較大的濾波器進(jìn)行線性組合,減少模型參數(shù),實現(xiàn)快速跟蹤;(2)去除冗余樣本,簡化訓(xùn)練集;(3)提出間隔N幀更新一次模型,提升算法的實時性。針對當(dāng)前的跟蹤算法僅使用深度網(wǎng)絡(luò)中淺層特征的問題,UPDT(unveiling the power of deep tracking)算法系統(tǒng)地闡述了深層和淺層特征對視頻目標(biāo)跟蹤的影響,并指出深層特征能提升網(wǎng)絡(luò)的魯棒性,淺層特征能獲得更好的定位精度,提出了一種深淺層特征自適應(yīng)融合的跟蹤算法。深層和淺層特征的優(yōu)缺點如表1所示。文獻(xiàn)[31]針對基于深度互相關(guān)操作的視頻目標(biāo)跟蹤算法容易被相似物干擾且對目標(biāo)邊界的辨別能力較弱等問題提出了一種可學(xué)習(xí)模塊,稱為不對稱卷積模型(asymmetric convolution module,ACM)。ACM 可以在大規(guī)模數(shù)據(jù)的離線訓(xùn)練中學(xué)習(xí)如何更好地捕捉語義相關(guān)信息,有效地融合目標(biāo)和搜索區(qū)域中不同尺寸的特征圖,結(jié)合先驗信息和視覺特征,可以很容易地集成到現(xiàn)有跟蹤器中,具有較好的泛化性能。
表1 深層特征與淺層特征的對比Table 1 Comparison of deep and shallow features
多特征融合算法的提出顯著提升了基于相關(guān)濾波視頻目標(biāo)跟蹤算法的跟蹤精度和魯棒性,尤其是傳統(tǒng)手工特征和深層特征的融合,使得在運動模糊、目標(biāo)旋轉(zhuǎn)等復(fù)雜情況下視頻目標(biāo)跟蹤算法的魯棒性也能得到較大提升。
基于相關(guān)濾波的算法是視覺目標(biāo)跟蹤領(lǐng)域中發(fā)展較為成熟的一類算法,具有速度快、精度高等優(yōu)點,但是該類算法通常采用手工淺層特征,因此魯棒性較差?,F(xiàn)對典型的基于相關(guān)濾波的視頻目標(biāo)跟蹤算法進(jìn)行簡單對比,如表2所示。
表2 基于相關(guān)濾波的視頻目標(biāo)跟蹤算法Table 2 Video object tracking algorithms based on correlation filter
基于孿生網(wǎng)絡(luò)的視頻目標(biāo)跟蹤算法自提出以來得到了研究學(xué)者們的廣泛關(guān)注。孿生網(wǎng)絡(luò)架構(gòu)如圖2所示,輸入1和輸入2分別代表模板圖像和搜索區(qū)域圖像,經(jīng)過兩個結(jié)構(gòu)相同、參數(shù)共享的子網(wǎng)絡(luò)之后生成相應(yīng)的特征圖,然后通過計算生成兩個圖像的相似度。由于孿生網(wǎng)絡(luò)可以進(jìn)行離線訓(xùn)練,可以使用大規(guī)模的圖像數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,很好地緩解了視頻目標(biāo)跟蹤領(lǐng)域中訓(xùn)練樣本數(shù)量較少的問題。
圖2 孿生網(wǎng)絡(luò)架構(gòu)Fig. 2 Architecture of siamese network
SiamFC(fully-convolutional siamese networks)算法是由Bertinetto等人提出的全卷積孿生網(wǎng)絡(luò)。它首次將孿生網(wǎng)絡(luò)引入到視頻目標(biāo)跟蹤領(lǐng)域,把視頻目標(biāo)跟蹤問題轉(zhuǎn)化為圖像匹配問題,通過選擇與模板圖像最相似的候選圖像實現(xiàn)對目標(biāo)的跟蹤。
SiamFC網(wǎng)絡(luò)的兩個輸入分別為模板圖像和搜索區(qū)域。其中模板圖像通常是視頻第一幀選定的跟蹤目標(biāo),跟蹤期間模板圖像不進(jìn)行更新;搜索區(qū)域一般以上一幀目標(biāo)所在位置為中心選出固定尺寸大小的區(qū)域。在跟蹤過程時,算法對目標(biāo)圖像進(jìn)行多種尺度縮放,并以不同尺寸的滑動窗口在整個搜索區(qū)域進(jìn)行滑動匹配。兩個分支骨干網(wǎng)的結(jié)構(gòu)相同,參數(shù)共享,骨干網(wǎng)對兩個輸入進(jìn)行相同的變換后,將提取的特征圖送入到相似性度量函數(shù)中,利用式(1)得到相似度。
其中,一般為卷積操作,()為卷積核。
SiamFC 算法雖然具有實時的跟蹤速度,但是跟蹤精度并不理想,主要原因在于SiamFC算法并不能較好地處理目標(biāo)尺度變化問題。因此,為了更精確地跟蹤目標(biāo),文獻(xiàn)[33]在SiamFC 算法的基礎(chǔ)上提出了SiamRPN(siamese region proposal network)算法。SiamRPN 算法引入了候選區(qū)域生成網(wǎng)絡(luò)(region proposal network,RPN)模塊。該模塊取代了傳統(tǒng)的多尺度檢測方法,實現(xiàn)了高精度跟蹤。RPN 網(wǎng)絡(luò)架構(gòu)有兩個分支:分類分支和回歸分支。分類分支用于區(qū)分目標(biāo)和背景,實現(xiàn)對目標(biāo)的檢測分類;回歸分支用于對目標(biāo)邊界框回歸預(yù)測,實現(xiàn)對目標(biāo)的精確定位。SiamMask算法把視頻目標(biāo)跟蹤與實例分割結(jié)合起來,在SiamRPN 算法的基礎(chǔ)上對RPN 模塊進(jìn)行了擴展,增加了目標(biāo)二值掩碼分支,該分支通過一個兩層神經(jīng)網(wǎng)絡(luò)得到目標(biāo)的實時像素級標(biāo)注信息,進(jìn)一步完成目標(biāo)的精確定位。C-RPN(siamese cascaded region proposal networks)算法利用特征轉(zhuǎn)換模塊融合多層特征,并將融合后的特征圖輸入到不同的RPN 模塊中,采用多RPN 模塊級聯(lián)的方式進(jìn)行候選區(qū)域選擇,該方法不僅可以充分利用深層特征和淺層特征,還可以精確地計算目標(biāo)邊界框、定位目標(biāo)。SPM-Tracker(series-parallel matching tracker)算法將視頻目標(biāo)跟蹤分為兩個階段:粗略匹配階段和精細(xì)匹配階段。粗略匹配階段采用SiamRPN 網(wǎng)絡(luò),分離目標(biāo)和相似干擾物;精細(xì)匹配階段通過兩層全連接網(wǎng)絡(luò)分類相似物體,選出真正的目標(biāo)。文獻(xiàn)[37]在SiamFC 的基礎(chǔ)上提出了一種融合注意力機制的孿生網(wǎng)絡(luò)視頻目標(biāo)跟蹤算法。該算法通過融合注意力機制,由神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)模板圖像的通道相關(guān)性和空間相關(guān)性,增大前景貢獻(xiàn),抑制背景特征,提升網(wǎng)絡(luò)對目標(biāo)特征的辨別力。文獻(xiàn)[38]針對SiamFC在嚴(yán)重遮擋、旋轉(zhuǎn)、光照變化和尺度變化等情況下容易造成跟蹤失敗的問題,提出了一種融合擾動感知模型的孿生神經(jīng)網(wǎng)絡(luò)視頻目標(biāo)跟蹤算法。該算法將孿生網(wǎng)絡(luò)提取的淺層特征和深層語義特征進(jìn)行有效融合,提高了特征表征能力;此外,該算法引入了顏色直方圖特征的擾動感知模型,通過加權(quán)融合的方式獲得目標(biāo)響應(yīng)圖,以此來實現(xiàn)目標(biāo)跟蹤。
為了進(jìn)一步提升算法的跟蹤速度,文獻(xiàn)[39]提出了一種目標(biāo)感知模塊,并將其與SiamFC 框架結(jié)合。目標(biāo)感知模塊選擇當(dāng)前跟蹤目標(biāo)所需通道,同時去除非必要的通道,提高了跟蹤速度。為了降低目標(biāo)漂移概率,DaSiamRPN(distractor-aware siamese region proposal network)算法提出了干擾物感知模型,降低了目標(biāo)漂移到相似干擾物的概率;同時提出了局部-全局搜索策略,當(dāng)目標(biāo)跟蹤失敗時,以目標(biāo)消失位置為中心重新檢測目標(biāo),實現(xiàn)長時跟蹤。DSiam(dynamic siamese network)算法提出了動態(tài)孿生網(wǎng)絡(luò),在SiamFC架構(gòu)上增加了形變學(xué)習(xí)層,利用視頻前幾幀圖像學(xué)習(xí)目標(biāo)外觀變化,抑制背景噪聲干擾,提升長時跟蹤精度。DCFNet(discriminant correlation filters network)算法提出了一種輕量級的端到端網(wǎng)絡(luò)架構(gòu)。首先利用預(yù)訓(xùn)練的卷積網(wǎng)絡(luò)進(jìn)行特征提取,然后利用相關(guān)濾波器層進(jìn)行目標(biāo)匹配和跟蹤。為了降低跟蹤成本,該架構(gòu)將卷積層設(shè)置成輕量級的網(wǎng)絡(luò),將相關(guān)濾波器層的計算轉(zhuǎn)換到傅里葉頻域中進(jìn)行。在測試階段,DCFNet的跟蹤速度可達(dá)60 frame/s,實現(xiàn)了實時跟蹤。CFNet(correlation filter network)算法提出一個非對稱的網(wǎng)絡(luò)架構(gòu),首先“訓(xùn)練圖像”和“測試圖像”經(jīng)過相同的卷積層進(jìn)行特征變換,然后“訓(xùn)練圖像”通過相關(guān)濾波操作學(xué)習(xí)線性模板,通過互相關(guān)操作對“測試圖像”進(jìn)行搜索,最后通過實驗證明兩層的CFNet可以較好地平衡跟蹤精度和跟蹤速度,在跟蹤精度較理想的情況下,跟蹤速度可以達(dá)到75 frame/s。文獻(xiàn)[45]針對跟蹤目標(biāo)在平面內(nèi)旋轉(zhuǎn)的問題展開研究,提出了旋轉(zhuǎn)等變孿生網(wǎng)絡(luò)(rotation-equivariant siamese networks,RE-SiamNets),以無監(jiān)督的方式估計目標(biāo)旋轉(zhuǎn)方向變化,促進(jìn)算法跟蹤性能。文獻(xiàn)[46]針對現(xiàn)有視頻目標(biāo)跟蹤算法目標(biāo)邊界框精度不高,且算法耦合嚴(yán)重、各階段難以移植的問題提出了一種精確通用的跟蹤模塊,稱為AR(alpha-refine)。該模塊以孿生網(wǎng)絡(luò)架構(gòu)為基礎(chǔ),兩個分支分別對模板圖像和測試圖像進(jìn)行特征提取,然后利用相關(guān)模塊進(jìn)行特征融合,在跟蹤過程中將邊界框設(shè)定為目標(biāo)尺寸的2倍。比普通跟蹤器更小的邊界框可以讓跟蹤器更關(guān)注目標(biāo)空間信息,有利于精確定位。該模塊輕量級的設(shè)計降低了跟蹤成本,但具體效能仍與完整的跟蹤框架相關(guān)。
跟蹤算法中使用的孿生子網(wǎng)絡(luò)相對較淺,目標(biāo)信息利用率不高,若直接將子網(wǎng)絡(luò)替換為深度網(wǎng)絡(luò),算法性能也并不能得到顯著提升,這主要是由于深度網(wǎng)絡(luò)一般都具有填充操作,但是在跟蹤過程中填充操作將引入目標(biāo)位置偏差,影響跟蹤效果。針對此問題,文獻(xiàn)[47]提出了內(nèi)部裁剪殘差單元來增強SiamRPN 的性能,該方法刪除了受填充操作影響的特征,把深度網(wǎng)絡(luò)有效地應(yīng)用到了視頻目標(biāo)跟蹤領(lǐng)域。文獻(xiàn)[48]提出了具有空間感知采樣策略的SiamRPN++算法,該策略較好地解決了填充操作帶來的負(fù)面影響,同時采用了多SiamRPN級聯(lián)策略,增強了算法的判別能力。
為了更加充分地利用孿生網(wǎng)絡(luò)對稱性的優(yōu)勢,SASiam(semantic features and appearance features siamese network)算法提出了基于雙重孿生網(wǎng)絡(luò)的視頻目標(biāo)跟蹤算法。該算法由語義分支對和外觀分支對組成,語義分支對生成的語義特征用于圖像分類,外觀分支對生成的外觀特征用于相似度匹配。SiamBM(better match in siamese network)算法在SA-Siam算法的基礎(chǔ)上添加了旋轉(zhuǎn)角度模塊來預(yù)測目標(biāo)的旋轉(zhuǎn)。SA-Siam++算法提出了一種基于語義和外觀雙分支孿生網(wǎng)絡(luò)的跟蹤方法,雙分支網(wǎng)絡(luò)分別是通過沙漏-通道注意力機制提取語義信息的語義分支網(wǎng)絡(luò)和采用SiamFC 算法提取外觀特征的外觀分支網(wǎng)路,提高了算法的跟蹤性能。
近幾年,基于孿生網(wǎng)絡(luò)的算法由于其思想簡單,架構(gòu)可伸縮,在視頻目標(biāo)跟蹤領(lǐng)域取得了快速的發(fā)展。該類算法在跟蹤速度較為可觀的情況下,有效提升了跟蹤器對背景和相似干擾物的辨別能力,是視頻目標(biāo)跟蹤領(lǐng)域未來研究的重點。
文獻(xiàn)[52]提出了一種基于深度學(xué)習(xí)的支持向量機算法(deep learning support vector machines,DLSVM),該算法利用圖像識別領(lǐng)域預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)對目標(biāo)進(jìn)行特征提取,利用支持向量機分類器進(jìn)行跟蹤。該算法由于不需要大量訓(xùn)練樣本學(xué)習(xí)網(wǎng)絡(luò)模型,因此在一定程度上提高了算法的執(zhí)行效率,但是直接將圖像識別領(lǐng)域的神經(jīng)網(wǎng)絡(luò)應(yīng)用到視頻目標(biāo)跟蹤領(lǐng)域中并不能達(dá)到預(yù)期效果,主要原因在于圖像分類關(guān)注類間差異,忽視類內(nèi)區(qū)別,而視頻目標(biāo)跟蹤關(guān)注目標(biāo)實例與背景間的差異,同時需要消除同類別其他實例物體的干擾。針對此問題,文獻(xiàn)[53]提出了針對視頻目標(biāo)跟蹤的多域卷積神經(jīng)網(wǎng)絡(luò)(multi-domain network,MDNet)。MDNet 網(wǎng)絡(luò)最終生成一個二維向量分別表示該邊界框中物體為目標(biāo)或者背景的概率,該網(wǎng)絡(luò)架構(gòu)較小,參數(shù)較少,具有很好的實時性。文獻(xiàn)[54]提出了一種基于樹狀結(jié)構(gòu)的CNN跟蹤算法。該算法在樹狀結(jié)構(gòu)的不同分支中維護多個CNN 網(wǎng)絡(luò),并對CNN網(wǎng)絡(luò)生成的結(jié)果進(jìn)行加權(quán)平均來估計目標(biāo)外觀的變化。文獻(xiàn)[55]針對MDNet 算法采樣密集的問題提出了行為驅(qū)動策略,通過捕獲目標(biāo)的運動信息,搜索高質(zhì)量的候選樣本,提高算法泛化性能。
SANet(structure-aware network)算法結(jié)合了CNN和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN),其中CNN負(fù)責(zé)類間判別,區(qū)分目標(biāo)類與背景,RNN負(fù)責(zé)類內(nèi)選擇,區(qū)分目標(biāo)實例與相似干擾物。Siam R-CNN(siamese R-CNN)算法結(jié)合了孿生網(wǎng)絡(luò)和Faster RCNN,孿生網(wǎng)絡(luò)用于特征提取,F(xiàn)aster R-CNN 用于候選區(qū)域生成。ATOM(accurate tracking by overlap maximization)算法結(jié)合了兩層深度回歸網(wǎng)絡(luò)和IoUNet網(wǎng)絡(luò)(intersection-over-union network),前者用于目標(biāo)粗略定位,生成候選區(qū)域,后者用于目標(biāo)精細(xì)定位和尺度估計。文獻(xiàn)[60]針對現(xiàn)有跟蹤器網(wǎng)絡(luò)架構(gòu)越來越龐大、跟蹤代價越來越高昂,在資源有限的應(yīng)用中部署越來越受限的問題,提出一種輕量級的神經(jīng)網(wǎng)絡(luò)跟蹤架構(gòu)(LightTrack)。該架構(gòu)使用神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(neural architecture search)方法自動設(shè)計輕量級模型,首先將所有可能的架構(gòu)編碼為骨干超網(wǎng)絡(luò)和頭部超網(wǎng)絡(luò),骨干超網(wǎng)絡(luò)在ImageNet 數(shù)據(jù)集上進(jìn)行訓(xùn)練,然后利用測試數(shù)據(jù)進(jìn)行微調(diào),而頭部超網(wǎng)絡(luò)則直接使用測試數(shù)據(jù)進(jìn)行訓(xùn)練。所有超網(wǎng)絡(luò)只訓(xùn)練一次,然后每個候選架構(gòu)直接從超網(wǎng)絡(luò)中繼承權(quán)重。此外,該算法構(gòu)建了新的搜索空間,促使算法搜索更緊湊的神經(jīng)架構(gòu)。該算法在跟蹤性能和計算成本之間取得了較好的平衡。
基于卷積神經(jīng)網(wǎng)絡(luò)的視頻目標(biāo)跟蹤算法雖然可以利用不同的網(wǎng)絡(luò)架構(gòu)提取不同深度的目標(biāo)特征,但是由于網(wǎng)絡(luò)架構(gòu)龐大,模型參數(shù)較多,該類算法的跟蹤代價通常較大,因此輕量級的跟蹤模型具有十分重要的研究意義。
隨著對視頻目標(biāo)跟蹤算法的深入研究,傳統(tǒng)的數(shù)據(jù)集已經(jīng)不能有效地評估算法的綜合性能,為此,研究人員提出了更多高質(zhì)量的數(shù)據(jù)集。這些數(shù)據(jù)集除了能夠有效評估算法的性能,也進(jìn)一步推動了視頻目標(biāo)跟蹤領(lǐng)域的發(fā)展。下面總結(jié)該領(lǐng)域常用的數(shù)據(jù)集及其特點。表3按照時間線給出了常用視頻目標(biāo)跟蹤數(shù)據(jù)集的信息,其中數(shù)據(jù)集包括:OTB-2013、OTB-2015、VOT2013、VOT2014、VOT2015、V0T2016、VOT2017、VOT2018、VOT2019、UAV123、UAV20L、TrackingNet、GOT-10K、LaSOT。
表3 視頻目標(biāo)跟蹤領(lǐng)域常用數(shù)據(jù)集Table 3 Datasets widely used in field of video object tracking
隨著數(shù)據(jù)集的不斷更新,更加準(zhǔn)確高效的評價指標(biāo)也在不斷完善,優(yōu)異的評價指標(biāo)可以更加公平客觀地反映算法的優(yōu)劣。在視頻目標(biāo)跟蹤算法中最常用的評價指標(biāo)為精確度、交并比、成功率和跟蹤速度等。
精確度(precision plot)主要評估的是目標(biāo)中心位置誤差,指跟蹤目標(biāo)中心位置與目標(biāo)真值中心位置之間的平均歐氏距離小于給定閾值的視頻幀占整個視頻序列幀數(shù)的百分比,公式如式(2)所示。
其中,是視頻序列長度,為跟蹤目標(biāo)與目標(biāo)真值之間的距離誤差,為設(shè)定的閾值。跟蹤精度雖然能直觀地反映算法的優(yōu)劣,但是不能很好地處理目標(biāo)尺寸發(fā)生變化的情況。因此,在OTB 數(shù)據(jù)集中同時采用了成功率指標(biāo)。
成功率(success plot)主要依據(jù)的是交并比,指當(dāng)某一幀圖像的交并比大于規(guī)定閾值時,則認(rèn)為該幀跟蹤成功,跟蹤成功的幀數(shù)占整個視頻序列的百分比設(shè)置為成功率,公式如式(3)所示。
其中,為某一幀的交并比,為設(shè)定的閾值。
交并比(intersection over union,IoU)是指“預(yù)測圖像”與“目標(biāo)真值圖像”之間面積的交集與并集的比值,如式(4)和圖3所示。
圖3 交并比計算圖Fig. 3 Calculation graph of IoU
其中,和分別代表“預(yù)測圖像”和“目標(biāo)真值圖像”。
成功率指標(biāo)可以很好地評估目標(biāo)尺寸變化情況,但是并不能很好地體現(xiàn)跟蹤目標(biāo)與目標(biāo)真值未重疊和目標(biāo)旋轉(zhuǎn)等問題。當(dāng)跟蹤目標(biāo)與目標(biāo)真值未重疊時,簡單地認(rèn)為跟蹤失敗并不能提供有用信息,導(dǎo)致算法無法在下一幀作出有效改進(jìn);當(dāng)目標(biāo)發(fā)生旋轉(zhuǎn)時,某一幀預(yù)測圖像與目標(biāo)真值重疊率很高,但是角度相差較大,此時回歸效果很差,卻被誤判為跟蹤成功,導(dǎo)致成功率不可信。針對以上問題,文獻(xiàn)[74]提出了GIoU(generalized intersection over union)指標(biāo),如式(5)所示。
其中,代表包圍和的最小面積框。GIoU是指用傳統(tǒng)的IoU 減去“‘從中去除和的面積框’與‘’之間的比值”。該指標(biāo)通過引入同時覆蓋預(yù)測圖像和目標(biāo)真值圖像的最小封閉面積框,使得兩者即使不重疊,預(yù)測圖像也會逐漸移向目標(biāo)真值。
視頻目標(biāo)跟蹤領(lǐng)域中算法的實時性很重要,通常用跟蹤速率(單位為frame/s)來評估算法實時性能。
盡管近些年視頻目標(biāo)跟蹤技術(shù)取得了快速發(fā)展,但是在復(fù)雜的應(yīng)用場景中,現(xiàn)有的視頻目標(biāo)跟蹤算法仍未取得理想效果?,F(xiàn)對視頻目標(biāo)跟蹤領(lǐng)域存在的問題進(jìn)行簡單總結(jié)與展望,希望可以為相關(guān)學(xué)者的研究提供思路。
(1)基于相關(guān)濾波的視頻目標(biāo)跟蹤算法把視頻目標(biāo)跟蹤問題抽象為模板圖像與候選區(qū)域的相似度匹配問題,因此模板圖像的選擇更新策略對算法的跟蹤精度具有顯著影響,加大對模板圖像的關(guān)注和研究具有重要意義。
(2)基于深度學(xué)習(xí)的視頻目標(biāo)跟蹤算法主要依托深度網(wǎng)絡(luò)架構(gòu)實現(xiàn)視頻目標(biāo)跟蹤,因此網(wǎng)絡(luò)架構(gòu)的設(shè)計和構(gòu)建非常重要。網(wǎng)絡(luò)架構(gòu)較深會限制算法長時跟蹤性能,參數(shù)較多會降低算法跟蹤效率,耦合性較高會加大算法改進(jìn)優(yōu)化難度,因此,設(shè)計輕量級的、耦合性較低的視頻目標(biāo)跟蹤模塊或者算法具有較大現(xiàn)實意義和應(yīng)用價值。
(3)現(xiàn)有的視頻目標(biāo)跟蹤數(shù)據(jù)集涵蓋的類別較多,視頻序列場景豐富,雖然可以綜合評估算法性能,但是不能針對性地評估應(yīng)用在某一具體領(lǐng)域的跟蹤算法。因此,為了更有效地評估實用可靠的跟蹤算法,根據(jù)具體應(yīng)用領(lǐng)域制作相應(yīng)的數(shù)據(jù)集和評價指標(biāo)具有一定的必要性。