彭建盛, 許恒銘, 李濤濤, 侯雅茹
(1.廣西科技大學(xué)電氣與信息工程學(xué)院, 柳州 545000; 2.河池學(xué)院人工智能與制造學(xué)院, 宜州 546300)
20世紀(jì)90年代,計(jì)算機(jī)視覺技術(shù)、圖像處理技術(shù)得到了快速發(fā)展,視覺目標(biāo)跟蹤技術(shù)也得到廣泛關(guān)注。目前該技術(shù)已經(jīng)廣泛應(yīng)用在交通、軍事、醫(yī)療以及民用設(shè)備等眾多領(lǐng)域。實(shí)現(xiàn)目標(biāo)跟蹤具有眾多難點(diǎn),主要有動(dòng)態(tài)目標(biāo)運(yùn)動(dòng)過程中尺度外觀發(fā)生變化、光照強(qiáng)度發(fā)生變化、目標(biāo)遮擋或移出視野、復(fù)雜背景以及目標(biāo)相似度較高等[1]。
近年來,三大頂尖會(huì)議國(guó)際計(jì)算機(jī)視覺大會(huì)(International Conference on Computer Vision, ICCV)、歐洲計(jì)算機(jī)視覺國(guó)際會(huì)議(European Conference on Computer Vision, ECCV)和國(guó)際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議(Conference on Computer Vision and Pattern Recognition, CVPR)公開的目標(biāo)跟蹤論文數(shù)量一直居高不下,關(guān)于目標(biāo)跟蹤的綜述眾多。文獻(xiàn)[2]從相關(guān)濾波器作為切入點(diǎn)圍繞著核相關(guān)濾波算法(kernel correlation filter, KCF)算法進(jìn)行展開,介紹了相關(guān)濾波器框架下的目標(biāo)跟蹤原理以及發(fā)展脈絡(luò)。文獻(xiàn)[3]從人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、功能、訓(xùn)練方式等角度重點(diǎn)介紹基于深度學(xué)習(xí)的目標(biāo)跟蹤算法,同時(shí)指出深度學(xué)習(xí)技術(shù)在目標(biāo)跟蹤問題上存在的不足。文獻(xiàn)[4]從目標(biāo)特征提取及融合方式、外觀模型創(chuàng)建方式、目標(biāo)搜索方式等方面對(duì)目前主流的目標(biāo)跟蹤算法分類介紹,并且對(duì)深度學(xué)習(xí)環(huán)境下目標(biāo)跟蹤算法發(fā)展方向進(jìn)行分析展望。文獻(xiàn)[5]從孿生網(wǎng)絡(luò)在目標(biāo)跟蹤中的應(yīng)用入手,分析了基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法比傳統(tǒng)算法的優(yōu)勢(shì)以及未來該類算法的發(fā)展方向。文獻(xiàn)[6]從尺度方向自適應(yīng)角度進(jìn)行總結(jié),分析各算法跟蹤過程中如何處理尺度變化問題。此外過去的目標(biāo)跟蹤算法綜述文章均沒有對(duì)最新的Transformer框架目標(biāo)跟蹤算法進(jìn)行總結(jié)。
現(xiàn)有算法的準(zhǔn)確性、跟蹤速度等方面仍然有提升空間,視覺目標(biāo)跟蹤問題仍然具有挑戰(zhàn)性。目標(biāo)跟蹤算法主要可以分為生成式和判別式兩大類?,F(xiàn)將從生成式動(dòng)態(tài)目標(biāo)跟蹤算法與判別式動(dòng)態(tài)目標(biāo)跟蹤算法分類標(biāo)準(zhǔn)作為切入點(diǎn)。首先主要介紹目前目標(biāo)跟蹤領(lǐng)域常用的數(shù)據(jù)標(biāo)準(zhǔn)集。其次介紹從原理的角度分析兩類算法的區(qū)別。再次主要介紹兩大類生成式算法,均值漂移算法和貝葉斯濾波算法。然后從主流判別式算法框架相關(guān)濾波框架、深度學(xué)習(xí)框架、孿生網(wǎng)絡(luò)框架、Transformer框架重點(diǎn)介紹判別式算法。最后結(jié)合前面所介紹的算法優(yōu)缺點(diǎn)展望發(fā)展趨勢(shì)。
基準(zhǔn)數(shù)據(jù)集的出現(xiàn),使得不同算法性能對(duì)比有了依據(jù)。目前主要使用的基準(zhǔn)數(shù)據(jù)集有在線目標(biāo)跟蹤基準(zhǔn)(object tracking benchmark, OTB)、視覺目標(biāo)跟蹤集(visual object tracking, VOT)等。OTB基準(zhǔn)數(shù)據(jù)集包含OTB50[7]、OTB100[8]。OTB50基準(zhǔn)數(shù)據(jù)集由50段帶有標(biāo)記屬性的視頻序列組成,其中代表了現(xiàn)實(shí)情況中執(zhí)行跟蹤算法時(shí)會(huì)遇到的難題,包括光照變化、尺度變化、遮擋、形變、運(yùn)動(dòng)模糊、快速運(yùn)動(dòng)、平面內(nèi)旋轉(zhuǎn)、平面外旋轉(zhuǎn)、移出視野范圍、低分辨率以及背景雜亂等。文獻(xiàn)[8]在OTB50的基礎(chǔ)上對(duì)數(shù)據(jù)集進(jìn)行了擴(kuò)展,將50段視頻序列增加到100段。
VOT數(shù)據(jù)集是為每年VOT競(jìng)賽而準(zhǔn)備的數(shù)據(jù)集,最早可以追溯到VOT2013[9]。該數(shù)據(jù)集與OTB基準(zhǔn)數(shù)據(jù)集相比采用全彩色圖片并且圖片清晰度也更高。隨著目標(biāo)跟蹤算法的不斷優(yōu)化,該數(shù)據(jù)集的數(shù)據(jù)以及評(píng)判標(biāo)準(zhǔn)逐年更新并且逐年加大難度。目前VOT2013[9]和VOT2014[10]數(shù)據(jù)集以及評(píng)判標(biāo)準(zhǔn)已經(jīng)被官方宣布停止使用,在此也不做討論。VOT2015[11]在VOT2014數(shù)據(jù)集基礎(chǔ)上將數(shù)據(jù)集的序列數(shù)量擴(kuò)大了1倍,并且對(duì)目標(biāo)加入旋轉(zhuǎn)特性檢測(cè),在評(píng)價(jià)標(biāo)準(zhǔn)上首次提出使用平均重疊期望(expected average overlap, EAO)標(biāo)準(zhǔn),并將該標(biāo)準(zhǔn)作為算法排名的主要依據(jù)。VOT2016[12]選用與VOT2015一樣的樣本集,并使用自動(dòng)標(biāo)注的方式對(duì)樣本集重新進(jìn)行標(biāo)注,此外從重疊估計(jì)方面優(yōu)化了評(píng)價(jià)體系。VOT2017[13]基準(zhǔn)數(shù)據(jù)集除了在原來數(shù)據(jù)集的基礎(chǔ)上進(jìn)行改進(jìn),同時(shí)添加了隔離數(shù)據(jù)集用于冠軍角逐。VOT2017首次提出對(duì)跟蹤器進(jìn)行實(shí)時(shí)性實(shí)驗(yàn),這表明目前的目標(biāo)跟蹤算法正在從實(shí)驗(yàn)階段向?qū)嶋H應(yīng)用階段發(fā)展。VOT2018[14]沿用往年的數(shù)據(jù)集,在原來賽事基礎(chǔ)上增加長(zhǎng)時(shí)跟蹤挑戰(zhàn)項(xiàng)目。長(zhǎng)時(shí)目標(biāo)跟蹤挑戰(zhàn)中目標(biāo)可能會(huì)出現(xiàn)消失或被遮擋等現(xiàn)象,因此評(píng)價(jià)工具需要跟蹤器實(shí)時(shí)反饋目標(biāo)位置以及目標(biāo)情況。長(zhǎng)時(shí)目標(biāo)跟蹤進(jìn)一步促進(jìn)了目標(biāo)跟蹤算法走出實(shí)驗(yàn)室。VOT2019[15]不僅恢復(fù)了關(guān)于熱成像的目標(biāo)跟蹤挑戰(zhàn)項(xiàng)目,還加入了融合深度特征的目標(biāo)跟蹤挑戰(zhàn),至此挑戰(zhàn)項(xiàng)目多達(dá)5項(xiàng)。此外,VOT2019對(duì)公數(shù)據(jù)集和隔離數(shù)據(jù)集進(jìn)行部分更新,并根據(jù)長(zhǎng)時(shí)跟蹤和短時(shí)跟蹤在目標(biāo)假設(shè)上的不同優(yōu)化了評(píng)價(jià)協(xié)議。VOT2020[16]使用Python語(yǔ)言重新編寫了VOT工具包,測(cè)試跟蹤器的能力得到了大幅提高。在短時(shí)跟蹤挑戰(zhàn)中使用分割的方式標(biāo)記目標(biāo)代替?zhèn)鹘y(tǒng)使用矩形框的方式標(biāo)記目標(biāo)。如表1所示為VOT每年排名前五的算法匯總。
表1 VOT每年排名前五算法匯總[9-16]Table 1 Summary of top five algorithms in VOT of every year[9-16]
生成式目標(biāo)跟蹤算法通過提取待跟蹤目標(biāo)的特征建立目標(biāo)模型,利用生成的模型對(duì)待檢測(cè)圖像進(jìn)行搜索,尋找與目標(biāo)模型最匹配區(qū)域,該區(qū)域即為目標(biāo)區(qū)域。因此生成式目標(biāo)跟蹤算法主要框架包含四個(gè)部分,目標(biāo)選擇、目標(biāo)特征提取、目標(biāo)建模、目標(biāo)定位,如圖1所示。具體來說,人工或使用目標(biāo)檢測(cè)算法對(duì)第一幀圖像進(jìn)行處理,勾選出目標(biāo)并標(biāo)記,當(dāng)前常用的目標(biāo)檢測(cè)算法有幀差法、背景差法等;然后對(duì)選中的目標(biāo)的特征進(jìn)行建模,通常關(guān)注目標(biāo)的灰度特征、邊緣特征、梯度特征、顏色特征、紋理特征等,常用的模型有混合高斯模型、貝葉斯網(wǎng)絡(luò)模型、馬爾可夫模型等;目標(biāo)定位則是完成跟蹤。
圖1 生成式目標(biāo)跟蹤框架Fig.1 Generative target tracking framework
判別式目標(biāo)跟蹤算法認(rèn)為目標(biāo)跟蹤問題是關(guān)于目標(biāo)和背景的分類問題。該類算法將圖像中將目標(biāo)區(qū)域作為正樣本,背景區(qū)域作為負(fù)樣本進(jìn)行訓(xùn)練并生成分類器,生成的分類器可以在下一幀圖像中找到最優(yōu)區(qū)域,該區(qū)域?yàn)槟繕?biāo)區(qū)域。目前判別式目標(biāo)跟蹤算法主要可以分為相關(guān)濾波類、深度學(xué)習(xí)類以及孿生神經(jīng)網(wǎng)絡(luò)類。
因此生成式算法與判別式算法最大的區(qū)別是,生成式方法僅關(guān)注目標(biāo)特征信息,以目標(biāo)特征建立目標(biāo)模型,忽視背景信息;判別式方法采用機(jī)器學(xué)習(xí)訓(xùn)練分類器,訓(xùn)練過程中不僅包含目標(biāo)信息,還兼顧背景信息。
均值漂移(Meanshift)[17]算法是沿向量方向連續(xù)迭代候選目標(biāo)幀,使其與模板的相似度最大,并收斂到目標(biāo)的真實(shí)位置。該方法計(jì)算復(fù)雜度低,提取特征時(shí)會(huì)根據(jù)空間距離對(duì)中心位置周圍的點(diǎn)進(jìn)行加權(quán)。為解決光照變化導(dǎo)致的鬼影問題,王凱等[18]將色度、梯度以及運(yùn)動(dòng)矢量預(yù)測(cè)引入Meanshift算法中提高了監(jiān)控系統(tǒng)場(chǎng)景下目標(biāo)跟蹤算法準(zhǔn)確性。
針對(duì)目標(biāo)運(yùn)動(dòng)過程中尺度變化問題對(duì)Mean-shift算法進(jìn)行改進(jìn)提出Camshif[19]。Meanshift算法是針對(duì)單幀圖像的計(jì)算,并且顏色概率分布是靜態(tài)的,而Camshift算法對(duì)每個(gè)幀圖像進(jìn)行Meanshift運(yùn)算,其顏色概率分布是動(dòng)態(tài)的,Camshift能夠調(diào)節(jié)搜索窗口,解決了目標(biāo)尺度變化問題,但降低了原算法的實(shí)時(shí)性。董恩增等[20]將特征匹配融入傳統(tǒng)的Camshift算法,有效優(yōu)化背景中與目標(biāo)顏色相近導(dǎo)致的錯(cuò)誤跟蹤問題。
Vojir等[21]提出尺度自適應(yīng)均值漂移跟蹤器(scale adaptive mean-shift tracker, ASMS)。該算法在原有的Meanshift算法框架下引入了尺度估計(jì)以及顏色直方圖特征,同時(shí)使用尺度不巨變先驗(yàn)和可能偏最大先驗(yàn)作為正則項(xiàng)以及反向尺度一致性檢測(cè),在跟蹤目標(biāo)過程中會(huì)根據(jù)目標(biāo)尺寸變化進(jìn)行相應(yīng)調(diào)整。ASMS算法在保證一定準(zhǔn)確度的同時(shí)平均幀率可以達(dá)到125幀/s,是VOT2015競(jìng)賽官方推薦的實(shí)時(shí)算法,但是當(dāng)背景顏色與目標(biāo)顏色相近時(shí)該算法很容易丟失目標(biāo)。如表2所示為均值漂移算法改進(jìn)方式與效果。
表2 均值漂移算法改進(jìn)與效果Table 2 Improvement and effect of Meanshift algorithm
遞歸貝葉斯濾波( Bayesian filtering) 算法是基于貝葉斯估計(jì)理論的基礎(chǔ)提出的目標(biāo)跟蹤方案[22]。該算法包含預(yù)測(cè)和更新兩個(gè)步驟,通過這兩個(gè)步驟反復(fù)迭代估計(jì)圖像中目標(biāo)的位置。遞歸貝葉斯濾波概率在實(shí)際目標(biāo)跟蹤中很難獲得最優(yōu)解,為解決這一問題提出了卡爾曼濾波目標(biāo)跟蹤算法和粒子濾波目標(biāo)跟蹤算法。
卡爾曼濾波(Kalman filtering)算法[23]是一種以狀態(tài)方程和觀測(cè)方程為基礎(chǔ),運(yùn)用遞歸的方式來預(yù)測(cè)目標(biāo)在下一幀的位置。在跟蹤過程中該算法可以通過卡爾曼增益變化規(guī)避傳感器噪聲、觀測(cè)值不準(zhǔn)確等問題,并實(shí)現(xiàn)對(duì)狀態(tài)真實(shí)值的最優(yōu)估計(jì)??柭鼮V波算法作為一種預(yù)測(cè)機(jī)制,當(dāng)目標(biāo)發(fā)生遮擋時(shí)可能會(huì)出現(xiàn)丟失目標(biāo)現(xiàn)象。楊鵬生等[24]提出了一種基于改進(jìn)擴(kuò)展卡爾曼濾波的目標(biāo)跟蹤算法。該算法通過構(gòu)建時(shí)間差和信號(hào)到達(dá)方向的觀測(cè)方程,利用幾何和代數(shù)關(guān)系化簡(jiǎn)得到偽線性模型提高了目標(biāo)跟蹤精度,而且使目標(biāo)跟蹤結(jié)果更加穩(wěn)定?;诳柭鼮V波的目標(biāo)跟蹤算法僅對(duì)線性目標(biāo)模型有較好的效果,然而在實(shí)際應(yīng)用中大多數(shù)模型都是非線性的。許紅香等[25]將無損變換引入傳統(tǒng)的卡爾曼濾波算法,并將采集到的圖像分為多簇處理后使用協(xié)方差交叉融合,改善非線性目標(biāo)跟蹤。對(duì)于非線性目標(biāo)模型,通常適用粒子濾波方法實(shí)現(xiàn)目標(biāo)跟蹤。
粒子濾波算法[26]將蒙特卡洛思想引入貝葉斯濾波中。該算法核心思想是將隨機(jī)采樣與重要性重采樣相結(jié)合。通過對(duì)圖像隨機(jī)散布粒子并采樣特征,將采樣結(jié)果與目標(biāo)特征對(duì)比,計(jì)算出每個(gè)粒子的相似度,對(duì)相似度高的區(qū)域投入更多的粒子,迭代操作最終確定目標(biāo)位置。粒子濾波從一定程度上,屬于卡爾曼濾波的拓展,解決了卡爾曼濾波只適用于線性高斯分布概率問題,為分析非線性模型提供了一種有效的解決方案。趙宗超等[27]利用引導(dǎo)圖像濾波(guided image filer, GIF)對(duì)待檢測(cè)圖像濾波處理增強(qiáng)目標(biāo)區(qū)域,使編碼器增加訓(xùn)練樣本,提高粒子置信度準(zhǔn)確性,實(shí)現(xiàn)在線跟蹤。如表3所示為貝葉斯濾波算法改進(jìn)方式與效果。
表3 貝葉斯濾波算法改進(jìn)與效果Table 3 Improvement and effect of Bayesian filtering algorithm
基于相關(guān)濾波的目標(biāo)跟蹤算法可以近似看成兩個(gè)信號(hào)尋找最大相關(guān)值。通過對(duì)第一幀樣本圖片進(jìn)行訓(xùn)練,輸出一個(gè)具有區(qū)分背景和目標(biāo)能力的濾波器,使用該濾波器對(duì)后面的每一幀圖片進(jìn)行運(yùn)算獲取相關(guān)值,根據(jù)運(yùn)算后相關(guān)值的大小判斷目標(biāo)位置,相關(guān)值越大,說明該區(qū)域與目標(biāo)的相似度越高,同時(shí)將每一回合響應(yīng)結(jié)果返回濾波器對(duì)濾波器進(jìn)行更新以提高下回合跟蹤的準(zhǔn)確性。如圖2所示為相關(guān)濾波結(jié)構(gòu)框圖。
圖2 相關(guān)濾波結(jié)構(gòu)框圖Fig. 2 Structure block diagram of correlation filter
基于相關(guān)濾波器目標(biāo)跟蹤算法最早可以追溯到由Bolme等[28]提出的最小化輸出誤差平方和濾波器(minimum output tracking using adaptive correlation filters, MOSSE)。MOSSE能夠在初始化單個(gè)幀的時(shí)候產(chǎn)生穩(wěn)健的濾波器,并用卷積定理將輸入圖像和濾波器轉(zhuǎn)換到頻域相乘,再返回時(shí)域得到響應(yīng)圖。根據(jù)響應(yīng)值大小來實(shí)現(xiàn)目標(biāo)跟蹤。由于MOSSE算法僅提取灰度特征,因此具有較快的運(yùn)行速度可以達(dá)到669幀/s。后續(xù)的基于相關(guān)濾波的目標(biāo)跟蹤算法大多是建立在MOSSE算法框架的基礎(chǔ)上圍繞特征表達(dá)、尺度自適應(yīng)、邊界效應(yīng)等方面進(jìn)行改進(jìn)。
Henriques等[29]首次將核函數(shù)引入目標(biāo)跟蹤算法提出循環(huán)結(jié)構(gòu)核跟蹤器(circulant structure kernels, CSK),使用了一種基于循環(huán)矩陣的采樣方法代替?zhèn)鹘y(tǒng)的粒子采樣方法。該跟蹤器與MOSSE相同僅采集單通道灰度特征,灰度特征的表征能力不足以處理背景復(fù)雜或者目標(biāo)與背景顏色相似的情況。為豐富目標(biāo)特征,Danelljan等[30]以CSK算法為基礎(chǔ),將原本的灰度特征換成多通道顏色特征提出自適應(yīng)顏色屬性(color name, CN)算法,同時(shí)結(jié)合自適應(yīng)降維策略將主成分分析(principal components analysis, PCA)從11維降到2維,改進(jìn)了模型跟蹤方案在降低計(jì)算成本的同時(shí)提升了跟蹤性能。除了顏色特征,方向梯度直方圖(histogram of oriented gradients, HOG) 特征在描述目標(biāo)方面也顯示出了明顯的優(yōu)勢(shì)。Henriques等[31]在CSK基礎(chǔ)上提出了核相關(guān)濾波算法(kernel correlation filter, KCF)和判別式相關(guān)濾波器(discriminative correlation filter, DCF),該算法將單通道的灰度特征拓展到了HOG特征。其采用嶺回歸與循環(huán)移位進(jìn)行密集采樣,并通過核函數(shù)將低維線性空間映射到高維空間,提高了相關(guān)濾波跟蹤算法的魯棒性。Li等[32]對(duì)DCF算法進(jìn)行改進(jìn),提出了AutoTrack算法。該算法引入空間局部相應(yīng)作為正則項(xiàng),實(shí)現(xiàn)了在線自適應(yīng)時(shí)空正則項(xiàng)優(yōu)化,在保證跟蹤精度的同時(shí)實(shí)現(xiàn)了60幀/s。AutoTrack算法定位用于無人機(jī)系統(tǒng),是目前最好的基于中央處理器(central processing unit, CPU)跟蹤器。
為優(yōu)化尺度變化問題,Li等[33]提出了集成尺度自適應(yīng)和核相關(guān)濾波器的跟蹤器(a kernel corre-lation filter tracker with scale adaptive and feature integration, SAMF) 算法。該算法在KCF框架基礎(chǔ)上,將KCF單一特征換成對(duì)Gray、Color、HOG三種特征矢量疊加,同時(shí)創(chuàng)建擁有7個(gè)粗略尺度的尺度池通。該算法對(duì)預(yù)選區(qū)域目標(biāo)按照尺度池做七次尺度計(jì)算并于上一幀圖片目標(biāo)進(jìn)行對(duì)比,響應(yīng)值最大的尺度則為當(dāng)前目標(biāo),由此可知SAMF在實(shí)際使用中速度非常慢。Danelljan等[34]提出的精確尺度目標(biāo)跟蹤(accurate scale estimation for robust visual tracking, DSST)算法,該算法采用先平移跟蹤后尺度跟蹤策略實(shí)現(xiàn)局部尋優(yōu)過程,同時(shí)將尺度池?cái)U(kuò)展到33個(gè)精細(xì)尺度,有效解決了SAMF最高峰處不一定是尺度最優(yōu)解問題,并在VOT2014競(jìng)賽上取得冠軍成績(jī)。為提高效率,該團(tuán)隊(duì)在2017年提出快速精確尺度目標(biāo)跟蹤(fast DSST, FDSST)算法[35],采用降維以及正交三角分解減低了計(jì)算量,有效的解決復(fù)雜度問題。以上幾種算法均為窮舉尺度池的方法,除此之外還有分塊處理方法。扆夢(mèng)楠等[36]將DSST算法中的手動(dòng)標(biāo)記換成檢測(cè)算法,提高了指定場(chǎng)景下目標(biāo)跟蹤便捷度。Li等[37]提出的可信塊跟蹤器 (reliable patch trackers, RPT),由部件間的相對(duì)位置關(guān)系推斷目標(biāo)的尺度變換情況。Akin等[38]從平衡準(zhǔn)確性與實(shí)時(shí)性的角度出發(fā)提出了通過全局和局部耦合相關(guān)濾波對(duì)部分形變目標(biāo)跟蹤的跟蹤器(defor-mable part-based tracking by coupled global and local correlation filters, DPCF),通過一個(gè)全局濾波器和多個(gè)部件濾波器間的耦合作用協(xié)同處理局部遮擋和尺度變化問題。除了尺度池窮舉法和分塊模型法可以實(shí)現(xiàn)尺度自適應(yīng)外,還可以通過特征點(diǎn)模型實(shí)現(xiàn)尺度自適應(yīng)。Montero等[39]提出的sKCF算法在相鄰圖像幀中以目標(biāo)為中心提取特征點(diǎn)并對(duì)按照距離對(duì)特征點(diǎn)賦予不同的權(quán)值,離目標(biāo)中心距離越近權(quán)值越大,反之權(quán)值越小。通過對(duì)比前后圖像幀中的特征點(diǎn)的位置變化實(shí)現(xiàn)對(duì)目標(biāo)尺度自適應(yīng)變化。相比之下分塊模型法和特征點(diǎn)模型法作為自適應(yīng)定義尺度方法是對(duì)尺度池窮舉法的優(yōu)化,具有更好的效果。
當(dāng)目標(biāo)發(fā)生快速運(yùn)動(dòng)或者形變時(shí)將會(huì)導(dǎo)致邊界效應(yīng)發(fā)生。單使用HOG特征CSK、KCF等算法將無法應(yīng)對(duì)。為應(yīng)對(duì)邊界效應(yīng)問題,較早是由Danelljan等[40]提出的空間正則化鑒別相關(guān)濾波器跟蹤器(spatially regularized discriminative correlation filter tracker, SRDCF)。該算法在傳統(tǒng)的KCF 算法基礎(chǔ)上擴(kuò)大了搜索區(qū)域,并采用空域正則化對(duì)濾波器邊界函數(shù)加大權(quán)重約束,并使用Gauss-Seidel函數(shù)來求解濾波器,使得分類器能夠更準(zhǔn)確地進(jìn)行追蹤。SRDCFdecon[41]在原算法的基礎(chǔ)上對(duì)樣本問題和學(xué)習(xí)率問題進(jìn)行優(yōu)化。Kiani等[42]提出有限邊界的相關(guān)濾波器(correlation filters with limited boundaries, CFLB)算法。該算法通過使用大于目標(biāo)區(qū)域的圖片進(jìn)行訓(xùn)練,然后使用二值矩陣對(duì)目標(biāo)區(qū)域進(jìn)行提取。由于選擇圖片過大會(huì)導(dǎo)致訓(xùn)練出的濾波器不準(zhǔn)算法,因此該算法在魯棒性方面并不理想。
表4為部分相關(guān)濾波目標(biāo)跟蹤算法分析對(duì)比。通過對(duì)比發(fā)現(xiàn)每一種算法都有獨(dú)特的優(yōu)點(diǎn),因此將多種算法合理的融合,實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ)也是較好的研究方向。隨著硬件的高速發(fā)展,計(jì)算機(jī)計(jì)算能力不斷提高實(shí)時(shí)性的問題可能會(huì)得到一定的解決。當(dāng)前眾多學(xué)者致力于深度特征與相關(guān)濾波算法相結(jié)合,進(jìn)一步優(yōu)化相關(guān)濾波目標(biāo)跟蹤算法的性能。
表4 部分相關(guān)濾波目標(biāo)跟蹤算法Table 4 Target tracking algorithm based on partial correlation filtering
從VOT目標(biāo)跟蹤大賽比賽結(jié)果可以看出,競(jìng)賽的前五名大多使用了深度學(xué)習(xí)算法。目前主流的深度學(xué)習(xí)算法在目標(biāo)跟蹤領(lǐng)域仍然存在兩個(gè)明顯的缺陷:①目標(biāo)跟蹤中正樣本通常只有初始幀中的目標(biāo),沒有大量的數(shù)據(jù)支撐很難訓(xùn)練出良好的分類器;②為改善目標(biāo)跟蹤效果,通常需要提高網(wǎng)絡(luò)的復(fù)雜度,這導(dǎo)致了算法的復(fù)雜度提高,實(shí)時(shí)性大幅下降。當(dāng)前基于深度學(xué)習(xí)的目標(biāo)跟蹤算法主要可以分為兩大類,一類是將深度學(xué)習(xí)技術(shù)引入相關(guān)濾波目標(biāo)跟蹤算法,對(duì)原有的算法進(jìn)行改進(jìn);另一類是直接使用深度學(xué)習(xí)技術(shù)對(duì)目標(biāo)進(jìn)行端到端的跟蹤。
深度學(xué)習(xí)與相關(guān)濾波相結(jié)合的目標(biāo)跟蹤算法主要是使用深度學(xué)習(xí)技術(shù)對(duì)目標(biāo)進(jìn)行特征提取,并將提取的特征代替原相關(guān)濾波算法中的特征。Ma
等[43]提出分層卷積特征目標(biāo)跟蹤算法(hierarchical convolutional features for visual tracking, HCF),該算法用VGGNet-19模型作為特征提取器,經(jīng)過三層網(wǎng)絡(luò)分別訓(xùn)練濾波器,并通過濾波器得到的響應(yīng)圖進(jìn)行加權(quán),得到最終的響應(yīng)圖,并通過最大響應(yīng)定位目標(biāo)中心。但該算法在應(yīng)為目標(biāo)尺寸變化問題魯棒性較差,主要是因?yàn)樵撍惴▋H關(guān)注目標(biāo)的中心位置,并默認(rèn)被跟蹤物體尺寸不發(fā)生變化。Danelljan等[44]在SRDCF的基礎(chǔ)上將原特征替換成深度特征提出DeepSRDCF算法。DeepSRDCF探索了不同卷積層的深度特征對(duì)跟蹤效果的不同影響,實(shí)驗(yàn)表明使用第一卷積層所提取的特征的效果優(yōu)于使用其他層特征的效果,同時(shí)相對(duì)于深層特征,淺層特征擁有更加快速的提取速度,保證了算法的運(yùn)行速度。該算法證明了淺層卷積層比深層卷積層更適用于目標(biāo)跟蹤并且拿下了VOT2015大賽第二名,傳統(tǒng)的SRDCF算法名次為第四名。Danelljan等[45]根據(jù)DCF算法改進(jìn)提出了連續(xù)卷積算子跟蹤器(continuous convolution operator tracker, C-COT)。將原算法中使用單一分辨率的特征改為使用多分辨率特征并隱式插值模型實(shí)現(xiàn)多特征自然整合,改進(jìn)后算法還運(yùn)用了連續(xù)空間域中的區(qū)分卷積算子理論框架,提高跟蹤精度并取得了VOT2016大賽排名第一,但是由于使用高維特征需要訓(xùn)練大量濾波器,使得算法復(fù)雜度高,導(dǎo)致算法速度較慢。之后Danelljan等從樣本集大小、濾波器構(gòu)造和模型更新策略對(duì)C-COT進(jìn)行改進(jìn)提出了高效卷積算子跟蹤器(efficient convolution operator tracker, ECO)算法[46]。該算法使用因式分解的卷積操作對(duì)濾波器進(jìn)行降維,在樣本集方面利用混合高斯模型對(duì)具有類內(nèi)相似性和類間差異性的樣本組合,在更新策略方面采用間斷式模型更新策略間隔多幀完成一次更新,有效地避免模型漂移,同時(shí)降低了算法復(fù)雜度,提高了跟蹤精度的同時(shí)也大幅提高了算法效率,達(dá)到了同時(shí)期、同類算法的頂峰。如表5為部分算法在OTB50和OTB100標(biāo)準(zhǔn)集上的表現(xiàn)情況[47]。
表5 部分算法在OTB50和OTB100標(biāo)準(zhǔn)集上的表現(xiàn)[47]Table 5 Performance of some algorithms on OTB50 and OTB100 standard set[47]
端到端的分類深度網(wǎng)絡(luò)跟蹤最早由Nam等[48]提出多域卷積神經(jīng)網(wǎng)絡(luò)跟蹤器(multi-domain convolutional neural network tracker, MDnet)算法并取得了VOT2015大賽冠軍。該網(wǎng)絡(luò)由特征提取通用的共享層和多分支檢測(cè)的全連接層兩部分組成。MDnet算法包括兩個(gè)階段,訓(xùn)練階段和目標(biāo)跟蹤階段。訓(xùn)練階段通過對(duì)數(shù)據(jù)集訓(xùn)練得到全連接層,共享層對(duì)所有數(shù)據(jù)通用以便獲得動(dòng)態(tài)目標(biāo)通用性深度特征;目標(biāo)跟蹤保留固定共享層,并根據(jù)新的數(shù)據(jù)建立新的全連接層,二者結(jié)合組成新的端到端網(wǎng)絡(luò)。MDnet利用卷積操作將目標(biāo)跟蹤作為目標(biāo)與背景的二分類問題處理,導(dǎo)致其在跟蹤過程中易受目標(biāo)相似物的干擾,并且對(duì)目標(biāo)遮擋的魯棒性較差。
針對(duì)該問題,Qi等[49]在MDnet的基礎(chǔ)上進(jìn)行改進(jìn),提出規(guī)模和狀態(tài)感知跟蹤器(scale-and-state aware tracker, SSAT)算法。該算法包含三個(gè)主要組件:使用基礎(chǔ)跟蹤器進(jìn)行跟蹤、邊界框細(xì)化和目標(biāo)狀態(tài)分類,針對(duì)目標(biāo)旋轉(zhuǎn)、變形問題,利用水平集圖像分割或邊界框回歸技術(shù)實(shí)現(xiàn)了邊界框自適應(yīng)縮緊。針對(duì)目標(biāo)遮擋問題設(shè)計(jì)單獨(dú)的卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network, CNN)對(duì)目標(biāo)遮擋狀態(tài)和非遮擋狀態(tài)進(jìn)行分類,當(dāng)目標(biāo)被遮擋時(shí)該幀圖像將不會(huì)被用于跟蹤器更新。如圖3所示為SSAT網(wǎng)絡(luò)結(jié)構(gòu)圖。
圖3 SSAT[49]網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 SSAT[49] network structure
Nam等[50]還提出了利用多個(gè)CNN構(gòu)成樹結(jié)構(gòu)并協(xié)作以完成目標(biāo)跟蹤的樹結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)跟蹤器(tree-structured convolutional neural network tracker,TCNN)。TCNN對(duì)每個(gè)CNN進(jìn)行可靠性評(píng)估以確定權(quán)重,CNN模型可靠性越高權(quán)重約大,并利用所有 CNN 進(jìn)行加權(quán)檢測(cè),充分發(fā)揮每個(gè)CNN的作用并以十幀圖像創(chuàng)建一個(gè)新節(jié)點(diǎn),同時(shí)刪除一個(gè)距離創(chuàng)建時(shí)刻最久的舊節(jié)點(diǎn),并選擇使新節(jié)點(diǎn)可靠性最高的節(jié)點(diǎn)作為父節(jié)點(diǎn),完成在線微調(diào),避免鄰近幀之間的過擬合,以此保證 TCNN 在整個(gè)跟蹤過程中的可靠性。
為解決尺度變化問題,Wang等提出了多級(jí)深度特征跟蹤器(multi-level deep feature tracker, MLDF)算法。該算法通過融合多級(jí)特征預(yù)訓(xùn)練一個(gè)多級(jí)網(wǎng)絡(luò)(multi-level network, MLN)。該網(wǎng)絡(luò)用于確定目標(biāo)中心位置,然后使用尺度預(yù)測(cè)網(wǎng)絡(luò)(scale prediction network, SPN)處理尺度變化問題。如表6為MDnet、SAnet和TCNN 在 VOT2016中的測(cè)試情況[12]。
表6 MDnet、SSAT、MLDF和TCNN性能對(duì)比[12]Table 6 Performance comparison of MDnet, SSAT, MLDF and TCNN[12]
孿生網(wǎng)絡(luò)結(jié)構(gòu)是由兩個(gè)網(wǎng)絡(luò)結(jié)構(gòu)或多個(gè)網(wǎng)絡(luò)結(jié)構(gòu)共同組成,并且該兩個(gè)網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)共享,一種特殊的神經(jīng)網(wǎng)絡(luò)架構(gòu)。在目標(biāo)跟蹤領(lǐng)域,孿生網(wǎng)絡(luò)算法同時(shí)接收兩個(gè)圖片并分別輸入兩個(gè)子神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,同時(shí)兩個(gè)子神經(jīng)網(wǎng)絡(luò)權(quán)值共享,通過對(duì)不同子神經(jīng)網(wǎng)絡(luò)獲得的圖像特征用于獲取相關(guān)響應(yīng)圖像進(jìn)行分析計(jì)算,以此判斷目標(biāo)位置并完成目標(biāo)跟蹤。
Tao等[52]提出的孿生網(wǎng)絡(luò)目標(biāo)跟蹤(siamese instance search tracking, SINT) 算法是首次將孿生網(wǎng)絡(luò)思想應(yīng)用到目標(biāo)跟蹤中。該算法包含兩個(gè)步驟,離線訓(xùn)練和在線跟蹤。離線訓(xùn)練使用阿姆斯特丹視頻跟蹤訓(xùn)練集(Amsterdam library of ordin-ary videos for tracking, ALOV)算法,采用最小化損失函數(shù)的方式進(jìn)行。在線跟蹤過程中分別將初始幀目標(biāo)圖像和當(dāng)前幀圖像分別輸入兩個(gè)神經(jīng)網(wǎng)絡(luò),并返回最大響應(yīng)區(qū)域作為目標(biāo)區(qū)域。Bertinetto 等[53]提出全卷積孿生網(wǎng)絡(luò)(fully-convolutional siamese network, SiamFC),該算法與SINT算法基本原理類似,都是首先通過離線訓(xùn)練然后進(jìn)行在線跟蹤。圖4為SiamFC網(wǎng)絡(luò)結(jié)構(gòu)圖,其中127×127×3為目標(biāo)圖像、255×255×3為當(dāng)前圖像,神經(jīng)網(wǎng)絡(luò)采用AlexNet結(jié)構(gòu),通過對(duì)響應(yīng)圖進(jìn)行處理則可以實(shí)現(xiàn)目標(biāo)跟蹤。以SiamFC為代表的早期的孿生網(wǎng)絡(luò)算法在跟蹤速度上表現(xiàn)良好,但是應(yīng)對(duì)尺度變化等問題還有待提高。
圖4 SiamFC[53]網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.4 Network structure of SiamFC[53]
為了解決SiamFC在面對(duì)目標(biāo)尺度變化時(shí)魯棒性較差的問題,Li等[54]借鑒了目標(biāo)檢測(cè)Faster R-CNN算法[55]將區(qū)域生成網(wǎng)絡(luò)(region proposal network, RPN)加入SiamFC框架提出了SiamRPN。將孿生網(wǎng)絡(luò)結(jié)構(gòu)分為一個(gè)分類分支和一個(gè)檢測(cè)分支,其中分類分支用來判斷是否為目標(biāo),檢測(cè)分支用邊界回歸來替代多尺度檢測(cè),得到了更好的目標(biāo)尺度。如表7所示為VOT2018大賽前五算法。該算法取得綜合排名第三名好成績(jī),并且在實(shí)時(shí)跟蹤賽項(xiàng)中遠(yuǎn)高于相近排名的算法[14]。Zhu等[56]為提高SiamRPN跟蹤器抗干擾能力對(duì)其進(jìn)行進(jìn)一步優(yōu)化,提出了DaSiamRPN算法。解決了傳統(tǒng)孿生網(wǎng)絡(luò)目標(biāo)跟蹤過程中只能區(qū)分前景和非語(yǔ)義背景導(dǎo)致的復(fù)雜背景下性能無法保證問題。
表7 VOT2018前五名算法[14]Table 7 Top five algorithm in VOT2018[14]
另一種是由Wang等[57]提出的可同時(shí)實(shí)現(xiàn)對(duì)目標(biāo)分割與目標(biāo)跟蹤的SiamMask,該算法在SiamFC基礎(chǔ)上增加多種功能模塊進(jìn)行改進(jìn)。SiamMask利用掩膜分支實(shí)現(xiàn)目標(biāo)二值化分割,并將目標(biāo)分割任務(wù)中的細(xì)節(jié)性特征用于目標(biāo)跟蹤任務(wù);利用邊界分支得到目標(biāo)候選區(qū)域;利用得分分支完成候選區(qū)域的篩選,最終可實(shí)現(xiàn)實(shí)時(shí)跟蹤。SiamMask首次提出使用掩膜的方式標(biāo)記目標(biāo)。He等[58]提出的SA-Siam首次將語(yǔ)義信息分支和外觀信息分支加入到目標(biāo)跟蹤框架,并且每個(gè)分支都是獨(dú)立的孿生網(wǎng)絡(luò),所以該算法結(jié)構(gòu)又叫做雙重孿生的網(wǎng)絡(luò)結(jié)構(gòu)。兩個(gè)分支在訓(xùn)練過程中遵循特征互異性原則,通道加權(quán)機(jī)制可以充分利用并融合具有互補(bǔ)性質(zhì)的語(yǔ)義特征和外觀特征使得算法在保證實(shí)時(shí)性的基礎(chǔ)上可以有效地判斷目標(biāo)外觀變化,相比于SiamFC算法跟蹤精度和魯棒性都得到了顯著提高。Li等[59]認(rèn)為視覺跟蹤中的目標(biāo)是任意形式任意類別的,因此預(yù)先訓(xùn)練的深度特征在目標(biāo)跟蹤領(lǐng)域貢獻(xiàn)并不大。針對(duì)這一觀點(diǎn)提出了目標(biāo)感知深度跟蹤算法(target-aware deep tracking, TADT)。該算法使用回歸損失和排名損失生成目標(biāo)運(yùn)動(dòng)特征和目標(biāo)尺度感知特征,并根據(jù)反向傳播梯度特征和目標(biāo)感知特征對(duì)每一個(gè)神經(jīng)網(wǎng)絡(luò)賦權(quán)值從而確定目標(biāo)。
Zhang等[60]對(duì)孿生網(wǎng)絡(luò)的骨干網(wǎng)絡(luò)進(jìn)行探索并提出更廣更深的孿生網(wǎng)絡(luò)(deeper and wider siamese networks, SiamDW)算法。作者總結(jié)當(dāng)前基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法均是使用AlexNet網(wǎng)絡(luò)框架,并通過實(shí)驗(yàn)更換網(wǎng)絡(luò)框架對(duì)比現(xiàn)有網(wǎng)絡(luò)框架下目標(biāo)跟蹤效果,發(fā)現(xiàn)效果均不如AlexNet網(wǎng)絡(luò)框架,且隨著網(wǎng)絡(luò)深度增加效果越差。隨后作者從步長(zhǎng)、填充、感受野等角度分析原因,并發(fā)現(xiàn)各影響因素之間并不完全獨(dú)立,且對(duì)于全卷積的孿生網(wǎng)絡(luò),填充操作會(huì)導(dǎo)致跟蹤性能退化。SiamDW使用新的殘差模塊(cropping-inside residual, CIR)來控制接收域的大小和網(wǎng)絡(luò)步長(zhǎng),削弱由填充操作引起的偏差對(duì)目標(biāo)跟蹤的負(fù)面影響,這種方法改進(jìn)下的SiamFC算法和SiamRPN算法在性能上都有所提高。Li等[61]通過在SiamRPN的基礎(chǔ)上改進(jìn)骨干網(wǎng)絡(luò),得到使用多層特征融合的深層孿生網(wǎng)絡(luò)模算法SiamRPN++算法。該算法使用了多級(jí)級(jí)聯(lián)方式完成特征的逐層聚合,有助于目標(biāo)跟蹤性能的提升。在VOT2017性能測(cè)評(píng)中對(duì) SiamRPN骨干網(wǎng)絡(luò)進(jìn)行改進(jìn)后得到的SiamRPN++,其各項(xiàng)性能均得到優(yōu)化。SiamMargin算法在SiamRPN++基礎(chǔ)上將判別式特征嵌入到孿生神經(jīng)網(wǎng)絡(luò)中,并用于離線訓(xùn)練,使得算法在保證速度的同時(shí)提高了準(zhǔn)確率。在線更新方面選用基于ROIAlign的更新方式,通過ROIAlign對(duì)當(dāng)前幀特征進(jìn)行建模,使用移動(dòng)平均策略更新模板,有效地應(yīng)對(duì)了目標(biāo)外觀變化問題[15]。
除了具有對(duì)稱結(jié)構(gòu)的孿生網(wǎng)絡(luò)完成目標(biāo)跟蹤的方法外,還有部分方法雖然借鑒了孿生網(wǎng)絡(luò)的并行框架,但是結(jié)構(gòu)并不嚴(yán)格對(duì)稱的迭代最大化跟蹤(accurate tracking by overlap maximization, ATOM)算法[62]。ATOM主要包括目標(biāo)估計(jì)模塊和目標(biāo)分類模塊,并借鑒目標(biāo)檢測(cè)領(lǐng)域的IoU-Net[63]設(shè)計(jì)了用于目標(biāo)估計(jì)模塊的IoU-Predictor網(wǎng)絡(luò)。如圖5為ATOM網(wǎng)絡(luò)模型。Lukezic等[64]將在ATOM基礎(chǔ)上引入相關(guān)濾波器模型,提高了跟蹤速度。
圖5 ATOM[62]網(wǎng)絡(luò)模型Fig.5 Atom[62] network mode
Transformer[65]框架不同于傳統(tǒng)深度學(xué)習(xí)框架,是一種基于注意力機(jī)制的框架。該框架早期服務(wù)于自然語(yǔ)言,近年才被應(yīng)用于計(jì)算機(jī)視覺。Transformer框架本質(zhì)是一個(gè)編碼解碼的結(jié)構(gòu)。在計(jì)算機(jī)視覺中主要被用于捕捉圖像上的目標(biāo)感受野。
Wang等[66]提出TrDiMP,將Transformer作為中間模塊用于特征提取,并有效地提升了特征質(zhì)量。同時(shí)對(duì)傳統(tǒng)的Transformer進(jìn)行改良,將編碼和解碼兩部分成兩個(gè)并行分支。編碼部分對(duì)模板部分進(jìn)行提取并使用注意力機(jī)制進(jìn)行增強(qiáng);搜索部分有解碼進(jìn)行處理。該算法雖然在檢測(cè)精度方面取得較好效果,但是對(duì)于目標(biāo)遮擋、目標(biāo)消失仍需要優(yōu)化。Chen等[67]提出Transt算法,在孿生網(wǎng)絡(luò)的基礎(chǔ)上引入Transformer框架,利用該框架中的注意力機(jī)制用于避免目標(biāo)跟蹤過程中的語(yǔ)義丟失問題。該算法雖然已經(jīng)取得較好效果,但是并沒有充分利用背景信息,還具有較大的提升空間。
目前基于Transformer框架的目標(biāo)跟蹤算法尚處于起步階段,但是已經(jīng)在現(xiàn)有的數(shù)據(jù)集上取得了較好的效果,潛力巨大。
從生成式目標(biāo)跟蹤算法和判別式目標(biāo)跟蹤算法作為切入點(diǎn)對(duì)目標(biāo)跟蹤算法進(jìn)行了梳理和分析。由上文可知,對(duì)于生成式模型來說主要缺點(diǎn)表現(xiàn)在忽略背景信息僅僅關(guān)注目標(biāo)信息,導(dǎo)致往往背景存在與目標(biāo)相似情況下無法正確跟蹤目標(biāo),并且生成式模型建模使用特征相對(duì)單一,對(duì)于光照變化、運(yùn)動(dòng)模糊、分辨率低、目標(biāo)旋轉(zhuǎn)等問題不能很好地兼顧,從而影響跟蹤的準(zhǔn)確性。由于原理的限制,生成式算法的綜合性能很難超越判別式算法的綜合性能,因此目前大部分科研人員將精力投入到判別式模型研究中?;谂袆e式模型的目標(biāo)跟蹤算法也將是未來目標(biāo)跟蹤算法的主力軍。結(jié)合本文中不同算法對(duì)比分析可得未來研究方向包括以下幾個(gè)方面。
(1)有效的特征選擇以及多特征融合。在討論相關(guān)濾波算法時(shí)發(fā)現(xiàn),目標(biāo)跟蹤的特征選擇經(jīng)歷了由簡(jiǎn)單到復(fù)雜,由單一到多特征融合的過程,如表5所示多特征的SAMF算法性能上優(yōu)于單一特征KCF算法。不同特征在目標(biāo)跟蹤過程中均可以發(fā)揮不同的優(yōu)勢(shì),因此后續(xù)研究過程中可以嘗試更多的特征組合方式,探究不同特征對(duì)于不同場(chǎng)景下目標(biāo)跟蹤的影響,從而尋找較優(yōu)的特征組合方式。
(2)相關(guān)濾波算法與深度學(xué)習(xí)算法相融合。深度學(xué)習(xí)算法具有跟蹤準(zhǔn)確、精度高等優(yōu)點(diǎn),相關(guān)濾波算法精度不及深度學(xué)習(xí)算法,但是運(yùn)算速度較快。將兩種類型算法相互結(jié)合取長(zhǎng)補(bǔ)短,C-COT、ECO等算法為融合算法均取得良好效果(C-COT在VOT2016中第一名、ECO在VOT2017中第四名)。因此相關(guān)濾波算法與深度學(xué)習(xí)算法相融合具有巨大的潛力,如何合理融合兩種算法發(fā)揮各自優(yōu)勢(shì)是值得探索的問題。
(3)從近年來VOT[14-16]大賽情況來看,基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法比例在不斷提高,并且取得驕人的成績(jī)。基于孿生網(wǎng)絡(luò)的目標(biāo)跟蹤算法是未來目標(biāo)跟蹤算法主要發(fā)展之一。目前隨著深度學(xué)習(xí)技術(shù)發(fā)展提出的網(wǎng)絡(luò)結(jié)構(gòu)眾多,但是應(yīng)用于孿生網(wǎng)絡(luò)結(jié)構(gòu)卻比較單一。Zhan等[60]進(jìn)行過探索并總結(jié)出一些規(guī)律,但是并沒有找到合適的方法將新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)引入孿生網(wǎng)絡(luò)目標(biāo)跟蹤算法中。如何將新型網(wǎng)絡(luò)結(jié)構(gòu)合理的加入孿生網(wǎng)絡(luò)模型中,在保證實(shí)時(shí)性的同時(shí)盡可能地提高跟蹤進(jìn)度,是值得深入研究和探索的。
(4)Transformer框架作為最新的網(wǎng)絡(luò)框架近年被應(yīng)用于目標(biāo)跟蹤領(lǐng)域,該框架的引入注重了連續(xù)幀圖像中的時(shí)序關(guān)系,突出了目標(biāo)跟蹤算法與目標(biāo)檢測(cè)算法本質(zhì)區(qū)別。目前該框架下的目標(biāo)跟蹤算法剛剛開始發(fā)展,在短時(shí)跟蹤下表現(xiàn)效果良好,在長(zhǎng)時(shí)跟蹤、目標(biāo)丟失重檢仍然存在巨大的提升空間。