魏永強(qiáng),楊小軍
長(zhǎng)安大學(xué) 信息工程學(xué)院,西安 710064
視覺目標(biāo)跟蹤作為計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要研究課題,在智能監(jiān)控[1-3]、人機(jī)交互[4-5]、虛擬現(xiàn)實(shí)[6-8]中得到廣泛的實(shí)際應(yīng)用。視覺目標(biāo)跟蹤是指當(dāng)給定要跟蹤的視頻圖像第一幀中目標(biāo)的初始位置,來計(jì)算在下一幀視頻圖像中目標(biāo)的確切位置[9]。與此同時(shí),對(duì)于視頻中的運(yùn)動(dòng)目標(biāo),其運(yùn)動(dòng)的場(chǎng)景非常復(fù)雜并且經(jīng)常發(fā)生變化,容易受到背景相似、光照條件變化、遮擋、外觀變形、快速運(yùn)動(dòng)等各種干擾因素;并且目標(biāo)跟蹤算法還要具備實(shí)時(shí)性[10]。針對(duì)這些問題,許多算法應(yīng)運(yùn)而生。其中,文獻(xiàn)[11]使用分類方法對(duì)目標(biāo)進(jìn)行跟蹤。文獻(xiàn)[12]提出TLD(Tracking-Learning-Detection)目標(biāo)跟蹤框架,嘗試實(shí)現(xiàn)目標(biāo)在完全被遮擋或者目標(biāo)離開視場(chǎng)等復(fù)雜場(chǎng)景下的長(zhǎng)時(shí)間目標(biāo)跟蹤。該框架將長(zhǎng)時(shí)間目標(biāo)跟蹤劃分為三個(gè)子模塊,即跟蹤、學(xué)習(xí)和檢測(cè)模塊。文獻(xiàn)[13]利用SVM方法在線學(xué)習(xí)一個(gè)分類器。文獻(xiàn)[14]將顏色屬性作為輸入數(shù)據(jù),通過將目標(biāo)在RGB空間的顏色特征轉(zhuǎn)化到CN空間的11維顏色特征,它可以準(zhǔn)確、穩(wěn)定地處理豐富的顏色特征,因此用提取到的CN特征訓(xùn)練出來的濾波器更加魯棒。文獻(xiàn)[15]針對(duì)傳統(tǒng)的核相關(guān)濾波器樣本尺寸固定的問題,融合了HOG特征和CN特征以及灰度特征;同時(shí)使用尺度池技術(shù)對(duì)目標(biāo)進(jìn)行尺度變化的檢測(cè)跟蹤,找到目標(biāo)的最佳尺度,提高跟蹤器的綜合性能。文獻(xiàn)[16]將尺度濾波器和位置濾波器相結(jié)合,位置濾波器進(jìn)行當(dāng)前幀目標(biāo)的定位,尺度濾波器進(jìn)行當(dāng)前幀目標(biāo)尺度的估計(jì),從而可以選擇不同的特征種類和特征計(jì)算方式。文獻(xiàn)[17]通過采用PCA降維,尺度由33個(gè)減少到17個(gè),提高了速度和魯棒性。針對(duì)在遮擋的情況下可能導(dǎo)致追蹤失敗。文獻(xiàn)[18]通過將空間和時(shí)間正則化納入DCF框架,有效解決邊界效應(yīng),可以在有遮擋情況下成功追蹤目標(biāo),同時(shí)能夠很好地適應(yīng)較大的外觀變化,該模型在準(zhǔn)確率、魯棒性和速度方面都表現(xiàn)良好,可實(shí)時(shí)追蹤目標(biāo)。文獻(xiàn)[19]使用每一幀灰度圖像中的目標(biāo)圖像塊訓(xùn)練濾波器,在頻域進(jìn)行相關(guān)濾波,實(shí)現(xiàn)目標(biāo)的實(shí)時(shí)跟蹤。在該框架基礎(chǔ)上,基于相關(guān)濾波的跟蹤算法取得了極大的突破,大大擴(kuò)展了相關(guān)濾波的應(yīng)用范圍。文獻(xiàn)[20]中,在時(shí)域中的相關(guān)運(yùn)算數(shù)學(xué)表達(dá)式為:
式中f和h、g分別表示要跟蹤的視頻圖像、濾波器模板、響應(yīng)輸出。為加速計(jì)算,對(duì)上式進(jìn)行快速傅里葉變換。將輸入的圖像以及濾波器進(jìn)行二維傅里葉變換,然后將時(shí)域中的卷積變成頻域內(nèi)的點(diǎn)乘,得到下式:
⊙表示點(diǎn)乘,?表示復(fù)共軛。為了能獲得一個(gè)將訓(xùn)練數(shù)據(jù)映射到期望輸出的濾波器,通過建立最小化輸出平方和誤差模型來求解濾波模板??紤]到目標(biāo)外觀變化的影響,因此對(duì)初始跟蹤框進(jìn)行隨機(jī)仿射變換來產(chǎn)生n個(gè)圖像作為參考樣本,從而提高濾波器模板的魯棒性。由此得到目標(biāo)函數(shù):
利用目標(biāo)函數(shù)可以訓(xùn)練出最優(yōu)的相關(guān)濾波模板。
基于核相關(guān)濾波的算法憑借實(shí)時(shí)性優(yōu)勢(shì)得到廣泛應(yīng)用。但由于采用傳統(tǒng)的淺層手工特征,在實(shí)際跟蹤過程中存在精度過低問題。針對(duì)此問題,本文提出的算法基于核相關(guān)濾波框架,并利用預(yù)訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型(殘差網(wǎng)絡(luò)[21])來提取深度特征,在滿足實(shí)時(shí)性的同時(shí),精度也有較大的提升。
自從 MOSSE(Minimum Output Sum of Squared Error)算法把相關(guān)濾波的思想運(yùn)用到目標(biāo)跟蹤問題中,憑借極快的跟蹤速度,相關(guān)濾波算法不斷得到改進(jìn)。CSK跟蹤算法,引入圖像的循環(huán)移位采樣、巧用核函數(shù)等方法進(jìn)行跟蹤。后來,在原有的核相關(guān)濾波算法的基礎(chǔ)上,把此算法拓展到具有多個(gè)通道特征的情況,提出了KCF[22]算法。該算法主要流程可分為以下四個(gè)方面。
在分類時(shí)如何構(gòu)造所需要訓(xùn)練的樣本是一個(gè)非常關(guān)鍵的問題。傳統(tǒng)方法中利用在視頻圖像上臨近目標(biāo)區(qū)域采集得到的樣本作為正樣本,離目標(biāo)較遠(yuǎn)的區(qū)域采集得到的樣本為負(fù)樣本。但這種采樣方法不足之處在于:采集到的樣本沒有規(guī)律,采集的樣本過多,在進(jìn)行訓(xùn)練的時(shí)候會(huì)很耗時(shí)。于是,KCF算法通過對(duì)目標(biāo)區(qū)域進(jìn)行循環(huán)采樣,既能獲得足夠多的合理訓(xùn)練樣本,又能在計(jì)算的過程中利用循環(huán)矩陣的性質(zhì)把求解過程轉(zhuǎn)化到傅里葉域中實(shí)現(xiàn),提高了算法的速度。
算法的主要目標(biāo)是從訓(xùn)練樣本中學(xué)習(xí)一個(gè)多通道的卷積濾波器。假設(shè)第i個(gè)訓(xùn)練樣本為xi,對(duì)應(yīng)標(biāo)簽為yi,對(duì)樣本訓(xùn)練的目標(biāo)就是要獲取一個(gè)函數(shù)來表示輸入與輸出,分類器的訓(xùn)練可以通過最小下式來獲得:
其中,w為向量參數(shù)(濾波模板系數(shù)),λ為正則化參數(shù)。
通過下式來計(jì)算檢測(cè)樣本z對(duì)應(yīng)的回歸值為:
當(dāng)待檢測(cè)樣本的個(gè)數(shù)很多時(shí),計(jì)算非常耗時(shí),為此,在樣本檢測(cè)過程中,采取與樣本訓(xùn)練同樣的方式,循環(huán)構(gòu)造檢測(cè)樣本,定義訓(xùn)練樣本x和檢測(cè)樣本z的核矩陣:f()
z表示循環(huán)移位構(gòu)造得到的檢測(cè)樣本對(duì)應(yīng)的回歸響應(yīng),利用循環(huán)矩陣的性質(zhì),可以在離散傅里葉域先求出:
其中⊙表示點(diǎn)乘,對(duì)上式兩邊使用傅里葉逆變換即可獲取回歸響應(yīng)。整個(gè)過程中在傅里葉域上進(jìn)行各種運(yùn)算,減少運(yùn)算量、更加快速。
由于目標(biāo)的外觀模型是不斷變化的,同時(shí),目標(biāo)的歷史信息也極為重要。因此采用如下的更新公式來更新分類器:
在目標(biāo)跟蹤領(lǐng)域,文獻(xiàn)[23]提出不同的卷積層輸出的特征圖特性不同:深層次的卷積層會(huì)提取出更抽象的特征,包含更豐富的語義信息,在區(qū)分不同種類物體時(shí)能力較強(qiáng),而且對(duì)形變和遮擋比較魯棒;淺層次的卷積層特征將會(huì)提供更具體的局部特征,它們?cè)趨^(qū)分同類物體的不同個(gè)體時(shí),區(qū)分能力更強(qiáng),但對(duì)于外觀變化并不魯棒。因此,為了使卷積神經(jīng)網(wǎng)絡(luò)的空間分辨能力進(jìn)一步提升,提出的算法基于核關(guān)濾波框架,并且利用預(yù)訓(xùn)練好的殘差網(wǎng)絡(luò)提取深度特征,得到每一個(gè)卷積層的輸出特征,然后結(jié)合相關(guān)濾波來確定目標(biāo)的位置。
由于網(wǎng)絡(luò)中的池化操作,隨著卷積層級(jí)的加深,提取到的特征空間分辨率逐步降低,無法對(duì)目標(biāo)進(jìn)行精確的定位,因此需要使用雙線性插值對(duì)提取到的特征進(jìn)行上采樣,按照公式:
這里xi代表上采樣后的特征圖,hk代表上采樣之前的深度特征圖,αik是插值的權(quán)值。
每個(gè)卷積層的輸出都是被用作多個(gè)通道特征,對(duì)于每一層的輸出特征,大小為M×N×D,M、N代表圖像特征的寬高,D是特征的通道數(shù)。將上采樣后的特征圖xi在M維和N維上的所有循環(huán)移位作為訓(xùn)練樣本,每一個(gè)xm,n(m,n)都有一個(gè)高斯函數(shù)標(biāo)簽y(m,n)=符合二維高斯分布。因此可以學(xué)習(xí)得到一個(gè)與xi同樣尺寸大小的濾波器w。
λ是正則化參數(shù)。通過快速傅里葉變換將目標(biāo)函數(shù)轉(zhuǎn)換到頻域:
Y表示傅里葉變換,表示X的復(fù)共軛,代表逐元素點(diǎn)乘。當(dāng)給定下一幀視頻圖像當(dāng)中的候選區(qū)域后,然后提取該區(qū)域的深度特征Z,大小為M×N×D,則第l卷積層相關(guān)濾波的響應(yīng)圖可以用下式子計(jì)算得到:
其中,F(xiàn)-1表示傅里葉逆變換。則相關(guān)響應(yīng)圖fl的最大值處就是目標(biāo)位置。
本文采用CNN各層的輸出作為深度特征,并對(duì)每層的輸出均構(gòu)造一個(gè)獨(dú)立的相關(guān)濾波器。給定一組相關(guān)濾波響應(yīng)特征圖的集合{fl}分層來推斷出每一層特征圖當(dāng)中的目標(biāo)位置,用(m?,n?)=argmaxm,nfl(m,n)來表示第l層的最大響應(yīng)位置,則前一個(gè)卷積層當(dāng)中目標(biāo)的最優(yōu)位置可以用下式求出:
其中,γ為正則化參數(shù),后一層的響應(yīng)會(huì)對(duì)前一層的響應(yīng)產(chǎn)生影響。后一層的響應(yīng)值被正則化參數(shù)γ加權(quán)并且反向傳播到前一層的相關(guān)響應(yīng)映射。最后,在空間分辨率最高的卷積層通過最大化式(15)來估計(jì)目標(biāo)的精確位置。
為了得到一個(gè)更加魯棒的近似,用移動(dòng)平均來分別更新濾波器式(13)中Wd的分子Ad、分母Bd。
其中,t為視頻幀索引,η為學(xué)習(xí)速率。
本文用在ImageNet上訓(xùn)練好的殘差卷積神經(jīng)網(wǎng)絡(luò)提取深度特征。為了提高特征圖的空間分辨率,輸出特征不經(jīng)過池化層。給定視頻幀的搜索窗口大小是目標(biāo)大小的2倍,把每一個(gè)卷積層提取到的深度特征縮放到固定尺寸。每一個(gè)卷積層上用于訓(xùn)練濾波器的參數(shù)是一樣的,式(12)的正則化參數(shù)設(shè)置為10?4,用核帶寬為0.1的高斯函數(shù)產(chǎn)生標(biāo)簽。把式(13)中學(xué)習(xí)速率設(shè)置為0.001。
本文主要選用OTB50和OTB100[24]中的視頻序列進(jìn)行實(shí)驗(yàn)評(píng)測(cè),遵循文獻(xiàn)[24]實(shí)驗(yàn)設(shè)置。采用主流的評(píng)價(jià)指標(biāo)來衡量跟蹤效果。第一個(gè)是精確度曲線,定義為跟蹤目標(biāo)的中心位置和手工標(biāo)定的準(zhǔn)確位置之間的平均歐氏距離,一般選擇曲線在閾值為20像素處的精確度來對(duì)比不同的算法,歐式距離為:D=成功率指對(duì)于視頻的每一幀,當(dāng)跟蹤得到的目標(biāo)區(qū)域BT與目標(biāo)真實(shí)區(qū)域BG交集除以并集得到的VOR大于某個(gè)閾值時(shí),代表跟蹤是成功的但這種方法不具有代表性,因此通常使用每一個(gè)成功率圖曲線下方的面積(AUC)作為替代,用于對(duì)目標(biāo)跟蹤算法進(jìn)行排序。
將本文提出的算法和一些算法進(jìn)行對(duì)比。對(duì)比的算 法 包 括 ECO_DEEP[25]、SRDCF[26]、STRCF[18]、DCF[27]、CCOT_HOG[28]、BACF[29]。提出的算法通過深度特征融合,極大地提升了性能,同時(shí),由于實(shí)驗(yàn)選取的數(shù)據(jù)集包含各種挑戰(zhàn)因素,在不同的視頻幀中,本文算法都取得了較好的結(jié)果。跟蹤結(jié)果精確度圖,成功率圖如圖1所示。
圖1 算法精確度、成功率圖
為了進(jìn)一步驗(yàn)證本文算法對(duì)光照變化、尺度變化、運(yùn)動(dòng)模糊、遮擋、快速運(yùn)動(dòng)等各種干擾因素的魯棒性,圖2給出了與其他各種算法的對(duì)比。
從圖2得出,本文提出的算法由于采用更輕量級(jí)的主干網(wǎng)絡(luò)架構(gòu)來提取深度特征,能夠在大多數(shù)干擾因素下取得較好的跟蹤效果。
圖2 各種干擾因素下的對(duì)比
為了體現(xiàn)本文提出算法的跟蹤性能,在OTB50、OTB100數(shù)據(jù)集上選取了一些視頻序列進(jìn)行測(cè)試,對(duì)不同算法的跟蹤結(jié)果進(jìn)行對(duì)比,跟蹤結(jié)果如圖3所示。
圖3 算法在不同視頻跟蹤結(jié)果
綜合上述實(shí)驗(yàn)的對(duì)比結(jié)果,在不同干擾因素視頻中本章算法表現(xiàn)了其優(yōu)越的跟蹤性能。從圖3中可以看出,在Jogging視頻序列中第55幀目標(biāo)被電線桿完全遮擋,其他四種算法雖然也能成功到跟蹤目標(biāo),但本文算法能迅速地找到目標(biāo),跟蹤精度更高,能夠完成全跟蹤過程,說明本文算法可處理完全遮擋,魯棒性好。在freeman序列中,目標(biāo)在行走過程中存在旋轉(zhuǎn)現(xiàn)象,從第237幀可知,由于目標(biāo)旋轉(zhuǎn),其他四種算法均陸續(xù)出現(xiàn)漂移,跟丟目標(biāo)。而本文算法利用深度特征,因此能夠精確地跟蹤目標(biāo),保證了算法的高效性。在skiing視頻序列中,由于目標(biāo)存在快速運(yùn)動(dòng)、旋轉(zhuǎn)、尺度的變化且目標(biāo)運(yùn)動(dòng)方向發(fā)生急劇變化,對(duì)算法跟蹤產(chǎn)生了較大干擾,只有本文提出的算法能夠有效地一直成功跟蹤目標(biāo),其他算法均跟蹤失敗。在soccer視頻序列中,存在背景雜波、快速變形、運(yùn)動(dòng)模糊、超出平面外旋轉(zhuǎn)等干擾,本文算法的跟蹤效果優(yōu)于其他四種算法。
針對(duì)相關(guān)濾波目標(biāo)跟蹤算法中手工特征帶來的一些問題。本文提出的算法基于核相關(guān)濾波框架,并利用預(yù)訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型(殘差網(wǎng)絡(luò))來提取深度特征,充分考慮了不同卷積層的深度特征特性,使用對(duì)不同類別物體判別能力較強(qiáng)的高層特征和對(duì)同類間不同物體判別能力較強(qiáng)的淺層特征,將不同層次的深度特征進(jìn)行融合,增強(qiáng)了深度特征的判別能力,提升了目標(biāo)跟蹤算法的性能。在選定的視頻序列上進(jìn)行對(duì)比實(shí)驗(yàn)得到的結(jié)果表明,得益于深度特征融合算法,本文提出的算法優(yōu)于相關(guān)的對(duì)比算法。