何小衛(wèi), 鄭 亮, 鄭忠龍, 賈永超, 吳嬌嬌
(浙江師范大學 數(shù)理與信息工程學院,浙江 金華 321004)
目標跟蹤是預測視頻幀序列中給定的目標在后續(xù)視頻幀中出現(xiàn)的位置.目標跟蹤領域出現(xiàn)了許多優(yōu)秀的跟蹤算法,但仍敏感于復雜的現(xiàn)實環(huán)境,如:尺度變化、遮擋、光照變化、形變、快速移動等.因此,設計準確、高效、魯棒的目標跟蹤算法仍然是一個值得持續(xù)關注的、極具挑戰(zhàn)性的課題.
目標跟蹤算法通常可分為兩類:基于生成式的目標跟蹤模型和基于判別式的目標跟蹤模型.基于生成式的目標跟蹤模型直接對目標進行外觀建模,然后使用外觀模型與目標進行比對,找到新一幀中與外觀模型匹配程度最高的區(qū)域(即目標位置),從而實現(xiàn)目標跟蹤.基于增量學習的目標跟蹤算法(IVT)[1],采用自適應全局目標外觀的生成式模型,對于處理剛性目標運動的表現(xiàn)很好,但對目標姿態(tài)變化和目標出現(xiàn)遮擋極其敏感;視覺跟蹤分解算法[2]將原運動模型分割成多個小的圖像塊,這樣可以更好地捕捉運動中目標位置的變化,但其跟蹤速度僅達到5.7 幀/s,不能滿足在線跟蹤的需求;基于稀疏的目標表示模型[3]將目標外觀模板與稀疏模板融合,很好地解決了目標部分遮擋的問題,但仍然無法處理非剛性目標和嚴重遮擋問題,且算法的復雜度高,無法滿足實時性.基于判別式模型的方法將跟蹤問題看成一個二元分類問題,是找到區(qū)分目標和背景的最好決策,從而實現(xiàn)對前景對象的判定.文獻[4]引入了多實例學習的概念,有效地處理目標尺度變化及背景雜波等引起的漂移現(xiàn)象;文獻[5]將壓縮感知引入到目標跟蹤中,跟蹤速度達到64 幀/s;文獻[6]基于結(jié)構(gòu)化輸出SVM提出了目標跟蹤算法,利用核化的SVM直接輸出結(jié)果,滿足實時性要求.基于判別式模型的目標跟蹤算法性能主要取決于分類器的判別性,因此更好地利用訓練樣本,得到更精準的分類器,是此類算法研究的主要方向.
基于相關濾波的跟蹤器[7-13]近幾年來在目標跟蹤領域表現(xiàn)出很好的跟蹤效果和性能.2010年,Bolme[7]首次在跟蹤領域引入相關濾波,提出了MOSSE,利用信號的相關性,計算視頻序列的當前幀不同區(qū)域?qū)τ谇耙粠繕说捻憫担憫底畲蟮膮^(qū)域被預測為當前幀目標所處的位置.文獻[7]將時域中卷積操作轉(zhuǎn)換到頻域中的點乘運算,大大降低了計算的復雜度,算法運行速度高達615 幀/s,但在跟蹤的精度上顯得有些不足(43.1%);CSK[8]采用循環(huán)矩陣的方式進行密集采樣,得到在濾波器訓練階段所需要的更多負樣本,更好地適應和表達在不同場景中目標位置的變化,同時利用循環(huán)矩陣可對角化的性質(zhì),在頻域內(nèi)快速地訓練分類器,以保證算法的實時性,在精度提升到54.5%時仍保持189 幀/s的速度;KCF[9]在CSK工作的基礎上,利用HOG算子進行特征的提取,采用核技術(shù)將線性不可分的問題映射到核空間,在保證速度的同時又提高了目標跟蹤的精度;DSST[10]引入空間正則分量,根據(jù)空間位置約束相關濾波系數(shù),利用Gauss-Seidel在線學習模型的優(yōu)化策略,在數(shù)據(jù)集上表現(xiàn)出83.8%的高精度,但沒有達到實時性的要求;DeepSRDCF[11]利用非全連接網(wǎng)絡的特征提取方式使得跟蹤精度達到84.9%,但算法速度不足1 幀/s;文獻[12]融合HOG與顏色直方圖特征,對于解決目標邊緣形變時有很好的效果,精度達到了78.2%,速度達到67 幀/s;文獻[13]提出多峰檢測和高置信度選擇性更新目標的模型APCE(average peak-to-correlation energy),很好地解決了相似目標出現(xiàn)情況下的跟蹤問題,精度達到了83.9%,速度保持80 幀/s,但是模型敏感于目標快速移動的情形.基于深度學習的目標跟蹤[14-16],跟蹤精度非常高,但算法無法達到實時性要求.以上基于相關濾波的目標跟蹤算法,由于搜索區(qū)域的大小固定,僅局限于目標所在區(qū)域,所以這些算法容易產(chǎn)生誤判.為了解決以上問題,本文提出一個自適應調(diào)整搜索窗口的相關濾波模型(RIACF),并有效地利用目標周圍的背景信息.
跟蹤目標所處環(huán)境對跟蹤器的性能會產(chǎn)生很大的影響.假如目標所處環(huán)境有大量背景雜波,在跟蹤過程中新一幀圖像將產(chǎn)生污染,導致分類器無法正確分辨目標和背景,從而引起跟蹤漂移.對此,本文基于KCF算法[9]和CACF算法[17]提出一種新的相關濾波跟蹤器(RIACF),通過采用以下兩點避免漂移現(xiàn)象:抑制目標周圍背景信息以突出跟蹤目標;自適應調(diào)整搜索區(qū)域,增加響應值匹配的可信度.
以下是RIACF算法的具體描述:在每一幀中,根據(jù)目標響應值自適應調(diào)整目標搜索區(qū)域,對新的搜索目標周圍采樣k個背景塊xi∈Rn,i=1,2,…,k,其相應的循環(huán)矩陣是X0,Xi,i=1,2,…,k,這些背景信息塊可以看作是負樣本用來抑制對跟蹤目標的干擾.顯然,好的濾波器應對目標位置有較大的響應值,而對背景信息塊的響應值接近于0.本文將傳統(tǒng)相關濾波的嶺回歸分類問題轉(zhuǎn)變成以下最小化目標函數(shù):
(1)
(2)
(3)
式(3)的右邊各項可以通過快速傅里葉變換分別求解:
(4)
(5)
(6)
(7)
在跟蹤目標過程中,由于復雜環(huán)境下固定大小的搜索窗口只能完成目標的局部標定,所以通常會導致目標的局部特征被錯誤地歸類為背景信息,最終導致后序幀目標跟蹤失敗.通過實驗發(fā)現(xiàn),在訓練濾波器時,通過更新尺度參數(shù)動態(tài)地調(diào)整目標搜索區(qū)域可以有效地解決此類問題.
考慮到目標在受到外界干擾時才會引起這種情況,筆者僅在相鄰幾幀目標最優(yōu)響應值較小時才會更新尺度參數(shù)、調(diào)整搜索區(qū)域.假設第t幀圖像Mt中所有候選區(qū)域響應值的平均值為
(8)
計算連續(xù)兩幀響應值的平均值,對連續(xù)兩幀之間的尺度估計可以表示為
(9)
為了減少尺度估計誤差可能帶來的噪聲影響,本文采取對n個連續(xù)幀求尺度估計平均值的方法,使得所求尺度估計更加穩(wěn)定、可靠,即
(10)
同時,為了避免尺度估計敏感于過度縮放,利用尺度閾值對其進行約束,即
(11)
式(11)中:smin表示尺度估計更新下限;smax表示尺度估計更新上限;S表示尺度更新步長;「*?表示上取整運算;?*」表示下取整運算;n是連續(xù)幀的數(shù)量;Sm是搜索窗口尺寸;A是輸入圖像尺寸;Ts表示目標尺寸.利用相應的參數(shù)進行尺度更新,最新的尺度估計值St+1按如下函數(shù)取值:
(12)
式(12)中,參數(shù)λ為尺度因子.考慮上下限閾值,最終尺度估計值St為
(13)
由得到的最新尺度估計值St來獲取新的搜索區(qū)域,即
Mt←Mt*St.
(14)
模型更新方案通常采用線性更新方式,相關濾波模型更新時用當前幀與前一幀的圖像信息,即
(15)
式(15)中:η為學習因子;0≤t≤N;Mt為圖像樣本;ωt為濾波器參數(shù).
算法1 RIACF跟蹤算法
輸入:圖像幀信息Mt(t=0,1,…,N),標注起始幀目標初始位置m0.
輸出:跟蹤每一幀目標所處位置mt(t=1,2,…,N).
1)針對圖像幀M0,根據(jù)式(6)計算ω0;t=1;
Whilet≤N
3)if最大響應值大于閾值(可取先前歷史幀目標響應平均值)
5)針對圖像幀Mt,根據(jù)式(6)計算ωt;
6)t=t+1;
7)利用式(15)更新跟蹤模型計算下一幀Mt;
8)else
9)利用式(14)更新當前幀的搜索窗口Mt;
10)Continue;
11)end if;
12)end Loop
為了驗證本文算法的有效性,選擇CVPR-2013[18],OTB-100[19]數(shù)據(jù)集進行測試,并與KCF進行比較.實驗平臺為MATLAB R2010a,實驗均在Intel Core i5-4460 CPU、主頻3.20 GHz、4 G內(nèi)存配置的計算機上完成,用于比較的跟蹤器的默認參數(shù)設置與原文獻相同;本文模型的正則化參數(shù)λ1和λ2為0.000 1和25,更新尺度因子λ為0.25,學習因子η為0.015.
所有實驗均在CVPR-2013/OTB-100[18-19]數(shù)據(jù)集圖像序列進行對比,主要比較跟蹤精度和算法的運行速度.精度指的是跟蹤算法跟蹤的目標中心位置與標定真實目標的中心位置的平均歐氏距離,在生成的plot圖中一般選用閾值20像素精度值作為參考標準;成功率指的是跟蹤算法的目標框與真實標定的目標區(qū)域重疊面積的大小.算法的運行速度在目標跟蹤挑戰(zhàn)賽后也作為一個重要的評判標準,算法的運行速度指的是跟蹤器處理圖像序列的平均速度——即每秒處理的幀數(shù).
目標跟蹤研究的2個主要目標分別為理想的跟蹤精度和符合實時性要求的跟蹤速度.例如:MD-Net[16],C-COT[17]的實驗精度很高,但是處理速度非常慢,無法滿足實時性要求;另一類則在跟蹤速度上有很大優(yōu)勢,但其跟蹤精度相對較低,如CSK[8].對CVPR-2013/OTB-100[18-19]中所有包含跟蹤挑戰(zhàn)的數(shù)據(jù)圖像序列進行計算和分析.基于相關濾波的跟蹤器,比如CSK[8],KCF[9],雖然在速度上相比于傳統(tǒng)的跟蹤器有著很大的優(yōu)勢,即實時性得到了很好的保證,但精度不高.因此,應該更加注重提升這類算法的精度.表1是本文算法RIACF和其他算法的比較結(jié)果.
表1 RIACF與其他跟蹤器之間實驗結(jié)果對比
在具有尺度變化、形變、平面內(nèi)/外旋轉(zhuǎn)等挑戰(zhàn)的視頻中,如:Blur Body,Freeman 4,Dog等,KCF的跟蹤效果分別是:58.4%/102.79 幀5s-1,53%/487.52 幀5s-1和75.6 %/205.8 幀5s-1;RIACF模型的跟蹤效果分別是:92.2%/37.51 幀5s-1,85.2%/178.62 幀5s-1和98.4%/44.73 幀5s-1.從上面數(shù)據(jù)可以看到,RIACF算法通過對搜索區(qū)域的自適應調(diào)整,有效地提高了KCF在形變、尺度變化及旋轉(zhuǎn)等情形下的跟蹤效果.在跟蹤精度提高的同時,本文算法以犧牲部分速度為代價,保證了RIACF模型目標跟蹤的實時性要求.而對于部分遮擋和快速運動的視頻,如:Human 7,Couple,Deer等,KCF的跟蹤效果分別是:42.7%/143.07 幀5s-1,25.7%/253.84 幀5s-1和81.7%/91.23 幀5s-1;RIACF模型的跟蹤效果分別是:100%/35.48 幀5s-1,45.7%/58 幀5s-1和85.9%/24.7 幀5s-1.RIACF模型在處理目標運動模糊的情況下也有較好的魯棒性.
如圖1(a)所示,從KCF模型的跟蹤效果圖中可以看出,跟蹤目標運動到綠色搜索框的邊界時,發(fā)生嚴重遮擋,導致模型跟蹤失敗.圖1(b)為本文RIACF模型的跟蹤效果.由于RIACF模型的目標響應值較小,所以本文采用搜索尺度更新策略,擴大目標搜索區(qū)域.圖1(b)中藍色區(qū)域為新的目標搜索區(qū)域.通過擴大目標搜索區(qū)域和抑制目標周圍局部背景信息,實現(xiàn)了目標的準確跟蹤,很好地解決了圖1(a)中出現(xiàn)的跟蹤失敗問題.
(a)KCF模型在Jogging視頻序列中的跟蹤表現(xiàn)
(b)RIACF模型在Jogging視頻序列中的跟蹤表現(xiàn)
圖2 RIACF與其他跟蹤算法在OTB數(shù)據(jù)集視頻中的跟蹤表現(xiàn)對比
從直觀感覺上,圖2給出了幾種優(yōu)秀算法(Staple[12],KCF[9],DSST[20],CSK[8])對數(shù)據(jù)集OTB-100[19]中Jogging,Dog和Blur-body視頻的比較結(jié)果,可以明顯看出RIACF模型的跟蹤算法有較好的跟蹤表現(xiàn).
如圖3和圖4所示,本文的算法RIACF在數(shù)據(jù)集CVPR-2013[18]中與最優(yōu)算法Staple[12]的表現(xiàn)相差無幾,在OTB-100[19]中與Staple效果接近,遠遠好于KCF的表現(xiàn).圖5和圖6分別為4種跟蹤挑戰(zhàn):形變(deformation)、目標離開視野(out of view)、遮擋(occlusion)、快速移動(fast motion)情形下的跟蹤成功率表現(xiàn),對于克服光照變化(illumination variation)、運動污染(motion blur)等挑戰(zhàn),本文算法相比于其他算法也有著很好的效果.
(a)CVPR-2013數(shù)據(jù)集精度圖 (b)CVPR-2013數(shù)據(jù)集成功率圖
(a)OTB-100數(shù)據(jù)集精度圖 (b)OTB-100數(shù)據(jù)集成功率圖
(a)形變 (b)目標離開視野
(a)遮擋 (b)快速移動
為了解決目標遮擋、非剛性物體運動形變及低像素所帶來的跟蹤漂移現(xiàn)象,本文通過自適應搜索目標區(qū)域結(jié)合抑制目標周圍的背景信息,很大程度上降低了跟蹤時背景對于目標的干擾,使本文模型的跟蹤效果相比于基準跟蹤器有了很大提升,算法運行速度仍可滿足實時性要求.對于解決目標消失后重新回到跟蹤區(qū)域的挑戰(zhàn),將考慮引入檢測器的方法重新檢測目標所在區(qū)域,進而提升跟蹤效果.