吳雨秋,李朝暉
(中國傳媒大學信息與工程學院,北京 100024)
計算機視覺中的一項很重要的內容是視覺目標跟蹤,同時它也是交互式視頻的前提。視覺目標跟蹤技術融合了圖像處理、模式識別、人工智能、自動控制等多個領域的技術,也是進行智能機器人研究的重要技術之一,因此目標跟蹤算法的研究具有重要的理論意義和實際價值?;谙嚓P濾波跟蹤算法以其大大提升跟蹤能力和良好的實時性等兩大優(yōu)勢成為目前最主流的基礎框架,也是近年來實際應用最廣泛的跟蹤算法。并且,此算法還有很大的發(fā)展前景。目前,有很多研究者還在通過不斷優(yōu)化和改進基于相關濾波的跟蹤算法框架的各個部分來提升其跟蹤的性能。
對視頻序列里感興趣的目標區(qū)域相關濾波器會產生相應的峰值,而對目標背景的影響值會比較低。所以,相關濾波器可以被作為檢測器來使用。2010年Bolme[1]利用相關濾波器原理提出了誤差最小平方和濾波器(MOSSE),同時為了更好地實現目標跟蹤,創(chuàng)造了一種自適應的訓練方法。這種方法充分展示了相關濾波器在視覺跟蹤中的突出表現。2014年Henriques[2]等在機器學習嶺回歸框架下學習濾波器,利用循環(huán)矩陣和快速傅里葉變換(FFT)加速,并將核技巧(kelnel trick)融入學習框架,將多通道的 HOG 特征替代單通道的灰度特征,提高了濾波器的判別能力,提出一種核相關濾波跟蹤器(KCF),不加入核技巧的為DCF,之后很多學者提出的算法都是基于KCF/DCF的。
Li等提出尺度自適應多特征跟蹤器(SAMF)[3],采用灰度特征、CN 特征和 HOG 特征串聯,提升了跟蹤器的整體性能。Bertinetto等人提出了利用HOG特征和全局顏色直方圖特征的Staple[4]算法,此算法利用了兩種互補的特征。HOG特征通過相關濾波器產生響應圖,通過顏色直方圖產生直方圖概率模型,之后融合兩種模型的響應圖,估計目標位置的變化。兩者結合能夠很好的解決目標發(fā)生形狀改變和光照的改變的問題。Ma C等利用CNN模型前、后項卷積層的特點提出了CF2[5]算法,算法利用后向卷積特征應對目標的外形問題,可以減少模型偏移的發(fā)生;同時采用前向卷積層中的特征來對模板進行準確定位。此算法將提取卷積神經網絡(CNN)特征應用到跟蹤器中,采用多層相關濾波響應圖共同來確定目標位置,使得跟蹤結果更加準確。Danelljan M提出了綜合SRDCF[21]深度算法和SRDCFdecon[22]深度算法的C-COT[6]算法,將DeepSRDCF中的單層特征變?yōu)槎鄬犹卣?,進行連續(xù)的空間域插值,生成多分辨率的特征圖變得更加容易,對目標的定位也更加精準。
綜上所述,圖像特征的選擇對跟蹤效果有很大影響。雖然基于相關濾波目標跟蹤的研究已經取得了顯著的成果并且得到了廣泛的應用,對于實際應用來說,仍然面臨許多復雜問題,例如目標外觀發(fā)生形狀變化、快速運動及跟蹤出現偏移等,這些問題會對跟蹤性能產生嚴重影響。本文針對相關濾波目標跟蹤中目標形變和快速運動的問題提出解決方案。
基于相關濾波的目標跟蹤一般框架[10]如圖1所示,包括:1)根據序列第1幀標定的目標位置提取一個圖像塊,將它進行訓練以初始化相關濾波器。2)對于當前幀,根據前一幀的目標位置提取候選圖像塊的特征,用余弦窗平滑邊緣信息。3)將處理后的特征進行離散傅里葉變換(FFT)來與相關濾波器相乘。4)通過傅里葉逆變換(IFFT)得到響應圖,響應圖中最大值所對應的坐標位置即被認為是目標的新位置。5)根據新的目標框進行特征提取,更新相關濾波器。
圖1 相關濾波算法基本框架[10]
下面將對相關濾波算法作詳細說明。
目前跟蹤算法主流的思想是基于檢測的跟蹤,對輸入的圖像序列進行樣本采集,以目標位置為基礎,離目標近的被標記為正樣本,遠離目標的標記為負樣本。大部分算法給正樣本的標簽設置為1,負樣本設置為0,以此完成訓練樣本的標記。這種方法對離目標位置遠的負樣本和離目標位置近的負樣本一樣看待,沒有考慮每個負樣本權重的問題。而相關濾波器算法則采用嶺回歸的方法,使樣本標簽為[0,1]范圍的不同數值,從而不同距離的樣本得到不同的權重。也就是樣本離目標越近,其權重越接近1,離目標越遠,權重值越趨向于0。
根據機器學習理論可知,判別式模型的樣本訓練過程就是一個最小化損失函數的過程,即使分類函數f(x)=WTx依據一定的方法使損失最小。W是分類器系數,如果損失函數使用均方誤差,則這個過程可以如下表示:
(1)
式中,x為訓練樣本特征,y為其樣本的標簽,i為樣本號,λ為規(guī)則因子。對其求偏導,得到一般解:
W=(XHX+λI)XHy
(2)
式中,XH是X的厄米特轉置,如果矩陣是實矩陣,則有XH=XT。其中,X是由基樣本循環(huán)移位得到的循環(huán)矩陣,具有以下性質:
(3)
(4)
式中,⊙是矩陣的點乘,將其帶入(2-6)式可得頻域表達式:
(5)
核函數可以實現樣本x從低維到高維φ(x)的非線性映射,所以系數可寫成如下表達方式:
W=∑αiφ(xi)
(6)
這時候優(yōu)化問題就從求W變成求α了,因此回歸函數的表達方式是:
(7)
該式的解為:
α=(K+λI)-1y
(8)
式中,K是核循環(huán)矩陣,Kij=κ(xi,xj)。I是單位矩陣,向量y的元素是yi,κ是核函數。
則可在傅里葉域內快速求得:
(9)
完成了濾波器的訓練之后,就可以用已訓練好的模型對目標位置進行預估了。采集測試樣本給濾波器,得到響應圖,相關濾波器的響應輸出如下:
(10)
訓練和測試的樣本都由基礎樣本循環(huán)移位得到,因此構建核矩陣KZ,并使用高斯核變成循環(huán)矩陣,接上式可得:
f(z)=α(KZ)Τ
(11)
式中,f(z)是測試樣本z所有的循環(huán)移位得到的樣本的輸出響應。其頻域表示為:
(12)
測試響應f(z)的最大值的位置,就被認為是預測的目標位置。式(9)用來對分類器做訓練,式(12)用來實現目標檢測,這兩個式子是相關濾波算法的兩個重要公式。
(13)
(14)
式中,t表示當前幀序號,η表示學習率。
相關濾波類算法屬于模板類方法,此類方法當目標發(fā)生形變時,容易出現跟蹤失敗的問題。并且相關濾波類算法也存在邊界效應問題,當目標移動過快時容易跟蹤失敗。而顏色直方圖特征能夠解決目標變形的問題,并且對目標快速運動不敏感。針對上述問題,本文通過融合兩種模型的特征響應圖,即基于直方圖的特征概率模型圖和基于相關濾波模版的響應模型圖,之后根據融合模型估計目標位置的變化,確定目標位置。
優(yōu)良的特征是實現良好跟蹤的基礎,深度學習方法得出的深度特征比傳統(tǒng)的手工特征(HOG、灰度、CN、Harris等)更加精確。而相關濾波的核心思想是將計算轉化到頻域,相比于傳統(tǒng)方法,跟蹤速度得到了大幅度的提升。為了結合兩種方法的優(yōu)點,人們開始將深度學習引入到相關濾波中。本文選取提取深度特征的相關濾波算法CF2作為基本框架,分別建立深度特征濾波模型和顏色直方圖特征概率模型。
本文利用VGG[11]網絡提取目標得到深度特征,由于低層特征有較高的分辨率能進行精準定位,高層特征含更多語義信息能進行范圍定位,因此分別提取高低兩層的卷積特征;同時提取顏色直方圖,生成直方圖概率模型;從而建立特征目標融合模型。
3.1.1 深度特征濾波模型
卷積神經網絡相關算法是近年來計算機視覺領域的研究熱點之一,大量科研人員投身其中并提出了一系列模型結構。VGG-Nets是由英國牛津大學著名研究組VGG提出,由于其良好的泛化能力,其在ImageNet[12]數據集上的與訓練模型被廣泛應用于諸多計算機視覺相關問題。
相比于傳統(tǒng)特征,由深度神經網絡提取出的卷積特征擁有較強的抗干擾性,在圖像分類算法的比賽中獲得了突破性的成果。由此大量基于CNN的跟蹤器也相繼被提出。頂層卷積層得到的是更抽象、更高層次的語義特征,可以更好地區(qū)分對象的類別,而且能夠很好地應對目標發(fā)生形變和遮擋得問題,不過對同類對象的區(qū)分效果就比較差。較低層的卷積層得到的特征更詳細,更適合用來對目標進行定位,但是對改變外觀的對象魯棒性差。如圖2中所示,左圖為VGG-Net的conv3層輸出的特征,高亮區(qū)域表示目標位置的所在的區(qū)域范圍,所以可以看到目標的輪廓還是比較清晰的,在conv5層,則得到的特征含有更多的語義信息。
圖2 VGG-Net輸出特征圖[11]
本文采用CNN網絡提取特征,CNN網絡采用由英國牛津大學提出VGG-Net,使用在ImageNet上面已經訓練好的模型VGG-19,該網絡由16個卷積層和3個全連接層組成。此網絡模型使用ImageNet數據集中的130萬張圖像進行訓練,擁有更深的架構,能夠提供更多級別的深度特征,圖像分類方面的大部分先進成果都是基于此模型實現的。
由于多層卷積的計算,使深度特征的提取比較耗時,所以本文只提取VGG-19的conv3-4和conv5-4兩層特征,之后將這兩個層特征分別經過相關濾波器得到不同的響應圖,接著將兩個濾波響應圖進行加權融合,得到融合之后的響應圖即為根據相關濾波算法預測的目標位置。
3.1.2 顏色直方圖特征概率模型
由于相關濾波跟蹤算法為了減少邊緣的信息的干擾加了余弦窗來平滑邊緣,使圖像信息更接近于目標信息,但是當物體快速運動時,意味著在跟蹤過程中下一幀目標的位置偏離搜索中心太遠,在這種情況下給樣本加余弦窗就會損失部分目標信息。這就是相關濾波算法的邊界效應問題,此問題帶來的影響就是當目標移動過快時容易出現跟蹤失敗。而且相關濾波算法也屬于模板類方法,當目標發(fā)生形變也容易造成跟蹤失敗。
解決目標變形問題的方法是采用對形狀變化不敏感的特征,解決快速運動問題的方法則是采用對運動變化不敏感的特征,而顏色直方圖剛好能夠解決快速運動和目標變形的這兩個問題。相關濾波器是從循環(huán)移位學習的,而顏色直方圖丟棄每個像素的位置,對于循環(huán)移位是不變的,所以可以利用顏色直方圖解決此問題。
本文借鑒DAT[14]算法,統(tǒng)計前景目標和背景區(qū)域的顏色直方圖并歸一化,得到前景和背景的顏色概率模型,用貝葉斯方法判別每個像素屬于前景的概率,得到像素級顏色概率圖,再加上邊緣相似顏色物體抑制就能得到顏色直方圖特征概率模型了。
為了區(qū)分目標像素X∈O與目標周圍的背景像素,在輸入圖像I上采用基于顏色直方圖的貝葉斯分類器。令H)Ω(b)表示在區(qū)域Ω∈I上計算的非標準化直方圖H的第b個bin中。另外,讓bX表示分配給I(X)的顏色分量的bin。給定矩形目標區(qū)域O(即初始邊界框注釋或當前跟蹤器假設)及其周圍區(qū)域S,則就可以應用貝葉斯規(guī)則來獲得位置x處目標的似然性:
(15)
本文設計的跟蹤算法的流程圖,如圖3所示,對于輸入的一幀圖像,首先提取一塊搜索區(qū)域,搜索區(qū)域的大小為目標框的2.8倍。之后分為兩個部分,一部分提取VGG-19的卷積3-4層和5-4層的特征,兩層卷積特征分別經過相關濾波器得到兩個濾波響應圖,分別設為r3-4和r5-4。另一個部分對搜索區(qū)域進行前景和背景的顏色直方圖統(tǒng)計,之后利用貝葉斯估計得到目標概率圖,設為p。最后將兩部分得到的響應圖進行加權求和,就得到了融合圖,設為s,融合圖最大值的位置即為最終確定的目標位置。如果不是最后一幀,則進行相關濾波器和貝葉斯模型的更新,繼續(xù)進行跟蹤。
圖3 算法整體流程圖
在特征模型融合時,對兩個響應圖的權重進行了設置,由于深度神經網絡提取的圖像卷積特征的相關濾波模型能夠更精確地確定目標位置,特征越深響應區(qū)域越小。對于跟蹤任務來說,重點在于確定目標位置,所以r3-4和r5-4分別設置權重值為1和0.25,得到響應加權圖r。而顏色直方圖特征概率模型用來彌補相關濾波的目標形變問題,同時避免邊界效應,所以設定響應加權圖r和顏色直方圖特征概率圖p的權重值分別為0.8和0.2。
權重計算公式如下:
r(x,y)=r3-4(x,y)+ 0.25 × r5-4(x,y)
(16)
s(x,y)=0.8 × r(x,y)+ 0.2 × p(x,y)
(17)
VOT[15]數據集是評價目標跟蹤方法的重要數據集之一,已經成為了跟蹤領域頂會必須拿出的指標。VOT benchmark主要提供了三個部分:(1)提供了可靠的公開測試數據集;(2)規(guī)定了測試評價方法;(3)提供了可靠地評價系統(tǒng)。此數據集包含60個測試序列,為了達到更好的準確度以固定標準對所有序列進行了雙精度標注。對每一個序列都標注出該序列的六種視覺屬性:目標動作變化、遮擋、目標尺寸變化、相機移動、未退化、光照變化。該數據集提供了有關真實值的更為豐富的信息,便于研究設計更高精確度的跟蹤算法,更能反映問題,已有上百個算法在此數據庫上進行了公開測試,所以本文選取VOT作為測試平臺。
該數據集通過期望平均覆蓋率(Expected average overlap,EAO)評估跟蹤算法的精確度(Accuracy)和魯棒性(Robustness)。EAO是指跟蹤器在一個序列上的非重置重疊的期望值,是VOT評估跟蹤算法精度的最重要指標,值越高表示算法的性能越好。
準確率是指跟蹤器在一個序列下跟蹤的平均重疊率(兩矩形框的相交部分面積除以兩矩形框的相并部分的面積)。用來評價跟蹤器的準確度,數值越大,準確度越高。它借用了交并比(Intersection-over-Union,IoU)定義,某序列第t幀的準確率定義為:
(18)
魯棒性是指一個序列下跟蹤失敗的次數,當重疊率為0時認為是跟蹤失敗。用來評價跟蹤器的穩(wěn)定性,數值越大,穩(wěn)定性越差。魯棒性的計算公式。定義F(i,k)為第i個跟蹤器在第k次重復中失敗的次數。所以魯棒性定義為:
(19)
本文將測試結果即測試序列每幀的跟蹤結果提交到VOT Challenge數據庫進行測試后可得到相關性能指標。我們稱本文改進算法為improved,圖4顯示算法在VOT 2016數據集中的測試結果,橫軸坐標為序列長度,縱軸顯示EAO值。紅色曲線顯示了本文改進算法的期望平均覆蓋率EAO值隨序列長度改變的變化,黃色曲線則為CF2算法的EAO值測試結果。由圖可知,本文改進算法的EAO值一直高于CF2算法,可見本文改進算法一直優(yōu)于CF2算法,尤其對于短時跟蹤來說,改進算法表現出明顯的優(yōu)勢。
圖4 EAO曲線圖
表1展示了跟蹤結果的數值排名表,Expected overlap列顯示的是EAO的綜合數值,改進算法的期望平均覆蓋率為0.2655,而原算法的期望平均覆蓋率為0.2543,可見本文改進算法比原算法跟蹤的期望平均覆蓋率更高。Accuracy列和Robustness列分別展示了EAO的兩個評價指標,即精確度和魯棒性的值,可以看到改進算法的精確度為1.03,而原算法的精確度為1.02,由此可知本文算法的精確度更高,不過改進算法的魯棒性不如原算法。
表1 EAO跟蹤結果數值表
為了進一步測試本文算法的性能,我們分別對不同屬性的序列進行跟蹤測試。如圖5所示,展示了六種屬性的EAO值,從左往右,從上到下,依次是動作變化、遮擋、尺寸變化、相機移動、未退化、光照變化屬性。可見當圖像序列表現出動作變化、尺寸變化、相機移動、未退化的屬性時,改進算法表現優(yōu)異,而這些屬性正好是造成邊界效應的原因,所以實驗證明融合的特征模板可以有效地解決相關濾波算法的邊界效應問題。并且通過比較圖中的數據可見,本文算法對于短時跟蹤情況比CF2算法性能更突出,可以認為本文算法更適合短時間跟蹤。
為了更直觀的體現算法的改進效果,我們分別從主觀和客觀兩方面對比具體序列的跟蹤效果。表2對比了本文算法和CF2算法在VOT 2016數據集部分測試序列的精確度的客觀評價結果,而表3為本文算法和CF2算法在VOT 2016數據集部分測試序列測試結果的可視化示意圖,根據示意圖做主觀評價,紅色的框表示官方給定的目標位置真值框,綠色的框表示兩種算法跟蹤的結果框。由圖表中可以看到本文算法具體的改進結果,具體證明了改進算法的有效性。
例如,對于視頻序列hand來說,本文算法的精確度為0.544,而CF2算法的精確度為0.452。在可視化圖中,可以看到在第23幀時,兩算法都能正確跟蹤目標,但是由于目標運動過快,在第47幀時,CF2算法已經不能準確的進行跟蹤了,到了第66幀時CF2算法丟失目標,然而本文算法能夠一直正確跟蹤目標,并保持較高的跟蹤精確度。由此可以得出結論,本文算法能夠解決邊界效應問題。
(1)動作變化 (2)遮擋
(3)尺寸變化 (4)相機移動
(5)未退化 (6)光照變化圖5 六種屬性的EAO曲線圖
表2 VOT 2016數據集部分測試序列測試結果
序列精確度Pedestrian1Handball2Bolt1gloveSinger3matrixhandimproved0.7170.4860.4660.5100.2540.5400.544CF20.7030.4640.3960.5010.1670.5130.452序列精確度Pedestrian2basketballFish1sheepSoccer2girlBirds1improved0.5330.6520.4230.6340.5320.6100.490CF20.4690.6460.4140.6260.4850.6010.459
對于視頻序列Singer3來說,改進算法的精確度為0.354,而CF2算法的精確度為0.167。在第5幀時兩算法能夠正確跟蹤目標,當是到第66幀時,目標發(fā)生尺寸和形狀上的改變,影響了兩算法的跟蹤結果,到了第113幀的時候,目標又發(fā)生形變,此時CF2算法跟蹤目標失敗,但是本文算法能夠正常并穩(wěn)定的進行跟蹤。由此可得出結論:本文算法能夠應對目標形變的問題。
表3 VOT 2016數據集部分測試序列測試結果示意圖
本文針對基于相關濾波的跟蹤算法具有邊界效應的問題,提出一種基于特征模型融合的相關濾波目標跟蹤算法。該算法利用卷積神經網絡提取深度特征,進行相關濾波操作,得到響應圖模型,同時利用傳統(tǒng)的特征提取方式,提取顏色直方圖特征概率圖進行模型融合,用來彌補相關濾波算法的邊界效應問題和模板類方法不能有效處理目標變形的問題。實驗證明,本文算法利用較復雜的VOT數據集測試時仍可達到較為穩(wěn)定的跟蹤效果,并且能夠提高目標跟蹤的性能,達到較為理想的跟蹤的效果。
盡管本文的改進算法可解決相關濾波跟蹤的一些問題,并能達到較好的跟蹤效果。但是由于作者水平有限以及工作時間的限制,算法還存在著一些不足,如不能有效處理目標變形的問題,且對于有光照變化的場景準確率不高,需進一步研究。