曾 旭,王元全
(天津理工大學 計算機與通信工程學院,天津300384)
視覺跟蹤的主要難點是解決在跟蹤過程中出現(xiàn)的一些問題,例如,光照變化、外觀改變、以及部分或全部遮擋。在當前的追蹤技術(shù)中,產(chǎn)生模型和區(qū)別模型是兩種主要的方法。產(chǎn)生模型是學習一種模型來表示目標物體,然后用它來搜索具有最小重構(gòu)誤差的圖像區(qū)域。在IVT 方法[1]中提出在線模型來應對外觀變化,以此來改善了通過離線學習進行追蹤導致的目標丟失問題。最近,稀疏表示[2]被用于實現(xiàn)跟蹤,它對于部分遮擋、光照變化和位姿改變有很好的效果。然而,這些產(chǎn)生算法并沒有考慮背景信息,而這個因素有可能提高追蹤的準確性。
區(qū)別模型把追蹤當作一個分類器來構(gòu)建,它目的在于從背景中區(qū)分出目標。Grabner等[3]提出一個在線半監(jiān)督boosting算法來減緩漂移問題;Collins等[4]已經(jīng)證明一個在線方式的選擇性區(qū)別特征能提高追蹤效果;Kalal等[5]提出P-N 學習算法利用潛在的正負樣本結(jié)構(gòu)來進行物體追蹤。
本文提出了基于局部稀疏表示的目標跟蹤方法,將產(chǎn)生模型和區(qū)別模型結(jié)合起來進行目標物體的跟蹤,其中本文通過對目標區(qū)域局部圖像塊進行稀疏編碼來表示目標,這種基于局部特征的跟蹤器能夠很好的應對目標的外觀變化,同時,將遮擋情況進行了分類處理:對于物體中遮擋的部分和其余剩下的部分,跟蹤器會采用不同的處理方法。通過邏輯回歸分類器進行分類,很好地區(qū)分出目標和背景,從而實現(xiàn)準確的跟蹤。
在本文方法中,通過局部稀疏表示建模目標的觀測模型,即對局部圖像塊稀疏編碼表示目標。第一幀初始化目標物體,在目標區(qū)域內(nèi)用有重疊的滑動窗提取局部圖像塊,矢量化后得到目標集T =[t1,t2,…,tn1]∈Rd×n1,d代表圖像塊的大小,n1是圖像塊的數(shù)目。同樣,在目標區(qū)域附近用滑動窗采樣圖像塊,矢量化后得到背景集Tb=[tb1,tb2,…,tbn2]∈Rd×n2,為了便于表示,令n1+n2=n,則我們的字典構(gòu)造由如下所示
通過字典D,即可對目標區(qū)域的圖像塊進行編碼表示,Y =[y1,y2,…,yN]∈Rd×N表示從目標區(qū)域提取的矢量化后的圖像塊,那么,與y1相對應的稀疏編碼ai∈Rn×1,可由下式計算得到
式 (2)實際上就是Lasso回歸,可以通LARS有效地解決。
最后,連接所有的稀疏編碼表示目標的觀測型
遮擋問題作為目標追蹤過程中一個不可避免的因素,我們通過對目標的觀測模型進行表示的時候,修改相應的稀疏系數(shù),從而達到具有遮擋的圖像塊被排除的效果,進而這個干擾問題得到了處理。假設屬于目標的圖像塊的重構(gòu)誤差很小,那么就可通過設定閾值的方法對遮擋進行判斷。如果所檢測到的圖像塊的重構(gòu)誤差比較大,則認定其為遮擋了的圖像塊,從而設置與之相對應的圖像塊的權(quán)重為0;相反,當檢測到的圖像塊其重構(gòu)誤差比較小的時候,認定其沒有被遮擋,因此設置相應的系數(shù)為1,最終通過這些圖像塊的信息對目標的觀測模型進行表示。
在本章中,候選目標的遮擋情況用向量表示,第i個元素表示第i 個圖像塊的遮擋情況。
方法如下
式中:εi= yi-Dαi是圖像塊yi的重構(gòu)誤差,ε0是預先定義完的閾值,可以用來判定圖像塊遮擋情況。如圖1所示,向量i 包含N 個元素,對應于N 個圖像塊,每個元素取值的大小由相對應圖像塊的重構(gòu)誤差決定,如果圖像塊具有較大重構(gòu)誤差,判定為被遮擋,設置對應的稀疏為0。因此,加權(quán)的稀疏系數(shù)為
式中:⊙——點乘。
圖1 候選圖像遮擋情況
近幾十年來,目標跟蹤問題被看作為分類問題,成為了新的研究方向,目標就是要把背景和目標分開。該種方法通過找到一個決策邊界進行目標和背景的分離,因此,對于背景混亂的情況,該種方法可以很好地解決。另外,對于具有復雜運動的物體可由在線監(jiān)測進行解決,通過不斷的更新決策邊界情況,很好地適應目標物體的變化。最近,有很多通過boosting算法來學習分類器[6]的鑒別追蹤算法,本文中不同,我們使用邏輯回歸分類器[7]來分類。
邏輯回歸模型可以認為是一種logistic方程歸一化后的廣義的線性回歸模型,通過特征學習進行分類。邏輯回歸模型的數(shù)學表達式
式中:x——n維特征向量,函數(shù)g為logistic函數(shù)。
邏輯回歸的損失函數(shù)
注意,式 (7)括號中的公式正是對邏輯回歸進行最大似然估計中的最大似然函數(shù),對于最大似然函數(shù)求最大值,從而得到參數(shù)θ的估計值,所以,這里求一個合適的參數(shù),需要最小化損失函數(shù)即:minθJ(θ)。
本文中使用邏輯回歸分類器能夠很好的區(qū)分出目標物體和背景,首先進行分類器的初始化,即通過在第一幀提取正負樣本來初始化分類器,這里,假定在第1幀中給定的目標物體的位置L1=(x1,y1),那么在附近小于半徑γ的范圍內(nèi)提取正樣本,其位置Lpos滿足 Lpos-L1<γ。同樣,負樣本的選取滿足環(huán)形區(qū)域γ< Lneg-L1<η,γ和η 為采樣半徑,即與選定目標物體中心有一定距離的一個環(huán)形區(qū)域內(nèi)。
本文中我們設定yi∈{+1,-1},計算得到每個圖像塊的稀 疏編碼形 成 訓 練 數(shù) 據(jù) 為{zi,yi}Mi=1,其 中zi∈Rn,M 為訓練樣本的數(shù)目。
通過最小化下面損失函數(shù)來學習分類器
式中:w——分類器參數(shù),λ控制正則項的長度,由于yi∈{+1,-1}根據(jù)式 (7)可得
對于任一候選z,其分類器的分數(shù)計算如下
一旦分類器被初始化,分類器的分數(shù)能夠被用于相似性度量進行跟蹤。具有最大分類器分數(shù)的樣本即maxh(z),表明更加有可能屬于前景目標級,所以,一般具有最大分類器分數(shù)的樣本被看作當前幀的追蹤結(jié)果。
根據(jù)上述的局部稀疏表示和線性分類器兩部分,提出一個基于貝葉斯推理框架下的追蹤方法,即將目標跟蹤問題當成是貝葉斯推理問題。
給定物體的觀測值z1:t={z1,…,zt}后,可以通過最大后驗概率估算目標狀態(tài)變量xt,即
后驗概率p(xt|z1:t)由貝葉斯理論推理得到
式中:h(·)為式 (11)定義的分類器。
為了驗證本節(jié)提出的算法的跟蹤性能,我們選取5組測試視頻作為實驗視頻,這5個視頻圖像序列包含的挑戰(zhàn)性情形如:包括光照變化,背景混亂,姿態(tài)變化,遮擋,平面內(nèi)外旋轉(zhuǎn),尺度變化等等。表1總結(jié)了本文使視頻序列包含的跟蹤挑戰(zhàn)。實驗中對本章方法、MIL (multiple instance learning)[8]和 OAB (online AdaBoost)[9]、Frag Tracker[10]4種方法進行了比較,其中短劃線矩形框表示OAB算法的跟蹤結(jié)果,長劃線-點矩形框表示Frag算法的跟蹤結(jié)果,點點矩形框表示MIL 算法的跟蹤結(jié)果,實線矩形框表示本章的跟蹤結(jié)果,分析結(jié)果如下。
表1 用于實驗測試的視頻序列
圖2中是CarDark視頻序列,它的特點是光照的劇烈變化,汽車在這種環(huán)境下行駛,就容易造成目標和背景對比度很低的問題,這種較低的對比度和劇烈的光照變化都使得準確跟蹤目標很有挑戰(zhàn)性。從圖2中可以看出,汽車在行駛的道路上一直存在著較大的光照變化,在#32Frag跟蹤器有一些漂移,當對面迎來的汽車燈光照在目標汽車上 (如#75、#135 和#225),這種劇烈的光照變化使得Frag跟蹤器漂移到路面背景上,目標丟失,MIL 跟蹤器則逐漸發(fā)生漂移從#75有少量漂移到#225丟失目標跟蹤到其它車輛上,而OAB跟蹤器只是有些漂移,還能跟蹤到目標汽車。#280 汽車改變方向逐漸到路邊 (如#280 和#378),并且汽車正上方的路燈不斷閃爍,我們看到Frag跟蹤器依然丟失目標,MIL 跟蹤器也逐漸遠離目標,而OAB跟蹤器由于汽車改變方向和路燈閃爍而丟失了目標。本文的方法在整個汽車行駛過程中跟蹤的都很好,充分展示了該方法的準確性和魯棒性。
圖2 CarDark視頻序列
圖3中是對Bird 視頻序列進行追蹤的部分結(jié)果。圖中小鳥悠閑的走來走去,經(jīng)歷了走路和轉(zhuǎn)身等的姿態(tài)變化,旁邊還有幾只小黃鳥干擾著目標,這種姿態(tài)變化和局部遮擋給準確追蹤目標增加了難度。圖3中從#22開始Frag跟蹤器就發(fā)生了漂移,到最后也沒有準確跟蹤上。而MIL 和OAB追蹤器在小鳥轉(zhuǎn)身前只是有少量的漂移,在#58小鳥轉(zhuǎn)過身后由于外觀發(fā)生了較大的變化同時旁邊還有干擾產(chǎn)生局部遮擋,MIL和OAB追蹤器漂移量逐漸增大,到#89時OAB追蹤器完全丟失了目標。而從結(jié)果中可知我們的方法全程都可以實現(xiàn)較好的跟蹤,這種基于局部特征的跟蹤器能很好的應對目標外觀變化。
圖3 Bird視頻序列
從圖4中可以看出,Board視頻對于準確追蹤目標很有挑戰(zhàn)性,因為視頻序列中的目標經(jīng)歷了背景凌亂、面外旋轉(zhuǎn)以及尺度變化。從#73和#120可以看出Frag 跟蹤器只有在外觀沒有劇烈變化的情況下才能夠跟蹤準確,當目標加快速度移動和旋轉(zhuǎn)時 (從#490 和#502 可以看出),F(xiàn)rag跟蹤器不能完成跟蹤任務。而OAB 和MIL 跟蹤器在一開始目標經(jīng)過背景凌亂的情況下就不能準確跟蹤目標,當目標發(fā)生旋轉(zhuǎn)時,MIL 跟蹤器能夠跟上目標 (#490 和#502),但是到后來還是發(fā)生了漂移,到最后丟失了目標(#652)。從圖4中我們可知OAB 跟蹤器一直都沒能準確跟蹤到目標。本文的方法能夠比較好的進行跟蹤,因為在線構(gòu)造的字典既包含了目標信息又包含了背景信息,具有一定的區(qū)別性,邏輯回歸分類器的使用也能很好的出目標和背景。從圖6中也可看出我們的方法跟蹤誤差最小。
圖4 Board視頻序列
圖5是Sylv視頻序列的部分跟蹤結(jié)果,該視頻中玩偶在房間內(nèi)做出各種變化姿態(tài)旋轉(zhuǎn)角度,同時還在不同的光照條件下來回移動,因此Sylv視頻的挑戰(zhàn)在于對不同光照條件下長時間的移動且過程中伴隨著各種姿態(tài)角度的變化。從圖5中可以看出,4種跟蹤方法幾乎都能準確跟蹤 (如#130),隨著玩偶不停地長時間的移動變化姿態(tài),MIL 跟蹤器開始出現(xiàn)了漂移現(xiàn)象,一直到#462 都跟蹤的不是很準確;Frag跟蹤器在前面300幀表現(xiàn)很好,但是經(jīng)歷了長時間的來回移動后出現(xiàn)跟蹤失效 (如#386);OAB 跟蹤器的跟蹤效果比MIL跟蹤的好,從圖中#386出現(xiàn)明顯漂移現(xiàn)象,最后#462 的視角變化時也沒有準確跟蹤到玩偶。而我們的方法在整段視頻中無論是光照下長時間來回移動還是平面外旋轉(zhuǎn)的變化下都能準確跟蹤到目標。
圖5 Sylv視頻序列
為了客觀準確的評估本文方法和其它3 種跟蹤方法,本文使用目前廣泛流行的跟蹤結(jié)果與真值間的中心點位置誤差作為衡量準則。其計算公式如下
式 (15)是xg和yg分別代表人工標定的目標真實值的x 方向和y 方向的坐標值:xt和yt分別代表不同方法的跟蹤結(jié)果在兩個坐標軸上的值。
如圖6所示中心位置誤差的曲線圖,這里橫縱坐標分別表示的是序列幀號和中心位置誤差像素個數(shù),結(jié)果表明本文方法在4種具有不同跟蹤挑戰(zhàn)的視頻中都有比較好的表現(xiàn),相對于另外3種跟蹤方法有一定的優(yōu)勢。
本文通過局部稀疏表示目標物體,使得這種基于局部特征的跟蹤器能夠很好的應對目標的外觀變化,同時文中對遮擋做了處理,使得跟蹤器對遮擋部分和未遮擋部分采用不同的處理方式,即通過修改稀疏系數(shù)剔除被遮擋的圖像塊,最后通過邏輯回歸分類器進行分類,很好地區(qū)分出目標和背景。文本方法很好地解決了由于位姿或遮擋等局部細節(jié)變化而造成的跟蹤失敗問題。實驗結(jié)果表明,我們的跟蹤方法與其它主流跟蹤方法相比具有更好的性能。
圖6 4種視頻圖像的跟蹤誤差曲線
[1]Ross D,Lim J,Lin R,et al.Incremental learning for robust visual tracking [J].International Journal of Computer Vision,2008,77 (1-3):125-141.
[2]Mei X,Ling H.Robust visual tracking using l1 minimization[C]//International Conference on Computer Vision,2009:1436-1443.
[3]Grabner H,Leistner C,Bischof H.Semi-supervised on-line boosting for robust tracking [C]//European Conference on Computer Vision,2008:234-247.
[4]Kwon J,Lee KM.Visual tracking decomposition [C]//IEEE Conference on Computer Vision and Pattern Recognition,2010:1269-1276.
[5]Kalal Z,Matas J,Mikolajczyk K.P-N learning:Bootstrapping binary classifiers by structural constraints [C]//IEEE Conference on Computer Vision and Pattern Recognition,2010:49-56.
[6]Avidan S.Ensemble tracking [J].IEEE Transactions on PAMI,2007,29 (2):261-271.
[7]Ng A,Jordan M.On discriminative vs.generative classifier:A comparison of logistic regression and naive Bayes [C]//Neural Information Processing Systems,2002:841-848.
[8]Babenko B,Yang M,Belongie S.Robust object tracking with online multiple instance learning [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33 (8):1619-1632.
[9]Grabner H,Leistner C,Bischof H.Semi-supervised on-line boosting for robust tracking [C]//European Conference on Computer Vision,2008:234-247.
[10]Adam A,Rivlin E,Shimshoni J.Robust fragments-based tracking using the integral histogram [C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,2006:798-805.