史殊凡 孫光民
摘? 要:研究了傳統(tǒng)跟蹤—學習—檢測(Tracking-Learning-Detecting)目標跟蹤算法的結(jié)構(gòu)和特點,提出改進思路;雖然TLD算法采用P-N學習機制,在應對長時間跟蹤方面有很好的魯棒性,但是當目標發(fā)生嚴重遮擋、形變,或者場景發(fā)生較大的光照、旋轉(zhuǎn)變化時,也會導致跟蹤的失敗?;趯σ陨蠁栴}的研究,提出TLD改進跟蹤算法。改進算法在跟蹤模塊運用SIFT特征匹配算法來代替原算法中LK光流法,減少了計算的復雜度,提高了算法的環(huán)境適應能力。
關(guān)鍵詞:目標跟蹤;TLD算法;LK光流法;P-N學習;SIFT
中圖分類號:TP391? ? ?文獻標識碼:A
Abstract:In this paper,the structure and characteristics of the traditional tracking-learning-detecting (TLD) target tracking algorithm are studied and the improved idea is proposed.Although the TLD algorithm adopts the PN learning mechanism,it has good robustness in dealing with long-term tracking.However,when the target is severely occluded,deformed,or when there is a large illumination or rotation change for the scene,it may also lead to failure of tracking.Based on the research on the above-mentioned problems,an improved TLD tracking algorithm is proposed.The improved algorithm uses the SIFT feature matching algorithm in the tracking module to replace the LK optical flow method in the original algorithm,which reduces the computational complexity and improves the environment adaptability of the algorithm.
Keywords:target tracking;TLD algorithm;LK optical flow method;P-N learning;SIFT
1? ?引言(Introduction)
視覺作為人類認知世界的重要方式之一,人類所獲得的外部世界信息大多來自人類視覺系統(tǒng),人類視覺系統(tǒng)承擔了人類生活中的大量繁雜的信息與處理工作,它可以快速并且正確地完成圖形描述、識別與處理等任務。因此,在洞悉人類視覺本質(zhì)的基礎(chǔ)上,計算機視覺技術(shù)應運而生,該技術(shù)用各種成像系統(tǒng)代替人類視覺器官,用計算機取代大腦,來完成對人類接收的圖像信息的處理和理解。計算機視覺技術(shù)的最終研究目標就是能夠使計算機擬人化,使計算機能夠像人類那樣思考,通過視覺觀摩和了解世界,且具有自主的環(huán)境適應能力[1]。
對于視頻跟蹤來說,常用的方法主要有兩種,方法之一是使用跟蹤器[2],運用物體在上一幀的位置信息預測它在下一幀的位置情況,但這樣做有一個很大的缺點,就是會積累誤差,并且一旦物體在視頻幀中消失,跟蹤器就會失效,即使物體再出現(xiàn)也無法完成追蹤;方法之二是使用檢測器[3],對視頻中的每幀單獨進行處理,來達到檢測物體的位置的目的,但是同樣的,這種方法的不足之處在于需要提前對檢測器進行離線訓練,因此只能用于跟蹤事先已知的目標。因此,TLD算法便被提出[4]。該算法結(jié)合了傳統(tǒng)的目標跟蹤技術(shù)與目標檢測技術(shù),當跟蹤目標發(fā)生遮擋或者目標在鏡頭中消失從而導致跟蹤失敗時,然后運用檢測器檢測出再次出現(xiàn)的目標,再利用跟蹤器去重新跟蹤,如此循環(huán)下去,便可以滿足長時間跟蹤的需求。并且加入一種在線學習機制,使整個系統(tǒng)更加穩(wěn)定、可靠。
但是,當目標出現(xiàn)嚴重遮擋、形變、光照變化時,仍會出現(xiàn)跟蹤失敗的問題,基于以上問題,提出了本文的改進方法。
2 TLD目標跟蹤算法(TLD target trackingalgorithms)
TLD算法是英國薩里大學的博士生Zdenek Kalal提出[5]。主體結(jié)構(gòu)由跟蹤模塊、檢測模塊和學習模塊構(gòu)成。結(jié)構(gòu)如圖1所示。
2.1? ?跟蹤模塊
在TLD算法中,跟蹤模塊采用的是一種基于雙向軌跡的LK光流跟蹤法[6]。光流,是背景中可見點的三維速度矢量在二維平面上的投影,它表示了背景表面的點在圖像中位置的瞬間變化趨勢。LK方法的三個假設(shè):亮度恒定、時間連續(xù)和空間一致。
在TLD算法里,把視頻幀均勻畫成網(wǎng)格狀,并且將每個網(wǎng)格中的左上角位置的頂點作為特征點,接著采用雙向軌跡光流法[8],將這些特征點在下一幀中的位置通過跟蹤預測出來。假設(shè)當前幀為下一幀為,普通光流法僅由當前幀預測得到,缺乏反向校驗。而雙向軌跡光流法則在由預測出之后,利用中預測得到的點,再做反向預測,即由預測到,由這種雙向軌跡預測法,得到一個位移差值。假如由反向預測得到的中的特征點和之前得到的中的特征點位移差值超過了設(shè)定閾值,則把中預測出的偏差較大的特征點排除[9]。如圖2所示,即為雙向軌跡光流法的基本原理圖。
2.2? ?檢測模塊
檢測模塊的主要功能是定位視頻中每一幀目標的具體位置。TLD中的檢測模塊可以看作是一個級聯(lián)分類器,它由方差濾波器、集成分類器和最近鄰分類器這三部分構(gòu)成。
方差濾波器作為級聯(lián)分類器的第一部分,采用方差比較法,比較候選區(qū)域的方差與目標區(qū)域的方差,將候選區(qū)域中方差小于目標區(qū)域方差一半?yún)^(qū)域納入被拒區(qū)域,通過這樣的操作,大量的非目標區(qū)域便被排除在外。
集成分類器是第二部分。該部分采用隨機蕨叢林[10]進行分類。隨機蕨叢林是一個包含多個隨機蕨的分類器。每一個隨機蕨K都初始目標的像素點和在候選區(qū)域采集的像素點對灰度做差,生成二進制編碼X。X指向決策樹的后驗概率。對于所有的決策樹的這些后驗概率取半樸素貝葉斯輸出值M,進入下個分類器條件為M大于50%。當該種情況發(fā)生時那么就認為當前圖像塊含有目標,否則就進入拒絕區(qū)域。
最近鄰分類器[11]為第三部分,將通過前兩個分類器剩下的矩形框,計算其相關(guān)相似度。相關(guān)相似度大于0.6的區(qū)域,即認定為最終前景目標。檢測模塊原理如圖3所示。
2.3? ?學習模塊
TLD學習模塊采用的機器學習方法是P-N學習[12]。P-N學習是一種半監(jiān)督模式[13]的機器學習算法,它的獨到之處在于,檢測模塊對樣本分類時大多會有錯誤發(fā)生,錯誤主要分為兩種,P-N學習采用P和N這兩種專家對錯誤進行糾正:
P專家:測出漏檢(正樣本誤分類為負)的正樣本;N專家:修正誤檢(負樣本誤分類為正)的正樣本。
3? ?TLD目標跟蹤算法的改進(Improvement of TLDtarget tracking algorithms)
經(jīng)典TLD算法的跟蹤模塊采用的是基于雙向軌跡的LK光流法,其中假設(shè)亮度守恒是光流法使用的前提,但在實際應用中,由于遮擋、光度變化和噪聲等干擾源的存在,亮度守恒定律往往不能滿足。較大的光照變化可能導致目標的丟失,并且目標平面旋轉(zhuǎn)、形變等情況也會導致光流法無法形成運動矢量場,大大增加目標位置的確定難度,甚至導致跟蹤失敗。
為了解決上面的問題,采用SIFT特征匹配算法[14]來進行目標的跟蹤。SIFT全稱尺度不變特征變換。它的原理是將在圖像中檢測到的特征點,采用一個維數(shù)為128的特征向量來進行描述,所以根據(jù)上面的說法,一幅圖像經(jīng)由SIFT算法描述后,即成為一個維數(shù)是128的特征向量集,轉(zhuǎn)化后的特征向量集具有下列性質(zhì):(1)對圖像縮放、平移、旋轉(zhuǎn)不變等特征,具有一定不變性;(2)對于應對光照變化,仿射和投影變換,穩(wěn)定性同樣上一個臺階。
該算法的實現(xiàn)主要可分為六個步驟:
(1)建立高斯差分金字塔模型,進行尺度空間的構(gòu)建。對原始圖像進行尺度變換,得到圖像多尺度下的尺度空間表示序列,并從這些序列中,提取尺度空間主輪廓部分。
(2)空間極值點檢測[15]。
(3)關(guān)鍵點的精確定位。由于DOG值對噪聲和邊緣敏感[16]這一特點,在上步檢測到的局部極值點還要進一步的篩選,以便去掉不穩(wěn)定和誤檢出的極值點。
(4)關(guān)鍵點方向信息分配。通過求極值點的梯度來完成對方向的分配。對于上述關(guān)鍵點,其梯度幅值表述為:
(5)關(guān)鍵點表征。David G.Lowed[17]的實驗結(jié)果表明:對每個關(guān)鍵點,運用128維向量的描述子進行關(guān)鍵點表征時,綜合效果最好。
(6)特征點匹配。量比較兩組特征點的128維關(guān)鍵點的歐式距離[18]來實現(xiàn)。得到的結(jié)果越小,說明相似度越高,當結(jié)果小于設(shè)定的閾值時,便可以判定匹配成功。
4? ?實驗結(jié)果及分析(Experimental results and
SIFT特征作為圖像的局部特征,應對較差的跟蹤環(huán)境時穩(wěn)定性很好。首先對于David視頻測試集,在跟蹤過程中目標發(fā)生了較大的光照變化、平面旋轉(zhuǎn)和目標短時間被遮擋的問題,TLD算法跟蹤到了628幀,改進算法跟蹤到699幀。對于Football測試集,在跟蹤過程中,視頻目標發(fā)生了自身形變和遮擋等問題,且目標消失一段時間后,又出現(xiàn)在視野范圍中,針對該種情況TLD算法跟蹤效果較差,只成功跟蹤了168幀,而改進算法跟蹤效果較好,成功跟蹤了329幀。對于FaceOcc2測試集,目標幾乎發(fā)生了在前兩個測試集中所遇到的全部變化,測試結(jié)果為:TLD算法跟蹤到727幀,而改進算法幾乎成功跟蹤到每幀的目標。對于Jumping測試集,出現(xiàn)攝像頭抖動問題,TLD算法成功跟蹤了303幀,改進算法成功跟蹤到了每一幀目標。最后對于Carchase測試集,由于幀數(shù)很多,TLD跟蹤到了2655幀,改進后的TLD則成功跟蹤了3349幀的目標。以下為具體分析。
5? ?結(jié)論(Conclusion)
TLD跟蹤算法是近些年來提出的高性能跟蹤方法之一,受到了人們的極大關(guān)注。采用在線學習的方法,即使先驗信息很少,也能通過學習追蹤到目標的位置,為長時間跟蹤開拓了道路。本文在原始TLD算法框架的基礎(chǔ)上,引入SIFT特征匹配算法,使其與TLD進行結(jié)合從而得到了一種TLD改進跟蹤方法。本文通過相應的視頻數(shù)據(jù)集分別對原始TLD算法和TLD改進算法進行了測試,實驗結(jié)果顯示改進后的TLD算法在應對嚴重遮擋、形變,或者場景發(fā)生較大的光照、旋轉(zhuǎn)變化時,同樣有很好的跟蹤效果,并且在長時間跟蹤方面也不受影響。下一步對TLD的研究方向可以轉(zhuǎn)向目標選擇自動化和多目標跟蹤,大大節(jié)約跟蹤時間和成本,構(gòu)建更加完整的跟蹤體系。
參考文獻(References)
[1] DalalN,Triggs B.Histograms of oriented gradients for human detection[C].Computer Vision and Pattern Recognition,2005.IEEE Computer Society Conference on.IEEE,2005,1:886-893.
[2] Park J M,Choi H C,Oh S Y.Real-time vehicle detection in urban traffic using Ada Boost[C].International Conference on Intelligent Robots and Systems,2010:3598-3603.
[3] X.Li,W.Hu,C.Shen,et al.A Survey of Appearance Models in Visual Object Tracking[C].TIST,2013.
[4] 岡薩雷斯.數(shù)字圖像處理[M].北京:電子工業(yè)出版社,2004.
[5] Yilmaz A,Javed O,Shah M.Object tracking:A survey[J].Acm computing surveys(CSUR),2006,38(4):13.
[6] Moravec H P.Visual mapping by a robot rover[C].Proceedings of the 6th international joint conference on Artificial intelligence-Volume 1.Morgan Kaufmann Publishers Inc.,1979:598-600.
[7] Shi C,Stephens M.A combined corner and edge detector[C].Alvey vision conference,1988,15:50.
[8] Lowe DG.Distinctive image features from scale-invariant keypoints[J].International journal of computer vision,2004,60(2):91-110.
[9] Kuehnle A.Symmetry-based recognition of vehicle rears[J].Pattern recognition letters,1991,12(4):249-258.
[10] Srinivasa N.Vision-based vehicle detection and tracking method for forward collision warning in automobiles[C].Intelligent Vehicle? Symposium,2002.IEEE,2002(2):626-631.
[11] 伍健榮,杜向龍,劉海濤.一種基于Kalman濾波器的自適應背景建模改進算法[J].傳感器與微系統(tǒng),2012,31(1):52-54.
[12] 張蕾.基于視頻的交通運動目標檢測與跟蹤系統(tǒng)的設(shè)計與實現(xiàn)[D].哈爾濱工程大學,2007.
[13] 李敏敏.基于TLD模型的目標跟蹤方法[D].西安電子科技大學,2013.
[14] 張佳威,支瑞峰.光流算法比較分析研究[J].現(xiàn)代電子技術(shù),2013,36(13):39-42.
[15] Funk N.A study of the Kalman filter applied to visual tracking[R].University of Alberta,Project for CMPUT,2003(1):26.
[16] 薛陳,朱明,劉春香.遮擋情況下目標跟蹤算法綜述[J].中國光學與應用光學,2009,2(5):388-394.
[17] 張帥領(lǐng).基于TLD的視頻目標跟蹤算法研究[D].西安電子科技大學,2014.
[18] 薛亞陽.基于圖像處理的運行目標跟蹤算法研究[D].西安工業(yè)大學,2012.