楊 萌, 楊 陽, 王 藝, 王亞杰
(1.西北工業(yè)大學(xué) 機(jī)電學(xué)院,陜西 西安 710072;2.中航工業(yè) 西安自動(dòng)控制研究所,陜西 西安 710065;3.西北工業(yè) 大學(xué)電子信息學(xué)院,陜西 西安 710072)
一種改進(jìn)的TLD算法
楊 萌1, 楊 陽2, 王 藝3, 王亞杰3
(1.西北工業(yè)大學(xué) 機(jī)電學(xué)院,陜西 西安 710072;2.中航工業(yè) 西安自動(dòng)控制研究所,陜西 西安 710065;3.西北工業(yè) 大學(xué)電子信息學(xué)院,陜西 西安 710072)
針對(duì)跟蹤算法目標(biāo)遮擋后易出現(xiàn)跟蹤漂移的問題,提出了一種跟蹤學(xué)習(xí)檢測(TLD)算法與Kalman濾波相結(jié)合的手勢(shì)跟蹤方法。在跟蹤器跟蹤成功后,加入識(shí)別窗的方法進(jìn)行遮擋判定。產(chǎn)生遮擋后目標(biāo)模型不再更新,學(xué)習(xí)器不再更新集合分類器。若是部分遮擋,則由TLD學(xué)習(xí)器處理;若是嚴(yán)重遮擋,則改由Kalman濾波算法預(yù)測目標(biāo)的運(yùn)動(dòng)軌跡。該方法在保留TLD算法長期穩(wěn)定跟蹤、適應(yīng)攝像機(jī)快速運(yùn)動(dòng)與復(fù)雜背景等優(yōu)點(diǎn)的基礎(chǔ)上,改善了目標(biāo)遮擋后易出現(xiàn)跟蹤漂移的問題。實(shí)驗(yàn)表明:提出的改進(jìn)TLD算法比其他常見跟蹤方法具有更加優(yōu)異的性能。
手勢(shì); 跟蹤算法; 跟蹤學(xué)習(xí)檢測; Kalman
基于計(jì)算機(jī)視覺的手勢(shì)人機(jī)交互是近年來計(jì)算機(jī)領(lǐng)域的重要課題,人們希望計(jì)算機(jī)能夠直接理解人的動(dòng)作以實(shí)現(xiàn)自然、簡潔的人機(jī)交互體驗(yàn)[1]。廣義上手勢(shì)可以分為靜態(tài)手勢(shì)和動(dòng)態(tài)手勢(shì)[2],靜態(tài)手勢(shì)是指單個(gè)手形姿態(tài),動(dòng)態(tài)手勢(shì)由一系列手形姿態(tài)組成。研究人員就手勢(shì)這種多關(guān)節(jié)非剛體的運(yùn)動(dòng)跟蹤問題提出了很多不同的解決方案[3~5],但這些方法都忽視了跟蹤過程中一個(gè)常見的問題,即目標(biāo)遮擋問題。
目標(biāo)遮擋通常情況下有以下兩種:部分遮擋和嚴(yán)重遮擋。部分遮擋指目標(biāo)被背景遮擋住了一部分,仍有一部分出現(xiàn)在視頻幀中,目標(biāo)的外觀由于遮擋而發(fā)生了不可預(yù)知的形變,此時(shí)的目標(biāo)圖像與目標(biāo)模型的相似度有了較大的區(qū)別。嚴(yán)重遮擋意味著目標(biāo)的大部分區(qū)域被背景遮擋,目標(biāo)的大部分特征都因?yàn)檎趽醵В藭r(shí)的目標(biāo)與目標(biāo)模型有了很大的區(qū)別,跟蹤算法運(yùn)行時(shí)幾乎獲取不到有用的目標(biāo)信息。當(dāng)然,嚴(yán)重遮擋與部分遮擋的區(qū)分不是固定的,此處僅描述了兩者的區(qū)別。
本文提出了一種跟蹤學(xué)習(xí)檢測(TLD)算法與Kalman濾波相結(jié)合的改進(jìn)TLD算法,在跟蹤器跟蹤成功后,加入識(shí)別窗的方法進(jìn)行遮擋判定。產(chǎn)生遮擋后目標(biāo)模型不再更新,學(xué)習(xí)器不再更新集合分類器,若是部分遮擋,則由TLD學(xué)習(xí)器處理;若是嚴(yán)重遮擋,則改由Kalman濾波算法預(yù)測目標(biāo)的運(yùn)動(dòng)軌跡。該方法在保留TLD算法長期穩(wěn)定跟蹤、適應(yīng)攝像機(jī)快速運(yùn)動(dòng)與復(fù)雜背景等優(yōu)點(diǎn)的基礎(chǔ)上,改進(jìn)了目標(biāo)遮擋后易出現(xiàn)跟蹤漂移的問題。
TLD跟蹤模型[6,7]如圖1所示。TLD跟蹤算法主要由3個(gè)部分組成:跟蹤器(tracker)、學(xué)習(xí)器(learner)以及檢測器(detector)。
圖1 TLD跟蹤模型Fig 1 TLD tracking model
首先,TLD算法使用像素比較的方法得到圖像片的特征送入隨機(jī)森林機(jī)器學(xué)習(xí)算法訓(xùn)練一個(gè)目標(biāo)檢測器,通過第一幀圖像獲得運(yùn)動(dòng)目標(biāo)特征,再對(duì)這些特征進(jìn)行仿射變換來初始化檢測器。跟蹤器利用目標(biāo)的運(yùn)動(dòng)信息來跟蹤目標(biāo),這個(gè)過程基于Lucas-Kanade光流法。跟蹤器和檢測器同時(shí)運(yùn)行,估計(jì)目標(biāo)的位置。在線學(xué)習(xí)模型通過P-N學(xué)習(xí)的機(jī)制不斷地更新檢測器和跟蹤器的數(shù)據(jù)。同時(shí),跟蹤器和檢測器也將得到的數(shù)據(jù)反饋給在線學(xué)習(xí)模型,以驗(yàn)證數(shù)據(jù)的精確性,使得到的目標(biāo)特征更加精確。三者相互作用,將得到的數(shù)據(jù)整合,最終確定下一幀中目標(biāo)的位置[8,9]。
很多研究者都針對(duì)目標(biāo)遮擋問題進(jìn)行了深入而細(xì)致的研究。文獻(xiàn)[10]在計(jì)算直方圖時(shí)加入了距離權(quán)重,遠(yuǎn)離質(zhì)心的像素點(diǎn)權(quán)值減??;文獻(xiàn)[11]采用數(shù)學(xué)估計(jì)的統(tǒng)計(jì)方法對(duì)遮擋的情況進(jìn)行判斷,發(fā)生遮擋時(shí)改用粒子濾波的方法跟蹤目標(biāo);文獻(xiàn)[1]采用Joint Probabilistic Data Associative Filter來判定遮擋。
2.1 遮擋判定
為了準(zhǔn)確判斷目標(biāo)被遮擋的情況,本文引入了識(shí)別窗和顏色直方圖相似度的概念。識(shí)別窗的設(shè)置如圖2所示,白色矩形為跟蹤窗,黑色矩形為識(shí)別窗,黑色直線為中心分隔線。識(shí)別窗的每條邊距離跟蹤窗至少5個(gè)像素。中心分割線將識(shí)別窗和跟蹤窗分隔為對(duì)稱的左右兩部分。
圖2 識(shí)別窗設(shè)置Fig 2 Identification window setting
判斷遮擋時(shí),計(jì)算每個(gè)部分對(duì)應(yīng)的顏色直方圖并做歸一化,將歸一化處理后的數(shù)據(jù)分別表示為R(k,t),T(k,t)。其中,R(k,t)對(duì)應(yīng)識(shí)別窗的直方圖,T(k,t)對(duì)應(yīng)跟蹤窗的直方圖,k=1,2對(duì)應(yīng)窗口的左右。考慮遮擋物從左面進(jìn)入情況,t-1幀時(shí)遮擋物進(jìn)入識(shí)別窗,t幀時(shí)遮擋物對(duì)目標(biāo)形成了遮擋。通過分析可知,t時(shí)刻左跟蹤窗與t時(shí)刻左識(shí)別窗的直方圖相似度高于t時(shí)刻左跟蹤窗與t-1時(shí)刻左跟蹤窗的相似度。相似度的評(píng)價(jià)采用Bhattacharyya系數(shù)[12]的方法
(1)
(2)
(3)
k=1時(shí),ρ1(k,t)為t時(shí)刻左跟蹤窗與t時(shí)刻左識(shí)別窗的直方圖相似度;ρ2(k,t)為t時(shí)刻左跟蹤窗與t-1時(shí)刻左跟蹤窗的直方圖相似度;ρ3(t)為t時(shí)刻跟蹤窗與t-1時(shí)刻跟蹤窗的直方圖相似度。k=2對(duì)應(yīng)跟蹤窗與識(shí)別窗的右半部分
ρ1(k,t)<ρ2(k,t),
(4)
ρ3(t)<λ.
(5)
若滿足式(4),則判定目標(biāo)發(fā)生了遮擋。若滿足式(4)且滿足式(5),則認(rèn)為目標(biāo)發(fā)生了嚴(yán)重的遮擋;考慮到視頻幀獲取中的偶然性,為了提高遮擋判定的魯棒性,在判定是否滿足式(4)和式(5)時(shí)均做3幀重復(fù)判定,結(jié)果一致才認(rèn)為真正滿足判定條件。其中,閾值范圍取0.5≤λ≤0.7,本文取λ=0.7。
2.2 改進(jìn)TLD算法
結(jié)合TLD目標(biāo)跟蹤算法、目標(biāo)遮擋判定、Kalman濾波算法,本文提出了改進(jìn)的TLD目標(biāo)跟蹤算法。改進(jìn)后算法的工作流程如圖3所示。
圖3 改進(jìn)的TLD算法流程圖Fig 3 Flow chart of improved TLD algorithm
3.1 實(shí)驗(yàn)一
在使用本文手勢(shì)檢測方法檢測出的目標(biāo)手勢(shì)區(qū)域作為輸入的基礎(chǔ)上,實(shí)驗(yàn)一比較本文算法與文獻(xiàn)[13]的Semi-supervised tracker(SemiB)算法、文獻(xiàn)[14]的MILTracker算法和文獻(xiàn)[15]的Struck算法在跟蹤目標(biāo)手勢(shì)時(shí)的準(zhǔn)確性、實(shí)時(shí)性和魯棒性。
1)手勢(shì)跟蹤的準(zhǔn)確性
本文采用平均成功率(average success rate,average SR)(%)作為算法準(zhǔn)確性的評(píng)價(jià)標(biāo)準(zhǔn)。跟蹤成功與否的評(píng)價(jià)標(biāo)準(zhǔn)如式(6)所示
(6)
其中,ROIT為跟蹤算法得到的目標(biāo)區(qū)域,ROIG為實(shí)際目標(biāo)區(qū)域,score>0.5,則認(rèn)為本次跟蹤成功。跟蹤算法平均成功率對(duì)比實(shí)驗(yàn)結(jié)果如表1所示。
表1 跟蹤算法平均成功率對(duì)比表Tab 1 Comparison of average success rate of tracking algorithm
本文算法實(shí)現(xiàn)手勢(shì)跟蹤的準(zhǔn)確性實(shí)驗(yàn)結(jié)果如圖4所示,圖4(a)表示未出現(xiàn)目標(biāo)手勢(shì),圖4(b)表示出現(xiàn)非目標(biāo)手勢(shì),圖4(c)表示出現(xiàn)目標(biāo)手勢(shì)。
在民族團(tuán)結(jié)進(jìn)步教育中倡導(dǎo)實(shí)現(xiàn)“雙主體”模式,提升教育者與教育對(duì)象之間的互動(dòng)性。加強(qiáng)教育者的交互性思維,使教育者與大學(xué)生在新式載體中形成積極互動(dòng),將大學(xué)生的學(xué)習(xí)、生活同教育主題有機(jī)連接起來,將民族團(tuán)結(jié)進(jìn)步教育內(nèi)涵與大學(xué)生的精神訴求緊密結(jié)合起來,引導(dǎo)他們樹立正確民族觀念的同時(shí)建立起理性的思維方法。
圖4 手勢(shì)跟蹤的準(zhǔn)確性效果圖Fig 4 Effect diagram of gesture tracking accuracy
將張開的手掌作為跟蹤目標(biāo),當(dāng)圖像中沒有手勢(shì)存在時(shí),沒有啟動(dòng)跟蹤過程;當(dāng)圖像中存在非目標(biāo)手勢(shì)時(shí),亦沒有啟動(dòng)跟蹤過程;只有圖像中出現(xiàn)張開的手掌時(shí),本文算法檢測到目標(biāo)手勢(shì)并開始手勢(shì)跟蹤過程。
2)手勢(shì)跟蹤的實(shí)時(shí)性
本文采用平均幀率(average frame per second,average FPS)作為算法實(shí)時(shí)性的評(píng)價(jià)標(biāo)準(zhǔn)。跟蹤算法平均幀率對(duì)比實(shí)驗(yàn)結(jié)果如表2所示。
表2 跟蹤算法平均幀率對(duì)比表Tab 2 Comparison of average FPS of tracking algorithm
對(duì)于分辨率為320×240的圖像,本文算法平均幀率達(dá)到9.6幀/s。在實(shí)際工程應(yīng)用中,為了進(jìn)一步提高算法的處理速度,以達(dá)到系統(tǒng)實(shí)時(shí)運(yùn)行的目的。本文采取了以下兩種措施:1)在手勢(shì)跟蹤之前對(duì)圖像進(jìn)行降采樣;2)手勢(shì)跟蹤的目標(biāo)矩形由手勢(shì)檢測模塊在原圖像中檢測后,經(jīng)尺度變換得到。
3)手勢(shì)跟蹤的魯棒性
跟蹤算法實(shí)現(xiàn)手勢(shì)跟蹤的魯棒性對(duì)比實(shí)驗(yàn)結(jié)果如圖5所示,圖5(a)表示出現(xiàn)目標(biāo)手勢(shì),圖5(b)表示目標(biāo)手勢(shì)發(fā)生顯著形變勢(shì),圖5(c)表示目標(biāo)手勢(shì)中出現(xiàn)較大面積的遮擋。實(shí)驗(yàn)結(jié)果表明:當(dāng)被跟蹤手勢(shì)出現(xiàn)顯著形變、較大面積的遮擋的情況下,本文算法均能穩(wěn)定跟蹤。
圖5 手勢(shì)跟蹤的魯棒性效果圖Fig 5 Effect of robust of gesture tracking
從準(zhǔn)確性、實(shí)時(shí)性、魯棒性三個(gè)方面實(shí)驗(yàn)結(jié)果顯示:本文算法在準(zhǔn)確性方面是效果最好的;在實(shí)時(shí)性方面略低于MILTracker,但明顯優(yōu)于SemiB和Struck;在魯棒性方面,本文算法與Struck都能很好地適應(yīng)顯著形變和較大面積的遮擋,MILTracker和Struck均出現(xiàn)了較大程度的漂移。以上實(shí)驗(yàn)結(jié)果表明:本文算法能夠很好地滿足手勢(shì)跟蹤的要求,并在三個(gè)性能上表現(xiàn)均衡。
3.2 實(shí)驗(yàn)二
實(shí)驗(yàn)二比較本文算法與TLD算法在處理遮擋問題上的差異性。圖6為TLD算法跟蹤結(jié)果;圖7為本文算法跟蹤結(jié)果。
在圖6和圖7中,當(dāng)目標(biāo)手勢(shì)緩慢接近遮擋物的過程中,圖(a)表示目標(biāo)手勢(shì)完全沒有被遮擋,圖(b)表示目標(biāo)手勢(shì)被部分遮擋,圖(c)表示目標(biāo)手勢(shì)被嚴(yán)重遮擋,圖(d)表示目標(biāo)手勢(shì)被完全遮擋,圖(e)表示目標(biāo)手勢(shì)重新出現(xiàn)。
圖6 TLD算法跟蹤結(jié)果Fig 6 Tracking results of TLD algorithm
圖7 本文算法跟蹤結(jié)果Fig 7 Tracking results of improved TLD algorithm
TLD算法中學(xué)習(xí)器的存在使得遮擋部分作為正樣本的一部分加入樣本集合中,因此,能夠很好地處理目標(biāo)被暫時(shí)部分遮擋的情況。但當(dāng)目標(biāo)長時(shí)間遮擋時(shí),學(xué)習(xí)器的學(xué)習(xí)過程會(huì)使目標(biāo)模板產(chǎn)生跟蹤漂移,跟蹤漂移會(huì)導(dǎo)致目標(biāo)物在嚴(yán)重遮擋、完全遮擋(即從視頻幀中消失)時(shí)跟蹤會(huì)發(fā)生錯(cuò)誤。
本文算法中的遮擋判定使得目標(biāo)手勢(shì)被遮擋過程中,遮擋物沒有通過學(xué)習(xí)器進(jìn)入目標(biāo)模型中,而是持續(xù)使用原來的目標(biāo)模型繼續(xù)跟蹤。當(dāng)部分遮擋轉(zhuǎn)變?yōu)閲?yán)重遮擋時(shí),改由Kalman濾波器預(yù)測目標(biāo)的運(yùn)動(dòng)軌跡。Kalman濾波器正確預(yù)測到目標(biāo)的位置。由于目標(biāo)模型沒有被錯(cuò)誤更新,本文算法在目標(biāo)手勢(shì)重新出現(xiàn)時(shí)準(zhǔn)確跟蹤到了目標(biāo)手勢(shì)。
在重復(fù)的5次實(shí)驗(yàn)中,結(jié)果均表現(xiàn)出了如圖6與圖7所展示的差異。因此,本文算法與TLD算法相比具有更好的抗遮擋能力。
本文提出了一種TLD算法與Kalman濾波相結(jié)合的手勢(shì)跟蹤方法。本文采取了識(shí)別窗的方法判定目標(biāo)受遮擋的情況。在TLD算法的跟蹤器跟蹤成功后加入遮擋判定過程,產(chǎn)生遮擋后目標(biāo)模型不再更新,TLD算法中的學(xué)習(xí)器不再更新集合分類器。若是部分遮擋,則由TLD學(xué)習(xí)器處理;若是嚴(yán)重遮擋,則改由Kalman濾波算法預(yù)測目標(biāo)的運(yùn)動(dòng)軌跡。該方法在保留TLD算法長期穩(wěn)定跟蹤、適應(yīng)攝像機(jī)快速運(yùn)動(dòng)與復(fù)雜背景等優(yōu)點(diǎn)的基礎(chǔ)上,改進(jìn)了目標(biāo)遮擋后易出現(xiàn)跟蹤漂移的問題。本文提出的手勢(shì)跟蹤方法與其他一些跟蹤方法相比,表現(xiàn)出了更加優(yōu)異的性能。
[1] 沙 亮.基于無標(biāo)記全手勢(shì)視覺的人機(jī)交互技術(shù)[D].北京:清華大學(xué),2010.
[2] 任海兵,祝遠(yuǎn)新,徐 光,等.基于視覺手勢(shì)識(shí)別的研究—綜述[J].電子學(xué)報(bào),2000,28(2):118-121.
[3] Nan X,Zhang Z,Zhang N,et al.VDESIGN:Toward image segmentation and composition in cave using finger interactions[C]∥2013 IEEE China Summit & International Conference on Signal and Information Processing(ChinaSIP),IEEE,2013:461-465.
[4] Isard M,Blake A.CONDENSATION—Conditional density propagation for visual tracking[J].International Journal of Computer Vision,1998,29(1):5-28.
[5] Shan Caifeng,Tan Tieniu,Wei Yucheng .Real-time hand tracking using a mean shift embedded particle filter[J].Pattern Recognition,2007,40(7):1958-1970.
[6] Kalal Z,Mikolajczyk K,Matas J.Forward-backward error:Automatic detection of tracking failures[C]∥2010 20th International Conference on Pattern Recognition(ICPR),IEEE,2010:2756-2759.
[7] Kalal Z,Matas J,Mikolajczyk K.Pn learning:Bootstrapping binary classifiers by structural constraints[C]∥2010 IEEE Conference on Computer Vision and Pattern Recognition(CVPR),IEEE,2010:49-56.
[8] Kalal Z,Mikolajczyk K,Matas J.Tracking-learning-detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,34(7):1409-1422.
[9] Kalal Z,Matas J,Mikolajczyk K.Online learning of robust object detectors during unstable tracking[C]∥2009 IEEE 12th International Conference on Computer Vision Workshops(ICCV Workshops),IEEE,2009:1417-1424.
[10] Kalal Z,Mikolajczyk K,Matas J.Face-tld:Tracking-learning-detection applied to faces[C]∥2010 17th IEEE International Conference on Image Processing(ICIP),IEEE,2010:3789-3792.
[11] 吳江琴,高 文.基于 ANN/HMM 的手語識(shí)別方法[J].計(jì)算機(jī)科學(xué),1999,26(10):63-66.
[12] 彭寧嵩,楊 杰,劉 志,等.Mean-Shift 跟蹤算法中核函數(shù)窗寬的自動(dòng)選取[J].軟件學(xué)報(bào),2005,16(9):1542-1550.
[13] Grabner H,Leistner C,Bischof H.Semi-supervised on-line boosting for robust tracking[C]∥Proceedings of 10th European Conference on Computer Vision,ECCV 2008—Computer Vision Marseille,France,2008:234-247.
[14] Babenko B,Yang M H,Belongie S.Robust object tracking with online multiple instance learning[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(8):1619-1632.
[15] Hare S,Saffari A,Torr P H S.Struck:Structured output tracking with kernels[C]∥2011 IEEE International Conference on Computer Vision(ICCV), IEEE,2011:263-270.
An improved TLD algorithm
YANG Meng1, YANG Yang2, WANG Yi3, WANG Ya-jie3
(1.School of Mechanical Engineering,Northwestern Polytechnical University, Xi’an 710072,China;2.Xi’an Flight Automatic Control Research Institute,AVIC,Xi’an 710065,China;3.School of Electronics and Information,Northwestern Polytechnical University,Xi’an 710072,China)
To solve tracking drift problem of tracking algorithm,a gesture tracking method is proposed by combining tracking-learning-detection(TLD)algorithm with Kalman filtering.After tracker tracks successfully,blocking out decision is utilized through adding identification window.Target model is no longer updated,when generating blocking out,and ensemble classifiers is not updated by learner.Processed by TLD learner during partial blocking out;target trajectory is predicted by Kalman filtering during severe blocking out.This method not only retains long-term stability of TLD tracking algorithm,and adapt to fast camera motion,but also overcomes tracking drift problem of target blocking out.Experimental results show that the proposed improved TLD algorithm has more excellent performance than other tracking methods.
gesture; tracking algorithm; tracking learning detection(TLD); Kalman
10.13873/J.1000—9787(2014)12—0130—04
2014—09—05
TP 391.4
A
1000—9787(2014)12—0130—04
楊 萌(1985-),陜西西安人,碩士,助教,研究方向?yàn)閿?shù)字信號(hào)處理。