趙運(yùn)基 裴海龍
(華南理工大學(xué)自主系統(tǒng)與網(wǎng)絡(luò)控制教育部重點(diǎn)實(shí)驗(yàn)室∥自動(dòng)化科學(xué)與工程學(xué)院,廣東廣州510640)
目標(biāo)跟蹤廣泛應(yīng)用于運(yùn)動(dòng)識(shí)別、視頻檢索、交通監(jiān)測(cè)、車輛導(dǎo)航[1]和增強(qiáng)實(shí)現(xiàn)[2]等領(lǐng)域.盡管針對(duì)不同跟蹤目標(biāo)提出了多種跟蹤算法,但找到一種普遍適用的跟蹤算法仍然是一個(gè)具有挑戰(zhàn)性的課題.這主要源于目標(biāo)形狀和位置的變化,很難得到目標(biāo)穩(wěn)定的特征,同時(shí)環(huán)境光照變化、復(fù)雜的背景等給跟蹤算法的自適應(yīng)性能提出了挑戰(zhàn).
跟蹤目標(biāo)的特征描述直接影響跟蹤算法的效果.目標(biāo)的特征描述方法有空間分布顏色直方圖[3]、輪廓描述[4]、混合模型的目標(biāo)描述[5]和小波特征描述等[6].近年來(lái),子空間方法因計(jì)算簡(jiǎn)單、有效等特性而在特征提取領(lǐng)域得到了廣泛應(yīng)用.其本質(zhì)是將原始的高維樣本數(shù)據(jù)投影到更有利于分類的低維特征子空間.特征跟蹤算法[7]首次將子空間描述[8]引入到目標(biāo)特征描述領(lǐng)域,應(yīng)用低維子空間的線性組合近似地重建訓(xùn)練圖像,通過(guò)離線訓(xùn)練圖像樣本得到目標(biāo)的低維子空間向量描述,然后應(yīng)用梯度下降法進(jìn)行運(yùn)動(dòng)參數(shù)估計(jì).離線的圖像樣本訓(xùn)練直接影響跟蹤系統(tǒng)的實(shí)時(shí)性,基于梯度下降法的運(yùn)動(dòng)參數(shù)估計(jì)經(jīng)常收斂于局部的極值點(diǎn).文獻(xiàn)[9]中提出了應(yīng)對(duì)目標(biāo)形變和環(huán)境變化的子空間更新算法.該算法在跟蹤過(guò)程中通過(guò)在線學(xué)習(xí)得到目標(biāo)的特征子空間,同時(shí)在目標(biāo)跟蹤過(guò)程中應(yīng)用粒子濾波方法代替梯度下降法實(shí)現(xiàn)目標(biāo)運(yùn)動(dòng)參數(shù)估計(jì).文獻(xiàn)[10]中應(yīng)用多元特征子空間方法處理漸變背景,實(shí)現(xiàn)了環(huán)境光照變化下的前景目標(biāo)檢測(cè).
關(guān)節(jié)式跟蹤目標(biāo)描述可以通過(guò)參數(shù)化的形狀和輪廓進(jìn)行建模.主動(dòng)輪廓的參數(shù)模型描述能力有限[11],需要離線訓(xùn)練,當(dāng)遇到訓(xùn)練過(guò)程中未出現(xiàn)的目標(biāo)時(shí),跟蹤器的下一步跟蹤將不可預(yù)測(cè),最終影響跟蹤效果.水平集合算法已成功應(yīng)用到關(guān)節(jié)式目標(biāo)的跟蹤過(guò)程中,但該方法忽略了豐富的外觀和紋理信息、目標(biāo)區(qū)域中各像素點(diǎn)間的幾何位置關(guān)系[12].文獻(xiàn)[13]中將位置信息引入到目標(biāo)直方圖描述中并成功實(shí)現(xiàn)了關(guān)節(jié)式目標(biāo)跟蹤,但目標(biāo)的直方圖描述中加入的位置信息相對(duì)有限.
由于跟蹤目標(biāo)一般選擇為矩形,因此關(guān)節(jié)式跟蹤目標(biāo)區(qū)域無(wú)可避免地包含背景像素點(diǎn).為了能準(zhǔn)確地對(duì)目標(biāo)進(jìn)行描述,文中引入了圖割法對(duì)目標(biāo)區(qū)域進(jìn)行處理,以得到目標(biāo)矩形區(qū)域的前景圖像(即關(guān)節(jié)式跟蹤目標(biāo)).前景圖像在矩形目標(biāo)區(qū)域中的位置不確定性直接影響目標(biāo)的特征子空間描述.鑒于二維圖像快速傅里葉變換的振幅譜圖像是位移不變的,文中將目標(biāo)矩形區(qū)域中的前景圖像用振幅譜來(lái)表示,以消除因空間位置不匹配而帶來(lái)的目標(biāo)描述誤差.在粒子濾波框架下,將各粒子區(qū)域中前景目標(biāo)的傅里葉變換幅度譜與目標(biāo)基于子空間線性描述的差值作為粒子權(quán)重的描述,在跟蹤過(guò)程中實(shí)時(shí)更新特征子空間向量,以實(shí)現(xiàn)基于增量學(xué)習(xí)的關(guān)節(jié)式目標(biāo)跟蹤.最后通過(guò)實(shí)驗(yàn)驗(yàn)證該方法的有效性.
假設(shè)在t時(shí)刻得到的最優(yōu)跟蹤目標(biāo)矩形區(qū)域?yàn)閃t,當(dāng)t=0時(shí)W0為初始幀中選擇的目標(biāo)跟蹤區(qū)域,如圖1所示.在目標(biāo)窗口中選擇3個(gè)較小的矩形窗口作為前景目標(biāo)的有效逼近,最大矩形窗口為目標(biāo)區(qū)域.應(yīng)用積分直方圖方法計(jì)算前景直方圖為局部前景直方圖HBtfi的線性組合,其中i(i=1,2,3)為矩形窗口的編號(hào),其權(quán)重系數(shù)為
式中:N為直方圖分辨率,文中取N=16;C(p)為像素?cái)?shù);k為歸一化系數(shù),以確保3個(gè)權(quán)重系數(shù)之和為1.背景直方圖Hbt為整個(gè)目標(biāo)區(qū)域直方圖與前景直方圖之差.
圖1 初始幀中選取的目標(biāo)Fig.1 Objects selected in initialized frames
得到背景與前景的相對(duì)準(zhǔn)確描述之后,應(yīng)用圖割法對(duì)目標(biāo)區(qū)域圖像進(jìn)行分割.圖割法[12-14]定義了代價(jià)函數(shù):
式中,E、EA、ES分別為總代價(jià)函數(shù)值、外觀和形狀相關(guān)的代價(jià)函數(shù),γ為形狀代價(jià)函數(shù)的權(quán)重.依據(jù)文獻(xiàn)[13]所述,文中只考慮外觀項(xiàng),同時(shí)將前景密度Pf作為形狀項(xiàng)的替代.PB為背景密度,為背景直方圖的歸一化值.Pi為局部前景區(qū)域Bi的密度,為的歸一化值.前景密度Pf為當(dāng)前的前景直方圖的歸一化值.根據(jù)文獻(xiàn)[14]圖割法,將式(1)轉(zhuǎn)化為求代價(jià)函數(shù)(式(3))的最小值.
式中:φ為目標(biāo)區(qū)域中的像素點(diǎn)集合;如果p為前景像素點(diǎn),則Cp=1,否則Cp=0;μ為權(quán)重系數(shù),文中取δ為核窗寬,I(p)為像素點(diǎn)p處的密度值;β為鄰域像素點(diǎn)集合
如果 p∈Bi,則有 PF(I(p))=Pi(I(p)),否則PF(I(p))=Pf(I(p)).如果對(duì)整幀圖像做處理求代價(jià)函數(shù)的最小值,那么計(jì)算復(fù)雜度會(huì)比較高,但圖割法僅在目標(biāo)區(qū)域內(nèi)進(jìn)行前景目標(biāo)提取,因此對(duì)整個(gè)目標(biāo)跟蹤系統(tǒng)沒(méi)有造成較大的計(jì)算負(fù)擔(dān).應(yīng)用圖割法實(shí)現(xiàn)圖1中目標(biāo)區(qū)域的前景檢測(cè)結(jié)果如圖2所示.
圖2 圖割算法對(duì)圖1中目標(biāo)區(qū)域前景檢測(cè)的結(jié)果Fig.2 Results of foreground detection for target regions in Fig.1 by graph-cut algorithm
在圖像處理中,一幀大小為M×N的二維圖像f(x,y)的傅里葉變換可以表示為
傅里葉變換具有如下的平移性質(zhì):
由式(5)可以推出
因此,二維圖像的傅里葉變換的振幅譜圖像具有位移不變性.文中將經(jīng)圖割法處理后的目標(biāo)矩形區(qū)域進(jìn)行二維傅里葉變換,并將其振幅譜作為目標(biāo)的描述,可以消除關(guān)節(jié)式目標(biāo)在目標(biāo)矩形區(qū)域中因位置不匹配而對(duì)目標(biāo)前景的特征子空間描述產(chǎn)生的影響.因此與文獻(xiàn)[9]中直接應(yīng)用矩形目標(biāo)區(qū)域進(jìn)行特征向量的計(jì)算相比,文中方法具有更高的跟蹤準(zhǔn)確性.圖2中前景目標(biāo)的傅里葉變換振幅譜如圖3所示.
圖3 目標(biāo)區(qū)域前景的振幅譜Fig.3 Amplitude spectrum of the foreground in target region
首先離線選擇訓(xùn)練圖像集合{I1,I2,…,In},再計(jì)算協(xié)方差矩陣的特征向量U,訓(xùn)練圖像樣本的均值中值誤差矩陣奇異值分解A=UΣVT可得到特征向量U.把后續(xù)m幀{In+1,In+2,…,In+m}的跟蹤結(jié)果作為目標(biāo)模型的新樣本對(duì)目標(biāo)的特征向量進(jìn)行更新.因此目標(biāo)描述的特征向量更新轉(zhuǎn)化為對(duì)增廣中心矩陣進(jìn)行奇異值分解,即對(duì)進(jìn)行奇異值分解,進(jìn)而得到相應(yīng)的特征向量.其中IC為n+m個(gè)向量的均值,
新增加m個(gè)向量的均值為
增廣中心矩陣的分塊表示為
根據(jù)文獻(xiàn)[9]可得
式中:f'為遺忘因子,f'∈[0,1].由式(10)可以看出對(duì)增廣中心矩陣的奇異值分解可以轉(zhuǎn)換為對(duì)矩陣R的奇異值分解,進(jìn)而得到增廣中心矩陣的奇異值分解.目標(biāo)描述的特征向量依據(jù)奇異值分解得到的特征值的大小進(jìn)行選?。谠隽繉W(xué)習(xí)的特征提取的初始化為:訓(xùn)練圖像集合的均值為所選初始幀圖像中目標(biāo)區(qū)域前景目標(biāo)的振幅譜所對(duì)應(yīng)的向量,集合中的元素個(gè)數(shù)為1.在基于增量學(xué)習(xí)的目標(biāo)特征向量更新過(guò)程中,m=5,f'=0.9.
在跟蹤實(shí)驗(yàn)中,首先在第一幀圖像中手動(dòng)選取目標(biāo)區(qū)域.在后續(xù)的圖像幀中,針對(duì)粒子濾波算法[9]中粒子確定的目標(biāo)區(qū)域,應(yīng)用圖割法對(duì)目標(biāo)區(qū)域進(jìn)行前景分割,對(duì)各粒子確定的區(qū)域進(jìn)行快速傅里葉變換,將振幅譜轉(zhuǎn)化為向量的形式,各粒子的權(quán)重由振幅譜向量與其目標(biāo)線性子空間描述之間的歐式距離確定,最大權(quán)重粒子所確定的目標(biāo)區(qū)域即為跟蹤目標(biāo).在確定跟蹤目標(biāo)區(qū)域后,在分割出來(lái)的前景圖像中應(yīng)用全局匹配算法對(duì)Bi進(jìn)行位置更新,然后進(jìn)行前景直方圖更新,為在下一幀圖像中應(yīng)用圖割法進(jìn)行目標(biāo)前景與背景分割做準(zhǔn)備,采用與文獻(xiàn)[13]相同的方法對(duì)目標(biāo)位置與前景直方圖進(jìn)行更新.在粒子濾波框架下不同時(shí)刻狀態(tài)的動(dòng)態(tài)模型由布朗運(yùn)動(dòng)進(jìn)行建模,t時(shí)刻的目標(biāo)狀態(tài)變量由目標(biāo)沿x和y軸的平移量、旋轉(zhuǎn)角度、目標(biāo)尺度、縱橫比和扭轉(zhuǎn)角組成,即 Xt=(xt,yt,θt,st,αt,φt),t時(shí)刻的目標(biāo)狀態(tài)變量中,各個(gè)參數(shù)均由t-1時(shí)刻相應(yīng)參數(shù)的獨(dú)立高斯分布進(jìn)行描述.因此,確定的矩形區(qū)域包含所有的粒子確定的目標(biāo)區(qū)域,對(duì)于視頻Male Skater,確定的目標(biāo)位置如圖4所示(最大矩形框包含了所有粒子所確定的目標(biāo)位置,狀態(tài)向量參數(shù)的標(biāo)準(zhǔn)差為0.005,=0.001).在該區(qū)域中應(yīng)用圖割法進(jìn)行目標(biāo)前景分割,可有效避免各個(gè)粒子間重疊區(qū)域的重復(fù)運(yùn)算.
圖4 基于布朗運(yùn)動(dòng)的目標(biāo)位置估計(jì)Fig.4 Estimation of target location based on Brownian motion
在Matlab環(huán)境下實(shí)現(xiàn)文中算法,其中包含了經(jīng)過(guò)優(yōu)化的Mex C++子程序.為與文獻(xiàn)[13]中算法進(jìn)行比較,實(shí)驗(yàn)中采用了文獻(xiàn)[13]所提供的實(shí)驗(yàn)視頻,該視頻中圖像分辨率均為320×240.同時(shí)將文中算法的目標(biāo)跟蹤結(jié)果與文獻(xiàn)[9]算法的跟蹤結(jié)果進(jìn)行比較.所有實(shí)驗(yàn)均在賽揚(yáng)雙核CPU、2.0 GHz主頻、2MB內(nèi)存的計(jì)算機(jī)上實(shí)現(xiàn).
圖5 不同算法對(duì)不同視頻序列的跟蹤結(jié)果比較Fig.5 Comparison of tracking results of different algorithms for different vision sequences
如圖5所示,對(duì)于視頻序列Female Skater、Dancer和 Indian Dancer,文獻(xiàn)[9,13]中算法基本上能夠?qū)崿F(xiàn)對(duì)目標(biāo)的跟蹤,但跟蹤結(jié)果相對(duì)于實(shí)際的目標(biāo)位置與文中算法相比存在較大誤差.跟蹤結(jié)果相對(duì)于目標(biāo)實(shí)際中心位置的誤差曲線如圖6所示.目標(biāo)實(shí)際中心位置為手動(dòng)選取的矩形中心,該矩形包含目標(biāo)主體部分(手和腳伸展較遠(yuǎn)部分不包括在內(nèi)).3種算法的跟蹤誤差的最大值、均值和標(biāo)準(zhǔn)差如表1所示.由圖6和表1可知,文中算法跟蹤誤差的均值和方差均小于其它兩種算法,文中算法的跟蹤誤差曲線基本上位于其它兩種算法的跟蹤誤差曲線之下.對(duì)于視頻序列Male Skater,文獻(xiàn)[13]算法基本上能夠?qū)崿F(xiàn)對(duì)目標(biāo)的跟蹤,但文獻(xiàn)[9]算法從第300幀開始逐漸丟失跟蹤目標(biāo),在第350幀時(shí)跟蹤目標(biāo)的誤差已超過(guò)了50像素,隨后丟失跟蹤目標(biāo),直到視頻結(jié)束.文中算法實(shí)現(xiàn)了對(duì)目標(biāo)的跟蹤,而且沒(méi)有發(fā)生目標(biāo)丟失.圖6和表1表明,文中算法相對(duì)于文獻(xiàn)[9,13]算法具有更為精確的跟蹤效果.
圖6 3種算法的跟蹤誤差比較Fig.6 Comparison of tracking errors among three methods
表1 3種算法的跟蹤誤差的最大值、均值和標(biāo)準(zhǔn)差比較Table 1 Comparison of maximum,average and standard deviation of tracking error among three algorithms
跟蹤算法的計(jì)算復(fù)雜度可以用其幀率表示.在文中選擇的硬件和軟件實(shí)驗(yàn)條件下,文獻(xiàn)[9]算法、文獻(xiàn)[13]算法、文中算法的幀率分別為 5.8、3.2、4.4f/s.在不影響跟蹤精度的前提下,文中實(shí)驗(yàn)均選擇400個(gè)粒子,隨著粒子數(shù)的增加,粒子的概率密度函數(shù)逐漸逼近狀態(tài)的概率密度函數(shù),粒子濾波估計(jì)達(dá)到了最優(yōu)貝葉斯估計(jì)的效果[15].粒子數(shù)較大時(shí)文中算法對(duì)運(yùn)動(dòng)目標(biāo)的估計(jì)更準(zhǔn)確,但會(huì)增加計(jì)算量,因此文中算法在選擇粒子數(shù)時(shí),在參數(shù)估計(jì)精度與計(jì)算量之間做了權(quán)衡.由算法的幀率可知,文中算法與文獻(xiàn)[13]算法相比具有更低的計(jì)算復(fù)雜度.由于前景目標(biāo)的分割中引入了圖割法,因此文中算法相對(duì)于文獻(xiàn)[13]算法增加了一定的計(jì)算量.
文中提出了一種基于增量學(xué)習(xí)的關(guān)節(jié)式目標(biāo)跟蹤算法.該算法應(yīng)用圖割法實(shí)現(xiàn)前景目標(biāo)的提取,對(duì)提取后的前景目標(biāo)進(jìn)行傅里葉變換得到傅里葉振幅譜圖像,對(duì)多個(gè)振幅譜圖像應(yīng)用奇異值分解和主元分析法實(shí)現(xiàn)對(duì)關(guān)節(jié)式目標(biāo)的低維子空間描述.實(shí)驗(yàn)結(jié)果表明,文中算法具有更好的關(guān)節(jié)式目標(biāo)跟蹤效果和較高的跟蹤精確度,同時(shí)計(jì)算量沒(méi)有顯著增加.文中算法對(duì)目標(biāo)的局部信息考慮較少,因此在后續(xù)研究中將考慮引入目標(biāo)的局部信息,實(shí)現(xiàn)基于整體和局部信息的關(guān)節(jié)式目標(biāo)描述.
[1] Yilmaz A,Javed O,Shah M.Object tracking:a survey[J].ACM Computer Surveys,2006,38(4):229-240.
[2] Puri A,Valavanis K P,Kontitsis M.Statistical profile generation for traffic monitoring using real-time UAV based video data[C]∥Proceedings of Mediterranean Conference on Control and Automation.Athens:IEEE,2007:1-6.
[3] Birchfield S T,Sriram Rangarajan.Spatiograms versus histograms for region-based tracking[C]∥Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.San Diego:IEEE,2005:1158-1163.
[4] Thi Y,Vaswani N,Tannenbaum A,et al.Tracking deforming objects using particle filtering for geometric active contours[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2007,29(8):1470-1475.
[5] Wang Yong,Tan Yihua,Tian Jinwen.Adaptive hybrid likelihood model for visual tracking based on Gaussian particle filter[J].Optical Engineering,2010,47(9):1-8.
[6] Jepson A D,F(xiàn)leet D J,El-Maraghi T F.Robust online appearance models for visual tracking [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2003,25(10):1296-1311.
[7] Black M J,Jepson A D.Eigentracking:robust matching and tracking of articulated objects using a view-based representation[C]∥Proceedings of European Conference on Computer Vision.Cambridge:Springer-Verlag,1996:329-342.
[8] Turk M A,Pentland A P.Face recognition using eigenfaces[C]∥Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.Maui:IEEE,1991:586-591.
[9] Ross D,Lim Jongwoo,Lin R,et al.Incremental learning for robust visual tracking[J].International Journal of Computer Vision,2008,77(1):125-141.
[10] Dong Y,De Souza G N.Adaptive learning of multi-subspace for foreground detection under illumination changes[J].Computer Vision and Image Understanding,2011,115(1):31-49.
[11] Kass M,Witkin A,Terzopoulos D.Snakes:active contour models[J].International Journal of Computer Vision,1988,1(4):321-331
[12] Zhang Tao,F(xiàn)reedman D.Tracking objects using density matching and shape priors[C]∥Proceedings of the Ninth IEEE International Conference on Computer Vision.Nice:IEEE,2003:1056-1062.
[13] Nejhum S M Shaled,Ho Jeffrey,Yang Ming-Hsuan.Online visual tracking with histogram and articulating blocks[J].Computer Vision and Image Understanding,2010,114(8):901-914
[14] Freedman D,Zhang T.Interactive graph cut based segmentation with shape priors[C]∥Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition.San Diego:IEEE,2005:755-762.
[15] Simon Dan.Optimal state estimation:Kalman,H-infinity,and nonlinear approaches[M].Canada:John Wiley and Sons,2006:466-469.