段喜萍, 劉家鋒, 王建華, 唐降龍
(1.哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001; 2.哈爾濱師范大學(xué) 計(jì)算機(jī)科學(xué)與信息工程學(xué)院,黑龍江哈爾濱 150025; 3.黑龍江省智能教育與信息工程重點(diǎn)實(shí)驗(yàn)室,黑龍江 哈爾濱 150025)
多模態(tài)特征聯(lián)合稀疏表示的視頻目標(biāo)跟蹤
段喜萍1,2,3, 劉家鋒1, 王建華2,3, 唐降龍1
(1.哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱 150001; 2.哈爾濱師范大學(xué) 計(jì)算機(jī)科學(xué)與信息工程學(xué)院,黑龍江哈爾濱 150025; 3.黑龍江省智能教育與信息工程重點(diǎn)實(shí)驗(yàn)室,黑龍江 哈爾濱 150025)
摘要:針對(duì)復(fù)雜跟蹤環(huán)境下,單模態(tài)方法不能很好地跟蹤目標(biāo)的問題,提出了一種基于多模態(tài)特征聯(lián)合稀疏表示的目標(biāo)跟蹤方法。該方法對(duì)每個(gè)候選樣本的多模態(tài)特征進(jìn)行聯(lián)合稀疏表示,將各模態(tài)重建誤差之和用于計(jì)算候選樣本的觀察概率,并將具有最大觀察概率的候選樣本確定為目標(biāo)。通過與其他一些流行跟蹤算法進(jìn)行對(duì)比實(shí)驗(yàn),結(jié)果表明本方法在遮擋、光照變化等場(chǎng)景下均能可靠跟蹤,具有更好的跟蹤效果,從而驗(yàn)證了方法的可行性。
關(guān)鍵詞:計(jì)算機(jī)視覺;視頻目標(biāo)跟蹤;多模態(tài);LBP;APG;模板更新;聯(lián)合稀疏表示
網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/23.1390.U.20151104.1636.006.html
唐降龍(1960-),男,教授,博士生導(dǎo)師.
視覺目標(biāo)跟蹤是計(jì)算機(jī)視覺中的熱點(diǎn)問題,已被廣泛應(yīng)用于自動(dòng)監(jiān)控、汽車導(dǎo)航、高級(jí)人機(jī)交互等諸多領(lǐng)域。然而由于受到姿勢(shì)、形狀變化,雜波背景,亮度、視角變化,噪聲及遮擋等因素的影響,實(shí)現(xiàn)健壯的視覺目標(biāo)跟蹤仍極具挑戰(zhàn)。現(xiàn)有的視覺目標(biāo)跟蹤方法可被分類為產(chǎn)生式方法和判別式方法。產(chǎn)生式方法在一組候選目標(biāo)中選擇似然值最大的候選目標(biāo)作為跟蹤目標(biāo)。其中,Ross等提出的IVT方法[1]遞增學(xué)習(xí)一個(gè)低維子域以適應(yīng)目標(biāo)的外觀變化。VTD方法[2]使用多個(gè)運(yùn)動(dòng)模型和多個(gè)外觀模型來擴(kuò)展傳統(tǒng)的粒子濾波方法。判別式方法將跟蹤問題看作一個(gè)兩類別分類問題。其中,Boosting方法[3]通過在線特征選擇跟蹤目標(biāo)。為避免跟蹤偏差,在線半監(jiān)督boosting方法[4]使用未標(biāo)記樣本提高分類性能;Babenko等人[5]將多示例學(xué)習(xí)引入到視覺目標(biāo)跟蹤中。Zhang等人提出的CT算法[6],利用壓縮感知,在壓縮域進(jìn)行目標(biāo)表示,具有實(shí)時(shí)跟蹤性能。
在前述各類方法中,絕大多數(shù)為單模態(tài)方法,即使用一種特征來表示目標(biāo),忽視了目標(biāo)包含的其他豐富特征。實(shí)際上,不同模態(tài)特征具有不同特點(diǎn):基于區(qū)域的特征,如全局灰度或全局紋理,較為敏感,但不適于處理遮擋;基于形狀的特征對(duì)噪聲敏感,但不適于目標(biāo)的快速運(yùn)動(dòng);顯著點(diǎn)特征適合于遮擋,但對(duì)目標(biāo)本身的變化較為敏感[12]。而現(xiàn)有的多模態(tài)方法中,往往不能同時(shí)考慮到各模態(tài)特征之間差異與關(guān)聯(lián)。為解決前述問題,本文提出一種基于多模態(tài)特征聯(lián)合稀疏表示的跟蹤方法。在表示每一候選目標(biāo)時(shí),同時(shí)考慮該候選目標(biāo)各模態(tài)特征之間的差異與聯(lián)系,通過求解具有2,1范型正則項(xiàng)的最小化問題,激活屬于同一目標(biāo)模板的不同模態(tài)特征,聯(lián)合表示該候選目標(biāo),提高候選樣本的表示精度及整個(gè)跟蹤系統(tǒng)的性能。
1基于多模態(tài)特征聯(lián)合稀疏表示的跟蹤方法
在視覺目標(biāo)跟蹤中,為定位目標(biāo),關(guān)鍵是估計(jì)每個(gè)候選目標(biāo)的觀察概率。下面將介紹多模態(tài)特征聯(lián)合稀疏表示,及如何獲取每個(gè)候選目標(biāo)的觀察概率。
(1)
式中:w=[w1w2…wK]∈RJ×K為對(duì)應(yīng)的稀疏表示矩陣,λ為平衡重建誤差與稀疏性的參數(shù)。這種表示有2個(gè)優(yōu)點(diǎn):1)使不同特征具有不同的稀疏表示,以反映它們間的差別;2)引入2,1正則項(xiàng),使某些目標(biāo)模板能夠聯(lián)合表示候選目標(biāo)的不同特征,使與同一目標(biāo)模板對(duì)應(yīng)的稀疏系數(shù)聯(lián)合稀疏,以反映不同模態(tài)特征間的關(guān)聯(lián)。
考慮到跟蹤過程中可能的噪聲和遮擋,分別向各模態(tài)特征對(duì)應(yīng)的目標(biāo)模板集Tk中引入遮擋模板集Ik=I∈Rd×d,其中I為d維單位矩陣,每列為對(duì)應(yīng)目標(biāo)各像素位置的遮擋模板。指定Dk=[TkIk]∈Rd×(J+d)表示擴(kuò)展后的對(duì)應(yīng)于第k種模態(tài)特征的目標(biāo)模板集。當(dāng)發(fā)生遮擋時(shí),目標(biāo)同一位置的不同特征均會(huì)受到影響,與之對(duì)應(yīng)的所有遮擋模板應(yīng)被激活。因而,應(yīng)對(duì)與同一位置的不同特征對(duì)應(yīng)的遮擋模板對(duì)應(yīng)的系數(shù)強(qiáng)加聯(lián)合稀疏正則項(xiàng)。這樣,式(1)可被擴(kuò)展為
(2)
其中
(3)
其中,C為歸一化因子。
假設(shè)給定一組候選目標(biāo){y(1),y(2),…,y(N)},則具有最大觀察概率的候選目標(biāo)被確定為目標(biāo)。
(4)
跟蹤過程中,受到姿勢(shì)變化、亮度變化、遮擋等因素的影響,目標(biāo)外觀可能發(fā)生變化。因而有必要對(duì)目標(biāo)模板集進(jìn)行更新以適應(yīng)目標(biāo)外觀的變化。本文在設(shè)計(jì)更新策略時(shí)考慮了如下3個(gè)因素:
1)一般來說,由于跟蹤的連續(xù)性和一致性,連續(xù)幀的目標(biāo)外觀變化不大。
2)受到姿勢(shì)變化、遮擋等因素影響,目標(biāo)外觀可能變化很大。
3)能確保第1幀的目標(biāo)狀態(tài)是正確的。
綜合以上3點(diǎn),本文采用一種簡(jiǎn)單的更新策略:
1)保持第1幀的目標(biāo)作為目標(biāo)模板集中第1個(gè)目標(biāo)模板T1,不更新;
(5)
否則不更新。
步驟1:初始化。
步驟2:從第2幀開始,不斷執(zhí)行下列各步,直至最后一幀。
4)根據(jù)式(3),計(jì)算每個(gè)候選目標(biāo)y(t,i),i=1,2,…,N,的觀察概率P(y(t,i)|o)。
5)根據(jù)式(4),估計(jì)第t幀的目標(biāo)位置。
6)根據(jù)1.2節(jié),更新目標(biāo)模板集。
2實(shí)驗(yàn)及分析
為驗(yàn)證本文方法的有效性,以2模態(tài)特征為例進(jìn)行了2組實(shí)驗(yàn)。具體來說,第1組實(shí)驗(yàn)對(duì)比了本文方法與基于單模態(tài)特征的跟蹤方法。第2組實(shí)驗(yàn)對(duì)比了本文方法與基于多模態(tài)特征單獨(dú)稀疏表示的方法。實(shí)驗(yàn)中,設(shè)置參數(shù)λ和τ的值分別為0.02和0.4。
為對(duì)比本文方法與單模態(tài)跟蹤方法,本文在圖像序列PETS上對(duì)比了基于單模態(tài)灰度稀疏表示的方法、基于單模態(tài)LBP紋理稀疏表示的方法、MIL[6]、CT[7]及本文的基于多模態(tài)特征(灰度+LBP紋理)聯(lián)合稀疏表示的方法,其中LBP紋理圖像可從灰度圖像計(jì)算得到。
(6)
式中:xi,i=1,2,…,P-1,表示像素xc的從左上角第1個(gè)像素開始,順時(shí)針方向第i個(gè)8鄰域像素值。由式(6)獲得的LBP紋理圖像中像素的取值范圍為0~127。
圖1 不同方法在PETS序列的第7、8、70以及107幀上的跟蹤結(jié)果Fig.1 Different methods in frames 7, 8, 70 and 107 of the PETS sequence
PETS圖像序列呈現(xiàn)了行走在馬路上的行人,先后經(jīng)過一根電線桿及相向駛來的汽車,發(fā)生遮擋。在第一次經(jīng)過電線桿發(fā)生遮擋時(shí),采用基于灰度稀疏表示的方法產(chǎn)生偏差,并最終導(dǎo)致跟蹤失?。欢藭r(shí)采用基于LBP紋理特征稀疏表示的方法,及本文的基于多模態(tài)特征(灰度+LBP紋理)聯(lián)合稀疏表示的方法能夠繼續(xù)跟蹤。仔細(xì)觀察,可以發(fā)現(xiàn)電線桿灰度特征和周圍環(huán)境差別很小,并且行人的灰度特征不顯著,因而在電線桿遮擋行人的數(shù)幀中,灰度特征分辨力變?nèi)?,從而?dǎo)致偏差,并最終失敗,如圖1第7、8幀所示。在第50幀附近,相向駛來的汽車遮擋行人,此時(shí)LBP紋理特征的分辨力變?nèi)?,造成跟蹤偏差,而本文方法能繼續(xù)跟蹤,如圖1第70、107幀所示??梢钥闯霰疚牡幕诙嗄B(tài)特征聯(lián)合稀疏表示的方法能夠根據(jù)跟蹤環(huán)境自適應(yīng)地選擇最具分辨力的特征進(jìn)行跟蹤,從而提高跟蹤精度和魯棒性。圖1也給出MIL和CT的跟蹤結(jié)果,可以看到,這2種方法在第7、8、70及107幀上產(chǎn)生了較大偏差。
為進(jìn)一步衡量本文方法的有效性,圖3(a)給出了本文方法與前述單模態(tài)方法的位置誤差曲線??梢钥吹剑夯趩文B(tài)灰度與單模態(tài)紋理的方法先后產(chǎn)生偏差,并最終跟蹤丟失;MIL和CT在跟蹤開始就產(chǎn)生較大偏差;而本文方法偏差較小,效果較為理想。
為對(duì)比本文方法和基于多模態(tài)單獨(dú)稀疏表示的方法,本文對(duì)比了2種方法在singer1圖像序列上的跟蹤結(jié)果。
(a)本文方法與單模態(tài)跟蹤方法的誤差曲線圖
(b)本文方法與基于多模態(tài)單獨(dú)稀疏表示的跟蹤方法的誤差曲線圖圖2 位置誤差曲線圖Fig.2 The position error curves
在singer1圖像序列中,一位女歌手站在立式麥克風(fēng)前全情投入地演唱歌曲,并伴隨著音樂旋律而自然舞動(dòng)。女歌手位置沒有移動(dòng),但相對(duì)鏡頭有相對(duì)移動(dòng),這種情況下2種方法都具有較為理想的跟蹤結(jié)果,如從第2幀到第106幀。然而從第107幀開始,在大約連續(xù)25幀中,舞臺(tái)出現(xiàn)燈光的明暗變化。這種情況下,受到光照變化的影響,基于多模態(tài)特征單獨(dú)稀疏表示的方法,產(chǎn)生的稀疏模式(稀疏系數(shù))不可靠。而本文方法能夠產(chǎn)生更為可靠的稀疏模式,從而得到更好的跟蹤精度和結(jié)果。圖3給出了有代表性的4幀結(jié)果??梢钥吹?,以第2幀為代表的各幀,沒有受到燈光明暗變化的影響,2種方法均具有較好的跟蹤結(jié)果;以第109和131幀為代表的各幀,受光照變化的影響,本文方法能夠產(chǎn)生更為可靠的結(jié)果。之后各幀中,二者結(jié)果相當(dāng),本文方法略好。
圖3 2種方法在singer1序列的第2、109、131以及217幀上的跟蹤結(jié)果比較Fig.3 The tracking results comparison between two methods in frames 2, 109, 131 and 217 of singer1 sequence
本文方法與基于多模態(tài)單獨(dú)稀疏表示的跟蹤方法的位置誤差曲線如圖3(b)所示??梢钥吹剑簭?07幀到131幀,受光照變化影響,基于多模態(tài)單獨(dú)稀疏表示方法產(chǎn)生的稀疏模式不穩(wěn)定,偏差較大;本文方法能夠產(chǎn)生更為可靠的稀疏模態(tài),從而具有更好的跟蹤性能。
相比于其他跟蹤算法,基于稀疏表示跟蹤算法的劣勢(shì)在于其跟蹤的時(shí)間開銷大[9],而多模態(tài)稀疏表示涉及到多模態(tài)特征提取及多模態(tài)特征稀疏求解,其計(jì)算復(fù)雜度進(jìn)一步提高,時(shí)間開銷進(jìn)一步加大。
3結(jié)束語
本文提出了一種基于多模態(tài)特征聯(lián)合稀疏表示的目標(biāo)跟蹤方法。該方法考慮了目標(biāo)表示的多模態(tài)特征,及它們之間的差異與關(guān)聯(lián),更為準(zhǔn)確地表示了每個(gè)候選目標(biāo),從而準(zhǔn)確地估計(jì)各候選目標(biāo)的觀察概率。本文的貢獻(xiàn)有3個(gè)方面:
1)引入目標(biāo)的多模態(tài)特征表示,實(shí)現(xiàn)了跟蹤過程中多模態(tài)特征的互為補(bǔ)充,適合于跟蹤環(huán)境的變化;
2)充分考慮了不同模態(tài)特征的差異與關(guān)聯(lián),更準(zhǔn)確地表示了候選目標(biāo);
3)采用一種較為簡(jiǎn)單的策略實(shí)現(xiàn)目標(biāo)模板的更新。通過2組實(shí)驗(yàn)的比較,本文方法較單模態(tài)跟蹤方法及基于多模態(tài)特征單獨(dú)稀疏表示的方法具有更好的性能。
參考文獻(xiàn):
[1]ROSS D A, LIM J, LIN R S, et al. Incremental learning for robust visual tracking[J]. International Journal of Computer Vision, 2008, 77(1-3): 125-141.
[2]KWON J, LEE K M. Visual tracking decomposition[C]//2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). San Francisco,USA, 2010: 1269-1276.
[3]GRABNER H, GRABNER M, BISCHOF H. Real-time tracking via on-line boosting[C]//Proceedings of BMVC. Edinburgh, 2006: 47-56.
[4]GRABNER H, LEISTNER C, BISCHOF H. Semi-supervised on-line boosting for robust tracking[M]//Computer Vision-ECCV 2008. Berlin: Springer, 2008: 234-247.
[5]BABENKO B, YANG M H, BELONGIE S. Robust object tracking with online multiple instance learning[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(8): 1619-1632.
[6]ZHANG K, ZHANG L, YANG M H. Real-time compressive tracking[C]//European Conference on Computer Vision. Florence, Italy, 2012: 864-877.
[7]MEI Xue, LING Haibin. Robust visual tracking and vehicle classification via sparse representation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(11): 2259-2272.
[8]MEI Xue, LING Haibin, WU Yi, et al. Minimum error bounded efficient1tracker with occlusion detection[C]//2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Colorado Springs,USA, 2011: 1257-1264.
[9]LI H, SHEN C, SHI Q. Real-time visual tracking using compressive sensing[C]//2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Colorado Springs, USA, 2011: 1305-1312.
[10]WU Yi, BLASCH E, CHEN Genshe, et al. Multiple source data fusion via sparse representation for robust visual tracking[C]//2011 Proceedings of the 14th International Conference on Information Fusion (FUSION). Chicago,USA, 2011: 1-8.
[11]DUAN Xiping, LIU Jiafeng, TANG Xianglong. Multi-cue visual tracking based on sparse representation[M]//Intelligence Science and Big Data Engineering. Berlin: Springer, 2013: 427-434.
[12]WANG Yuru, TANG Xianglong, CUI Qing. Dynamic appearance model for particle filter based visual tracking[J]. Pattern Recognition, 2012, 45(12): 4510-4523.
[13]YUAN Xiaotong, LIU Xiaobai, YAN Shuicheng. Visual classification with multitask joint sparse representation[J]. IEEE Transactions on Image Processing, 2012, 21(10): 4349-4360.
Visual target tracking via multi-cue joint sparse representation
DUAN Xiping1,2,3,LIU Jiafeng1,WANG Jianhua2,3,TANG Xianglong1
(1. School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China; 2. College of Computer Science
and Information Engineering, Harbin Normal University, Harbin 150025, China; 3. Heilongjiang Provincial Key Laboratory of Intelligence Education and Information Engineering, Harbin 150025, China)
Abstract:The single feature usually cannot distinguish the target from background well in the complex environment, and thus a multi-cue joint sparse representation based tracking method was proposed. The multi-cue features of each candidate target were represented sparsely and jointly, and the sum of their reconstruction errors was used to compute the observation probability of each candidate. The candidate with maximum observation probability was determined to be the target. Comparative experiments with other state-of-the-art tracking algorithms show that the proposed method can reliably track in various scenarios such as occlusion and illumination variation. It has better tracking performance, which verifies the feasibility of the proposed method.
Keywords:computer vision; visual target tracking; multi-cue; local binary pattern; accelerated proximal gradient; template updating; joint sparse representation
通信作者:段喜萍,E-mail: xpduan1999@126.com.
作者簡(jiǎn)介:段喜萍(1980-),女,講師,博士研究生;
基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61173087);黑龍江省教育廳科學(xué)基金資助項(xiàng)目(12541238).
收稿日期:2014-12-04.網(wǎng)絡(luò)出版日期:2015-11-04.
中圖分類號(hào):TP391
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1006-7043(2015)12-1609-05
doi:10.11990/jheu.201412012