基于在線判別式字典學(xué)習(xí)的魯棒視覺跟蹤

2015-07-18 11:10:32薛模根袁廣林

電子與信息學(xué)報 2015年7期

關(guān)鍵詞：判別式字典編碼

薛模根朱虹袁廣林

①（陸軍軍官學(xué)院偏振光成像探測技術(shù)安徽省重點(diǎn)實(shí)驗(yàn)室合肥 230031）

②（陸軍軍官學(xué)院十一系合肥 230031）

基于在線判別式字典學(xué)習(xí)的魯棒視覺跟蹤

薛模根①朱虹*①袁廣林②

①（陸軍軍官學(xué)院偏振光成像探測技術(shù)安徽省重點(diǎn)實(shí)驗(yàn)室合肥 230031）

②（陸軍軍官學(xué)院十一系合肥 230031）

現(xiàn)有子空間跟蹤方法較好地解決了目標(biāo)表觀變化和遮擋問題，但是它對復(fù)雜背景下目標(biāo)跟蹤的魯棒性較差。針對此問題，該文首先提出一種基于Fisher準(zhǔn)則的在線判別式字典學(xué)習(xí)模型，利用塊坐標(biāo)下降和替換操作設(shè)計(jì)了該模型的在線學(xué)習(xí)算法用于視覺跟蹤模板更新。其次，定義候選目標(biāo)編碼系數(shù)與目標(biāo)樣本編碼系數(shù)均值之間的距離為系數(shù)誤差，提出以候選目標(biāo)的重構(gòu)誤差與系數(shù)誤差的組合作為粒子濾波的觀測似然跟蹤目標(biāo)。實(shí)驗(yàn)結(jié)果表明：與現(xiàn)有跟蹤方法相比，該文跟蹤方法具有較強(qiáng)的魯棒性和較高的跟蹤精度。

視覺跟蹤；模板更新；字典學(xué)習(xí)；觀測似然

1 引言

視覺跟蹤是通過視頻圖像序列不斷估計(jì)目標(biāo)狀態(tài)的過程，它在智能監(jiān)控、人機(jī)交互、機(jī)器人導(dǎo)航和運(yùn)動分析等方面都具有重要的應(yīng)用價值。一直以來，視覺跟蹤都是計(jì)算機(jī)視覺領(lǐng)域中研究的熱點(diǎn)，它的主要難題有目標(biāo)表觀變化、目標(biāo)遮擋、復(fù)雜背景等。

針對以上難題，視覺跟蹤領(lǐng)域的研究者已經(jīng)提出一些視覺跟蹤方法［1］，其中基于子空間的跟蹤方法較好地解決了目標(biāo)表觀變化和目標(biāo)遮擋問題，因而受到了廣泛關(guān)注［2，3］。1996年，Black等人［4］首次提出了基于主成分分析的子空間跟蹤方法。該方法以子空間常量為假設(shè)，不能適應(yīng)目標(biāo)表觀的變化。為了目標(biāo)表觀變化，Ross等人［2］提出一種基于增量子空間學(xué)習(xí)的目標(biāo)跟蹤方法，較好地解決了目標(biāo)表觀變化問題。但是該方法對目標(biāo)遮擋的魯棒性較差，利用跟蹤結(jié)果和增量子空間學(xué)習(xí)更新模板易于發(fā)生模型漂移。受到稀疏編碼在人臉識別中應(yīng)用的啟發(fā)，Mei等人［3］提出基于稀疏編碼的視覺跟蹤，又稱為“L1跟蹤”，該方法較好地解決了目標(biāo)遮擋問題。L1跟蹤將視覺跟蹤問題等價為候選目標(biāo)在目標(biāo)模板和小模板上稀疏編碼系數(shù)的求解問題，它要求目標(biāo)模板在自適應(yīng)目標(biāo)變化的同時盡可能排除遮擋信息，這對模板更新提出了更高的要求。文獻(xiàn)［5］利用小模板系數(shù)進(jìn)行目標(biāo)遮擋檢測，若當(dāng)前跟蹤結(jié)果未檢測出大量遮擋信息，則直接替換模板，緩解了模型漂移現(xiàn)象。文獻(xiàn)［6］借鑒文獻(xiàn)［7］引入字典學(xué)習(xí)思想，利用訓(xùn)練數(shù)據(jù)學(xué)習(xí)更新得到適用于跟蹤的字典（模板），提出一種基于在線字典學(xué)習(xí)的目標(biāo)跟蹤方法，所得模板增強(qiáng)了對目標(biāo)變化的適應(yīng)性和魯棒性。文獻(xiàn)［8］提出一種在線魯棒非負(fù)字典學(xué)習(xí)算法用于模板更新，該算法結(jié)合了在線魯棒字典學(xué)習(xí)和非負(fù)矩陣分解，采用L1數(shù)據(jù)擬合和非負(fù)約束，有效抑制了模型漂移。

綜上所述，現(xiàn)有子空間跟蹤方法較好地解決了目標(biāo)表觀變化和目標(biāo)遮擋問題，但是仍存在一些不足：對于復(fù)雜背景下的目標(biāo)跟蹤魯棒性較弱，模板中缺少判別式信息，對目標(biāo)和背景的判別能力不足，從而導(dǎo)致跟蹤失敗。針對此問題，一方面，受到在線字典學(xué)習(xí)和 Fisher判別式字典學(xué)習(xí)［9］的啟發(fā)，本文提出了用于視覺跟蹤的在線判別式字典學(xué)習(xí)（Online Discrimination Dictionary Learning for Visual Tracking，ODDLVT）算法。該算法采用塊坐標(biāo)下降法［10］在線更新目標(biāo)模板，利用替換操作在線更新背景模板。另一方面，利用 ODDLVT算法得到目標(biāo)樣本編碼系數(shù)的均值，定義候選目標(biāo)編碼系數(shù)與它的距離為系數(shù)誤差，在粒子濾波框架下，以候選目標(biāo)的重構(gòu)誤差與系數(shù)誤差的組合作為觀測似然跟蹤目標(biāo)。

2 用于視覺跟蹤的在線判別式字典學(xué)習(xí)

由文獻(xiàn)［6，8］可知，從字典學(xué)習(xí)的角度看，視覺跟蹤模板更新是在線的字典學(xué)習(xí)問題。由文獻(xiàn)［9］可知，F(xiàn)isher判別式字典學(xué)習(xí)學(xué)得的字典具有較強(qiáng)的判別能力。據(jù)此，結(jié)合視覺跟蹤的特點(diǎn)，2.1節(jié)，2.2節(jié)分別給出了用于視覺跟蹤模板更新的在線判別式字典學(xué)習(xí)模型與算法。

2.1 ODDLVT模型

受到在線字典學(xué)習(xí)和Fisher判別式字典學(xué)習(xí)的啟發(fā)，本文提出如式（1）所示的在線判別式字典學(xué)習(xí)模型用于視覺跟蹤：

其中，模板更新次數(shù) n= 1，2，…；第n次更新時輸入在線數(shù)據(jù) An形成訓(xùn)練樣本集 A =［A1，…， An］，樣本子集 Ai=［Ai，1， Ai，2］包含N個訓(xùn)練樣本， Ai，1，Ai，2分別為目標(biāo)樣本和背景樣本，D2］為模板字典， D1， D2分別為目標(biāo)模板和背景模板； Xi=［Xi，1， Xi，2］為 Ai在D上的稀疏編碼系數(shù)，Xi，1，Xi，2分別為 Ai，1， Ai，2在D上的編碼系數(shù)；λ1， λ2為調(diào)節(jié)常數(shù)；d為模板字典的任意原子。使用模板字典對每個樣本子集進(jìn)行稀疏表示，即 Ai≈DXi。 j= 1，2，判別保證項(xiàng) r（ Ai，j， D， Xi，j）為

綜上所述，ODDLVT模型不僅使模板字典能夠很好地識別目標(biāo)和背景，同時，編碼系數(shù)也具有強(qiáng)判別力。求解模型式（1）的優(yōu)化過程比較復(fù)雜，不利于實(shí)時目標(biāo)跟蹤。由文獻(xiàn)［9］可知，利用假設(shè)條件可以得到簡化模型并保留原模型的物理涵義。據(jù)此，簡化ODDLVT模型如式（6）所示。

2.2 ODDLVT算法

ODDLVT算法包括3個部分：在線數(shù)據(jù)的采集、目標(biāo)和背景模板更新。采集在線數(shù)據(jù)方面，假設(shè)每隔h幀圖像進(jìn)行一次模板更新，t時刻，當(dāng)?shù)趎次更新時取 t- h + 1，…， t 時刻跟蹤結(jié)果作為目標(biāo)樣本An，1；根據(jù)t時刻跟蹤結(jié)果中心點(diǎn)位置 l =（x， y），在環(huán)形區(qū)域｛lB| γ＜| |lB-l ||＜ δ｝內(nèi)隨機(jī)采樣樣本作為背景樣本，2nA 。背景模板更新方面，結(jié)合子空間跟蹤特點(diǎn)可知，無需通過字典學(xué)習(xí)更新模板，利用背景樣本，2nA 直接替代即可。目標(biāo)模板更新方面，通過求解式（6）所示模型更新模板，式（6）的求解包括稀疏編碼和字典更新兩個階段。稀疏編碼階段，確定t - h時刻目標(biāo)模板 Dt-h，1求解編碼系數(shù)為

表1 視覺跟蹤的在線判別式字典學(xué)習(xí)（ODDLVT）算法

表2 在線更新目標(biāo)模板

3 目標(biāo)跟蹤

本文跟蹤方法是以粒子濾波為框架建立的?；诹Ｗ訛V波的跟蹤方法是將目標(biāo)跟蹤問題轉(zhuǎn)換為在貝葉斯理論框架下已知目標(biāo)狀態(tài)的先驗(yàn)概率，在獲得新的觀測值后求解目標(biāo)狀態(tài)的最大后驗(yàn)概率的過程。已知 1到 t- 1時刻所有圖像觀測 y1：t-1=｛y1， y2，…，yt-1｝，則目標(biāo)狀態(tài)的先驗(yàn)概率為

其中，tx和1t-x 分別表示t和 1t- 時刻的目標(biāo)狀態(tài)，p（xt|xt-1）為狀態(tài)轉(zhuǎn)移模型。本文采用高斯分布建立狀態(tài)轉(zhuǎn)移模型，如式（10）所示：

其中，Ψ為對角矩陣，其對角元素表示相應(yīng)狀態(tài)的方差。t時刻，當(dāng)觀測ty可用時，目標(biāo)狀態(tài)的后驗(yàn)概率為

其中， p（yt|xt）為觀測似然模型。建立觀測似然模型分為兩個步驟。首先，對于任意圖像觀測，求解其L1范數(shù)正則化編碼系數(shù)，模型如下：

以粒子濾波為框架，將狀態(tài)轉(zhuǎn)移模型、觀測似然模型和模板更新方法相結(jié)合建立目標(biāo)跟蹤方法如表3所示。

表3 目標(biāo)跟蹤方法

4 實(shí)驗(yàn)結(jié)果與分析

本文提出的跟蹤方法是以Matlab R2010a為開發(fā)工具實(shí)現(xiàn)的，并在Intel（R） Core（TM） 3.10 GHz CPU，8.00 GB內(nèi)存的臺式電腦上調(diào)試通過。采用Faceocc1，Dudek和CarDark序列［12］對本文跟蹤方法進(jìn)行了實(shí)驗(yàn)驗(yàn)證，并與FCT［13］，SPT［14］和SMTT［15］等3種跟蹤方法進(jìn)行了定性和定量比較。關(guān)于本文跟蹤方法的參數(shù)設(shè)置說明如下：對于目標(biāo)模板的初始化以及背景模板的初始化和更新，要特別注意參數(shù)的選取，確保目標(biāo)模板中不包含背景信息，背景模板中不包含過多目標(biāo)信息；模板更新頻率取決于目標(biāo)表觀變化的快慢，本文設(shè)置每5幀更新一次模板。

4.1 定性分析

圖1給出了對FCT，SPT，SMTT及本文跟蹤方法的定性比較。對于目標(biāo)遮擋問題，本文方法成功克服了模型漂移，魯棒性能較好，見圖 1（a）；對于目標(biāo)表觀變化，本文方法優(yōu)于其他方法，其模板適應(yīng)性良好，見圖1（b）；對于復(fù)雜和低對比度背景，背景環(huán)境在很大程度上影響目標(biāo)跟蹤，這就要求跟蹤方法具有較強(qiáng)的判別能力，由圖1（b），1（c）可知，本文方法的跟蹤結(jié)果更好。

4.2 定量分析

實(shí)驗(yàn)采用成功率指標(biāo)進(jìn)行定量分析［12］。給定一幀圖像，已知由跟蹤方法所得跟蹤窗區(qū)域tr，實(shí)際跟蹤窗區(qū)域ar，定義重疊率為其中， ∩，∪分別表示兩個區(qū)域的交集、并集；表示區(qū)域中像素個數(shù)。成功率為重疊率大于給定重疊閾值的圖像幀數(shù)比率，實(shí)驗(yàn)中設(shè)定重疊閾值為0到1.0。圖2分別給出了4種跟蹤方法對3組圖像序列的成功率曲線。由圖2可知，本文方法在成功率方面都優(yōu)于其他方法。

4.3 魯棒性分析

本文提出的觀測似然模型是由重構(gòu)誤差觀測似然模型 g（yt|xt）與系數(shù)誤差觀測似然模型 m（yt|xt）兩部分組成，詳情見第3節(jié)。一般情況下，觀測似然模型僅使用，表示與目標(biāo)模板的相似程度。本文添加的 m（yt|xt）使觀測似然模型具備對目標(biāo)和背景的判別力，對復(fù)雜背景下的目標(biāo)跟蹤更加有效。圖3所示為Dudek序列在第54幀時322#候選目標(biāo)（好候選目標(biāo)）與 434#候選目標(biāo)（差候選目標(biāo)），以及目標(biāo)模板字典。表4分別給出了圖3所示候選目標(biāo)的 g（yt|xt）與 p（yt|xt）。別表示322#，434#候選目標(biāo)的重構(gòu)誤差觀測似然概率；分別表示322#，434#候選目標(biāo)的本文觀測似然概率。由表 4 可知，，即當(dāng)觀測似然模型為 g（yt|xt）時，會選取 434#候選目標(biāo)（差候選目標(biāo)）為跟蹤結(jié)果；另一方面，，即當(dāng)觀測似然模型為時，跟蹤結(jié)果為322#候選目標(biāo)（好候選目標(biāo)）。據(jù)此，可以驗(yàn)證，本文模型優(yōu)于重構(gòu)誤差觀測似然模型。

5 結(jié)論

針對現(xiàn)有子空間跟蹤對復(fù)雜背景下目標(biāo)跟蹤的判別力不強(qiáng)的問題，本文提出了用于視覺跟蹤的在線判別式字典學(xué)習(xí)算法 ODDLVT更新模板，所得模板和編碼系數(shù)均具有良好的判別能力；另外，根據(jù)強(qiáng)判別力的編碼系數(shù)，在一般重構(gòu)誤差的基礎(chǔ)上添加了系數(shù)誤差作為觀測似然，進(jìn)一步增強(qiáng)了目標(biāo)跟蹤魯棒性。在上述兩方面的基礎(chǔ)上，以粒子濾波為框架實(shí)現(xiàn)了基于在線判別式字典學(xué)習(xí)的魯棒視覺跟蹤。利用多個具有挑戰(zhàn)性的圖像序列對提出的跟蹤方法進(jìn)行了實(shí)驗(yàn)驗(yàn)證并與現(xiàn)有跟蹤方法進(jìn)行了比較，實(shí)驗(yàn)結(jié)果表明：與現(xiàn)有跟蹤方法相比，本文方法更能魯棒跟蹤目標(biāo)。

圖1 4種方法的跟蹤結(jié)果比較

圖2 4種方法的成功率曲線比較

圖3 Dudek序列在第54幀時322#，434#候選目標(biāo)和目標(biāo)模板字典

表4 圖3兩個候選目標(biāo)的 g（ yt | xt）與 p（ yt | xt）

［1］ Li Xi，Hu Wei-ming，Shen Chun-hua，et al.. A survey of appearance models in visual object tracking［J］. ACM Transactions on Intelligent Systems and Technology，2013，4（4）：1-48.

［2］ Ross D，Lim J，Lin R S，et al.. Incremental learning for robust visual tracking［J］. International Journal of Computer Vision，2008，77（1-3）：125-141.

［3］ Mei Xue and Ling Hai-bin. Robust visual tracking using L1 minimization［C］. IEEE International Conference on Computer Vision，Kyoto，2009：1436-1443.

［4］ Black M J and Jepson A D. Eigentracking：Robust matching and tracking of articulated objects using a view-based representation［C］. European Conference on Computer Vision，London，1996：329-342.

［5］ Bao Cheng-long，Wu Yi，Ling Hai-bin，et al.. Real time robust L1 tracker using accelerated proximal gradient approach［C］. IEEE Conference on Computer Vision and Pattern Recognition，Providence，2012：1830-1837.

［6］ Xing Jun-liang，Gao Jin，Li Bing，et al.. Robust object tracking with online multi-lifespan dictionary learning［C］. IEEE International Conference on Computer Vision，Sydney，2013：665-672.

［7］ Mairal J，Bach F，Ponce J，et al.. Online dictionary learning for sparse coding［C］. The 26th International Conference on Machine Learning，Montreal，2009：539-547.

［8］ Wang Nai-yan，Wang Jing-dong，and Yeung D. Online robust non-negative dictionary learning for visual tracking［C］. IEEE International Conference on Computer Vision. Sydney，2013：657-664.

［9］ Yang Meng，Zhang Lei，F(xiàn)eng Xiang-chu，et al.. Sparse representation based Fisher discrimination dictionary learning for image classification［C］. IEEE International Conference on Computer Vision，Barcelina，2011：543-550.

［10］ Richtarik P and Takac M. Iteration complexity of randomized block-coordinate decent methods for minimizing a composite function［J］. Mathematical Programming，2014，144（1）：1-38.

［11］ Rosasco L，Verri A，Santoro M，et al.. Iterative projection methods for structured sparsity regularization［R］. MIT，2009.

［12］ Wu Yi，Lim J，and Yang M. Online object tracking：a benchmark［C］. IEEE Conference on Computer Vision and Pattern Recognition，Portland，2013：2411-2418.

［13］ Zhang Kai-hua，Zhang Lei，and Yang M H. Fast compressive tracking［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence，2014，36（10）：2002-2015.

［14］ Wang Dong，Lu Hu-chuan，and Yang M H. Online object tracking with sparse prototypes［J］. IEEE Transactions on Image Processing，2013，22（1）：314-325.

［15］ Zhang Tian-zhu，Ghanem B，Liu Si，et al.. Robust visual tracking via structured multi-task sparse learning［J］. International Journal of Computer Vision，2013，101（2）：367-383.

薛模根：男，1964年生，博士，教授，研究方向?yàn)閳D像處理、計(jì)算機(jī)視覺、光電防御等.

朱虹：女，1987年生，碩士生，研究方向?yàn)閳D像處理、計(jì)算機(jī)視覺等.

袁廣林：男，1973年生，博士，講師，研究方向?yàn)閳D像處理、計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)及其應(yīng)用等.

Robust Visual Tracking Based on Online Discrimination Dictionary Learning

Xue Mo-gen①Zhu Hong①Yuan Guang-lin②

①（Anhui Province Key Laboratory of Polarization Imaging Detection Technology，Army Officer Academy of PLA， Hefei 230031， China）

②（Eleventh Department， Army Officer Academy of PLA， Hefei 230031， China）

The existing subspace tracking methods have well solved appearance changes and occlusions. However，they are weakly robust to complex background. To deal with this problem，firstly，this paper proposes an online discrimination dictionary learning model based on the Fisher criterion. The online discrimination dictionary learning algorithm for template updating in visual tracking is designed by using the block coordinate descent and replacing operations. Secondly，the distance between the target candidate coding coefficient and the mean of target samples coding coefficients is defined as the coefficient error. The robust visual tracking is achieved by taking the combination of the reconstruction error and the coefficient error as observation likelihood in particle filter framework. The experimental results show that the proposed method has better robustness and accuracy than the state-of-the-art trackers.

Visual tracking；Template updating；Dictionary learning；Observation likelihood

TP391.4

1009-5896（2015）07-1654-06

10.11999/JEIT141325

2014-10-20收到，2015-02-09改回，2015-05-08網(wǎng)絡(luò)優(yōu)先出版

國家自然科學(xué)基金（61175035，61379105），中國博士后科學(xué)基金（2014M562535）和安徽省自然科學(xué)基金（1508085QF114）資助課題

*通信作者：朱虹 729039126@qq.com