程 旭 張毅鋒 劉 袁 崔錦實 周 琳
(1東南大學信息科學與工程學院, 南京 210096)(2南京船舶雷達研究所, 南京 210003)(3北京大學機器感知與智能教育部重點實驗室, 北京 100871)
基于深度特征的目標跟蹤算法
程 旭1,2,3張毅鋒1,3劉 袁1,3崔錦實3周 琳1
(1東南大學信息科學與工程學院, 南京 210096)(2南京船舶雷達研究所, 南京 210003)(3北京大學機器感知與智能教育部重點實驗室, 北京 100871)
針對跟蹤過程中運動目標的魯棒性問題,提出了一種基于深度特征的跟蹤算法.首先,利用仿射變換對每一幀圖像進行歸一化處理.然后,利用深度去噪自編碼器提取歸一化圖像的特征.由于提取的特征維數巨大,為了提高計算效率,提出了一種高效的基于稀疏表示的降維方法,通過投影矩陣將高維特征投影到低維空間,進而結合粒子濾波方法完成目標跟蹤.最后,將初始幀的目標信息融入到目標表觀更新過程中,降低了跟蹤過程中目標發(fā)生漂移的風險.實驗結果表明,所提出的視覺跟蹤算法在6段視頻序列上獲得了較高的準確度,能夠在遮擋、光照變化、尺度變化和目標快速運動的條件下穩(wěn)定地跟蹤目標.
視覺跟蹤;深度學習;稀疏表示;模板更新
傳統(tǒng)的目標跟蹤算法大致可分為基于生成式模型的跟蹤方法和基于判別式模型的跟蹤方法兩大類.前者將目標的第1幀信息作為模板,在跟蹤過程中,將與目標模板匹配度最高的候選狀態(tài)作為跟蹤結果;這類方法包括增量視覺跟蹤算法[1]、Fragment法[2]、視覺跟蹤分解法[3]等;其缺點在于不能充分利用目標的背景信息.后者將跟蹤作為二元分類問題,利用背景信息把目標從背景中分離出來;這類方法包括多示例學習法(MIL)[4-5]、跟蹤學習檢測算法(TLD)[6]、多任務跟蹤法(MTT)[7]等,其跟蹤性能優(yōu)于前者.最近,Mei等[8-9]將稀疏編碼理論引入到目標跟蹤領域;Zhong等[10-11]在稀疏表示的框架下采用生成式模型和判別式模型相結合的方法來提升跟蹤性能.上述跟蹤算法大多采用人工設計的特征 (如直方圖、HOG描述子等).然而,實驗證明人工設計的特征不適合于所有目標.深度學習的發(fā)展為自動學習特征提供了可能.文獻[12]利用輔助數據來離線訓練深度網絡,然后將離線訓練的模型遷移到在線目標跟蹤過程;文獻[13]使用深度去噪自編碼器(SDAE)[14]從大量輔助圖像中學習通用的特征知識;文獻[15]利用2層卷積神經網絡(CNN)來應對復雜的目標表觀變化.
本文提出了一種基于深度特征的視覺跟蹤算法(DFT).首先,從大量圖像中訓練深度去噪自編碼器,并利用其提取圖像中的目標信息;然后,采用一種基于稀疏表示的降維方法,從大量的特征維數中選擇出少量高效的特征維數;最后,將初始幀的目標信息融入到目標表觀更新過程中,以降低目標發(fā)生漂移的風險.實驗結果驗證了DFT算法的高效性.
1.1 特征提取
SDAE是指從幾百萬張圖像中集中學習、重構原始圖像,通過優(yōu)化重構誤差來提高深度學習網絡對噪聲的魯棒性[15].它在無監(jiān)督學習的框架下利用貪婪算法來訓練多個自編碼器.通過學習,將底層特征抽象為高層特征.SDAE由編碼器和解編碼器構成,是一種非線性多層網絡結構,每層中包含有大量的網絡節(jié)點及其相應的參數.本文利用離線訓練的SDAE來提取視頻中的目標特征,以實現在線跟蹤.圖1為DFT算法的實現流程圖.
1.2 特征選擇
深度學習的特征維數巨大,能夠高效表示目標的特征維數卻是少量稀疏的,這些稀疏的特征維數與目標有很大的相關性.利用SDAE對圖像進行特征提取時,會產生包含有大量噪聲或者與目標不相關的背景信息.網絡底層的特征具有判別性,能夠較好地刻畫出目標類內的變化,高層的特征更具有語義的概念.基于以上考慮, 本文提出了一種高效的基于稀疏表示的降維方法, 利用其對SDAE提取的高維特征進行降維.
圖1 DFT算法流程圖
首先,利用一段視頻序列的前10幀來構造字典.將前10幀的跟蹤結果作為目標的正樣本,在目標周圍的背景區(qū)域隨機采樣n個樣本作為背景模板.將每個采樣圖像變換成大小為32×32像素的圖像,并將其拉直成列向量,通過SDAE后輸出字典.構造的字典中包含目標模板和背景模板.字典中正負模板的構造過程如圖2所示.
圖2 字典中正負模板的構造過程
由于SDAE提取的圖像特征是冗余的,本文采取稀疏表示的策略從海量信息中選擇出有效的特征.特征選擇的表達式為
(1)
式中,A∈RK×(m+n)為構造的字典,其中m和n分別為正、負模板個數,此處m=10,K為特征維數;s為稀疏系數向量;λ1為權重因子;p∈R(m+n)×1為A中每個原子的屬性,+1表示原子中正模板屬性,-1表示原子中負模板屬性.
根據式(1)得到稀疏系數向量s,將s中的非零元素作為特征選擇的依據.投影矩陣S中第i行第i列的元素Sii為
(2)
式中,si為稀疏系數向量s中的第i個元素.
利用式(2)將字典A和候選采樣x投影到一個判別式空間上,實現對目標特征的選擇.降維后的字典A′和候選狀態(tài)x′可表示為
A′=SA,x′=Sx
(3)
利用式(3)便可從K維特征中選擇出高效的判別特征.
1.3 目標跟蹤
本文在粒子濾波框架下完成視覺跟蹤的目標運動狀態(tài)估計.通過一系列的目標觀測值O1:t={o1,o2,…,ot}來對當前的目標狀態(tài)做出估計,其目標狀態(tài)xt的后驗概率表達式為
(4)
(5)
1.4 模板更新
本文提出了一種高效的目標模板更新策略來提高跟蹤的魯棒性.更新包括整個網絡參數的更新和原始特征的更新.每運行10幀圖像更新一次字典和目標模板.模板更新模型為
2.1 實驗設置
本文算法在Matlab 2010b上實現,計算機配置為Intel Core 2 Duo 2.93 GHz,內存為2.96 GB.實驗所選用的數據庫中包含了挑戰(zhàn)性的場景,如目標遮擋、光照變化、尺度變化以及目標快速運動.選取了7種基于淺層特征的主流跟蹤算法,即IVT算法[1]、FragT算法[2]、VTD算法[3]、WMIL算法[5]、TLD算法[6]、APGL1算法[9]和SCM算法[10],并將本文算法與這7種算法進行了比較.
將一幅圖像仿射投影為32×32像素的圖像,并進行歸一化處理.然后,把圖像拉直成1 024維向量,每一維對應于圖像中的一個像素,并將其作為編碼器中第1層的1 024個網絡單元.在網絡的隱藏層中,每個編碼器的網絡單元都為輸入層網絡單元的一半,直到隱藏層網絡單元數減為256.最后,在網絡中添加了超完備濾波層,從而更好地提取圖像的結構信息.
2.2 定量分析
表1 跟蹤成功率
2.3 定性分析
圖3給出了目標發(fā)生遮擋時不同算法的跟蹤結果.圖中,q為視頻序列的幀數.由圖可知,在Faceocc1序列中,目標于靜態(tài)背景下運動,大多數算法都能夠成功地跟蹤目標.在Faceocc2序列中,大多數算法都產生了不同程度的漂移,部分算法甚至丟失了目標.在Caviar序列中,TLD算法在遇到遮擋、相似目標干擾時會逐漸丟失目標,WMIL算法由于訓練器中混入了背景噪聲而導致跟蹤失敗.本文算法則能夠正確地跟蹤3段序列的目標.
圖3 目標發(fā)生遮擋時不同算法的跟蹤結果
圖4給出了光照和尺度變化下不同算法的跟蹤結果.由圖可知,在Singer1序列中,光照強度劇烈地變亮且目標尺度也發(fā)生了變化,WMIL算法、FragT算法和TLD算法跟蹤失敗;本文算法、VTD算法和SCM算法則能夠適應尺度的變化而成功跟蹤目標.在DavidIndoor序列中,本文算法、SCM算法、TLD算法和IVT算法能夠成功跟蹤目標,但都出現了不同程度的漂移.在Car4序列中,除WMIL算法和FragT算法外,其他算法都能夠跟蹤目標,但都伴隨有不同程度的跟蹤誤差.
圖4 光照和尺度變化下不同算法的跟蹤結果
2.4 計算復雜度
SDAE為非線性的網絡結構,每層中包含大量的節(jié)點和參數,使其在網絡訓練、參數更新以及在線特征提取方面耗時較大.為了提高運行速度,可在訓練和跟蹤過程中采用并行計算和圖形處理單元加速技術.本文算法中采用了并行計算,運行速度得到了較大的提升.在6段視頻上比較了IVT算法、WMIL算法、FragT算法、APGL1算法、MTT算法、TLD算法、SCM算法和本文算法的時間復雜度.結果顯示,本文算法平均每秒鐘能處理8幀視頻圖像,IVT算法的運算速度最快,平均每秒鐘運行24幀圖像.
本文提出了一種基于深度學習的跟蹤算法,利用深度學習實現對目標表觀的高效表示,將離線階段訓練得到的信息融入到在線跟蹤過程中.采用稀疏策略對高維特征進行降維,進一步提高了計算效率,并通過定期更新深度網絡參數和目標的表觀模型來及時捕獲目標表觀的變化,提高了對目標表觀變化的適應性.最后,在粒子濾波算法框架下完成對目標的定位.遮擋、光照變化、尺度變化和目標快速運動條件下的目標跟蹤實驗結果證實了本文算法的高效性.但該算法也存在不足:在復雜場景下目標運動發(fā)生漂移時,該算法不能夠及時糾正目標的漂移,導致跟蹤失敗;SDAE是利用大量圖像數據離線訓練得到的,在跟蹤過程中,不合適的知識遷移將降低目標跟蹤的精度,甚至使目標丟失.這些問題都有待于進一步的研究.
References)
[1]Ross D A, Lim J, Lin R S, et al. Incremental learning for robust visual tracking[J].InternationalJournalofComputerVision, 2008, 77(1): 125-141. DOI:10.1007/s11263-007-0075-7.
[2]Adam A, Rivlin E, Shimshoni I. Robust fragments-based tracking using the integral histogram [C]//2006IEEEConferenceonComputerVisionandPatternRecognition. New York, USA, 2006: 798-805.
[3]Kwon J, Lee K M. Visual tracking decomposition [C]//2010IEEEConferenceonComputerVisionandPatternRecognition. San Francisco, CA, USA, 2010: 1269-1276.
[4]Babenko B, Yang M H, Belongie S. Visual tracking with online multiple instance learning [J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2011, 33(8): 1619-1632. DOI:10.1109/TPAMI.2010.226.
[5]Zhang K, Song H. Real-time visual tracking via online weighted multiple instance learning[J].PatternRecognition, 2013, 46(1): 397-411. DOI:10.1016/j.patcog.2012.07.013.
[6]Kalal Z, Mikolajczyk K, Matas J. Tracking-learning-detection [J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2012, 34(7): 1409-1422. DOI:10.1109/TPAMI.2011.239.
[7]Zhang T, Ghanem B, Liu S, et al. Robust visual tracking via structured multi-task sparse learning [J].InternationalJournalofComputerVision, 2013, 101(2): 367-383. DOI:10.1007/s11263-012-0582-z.
[8]Mei X, Ling H. Robust visual tracking and vehicle classification via sparse representation [J].IEEETransactionsonPatternAnalysisandMachineIntelligence, 2011, 33(11): 2259-2272. DOI:10.1109/TPAMI.2011.66.
[9]Bao C, Wu Y, Ling H, et al. Real time robust L1 tracker using accelerated proximal gradient approach [C]//2012IEEEConferenceonComputerVisionandPatternRecognition. Providence, Rhode Island, USA, 2012: 1830-1837.
[10]Zhong W, Lu H, Yang M H. Robust object tracking via sparse collaborative appearance model [J].IEEETransactionsonImageProcessing, 2014, 23(5): 2356-2368. DOI:10.1109/TIP.2014.2313227.
[11]Cheng X, Li N, Zhou T, et al. Object tracking via collaborative multi-task learning and appearance model updating [J].AppliedSoftComputing, 2015, 31: 81-90. DOI:10.1016/j.asoc.2015.03.002.
[12]Li H, Li Y, Porikli F. Robust online visual tracking with a single convolutional neural network [C]//2014AsianConferenceonComputerVision. Singapore, 2014: 194-209. DOI:10.1007/978-3-319-16814-2_13.
[13]Wang N, Yeung D Y. Learning a deep compact image representation for visual tracking [C]//2013AdvancesinNeuralInformationProcessingSystems. Lake Tahoe, CA,USA, 2013: 809-817.
[14]Wang N, Li S, Gupta A, et al. Transferring rich feature hierarchies for robust visual tracking [EB/OL]. (2015-04-23)[2016-02-19]. https://arxiv.org/abs/1501.04587.
[15]Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J].Science, 2006, 313(5786): 504-507. DOI:10.1126/science.1127647.
Object tracking algorithm based on deep feature
Cheng Xu1,2,3Zhang Yifeng1,3Liu Yuan1,3Cui Jinshi3Zhou Lin1
(1School of Information Science and Engineering, Southeast University, Nanjing 210096, China) (2Nanjing Marine Radar Institute, Nanjing 210003, China) (3Key Laboratory of Machine Perception of Ministry of Education, Peking University, Beijing 100871, China)
To solve the robustness problem of the motion object in the tracking process, a tracking algorithm based on deep feature is proposed. First, each frame in the video is normalized by affine transformation. Then, the object feature is extracted from the normalized image by the stacked denoising autoencoder. Because of the large dimensions of deep feature, to improve the computational efficiency, an effective dimension reduction method based on sparse representation is presented. The high dimensional features are projected into the low dimensional space by the projection matrix. The object tracking is achieved by combing the particle filter algorithm. Finally, the object information of the first frame is integrated into the updating process of the object appearance to reduce the risk of object drift during the tracking process. The experimental results show that the proposed tracking algorithm exhibits a high degree of accuracy in six video sequences, and it can stably track the object under the circumstance of occlusion, illumination change, scale variation and fast motion.
visual tracking; deep learning; sparse representation; template updating
第47卷第1期2017年1月 東南大學學報(自然科學版)JOURNALOFSOUTHEASTUNIVERSITY(NaturalScienceEdition) Vol.47No.1Jan.2017DOI:10.3969/j.issn.1001-0505.2017.01.001
2016-06-27. 作者簡介:程旭(1983—),男,博士; 張毅鋒(聯系人),男,博士,副教授, yfz@seu.edu.cn.
國家自然科學基金資助項目(61571106)、江蘇省自然科學基金資助項目(BK20151102)、北京大學機器感知與智能教育部重點實驗室開放課題資助項目(K-2016-03).
程旭,張毅鋒,劉袁,等.基于深度特征的目標跟蹤算法[J].東南大學學報(自然科學版),2017,47(1):1-5.
10.3969/j.issn.1001-0505.2017.01.001.
TP391
A
1001-0505(2017)01-0001-05