張旭東 楊 靜 胡良梅 段琳琳
?
基于多層運(yùn)動(dòng)歷史圖像的飛行時(shí)間相機(jī)人體運(yùn)動(dòng)識(shí)別
張旭東*楊 靜 胡良梅 段琳琳
(合肥工業(yè)大學(xué)計(jì)算機(jī)與信息學(xué)院 合肥 230009)
該文利用飛行時(shí)間(Time-Of-Fligh, TOF)相機(jī)提供的距離圖像,在運(yùn)動(dòng)歷史圖像的基礎(chǔ)上提出一種基于多層運(yùn)動(dòng)歷史圖像的人體運(yùn)動(dòng)識(shí)別方法。計(jì)算距離輪廓序列的運(yùn)動(dòng)能量圖作為整體運(yùn)動(dòng)信息,同時(shí)根據(jù)距離變化量,計(jì)算前向、后向的多層運(yùn)動(dòng)歷史圖像作為局部運(yùn)動(dòng)信息,共同組成多層運(yùn)動(dòng)歷史圖像。為了解決Hu矩對(duì)不連續(xù)或具有噪聲的形狀較為敏感的問題,引入R變換對(duì)每層運(yùn)動(dòng)歷史圖像進(jìn)行特征提取,串聯(lián)形成特征向量送入SVM進(jìn)行分類識(shí)別。實(shí)驗(yàn)結(jié)果表明,該識(shí)別方法可以有效識(shí)別人體運(yùn)動(dòng)。
人體運(yùn)動(dòng)識(shí)別;距離圖像;多層運(yùn)動(dòng)歷史圖像;R變換
人體運(yùn)動(dòng)識(shí)別是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要研究課題,在視頻監(jiān)控、虛擬現(xiàn)實(shí)、人機(jī)交互等方面有廣闊的應(yīng)用前景。基于視頻的人體運(yùn)動(dòng)識(shí)別的關(guān)鍵是如何從視頻中提取可靠的特征表征人體動(dòng)作。利用2D相機(jī)獲取運(yùn)動(dòng)人體信息是過去幾十年的研究重點(diǎn)。然而,2D相機(jī)自身的局限性使已有的2D相機(jī)運(yùn)動(dòng)識(shí)別方法[1]僅適用于運(yùn)動(dòng)平行于相機(jī)的情況,由于人體運(yùn)動(dòng)從本質(zhì)上來說是3D的,距離信息的丟失使2D相機(jī)的運(yùn)動(dòng)表征方法識(shí)別能力大大降低。同時(shí),2D相機(jī)運(yùn)動(dòng)識(shí)別易受光照和人體膚色等的影響。
隨著相機(jī)和視頻技術(shù)的發(fā)展,可以采用基于飛行時(shí)間(Time-Of-Flight, TOF)的3D相機(jī)[2]獲取具有3維信息的距離圖像。距離圖像可以提供垂直于相機(jī)的運(yùn)動(dòng)信息,以較小的計(jì)算代價(jià)更加精確地描述和識(shí)別人體運(yùn)動(dòng)[3]。這樣,由于2D相機(jī)將3維運(yùn)動(dòng)投影到2維圖像平面上而產(chǎn)生的距離模糊就不復(fù)存在了。
本文方法歸屬上述3種方法中的第2種。利用TOF相機(jī)的距離信息,結(jié)合傳統(tǒng)MHI和文獻(xiàn)[11]的3DMHI,提出多層運(yùn)動(dòng)歷史圖像(Multi-Layered Motion History Images, MLMHI)的人體運(yùn)動(dòng)描述方法。MLMHI由運(yùn)動(dòng)能量圖和前向、后向多層運(yùn)動(dòng)歷史圖像組成,包含了沿著距離方向變化的運(yùn)動(dòng)歷史,能夠體現(xiàn)運(yùn)動(dòng)的整體信息和局部信息,從而更加精確地描述人體運(yùn)動(dòng)。然后引入R變換對(duì)每層運(yùn)動(dòng)歷史圖像進(jìn)行特征提取,串聯(lián)形成特征向量送入SVM分類器中進(jìn)行分類。
運(yùn)動(dòng)人體檢測(cè)是人體運(yùn)動(dòng)識(shí)別的基礎(chǔ)。受光照、陰影等影響,利用2D相機(jī)進(jìn)行運(yùn)動(dòng)人體檢測(cè)仍然是具有挑戰(zhàn)性的工作。本文利用距離信息,結(jié)合背景差分法[13]進(jìn)行運(yùn)動(dòng)人體檢測(cè),以克服上述缺點(diǎn)。具體表達(dá)式如式(1)所示:
式中為檢測(cè)到的運(yùn)動(dòng)人體的距離圖像;為當(dāng)前幀的距離圖像;為預(yù)先設(shè)定的距離閾值;為背景幀的距離圖像。為了構(gòu)造背景模型,假設(shè)背景是靜止的,采用平均背景法。記錄沒有運(yùn)動(dòng)人體時(shí)的背景距離圖像序列,計(jì)算多幅背景距離圖像的平均值作為背景距離圖像。圖1所示為提取出的運(yùn)動(dòng)人體的距離輪廓圖像,這里取1.2。
文獻(xiàn)[15]驗(yàn)證了在標(biāo)準(zhǔn)大小的圖像中,R變換具有平移和尺度不變性。對(duì)每層MLMHI進(jìn)行R變換,得到180維的特征向量。這樣,每個(gè)運(yùn)動(dòng)序列共得到900維的特征向量。
本文分別在自己建立的數(shù)據(jù)庫(kù)與MSR Daily 3D運(yùn)動(dòng)數(shù)據(jù)庫(kù)[12]上進(jìn)行了實(shí)驗(yàn)并與其他方法進(jìn)行了比較。采用支持向量機(jī)[16]進(jìn)行運(yùn)動(dòng)數(shù)據(jù)的訓(xùn)練與測(cè)試。實(shí)驗(yàn)中使用LibSVM工具包,并且分別選用線性核函數(shù)與RBF核函數(shù)。同時(shí)采用10次10倍交叉驗(yàn)證法,即數(shù)據(jù)被隨機(jī)劃分為10份,輪流將其中9份作為訓(xùn)練數(shù)據(jù),1份作為測(cè)試數(shù)據(jù),取這10次結(jié)果的平均值作為這次劃分的結(jié)果,再將這種隨機(jī)劃分做10次,取10次劃分的實(shí)驗(yàn)結(jié)果平均值作為最終的識(shí)別率。
本文利用基于TOF原理的PMD相機(jī)[17,18]建立自己的數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)中包含以下6種動(dòng)作:喝水(drink)、鼓掌(clap),坐下(sd),起立(su),走近(come),走遠(yuǎn)(go)。如圖2所示,所有動(dòng)作都垂直朝向PMD相機(jī)。每種動(dòng)作由10個(gè)人分別完成,每人做15遍。PMD相機(jī)幀率為25 fps,每個(gè)運(yùn)動(dòng)序列約為75幀。實(shí)驗(yàn)中,時(shí)間窗口長(zhǎng)度選擇70幀。
4.1.1 3DMHI分類結(jié)果 文獻(xiàn)[11]提出的3DMHI包括MHI,前向運(yùn)動(dòng)歷史fDMHI和后向運(yùn)動(dòng)歷史bDMHI。在本文數(shù)據(jù)庫(kù)上進(jìn)行實(shí)驗(yàn),圖3所示為喝水動(dòng)作的3DMHI及其R變換。圖4所示為線性核函數(shù)的識(shí)別結(jié)果,可以看到,3DMHI+R變換的平均識(shí)別率比3DMHI+Hu矩的平均識(shí)別率高,R變換的引入在一定程度上提高了識(shí)別率。
4.1.2 MLMHI分類結(jié)果 圖5所示為喝水動(dòng)作的MLMHI。從圖中可以看出,在運(yùn)動(dòng)歷史的距離變化量上進(jìn)行分層可以更好地表征運(yùn)動(dòng)的3維特性,既能突出其在距離方向上變化量較小的局部信息,又能體現(xiàn)其距離變化較大的局部信息。利用線性核函數(shù)的識(shí)別結(jié)果如圖6所示。表1為3DMHI和MLMHI兩種方法在不同核函數(shù)下的識(shí)別結(jié)果對(duì)比。從表1可以看到,本文提出的MLMHI比3DMHI識(shí)別率有明顯的提高,識(shí)別效果更好。
圖2 數(shù)據(jù)庫(kù)中的6種運(yùn)動(dòng)
表1 MLMHI與3DMHI的對(duì)比(%)
圖3 喝水動(dòng)作的3DMHI及R變換示意圖
圖4 3DMHI在線性核函數(shù)下識(shí)別結(jié)果
圖5 喝水動(dòng)作的MLMHI 從左到右依次為MEI,,,,
圖6 MLMHI在線性核函數(shù)下的識(shí)別結(jié)果
MSR Daily 3D運(yùn)動(dòng)數(shù)據(jù)庫(kù)是由微軟研究小組用Kinect相機(jī)建立的數(shù)據(jù)庫(kù)。共包含16種運(yùn)動(dòng):“drink”,“eat”,“read book”,“call cellphone”,“write on a paper”,“use laptop”,“use vacuum cleaner”,“cheer up”,“sit still”,“toss paper”,“play game”,“l(fā)ay down”,“walk”,“play guitar”,“stand up”,“sit down”。每種運(yùn)動(dòng)由10個(gè)人完成,每人做2遍:一遍站立完成,一遍坐在沙發(fā)上完成,涵蓋了起居室可能發(fā)生的日常行為。數(shù)據(jù)庫(kù)中已經(jīng)用距離閾值法去除了復(fù)雜的背景。
由于數(shù)據(jù)庫(kù)中的每種運(yùn)動(dòng)視頻幀數(shù)從50到300不等,為了得到最佳的時(shí)間窗口長(zhǎng)度,在每種運(yùn)動(dòng)中選取幀數(shù)為80到300的序列分別進(jìn)行實(shí)驗(yàn)。若視頻中的幀數(shù)小于所選幀數(shù),則選擇其視頻中的全部幀。在不同時(shí)間窗口長(zhǎng)度下的識(shí)別率如圖7所示,由圖7可知在幀數(shù)為270左右時(shí)識(shí)別效果最佳,其分類混淆矩陣如圖8所示,平均識(shí)別率為83.125%。由實(shí)驗(yàn)可知,對(duì)于不同的數(shù)據(jù)庫(kù),運(yùn)動(dòng)識(shí)別率有所不同,本文建立的數(shù)據(jù)庫(kù)較為簡(jiǎn)單,只包含了6種動(dòng)作,因此識(shí)別率相較于MSR Daily 3D運(yùn)動(dòng)數(shù)據(jù)庫(kù)要高。
為了驗(yàn)證本文方法對(duì)哪類動(dòng)作更有效,根據(jù)前后距離變化大小將MSR Daily 3D運(yùn)動(dòng)數(shù)據(jù)庫(kù)中的動(dòng)作分為AS1和AS2兩類,分別對(duì)其進(jìn)行識(shí)別,選擇時(shí)間窗口長(zhǎng)度為270時(shí),在R變換和線性核函數(shù)下的分類混淆矩陣如圖9和圖10所示。本文方法對(duì)“l(fā)ay down”和“walk”等前后距離變化較大的動(dòng)作識(shí)別率較高,而對(duì)“sit sitll”,“play game”等距離幾乎沒有變化的動(dòng)作識(shí)別率略差,這是由于前后距離變化較小時(shí)不能獲取更多有用的距離信息。
最后,將本文的識(shí)別結(jié)果與使用MSR Daily 3D運(yùn)動(dòng)數(shù)據(jù)庫(kù)的其它方法進(jìn)行了對(duì)比,并且將文獻(xiàn)[11]提出的3DMHI在此數(shù)據(jù)庫(kù)上進(jìn)行了實(shí)驗(yàn),如表2所示。本文方法比文獻(xiàn)[11]的3DMHI方法識(shí)別率有明顯的提高。文獻(xiàn)[4]和文獻(xiàn)[7]用關(guān)節(jié)點(diǎn)位置作為特征,受噪聲的影響和人體與其它物體交互的影響較大,平均識(shí)別率較低。文獻(xiàn)[12]同樣采用關(guān)節(jié)點(diǎn)位置作為特征,但考慮到數(shù)據(jù)庫(kù)中有多種運(yùn)動(dòng)是人體與環(huán)境中其它物體的交互,又設(shè)計(jì)了基于關(guān)節(jié)點(diǎn)周圍3D點(diǎn)云的局部占有信息(LOP)作為特征,同時(shí)提出了傅里葉時(shí)序金字塔FTP特征描述方法。由于文獻(xiàn)[12]對(duì)人物交互做了單獨(dú)處理,使得關(guān)節(jié)點(diǎn)位置特征與LOP的聯(lián)合特征平均識(shí)別率高達(dá)85.75%。對(duì)比可知,本文方法優(yōu)于單獨(dú)使用關(guān)節(jié)點(diǎn)位置的方法,但識(shí)別率略低于文獻(xiàn)[12]中聯(lián)合特征的方法。
圖7 MLMHI在不同時(shí)間窗口長(zhǎng)度下的識(shí)別率
圖8 幀數(shù)為270時(shí)R+線性核函數(shù)的分類混淆矩陣
圖9 AS1分類混淆矩陣
圖10 AS2分類混淆矩陣
表2本文方法與各方法的識(shí)別率(%)
方法LOP特征[12]DTW[4]關(guān)節(jié)點(diǎn)位置特征[12]NBNN[7]3DMHI+Hu[11]FTPF[12]LOP+關(guān)節(jié)點(diǎn)位置特征[12]MLMHI+R(本文方法) 識(shí)別率42.554.068.07073.1378.085.7583.12
本文對(duì)利用TOF相機(jī)提供的距離圖像進(jìn)行人體運(yùn)動(dòng)識(shí)別開展了研究。在傳統(tǒng)運(yùn)動(dòng)歷史圖像的基礎(chǔ)上,提出了多層運(yùn)動(dòng)歷史圖像的人體運(yùn)動(dòng)描述方法,多層運(yùn)動(dòng)歷史圖像由運(yùn)動(dòng)能量圖、前向多層運(yùn)動(dòng)歷史圖像和后向多層運(yùn)動(dòng)歷史圖像組成。然后引入R變換對(duì)每層運(yùn)動(dòng)歷史圖像進(jìn)行特征提取。分別在我們自建的數(shù)據(jù)庫(kù)和MSR Daily 3D運(yùn)動(dòng)數(shù)據(jù)庫(kù)上進(jìn)行了實(shí)驗(yàn)。結(jié)果表明,本文提出的MLMHI及引入R變換進(jìn)行特征提取的方法,優(yōu)于同類方法及只使用關(guān)節(jié)點(diǎn)位置進(jìn)行識(shí)別的方法,但略差于聯(lián)合特征的方法。因此,將本文方法與關(guān)節(jié)點(diǎn)位置特征相結(jié)合,進(jìn)一步提高識(shí)別率,是本文下一步的研究重點(diǎn)。
[1] Weinland D, Ronfard R, and Boyer E. A survey of vision-based methods for action representation, segmentation and recognition[J]., 2011, 115(2): 224-241.
[2] Lange R. 3D time-of-flight distance measurement with custom solid-state image sensors in CMOS/CCD- technology[D]. [Ph.D. dissertation], University of Siegen, 2000.
[3] Chen L, Wei H, and Ferryman J M. A survey of human motion analysis using depth imagery[J]., 2013, 34(15): 1995-2006.
[4] Müller M and R?der T. Motion templates for automatic classification and retrieval of motion capture data[C]. Proceedings of the 2006 ACM SIGGRAPH/Eurographics Symposium on Computer Animation. Eurographics Association, Switzerland, 2006: 137-146.
[5] Xia L, Chen C C, and Aggarwal J K. View invariant human action recognition using histograms of 3D joints[C]. 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Providence, 2012: 20-27.
[6] Yang X and Tian Y L. Eigenjoints-based action recognition using naive-bayes-nearest-neighbor[C]. 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), Providence, 2012: 14-19.
[7] Seidenari L, Varano V, Berretti S,.. Weakly Aligned Multi-part Bag-of-Poses for Action Recognition from Depth Cameras[M]. Springer Berlin Heidelberg: New Trends in Image Analysis and Processing, 2013: 446-455.
[8] Shotton J, Sharp T, Kipman A,.. Real-time human pose recognition in parts from single depth images[J]., 2013, 56(1): 116-124.
[9] Li W, Zhang Z, and Liu Z. Action recognition based on a bag of 3D points[C]. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), San Francisco, CA, 2010: 9-14.
[10] Yang X, Zhang C, and Tian Y L. Recognizing actions using depth motion maps-based histograms of oriented gradients[C]. Proceedings of the 20th ACM International Conference on Multimedia, New York, 2012: 1057-1060.
[11] Ni B, Wang G, and Moulin P. RGBD-HuDaAct: a color- depth video database for human daily activity recognition[C]. 2011 IEEE International Conference on Computer Vision Workshops (ICCV Workshops), Barcelona, 2012: 1147-1153.
[12] Wang J, Liu Z, Wu Y,.. Mining actionlet ensemble for action recognition with depth cameras[C]. 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Providence, 2012: 1290-1297.
[13] Haritaoglu I, Harwood D, and Davis L S. W4: real-time surveillance of people and their activities[J]., 2000, 22(8): 809-830.
[14] Bobick A F and Davis J W. The recognition of human movement using temporal templates[J]., 2001, 23(3): 257-267.
[15] Wang Y, Huang K, and Tan T. Human activity recognition based on R transform[C]. IEEE Conference on Computer Vision and Pattern Recognition, Minneapolis, MN, 2007: 1-8.
[16] 高雋. 人工神經(jīng)網(wǎng)絡(luò)原理及仿真實(shí)例[M]. 北京: 機(jī)械工業(yè)出版社, 2003: 76-86.
[17] Schwarte R. Smart Pixel-photonic Mixer Device (PMD)[C]. Proceedings of International Conference on Mechatronics and Machine Vision, 1998: 259-264.
[18] 張旭東, 沈玉亮, 胡良梅, 等. 改進(jìn)的PMD距離圖像超分辨率重建算法[J]. 中國(guó)圖象圖形學(xué)報(bào), 2012, 17(4): 480-486.
Zhang X D, Shen Y L, Hu L M,.. Improved super- resolution reconstruction algorithm for PMD range image[J]., 2012, 17(4): 480-486.
張旭東: 男,1966年生,博士,教授,碩士生導(dǎo)師,研究方向?yàn)闄C(jī)器視覺、傳感器技術(shù)、智能信息處理以及相關(guān)應(yīng)用系統(tǒng)的開發(fā).
楊 靜: 女,1990年生,碩士生,研究方向?yàn)橹悄苄畔⑻幚?
胡良梅: 女,1974年生,博士,副教授,碩士生導(dǎo)師,研究方向?yàn)樾畔⑷诤?、圖像處理、圖像理解、模式識(shí)別、智能信息處理.
Human Activity Recognition Using Multi-layered Motion HistoryImages with Time-Of-Fligh (TOF) Camera
Zhang Xu-dong Yang Jing Hu Liang-mei Duan Lin-lin
(,,230009,)
A new method extended from motion history image called Multi-Layered Mmotion History Images (MLMHI) is proposed to the representation and recognition of human activity using depth images provided by Time-Of-Fligh (TOF) camera. Firstly, the motion-energy image of the depth silhouettes is computed as the global motion information. Then, the forward-MLMHI and backward-MLMHI is computed as the local motion information based on the variable of depth. The global and local motion information constitute the MLMHI lastly. Since the Hu moments are sensitive to disjoint shapes and noise, R transform is employed to extract features from every layered-MHI and concatenated to form a feature vector. The feature vector is used as the input of Support Vector Machine (SVM) for recognition. Experimental results demonstrate the effectiveness of the proposed method.
Human activity recognition; Depth image; Multi-Layered Motion History Images (MLMHI); R transform
TP391
A
1009-5896(2014)05-1139-06
10.3724/SP.J.1146.2013.01003
張旭東 xudong@hfut.edu.cn
2013-07-10收到,2013-09-29改回
國(guó)家自然科學(xué)基金(61273237, 61271121)和安徽省自然科學(xué)基金(11040606M149)資助課題