史東承, 李延林
(長春工業(yè)大學 計算機科學與工程學院, 吉林 長春 130012)
?
基于深度運動圖的人體行為識別
史東承, 李延林*
(長春工業(yè)大學 計算機科學與工程學院, 吉林 長春 130012)
將人體行為深度映射圖(depth map)連續(xù)投影到3個互相垂直的笛卡爾平面,然后對投影做絕對差分,累積各自投影面的差分圖像,得到完整的人體行為三維信息----深度運動圖(Depth Motion Maps, DMMs)。利用MSRAction dataset和3D Action Pairs dataset進行訓練以獲取人體行為字典。在識別未知動作時,利用Tikhonov矩陣計算得出權重系數向量。最后,利用L2范式正則化協同表示對待識別動作進行分類。通過上述兩個數據庫的驗證,分別達到了95.3%和83.8%的平均識別率,已經達到對DMMs的較高識別率。
人體行為; 識別; 深度運動圖; L2范式
人體行為識別[1]是計算機視覺領域的熱門研究方向之一。傳統方法在獲取人體行為時,多使用二維視頻,致使人體行為在三維空間中的動作信息在初始場景下就已經丟失了部分信息。并且由于傳統攝像機拍攝的視頻多受光照的影響,傳統方法不得不對光照進行二次處理,造成人體行為信息的再次損失。隨著RGBD攝像機以及深度傳感器[2]的使用(如Kinect等),在源頭獲取人體行為的三維信息變得十分便捷,所得深度圖像序列也對光照不敏感,在信息的處理上不必處理光照產生的影響。正是由于人體行為信息由二維轉向了三維,讓人體行為的處理方式也更加多樣和靈活化。
文中正是利用此種優(yōu)勢提出了DMMs進行人體行為識別。將人體行為特征的三維信息作為特征向量,并利用L2范式正則化協同表示分類器進行分類。算法流程如圖1所示。
圖1 算法流程圖
1.1 深度運動圖的生成
深度映射圖是由RGBD攝像機拍攝所得,以往常常用來構建物體的三維信息和三維結構。文中通過利用RGBD攝像機獲取人體行為視頻,使視頻擁有人體行為的三維信息。通過MSRAction3D[3]和3D Action Pairs 兩個數據庫的深度運動圖(DMM),將DMM在3個互相垂直的笛卡爾平面上做二維投影,投影視角為前視(front view)、側視(side view)和俯視(top view),所得DMM記為DMMf、DMMs和DMMt,分別如圖2和圖3所示。
圖2 Tennis Serve 圖3 Side Kick
假設一個深度視頻有N個幀組成,每一幀在其投影視角下的二維投影記為Mapv,則
(1)
1≤a
式中:i----視頻序列在視角v下的的第i幀(注意:為了去除DMM的冗余信息,即視頻幀的起始幀和結尾幀都含有一些動作幅度不是很大的幀,文中建議去除這些幀,以提升輸入信息的有效性)。
1.2 深度運動圖特征向量的生成
從圖2和圖3可以看出,DMM在3個維度上的投影綜合在一起具有很高的辨識度。文中正是利用這一特性,將生成的DMM作為人體行為的特征向量。因拍攝人體時攝像機距離人體的遠近及拍攝人物的高度、胖瘦各有不同,會造成拍攝的不同視頻序列經投影變換后,所得DMM的尺寸各不相同。這里,將利用雙三次插值法對DMM的尺寸進行重新調整。
2.1 稀疏表示方法
稀疏編碼[4]是從人眼視覺系統研究開發(fā)得來,它是一種高效合理的編碼方式。稀疏編碼在人臉識別[5]及圖像分類[6]中都獲得了不錯的成績。稀疏編碼分類的核心思想是使用訓練樣本生成過完備字典,并利用過完備字典對測試樣本進行稀疏表示。最后,計算測試樣本與稀疏編碼的差值,最小差值即可表示其所表示的類別。
(2)
(3)
式中:θ----正則化尺度參數,是用來平衡稀疏項的影響。
測試樣本g類別標簽,則利用公式
(4)
進行計算,然后利用公式
(5)
得出測試樣本g所屬類別。
2.2 L2范式正則化協同表示方法
(6)
λ表示正則化參數,L[9]表示Tikhnov[10]正則化矩陣,L的表達式如下
(7)
(8)
3 實驗結果
3.1 實驗數據
文中使用Matlab進行算法仿真,使用MSRAction3D dataset進行算法準確度評估,并與當前主流算法進行比對。MSRAction3D dataset包含10個人,每個人做20種不同的動作,且每個人做的每一種動作都會重復2~3次,這么做的目的是為了提升訓練后的類內多樣性,以提升識別率。首先將MSRAction3D dataset分成3個組,每個組中所包含的動作見表1。
表1 MSRAction3D dataset 3組動作分組
表1中,我們將3組動作中的每組動作都進行測試1組、測試2組和交叉測試組試驗。在測試1組中,每個人執(zhí)行的第1個動作作為訓練數據,后兩個動作作為測試數據。測試2組,每個人執(zhí)行的前兩個動作作為訓練數據,最后一個作為測試數據。在交叉測試組,1、3、5、7、9這5個人的動作作為訓練數據,2、4、6、8、10這5個人的動作作為測試數據。由于不同人做不同動作時,頻率、力度和幅度各有不同,易造成識別誤差,因此,交叉測試組的結果比其他兩個組更能表明算法的魯棒性。
為了進一步說明本方法對相似動作的識別較有優(yōu)勢,文中還引入了另一個數據庫3D Action Pairs dataset。此數據庫內動作由10個人做出,每人每個動作做3次,動作內容見表2。
表2 3D Action Pairs dataset所包含的動作
實驗中,將數據庫里每個動作類別的前5個人所做的動作作為訓練集,剩余5個人的動作作為測試集。部分3D Action Pairs dataset內的動作視圖如圖4所示。
圖4 3D Action Pairs dataset圖像示例
3.2 實驗結果
使用MSRAction3D dataset與主流的3種方法進行識別準確率評估。文中方法與主流方法識別率比對見表3。
表3 文中方法與主流方法識別率比對
從表3可以看出,文中提出的方法在3組測試中都有比較明顯的優(yōu)勢,尤其是最具挑戰(zhàn)性的交叉測試組,文中的平均識別率都明顯優(yōu)于其他3種方法,可見基于DMMs的人體行為識別在相似動作識別上依然有很強的魯棒性。
為了進一步說明文中方法在相似動作中的識別優(yōu)勢,我們使用3D Action Pairs dataset作為數據庫,使用算法分別為Skeleton+LOP和文中算法作比較。以下兩張混淆矩陣即為這兩種算法的比較,分別如圖5和圖6所示。
圖5 Skeleton+LOP
圖6 文中方法
從圖5和圖6可以看出,以Skeleton+LOP所形成的算法在3D Action Pairs dataset處于較為明顯的劣勢。文中所提的方法在Lift a box, Push a chair, Take off a hat, Put on a backpack以及Take off a backpack這5個動作中略微差一些,但在其他7個動作中都占有優(yōu)勢,尤其是在Pickup a box, Put down a box以及Remove a poster這3個動作中都占據絕對的識別優(yōu)勢。
可見本方法不僅在MSRAction dataset有著不錯的識別率,在3D Action Pairs dataset這樣動作十分相似的數據庫實驗中依然可以達到不錯的識別率。足見文中提出的算法在類內多樣性和類間區(qū)分上有著不錯的魯棒性。
[1] Cheng G, Wan Y, Saudagar A N, et al. Advances in human action recognition:A survey[J]. Computer Science,2015(1):1-30.
[2] 陳萬軍,張二虎.基于深度信息的人體動作識別研究綜述[J].西安理工大學學報,2015(3):253-264.
[3] Wang J, Liu Z, Wu Y, et al. Mining actionlet ensemble for action recognition with depth cameras[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society,2012:1290-1297.
[4] Wright J, Yang A Y, Ganesh A, et al. Robust face recognition via sparse representation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2009,31(2):210-227.
[5] Gao S, Tsang W H, Chia L T. Kernel sparse representation for image classification and face recognition[C]//Computer Vision -ECCV,2010:1-14.
[6] Yang J, Yu K, Gong Y, et al. Linear spatial pyramid matching using sparse coding for image classification[C]//IEEE,2009:1794-1801.
[7] Wright J, Ma Y. Dense error correction via l1-minimization[C]// IEEE International Conference on Acoustics. IEEE Computer Society,2009:3033-3036.
[8] Lei Zhang, Meng Yang, Xiangchu Feng. Sparse representation or collaborative representation: Which helps face recognition[C]// International Conference on Computer Vision. IEEE Computer Society,2011:471-478.
[9] Chen C, Tramel E W, Fowler J E. Compressed-sensing recovery of images and video using multihypothesis predictions[C]// Conference on Circuits. IEEE,2011:1193-1198.
[10] Golub G H, Hansen P C, O′Leary D P. Tikhonov regularization and total least squares[J]. Siam Journal on Matrix Analysis & Applications,2010,21(1):185-194.
[11] Lu Xia, Chia Chih Chen, Aggarwal J K. View invariant human action recognition using histograms of 3D joints[C]//Computer Vision and Pattern Recognition Workshops,2012.
[12] Yang X, Tian Y L. EigenJoints-based action recognition using Naive-Bayes-Nearest-Neighbor[J]. Perceptual & Motor Skills,2012,38(3c):14-19.
[13] Li W, Zhang Z, Liu Z. Action recognition based on a bag of 3D points[J]. Advances in Artificial Intelligence,2016:3-14.
Human action recognition based on depth motion maps
SHI Dongcheng, LI Yanlin*
(School of Computer Science and Engineering, Changchun University of Technology, Changchun 130012, China)
Human action depth maps are projected continuously to three perpendicular Descartes plane. The projections are absolute differentiated and cumulated to obtain complete 3D information of human action which is called the Depth Motion Maps (DMMs). With MSRAction dataset and 3D Action Pairs software, DMMs is trained to get the human action dictionary. When the unidentified human action is input, weight coefficients are calculated by using the Tikhonov matrix, and then L2-regularized collaborative representation classifier is used to classify the actions. Two data-set experiments indicate that the average recognition rates is 95.3% and 83.8% respectively.
human action; recognition; depth motion maps; L2-regularized.
2017-03-21
吉林省教育廳“十三五”規(guī)劃項目(吉教科合字[2016]第349號)
史東承(1959-),男,漢族,吉林長春人,長春工業(yè)大學教授,碩士,主要從事圖像處理與機器視覺方向研究,E-mail:shidongchen@ccut.edu.cn. *通訊作者:李延林(1990-),男,朝鮮族,吉林通化人,長春工業(yè)大學碩士研究生,主要從事圖像處理與機器視覺方向研究,E-mail:balinshitou@163.com.
10.15923/j.cnki.cn22-1382/t.2017.3.12
TP 391
A
1674-1374(2017)03-0276-06