宋相法,姚 旭
(河南大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,河南 開封 475004)
人體行為識別是計(jì)算機(jī)視覺領(lǐng)域中的重點(diǎn)研究問題之一,可廣泛應(yīng)用于視覺監(jiān)控、人機(jī)交互、智能家居等領(lǐng)域,受到了研究人員的廣泛關(guān)注[1-5]。在過去的數(shù)十年間,基于可見光攝像機(jī)獲取的彩色圖像序列人體行為識別研究取得了很大進(jìn)展[1-2],但是它們對光照變化、紋理和顏色等因素比較敏感,當(dāng)環(huán)境、光照條件發(fā)生變化時(shí),識別精度會大幅度降低,因此,人體行為識別極具挑戰(zhàn)性[2]。
最近,微軟Kinect深度攝像機(jī)獲取的深度圖像在計(jì)算機(jī)視覺和機(jī)器人等領(lǐng)域取得了廣泛應(yīng)用[2]。相比可見光攝像機(jī)獲取的彩色圖像,深度攝相機(jī)獲取的深度圖像可以提供一個(gè)光照不變的具有深度幾何結(jié)構(gòu)的前景信息,同時(shí)具有紋理與顏色不變性等優(yōu)勢[2]。所以,研究人員開始對深度圖像序列人體行為識別進(jìn)行研究。例如,文獻(xiàn)[6]采用行為圖譜對行為進(jìn)行建模,然后使用3維詞袋提取姿態(tài)特征,最后利用隱馬爾可夫模型識別人體行為;文獻(xiàn)[7]提出了基于深度運(yùn)動圖和梯度方向直方圖(histograms of oriented gradients,HOG)特征[8]的人體行為識別方法;文獻(xiàn)[9]利用時(shí)空深度長方體相似性特征進(jìn)行人體行為識別;文獻(xiàn)[10]利用深度圖像序列中的四維法向量特征進(jìn)行人體行為識別;文獻(xiàn)[11]提出了基于法向量描述子和超向量編碼的深度圖像序列人體行為識別方法;文獻(xiàn)[12]提出了基于二值距離采樣深度特征的人體行為識別方法;文獻(xiàn)[13]提出了基于深度運(yùn)動圖和局部二值模式特征的人體行為識別方法;文獻(xiàn)[14]提出了基于時(shí)空金字塔立方體匹配的人體行為識別方法;文獻(xiàn)[15]提出了基于深度稠密時(shí)空興趣點(diǎn)的人體動作識別方法。
對于深度圖像序列,可以提取出各種不同類型的特征,所以在實(shí)際應(yīng)用中,通過提取某種單一類型的特征很難全面地描述和刻畫人體行為信息。采用多特征進(jìn)行融合,可以增強(qiáng)信息互補(bǔ)性,提高人體行為識別結(jié)果。根據(jù)以上分析,文中提出了一種基于多特征的深度圖像序列人體行為識別方法。該方法首先提取超法向量特征和基于深度運(yùn)動圖的梯度方向直方圖特征,然后使用核極限學(xué)習(xí)機(jī)(kernel extreme learning machine,KEML)[16]作為分類器,采用對數(shù)意見匯集規(guī)則[17]融合方法得到人體行為識別結(jié)果。
為了加快計(jì)算速度,沒有設(shè)定閾值,而是直接將絕對值累加,如下:
(1)
其中,i代表幀索引。
通過式1分別在3個(gè)平面上得到深度運(yùn)動圖DMMf,DMMs和DMMt,然后去除深度運(yùn)動圖中處于邊緣的全零行和全零列,最后得到人體行為的有效區(qū)域,如圖1所示。
圖1 DMM框架(golf swing行為)
超法向量特征是由文獻(xiàn)[11]提出的一種表示深度圖像序列人體行為特征的方法,能夠捕獲局部運(yùn)動信息。該方法首先計(jì)算出每一深度圖像幀中每個(gè)像素點(diǎn)的法向量描述子,然后采用Fisher向量[18]一個(gè)簡化的非概率方法對法向量描述子進(jìn)行編碼,從而獲得超法向量特征。
深度圖像序列可用下面的函數(shù)形式來表達(dá):
R3→R1:z=Φ(x,y,t)
(2)
它構(gòu)成了4維空間中的一個(gè)曲面F,該曲面上的點(diǎn)(x,y,t,z)滿足式3:
F(x,y,t,z)=Φ(x,y,t)-z=0
(3)
其中,x,y,z為空間坐標(biāo);t為時(shí)間。
曲面F上的點(diǎn)F(x,y,t,z)處的法向量n表達(dá)為:
n=
(4)
點(diǎn)F(x,y,t,z)處的法向量描述子p由其時(shí)空鄰域中的L個(gè)點(diǎn)的法向量級聯(lián)而成,表達(dá)為:
(5)
令P={p1,p2,…,pN}∈RM是從深度圖像序列中提取出的法向量描述子,D∈RM×K是視覺字典,則pi在D上的稀疏編碼[19]的數(shù)學(xué)表達(dá)式為:
(6)
其中,dk為D中的視覺單詞;αi∈RK為pi在D上的稀疏編碼系數(shù),α=[α1,α2,…,αN]∈RK×N;λ為正則參數(shù),利用SPAMS工具箱[19]求解式6中的D和α。
對于每個(gè)單詞dk,首先利用空間平均池化方法計(jì)算量化誤差,如式7所示:
(7)
其中,uk(t)表示第k個(gè)單詞在第t幀中的池化誤差。
然后利用時(shí)間最大池化方法計(jì)算整卷中的量化誤差[11],如式8所示:
(8)
其中,uk,i表示uk的第i個(gè)分量,uk是第k個(gè)單詞在整卷中的表示。把K個(gè)向量uk級聯(lián)起來得到最終向量U,如式9所示:
(9)
為了使所提取的特征能反映人體行為的時(shí)空屬性,采用自適應(yīng)時(shí)空金字塔方法[11]把圖像序列劃分成若干塊,然后從每一塊中提取特征向量Ui,最后把Ui級聯(lián)起來得到深度圖像序列的超法向量特征,如式10所示:
(10)
其中,V為圖像序列被劃分的塊數(shù)。
由于基于深度運(yùn)動圖的梯度方向直方圖特征和超法向量特征分別從整體和局部兩個(gè)角度來刻畫和描述人體行為信息,具有良好的信息互補(bǔ)性;同時(shí),核極限學(xué)習(xí)機(jī)有效地避免了極限學(xué)習(xí)機(jī)(extreme learning machine,EML)[20]固有的隨機(jī)性和支持向量機(jī)模型求解的復(fù)雜性,而且具有更快的學(xué)習(xí)速度和更好的泛化性能[16],已初步用于人體行為識別[13,21]。因此,采用多特征融合的核極限學(xué)習(xí)機(jī)進(jìn)行行為識別,可有效提高行為識別的性能。
極限學(xué)習(xí)機(jī)是一種單隱層前饋神經(jīng)網(wǎng)絡(luò)模型,利用求解線性方程組的方法求出網(wǎng)絡(luò)模型的輸出權(quán)值,訓(xùn)練速度快,泛化能力強(qiáng)。核極限學(xué)習(xí)機(jī)通過引入核函數(shù),解決了ELM算法隨機(jī)初始化的問題,并且具有更強(qiáng)的魯棒性。
(11)
其中,h(·)為一個(gè)非線性激勵函數(shù);wl∈Rn為連接第l個(gè)隱節(jié)點(diǎn)和輸入節(jié)點(diǎn)之間的權(quán)重向量;βl為連接第l個(gè)隱節(jié)點(diǎn)到輸出節(jié)點(diǎn)的輸出權(quán)重;el為第l個(gè)隱節(jié)點(diǎn)的偏置。
式11共有n個(gè)方程,因此可以改寫為:
Hβ=Y
(12)
(13)
根據(jù)輸入(x1,x2,…,xn)和H得出式12的最小平方解:
(14)
得到
(15)
其中,H?為矩陣H的Moore-Penrose逆矩陣,H?=HT(HHT)-1。
在HHT的對角線上的每個(gè)元素加一個(gè)正數(shù)1/ρ可以得到更好的穩(wěn)定性,因此,ELM的輸出表達(dá)式可直接表示為:
(16)
如果特征映射函數(shù)h(x)未知,則ELM的核矩陣可以定義為:
ΩELM=HHT:ΩELMj,k=h(xj)·h(xk)=K(xj,xk)
(17)
因此,KELM的輸出表達(dá)式可表示為:
(18)
樣本x的標(biāo)記由具有最大值輸出節(jié)點(diǎn)的索引值決定,即
(19)
這里f(x)c為f(x)=[f(x)1,f(x)2,…,f(x)C]。
從深度圖像序列中提取超法向量特征和深度運(yùn)動圖的梯度方向直方圖特征分別作為核極限學(xué)習(xí)機(jī)分類器的輸入,然后利用對數(shù)意見匯集規(guī)則融合兩類特征的識別結(jié)果實(shí)現(xiàn)人體行為的識別。由于核極限學(xué)習(xí)機(jī)分類器的輸出為輸入所屬類別的精度估計(jì)值,根據(jù)文獻(xiàn)[22]可以將核極限學(xué)習(xí)機(jī)分類器的輸出映射為類后驗(yàn)概率,用一個(gè)Sigmoid函數(shù)作為連接函數(shù)將核極限學(xué)習(xí)機(jī)分類器的輸出f(x)映射到[0,1],以實(shí)現(xiàn)其后驗(yàn)概率輸出。后驗(yàn)概率輸出形式如下:
(20)
其中,參數(shù)A和B控制Sigmoid函數(shù)的形態(tài),簡單起見,令A(yù)=-1,B=0。
在對數(shù)意見匯集規(guī)則中,用于估計(jì)全體隸屬度函數(shù)的后驗(yàn)概率pq(yc|x)形式如下:
(21)
或者
(22)
樣本x所屬類別標(biāo)號y*如下式所示:
(23)
為了驗(yàn)證該方法的有效性,在深度圖像序列人體行為數(shù)據(jù)集MSR Action3D (http://research.microsoft.com/en-us/um/people/zliu/ActionRecoRsrc/default.htm)上進(jìn)行了實(shí)驗(yàn)。MSR Action3D數(shù)據(jù)集中共包含20種人體行為,例如horizontal arm wave、hammer、hand catch、forward punch等,每種行為由10個(gè)表演者重復(fù)表演3次,部分樣例如圖2所示。
圖2 MSR Action3D數(shù)據(jù)庫上的部分樣例
為了保證比較的公平性,實(shí)驗(yàn)設(shè)置與文獻(xiàn)[9-14]相同,數(shù)據(jù)集中的一半為訓(xùn)練集,另一半為測試集。采用文獻(xiàn)[11]在提出超法向量特征時(shí)所建議的參數(shù)設(shè)置,其中字典D的大小k取值為100,正則參數(shù)λ的取值為0.15。
表1 實(shí)驗(yàn)結(jié)果對比
表1給出了文中算法的識別結(jié)果,同時(shí)也給出了單一DMM-HOG特征和單一SNV特征采用極限學(xué)習(xí)機(jī)分類器進(jìn)行識別的結(jié)果,以及其他算法的識別結(jié)果。
由表1可知,識別精度由基于DMM-HOG特征的92.00%和基于SNV特征的94.90%提高到了文中算法的96.36%;文中算法的識別精度也高于其他7種算法,進(jìn)一步證明了其有效性。
混淆矩陣可以揭示出數(shù)據(jù)的真實(shí)類別和預(yù)測類別之間的關(guān)系,常用來評價(jià)算法的性能。圖3給出了文中算法在MSR Action3D數(shù)據(jù)集上的混淆矩陣。由圖3可知,在20類行為中,識別精度達(dá)到100%的有16類;識別錯(cuò)誤率主要發(fā)生在hand catch和high throw以及draw x 和hammer之間,是由于這些行為比較相似造成的。
圖3 文中算法在MSR Action3D數(shù)據(jù)庫上的混淆矩陣
針對利用單特征對深度圖像序列人體行為進(jìn)行識別導(dǎo)致性能較低的問題,提出了基于超法向量特征和深度運(yùn)動圖HOG特征的深度圖像序列人體行為識別方法。在MSR Action3D數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果證明了該方法的優(yōu)越性。
參考文獻(xiàn):
[1] 胡 瓊,秦 磊,黃慶明.基于視覺的人體動作識別綜述[J].計(jì)算機(jī)學(xué)報(bào),2013,36(12):2512-2524.
[2] HAN Jungong,SHAO Ling,XU Dong,et al.Enhanced computer vision with microsoft kinect sensor:a review[J].IEEE Transactions on Cybernetics,2013,43(5):1318-1334.
[3] 陳萬軍,張二虎.基于深度信息的人體動作識別研究綜述[J].西安理工大學(xué)學(xué)報(bào),2015,31(3):253-264.
[4] 黃菲菲,曹江濤,姬曉飛.基于多通道信息融合的雙人交互動作識別算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2016,26(3):58-62.
[5] 單言虎,張 彰,黃凱奇.人的視覺行為識別研究回顧、現(xiàn)狀及展望[J].計(jì)算機(jī)研究與發(fā)展,2016,53(1):93-112.
[6] LI Wanqing,ZHANG Zhengyou,LIU Zicheng.Action recognition based on a bag of 3D points[C]//IEEE computer society conference on computer vision and pattern recognition workshops.San Francisco,CA,USA:IEEE,2010:9-14.
[7] YANG Xiaodong,ZHANG Chenyang,TIAN Yingli.Recognizing actions using depth motion maps based histograms of oriented gradients[C]//Proceedings of ACM conference on multimedia.Nara,Japan:ACM,2012:1057-1060.
[8] DALAL N,TRIGGS B.Histograms of oriented gradients for human detection[C]//Proceedings of IEEE conference on computer vision and pattern recognition.Piscataway,NJ,USA:IEEE,2005:886-893.
[9] LU Xia,AGGARWAL J K.Spatio-temporal depth cuboid similarity feature for action recognition using depth camera[C]//Proceedings of IEEE conference on computer vision and pattern recognition.Piscataway,NJ,USA:IEEE,2013:2834-2841.
[10] OREIFEJ O, LIU Zicheng. HON4D:histogram of oriented 4D normals for action recognition from depth sequences[C]//Proceedings of IEEE conference on computer vision and pattern recognition.Piscataway,NJ,USA:IEEE,2013:716-723.
[11] YANG Xiaodong,TIAN Yingli.Super normal vector for action recognition using depth sequences[C]//Proceedings of IEEE conference on computer vision and pattern recognition.Columbus,OH,USA:IEEE,2014:804-811.
[12] LU Cewu, JIA Jiaya, TANG Chi-Keung.Range sample depth feature for action recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.Piscataway,NJ,USA:IEEE,2014:772-779.
[13] CHEN Chen,JAFARI R,KEHTARNAVAZ N.Action recognition from depth sequences using depth motion maps-based local binary patterns[C]//Proceedings of the IEEE winter conference on applications of computer vision.Waikoloa,HI,USA:IEEE,2015:1092-1099.
[14] LIANG Bin,ZHENG Lihong.Spatio-temporal pyramid cuboid matching for action recognition using depth maps[C]//Proceedings of the IEEE conference on image processing.Quebec City,QC,Canada:IEEE,2015:2070-2074.
[15] 宋健明,張 樺,高 贊,等.基于深度稠密時(shí)空興趣點(diǎn)的人體動作描述算法[J].模式識別與人工智能,2015,28(10):939-945.
[16] HUANG Guangbin,ZHOU Hongming,DING Xiaojian,et al.Extreme learning machine for regression and multiclass classification[J].IEEE Transactions on Systems,Man and Cybernetics,Part B,2012,42(2):513-529.
[17] BENEDIKTSSON J A,SVEINSSON J R.Multisource remote sensing data classification based on consensus and pruning[J].IEEE Transactions on Geoscience and Remote Sensing,2003,41(4):932-936.
[19] MAIRAL J,BACH F,PONCE J,et al.Online learning for matrix factorization and sparse coding[J].Journal of Machine Learning Research,2010,11:19-60.
[20] HUANG Guangbin,ZHU Qinyu,SIEW C K.Extreme learning machine:theory and applications[J].Neurocomputing,2006,70(1-3):489-501.
[21] IOSIFIDIS A, TEFAS A, PITAS I. Regularized extreme learning machine for multi-view semi-supervised action recognition[J].Neurocomputing,2014,145:250-262.
[22] PLATT J C.Probabilistic outputs for support vector machines and comparison to regularized likelihood methods[C]//Proceedings of advances in large margin classifiers.Cambridge,MA,USA:MIT Press,1999:61-74.