周風(fēng)余 尹建芹,2 楊 陽(yáng) 張海婷 袁憲鋒
基于時(shí)序深度置信網(wǎng)絡(luò)的在線人體動(dòng)作識(shí)別
周風(fēng)余1尹建芹1,2楊陽(yáng)1張海婷1袁憲鋒1
在線人體動(dòng)作識(shí)別是人體動(dòng)作識(shí)別的最終目標(biāo),但由于如何分割動(dòng)作序列是一個(gè)待解決的難點(diǎn)問(wèn)題,因此目前大多數(shù)人體動(dòng)作識(shí)別方法僅關(guān)注在分割好的動(dòng)作序列中進(jìn)行動(dòng)作識(shí)別,未關(guān)注在線人體動(dòng)作識(shí)別問(wèn)題.本文針對(duì)這一問(wèn)題,提出了一種可以完成在線人體動(dòng)作識(shí)別的時(shí)序深度置信網(wǎng)絡(luò)(Temporal deep belief network,TDBN)模型.該模型充分利用動(dòng)作序列前后幀提供的上下文信息,解決了目前深度置信網(wǎng)絡(luò)模型僅能識(shí)別靜態(tài)圖像的問(wèn)題,不僅大大提高了動(dòng)作識(shí)別的準(zhǔn)確率,而且由于該模型不需要人為對(duì)動(dòng)作序列進(jìn)行分割,可以從動(dòng)作進(jìn)行中的任意時(shí)刻開(kāi)始識(shí)別,實(shí)現(xiàn)了真正意義上的在線動(dòng)作識(shí)別,為實(shí)際應(yīng)用打下了較好的理論基礎(chǔ).
人體動(dòng)作識(shí)別,時(shí)序深度置信網(wǎng)絡(luò),條件限制玻爾茲曼機(jī),在線動(dòng)作識(shí)別
引用格式周風(fēng)余,尹建芹,楊陽(yáng),張海婷,袁憲鋒.基于時(shí)序深度置信網(wǎng)絡(luò)的在線人體動(dòng)作識(shí)別.自動(dòng)化學(xué)報(bào),2016,42(7): 1030-1039
人體動(dòng)作識(shí)別在人機(jī)交互、機(jī)器人、智能家居、視頻監(jiān)控和體育運(yùn)動(dòng)分析等領(lǐng)域都有著巨大的應(yīng)用需求[1],已成為機(jī)器視覺(jué)領(lǐng)域一個(gè)重要的研究方向.在過(guò)去的幾十年中,由于受到技術(shù)條件的限制,國(guó)內(nèi)外學(xué)者主要基于普通攝像機(jī)獲取的人體動(dòng)作視頻開(kāi)展動(dòng)作識(shí)別研究,雖然在相關(guān)理論及方法上取得一定進(jìn)展,但由于普通攝像機(jī)獲得的是2D信息,且對(duì)光照敏感,因此動(dòng)作識(shí)別的準(zhǔn)確率并不高.近年來(lái),隨著深度攝像機(jī)、微軟的Kinect等低成本3D運(yùn)動(dòng)捕捉設(shè)備的出現(xiàn),很容易獲取帶有深度信息的3D深度圖和骨架圖,極大促進(jìn)了基于3D信息的動(dòng)作識(shí)別研究.
現(xiàn)階段人體動(dòng)作識(shí)別的研究往往采用分割好的視頻片斷進(jìn)行動(dòng)作識(shí)別.Li等[2]利用深度圖對(duì)動(dòng)作進(jìn)行識(shí)別,提出了一種3D點(diǎn)袋方法(A bag of 3D points)用于深度序列圖中的動(dòng)作識(shí)別,實(shí)驗(yàn)證明,深度圖中1%的點(diǎn)就可以決定識(shí)別準(zhǔn)確度的90%以上.Yang等[3]基于文獻(xiàn)[2]的工作對(duì)MSR Action3D數(shù)據(jù)庫(kù)中的深度動(dòng)作序列圖進(jìn)行了識(shí)別,驗(yàn)證了深度動(dòng)作圖的子序列(子序列長(zhǎng)度為30~35幀)基本上可以得到比較好的識(shí)別結(jié)果.Ofli等[4]提出了一種新的動(dòng)作特征表示方式—最富信息節(jié)點(diǎn)序列(Sequences of the most informative joints,SMIJ),即在每一個(gè)時(shí)間點(diǎn),自動(dòng)選取幾個(gè)關(guān)節(jié)點(diǎn)代表此時(shí)姿態(tài),此方法對(duì)特定數(shù)據(jù)庫(kù)中的動(dòng)作進(jìn)行了有效的區(qū)分.Theodorakopoulos等[5]將動(dòng)作序列在多維特征空間內(nèi)進(jìn)行坐標(biāo)轉(zhuǎn)換以得到魯棒、便于計(jì)算的特征表示方式,并在多個(gè)數(shù)據(jù)庫(kù)上驗(yàn)證了其方法的有效性.王斌等[6]提出了判別稀疏編碼視頻表示算法,并有效地提高了動(dòng)作的識(shí)別精度.田國(guó)會(huì)等[7]引入了動(dòng)態(tài)時(shí)間規(guī)整(Dynamic time warping,DTW)算法對(duì)基于關(guān)節(jié)點(diǎn)信息的人體行為進(jìn)行識(shí)別,得到了較好的識(shí)別效果.
近年來(lái),隨著深度神經(jīng)網(wǎng)絡(luò)在各方面的成功應(yīng)用[8],其在動(dòng)作識(shí)別應(yīng)用領(lǐng)域也取得了良好的效果[9].Liu等[10]采用基于深度學(xué)習(xí)的超分算法,解決了在視頻質(zhì)量較差情況下的動(dòng)作識(shí)別.Baccouche等[11]提出了LSTM-RNN(Long-short term memory recurrent neural network)用于動(dòng)作識(shí)別,通過(guò)將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)擴(kuò)充到3D以自動(dòng)編碼動(dòng)作中的時(shí)空信息,用遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)來(lái)建模序列的時(shí)間演化信息.文獻(xiàn)[11]所用的LSTM-RNN采用1個(gè)隱含層,因此只能建模單向關(guān)系,而動(dòng)作中涉及復(fù)雜的雙向關(guān)系,Lefebvre等[12]則在手勢(shì)識(shí)別中采用前向隱含層和后向隱含層兩個(gè)隱含層來(lái)建模雙向關(guān)系.文獻(xiàn)[11—12]中涉及的RNN僅用于設(shè)計(jì)分類器,Du等[13]提出了一種建模時(shí)序上下文信息的層次RNN結(jié)構(gòu),自動(dòng)實(shí)現(xiàn)動(dòng)作特征的提取及動(dòng)作識(shí)別.
上述研究成果表明,基于3D信息的人體動(dòng)作識(shí)別可以獲得較高的準(zhǔn)確率,是一種較好的動(dòng)作識(shí)別表示方式,但是現(xiàn)階段的研究成果大多是考慮的離線人體動(dòng)作識(shí)別,即在分割好的動(dòng)作序列基礎(chǔ)上進(jìn)行人體動(dòng)作識(shí)別.而實(shí)際應(yīng)用中,確定視頻動(dòng)作的分割點(diǎn)隱含了動(dòng)作的識(shí)別,從而大多數(shù)應(yīng)用不可能允許視頻按照動(dòng)作類別預(yù)先進(jìn)行分割.因此,動(dòng)作識(shí)別的在線性同樣是衡量人體動(dòng)作識(shí)別效果的一個(gè)重要指標(biāo),也是制約人體動(dòng)作識(shí)別應(yīng)用的一個(gè)關(guān)鍵問(wèn)題.由此可見(jiàn),如何對(duì)連續(xù)動(dòng)作序列進(jìn)行在線識(shí)別顯得尤為重要.而在線識(shí)別時(shí)無(wú)法對(duì)動(dòng)作序列進(jìn)行人工分割,大大增加了動(dòng)作識(shí)別的難度.為此,本文提出了一種可以用于在線識(shí)別的動(dòng)作識(shí)別方法.
另一方面,深度學(xué)習(xí)方法在動(dòng)作識(shí)別方面的應(yīng)用取得了巨大進(jìn)展,而尋求能夠自動(dòng)完成特征提取及識(shí)別的方案已經(jīng)成為了當(dāng)前該研究方面的一個(gè)主要目標(biāo).盡管Du等[13]等提供了一種基于RNN的自動(dòng)特征提取與識(shí)別方法,但需要將序列分割成一系列的子部分,并以此為基礎(chǔ)基于RNN自動(dòng)提取特征.而限制玻爾茲曼機(jī)(Restricted Boltzmann machines,RBM)本身具有良好的自動(dòng)特征提取性能,且Taylor等[14]在RBM的基礎(chǔ)上提出了一種可以處理時(shí)間序列的模型—條件限制玻爾茲曼機(jī)(Conditional restricted Boltzmann machine,CRBM),為解決動(dòng)作序列識(shí)別問(wèn)題提供了借鑒.為此,本文提出了一種基于條件限制玻爾茲曼機(jī)的可以處理時(shí)序數(shù)據(jù)的時(shí)序深度置信網(wǎng)絡(luò)(Temporal deep belief network,TDBN)模型,大量的實(shí)驗(yàn)表明該網(wǎng)絡(luò)模型可以對(duì)3D關(guān)節(jié)點(diǎn)動(dòng)作序列進(jìn)行較好的在線識(shí)別.
1.1條件限制玻爾茲曼機(jī)
限制玻爾茲曼機(jī)可以對(duì)靜態(tài)數(shù)據(jù)進(jìn)行建模,但是無(wú)法處理具有時(shí)間關(guān)聯(lián)的數(shù)據(jù).Taylor等[14]在RBM的基礎(chǔ)上提出了一種可以處理時(shí)間序列的模型—條件限制玻爾茲曼機(jī),其結(jié)構(gòu)圖如圖1所示,其包含兩層結(jié)構(gòu):可觀測(cè)層與隱含層.圖1中虛線框內(nèi)為RBM.CRBM在RBM基礎(chǔ)上增加了兩種連接:前n時(shí)刻可觀測(cè)層與當(dāng)前時(shí)刻可觀測(cè)層之間的自回歸連接;前n時(shí)刻可觀測(cè)層與當(dāng)前時(shí)刻隱含層之間的連接.
圖1 條件限制玻爾茲曼機(jī)結(jié)構(gòu)Fig.1 The structure of conditional restricted Boltzmann machines
CRBM 可以看作是增加了固定額外輸入的RBM,其固定額外輸入是可觀測(cè)層的前n時(shí)刻數(shù)據(jù),由此增加了前n時(shí)刻與當(dāng)前時(shí)刻的時(shí)間關(guān)聯(lián).雖然增加了額外輸入,但是CRBM可觀測(cè)層和隱含層的計(jì)算并不比RBM更復(fù)雜,在給定可觀測(cè)層和前n時(shí)刻可觀測(cè)層的數(shù)據(jù)后,隱含層的激活概率是可以確定的;同樣,在給定隱含層和前n時(shí)刻可觀測(cè)層的數(shù)據(jù)后,可觀測(cè)層的激活狀態(tài)之間是條件獨(dú)立的.
1.2時(shí)序深度置信網(wǎng)絡(luò)
本文借鑒CRBM的思想,在深度置信網(wǎng)絡(luò)(Deep belief network,DBN)的基礎(chǔ)上提出了一種時(shí)序深度置信網(wǎng)絡(luò),在動(dòng)作識(shí)別中加入了前后幀的上下文關(guān)系.TDBN的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,包括輸入層、隱含層和輸出層.圖2虛線框內(nèi)部分是典型的DBN結(jié)構(gòu),TDBN在DBN的基礎(chǔ)上,將其中的RBM結(jié)構(gòu)變?yōu)镃RBM結(jié)構(gòu),為了易于觀察,圖2中第一隱含層與第二隱含層增加的連接沒(méi)有畫出來(lái).
圖2 時(shí)序深度置信網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 The structure of the temporal deep belief network
為了便于處理人體動(dòng)作序列中的時(shí)間關(guān)聯(lián)信息,TDBN將經(jīng)典DBN中的RBM結(jié)構(gòu)變?yōu)镃RBM結(jié)構(gòu).以圖2中的兩個(gè)隱含層為例,輸入層與第一隱含層、第一隱含層與第二隱含層分別加入兩類連接:前n時(shí)刻可觀測(cè)層與當(dāng)前時(shí)刻可觀測(cè)層之間的自回歸連接;前n時(shí)刻可觀測(cè)層與當(dāng)前時(shí)刻第一隱含層之間的連接.由加入的連接可以推出,可觀測(cè)層的激活狀態(tài)是由當(dāng)前時(shí)刻的隱含層狀態(tài)及前n時(shí)刻的輸入層數(shù)據(jù)決定的;隱含層的激活狀態(tài)是由當(dāng)前時(shí)刻的輸入數(shù)據(jù)及前n時(shí)刻的輸入數(shù)據(jù)決定的,n是可以調(diào)整的參數(shù),是模型的階數(shù).由圖2可以看出,通過(guò)加入上述前n時(shí)刻的連接,以模型階數(shù)為單位,可以建模動(dòng)作中的時(shí)序信息,從而可以方便地實(shí)現(xiàn)以模型階數(shù)為單位的在線人體動(dòng)作識(shí)別.
TDBN學(xué)習(xí)過(guò)程包括初始化、預(yù)處理、預(yù)訓(xùn)練和全局微調(diào)4個(gè)部分.初始化主要是對(duì)算法中的各個(gè)參數(shù)進(jìn)行設(shè)置,包括隱含層層數(shù)、各個(gè)隱含層節(jié)點(diǎn)數(shù)、模型階數(shù)、各個(gè)CRBM迭代次數(shù)、BP算法迭代次數(shù)等.算法的核心部分是預(yù)訓(xùn)練和全局微調(diào),預(yù)訓(xùn)練采用的是無(wú)監(jiān)督學(xué)習(xí)方法,很大程度上避免了普通BP算法容易收斂到局部最小值的問(wèn)題,從而得到更優(yōu)的初始化參數(shù);全局微調(diào)采用的是有監(jiān)督學(xué)習(xí)方法,是一個(gè)調(diào)優(yōu)過(guò)程,采用BP算法對(duì)預(yù)訓(xùn)練后的參數(shù)進(jìn)行微調(diào).下面給出本文提出的TDBN的學(xué)習(xí)過(guò)程.
2.1預(yù)處理
本文實(shí)驗(yàn)數(shù)據(jù)來(lái)源于MIT數(shù)據(jù)庫(kù)和MSR Action 3D數(shù)據(jù)庫(kù),在進(jìn)行識(shí)別以前,對(duì)數(shù)據(jù)進(jìn)行了預(yù)處理:包括降采樣、降維及數(shù)據(jù)分組.由于所用數(shù)據(jù)的幀頻分別是120fps和15fps,相鄰幀數(shù)據(jù)存在較大冗余.為了提高識(shí)別速度,本文在預(yù)訓(xùn)練之前,首先對(duì)人體動(dòng)作序列進(jìn)行了降采樣處理:在視頻序列中抽取特定的幀進(jìn)行動(dòng)作表示.實(shí)驗(yàn)表明,MIT數(shù)據(jù)每8幀保留1幀,MSR Action 3D每4幀保留1幀同樣可獲得較高的識(shí)別準(zhǔn)確率.在后續(xù)步驟中,采用該方法對(duì)所用的視頻數(shù)據(jù)進(jìn)行降采樣處理.
由于待處理的數(shù)據(jù)屬于高維數(shù)據(jù),如圖3,圖中給出的是MIT數(shù)據(jù)庫(kù)關(guān)節(jié)示意圖,每幀有18個(gè)關(guān)節(jié)點(diǎn),每個(gè)關(guān)節(jié)點(diǎn)有6個(gè)坐標(biāo)維度,共計(jì)108個(gè)維度.由于人體在運(yùn)動(dòng)過(guò)程中很多關(guān)節(jié)點(diǎn)的相對(duì)位置和角度是一個(gè)定值,因此維度存在嚴(yán)重冗余.為提高人體動(dòng)作的識(shí)別效率及識(shí)別效果,對(duì)MIT數(shù)據(jù)采用主成分分析進(jìn)行降維處理,去除動(dòng)作中保持不變的維度后,維度從108降為49.
圖3MIT數(shù)據(jù)庫(kù)關(guān)節(jié)示意圖Fig.3 Illustration of the skeleton of MIT
完成數(shù)據(jù)降維后,進(jìn)行數(shù)據(jù)分組,包括兩個(gè)步驟:1)將每個(gè)連續(xù)的n+1幀作為一個(gè)數(shù)據(jù)單元存放在一起;按照該方法處理后,除了前n幀和后n幀,中間的每一幀都被使用了n+1次;2)將每一個(gè)數(shù)據(jù)單元與其動(dòng)作標(biāo)記隨機(jī)打亂順序,并分為一定大小的數(shù)據(jù)塊(本文每個(gè)數(shù)據(jù)塊包含了100個(gè)數(shù)據(jù)單元).由于TDBN的學(xué)習(xí)只與一個(gè)數(shù)據(jù)塊中的n+1幀有關(guān),所以將數(shù)據(jù)打亂不會(huì)影響識(shí)別的正確性.
2.2預(yù)訓(xùn)練
與DBN類似,TDBN的預(yù)訓(xùn)練也是為了得到較好的全局微調(diào)初始化參數(shù).訓(xùn)練過(guò)程中,TDBN可以看作是層疊的CRBM,即將圖2中的輸入層與第一隱含層、第一隱含層與第二隱含層作為兩個(gè)CRBM進(jìn)行預(yù)訓(xùn)練.CRBM的學(xué)習(xí)過(guò)程就是權(quán)重和偏移的更新過(guò)程,CRBM的學(xué)習(xí)過(guò)程流程如圖4所示,主要包括初始化、正向計(jì)算、反向計(jì)算、更新權(quán)重和偏移量、迭代次數(shù)判斷5個(gè)部分.初始化是對(duì)權(quán)重、偏移量、學(xué)習(xí)率、衰減參數(shù)等進(jìn)行設(shè)置;正向計(jì)算是由可觀測(cè)層計(jì)算隱含層的過(guò)程,在給定可觀測(cè)層和前n時(shí)刻可觀測(cè)層的數(shù)據(jù)后,隱含層的激活概率是可以確定的;反向計(jì)算是由隱含層計(jì)算當(dāng)前時(shí)刻可觀測(cè)層的過(guò)程,在給定隱含層和前n時(shí)刻可觀測(cè)層的數(shù)據(jù)后,可觀測(cè)層的激活狀態(tài)也是可以確定的;完成正向計(jì)算和反向計(jì)算之后,就可以對(duì)權(quán)重和偏移量進(jìn)行更新;最后是迭代次數(shù)的判斷,如果沒(méi)有達(dá)到設(shè)定的迭代次數(shù)(epoch)則跳轉(zhuǎn)到正向計(jì)算,繼續(xù)學(xué)習(xí),如果達(dá)到,學(xué)習(xí)過(guò)程結(jié)束.
圖4CRBM學(xué)習(xí)過(guò)程流程圖Fig.4 Flowchart of the learning of CRBM
CRBM學(xué)習(xí)過(guò)程與RBM的類似,所用方法都是對(duì)比散度(Contrastive divergence,CD)算法[15].假設(shè)t,t-1,···,t-n時(shí)刻輸入數(shù)據(jù),即可觀測(cè)層已知,那么隱含層節(jié)點(diǎn)狀態(tài)在t時(shí)刻是條件獨(dú)立的,CRBM的權(quán)重學(xué)習(xí)仍然可以采用CD算法.與RBM學(xué)習(xí)過(guò)程的區(qū)別僅在于,更新可觀測(cè)層和隱含層時(shí),需要將前n時(shí)刻的輸入數(shù)據(jù)當(dāng)作動(dòng)態(tài)偏移,這樣可以實(shí)現(xiàn)一個(gè)直接的連接.RBM的權(quán)重學(xué)習(xí)公式為
其中,vi是可觀測(cè)單元,hj是隱藏單元,wij是連接可觀測(cè)單元i和隱藏單元j的權(quán)重,〈·〉表示隨機(jī)變量的期望.根據(jù)式(1),可得到隱含層動(dòng)態(tài)偏移的學(xué)習(xí)公式
2.3全局微調(diào)
預(yù)訓(xùn)練完成之后,CRBM中的權(quán)重和偏移反應(yīng)了數(shù)據(jù)結(jié)構(gòu)中包含的信息,為了得到一個(gè)更好的結(jié)果,還需要對(duì)權(quán)重和偏移進(jìn)行全局微調(diào).本文將TDBN作為分類模型,采用BP算法,通過(guò)有監(jiān)督學(xué)習(xí)對(duì)分類模型參數(shù)進(jìn)行微調(diào),其學(xué)習(xí)流程如圖5所示,包括初始化、計(jì)算訓(xùn)練誤差、計(jì)算測(cè)試誤差、更新權(quán)重和偏移、判斷迭代次數(shù)5個(gè)部分.
圖5 全局微調(diào)流程圖Fig.5 Flowchart of the global weights adjustment
初始化參數(shù)包括權(quán)重、偏移、學(xué)習(xí)率和全局更新次數(shù)等,權(quán)重和偏移的初始化包括載入預(yù)訓(xùn)練過(guò)的參數(shù)和對(duì)未經(jīng)預(yù)訓(xùn)練的最頂層的權(quán)重和偏移進(jìn)行隨機(jī)賦值.由于最頂層的權(quán)重和偏移是隨機(jī)數(shù),因此算法初始化階段,權(quán)重及偏移更新只在最頂層進(jìn)行,全局更新次數(shù)是指從第幾次開(kāi)始對(duì)全部的參數(shù)進(jìn)行更新.計(jì)算誤差是一個(gè)前向傳遞過(guò)程,計(jì)算訓(xùn)練誤差是為了更新權(quán)重和偏移,計(jì)算測(cè)試誤差是為了得到識(shí)別結(jié)果.最后是迭代次數(shù)的判斷,如果達(dá)到迭代次數(shù)則結(jié)束;如果沒(méi)有則繼續(xù)運(yùn)行.
TDBN全局微調(diào)與DBN不同之處是增加了與前n時(shí)刻輸入相關(guān)的參數(shù).假設(shè)在t時(shí)刻,t,t-1,···,t-n時(shí)刻的輸入數(shù)據(jù)是已知的,隱含層的激活狀態(tài)也可以得到.與DBN不同的是,前n時(shí)刻的輸入作為隱含層的一個(gè)動(dòng)態(tài)偏移量,以輸入層與第一隱含層為例,其中增加的兩類連接的權(quán)重學(xué)習(xí)公式為
其中,ε是權(quán)重的學(xué)習(xí)率.由于模型在更新權(quán)重和偏移時(shí),僅與動(dòng)作序列中當(dāng)前時(shí)刻及其前n時(shí)刻的數(shù)據(jù)有關(guān),因此輸入數(shù)據(jù)時(shí)可以把當(dāng)前幀與前n幀作為整體,每n+1幀為一個(gè)數(shù)據(jù)單元,并且從n+1幀數(shù)據(jù)開(kāi)始更新.為了提高TDBN的學(xué)習(xí)速度,本文預(yù)先把數(shù)據(jù)分成100(n+1)的數(shù)據(jù)塊,訓(xùn)練模型時(shí)將數(shù)據(jù)塊逐個(gè)輸入即可.
3.1基于MIT數(shù)據(jù)庫(kù)的動(dòng)作識(shí)別
MIT數(shù)據(jù)庫(kù)[18]有7種不同的行走姿勢(shì),包括蹲伏行走(Crouch)、慢跑(Jog)、跛行(Limp)、正常行走(Normal)、右側(cè)行走(Sideright)、搖擺行走(Sway)和蹣跚行走(Waddle),每種姿勢(shì)的行走速度有慢速、正常和快速3種,共計(jì)21個(gè)動(dòng)作序列.本文實(shí)驗(yàn)選取7個(gè)正常行走速度的動(dòng)作序列,每個(gè)序列長(zhǎng)度在13344~20384幀之間,其中包含有10~12個(gè)動(dòng)作子序列,共計(jì)77個(gè)子序列,每個(gè)子序列長(zhǎng)度在200~1950幀之間.其中一半作為訓(xùn)練集,一半作為測(cè)試集.本實(shí)驗(yàn)采用的TDBN模型有2個(gè)隱含層,網(wǎng)絡(luò)節(jié)點(diǎn)分別為49-150-150-7,階數(shù)n 取3.在識(shí)別過(guò)程中并不需要顯示每1幀的識(shí)別結(jié)果,而是綜合了連續(xù)多幀的識(shí)別結(jié)果.實(shí)驗(yàn)中對(duì)連續(xù)的10幀、20幀、30幀和整個(gè)序列的識(shí)別結(jié)果分別進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)方法是每1幀結(jié)果累計(jì),取次數(shù)出現(xiàn)最多的類別作為連續(xù)多幀的識(shí)別結(jié)果.每一組實(shí)驗(yàn)均進(jìn)行了10次,取其平均值為最終識(shí)別結(jié)果,MIT數(shù)據(jù)庫(kù)的識(shí)別結(jié)果如圖6所示,包括1幀、10幀、20幀、30幀和整個(gè)序列的識(shí)別結(jié)果.
圖6MIT數(shù)據(jù)庫(kù)的識(shí)別結(jié)果Fig.6 Recognition results on MIT datasets
由圖6可以看出,隨著連續(xù)幀數(shù)的增加,識(shí)別率不斷提高,連續(xù)30幀的識(shí)別率已達(dá)到100%.圖7 為MIT數(shù)據(jù)庫(kù)1幀識(shí)別結(jié)果的混淆矩陣,其中右側(cè)行走識(shí)別率最高,達(dá)到了99.93%;蹣跚行走識(shí)別率最低,為94.72%.這是因?yàn)橛覀?cè)行走與其他動(dòng)作姿態(tài)差別明顯,而蹣跚行走與其他動(dòng)作姿態(tài)相似度較大的緣故.
圖7MIT數(shù)據(jù)庫(kù)的混淆矩陣Fig.7 Confusion matrix of MIT dataset
圖7中,C代表蹲伏行走,J代表慢跑,L代表跛行,N代表正常行走,SR代表右側(cè)行走,S代表?yè)u擺行走,W代表蹣跚行走.另外,實(shí)驗(yàn)還對(duì)TDBN中訓(xùn)練得到的權(quán)重進(jìn)行了統(tǒng)計(jì),圖8為其中CRBM的權(quán)重分布示意圖,圖8(a)為輸入層和第一隱含層組成的第一個(gè)CRBM的權(quán)重分布示意圖,圖8(b)為第二個(gè)CRBM的權(quán)重分布示意圖.其中,w為輸入層單元和隱含層單元之間的權(quán)重,bi為輸入層的偏移量,bj為隱含層的偏移量,At-1,At-2,At-3分別為t-1,t-2,t-3時(shí)刻輸入層單元與t時(shí)刻輸入層單元連接的自回歸權(quán)重,Bt-1,Bt-2,Bt-3為t-1,t-2,t-3時(shí)刻輸入層單元與t時(shí)刻隱含層單元連接的權(quán)重.
3.2基于MSR Action 3D數(shù)據(jù)庫(kù)的動(dòng)作識(shí)別
MSR Action 3D數(shù)據(jù)庫(kù)是從文獻(xiàn)[2]中得到的,有抬高揮動(dòng)胳膊(High arm wave)、水平揮動(dòng)胳膊(Horizontal arm wave)、捶打(Hammer)、沖拳(Forward punch)等20種不同的動(dòng)作,分別錄制于10個(gè)不同的人,每一個(gè)人每一個(gè)動(dòng)作重復(fù)2~3次,共有467個(gè)序列,22797幀,動(dòng)作記錄的頻率為15Hz.圖9為其中抬高揮動(dòng)胳膊的動(dòng)作示例,圖中取了13幀.
圖8CRBM的權(quán)重分布示意圖Fig.8 Illustration of the distribution of the weights of CRBM
圖10為MSR Action 3D數(shù)據(jù)庫(kù)中關(guān)節(jié)示意圖,與MIT數(shù)據(jù)庫(kù)相比,MSR Action 3D數(shù)據(jù)庫(kù)中數(shù)據(jù)多了左右手和頭部節(jié)點(diǎn),肩膀中心用了一個(gè)節(jié)點(diǎn)表示.動(dòng)作序列中的一幀是20個(gè)節(jié)點(diǎn)的x,y,z坐標(biāo)值,因此每一幀的維度為60.x,y,z坐標(biāo)值表示方法的優(yōu)點(diǎn)是直觀、易于理解和數(shù)據(jù)處理,缺點(diǎn)是識(shí)別不同人的動(dòng)作時(shí),由于關(guān)節(jié)點(diǎn)之間骨骼長(zhǎng)度不像MIT數(shù)據(jù)是一個(gè)常量,因此對(duì)識(shí)別結(jié)果會(huì)有一定影響.
圖9 MSR Action 3D數(shù)據(jù)庫(kù)動(dòng)作示意圖Fig.9 Illustration of the action of MSR Action 3D
圖10 MSR Action 3D數(shù)據(jù)庫(kù)關(guān)節(jié)示意圖Fig.10 Illustration of the Skeleton of MSR Action 3D
實(shí)驗(yàn)中,將MSR Action 3D數(shù)據(jù)庫(kù)20個(gè)不同動(dòng)作分為三組(AS1,AS2,AS3),每組8個(gè)動(dòng)作[2].為了與現(xiàn)有算法結(jié)果進(jìn)行比較,基于這些數(shù)據(jù)采用了三種測(cè)試方法對(duì)算法性能進(jìn)行評(píng)估,測(cè)試1(表示為ASi1,i=1,2,3)取1/3數(shù)據(jù)進(jìn)行訓(xùn)練,剩余2/3進(jìn)行測(cè)試;測(cè)試2(表示為ASi2,i=1,2,3)取2/3數(shù)據(jù)進(jìn)行訓(xùn)練,剩余1/3進(jìn)行測(cè)試;測(cè)試3采用一半數(shù)據(jù)訓(xùn)練,一半數(shù)據(jù)進(jìn)行測(cè)試.本文研究目的是針對(duì)家庭環(huán)境對(duì)人的行為動(dòng)作的識(shí)別,其特點(diǎn)是人物基本固定,學(xué)習(xí)目標(biāo)比較單一,因此本文未進(jìn)行文獻(xiàn)[2]中的交叉人物測(cè)試.實(shí)驗(yàn)采用的TDBN模型有兩個(gè)隱含層,階數(shù)n=3.MSR Action 3D作為通用的動(dòng)作數(shù)據(jù)庫(kù),目前絕大部分的識(shí)別方法都是基于整個(gè)序列的,為此本文首先將TDBN采用測(cè)試1和測(cè)試2對(duì)整個(gè)序列的識(shí)別效果與文獻(xiàn)[2-3,19]的結(jié)果進(jìn)行比較,另外,由于CRBM和TDBN的關(guān)系,我們也測(cè)試了CRBM在數(shù)據(jù)庫(kù)中的結(jié)果,相關(guān)結(jié)果如表1所示.然后,利用測(cè)試3的設(shè)置與State-of-the-art的結(jié)果進(jìn)行比較,如表2所示.文獻(xiàn)[20]探討了采用不同幀數(shù)對(duì)識(shí)別結(jié)果的影響,其中僅使用了前5幀對(duì)動(dòng)作進(jìn)行識(shí)別,本文也將前5幀的識(shí)別結(jié)果與之進(jìn)行了比較,如表3所示.
表1 測(cè)試1和測(cè)試2中整個(gè)序列的識(shí)別結(jié)果(%)Table 1 Results of the sequences(%)
表2 測(cè)試3中本文算法與其他算法的比較(%)Table 2 Comparisons between our method and others(%)
表3 前5幀的識(shí)別結(jié)果(%)Table 3 Recognition results of the first 5 sequences(%)
由表1和表2可以看出,測(cè)試2的效果最好,遠(yuǎn)超過(guò)其他方法,測(cè)試1的效果接近其他方法.這個(gè)結(jié)論也正符合了深度學(xué)習(xí)方法的鮮明特點(diǎn),訓(xùn)練越充分,其分類效果越好.需要特別說(shuō)明的是,文獻(xiàn)[2-3,19]中的方法均是在動(dòng)作完全完成后才進(jìn)行的識(shí)別,并沒(méi)有考慮在線動(dòng)作識(shí)別.文獻(xiàn)[20]雖然探討了識(shí)別精度和實(shí)時(shí)性之間的平衡關(guān)系,但在他的實(shí)驗(yàn)中有5個(gè)動(dòng)作的識(shí)別率并不是特別理想:Hammer(0%)、Hand catch(0%)、High throw (14.3%)、Draw circle(20%)、Draw X(35.7%).圖11為本文AS1組測(cè)試2的各個(gè)動(dòng)作識(shí)別結(jié)果,在圖中,為了表示方便,采用Haw代表Horizontal arm wave,H代表Hammer,F(xiàn)p代表Forward punch,Ht代表High throw,Hc代表Hand clap,B代表Bends,Ts代表Tennis serve,Pt代表Pickup and throw,所有動(dòng)作的總體識(shí)別率達(dá)到了99.33%.由圖11可以看出,雖然對(duì)7個(gè)動(dòng)作的識(shí)別結(jié)果有高有低,但是不會(huì)出現(xiàn)文獻(xiàn)[19]那樣識(shí)別率特別低的情況.另外,最重要的是本文提出的方法考慮了在線識(shí)別問(wèn)題,表4給出的是利用TDBN方法得到的1幀、5幀和整個(gè)動(dòng)作序列的識(shí)別結(jié)果.由表4中可以看出,識(shí)別率隨著所用幀數(shù)和訓(xùn)練數(shù)據(jù)的增加有明顯的提高.
圖11MSR Action 3D數(shù)據(jù)庫(kù)AS12的混淆矩陣Fig.11 Confusion matrix of MSR Action 3D of AS12
3.3不同階TDBN動(dòng)作識(shí)別時(shí)間及準(zhǔn)確率測(cè)試
本文提出的時(shí)序深度置信網(wǎng)絡(luò)模型TDBN,由于無(wú)需對(duì)動(dòng)作序列進(jìn)行手工分割,且可以在動(dòng)作的任意時(shí)刻進(jìn)行識(shí)別,克服了目前識(shí)別方法只有在動(dòng)作完成后才能得到識(shí)別結(jié)果的不足,真正實(shí)現(xiàn)了在線動(dòng)作識(shí)別.對(duì)于TDBN的運(yùn)行效率及TDBN性能在不同階數(shù)下的影響進(jìn)行測(cè)試,在MSR Action 3D所有數(shù)據(jù)上進(jìn)行了實(shí)驗(yàn).表5給出了不同階數(shù)下的動(dòng)作識(shí)別時(shí)間,隨著階次的增加,計(jì)算量增加,相應(yīng)的識(shí)別時(shí)間也在增加.表5中的識(shí)別時(shí)間是對(duì)n+1幀數(shù)據(jù)的識(shí)別時(shí)間,并不是整個(gè)動(dòng)作的識(shí)別時(shí)間,因?yàn)檎麄€(gè)動(dòng)作的實(shí)時(shí)識(shí)別與動(dòng)作幀頻有關(guān)系,只要表5中識(shí)別時(shí)間小于降采樣后幀頻的倒數(shù)就可以實(shí)現(xiàn)實(shí)時(shí)識(shí)別,并隨時(shí)可以得到識(shí)別結(jié)果.表6為不同階數(shù)TDBN的識(shí)別率,由于TDBN加入了前后幀之間的上下文信息,識(shí)別率隨著階數(shù)的不同而不同,實(shí)驗(yàn)表明,當(dāng)模型階數(shù)為3時(shí),動(dòng)作識(shí)別率相對(duì)較高.
表4 全部實(shí)驗(yàn)識(shí)別結(jié)果(%)Table 4 All recognition results(%)
表5 不同階數(shù)的識(shí)別時(shí)間(ms)Table 5 Recognition time with different orders(ms)
表6 不同階數(shù)的識(shí)別率(%)Table 6 Recognition rates with different orders(%)
本文針對(duì)傳統(tǒng)DBN無(wú)法處理時(shí)序數(shù)據(jù)的問(wèn)題,首次提出了時(shí)序深度置信網(wǎng)絡(luò)(TDBN),該網(wǎng)絡(luò)模型充分利用動(dòng)作序列前后幀提供的上下文信息,不僅提高了識(shí)別準(zhǔn)確率,而且由于TDBN無(wú)需對(duì)動(dòng)作序列進(jìn)行手工分割,可以在動(dòng)作的任意時(shí)刻進(jìn)行識(shí)別,并且每次僅需處理序列中的幾幀數(shù)據(jù)就可得到識(shí)別結(jié)果,不僅大大提高了動(dòng)作識(shí)別的實(shí)時(shí)性,同時(shí)使得算法可以完成在線的人體動(dòng)作識(shí)別.該方法的提出為人體動(dòng)作識(shí)別的實(shí)際應(yīng)用打下了較好的理論基礎(chǔ).
References
1 Tong Li-Na,Hou Zeng-Guang,Peng Liang,Wang Wei-Qun,Chen Yi-Xiong,Tan Min.Multi-channel sEMG time series analysis based human motion recognition method.Acta Automatica Sinica,2014,40(5):810-821(佟麗娜,侯增廣,彭亮,王衛(wèi)群,陳翼雄,譚民.基于多路sEMG時(shí)序分析的人體運(yùn)動(dòng)模式識(shí)別方法.自動(dòng)化學(xué)報(bào),2014,40(5):810-821)
2 Li W Q,Zhang Z Y,Liu Z C.Action recognition based on a bag of 3D points.In:Proceedings of the 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops.San Francisco,CA:IEEE,2010. 9-14
3 Yang X D,Zhang C Y,Tian Y L.Recognizing actions using depth motion maps-based histograms of oriented gradients. In:Proceedings of the 20th ACM International Conference on Multimedia.Nara,Japan:ACM,2012.1057-1060
4 Ofli F,Chaudhry R,Kurillo G,Vidal R,Bajcsy R.Sequence of the most informative joints(SMIJ):a new representation for human skeletal action recognition.Journal of Visual Communication&Image Representation,2014,25(1):24-38
5 Theodorakopoulos I,Kastaniotis D,Economou G,F(xiàn)otopoulos S.Pose-based human action recognition via sparse representation in dissimilarity space.Journal of Visual Communication and Image Representation,2014,25(1):12-23
6 Wang Bin,Wang Yuan-Yuan,Xiao Wen-Hua,Wang Wei,Zhang Mao-Jun.Human action recognition based on discriminative sparse coding video representation.Robot,2012,34(6):745-750(王斌,王媛媛,肖文華,王煒,張茂軍.基于判別稀疏編碼視頻表示的人體動(dòng)作識(shí)別.機(jī)器人,2012,34(6):745-750)
7 Tian Guo-Hui,Yin Jian-Qin,Han Xu,Yu Jing.A novel human activity recognition method using joint points information.Robot,2014,34(3):285-292(田國(guó)會(huì),尹建芹,韓旭,于靜.一種基于關(guān)節(jié)點(diǎn)信息的人體行為識(shí)別新方法.機(jī)器人,2014,34(3):285-292)
8 Qiao Jun-Fei,Pan Guang-Yuan,Han Hong-Gui.Design and application of continuous deep belief network.Acta Automatica Sinica,2015,41(12):2138-2146(喬俊飛,潘廣源,韓紅桂.一種連續(xù)型深度信念網(wǎng)的設(shè)計(jì)與應(yīng)用.自動(dòng)化學(xué)報(bào),2015,41(12):2138-2146)
9 ZhaoSC,LiuYB,HanYH,HongRC.Pooling the convolutional layers in deep convnets for action recognition[Online],available:http://120.52.73.77/ arxiv.org/pdf/1511.02126v1.pdf,November 1,2015.
10 Liu C,Xu W S,Wu Q D,Yang G L.Learning motion and content-dependent features with convolutions for action recognition.Multimedia Tools and Applications,2015,http://dx.doi.org/10.1007/s11042-015-2550-4.
11 Baccouche M,Mamalet F,Wolf C,Garcia C,Baskurt A.Sequential deep learning for human action recognition.Human Behavior Understanding.Berlin:Springer,2011.29-39
12 Lefebvre G,Berlemont S,Mamalet F,Garcia C.BLSTMRNN based 3d gesture classification.Artificial Neural Networks and Machine Learning.Berlin: Springer,2013. 381-388
13 Du Y,Wang W,Wang L.Hierarchical recurrent neural network for skeleton based action recognition.In:Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Boston,USA:IEEE,2015.1110-1118
14 Taylor G W,Hinton G E,Roweis S.Modeling human motion using binary latent variables.In:Proceedings of Advances in Neural Information Processing Systems.Cambridge,MA:MIT Press,2007.1345-1352
15 Hinton G E,Osindero S.A fast learning algorithm for deep belief nets.Neural Computation,2006,18:1527-1554
16 Bengio Y,Lamblin P,Popovici D,Larochelle H.Personal communications with Will Zou.learning optimization Greedy layerwise training of deep networks.In:Proceedings of Advances in Neural Information Processing Systems. Cambridge,MA:MIT Press,2007.
17 Rumelhart D E,Hinton G E,Williams R J.Learning representations by back-propagating errors.Nature,1986,323(6088):533-536
18 Hsu E,Pulli K,Popovi′c J.Style translation for human motion.ACM Transactions on Graphics,2005,24(3):1082-1089
19 Xia L,Chen C C,Aggarwal J K.View invariant human action recognition using histograms of 3D joints.In:Proceedings of the 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. Providence,USA:IEEE,2012.20-27
20 Ellis C,Masood S Z,Tappen M F,LaViola J J Jr,Sukthankar R.Exploring the trade-off between accuracy and observational latency in action recognition.International Journal of Computer Vision,2013,101(3):420-436
21 Chen C,Liu K,Kehtarnavaz N.Real-time human action recognition based on depth motion maps.Journal of Real-Time Image Processing,2016,12(1):155-163
22 Gowayyed M A,Torki M,Hussein M E,El-Saban M.Histogram of oriented displacements(HOD):describing trajectories of human joints for action recognition.In:Proceedings of the 2013 International Joint Conference on Artificial Intelligence.Beijing,China,AAAI Press,2013.1351-1357
23 Vemulapalli R,Arrate F,Chellappa R.Human action recognition by representing 3D skeletons as points in a lie group. In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,USA:IEEE,2014.588-595
周風(fēng)余山東大學(xué)控制科學(xué)與工程學(xué)院教授.2008年獲得天津大學(xué)電氣與自動(dòng)化工程學(xué)院博士學(xué)位.主要研究方向?yàn)橹悄軝C(jī)器人技術(shù).
E-mail:zhoufengyu@sdu.edu.cn
(ZHOUFeng-YuProfessoratthe School of Control Science and Engineering,Shandong University.He received his Ph.D.degree from Tianjin University in 2008.His main research interest is technology of intelligent robot.)
尹建芹濟(jì)南大學(xué)信息科學(xué)與工程學(xué)院副教授.2013年獲得山東大學(xué)控制科學(xué)與工程學(xué)院博士學(xué)位.主要研究方向?yàn)閳D像處理與機(jī)器學(xué)習(xí).本文通信作者.
E-mail:iseyinjq@ujn.edu.cn
(YIN Jian-QinAssociate professor at the School of Information Science and Technology,Jinan University.She received her Ph.D.degree from the School of Control Science and Engineering,Shandong University in 2013. Her research interest covers image processing and machine learning.Corresponding author of this paper.)
楊陽(yáng)山東大學(xué)信息科學(xué)與工程學(xué)院講師.2009年獲得山東大學(xué)信息科學(xué)與工程學(xué)院博士學(xué)位.主要研究方向?yàn)閳D像處理與目標(biāo)跟蹤.
E-mail:yangyang@mail.sdu.edu.cn
(YANGYangLectureratthe SchoolofInformationScienceand Technology,Shandong University.He received his Ph.D.degree from the School of Information Science and Technology,Shandong University in 2009.His research interest covers image processing and object tracking.)張海婷山東大學(xué)控制科學(xué)與工程學(xué)院碩士研究生.2011年獲得山東大學(xué)工學(xué)學(xué)士學(xué)位.主要研究方向?yàn)樯疃葘W(xué)習(xí)與圖像處理.E-mail:546597163@qq.com (ZHANG Hai-TingMaster student at the School of Control Science and Engineering,Shandong University. She received her bachelor degree from Shandong University in 2011.Her research interest covers deep learning and image processing.)
袁憲鋒山東大學(xué)控制科學(xué)與工程學(xué)院博士研究生.2011年獲得山東大學(xué)工學(xué)學(xué)士學(xué)位.主要研究方向?yàn)闄C(jī)器學(xué)習(xí)與服務(wù)機(jī)器人.
E-mail:yuanxianfengsdu@126.com
(YUAN Xian-FengPh.D.candidate at the School of Control Science and Engineering,Shandong University. He received his bachelor degree from Shandong University in 2011.His research interest covers machine learning and service robot.)
Online Recognition of Human Actions Based on Temporal Deep Belief Neural Network
ZHOU Feng-Yu1YIN Jian-Qin1,2YANG Yang1ZHANG Hai-Ting1YUAN Xian-Feng1
Online human action recognition is the ultimate goal of human action recognition.However,how to segment the action sequence is a difficult problem to be solved.So far,most human action recognition algorithms are only concerned with the action recognition within a segmented action sequences.In order to solve this problem,a deep belief network(DBN)model is proposed which can handle sequential time series data.This model makes full use of the action sequences and frames to provide contextual information so that it can handle video data.Moreover,this model not only greatly improves the action recognition accuracy,but also realizes online action recognition.So it lays a good theoretical foundation for practical applications.
Human action recognition,temporal deep belief network(TDBN),conditional restricted Boltzmann machine (CRBM),online action recognition
10.16383/j.aas.2016.c150629
Zhou Feng-Yu,Yin Jian-Qin,Yang Yang,Zhang Hai-Ting,Yuan Xian-Feng.Online recognition of human actions based on temporal deep belief neural network.Acta Automatica Sinica,2016,42(7):1030-1039
2015-10-20錄用日期2016-02-14
Manuscript received October 20,2015;accepted February 14,2016
國(guó)家自然科學(xué)基金(61375084,61203341),山東省自然科學(xué)基金重點(diǎn)項(xiàng)目(ZR2015QZ08)資助
Supported by National Natural Science Foundation of China (61375084,61203341),Key Program of Natural Science Foundation of Shandong Province(ZR2015QZ08)
本文責(zé)任編委俞棟
Recommended by Associate Editor YU Dong
1.山東大學(xué)控制科學(xué)與工程學(xué)院濟(jì)南2500612.濟(jì)南大學(xué)信息科學(xué)與工程學(xué)院山東省網(wǎng)絡(luò)環(huán)境智能計(jì)算技術(shù)重點(diǎn)實(shí)驗(yàn)室濟(jì)南250022
1.School of Control Science and Engineering,Shandong University,Jinan 2500612.Shandong Provincial Key Laboratory of Network Based Intelligent Computing,School of Information Science and Engineering,University of Jinan,Jinan 250022