張富凱,賀天成
河南理工大學 計算機科學與技術學院,河南 焦作454000
動作識別領域常用的數(shù)據(jù)模態(tài)主要分為原始RGB視頻和人體姿態(tài)[1-2]。原始RGB視頻中不僅包含人體的動作運動信息,而且也擁有造成額外計算成本的背景信息,例如光照、雜亂的場景[3]。目前一階段2D 姿態(tài)估計Openpose算法[4]可準確提取視頻中每個人的姿態(tài)信息,然而由于Openpose算法自身的兼容性差,計算開銷大,姿態(tài)估計效率低等問題,很難與下游任務(動作特征提?。┤诤希员疚脑诖嘶A上將骨干替換為shuffleNet輕量級網(wǎng)絡[5],重新梳理部分計算層的必要性。
本文所設計的動作識別模型中需要把人體姿態(tài)的三維信息預處理為時空聯(lián)合圖卷積特征提取算法的時空圖數(shù)據(jù),之后再學習其高級語義。早期Yan 等人[6]提出基于骨架圖的時空圖卷積網(wǎng)絡ST-GCN(spatial temporal graph convolutional networks)用于特征提取,在一幀圖像上(空間維度)對人體關鍵點自然連接圖做圖卷積,在時間維度上做時間卷積[7]或用LSTM(long shortterm memory)網(wǎng)絡進行時空特征融合,很好地利用了人體結構的自然連接和動作事件本身各相關關節(jié)的聯(lián)動關系,考慮了空間和時間上的相鄰關節(jié),但丟失了時序上下文中一些跨時空的相關關節(jié)點的同等影響力,與此同時在時間和空間維度交錯進行特征提取的方式對于捕獲復雜的時空聯(lián)合關系魯棒性不夠,忽略了時空內(nèi)部的緊湊關聯(lián)。2020 年,Liu 等人[8]提出一種G3D 時空圖卷積算子,聯(lián)合時空信息進行圖卷積,構建了多尺度的鄰接矩陣,能穩(wěn)定準確提取到動作本身在立體空間的高級語義特性,對動作分類精度有很大提升,該方法擴大鄰接矩陣以捕獲跨時空相關關鍵點的特征表示,但忽略了跨時空關鍵點的重要性區(qū)分,在聚合時沒有考慮不同的權重關系。
借鑒以上經(jīng)驗,本文提出一種結合輕量級Openpose和注意力引導圖卷積網(wǎng)絡的動作識別方法。動作識別的數(shù)據(jù)處理流程如圖1所示,整體布局按業(yè)務類型可分為數(shù)據(jù)、特征提取及動作識別三個層面。數(shù)據(jù)層面負責將原始視頻流中的行人運動信息輸出為特征提取層面所需要的骨架圖數(shù)據(jù)形式;特征提取層面負責使用多個時空合并圖卷積模塊堆疊的時空聯(lián)合圖卷積網(wǎng)絡對圖數(shù)據(jù)提取時空特征,最終經(jīng)softmax區(qū)分特征表示,輸出類別。
圖1 動作識別總體流程Fig.1 Overall process of action recognition
本文的主要貢獻如下:
(1)均衡融合輕量級姿態(tài)估計Openpose 算法和時空聯(lián)合圖卷積動作特征提取網(wǎng)絡,在圖卷積模型上下時空聯(lián)合模塊間引入殘差連接,分別提取姿態(tài)在雙流(關鍵點流、骨骼邊流)上的時空聯(lián)合特征,最終合并雙流結果做出動作判斷。
(2)提出在不同尺度鄰接矩陣合并前加入自注意力機制計算不同尺度內(nèi)鄰居節(jié)點特征對中心節(jié)點的貢獻程度,進一步加強不同尺度鄰接矩陣的特征表示。
(3)分別在Le2i Fall Detection 數(shù)據(jù)集和自定義的UR-KTH 數(shù)據(jù)集上驗證了基于輕量Openpose 和注意力引導圖卷積的動作識別方法的準確性。實驗結果表明,所提模型在規(guī)定的動作類別中可以獲得一定的準確度提升。
基于shuffleNet 的輕量級Openpose 作為一階段的姿態(tài)估計算法,其任務是預先檢測出幀中所有可能的關鍵點,再將它們與人物個體聯(lián)系起來,實現(xiàn)多人實時關鍵點估計[9]。輕量級Openpose的主要組成部分如表1所示,網(wǎng)絡單元是指姿態(tài)估計模型中的組件;參數(shù)主要指各部分的主要數(shù)據(jù)樣式和卷積方式;備注欄介紹部分組件的任務。
表1 輕量級Openpose主要組成部分Table 1 Main components of lightweight Openpose
輸入原始幀,經(jīng)輕量級shuffleNet 網(wǎng)絡后得到特征映射,在初始器(主干卷積層、卷積層1,2)中通過卷積層1,2兩個并行分支分別得到熱圖(姿態(tài)關鍵點置信圖)、關鍵點之間親和場(關鍵點之間關聯(lián)程度),優(yōu)化器(卷積塊×4、卷積層3,4)作用是提取初始器輸出的高級表征,提高關鍵點位置預測的準確性[10],它由多個優(yōu)化卷積模塊串行組成。
輕量級Openpose 的輸出包含幀索引、關鍵點二維坐標(x,y)、關鍵點置信度c??鐣r空聚合相關關鍵點的特征對全局特征提取具有重要意義,例如動作中的摔倒類別,摔倒之前的動作(站立或行走)和未來動作(躺下)之間存在跨時空相關關鍵點的信息交流,如圖2 所示。為了均等獲取跨時空關鍵點的聯(lián)系,在單空間維度構建一個多尺度的鄰接矩陣A,用以描述圖中各節(jié)點之間的關系,如圖3 所示,箭頭所指節(jié)點為聚合的中心節(jié)點(1幀編號12,節(jié)點編號在圖2中給出),中心節(jié)點當前幀內(nèi)的一階關聯(lián)節(jié)點(1幀箭頭所連圓圈)和其他幀中指向中心節(jié)點的相關節(jié)點(2,3 幀中和1 幀一階節(jié)點同編號的節(jié)點)構成了跨時空一階關聯(lián)節(jié)點,二階(正方形)和三階(三角形)的跨時空關聯(lián)節(jié)點構造和一階同樣,不同階數(shù)代表不同尺度。A的數(shù)學表達式如式(1)所示,k代表階數(shù)(或尺度),d(vi,vj)是節(jié)點i和j之間的距離,(i=j)表示自連接。
圖2 人體摔倒過程中關鍵點位置變化Fig.2 Changes in position of key points during fall
圖3 視頻中關鍵點空間信息Fig.3 Spatial information of key points in video
為了能同時對時間和空間維度進行聯(lián)合特征提取,設定一個大小為t幀的時間窗口,在窗口內(nèi)構成一個時空圖G(t)=(V(t),E(t)),其中V(t)表示窗口內(nèi)所有關鍵點的集合,E(t)則表示窗口內(nèi)組合的鄰接矩陣。組合后的大鄰接矩陣A(t)是由窗口內(nèi)每一幀的A平鋪得到,如式(2)所示,V指單幀中人體姿態(tài)關鍵點的個數(shù)。
該模塊任務是計算不同尺度鄰接矩陣在特征提取時的貢獻程度[11],假定尺度k∈[1,2,3,4],實現(xiàn)步驟如圖4所示。
圖4 不同尺度鄰接矩陣注意力過程Fig.4 Attention process of adjacency matrix of different scales
(1)根據(jù)式(1)獲得不同尺度k對應的鄰接矩陣A(k),其中A(1)代表圖結構的直接表示并已初始化。其他尺度,k=[2,3,4],是基于式(1)和A(1)通過矩陣運算求出,所有A(k)∈RV×V,V代表一幀中人體姿態(tài)關鍵點數(shù)。
(2)節(jié)點特征X∈RV×3,3代表關鍵點的三維特征信息,將其分別與A(k)相乘得到不同尺度特征表示A(kk),按照A(kk)的第一個維度計算均值,得到4 組向量A(kkk)后組成列表B。嵌入層將B中的元素映射到d_model(8)個維度,嵌入的大小為k的最大值。
(3)三個并行的全連接層W_Q、W_K、W_V,輸入維度均為d_model,輸出維度均為64×2(2 表示2 個注意頭),三個全連接層的輸出分別為4維數(shù)組Q、K、V,通過自注意力公式softmax((Q?KT)/8)?V得到不同尺度中節(jié)點的重要特征,全連接層W將通過自注意力計算得到的節(jié)點特征維度還原至嵌入的維度d_model。
(4)兩個并行的全連接層W_Q1、W_K1,輸入維度均為d_model,輸出維度為64(單頭)。以k=1 為基準得到W_Q1的輸出為Q1,W_K1的輸出為K1,R(k)表示一階鄰居與其他k階(包含一階自身)的相關度,R(k)=softmax((Q1 ?K1T)/8),更新原始鄰接矩陣R(k)?A(k)。
使用時空聯(lián)合圖卷積的方法提取圖數(shù)據(jù)的時空聯(lián)合特征,包含多個時空合并圖卷積模塊,同時對滑動窗口內(nèi)的時間和空間維度進行特征提取。特征提取器的計算流程如圖5所示,輸入一個5維數(shù)組(N,C,T,V,M),其中N代表一個前向batch中視頻的數(shù)量;C代表節(jié)點的特征信息通道數(shù),即(x,y,c) ;T代表視頻關鍵幀的數(shù)量;V代表關節(jié)的數(shù)量;M代表一幀中置信度最高的人數(shù)。經(jīng)過批歸一化層數(shù)組形狀被調(diào)整為3 維(N,C×V×M,T)[12],最終輸入圖卷積模型的形狀為(N×M,C,T,V)。
時空聯(lián)合圖卷積網(wǎng)絡主要由3 個時空合并圖卷積模塊組成(圖5 中的虛線框)。Li等人[13]和Wu 等人[14]使用圖鄰接矩陣的高階多項式去聚合遠距離鄰居節(jié)點(即多尺度)的特征,其實驗結果表明多尺度圖卷積網(wǎng)絡可以很好地捕獲遠距離鄰居節(jié)點的特征,借鑒經(jīng)驗,在經(jīng)過鄰接矩陣自注意力機制后用多尺度圖卷積提取空間特征。每個模塊內(nèi)包含多窗口多尺度的圖卷積層和由多尺度圖卷積和時間卷積組合的序列化組件層,其中多窗口多尺度的圖卷積層是在不同窗口大小下做時間和空間維度聯(lián)合的卷積,目的在于將動作在兩個維度下的內(nèi)在關系進行表達。組件中依次是多尺度圖卷積,能夠利用關節(jié)點間的最大距離對骨架進行建模;連續(xù)2個多尺度時間卷積,用來捕捉長期的或擴展的時間幀上下文信息。為防止層數(shù)增加造成特征損失,將時空合并圖卷積模塊1 的輸出經(jīng)卷積轉(zhuǎn)換后殘差連接到模塊2 輸出,其中每個子塊括號內(nèi)數(shù)字分別是計算前后的輸入和輸出通道數(shù)。
圖5 時空聯(lián)合圖卷積網(wǎng)絡特征提取的數(shù)據(jù)計算過程Fig.5 Data calculation process of spatio-temporal joint graph convolutional network feature extraction
經(jīng)過多窗口多尺度的圖卷積層和序列化組件層后,將輸出特征相加,送入relu()激活函數(shù),再進行一次多尺度時間卷積特征提取,結果被輸入到具有同樣邏輯處理結構的下一個時空合并圖卷積模塊,最終是將特征進行分類和輸出。
多窗口多尺度的圖卷積層:首先在時間維度上通過滑動時間窗機制(滑動步長為2)獲得WIN個大小為t幀時間窗,每一幀的姿態(tài)圖特征X∈RV×C,因此滑動時間窗的輸出數(shù)據(jù)形狀為(N,C,WIN,tV);在式(2)中構建了構建了包含時間維度和空間維度特征的大鄰接矩陣A(t),在A(t)的基礎上利用numpy計算不同尺度的鄰接矩陣,之后運用自注意力機制計算影響力,最終將不同尺度的鄰接矩陣進行合并,最終A(t)形狀為tkV×tV;滑動時間窗的輸出數(shù)據(jù)包含多窗口信息,最終的A(t)包含多尺度信息,利用普通圖卷積方法將兩者相乘得到的數(shù)據(jù)形狀為(N,C,WIN,ktV),之后經(jīng)過一個多層感知器,它由一個輸入通道為C、輸出通道C1 自定、卷積核大小為1 的二維卷積層,二維批歸一化層和激活函數(shù)組成,完整多窗口多尺度的圖卷積層的輸出為(N,C1,WIN,tV)。
多尺度時間卷積:包含5 個并行分支,如圖6 所示。前3個分支結構基本一致,均有卷積核大小為1×1的二維卷積和卷積核大小為3×1的二維空洞卷積組成,但是空洞卷積的空洞大小依次是1、2、3,是為了獲得更大的時間感受野。第4 個分支只有1×1 的二維卷積,第5 個分支經(jīng)過1×1的二維卷積后需要進行核大小為3×1的最大池化。輸入經(jīng)過1×1卷積調(diào)節(jié)通道數(shù)量,與5個分支合并后的結果進行殘差連接。
圖6 多尺度時間卷積Fig.6 Multi-scale time convolution
時空圖卷積網(wǎng)絡輸出特征通道為384,之后依次在時空維度、行人個體上對輸出特征做全局平均池化,目的是把不同大小的特征圖映射為相同大小,池化結果輸入全連接線性層(輸入通道384,輸出通道為類別數(shù)),最后通過softmax分類器輸出得分最高的類別。
在Le2i Fall Detection(LFD)[15]和自定的UR-KTH數(shù)據(jù)集上進行實驗。LFD包括191個人類活動視頻,分為4 個場景:辦公室、家庭、咖啡室和演講室。UR-KTH數(shù)據(jù)集是由URFD[16]和KTH[17]數(shù)據(jù)集組成:URFD 包含70個(30個跌倒+40個日常生活活動)序列,KTH包含6個動作類別,每個類別有100個動作序列。
在訓練時利用opencv 和視頻編輯工具預處理原始視頻,分辨率為640×480,幀率為30 FPS,視頻樣本時長在3~9 s,LFD 中包含的動作有摔倒、行走、站立、坐下、站起來共5種,共計有26 100幀被選擇。URFD中40個日常活動視頻彼此間差別較大,需要把它們重新標注為行走、坐下、彎腰,其他四種動作,最終UR-KTH 數(shù)據(jù)集上共計有10 種動作(拳打、拍手、揮手、慢跑、奔跑、行走、彎腰、坐下、其他、摔倒)。實驗中,通過視頻翻轉(zhuǎn)對兩個數(shù)據(jù)集進行數(shù)據(jù)擴充。
實驗在ubuntu20.04 系統(tǒng)、Nvidia1080Ti 顯卡上進行?;趕huffleNet 的輕量級Openpose 姿態(tài)估計算法中適配有3 個shuffleNet 單元,每個單元的深度分離卷積步長為2,分組卷積組數(shù)為3,輸出通道為240,輸出估計結果保存在json文件中。
時空聯(lián)合圖卷積特征提取模型在訓練時權重衰減值為0.000 5,模型學習使用隨機梯度下降(SGD)優(yōu)化器,初始學習率為0.05,訓練80 個epoch,batchsize 為8,LFD 數(shù)據(jù)集在第20 和40 個epoch 做0.1 倍學習率衰減,UR-KTH 數(shù)據(jù)集在第30 和40 個epoch 做相同的學習率衰減,鄰接矩陣的尺度值k為4。
圖卷積動作識別模型采用準確率(acc)為主要評價指標,平均損失(mean_loss)為輔助指標。acc的計算公式為acc=right/all,其中right表示正確被預測為所屬類別,all表示所有參與測試的動作視頻樣本數(shù);mean_loss代表一個epoch 中真實值和預測值之間的誤差的平均數(shù),此值越小越好,其計算方法為mean_loss=代表驗證集中batch的數(shù)量。
在LFD 和UR-KTH 數(shù)據(jù)集上運行輕量級Openpose姿態(tài)估計算法得到的效果如圖7(a)所示,圖7(b)表示原始Openpose 的效果,兩者的輸入都是同一幀。由圖可看出,兩者的效果在大部分情況下保持一致,在有物體或身體自身部位遮擋的情況下,都會造成人體部分關鍵點信息的缺失,所以在模型數(shù)據(jù)加載步驟要對缺失的信息進行變換填充,以最大限度減少對動作識別準確度產(chǎn)生的影響。
圖7 LFD和UR-KTH數(shù)據(jù)集上姿態(tài)估計情況Fig.7 Posture estimation on LFD and UR-KTH datasets
為了驗證對不同尺度鄰接矩陣進行自注意力機制計算是有效的,在LFD 數(shù)據(jù)集上與多尺度G3D 算法進行比較(FLOPs 代表模型的計算量,F(xiàn)LOPs 和參數(shù)量數(shù)值均保留小數(shù)點后兩位),在比較之前需要對原始多尺度G3D算法進行微調(diào)構成baseline模型,最終對比結果如表2所示。多尺度(k=3 或4)的baseline最優(yōu)準確率acc值分別為90.48%、95.2%,將不同尺度鄰接矩陣通過自注意力機制合并后,準確率acc分別上升了約3和0.3個百分點,但是在k=3 時的平均損失mean_loss相比多尺度G3D上升了約3個百分點,說明在采用自注意力機制計算每個尺度的影響力并不是對任意尺度都適應,如果要兼顧損失和準確率,就需要找到一個合適的尺度k值。
表2 LFD數(shù)據(jù)集上不同尺度自注意力對比結果Table 2 Comparison results of self-attention at different scales on LFD dataset
由表2后兩列的數(shù)據(jù)可知,對不同尺度鄰接矩陣使用自注意力機制所帶來的模型參數(shù)量與baseline相比增加了0.01(106,k=4 或3);所帶來的計算量與baseline相比增加了0.01(109,k=4),k=3 時可以忽略不計。之所以參數(shù)量和計算量有少量提升,是因為本文僅使用兩層自注意力機制,其中第一層中只用兩個注意力頭,這樣即能達到很好的識別精度。然而如今計算硬件浮點運算能力不斷提高,為了追求更高的準確度和更低的損失值,本文算法帶來的計算量增加也是滿足需求的。
為了驗證不同網(wǎng)絡層模塊對動作識別模型的影響,分別去除多窗口多尺度的圖卷積模塊、序列化組件模塊,之后與本文所提模型進行對比,結果如表3 所示。評估指標為acc(準確度)、mean_loss(平均損失)、參數(shù)量,設定鄰接矩陣的尺度數(shù)k為4(即自注意力k=4),“-”代表移除相應模塊。由表3數(shù)據(jù)可以看出,多窗口多尺度的圖卷積模塊去除后,識別準確度下降了約6個百分點,損失上升約6 個百分點,它對整體動作識別特征抽取部分的影響程度大于序列化組件塊,但是多窗口多尺度的圖卷積模塊參數(shù)量高于序列化組件塊。綜上,多窗口多尺度的圖卷積模塊對應的跨時空的聯(lián)合特征抽取對動作識別精度有關鍵影響。
表3 LFD數(shù)據(jù)集上不同網(wǎng)絡層模塊效果對比Table 3 Comparison of effects of different network layer modules on LFD dataset
3.5.1 數(shù)據(jù)集訓練驗證
為了驗證整體圖卷積模型的有效性,分別在關鍵點流和骨骼邊流上對LFD 和UR-KTH 數(shù)據(jù)集做訓練和驗證,最后合并雙流結果。在LFD驗證集上acc和mean_loss隨訓練迭代次數(shù)epoch變化情況如圖8(a)所示,縱軸是百分比值,隨著迭代次數(shù)的增多,準確率acc不斷上升,平均損失逐漸下降,在第68個epoch時得到最高準確率acc為95.52%,對應的mean_loss為16.55%,模型在第55 個epoch 時開始趨于收斂,在第40 個epoch 前變化幅度較大,是因為數(shù)據(jù)集中樣本的拍攝角度差異,不同視角的人體姿態(tài)結果會有一定的差異,會對模型訓練造成必要的挑戰(zhàn)。在UR-KTH 驗證集上變化情況如圖8(b)所示,趨于平穩(wěn)時的最優(yōu)準確率acc為95.07%,對應的平均損失值為16.29%,由于UR-KTH 是自定的混合數(shù)據(jù)集,在前45 個epoch 需要提取動作的共有特征,所以訓練時有比較大的波動。
圖8 兩個數(shù)據(jù)集上指標變化情況統(tǒng)計圖Fig.8 Statistical graphs of indicator changes on two datasets
3.5.2 與其他算法對比
本文所提算法與其他算法在UR-KTH 數(shù)據(jù)集上進行準確率和平均損失值對比,對比結果如表4所示。2s-AGCN[18](two-stream adaptive graph convolutional networks)方法是對早期ST-GCN方法的擴展,引入了自適應二維圖卷積方法,重點考慮多尺度節(jié)點對動作識別準確率的影響,但是在計算高階鄰接矩陣時忽略了遠方節(jié)點的影響力,本文算法在逐層信息聚合中先均衡化不同階鄰居節(jié)點的權重,之后通過自注意力機制加權不同的尺度組,由表4數(shù)據(jù)可知本文算法準確率比2s-AGCN方法高2.11 個百分點,損失值也下降了3 個百分點。MSG3D[8]是本文采用的基準算法,由表4數(shù)據(jù)可知,加入鄰接矩陣自注意力后可加強不同尺度的特征表示,使模型識別準確率得到提升。pose-C3D[19]的輸入是人體關鍵點的熱圖體,采用三維卷積提取時空特征,與之相比,本文所提算法更具有優(yōu)勢,準確率提高了2.46 個百分點,因為人體姿態(tài)作為一個自然拓撲圖,用圖卷積算法更能挖掘深層的時空信息。
表4 各模型在UR-KTH上準確率比較Table 4 Comparison of accuracy of each model on UR-KTH %
圖9 表示所提模型在UR-KTH 測試集上的混淆矩陣,標簽0~9 依次表示拳打、拍手、揮手、慢跑、奔跑、行走、彎腰、坐下、其他、摔倒;橫軸表示預測值,縱軸表示真實值。由圖9 數(shù)據(jù)可看出,識別錯誤主要集中在慢跑、奔跑,行走動作之間,有6個慢跑樣本被錯誤辨別為奔跑或行走,有2 個彎腰樣本被錯誤辨別為坐下,因此需要加強對類似動作的鑒別特征抽取。
圖9 UR-KTH數(shù)據(jù)集上的混淆矩陣Fig.9 Confusion matrix on UR-KTH dataset
3.5.3 總體動作識別模型效果可視化
圖10展示了本文模型在所用數(shù)據(jù)集和網(wǎng)絡搜集視頻中的表現(xiàn),總共分為A、B、C、D 四組。A 組展示所用數(shù)據(jù)集上的常規(guī)效果,左邊3個是在UR-KTH數(shù)據(jù)集上的效果,前幾幀初始為其他(other),之后間隔采樣得到動作類別行走(walking),摔倒(fall),右邊3個表示LFD數(shù)據(jù)集上某一樣本,依次檢測到行走、坐下(sit down)、站起來(stand up);B 組展示所用數(shù)據(jù)集LFD 中某一視頻動作樣本在物體遮擋情況下的識別效果,因受物體遮擋,部分人體姿態(tài)關鍵點無法精確識別,但是可以對關鍵點進行缺失填充或得到所執(zhí)行動作中部分鑒別關鍵點的特征,這樣也可成功辨別動作,因此在特征提取時需要關注不同尺度鄰接矩陣所對應的部分重要鑒別特征;C 組展示一段網(wǎng)絡搜集的體育運動視頻,在多目標場景下也可以準確識別出三個人正在慢跑(jogging);D組展示網(wǎng)絡搜集視頻,第一幅圖像存在模糊,嚴重遮擋,僅識別到奔跑和行走,第二幅圖像存在視野模糊,較少關鍵點信息,一人動作(奔跑,running)錯誤識別為行走(walking),第三幅正確識別(2個running,1個walking)。
圖10 動作識別效果展示Fig.10 Demonstration of action recognition effects
在嚴重遮擋和密集目標群體中,所提模型的實時性和準確率需要加強。
本文利用人體的姿態(tài)信息構造圖數(shù)據(jù)來進行動作識別,不僅大大減少了背景對識別效果的影響,而且也減少了計算量。較早使用圖卷積模型(ST-GCN)獲取骨架動作特征未能將時空表征聯(lián)合考慮,對于對時空結合信息依賴大的動作并不能做到很好的識別。本文在G3D卷積算子的基礎上提取姿態(tài)時空聯(lián)合特征,并融合了不同尺度鄰接矩陣自注意力機制加強相關關鍵點的依賴性,通過融合多種模型算法來解決現(xiàn)實生活中的動作識別問題。該識別系統(tǒng)序列化組織姿態(tài)估計、特征提取和分類模塊,規(guī)范數(shù)據(jù)流邏輯處理,在未來的研究中,將更專注于動作的發(fā)生時間段獲取和識別實時性、準確性,這樣可以提高識別系統(tǒng)的泛化能力,更好的投入應用。