劉廷龍,康 斌,2
(1.大連工業(yè)大學 信息技術(shù)中心,遼寧 大連 116034;2.大連工業(yè)大學 信息科學與工程學院,遼寧 大連 116034)
基于骨骼的行為識別是計算機視覺的重要研究課題。它的研究和發(fā)展得益于卷積神經(jīng)網(wǎng)絡,監(jiān)督學習和有關(guān)傳感器的發(fā)展。
研究初期使用卷積神經(jīng)網(wǎng)絡或循環(huán)神經(jīng)網(wǎng)絡來預測由人體關(guān)節(jié)特征構(gòu)成的序列和圖像。但這種方法有很大的局限性;忽略了人體中關(guān)節(jié)點之間相互的連接性和內(nèi)在關(guān)系。而這些聯(lián)系是人體行為活動的重要信息。連續(xù)性和動態(tài)性在行為識別中具有重要地位。Kamel等[1]提出一種基于CNN網(wǎng)絡的深度圖和姿勢數(shù)據(jù)的動作融合的人體行為識別方法,將輸入數(shù)據(jù)分為兩種形式;為了最大化特征提取,將信道分成3個。這種劃分方式有效提高了識別精度。Pham等[2]在CNN的基礎(chǔ)上提出深度殘差神經(jīng)網(wǎng)絡,設計了新的網(wǎng)絡結(jié)構(gòu),有效提升了動作識別率。之后文獻[3-10]在自適應、尺寸大小、模型結(jié)構(gòu)等方面對卷積神經(jīng)網(wǎng)絡做出了改良,但仍然存在準確率和性能方面的不足。Bruna等[11]首次提出用圖來模型化人體關(guān)節(jié)點關(guān)系并提出圖卷積神經(jīng)網(wǎng)絡GCN,自定義的拓撲結(jié)構(gòu)難以在非自然連接點之間獲得關(guān)系模型,這限制了GCN的表示能力。為了增強表示能力,有方法[12-15]通過空間時序或其他機制來學習人類骨骼的拓撲結(jié)構(gòu)。它們對所有通道使用拓撲結(jié)構(gòu),這迫使GCNs在不同的通道中聚合具有相同拓撲結(jié)構(gòu)的特征,從而限制了特征提取的靈活性。因為不同的信道代表不同的運動特征類型和關(guān)系,并且不同運動特征下的關(guān)節(jié)之間的相關(guān)性并不總是相同的,所以使用一種共享拓撲并不是最優(yōu)的。Chen等[16]為通道組設置單獨的參數(shù)化拓撲;然而,不同組的拓撲是獨立學習,當設置通道拓撲參數(shù)化拓撲時,模型變得過于沉重,這增加了優(yōu)化的難度,阻礙了對通道拓撲的有效建模。此外,參數(shù)化拓撲對所有樣本保持相同,這無法建模樣本相關(guān)關(guān)系。
該文提出了關(guān)聯(lián)策略的智能信道拓撲的細化圖卷積網(wǎng)絡模型。不是簡單地在不同通道上學習模型,而是智能關(guān)聯(lián)策略下實現(xiàn)通道的拓撲。通過擴大節(jié)點的領(lǐng)域值,增強關(guān)聯(lián)節(jié)點和最終節(jié)點之間的聯(lián)系,從而加強整個身體部分的聯(lián)系。每個樣本能夠動態(tài)地推斷相關(guān)性,獲得每個通道內(nèi)關(guān)節(jié)點之間的細微關(guān)系。同時每個信道獨立建模,用最少的參數(shù)來降低建模的難度。該方法能使模型局部信息和整體信息感知能力更強。該文的主要貢獻如下:
提出的關(guān)聯(lián)策略在基于智能拓撲細化卷積網(wǎng)絡的基礎(chǔ)上比CTR-GCN方法增強了關(guān)節(jié)點之間內(nèi)在的關(guān)聯(lián)性,大大提高了骨關(guān)節(jié)點信息在空間上的識別精度。大量的實驗結(jié)果表明,提出的關(guān)聯(lián)策略CRT-GCN在基于骨骼的動作識別上優(yōu)于現(xiàn)有的方法。
卷積神經(jīng)網(wǎng)絡在處理圖像方面已經(jīng)取得了顯著的成績。但對于骨骼行為類的非圖像數(shù)據(jù)表現(xiàn)卻并不理想。由此提出了圖卷積網(wǎng)絡[11]。圖卷積神經(jīng)網(wǎng)絡分為光譜方法和空間方法。光譜方法適用在具有相同結(jié)構(gòu)的圖上;空間方法可以在圖上直接進行卷積操作,但同樣面臨著處理不同大小閾值的挑戰(zhàn)。在各類GCN模型中,普遍采用的特征更新規(guī)則如下:將特征轉(zhuǎn)化為高層表示;根據(jù)圖的拓撲聚合特征。GCN在骨骼行為識別中,按照拓撲的不同可以進行如下分類:
(1)按照是否在不同信道上共享拓撲,分為共享和非共享方法。
(2)按照推導過程中是否動態(tài)調(diào)整拓撲結(jié)構(gòu),分為靜態(tài)方法和動態(tài)方法。
在拓撲結(jié)構(gòu)保持不變的靜態(tài)方法中,Yan等[12]提出了一種ST-GCN網(wǎng)絡模型。該模型能夠根據(jù)人體結(jié)構(gòu)預先定義拓撲,并且在訓練和測試階段都是固定的。在動態(tài)方法中,Li等[17]提出使用A-links推理模塊來捕獲特定于動作的相關(guān)性,增強了拓撲學習,在給定相應特征的情況下建立了兩個關(guān)節(jié)之間的相關(guān)性。這些方法加強了節(jié)點的局部特征關(guān)系。Shi等[14]提出了一種動態(tài)GCN,融合了所有關(guān)節(jié)的上下文特征來學習任意對關(guān)節(jié)之間的相關(guān)性,從而得到了更好的泛化能力。在強制GCNs用相同的拓撲來聚合不同信道的特征的模型中,對模型性能帶來了很大的限制。非共享拓撲方法在不同的信道或信道組上使用不同拓撲,自然地克服了拓撲共享方法的局限性。Cheng等[16]提出了一種DC-GCN,為不同的信道組設置單獨的參數(shù)化拓撲。但DC-GCN在設置信道拓撲時,由于參數(shù)過多,存在優(yōu)化困難的問題。根據(jù)現(xiàn)有研究成果,在基于骨架的動作識別中很少探索拓撲-非共享圖卷積,而在這個研究的基礎(chǔ)上,分組關(guān)聯(lián)策略對動態(tài)信道拓撲建模具有重要意義,并且保證在推斷過程中拓撲是動態(tài)推斷的建模方式。
人體部分關(guān)節(jié)聯(lián)系的分區(qū)策略目前有單標簽,距離分區(qū)和空間配置分區(qū)。這三種分區(qū)考慮的是相鄰節(jié)點之間的聯(lián)系,并不能充分考慮到人體身體部分之間相對位置的聯(lián)系對行為識別的重要作用。為了能夠提取骨骼關(guān)節(jié)點的重要信息,在原有的分區(qū)策略基礎(chǔ)上,提出了關(guān)聯(lián)分區(qū)的CTR-GCN模型,從而提高整體模型的識別率。
首先,定義相關(guān)的符號;然后,介紹關(guān)聯(lián)策略的CTR-GCN模型,并分析模型結(jié)構(gòu)。
人體骨骼圖是一個以關(guān)節(jié)為節(jié)點,骨骼為邊的圖。圖用G=(v,ε,x)表示。v={v1,v2,…,vN}是N個關(guān)節(jié)點的集合。ε是邊集合。鄰接矩陣A∈RN×N,元素aij用來表示vi和vj節(jié)點的關(guān)系。vi的領(lǐng)域為N(vi)={vj|aij≠0},χ是N個節(jié)點的特征集。用矩陣X∈RN×C表示,vi的特征表示為xi∈RC。共享的拓撲圖卷積利用權(quán)重w進行特征轉(zhuǎn)換;通過aij聚合特征來更新特征zi,公式如下:
(1)
靜態(tài)方法中aij自定義或作為訓練參數(shù)設置。動態(tài)方法中,通過輸入樣本模型來生成。
在充分利用CTR-GCN在時空領(lǐng)域的關(guān)節(jié)信息的基礎(chǔ)上,使用新的最近鄰關(guān)聯(lián)策略進行再分區(qū)。在單個信道中使用時間和空間域進行再劃分。根據(jù)節(jié)點和根節(jié)點之間的距離進行領(lǐng)域集的劃分。在該部分,設置D=2。將領(lǐng)域集分成三個子集:(1)根節(jié)點x0;(2)距離根節(jié)點D為1的鄰居節(jié)點x1;(3)距離根節(jié)點距離D為2的子集x2。這樣分區(qū)的依據(jù)是人體的行為活動中關(guān)節(jié)是以局部活動為主要體現(xiàn)形式,最近的關(guān)節(jié)參與度更高。通過最近的子集集合來加強相關(guān)信息,使得模型對行為識別感知更加敏感,能夠提升模型的識別準確率。
不同分區(qū)策略的拓撲如圖1所示。
圖1 不同分區(qū)策略拓撲
下面使用圖卷積的方式進行表示[18]。單信道內(nèi)根節(jié)點由單位矩陣E表示。相鄰矩陣用X表示。在單信道內(nèi),所提出的關(guān)聯(lián)策略的公式表示如下:
(2)
在分組的鄰接矩陣中有如下關(guān)系:
(3)
在這里,為了統(tǒng)一評價標準,需要將不同的圖卷積重構(gòu)成統(tǒng)一的形式。對于動態(tài)的共享拓撲神經(jīng)網(wǎng)絡來說,動態(tài)拓撲有更好的泛化能力。動態(tài)拓撲距離關(guān)系aij依賴于輸入樣本。
該文構(gòu)造了基于CTR-GNC的關(guān)聯(lián)策略模型架構(gòu)。將每個關(guān)節(jié)的鄰域設置為整個人體骨架圖。前面已經(jīng)詳細說明了研究的有效性。模型用10個基本塊組成整體架構(gòu),使用平均池化進行操作,最后通過一個softmax分類器進行模型分類。在空間模型模塊,該文使用3個CTCTR-GCs來提取人體關(guān)節(jié)之間的相關(guān)性,并將其結(jié)果匯總為輸出。為了建模具有不同持續(xù)時間的動作,設計了一個多尺度時間建模模塊。
NTU RGB+D:NTU RGB+D[19]是一個大型的人體行為識別數(shù)據(jù)集,包含56 880張人體骨骼行為序列。樣本由40個志愿者進行,共分成60個種類。每個樣本包含一個動作,并保證最多有2個主題。這是由三個微軟Kinect v2相機同時從不同的視圖捕捉。數(shù)據(jù)集被分為兩個基準:(1)cross-subject (Xsub):訓練數(shù)據(jù)來自20個主體,測試數(shù)據(jù)來自其他20個主體;(2)cross-view (X-view):測試數(shù)據(jù)來自視圖2和3兩個相機,測試數(shù)據(jù)來自視圖1相機。
Northwestern-UCLA:Northwestern-UCLA數(shù)據(jù)集[20]通過3個Kinect攝像機從多個角度同時獲取,包含1 494個視頻剪輯,涵蓋10個行動類別。每個動作由10個不同的主體完成。該文的數(shù)據(jù)集劃分為訓練集和測試集,訓練集來自兩個攝像機,測試集來自另一個攝像機。
所有實驗在一個Tesla V100 GPU的Paddle深度學習框架上完成。訓練模型使用SGD,動力為0.9,權(quán)重衰減為0.000 4。訓練次數(shù)設置為65,學習率設置為0.1。對于NTU RGB+D數(shù)據(jù)集,簇大小為64,每個樣本大小是64,采用數(shù)據(jù)預處理方式[21]。對于Northwestern-UCLA,簇大小為16,t使用相同的數(shù)據(jù)預處理方式。
該文提出了一種新的基于分組的關(guān)聯(lián)分區(qū)策略。將關(guān)節(jié)點分為三個子集:根關(guān)節(jié)點集合、距離為1的鄰接點集合和距離為2的鄰接點集合。下面針對統(tǒng)一分區(qū)(uniform)、距離分區(qū)(distance)和稀疏分區(qū)(spatial)與提出的分組關(guān)聯(lián)分區(qū)(correlative)進行對比實驗。
(1)NTU-RGB+D(X-Sub)實驗結(jié)果與分析。
表1為基于骨架的NTU-RGC+D數(shù)據(jù)集的動作識別結(jié)果。采用基于不同的行為主體(X-Sub)的實驗方法對比了幾種分區(qū)策略的準確性。可以看出該文的分區(qū)策略在NTU-RGB+D的評估下,最終訓練結(jié)果相比于原文中的3種分區(qū)策略中最好的訓練結(jié)果在top-1上有了0.8百分點的提升,在top-5上精度有0.7百分點的提升。
表1 NTU-RGB+D(X-Sub)實驗結(jié)果 %
(2)NTU-RGB+D(X-View)實驗結(jié)果與分析。
表2 為基于骨架的NTU-RGC+D 數(shù)據(jù)集的動作識別結(jié)果。采用基于不同拍攝視角(X-View)的實驗方法對比了幾種分區(qū)策略的準確性。從表2的對比結(jié)果可以看出,所提分區(qū)策略得到的識別率相較于原分區(qū)策略中的uniform和distance均有明顯提升。這證明在相同的實驗條件下,所提分區(qū)策略在一定程度上要優(yōu)于原始分區(qū)方法。同時,相比于之前的3種分區(qū)方法,無論top-1還是top-5的精度均有較大提升,最高由原來的84.6%提升至96.4%,以及98.8%提升至99.6%。
表2 NTU-RGB+D(X-View)實驗結(jié)果 %
許多最先進的方法采用多流融合框架。該文融合了四種模式的結(jié)果,即關(guān)節(jié)、骨、關(guān)節(jié)運動和骨運動。將文中算法和其他先進的流行算法進行對比。性能表現(xiàn)如表3和表4所示。在NTU-RGB+D數(shù)據(jù)集上對比當前先進的幾種方法,即ST-GCN[12]、2S-AGCN[15]、Shift-GCN[13]、D-GCN[16]、ASCTR-GCN可以發(fā)現(xiàn),新的關(guān)聯(lián)分區(qū)ASCTR-GCN相比于最好的方法在X-View和X-Sub的識別精度上分別提高了2.5和0.5百分點。
表3 在NTU-RGB+D數(shù)據(jù)集上幾種識別技術(shù)的對比 %
表4 在Northwestern-UCLA數(shù)據(jù)集上的對比實驗 %
在Northwestern-UCLA數(shù)據(jù)集上對幾種方法進行比較,Top1識別精度達到了97.2%。與比較常用的Shift-GCN模型相比,Top1識別精度提升2.6百分點;與最近識別效果好的算法DC-GCN[18]相比,提高了1.9百分點。
在兩個數(shù)據(jù)集上,文中方法在幾乎所有評估基準下優(yōu)于所有現(xiàn)有方法。
該文提出了一種新的基于關(guān)聯(lián)分組策略的通道拓撲細化圖卷積網(wǎng)絡ASCTR-GCN,設計了分區(qū)關(guān)聯(lián)的拓撲結(jié)構(gòu),并設計了模型架構(gòu)。模型在基于骨架的動作識別中和其他流行算法進行了比較,驗證了模型的優(yōu)越性。經(jīng)過數(shù)學分析和實驗結(jié)果表明,新的關(guān)聯(lián)分組策略的CTR-GC比現(xiàn)有其他圖卷積具有更強的表示能力。在新的分區(qū)策略的引導下,下一步工作應集中在獲取特定動作下不同關(guān)節(jié)點直接的聯(lián)系,同時尋找更加高效的人體骨骼行為識別方法。