• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向人機(jī)交互的通道注意力位移圖神經(jīng)網(wǎng)絡(luò)

      2022-03-03 13:46:28易思恒陳永輝王賦攀
      關(guān)鍵詞:關(guān)節(jié)點骨骼注意力

      易思恒,陳永輝,王賦攀,蔡 婷

      (西南科技大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,四川 綿陽 621000)

      1 引 言

      動作交互是自然人機(jī)交互的方式之一,在體感游戲,機(jī)器人控制等應(yīng)用領(lǐng)域有著重要的研究意義[1,2].在自然人機(jī)交互中,動作交互大多需要借助深度傳感器設(shè)備,采集人體的骨骼關(guān)節(jié)數(shù)據(jù)流,生成人體動作特征.早期的動作行為識別方法,常常基于隱馬爾可夫模型(HMM)、動態(tài)時間規(guī)整(DTW)等分類器,對動作進(jìn)行分類,這類基于數(shù)據(jù)手工計算特征的方式也被稱為手工特征提取方法[3].此類方法在實時的人機(jī)交互過程中,使用預(yù)置的動作模板庫對實時采集的動作進(jìn)行識別,動作模板庫的質(zhì)量直接影響著識別的結(jié)果.

      近年來,由于深度學(xué)習(xí)算法能夠利用神經(jīng)網(wǎng)絡(luò)模型自動從動作數(shù)據(jù)集中提取特征,以此完成動作的分類識別,基于深度學(xué)習(xí)的人體動作識別研究越來越多.從數(shù)據(jù)來源區(qū)別,基于深度學(xué)習(xí)的動作識別算法可分為基于視頻的動作識別方法[4-7]和基于骨骼關(guān)節(jié)點的動作識別方法[8,9].基于視頻的動作識別方法將視頻流以圖片幀的形式傳入神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,視頻序列包含豐富的時間信息,神經(jīng)網(wǎng)絡(luò)能夠很好的從時間流和空間流分別提取特征,利用特征融合獲得更好的分類結(jié)果,但此類方法容易受到背景、光照等影響.基于骨骼關(guān)節(jié)點的動作識別方法,輸入數(shù)據(jù)為關(guān)節(jié)點的三維坐標(biāo)數(shù)據(jù),不易受光照、背景的影響,魯棒性較高.無論是卷積神經(jīng)網(wǎng)絡(luò)(CNN),長短時記憶網(wǎng)絡(luò)(LSTM)還是圖卷積神經(jīng)網(wǎng)絡(luò)(GCN),都能在大型的骨骼關(guān)節(jié)數(shù)據(jù)集,如NTU RGB-D[10]、Kinetics[11]上有很好的表現(xiàn).

      深度學(xué)習(xí)算法使用動作數(shù)據(jù)集進(jìn)行訓(xùn)練,并利用訓(xùn)練好的模型進(jìn)行預(yù)測的方式,很好地解決了傳統(tǒng)交互動作識別中預(yù)置動作模板庫影響識別率的問題.為了保障人機(jī)交互的實時性,深度學(xué)習(xí)方法必須能夠準(zhǔn)確識別實時采集的動作數(shù)據(jù).現(xiàn)有的研究中,用于交互動作識別的數(shù)據(jù)集大多為自建,或者選擇公開數(shù)據(jù)集中的部分動作數(shù)據(jù)來實現(xiàn)人機(jī)交互.目前廣泛使用的NTU RGB-D數(shù)據(jù)集由深度傳感器采集,但是作者未公布具體的采集方式.

      本文針對上述問題,創(chuàng)建了交互動作數(shù)據(jù)集Interactive Action RGB-D(IARGB-D),該數(shù)據(jù)集由一臺靜態(tài)Kinect采集正面數(shù)據(jù),由20個人員對10個代表性人機(jī)交互動作重復(fù)執(zhí)行3次獲取,根據(jù)高度與距離的關(guān)系,設(shè)定6個符合人機(jī)交互場景的配置,一共含有3600組數(shù)據(jù),數(shù)據(jù)格式與NTU RGB-D數(shù)據(jù)集一致.NTU RGB-D數(shù)據(jù)集主要包含大量日常生活動作,而IA RGB-D針對人機(jī)交互的實際需求,歸納和采集了常見的人機(jī)交互動作,能更好地用于體感交互應(yīng)用或者機(jī)器人控制應(yīng)用.

      Cheng[12]等人提出的位移圖神經(jīng)網(wǎng)絡(luò)(Shift-GCN)與大多數(shù)圖卷積神經(jīng)網(wǎng)絡(luò)不同,它使用位移圖運算,在保障準(zhǔn)確率的同時獲得了較高的運算效率.Shift-GCN所有的位移操作,都是在特征通道上完成的,但是卻未對特征通道進(jìn)行處理或者優(yōu)化.針對這個問題,本文提出了一種ASGCN網(wǎng)絡(luò),引入通道注意力機(jī)制對Shift-GCN進(jìn)行了優(yōu)化,在IARGB-D數(shù)據(jù)集上進(jìn)行實驗,識別準(zhǔn)確率有所提高的同時,并未明顯增加計算復(fù)雜度.

      本文的主要貢獻(xiàn)有以下3個方面:1)建立了關(guān)于人機(jī)交互的交互動作數(shù)據(jù)集,使用多種神經(jīng)網(wǎng)絡(luò)對其進(jìn)行測試,驗證了其正確性和有效性,能夠有效的幫助深度學(xué)習(xí)方法在人機(jī)交互領(lǐng)域的研究;2)提出了基于注意力的位移圖神經(jīng)網(wǎng)絡(luò),通過將高效通道注意力模塊與Shift-GCN結(jié)合,增強(qiáng)其提取通道特征的能力,在交互動作數(shù)據(jù)集上的識別準(zhǔn)確率高于多數(shù)神經(jīng)網(wǎng)絡(luò);3)將傳感器實時采集的數(shù)據(jù)輸入訓(xùn)練好的ASGCN網(wǎng)絡(luò)中,與傳統(tǒng)的交互動作算法對比,基于深度學(xué)習(xí)的方法擁有比傳統(tǒng)機(jī)器學(xué)習(xí)方法更高的準(zhǔn)確率,并且時間效率控制在可接受范圍內(nèi).

      2 相關(guān)工作

      2.1 基于圖卷積神經(jīng)網(wǎng)絡(luò)的動作識別

      由于人體的骨骼和關(guān)節(jié)點與圖的邊和節(jié)點高度相似,圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)在基于骨骼的動作識別研究中表現(xiàn)優(yōu)異.Yan[13]等人首次將圖卷積神經(jīng)網(wǎng)絡(luò)運用到骨骼動作識別之中,提出了時空圖卷積神經(jīng)網(wǎng)絡(luò)(ST-GCN),在空間上對人體骨骼和關(guān)節(jié)點進(jìn)行圖卷積,得到由根節(jié)點、向心節(jié)點、離心節(jié)點構(gòu)成的領(lǐng)接矩陣,在時間上將連續(xù)幀的相同節(jié)點連接構(gòu)成圖,從空域和時域中分別提取特征信息,利用融合特征進(jìn)行動作分類;華鋼等人在ST-GCN骨骼模型的基礎(chǔ)上,通過優(yōu)化骨架行為建模方式,增加空間差分信息和時間差分信息,提出了一種基于多流CNN骨架識別的模型;Plizzari C[14]等人利用transformer自關(guān)注算子來建模骨骼關(guān)節(jié)點之間的依賴關(guān)系,空間域上關(guān)注身體不同部位的幀內(nèi)關(guān)系,時間域上關(guān)注不同幀之間的相關(guān)性;Shi[15]等人在ST-GCN的基礎(chǔ)上,引入骨骼長度和方向等骨骼數(shù)據(jù)的二階信息,將骨骼數(shù)據(jù)的圖形結(jié)構(gòu)參數(shù)化,并可以隨著網(wǎng)絡(luò)的訓(xùn)練不斷優(yōu)化,增加了圖卷積的靈活性;Cheng[12]等人將Shift-CNN中的位移操作融入圖卷積之中,跟ST-GCN的固定圖結(jié)構(gòu)不同,Shift-GCN由簡單的位移圖運算和輕量級點卷積構(gòu)成,在保證高準(zhǔn)確率的同時極大降低了計算復(fù)雜性;Peng[16]等人借助神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索(NAS),將關(guān)節(jié)點之間的信息提取之后,使用多個動態(tài)圖模塊來擴(kuò)充搜索空間,并且引入多跳模塊和記憶進(jìn)化策略來自動搜尋網(wǎng)絡(luò)的最佳架構(gòu);Liu[17]等人通過消除較近和較遠(yuǎn)距離的關(guān)節(jié)領(lǐng)域的冗余依賴關(guān)系,來解決圖的鄰接矩陣的有偏加權(quán)問題,并利用統(tǒng)一時空圖卷積模塊G3D直接對跨時空的關(guān)節(jié)的關(guān)系進(jìn)行建模;Chen[18]等人更加關(guān)注人體骨架的拓?fù)浣Y(jié)構(gòu),通過細(xì)化具有特定通道關(guān)聯(lián)的共享拓?fù)?,得到人體的通道級拓?fù)浣Y(jié)構(gòu),并且引入了很少的額外參數(shù),降低了通道拓?fù)浣5碾y度.

      2.2 基于人機(jī)交互的動作識別

      基于人機(jī)交互的動作識別不僅要求識別算法有較高的準(zhǔn)確率,還對算法的實時性有著較高的要求,輸入網(wǎng)絡(luò)的數(shù)據(jù)能夠由姿勢估計算法或者深度傳感器實時采集得到.大多數(shù)基于神經(jīng)網(wǎng)絡(luò)的方法為了提高準(zhǔn)確率,網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計較復(fù)雜[13-15],時效性較差.張繼凱[19]等利用VGG和兩分支的卷積神經(jīng)網(wǎng)絡(luò)檢測人體關(guān)節(jié)點,進(jìn)行姿勢估計并建立二維動作數(shù)據(jù)集,然后利用堆疊模型識別動作,從而實現(xiàn)實時的動作追蹤和手勢交互;羅適[20]等用Openpose[21]實時獲取人體關(guān)節(jié)數(shù)據(jù),然后將動作特征分為短期、中期和長期,送入TS-LSTM網(wǎng)絡(luò),設(shè)計了基于Web 3D的人機(jī)交互動作識別系統(tǒng);桑海峰[22]等基于傳統(tǒng)的手工特征提取方法,提出了快速動態(tài)時間彎曲距離算法(F-DTW),利用Kinect獲取人體關(guān)節(jié)點并建立特征向量,輔以下界函數(shù)和提前終止技術(shù),解決了動作隨意性對識別帶來的影響,較傳統(tǒng)的手工特征提取算法,提高了識別速度,減少了人機(jī)交互的時延;Zhong[23]等人通過對高分辨率信息進(jìn)行時空融合和自適應(yīng)特征提取來增強(qiáng)區(qū)分相似動作的能力,在機(jī)器人交互應(yīng)用上優(yōu)于大多數(shù)算法,并且在響應(yīng)時間上與語音交互相差無幾;Akkaladevi S C[24]等人提出了一種面向工業(yè)應(yīng)用的人機(jī)交互動作識別方法,使用隨機(jī)森林算法和關(guān)鍵描述符結(jié)合,具有低延遲,靈活度高和可重新分配的優(yōu)點;Cai[25]等人通過馬爾科夫隨機(jī)場將人體骨骼的每一個肢體編碼成一種方法,使用多通道多實例方法進(jìn)行識別,大幅降低了動作識別的響應(yīng)延遲.

      以上基于人機(jī)交互的動作識別算法均從自建數(shù)據(jù)集或者公開數(shù)據(jù)集中選取特定動作構(gòu)建人機(jī)交互系統(tǒng),但是多數(shù)自建數(shù)據(jù)集并未公開使用,并且公開數(shù)據(jù)集大多未公開具體的采集過程,所以建立一個標(biāo)準(zhǔn)的人機(jī)交互動作數(shù)據(jù)集是十分必要的.

      3 基于通道注意力的位移圖神經(jīng)網(wǎng)絡(luò)

      3.1 位移圖神經(jīng)網(wǎng)絡(luò)

      ST-GCN首先將圖卷積神經(jīng)網(wǎng)絡(luò)運用到基于骨骼關(guān)節(jié)點的動作識別,由于骨骼和關(guān)節(jié)點與圖的結(jié)構(gòu)十分契合,實驗結(jié)果遠(yuǎn)超CNN,LSTM等傳統(tǒng)的深度學(xué)習(xí)方法,后續(xù)的大量研究工作以ST-GCN為基礎(chǔ)展開.但ST-GCN存在兩方面的缺點[12]:1)計算量大,針對一個樣本數(shù)據(jù)而言,ST-GCN包括4.0GFLOPs的空間域圖卷積操作和12.2GFLOPs的時間一維卷積操作.2)ST-GCN的空間和時間感受野都是固定的,需要人為預(yù)先定義,雖然使用自適應(yīng)的圖結(jié)構(gòu)能夠?qū)D卷積神經(jīng)網(wǎng)絡(luò)起著一定的優(yōu)化作用,但是網(wǎng)絡(luò)的表達(dá)能力仍然會受到圖結(jié)構(gòu)的限制.

      Shift-GCN針對以上問題,提出了用Shift卷積代替圖卷積,無需預(yù)先定義的圖結(jié)構(gòu),用簡單的位移操作和逐點卷積取代復(fù)雜的圖卷積操作,大大減少了計算復(fù)雜度.在空間結(jié)構(gòu)的圖卷積上,Shift-GCN包括局部Shift圖卷積和全局Shift圖卷積.由于局部Shift圖卷積只考慮了人體的固定物理結(jié)構(gòu),難以挖掘不相鄰的身體結(jié)構(gòu)如兩手之間的潛在聯(lián)系,并且不同關(guān)節(jié)的臨近節(jié)點數(shù)量不同,在位移操作過程中可能會導(dǎo)致某些節(jié)點特征信息的丟失.全局Shift圖卷積在局部圖卷積的基礎(chǔ)上,去除了人體結(jié)構(gòu)物理連接的限制,從而將單幀的骨骼關(guān)節(jié)圖變成了完全圖,每一個關(guān)節(jié)點都能與其他所有節(jié)點相連接,得到的特征圖如圖1所示.

      圖1(a)展示了人體骨骼的關(guān)節(jié)點圖,圖1(b)選取了其中7個代表性人體關(guān)節(jié)點,在空間域上的Shift操作過程,其中骨骼關(guān)節(jié)完全圖只展示了1號關(guān)節(jié)點的連接方式,其余關(guān)節(jié)的與之類似.利用全局空間Shift操作,可以獲得空間域上的骨骼關(guān)節(jié)特征圖.一個完整的骨骼序列由T幀構(gòu)成,需要在時間域上對特征圖進(jìn)行堆疊,如圖1(c)所示,將通道平均劃分為2h+1份,每份的時間位移距離為-h,-h+1,…,0,…,h-1,h,通過時間位移,每幀均能夠從相鄰幀獲取特征信息,卷積過程采用傳統(tǒng)的Shift卷積[26].

      圖1 全局Shift位移操作后的特征圖Fig.1 Characteristic diagram after non-local shift operation

      3.2 高效通道注意力模塊(ECA_module)

      注意力機(jī)制(attention)能夠讓神經(jīng)網(wǎng)絡(luò)更加關(guān)注重要的區(qū)域,從而提升網(wǎng)絡(luò)的性能.SE-Net[27]首次提出一種有效的通道注意力機(jī)制,依據(jù)各個特征通道的重要程度,然后針對不同的任務(wù)增強(qiáng)或者抑制不同的通道,讓神經(jīng)網(wǎng)絡(luò)更加高效地提取通道特征.Wang[28]等人針對SE-Net中通道降維和跨通道交互對通道注意力的影響,提出了更加有效的高效通道注意力(ECA)模塊,ECA實現(xiàn)了大小為k的快速1D卷積,其中k表示有多少個相鄰?fù)ǖ绤⑴c該通道的注意力預(yù)測,如圖2所示,ECA能夠在避免維度特征縮減的同時,增加不同通道間的信息交互.

      圖2 高效通道注意力(ECA)模塊Fig.2 Efficient channel attention(ECA)module

      3.3 基于高效通道注意力的位移圖神經(jīng)網(wǎng)絡(luò)

      神經(jīng)網(wǎng)絡(luò)中的卷積操作本質(zhì)上是將空間與通道信息融合的過程,不同的特征通道可能包含有不同重要性的信息,Shift-GCN在空間結(jié)構(gòu)上通過特征通道的位移形成新的特征圖,但是未關(guān)注通道信息本身.針對這個問題,本論文提出了一種基于高效通道注意力的位移圖神經(jīng)網(wǎng)絡(luò).區(qū)別于大部分基于通道注意力的網(wǎng)絡(luò),本方法在特征數(shù)據(jù)輸入階段引入通道注意力模塊,為每個骨骼關(guān)節(jié)點的通道數(shù)據(jù)賦予不同的權(quán)值,再輸入位移神經(jīng)網(wǎng)絡(luò).

      (1)

      在全局Shift卷積操作中,第i個通道的位移距離為imodN.

      在ECA模塊中,針對通道特征f,計算其相鄰的k個通道的快速一維卷積計算權(quán)重,如公式(2)所示:

      ω=σ(C1Dk(f))

      (2)

      由于整個計算模塊只涉及k個參數(shù),計算量大幅降低,而且更注重局部通道直接的信息交互.

      本文將ECA模塊融入Shift-GCN網(wǎng)絡(luò)中,提出了基于注意力的Shift神經(jīng)網(wǎng)絡(luò)(ASGCN).

      引入ECA模塊之后,ASGCN的圖卷積公式(3)為:

      (3)

      圖3 基于ECA的Shift操作Fig.3 Shift operation based on ECA

      ASGCN由1個BN層,10個ASGCN網(wǎng)絡(luò)層(A1-A10),1個全局平局池化層和一個Softmax分類層構(gòu)成,如圖4所示.其中A1-A10為相同的結(jié)構(gòu),包含一個通道注意力模塊,一個空間Shift模塊,一個時間Shift模塊和一個殘差連接.在網(wǎng)絡(luò)的輸入端,用一個BN層處理輸入的骨骼關(guān)節(jié)數(shù)據(jù),加速網(wǎng)絡(luò)的收斂速度.然后將特征矩陣送入10個ASGCN網(wǎng)絡(luò)層,原始輸入數(shù)據(jù)的通道數(shù)為3,前4個ASGCN網(wǎng)絡(luò)層的輸出通道為64,步長為1;中間3個網(wǎng)絡(luò)層輸出通道都為128;最后3個網(wǎng)絡(luò)層的輸出通道為256.其中在A5和A8層,步長設(shè)置為2.之后將輸出的特征矩陣送入全局平局池化層(GAP)來得到一個固定大小的特征向量.最后由一個Softmax分類器進(jìn)行動作的分類和預(yù)測.

      圖4 ASGCN結(jié)構(gòu)Fig.4 Structure of ASGCN

      4 實驗結(jié)果與分析

      4.1 數(shù)據(jù)集介紹

      4.1.1 數(shù)據(jù)集背景介紹

      人機(jī)交互中的動作識別主要應(yīng)用在體感游戲、虛擬現(xiàn)實和機(jī)器人控制等方面,此類動作大多是特定的動作,如在機(jī)器人控制中舉起左手控制機(jī)器人向左轉(zhuǎn)彎、體感游戲中設(shè)定的舞蹈動作等.使用傳統(tǒng)的手工特征提取方法,通常需要自建動作模板庫,每類動作只有少數(shù)幾個樣本,算法的識別精度很大程度上取決于模板庫的優(yōu)劣,而增加模板庫的樣本,則會大大增加識別時間.基于深度學(xué)習(xí)的動作識別方法能夠使用神經(jīng)網(wǎng)絡(luò)從大量樣本中學(xué)習(xí),利用訓(xùn)練好的模型,對輸入的數(shù)據(jù)進(jìn)行預(yù)測,具有較高的動作識別準(zhǔn)確率.現(xiàn)有常用于深度學(xué)習(xí)的數(shù)據(jù)集,如NTU RGB-D[10]、NTU RGB-D 120[29],Kinetics[11]等,雖然包含大量的日常生活動作,但能夠用于人機(jī)交互的動作較少;另外如G3D[30],MSR Action3D[31]等數(shù)據(jù)集,主要為人機(jī)交互動作,但采集這些數(shù)據(jù)集的設(shè)備大多已未再使用,現(xiàn)在大多數(shù)的人機(jī)交互實驗都使用深度傳感器設(shè)備或者姿勢估計算法采集人體骨骼數(shù)據(jù).

      4.1.2 Interactive action(IA RGB-D)數(shù)據(jù)集

      為了更好的研究動作識別在人機(jī)交互中的應(yīng)用,創(chuàng)建了Interactive action(IA RGB-D)數(shù)據(jù)集,并且在公開網(wǎng)站上發(fā)布[注]https://github.com/MosasaurYi/IA-RGB-D.該數(shù)據(jù)集按照NTU RGB-D數(shù)據(jù)集的標(biāo)準(zhǔn)建立,使用KinectV2采集骨骼關(guān)節(jié)點數(shù)據(jù),主要包含了人體25個關(guān)節(jié)點的三維坐標(biāo).

      IA RGB-D數(shù)據(jù)集包括以下內(nèi)容:

      受試者:有20名受試者參與本次數(shù)據(jù)集的采集,他們年齡在18-30歲之間,擁有不同的身高、體型和性別,在數(shù)據(jù)集中以P001-P020進(jìn)行編號.針對每一個受試者,在開闊的場地中,使用一臺KinectV2采集數(shù)據(jù),這一點與NTU RGB-D中使用3臺設(shè)備進(jìn)行采集不同,在數(shù)據(jù)集中以C001進(jìn)行編號.每個受試者會對每一個動作執(zhí)行三遍,在數(shù)據(jù)集中以R001-R003編號.

      交互動作:選取了10個常用的人機(jī)交互動作進(jìn)行錄制,這些動作具有較強(qiáng)的分辨度,能夠很好的使用到人機(jī)交互的應(yīng)用中,這些動作包括有:平舉雙手、抬起左手、抬起右手、雙手畫叉、抬起左腳、抬起右腳、蹲下、揮拳、雙手合十、揮手,在數(shù)據(jù)集中以A001-A010編號.

      傳感器設(shè)置:從NTU RGB-D中Kinect設(shè)備高度和距離的組合中選取了6組能夠很好用于人機(jī)交互場景的設(shè)置編號,具體的配置如表1所示.在數(shù)據(jù)集中以S001-S006來編號.

      表1 Kinect傳感器高度與距離配置表Table 1 Height and distance configuration of Kinect sensor

      數(shù)據(jù)文件:針對每一組數(shù)據(jù),即由一個受試者在某一傳感器配置下完成一次一個動作所產(chǎn)生的所有數(shù)據(jù),以詳細(xì)的編號格式作為文件名,如S001C001P001R001A001.文件以TXT文本文件形式存儲,第1行存儲該動作所有幀的個數(shù),之后按照幀的順序,以第1行為當(dāng)前幀數(shù),后面25行按照關(guān)節(jié)點順序排列,以此循環(huán)存儲所有幀的信息.采用了KinectV2標(biāo)準(zhǔn)的人體骨骼關(guān)節(jié)點編號順序,如圖1(a)所示,每一行存儲關(guān)節(jié)點的三維坐標(biāo).所采集的數(shù)據(jù)直接由Kinect SDK獲取,沒有做任何的修改,所有的操作包括數(shù)據(jù)歸一化等等均在實驗階段完成.使用Unity3D搭建采集軟件,使用了Kinectv2.9.unitypackage插件,在開闊無遮擋的環(huán)境中采集所有數(shù)據(jù).

      4.2 消融實驗

      本文使用近幾年公開的基于骨骼關(guān)節(jié)點的神經(jīng)網(wǎng)絡(luò)來對IA RGB-D數(shù)據(jù)集進(jìn)行訓(xùn)練與測試,其中在數(shù)據(jù)處理階段,采用NTU RGB-D相同的歸一化處理方法,即將相機(jī)坐標(biāo)系轉(zhuǎn)換為人體關(guān)節(jié)坐標(biāo)系,人體關(guān)節(jié)圖如圖1(a),首先定義1號關(guān)節(jié)點為坐標(biāo)原點,然后將4號關(guān)節(jié)點與8號關(guān)節(jié)點相連作為X軸,1號關(guān)節(jié)點與0號關(guān)節(jié)點相連作為Y軸,以X×Y軸為基礎(chǔ)建立Z軸,最后,以1號關(guān)節(jié)點與0號關(guān)節(jié)點的距離為基礎(chǔ),來擴(kuò)展其他所有的關(guān)節(jié)點.

      4.2.1 IA RGB-D數(shù)據(jù)集實驗結(jié)果

      使用了7種神經(jīng)網(wǎng)絡(luò)來對IA RGB-D進(jìn)行訓(xùn)練與測試,未改動源代碼,只在數(shù)據(jù)處理階段適配了IA RGB-D的數(shù)據(jù)格式.使用15個受試者的數(shù)據(jù)即P001-P015作為訓(xùn)練集,剩下的作為測試集,記錄了準(zhǔn)確率最高epoch,用它的參數(shù)數(shù)據(jù)加載模型來進(jìn)行預(yù)測,并記錄了單個動作預(yù)測所需的平均時間.除此之外,還在NTU RGB-D的CS數(shù)據(jù)集上對本算法和其余7種神經(jīng)網(wǎng)絡(luò)算法的準(zhǔn)確率和單個動作運行時間進(jìn)行了測試,實驗結(jié)果如表2所示.

      表2 多種神經(jīng)網(wǎng)絡(luò)在IARGB-D數(shù)據(jù)集上的準(zhǔn)確率與預(yù)測單個動作的平均時間Table 2 Accuracy and prediction time of single action of various neural networks on IA RGB-D

      從實驗中可以看出,由于數(shù)據(jù)集的數(shù)據(jù)量降低,各個網(wǎng)絡(luò)在IA RGB-D的準(zhǔn)確率都在95%以上,其中ASCGN的準(zhǔn)確率最高,MS-G3D和GCN-NAS也擁有較高的準(zhǔn)確率.NTU RGB-D數(shù)據(jù)集包含了大量日常生活動作,只有少量可用于人機(jī)交互的動作,因此側(cè)重于交互動作識別的ASGCN網(wǎng)絡(luò),在NTURGB-D數(shù)據(jù)集準(zhǔn)確率有降下降,在該數(shù)據(jù)集上MS-G3D準(zhǔn)確率最高.在時間效率方面,網(wǎng)絡(luò)復(fù)雜度較高的ST-TR在兩個數(shù)據(jù)集上預(yù)測單個動作時間最長,而Shift-GCN和ASGCN網(wǎng)絡(luò)復(fù)雜度低,預(yù)測單個動作時間明顯少于其他算法.

      通過上述實驗,綜合驗證了IA RGB-D數(shù)據(jù)集的正確性和有效性,并且其他用戶可以根據(jù)自身的需求,增加該數(shù)據(jù)集的動作種類或采集單個動作數(shù)據(jù)用于預(yù)測,具有一定的普適性,在實時人機(jī)交互應(yīng)用中有積極的研究意義.

      4.2.2 Attention Shift Graph Convolution Network實驗結(jié)果與分析

      從表2中可知由于Shift-GCN的網(wǎng)絡(luò)復(fù)雜度較小,所以預(yù)測單個數(shù)據(jù)的時間也較少,而在注重實時交互的人機(jī)動作交互中,時間效率也是尤為重要的指標(biāo)之一.綜合準(zhǔn)確率和時間效率,本文選擇Shift-GCN作對比實驗.

      實驗環(huán)境采用NVIDIA TITAN RTX作為GPU和cuda9.2加速神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,操作系統(tǒng)為Windows10,使用Pytorch深度學(xué)習(xí)框架和VSCode軟件進(jìn)行開發(fā),實驗中所有訓(xùn)練的Batchsize為32,采用動量為0.9的隨機(jī)梯度下降算法進(jìn)行優(yōu)化,權(quán)重衰減為0.0001,網(wǎng)絡(luò)初始學(xué)習(xí)率設(shè)為0.1,epoch為60,學(xué)習(xí)率分別在20,40次訓(xùn)練時下降10%.ASGCN和Shift-GCN在IA RGB-D數(shù)據(jù)集上的詳細(xì)準(zhǔn)確率對比如圖5所示.

      圖5 準(zhǔn)確率對比Fig.5 Accuracy comparison

      由實驗結(jié)果可以看出,融入通道注意力的ASGCN在數(shù)據(jù)集上的準(zhǔn)確率上升了1%左右,并且在大部分的訓(xùn)練過程中準(zhǔn)確率都較Shift-GCN有所提升.

      除此之外,用兩者準(zhǔn)確率最高的參數(shù)值加載模型,然后用模型對測試集進(jìn)行測試,畫出了兩者的混淆矩陣,能夠更直觀地展示ASGCN對Shift-GCN的改進(jìn),如圖6所示.

      圖6 混淆矩陣Fig.6 Confusion matrix

      可以看出,ASGCN和Shift-GCN對IA RGB-D數(shù)據(jù)集中相似性較高的動作,如揮手和抬手,會產(chǎn)生識別錯誤.Shift-GCN對揮拳和雙手畫叉這類動作識別正確率較低,而ASGCN對這類動作的準(zhǔn)確率有了很大的提升.由這些對比中可以很好的驗證在IA數(shù)據(jù)集上,ASGCN擁有比Shift-GCN更好的性能.

      4.3 交互動作識別對比

      在實際人機(jī)交互的應(yīng)用中,動作交互大多還是采用的傳統(tǒng)的手工特征提取算法.本節(jié)將ASGCN與手工特征算法DTW在實時的人機(jī)交互應(yīng)用上面進(jìn)行了對比分析,實驗采用由Unity3D和Kinect for Unity插件搭建人機(jī)交互應(yīng)用,由深度傳感器統(tǒng)一采集數(shù)據(jù),對比識別準(zhǔn)確率和識別效率.

      本次實驗中,針對IA數(shù)據(jù)集中的10個動作進(jìn)行實驗,由20個受試者對每個動作進(jìn)行3次測試,每個動作共60次測試,記錄下了每個動作在兩種算法上的準(zhǔn)確率和平均識別時間,如表3所示.

      表3 DTW與ASGCN的準(zhǔn)確率與識別時間對比表Table 3 Comparison of accuracy and recognition time of DTW and ASGCN

      從表中可以看出,使用神經(jīng)網(wǎng)絡(luò)的方法在準(zhǔn)確率上比傳統(tǒng)的手工特征提取方法準(zhǔn)確率高很多,其中手工特征提取方法對蹲下,揮手,雙手畫叉,雙手合十等動作的識別率較差,主要是因為這類動作比較相似,在DTW算法的動作數(shù)據(jù)庫中每種動作只有3組標(biāo)準(zhǔn)動作來進(jìn)行對比,一些細(xì)微的動作差距,導(dǎo)致了在相似動作之間,識別準(zhǔn)確率并不高.還有如蹲下動作,由于動作幅度較大,數(shù)據(jù)采集過程中關(guān)節(jié)點的坐標(biāo)波動也更大,也導(dǎo)致了識別準(zhǔn)確率較為低下.而基于深度學(xué)習(xí)的方法,由于模型對大量的數(shù)據(jù)進(jìn)行了訓(xùn)練,能夠自動從采集的數(shù)據(jù)中收集特征,整體的準(zhǔn)確率較高,但是對一些過于相似動作如揮手和抬手,還是存在一些錯誤.總體而言,使用深度學(xué)習(xí)的方法運用在人機(jī)動作交互的應(yīng)用上面,識別效果比傳統(tǒng)的手工特征提取方法更加優(yōu)秀.

      5 結(jié) 語

      本文針對現(xiàn)有動作數(shù)據(jù)集中,對人機(jī)交互動作關(guān)注度較少等問題,創(chuàng)建了一種全新的交互動作數(shù)據(jù)集——IA RGB-D,該數(shù)據(jù)集由簡單的交互動作組成,對于人機(jī)交互應(yīng)用如體感游戲,機(jī)器人控制等做出了一定的貢獻(xiàn).用近幾年的優(yōu)秀的圖卷積神經(jīng)網(wǎng)絡(luò)對該數(shù)據(jù)集進(jìn)行訓(xùn)練與測試,驗證了其有效性,并針對其中準(zhǔn)確率與識別效率較高的位移圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行了改進(jìn),將高效通道注意力模塊融入其中,提出了一種基于注意力模型的位移神經(jīng)網(wǎng)絡(luò)(ASGCN).實驗證明,在IA RGB-D數(shù)據(jù)集上,所提出的ASGCN比原來的Shift-GCN有更高的準(zhǔn)確率,同時識別效率也是多種神經(jīng)網(wǎng)絡(luò)中較為優(yōu)秀的.同時將該模型與傳統(tǒng)手工特征提取方法在人機(jī)交互應(yīng)用上對比,本文的方法在準(zhǔn)確率上遠(yuǎn)遠(yuǎn)高于傳統(tǒng)的方法,但是由于神經(jīng)網(wǎng)絡(luò)的復(fù)雜,時間效率并未有太多的提升.在未來的工作中,會嘗試對基于深度學(xué)習(xí)方法的人機(jī)交互應(yīng)用的時間效率進(jìn)行優(yōu)化,并且對IA RGB-D數(shù)據(jù)集進(jìn)一步的擴(kuò)展,加入更多的交互動作.

      猜你喜歡
      關(guān)節(jié)點骨骼注意力
      讓注意力“飛”回來
      做家務(wù)的女性骨骼更強(qiáng)壯
      中老年保健(2021年5期)2021-12-02 15:48:21
      三減三健全民行動——健康骨骼
      中老年保健(2021年5期)2021-08-24 07:06:28
      基于深度學(xué)習(xí)和視覺檢測的地鐵違規(guī)行為預(yù)警系統(tǒng)研究與應(yīng)用
      關(guān)節(jié)點連接歷史圖與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的雙人交互動作識別
      骨骼和肌肉
      小布老虎(2017年1期)2017-07-18 10:57:27
      搞好新形勢下軍營美術(shù)活動需把握的關(guān)節(jié)點
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      骨骼是如何生長的
      上杭县| 三门峡市| 四子王旗| 岳西县| 潞西市| 宁蒗| 无棣县| 长宁区| 临海市| 东宁县| 巧家县| 商洛市| 贡山| 临桂县| 湘乡市| 六盘水市| 马边| 武汉市| 贡山| 商都县| 青海省| 宁波市| 隆回县| 九江县| 高淳县| 漳浦县| 东乡县| 洛南县| 徐汇区| 登封市| 霍山县| 康马县| 白水县| 嘉义市| 五寨县| 沙洋县| 伊金霍洛旗| 抚顺市| 内乡县| 左云县| 梁山县|