• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于注意力機(jī)制的多模態(tài)人體行為識別算法

      2022-03-30 14:03:08宋真東楊國超馬玉鵬馮曉毅
      計算機(jī)測量與控制 2022年2期
      關(guān)鍵詞:雙流注意力卷積

      宋真東,楊國超,馬玉鵬,3,馮曉毅

      (1.西北工業(yè)大學(xué) 電子信息學(xué)院,西安 710129;2.陜西華明普泰醫(yī)療設(shè)備有限公司,西安 710119)3.河北師范大學(xué) 計算機(jī)與網(wǎng)絡(luò)空間安全學(xué)院,石家莊 050024;

      0 引言

      傳統(tǒng)的行為識別方法使用普通的RGB數(shù)據(jù)來進(jìn)行,但難以有效解決光照變化、背景復(fù)雜、遮擋等因素影響。近年來出現(xiàn)了許多方便操作、價格便宜的多模態(tài)攝像機(jī),通過彩色深度傳感器(RGB-D,Red、Green、Blue和Depth)[1]可以同時采集RGB圖像和Depth圖像,能夠提供彩色圖像不具備的三維運(yùn)動和結(jié)構(gòu)信息,為提高行為識別系統(tǒng)的魯棒性和準(zhǔn)確性提供有效支撐。因此,近年來基于RGB-D多模態(tài)數(shù)據(jù)的人體行為識別引起關(guān)注。

      深度學(xué)習(xí)在語言處理、計算機(jī)視覺和視頻理解等領(lǐng)域已有廣泛深入的應(yīng)用。K.Simonyan等人[2]提出的Two-Stream雙流網(wǎng)絡(luò)是深度學(xué)習(xí)的一個主流方向,該算法使用兩個并行的網(wǎng)絡(luò)分支分別學(xué)習(xí)視頻的空間特征和時間特征,以單幀的RGB圖像輸入網(wǎng)絡(luò)提取空間場景和目標(biāo)信息,將密集光流序列輸入網(wǎng)絡(luò)來學(xué)習(xí)時間特征,最后將兩個分支的判斷進(jìn)行融合得到分類結(jié)果。C.Feichtenhofer等人[3]在Two-Stream網(wǎng)絡(luò)的基礎(chǔ)上利用CNN網(wǎng)絡(luò)進(jìn)行時空特征融合,并將基礎(chǔ)網(wǎng)絡(luò)替換成VGG-16,提高了識別效果。Z.Liu等人[4]提出了3D卷積神經(jīng)網(wǎng)絡(luò)(3DCNN,3D-based deep convolutional neural network),3維卷積核相比2維卷積核多了一個時間維度,因此該網(wǎng)絡(luò)可以自動地學(xué)習(xí)時空特征,視頻描述子具有高效通用的特點(diǎn)。W.Du等人[5]將長短期記憶網(wǎng)絡(luò)(LSTM,long short-term memory)[6]與CNN結(jié)合提出了循環(huán)姿勢注意力網(wǎng)絡(luò)(RPAN,recurrent pose-attention network)算法,該算法包括特征生成、姿態(tài)注意機(jī)制和LSTM時序網(wǎng)絡(luò)三部分,LSTM解決了一般的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN,recurrent neural networks)[7]依賴前后長期信息的問題,適合提取時間維度特征。

      現(xiàn)有的行為識別方法主要是對視頻幀整體提取特征,沒有區(qū)分行為感興趣區(qū)域和靜止區(qū)域,且很多方法僅利用RGB單模態(tài)信息,因此,行為識別準(zhǔn)確性難以滿足實(shí)際需求。針對面向行為識別的區(qū)域檢測問題,本文借鑒生物視覺系統(tǒng)的注意力機(jī)制,結(jié)合3D卷積網(wǎng)絡(luò)構(gòu)建了基于注意力機(jī)制的3D卷積網(wǎng)絡(luò)(AM3DNet,attention mechanism 3D network),能有效提取與行為識別相關(guān)的肢體運(yùn)動部位特征。針對RGB圖像和Depth圖像多模態(tài)輸入及特征融合問題,提出了基于注意力機(jī)制的RGB-D雙流特征融合3D網(wǎng)絡(luò)(TAM3DNet,two-stream attention mechanism RGB-D feature fusion 3D network),RGB圖像和Depth圖像作為雙流網(wǎng)絡(luò)的輸入,主干網(wǎng)絡(luò)采用AM3DNet分別提取RGB圖像特征和Depth圖像特征,再將融合后的特征輸入網(wǎng)絡(luò)分類層,得到最終的行為識別結(jié)果。

      1 3D卷積和注意力機(jī)制

      1.1 3D卷積

      2D卷積提取單張靜止圖像的空間特征,適用于圖像的分類、檢測等任務(wù)。2D卷積在行為識別任務(wù)中對每一幀圖像分別提取空間特征,一個卷積核只能得到一個特征圖,這種卷積方式?jīng)]有考慮時間維度幀間的物體運(yùn)動信息,因此,2D卷積不適用于視頻和多幀圖像等具有時間維度信息的任務(wù)。

      為了提取視頻數(shù)據(jù)的時間維度特征,提出了3D卷積。3D卷積在卷積核中加入了時間維度,能同時提取視頻幀的空間和時間特征信息[8]。3D卷積與2D卷積的不同之處在于,輸入的數(shù)據(jù)和卷積核都增加了一個維度,多個連續(xù)的視頻幀組成一個立方體作為輸入,然后在立方體中運(yùn)用3D卷積核,卷積層中的每一個特征圖都是從上一層中多個連續(xù)幀提取得到。因此,3D卷積能捕捉到運(yùn)動信息,適用于行為識別任務(wù)。2D卷積和3D卷積操作如圖1所示。

      圖1

      1.2 注意力機(jī)制

      生物視覺系統(tǒng)通常不會關(guān)注場景中的所有區(qū)域,而是關(guān)注場景中的關(guān)鍵位置來獲取有用信息,這就是生物視覺的注意力機(jī)制[9-10]?;谧⒁饬C(jī)制的模型在深度學(xué)習(xí)的各個領(lǐng)域中廣泛應(yīng)用,可有效提高深度學(xué)習(xí)任務(wù)的性能。基于注意力機(jī)制的模型,首先快速掃描全局圖像得到重點(diǎn)關(guān)注的目標(biāo)區(qū)域,然后對這一區(qū)域集中注意力資源獲得更多關(guān)注目標(biāo)的細(xì)節(jié)信息,抑制周圍的無關(guān)信息,極大提高了視覺信息處理的效率和準(zhǔn)確度。

      近年來,深度學(xué)習(xí)與注意力機(jī)制結(jié)合的研究主要集中在使用掩碼(mask)來實(shí)現(xiàn)。掩碼的原理是通過一層新的權(quán)重,標(biāo)識出圖像中關(guān)鍵的特征,通過訓(xùn)練使神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)每張圖像中需要重點(diǎn)關(guān)注的區(qū)域,從而實(shí)現(xiàn)注意力機(jī)制。這種方式演化為兩種類型的注意力,一種是軟注意力(soft attention),另一種是強(qiáng)注意力(hard attention),以下分別介紹:

      1)軟注意力:軟注意力是確定性的注意力,更加關(guān)注區(qū)域[11]或通道,學(xué)習(xí)完成后可以直接通過網(wǎng)絡(luò)生成權(quán)重,保留所有特征分量進(jìn)行加權(quán)。最重要的一點(diǎn)是軟注意力是可微分的,首先可微分的注意力可以通過神經(jīng)網(wǎng)絡(luò)計算出梯度,然后梯度下降法通過目標(biāo)函數(shù)及相應(yīng)的優(yōu)化函數(shù)來學(xué)習(xí)注意力權(quán)重。

      2)強(qiáng)注意力:與軟注意力不同,強(qiáng)注意力更加關(guān)注像素點(diǎn)[12],圖像中每個點(diǎn)都可能得到注意力,而且強(qiáng)注意力更加強(qiáng)調(diào)動態(tài)變化,是一個隨機(jī)預(yù)測的過程,選取部分特征進(jìn)行加權(quán)。最關(guān)鍵的是強(qiáng)注意力是不可導(dǎo)的注意力,往往通過強(qiáng)化學(xué)習(xí)(reinforcement learning)來完成訓(xùn)練,強(qiáng)化學(xué)習(xí)通過收益函數(shù)(reward)來激勵,使模型關(guān)注局部的細(xì)節(jié)信息。

      2 模型與方法

      行為識別的關(guān)鍵問題在于準(zhǔn)確提取感興趣行為特征和多模態(tài)特征的有效融合,目前行為識別方法對圖像整體提取特征,沒有區(qū)分肢體運(yùn)動區(qū)域和其它區(qū)域[13],本文將注意力機(jī)制和3D卷積網(wǎng)絡(luò)相結(jié)合,使肢體運(yùn)動部位的特征作為重點(diǎn)。針對RGBD多模態(tài)特征有效融合問題,通過實(shí)驗(yàn)對比選擇特征層拼接融合方式,借鑒雙流網(wǎng)絡(luò)結(jié)構(gòu),用深度圖代替光流圖,提出基于注意力機(jī)制的雙流特征融合卷積網(wǎng)絡(luò)TA3D。

      2.1 基于注意力機(jī)制的3D卷積網(wǎng)絡(luò)

      視覺注意力機(jī)制本質(zhì)是在圖像的不同區(qū)域加上不同權(quán)重,使用注意力機(jī)制有利于提高行為識別判斷的準(zhǔn)確性。常規(guī)的3D卷積網(wǎng)絡(luò)對視頻幀所有空間區(qū)域的作用是一致的,不能區(qū)分運(yùn)動區(qū)域和非運(yùn)動區(qū)域。本文提出的結(jié)合注意力機(jī)制的3D卷積網(wǎng)絡(luò)對模型的學(xué)習(xí)能力進(jìn)行分配,使圖像中與行為識別相關(guān)的區(qū)域權(quán)重增大,降低無關(guān)區(qū)域的權(quán)重。視覺注意力模塊如圖2所示。

      圖2 視覺注意力模塊

      其中:Xt表示第t幀視頻幀通過CNN卷積網(wǎng)絡(luò)后得到的特征圖,尺寸為K×K×C,其中K代表特征圖的空間大小,C代表特征圖的通道維度。lt表示對應(yīng)于第t幀的注意力圖,其為K×K的向量。將注意力圖和卷積圖通過加權(quán)相結(jié)合后得到輸出xt,如式(1)所示,然后將xt輸入到后續(xù)網(wǎng)絡(luò)中,得到的輸出經(jīng)過非線性變換后作為網(wǎng)絡(luò)當(dāng)前時刻的輸出。

      (1)

      式中,Xt是t時刻的特征立方體,Xt,i是t時刻特征立方體的第i個切片。lt,i是t時刻注意力圖的第i個權(quán)值向量,得到的xt是大小為C的特征向量,其中C是特征圖的通道維度。卷積神經(jīng)網(wǎng)絡(luò)輸出的特征圖尺寸為K×K×C,如果沿著特征圖的空間維度展開,可以當(dāng)成是K×K個d維的向量,相當(dāng)于將特征圖分塊表示,每個向量對應(yīng)輸入視頻幀不同區(qū)域的特征值。如圖1所示,為了與特征圖相結(jié)合,注意力圖的尺寸應(yīng)該與特征圖空間尺寸一致,且注意力圖不同部位的向量大小表示對應(yīng)特征圖區(qū)域的權(quán)重大小。經(jīng)過加權(quán)運(yùn)算后,加強(qiáng)運(yùn)動區(qū)域的卷積特征,減弱背景和靜止區(qū)域的卷積特征。

      由于注意力機(jī)制在計算機(jī)視覺領(lǐng)域特別是視頻分類識別方面具有較大優(yōu)勢,本文將注意力機(jī)制(AM,attention mechanism)與原始3D卷積網(wǎng)絡(luò)相結(jié)合:在3D卷積層后加入注意力層,使用自注意力機(jī)制計算注意力圖,其余網(wǎng)絡(luò)結(jié)構(gòu)不變,如圖 3所示。本文將改進(jìn)后的網(wǎng)絡(luò)命名為注意力機(jī)制3D卷積網(wǎng)絡(luò)(AM3DNet,attention mechanism 3D network),該網(wǎng)絡(luò)首先通過3D卷積層提取視頻幀序列的特征圖,然后將視頻幀序列特征圖輸入注意力模塊獲得當(dāng)前輸入的注意力圖,之后將序列特征圖和與之對應(yīng)的注意力圖加權(quán)融合后得到加權(quán)特征,從而加強(qiáng)對當(dāng)前行為識別任務(wù)重要的肢體運(yùn)動區(qū)域特征并且抑制不重要的區(qū)域特征,再將加權(quán)后的特征輸入后續(xù)3D卷積層和全連接層,最后通過Softmax層得到行為類別預(yù)測結(jié)果。該網(wǎng)絡(luò)通過學(xué)習(xí)特征空間不同區(qū)域的權(quán)重分布,使網(wǎng)絡(luò)專注于對行為識別有意義的肢體運(yùn)動部位,可提高行為識別網(wǎng)絡(luò)的性能。

      圖3 AM3DNet結(jié)構(gòu)示意圖

      注意力圖是由嵌入在網(wǎng)絡(luò)中的注意力層得到,目的是動態(tài)地估計不同視頻幀之間的顯著性和相關(guān)性[14],假設(shè)視頻幀經(jīng)過前端3D卷積層后得到的特征圖F尺寸為K×K×C,C為通道數(shù)。注意力層是1×1×1的3D卷積核,在特征圖(i,j)處的單位立方體Fij內(nèi)進(jìn)行卷積得到值A(chǔ)ij,該值代表原始視頻幀中對應(yīng)區(qū)域的權(quán)重,所有區(qū)域的權(quán)重值組合為一個尺寸與特征圖相同的矩陣A,區(qū)域注意力權(quán)重Aij的計算如式(2)所示:

      Aij=Sigmoid(WijFij+bij)

      (2)

      圖5 TAM3DNet結(jié)構(gòu)示意圖

      式中,Wij是變換矩陣,F(xiàn)ij是(i,j)處的特征向量,bij是偏置項(xiàng),使用Sigmoid函數(shù)作為激活函數(shù)將注意力權(quán)重約束在[0,1]區(qū)間內(nèi),注意力權(quán)重矩陣A與特征圖F逐項(xiàng)相乘后得到加權(quán)特征圖,然后輸入后續(xù)網(wǎng)絡(luò)進(jìn)行特征提取和分類。該網(wǎng)絡(luò)使用的損失函數(shù)如式(3)所示:

      (3)

      式中,第一項(xiàng)為交叉熵?fù)p失函數(shù),是分類問題中常用的損失函數(shù),其中yt是數(shù)據(jù)標(biāo)簽向量, 是t時刻的類別概率向量,T代表總的時間步數(shù),C代表輸出的類別數(shù)。第二項(xiàng)為隨機(jī)懲罰項(xiàng),λ是注意力懲罰系數(shù),括號內(nèi)是視頻幀中第i個區(qū)域?qū)?yīng)注意力圖的權(quán)重值,其在所有區(qū)域內(nèi)的和為1。

      2.2 RGB-D雙流網(wǎng)絡(luò)的融合方式

      多模態(tài)數(shù)據(jù)的網(wǎng)絡(luò)融合方式主要分為特征層融合和決策層融合[15-16]。其中,特征層融合是指多個網(wǎng)絡(luò)分支學(xué)習(xí)的特征融合在一起,然后將融合后的特征輸入分類器得到分類結(jié)果。決策層融合是指在預(yù)測級別進(jìn)行融合,多個獨(dú)立網(wǎng)絡(luò)訓(xùn)練后得到不同模型,測試時每個模型都會得到預(yù)測分?jǐn)?shù),將預(yù)測分?jǐn)?shù)進(jìn)行融合后得到最終的預(yù)測結(jié)果。

      本文通過實(shí)驗(yàn)選擇特征層融合,即首先將RGB圖像和Depth圖像分別輸入網(wǎng)絡(luò)中,獲得RGB圖像的特征與Depth圖像的特征;然后兩種特征在通道維度上進(jìn)行融合,得到融合后特征;最后將融合后特征輸入分類器中得到預(yù)測結(jié)果。特征層融合機(jī)制如圖4所示。

      圖4 特征層融合機(jī)制

      2.3 基于注意力機(jī)制的RGB-D雙流特征融合3D網(wǎng)絡(luò)

      RGB-D圖像兩種模態(tài)作為輸入,借鑒Two-Stream網(wǎng)絡(luò)的結(jié)構(gòu)[17],本文在AM3DNet的基礎(chǔ)上提出了基于注意力機(jī)制的RGB-D雙流特征融合3D網(wǎng)絡(luò)(TAM3DNet,two-stream attention mechansim RGB-D feature fusion 3D network),其為結(jié)合注意力的雙流特征融合網(wǎng)絡(luò),TA3D的結(jié)構(gòu)如圖5所示。首先將RGB數(shù)據(jù)和Depth數(shù)據(jù)預(yù)處理后作為雙流網(wǎng)絡(luò)兩條流的輸入,主干網(wǎng)絡(luò)使用結(jié)合注意力機(jī)制的AM3D卷積網(wǎng)絡(luò),將注意力層嵌入卷積層后,分別提取兩類數(shù)據(jù)的注意力加權(quán)特征。TAM3D網(wǎng)絡(luò)選擇特征拼接方式將RGB和Depth圖像的注意力加權(quán)特征進(jìn)行融合,最后將融合特征輸入分類層得到分類結(jié)果。

      表1 TAM3DNet模型參數(shù)

      (4)

      如果網(wǎng)絡(luò)是批量輸入的,假設(shè)batch的樣本數(shù)為m,則對應(yīng)于一個batch批量的整體損失loss計算如式(5)所示:

      (5)

      本文提出的TAM3DNet分別在雙流網(wǎng)絡(luò)的兩個分支中計算各自的交叉熵,然后將兩類交叉熵?fù)p失之和作為TAM3DNet整體的損失函數(shù),針對該損失函數(shù)采用Adagrad優(yōu)化器進(jìn)行優(yōu)化,尋找損失之和盡可能小的最優(yōu)參數(shù)值。

      基于注意力機(jī)制的雙流特征融合卷積網(wǎng)絡(luò)TAM3DNet參數(shù)如表1所示。

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 數(shù)據(jù)集

      3.1.1 MSR DailyAction3D數(shù)據(jù)集

      MSR DailyAction 3D(MSRDA)日常行為數(shù)據(jù)集是由微軟的Wang等人[18]在雷德蒙研究院建立,該數(shù)據(jù)集由10個不同的人執(zhí)行16類日常行為動作得到。16類行為分別為:喝水、吃東西、讀書、打電話、寫字、歡呼、靜坐、使用筆記本電腦、使用吸塵器、走路、彈吉他、扔紙、打游戲、躺在沙發(fā)上、站起來、坐下,該數(shù)據(jù)集記錄了執(zhí)行每個動作的RGB視頻,以及動作對應(yīng)的Depth圖像和20個骨架節(jié)點(diǎn)的空間位置信息。該數(shù)據(jù)集每種模態(tài)包括10×2×16=320個樣本,數(shù)據(jù)集的3種模態(tài)總共有960個樣本。

      3.1.2 NPUAction自建數(shù)據(jù)集

      NPUAction數(shù)據(jù)集由16個人執(zhí)行7類運(yùn)動相關(guān)動作得到,包括:舉手、展臂、揮手、搖頭、打電話、彎腰、轉(zhuǎn)身。3D傳感攝像頭拍攝得到RGB視頻片段,同時將Depth圖像保存為oni格式。由于拍攝得到的是連續(xù)執(zhí)行7類動作的整段視頻,不符合深度學(xué)習(xí)數(shù)據(jù)按類別存放的要求,所以人工將整段視頻按照行為類別剪輯為7段短視頻,每段時長在10秒鐘左右,并按照類別和人物的順序依次命名,總共得到224段RGB視頻樣本。

      3.2 實(shí)驗(yàn)環(huán)境

      由于視頻處理問題需要大量的計算資源,本文選擇在性能強(qiáng)大的Linux系統(tǒng)上運(yùn)行,版本為Ubuntu 18.04 LTS,運(yùn)行環(huán)境為Python3.6,使用RTX 2070顯卡進(jìn)行運(yùn)算,CUDA9.0并行計算架構(gòu)能加快運(yùn)算速度,開發(fā)工具為Visual Studio Code,深度學(xué)習(xí)框架為GPU版本的Tensorflow 1.8.0。

      3.3 與主流方法對比實(shí)驗(yàn)及結(jié)果

      為了比較本文提出的基于注意力機(jī)制的RGB-D雙流特征融合3D卷積網(wǎng)絡(luò)TAM3DNet與目前主流行為識別算法的性能,在公開的RGBD數(shù)據(jù)集MSR DailyAction 3D日常行為數(shù)據(jù)集和自制NPUAction數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。

      3.3.1 MSR DailyAction 3D數(shù)據(jù)集

      在MSR DailyAction3D數(shù)據(jù)集上訓(xùn)練TA3D網(wǎng)絡(luò)模型,對測試集進(jìn)行多次測試并取準(zhǔn)確率平均值,實(shí)驗(yàn)結(jié)果與改進(jìn)密集軌跡算法iDT[19]和時間段網(wǎng)絡(luò)TSN[20]的準(zhǔn)確率對比如表2所示。

      表2 MSR DailyAction 3D數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果

      由實(shí)驗(yàn)結(jié)果表2可以看出,本文提出的TAM3DNet在公開的MSR DailyAction3D日常行為數(shù)據(jù)集上取得了92.19%的識別準(zhǔn)確率,與傳統(tǒng)算法iDT相比識別準(zhǔn)確率提高6.25%,與深度學(xué)習(xí)算法TSN相比提高3.13%,該結(jié)果說明本文提出的基于注意力機(jī)制的RGB-D雙流特征融合3D卷積網(wǎng)絡(luò)在RGBD數(shù)據(jù)行為識別問題上達(dá)到了目前先進(jìn)水平。在MSRDailyAction 3D數(shù)據(jù)集上訓(xùn)練過程的特征圖如圖6所示。

      圖6 可視化訓(xùn)練特征圖

      3.3.2 NPUAction數(shù)據(jù)集

      為了證明本文提出的基于注意力機(jī)制的雙流特征融合卷積網(wǎng)絡(luò)TAM3DNet在智慧客廳場景中的識別效果,使用NPUAction數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),得到整體準(zhǔn)確率和每種類別準(zhǔn)確率如圖7所示。

      圖7 NPUAction按類別的識別準(zhǔn)確率

      由實(shí)驗(yàn)結(jié)果總結(jié)得到,本文提出的TAM3DNet在自建場景數(shù)據(jù)集NPUAction上的整體識別準(zhǔn)確率達(dá)到了94.05%,由于公開數(shù)據(jù)集是在普通室內(nèi)場景中采集的,視頻背景光照情況復(fù)雜,存在人物遮擋影響,自建RGB-D數(shù)據(jù)集是在實(shí)驗(yàn)室模擬環(huán)境下采集的,光照和角度可控,更符合本文研究的智慧客廳場景。由圖5可以看出不同行為的識別準(zhǔn)確率差別較大,動作幅度較小的搖頭、打電話等動作準(zhǔn)確率較低,幅度較大的舉手、彎腰等動作識別準(zhǔn)確率較高,這個結(jié)果也符合視覺系統(tǒng)容易識別大幅度動作的機(jī)理,同時也驗(yàn)證了肢體運(yùn)動部位對行為識別的重要性。實(shí)驗(yàn)結(jié)果表明,本文提出的TAM3DNet在智慧客廳場景中是一個高效的RGBD多模態(tài)數(shù)據(jù)端到端行為識別網(wǎng)絡(luò)。

      3.4 注意力機(jī)制實(shí)驗(yàn)及分析

      計算機(jī)視覺中的注意力機(jī)制是賦予神經(jīng)網(wǎng)絡(luò)"注意力"能力,使其能集中與圖像重點(diǎn)區(qū)域而忽略無關(guān)信息。為驗(yàn)證注意力機(jī)制對人體行為識別所帶來的性能提升,在MSR DailyAction 3D數(shù)據(jù)集和NPUAction數(shù)據(jù)上,分別針對三通道RGB圖像、四通道RGBD圖像以及RGB-D雙流特征融合網(wǎng)絡(luò)進(jìn)行消融實(shí)驗(yàn)。

      從實(shí)驗(yàn)結(jié)果可以看出,基于注意力機(jī)制的RGB-D雙流特征融合網(wǎng)絡(luò)TAM3DNet獲得了最好識別結(jié)果。在三通道、四通道和RGB-D雙流輸入中,通過增加注意力機(jī)制(AM)均能提升識別結(jié)果的準(zhǔn)確率,從而驗(yàn)證了注意力機(jī)制的有效性。四通道RGBD輸入是由Depth圖像與RGB圖像拼接組成,RGB圖像與Depth圖像是由兩個攝像頭獨(dú)立采集得到,成像原理、幀率以及保存格式據(jù)不相同,即便是在融合時進(jìn)行歸一化處理,仍不能保證兩種圖像準(zhǔn)確對齊,導(dǎo)致拼接融合后的識別結(jié)果低于三通道數(shù)據(jù)。同時也說明了RGB圖像與Depth圖像的雙流特征融合方式的可靠性。

      表3 注意力機(jī)制的消融實(shí)驗(yàn)

      3.5 RGB-D雙流網(wǎng)絡(luò)融合方式實(shí)驗(yàn)及分析

      多模態(tài)的融合方式有特征層融合和決策層融合兩種。為了對比決策層融合與特征層融合方式的優(yōu)劣,使用NPUAction數(shù)據(jù)集進(jìn)行兩種融合方式對比實(shí)驗(yàn),同時輸入RGB圖像與Depth圖像,首先分別對兩類數(shù)據(jù)預(yù)處理,獲取所有視頻幀文件的索引,并以4:1的比例劃分為訓(xùn)練集和測試集,索引中每行文件的類別要保持一致,才能保證每次輸入兩條流的數(shù)據(jù)是同一行為類別的數(shù)據(jù),對網(wǎng)絡(luò)進(jìn)行有效訓(xùn)練。clip length取16,即每次從文件中抽取16個視頻幀作為一個樣本輸入模型。

      由于雙流模型的數(shù)據(jù)量相對于單流模型大大增加了,限于計算機(jī)的硬件條件,本實(shí)驗(yàn)將batch_size設(shè)置為2,即每次為訓(xùn)練和測試從硬盤上讀取2個視頻文件,每個視頻取16幀圖像,組成2個clips作為每條流網(wǎng)絡(luò)的輸入。NPUAction數(shù)據(jù)集共有7類行為,將num_class設(shè)置為7,每幀統(tǒng)一裁剪為112×112的大小。RGB數(shù)據(jù)的通道數(shù)設(shè)置為3,Depth數(shù)據(jù)的通道數(shù)設(shè)置為1,對應(yīng)的網(wǎng)絡(luò)通道數(shù)也作出相應(yīng)改變。初始學(xué)習(xí)率設(shè)置為0.000 01,設(shè)置自適應(yīng)的學(xué)習(xí)率衰減系數(shù)為0.5,即隨著訓(xùn)練次數(shù)增加學(xué)習(xí)率逐漸衰減。網(wǎng)絡(luò)整體損失是兩條流的損失之和,采用Adagrad優(yōu)化器進(jìn)行網(wǎng)絡(luò)優(yōu)化,尋找損失之和的全局最優(yōu)點(diǎn)。將訓(xùn)練過程保存在指定文件中,并實(shí)現(xiàn)訓(xùn)練過程可視化,兩種融合方式的訓(xùn)練過程如圖8所示。

      圖8 特征層融合與決策層融合訓(xùn)練過程

      本實(shí)驗(yàn)的max_to_keep為5,即每次訓(xùn)練保存最近的5個模型,輸入測試集依次對每個模型進(jìn)行測試。每個模型測試10次并記錄每次的正確率和損失,取10次的平均值作為最終的結(jié)果,NPUAction數(shù)據(jù)集在兩種融合方式的網(wǎng)絡(luò)中平均測試準(zhǔn)確率如表4所示。然后對每一類行為分別進(jìn)行測試,得出NPUAction數(shù)據(jù)集在兩種融合方式下按行為類別的識別準(zhǔn)確率比較圖,如圖6所示。

      表4 兩種融合方式在NPUAction數(shù)據(jù)集上的結(jié)果

      由實(shí)驗(yàn)結(jié)果可以得到,雙流融合中準(zhǔn)確率較低的決策加權(quán)融合網(wǎng)絡(luò)比單流網(wǎng)絡(luò)中表現(xiàn)最好的三通道數(shù)據(jù)88.75%的準(zhǔn)確率高出0.54%,說明了雙流網(wǎng)絡(luò)能有效融合RGBD數(shù)據(jù)中兩種模態(tài)數(shù)據(jù)的優(yōu)勢,提高了行為識別的性能。特征拼接融合方式的準(zhǔn)確率比決策加權(quán)融合方式高出4.76個百分點(diǎn),取得了94.05%的準(zhǔn)確率,達(dá)到了目前主流行為識別算法的水平。

      4 結(jié)束語

      本文首先在原始3D卷積網(wǎng)絡(luò)中結(jié)合注意力機(jī)制得到AM3D網(wǎng)絡(luò),注意力機(jī)制對不同區(qū)域賦予不同的權(quán)重,有利于提高行為識別網(wǎng)絡(luò)的性能。提出了TAM3D網(wǎng)絡(luò),將RGB和Depth兩種模態(tài)數(shù)據(jù)分別作為雙流網(wǎng)絡(luò)兩個分支的輸入,主干網(wǎng)絡(luò)使用結(jié)合注意力機(jī)制的AM3D,再將融合后的特征輸入網(wǎng)絡(luò)分類層,最終得到行為識別結(jié)果。實(shí)驗(yàn)結(jié)果表明,本文提出的TAM3D算法在公開的RGB-D日常行為數(shù)據(jù)集上與傳統(tǒng)算法iDT相比識別準(zhǔn)確率提高6.25%,與深度學(xué)習(xí)算法TSN相比提高3.13%,在自建智慧客廳場景RGB-D數(shù)據(jù)集上達(dá)到了94.05%的準(zhǔn)確率,取得了較好的識別效果。

      猜你喜歡
      雙流注意力卷積
      方一帆
      四川省成都市雙流區(qū)東升迎春小學(xué)
      讓注意力“飛”回來
      基于3D-Winograd的快速卷積算法設(shè)計及FPGA實(shí)現(xiàn)
      雙流板坯側(cè)面鼓肚與邊角掛鋼原因與對策
      四川省成都雙流中學(xué)實(shí)驗(yàn)學(xué)校
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      阿拉善盟| 理塘县| 沐川县| 前郭尔| 宝坻区| 康平县| 蒲江县| 台中县| 锦州市| 高青县| 阜南县| 芦溪县| 海盐县| 梅河口市| 甘孜| 横山县| 华坪县| 九寨沟县| 防城港市| 汤原县| 天津市| 子长县| 芦山县| 全州县| 平顶山市| 龙南县| 玉环县| 宜兰县| 城口县| 怀宁县| 寿宁县| 天水市| 安阳县| 康保县| 铜梁县| 二连浩特市| 临夏市| 乌审旗| 沅陵县| 大荔县| 西贡区|