姜權(quán)晏,吳小俊,徐天陽
江南大學(xué)人工智能與計(jì)算機(jī)學(xué)院,無錫 214122
行為識(shí)別任務(wù)的本質(zhì)是分析視頻動(dòng)作并將其準(zhǔn)確分類。由于人與對(duì)象交互的多樣性及時(shí)空推理的復(fù)雜性,深度網(wǎng)絡(luò)在行為分析領(lǐng)域的研究進(jìn)展緩慢。行為識(shí)別任務(wù)中的核心需求是捕獲復(fù)雜的空間信息及動(dòng)態(tài)信息,并在高效處理視頻數(shù)據(jù)的同時(shí)盡量使用較低的計(jì)算量。
與圖像分類任務(wù)不同,視頻信息的時(shí)間維度包含復(fù)雜多變的動(dòng)態(tài)信息,其很難通過神經(jīng)網(wǎng)絡(luò)進(jìn)行連貫的推理學(xué)習(xí)。從基于2維卷積神經(jīng)網(wǎng)絡(luò)的分類方法——時(shí)間分段網(wǎng)絡(luò)(temporal segment networks, TSN)(Wang等,2016)到3維卷積網(wǎng)絡(luò)(3D convolutional neural networks, C3D)(Tran等,2015)與雙流膨脹3維卷積網(wǎng)絡(luò)(two-stream inflated 3D convnets, I3D)(Carreira和Zisserman,2017),在網(wǎng)絡(luò)建模能力不斷提高的同時(shí),網(wǎng)絡(luò)復(fù)雜性的增加使行為識(shí)別領(lǐng)域的計(jì)算負(fù)擔(dān)逐步增加。如何降低計(jì)算成本逐漸成為研究中不可忽視的問題,行之有效的方法是在深度神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)中使用分解的3維卷積(Qiu等,2017)或組卷積(Tran等,2018)。這些方法在減少計(jì)算成本方面獲得了進(jìn)展,但缺乏同時(shí)捕獲時(shí)間、空間和通道維度依賴性的能力。
在基于骨架信息的行為識(shí)別任務(wù)中,除了自適應(yīng)骨骼中心算法(冉憲宇 等,2018),圖卷積網(wǎng)絡(luò)通過運(yùn)用圖結(jié)構(gòu)中的關(guān)聯(lián)信息大幅促進(jìn)了識(shí)別性能的提升,包括動(dòng)作圖卷積網(wǎng)絡(luò)(actional-structural graph convolutional networks,AS-GCN)(Li等,2019b)、時(shí)空?qǐng)D卷積網(wǎng)絡(luò)(spatial temporal graph convolutional networks,ST-GCN)(Yan等,2018)、雙流自適應(yīng)圖卷積網(wǎng)絡(luò)(two-stream adaptive graph convolutional networks,2s-AGCN)(Shi等,2019b)和有向圖神經(jīng)網(wǎng)絡(luò)(directed graph neural networks,DGCN)(Shi等,2019a)。該類方法的關(guān)鍵在于為骨架數(shù)據(jù)確定合適的圖形結(jié)構(gòu),以便圖卷積網(wǎng)絡(luò)能夠提取相關(guān)特征。然而,如何在圖卷積網(wǎng)絡(luò)中設(shè)計(jì)一種高效、靈活的多維特征嵌合模塊以融合各維度的依賴關(guān)系仍是一個(gè)尚未解決的問題,本文旨在沿該方向推進(jìn)包含空間、時(shí)間和通道維度在內(nèi)的注意力機(jī)制研究。
注意力機(jī)制已在計(jì)算機(jī)視覺領(lǐng)域得到廣泛應(yīng)用。例如,行為識(shí)別任務(wù)中的時(shí)空注意力網(wǎng)絡(luò)(Du等,2018)、機(jī)器翻譯任務(wù)中完全取代卷積神經(jīng)網(wǎng)絡(luò)的自注意力模型(Vaswani等,2017)、建立圖像中每對(duì)像素依賴性的非局部注意力網(wǎng)絡(luò)(Wang等,2018)以及通過全連接層學(xué)習(xí)上下文依賴關(guān)系的池化注意力網(wǎng)絡(luò)(Miech等,2018)。隨著國(guó)內(nèi)外學(xué)者對(duì)注意力機(jī)制進(jìn)行深入研究,融合兩種注意力機(jī)制的雙重注意力網(wǎng)絡(luò)逐漸大規(guī)模使用。例如,用于場(chǎng)景分割(Fu等,2019)、交互推理(Xiao等,2019)和行為識(shí)別(Woo等,2018)的雙重注意力網(wǎng)絡(luò)模型。
本文著重設(shè)計(jì)一種自適應(yīng)注意力機(jī)制,通過更加靈活簡(jiǎn)易的方式同時(shí)捕獲時(shí)空動(dòng)態(tài)信息及通道依賴信息。該注意力模型賦予原始特征相應(yīng)權(quán)重,豐富原始特征動(dòng)態(tài)信息并增大不同行為類間差異。區(qū)別于以往只能增強(qiáng)空域或時(shí)域信息的研究工作,該注意力機(jī)制可同時(shí)提高多個(gè)維度的特征表現(xiàn)能力。這種多維特征嵌合注意力機(jī)制(multi-dimensional feature fusion attention,M2FA)同時(shí)關(guān)注時(shí)域與空域的動(dòng)態(tài)信息和通道維度的上下文依賴關(guān)系,學(xué)習(xí)增強(qiáng)行為序列中的關(guān)鍵節(jié)點(diǎn)——“何時(shí)”、“何處”以及“何種依賴關(guān)系”。
為了驗(yàn)證M2FA的有效性,在NTU-RGBD(Shahroudy等,2016)和Kinetics-Skeleton(Yan等,2018)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),并通過將M2FA移植到不同的骨干圖卷積網(wǎng)絡(luò),驗(yàn)證其廣泛的有效性和適用性。使用M2FA的圖卷積網(wǎng)絡(luò)在基于骨架數(shù)據(jù)的行為識(shí)別任務(wù)中相較于其他同類型網(wǎng)絡(luò)獲得了明顯優(yōu)勢(shì),產(chǎn)生了顯著的性能提升。
本文主要貢獻(xiàn)如下:1)提出一種用于骨架行為識(shí)別的多維特征嵌合注意力機(jī)制M2FA,通過增強(qiáng)特征表現(xiàn)能力提高圖卷積網(wǎng)絡(luò)識(shí)別性能;2)M2FA同時(shí)捕獲時(shí)域和空域的動(dòng)態(tài)信息及通道維度蘊(yùn)含的上下文依賴關(guān)系,單個(gè)注意力模型即可增強(qiáng)多個(gè)維度的特征表現(xiàn)能力;3)M2FA同時(shí)參考全局信息和局部信息對(duì)特征權(quán)重的影響,通過不同感受野的信息融合增強(qiáng)原始特征;4)不同公開數(shù)據(jù)集實(shí)驗(yàn)結(jié)果顯示,M2FA應(yīng)用于不同圖卷積網(wǎng)絡(luò)架構(gòu)均能改善網(wǎng)絡(luò)識(shí)別能力。
由于在視頻分類及智能監(jiān)控等領(lǐng)域不可或缺的作用,行為識(shí)別一直是計(jì)算機(jī)視覺中重要的研究主題。例如,多特征融合算法(譚等泰 等,2020)在基于視頻數(shù)據(jù)的行為識(shí)別中結(jié)合多種特征壓縮原始數(shù)據(jù),獲得了更高的識(shí)別精度。與直接使用視頻數(shù)據(jù)不同,基于骨架數(shù)據(jù)提出了眾多不同的體系結(jié)構(gòu)。骨架數(shù)據(jù)使用人體關(guān)節(jié)在空間中的2維或3維坐標(biāo)表示人體,因此了解動(dòng)作序列中每個(gè)人體關(guān)節(jié)在時(shí)域及空域中的動(dòng)態(tài)變化至關(guān)重要。在單幀中連接相鄰關(guān)節(jié)點(diǎn)、在連續(xù)幀序列中連接代表相同位置的關(guān)節(jié)點(diǎn)構(gòu)造時(shí)空?qǐng)D結(jié)構(gòu)是一種簡(jiǎn)潔直觀建立時(shí)空依賴性的方法。AS-GCN(Li等,2019b)提出一種編碼器與解碼器聯(lián)合結(jié)構(gòu)捕獲動(dòng)作序列包含的潛在依賴關(guān)系。Shi等人(2019b)使用多分支架構(gòu)搭建雙流自適應(yīng)圖卷積網(wǎng)絡(luò)2s-AGCN,該框架同時(shí)考慮關(guān)節(jié)信息和骨骼信息。通過計(jì)算相鄰關(guān)節(jié)點(diǎn)坐標(biāo)的矢量差表示關(guān)節(jié)點(diǎn)之間的骨骼信息。雖然關(guān)節(jié)流信息和骨骼流信息共同豐富了圖卷積結(jié)構(gòu)中的空間信息,但在捕獲動(dòng)作序列中的運(yùn)動(dòng)信息上,單純?cè)黾有畔⒘鞑⒉荒芨咝У赝诰蜻B貫的空間信息中包含的動(dòng)態(tài)信息。因此,本文避免以大幅增加計(jì)算負(fù)擔(dān)為代價(jià)提高模型的準(zhǔn)確性,通過注意力機(jī)制充分挖掘特征映射中忽視的動(dòng)態(tài)信息及上下文依賴關(guān)系。
注意力模塊已經(jīng)廣泛應(yīng)用于大規(guī)模的分類任務(wù)中,它們往往通過捕獲上下文相關(guān)性來增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)的性能。SE-Net(squeeze-and-excitation networks)(Hu等,2018)通過建模輸入特征的通道間關(guān)系,得到不同通道的權(quán)重附加至原始輸入特征之上,達(dá)到了根據(jù)通道間關(guān)系進(jìn)行特征重標(biāo)定的目的。卷積塊注意力模塊(convolutional block attention module,CBAM)(Woo等,2018)通過添加最大池化推斷更精確的通道注意力,并結(jié)合空間注意力模塊形成雙流注意力機(jī)制。但以往應(yīng)用于卷積神經(jīng)網(wǎng)絡(luò)的注意力機(jī)制在基于骨架數(shù)據(jù)的圖卷積網(wǎng)絡(luò)中性能受到諸多限制,核心原因在于關(guān)節(jié)點(diǎn)信息與視頻像素信息不同,往往由工具箱分析視頻數(shù)據(jù)生成的人體關(guān)節(jié)坐標(biāo)序列構(gòu)成。盲目結(jié)合多種池化操作或應(yīng)用復(fù)雜的卷積層將凸顯骨架信息中的噪聲信息,降低不同動(dòng)作類別之間的差異表現(xiàn)。
CBAM(Woo等,2018)提出空間注意力模塊和通道注意力模塊共同強(qiáng)化圖像信息中蘊(yùn)含的空間及通道依賴性,兩種注意力模型應(yīng)用形式如圖1所示。
圖1 CBAM注意力模型結(jié)構(gòu)圖Fig.1 Diagram of convolutional block attention module
SE-Net只關(guān)注通道上下文依賴關(guān)系,而CBAM是一種結(jié)合空間與通道注意力機(jī)制的模塊。兩種注意力模型結(jié)合的方法是串聯(lián)處理輸入特征。除此之外,在場(chǎng)景分割任務(wù)中提出的雙重注意力網(wǎng)絡(luò)(Fu等,2019),其空間注意力模塊與通道注意力模塊采取了并聯(lián)處理輸入特征的結(jié)合方法。但上述方法本質(zhì)上都運(yùn)用多種關(guān)注不同維度的注意力模塊進(jìn)行堆疊,且雙重注意力機(jī)制的模式依舊不能滿足行為識(shí)別任務(wù)中同時(shí)捕獲多個(gè)維度之間依賴性的需求。即基于骨架數(shù)據(jù)的行為識(shí)別任務(wù)中,如何利用注意力機(jī)制獲取多維度依賴信息尚未得到深入研究。本文對(duì)于注意力機(jī)制的研究旨在僅通過一個(gè)包含多維特征嵌合模塊的注意力模型,捕獲以往雙重注意力模型難以提取的多維特征協(xié)同依賴信息,進(jìn)而增強(qiáng)圖卷積網(wǎng)絡(luò)的分類學(xué)習(xí)能力。
在基于視頻數(shù)據(jù)的行為識(shí)別框架中,如關(guān)鍵語義區(qū)域鏈框架(馬淼 等,2020),原始數(shù)據(jù)經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換為F∈RN×C×H×W×T的特征映射。其中,N代表數(shù)據(jù)批量大小,C表示特征映射的通道數(shù),H與W分別表示特征圖的高與寬,T表示視頻序列特有的時(shí)間維度。與原始視頻數(shù)據(jù)不同,骨架信息表示為X∈RN×C×T×V×M。其中N、C、T在特征映射中的含義不變。由于骨架信息與圖像信息性質(zhì)不同,C表示的維度在輸入圖卷積網(wǎng)絡(luò)之前由關(guān)節(jié)點(diǎn)的空間坐標(biāo)信息和置信度分?jǐn)?shù)組成,而V表示圖結(jié)構(gòu)中的關(guān)節(jié)點(diǎn)數(shù)目,M為在該序列中出現(xiàn)的最大有效人數(shù),通常固定M為2。因此,圖卷積網(wǎng)絡(luò)為了便于計(jì)算,通常將形如X的原始數(shù)據(jù)重塑為X′∈R(N×M)×C×T×V的形式,將N×M看做總數(shù)據(jù)批量大小。本文將圖卷積網(wǎng)絡(luò)中的特征映射維度簡(jiǎn)化表示為N×C×T×V。
(1)
(2)
時(shí)域特征描述符則映射了每一幀在當(dāng)前動(dòng)作序列中的重要程度,是包含動(dòng)態(tài)信息最豐富的維度。TSM(temporal shift module)(Lin等,2019)通過將特征映射在時(shí)間維度上錯(cuò)位移動(dòng)的方法使2維卷積網(wǎng)絡(luò)不增加計(jì)算負(fù)擔(dān)也能進(jìn)行時(shí)空建模。本文利用時(shí)間移位操作集成每一幀與相鄰幀之間的特征差異,以不增加模型復(fù)雜度的形式獲取更加豐富的動(dòng)態(tài)信息。移位操作的過程如圖2所示。
圖2 時(shí)間位移操作結(jié)構(gòu)圖Fig.2 Diagram of temporal shift operation
(3)
通過壓縮全局信息提取不同維度的特征描述符之后,將其輸入特征融合模塊,使評(píng)估時(shí)域信息、空域信息及通道上下文依賴信息的標(biāo)準(zhǔn)集成在同一個(gè)特征映射之中。該多維特征描述符融合模塊的結(jié)構(gòu)如圖3所示,圖中⊕代表通道維度的級(jí)聯(lián)操作。
圖3 特征融合操作結(jié)構(gòu)圖Fig.3 Diagram of feature fusion operation
(4)
卷積神經(jīng)網(wǎng)絡(luò)中的多尺度金字塔結(jié)構(gòu)(Chen等,2016)經(jīng)常用于融合多層特征獲取高分辨率語義特征。本文除了融合多維特征描述符以加強(qiáng)特征映射表現(xiàn)外,還通過嵌合多尺度特征達(dá)到全局與局部注意力機(jī)制相結(jié)合的效果。該多尺度特征嵌合模塊的結(jié)構(gòu)如圖4所示,圖中⊕代表兩個(gè)特征映射逐位相加,綠色區(qū)域表示多維特征描述符的融合過程,黃色區(qū)域表示多尺度特征嵌合模塊。
圖4 多尺度特征嵌合結(jié)構(gòu)圖Fig.4 Diagram of multi-scale feature fusion operation
由于特征描述符的提取計(jì)算中包含全局平均池化操作,多維特征描述符僅由各維度的全局壓縮信息構(gòu)建而缺乏局部信息與之相互補(bǔ)償。為了兼顧注意力機(jī)制的輕量級(jí),利用逐點(diǎn)卷積層從原始特征映射中直接學(xué)習(xí)局部上下文信息。將全局信息與局部信息構(gòu)建的特征映射逐位相加,從而嵌合多尺度特征,進(jìn)一步增強(qiáng)特征表現(xiàn)能力。獲取多維特征描述符是多尺度特征嵌合模塊的基礎(chǔ)。通過全局信息分支與局部信息分支的特征融合,多尺度嵌合特征Fscale∈RN×C×T×V的計(jì)算過程可概括為
(5)
通過上述多維特征描述符與經(jīng)過逐點(diǎn)卷積的原始特征映射進(jìn)行嵌合,新的融合特征同時(shí)具備多維度全局依賴信息和局部上下文信息。通過對(duì)該特征融合結(jié)果進(jìn)行批量標(biāo)準(zhǔn)化及激活處理,可以捕獲原始特征映射的注意力權(quán)重圖M∈RN×C×T×V,本文選取了sigmoid激活函數(shù)重置注意力權(quán)重的分布。對(duì)于給定的注意力權(quán)重圖M與原始輸入特征F,經(jīng)過多維特征嵌合注意力模型逐點(diǎn)重置權(quán)重的過程為
FM2FA=M?F=σ(BN(Fscale))?F
(6)
式中,?表示一一對(duì)應(yīng)的逐點(diǎn)相乘,F(xiàn)M2FA則是通過多維特征嵌合注意力機(jī)制增強(qiáng)后的特征映射。BN代表批量標(biāo)準(zhǔn)化操作,σ是sigmoid激活函數(shù)。
多維特征嵌合注意力模型不僅集成多個(gè)維度的特征描述符共同構(gòu)建關(guān)鍵幀、關(guān)鍵節(jié)點(diǎn)和關(guān)鍵上下文依賴關(guān)系,且同時(shí)嵌合局部信息與全局信息加強(qiáng)特征表示。M2FA的整體框架如圖5所示,多維特征嵌合注意力模型主要分為3個(gè)階段,即多維特征融合、多尺度特征嵌合以及注意力權(quán)重映射。多維特征嵌合注意力模型僅通過一次注意力權(quán)重映射即加強(qiáng)了以往雙重注意力機(jī)制忽略的多維依賴關(guān)系及局部信息,相比于其他類似CBAM應(yīng)用多個(gè)注意力權(quán)重映射的雙重注意力結(jié)構(gòu)(如圖1所示),M2FA避免多次應(yīng)用激活函數(shù),以防特征映射信息強(qiáng)度削弱。同時(shí),注意力模型整體僅由兩個(gè)逐點(diǎn)卷積層輔助融合特征信息,相比于其他類似SE-Net結(jié)構(gòu)的注意力機(jī)制堆疊多個(gè)全連接層,M2FA節(jié)省了額外的計(jì)算開銷。
本文提出的多維特征嵌合注意力機(jī)制可以無縫集成到基于骨架數(shù)據(jù)的行為識(shí)別網(wǎng)絡(luò)架構(gòu)中,有效提升網(wǎng)絡(luò)識(shí)別準(zhǔn)確率。注意力模塊與原始框架的集成方式如圖6所示。如圖6(a)所示,與普通卷積神經(jīng)網(wǎng)絡(luò)一樣,圖卷積網(wǎng)絡(luò)由多個(gè)圖卷積塊堆疊構(gòu)成,其中每個(gè)圖卷積塊包含如圖6(b)所示的圖卷積單元。在圖6(b)所示AGCN塊原始結(jié)構(gòu)中(Shi等,2019b),?表示殘差連接的逐位相加。每個(gè)AGCN圖卷積塊都由空間圖卷積與時(shí)間圖卷積共同構(gòu)成。輸入特征通過兩種圖卷積計(jì)算后都會(huì)歸一化并激活,且在兩種圖卷積單元之間添加dropout層可以有效避免網(wǎng)絡(luò)訓(xùn)練過擬合。M2FA在原始圖卷積塊中的具體疊加位置如圖6(c)所示,圖中?表示M2FA將注意力權(quán)重圖與原始AGCN圖卷積單元的輸出特征逐元素相乘,以達(dá)到強(qiáng)調(diào)或抑制相應(yīng)維度信息的目的。
圖5 多維特征嵌合注意力機(jī)制結(jié)構(gòu)圖Fig.5 Diagram of multi-dimensional feature fusion attention mechanism
圖6 M2FA與AGCN塊集成結(jié)構(gòu)圖Fig.6 M2FA integrated with AGCN blocks in 2s-AGCN((a) AGCN block; (b) AGCN unit; (c) M2FA integrated)
本文致力于通過多維特征嵌合注意力機(jī)制增強(qiáng)原始圖卷積網(wǎng)絡(luò)的特征映射表現(xiàn)能力。對(duì)于疊加M2FA模塊的基線方法,保持其原始網(wǎng)絡(luò)框架設(shè)定。如圖6(a)所示,2s-AGCN網(wǎng)絡(luò)(Shi等,2019b)由自適應(yīng)圖卷積塊堆疊而成,具體的圖卷積模塊堆疊方式及網(wǎng)絡(luò)構(gòu)成細(xì)節(jié)如圖7所示。2s-AGCN框架包括9個(gè)圖卷積模塊連接。批量歸一化層(batch normal-ization,BN)在網(wǎng)絡(luò)開始位置,用于規(guī)范化原始輸入數(shù)據(jù)。數(shù)據(jù)規(guī)范化操作后,使用一個(gè)特殊的不包含殘差連接的圖卷積模塊增加原始特征映射的通道數(shù)量。隨后將9個(gè)圖卷積模塊分成3組連續(xù)堆疊,每組包含3個(gè)圖卷積模塊,不同組的圖卷積模塊輸出通道數(shù)量依次為64、128和256。圖卷積網(wǎng)絡(luò)的初始步長(zhǎng)為1,如果卷積塊的輸入與輸出特征的通道數(shù)量不同,則將步長(zhǎng)提升為2。全局平均池化層放置在圖卷積模塊之后,用于強(qiáng)制不同的動(dòng)作序列樣本生成大小相同的特征圖。動(dòng)作序列分類結(jié)果由網(wǎng)絡(luò)末端的softmax分類器生成。
圖7 雙流自適應(yīng)圖卷積網(wǎng)絡(luò)(2s-AGCN)框架Fig.7 Illustration of the 2s-AGCN
為了驗(yàn)證本文提出的多維特征嵌合注意力機(jī)制的有效性,在兩個(gè)大型公開骨架數(shù)據(jù)集NTU-RGBD(Shahroudy等,2016)和Kinetics-Skeleton(Yan等,2018)上進(jìn)行實(shí)驗(yàn)。同時(shí),為了驗(yàn)證注意力機(jī)制在不同圖卷積網(wǎng)絡(luò)體系結(jié)構(gòu)中的普遍適用性,在Pytorch框架中重現(xiàn)了ST-GCN(Yan等,2018)與2s-AGCN(Shi等,2019b)網(wǎng)絡(luò),并通過在實(shí)驗(yàn)中添加注意力模塊對(duì)比識(shí)別準(zhǔn)確率。
消融實(shí)驗(yàn)在NTU-RGBD(Shahroudy等,2016)和Kinetics-Skeleton(Yan等,2018)數(shù)據(jù)集上進(jìn)行,采用2s-AGCN作為骨干網(wǎng)絡(luò)框架,評(píng)估每個(gè)特征融合模塊的效果。Kinetics-Skeleton數(shù)據(jù)集包含400個(gè)類別,30萬個(gè)人體動(dòng)作序列。NTU-RGBD數(shù)據(jù)集包含60個(gè)動(dòng)作類別,56 880個(gè)人體行為序列,分為Cross-Subject和Cross-View兩組基準(zhǔn)。Cross-Subject基準(zhǔn)的訓(xùn)練集和測(cè)試集分別包含40 320和16 560個(gè)動(dòng)作片段,Cross-View基準(zhǔn)的訓(xùn)練集和測(cè)試集分別包含37 920和18 960個(gè)動(dòng)作片段。
實(shí)驗(yàn)均使用兩個(gè)2080Ti GPU進(jìn)行。在NTU-RGBD的兩組基準(zhǔn)中,訓(xùn)練周期均為50,初始學(xué)習(xí)率為0.1,在第30個(gè)訓(xùn)練周期轉(zhuǎn)換為0.01,在第40個(gè)訓(xùn)練周期轉(zhuǎn)換為0.001。對(duì)于Kinetics-Skeleton數(shù)據(jù)集,網(wǎng)絡(luò)訓(xùn)練周期延長(zhǎng)為65,分別在第45和第55個(gè)訓(xùn)練周期衰減學(xué)習(xí)率。
M2FA由3部分構(gòu)成,分別是多維特征描述符融合、多尺度特征嵌合以及自適應(yīng)注意力機(jī)制的映射。消融實(shí)驗(yàn)的目的是驗(yàn)證多維特征嵌合注意力機(jī)制中每個(gè)組成部分的合理性。與2s-AGCN(Shi等,2019b)為了減少歧義采取的實(shí)驗(yàn)策略相同,本階段消融實(shí)驗(yàn)中標(biāo)示的AGCN與實(shí)驗(yàn)結(jié)果階段標(biāo)示的2s-AGCN代表的含義不同,AGCN表示基線方法僅采用單個(gè)信息流作為輸入數(shù)據(jù),而2s-AGCN代表同時(shí)將關(guān)節(jié)流信息和骨骼流信息作為輸入數(shù)據(jù)的雙流網(wǎng)絡(luò)架構(gòu)分類結(jié)果。為了驗(yàn)證多維特征嵌合結(jié)構(gòu)的合理性,使用單個(gè)信息流作為輸入可以有效避免雙流框架對(duì)融合策略的效果產(chǎn)生干擾。
3.2.1 多維度特征描述符的有效性驗(yàn)證
實(shí)驗(yàn)使用Kinetics-Skeleton的關(guān)節(jié)流數(shù)據(jù)驗(yàn)證融合多個(gè)維度特征描述符的有效性。為了防止局部上下文信息對(duì)特征映射的表現(xiàn)能力產(chǎn)生干擾,本階段采取的策略是僅使用多維特征描述符融合模塊及自適應(yīng)注意力圖映射模塊。通過控制參與特征描述符融合的維度數(shù)量驗(yàn)證融合策略的合理性。為了更直觀地驗(yàn)證M2FA作為注意力機(jī)制的優(yōu)勢(shì),對(duì)比骨干AGCN網(wǎng)絡(luò)與SE注意力模塊(Hu等,2018)結(jié)合的識(shí)別效果,獲得的測(cè)試集分類準(zhǔn)確率如表1所示,其中策略C、S、T分別表示注意力機(jī)制融合了通道(C)特征描述符、空域(S)特征描述符和時(shí)域(T)特征描述符。由表1可見,SE注意力機(jī)制對(duì)基于骨架數(shù)據(jù)的行為識(shí)別框架幫助有限,而如今應(yīng)用范圍較廣的自適應(yīng)注意力機(jī)制多啟發(fā)于SE注意力機(jī)制,其中包括CBAM等眾多雙重自適應(yīng)注意力機(jī)制。由此可見,研究多維特征嵌合注意力機(jī)制對(duì)基于骨架數(shù)據(jù)的行為識(shí)別任務(wù)來說至關(guān)重要。CBAM等雙重注意力框架僅融合SE通道注意力機(jī)制及空間注意力機(jī)制,而M2FA同時(shí)考慮特征映射的所有信息維度(時(shí)間、空間、通道)。對(duì)于視頻序列,CBAM等雙重注意力框架忽視了時(shí)間維度的動(dòng)態(tài)信息以及多尺度關(guān)聯(lián)信息。
表1 不同融合策略在Kinetics-Skeleton上的實(shí)驗(yàn)結(jié)果Table 1 Comparison of different fusion strategies on the Kinetics-Skeleton test set /%
如上所述,廣泛應(yīng)用的SE注意力機(jī)制及CBAM注意力機(jī)制主要針對(duì)RGB圖像進(jìn)行分析加強(qiáng)。對(duì)于加強(qiáng)通道維度上下文依賴性的SE注意力機(jī)制來說,RGB圖像信息與骨骼序列信息生成的特征映射尚有共通之處,因此SE模塊能夠微弱提升基線方法AGCN的分類效果(表1)。對(duì)于CBAM中針對(duì)RGB圖像信息提出的空間注意力機(jī)制,由于RGB信息與骨架信息構(gòu)成的空間要素差異較大,RGB圖像的空間信息由高×寬的像素信息組成,而骨架序列的空間信息由人體關(guān)節(jié)點(diǎn)的坐標(biāo)構(gòu)成,故而缺乏在基于骨架信息的圖卷積網(wǎng)絡(luò)中應(yīng)用CBAM雙重注意力模型的實(shí)踐意義。本文研究的M2FA受以往注意力機(jī)制架構(gòu)的啟發(fā),不再局限于單一維度或兩個(gè)維度的信息加強(qiáng),注重多個(gè)維度特征表現(xiàn)能力的增強(qiáng),彌補(bǔ)了骨架信息行為識(shí)別領(lǐng)域?qū)τ诙嗑S特征嵌合注意力機(jī)制研究的忽視。
根據(jù)表1展現(xiàn)的實(shí)驗(yàn)結(jié)果,只有將3個(gè)維度的特征描述符統(tǒng)一融合才能獲取最好的識(shí)別效果,單純使用一個(gè)維度的特征描述符完成自適應(yīng)注意力圖映射或結(jié)合兩個(gè)維度的特征描述符都不能完整地捕獲關(guān)鍵幀、關(guān)鍵關(guān)節(jié)點(diǎn)以及關(guān)鍵上下文依賴信息。因此,本文提出的多維特征描述符融合模塊能夠有效幫助骨干網(wǎng)絡(luò)獲取更高的分類準(zhǔn)確率。
3.2.2 全局信息和局部信息的有效性驗(yàn)證
實(shí)驗(yàn)使用NTU-RGBD的關(guān)節(jié)流數(shù)據(jù)在Cross-Subject基準(zhǔn)驗(yàn)證全局信息與局部信息融合模塊的有效性,獲得的測(cè)試集分類準(zhǔn)確率如表2所示,其中“全局”表示直接使用多維特征描述符生成注意力權(quán)重圖,“全局 + 局部”表示增添了多尺度特征嵌合模塊使之構(gòu)建為完整M2FA獲得的分類準(zhǔn)確率。由表2的結(jié)果可知,M2FA不僅能在大型數(shù)據(jù)庫Ki-netics-Skeleton中促進(jìn)圖卷積網(wǎng)絡(luò)加強(qiáng)特征映射中的關(guān)鍵信息,在NTU-RGBD數(shù)據(jù)庫中也能達(dá)到同樣的優(yōu)異效果。M2FA將輸入特征映射直接進(jìn)行逐點(diǎn)卷積獲得的局部上下文信息與多維特征描述符壓縮的全局上下文信息形成互補(bǔ),合理運(yùn)用互補(bǔ)融合后的全局與局部信息生成了更準(zhǔn)確的注意力權(quán)重圖。因此,通過逐點(diǎn)卷積操作學(xué)習(xí)輸入特征的局部信息是必不可少的。
表2 不同聚合規(guī)模在NTU-RGBD上的實(shí)驗(yàn)結(jié)果Table 2 Comparison of different aggregation scales on the NTU-RGBD test set /%
3.2.3 拓展至其他圖卷積網(wǎng)絡(luò)的有效性驗(yàn)證
為了進(jìn)一步驗(yàn)證本文提出的M2FA的廣泛有效性,將其拓展至骨骼流及其他基于骨架數(shù)據(jù)的圖卷積網(wǎng)絡(luò)中驗(yàn)證其有效性。相比于關(guān)節(jié)流是由工具箱在視頻數(shù)據(jù)中直接提取關(guān)節(jié)點(diǎn)坐標(biāo)信息,骨骼流數(shù)據(jù)是由關(guān)節(jié)流數(shù)據(jù)計(jì)算而來。圖結(jié)構(gòu)中每?jī)蓚€(gè)相鄰關(guān)節(jié)點(diǎn)之間坐標(biāo)的矢量差定義為骨骼信息,因此骨骼信息往往有更多的噪聲,分類效果也與關(guān)節(jié)流略有差距。關(guān)節(jié)流和骨骼流互補(bǔ)的雙流網(wǎng)絡(luò)與基于視頻數(shù)據(jù)的RGB流和光流互補(bǔ)的思想類似,都是通過更多的信息流直接補(bǔ)償相應(yīng)的空間信息與動(dòng)態(tài)信息。表3是在Kinetics-Skeleton數(shù)據(jù)集中將M2FA應(yīng)用至骨骼流的實(shí)驗(yàn)結(jié)果。由表3可知,即使在不同的信息流中,M2FA依舊能捕獲關(guān)鍵骨骼、關(guān)鍵幀及關(guān)鍵上下文依賴關(guān)系。通過對(duì)比表1與表3,發(fā)現(xiàn)M2FA對(duì)骨骼流的提升效果比關(guān)節(jié)流顯著,說明多維特征嵌合注意力機(jī)制可以準(zhǔn)確地使骨骼流注意關(guān)鍵信息,并盡可能削弱了噪聲信息強(qiáng)度。
表3 骨骼流在Kinetics-Skeleton上的分類結(jié)果Table 3 Classification accuracy of bone flow on the Kinetics-Skeleton test set /%
3.2.4 可視化對(duì)比
為了更直觀地驗(yàn)證M2FA相對(duì)于基線方法2s-AGCN的改進(jìn)效果以及M2FA相較于SE注意力模塊在骨架圖卷積網(wǎng)絡(luò)中的優(yōu)勢(shì),將可訓(xùn)練的鄰接矩陣可視化。圖8展示了2s-AGCN中自適應(yīng)鄰接矩陣的可視化結(jié)果。矩陣中每個(gè)元素的灰度表示一對(duì)關(guān)節(jié)在空間維度的連接強(qiáng)度。圖8(a)是NTU-RGBD數(shù)據(jù)集中的原始鄰接矩陣,ST-GCN(Yan等,2018)在訓(xùn)練的過程中采用這種固定連接強(qiáng)度的鄰接矩陣,使圖卷積網(wǎng)絡(luò)學(xué)習(xí)到的依賴關(guān)系受限于物理連接(如手與手腕)。圖8(b)是2s-AGCN訓(xùn)練得到的自適應(yīng)鄰接矩陣,可學(xué)習(xí)的鄰接矩陣相較于固定連接強(qiáng)度的鄰接矩陣更加靈活,且不受人體關(guān)節(jié)物理連接的限制,能夠?qū)W習(xí)距離較遠(yuǎn)的關(guān)節(jié)之間的依賴關(guān)系(如手與腳)。圖8(c)是疊加了SE注意力模塊訓(xùn)練得到的鄰接矩陣,以往廣泛應(yīng)用于RGB信息研究領(lǐng)域的SE注意力機(jī)制既不能增強(qiáng)骨架序列物理連接關(guān)節(jié)點(diǎn)之間的依賴關(guān)系,也不能捕獲非物理連接關(guān)節(jié)點(diǎn)之間的關(guān)聯(lián)信息。圖8(d)是M2FA鄰接矩陣,與其他鄰接矩陣對(duì)比可知,M2FA訓(xùn)練得到的鄰接矩陣同時(shí)捕獲關(guān)節(jié)點(diǎn)之間的物理連接及非物理連接的依賴關(guān)系,且連信息豐富程度。圖8驗(yàn)證了M2FA對(duì)于基線方法2s-AGCN的提升效果,體現(xiàn)了M2FA在基于骨架信息的行為識(shí)別任務(wù)中相較于SE注意力模塊的優(yōu)勢(shì)。
圖8 可訓(xùn)練的鄰接矩陣可視化Fig.8 Example of the learned adjacency matrix ((a) original adjacency matrix; (b) adjacency matrix learned by 2s-AGCN; (c) adjacency matrix learned by SE-Net; (d) adjacency matrix learned by M2FA)
M2FA除了應(yīng)用于AGCN(Shi等,2019b)架構(gòu)中,還可用于其他圖卷積網(wǎng)絡(luò)。表4顯示了使用關(guān)節(jié)流信息將M2FA應(yīng)用于圖卷積網(wǎng)絡(luò)ST-GCN(Yan等,2018)獲得的分類準(zhǔn)確率??梢钥闯?,即使在不同的圖卷積架構(gòu)中,M2FA依舊能夠合理重置關(guān)鍵信息權(quán)重,并穩(wěn)定提升圖卷積網(wǎng)絡(luò)的分類性能。
表4 不同基準(zhǔn)在Kinetics-Skeleton數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果Table 4 Comparison of different baselines on the Kinetics-Skeleton test set /%
根據(jù)上述消融實(shí)驗(yàn)的評(píng)估結(jié)果,M2FA在大規(guī)模數(shù)據(jù)集中能夠顯著提高行為識(shí)別任務(wù)的分類準(zhǔn)確率。為了進(jìn)一步展現(xiàn)其優(yōu)勢(shì)和有效性,以2s-AGCN為骨干網(wǎng)絡(luò),將使用M2FA增強(qiáng)的關(guān)節(jié)流與骨骼流的識(shí)別效果進(jìn)行融合,獲得最終的雙流網(wǎng)絡(luò)分類性能,分類結(jié)果如表5所示。其中NTU(cv)和NTU(cs)分別表示M2FA在NTU-RGBD數(shù)據(jù)集Cross-View基準(zhǔn)和Cross-Subject基準(zhǔn)中的分類準(zhǔn)確率,KS是在Kinetics-Skeleton數(shù)據(jù)集中的分類準(zhǔn)確率。
表5 雙流融合的分類結(jié)果Table 5 Classification accuracy of two stream fusion /%
將表5中雙流融合結(jié)果與Kinetics-Skeleton和NTU-RGBD上的最新算法進(jìn)行比較,結(jié)果如表6和表7所示。實(shí)驗(yàn)詳細(xì)列出了在NTU-RGBD的兩種不同基準(zhǔn)及Kinetics-Skeleton中的識(shí)別精度。經(jīng)過M2FA加強(qiáng)后的2s-AGCN不僅分類準(zhǔn)確率顯著提高,且在與較新算法,如DGNN(directed graph neural network)(Shi等,2019a)、NAS(neural architecture search)(Peng等,2020)的對(duì)比中的取得優(yōu)勢(shì)。表6與表7中,DGNN并非通過輕量級(jí)注意力模型提升特征的表現(xiàn)能力,而是通過融合骨架信息的不同信息流提高分類準(zhǔn)確性。DGNN不僅包含空間流信息還計(jì)算了骨架序列的運(yùn)動(dòng)流信息。運(yùn)動(dòng)流信息通過計(jì)算兩個(gè)連續(xù)幀內(nèi)對(duì)應(yīng)的關(guān)節(jié)或骨骼坐標(biāo)差異得到。故而為了提升分類準(zhǔn)確率,DGNN采取的方法是使用4種不同的信息流提供更多的空間信息和動(dòng)態(tài)信息,這意味著消耗巨大的計(jì)算資源且通過大量迭代學(xué)習(xí)才能完成收斂。2s-AGCN中的雙流識(shí)別算法是將關(guān)節(jié)流和骨骼流信息作為網(wǎng)絡(luò)模型的輸入數(shù)據(jù),雖然包含了兩種不同信息,但都屬于空間流信息。NAS通過定義新的時(shí)空動(dòng)態(tài)模塊建立恰當(dāng)?shù)木W(wǎng)絡(luò)結(jié)構(gòu)提升模型的識(shí)別準(zhǔn)確率,同樣忽視了使用注意力模型加強(qiáng)網(wǎng)絡(luò)識(shí)別能力。這意味著近期針對(duì)骨架數(shù)據(jù)行為識(shí)別的研究注重通過給網(wǎng)絡(luò)輸入更多的信息源以及改變時(shí)空?qǐng)D結(jié)構(gòu)尋求更強(qiáng)大的特征表現(xiàn)能力,忽略了信息流本身尚未挖掘的時(shí)空動(dòng)態(tài)信息。M2FA從更精細(xì)且節(jié)省計(jì)算資源的角度實(shí)現(xiàn)了網(wǎng)絡(luò)性能提升,有效增強(qiáng)了關(guān)鍵維度及關(guān)鍵上下文信息,顯示了同時(shí)捕獲豐富上下文依賴性和準(zhǔn)確增強(qiáng)不同維度關(guān)鍵特征的良好效果。
表6 在Kinetics-Skeleton數(shù)據(jù)集對(duì)比當(dāng)前方法的效果Table 6 Performance comparison on Kinetics-Skeleton with current methods /%
表7 在NTU-RGBD數(shù)據(jù)集對(duì)比當(dāng)前方法的效果Table 7 Performance comparison on NTU-RGBD with current methods
本文提出一種用于骨架行為識(shí)別的多維特征嵌合注意力機(jī)制M2FA。不同于以往的注意力機(jī)制只強(qiáng)調(diào)單個(gè)維度的關(guān)鍵信息或重復(fù)疊加多種注意力模塊,M2FA僅通過一個(gè)注意力模塊同時(shí)捕獲不同維度之間的相互依賴性,且整合了全局及局部信息以增強(qiáng)特征表示,在實(shí)現(xiàn)較大性能改進(jìn)的同時(shí)保持較小的計(jì)算開銷。M2FA在兩個(gè)不同的大型公開數(shù)據(jù)集中成功增強(qiáng)了骨干圖卷積框架的性能,使原始圖卷積網(wǎng)絡(luò)框架具有加強(qiáng)關(guān)鍵幀、關(guān)鍵節(jié)點(diǎn)和關(guān)鍵上下文依賴關(guān)系的能力,驗(yàn)證了其廣泛有效性。
未來的研究工作將致力于將多個(gè)維度的依賴信息直接編碼于注意力圖中,以張量注意力機(jī)制的形式代替當(dāng)前基于特征融合的注意力機(jī)制,達(dá)到更高效便捷輔助圖卷積模型行為識(shí)別的目的。