高海玲, 王曉東*, 章聯(lián)軍, 趙伸豪, 金建國
基于改進3D卷積網(wǎng)絡(luò)的人體動作識別
高海玲1, 王曉東1*, 章聯(lián)軍1, 趙伸豪1, 金建國2
(1.寧波大學 信息科學與工程學院, 浙江 寧波 315211; 2.浙江德塔森特數(shù)據(jù)技術(shù)有限公司, 浙江 寧波 315048)
為解決現(xiàn)有多數(shù)視頻人體動作識別3D卷積方法無法區(qū)分信息中各維度的重要和非重要特征問題, 提出了通過門控循環(huán)單元(Gated Recurrent Unit, GRU)和空間注意力增強模塊構(gòu)建時空特征處理網(wǎng)絡(luò)的方法, 基于多級特征融合和多組通道注意力特征選擇構(gòu)建網(wǎng)絡(luò), 改進基礎(chǔ)網(wǎng)絡(luò)模型ResNet3D對視頻人體動作識別中的網(wǎng)絡(luò)模型. 改進后模型在2個公開數(shù)據(jù)集UCF101和HMDB51上的準確率分別為96.42%和71.08%, 與C3D、Two-stream等網(wǎng)絡(luò)模型相比, 具有更高的識別準確率.
深度學習; 人體動作識別; 3D卷積; 注意力機制
隨著多媒體技術(shù)的快速發(fā)展, 對視頻信息的處理分析方法得到廣泛研究. 視頻人體動作識別作為一個基本的視頻任務, 不僅具有實用價值, 而且能為更深層次的任務服務. 視頻人體動作可以應用在動作分析、高級人機交互、視頻監(jiān)控、虛擬現(xiàn)實等方面.
傳統(tǒng)視頻人體動作識別方法主要是基于局部信息和全局信息的手工特征提取,其中改進的密集軌跡(improved Dense Trajectories, iDT)被廣泛認為是其中效果最好的一種[1]. 然而, iDT計算復雜度高, 并產(chǎn)生較高的特征維度, 很難做到實時性. 基于深度學習方法是通過搭建神經(jīng)網(wǎng)絡(luò)提取特征, 相比傳統(tǒng)方法表達能力更強. 其中長短期記憶網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)相結(jié)合的方法能夠捕獲時間順序和長期相關(guān)性. 但長短期記憶網(wǎng)絡(luò)在卷積頂層只能獲取高層動作, 不能獲取關(guān)鍵低層動作, 而且訓練耗時. 基于圖卷積方法, 可以建模高階不規(guī)則的數(shù)據(jù)結(jié)構(gòu),但是不能全面研究對動作識別具有重要意義的非局部關(guān)節(jié), 且無法確保在人體骨骼距離較遠的動作中將關(guān)節(jié)較好地融合. 雙流網(wǎng)絡(luò)是一種有效且簡單的方法[2], 由于光流僅表示相鄰幀之間的運動信息, 因此對時間跨度較大的動作不利于建模, 且光流的計算會增加時間成本.
基于3D卷積的人體動作識別研究的目的是解決處理視頻幀時忽略幀間運動信息的問題. Ji等[3]首次提出了3D卷積方法, 將多幀視頻進行堆疊, 且使用3D卷積核進行卷積, 經(jīng)過連續(xù)多次的卷積得到最終特征. 之后, Tran等[4]通過實驗嘗試尋找最優(yōu)的網(wǎng)絡(luò)框架, 提出了三維卷積網(wǎng)絡(luò), 并解決了需要預先檢測視頻中人物位置的問題. 殘差網(wǎng)絡(luò)(2D網(wǎng)絡(luò))的出現(xiàn)相較于先前的卷積網(wǎng)絡(luò)具有占用內(nèi)存更小的優(yōu)勢, 現(xiàn)已經(jīng)構(gòu)建的基于殘差網(wǎng)絡(luò)中的殘差組件T3D(Temporal 3D ConvNet)[5]、3D的ResNeXt(Suggesting the Next Dimension)[6]、I3D (Inflated 3D ConvNet)[7]、改進的C3D(Convolutional 3D Neural Network)[8]以及改進的ResNet3D(3D Residual Convolutional Neural Network)[9]等模型. 之后, Zolfaghari等[10]提出了ECO(Efficient Con- volutional Network for Online Video Understanding)框架, 解決了上述方法不能較好地提取整個視頻全局信息的問題. 再之后, Feichtenhofer等[11]提出了一個通過低幀率和高幀率分別提取視頻幀捕獲空間語義和運動語義的方法. 與此同時, 也有一些基于差分信息構(gòu)建網(wǎng)絡(luò)的方法被提出. 如Li等[12]采用分組卷積方法, 分別提取了相鄰視頻幀間的信息及運用多幀視頻提取全局信息. Wang等[13]提出時序差分網(wǎng)絡(luò), 該方法能減少計算量、建模時序高效. 最近, Yi等[14]將通道空間注意模塊依次添加到中間特征圖的每個切片張量中, 形成通道和空間注意圖. 張聰聰?shù)萚15]同樣引入注意力機制, 使網(wǎng)絡(luò)專注于待識別對象. Zhu等[16]提出一種新的跨層注意和中心引導的注意機制, 將特征與來自多個尺度的上下文知識相結(jié)合. 但以上模型均忽略了時序信息對模型的影響.
本文通過門控循環(huán)單元(Gated Recurrent Unit, GRU)[17]和空間注意力機制, 基于3D網(wǎng)絡(luò)建模, 同時基于多級特征融合和多組通道注意力特征選擇構(gòu)建模型,并將該模型在2個公開數(shù)據(jù)集UCF101和HMDB51上檢驗.結(jié)果表明, 本文構(gòu)建的模型與現(xiàn)有的相關(guān)模型相比性能有所提升.
一般的ResNet3D網(wǎng)絡(luò)是基于局部滑動窗口無差別地提取特征. 可以利用不同的注意力機制增強不同維度特征的重要信息, 抑制非重要信息. 此外, 視頻的時序信息是一個重要特征, 對時序信息的處理至關(guān)重要.
圖1為本文提出的視頻人體動作識別的整體網(wǎng)絡(luò)結(jié)構(gòu)實例,主要通過GRU和空間注意力增強模塊構(gòu)建時空特征處理網(wǎng)絡(luò), 基于多級特征進行融合, 通過多段通道注意力模塊構(gòu)建特征選擇網(wǎng)絡(luò).具體步驟為: 給定一個視頻集, 將每個視頻稀疏采樣幀, 再將處理后的視頻幀輸入所構(gòu)建的網(wǎng)絡(luò)中進行訓練, 獲取重要特征. 首先對數(shù)據(jù)進行初步的特征提取; 其次基于GRU和空間注意力增強模塊先后對視頻的時間序列和空間維度的特征進行提取,從時間維度學習時序信息, 從空間維度學習空間特征的重要性分數(shù), 增強具有重要信息的注意力關(guān)鍵區(qū)域; 再次將不同層次的特征進行融合輸出, 從而捕獲視頻中人體的全局與局部信息; 最后對融合輸出后的特征基于分段通道注意力進行選擇, 獲得具有重要信息的關(guān)鍵通道.
圖1 整體網(wǎng)絡(luò)框圖
特征提取網(wǎng)絡(luò)主要通過GRU增強對模型的時序特征, 并且通過空間注意力機制增強模塊增強模型的重要位置信息.
基于GRU時序處理模型如圖1中GRU時序處理模塊,動作“put up”和“put down”, 因為方向不同, 被視為2個不同的動作, 時間方向性信息對視頻序列較為重要. 對時間序列的處理已經(jīng)出現(xiàn)較多的優(yōu)秀模型, 如LSTM和GRU,兩者都可以用于處理較長的時間序列, 但GRU相較LSTM具有較少的參數(shù). 在模型的初始階段使用GRU模塊處理視頻的時間序列較好. 首先通過卷積和非線性操作對輸入數(shù)據(jù)進行初步提取,經(jīng)過維度變換后采用個雙向單層GRU獲取各個時刻的上下文語義信息, 同時捕捉視頻序列中時序距離較遠的關(guān)系.
基于空間注意力增強特征提取模型如圖2所示. 經(jīng)過GRU時序處理模塊處理后, 對輸出變換獲得維度為(,,,)的, 其中、分別表示輸入的通道維度、幀數(shù)、每幀視頻高和每幀視頻寬. 首先對的時間維度進行壓縮, 獲得維度為(,,)的′, 變換維度可以保留關(guān)鍵空間信息; 其次經(jīng)過卷積1和卷積2兩次卷積操作分別對通道數(shù)量減少和增加后, 提取更多高層信息; 再次為每一個通道位置生成對應的權(quán)重掩碼, 并加權(quán)輸出; 最后增強感興趣的空間區(qū)域, 得到與相同維度的最終輸出.
圖2 空間注意力增強模塊
空間注意力增強模塊嵌入在殘差層之前, 每一個殘差層由多個不同的殘差塊組成.本文采用4個殘差層, 每個殘差層包含的殘差塊數(shù)量分別為(3,4,23,3).
將特征圖I進行卷積核為3*3的卷積操作后得到感受野為3*3特征圖I1. 將特征圖I進行兩次卷積核為3*3卷積操作后得到感受野為5*5的特征圖I2, 越高級的特征感受野越大, 越低級特征感受野越小(圖3). 相應地, 感受野越大越關(guān)注全局信息, 感受野越小越關(guān)注局部信息[18].
圖3 兩次3*3卷積圖例
為了同時獲取全局和局部信息, 本文基于將高級與低級特征相結(jié)合思路, 從最后一個殘差層的輸出開始依次向上融合每兩層的輸出, 如圖1中多級特征融合模塊所示. 殘差層1、殘差層2、殘差層3、殘差層4的輸出維度分別是(256,8,28,28)、(512,4,14,14)、(1024,2,7,7)、(2048,1,4,4). 首先對殘差層4的輸出特征進行上采樣操作和卷積操作, 使其維度與殘差層3的輸出維度一致, 然后將兩者特征融合; 其次將特征融合后得到的特征進行上采樣和卷積操作, 使其維度與殘差層2的輸出維度一致, 然后將兩者特征融合; 最后將第2次融合后的特征進行上采樣和卷積操作, 使其維度與殘差層1的輸出維度一致, 再將兩者特征融合, 融合后特征為該模塊最終的輸出特征. 通過該模塊能獲得視頻中不同級別特征的組合信息.
通道注意力機制聚焦通道中的重要信息. 基于分段注意力模塊進行特征選擇, 可有效提取通道的重要信息, 弱化不感興趣的區(qū)域, 還可以減少參數(shù)量, 提升模型的運行速率. 操作如圖4所示.
圖4 分段通道注意力增強模塊
首先將具有個通道的特征分為4段, 使每個通道的數(shù)量為/4; 其次對每一段特征進行通道注意力增強操作, 即將除通道外的時空特征進行池化操作, 使其維度變?yōu)?, 池化后的特征包含時空維度的全局信息,經(jīng)過維度變換后對通道維度進行一維卷積操作, 保留通道關(guān)鍵信息并提取更多的高層信息,經(jīng)過sigmoid函數(shù)為每個通道位置生成對應的權(quán)重掩碼并加權(quán)輸出, 增強該/4段感興趣的通道區(qū)域;最后沿通道維度將4段的輸出特征連接輸出. 最終分類預測輸出是將選擇后的特征進行池化和全連接操作后得到.
交叉熵損失函數(shù)主要取決每個樣本對應其分類正確類別的概率, 若該樣本分類正確概率較高, 則賦予該樣本較小損失; 反之, 則賦予該樣本較大損失. 對一般模型而言, 隨著訓練次數(shù)的增加, 損失會一直降低, 直至收斂. 訓練前期損失降低速度較快, 訓練后期損失降低速度較慢.
首先對數(shù)據(jù)集進行處理, 劃分為訓練集、驗證集和測試集. 對數(shù)據(jù)進行稀疏采樣, 從視頻中提取16幀. 經(jīng)過數(shù)據(jù)增強(水平翻轉(zhuǎn)、隨機抖動、裁剪等操作)后, 將處理好的數(shù)據(jù)輸入構(gòu)建的網(wǎng)絡(luò)中訓練. 訓練過程使用ResNet3D預訓練模型對網(wǎng)絡(luò)初始化. 訓練參數(shù)設(shè)置為: epoch為15, 批處理大小為16, 學習率為10-3, l2范數(shù)的權(quán)重設(shè)置為10-2, 輸入視頻樣本大小為16×3×112×112. 所有實驗中的網(wǎng)絡(luò)均在一個16G NVIDIA Tesla T4上使用pytorch分布式機器學習系統(tǒng)進行端到端訓練.
為了驗證模型的有效性, 在主流的公開數(shù)據(jù)集UCF101[19]和HMDB51[20]上評測模型.
UCF101數(shù)據(jù)集共有13320個視頻, 101個類別. 主要包括人與物體互動、身體動作、人與人之間的互動、演奏樂器、體育運動等(圖5(a)).
HMDB51數(shù)據(jù)集共有6766個視頻, 51個類別. 主要包括一般面部動作、用物體操縱的面部動作、一般身體動作、身體運動與對象互動、人與人互動的身體動作等(圖5(b)).
圖5 UCF101和HMDB51數(shù)據(jù)集圖例
UCF101數(shù)據(jù)集在訓練和驗證過程中的損失變化和準確率變化如圖6所示. 從圖6可見, 在訓練集和驗證集上的損失變化均隨迭代次數(shù)的增加而下降, 最終在0.3左右處收斂; 在訓練集和驗證集上準確率變化均隨迭代次數(shù)的增加而增加, 最終在0.96左右處收斂.
HMDB51數(shù)據(jù)集在訓練和驗證過程中的損失變化和準確率變化如圖7所示. 從圖7可見, 在訓練集和驗證集上的損失變化均隨迭代次數(shù)的增加而下降, 最終在1.0左右處收斂; 在訓練集和驗證集上的準確率變化均隨迭代次數(shù)的增加而增加, 最終在0.71左右處收斂. HMDB51數(shù)據(jù)集相比UCF101數(shù)據(jù)集視頻數(shù)量少, 背景相對復雜. 因此, 在HMDB51數(shù)據(jù)集上損失較高、識別準確率較低.
網(wǎng)絡(luò)在UCF101和HMDB51數(shù)據(jù)集上的可視化結(jié)果如圖8所示. 圖8中第1列是從測試樣本中隨機選取的原圖, 第2列是將數(shù)據(jù)輸入網(wǎng)絡(luò)后獲得的特征對應的熱力圖, 第3列是將熱力圖乘以權(quán)重系數(shù)0.5與原圖相疊加生成的圖像. 從熱力圖可觀察到所構(gòu)建網(wǎng)絡(luò)學習的重要區(qū)域. 圖8(a)聚焦的重點部位是圖中人體周圍位置, 圖8(b)聚焦的重點部位是圖中2人之間交互位置, 以此推斷網(wǎng)絡(luò)關(guān)注視頻數(shù)據(jù)的空間信息和運動信息.
圖8 UCF101和HMDB51數(shù)據(jù)集上網(wǎng)絡(luò)的可視化結(jié)果
表1為不同模型在UCF101和HMDB51數(shù)據(jù)集上準確率的比較結(jié)果.
表1 UCF101和HMDB51數(shù)據(jù)集上模型準確率比較%
注:“-”表示對應方法文獻中未提供數(shù)據(jù).
從表1可見, 本文提出的方法在2個數(shù)據(jù)集測試中結(jié)果均為最優(yōu). iDT作為傳統(tǒng)人體動作識別的最好方法, 不如表1所列多數(shù)基于深度學習的方法.在UCF101數(shù)據(jù)集上本文方法比C3D、Two-stream、3DRseNet50-CS、T3D、ResNeXt-101、improved DenseNet方法的準確率分別提升了11.22%、8.42%、6.52%、3.22%、1.92%和1.90%. 在HMDB51數(shù)據(jù)集上本文方法比iDT、Two-stream、3DRseNet50- CS、T3D、ResNeXt-101、improved DenseNet的準確率分別提升了13.88%、11.88%、9.38%、7.58%、0.88%和1.48%. 實驗結(jié)果表明, 本文改進的網(wǎng)絡(luò)模型在UCF101和HMDB51數(shù)據(jù)集上均有較好的識別效果.
本文提出了一種改進的視頻人體動作識別模型,該模型通過GRU和空間注意力增強模塊, 獲取視頻中的時序信息和空間信息. 在特征融合模塊中, 利用多個層級融合獲取更多全局重要信息. 在特征選擇模塊中, 利用分段通道注意力模塊獲得通道重要信息. 該模型在UCF101和HMDB51數(shù)據(jù)集上與現(xiàn)有的視頻人體動作識別模型相比, 準確率高且有效. 后續(xù)將基于光流法提取運動特征作為網(wǎng)絡(luò)的輸入, 構(gòu)建雙流網(wǎng)絡(luò)模型, 以進一步提高網(wǎng)絡(luò)識別的準確率.
[1] Wang H, Schmid C. Action recognition with improved trajectories[C]//2013 IEEE International Conference on Computer Vision, Sydney, Australia, 2014:3551-3558.
[2] Simonyan K, Zisserman A. Two-stream convolutional networks for action recognition in videos[EB/OL]. [2022-08-14]. https://arxiv.org/abs/1406.2199.
[3] Ji S W, Xu W, Yang M, et al. 3D convolutional neural networks for human action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1):221-231.
[4] Tran D, Bourdev L, Fergus R, et al. Learning spatiotemporal features with 3D convolutional networks [C]//2015 IEEE International Conference on Computer Vision (ICCV), Santiago, Chile, 2016:4489-4497.
[5] Diba A L, Fayyaz M, Sharma V, et al. Temporal 3D ConvNets: New architecture and transfer learning for videoclassification[EB/OL]. [2022-08-14]. https://arxiv.org/abs/ 1711.08200.
[6] Hara K, Kataoka H, Satoh Y. Can spatiotemporal 3D CNNs retrace the history of 2D CNNs and ImageNet? [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, USA, 2018: 6546-6555.
[7] Carreira J, Zisserman A. Quo vadis, action recognition? A new model and the kinetics dataset[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Honolulu, USA, 2017:4724-4733.
[9] 劉悅, 張雷, 辛山, 等. 融入時空注意力機制的深度學習網(wǎng)絡(luò)視頻動作分類[J]. 中國科技論文, 2022, 17(3): 281-287.
[10] Zolfaghari M, Singh K, Brox T. ECO: Efficient convolutional network for online video understanding [C]//European Conference on Computer Vision, Cham: Springer, 2018:713-730.
[11] Feichtenhofer C, Fan H Q, Malik J, et al. SlowFast networks for video recognition[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV), Seoul, Korea (South), 2020:6201-6210.
[12] Li Y, Ji B, Shi X T, et al. TEA: Temporal excitation and aggregation for action recognition[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Seattle, USA, 2020:906-915.
[13] Wang L M, Tong Z, Ji B, et al. TDN: Temporal difference networks for efficient action recognition[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, USA, 2021:1895-1904.
[14] Yi Z W, Sun Z H, Feng J C, et al. 3D residual networks with channel-spatial attention module for action recognition[C]//2020 Chinese Automation Congress (CAC), Shanghai, China, 2021:5171-5174.
[15] 張聰聰, 何寧, 孫琪翔, 等. 基于注意力機制的3D DenseNet人體動作識別方法[J]. 計算機工程, 2021, 47(11):313-320.
[16] Zhu L C, Fan H H, Luo Y W, et al. Temporal cross-layer correlation mining for action recognition[J]. IEEE Transactions on Multimedia, 2022, 24:668-676.
[17] Chung J, Gulcehre C, Cho K, et al. Empirical evaluation of gated recurrent neural networks on sequence modeling [EB/OL]. [2022-08-14]. https://arxiv.org/abs/1412.3555.
[18] Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer vision[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, USA, 2016:2818-2826.
[19] Soomro K, Amir R Z, Shah M. UCF101: A dataset of 101 human actions classes from videos in the wild[EB/OL]. [2022-08-14]. http://export.arxiv.org/pdf/1212.0402.
[20] Kuehne H, Jhuang H, Garrote E, et al. HMDB: A large video database for human motion recognition[C]// Proceedings of 2011 IEEE International Conference on Computer Vision, USA: IEEE Press, 2011:2556-2563.
Human motion recognition based on improved 3D convolution network
GAO Hailing1, WANG Xiaodong1*, ZHANG Lianjun1, ZHAO Shenhao1, JIN Jianguo2
( 1.Faculty of Electrical Engineering and Computer Science, Ningbo University, Ningbo 315211, China;2.Zhejiang DTCT Co., Ltd., Ningbo 315048, China )
Video human motion recognition research has great potential for applications, but the modeling quality is greatly affected by movement types, environmental differences and other factors. Most 3D convolution methods for video human motion recognition cannot distinguish between important and non-important features in each dimension given the needed information. To tackle this problem the GRU gating unit and spatial attention enhancement module are used to build a spatio-temporal feature processing network, and the network is built based on multi-level feature fusion and multi-channel attention feature selection. Based on the basic network model ResNet3D, the network model in video human motion recognition is improved. The model achieves 96.42% and 71.08% recognition accuracy on two public datasets UCF101 and HMDB51, respectively, with satisfactory recognition performance. Compared with C3D, two-stream and other generic network models, the proposed model shows higher recognition accuracy, which indicates the effectiveness of the proposed model.
deep learning; human motion recognition; 3D convolution; attention mechanism
TP391.4
A
1001-5132(2023)03-0016-06
2022?10?14.
寧波大學學報(理工版)網(wǎng)址: http://journallg.nbu.edu.cn/
浙江省自然科學基金(LY20F010005); 寧波市“科技創(chuàng)新2025”重大專項(2022T005).
高海玲(1998-), 女, 甘肅白銀人, 在讀碩士研究生, 主要研究方向: 視頻信息處理. E-mail: 1450363642@qq.com
通信作者:王曉東(1970-), 男, 浙江上虞人, 教授, 主要研究方向: 多媒體信號處理. E-mail: wxd@nbu.edu.cn
(責任編輯 史小麗)