朱云鵬 黃希 黃嘉興
摘? 要: 在現(xiàn)實的生活視頻中,檢測人體動作以及分類時,常常會出現(xiàn)視頻背景復(fù)雜、模糊,以及因人多導(dǎo)致多種動作行為同時出現(xiàn)的問題,而致使檢測和判別某種行為結(jié)果出現(xiàn)偏差。因此文中針對2D CNN對單個幀進行提取特征卻沒有包含實際視頻中連續(xù)多幀之間編碼的運動信息,提出一種基于三維卷積神經(jīng)網(wǎng)絡(luò)識別方法,旨在更好地捕獲視頻連續(xù)幀中隱藏的時間和空間信息。實驗結(jié)果表明,與現(xiàn)有的幾類方法相比,所提方法識別率得到較為明顯的提升,驗證了該方法的有效性和魯棒性。
關(guān)鍵詞: 人體動作識別; 三維卷積神經(jīng)網(wǎng)絡(luò); 特征提取; 模型訓(xùn)練; 深度學(xué)習; 實驗對比
中圖分類號: TN911.23?34; TP301? ? ? ? ? ? ? ? 文獻標識碼: A? ? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2020)18?0150?03
Abstract: In real?life video detection and classification, the video background is complex and fuzzy, as well as many people lead to a variety of action behavior problems at the same time, which causes the deviation of detection and discrimination of a certain behavior results. In allusion to the problem that feature extraction is conducted by 2D CNN from a single frame, but the motion information encoded between consecutive frames is not included, a neural network recognition method based on 3D convolution is proposed to better capture the hidden time and space information in consecutive frames of video. The experimental results show that, in comparison with the existing methods, the recognition rate of this method is significantly improved, and the effectiveness and robustness of the proposed method are verified.
Keywords: human action recognition; 3D convolution neural network; feature extraction; model training; deep learning; experimental comparison
0? 引? 言
人體動作識別是計算機視覺研究中的一個分支,被廣泛地應(yīng)用于人機互動、交互式娛樂等多個領(lǐng)域[1]。隨著視頻采集設(shè)備和寬帶光纖整體科技水平的跳躍式發(fā)展,如今,“視頻”已經(jīng)成為信息的主要載體,特別是近些年來,4G的普及以及5G的問世,各色各類的長、短視頻數(shù)量以幾何速度爆炸式增加,面對如此龐大的視頻數(shù)據(jù),相關(guān)人員迫切需要穩(wěn)定高效的視頻信息自動處理系統(tǒng)。在此供求基礎(chǔ)上,人體動作識別技術(shù)近些年來一直是計算機領(lǐng)域內(nèi)一個充滿機遇和挑戰(zhàn)的課題。
最常見的動作識別應(yīng)用是分類識別:給定一個視頻,系統(tǒng)將其準確分類為幾個已知的動作類別。綜合性的動作識別是視頻中不僅包含的多個動作類別,還存在復(fù)雜的背景干擾。動作識別的最終目標是分析人在視頻中場景的位置、狀態(tài)和行為。人體動作識別應(yīng)用于各行各業(yè),主要集中在智能視頻監(jiān)控、病人監(jiān)護系統(tǒng)、人機交互、虛擬現(xiàn)實、智能家居、智能安全、運動員輔助培訓(xùn)、基于情報的視頻檢索和智能圖像壓縮等[2]。隨著傳感器技術(shù)的不斷發(fā)展,人類行為識別研究受益于不同模態(tài)傳感器,如RGB攝像機、深度攝像機、加速度計和陀螺儀[3]。
圖像和視頻的識別與描述是計算機視覺領(lǐng)域的一個基本挑戰(zhàn)[4]。而與圖像分類相比,視頻動作分類在運動和視角上存在著附加的難題[5]。視覺人體運動分析和識別的方法體系有很多種,如:Forsyth等人側(cè)重于將動作從視頻序列中人的姿態(tài)和運動信息恢復(fù)過來,這屬于一個回歸問題,而人體行為識別是一個分類問題。這2個問題有很多類似點,比如其特征的提取和描述很多方面是通用的。如果將人體運動識別的研究方向分為3個層次:移動識別、動作識別和行為識別,目前關(guān)于行為識別基本上還停留在第二個階段,即對生活中的一些簡單行為進行判斷和分類。與傳統(tǒng)的模式識別方法相比,基于深度學(xué)習的人體運動識別技術(shù)近年來發(fā)展迅速,它的研究結(jié)合自動訓(xùn)練,提取特征和分類,同時放寬了有關(guān)參數(shù)的數(shù)量,并且利用深度學(xué)習將人體動作識別的研究投入到新的應(yīng)用當中。
深度學(xué)習允許由多個處理層組成的計算模型來自動學(xué)習多維的抽象數(shù)據(jù)類型[6]。它的主要優(yōu)勢之一是其執(zhí)行端到端優(yōu)化的能力[7]。目前,使用深度學(xué)習執(zhí)行諸如人體運動識別、人體跟蹤和圖像高級處理之類的任務(wù)均得到了令人滿意的結(jié)果,如麻省理工學(xué)院媒體實驗室在將智能室以及在自然場景中的人體動作識別作為新的研究課題中取得了一些進展;CMU機器人研究所還開展了人體檢測與跟蹤、步態(tài)識別和行為識別等項目;同時,馬里蘭大學(xué)自動化研究控制中心對人體運動建模,對3D人體運動捕捉和異常事件檢測也進行了深入的研究?,F(xiàn)實的生活視頻中檢測人體動作及分類時,會出現(xiàn)視頻背景復(fù)雜、模糊,以及因人多導(dǎo)致多種動作行為同時出現(xiàn)的問題,致使檢測和判別某種行為結(jié)果出現(xiàn)偏差。 本文針對2D CNN對單個幀進行提取特征卻沒有包含實際視頻中連續(xù)多幀之間編碼的運動信息,提出一種基于改進三維卷積神經(jīng)網(wǎng)絡(luò)識別方法,旨在更好地捕獲視頻連續(xù)幀中隱藏的時間和空間信息,并且在多個動作識別視頻數(shù)據(jù)集實驗中得到了較高的準確率。
1? 改進三維卷積神經(jīng)網(wǎng)絡(luò)模型
1.1? 3D CNN網(wǎng)絡(luò)結(jié)構(gòu)組成
受視覺神經(jīng)感受野的啟發(fā),卷積神經(jīng)網(wǎng)絡(luò)的神經(jīng)元之間通過稀疏鏈接的方式進行連接,具有較多的隱含層,每一隱含層有多個數(shù)據(jù)矩陣平面,每個數(shù)據(jù)矩陣平面的神經(jīng)元共享權(quán)值參數(shù)矩陣[8]。如圖1所示,在二維卷積神經(jīng)網(wǎng)絡(luò)中,卷積應(yīng)用于二維特征圖,并且僅根據(jù)空間維度計算特征。
當使用視頻數(shù)據(jù)分析問題時,需要在多個連續(xù)幀中捕獲編碼的運動信息。 為此,提出三維卷積神經(jīng)網(wǎng)絡(luò)用于計算空間和時間維度特征。三維卷積是通過堆疊多個連續(xù)幀,然后在立方體中應(yīng)用三維卷積內(nèi)核來形成立方體。利用這種結(jié)構(gòu),卷積層中的特征映射連接到上層中的多個相鄰幀,從而捕獲運動信息。深度神經(jīng)網(wǎng)絡(luò)的優(yōu)勢主要在于學(xué)習訓(xùn)練數(shù)據(jù)的分布,并且可以在測試集上獲得良好的泛化效果。 然而如果每個批次輸入的數(shù)據(jù)都具有不同的分布,則會給神經(jīng)網(wǎng)絡(luò)的訓(xùn)練帶來困難,所以規(guī)范化每層神經(jīng)網(wǎng)絡(luò)的輸出顯然是不合理的。為了把每層神經(jīng)網(wǎng)絡(luò)任意神經(jīng)元輸入值的分布拉回到均值為0,方差為1的標準正態(tài)分布,本文神經(jīng)層中引入批量規(guī)范化(Batchnorm)。假設(shè)神經(jīng)層輸入數(shù)據(jù)是β= x1,x2,…,xm,共m個數(shù)據(jù),輸出是[yi=BNx],則批量規(guī)范化步驟如下:
在sigmoid, tanh, softplus和ReLu中,選擇ReLu作為網(wǎng)絡(luò)的非線性激活函數(shù),ReLu的gradient大多數(shù)情況下是常數(shù),有助于解決深層網(wǎng)絡(luò)的收斂問題。ReLu的另一個優(yōu)勢是在生物維度上的合理性,它是單邊的,相比sigmoid和tanh,更符合生物神經(jīng)元的特征。為了確保特征的位置和旋轉(zhuǎn)不變性并減少過擬合問題,在網(wǎng)絡(luò)中添加最大池化層,從過濾器中提取一些特征值,并且僅獲取最大池化層作為保留值,丟棄所有其他功能值。在視頻領(lǐng)域,如果在足夠大的數(shù)據(jù)集上訓(xùn)練動作分類網(wǎng)絡(luò),在應(yīng)用于不同的時間任務(wù)或數(shù)據(jù)集時,是否會提供相應(yīng)的性能提升,這是一個懸而未決的問題[9],本文在網(wǎng)絡(luò)的訓(xùn)練階段加入Dropout技術(shù)來隨機地選擇部分神經(jīng)元并將其輸入設(shè)置為0,從而隨機變化地網(wǎng)絡(luò)的鏈接結(jié)構(gòu),提高網(wǎng)絡(luò)的泛化能力,使得網(wǎng)絡(luò)具有更好的適應(yīng)性[10]。
1.2? 方法實施過程
1.2.1? 網(wǎng)絡(luò)結(jié)構(gòu)
從圖2可以看出,該特征通過3次三維卷積和3次下采樣組合,最后通過完全連接層獲得最終輸出。
1.2.2? 圖像大小的變化
卷積過程中的尺寸變化如圖3所示。
2? 實驗方法
2.1? 實驗環(huán)境
編程環(huán)境使用Python 3.6,而Numpy,Tensorflow和其他一些模塊也會被用到。 選擇UT交互數(shù)據(jù)集作為實驗研究數(shù)據(jù)集。UT交互數(shù)據(jù)集包含6類真實的人人交互行為,包括握手、指向、擁抱、推、踢和擊打。每個視頻每次互動至少包含1次執(zhí)行或2~3次執(zhí)行。 在第1~第4組中,場景中只出現(xiàn)2個相互作用的人。 在第5~8組中,場景中存在執(zhí)行其他動作的干擾人員。所有視頻中出現(xiàn)了超過15種不同服裝的參與者。本文選取數(shù)據(jù)集15人中的8人作為訓(xùn)練樣本,7人作為測試樣本。
2.2? 實驗過程
2.2.1? 特征提取
對于每個實驗視頻,將其分成多組15個連續(xù)幀的塊,然后在這些塊上訓(xùn)練模型而不是在單獨每一幀上訓(xùn)練。在卷積層中,使用3D卷積濾波器來訓(xùn)練模型以檢測并學(xué)習時間運動信息。特征提取如圖4所示。
2.2.2? 參數(shù)影響
1) Learning rate
學(xué)習率是深度學(xué)習中一個舉足輕重的超級參數(shù)。 能否選擇搭配網(wǎng)絡(luò)結(jié)構(gòu)的最優(yōu)學(xué)習率決定了模型塑造的質(zhì)量。文中,學(xué)習率調(diào)整到0.01的獲得最高準確率結(jié)果。
2) Dropout
Dropout是指在深度學(xué)習網(wǎng)絡(luò)的訓(xùn)練過程中,對于神經(jīng)網(wǎng)絡(luò)單元,按照一定的概率將其暫時從網(wǎng)絡(luò)中丟棄,是一種很有效的正則化手段[11],對于隨機梯度下降來說,由于是隨機丟棄,故每一個Mini?batch都在訓(xùn)練不同的網(wǎng)絡(luò),每次丟失時,都相當于從原始網(wǎng)絡(luò)中找到更薄的網(wǎng)絡(luò)。
2.2.3? 實驗結(jié)果比較
不同方法實驗結(jié)果比較如表1所示。
UT數(shù)據(jù)集是人與人交互式類的行為數(shù)據(jù)集,即便該數(shù)據(jù)集的動作分類單一且動作本身不具備復(fù)雜性,但由于人與人之間交互時的遮擋和不確定性,導(dǎo)致識別難度提高,相似動作容易混淆,分類算法準確率浮動較大。例如表1所示:本文算法在此數(shù)據(jù)集上,“拳打”動作準確率最低,只有80%,原因在于“拳打”和“推人”動作近似,算法易發(fā)生誤判;除“握手”和“拳打”動作之外,其余動作識別準確性均在90%以上??梢?,本文算法在UT數(shù)據(jù)集上識別率得到了一定程度上的提高。
3? 結(jié)? 論
動作識別系統(tǒng)的性能在很大程度上取決于它是否能夠高效提取和利用相關(guān)信息[12]。而動態(tài)圖像是緊湊的,在將視頻轉(zhuǎn)換成動態(tài)圖像期間,時間信息在某種程度上不可避免地丟失[13]。本文通過基于改進三維卷積神經(jīng)網(wǎng)絡(luò)學(xué)習方法和其他實驗方法在UT數(shù)據(jù)集得到的相比較,更大程度上利用測試視頻包含的空間和時間信息,并且準確率得到了一定程度的提高,證明了該方法在短視頻交互動作識別中的可行性。
注:本文通訊作者為黃希。
參考文獻
[1] 張孫培,孫懷江.關(guān)節(jié)信息和極限學(xué)習機的人體動作識別[J].現(xiàn)代電子技術(shù),2015,38(10):55?60.
[2] 劉文婷.一種室內(nèi)人體行為識別方法:CN104866860A[P].2015?08?26.
[3] CHEN Chen, ROOZBEH Jafari, NASSER Kehtarnavaz. UTD?MHAD: a multimodal dataset for human action recognition utilizing a depth camera and a wearable inertial sensor [C]// 2015 IEEE International Conference on Image Processing. Quebec City: IEEE, 2015: 168?172.
[4] JEFFREY Donahue, LISA Anne Hendricks, SERGIO Guadarrama, et al. Long?term recurrent convolutional networks for visual recognition and description [C]// IEEE Conference on Computer Vision and Pattern Recognition. Boston: IEEE, 2015: 2625?2634.
[5] CHRISTOPH Feichtenhofer, AXEL Pinz, ANDREW Zisserman. Convolutional two?stream network fusion for video action recognition [C]// Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016: 204?215.
[6] ZHOU Bolei, AGATA Lapedriza, XIAO Jianxiong, et al. Learning deep features for scene recognition using places database [C]// Neural Information Processing Systems. Montreal: NIPS, 2014: 487?495.
[7] DIOGO C Luvizon, DAVID Picard, HEDI Tabia. 2D/3D pose estimation and action recognition using multitask deep learning [C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City: IEEE, 2018: 5137?5146.
[8] 李軍鋒,何雙伯,馮偉夏,等.基于改進CNN的增強現(xiàn)實變壓器圖像識別技術(shù)[J].現(xiàn)代電子技術(shù),2018,41(7):29?32.
[9] JOAO Carreira, ANDREW Zisserman. Quo vadis, action recognition? A new model and the kinetics dataset [C]// Conference on Computer Vision and Pattern Recognition. Honolulu: IEEE, 2017: 6299?6308.
[10] 范曉杰,宣士斌,唐鳳.基于Dropout卷積神經(jīng)網(wǎng)絡(luò)的行為識別[J].廣西民族大學(xué)學(xué)報(自然科學(xué)版),2017,23(1):76?82.
[11] 周永生.基于LSTM神經(jīng)網(wǎng)絡(luò)的PM2.5預(yù)測[D].長沙:湖南大學(xué),2018.
[12] WANG Limin, XIONG Yuanjun, WANG Zhe, et al. Temporal segment networks: towards good practices for deep action recognition [C]// European Conference on Computer Vision. Amsterdam: Springer, 2016: 20?36.
[13] WANG Huogen, WANG Pichao, SONG Zhanjie, et al. Large?scale multimodal gesture recognition using heterogeneous networks [C]// 2017 IEEE International Conference on Computer Vision Workshops. Venice: IEEE, 2017: 3129?3131.