郭志濤 曹小青 王寶珠 高妍
摘要 為了提高人體動(dòng)作識(shí)別準(zhǔn)確率,改進(jìn)原有3D CNN網(wǎng)絡(luò)模型以獲得更為豐富細(xì)致的人體動(dòng)作特征,并通過對(duì)比實(shí)驗(yàn)為模型輸入優(yōu)選出識(shí)別效果最好的特征組合。該模型主要包括5個(gè)卷積層、3個(gè)下采樣層和2個(gè)全連接層,二次卷積操作有利于提取到更為細(xì)致的特征,BN算法和dropout層用以防止模型過擬合,空間金字塔池化技術(shù)可以使網(wǎng)絡(luò)能夠處理任何分辨率的圖像,提高模型適用性。通過在KTH和UCF101數(shù)據(jù)集上做識(shí)別測(cè)試實(shí)驗(yàn),特征組合“ViBe二值圖+光流圖+三幀差分圖”作為模型輸入可以得到較高的識(shí)別準(zhǔn)確率,尤其針對(duì)背景較復(fù)雜、動(dòng)作類別多且差異性較小的數(shù)據(jù)集提高明顯,具有較好的實(shí)際應(yīng)用價(jià)值。
關(guān) 鍵 詞 深度學(xué)習(xí);人體動(dòng)作識(shí)別;三維卷積神經(jīng)網(wǎng)絡(luò);BN算法;dropout技術(shù);空間金字塔池化
中圖分類號(hào) TP391.41? ? ?文獻(xiàn)標(biāo)志碼 A
Abstract In order to improve the accuracy of human motion recognition, a new 3D CNN network model is constructed to obtain more detailed human motion features, and the best combination of features is selected through comparative experiments as input of the model. The model consists of five convolution layers, three undersampling layers and two full connection layers. The secondary convolution operation is beneficial to extract more detailed human motion features, BN algorithm and dropout layer are used to prevent model over-fitting. Spatial pyramid pooling technology can enable the network to process any resolution image and improve the applicability of the model. Through the recognition test on KTH and UCF101 data sets, the combination of feature "vibe binary graph + optical flow graph + three frame difference map" as model input can obtain higher recognition accuracy, especially for the data set of complex background, multiple action categories and small differences which has obviously improved and has good practical application value.
Key words deep learning; human motion recognition; three-dimensional convolution neural network; BN algorithm; dropout technology; spatial pyramid pooling
隨著計(jì)算機(jī)視覺技術(shù)的飛速發(fā)展,人體動(dòng)作識(shí)別[1]已被廣泛應(yīng)用于視頻監(jiān)控、運(yùn)動(dòng)輔助分析、家居養(yǎng)老、體感游戲等各個(gè)領(lǐng)域,具有十分廣闊的商業(yè)前景和可觀的經(jīng)濟(jì)價(jià)值。傳統(tǒng)的人工設(shè)計(jì)特征[2]方法需要研究人員有豐富的經(jīng)驗(yàn),工作量大,魯棒性較差,而逐步興起的深度學(xué)習(xí)[3-4]可以很好解決這一問題。二維卷積神經(jīng)網(wǎng)絡(luò)[5]雖可以自動(dòng)學(xué)習(xí)特征,但只能處理圖像,不能直接處理視頻,損失了運(yùn)動(dòng)目標(biāo)的時(shí)間信息。石祥濱等[6]提出一種融合深度特征和時(shí)空特征的人體動(dòng)作識(shí)別方法,雖然能夠取得較好的識(shí)別準(zhǔn)確率,但是特征設(shè)計(jì)復(fù)雜,算法魯棒性較差。Gessert[7]提出了一種結(jié)合單幀圖像和光流圖的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過3個(gè)卷積層、2個(gè)下采樣層和1個(gè)全連接層實(shí)現(xiàn)對(duì)人體極限姿態(tài)的估計(jì),雖然通過使用CNN網(wǎng)絡(luò)可以滿足自動(dòng)學(xué)習(xí)特征的需求,但仍無法獲取視頻相鄰幀間的運(yùn)動(dòng)信息。Ji[8]首次將時(shí)間維引入卷積神經(jīng)網(wǎng)絡(luò),提出了1個(gè)可以直接處理視頻的三維卷積神經(jīng)網(wǎng)絡(luò)模型[9],在數(shù)據(jù)集KTH上達(dá)到90.2%的識(shí)別準(zhǔn)確率,但是仍存在特征提取不完善的問題,需進(jìn)一步提高特征學(xué)習(xí)率。為了更好地獲取運(yùn)動(dòng)目標(biāo)的時(shí)空信息,進(jìn)一步提高模型識(shí)別準(zhǔn)確率,本文通過多次卷積加池化操作得到更豐富細(xì)致的特征信息,并引入BN算法、空間金字塔池化技術(shù)和dropout技術(shù)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),并在標(biāo)準(zhǔn)行為識(shí)別視頻庫(kù)上進(jìn)行特征優(yōu)選實(shí)驗(yàn),選出識(shí)別率最高的特征組合作為模型輸入,并通過與其他算法比較,驗(yàn)證該模型的有效性。
1 3D CNN原理結(jié)構(gòu)
卷積神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)的一種,是一種前饋神經(jīng)網(wǎng)絡(luò)[10],執(zhí)行有監(jiān)督的訓(xùn)練學(xué)習(xí)。卷積神經(jīng)網(wǎng)絡(luò)是專門針對(duì)二維數(shù)據(jù)設(shè)計(jì)的多層感知器,對(duì)比例縮放、平移操作、傾斜等變化都具有高度不變性。三維卷積神經(jīng)網(wǎng)絡(luò)是在二維卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上發(fā)展而來的,可以直接處理視頻序列,獲得更加豐富細(xì)致的人體動(dòng)作特征,具有更高的識(shí)別準(zhǔn)確率。
1.1 3D CNN原理
3D CNN的構(gòu)造原理是在2D CNN的基礎(chǔ)上加入時(shí)間維,根據(jù)視頻數(shù)據(jù)的時(shí)間連續(xù)性和空間局部相關(guān)性[11]的特點(diǎn),以3D卷積和池化操作替代原本的2D卷積和池化操作。
1.2 3D CNN典型結(jié)構(gòu)
學(xué)者Ji等[8]首次將時(shí)間維引入卷積神經(jīng)網(wǎng)絡(luò),并使用3D卷積核進(jìn)行卷積操作,可以提取到連續(xù)多幀圖像間的目標(biāo)運(yùn)動(dòng)信息,獲得更加豐富的動(dòng)作特征,其模型的通道特征輸入為連續(xù)7幀圖像的灰度圖、光流圖和梯度圖,最終在KTH數(shù)據(jù)集上獲得90.2%的識(shí)別準(zhǔn)確率,其模型結(jié)構(gòu)如圖1所示。該模型與人工設(shè)計(jì)特征和2D CNN方法相比,有效提高了識(shí)別準(zhǔn)確率和算法魯棒性,但仍有一定可改進(jìn)之處。比如該3D CNN模型只利用3D卷積核進(jìn)行卷積操作,卻仍然使用傳統(tǒng)的二維池化方式進(jìn)行池化操作,沒有很好地達(dá)到降低數(shù)據(jù)處理量的池化目的;該模型只包含3個(gè)卷積層和2個(gè)下采樣層,特征學(xué)習(xí)不夠充分,還需要增加卷積層數(shù)提高特征學(xué)習(xí)率,從而進(jìn)一步提高人體動(dòng)作姿態(tài)識(shí)別準(zhǔn)確率。
2 3D CNN模型設(shè)計(jì)
本文通過分析卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的特點(diǎn)及經(jīng)典3D CNN模型的不足之處,引入多個(gè)算法改進(jìn)原有3D CNN模型進(jìn)行人體動(dòng)作識(shí)別,并通過優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)一步增強(qiáng)模型區(qū)分相似動(dòng)作的能力,提高動(dòng)作識(shí)別準(zhǔn)確率。
2.1 改進(jìn)的3D CNN模型
本文通過分析3D卷積的特點(diǎn)及經(jīng)典3D CNN模型的不足之處,改進(jìn)原有3D CNN模型進(jìn)行人體動(dòng)作識(shí)別,并通過在輸入數(shù)據(jù)前增加BN算法+ReLU模塊解決數(shù)據(jù)分布不穩(wěn)定問題,引入空間金字塔池化技術(shù)和dropout方法優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)一步提高動(dòng)作識(shí)別準(zhǔn)確率和算法魯棒性。該模型結(jié)構(gòu)如圖2所示。
該3D CNN網(wǎng)絡(luò)各層參數(shù)設(shè)置如表1所示。
本文改進(jìn)的3D CNN的輸入為連續(xù)7幀圖像,得到的feature map構(gòu)成H1層;第2、3層為連續(xù)兩個(gè)3D 卷積層C2、C3,分別用64個(gè)大小為3×3×3的3D卷積核對(duì)上一層的feature map做卷積處理;第4層為三維池化層S4,池化方式為最大值池化,池化尺寸為2×2×2;第5、6層同第2、3層一樣,為兩個(gè)連續(xù)卷積層C5、C6,3D卷積核的尺寸為3×3×3,數(shù)量分別為32個(gè);第7層同第4層一樣,為三維最大值池化層S7,池化尺寸為3×3×3;第8層為卷積層C8,包含32個(gè)大小為3×3×3的3D卷積核;第9層為dropout層,為了防止模型出現(xiàn)過擬合,該層將會(huì)以設(shè)定置零率的比例將卷積層C8與下一層之間的神經(jīng)元斷開,減少學(xué)習(xí)參數(shù)的數(shù)量;第10層為空間金字塔池化層(SPP),通常置于全連接層前,可以處理任意大小的圖像并得到固定長(zhǎng)度的特征向量送入全連接層;第11、12層均為全連接層,F(xiàn)C11的256個(gè)神經(jīng)元與SPP層得到的特征向量進(jìn)行全連接,并輸出包含256個(gè)元素的一維特征向量,F(xiàn)C12的128個(gè)神經(jīng)元再與上一層的一維數(shù)組全連接,最終經(jīng)過softmax分類得到動(dòng)作類別。
2.2 改進(jìn)3D CNN模型的優(yōu)勢(shì)
1)學(xué)者Ji等[8]提出的3D CNN模型只在卷積層使用3D卷積核進(jìn)行卷積操作,在下采樣層仍然使用傳統(tǒng)的二維池化操作,且一共只包含2個(gè)卷積層和2個(gè)下采樣層。本文改進(jìn)的3D CNN模型包含5個(gè)卷積層和3個(gè)下采樣層,多層卷積可以獲得更細(xì)致的動(dòng)作特征,在下采樣層使用三維池化方式進(jìn)行池化操作,可以更好地降低特征圖維度,減少數(shù)據(jù)處理量,提高整個(gè)網(wǎng)絡(luò)輸出對(duì)于位移和形變的魯棒性,從而進(jìn)一步改善網(wǎng)絡(luò)性能。
2)使用BN算法+ReLU。CNN訓(xùn)練過程中每一層的權(quán)重都在改變,只要淺層網(wǎng)絡(luò)權(quán)值有微小變化,后面層將會(huì)累積放大這些變化。為了保證每一層適應(yīng)其輸入數(shù)據(jù)的分布,訓(xùn)練過程不得不使用較小的學(xué)習(xí)率,盡可能降低代價(jià)函數(shù)損失值。而這種多層網(wǎng)絡(luò)反復(fù)學(xué)習(xí)數(shù)據(jù)分布的操作將會(huì)嚴(yán)重影響整個(gè)網(wǎng)絡(luò)的訓(xùn)練速度。為了解決數(shù)據(jù)分布不穩(wěn)定的問題,本文在兩次3D卷積和三維下采樣組合操作后,各加入1個(gè)BN+ReLU模塊,為下一層的輸入數(shù)據(jù)做批量歸一化處理(歸一化為均值為0,標(biāo)準(zhǔn)差為1),從而加快網(wǎng)絡(luò)收斂速率,提高模型學(xué)習(xí)速度。
3)使用空間金字塔池化技術(shù)(SPP)。卷積神經(jīng)網(wǎng)絡(luò)中的卷積層和下采樣層都可以處理任意分辨率的輸入數(shù)據(jù),并得到對(duì)應(yīng)尺寸的特征圖,但是全連接層只能接收固定長(zhǎng)度的特征向量,因此傳統(tǒng)CNN要求輸入數(shù)據(jù)必須具有統(tǒng)一維度。為了克服這一限制,提高模型適用性,本文模型在全連接層前加1個(gè)SPP層,能將任意大小的特征圖轉(zhuǎn)換為固定大小的特征向量,因此只需要訓(xùn)練1個(gè)網(wǎng)絡(luò)模型就可以識(shí)別不同分辨率的輸入圖像。
4)使用dropout技術(shù)。在卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,模型泛化能力強(qiáng)弱是該網(wǎng)絡(luò)訓(xùn)練好壞的重要考量,但是過擬合問題(over-fitting)在深度網(wǎng)絡(luò)中普遍存在,尤其是在較復(fù)雜的神經(jīng)網(wǎng)絡(luò)中訓(xùn)練小樣本時(shí),嚴(yán)重影響整個(gè)網(wǎng)絡(luò)模型的泛化能力,降低網(wǎng)絡(luò)對(duì)未知樣本的學(xué)習(xí)能力。本文選用dropout方法解決模型訓(xùn)練過程中的過擬合現(xiàn)象,通過調(diào)整卷積神經(jīng)網(wǎng)絡(luò)的自身結(jié)構(gòu),避免模型對(duì)訓(xùn)練樣本部分局部特征過度依賴,達(dá)到防止過擬合的目的。
3 特征優(yōu)選實(shí)驗(yàn)與分析
為了優(yōu)選出識(shí)別準(zhǔn)確率最高的特征組合,并驗(yàn)證改進(jìn)3D CNN模型有效性,本文在KTH、Weizmann 和UCF101標(biāo)準(zhǔn)視頻庫(kù)上做多組識(shí)別測(cè)試實(shí)驗(yàn)。3個(gè)標(biāo)準(zhǔn)視頻庫(kù)的具體屬性如表2所示。
傳統(tǒng)3D CNN的通道數(shù)據(jù)輸入分別為灰度圖、梯度特征圖、光流特征圖,為了驗(yàn)證這樣的特征組合是否是最適合的,以及不同特征對(duì)模型識(shí)別準(zhǔn)確度的貢獻(xiàn)大小,本文在3個(gè)標(biāo)準(zhǔn)視頻庫(kù)上做多組對(duì)比實(shí)驗(yàn),并選擇出該模型輸入的最優(yōu)特征組合。
3.1 標(biāo)準(zhǔn)視頻庫(kù)實(shí)驗(yàn)結(jié)果與分析
3.1.1 特征組合“灰度圖+光流圖+梯度圖”
當(dāng)以傳統(tǒng)特征組合“灰度圖+光流圖+梯度圖”為輸入時(shí),分別對(duì)3個(gè)標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn),得到相應(yīng)的識(shí)別準(zhǔn)確率,取KTH和Weizmann數(shù)據(jù)庫(kù)的平均識(shí)別率,識(shí)別準(zhǔn)確率如表3所示。
以KTH和UCF101視頻庫(kù)為例,原特征輸入時(shí)識(shí)別準(zhǔn)確率隨著epoch的變化趨勢(shì)如圖3所示,其中train-acc曲線為訓(xùn)練識(shí)別準(zhǔn)確率,test-acc曲線為測(cè)試識(shí)別準(zhǔn)確率。
3.1.2 特征組合“二值圖+光流圖+梯度圖”
傳統(tǒng)3D CNN以灰度圖為通道輸入,對(duì)于樣本數(shù)量大、動(dòng)作種類多,背景較復(fù)雜的UCF101數(shù)據(jù)庫(kù)來說,難以提取到較為精確的前景目標(biāo)。因此本文選用Vibe算法提取到的運(yùn)動(dòng)前景二值圖作為卷積神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù),達(dá)到提高運(yùn)動(dòng)輪廓清晰度的目的。其中UCF101數(shù)據(jù)庫(kù)的部分動(dòng)作及其ViBe算法得到的二值圖如圖4所示。
以二值圖代替灰度圖作為輸入數(shù)據(jù),其他通道特征不變,分別對(duì)3個(gè)標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)進(jìn)行實(shí)驗(yàn),得到網(wǎng)絡(luò)模型識(shí)別準(zhǔn)確率如表4所示。
通過與表3對(duì)比可發(fā)現(xiàn),以二值圖代替灰度圖作為輸入,其他特征不變,對(duì)KTH數(shù)據(jù)庫(kù)和Weizmann 數(shù)據(jù)庫(kù)識(shí)別準(zhǔn)確率的提升效果不大,只提高了0.3個(gè)百分點(diǎn),但是對(duì)UCF101 數(shù)據(jù)庫(kù)的識(shí)別準(zhǔn)確率有很明顯的改進(jìn),從83.1%提高到84.8%,提高了1.7個(gè)百分點(diǎn)??梢?,對(duì)于背景較復(fù)雜,動(dòng)作較多變的數(shù)據(jù)庫(kù)樣本來說,用二值圖代替灰度圖可以更準(zhǔn)確地捕捉運(yùn)動(dòng)目標(biāo)和運(yùn)動(dòng)部位,更好地將運(yùn)動(dòng)前景輪廓與背景分離開來,提高了獲取運(yùn)動(dòng)目標(biāo)的速度,降低識(shí)別誤差,而且還為3D CNN模型消除大量背景噪聲,大大降低了背景數(shù)據(jù)的處理量。
3.1.3 特征組合“二值圖+光流圖+輪廓特征/運(yùn)動(dòng)特征”
本文分別從輪廓特征和運(yùn)動(dòng)特征兩個(gè)方面選取特征進(jìn)行組合,以“二值圖+光流圖”為基礎(chǔ)特征,分別與HOG特征圖、累積邊緣圖(AEI)、頻譜特征圖(DCT)及運(yùn)動(dòng)歷史圖(MHI)、幀差圖、三幀差分圖組成特征組合,并通過對(duì)比實(shí)驗(yàn)找到最優(yōu)特征組合。在KTH+Weizmann 數(shù)據(jù)庫(kù)上,特征組合的識(shí)別準(zhǔn)確率分別如表5、表6所示。
將表5、表6與表3對(duì)比可知,用輪廓特征對(duì)整個(gè)網(wǎng)絡(luò)模型識(shí)別準(zhǔn)確率的提高效果并不明顯,最好的HOG特征只提高了0.3個(gè)百分點(diǎn)。而運(yùn)動(dòng)特征明顯提高了識(shí)別準(zhǔn)確率,效果最好的三幀差分圖提高了1.2個(gè)百分點(diǎn),原因是包含三幀間的運(yùn)動(dòng)信息,能夠更好地體現(xiàn)不同類別動(dòng)作的差異性,提高區(qū)分相似動(dòng)作的識(shí)別準(zhǔn)確率。最終,本文模型選用“二值圖+光流圖+三幀差分圖”為最優(yōu)特征組合作為模型的輸入數(shù)據(jù),以KTH和UCF101數(shù)據(jù)庫(kù)為例,本文模型識(shí)別準(zhǔn)確率隨著epoch的變化趨勢(shì)如圖5所示。
通過對(duì)比圖5和圖3可知,使用最優(yōu)特征組合后的網(wǎng)絡(luò)模型可以有效提高識(shí)別準(zhǔn)確率,且對(duì)背景較復(fù)雜、動(dòng)作種類較多視頻集的識(shí)別準(zhǔn)確率有很明顯的提高。而且相較于傳統(tǒng)通道特征,以最優(yōu)組合特征為輸入數(shù)據(jù)的模型分類準(zhǔn)確率提高較快,即訓(xùn)練和識(shí)別時(shí)具有更快的收斂速度,能在較短時(shí)間內(nèi)達(dá)到預(yù)期的分類精度。以KTH數(shù)據(jù)庫(kù)為例,原特征數(shù)據(jù)完成30個(gè)epoch后,模型識(shí)別準(zhǔn)確率才達(dá)到86.6%,最終識(shí)別率為90.1%;而最優(yōu)特征組合在20個(gè)epoch后準(zhǔn)確率就可達(dá)到89.7%,最終識(shí)別率為93.7%。
3.2 自建視頻庫(kù)實(shí)驗(yàn)結(jié)果與分析
除了在標(biāo)準(zhǔn)視頻庫(kù)上進(jìn)行實(shí)驗(yàn),本文還在自建視頻庫(kù)上做識(shí)別測(cè)試實(shí)驗(yàn),進(jìn)一步驗(yàn)證本文改進(jìn)的3D CNN模型在人體動(dòng)作姿態(tài)識(shí)別領(lǐng)域的實(shí)用性。本文的自建視頻庫(kù)共包含360個(gè)視頻,6類動(dòng)作(walking、running、jumping、falling、hand waving、hand clapping),4個(gè)不同的場(chǎng)景(室內(nèi)、室內(nèi)放大、室外、室外放大),每類動(dòng)作均由15個(gè)不同的人完成,視頻主要差異體現(xiàn)在動(dòng)作變化、尺度變化和光照變化。且視頻無攝像機(jī)運(yùn)動(dòng),背景較簡(jiǎn)單,人體動(dòng)作簡(jiǎn)單類別少,類間差異較明顯。自建視頻庫(kù)部分動(dòng)作示例如圖6所示。
當(dāng)輸入特征組合分別為“灰度圖+光流圖+梯度圖”和“二值圖+光流圖+三幀差分圖”時(shí),本文模型在自建視頻庫(kù)上的運(yùn)動(dòng)姿態(tài)識(shí)別準(zhǔn)確率如表7所示。
由表7可知,本文改進(jìn)的3D CNN在以兩個(gè)不同的特征組合為輸入時(shí)均可以達(dá)到較高的識(shí)別準(zhǔn)確率,且以最優(yōu)特征組合“二值圖+光流圖+三幀差分圖”為輸入特征比傳統(tǒng)特征組合“灰度圖+光流圖+梯度圖”達(dá)到更好的識(shí)別效果。由此可見,本文在標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)上通過多次對(duì)比實(shí)驗(yàn)選擇出的最優(yōu)輸入特征組合在實(shí)際應(yīng)用中也具有適用性。
為了驗(yàn)證本文模型較其他深度學(xué)習(xí)算法的識(shí)別優(yōu)勢(shì),分別對(duì)比不同算法在KTH數(shù)據(jù)庫(kù)和UCF101數(shù)據(jù)庫(kù)上的識(shí)別準(zhǔn)確率,如表8、表9所示。
4 結(jié)語(yǔ)
為了提取到更加豐富的動(dòng)作特征,提高區(qū)分相似動(dòng)作的能力,本文通過融合BN算法、dropout技術(shù)和空間金字塔池化技術(shù),改進(jìn)原有3D CNN模型進(jìn)行人體動(dòng)作識(shí)別,并優(yōu)選特征組合作為模型輸入以提高識(shí)別準(zhǔn)確率。該模型采用多次卷積加池化操作獲得更為細(xì)致的特征信息;通過BN算法、dropout技術(shù)和空間金字塔池化技術(shù)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),提高網(wǎng)絡(luò)收斂速度和算法適用性。本文對(duì)模型輸入特征進(jìn)行優(yōu)選,實(shí)驗(yàn)結(jié)果表明特征組合“ViBe二值圖+光流圖+三幀差分圖”在KTH和UCF101標(biāo)準(zhǔn)視頻庫(kù)上取得較高識(shí)別準(zhǔn)確率,分別為93.7%和90.2%。通過與其他算法對(duì)比可見,本文模型取得了較高識(shí)別準(zhǔn)確率,尤其是針對(duì)背景較為復(fù)雜、動(dòng)作種類多的數(shù)據(jù)集提高明顯,具有較好的實(shí)際應(yīng)用價(jià)值。但是深度學(xué)習(xí)算法計(jì)算量大,實(shí)時(shí)性問題需要進(jìn)一步考慮,如何通過優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),提高運(yùn)行速度是以后需要著重關(guān)注的方向。
參考文獻(xiàn):
[1]? ? 陳利峰. 舞蹈視頻圖像中人體動(dòng)作識(shí)別技術(shù)的研究[J]. 現(xiàn)代電子技術(shù),2017,40(3):51-53,57.
[2]? ? ALKASASSBEH M. An empirical evaluation for the intrusion detection features based on machine learning and feature selection methods[J]. Journal of Theoretical and Applied Information Technology,2017,95(22):5962-5976.
[3]? ? SHEN D G,WU G R,SUK H I. Deep learning in medical image analysis[J]. Annual Review of Biomedical Engineering,2017,19:221-248.
[4]? ? 張慧,王坤峰,王飛躍. 深度學(xué)習(xí)在目標(biāo)視覺檢測(cè)中的應(yīng)用進(jìn)展與展望[J]. 自動(dòng)化學(xué)報(bào),2017,43(8):1289-1305.
[5]? ? 王正來,黃敏,朱啟兵,等. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的運(yùn)動(dòng)目標(biāo)光流檢測(cè)方法[J]. 光電工程,2018,45(8):180027.
[6]? ? 石祥濱,李菲,劉翠微. 基于多特征融合的動(dòng)作識(shí)別方法[J]. 沈陽(yáng)航空航天大學(xué)學(xué)報(bào),2017,34(2):55-65.
[7]? ? GESSERT N,BERINGHOFF J,OTTE C,et al. Force estimation from OCT volumes using 3D CNNs[J]. International Journal of Computer Assisted Radiology and Surgery,2018,13(7):1073-1082.
[8]? ? JI S W,XU W,YANG M,et al. 3D convolutional neural networks for human action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(1):221-231.
[9]? ? ZOU L,ZHENG J N,MIAO C Y,et al. 3D CNN based automatic diagnosis of attention deficit hyperactivity disorder using functional and structural MRI[J]. IEEE Access,2017,5:23626-23636.
[10]? 朱堅(jiān)民,謝平,黃春燕,等. 基于前饋神經(jīng)網(wǎng)絡(luò)控制的球桿系統(tǒng)位置控制[J]. 控制工程,2017,24(6):1186-1193.
[11]? 夏佳志,張亞偉,張健,等. 一種基于子空間聚類的局部相關(guān)性可視分析方法[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2016,28(11):1855-1862.
[12]? BLENDOWSKI M,HEINRICH M P. Combining MRF-based deformable registration and deep binary 3D-CNN descriptors for large lung motion estimation in COPD patients[J]. International Journal of Computer Assisted Radiology and Surgery,2019,14(1):43-52.
[13]? 劉嘉瑩,張孫杰. 融合視頻時(shí)空域運(yùn)動(dòng)信息的3D CNN人體行為識(shí)別[J]. 電子測(cè)量技術(shù),2018,41(7):43-49.
[14]? CAMARENA-MARTINEZ D,VALTIERRA-RODRIGUEZ M,PEREZ-RAMIREZ C A,et al. Novel downsampling empirical mode decomposition approach for power quality analysis[J]. IEEE Transactions on Industrial Electronics,2016,63(4):2369-2378.
[15]? ZHAO J F,MAO X,ZHANG J. Learning deep facial expression features from image and optical flow sequences using 3D CNN[J]. The Visual Computer,2018,34(10):1461-1475.