劉石磊 李欽 楊耿
1. 深圳信息職業(yè)技術(shù)學(xué)院 廣東 深圳 518172;
2. 香港理工大學(xué) 香港 999077
行為識別作為計算機(jī)世界領(lǐng)域的研究重點(diǎn),在視頻監(jiān)控、人機(jī)交互、環(huán)境輔助生活、智能駕駛等應(yīng)用方面有很大的應(yīng)用空間。但是,受到遮擋、視角變化、尺度變化、陰影、光照變化和類內(nèi)變異與類間相似性等的影響,人體行為識別率并不理想。
由當(dāng)前的行為識別方法上看,主要體現(xiàn)在以下方面:第一,基于圖像局部特征檢測的方法,即利用多極體系結(jié)構(gòu)分級的建構(gòu)實(shí)施行為識別的方法;第二,運(yùn)用深度學(xué)習(xí)開展行為識別的方法。
基于圖像局部特征檢測的方法:使用方向梯度直方圖(Hog)或尺度不變(SHIFT)檢測子來提取視頻中的形狀信息,并用光流直方圖(HOF)或運(yùn)動邊界直方圖特征提取視頻中的運(yùn)動信息(MBH),然后用詞包形式進(jìn)行編碼,并訓(xùn)練分類器識別人體行為[1-3]。
基于深度學(xué)習(xí)的方法:以上所提出的基于圖像局部特征的人體行為識別方法,即把視頻圖像中所提取的局部特征,依托手工制造獲得高維特征,所以這些方法具有很強(qiáng)的針對性,但通用性并不是很好。為了獲取通用性強(qiáng)的視頻中人體行為識別的方法,近些年來,學(xué)者們開始對基于深度學(xué)習(xí)算法應(yīng)用的研究。
由目前的基于深度學(xué)習(xí)的方法上看,主要如下:第一,基于雙流的方法,即運(yùn)用空間流(spatial)、結(jié)合幀圖像提取到的光流場圖像(temporal flow),并對視頻圖像、密集分流開展CNN模型的訓(xùn)練,判斷兩個分支網(wǎng)絡(luò)關(guān)于動作的識別,融合兩個網(wǎng)絡(luò)的直接平均分類得分、svm分類得分,從而得出最終的結(jié)果[4-6]。
第二類是基于3D卷積網(wǎng)絡(luò)的方法,通過3D卷積,可以直接處理視頻[7-9]。
當(dāng)前,在基于視頻的行為識別應(yīng)用領(lǐng)域,深度學(xué)習(xí)得到了普遍應(yīng)用,但是仍面臨著兩個主要問題:一是長范圍時間結(jié)構(gòu)在理解視頻中較長時間的行為上起著重要作用,但是目前的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)大多只關(guān)注表象和短時間段的運(yùn)動;二是在實(shí)際中,對于深度卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練而言,亟須大量的訓(xùn)練樣本,進(jìn)一步優(yōu)化其網(wǎng)絡(luò)性能,但視頻數(shù)據(jù)的樣本量是有限的。因此如何設(shè)計有效的深度網(wǎng)絡(luò)來學(xué)習(xí)視頻序列的最佳表示,并在有限的訓(xùn)練樣本下,訓(xùn)練網(wǎng)絡(luò)以提高模型的性能是目前急需解決的研究課題。本文提出一種基于多輸入流的行為識別網(wǎng)絡(luò),首先將視頻分段,然后利用稀疏采樣策略提取視頻序列, 使得網(wǎng)絡(luò)能學(xué)習(xí)到較長時間范圍結(jié)構(gòu),同時提出基于多輸入流的卷積網(wǎng)絡(luò)結(jié)構(gòu)來提高雙流卷積神經(jīng)網(wǎng)絡(luò)在視頻行為識別方面的處理能力。
在時間結(jié)構(gòu)上視頻的連續(xù)幀是高度冗余的。因此,密集的時間采樣,通常導(dǎo)致高度相似的采樣幀,這是不必要的。相反,基于這種情況,使用稀疏時間采樣策略更有利。所以,我們在長視頻序列上,利用稀疏采樣方案,對短片段進(jìn)行提取,值得注意的是,樣本依時間維度進(jìn)行均勻分布。在這一前提下,使用分段結(jié)構(gòu),對源自采樣片段的信息實(shí)施聚合處理。由這個層面上看,時間段網(wǎng)絡(luò)能夠在整體上建模遠(yuǎn)程時間結(jié)構(gòu)視頻。此外,這種稀疏采樣策略,使用比較低的成本,對相關(guān)信息進(jìn)行保留,對時間和資源進(jìn)行合理預(yù)算,以此開展對長視頻序列的端到端學(xué)習(xí)。為了充分利用視頻中的視覺內(nèi)容,我們提出基于多輸入流的卷積行為識別網(wǎng)絡(luò)。
具體的網(wǎng)絡(luò)結(jié)構(gòu)如下:
具體實(shí)施方法:首先,將一個輸入的視頻分割成K個部分,如接著,對得到的K組視頻序列稀疏隨機(jī)采樣得到并將輸入雙流(two-stream)卷積神經(jīng)網(wǎng)絡(luò)中(圖中K組網(wǎng)絡(luò)共享參數(shù)W),輸出對應(yīng)K組得分;接下來,運(yùn)用平均均值的融合方法得到最終類別得分,該部分對應(yīng)圖1中segmental consensus部分,并且用 表示融合后的輸出。最后將提取出時間和空間信息合并作為最終特征來進(jìn)行分類處理。
在此,我們使用Softmax函數(shù)來進(jìn)行分類,使用標(biāo)準(zhǔn)的分類交叉熵?fù)p失(cross-entropy loss)來度量損失函數(shù),以及隨機(jī)梯度下降法(SGD)來訓(xùn)練網(wǎng)絡(luò)參數(shù)。
網(wǎng)絡(luò)損失函數(shù)定義如下:
其中,C是動作的類別數(shù),yi代表第i類的groundtruth標(biāo)簽。
網(wǎng)絡(luò)結(jié)構(gòu):選擇BN-Inception結(jié)構(gòu)設(shè)計時空雙流(twostream)卷積神經(jīng)網(wǎng)絡(luò),其中,空間流卷積神經(jīng)網(wǎng)絡(luò)作用在單幀的RGB圖像上(single RGB images),而時間流卷積神經(jīng)網(wǎng)絡(luò)以堆疊的光流數(shù)據(jù)幀(stacked optical flow field)作為輸入。
視頻數(shù)據(jù)量過少會使得網(wǎng)絡(luò)面臨嚴(yán)重的過擬合問題。針對此類問題我們提出三種防止過擬合的方法
1.2.1 數(shù)據(jù)增強(qiáng)。數(shù)據(jù)增強(qiáng)能出現(xiàn)不同的訓(xùn)練樣本,能有效避免出現(xiàn)嚴(yán)重的過擬合情況。在傳統(tǒng)的 two-stream 中,運(yùn)用隨機(jī)裁剪、水平翻轉(zhuǎn)方法,拓展訓(xùn)練樣本的量。此外,還可以采用兩種新方法:①角裁剪(corner cropping),即只由圖片的中心、邊角對區(qū)域進(jìn)行提取,以此防止對關(guān)注圖片的中心進(jìn)行默認(rèn)。②尺度抖動(scale-jittering),即把輸入圖像、光流場的大小進(jìn)行固定,對于裁剪區(qū)域的寬和高而言,對其進(jìn)行隨機(jī)選擇。最終,這些裁剪區(qū)域能被調(diào)整成最為恰當(dāng)?shù)拇笮?,并在網(wǎng)絡(luò)訓(xùn)練中得以運(yùn)用。事實(shí)上,這種方法不光包括了尺度抖動,還包括了寬高比抖動。
1.2.2 交叉 - 模態(tài)預(yù)訓(xùn)練(Cross modality Pre-training)。當(dāng)訓(xùn)練樣本較少時,預(yù)訓(xùn)練是一種較好的訓(xùn)練神經(jīng)網(wǎng)絡(luò)防止過擬合的方法。
1.2.3 正則化(Regularization Technique)。批量歸一化(BN)可以用來解決協(xié)方差偏移(covariate shift)的問題。
在HW[10]和Caltech101[11]數(shù)據(jù)可上進(jìn)行了實(shí)驗(yàn),表1和表2給出了幾種算法和我們提出的算法的比較。由表1和表2可知,我們算法明顯優(yōu)于其他幾種算法。
表1 幾種算法在HW數(shù)據(jù)庫上的識別率(%)和方差
表2 幾種算法在Caltech101數(shù)據(jù)庫上的識別率(%)和方差
長范圍時間結(jié)構(gòu)在理解視頻中較長時間的行為上起著重要作用。深度學(xué)習(xí)雖然已經(jīng)被有效地運(yùn)用到靜止圖像的分類研究上,但并不能有效地提取出較長時間范圍視頻序列中的時序結(jié)構(gòu)信息,因此如何設(shè)計出合適的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來有效提取長時間范圍結(jié)構(gòu)是目前行為識別需要解決的一個關(guān)鍵問題和難點(diǎn)。本文設(shè)計了一種卷積神經(jīng)網(wǎng)絡(luò),能夠有效地提出視頻序列中的圖像信息和時序結(jié)構(gòu),從而達(dá)到對行為視頻進(jìn)行分類的目的。