黃文明,陽沐利,藍(lán)如師,鄧珍榮,羅笑南
融合非局部神經(jīng)網(wǎng)絡(luò)的行為檢測模型
黃文明,陽沐利,藍(lán)如師,鄧珍榮,羅笑南
(桂林電子科技大學(xué)計(jì)算機(jī)與信息安全學(xué)院,廣西 桂林 541004)
針對(duì)在視頻行為檢測中卷積神經(jīng)網(wǎng)絡(luò)(CNN)對(duì)時(shí)域信息理解能力不足的問題,提出了一種融合非局部神經(jīng)網(wǎng)絡(luò)的行為檢測模型。模型采用一種雙分支的CNN結(jié)構(gòu),分別提取視頻的空間特征和運(yùn)動(dòng)特征。將視頻單幀和視頻連續(xù)幀序列作為網(wǎng)絡(luò)輸入,空間網(wǎng)絡(luò)對(duì)視頻當(dāng)前幀進(jìn)行2D CNN特征提取,時(shí)空網(wǎng)絡(luò)采用融合非局部模塊的3D CNN來捕獲視頻幀之間的全局聯(lián)系。為了進(jìn)一步增強(qiáng)上下文語義信息,使用一種通道融合機(jī)制來聚合雙分支網(wǎng)絡(luò)的特征,最后將融合后的特征用于幀級(jí)檢測。在UCF101-24和JHMDB 2個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明,該方法能夠充分融合空間和時(shí)間維度信息,在基于視頻的時(shí)空行為檢測任務(wù)上具有較高的檢測精度。
行為檢測;非局部模塊;3D卷積;注意力機(jī)制
隨著視頻采集設(shè)備的廣泛使用,當(dāng)前的視頻監(jiān)控平臺(tái)已無法應(yīng)付日益劇增的海量數(shù)據(jù),因此對(duì)視頻內(nèi)容進(jìn)行自動(dòng)智能分析十分必要。近年來,基于深度學(xué)習(xí)的視頻行為檢測技術(shù)成為了國內(nèi)外廣大研究者的熱點(diǎn)課題。行為檢測是指對(duì)于給定的視頻,識(shí)別其包含的行為類別和主體,并確定行為在視頻中出現(xiàn)和截止的時(shí)刻。行為檢測在安防監(jiān)控等視覺領(lǐng)域有著廣泛地應(yīng)用。
現(xiàn)有的行為檢測方法主要有2種:①基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[1]的序列學(xué)習(xí)方法,如ESCORCIA等[2]利用長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[3]對(duì)視頻流進(jìn)行編碼以生成時(shí)間區(qū)域候選,YEUNG等[4]通過強(qiáng)化學(xué)習(xí)訓(xùn)練一個(gè)基于RNN的高精度分析模型進(jìn)行視頻行為預(yù)測,但這些方法往往在處理長視頻時(shí)及其耗時(shí),且由卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)[5]提取的基本特征不支持聯(lián)合訓(xùn)練。②受目標(biāo)檢測領(lǐng)域中的Faster R-CNN[6]的啟發(fā),采用2階段檢測法:第一階段從完整的長視頻中生成可能包含行為的候選區(qū)域;第二階段使用行為識(shí)別的方法對(duì)該候選區(qū)域進(jìn)行行為分類[7-8]。但該方法存在動(dòng)作候選時(shí)序段的生成耗時(shí)、分別訓(xùn)練區(qū)域時(shí)建議網(wǎng)絡(luò)和分類網(wǎng)絡(luò)無法保證找到全局最優(yōu)解的缺點(diǎn)。另一方面,CNN和RNN均為局部區(qū)域的運(yùn)算,不能獲取更大范圍的信息,因此,在使用這些網(wǎng)絡(luò)分析視頻時(shí)只考慮了前后幾個(gè)視頻幀對(duì)當(dāng)前幀的影響,而視頻動(dòng)作的檢測往往需要考慮多個(gè)長距離幀之間的聯(lián)系。
基于以上討論,為有效提高行為檢測的速度和精度,本文借鑒了YOWO模型的思想[9],提出一種改進(jìn)的行為檢測算法。該模型采用回歸算法,將檢測過程合并為一個(gè)網(wǎng)絡(luò),同時(shí)對(duì)行為進(jìn)行定位和分類,從而加快整個(gè)檢測過程。首先,使用3D CNN提取視頻的時(shí)空特征,并結(jié)合2D CNN獲取精確的空間特征。針對(duì)淺層3D CNN提取視頻時(shí)空特征能力不足的問題,本文提出將非局部模塊(non-local block)[10]嵌入到三維神經(jīng)網(wǎng)絡(luò)以解決視頻幀的長距離依賴問題。其次,為了更好地融合2種特征,采用一種基于格拉姆矩陣(Gram matrix)的通道融合和注意力機(jī)制的特征融合方法進(jìn)行特征融合,最大程度地利用通道間的依賴性。最后,使用回歸策略調(diào)整邊界框并對(duì)行為分類,實(shí)現(xiàn)視頻級(jí)的行為檢測。
早期的行為識(shí)別算法主要采用分類人工設(shè)計(jì)特征的模式,人工設(shè)計(jì)特征一般分為全局特征和局部特征。全局特征是將人體行為作為描述對(duì)象進(jìn)行特征提取,如DATTA等[11]利用加速度運(yùn)動(dòng)矢量(acceleration measure vectors,AMV)結(jié)合人體軀干的運(yùn)動(dòng)軌跡信息和方向信息可以檢測視頻中某類行為是否發(fā)生。由于全局特征容易受到遮擋和噪聲以及視角變化的影響,該方法的檢測精度較低。局部特征則是描述了一個(gè)動(dòng)作的局部運(yùn)動(dòng)特征,其采用局部特征描述子來表示視頻的運(yùn)動(dòng)特征,如CONG等[12]在光流直方圖(histograms of optical flow,HOF)的特征描述方法的基礎(chǔ)上提出了多尺度的特征描述子,并同時(shí)提取視頻幀的位移特征和空間特征。WANG等[13-14]提出一種密集地采樣和追蹤視頻幀上的像素點(diǎn)的方法構(gòu)造局部特征描述子,并通過匹配幀之間的特征點(diǎn)來估計(jì)拍攝相機(jī)的運(yùn)動(dòng),這些方法在特定場景下均取得了不錯(cuò)的效果,但是人工特征提取的計(jì)算量巨大,在視頻處理應(yīng)用中仍具有較大的局限性。
隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的廣泛應(yīng)用,一些研究人員將相關(guān)技術(shù)應(yīng)用到行為檢測任務(wù)中。NG等[15]將CNN與RNN結(jié)合,利用CNN對(duì)視頻的全局特征進(jìn)行描述,再將幀級(jí)特征和提取的光流特征輸入到池化框架或LSTM進(jìn)行訓(xùn)練,利用LSTM的記憶功能對(duì)視頻幀之間的時(shí)序信息進(jìn)行建模。JI等[16]將2D CNN在時(shí)間域擴(kuò)展成三維,由于附加了時(shí)間信息,該方式能夠?qū)Χ鄠€(gè)視頻幀進(jìn)行提取,以獲得兼具時(shí)空信息描述的特征,從而捕獲視頻中的運(yùn)動(dòng)信息。TRAN等[17]在此基礎(chǔ)上提出用于學(xué)習(xí)時(shí)空特征的C3D網(wǎng)絡(luò)模型,經(jīng)過一個(gè)大規(guī)模監(jiān)控視頻數(shù)據(jù)集訓(xùn)練之后,可以實(shí)現(xiàn)簡單有效的行為時(shí)序信息學(xué)習(xí),進(jìn)一步提高了3D CNN的性能。
注意力機(jī)制常應(yīng)用于圖像分類、目標(biāo)檢測等方面。一些研究者利用注意力機(jī)制增強(qiáng)特征的表達(dá)能力,提高目標(biāo)檢測任務(wù)的檢測效果。注意力機(jī)制通過計(jì)算當(dāng)前位置與其他位置之間的關(guān)聯(lián)性,來強(qiáng)化對(duì)當(dāng)前位置有意義的信息并弱化無意義的信息,從而捕捉不同位置之間的依賴關(guān)系。
HU等[18]首次提出利用注意力機(jī)制來獲取特征通道之間聯(lián)系,該方法可以獲得特征圖的每個(gè)通道在全局下的表示,并為每個(gè)特征通道重新分配權(quán)重,然后根據(jù)其重要性來選擇提升或抑制相應(yīng)的特征。KONG等[19]在特征金字塔結(jié)構(gòu)基礎(chǔ)上,將全局注意力與局部注意力重新組合,進(jìn)而在空間和尺度上提取目標(biāo)的全局或局部的相關(guān)特征。文獻(xiàn)[10]提出了一種非局部神經(jīng)網(wǎng)絡(luò),通過建立特征圖中位置間的聯(lián)系,增強(qiáng)空間局部特征的表達(dá)能力,可以很好地捕捉到相距較遠(yuǎn)的特征之間的相互關(guān)系,由此將非局部操作融入到了用于視頻分類的非局部卷積神經(jīng)網(wǎng)絡(luò)中。
本文方法的總體思路為:在判斷一個(gè)動(dòng)作時(shí),將當(dāng)前幀空間信息與從先前幀中獲得的時(shí)空信息關(guān)聯(lián)起來,然后將2種特征融合在一起,從而為判斷行為提供合理的依據(jù)。模型主要由視頻特征提取網(wǎng)絡(luò)、特征融合和邊界框回歸3部分組成,檢測流程如圖1所示。
圖1 本文模型框架
為了檢測視頻中的行為主體和類別,以視頻的當(dāng)前幀和視頻幀序列作為輸入,2D CNN提取視頻單幀的外觀特征,并使用融合非局部模塊后的3D CNN獲取多幀的時(shí)空特征。為了更好地實(shí)現(xiàn)雙通道的特征融合,本文采用一種基于注意力機(jī)制的特征融合方法,得到輸入視頻幀序列的時(shí)空特征表示。最后采用一種回歸方法對(duì)視頻中的行為進(jìn)行分類并對(duì)邊界框進(jìn)行微調(diào)。
非局部操作可視為一種自注意力機(jī)制,其在圖像和視頻檢測中表現(xiàn)出了較好的效果,該模塊可以壓縮通道特征、聚合全局空間特征以增強(qiáng)目標(biāo)局部特征。將其作為一個(gè)整體的模塊嵌入到視頻編碼階段中,以獲取深度神經(jīng)網(wǎng)絡(luò)的長時(shí)記憶。
非局部操作計(jì)算步驟為:首先計(jì)算當(dāng)前位置的像素點(diǎn)與特征圖內(nèi)所有的像素點(diǎn)之間的相似性值,然后對(duì)相似性值進(jìn)行加權(quán)求和來表示當(dāng)前位置的特征信息,達(dá)到利用全局特征增強(qiáng)局部特征的目的。且通過非局部操作獲取特征在時(shí)空域的全局信息。直觀地說,非局部操作是將某一處位置的值與特征映射中所有位置(時(shí)間、空間或時(shí)空)的特征加權(quán)求和,即
其中,,分別為輸入和輸出特征,一般為圖像或視頻幀的特征圖,兩者具有相同維度;為輸出特征的位置索引;為輸入特征中所有位置的索引。函數(shù)(x,x)用于計(jì)算x和x之間的相似性,可描述兩者之間的聯(lián)系;函數(shù)(x)計(jì)算了輸入信號(hào)在位置的特征表示;()為歸一化參數(shù)。從式(1)可知,非局部操作考慮了當(dāng)前位置與特征空間中所有位置的聯(lián)系,因此,可有效地捕捉到視頻幀的長時(shí)依賴關(guān)系。本文采用嵌入式高斯函數(shù)作為相似性函數(shù),即
將上述的非局部操作封裝成模塊,結(jié)合殘差網(wǎng)絡(luò)結(jié)構(gòu)的特點(diǎn),該模塊將原始輸入信息與非局部操作得到的結(jié)果WY進(jìn)行疊加,得到通過空間全局信息來增強(qiáng)的目標(biāo)特征。由此得到的非局部模塊可以很方便地嵌入到現(xiàn)有的網(wǎng)絡(luò)框架中。非局部模塊結(jié)構(gòu)如圖2所示,模塊可定義為
其中,y由式(1)計(jì)算出;W為權(quán)重矩陣;+x為殘差連接。其結(jié)構(gòu)如圖2所示。非局部模塊以殘差結(jié)構(gòu)的形式獲取視頻的時(shí)空特征,因此,將非局部模塊嵌入到已經(jīng)過預(yù)訓(xùn)練的網(wǎng)絡(luò)模型中時(shí)不會(huì)破壞模型原有的參數(shù)初始化操作。
圖2 非局部模塊結(jié)構(gòu)
視頻特征提取網(wǎng)絡(luò)采用一種雙路結(jié)構(gòu),一個(gè)分支為單幀特征提取網(wǎng)絡(luò),另一個(gè)是多幀特征提取網(wǎng)絡(luò)。為了解決行為主體定位問題,在單幀特征提取網(wǎng)絡(luò)中提取關(guān)鍵幀的二維特征??紤]到準(zhǔn)確性和效率之間的平衡,本文采用Darknet-53[20]作為單幀特征提取網(wǎng)絡(luò)的基本架構(gòu)。將視頻序列的當(dāng)前幀作為關(guān)鍵幀輸入,Darknet網(wǎng)絡(luò)采用殘差網(wǎng)絡(luò)的連接思想,由于引入了殘差結(jié)構(gòu),因此可以保證網(wǎng)絡(luò)結(jié)構(gòu)很深時(shí)仍能收斂。
為了充分利用3D CNN挖掘深層次時(shí)空特征的能力,本文采用3D ResNeXt-101[21]作為提取視頻時(shí)空特征的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)。ResNeXt融合了ResNet的殘差思想和Inception網(wǎng)絡(luò)“拆分-轉(zhuǎn)換-合并”的原則,設(shè)計(jì)出的一種基于聚合轉(zhuǎn)換策略的網(wǎng)絡(luò)。其中,“拆分-轉(zhuǎn)換-合并”的形式可表示為
其中,T為相同的拓?fù)浣Y(jié)構(gòu);為一個(gè)模塊中所具有的相同分支的數(shù)目,用于度量模型的復(fù)雜度。利用更簡單的拓?fù)浣Y(jié)構(gòu),可以在不增加參數(shù)的情形下取得更好的分類效果。
ResNeXt網(wǎng)絡(luò)的基本單元結(jié)構(gòu)如圖3所示。與傳統(tǒng)的ResNet相比,在網(wǎng)絡(luò)的第1層和第3層中加入了大小為1×1的卷積,從而控制中間層的卷積核個(gè)數(shù),減少網(wǎng)絡(luò)的參數(shù)數(shù)量。每一層卷積層后均連接Batch-Normalization與ReLU激活函數(shù),同時(shí)在基本單元結(jié)構(gòu)中的中間層卷積網(wǎng)絡(luò)引入卷積組,將特征映射劃分為小組,降低網(wǎng)絡(luò)的訓(xùn)練難度,提升網(wǎng)絡(luò)性能。
圖3 ResNeXt基本單元
為增強(qiáng)視頻幀之間的上下文語義信息,本文在網(wǎng)絡(luò)中添加了非局部模塊。這樣得到的非局部3D ResNeXt-101網(wǎng)絡(luò)可以在不改變?cè)芯W(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,進(jìn)一步學(xué)習(xí)到視頻時(shí)空維度的遠(yuǎn)距離深度特征,使特征在空間及通道間的全局信息得以增強(qiáng)??紤]到淺層特征圖計(jì)算量大的問題,本文選取在網(wǎng)絡(luò)深層部分添加非局部模塊,其中非局部模塊不改變特征圖的大小。為了匹配單幀特征提取網(wǎng)絡(luò)輸出的特征圖,對(duì)應(yīng)的輸出特征圖的深度維度減少到1,空間尺寸與前者的輸出尺寸相同。
為了充分融合上述2個(gè)網(wǎng)絡(luò)提取的特征,本文采用了一種基于Gram矩陣的特征融合方法來映射通道之間的依賴關(guān)系?;贕ram矩陣的注意力機(jī)制最初被用于風(fēng)格遷移[22],該注意機(jī)制有利于更好地融合來自不同來源的特征,顯著提升整體性能。融合的特征映射包含了視頻的運(yùn)動(dòng)信息和外觀信息。特征融合計(jì)算步驟如下:
(1) 將空間特征提取網(wǎng)絡(luò)和時(shí)空特征提取網(wǎng)絡(luò)輸出的特征進(jìn)行通道疊加,并通過卷積層初步融合可能具有不同分布的特征,得到新的特征向量作為特征融合模塊的輸入。
(2) 將輸入特征圖轉(zhuǎn)換成二維向量,其中=×,即將每個(gè)通道的特征向量轉(zhuǎn)化為一維。然后將矩陣與其轉(zhuǎn)置T進(jìn)行相乘,得到了Gram矩陣,可表明通道之間的特征關(guān)聯(lián),即
其中,Gram矩陣中的每個(gè)元素G表示向量化特征映射與之間的內(nèi)積。
(3) 使用softmax函數(shù)生成通道注意圖,即
其中,是衡量第個(gè)通道對(duì)第個(gè)通道影響的分?jǐn)?shù)。因此,矩陣在給定特征圖的情況下考慮了特征的通道之間的依賴性。進(jìn)一步將與原始向量相乘,即′=·,實(shí)現(xiàn)注意力映射對(duì)原始特征的影響,將結(jié)果轉(zhuǎn)換成與輸入形狀相同的三維向量:′?R×C→′′?R×H×W。
(4) 將此結(jié)果與原始輸入特征圖結(jié)合,采用可訓(xùn)練標(biāo)量參數(shù)對(duì)2個(gè)矩陣進(jìn)行元素級(jí)相加,即
其中,從0開始逐漸學(xué)習(xí)權(quán)重。
由式(7)可知,每個(gè)通道的最終特征是所有通道特征與原始特征的加權(quán)和,即對(duì)特征映射之間的長期語義依賴關(guān)系進(jìn)行了建模。這種特征融合結(jié)構(gòu)可以根據(jù)通道間的相互依賴性來提升特征的表示,從而使不同分支的特征能夠得到有效的聚合。另一方面,Gram矩陣表示了通道之間關(guān)系的信息,乘積越大表示該通道中的特征相關(guān)性更強(qiáng),反之相關(guān)性更弱。因此,這種機(jī)制加強(qiáng)了上下文關(guān)系,能夠增強(qiáng)特征識(shí)別的能力。
對(duì)于行為的預(yù)測,本文采用與YOLO[23]相同的級(jí)聯(lián)預(yù)測結(jié)構(gòu),使用1×1大小的卷積層來生成所需數(shù)量的輸出通道,不同之處在于輸入的RGB特征圖由上述提取的時(shí)空動(dòng)作特征代替。對(duì)于每個(gè)網(wǎng)格單元格,通過k-means方法在相應(yīng)的數(shù)據(jù)集上選擇若干個(gè)先驗(yàn)框。檢測層輸出動(dòng)作類別和坐標(biāo)偏移,最終輸出預(yù)測結(jié)果特征圖?R×w×b×(c+4),其中和分別為特征圖的高度和寬度;為先驗(yàn)框的個(gè)數(shù);為數(shù)據(jù)集中行為類別的數(shù)量。
本文采用類似YOLO網(wǎng)絡(luò)的算法來優(yōu)化損失函數(shù),不同之處在于,邊界框損失采用Smooth L1損失,從而降低異常點(diǎn)的敏感度。并在類別損失中使用Focal Loss,以解決類別分類不平衡的問題。損失函數(shù)分為3部分,即
首先計(jì)算置信度誤差。即每個(gè)預(yù)測框和所有的真實(shí)標(biāo)簽之間的交并比(intersection-over-union,IoU)值,以此來判定預(yù)測框內(nèi)是否存在動(dòng)作;然后計(jì)算錨框和預(yù)測框的坐標(biāo)誤差;最后計(jì)算與真實(shí)標(biāo)簽匹配的預(yù)測框各部分的損失總和,包括坐標(biāo)損失,置信度損失以及分類損失。
3.1.1 實(shí)驗(yàn)環(huán)境
本文實(shí)驗(yàn)基于Pytorch深度學(xué)習(xí)框架,操作系統(tǒng)為Ubuntu 16.04,處理器為Intel(R) Xeon(R) CPU E5-2698 v4@2.20 GHz,運(yùn)行內(nèi)存(RAM)為512 GB,GPU為NVIDIA Tesla P100-SXM2 16 G。
3.1.2 數(shù)據(jù)集
(1)UCF01-24[24]是UCF101數(shù)據(jù)集的子集,其是時(shí)空動(dòng)作定位最大的且最具挑戰(zhàn)性的動(dòng)作數(shù)據(jù)集之一,共有3 207個(gè)視頻,包含了24種行為類別,其中每個(gè)視頻可能包含具有相同動(dòng)作類的多個(gè)動(dòng)作實(shí)例,并提供了相應(yīng)的時(shí)空標(biāo)注。
(2)JHMDB[25]是HMDB-51數(shù)據(jù)集的子集,包含928個(gè)視頻,共有21種不同的行為類別,并且所有的視頻均已被修剪成只包含一個(gè)動(dòng)作實(shí)例的視頻片段。
3.1.3 評(píng)價(jià)標(biāo)準(zhǔn)
本文通過幀和視頻級(jí)的平均精度均值(mean average precision, mAP)分別在幀級(jí)和視頻級(jí)來評(píng)估模型的空間和時(shí)間定位性能。對(duì)于幀級(jí)別檢測,本文遵循PASCAL VOC的協(xié)議標(biāo)準(zhǔn),如果預(yù)測的邊界框與真實(shí)標(biāo)簽的IoU大于閾值,并且框內(nèi)的行為類別被正確分類,則將其標(biāo)記為正確的檢測。對(duì)于視頻級(jí)的檢測,將幀級(jí)別檢測結(jié)果連接成行為管(action tubes),通過計(jì)算預(yù)測行為管和真實(shí)標(biāo)注的行為管之間的時(shí)空重疊部分對(duì)其進(jìn)行評(píng)估。實(shí)驗(yàn)中,幀級(jí)mAP(frame-mAP)的IoU閾值設(shè)置為0.5,視頻級(jí)mAP(video-mAP)設(shè)置了3個(gè)不同的IoU閾值,分別為0.1,0.2和0.5。
為了加快模型收斂速度,本實(shí)驗(yàn)使用在Kin- etics數(shù)據(jù)集上預(yù)訓(xùn)練的3D ResNeXt-101參數(shù)初始化3D網(wǎng)絡(luò)參數(shù),使用PASCAL VOC數(shù)據(jù)集上預(yù)訓(xùn)練的Darknet-53參數(shù)初始化2D網(wǎng)絡(luò),對(duì)于嵌入的非局部模塊參數(shù)采用隨機(jī)初始化方式。本文采用了多尺度訓(xùn)練,在測試時(shí)每一幀的分辨率設(shè)置為224×224。選擇了帶有動(dòng)量(momentum)和權(quán)值衰減策略的小批量隨機(jī)梯度下降算法來優(yōu)化損失函數(shù)。初始化學(xué)習(xí)速率設(shè)置為0.000 1,并且每經(jīng)過10 k的迭代將學(xué)習(xí)率減少0.5倍,整個(gè)訓(xùn)練過程在5個(gè)epoch后完成。考慮到在3D CNN中不同的輸入視頻幀長度和不同的下采樣率會(huì)改變整個(gè)網(wǎng)絡(luò)的性能,實(shí)驗(yàn)固定下采樣率為2,固定輸入長度為16幀。
3.3.1 消融實(shí)驗(yàn)
為了驗(yàn)證模型不同結(jié)構(gòu)的檢測精度,本文在UCF101-24數(shù)據(jù)集上對(duì)frame-mAP進(jìn)行了測試。其中,在研究非局部模塊的影響時(shí),固定將模塊插入在網(wǎng)絡(luò)的第4層,以保證檢測結(jié)果不受其他因素影響。為了進(jìn)一步探討模型的性能,實(shí)驗(yàn)還分別研究了模型的定位和分類準(zhǔn)確度。對(duì)于分類,研究正確定位的檢測分類精度,對(duì)于定位,計(jì)算正確定位行為的數(shù)量占檢測到的所有動(dòng)作建議區(qū)域數(shù)量的百分比,即召回率。
表1比較了不同結(jié)構(gòu)的檢測性能。結(jié)果顯示,如果不融合時(shí)空特征,檢測網(wǎng)絡(luò)不能學(xué)習(xí)良好的特征表示。而特征融合有效地提高了檢測的精度,表明該注意力機(jī)制有效增強(qiáng)了通道之間的相互依賴性。其次,嵌入非局部模塊后,模型的frame-mAP有所提升,行為分類性能得到了增強(qiáng),對(duì)定位性能的提高也起到了一定的作用,說明非局部模塊在捕獲視頻時(shí)空維度上的遠(yuǎn)距離依賴性信息方面存在明顯優(yōu)勢。
表1 模型不同的結(jié)構(gòu)在UCF101-24上的性能比較(%)
3.3.2 非局部模塊在不同嵌入階段的影響
本文對(duì)比了非局部模塊添加到3D特征提取網(wǎng)絡(luò)的不同階段對(duì)模型的影響。對(duì)于每個(gè)階段,模塊均被嵌入到該階段的最后一個(gè)殘差塊之前。實(shí)驗(yàn)結(jié)果見表2,非局部模塊在前3層的提升效果比較接近,但在第5層的表現(xiàn)稍有下降,這可能是因?yàn)楦邔泳矸e特征圖的空間維度太小,不足以提供精確的空間信息。其次,實(shí)驗(yàn)發(fā)現(xiàn),插入的位置越靠前,模型訓(xùn)練越耗時(shí),可能是因?yàn)闇\層特征圖比深層特征圖更大,從而導(dǎo)致計(jì)算量增加。
表2 非局部模塊不同插入階段對(duì)比(%)
3.3.3 與其他方法對(duì)比
在UCF101-24數(shù)據(jù)集上將本文方法與其他方法對(duì)frame-mAP和video-mAP 2個(gè)指標(biāo)進(jìn)行了比較,其中,文獻(xiàn)[26]為基于Faster R-CNN檢測方法的模型,文獻(xiàn)[27]為基于SSD[28]檢測方法的模型,文獻(xiàn)[29]為最新的SOTA方法,文獻(xiàn)[9]作為本文的基準(zhǔn)模型。由表3可知,本文方法在UCF101-24數(shù)據(jù)集上的frame-mAP達(dá)到了87.9%,相較于兩階段方法提升了22.2%,證明了單階段檢測網(wǎng)絡(luò)具有優(yōu)越的性能。video-mAP相較于其他方法也取得了不錯(cuò)的提升。相比于原始YOWO模型,frame-mAP提高了0.7%,表明本文改進(jìn)的方法有效提高了模型識(shí)別運(yùn)動(dòng)信息的能力。
表3 UCF101-24數(shù)據(jù)集上的對(duì)比(%)
3.3.4 示例分析
圖4為本文模型的檢測效果??傮w來看,該模型在行為的定位和分類2方面都表現(xiàn)較好。由于非局部模塊的引入,模型可以很好地捕捉視頻的長距離依賴關(guān)系,從而有效利用先前幀的信息來判斷當(dāng)前動(dòng)作,例如在第一張圖片中,只依據(jù)當(dāng)前幀的信息無法判斷一個(gè)人是站立還是坐下,模型可以綜合先前幀的信息,從而對(duì)其精確區(qū)分。其次,模型對(duì)大目標(biāo)和動(dòng)作清晰的視頻幀檢測效果良好,但在場景復(fù)雜和行為主體為小目標(biāo)的情況下檢測效果欠佳。此外,模型僅根據(jù)當(dāng)前幀的空間信息來自動(dòng)判斷行為類別,由于缺乏時(shí)間信息,因此在動(dòng)作開始階段可能會(huì)出現(xiàn)分類錯(cuò)誤。
本文改進(jìn)了一種用于視頻流的時(shí)空行為檢測方法,方法從當(dāng)前幀中提取精細(xì)的空間信息來處理定位任務(wù),同時(shí),從連續(xù)的幀中建模時(shí)空上下文以捕獲動(dòng)作信息。在利用3D CNN提取連續(xù)幀特征信息時(shí),引入非局部模塊以處理視頻幀長距離依賴問題。并采用了一種基于Gram矩陣的特征融合方法聚合空間特征和時(shí)空特征,最后使用回歸方法對(duì)行為進(jìn)行預(yù)測。本文方法沒有將檢測和分類任務(wù)分開,因此整個(gè)網(wǎng)絡(luò)可以通過端到端框架中的聯(lián)合損失來進(jìn)行優(yōu)化。本文在UCF101-24和JHMDB 2個(gè)數(shù)據(jù)集上進(jìn)行了評(píng)估,實(shí)驗(yàn)結(jié)果表明,該方法取得了較好的效果,在一定程度上提高行為檢測的準(zhǔn)確率。
[1] SUTSKEVER I, MARTENS J, HINTON G. Generating text with recurrent neural networks[C]//The 28th International Conference on Machine Learning. New York: ACM Press, 2011: 1017-1024.
[2] ESCORCIA V, HEIBRON F C, NIEBLES J C, et al. DAPs: deep action proposals for action understanding[C]//The 14th European Conference on Computer Vision. Heidelberg: Springer, 2016: 768-784.
[3] HOCHREITER S SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[4] YEUNG S, RUSSAKOVSKY O, MORI G, et al. End-to-end learning of action detection from frame glimpses in videos[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Washiton, DC: IEEE Computer Society Press, 2016: 2678-2687.
[5] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[6] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]//The 28thInternational Conference on Neyral Information Processing Systems. New York: ACM Press, 2015: 91-99.
[7] BUCH S, ESCORCIA V, SHEN C Q, et al. SST: single-stream temporal action proposals[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2017: 2911-2920.
[8] GAO J Y, YANG Z H, SUN C, et al. TURN TAP: temporal unit regression network for temporal action proposals[C]//2017 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society Press, 2017: 3628-3636.
[9] KOPUKLU O, WEI X Y, RIGOLL G. You only watch once: a unified CNN architecture for real-time spatiotemporal action localization[EB/OL]. [2020-07-19]. https://arxiv.org/abs/1911. 06644.
[10] WANG X L, GIRSHICK R, GUPTA A, et al. Non-local neural networks[C]//2018 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2018: 7794-7803.
[11] DATTA A, SHAH M, DA VITORIA LOBO N. Person-on-person violence detection in video data[C]//The 16th International Conference on Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2002: 433-438.
[12] CONG Y, YUAN J S, LIU J. Abnormal event detection in crowded scenes using sparse representation[J]. Pattern Recognition, 2013, 46(7): 1851-1864.
[13] WANG H, KLASER A, SCHMID C, et al. Action recognition by dense trajectories[C]//IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2011: 3169-3176.
[14] WANG H, SCHMID C. Action recognition with improved trajectories[C]//2013 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2013: 3551-3558.
[15] NG Y H, HAUSKNECHT M, VIJAYANARASIMHAN S, et al. Beyond short snippets: deep networks for video classification[C]//2015 /IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2015: 4694-4702.
[16] JI S W, XU W, YANG M, et al. 3D Convolutional neural networks for human action Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(1): 221-231.
[17] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2015: 4489-4497.
[18] HU J, SHEN L, ALBANIE S, et al. Squeeze-and-excitation networks[C]//IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2018: 7132-7141.
[19] KONG T, SUN F C, HUANG W B, et al. Deep feature pyramid reconfiguration for object detection[C]//2018 European Conference on Computer Vision. Heidelberg: Springer, 2018: 172-188.
[20] REDMON J, FARHADI A. YOLOv3: an incremental improvement[C]//2018 IEEE Conference on Computer Vision and PatternRecognition. Washington, DC: IEEE Computer Society Press, 2018: 89-95.
[21] HARA K, KATAOKA H, SATOH Y. Can spatiotemporal 3D CNNs retrace the history of 2D CNNs and imagenet?[C]//2018 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2018: 6546-6555.
[22] GATYS L A, ECKER A S, BETHGE M. A neural algorithm of artistic style[EB/OL]. [2020-05-20]. https://arxiv.org/abs/1508. 06576v2.
[23] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2016: 779-788.
[24] VAROL G, LAPTEV I, SCHMID C, et al. Long-term temporal convolutions for action recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2018, 40(6): 1510-1517.
[25] SULTANI W, SHAH M. Automatic action annotation in weakly labeled videos[J]. Computer Vision and Image Understanding. 2017, 161:77-86.
[26] PENG X J, SCHMID C. Multi-region two-stream R-CNN for action detection[C]//2016 European Conference on Computer Vision. Heidelberg: Springer, 2016: 744-759.
[27] ZHANG P F, CAO Y, LIU B Y. Multi-stream single shot spatial-temporal action detection[C]//2019 IEEE International Conference on Image Processing. Washingtong, DC: IEEE Computer Society Press, 2019: 3691-3695.
[28] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multiBox detector[C]//2016 European Conference on Computer Vision. Heidelberg: Springer, 2016: 21-37.
[29] YANG X T, YANG X D, LIU M Y, et al. STEP: spatio-temporal progressive learning for video action detection[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society Press, 2019: 264-272.
Action detection model fused with non-local neural network
HUANG Wen-ming, YANG Mu-li, LAN Ru-shi, DENG Zhen-rong, LUO Xiao-nan
(School of Computer Science and Information Security, Guilin University of Electronic Technology, Guilin Guangxi 541004, China)
The convolutional neural network (CNN) has insuf?cient ability to understand the time domain information in video action detection. For this problem, we proposed a model based on fused non-local neural network, which combines non-local block with 3D CNN to capture global connections between video frames. Model used a two-stream architecture of 2D CNN and 3D CNN to extract the spatial and motion features of the video, respectively, which takes video single frames and video frame sequences as inputs. To further enhance contextual semantic information, an improved attention and channel fusion mechanism is used to aggregate the features of the above two networks, and ?nally the fused features are used for frame-level detection. We conducted experimental veri?cation and comparison on the UCF101-24 and JHMDB data set. The results show that our method can fully integrate spatial and temporal information, and has high detection accuracy on video-based action detection tasks.
action detection; non-local neural network; 3D convolution; attention mechanism
TP 391
10.11996/JG.j.2095-302X.2021030439
A
2095-302X(2021)03-0439-07
2020-09-26;
2020-11-29
26 Septeber,2020;
29 November,2020
廣西圖像圖形智能處理重點(diǎn)實(shí)驗(yàn)室培育基地(桂林電子科技大學(xué))開放基金項(xiàng)目(GIIP2011)
Open Funds from Guilin University of Electronic Technology, Guangxi Key Laboratory of Image and Graphic Intelligent Processing (GIIP2011)
黃文明(1963-),男,江蘇蘇州人,教授,本科。主要研究方向?yàn)閿?shù)字圖像處理。E-mail:995456524@qq.com
HUANG Wen-ming (1963-), male, professor, undergraduate. His main research interest covers digital image processing. E-mail:995456524@qq.com
鄧珍榮(1977–),女,廣西桂林人,研究員,碩士。主要研究方向?yàn)閳D形圖像處理、計(jì)算機(jī)視覺等。E-mail:799349175@qq.com
DENG Zhen-rong (1977–), female, researcher, master. Her main research interests cover graphic image processing, computer vision, etc. E-mail:799349175@qq.com