李君君,張彬彬,江朝暉
(合肥工業(yè)大學(xué) 計(jì)算機(jī)與信息學(xué)院,合肥230601)
行為識(shí)別技術(shù)是近年來(lái)計(jì)算機(jī)視覺(jué)研究領(lǐng)域被廣泛關(guān)注的技術(shù),受到國(guó)內(nèi)外專家學(xué)者的廣泛重視和深入研究,其相關(guān)技術(shù)在智慧監(jiān)控、人機(jī)交互、視頻序列理解、醫(yī)療衛(wèi)生等領(lǐng)域發(fā)揮著越來(lái)越重要的作用。目的是通過(guò)研究人體在視頻中的圖像幀或圖像序列的時(shí)空變化,利用計(jì)算機(jī)處理和分析視覺(jué)信息,自動(dòng)識(shí)別出視頻中的行為模式。由于人體行為類別多樣,復(fù)雜多變的背景,視頻視角的差異性等問(wèn)題,網(wǎng)絡(luò)模型難以魯棒、準(zhǔn)確對(duì)真實(shí)的視頻行為動(dòng)作進(jìn)行辨別,因此行為識(shí)別亟待研究工作者深入地開展研究工作。
現(xiàn)有的深度學(xué)習(xí)模式對(duì)特征提取模型的訓(xùn)練多采用端到端的模式,使用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型參數(shù)去學(xué)習(xí)視頻的顯著特征,對(duì)行為進(jìn)行分類識(shí)別。一些早前的相關(guān)研究工作主要專注于利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)來(lái)學(xué)習(xí)視頻幀連續(xù)序列中蘊(yùn)含的行為的深度特征。主流的CNN網(wǎng)絡(luò)模型包括雙流結(jié)構(gòu)的一系列的模型和3DCNN模型。然而,卷積神經(jīng)網(wǎng)絡(luò)通常有兩個(gè)缺點(diǎn):
(1)假設(shè)卷積計(jì)算的幾何變換是固定的和已知的,一般是使用這些先驗(yàn)知識(shí),來(lái)做數(shù)據(jù)的增強(qiáng)工作并且設(shè)計(jì)特性和算法,但是這種默認(rèn)的規(guī)則,會(huì)導(dǎo)致算法不能對(duì)未知幾何變換的新任務(wù)進(jìn)行有效泛化,會(huì)導(dǎo)致任務(wù)建模的不正確或不恰當(dāng);
(2)相對(duì)更加復(fù)雜的變換來(lái)說(shuō),即使已經(jīng)知道其固定的特征和算法,也難以用手工的方式進(jìn)行設(shè)計(jì)[1]。
一般來(lái)說(shuō),對(duì)于卷積神經(jīng)網(wǎng)絡(luò),卷積核具有固定幾何會(huì)導(dǎo)致其對(duì)幾何形變建模能力有限,標(biāo)準(zhǔn)卷積中的規(guī)則格點(diǎn)采樣是網(wǎng)絡(luò)難以適應(yīng)幾何變形和時(shí)間序列位移的根本原因。Dai提出變形卷積,可以通過(guò)在傳統(tǒng)卷積運(yùn)算的基礎(chǔ)上增加一個(gè)并行網(wǎng)絡(luò)來(lái)預(yù)測(cè)傳統(tǒng)卷積采樣點(diǎn)的偏移量,使每個(gè)采樣點(diǎn)都有一定的偏移量,并學(xué)習(xí)自適應(yīng)感受野,從而提高了對(duì)不同尺寸和形狀物體的特征提取能力[1]。本文針對(duì)標(biāo)準(zhǔn)卷積建模能力有限的問(wèn)題,在殘差網(wǎng)絡(luò)的基礎(chǔ)上,提出了可變形卷積改進(jìn)的殘差網(wǎng)絡(luò),以提升網(wǎng)絡(luò)識(shí)別的準(zhǔn)確性。
本文在CoST模塊的基礎(chǔ)上,構(gòu)建了新穎的DSTC(Deformable Spatio-Temporal Convolution)模塊。該模塊可在視頻數(shù)據(jù)的3個(gè)正交視圖執(zhí)行2D可形變卷積,可分別學(xué)習(xí)空間外觀和時(shí)間運(yùn)動(dòng)線索,增強(qiáng)了卷積核對(duì)感受野的適應(yīng)能力,以適應(yīng)不同特征圖感受野的形狀、大小等幾何形變;在殘差網(wǎng)絡(luò)模型結(jié)構(gòu)的基礎(chǔ)上,提出了一種新網(wǎng)絡(luò)模型,該模型融合了DSTC可變形卷積模塊,并且能夠?qū)⒍藢?duì)端訓(xùn)練的網(wǎng)絡(luò)用于行為分類;在UCF101和HMDB51數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,證明了本文方法在公開數(shù)據(jù)集測(cè)試中具有顯著的行為識(shí)別性能,優(yōu)于當(dāng)前先進(jìn)的方法,并且相對(duì)于3D卷積,大大減少了參數(shù)量,并提升了識(shí)別的精度。
早期的行為識(shí)別工作主要使用一些傳統(tǒng)方法,手工制作的行為表征被很好地用于視頻行為識(shí)別。許多二維的圖像特征描述符被推廣到三維時(shí)間域,例如時(shí)空興趣點(diǎn)(Space-Time Interest Points,STIP),SIFT-3D,時(shí)空SIFT(Space-Time SIFT)和3D梯度直方圖(3D Histogram of Gradient)。最成功的手工特征表征是稠密軌跡流(dense trajectories)和其改善版本,其通過(guò)光流引導(dǎo)的軌跡提取局部特征,是傳統(tǒng)方法中最為魯棒,效果最好的[2-3]。
在受到深度學(xué)習(xí)取得巨大成功的鼓舞下,特別是CNN模型在圖像理解任務(wù)的成功,涌現(xiàn)了許多開發(fā)行為分類的深度學(xué)習(xí)方法的嘗試。Karpathy等人提出在每幀上獨(dú)立應(yīng)用2D CNN模型,并探討了幾種融合時(shí)序信息的策略,由于未考慮幀之間運(yùn)動(dòng)變化,性能不如基于手工特征的算法[4];Donahue等人利用LSTM,通過(guò)聚合2D CNN特征建模時(shí)序信息,高級(jí)別的2D CNN特征被用來(lái)學(xué)習(xí)時(shí)序關(guān)系[5]?,F(xiàn)在通常利用兩種方法來(lái)提升時(shí)序建模能力,第一個(gè)是基于Simonyan和Zisserman提出的雙流體系結(jié)構(gòu),該體系包括一個(gè)空間2D CNN和時(shí)序2D CNN,可分別建模幀的靜止特征和幀間光流運(yùn)動(dòng)信息,并將其輸出分類分?jǐn)?shù)融合為最終預(yù)測(cè),許多后續(xù)工作是對(duì)這個(gè)框架的拓展,探索了2個(gè)流特征的融合策略[6];另一個(gè)典型方法是基于3D CNN和其(2+1)D變體,Tran等人設(shè)計(jì)了一個(gè)11層C3D模型,以聯(lián)合學(xué)習(xí)Sports-1M數(shù)據(jù)集上的時(shí)空特征,然而巨大的計(jì)算成本和C3D的密集參數(shù)使得深度模型難以訓(xùn)練[7]。Qiu等人提出了偽3D(P3D)模型,將3×3×3的3D卷積分解成1×3×3的2D卷積和3×1×1的1D卷積[8];Tran等人在殘差網(wǎng)絡(luò)上分解3D卷積為(2+1)D卷積,取得了優(yōu)于3DCNN的識(shí)別效果[9];Carreira等人提出膨脹三維卷積(Inflating 3D ConvNets,I3D),通過(guò)擴(kuò)充預(yù)先訓(xùn)練的C2D模型的參數(shù)進(jìn)行初始化[10]。
CNN模型在行為任務(wù)領(lǐng)域已取得了許多優(yōu)秀的成果,但大多將常規(guī)卷積作為先驗(yàn)知識(shí),沒(méi)有考慮到卷積計(jì)算的本質(zhì)缺陷——卷積網(wǎng)絡(luò)對(duì)視頻行為目標(biāo)的幾何變化是未知的,這會(huì)導(dǎo)致模型和數(shù)據(jù)容量的低效利用。近期一些相關(guān)的工作想要通過(guò)變形建模來(lái)解決問(wèn)題,Worrall等人通過(guò)移位、旋轉(zhuǎn)和反射等變形的設(shè)計(jì),在網(wǎng)絡(luò)中添加幾何不變量[11];另一種思路是通過(guò)圖像空間中的半?yún)?shù)化或完全自由形式采樣來(lái)學(xué)習(xí)重新組合數(shù)據(jù)。Jaderberg等人通過(guò)空間變換網(wǎng)絡(luò)(Spatial Transformers Network,STN)學(xué)習(xí)二維仿射變換[12];Rocco等人利用深度幾何匹配器(Deep Geometric Matchers)學(xué)習(xí)薄板樣條變換[13];Dai利用可變形卷積學(xué)習(xí)自由形式的轉(zhuǎn)換[1]。受到這些研究工作的引導(dǎo)和啟發(fā),在模型參數(shù)幾乎不增加的前提下,本文的模型能夠充分利用時(shí)空信息,有效地提取特征圖中的重要特征。實(shí)驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)具有良好的識(shí)別精度。
本文對(duì)ResNet-50網(wǎng)絡(luò)進(jìn)行了改進(jìn),網(wǎng)絡(luò)框架如圖1所示。ResNet網(wǎng)絡(luò)是在VGG19網(wǎng)絡(luò)發(fā)展而來(lái),在其網(wǎng)絡(luò)基礎(chǔ)上進(jìn)行改進(jìn),添加了殘差單元,3D-ResNet-50網(wǎng)絡(luò)與本文的網(wǎng)絡(luò)對(duì)應(yīng)替換的模塊示意如圖2所示,將卷積模塊和一致性模塊中的3×3×3的卷積層替換成DSTC模塊,形成了可變形卷積模塊和可變形一致性模塊。
圖1 本文網(wǎng)絡(luò)整體框架圖Fig.1 The overall framework of the network in this paper
如圖2(a)所示,在網(wǎng)絡(luò)層之間加入短路機(jī)制,可以有效地解決深層網(wǎng)絡(luò)的退化問(wèn)題;將殘差卷積模塊和一致性模塊(圖2(a)和圖2(c))中的3D卷積層替換成了可變形卷積模塊(DSTC),進(jìn)而構(gòu)造可變形殘差卷積模塊和可變形一致性模塊(圖2(b)和圖2(d)),從而構(gòu)建了改進(jìn)版本的ResNet-50網(wǎng)絡(luò)。首先,將輸入的視頻幀堆疊的圖像序列裁剪成固定大小,通過(guò)三維卷積和最大池運(yùn)算對(duì)數(shù)據(jù)進(jìn)行初始化;其次,將初始化后的特征圖像依次發(fā)送到4個(gè)大的卷積模塊中(Layer1-Layer4),每個(gè)大模塊依次由3,4,6和3個(gè)可變形殘差模塊組成,每個(gè)可變形殘差模塊中包括對(duì)特征圖進(jìn)行卷積運(yùn)算,批量歸一化和激活函數(shù)運(yùn)算操作;最后,將特征圖輸入到分類層中依次執(zhí)行3D平均池化、全連接層和Softmax操作得到行為的標(biāo)簽,得到的行為識(shí)別結(jié)果。
圖2是3D-ResNet-50網(wǎng)絡(luò)與本文的網(wǎng)絡(luò)對(duì)應(yīng)替換的模塊示意圖,將卷積模塊和一致性模塊中的3×3×3的卷積層替換成DSTC模塊,形成了可變形卷積模塊和可變形一致性模塊。
圖2 引入可變形卷積的模塊Fig.2 Modules with deformable convolution
卷積網(wǎng)絡(luò)對(duì)大尺寸多形變目標(biāo)的建模存在固有的缺陷,因?yàn)榫矸e網(wǎng)絡(luò)只對(duì)輸入特征圖的固定位置進(jìn)行采樣。例如,在同一層特征圖中,所有特征點(diǎn)的感受野都是相同的,但不同的位置可能對(duì)應(yīng)不同的尺度或變形對(duì)象,因此尺度或感受野大小的自適應(yīng)學(xué)習(xí)是實(shí)現(xiàn)精確定位的必要條件。在模型中加入可變形卷積能夠有效提升對(duì)目標(biāo)形變的建模能力,使用一個(gè)平行卷積層學(xué)習(xí)offset偏移,在輸入特征圖上對(duì)應(yīng)的任一卷積核的采樣點(diǎn)位置上進(jìn)行偏移,使得這些采樣點(diǎn)更加集中在興趣目標(biāo)區(qū)域上,即增添一個(gè)偏移量在每個(gè)采樣點(diǎn)對(duì)應(yīng)位置,就可以打破常規(guī)卷積的規(guī)則網(wǎng)格的約束,在采樣位置周邊進(jìn)行隨意的采樣。
普通卷積和可變形卷積的計(jì)算過(guò)程如圖3所示。在普通卷積中,使用卷積核w對(duì)規(guī)則網(wǎng)格R(R={(-1,-1),(-1,0),…,(0,1),(1,1)})中的采樣點(diǎn)進(jìn)行加權(quán)運(yùn)算;在可變形卷積中,通過(guò)一個(gè)平行的卷積層,對(duì)輸入特征圖進(jìn)行卷積,得到與輸出特征圖具有相同的分辨率的偏移量,輸出通道數(shù)為3N(N為卷積核采樣點(diǎn)個(gè)數(shù)),其中2N為預(yù)測(cè)的x,y2個(gè)維度上的偏移量;由于不同采樣點(diǎn)對(duì)特征有不同的貢獻(xiàn),還要預(yù)測(cè)N個(gè)采樣點(diǎn)的權(quán)重。到目前為止,已經(jīng)有了輸入特征圖以及輸入特征圖上每個(gè)點(diǎn)對(duì)應(yīng)的偏移量和權(quán)重,于是可以執(zhí)可變形卷積運(yùn)算。
圖3 普通卷積和可變形卷積計(jì)算過(guò)程示意圖Fig.3 Calculation process of general convolution and deformable convolution
在可變形卷積的操作中,延續(xù)了卷積運(yùn)算的一般計(jì)算過(guò)程,只是在采樣區(qū)域加入一個(gè)由能夠通過(guò)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)的參數(shù){Δpn|n=1,…,N},N=|R|,同時(shí)對(duì)每個(gè)采樣點(diǎn)預(yù)測(cè)一個(gè)權(quán)重Δmn,那么同樣的位置P0的值變?yōu)楣剑?):
由于Δpn通常是小數(shù),因此需要通過(guò)雙線性插值法計(jì)算x的值,公式(2)為:
其中,p代表位置,也就是公式中的p0+pn+Δpn,列舉了輸入特征圖x的空間位置,其中G(.,.)表示雙線性插值算法中的核函數(shù),是二維的,可以被分為2個(gè)一維核,式(3):
因?yàn)榻^大部分的參數(shù)都為0,因此可以很快地計(jì)算出結(jié)果。
本文模塊在CoST模塊改進(jìn)而來(lái)。C3D3×3×3卷積操作利用3×3的三維卷積聯(lián)合提取空間(沿H和W)和時(shí)間(沿T)特征。本文所提出的模塊中,沿T×H×W立體數(shù)據(jù)的3個(gè)視圖H-W、T-H和TW分別執(zhí)行可變形2D3×3卷積。值得注意的是,模塊的三視圖卷積計(jì)算的參數(shù)是共享的,這使得參數(shù)的數(shù)量與單視圖二維卷積相同,這樣可以大大降低參數(shù)的數(shù)量。隨后,3個(gè)生成的特征圖依次加權(quán)求和,卷積計(jì)算的權(quán)值將在訓(xùn)練過(guò)程中以端到端的方式學(xué)習(xí)。
圖4給出了DSCT模塊的示意圖,設(shè)x表示大小為T×H×W×C1的輸入特征映射,其中C1是輸入通道的數(shù)目。來(lái)自不同視圖的3組輸出特征映射的計(jì)算方法是公式(4):
圖4 可變形時(shí)空卷積模塊Fig.4 DeformableSpatial-Temporal Convolution Module
其中,?表示三維卷積,w是3個(gè)視圖之間共享的大小為3×3的卷積濾波器。為了將w應(yīng)用于圖像幀的不同視圖,在不同的維度上插入一個(gè)尺寸為1的附加維度,由此產(chǎn)生的w的變體,即w1×3×3、w3×1×3和w3×3×1分別學(xué)習(xí)H-W、T-W和T-H視圖的特征,然后對(duì)3組特征映射加權(quán)求和,式(5):
其中,α=[αhw,αtw,αth]的維度為C2×3;C2為輸出通道數(shù);3表示3個(gè)視圖。為了避免來(lái)自多個(gè)視圖的響應(yīng)的大小爆發(fā)式增長(zhǎng),α沿每行用Softmax函數(shù)歸一化,α的系數(shù)由網(wǎng)絡(luò)乘以α的特征圖來(lái)學(xué)習(xí)得到,這種設(shè)計(jì)是受近來(lái)機(jī)器翻譯的注意力機(jī)制的啟發(fā)。在這種情況下,每個(gè)樣本的系數(shù)取決于樣本本身,可以用公式(6)表達(dá):
虛線內(nèi)的計(jì)算塊表示方程中的函數(shù)f。對(duì)于每個(gè)視圖,首先使用全局最大池化層將尺度為T×H×W×C2的特征映射沿著T,H,W3個(gè)維度減少到1×1×1×C2;然后,在池化特征上應(yīng)用1×1×1卷積,其權(quán)重也由所有3個(gè)視圖共享,這種卷積將維數(shù)C2的特征仍然映射回C2,可以捕獲不同信道之間的上下文信息;這3組特征被連接并輸入到一個(gè)全連接(FC)層中。相對(duì)于1×1×1卷積,這個(gè)全連接(FC)層被應(yīng)用于C2×3矩陣的每一行,它捕捉不同視圖之間的上下文信息;最后,通過(guò)Softmax函數(shù)對(duì)輸出進(jìn)行歸一化,得到α,將歸一化后的參數(shù)α與[xhw,xtw,xth]相乘得到輸出特征值。
本文用標(biāo)準(zhǔn)交叉熵?fù)p失函數(shù)來(lái)評(píng)價(jià)網(wǎng)絡(luò)性能。對(duì)于不同網(wǎng)絡(luò)分支來(lái)說(shuō),損失函數(shù)如式(7):
其中,yi是動(dòng)作所屬類的真實(shí)標(biāo)簽;p是訓(xùn)練后的模型進(jìn)行預(yù)測(cè)屬于不同的類別分?jǐn)?shù);i表示不同行為類別的種類數(shù);計(jì)算得到的總損失L通過(guò)反向傳播算法將所有網(wǎng)絡(luò)參數(shù)不斷優(yōu)化。為了驗(yàn)證光流對(duì)行為識(shí)別準(zhǔn)確率的影響,本文構(gòu)建了雙流的結(jié)構(gòu)進(jìn)行試驗(yàn),將損失函數(shù)Lo表示光流的損失函數(shù),LR表示RGB幀的損失函數(shù),模型的損失函數(shù)表示為式(8):
UCF101是于YouTube收集而來(lái),包含大量真實(shí)動(dòng)作視頻,用于動(dòng)作識(shí)別任務(wù),共101個(gè)動(dòng)作類別。視頻的分辨率是320×240,數(shù)據(jù)集分成101個(gè)行為類別,這些動(dòng)作類別又被分成25個(gè)小組,每個(gè)小組又分別包含4-7個(gè)動(dòng)作視頻,一共包含13 320個(gè)視頻,占用存儲(chǔ)空間約為6.5G。101個(gè)動(dòng)作類型由五類組成:人人間的互動(dòng)、人物間的互動(dòng)、人體做出的行為動(dòng)作、樂(lè)器演奏表演和體育競(jìng)技運(yùn)動(dòng)。UCF101的宗旨是對(duì)一些實(shí)際行動(dòng)類別進(jìn)行學(xué)習(xí),并探索未知的行為類型,鼓勵(lì)推進(jìn)行動(dòng)識(shí)別工作的研究與發(fā)展,對(duì)研究視頻行為分類工作意義重大。
HMDB-51數(shù)據(jù)集共含51個(gè)人類行為動(dòng)作,任一類別包含101個(gè)視頻段,共計(jì)6 766個(gè)拍攝視頻,對(duì)于每一個(gè)視頻,有平均3 s左右持續(xù)時(shí)長(zhǎng)。每一個(gè)剪輯進(jìn)行了多輪的手動(dòng)注釋,剪輯多來(lái)自于電影中,小部分來(lái)自于一些公開數(shù)據(jù)集。廣泛的面部動(dòng)作如微笑,咀嚼等;常規(guī)的身體動(dòng)作,如散步,擺手;人物交互的動(dòng)作,如打球,梳頭發(fā),拔劍以及人類間的交互動(dòng)作,如接吻,擁抱等。
在實(shí)驗(yàn)準(zhǔn)備工作中,用FFmpeg工具將視頻數(shù)據(jù)按照設(shè)定的幀率分割成視頻幀,并記錄每個(gè)視頻的視頻幀數(shù)量。為了合理地挑選訓(xùn)練樣本,采納了均勻采樣的提取方式,設(shè)定時(shí)間位置,在其周邊選取視頻中的視頻幀。為了滿足16幀的需求,有時(shí)候需要對(duì)視頻進(jìn)行多次循環(huán)采樣。在設(shè)定時(shí)間位置連續(xù)地取若干個(gè)視頻幀以構(gòu)成三維(H,W,T)視頻信息。緊接著對(duì)視頻幀進(jìn)行時(shí)空裁剪操作,選取空間位置依照的規(guī)則是選取視頻提取幀的中心或四個(gè)邊角點(diǎn)位置之一。輸入的原始視頻幀尺寸為224×224,網(wǎng)絡(luò)將其裁剪成112×112的大小,訓(xùn)練一次取16幀,由于訓(xùn)練數(shù)據(jù)是RGB圖像,取信道數(shù)為3。
實(shí)驗(yàn)中采用交叉熵?fù)p失函數(shù),參數(shù)的微調(diào)工作將通過(guò)反向傳播算法來(lái)開展,將權(quán)重衰減參數(shù)和動(dòng)量參數(shù)分別設(shè)置為0.9和0.001。訓(xùn)練網(wǎng)絡(luò)起初,將學(xué)習(xí)率lr設(shè)定為0.2,當(dāng)驗(yàn)證損失趨于飽和后,將學(xué)習(xí)率減少到其十分之一大??;在網(wǎng)絡(luò)進(jìn)入微調(diào)的階段時(shí),學(xué)習(xí)率lr參數(shù)改變?yōu)?.01,權(quán)重衰減參數(shù)改變?yōu)?e-6。 本文在深度學(xué)習(xí)框架PyTorch上進(jìn)行實(shí)驗(yàn)設(shè)計(jì),實(shí)驗(yàn)工作站配置為i7 6800k酷睿6核、2塊NIVDIA GTX1080Ti 8GB顯卡、64G內(nèi)存,256G固態(tài)硬盤。
Top-N準(zhǔn)確率被采用來(lái)評(píng)價(jià)行為識(shí)別的性能。評(píng)判依據(jù)是:在測(cè)試視頻數(shù)據(jù)的前N大分類概率中,判斷正確的分類是否被包括其中,如果是,則認(rèn)定為識(shí)別成功。
本文提出的可變形卷積模塊(DSTC)對(duì)行為識(shí)別性能產(chǎn)生的影響,見(jiàn)表1,可明顯看出,在引入可變形卷積模塊(DSTC)后,本文所提出的改進(jìn)的網(wǎng)絡(luò)模型所取得的效果顯著,能夠有效地運(yùn)用于行為分類任務(wù)。
表1 UCF101數(shù)據(jù)集上可變形卷積模塊對(duì)實(shí)驗(yàn)性能的影響Tab.1 The impact of experiment result by deformable convolution factor on UCF101 dataset
在UCF101和HMDB51數(shù)據(jù)集上,分別觀察與對(duì)比模型的識(shí)別效果,將本文方法和當(dāng)前一些優(yōu)秀方法進(jìn)行比較,見(jiàn)表2和表3。
表2 UCF101數(shù)據(jù)集上使用不同網(wǎng)絡(luò)模型的識(shí)別性能Tab.2 Recognition performance of different networks on UCF101 dataset
表3 HMDB51數(shù)據(jù)集上使用不同網(wǎng)絡(luò)模型的識(shí)別性能Tab.3 Recognition performance of different networks on HMDB51 dataset
表2和表3表明,相比于一些現(xiàn)有的效果良好的方法,本文提出方法最終得到了相對(duì)更高的識(shí)別正確率。實(shí)驗(yàn)證明,通過(guò)對(duì)網(wǎng)絡(luò)設(shè)置并行支路來(lái)處理光流信息,可加強(qiáng)網(wǎng)絡(luò)的識(shí)別性能,進(jìn)一步證明本文的方法有深遠(yuǎn)的研究?jī)r(jià)值。
在UCF-101數(shù)據(jù)集上,DSTC方法訓(xùn)練和驗(yàn)證過(guò)程中交叉熵?fù)p失函數(shù)的緩慢變化,如圖5所示。隨著訓(xùn)練和驗(yàn)證過(guò)程的進(jìn)行,交叉熵?fù)p失值逐漸減小,DSTC模型的識(shí)別效果逐漸變好。
圖5 訓(xùn)練及驗(yàn)證過(guò)程損失函數(shù)變化Fig.5 The loss function of Training and Validation process
為了能夠更直觀地觀察本文方法的細(xì)節(jié)效果,從UCF101和HMDB51數(shù)據(jù)集中選取了6個(gè)差異比較顯著的行為類別進(jìn)行可視化研究,展示了DSTC方法在不同類別上的注意力熱圖,顏色越深代表該區(qū)域的特征顯著性越強(qiáng),模型對(duì)其關(guān)注度更高。從圖中可以發(fā)現(xiàn),我們的方法能夠更好的動(dòng)態(tài)適應(yīng)特征的形變,更加有效地關(guān)注視頻中更重要的特征區(qū)域,能夠捕獲到有效的時(shí)空信息進(jìn)行學(xué)習(xí),以提升行為識(shí)別的準(zhǔn)確率,如圖6所示。
圖6 幾種類別的注意力熱圖可視化Fig.6 Visualization of heat maps of attention for several categories
本文提出一種基于可變形卷積的改進(jìn)型3DResNet網(wǎng)絡(luò),用于視頻中的行為識(shí)別,通過(guò)引入形變卷積,構(gòu)建了一個(gè)可自適應(yīng)地協(xié)同學(xué)習(xí)視頻三維信息的模塊,將該模塊替換3D-ResNet網(wǎng)絡(luò)中部分卷積模塊,提高行為識(shí)別效率。同時(shí),融合了光流信息進(jìn)行實(shí)驗(yàn),證明了光流信息的引入可進(jìn)一步提升模型的準(zhǔn)確率,說(shuō)明方法仍具有深遠(yuǎn)的研究?jī)r(jià)值。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有的一些效果顯著的方法相比較而言,本文方法能擁有更準(zhǔn)確的識(shí)別性能。