肖子凡,劉逸群,李楚溪,張 力,王守巖,肖 曉
1(復(fù)旦大學(xué) 工程與應(yīng)用技術(shù)研究院 上海智能機(jī)器人工程技術(shù)研究中心,上海 200433)
2(計(jì)算神經(jīng)科學(xué)與類腦智能教育部重點(diǎn)實(shí)驗(yàn)室(復(fù)旦大學(xué)),上海 200433)
3(復(fù)旦大學(xué) 類腦智能科學(xué)與技術(shù)研究院,上海 200433)
4(復(fù)旦大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 上海市智能信息處理重點(diǎn)實(shí)驗(yàn)室,上海 200433)
5(復(fù)旦大學(xué) 信息科學(xué)與工程學(xué)院 微納中心,上海 200433)
6(復(fù)旦大學(xué) 大數(shù)據(jù)學(xué)院,上海 200433)
計(jì)算機(jī)視覺是使用計(jì)算機(jī)及相關(guān)設(shè)備對生物視覺機(jī)制的一種模擬技術(shù).在圖影資料劇烈增長的信息化時(shí)代,如何智能感知和解讀圖影,成為了計(jì)算機(jī)視覺領(lǐng)域重要的研究方向.其中,行為識別作為計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要應(yīng)用分支,已在智能監(jiān)控[1]、異常行為檢測[2]、人機(jī)交互[3]、視頻預(yù)測[4]、醫(yī)療健康[5]等眾多領(lǐng)域扮演著越來越重要的角色,具有十分廣闊的應(yīng)用前景.
行為識別的實(shí)現(xiàn)方法可分為傳統(tǒng)的機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法.傳統(tǒng)的機(jī)器學(xué)習(xí)方法的優(yōu)勢在于模型簡單、分類速度快,代表性的方法有iDT (improved dense trajectories)[6]算法,其使用改進(jìn)的特征編碼方式來表征人體運(yùn)動(dòng),但基于密集的流場運(yùn)算會產(chǎn)生高維數(shù)據(jù)特征,這將大大增加存儲開銷.而近10年,基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法憑借模擬人類神經(jīng)元的傳遞原理、復(fù)雜網(wǎng)絡(luò)的設(shè)計(jì)、參數(shù)的反向傳播機(jī)制以及端到端的架構(gòu)使其成為直接輸出結(jié)果的任意復(fù)雜函數(shù)逼近器,逐漸成為了視覺任務(wù)的主流方法,并且被證實(shí)比傳統(tǒng)機(jī)器學(xué)習(xí)方法更加強(qiáng)大和魯棒[7],深度學(xué)習(xí)算法從而也被廣泛運(yùn)用到行為識別任務(wù)中.而基于神經(jīng)網(wǎng)絡(luò)的行為識別主要分為兩個(gè)過程:特征表示與動(dòng)作的感知及理解.
針對視頻行為識別任務(wù),目前的深度學(xué)習(xí)方法可分為基于3D 卷積神經(jīng)網(wǎng)絡(luò)(3D CNN)[8,9]、長短記憶單元(LSTM)[10–12]及雙流神經(jīng)網(wǎng)絡(luò)(Two-Stream CNN)[13–16]的行為識別模型.其中3D CNN 可以捕獲時(shí)空特征,這意味著它可直接對視頻進(jìn)行特征提取,因此具有較好的識別性能,但其需要訓(xùn)練大量數(shù)據(jù)的同時(shí)也會產(chǎn)生較高的計(jì)算開銷.而LSTM 雖然具有處理時(shí)序數(shù)據(jù)的先天優(yōu)勢,但其容易引起梯度消失且不能很好地學(xué)習(xí)時(shí)序之外的橫向信息,比如運(yùn)動(dòng)特征.Two-Stream CNN 最早由Karpathy 等人[14]提出,它通過擴(kuò)展CNN 局部時(shí)空信息以達(dá)到時(shí)空域上的連通性,并通過分析額外的運(yùn)動(dòng)信息對CNN 預(yù)測性能的影響,從而選擇兩個(gè)輸入流進(jìn)行不同分辨率特征的學(xué)習(xí),通過融合多尺度時(shí)空信息從而提高了網(wǎng)絡(luò)的識別精度.與此同時(shí),在基于視頻的輸入策略上,以往的密集采樣往往帶來較高的計(jì)算量且未能對長時(shí)程行為進(jìn)行有效建模,而固定間距采樣的堆幀并不能保證特征信息的有效利用,從而不能有效提高網(wǎng)絡(luò)的泛化能力.
針對以上問題,本文首先在整體輸入上采取時(shí)間稀疏分組隨機(jī)采樣策略[17],從而保證有效信息的長時(shí)程覆蓋.同時(shí)創(chuàng)新性地提出基于時(shí)移(temporal shift,TS)[18]和片組注意力(split attention,SA)[19]模塊融合的輕量型時(shí)空雙流網(wǎng)絡(luò)模型(TS-SA Net).其中時(shí)移模塊可以讓模型在二維卷積的基礎(chǔ)上學(xué)習(xí)到時(shí)序特征,片組注意力機(jī)制則用于幫助網(wǎng)絡(luò)“聚焦”有效區(qū)域,從而產(chǎn)生更具分辨性的特征,提高網(wǎng)絡(luò)的行為識別能力.目前我們在UCF101、HMDB51 上分別取得了95.00%和72.55%的識別精度.
行為識別任務(wù)的本質(zhì)是分類(classification)問題,即給定一個(gè)待識別的樣本xq和包含Dg{xig∈Dg|i=1,2,3,···,Dg}個(gè)樣本的數(shù)據(jù)集,算法需要依據(jù)數(shù)據(jù)集學(xué)習(xí)不同行為類別的標(biāo)識特征,從而將待識別樣本與映射空間做高維距離計(jì)算,并將其歸納入與之特征差異最小的類族中.
在本文提出的雙流TS-SA網(wǎng)絡(luò)中,針對待處理視頻集VData={V1,V2,···,VM}中,我們將每一視頻V(采樣后)逐幀輸入TS-SA 網(wǎng)絡(luò),假設(shè)幀輸入為Iqp∈VData,q∈{1,2,···,M},p∈{1,2,···,N},其中N為單個(gè)視頻所含中圖片序列數(shù)目.如圖1所示,基于TS-SA 網(wǎng)絡(luò)的行為識別過程可形式化為:F(Iqp,W)W
其中,是參數(shù)為的卷積函數(shù),為每一輸入幀I產(chǎn)生片段級類別得分.G為片段聚合函數(shù),用于整合各片段的判決分?jǐn)?shù)并得到視頻唯一的類別得分.當(dāng)RGB網(wǎng)絡(luò)與光流(Flow)網(wǎng)絡(luò)各自產(chǎn)生視頻級的預(yù)測結(jié)果后,設(shè)計(jì)預(yù)測函數(shù)H來對整個(gè)視頻進(jìn)行動(dòng)作類別的概率預(yù)測,本文使用Softmax 函數(shù).
對于深度神經(jīng)網(wǎng)絡(luò)來說,數(shù)據(jù)集及數(shù)據(jù)的采樣對結(jié)果十分重要,其往往決定了網(wǎng)絡(luò)的學(xué)習(xí)質(zhì)量與效率.在采樣策略上,雖然減少圖像序列的輸入能夠直接降低計(jì)算量,但這同時(shí)造成了行為內(nèi)容本身的缺失,尤其無法對長時(shí)程行為進(jìn)行完整建模.而密集的圖像序列輸入雖然能保證行為特征的完全捕獲,但大量的數(shù)據(jù)帶來了高額計(jì)算,使網(wǎng)絡(luò)緩慢笨重.而固定間隔的圖像采樣方法同樣存在有效信息遺失的問題.
我們意識到,對于包含特定行為的視頻來說,相鄰幀所包含的信息是高度重疊的,這為網(wǎng)絡(luò)非密集輸入條件下保持性能的穩(wěn)定提供了事實(shí)基礎(chǔ).基于此,本文在輸入策略上采用了稀疏分組隨機(jī)采樣方法.
如圖1所示,本文所提出的TS-SA Net 使用時(shí)間稀疏分組隨機(jī)采樣的視頻幀作為輸入.具體地,我們將視頻進(jìn)行等間距地稀疏分離為N個(gè)片段,即Vi={S1,S2,···,SN},i∈{1,2,···,M}.對視頻片段SN進(jìn)行隨機(jī)抽樣得到TN,則視頻Vi的輸入形式為{T1,T2,···,TN}.TS-SA 網(wǎng)絡(luò)的識別函數(shù)如式(2):
圖1 基于時(shí)移和片組注意力的雙流網(wǎng)絡(luò)(TS-SA Net)的結(jié)構(gòu)
具體地,N個(gè)視頻片段間參數(shù)共享,使用標(biāo)準(zhǔn)分類交叉熵作為損失函數(shù),如式(3):
其中,C為動(dòng)作類別數(shù),yi為屬于第i類的真實(shí)標(biāo)簽,Gi為第i類的預(yù)測結(jié)果,由聚合函數(shù)g得出:
實(shí)驗(yàn)中,我們試驗(yàn)了多種不同的聚合函數(shù)g,發(fā)現(xiàn)平均融合的效果最優(yōu),具體可見第2.3 節(jié).在使用多個(gè)片段共同優(yōu)化網(wǎng)絡(luò)的過程中,利用反向傳播算法調(diào)整模型參數(shù),如式(5):
具體實(shí)踐中使用隨機(jī)梯度下降(SGD)優(yōu)化模型,設(shè)置稀疏分組數(shù)的超參N為8,保證了參數(shù)的優(yōu)化是依據(jù)結(jié)合了所有采樣幀(視頻片段)的預(yù)測結(jié)果,利用非密集的數(shù)據(jù)輸入,從視頻層構(gòu)建行為識別模型.
以SK-Net[20]為代表的多路徑(multi-path)注意力啟發(fā)自人腦皮質(zhì)神經(jīng)元根據(jù)不同的刺激可動(dòng)態(tài)調(diào)節(jié)自身的感受野,是一種通過非線性地融合來不同分支下的核尺寸對應(yīng)的特征來捕獲不同比例的目標(biāo)對象的動(dòng)態(tài)選擇注意機(jī)制.SE-Net[21]則通過重新定義通道間特征圖譜的關(guān)系來實(shí)現(xiàn)“特征重標(biāo)定”,即對于不同通道的特征來說,加強(qiáng)有效信息的權(quán)重并壓縮無用信息的參與,它屬于一種通道層級的注意力機(jī)制——自適應(yīng)地調(diào)整通道特征響應(yīng).前者在ResNeXt[22]的基礎(chǔ)上用不同分支對應(yīng)的不同尺寸的卷積核減少計(jì)算量而維持性能不變,后者建立了通道層級的注意機(jī)制,可自適應(yīng)地學(xué)習(xí)不同通道間的特征關(guān)系.在面對深度學(xué)習(xí)中大量的矢量計(jì)算時(shí),基于多路徑和通道的注意機(jī)制都只在通道維度對權(quán)值進(jìn)行了重分配,而未考慮特征圖譜內(nèi)的關(guān)系響應(yīng),所以兩者的提升效果有限.
本文采用基于殘差塊(residual block)[23]的多路徑與特征注意結(jié)合的注意力映射方法,使得注意力得以跨特征圖譜運(yùn)作,圖2展示的是一個(gè)片組注意力模塊.
圖2 片組注意力模塊
在RGB和光流分支網(wǎng)絡(luò)中,特征首先被分為幾個(gè)基組(cardinal),每一基組再劃分為若干片組(split)(詳細(xì)結(jié)構(gòu)于圖2、圖3),K和R分別是基組數(shù)和片組數(shù)的超參,因此特征組的總數(shù)為G=KR,實(shí)驗(yàn)中分別設(shè)置為K=2,R=4.我們對不同特征圖組采用不同的學(xué)習(xí)函數(shù) {F1,F2,···,FG},則每一組的學(xué)習(xí)特征可表示為Ui=Fi(X),i∈{1,2,···,G},其中Fi為1×1 卷積和3×3 卷積的組合,如圖2所示.
具體地,每個(gè)基組的映射算法設(shè)計(jì)為多個(gè)片組的元素(element-wise)加和結(jié)果,因此第k個(gè)基組的表達(dá)如式(6):
在每個(gè)基組中,首先通過跨越空間維度的全局平均池化可以收集全局上下文信息,如圖3.設(shè)sk∈RC/K表示第k個(gè)基組的全局平均池化結(jié)果,skc為基組中第c(c=C/K) 個(gè)分量,skc的計(jì)算公式如式(7):
圖3 基組內(nèi)的片組注意力模塊
設(shè)Vk∈RH×W×C/K為第k個(gè)基于通道的軟注意力來聚合的基組特征表示,其中每個(gè)分量由片組特征加權(quán)組合得到,如式(8)所示,Vck為第k個(gè)基組的第c個(gè)通道分量的表達(dá):
其中,αki(c) 表示經(jīng)過Softmax 后所得權(quán)重,算法如式(9):
其中,權(quán)重映射函數(shù) G為兩個(gè)全連接層及一個(gè)ReLU 激活函數(shù)(結(jié)構(gòu)見圖3),Gci則通過全局平均池化結(jié)果sk,為基組內(nèi)每個(gè)片組生成映射權(quán)重,從而生成第c個(gè)通道分量的表達(dá).
最后,我們使用整合函數(shù)得到分塊中加入了片組注意力映射的整體特征表達(dá):
借鑒ResNet的恒等映射機(jī)制,最終分塊輸出為Y:
其中,T 用于統(tǒng)一殘差模塊的輸出形式,降低計(jì)算成本的同時(shí)能增強(qiáng)注意力映射的表達(dá).在行為識別中,有效的特征學(xué)習(xí)是獲得高準(zhǔn)確率的前提.通過多路徑和恒等映射模塊,片組注意力機(jī)制能有效學(xué)習(xí)特征圖層級的注意表達(dá).實(shí)驗(yàn)表明,片組注意力機(jī)制可大幅度提高網(wǎng)絡(luò)的學(xué)習(xí)能力,從而顯著地提升了行為識別的準(zhǔn)確率.
對于視頻分類任務(wù),傳統(tǒng)的2D CNNs 由于被設(shè)計(jì)適應(yīng)基于二維圖形的抽象學(xué)習(xí),因此無法做到對視頻(行為)進(jìn)行時(shí)空建模.3D CNNs 雖然可以直接對視頻進(jìn)行時(shí)空建模,但其對硬件的計(jì)算能力要求較高,效率較低.
為了能在不增加計(jì)算量的前提下提高網(wǎng)絡(luò)對時(shí)空信息的建模能力,我們在基于時(shí)間稀疏分組隨機(jī)采樣策略的雙流網(wǎng)絡(luò)中加入時(shí)移模塊(temporal shift module).以基于瓶頸結(jié)構(gòu)的ResNet為例,我們在每個(gè)殘差塊中插入時(shí)移模塊,如圖4所示.
在基于圖像特征的抽取與傳遞過程中,網(wǎng)絡(luò)中的特征圖譜通??梢员磉_(dá)為A∈RN×C×T×H×W,其中N為批處理大小,C為通道數(shù),T代表時(shí)間維度,H和W則表征空間分辨率.假設(shè)批處理大小為1,在時(shí)間維度上,代表不同時(shí)刻的向量用不同的顏色表示,如圖4所示.我們在通道維度上對特征進(jìn)行反向移動(dòng),這同時(shí)也表現(xiàn)為在時(shí)間維度上進(jìn)行錯(cuò)位,這使得相鄰幀的信息與當(dāng)前幀混合在了一起.
在特征抽取過程中,時(shí)移相當(dāng)于將卷積分為數(shù)據(jù)移動(dòng)和計(jì)算兩步.如在1D 卷積過程中,設(shè)X為一維向量,W=(w1,w2,w3)為卷積參數(shù),則卷積過程可表示為:
時(shí)移操作相當(dāng)于把式(12)分解為兩步:
1)平移置換:
2)乘積累加運(yùn)算:
由于行為分析涉及視頻幀(二維圖像),我們把時(shí)移模塊應(yīng)用到了2D 卷積中,可以看出時(shí)移模塊相較原始模型不會額外增加計(jì)算開銷.在平移置換的具體實(shí)踐中,我們將前 1/16 通道下的特征上移一個(gè)步長(+1),隨后的1/16 通道則進(jìn)行下移(-1),剩余通道不移動(dòng)(0),移空的位置用0 填充.平移置換相當(dāng)于在當(dāng)前幀的特征圖譜中用前后幀的信息進(jìn)行小范圍替換,即每一幀均融合了其前一幀和后一幀的部分特征(邊界除外).
實(shí)驗(yàn)表明,大幅增加平移時(shí)的通道比例以增加當(dāng)前幀中混合的前后幀的特征信息不會提高網(wǎng)絡(luò)的時(shí)序建模能力,相反會損害網(wǎng)絡(luò)性能.這是由于過多的置換會損害當(dāng)前幀的正常信息表達(dá),過度的信息交叉對網(wǎng)絡(luò)學(xué)習(xí)造成了負(fù)面干擾.同時(shí)我們也擴(kuò)展研究了時(shí)移模塊的一些變體,實(shí)踐發(fā)現(xiàn),過大的平移幅度如上下移動(dòng)兩個(gè)步長(+2、-2)難以幫助網(wǎng)絡(luò)優(yōu)化,將特征圖譜以相同比例在所有時(shí)刻上進(jìn)行置換也無益于性能提升.基于本文實(shí)驗(yàn),上下平移 1/16的通道來進(jìn)行時(shí)序特征的引入,能在不增加計(jì)算量的前提下提高網(wǎng)絡(luò)的時(shí)空建模能力.詳細(xì)實(shí)驗(yàn)數(shù)據(jù)可見第2 節(jié).
實(shí)驗(yàn)環(huán)境為PyTorch 1.4.0,顯卡設(shè)備為Tesla V100-SXM2 (顯存為32 GB),處理器設(shè)備為英特爾至強(qiáng)4110 (2.1 GHz,8 核),操作系統(tǒng)為CentOS 7.5.1804.
為了說明算法的有效性和魯棒性,實(shí)驗(yàn)數(shù)據(jù)集包括UCF101 數(shù)據(jù)集[16]和HMDB51 數(shù)據(jù)集[24].其中UCF101 共包含101 類的13 320 個(gè)主要內(nèi)容為人類體育運(yùn)動(dòng)的短視頻;HMDB51 則主要來源于網(wǎng)站視頻或電影,共有51 類人體行為的6 849 個(gè)視頻.對于這兩個(gè)公共數(shù)據(jù)集,本文均使用其官方提供的劃分方式 (Split 1)作為訓(xùn)練計(jì)劃,訓(xùn)練集和驗(yàn)證集的比例分別為2.5:1(9537:3783)和2.3:1 (3570:1530).
在數(shù)據(jù)預(yù)處理階段,抽取RGB 圖像和光流圖像作為空域和時(shí)域特征輸入,同時(shí)將數(shù)據(jù)以多位點(diǎn)隨機(jī)剪裁的方式(并調(diào)整至 2 24×224),結(jié)合隨機(jī)水平翻轉(zhuǎn)(概率為0.5)進(jìn)行數(shù)據(jù)增強(qiáng).
在訓(xùn)練過程中,采用標(biāo)準(zhǔn)交叉熵?fù)p失的學(xué)習(xí)策略,在總數(shù)為50 次的迭代中設(shè)置前20 輪的學(xué)習(xí)率為0.001,在第20和40 輪分別降為原來的0.1 倍,批處理大小為90,動(dòng)量為0.9,分組采樣數(shù)為8,權(quán)重衰減為5e-4,Dropout 參數(shù)為0.8,使用隨機(jī)梯度下降(SGD)對模型參數(shù)進(jìn)行更新.
在測試階段,統(tǒng)一在全像素圖像上進(jìn)行左中右方式剪裁以增強(qiáng)測試數(shù)據(jù).并以1:1.5的比例擬合RGB網(wǎng)絡(luò)和光流網(wǎng)絡(luò)的判別分?jǐn)?shù)作為雙流TS-SA 網(wǎng)絡(luò)的最終結(jié)果.
各經(jīng)典算法準(zhǔn)確率對比如表1所示,表1中UCF101與HMDB51 數(shù)據(jù)集下的除本文方法外的數(shù)據(jù)(準(zhǔn)確率)均來自于Wang 等人[17]的實(shí)驗(yàn).從表1中可以看出,iDT[6]結(jié)合Fisher Vector 作為最好的傳統(tǒng)特征抽取方法之一效果明顯,但在UCF101和HMDB51 上的識別精度可看出其與深度學(xué)習(xí)方法尚有差距.Two-Stream[15]作為經(jīng)典的原始雙流網(wǎng)絡(luò),在兩個(gè)數(shù)據(jù)集上的識別效果提升明顯.C3D[9]作為更適合學(xué)習(xí)時(shí)空特征的代表網(wǎng)絡(luò)并沒有在精度上超過Two-Stream,推測是由于單一地使用RGB 圖像還不能夠很好地對外觀和運(yùn)動(dòng)特征進(jìn)行統(tǒng)一建模.
表1 各算法性能對比
在視頻級計(jì)算量(FLOPs)上,均以批處理大小為1,視頻幀數(shù)為50,分組采樣數(shù)為8為前提進(jìn)行RGB 網(wǎng)絡(luò)計(jì)算量統(tǒng)計(jì).本文算法在視頻級計(jì)算量上由于時(shí)間稀疏分組隨機(jī)采樣策略優(yōu)勢明顯.因時(shí)移模塊與分組注意力模塊的加入,模型在參數(shù)量上對比原始的網(wǎng)絡(luò)有小幅增加,但考慮到模型性能的提升與整體計(jì)算量的下降,本文算法依舊具有較強(qiáng)優(yōu)勢.
為了進(jìn)一步驗(yàn)證本文提出的策略的優(yōu)勢及有效性,本文針對算法策略、片段聚合方式以及主干網(wǎng)絡(luò)的差異進(jìn)行了消融實(shí)驗(yàn).
為了驗(yàn)證與分析第1 章中算法策略的有效性及相對重要性,實(shí)驗(yàn)采用ResNet-50為主干網(wǎng)絡(luò),在兩個(gè)數(shù)據(jù)集上對比了時(shí)間稀疏分組隨機(jī)采樣策略(表2中簡寫為STGRS)、片組注意力模塊(表2中簡寫為SA)、時(shí)移模塊(表2中簡寫為TS)及其組合的準(zhǔn)確率,具體見表2.
由表2可知,對比密集采樣策略,時(shí)間稀疏分組隨機(jī)采樣策略的優(yōu)勢明顯,在不增加計(jì)算量的同時(shí)成功對行為進(jìn)行了長時(shí)程建模,在UCF101、HMDB51 數(shù)據(jù)集上分別提升了5.89%和3.33%的識別精度.
在分組策略的基礎(chǔ)上,分別只添加時(shí)移模塊和注意力模塊,由表2可見兩種策略在3 個(gè)數(shù)據(jù)集上均能展現(xiàn)出對網(wǎng)絡(luò)學(xué)習(xí)性能的優(yōu)化.其中片組注意力模塊加入的結(jié)果令人矚目,在UCF101、HMDB51 數(shù)據(jù)集上的識別精度分別提升了6.40%、1.93%,這說明多路徑和特征圖譜注意結(jié)合的片組注意力機(jī)制能在網(wǎng)絡(luò)中強(qiáng)化學(xué)習(xí)時(shí)的重要特征.
表2 算法策略識別精度對比 (%)
單獨(dú)添加時(shí)移模塊較單獨(dú)增加片組注意力模塊的提升較低,但時(shí)移模塊與片組注意力模塊的組合在3 個(gè)數(shù)據(jù)集上分別提升了6.86%和2.19%,說明兩種策略的組合能最優(yōu)化雙流網(wǎng)絡(luò)的識別性能.
接著,文章試驗(yàn)了片段間不同融合方式對結(jié)果的影響.如表3所示,實(shí)驗(yàn)依次比較了最大值融合、平均融合及加權(quán)平均融合對精度的影響.由于平均融合綜合考慮了不同時(shí)序處的信息,效果最佳.
表3 不同融合方式對識別精度的影響 (%)
最后,由于不同的網(wǎng)絡(luò)有著不同的學(xué)習(xí)能力,一般情況下,網(wǎng)絡(luò)越深或越復(fù)雜,意味著其載體容量越大,所以學(xué)習(xí)能力越強(qiáng).本文對比了不同主干網(wǎng)絡(luò)下基于兩個(gè)數(shù)據(jù)集的識別性能,結(jié)果如表4所示.
表4 不同融合方式對識別精度的影響 (%)
由表4可知,在保證片段采樣數(shù)、批處理大小等可控超參數(shù)一致的條件下,本文提出的基于ResNet-50的TA-SA 網(wǎng)絡(luò)以更輕量的網(wǎng)絡(luò)結(jié)構(gòu)超過了使用分組卷積改進(jìn)了的ResNeXt-101[22]網(wǎng)絡(luò)和融合了壓縮與激勵(lì)(squeeze and excitation,SE)模塊[21]的SE-ResNet-101 網(wǎng)絡(luò),充分說明本文算法可以在行為識別任務(wù)中實(shí)現(xiàn)高效、快速、高準(zhǔn)確率的識別效果.
本文提出了基于時(shí)移和片組注意力融合的時(shí)間分組雙流深度網(wǎng)絡(luò)并全面評估了各個(gè)模塊及其組合的性能.實(shí)驗(yàn)結(jié)果表明,對視頻數(shù)據(jù)進(jìn)行時(shí)間稀疏分組隨機(jī)采樣策略能對行為內(nèi)容進(jìn)行長時(shí)程高效建模,且時(shí)移模塊和片組注意力機(jī)制的組合能有效捕獲時(shí)空特征,提升網(wǎng)絡(luò)泛化性能.相較目前多數(shù)行為識別算法,本文算法在公共數(shù)據(jù)集中被證明更具有普適性和魯棒性.為了進(jìn)一步提高算法的識別性能,今后還可從更高效的主干網(wǎng)絡(luò)優(yōu)化及多模態(tài)特征融合的方向進(jìn)行深入研究.