• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    MRTP:時間-動作感知的多尺度時間序列實時行為識別方法

    2022-03-15 02:02:48張坤楊靜張棟陳躍海李杰杜少毅
    西安交通大學(xué)學(xué)報 2022年3期
    關(guān)鍵詞:卷積維度動作

    張坤,楊靜,,張棟,陳躍海,李杰,杜少毅

    (1.西安交通大學(xué)自動化科學(xué)與工程學(xué)院,710049,西安;2.西安交通大學(xué)人工智能學(xué)院,710049,西安)

    temporal attention

    近年來,行為識別在智能視頻監(jiān)控、輔助醫(yī)療監(jiān)護(hù)、智能人機(jī)交互、全息運(yùn)動分析及虛擬現(xiàn)實等領(lǐng)域均具有廣泛的應(yīng)用需求[1]。從應(yīng)用場景看,行為識別可分為異常行為識別、單人行為識別、多人行為識別等[2]。行為定義模糊、類內(nèi)和類間差異較大、計算代價等問題給視頻行為識別帶來了巨大的挑戰(zhàn)[3]。

    隨著深度學(xué)習(xí)的崛起,許多深度學(xué)習(xí)方法被用于行為識別。由于行為識別需要同時獲取空間和時間信息,所以兩個網(wǎng)絡(luò)并行的雙流結(jié)構(gòu)成為了目前視頻行為識別領(lǐng)域的主流架構(gòu)。雙流網(wǎng)絡(luò)大多使用光流作為時間流、RGB圖像作為空間流。由于光流本身只使用于短時間的動作信息提取,所以此類網(wǎng)絡(luò)無法解決長跨度動作的時間信息提取問題[4]。

    循環(huán)神經(jīng)網(wǎng)絡(luò)在序列數(shù)據(jù)的處理上表現(xiàn)優(yōu)異,而視頻也是按照時序排列的序列數(shù)據(jù),所以諸如LSTM[5]等循環(huán)神經(jīng)網(wǎng)絡(luò)被用于視頻行為識別任務(wù)。然而,使用CNN-LSTM的方法在行為識別問題上并不能取得令人滿意的效果。原因在于行為識別中作出主要貢獻(xiàn)的是幀圖像的空間信息[6],且相鄰的視頻幀能提供的時序信息十分有限。

    3D卷積相較于2D卷積多了一個維度,對應(yīng)視頻比圖像多了時間維度,因此3D卷積被引入用作行為識別的特征提取。隨著視頻領(lǐng)域大規(guī)模數(shù)據(jù)集的建立,3D卷積逐步超越了傳統(tǒng)2D卷積的表現(xiàn)[7]。然而,視頻信息在時空維度具有完全不同的分布方式和信息量,經(jīng)典的3D卷積方法在時空維度并沒有對此進(jìn)行區(qū)分[8],由此導(dǎo)致了3D卷積計算了過多的冗余信息。如何減少3D卷積的計算消耗從而建立一個輕量級的網(wǎng)絡(luò)是目前的研究熱點(diǎn)。

    長跨度的時間建模是行為識別中的一大難點(diǎn)[9]。由于時間維度信息與空間信息不平衡,已有的行為識別方法受限于采樣密度較低和時間跨度限制,對于一些變化緩慢或者變化較小動作,如傾聽、注視、打電話等,難以提取出有效的動作信息。對于部分需要依賴時間信息進(jìn)行區(qū)分的動作,如講話和唱歌、躺下和睡覺等,已有方法的效果不夠理想。如何從冗余的視頻信息中找到出含有動作信息的關(guān)鍵視頻幀,目前的行為識別方法還未給出一個完善的解決方案。

    本文針對RGB視頻的輕量行為識別,提出了一種時間-動作感知的多尺度時間序列實時行為識別方法MRTP,旨在解決視頻中空間和時序信息不平衡以及長時動作的關(guān)鍵幀難以提取的問題。本文提出的MRTP方法在行為識別的經(jīng)典數(shù)據(jù)集UCF-101和大規(guī)模數(shù)據(jù)集AVA2.2上進(jìn)行了訓(xùn)練和相關(guān)指標(biāo)測試。測試結(jié)果表明,相比于主流的行為識別方法,MRTP方法具有更高的準(zhǔn)確率和更小的計算成本,能夠在方法部署階段實現(xiàn)實時行為識別。

    1 相關(guān)工作

    行為識別傳統(tǒng)方法一般使用時空興趣點(diǎn)[10]、立體興趣點(diǎn)[11]、運(yùn)動歷史圖像[12]、光流直方圖(HOF)[13]等局部描述符,通過視覺詞袋[14]、Fisher Vector[15]等特征融合方法,用KNN、SVM等傳統(tǒng)分類器進(jìn)行分類。在2015年以前,iDT[16]是行為識別領(lǐng)域精度最高的方法。該方法通過提升的密集軌跡方法對相機(jī)運(yùn)動進(jìn)行估計,使用行人檢測消除干擾信息,再基于光流直方圖和光流梯度直方圖等描述子進(jìn)行SVM分類。iDT方法識別效果優(yōu)良、魯棒性好,但人工特征提取流程復(fù)雜且特征不夠全面。隨著深度神經(jīng)網(wǎng)絡(luò)的不斷發(fā)展,基于深度學(xué)習(xí)的方法在精度和計算成本上都超越了傳統(tǒng)方法。

    目前,基于深度學(xué)習(xí)的行為識別方法有雙流網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、3D卷積等。

    視頻理解除了空間信息之外還需要運(yùn)動信息,雙流網(wǎng)絡(luò)使用兩個并行的卷積神經(jīng)網(wǎng)絡(luò),分別獨(dú)立進(jìn)行特征提取,主流的雙流方法有TSN[17]、Convolutional Two-Stream[18]、Flownet[19]等。在經(jīng)典的Two-steam[20]方法中,一個網(wǎng)絡(luò)處理單幀的圖像,提取環(huán)境、視頻中的物體等空間信息,另一個網(wǎng)絡(luò)使用光流圖做輸入,提取動作的動態(tài)特征??紤]到光流是一種手工設(shè)計的特征,雙流方法通常都無法實現(xiàn)端到端的學(xué)習(xí)。另外,隨著行為識別領(lǐng)域數(shù)據(jù)集規(guī)模的不斷擴(kuò)大,由光流圖計算帶來的巨大計算成本和存儲空間消耗等問題使得基于光流的雙流卷積神經(jīng)網(wǎng)絡(luò)不再適用于大規(guī)模數(shù)據(jù)集的訓(xùn)練和實時部署。

    LSTM[21]是循環(huán)神經(jīng)網(wǎng)絡(luò)中一種,該網(wǎng)絡(luò)用于解決某些動作的長依賴問題。文獻(xiàn)[22]研究了同時使用卷積網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的CNN-LSTM網(wǎng)絡(luò)結(jié)構(gòu)在行為識別任務(wù)中的表現(xiàn),發(fā)現(xiàn)需要對視頻進(jìn)行預(yù)分段,LSTM才能提取到較為明確的時間信息。文獻(xiàn)[23]探索了多種LSTM網(wǎng)絡(luò)在行為識別任務(wù)中的應(yīng)用效果,發(fā)現(xiàn)相比于行為識別,LSTM更適合于動作定位任務(wù)。在視頻行為識別中,很大一部分動作只需要空間特征就能夠識別,但LSTM網(wǎng)絡(luò)只能對短時的時間信息進(jìn)行特征提取,無法很好地處理空間信息。因此,該類方法已逐漸被3D卷積等主流方法取代。

    視頻行為識別中,主流的3D卷積方法有C3D[24]、I3D[25]、P3D[26]等。文獻(xiàn)[27]將經(jīng)典的殘差神經(jīng)網(wǎng)絡(luò)ResNet由2D拓展為3D,并在各種視頻數(shù)據(jù)集中探索了從較淺到深的3D ResNet體系結(jié)構(gòu),結(jié)果發(fā)現(xiàn)在大規(guī)模數(shù)據(jù)集上,較深的3D殘差神經(jīng)網(wǎng)絡(luò)能夠取得更好的效果。然而,視頻信息在時空維度具有完全不同的分布方式和信息量,經(jīng)典的3D卷積方法在時空維度并沒有對此進(jìn)行區(qū)分,計算了過多的冗余信息,由此帶來了過高的計算代價以及部署成本。

    文獻(xiàn)[8]提出了一種受生物機(jī)制啟發(fā)的行為識別模型,通過分解架構(gòu)分別處理空間信息和時間信息。在人類視覺中,空間語義(顏色、紋理、光照等)信息變化較慢,可使用較低的幀率。相比之下,大部分動作(拍手、揮手、搖晃、走路、跳躍等)比空間語義信息變化速度快得多,因此使用更高的幀率來進(jìn)行有效建模。但是,該方法只改變了兩個路徑輸入視頻幀的數(shù)量。對單個視頻幀沒有進(jìn)行更細(xì)致的處理,在空間流也未添加更多的動作信息予以輔助。

    當(dāng)前,已經(jīng)存在很多基于3D卷積和雙路徑網(wǎng)絡(luò)架構(gòu)的行為識別方法,但效果均不理想,這主要是由于對于行為識別任務(wù),視頻中的信息較為冗余,對任務(wù)做出實際貢獻(xiàn)的視頻幀和含有動作信息的特征通道在視頻中的分布十分稀疏。因此,如何找出含有關(guān)鍵信息的視頻幀和特征通道亟待解決。

    2 MRTP方法

    本文設(shè)計了一個時間與動作感知的雙路徑行為識別方法MRTP,網(wǎng)絡(luò)結(jié)構(gòu)見圖1。模型使用雙路徑結(jié)構(gòu),以視頻包為輸入,在時間維度上以步長1為滑動窗口,可得到視頻中順序排列的連續(xù)n幀圖像。

    每個視頻以2 s長度截取視頻包,對于視頻包中的64幀圖像再進(jìn)行采樣。T為每次采樣的視頻幀數(shù),在高幀率動作路徑設(shè)置T=32,低幀率空間路徑設(shè)置T=4。低幀率空間路徑所取視頻幀的位置由高幀率動作路徑的時間注意力模塊生成的α和β決定,α和β為時間注意力篩選出的權(quán)重最大兩幀圖像對應(yīng)的坐標(biāo)。

    高幀率動作路徑采樣的圖像數(shù)量較多但通道數(shù)較少,低幀率空間路徑采樣的圖像數(shù)量較少但通道數(shù)較多。設(shè)高幀率動作路徑輸入的圖像數(shù)為低幀率空間路徑的p倍,高幀率動作路徑特征的通道數(shù)為低幀率空間路徑的q倍,在UCF-101數(shù)據(jù)集和AVA數(shù)據(jù)集上,p=8,q=1/16。

    Res1~Res4是ResNet3D的殘差結(jié)構(gòu)。使用Kinetics 400和Kinetics 600上預(yù)訓(xùn)練的ResNet3D 50和ResNet3D 101作為特征提取的骨干網(wǎng)絡(luò)。

    通道注意力模塊用于衡量動作路徑各個特征通道的重要性并進(jìn)行加權(quán)。時間注意力模塊在通道注意力模塊篩選出的通道權(quán)重基礎(chǔ)上衡量各個視頻幀的重要性,將α和β輸入到低幀率空間路徑作為圖像提取的位置坐標(biāo)依據(jù)。動作感知模塊基于相鄰兩幀的特征差分矩陣衡量前后兩個視頻幀的特征變化,并對通道賦予權(quán)重。

    在卷積網(wǎng)絡(luò)的Pool1、Res1、Res2、Res3之后建立側(cè)向連接,將動作路徑的特征通過重構(gòu)之后傳遞到空間路徑。

    特征融合部分將高幀率動作路徑和低幀率空間路徑的特征連接起來。

    Softmax函數(shù)將融合后的特征向量轉(zhuǎn)換為類別概率向量,并選取其中的最大值所對應(yīng)的類別作為輸出結(jié)果。

    2.1 高幀率動作路徑特征提取

    2.1.1 長時間跨度動作特征 在由圖像序列組成的視頻數(shù)據(jù)中,動態(tài)信息被定義為幀間圖像的像素運(yùn)動,即光流。然而,光流需要時間的變化不引起目標(biāo)位置的劇烈變化,因此光流矢量只能在幀間位移較小的前提下使用。在需要長時間跨度動作特征提取的情況下,光流作為動態(tài)信息的一種表示,并不能提取出所需的動作信息表征。因此,本文引入高幀率采樣的動作路徑,該路徑輸入RGB視頻幀,在本文實驗的兩個數(shù)據(jù)集上將幀率變?yōu)樵瓉淼膒倍。同時,為了降低模型的計算量,使該路徑更加聚焦于動態(tài)信息,本文將動作路徑的通道數(shù)量變?yōu)樵瓉淼膓倍,在保證了模型輕量化的同時實現(xiàn)了動態(tài)信息的提取。相比于基于光流的動態(tài)信息,本文通過使用RGB視頻幀輸入實現(xiàn)了端到端的訓(xùn)練和部署,并且特征的提取不再受光流的場景固定和小范圍時間跨度的約束。

    2.1.2 通道注意力機(jī)制 由于輸入特征向量在通道維度有較大差異,有的通道對識別任務(wù)有較大貢獻(xiàn),但部分通道貢獻(xiàn)較小,所以在3D卷積中引入通道注意力機(jī)制。將提取特征向量作為輸入,通過計算通道權(quán)重對通道加權(quán)。

    設(shè)輸入特征向量的維度用數(shù)組X表示,X=[N,C,ωT,W,H],其中:N為輸入的視頻數(shù);C為通道數(shù)量;ω為整個視頻中所取的片段數(shù),即進(jìn)行3D卷積的次數(shù),若視頻長度在2 s以內(nèi),則ω=1;W和H為特征的寬和高。首先,在時間維度對特征進(jìn)行融合

    (1)

    然后,在空間維度通過池化融合特征

    (2)

    式中zC為池化操作的結(jié)果。通過在特征的寬和高進(jìn)行池化,特征向量的維度變?yōu)閄=[N,C,1,1,1]。

    最后,計算出每個通道的權(quán)重向量

    a=Sigmoid(Y2ReLU(Y1zC))

    (3)

    式中:a為通道注意力計算出的權(quán)重向量;Y1和Y2為權(quán)重參數(shù),在訓(xùn)練中得到;Sigmoid為S型激活函數(shù);ReLU為線性激活函數(shù)。

    2.1.3 時間注意力機(jī)制 由于每幀圖像的重要性不同,所以對于通道加權(quán)后的特征向量,選取其中權(quán)值最大的通道特征作為時間注意力機(jī)制的輸入并計算權(quán)重,從而對視頻幀加權(quán)。

    首先,利用輸入的通道權(quán)重對通道數(shù)據(jù)進(jìn)行篩選

    uT=x[N,amax,ωT,W,H]

    (4)

    式中:x為輸入特征向量;amax為上一步通道注意力機(jī)制中提取出的權(quán)重最大值對應(yīng)的通道坐標(biāo);uT為通道注意力提取出的權(quán)重最大通道對應(yīng)的特征向量。通過第1步提取操作,特征向量維度變化為X=[N,1,ωT,W,H]。

    然后,在空間維度通過池化融合特征

    (5)

    式中zT為池化操作的輸出特征。通過在特征的寬和高進(jìn)行池化,特征向量的維度變化為X=[N,1,ωT,1,1]。

    最后,計算出每個視頻幀的權(quán)重向量

    s=Sigmoid(W2ReLU(W1zT))

    (6)

    式中:s為時間注意力計算出的權(quán)重向量;W1和W2為權(quán)重參數(shù),在訓(xùn)練中得到。

    2.2 低幀率空間路徑特征提取

    2.2.1 視頻幀按權(quán)重采樣 空間路徑采樣視頻幀的數(shù)量只有動作路徑的1/p,在空間路徑使用均勻采樣會因為位置不準(zhǔn)確導(dǎo)致無法提取出足夠的信息。因此,MRTP方法采用動作路徑生成的權(quán)重對空間路徑進(jìn)行非均勻采樣指導(dǎo),流程如圖2所示。動作路徑中的通道注意力和時間注意力模塊生成了視頻幀權(quán)重?;谠摍?quán)重,在空間路徑按權(quán)值從大到小,以2幀/s的處理速度在視頻對應(yīng)位置采樣圖像。假設(shè)時間注意力計算出的權(quán)重s中最大的兩個值為sα和sβ,則在視頻中按α和β所在位置抽取圖像。相比于現(xiàn)有模型均勻抽取的方法,這種采樣方法能夠提取到信息量更多、對識別貢獻(xiàn)更大的視頻幀。

    圖2 空間路徑視頻幀按動作路徑時間注意力權(quán)重進(jìn)行非均勻采樣示意Fig.2 Non-uniform sampling in spatial path according to time attention weight in motion path

    圖3 動作感知結(jié)構(gòu)Fig.3 Motion perception structure

    2.2.2 動作空間特征提取 空間特征主要描述動作中涉及到的物體外觀和場景配置。為了提取視頻幀中細(xì)節(jié)的空間信息,本文使用低幀率空間路徑,一次卷積中只使用4幀圖像。預(yù)處理隨機(jī)裁剪將圖像歸一化為224×224像素,在訓(xùn)練出的ResNet-3D網(wǎng)絡(luò)模型中,Res4的特征通道數(shù)達(dá)到了2 048。更多的特征通道能夠讓該路徑提取到顏色、紋理、背景等細(xì)節(jié)的空間信息。

    2.3 動作感知

    為了替代以光流為基礎(chǔ)的像素級動作表示方式,并將時空特征結(jié)合起來,本文在低幀率空間路徑使用了動作感知模塊,從特征通道來進(jìn)行動作表征和激勵。該模塊通過衡量前后兩個視頻幀的特征變化,賦予視頻幀中動作信息對應(yīng)的特征通道更大的激勵權(quán)重,以此來增強(qiáng)網(wǎng)絡(luò)對動作的感知能力。動作感知模塊的計算流程如圖3所示。

    設(shè)輸入特征為X,X的特征維度即為X=[N,C,ωT,W,H],此處X為一次卷積獲得的特征,即ω=1,可得X=[N,C,T,W,H]。首先,使用一個3D卷積層來降低通道數(shù)以提高計算效率

    Xk=conv3D(X)

    (7)

    式中:Xk表示通道減少后的特征,Xk特征維度為[N,C/k,T,W,H],k=16是減少的比率;conv3D表示使用尺寸為1×1×1的卷積核對通道維度進(jìn)行降維操作。

    對于運(yùn)動特征向量,使用前后兩幀圖像對應(yīng)的特征Xk(t+1)和Xk(t)之間的差來表示運(yùn)動信息

    P(t)=convshift(Xk(t+1))-Xk(t)

    (8)

    式中:P(t)是時間t時的動作特征向量,特征維度為[N,C/k,1,W,H],1≤t≤T-1;convshift是一個3×32通道卷積層,對每個通道進(jìn)行轉(zhuǎn)換。

    假設(shè)T時刻動作已經(jīng)結(jié)束,即T時刻已經(jīng)沒有動作特征,令P(T)為0特征向量。在計算出每個時刻的P(t)之后,構(gòu)造出整個T幀序列的動作矩陣P。通過全局平均池化層激發(fā)對動作敏感的通道

    Pl=pool(P)

    (9)

    式中Pl特征維度為[N,C/k,T,W,H]。使用3D卷積層將動作特征的通道維度C/k擴(kuò)展到原始通道維度C,再利用Sigmoid函數(shù)得到動作感知權(quán)值

    E=2Sigmoid(conv3D(Pl))-1

    (10)

    至此,得到了特征向量中各通道的動作相關(guān)性權(quán)重E。為了不影響原低幀率動作路徑的空間特征信息,借鑒ResNet中殘差連接的方法,在增強(qiáng)動作信息的同時保留原有的空間信息

    XR=X+X⊙E

    (11)

    式中:XR是該模塊的輸出;⊙表示按通道的乘法。

    3 實 驗

    3.1 實驗設(shè)置

    3.1.1 損失函數(shù) 在訓(xùn)練過程當(dāng)中,對于同一輸入有多個動作共存的情況,Sigmoid函數(shù)計算公式為

    (12)

    由于經(jīng)過Sigmoid網(wǎng)絡(luò)層后的輸出為[0,1]內(nèi)的概率值,因此本文選擇二分類交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練,即對每一類動作都進(jìn)行二分類判別。在判別時設(shè)定概率閾值為0.8,當(dāng)大于該閾值時認(rèn)為判別有效,即視頻中包含該類動作,從而避免多分類的類別互斥情況,損失函數(shù)計算公式為

    (13)

    3.1.2 訓(xùn)練參數(shù) 本文實驗使用深度學(xué)習(xí)框架Pytorch實現(xiàn),訓(xùn)練使用SGD優(yōu)化器,學(xué)習(xí)率調(diào)整策略為StepLR,基于epoch訓(xùn)練次數(shù)進(jìn)行學(xué)習(xí)率調(diào)整,即每到給定的epoch數(shù)時,學(xué)習(xí)率都改變?yōu)槌跏紝W(xué)習(xí)率的指定倍數(shù)。初始學(xué)習(xí)率設(shè)置為0.05,指定當(dāng)epoch數(shù)為10、15、20時,學(xué)習(xí)率分別設(shè)置為初始學(xué)習(xí)率的0.1、0.01、0.001倍,權(quán)重衰減設(shè)置為1×10-7,Dropout rate設(shè)置為0.5。AVA數(shù)據(jù)集訓(xùn)練樣本龐大,剛開始采用較大的學(xué)習(xí)率可能會帶來模型不穩(wěn)定。為了防止出現(xiàn)提前過擬合的現(xiàn)象和保持分布的平穩(wěn),本文在訓(xùn)練過程中還加入了學(xué)習(xí)率預(yù)熱策略,在epoch數(shù)小于5時,使用0.000 125的學(xué)習(xí)率進(jìn)行訓(xùn)練,當(dāng)模型具備了一定的先驗知識,再使用預(yù)先設(shè)置的學(xué)習(xí)率,這樣可以避免初期訓(xùn)練時錯過最優(yōu)點(diǎn)導(dǎo)致?lián)p失振蕩,從而加快模型的收斂速度。

    3.2 數(shù)據(jù)集

    本文使用兩個數(shù)據(jù)集評估MRTP的性能。其中,UCF101是行為識別領(lǐng)域的經(jīng)典數(shù)據(jù)集,AVA2.2是目前最具挑戰(zhàn)性的大規(guī)模數(shù)據(jù)集。在UCF101和AVA2.2上,分別使用三折交叉驗證準(zhǔn)確率和平均精度(mAP)作為評價指標(biāo),與經(jīng)典方法以及近期方法進(jìn)行了對比,并單獨(dú)驗證了MRTP的有效性。

    3.2.1 UCF101 UCF101[28]是一個由佛羅里達(dá)大學(xué)創(chuàng)建的動作識別數(shù)據(jù)集,收集自YouTube。UCF101擁有來自101個動作類別的13 320個視頻,在攝像機(jī)運(yùn)動、外觀、姿態(tài)、比例、視角、背景、照明條件等方面存在很大的差異。101個動作類別中的視頻被分成25組,每組可以包含一個動作的4~7個視頻。同一組視頻可能有一些共同特點(diǎn),比如相似的背景或類別等。數(shù)據(jù)集包括人與物體交互、單純的肢體動作、人與人交互、演奏樂器、體育運(yùn)動共5大類動作。

    3.2.2 AVA AVA數(shù)據(jù)集[29]來自谷歌實驗室,包含430個視頻,其中,235個用于訓(xùn)練,64個用于驗證,131個用于測試。每個視頻有15 min的注釋時間,間隔為1 s。盡管很多數(shù)據(jù)集采用了圖像分類的標(biāo)注機(jī)制,即數(shù)據(jù)的每一個視頻片段分配一個標(biāo)簽,但是仍然缺少包含不同動作的多人復(fù)雜場景數(shù)據(jù)集。與其他動作數(shù)據(jù)集相比,AVA具備每個動作標(biāo)簽都與人更加相關(guān)的關(guān)鍵特征。在同一場景中執(zhí)行不同動作的多人具有不同的標(biāo)簽。AVA的數(shù)據(jù)源來自不同類型和國家的電影,覆蓋大多數(shù)的人類行為并且十分貼近實際部署情況。相比于AVA2.1,AVA2.2數(shù)據(jù)源沒有變化,但在標(biāo)簽文件中添加了2.5%的缺失動作標(biāo)簽。

    相比于傳統(tǒng)的UCF101和HMDB51等數(shù)據(jù)集,AVA數(shù)據(jù)集十分具有挑戰(zhàn)性,該數(shù)據(jù)集的數(shù)據(jù)量是傳統(tǒng)數(shù)據(jù)集的數(shù)10倍,場景切換十分頻繁,除了相機(jī)運(yùn)動帶來的場景連續(xù)變化,還出現(xiàn)了電影鏡頭切換帶來的場景突變。相比于主流的Kinetics和Youtube-8M等數(shù)據(jù)集,AVA數(shù)據(jù)集使用了多人標(biāo)注,在更加貼近真實場景的同時,增加了對人的檢測和跟蹤,人數(shù)增多和遮擋問題也造成了包含單個動作的源數(shù)據(jù)大幅減少。因此,該數(shù)據(jù)集識別難度遠(yuǎn)超現(xiàn)有的其他主流數(shù)據(jù)集。在此之前,文獻(xiàn)[8]訓(xùn)練的模型達(dá)到了27.1%的mAP精度(由文獻(xiàn)[30]進(jìn)行復(fù)現(xiàn)和評估),是該數(shù)據(jù)集上的最高精度。

    3.3 評價指標(biāo)

    3.3.1 準(zhǔn)確率 準(zhǔn)確率為分類正確的樣本數(shù)占總樣本的比例,公式為

    (14)

    式中:A為準(zhǔn)確率;m為總樣本數(shù);f(xi)為第i個樣本xi的預(yù)測分類結(jié)果;yi為xi的實際分類結(jié)果;I為判別函數(shù),當(dāng)樣本xi的分類結(jié)果與實際結(jié)果yi相同時,I(f(xi)=yi)=1,否則I(f(xi)≠yi)=0。

    在UCF-101中使用三折交叉驗證準(zhǔn)確率作為評價指標(biāo)。將數(shù)據(jù)集平均分成3份,使用其中1份作為測試數(shù)據(jù),其余作為訓(xùn)練數(shù)據(jù)。在3份數(shù)據(jù)上重復(fù)進(jìn)行這個訓(xùn)練測試過程,取最后的測試準(zhǔn)確率平均值作為結(jié)果。

    3.3.2 mAP AP是某一類P-R曲線下的面積,mAP則是所有類別P-R曲線下面積的平均值。P-R曲線是以查全率為橫坐標(biāo)、查準(zhǔn)率為縱坐標(biāo)構(gòu)成的曲線。查全率公式為

    (15)

    式中:R為查全率;T′為真陽性數(shù),表示交并比大于0.5的檢測框數(shù);N′為假陰性數(shù),表示交并比小于0.5的檢測框數(shù)。查準(zhǔn)率公式為

    (16)

    式中:P為查準(zhǔn)率;F為假陽性數(shù),表示漏檢的真實檢測框的數(shù)量。

    AVA數(shù)據(jù)集中存在同一場景多人同時執(zhí)行動作的情況,因此需要目標(biāo)檢測來區(qū)分每個人對應(yīng)的動作,使用mAP來衡量實驗結(jié)果。

    3.4 實驗結(jié)果

    3.4.1 UCF101實驗結(jié)果 使用Kinetics-400數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,在預(yù)訓(xùn)練模型的基礎(chǔ)上對UCF-101數(shù)據(jù)集的行為識別數(shù)據(jù)進(jìn)行訓(xùn)練建模,對UCF-101的3個split進(jìn)行測試,與同樣使用3D卷積的C3D[24]方法和同樣使用了雙路徑結(jié)構(gòu)的TSN[17]、Two-stream I3D[7]以及近期的I3D-LSTM[31]、TesNet[32]進(jìn)行了準(zhǔn)確率的對比,結(jié)果如表1所示。可以看出,相比于主流的行為識別方法,本文在同樣的數(shù)據(jù)集上取得了更高的測試精度。

    表1 UCF101數(shù)據(jù)集上不同方法的準(zhǔn)確率對比

    3.4.2 AVA2.2實驗結(jié)果 同一視頻片段識別結(jié)果對比示例如圖4所示,該視頻片段真實的動作標(biāo)簽為“站立(stand)”和“演奏樂器(play musical instrument)”?;A(chǔ)模型使用了2幀/s的固定幀率對視頻進(jìn)行采樣,未加入本文提出的MRTP方法,同樣使用ResNet3D作為骨干網(wǎng)絡(luò)。在使用基礎(chǔ)模型和本文提出的MRTP方法對相同輸入進(jìn)行識別時,基礎(chǔ)模型無法正確地識別出動作類別,識別出的結(jié)果為“坐(sit)”,而本文提出的MRTP方法在同樣的輸入數(shù)據(jù)下相比基礎(chǔ)模型有更準(zhǔn)確的識別結(jié)果。

    在Kinetics-400和Kinetics-600上進(jìn)行預(yù)訓(xùn)練,得到含有低層基礎(chǔ)特征的預(yù)訓(xùn)練模型,基于預(yù)訓(xùn)練模型對AVA2.2的數(shù)據(jù)進(jìn)行訓(xùn)練建模。在測試集上計算交并比閾值為0.5時的mAP精度,ARCN[33]、I3D w/RPN[34]、I3D Tx HighRes方法在AVA2.1上進(jìn)行了測試,AVA數(shù)據(jù)集上的mAP精度結(jié)果如表2所示??梢钥闯?相比于ARCN[33]、I3D w/RPN[34]、I3D Tx HighRes[35]、D3D[36]和X3D[30]等行為識別方法,MRTP取得了更高的測試精度。在網(wǎng)絡(luò)深度相同的情況下,MRTP超過了之前效果最好的SlowFast方法,在加深骨干網(wǎng)絡(luò)到101層之后,MRTP達(dá)到了28.0%的mAP精度,刷新了目前AVA2.2數(shù)據(jù)集上最高的mAP精度。

    3.4.3 ResNet3D骨干網(wǎng)絡(luò)實驗結(jié)果 為了證明本文MRTP方法的有效性,固定了骨干網(wǎng)絡(luò)和預(yù)訓(xùn)練模型,在兩個數(shù)據(jù)集上對比了添加MRTP方法前后的評價指標(biāo),結(jié)果如表3所示??梢钥闯?相比于基礎(chǔ)模型,添加了MRTP方法后在不同的數(shù)據(jù)集和網(wǎng)絡(luò)深度都能夠?qū)崿F(xiàn)精度的提升。

    (a)基礎(chǔ)模型識別結(jié)果

    (b)MRTP識別結(jié)果

    表2 AVA數(shù)據(jù)集上不同方法的mAP對比

    加入MRTP方法前后,部分類別mAP精度對比見表4??梢钥闯?在基礎(chǔ)模型中加入本文提出的MRTP方法后,AVA數(shù)據(jù)集中大部分行為類別的準(zhǔn)確率都有了一定程度的提升,特別是“演奏樂器(play musical instrument)”,“射擊(shoot)”以及“游泳(swim)”這3類動作,更是取得了10%以上的提升。原因在于本文使用的時間注意力和動作感知方法都是聚焦于動作的動態(tài)信息。這3類動作都是在視頻畫面中動作變化相對較小的。在所提取的特征中,這類變化較小的動作信息容易被場景、光線、角度變化所干擾,而MRTP在時間維度使用時間注意力聚焦于含有動作變化的視頻幀,在通道維度使用特征差分的動作感知聚焦于含有動作信息的通道。這樣就使得模型所獲取的動態(tài)信息大多來自于動作本身,從而在這些動態(tài)信息不明顯的動作類別上實現(xiàn)mAP精度的提升。

    表3 加入MRTP方法前后的對比結(jié)果

    表4 AVA數(shù)據(jù)集加入MRTP方法前后的部分類別mAP精度對比

    3.4.4 復(fù)雜度分析 各方法訓(xùn)練出的模型復(fù)雜度對比見表5??梢钥闯?本文提出的MRTP方法在使用ResNet3D-50作為骨干網(wǎng)絡(luò)時的參數(shù)量小于同樣使用3D卷積網(wǎng)絡(luò)的I3D-NL方法[37]的,甚至小于使用2D卷積網(wǎng)絡(luò)的TSN方法的;同樣使用RTX 3090顯卡進(jìn)行模型測試,輸入同一個分辨率為640×480像素的測試視頻,MRTP達(dá)到了110.24幀/s的處理速度,在所有方法中是最優(yōu)的,雖然使用ResNet3D-101作為骨干網(wǎng)絡(luò)時模型參數(shù)量較大,但是處理速度依然遠(yuǎn)超使用了光流輸入的TSN方法[17]的,也高于使用偽3D卷積的R2+1D[38]方法的。本文方法使用RGB視頻作為輸入,極大地減少了由于計算光流圖帶來的時間和計算成本,并且通過在動作路徑將特征通道數(shù)量減少,使得在動作路徑增加的輸入視頻幀沒有帶來更大的計算消耗。

    表5 不同方法的模型復(fù)雜度對比

    4 結(jié) 論

    針對時空信息分布不均衡以及對長時間跨度信息表征獲取難的問題,本文提出了一種時間-動作感知的多尺度時間序列實時行為識別方法MRTP。本文得出的主要結(jié)論如下。

    (1)提出的網(wǎng)絡(luò)使用雙路徑結(jié)構(gòu),在不同的時間分辨率上對視頻進(jìn)行特征提取,相比于只使用固定幀率的網(wǎng)絡(luò),對長時動作能夠更好地聚焦于時序信息。

    (2)在低幀率空間路徑中,使用基于特征差分的動作感知尋找并加強(qiáng)通道動作特征,將變化明顯的特征通道作為動作的表征;在高幀率動作路徑中加入通道注意力和時間注意力加強(qiáng)關(guān)鍵特征,細(xì)化了各個視頻幀的重要性度量。

    (3)低幀率空間路徑基于動作路徑中的時間注意力生成的視頻幀權(quán)重對輸入視頻進(jìn)行采樣,相比于現(xiàn)有方法的均勻采樣,能夠提取到識別貢獻(xiàn)更大的視頻幀;在高幀率動作路徑中,基于空間路徑動作感知的權(quán)重進(jìn)行通道篩選,保留了動作信息豐富的特征通道。

    (4)本文提出的MRTP方法僅使用RGB幀作為輸入,通過衡量幀權(quán)重,在時序維度上獲得了更好的依賴,通過動作感知尋找并加強(qiáng)了通道維度動作特征表征。兩個路徑的信息交互和指導(dǎo)使得整個網(wǎng)絡(luò)更加聚焦于動作信息在時間和通道所處的位置。本文方法在公共數(shù)據(jù)集上表現(xiàn)出良好的識別性能,在AVA2.2數(shù)據(jù)集上達(dá)到了28%的mAP精度,刷新了AVA2.2數(shù)據(jù)集目前最高的mAP精度。不同環(huán)境的實驗結(jié)果也表明了MRTP良好的魯棒性。

    (5)在未來的工作中,將從時序特征出發(fā),通過特征差分提取更為有效和顯式的時序信息表征,并繼續(xù)探索雙路徑網(wǎng)絡(luò)并行分支互相交互的可能性。

    猜你喜歡
    卷積維度動作
    基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
    淺論詩中“史”識的四個維度
    中華詩詞(2019年7期)2019-11-25 01:43:00
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    動作描寫要具體
    畫動作
    動作描寫不可少
    光的維度
    燈與照明(2016年4期)2016-06-05 09:01:45
    “五個維度”解有機(jī)化學(xué)推斷題
    非同一般的吃飯動作
    高唐县| 莱西市| 上犹县| 冕宁县| 天全县| 万全县| 安达市| 章丘市| 榕江县| 肃南| 台湾省| 屏东市| 克什克腾旗| 平江县| 牙克石市| 淮北市| 涟水县| 永修县| 兴安盟| 清徐县| 丰镇市| 伊通| 蒲城县| 华蓥市| 新宁县| 咸宁市| 繁昌县| 辉南县| 叶城县| 梧州市| 泗洪县| 太保市| 桐梓县| 寿光市| 香港 | 正定县| 临海市| 久治县| 姚安县| 高平市| 德保县|