北方工業(yè)大學(xué)信息學(xué)院 蘇清松
針對(duì)視頻信息中空間域和時(shí)間域上特征提取存在運(yùn)算成本高和時(shí)序信息不明顯的問題,本文使用基于注意力機(jī)制的殘差網(wǎng)絡(luò)和雙向LSTM復(fù)合模型,將視頻提取出的關(guān)鍵幀輸入到嵌入注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)和雙向LSTM網(wǎng)絡(luò)結(jié)構(gòu)中分別提取視頻的空間信息和時(shí)序信息,將本網(wǎng)絡(luò)模型進(jìn)行實(shí)驗(yàn)驗(yàn)證準(zhǔn)確率有了一定的提升。
隨著互聯(lián)網(wǎng)和自媒體的發(fā)展,視頻文件逐漸成為了人們?nèi)粘I钪械闹髁餍畔⑤d體。由于之前對(duì)文本和圖片數(shù)據(jù)研究的積累,對(duì)該類型數(shù)據(jù)已有較為成熟和完善的分類檢索方法,人們的研究方向也逐漸轉(zhuǎn)移到視頻領(lǐng)域[1]。面對(duì)數(shù)量巨大的視頻信息,如何高效檢索出用戶需要的內(nèi)容成為信息檢索領(lǐng)域研究的重要問題。注意力機(jī)制從模擬生物學(xué)的角度出發(fā),可以根據(jù)任務(wù)需求專注于輸入或特征子集,自動(dòng)地學(xué)習(xí)到待處理信息中比較重要的部分。Sanghyun Woo等[2]提出CBAM,通過通道注意力模塊和空間注意力模塊依次對(duì)輸入特征進(jìn)行處理后獲得精煉特征。在深度學(xué)習(xí)領(lǐng)域,循環(huán)神經(jīng)網(wǎng)絡(luò)經(jīng)常用來學(xué)習(xí)序列的時(shí)序信息,因此被廣泛應(yīng)用到自然語言處理等領(lǐng)域。而長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)是RNN中最具有代表性的結(jié)構(gòu),Wang等[3]人提出了3D CNN與LSTM相結(jié)合的網(wǎng)絡(luò),同時(shí)對(duì)原始視頻進(jìn)行顯著性檢測,有效降低了網(wǎng)絡(luò)參數(shù)和訓(xùn)練的難度。Tran D等[4]在二維CNN的基礎(chǔ)上融合時(shí)間信息實(shí)現(xiàn)了3D CNN,該方法收斂較慢且相對(duì)使用更多的資源;Donahue J等[5]提出了基于CNN和LSTM的模型LRCN,該模型分別使用CNN和LSTM提取空間信息和時(shí)間信息,然后使用Softmax計(jì)算得出預(yù)測值,該方法準(zhǔn)確率相對(duì)較低。
針對(duì)以上出現(xiàn)的問題,本文卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上嵌入SENet模塊,為視頻不同通道賦予不同的權(quán)重,隨后輸入到雙向LSTM網(wǎng)絡(luò)中提取時(shí)序信息,從而提升視頻特征的表示和檢索能力。
SENet是一種通道注意力網(wǎng)絡(luò)模型,通過Sequeeze與Excitation操作得到不同通道的權(quán)重信息,進(jìn)而對(duì)與目標(biāo)相關(guān)性比較小的通道進(jìn)行抑制,同時(shí)對(duì)與目標(biāo)相關(guān)性大的通道信息賦予更大的權(quán)重。整個(gè)注意力操作通過學(xué)習(xí)得到各個(gè)通道的權(quán)重系數(shù)并進(jìn)行加權(quán)處理,從而使得模型對(duì)各個(gè)通道的特征信息有更好的表達(dá)能力。
LSTM是一種具有記憶功能的神經(jīng)網(wǎng)絡(luò),每個(gè)單元由遺忘門、輸入門、輸出門和兩個(gè)狀態(tài)信息(隱藏狀態(tài)和細(xì)胞狀態(tài))組成。其中遺忘門決定記憶單元中的上一時(shí)刻有多少信息被保留到當(dāng)前時(shí)刻,在反向傳播時(shí)可以防止梯度彌散和梯度爆炸,輸入門的作用是決定有多少信息輸入記憶單元,輸出門的作用是決定存儲(chǔ)單元的輸出信息。所以LSTM相比于傳統(tǒng)RNN最大的特點(diǎn)是使用門結(jié)構(gòu)對(duì)視頻信息和記憶單元之間的交互內(nèi)容信息進(jìn)行控制。
本文在ResNet50網(wǎng)絡(luò)中嵌入SE模塊對(duì)輸入的視頻幀進(jìn)行空間特征提取,并對(duì)注意力模塊的嵌入位置在進(jìn)行對(duì)比試驗(yàn)。其中,方法(1)不使用注意力模塊;方法(2)在每個(gè)殘差結(jié)構(gòu)中使用注意力模塊;方法(3)在ResNet50的第1至第5組卷積后使用注意力模塊;方法(4)在第2至第5組卷積后使用注意力模塊。實(shí)驗(yàn)結(jié)果如表1所示,由于ResNet50網(wǎng)絡(luò)中第一組卷積相較于后四組卷積能夠處理視頻圖像中更為原始的底層信息,所以本文采用方法(4)且相較于其他方法在準(zhǔn)確率上有了提升。
表1 注意力模塊效果驗(yàn)證Tab.1 Attention module effect verification
本文采用雙向LSTM進(jìn)行視頻時(shí)序特征提取,在前向傳播中將特征信息輸入LSTM,反向傳播中將特征信息以反向形式輸入LSTM模型,每層LSTM網(wǎng)絡(luò)對(duì)應(yīng)輸出一個(gè)隱藏狀態(tài)信息,模型參數(shù)由反向傳播進(jìn)行更新,該模塊可以提取視頻信息的前后時(shí)序關(guān)系并進(jìn)行輸出。整體處理流程如圖1所示。
圖1 本文模型網(wǎng)絡(luò)流程圖Fig.1 This paper models the network flow chart
在卷積神經(jīng)網(wǎng)絡(luò)模塊中,conv1_x采用了64個(gè)7×7大小的卷積核,步長為2,池化層采用卷積核為3的最大池化,步長為2。SE_conv2_x采用3組64個(gè)1×1的卷積核、64個(gè)3×3的卷積核和256個(gè)1×1的卷積核,并且在每組之后添加一組Attention模塊,其中Attention模塊由3個(gè)卷積核為1的最大池化、兩個(gè)全連接層、ReLU激活函數(shù)和Sigmoid激活函數(shù)組成,通過加入Attention模塊給提取的通道特征給予不同的權(quán)重,提升特征表達(dá)的能力,從而提升視頻檢索的準(zhǔn)確率。SE_conv3_x采用4組128個(gè)1×1的卷積核、128個(gè)3×3的卷積核和512個(gè)1×1的卷積核,并且在每組卷積之后加入和SE_conv2_x相同的Attention模塊。SE_conv4_x采用6組256個(gè)1×1的卷積核、256個(gè)3×3的卷積核和1024個(gè)1×1的卷積核,并且在每組卷積之后加入和SE_conv2_x相同的Attention模塊。
SE_conv5_x采用3組512個(gè)1×1的卷積核、512個(gè)3×3的卷積核和2048個(gè)1×1的卷積核,并且在每組卷積之后加入和SE_conv2_x相同的Attention模塊。將上一模塊的輸出進(jìn)行Dropout處理后作為LSTM的輸入進(jìn)行處理,根據(jù)LSTM結(jié)構(gòu)調(diào)整輸入序列完成前向傳播過程,最后經(jīng)過輸出單元將LSTM模塊中的隱層進(jìn)行輸出。
本文實(shí)驗(yàn)是在UCF-101數(shù)據(jù)集上進(jìn)行的,該數(shù)據(jù)集全部從YouTube上收集,包含101個(gè)類別共13320個(gè)視頻片段。
本文實(shí)驗(yàn)環(huán)境為:處理器:Intel Core i7-6700HQ,顯卡:GTX960M,內(nèi)存:16G,操作系統(tǒng):Windows10,編譯平臺(tái):Python、PyTorch1.2.0。
(1)數(shù)據(jù)預(yù)處理。本文首先對(duì)UCF-101數(shù)據(jù)集進(jìn)行訓(xùn)練集和測試集的劃分,然后進(jìn)行關(guān)鍵幀的提取工作。其中訓(xùn)練集和測試集的比例為4∶1并對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)打亂處理,有利于提升模型的健壯性,關(guān)鍵幀采用隨機(jī)選取的方式并以大小為224×224的圖像作為輸入。
(2)模型訓(xùn)練。本文提取空間特征是選用嵌入注意力機(jī)制的ResNet50網(wǎng)絡(luò),移除最后的全連接層和全局平均池化層。模型的訓(xùn)練過程總共300個(gè)epoch,batch_size為32,優(yōu)化器使用Adam,dropout為0.4,學(xué)習(xí)率為0.0001。
(3)參數(shù)優(yōu)化。訓(xùn)練過程中batch_size、epoch、dropout和網(wǎng)絡(luò)深度對(duì)準(zhǔn)確率影響較大。Batch_size越大,輸入神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)量越多,模型的擬合能力越強(qiáng),當(dāng)超過一定值,模型的預(yù)測效果會(huì)向差的方向變化。使用mAP對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估。其中不同神經(jīng)網(wǎng)絡(luò)層數(shù)下使用不同的Dropout進(jìn)行訓(xùn)練的結(jié)果如圖2所示。
圖2 不同網(wǎng)絡(luò)層數(shù)在dropout變化下準(zhǔn)確率變化情況Fig.2 The accuracy changes under dropout changes at different network layers
可以看出,相同Dropout條件下,mAP通常會(huì)隨網(wǎng)絡(luò)層數(shù)的加深而增大,因?yàn)榫矸e神經(jīng)網(wǎng)絡(luò)的層數(shù)會(huì)影響視頻的特征提取精度;同一層數(shù)卷積神經(jīng)網(wǎng)絡(luò)模型下,mAP值隨著Dropout的增大而增大,當(dāng)?shù)竭_(dá)一定大小后,隨著mAP的增大反而會(huì)減小。其中,在進(jìn)行的對(duì)比試驗(yàn)中,當(dāng)卷積神經(jīng)網(wǎng)絡(luò)層數(shù)為50且Dropout=0.4時(shí),mAP得到最大值0.94。
最后為了進(jìn)一步驗(yàn)證本文工作,與之前的方法進(jìn)行對(duì)比結(jié)果如表2所示,可以看出,本文在UCF-101數(shù)據(jù)集具有較高的準(zhǔn)確度,證明了本文算法的可行性。
表2 不同算法在UCF-101數(shù)據(jù)集準(zhǔn)確率對(duì)比Tab.2 Comparison of accuracy of different algorithms in UCF-101 data set
針對(duì)不同視頻幀對(duì)表達(dá)視頻內(nèi)容的貢獻(xiàn)度和得到的視頻特征不能充分表示該視頻的特征信息和視頻時(shí)序信息的特點(diǎn),本文采用基于注意力機(jī)制的視頻檢索方法,通過卷積神經(jīng)網(wǎng)絡(luò)融合注意力模塊進(jìn)行視頻空間特征信息提取、雙向LSTM實(shí)現(xiàn)視頻時(shí)序特征提取,可以自動(dòng)為更重要的信息賦予更高的權(quán)重,提高模型的魯棒性和對(duì)視頻內(nèi)容的表達(dá)能力,減少過擬合程度,實(shí)現(xiàn)精準(zhǔn)識(shí)別。在UCF-101數(shù)據(jù)集上進(jìn)行訓(xùn)練,完成使用不同網(wǎng)絡(luò)層數(shù)進(jìn)行試驗(yàn)效果對(duì)比工作,證明了將注意力嵌入卷積神經(jīng)網(wǎng)絡(luò)獲取的語義特征輸入到LSTM中使得網(wǎng)絡(luò)整體性能得到提升,同時(shí)準(zhǔn)確率也得到了提升。