付 燕,馬 鈺,葉 鷗
(西安科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,西安 710054)
視頻是人類社會(huì)活動(dòng)中最常用的信息載體,其中蘊(yùn)含了豐富的信息[1]。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展及數(shù)碼設(shè)備的普及,視頻數(shù)據(jù)增長(zhǎng)迅速,對(duì)視頻內(nèi)容的文本描述已成為一項(xiàng)艱難的人工工作。因此,如何通過(guò)計(jì)算機(jī)自動(dòng)提取視頻所表達(dá)的信息,已成為視頻描述領(lǐng)域的研究熱點(diǎn)。視頻描述是一種對(duì)視覺(jué)內(nèi)容高層語(yǔ)義理解的任務(wù),旨在實(shí)現(xiàn)對(duì)視覺(jué)內(nèi)容的高層語(yǔ)義認(rèn)知與自然表達(dá),涉及計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)、自然語(yǔ)義理解等研究領(lǐng)域[2]。視頻描述在視力缺陷人群的輔助、視頻檢索、智能人機(jī)交互及機(jī)器人開(kāi)發(fā)等方面都有廣闊的應(yīng)用前景[3]。
早期視頻描述主要分為基于模板[4-5]和基于檢索[6]這2種方法?;谀0宓姆椒ㄏ葯z測(cè)視頻中的物體、屬性以及物體關(guān)系等內(nèi)容,然后利用預(yù)定義的句子模板生成視頻的文本描述。但是這種方法受到句子模板的限制,生成的文本描述多樣性受限?;跈z索的方法采用信息檢索的方式生成文本描述。雖然這種方法能夠得到與人工描述密切相關(guān)的文本,但是所得到的語(yǔ)句依賴于數(shù)據(jù)庫(kù)的文本集合,并且不能生成新的文本描述。
近年來(lái),隨著深度學(xué)習(xí)的發(fā)展,受益于卷積神經(jīng)網(wǎng)絡(luò)[7](convolutional neural networks,CNN)在計(jì)算機(jī)視覺(jué)領(lǐng)域的發(fā)展,以及循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)在自然語(yǔ)言領(lǐng)域的進(jìn)步,基于CNN和RNN的組合方法已廣泛用于視頻描述中[8-14]。其中S2VT模型[10]受到學(xué)者們的廣泛關(guān)注。該模型的訓(xùn)練過(guò)程是端到端的,而且可以處理變長(zhǎng)輸入輸出并能學(xué)習(xí)輸入序列中的任意時(shí)間結(jié)構(gòu)。但是該模型忽略了視頻序列間的時(shí)序信息。為解決這個(gè)問(wèn)題,Zhang等[11]提出了一種任務(wù)驅(qū)動(dòng)的動(dòng)態(tài)融合方法,可以根據(jù)模型的狀態(tài)自適應(yīng)地選擇不同的融合模式,提升了視頻描述的準(zhǔn)確性;文獻(xiàn)[12]首次將注意力機(jī)制嵌入到視頻的文本生成描述中,可使視頻的文本生成模型在生成文字序列時(shí),能夠決定視頻特征的權(quán)值,提高了模型的性能;Li等[13]提出了一種基于殘余注意力的長(zhǎng)短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)方法。該模型不僅利用現(xiàn)有的注意力機(jī)制,還考慮了句子內(nèi)部信息的重要性;文獻(xiàn)[14]提出了一種基于共同注意力模型的遞歸神經(jīng)網(wǎng)絡(luò)。該模型整合了注意力機(jī)制對(duì)視覺(jué)和文本特征進(jìn)行了編碼,在一定程度上提升了視頻描述的正確性。但實(shí)驗(yàn)中發(fā)現(xiàn)以上研究方法仍存在一些問(wèn)題:①使用VGG(visual geometry group)等二維卷積神經(jīng)網(wǎng)絡(luò)提取視頻特征時(shí)只包含的視頻的空間信息,忽略了視頻序列之間的運(yùn)動(dòng)信息,且在提取細(xì)節(jié)特征時(shí)精度不高;②使用的語(yǔ)言模型結(jié)構(gòu)較為簡(jiǎn)單,網(wǎng)絡(luò)的性能還有提升的空間;③對(duì)視頻主題等對(duì)視頻內(nèi)容至關(guān)重要的視覺(jué)文本沒(méi)有加以利用。
針對(duì)上述問(wèn)題,提出一種融合深度網(wǎng)絡(luò)和視覺(jué)文本的視頻描述研究方法。為了增強(qiáng)視頻的細(xì)節(jié)信息,本文將通道注意力和空間注意力引入3D殘差模塊形成全新的深度網(wǎng)絡(luò)體系結(jié)構(gòu)提取視頻的時(shí)序信息和運(yùn)動(dòng)信息;除檢測(cè)物體的存在及其相對(duì)方向外,視頻主題是另一個(gè)重要信息,將其與模型結(jié)合使用以提高字幕生成系統(tǒng)的效率。
提出一種融合深度網(wǎng)絡(luò)和視覺(jué)文本的視頻描述模型。①首先在編碼階段,將注意力模塊與3D深度殘差網(wǎng)絡(luò)相結(jié)合,通過(guò)通道和空間兩個(gè)獨(dú)立維度的注意力模塊,提取視頻特征;②解碼階段利用雙層LSTM深度網(wǎng)絡(luò)的時(shí)序性特征,輸出表述視頻高層語(yǔ)義的文本描述;③為有效利用視覺(jué)文本信息豐富視頻文本生成的語(yǔ)義描述,利用基于神經(jīng)網(wǎng)絡(luò)的主題模型提取出視頻中的主題作為輔助信息融合進(jìn)模型中,實(shí)化視頻文本的生成描述,該方法的總體思路如圖1所示。
在早期的序列學(xué)習(xí)任務(wù)中,所有的輸入信息都被編碼成為固定長(zhǎng)度。隨著輸入序列長(zhǎng)度不斷增加,模型的效果越來(lái)越差[1]。注意力機(jī)制的引入能夠提升模型在序列學(xué)習(xí)任務(wù)上的性能,使得機(jī)器在處理視頻的時(shí)候賦予模型在視頻關(guān)鍵區(qū)域獲得更高的權(quán)重[15],為此,采用注意力機(jī)制來(lái)改進(jìn)深度殘差網(wǎng)絡(luò),該網(wǎng)絡(luò)能夠依據(jù)注意力機(jī)制來(lái)描述信息重要程度,加強(qiáng)特征映射表達(dá)能力,即關(guān)注重要特征和抑制不必要的特征,從而降低無(wú)關(guān)目標(biāo)與噪聲的影響,以提高模型生成文本描述的質(zhì)量。
圖1 融合深度網(wǎng)絡(luò)和視覺(jué)文本的視頻描述模型Fig.1 Video captioning model combining deep networks and visual texts
1.1.1 網(wǎng)絡(luò)架構(gòu)
注意力3D殘差網(wǎng)絡(luò)主體架構(gòu)是由注意力模塊和3D殘差塊相結(jié)合,構(gòu)成注意力3D殘差模塊單元,這有利于堆疊成深度模型來(lái)提高網(wǎng)絡(luò)性能。注意力3D殘差網(wǎng)絡(luò)是通過(guò)堆疊多個(gè)3D注意力殘差模塊構(gòu)建的,使用ResNet-34作為基本的網(wǎng)絡(luò)架構(gòu),避免了梯度消失的問(wèn)題,還可以加速網(wǎng)絡(luò)的收斂。3D ResNet-34網(wǎng)絡(luò)采用32個(gè)卷積層即16個(gè)注意力3D殘差模塊堆疊,所以將模塊數(shù)固定為16,每個(gè)3D注意力殘差模塊是通過(guò)向3D ResNets對(duì)應(yīng)模塊添加通道和空間注意力機(jī)制而生成的。3D卷積過(guò)程可以定義為
(1)
特征圖3D卷積后依次通過(guò)通道注意力模塊和空間注意力模塊,最后以相加的方法輸出,如圖2所示。給定一個(gè)中間特征圖F∈RC×H×W作為輸入,其中C表示通道數(shù),H和W分別表示特征圖的高度和寬度,依次計(jì)算出一維通道注意圖MC∈RC×1×1和二維空間注意圖MS∈R1×H×W。注意力過(guò)程可以表示為[15]
(2)
q″t=MS(q′t)?q′t
(3)
式中:?表示元素逐乘;q′t為通道注意力的輸出;q″t為最終細(xì)化后的輸出。為了進(jìn)一步加速和穩(wěn)定訓(xùn)練,在整個(gè)生成網(wǎng)絡(luò)上創(chuàng)建額外的跳躍連接,將輸入特征跳躍接入后續(xù)激活層,補(bǔ)償特征損失。
圖2 3D注意力殘差網(wǎng)絡(luò)整體架構(gòu)Fig.2 The overall architecture of the 3D attention residual network
1.1.2 注意力模塊
注意力模塊是通過(guò)在通道和空間兩個(gè)維度上進(jìn)行建立的。由于特征映射間存在信息關(guān)聯(lián),可以得到相應(yīng)的通道注意力映射。通過(guò)對(duì)中間特征圖F∈RC×H×W中的每個(gè)通道信號(hào)進(jìn)行加權(quán)來(lái)提高網(wǎng)絡(luò)的學(xué)習(xí)能力,通道注意力集中在給定輸入圖像的有意義部分。為了更好地計(jì)算通道注意力,需要降低輸入特征映射的空間維數(shù),通過(guò)平均池化的方法聯(lián)結(jié)空間信息,如圖3所示。
MLP表示多層感知器圖3 通道注意力機(jī)制示意圖Fig.3 The schematic diagram of channel attention mechanism
為有效捕獲通道注意圖,首先獲得每個(gè)通道上平均像素值來(lái)表示該通道,將平均像素值送入一個(gè)兩層的全連接層,最后通過(guò)一個(gè)sigmoid函數(shù)得到通道注意力映射。通道注意力公式為
(5)
式(5)中:σ和δ分別表示sigmoid函數(shù)和ReLU函數(shù);多層感知器(multi-layer perceptron,MLP)為兩層的全連接網(wǎng)絡(luò);W0和W1為MLP的權(quán)重。
與通道注意力不同,空間注意力能注意到有效信息部分的位置。利用特征圖內(nèi)部空間之間的關(guān)系來(lái)推斷空間注意力圖,圖4描繪了空間注意力圖的特定計(jì)算過(guò)程。
圖4 空間注意力機(jī)制示意圖Fig.4 The schematic diagram of spatial attention mechanism
將通道注意力模塊輸出的特征圖作為本模塊的輸入特征圖,為有效計(jì)算空間注意力特征圖,首先擠壓特征圖的通道信息以生成二維空間描述符,這是通過(guò)使用全局平均池化(Avgpool)實(shí)現(xiàn)的,然后使用卷積層來(lái)推斷空間注意力圖??臻g注意力表達(dá)式為
MS(F)=σ{f7×7[Avgpool(F′)]}=
σ[f7×7(F′)]
(6)
式(6)中:σ表示sigmoid函數(shù);f7×7為內(nèi)核大小為7×7的卷積運(yùn)算。
為有效描述視頻,需要從視頻中提取盡可能多的信息,除檢測(cè)視頻中對(duì)象的存在,視頻的主題也是重要信息之一。采用文獻(xiàn)[16]的方法提取出視頻中的主題作為視覺(jué)文本融合進(jìn)模型中。文獻(xiàn)[16]通過(guò)從圖像中存在的各種語(yǔ)義相關(guān)對(duì)象中獲取線索,將圖像與主題向量相關(guān)聯(lián),建立基于神經(jīng)網(wǎng)絡(luò)的主題模型來(lái)處理提取的圖像特征并生成主題向量,如圖5所示。因此,將每個(gè)視頻均勻采樣10個(gè)視頻幀,將其輸入到在MSCOCO數(shù)據(jù)集上預(yù)訓(xùn)練好的基于神經(jīng)網(wǎng)絡(luò)的主題模型中,將其重復(fù)的詞語(yǔ)刪去并保留重復(fù)率高的主題詞語(yǔ)作為視覺(jué)文本將其融入進(jìn)模型中。
圖5 視頻中提取主題原理圖Fig.5 Extract the theme schematic from the video
大多數(shù)語(yǔ)言模型是以LSTM為基礎(chǔ)進(jìn)行解碼的,將視頻特征{x1,x2,…,xn}作為L(zhǎng)STM的輸入。以第t幀為例,激活記憶單元,獲得第t幀的LSTM單元各個(gè)狀態(tài)的值,可表示為
it=σ(Wyiyi+Whiht-1+bi)
(7)
ft=σ(Wyfyi+Whfht-1+bf)
(8)
ot=σ(Wyoyi+Whoht-1+bo)
(9)
(10)
(11)
ht=ot×tanhCt
(12)
本文模型的解碼器一共包含兩層LSTM,第1層LSTM通過(guò)隱藏狀態(tài)對(duì)視頻的特征和詞向量進(jìn)行建模,其輸出與視覺(jué)文本進(jìn)行融合作為第2層LSTM的輸入,第2層LSTM通過(guò)學(xué)習(xí)視頻幀序列與詞向量序列之間的映射關(guān)系,完成視覺(jué)特征和文本的關(guān)聯(lián)建模。在解碼階段,將視頻特征x={x1,x2,…,xn}輸入到LSTM單元中,其輸出經(jīng)過(guò)softmax層(包含權(quán)重值ws和偏差bs)生成下一個(gè)時(shí)間節(jié)點(diǎn)上的單詞y={y1,y2,…,ym},通過(guò)隱藏狀態(tài)構(gòu)造概率分布,其計(jì)算公式為
P(y1,y2,…,ym|x1,x2,…,xn)=
(13)
式(13)中:p(yt|hn+t-1,yt-1)為整個(gè)單詞表在softmax層對(duì)應(yīng)的輸出概率,其中hn+t-1和yt-1是根據(jù)LSTM計(jì)算得出的。
使用“SOS”和“EOS”標(biāo)記作為L(zhǎng)STM生成單詞開(kāi)始詞和結(jié)束詞,通過(guò)式(14)來(lái)調(diào)整模型參數(shù)。
(14)
式(14)中:θ泛指LSTM內(nèi)部參數(shù)。通過(guò)第2層LSTM的softmax函數(shù)選取模型每一時(shí)刻的輸出中概率最大的詞連接成為文本描述,作為輸出結(jié)果。
為驗(yàn)證算法的準(zhǔn)確性,所設(shè)計(jì)的實(shí)驗(yàn)包括基準(zhǔn)數(shù)據(jù)集與監(jiān)控場(chǎng)景下的視頻語(yǔ)義描述。選擇MSVD和MSR-VTT作為基準(zhǔn)數(shù)據(jù)集來(lái)驗(yàn)證算法的準(zhǔn)確性,通過(guò)將本文算法與文獻(xiàn)[8]、S2VT[10]、TDDF(task driven dynamic fusion)[11]、Res-ATT[13]方法進(jìn)行對(duì)比來(lái)驗(yàn)證。
分別在煤礦井下監(jiān)控和兩個(gè)公共數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)。將煤礦井下監(jiān)控視頻制作成大小統(tǒng)一的視頻數(shù)據(jù),人工對(duì)視頻標(biāo)注標(biāo)簽,每個(gè)視頻時(shí)長(zhǎng)在10 s,對(duì)每個(gè)視頻生成3句場(chǎng)景描述的句子。目前在視頻描述數(shù)據(jù)中公開(kāi)的有MSR-VTT(microsoft research-video to text)數(shù)據(jù)庫(kù)和MSVD(microsoft video description corpus)數(shù)據(jù)庫(kù)。MSR-VTT數(shù)據(jù)集是從商業(yè)視頻搜索引擎收集的,包含10 000個(gè)視頻片段,被分為訓(xùn)練,驗(yàn)證和測(cè)試集3部分。MSVD包含1 970段YouTube視頻片段,視頻主要來(lái)自于日常場(chǎng)景,每個(gè)視頻時(shí)長(zhǎng)在10~25 s,每段視頻被標(biāo)注了大概40條英文句子。隨機(jī)選擇1 200個(gè)視頻作為訓(xùn)練集,100個(gè)視頻作為驗(yàn)證集,670個(gè)視頻作為測(cè)試集。
使用ResNet-34作為基本的網(wǎng)絡(luò)架構(gòu),輸入為RGB通道彩色視頻幀并隨機(jī)裁剪成128×128的視頻幀塊,批量大小設(shè)定為16。使用pytorch訓(xùn)練模型,采用cuda 與cuDNN進(jìn)行加速。實(shí)驗(yàn)采用AdaMax優(yōu)化器訓(xùn)練3D注意力殘差網(wǎng)絡(luò),在優(yōu)化其中將模型中的β1和β2分別設(shè)置為0.9和0.999,開(kāi)始學(xué)習(xí)率設(shè)置為0.001,隨著訓(xùn)練過(guò)程不斷降低學(xué)習(xí)率。
選擇目前主流的試驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)BLEU(bilingual evaluation understudy)[17]和METEOR(metric for evaluation of translation with explicit ordering )[18]。BLEU通常使用在機(jī)器翻譯中,有多種變體,與人類判斷有較好的相關(guān)性。該評(píng)價(jià)的思想是以獨(dú)立于位置的方法,來(lái)衡量和候選短語(yǔ)n-gram之間的相似性。METEOR是基于召回率提出的,是對(duì)候選句子和參考句子之間位置對(duì)應(yīng)關(guān)系的評(píng)估。基于召回率的標(biāo)準(zhǔn)與基于精度的標(biāo)準(zhǔn)相比,其結(jié)果與人工判斷的結(jié)果具有較高的相關(guān)性。
2.3.1 在公共數(shù)據(jù)集下
表1為2個(gè)公共數(shù)據(jù)集下使用不同提取特征網(wǎng)絡(luò)的比較結(jié)果。結(jié)果表明,使用單通道注意子模塊的準(zhǔn)確性要優(yōu)于使用單個(gè)空間注意子模塊,并且兩者都比原始網(wǎng)絡(luò)高。同時(shí)添加通道注意圖和空間注意圖可以進(jìn)一步提高性能。這是因?yàn)樽⒁饬C(jī)制在長(zhǎng)范圍相關(guān)性上的優(yōu)勢(shì),將注意力模塊與深度殘差網(wǎng)絡(luò)相結(jié)合,對(duì)于輸入的特征圖而言,分別進(jìn)行通道維度和空間維度的注意力模塊操作,可以得到精細(xì)化的特征輸出圖。
從表2可以看出,在MSVD和MSR-VTT數(shù)據(jù)集中,模型在BLEU-4和METEOR評(píng)價(jià)標(biāo)準(zhǔn)上都得到了較高的分?jǐn)?shù),評(píng)價(jià)標(biāo)準(zhǔn)取得的分?jǐn)?shù)越高,說(shuō)明該模型越好。這是因?yàn)橛糜谔卣魈崛〉?D注意力殘差網(wǎng)絡(luò),通過(guò)一維通道注意力與二維空間注意力增強(qiáng)視頻特征映射,包含了豐富的時(shí)序特征和運(yùn)動(dòng)特征,降低無(wú)關(guān)目標(biāo)與噪聲的影響,增加了相似視頻的區(qū)分度。豐富的視頻主題信息作為視頻的重要組成部分,將其作為補(bǔ)充信息融入解碼階段,進(jìn)一步優(yōu)化了模型的描述效果。
表1 MSVD、MSR-VTT下不同提取特征網(wǎng)絡(luò)模型的對(duì)比Table 1 Comparison of different extracted feature network models under MSVD,MSR-VTT
表2 MSVD、MSR-VTT數(shù)據(jù)集實(shí)驗(yàn)結(jié)果比較Table 2 Comparison of experimental results of MSVD,MSR-VTT data set
本文模型對(duì)數(shù)據(jù)集的3組視頻文本描述結(jié)果如圖6所示。選取的視頻主要來(lái)源于MSVD數(shù)據(jù)集。由圖6可知,本文模型在公共數(shù)據(jù)集下除了能夠比較準(zhǔn)確描述出視頻的內(nèi)容外,還能在語(yǔ)法結(jié)構(gòu)上突出語(yǔ)言的豐富性,這體現(xiàn)了本文模型較好的語(yǔ)言效果。
圖6 公共數(shù)據(jù)集下的視頻描述Fig.6 The video description under the public data set
2.3.2 在煤礦監(jiān)控視頻數(shù)據(jù)集下
在提取煤礦井下視頻特征時(shí),分別使用3D殘差網(wǎng)絡(luò)、3D殘差通道注意力網(wǎng)絡(luò)、3D殘差空間注意力網(wǎng)絡(luò)和本文模型相比。從表3可以看出,在煤礦井下監(jiān)控視頻中,本文模型較傳統(tǒng)的3D深度殘差網(wǎng)絡(luò)模型,在BLEU評(píng)價(jià)指標(biāo)下提升了2.1%,METEOR指標(biāo)提升了2%。這是因?yàn)閷⒆⒁饬δK與深度殘差網(wǎng)絡(luò)相結(jié)合,對(duì)于輸入的特征圖而言,分別進(jìn)行通道維度和空間維度的注意力模塊操作,最終得到精細(xì)化的特征輸出圖,該模塊不會(huì)改變特征圖的大小,但是能夠自適應(yīng)調(diào)整通道上特征的權(quán)重和捕獲空間維度上像素之間的相關(guān)性,從而降低無(wú)關(guān)目標(biāo)與噪聲的影響,更有利于從煤礦視頻中提取特征。
從表4可知,在BLEU評(píng)價(jià)指標(biāo)下,本文模型較S2VT方法提升6.4%,較文獻(xiàn)[8]方法提升了3.9%。此外,在METEOR評(píng)價(jià)指標(biāo)上也存在著顯著的提升。由實(shí)驗(yàn)結(jié)果可知,本文方法在煤礦井下監(jiān)控視頻中更具競(jìng)爭(zhēng)力,各指標(biāo)都有一定的提升。
表3 煤礦數(shù)據(jù)集下不同提取特征網(wǎng)絡(luò)模型的對(duì)比Table 3 Comparison of different extracted feature network models under coal mine data sets
表4 煤礦井下監(jiān)控視頻實(shí)驗(yàn)結(jié)果比較Table 4 Comparison of experimental results of monitoring video in coal mine
從圖7可以看出,煤礦井下監(jiān)控視頻通常含有字幕信息,這對(duì)于準(zhǔn)確描述視頻信息起著至關(guān)重要的作用。生成的描述結(jié)果表明,本文模型能夠較準(zhǔn)確地描述視頻中物體之間的關(guān)系。本文方法通過(guò)對(duì)語(yǔ)言模型進(jìn)行補(bǔ)充,將LSTM語(yǔ)言模型和視頻提取的字幕相組合生成描述,極大豐富了視頻的語(yǔ)義,為以后檢索煤礦井下監(jiān)控視頻提供了一定的幫助。
圖7 煤礦井下監(jiān)控視頻描述Fig.7 Video description of underground monitoring in coal mine
將深度網(wǎng)絡(luò)和視覺(jué)文本融合起來(lái)對(duì)視頻進(jìn)行試述,得到以下結(jié)論。
(1)本文方法在提取視頻特征時(shí),提出一種新的網(wǎng)絡(luò)體系:注意力3D殘差網(wǎng)絡(luò),該網(wǎng)絡(luò)通過(guò)一維通道注意力與二維空間注意力增強(qiáng)視頻特征映射,降低無(wú)關(guān)目標(biāo)與噪聲的影響,提高模型生成描述的質(zhì)量。分別在煤礦井下監(jiān)控視頻集和兩個(gè)公共數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),結(jié)果表明,使用注意力3D殘差網(wǎng)絡(luò)描述視頻比較傳統(tǒng)的3D深度殘差網(wǎng)絡(luò)模型更好。
(2)為有效利用視覺(jué)文本信息豐富視頻生成的語(yǔ)義描述,利用基于神經(jīng)網(wǎng)絡(luò)的主題模型將代表視頻主題的詞語(yǔ)作為輔助信息融合進(jìn)模型中,通過(guò)本文方法與之前4個(gè)基線模型進(jìn)行對(duì)比,結(jié)果顯示了本文模型在BLEU和METEOR這兩個(gè)指標(biāo)上的得分都有所提高,能夠更加準(zhǔn)確的利用自然語(yǔ)言描述視頻高層語(yǔ)義信息。