董柏巖,王樹祺,金鑫
(1.北京電子科技學(xué)院,北京 100070;2.國家開發(fā)投資集團(tuán)有限公司,北京 100034)
通訊技術(shù)和互聯(lián)網(wǎng)技術(shù)的快速發(fā)展改變了人們生活的方方面面,人們已習(xí)慣于拍攝各種內(nèi)容豐富的視頻記錄和分享生活,便攜式拍攝設(shè)備和社交媒體平臺(tái)的推廣則使互聯(lián)網(wǎng)上的視頻數(shù)量呈現(xiàn)了爆炸式的增長。然而,處理這些海量的視頻需要花費(fèi)巨量的人力物力資源,為了緩解因視頻數(shù)量增長而不斷加大的數(shù)據(jù)處理壓力,學(xué)術(shù)界開始研究視頻精彩集錦生成技術(shù)。視頻精彩集錦生成技術(shù)的目的是從一段完整的視頻中自動(dòng)選擇最具有吸引力、最讓人們感興趣的一部分。這種技術(shù)一方面可以節(jié)省人們觀看視頻的時(shí)間,提高觀看感受;另一方面使視頻平臺(tái)可以通過推薦精彩鏡頭來提高視頻的吸引力,引導(dǎo)他人觀看完整視頻。因此,視頻精彩集錦生成技術(shù)在多個(gè)領(lǐng)域均有著重要的應(yīng)用價(jià)值。
最早的關(guān)于視頻精彩集錦生成技術(shù)研究集中在體育視頻的剪輯[1-4],近年來,研究的主題更加豐富,研究者們開始研究互聯(lián)網(wǎng)視頻[5]和第一人稱視頻[6],提出了許多新穎的視頻精彩集錦生成方法。雖然研究視頻的主題有所拓展,但這些方法大都只能應(yīng)用于特定領(lǐng)域,即可以使用這些方法的視頻大都有著相同的主題,如足球、滑雪等。這說明對不同主題的視頻,“精彩”的定義也不相同。
現(xiàn)有的視頻精彩集錦生成方法主要遵循兩種策略。第一種策略將視頻精彩集錦生成視為一項(xiàng)有監(jiān)督學(xué)習(xí)任務(wù)[5-7]。人們對沒有經(jīng)過剪輯的視頻進(jìn)行人工標(biāo)注,標(biāo)記視頻的精彩片段作為訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練,使視頻中的精彩部分獲得更高的分?jǐn)?shù)。雖然按這種方式設(shè)計(jì)的視頻精彩集錦生成方法具有較好的性能,可以良好的識(shí)別視頻的精彩片段,但這種方法工作量大,且難以拓展。第二種策略將視頻精彩集錦生成視為弱監(jiān)督或無監(jiān)督的識(shí)別任務(wù)[8-10]。給定一特定領(lǐng)域的視頻,視頻精彩集錦生成方法會(huì)發(fā)現(xiàn)在訓(xùn)練樣本中經(jīng)常出現(xiàn)的內(nèi)容,并學(xué)會(huì)在同一領(lǐng)域的新視頻中檢測這些片段作為精彩集錦。這種方法在監(jiān)督方面具有可拓展性,能夠利用視頻時(shí)長等信息對精彩片段進(jìn)行檢測,缺點(diǎn)是辨別力不強(qiáng),即樣本之間的重復(fù)并不代表片段的精彩程度高。兩種策略各有優(yōu)劣,研究者們所提出的視頻精彩集錦生成方法大都屬于這兩種策略。
本文后面章節(jié)將分別介紹基于有監(jiān)督學(xué)習(xí)和無監(jiān)督/弱監(jiān)督學(xué)習(xí)的視頻精彩集錦生成方法,并分析這些方法的優(yōu)劣之處,最后介紹視頻精彩集錦生成技術(shù)的應(yīng)用價(jià)值與意義。
有監(jiān)督學(xué)習(xí)指通過已有的訓(xùn)練樣本去訓(xùn)練得到一個(gè)最優(yōu)模型,再利用這個(gè)模型將所有的輸入映射為相應(yīng)的輸出。對于視頻精彩集錦生成任務(wù)而言,訓(xùn)練樣本即視頻和人工標(biāo)注的視頻精彩片段,標(biāo)注好的精彩片段比視頻的其他片段有著更高的分?jǐn)?shù),在排序中排名靠前。有監(jiān)督的視頻精彩集錦生成方法是數(shù)據(jù)驅(qū)動(dòng)的,因此它們的性能高度依賴于人類標(biāo)記的訓(xùn)練數(shù)據(jù)。一般來說,基于有監(jiān)督學(xué)習(xí)的視頻精彩集錦生成技術(shù)有著較好的性能,缺點(diǎn)是由于性能高度依賴于訓(xùn)練數(shù)據(jù),導(dǎo)致方法的拓展性、通用性不強(qiáng),且生成訓(xùn)練數(shù)據(jù)需要大量的時(shí)間和精力。
早期的有監(jiān)督學(xué)習(xí)方法利用了視頻的視聽特征[1,12]和視覺語義[11]。Rui等[1]研究了棒球比賽的精彩集錦生成問題,并提出了一種僅使用音頻特征進(jìn)行精彩片段檢測的方法。使用的音頻特征包括了能量相關(guān)特征、音素級特征、信息復(fù)雜性特征和韻律特征等。這些特征被設(shè)計(jì)用來解決不同的問題,如使用音素級特征中的梅爾頻率倒譜系數(shù)來分辨人類語音。由于僅使用了音頻特征,這種方法所需的計(jì)算力較少,即使在本地機(jī)頂盒上也可以進(jìn)行集錦的生成。Rui等假設(shè)棒球比賽的精彩部分在投球和擊球之后且播音員激動(dòng)的解說高度相關(guān),因此提出的精彩集錦生成算法先檢測人類興奮時(shí)的語音和棒球擊球聲,然后智能地融合它們以生成最終的精彩集錦。由于棒球比賽過程中包含了多種噪音,Rui等還開發(fā)了噪聲環(huán)境下魯棒的語音端點(diǎn)檢測技術(shù),并將支持向量機(jī)應(yīng)用于語音分類。算法流程圖見圖1。
圖1 Rui等提出的棒球比賽集錦生成算法流程圖
而最新的方法則基于深度學(xué)習(xí)構(gòu)建視頻精彩集錦生成模型[6,13],這些模型訓(xùn)練了多層神經(jīng)網(wǎng)絡(luò)來預(yù)測輸入視頻片段的精彩程度。模型的輸入是視頻片段的緊湊表示(如視頻幀經(jīng)過卷積得到的視覺特征),輸出是一個(gè)標(biāo)量值,以分?jǐn)?shù)的形式表示,代表著輸入視頻的精彩程度。訓(xùn)練時(shí),通過排序損失函數(shù)對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使視頻精彩部分的得分高于其他部分的得分。在測試階段,經(jīng)過訓(xùn)練的模型可以預(yù)測任何輸入視頻的精彩程度。
2.2.1 基于雙流神經(jīng)網(wǎng)絡(luò)的方法
Yao等[6]研究了第一人稱視頻的精彩集錦生成問題,提出了一種成對深度排名模型,該模型采用深度學(xué)習(xí)技術(shù)來學(xué)習(xí)視頻精彩片段和非精彩片段之間的關(guān)系。Yao等的精彩集錦生成方法流程如下,首先將輸入視頻分割為一組片段,每個(gè)視頻片段被分解為空間和時(shí)間流,空間流以幀的形式出現(xiàn),而時(shí)間流以視頻片段的格式表示,一種用于精彩鏡頭預(yù)測的雙流深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)被設(shè)計(jì)并用于空間流和時(shí)間流。這兩個(gè)分量的輸出通過后期融合進(jìn)行組合,作為每個(gè)視頻片段的精彩程度分?jǐn)?shù)。分?jǐn)?shù)高的片段就是原視頻中的精彩部分,根據(jù)精彩分?jǐn)?shù)便可以生成視頻的精彩集錦。方法框架如圖2所示。Yao等還構(gòu)建了一個(gè)新的數(shù)據(jù)集,內(nèi)容包括了15個(gè)體育相關(guān)主題,每一主題有大約40個(gè)視頻,視頻長度在2到15分鐘之間,視頻總時(shí)長為100小時(shí)。視頻被分割為5秒的片段,并由12名研究人員進(jìn)行了標(biāo)注。
圖2 Yao等提出的方法框架圖
2.2.2 基于三維時(shí)空注意力網(wǎng)絡(luò)的方法
Jiao等[13]認(rèn)為現(xiàn)有的大多數(shù)視頻精彩集錦生成方法都是從整個(gè)視頻片段中提取特征,而不考慮局部特征在時(shí)間和空間上的差異。在時(shí)間范圍上,并非所有的幀都值得觀看,而在空間范圍上,并非每個(gè)幀的所有區(qū)域都是精彩的。為了解決上述問題,Jiao等提出了一種新的三維時(shí)空注意力模型,該模型可以自動(dòng)定位視頻中的關(guān)鍵元素。具體地說,提出的注意模型沿著視頻片段的空間和時(shí)間維度產(chǎn)生局部區(qū)域的注意權(quán)重。視頻中關(guān)鍵元素的區(qū)域?qū)⑼ㄟ^大權(quán)重得到加強(qiáng)。因此,可以更有效的生成視頻精彩集錦。Jiao等提出的基于三維時(shí)空注意力模型的深度排序神經(jīng)網(wǎng)絡(luò)如圖3所示,包括三個(gè)部分:特征模塊、注意模塊和排序模塊。輸入是一個(gè)原始視頻片段。注意模塊的功能是在空間和時(shí)間維度上同時(shí)選擇重要的局部區(qū)域。然后排名模塊預(yù)測最精彩片段的分?jǐn)?shù),獲得視頻的精彩程度曲線。
圖3 Jiao等提出的深度排序神經(jīng)網(wǎng)絡(luò)流程圖
無監(jiān)督學(xué)習(xí)訓(xùn)練樣本的標(biāo)記信息未知,目標(biāo)是通過對無標(biāo)記訓(xùn)練樣本的學(xué)習(xí)來揭示數(shù)據(jù)的內(nèi)在性質(zhì)及規(guī)律,為進(jìn)一步的數(shù)據(jù)分析提供基礎(chǔ)。弱監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)類似,但使用的訓(xùn)練數(shù)據(jù)的標(biāo)注并不完全。
基于無監(jiān)督/弱監(jiān)督學(xué)習(xí)的視頻精彩集錦生成技術(shù)通常是針對特定領(lǐng)域的,并基于公共性分析的思想,即在大量未標(biāo)記的視覺數(shù)據(jù)中尋找低水平的視覺相關(guān)性或推斷視頻突出顯示的公共特征。Chu等[14]發(fā)現(xiàn),給定一組擁有同一主題的視頻,重要的視覺概念往往會(huì)在不同的視頻中反復(fù)出現(xiàn)。因此,視覺共現(xiàn)的頻率被用來衡量視頻片段的重要性。盡管這種方法的訓(xùn)練數(shù)據(jù)易于收集和拓展,但缺乏基本的真值標(biāo)簽使得學(xué)習(xí)一個(gè)有辨別力和魯棒性的模型變得困難?;跓o監(jiān)督/弱監(jiān)督學(xué)習(xí)的視頻精彩集錦生成技術(shù)大都使用了深度學(xué)習(xí)方法。
Yang等[15]認(rèn)為基于監(jiān)督學(xué)習(xí)的方法依賴于成對的精彩集錦和原視頻來推斷視頻的精彩部分。然而,想要收集這樣的視頻并不簡單,用戶通常不會(huì)同時(shí)上傳視頻的原始版本和編輯版本。為了解決這一問題,Yang等提出了一種無監(jiān)督的視頻精彩集錦生成方法,這一方法只使用人們編輯過的視頻作為訓(xùn)練數(shù)據(jù)。Yang等設(shè)計(jì)了一個(gè)自動(dòng)編碼器,它有兩個(gè)特點(diǎn):一是使用了一種新的收縮指數(shù)損失函數(shù),使自動(dòng)編碼器對噪聲數(shù)據(jù)具有魯棒性;另一個(gè)特點(diǎn)是編碼器具有雙向長短期記憶單元,以便在時(shí)間序列中有效地建模遠(yuǎn)程上下文。集錦生成算法的整體的架構(gòu)如圖4所示。每個(gè)視頻首先被分割成多個(gè)短片段,然后應(yīng)用預(yù)先訓(xùn)練好的3D卷積神經(jīng)網(wǎng)絡(luò)模型來提取時(shí)空特征,經(jīng)過池化層后,使用設(shè)計(jì)的自動(dòng)編碼器來捕獲遠(yuǎn)程上下文結(jié)構(gòu)。Yang等從YouTube上收集了6500段短時(shí)長視頻作為訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)沒有進(jìn)行額外標(biāo)注。
圖4 Yang等提出的無監(jiān)督方案架構(gòu)圖
Xiong等[16]提出了一種可行的無監(jiān)督解決方案,利用視頻持續(xù)時(shí)間作為隱含的監(jiān)督信號。Xiong等認(rèn)為,用戶生成視頻中,較短時(shí)長視頻的片段比較長時(shí)長視頻的片段更有可能成為精彩集錦,因?yàn)橛脩粼谥谱鞫虝r(shí)長視頻時(shí)往往對內(nèi)容進(jìn)行了充分的選擇。根據(jù)這一觀點(diǎn),Xiong等引入了一個(gè)新的排序框架,該框架優(yōu)先選擇短時(shí)長視頻中的片段,同時(shí)適當(dāng)考慮未標(biāo)記的訓(xùn)練數(shù)據(jù)中的固有噪聲。Xiong等還設(shè)計(jì)了一個(gè)新的損失函數(shù),這個(gè)損失函數(shù)在長時(shí)長視頻片段得分高時(shí)會(huì)增加。Xiong等在Instagram上收集了15種、超過1000萬個(gè)視頻用于訓(xùn)練,并在兩個(gè)公共數(shù)據(jù)集TVSum[17]和YouTube Highlights[18]上進(jìn)行了測試。圖5展示了Xiong等收集的視頻時(shí)長的分布。
圖5 Xiong等收集的視頻時(shí)長分布
Wang等[19]研究了“王者榮耀“游戲視頻的精彩鏡頭檢測,使用沒有額外注釋的游戲視頻作為訓(xùn)練數(shù)據(jù),構(gòu)造了一個(gè)包括時(shí)間流、空間流和音頻流的多流網(wǎng)絡(luò)。Wang等下載了450個(gè)經(jīng)過剪輯的精彩集錦視頻和10個(gè)長時(shí)長的原始游戲視頻,精彩集錦視頻的平均長度為21秒,而原始游戲視頻的長度為6到8小時(shí)。由于原始游戲視頻的長度非常長,Wang等從視頻中隨機(jī)截取了20個(gè)視頻片段,每個(gè)視頻平均長度為13分鐘,以平衡正負(fù)樣本。Wang等構(gòu)建的多流網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。該多流網(wǎng)絡(luò)結(jié)合了三個(gè)組件來生成視頻精彩集錦:時(shí)間流提取時(shí)態(tài)信息,使用三維卷積層[20]從 ResNet-34[21]最后的池化層的輸出中提取特征;空間流獲取每一幀的空間上下文信息,和時(shí)間流不同,空間流在幀級別上提取特征,使用了AlexNet[22];音頻流通過利用聲音特征過濾無關(guān)場景,使用了一個(gè)預(yù)訓(xùn)練的揚(yáng)聲器編碼器。得到三個(gè)流輸出的分?jǐn)?shù)后,通過加權(quán)求和形成最終的分?jǐn)?shù),時(shí)間流、空間流和音頻流分?jǐn)?shù)的權(quán)重分別為0.7、0.15、0.15,這表明了3D信息的重要性。
圖6 Wang等構(gòu)建的多流網(wǎng)絡(luò)結(jié)構(gòu)
近年來,互聯(lián)網(wǎng)上開始流行實(shí)時(shí)評論,在彈幕平臺(tái)網(wǎng)站上,觀眾可以在屏幕上發(fā)送實(shí)時(shí)評論(彈幕)來分享他們對視頻的感受。實(shí)時(shí)彈幕與該時(shí)刻視頻內(nèi)容高度相關(guān),實(shí)時(shí)評論是觀眾情緒的表達(dá)或?qū)σ曨l的討論,視頻越吸引觀眾,觀眾發(fā)布的實(shí)時(shí)評論就越多。因此,實(shí)時(shí)評論的數(shù)量在某種程度上可以反映這段視頻的受歡迎程度。基于此,Wang等[23]提出了基于實(shí)時(shí)評論生成視頻精彩集錦的模型,該模型使用了卷積神經(jīng)網(wǎng)絡(luò)(CNN)和長短期記憶網(wǎng)絡(luò)(LSTM),利用實(shí)時(shí)評論作為先驗(yàn)知識(shí)來輔助視頻內(nèi)容的分析,可以預(yù)測視頻的精彩部分以及觀眾觀看視頻時(shí)的情緒。這一模型包括了兩個(gè)子模塊,分別為視頻編碼器和語言轉(zhuǎn)換模塊,視頻編碼器模塊將視頻序列編碼為特征向量,語言轉(zhuǎn)換模塊將視頻內(nèi)容轉(zhuǎn)換為人類語言的語義向量。
視頻精彩集錦生成是根據(jù)用戶的興趣選擇一部分幀。Qi等[24]認(rèn)為傳統(tǒng)的有監(jiān)督學(xué)習(xí)方法的性能高度依賴于大規(guī)模人工標(biāo)注的訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)的收集既耗時(shí)又費(fèi)力。為了解決這個(gè)問題,Qi等發(fā)現(xiàn)用戶是否對特定的視頻片段感興趣在很大程度上取決于人類的主觀情緒。利用這一觀點(diǎn),Qi等設(shè)計(jì)了一個(gè)情感知識(shí)驅(qū)動(dòng)的視頻精彩集錦生成方法,用于建模人類的一般情感和推斷視頻的精彩程度。其設(shè)計(jì)的方法框架如圖7所示。首先,通過前端網(wǎng)絡(luò)獲得視頻片段的概念級表示,這些概念被用作構(gòu)建情緒相關(guān)知識(shí)圖的節(jié)點(diǎn),它們在圖中的關(guān)系通過外部公共知識(shí)圖建模。然后使用孿生圖神經(jīng)網(wǎng)絡(luò)(Siamese GCN)對圖中節(jié)點(diǎn)之間的依賴關(guān)系進(jìn)行建模,并沿邊傳播消息。圖神經(jīng)網(wǎng)絡(luò)能夠轉(zhuǎn)移視頻上下文中出現(xiàn)的視覺概念的先驗(yàn)知識(shí),以理解視頻的高級語義。最后基于圖神經(jīng)網(wǎng)絡(luò)層計(jì)算視頻片段的情感感知表示,并進(jìn)一步使用它預(yù)測精彩程度分?jǐn)?shù)。
圖7 Qi等構(gòu)建的多流網(wǎng)絡(luò)結(jié)構(gòu)
視頻精彩集錦生成技術(shù)的目的是自動(dòng)選取視頻最有吸引力的片段,由于人工對視頻進(jìn)行剪輯需要大量的時(shí)間和精力,而現(xiàn)實(shí)生活中視頻剪輯有著巨大的需求量,因此視頻精彩集錦生成技術(shù)有很大的實(shí)用價(jià)值且在現(xiàn)實(shí)生活中有許多應(yīng)用場景:
(1)對視頻制作者而言,視頻精彩集錦生成技術(shù)可以幫助他們自動(dòng)對視頻進(jìn)行剪輯,生成的精彩集錦可以更好地吸引人們的興趣,增加視頻的播放量。無論是業(yè)余愛好者還是專業(yè)的視頻制作者,視頻精彩集錦生成技術(shù)都可以幫助他們減少人工剪輯視頻的工作量。
(2)對視頻網(wǎng)站而言,視頻精彩集錦生成技術(shù)可以幫助網(wǎng)站吸引用戶興趣。相比于用視頻封面吸引用戶點(diǎn)擊,使用視頻精彩集錦生成技術(shù)自動(dòng)生成的時(shí)長較短的集錦作為視頻封面可以更好的吸引用戶,促使他們觀看完整的視頻。
(3)視頻精彩集錦生成技術(shù)還可以應(yīng)用到電子商務(wù)平臺(tái)的視頻推薦系統(tǒng)。在電子商務(wù)中,產(chǎn)品相關(guān)視頻是介紹產(chǎn)品特征、吸引消費(fèi)者的重要內(nèi)容。因此在電子商務(wù)平臺(tái)的推薦系統(tǒng)中,可以使用視頻精彩集錦生成技術(shù)來生成最具吸引力的視頻片段展示給消費(fèi)者以提高產(chǎn)品的點(diǎn)擊率。例如,Guo等[25]提出了一種基于圖形的商品感知模型,解決了電子商務(wù)場景中的多模態(tài)視頻精彩集錦檢測問題。
本文調(diào)研了視頻精彩集錦生成技術(shù)近年來的研究和發(fā)展情況。首先介紹了視頻精彩集錦生成任務(wù)的定義,而后系統(tǒng)地梳理了相關(guān)的研究工作,介紹了視頻精彩集錦生成技術(shù)的有監(jiān)督學(xué)習(xí)方法和無監(jiān)督/弱監(jiān)督學(xué)習(xí)方法,并分析這兩類方法的優(yōu)缺點(diǎn),最后介紹了視頻精彩集錦生成技術(shù)在現(xiàn)實(shí)生活中的應(yīng)用價(jià)值。