• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    Video Captioning人工智能技術(shù)在電視媒體中的應(yīng)用

    2021-06-15 21:28:36梁霄
    衛(wèi)星電視與寬帶多媒體 2021年6期
    關(guān)鍵詞:電視節(jié)目深度學(xué)習(xí)人工智能

    【摘要】自二十世紀(jì)九十年代以來,我國電視媒體技術(shù)飛速發(fā)展。伴隨著電視節(jié)目的種類及數(shù)量越來越多,為視頻節(jié)目添加內(nèi)容描述的工作日趨繁瑣;另一方面,網(wǎng)絡(luò)及自媒體的快速發(fā)展也伴隨著媒體資源數(shù)量的急劇膨脹,電視節(jié)目如何快速,準(zhǔn)確地從這些媒體資源中選出需要的材料也成為當(dāng)今一大問題。本文探究了在當(dāng)前人工智能大環(huán)境下,Video Captioning技術(shù)如何應(yīng)用于電視節(jié)目中,并提出了端到端的系統(tǒng)解決方案,實(shí)現(xiàn)了大規(guī)模媒體內(nèi)容的高質(zhì)量,高效率的文字描述。

    【關(guān)鍵詞】Video Captioning;電視節(jié)目;深度學(xué)習(xí);人工智能

    中圖分類號(hào):TN92 ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A ? ? ? ? ? ? ? ? ?DOI:10.12246/j.issn.1673-0348.2021.06.042

    電視節(jié)目的制作要先選擇合適的素材,經(jīng)過剪輯等處理之后,最后添加上字幕。隨著電視技術(shù)的發(fā)展,電視節(jié)目的種類與數(shù)量越來越多,如何高效的制作出一期電視節(jié)目逐漸成為一個(gè)重要的問題。制作電視節(jié)目的困難有多個(gè)方面,首先是素材的選取問題?;ヂ?lián)網(wǎng)作為一種新的傳播媒介,擁有著傳統(tǒng)媒介所沒有的快捷和方便,網(wǎng)絡(luò)上的視頻資源數(shù)量飛速增長,而這些視頻都缺少一定的文字描述,如果對(duì)每個(gè)視頻都進(jìn)行查看會(huì)浪費(fèi)大量的時(shí)間并且不現(xiàn)實(shí),所以需要一種可以高效的選擇合適的視頻素材的方法。其次是字幕的添加問題。電視節(jié)目數(shù)量的增加導(dǎo)致了添加字幕的工作量的增加,如果使用人工的方法手動(dòng)添加字幕,這會(huì)耗費(fèi)大量的人力,能不能找到一種方法可以自動(dòng)的為電視節(jié)目添加字幕。

    Video Captioning作為人工智能領(lǐng)域中的新興技術(shù),可以很好地解決上述遇到的問題。該技術(shù)能夠?yàn)槊總€(gè)網(wǎng)絡(luò)視頻添加或長或短的描述,方便視頻的檢索,節(jié)省了選材的時(shí)間,又可以自動(dòng)為制作好的電視節(jié)目添加字幕,省去了人工添加字幕的工作??傮w來說,Video Captioning可以節(jié)省電視節(jié)目制作需要的時(shí)間和人力資源,提高電視節(jié)目制作的效率。

    1. 技術(shù)簡介

    隨著計(jì)算機(jī)視覺領(lǐng)域和自然語言處理領(lǐng)域的不斷發(fā)展,人們開始考慮如何通過一段話描述視頻的內(nèi)容,這樣可以為視頻的檢索提供便利,也方便了視覺障礙者理解視頻內(nèi)容。相比于圖像只包含靜態(tài)的空間信息,視頻除了空間信息還包括時(shí)序信息以及聲音信息等。通過Video Captioning生成描述時(shí)需要提取更多的特征,這對(duì)生成一段準(zhǔn)確的描述來說是一個(gè)比較大的挑戰(zhàn)。

    在實(shí)現(xiàn)方法上,Video Captioning主要有三種基本方法。基于模板的方法:先給定句子模板,然后從視頻中提取相應(yīng)的信息填入句子模板中;基于檢索的方法:先人工給定許多句子構(gòu)建句子庫,然后根據(jù)視頻特征從句子庫中選擇最為相似的句子;前者生成的描述過于生硬,后者適用的環(huán)境較為有限。為了能有廣泛的通用性又能生成通順的描述,出現(xiàn)了基于編碼的方法。這種方法通過學(xué)習(xí)視覺內(nèi)容與句子在空間上的概率分布來生成描述,而概率分布的學(xué)習(xí)主要通過神經(jīng)網(wǎng)絡(luò)完成。神經(jīng)網(wǎng)絡(luò)是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。這種網(wǎng)絡(luò)依靠系統(tǒng)的復(fù)雜程度,通過調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到處理信息的目的。

    目前主流的Video captioning技術(shù)通常采用的是編碼器-解碼器結(jié)構(gòu),即先將視頻中特定幀的RGB特征輸入編碼器中,得到視頻特征向量。然后將該特征向量輸入到解碼器中,根據(jù)該特征向量生成相應(yīng)的自然語言的描述。下面主要討論基于編碼的方法。

    Video Captioning主要有兩個(gè)分支,一種是傳統(tǒng)的Video Captioning,用一句話描述一段短視頻的內(nèi)容。這些視頻通常長度比較短,10秒左右甚至更短。另一種是密集事件描述(Dense Event Caption,DEC),為一段較長的視頻添加一段話的描述。DEC通常是把一段長視頻分為多個(gè)事件,然后為每個(gè)事件單獨(dú)添加描述,所以如何劃分事件顯得非常重要。

    2. 技術(shù)實(shí)現(xiàn)

    由于視頻幀之間具有時(shí)間連續(xù)性,普通的二維卷積不能夠充分表達(dá)此特性,因此目前編碼器主要采用的是三維卷積網(wǎng)絡(luò):組合相鄰的幾個(gè)幀形成三維輸入向量,并進(jìn)行卷積操作。解碼器主要是使用門控循環(huán)單元網(wǎng)絡(luò)(GRU),相比于長短期記憶網(wǎng)絡(luò)(LSTM)有輸入門、遺忘門和輸出門三個(gè)門控函數(shù),GRU網(wǎng)絡(luò)只有重置門和更新門兩個(gè)門控函數(shù),因此參數(shù)更少,在其性能接近LSTM網(wǎng)絡(luò)的同時(shí),減少了計(jì)算量和訓(xùn)練時(shí)間。

    2.1 短視頻描述

    2015年,Subhashini Venugopalan等人介紹了一種簡單的Video Captioning模型。如圖1,考慮到視頻的時(shí)序特征,他們首先使用卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取視頻中每幀的信息,然后利用LSTM依次輸入提取的特征,LSTM的隱含層表示視頻本身,最后生成描述。該工作存在很多不足,時(shí)序特征表示比較簡單,提取的視頻特征比較少,未考慮不同特征之間的差異性等等。關(guān)于網(wǎng)絡(luò)性能的改進(jìn),2019年的CVPR會(huì)議上就出現(xiàn)了許多新穎的想法,主要分為對(duì)編碼器或者解碼器的改進(jìn)兩個(gè)方向。例如對(duì)視頻提取雙向特征來提升編碼器對(duì)視頻特征提取的效果;優(yōu)化訓(xùn)練集或者參考其他相關(guān)視頻的特征向量來提升解碼器的性能。

    關(guān)于編碼器的改進(jìn),Junchao Zhang等人提出使用雙向時(shí)序圖來提取視頻特征。他們首先找到視頻中的主要物體,然后對(duì)該物體提取雙向視頻特征,最后將原視頻特征與主要物體的視頻特征送入GRU網(wǎng)絡(luò)生成描述。使用雙向時(shí)序圖的好處主要有兩點(diǎn):(1)通過正向和反向兩種不同的方法提取的視頻特征會(huì)更全面,會(huì)包含更豐富的視頻信息。(2)只使用正向或反向的方法來提取視頻特征往往不能獲得好的主要物體的時(shí)序軌跡,因?yàn)椴⒉皇撬械闹饕矬w出現(xiàn)在整個(gè)視頻中。所以使用雙向時(shí)序圖來提取視頻特征會(huì)更完整的體現(xiàn)主要物體的時(shí)間軌跡,優(yōu)化整個(gè)網(wǎng)絡(luò)的性能。

    關(guān)于解碼器的改進(jìn),Luowei Zhou等人通過改良訓(xùn)練集的方法來消除幻覺現(xiàn)象,即生成的描述中會(huì)出現(xiàn)視頻中不存在的物體,這是因?yàn)檫@些物體在訓(xùn)練時(shí)出現(xiàn)在了相似的上下文中。該工作首先把ActivityNet數(shù)據(jù)集中的視頻分為幾個(gè)視頻段,再從每個(gè)視頻段中均勻的抽取10幀。在提取的10幀中找出與描述語句中的名詞相對(duì)應(yīng)的區(qū)域使用方框標(biāo)記出來并添加相應(yīng)的注釋,每一種名詞在一個(gè)視頻段中僅標(biāo)記一次,并選擇10幀中最明顯的作為標(biāo)記。當(dāng)訓(xùn)練時(shí),會(huì)根據(jù)視頻幀中標(biāo)注來生成描述,訓(xùn)練網(wǎng)絡(luò)對(duì)物體區(qū)域的篩選能力。實(shí)驗(yàn)結(jié)果雖然幾乎消除了幻覺現(xiàn)象,但是由于網(wǎng)絡(luò)結(jié)構(gòu)本身相比之前的網(wǎng)絡(luò)并沒有太大改進(jìn),導(dǎo)致整個(gè)網(wǎng)絡(luò)的性能并不突出。

    Wenjie Pei等人通過添加相似視頻的上下文特征向量來改善解碼器的性能。之前的方法生成描述時(shí)都是基于當(dāng)前的視頻,而一個(gè)單詞也可能會(huì)在其他的訓(xùn)練的視頻中出現(xiàn),所以他們認(rèn)為在生成描述時(shí)應(yīng)該把與生成單詞有關(guān)的視頻上下文向量都考慮進(jìn)去,于是構(gòu)建了一個(gè)記憶結(jié)構(gòu)去記錄與每個(gè)單詞有關(guān)的視頻特征。當(dāng)生成描述時(shí)不僅考慮本視頻的上下文向量,也會(huì)考慮相關(guān)視頻的上下文向量,使生成的描述更準(zhǔn)確。

    2.2 長視頻描述

    長視頻相比于短視頻會(huì)包含更多的事件,很難使用一句話描述整個(gè)視頻的信息,所以長視頻的Video Captioning網(wǎng)絡(luò)結(jié)構(gòu)相比于短視頻增加了一個(gè)提取事件候選框的部分,首先使用三維卷積網(wǎng)絡(luò)提取視頻特征,然后提取出各個(gè)事件對(duì)應(yīng)的視頻特征范圍,然后像處理短視頻一樣對(duì)每個(gè)事件生成描述。

    事件的提取主要是使用Single-Stream Temporal action proposals (SST),這是對(duì)之前Deep Action Proposals(DAPs)方法的改進(jìn)。無論是DAPs還是SST,相比于滑動(dòng)窗口法,優(yōu)點(diǎn)都是只需要輸入一次視頻就可以提取出候選框。DAPs其實(shí)是改良版的滑動(dòng)窗口法,通過聚類的方法獲得所有可能的滑動(dòng)窗口的長度,所以只需要輸入一次視頻,但是這種方法的運(yùn)算速度太慢,所以就出現(xiàn)了SST。SST方法先將整個(gè)視頻均勻分為許多小段,然后把每個(gè)視頻段作為事件終點(diǎn),去尋找相應(yīng)的起點(diǎn)作為一個(gè)候選框,最后對(duì)所有提取的候選框使用非最大值抑制方法去除高度重合的候選框,刪選出合適的候選框。

    2017年CVPR會(huì)議上,Ranjay Krishna等人提出了第一個(gè)長視頻描述網(wǎng)絡(luò)模型。如圖2,該工作首先通過C3D網(wǎng)絡(luò)提取視頻特征,然后把視頻特征輸入到DAPs中,生成候選框。為了生成不同長度和時(shí)間可能重疊的候選框,把視頻特征以不同的步長輸入到DAPs中。再對(duì)每個(gè)候選框生成對(duì)應(yīng)的描述,生成描述時(shí)不僅用到了當(dāng)前的事件特征,把之前的事件特征向量加權(quán)得到前文特征,把之后的事件特征向量加權(quán)得到后文特征,將3種特征結(jié)合用于生成描述。該網(wǎng)絡(luò)結(jié)構(gòu)比較簡單,因此效果并不理想,但開辟了Dense Captioning領(lǐng)域的先河。長視頻描述的網(wǎng)絡(luò)結(jié)構(gòu)主要分為兩部分,一部分提取事件候選框,另一部分生成相應(yīng)的描述,將每句描述串聯(lián)起來作為最終的描述。因此改良網(wǎng)絡(luò)性能也主要是通過優(yōu)化事件候選框的提取以及最終描述的生成來實(shí)現(xiàn)。

    2019年CVPR會(huì)議上的Dense Captioning網(wǎng)絡(luò)結(jié)構(gòu)相比之前加入了許多新的技術(shù)到編解碼器中來優(yōu)化網(wǎng)絡(luò)性能,但整體的網(wǎng)絡(luò)結(jié)構(gòu)并沒有改變。

    Jonghwan Mun等人通過優(yōu)化事件候選框的提取過程來改良整個(gè)網(wǎng)絡(luò)的性能。之前的方法只是單純的把視頻劃分為多個(gè)事件,沒有考慮事件之間的關(guān)聯(lián)性。實(shí)際在生成描述時(shí),不僅要考慮到和事件的關(guān)聯(lián)性,也要考慮到生成的描述之間的關(guān)聯(lián)性。為了解決這個(gè)問題,他們先將提取的事件候選框按照開始時(shí)間排序,在生成描述時(shí),會(huì)根據(jù)本次事件的上下文選擇合適的事件送入循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)網(wǎng)絡(luò),之后根據(jù)本次事件和之前生成的描述來生成本次描述。這樣一方面可以考慮到事件之間和描述之間的相關(guān)性,又可以大幅地減少事件的數(shù)量,提高生成描述的精度。除此之外,還使用了強(qiáng)化學(xué)習(xí)的方法,讓網(wǎng)絡(luò)自主學(xué)習(xí)提取與ground truth更為相近的事件候選框。

    Jae Sung Park等人假設(shè)事件候選框已經(jīng)給定,完全只考慮優(yōu)化描述的生成來提升網(wǎng)絡(luò)的性能。之前的方法生成的描述之間大都存在冗余或者不一致的問題,針對(duì)這些問題,該工作提出了一種使用對(duì)抗網(wǎng)絡(luò)來生成描述的網(wǎng)絡(luò)結(jié)構(gòu)。針對(duì)一個(gè)事件,生成多個(gè)描述送入對(duì)抗網(wǎng)絡(luò)中,對(duì)抗網(wǎng)絡(luò)會(huì)從描述與事件之間的相似性,描述本身的流暢性和是否符合語法,描述與之前的描述之間的關(guān)聯(lián)性3個(gè)方面進(jìn)行打分,選擇分?jǐn)?shù)最高的描述作為當(dāng)前事件的描述。結(jié)果表明使用對(duì)抗網(wǎng)絡(luò)生成的描述之間語義更一致,冗余更少。

    本文探究的Video Captioning技術(shù)具有實(shí)際的意義,可以為視頻的檢索以及字幕生成提供極大的便利。雖然該技術(shù)相比于幾年前,生成的描述更通順、準(zhǔn)確,但是要達(dá)到人工的水平還有很長的路要走。目前的問題主要體現(xiàn)在生成的描述依舊比較生硬,偶爾會(huì)出現(xiàn)幻覺現(xiàn)象影響準(zhǔn)確性,在對(duì)準(zhǔn)確性要求較高的場合無法滿足要求。但是隨著Video Captioning研究的不斷深入,這些問題會(huì)逐漸被解決,Video Captioning將會(huì)為電視節(jié)目的制作帶來極大的便利。

    3. 結(jié)束語

    本文分析了電視節(jié)目在制作過程中遇到的主要問題,包括選材困難和添加字幕工作量大。提出將深度學(xué)習(xí)中的Video Captioning技術(shù)應(yīng)用到電視節(jié)目制作中,為視頻原素材添加備注,方便視頻的檢索,為電視節(jié)目選材提供便利,并且可以自動(dòng)為電視節(jié)目添加字幕,節(jié)約大量的時(shí)間和人力。雖然目前Video Captioning技術(shù)還不成熟,但為電視節(jié)目的制作提供了新的發(fā)展方向。

    參考文獻(xiàn):

    [1SubhashiniVenugopalan,MarcusRohrbach,JeffDonahue,RaymondMooney,TrevorDarrell,KateSaenko.SequencetoSequence–VideotoText.TheIEEEConferenceonComputerVisionandPatternRecognition(CVPR),2015[C]

    [2]JunchaoZhang,YuxinPeng.Object-awareAggregationwithBidirectionalTemporalGraphforVideoCaptioning.TheIEEEConferenceonComputerVisionandPatternRecognition(CVPR),2019[C],8327-8336

    [3]LuoweiZhou,YannisKalantidis,XinleiChen,JasonJ.Corso,MarcusRohrbach.GroundedVideoDescription.TheIEEEConferenceonComputerVisionandPatternRecognition(CVPR),2019[C],6578-6587

    [4]WenjiePei,JiyuanZhang,XiangrongWang,LeiKe,XiaoyongShen,Yu-WingTai.Memory-AttendedRecurrentNetworkforVideoCaptioning.TheIEEEConferenceonComputerVisionandPatternRecognition(CVPR),2019[C],8347-8356

    [5]EscorciaV,HeilbronFC,NieblesJC,etal.DAPs:DeepActionProposalsforActionUnderstanding.EuropeanConferenceonComputerVision,2016[C].

    [6]RanjayKrishna,KenjiHata,F(xiàn)redericRen,LiFei-Fei,JuanCarlosNiebles.Dense-CaptioningEventsinVideos.TheIEEEConferenceonComputerVisionandPatternRecognition(CVPR),2017[C]

    [7]JonghwanMun,LinjieYang,ZhouRen,NingXu,BohyungHan.StreamlinedDenseVideoCaptioning.TheIEEEConferenceonComputerVisionandPatternRecognition(CVPR),2019[C],6588-6597

    [8]JaeSungPark,MarcusRohrbach,TrevorDarrell,AnnaRohrbach.AdversarialInferenceforMulti-SentenceVideoDescription.TheIEEEConferenceonComputerVisionandPatternRecognition(CVPR),2019[C],6598-6608

    作者簡介:梁霄,北京人,高級(jí)工程師、副處長、研究方向:有線電視技術(shù)。

    猜你喜歡
    電視節(jié)目深度學(xué)習(xí)人工智能
    2019:人工智能
    商界(2019年12期)2019-01-03 06:59:05
    人工智能與就業(yè)
    數(shù)讀人工智能
    小康(2017年16期)2017-06-07 09:00:59
    MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
    大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
    深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
    基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
    軟件工程(2016年8期)2016-10-25 15:47:34
    周五廣播電視
    電視節(jié)目
    下一幕,人工智能!
    天台县| 平江县| 方正县| 塔河县| 义乌市| 银川市| 方山县| 横山县| 关岭| 三穗县| 吴旗县| 南涧| 海淀区| 香港| 嫩江县| 棋牌| 黑河市| 遂川县| 温泉县| 连南| 木兰县| 盐边县| 台湾省| 开平市| 溧阳市| 华坪县| 宝鸡市| 吉安县| 滦平县| 台东县| 武城县| 山东省| 简阳市| 石门县| 台北市| 彭水| 楚雄市| 大城县| 娄底市| 阳曲县| 北票市|