孟繁亭
(中國(guó)互聯(lián)網(wǎng)新聞中心 北京市 100089)
隨著社會(huì)的發(fā)展和技術(shù)的進(jìn)步,人類的生活節(jié)奏也加快了,相應(yīng)地帶動(dòng)著簡(jiǎn)潔高效的短視頻領(lǐng)域的快速發(fā)展,與傳統(tǒng)的較長(zhǎng)時(shí)長(zhǎng)的視頻相比,短視頻更能滿足當(dāng)代人的零散閱讀習(xí)慣,因而發(fā)展迅速,且未來發(fā)展前景廣闊。正是由于這樣的良好前景,視頻與人工智能技術(shù)的融合也逐漸成為了業(yè)內(nèi)研究者的研究重點(diǎn)和方向。目前視頻創(chuàng)作者在制作視頻的過程中已經(jīng)用到了相關(guān)的AI 技術(shù),比如視頻創(chuàng)意腳本創(chuàng)作、視頻編碼解碼過程、視頻智能推薦等等,通過結(jié)構(gòu)化的形成視頻來促進(jìn)視頻領(lǐng)域的發(fā)展,解放人類編輯剪輯視頻的大量重復(fù)操作,同時(shí)凈化短視頻市場(chǎng)的抄襲重復(fù)等不良現(xiàn)象,不僅帶來了視頻質(zhì)量的提高,而且也降低了低質(zhì)量視頻帶來的流量消耗,替代了傳統(tǒng)的人工技術(shù),使得視頻結(jié)構(gòu)分析越來越準(zhǔn)確。
本文提出人工智能助力視頻生產(chǎn)的實(shí)踐,主要根據(jù)其視頻生產(chǎn)的不同階段,各個(gè)階段涉及到的主要技術(shù)概括為四個(gè)部分:自然語(yǔ)義分析處理、語(yǔ)音合成、圖像濾鏡渲染、視頻編碼合成。以下將從這四個(gè)角度進(jìn)行技術(shù)介紹。
自然語(yǔ)義分析處理的應(yīng)用場(chǎng)景有很多,在我們的方法中,首先需要通過對(duì)文章進(jìn)行摘要讀取,然后根據(jù)讀取的結(jié)果進(jìn)行語(yǔ)義理解,以摘要為基礎(chǔ)選擇視頻所需的素材。為了從文章中捕獲結(jié)構(gòu)化信息,有必要在語(yǔ)義上有意義的標(biāo)簽上標(biāo)注自由文本。在這項(xiàng)工作中,我們選擇了一種稱為“淺層語(yǔ)義解析”的方法,該方法能夠?qū)⒕渥臃纸鉃楹?jiǎn)單的內(nèi)容,從而結(jié)構(gòu)化的概述文章描述的事件:何時(shí),何地,為什么和如何發(fā)生這樣的事件,從而為視頻生成提供基礎(chǔ)的腳本。通過自然語(yǔ)義分析處理獲得視頻創(chuàng)作的腳本信息,通過對(duì)這些腳本信息進(jìn)行分析得到視頻的整體結(jié)構(gòu),對(duì)整體結(jié)構(gòu)拆解和研究能夠得出在視頻創(chuàng)作過程中,可能出現(xiàn)的角色、以及角色出現(xiàn)的時(shí)間、位置、視頻的字幕圖像、甚至視頻的核心關(guān)鍵詞等等,幫助我們?cè)诓挥^看視頻的情況下就能夠了解視頻講述的大概內(nèi)容,得到視頻的整體概述信息。
通過將字幕文件轉(zhuǎn)換成帶語(yǔ)音播報(bào)的音頻文件,并合成到視頻中,從而形成帶有配音的視頻。在這一階段我們采用了語(yǔ)音合成技術(shù),根據(jù)字幕文件,采用了一種新穎的方法來合成逼真的語(yǔ)音。使用字幕文件作為輸入,我們的方法按照閱讀流程為每個(gè)視頻中的人物合成語(yǔ)音。采用級(jí)聯(lián)策略在兩個(gè)階段合成語(yǔ)音:視頻視覺分析和視頻語(yǔ)音合成。在第一階段,分析輸入的字幕文件以識(shí)別角色的性別和年齡,以及每個(gè)角色講話的文本和相應(yīng)的情感。在第二階段的分析指導(dǎo)下,我們的方法為每個(gè)角色合成了逼真的語(yǔ)音,與視覺觀察結(jié)果保持一致。通過幾次的測(cè)試結(jié)果,我們發(fā)現(xiàn),所提出語(yǔ)音合成方法可以針對(duì)不同類型的字幕文件合成逼真的語(yǔ)音,從而作用于視頻的生成過程中。對(duì)多個(gè)字幕文件的合成結(jié)果進(jìn)行的感知研究證實(shí)了我們方法的有效性和準(zhǔn)確性。
通過圖像濾鏡渲染技術(shù)來進(jìn)行視頻生成的階段,這一階段通常需要將濾鏡與通道和圖層結(jié)合使用,以實(shí)現(xiàn)最佳的藝術(shù)效果。如果要在最合適的時(shí)間將濾鏡應(yīng)用于最合適的位置,除了通常的藝術(shù)技巧外,還需要用戶對(duì)濾鏡的熟悉和操縱,甚至是豐富的想象力。這樣,給我們手工操作帶來了很大的難題,基于人工智能的方式可以實(shí)現(xiàn)自動(dòng)化的圖像渲染技術(shù),從而解決了人工操作模式下很大的難題,為短視頻快速自動(dòng)的智能化生成掃清了障礙,促進(jìn)了短視頻自動(dòng)化生成的發(fā)展。
所謂視頻編碼就是將處理好的視頻素材、剪輯好的視頻文件等通過固定的壓縮格式,形成統(tǒng)一的文件,從而便于視頻的傳輸。視頻編碼目前有很多的標(biāo)準(zhǔn),比如國(guó)際電聯(lián)的H.264、M-JPEG、MPEG 系列標(biāo)準(zhǔn)等等。本文針對(duì)視頻編碼合成階段,提出了一種新的視頻編碼方法,其中將視頻場(chǎng)景分類為具有主觀相關(guān)和不相關(guān)細(xì)節(jié)的紋理。通過使用紋理分析器和紋理合成器將這一思想應(yīng)用于改善視頻編碼。分析器識(shí)別沒有重要主觀細(xì)節(jié)的紋理區(qū)域,并在解碼器側(cè)為合成器生成粗糙的蒙版以及輔助信息。合成器通過將合成紋理插入到已識(shí)別的區(qū)域中來替換與細(xì)節(jié)無關(guān)的紋理。紋理分析器和合成器基于MPEG-7 描述符。該方法已集成到H.264/AVC 編解碼器中。對(duì)于半自動(dòng)紋理分析儀,在沒有提出方法的情況下,主觀質(zhì)量與H.264/AVC 編解碼器相似,顯示出高達(dá)19.4%的比特率節(jié)省。
本文提出的AI 視頻生成過程簡(jiǎn)單,形成的AI 視頻在很多測(cè)試后被證明這一結(jié)構(gòu)化的短視頻生成過程的高效性。生成過程主要分為以下幾個(gè)階段:通過語(yǔ)義識(shí)別提取文章摘要以及文章標(biāo)簽,對(duì)原有的文章進(jìn)行語(yǔ)義的提取和整合;然后通過標(biāo)簽從素材庫(kù)提取圖片、視頻等相關(guān)素材,通過上一階段提取出的關(guān)鍵詞來進(jìn)行素材的篩選,根據(jù)獲得的摘要選擇合適的視頻、音頻、圖片等媒體素材,最后把素材拼接成一個(gè)短視頻。在人工智能短視頻生成過程中所用到的技術(shù)如上文所述,主要有:自然語(yǔ)義分析處理、語(yǔ)音合成、圖像濾鏡渲染、視頻編碼合成等。
AI 視頻生成過程具體流程主要可以概括為以下幾個(gè)方面:
(1)預(yù)設(shè)一些圖片動(dòng)畫效果,如:放大、縮小、平移、旋轉(zhuǎn)等等。由于素材庫(kù)中存在部分圖片需要調(diào)整,所以可以通過預(yù)設(shè)圖片效果來對(duì)素材進(jìn)行初步的調(diào)整,方便后期的直接應(yīng)用。
(2)基于預(yù)設(shè)動(dòng)效設(shè)置視頻模板,模板內(nèi)容包括:①背景圖設(shè)置:就是圖片動(dòng)畫運(yùn)行的背景,用戶可以基于自身情況上傳背景圖,并進(jìn)行設(shè)定,從而確定自己生成的短視頻使用的背景圖片。這一設(shè)置功能可以滿足不同用戶的需求。②動(dòng)效設(shè)置:用戶上傳樣例圖片,然后可以針對(duì)每張樣例圖片進(jìn)行動(dòng)畫效果設(shè)定,同時(shí)可以對(duì)圖片與圖片之間的過度狀態(tài)(轉(zhuǎn)場(chǎng))進(jìn)行設(shè)定,通過設(shè)置動(dòng)效實(shí)現(xiàn)靜態(tài)圖片的整合,形成短視頻的基礎(chǔ)部分,而且滿足了用戶的個(gè)性化需求,增加了AI 短視頻的多樣性。③文字效果設(shè)定:用戶可以對(duì)一個(gè)視頻的標(biāo)題和正文(語(yǔ)音字幕)文字效果進(jìn)行設(shè)定,包括是否有標(biāo)題、是否有語(yǔ)音字幕、以及文字樣式、大小等??梢越Y(jié)合對(duì)文章的語(yǔ)義摘要分析結(jié)果,以及視頻最終生成的內(nèi)容來設(shè)置視頻的語(yǔ)音和字幕文件,借助語(yǔ)音合成技術(shù),智能化的生成視頻配音。④語(yǔ)音播報(bào)設(shè)定:內(nèi)設(shè)多種語(yǔ)音播報(bào)風(fēng)格,用戶可以根據(jù)情況選擇合適的風(fēng)格,然后自動(dòng)將字幕文件轉(zhuǎn)換成帶語(yǔ)音播報(bào)的音頻文件,并合成到視頻中去。⑤背景音樂設(shè)置:用戶可以自行上傳背景音樂,并可將音樂設(shè)置為視頻的背景音樂,為用戶帶來方便。⑥片頭/片尾設(shè)置:用戶可以上傳片頭片尾,并可以選擇合適的片頭片尾合成到視頻模板中去。
(3)基于視頻模板生成視頻:用戶可以根據(jù)實(shí)際情況選擇合適的模板風(fēng)格,然后輸入文章鏈接解析素材內(nèi)容。通過語(yǔ)義識(shí)別技術(shù),將文字素材體現(xiàn)成文章摘要,同時(shí)提取文章的標(biāo)簽,并基于標(biāo)簽內(nèi)容到素材庫(kù)提取相關(guān)圖片和視頻素材,然后把素材內(nèi)容以及對(duì)應(yīng)的模板中的參數(shù)設(shè)置傳到視頻生產(chǎn)引擎進(jìn)行編碼合成。針對(duì)視頻創(chuàng)作過程中的不同素材內(nèi)容,可能會(huì)存在很多類似的圖片,音頻等素材,我們需要使用有監(jiān)督的學(xué)習(xí)來對(duì)這些圖像、音頻等進(jìn)行分類和回歸任務(wù)。通過這些技術(shù)來得到圖像,音頻等不同素材的標(biāo)簽。比如一個(gè)人物圖像的標(biāo)簽有可能是人體或者角色;一本書的標(biāo)簽可能就是一個(gè)實(shí)體,通過這些分類任務(wù)對(duì)素材進(jìn)行識(shí)別,這些任務(wù)之間都是相關(guān)的,利用卷積層實(shí)現(xiàn)這些任務(wù)。在卷積層之后加上Mask 層進(jìn)行主干網(wǎng)絡(luò)的剪枝操作,且這些任務(wù)之間是共享神經(jīng)元的,但每個(gè)任務(wù)都擁有獨(dú)立的卷積通道層。
(4)審核發(fā)布:生產(chǎn)出的短視頻經(jīng)審核后可以一鍵發(fā)布到短視頻平臺(tái)。目前快手抖音等短視頻平臺(tái)大火,通過簡(jiǎn)單的操作用戶便可以實(shí)現(xiàn)視頻的上傳。這就帶來短視頻資源的泛濫問題,上傳到各個(gè)社交媒體的短視頻就可能會(huì)存在一些質(zhì)量問題,對(duì)于短視頻平臺(tái)就加大了審核和監(jiān)管的難度。AI 識(shí)別技術(shù)在這一方面大有所為,通過AI 技術(shù)來識(shí)別視頻圖像中的敏感標(biāo)志、或者違規(guī)圖像,進(jìn)而幫助我們審核、篩選出違規(guī)的視頻。同時(shí)由于短視頻平臺(tái)缺乏嚴(yán)格的監(jiān)管力度,有很多人為了獲取流量而盜竊他人的視頻拍攝創(chuàng)意,導(dǎo)致視頻原創(chuàng)者的利益受到損害,為了保護(hù)視頻產(chǎn)權(quán),凈化媒體產(chǎn)業(yè)環(huán)境,可以運(yùn)用視頻DNA 做相似性溯源,對(duì)視頻內(nèi)容關(guān)聯(lián)關(guān)系進(jìn)行挖掘,對(duì)視頻內(nèi)容制作路徑溯源,強(qiáng)制刪除盜版視頻,保護(hù)創(chuàng)作者產(chǎn)權(quán)。
視頻智能化自動(dòng)生成是未來媒體行業(yè)發(fā)展的趨勢(shì)和研究方向,不僅涉及到的領(lǐng)域較為廣泛,應(yīng)用范圍也十分寬泛。本文提出的針對(duì)視頻自動(dòng)化生成的方式還僅僅停留在簡(jiǎn)單的實(shí)現(xiàn)部分,部分階段依然存在可以改進(jìn)的可能,這同時(shí)也是未來AI 應(yīng)用在視頻生產(chǎn)領(lǐng)域的發(fā)展前景和巨大潛力。
首先針對(duì)自然語(yǔ)義分析處理這一階段,本文僅僅通過語(yǔ)義識(shí)別提取文章摘要以及文章標(biāo)簽,從而實(shí)現(xiàn)對(duì)文章的大意理解,并根據(jù)提取的文章摘要和標(biāo)簽選擇相應(yīng)的視頻或者素材,盡管這些方法在部分文章的摘要提取過程中取得了很好的效果,但是對(duì)于開放領(lǐng)域的文章摘要提取以及噪聲相對(duì)較大的文章中進(jìn)行語(yǔ)義分析還是存在著很多的現(xiàn)實(shí)問題,依然望塵莫及。如何能夠?qū)崿F(xiàn)計(jì)算機(jī)真正的看懂我們的視頻,從而正確的理解語(yǔ)義,這一目標(biāo)在短期內(nèi)依然無法實(shí)現(xiàn)。所以,未來通過使用深度學(xué)習(xí)視頻自動(dòng)描述方法的去噪和時(shí)序信息壓縮等技術(shù),對(duì)于視頻自動(dòng)化描述仍然有著廣闊的研究空間,值得進(jìn)一步探討。
其次,在視頻生成的過程中,存在著關(guān)于視頻中人物動(dòng)作識(shí)別的問題,對(duì)于短期的時(shí)序信息,如光流,密集軌跡和三維卷積神經(jīng)網(wǎng)絡(luò)特征(C3D)等,已經(jīng)有研究者提出了更優(yōu)秀的解決方案。但是,建模長(zhǎng)達(dá)數(shù)十秒甚至數(shù)百秒的長(zhǎng)期時(shí)序信息仍然面對(duì)著很大的問題。從現(xiàn)有的基于深度學(xué)習(xí)的視頻自動(dòng)描述方法來看,有效的視頻信息特征表達(dá)將大大提高系統(tǒng)性能,同時(shí)大大提升人工智能視頻生成的準(zhǔn)確率和高效性。
本文基于的AI 視頻生成都是單事件視頻的描述,針對(duì)多事件和多事件視頻的描述還處于起步階段,沒有足夠的經(jīng)驗(yàn),還缺乏相應(yīng)的視頻數(shù)據(jù)集和理論方法?;谡Z(yǔ)義的事件分離,目前只針對(duì)每個(gè)事件的描述以及事件之前和之后的依存關(guān)系和關(guān)聯(lián)的考慮,尚未開始對(duì)整個(gè)視頻進(jìn)行描述的探索。所以,未來對(duì)于整個(gè)視頻的完整描述也是研究的熱點(diǎn)和方向。
最后,本文提出的AI 視頻主要試圖通過自動(dòng)化質(zhì)量控制來改善視頻制作過程。這是為了減少執(zhí)行相同任務(wù)所需的人工干預(yù)。從字面上講,經(jīng)過訓(xùn)練的AI 軟件可以在觀看者會(huì)發(fā)現(xiàn)令人反感的圖像中尋找事物?!熬拖袷钦谟?xùn)練一臺(tái)機(jī)器,以發(fā)現(xiàn)原來沒有被發(fā)現(xiàn)的事物,這就是AI 啟用視頻編碼的局限性所在。專家試圖用軟件最好地表現(xiàn)人類視覺系統(tǒng)幾乎是不可能的?!痹瓙哿⑿琶襟w解決方案投資組合管理副總裁卡爾·弗格森說,人們針對(duì)這個(gè)問題的研究,一直在嘗試,二三十年都沒有成功,而且他認(rèn)為沒有人會(huì)永遠(yuǎn)獲得人類視覺系統(tǒng)的精確映射。出現(xiàn)這一問題的主要原因是,與基于度量的AI 觀看模型相比,人類觀看的主觀性質(zhì)比較強(qiáng)烈,在人們認(rèn)為現(xiàn)實(shí)中更好的圖像質(zhì)量以及測(cè)量工具沒有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)之前,研究只會(huì)始終得到不同的結(jié)果。但是,AI 視頻生產(chǎn)即使有其局限性,AI 也將成為未來壓縮引擎不可或缺的一部分。直到該技術(shù)能夠真正匹配人類視覺系統(tǒng)的復(fù)雜性和細(xì)微差別,人類干預(yù)仍將是高質(zhì)量視頻壓縮的必要要素。充其量來說,當(dāng)人類不得不介入以固定圖像質(zhì)量時(shí),人工智能將不斷降低實(shí)例的百分比。
本文提出了基于人工智能的視頻輔助生產(chǎn)系統(tǒng)應(yīng)用和實(shí)踐嘗試,盡管在實(shí)際應(yīng)用中還存在著很多需要改進(jìn)的地方,但是從整體上看,基本上實(shí)現(xiàn)了預(yù)期的效果,提出了一種結(jié)構(gòu)化的視頻生成操作,從視頻語(yǔ)義理解、視頻智能化創(chuàng)作、視頻編碼處理等不同方面分別提出了具體的方法,為之后的研究提供了思路和方向,之后的研究也將圍繞這些問題展開,不斷在原有算法和功能的基礎(chǔ)上進(jìn)行算法的迭代和優(yōu)化操作,同時(shí)在縱向領(lǐng)域不斷探索不同行業(yè)及領(lǐng)域的最佳實(shí)踐,以期在人工智能視頻+5G 時(shí)代全面來臨之際,為傳統(tǒng)媒體產(chǎn)業(yè)升級(jí)換代底層技術(shù)提供了業(yè)內(nèi)領(lǐng)先的生產(chǎn)力工具和穩(wěn)定高效的服務(wù)能力。