王洪艷,孟祥利,談鶴然
(1.滄州廣播電視臺,河北 滄州 061000;2.日照廣播電視臺,山東 日照 276826;3.遼寧廣播電視集團(tuán)(遼寧廣播電視臺),遼寧 沈陽 110820)
5G時(shí)代,人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)等新一代信息技術(shù)與千行百業(yè)的融合進(jìn)一步深入,以人工智能為代表的重大關(guān)鍵技術(shù)正向創(chuàng)新驅(qū)動、應(yīng)用深化、規(guī)范發(fā)展新階段邁進(jìn)?!稄V播電視和網(wǎng)絡(luò)視聽“十四五”科技發(fā)展規(guī)劃》回顧了“十三五”期間廣播電視和網(wǎng)絡(luò)視聽發(fā)展成果,人工智能技術(shù)與廣播電視領(lǐng)域的融合不斷深化,在廣播電視內(nèi)容生產(chǎn)、分發(fā)傳輸、監(jiān)測監(jiān)管等方面都有融合應(yīng)用,如智能處理、智能識別、智能分析、智能生成以及智能傳輸?shù)取1疚囊?G時(shí)代AI智能剪輯平臺的建設(shè)與應(yīng)用為探討重點(diǎn),為人工智能助力廣播電視和網(wǎng)絡(luò)視聽內(nèi)容制作提供參考。
5G(第五代移動通信技術(shù))商用三年多以來,網(wǎng)絡(luò)設(shè)施加速覆蓋。截至2022年9月末,我國5G基站總數(shù)達(dá)222萬個(gè),相關(guān)融合創(chuàng)新應(yīng)用也在不斷深化,以5G、人工智能為代表的新一代信息技術(shù)在重點(diǎn)行業(yè)和典型場景的應(yīng)用持續(xù)深化。2022年,中國信息通信研究院發(fā)布《人工智能白皮書(2022年)》,指出,自2016年起,先后有四十多個(gè)國家將人工智能發(fā)展上升為國家戰(zhàn)略,我國“十四五”規(guī)劃綱要明確提出大力發(fā)展人工智能產(chǎn)業(yè),陸續(xù)批復(fù)北京、上海、深圳等十五個(gè)國家新一代人工智能創(chuàng)新發(fā)展試驗(yàn)區(qū)[1]。人工智能向創(chuàng)新驅(qū)動、應(yīng)用深化、規(guī)范發(fā)展新階段發(fā)展,在算法方面,超大規(guī)模預(yù)訓(xùn)練模型成為重要方向;在基礎(chǔ)算力方面,單點(diǎn)算力不斷提升,并向算力定制化、多元化方向發(fā)展;在數(shù)據(jù)層面,數(shù)據(jù)服務(wù)向精細(xì)化和定制化發(fā)展。
5G時(shí)代,人工智能與廣播電視的融合持續(xù)深化,在超高清制播、融媒體演播、內(nèi)容生產(chǎn)、智能主播以及監(jiān)測監(jiān)管等領(lǐng)域有深入的應(yīng)用。如《廣播電視和網(wǎng)絡(luò)視聽“十四五”科技發(fā)展規(guī)劃》提出“加快媒體深度融合,建設(shè)智慧廣電新平臺”發(fā)展目標(biāo)。5G時(shí)代,人工智能在廣播電視領(lǐng)域有更加全面的應(yīng)用,也推動了智慧廣電建設(shè)。例如,AI推薦算法優(yōu)化技術(shù),能優(yōu)化廣播電視和網(wǎng)絡(luò)視聽的智能推薦算法;智能數(shù)據(jù)標(biāo)簽與結(jié)構(gòu)化技術(shù),應(yīng)用于廣播電視和網(wǎng)絡(luò)視聽內(nèi)容、用戶數(shù)據(jù)標(biāo)簽的自動化識別、命名,可提升廣播電視行業(yè)大數(shù)據(jù)資源的質(zhì)量。AI字幕、AI無障礙播報(bào)、虛擬主播以及人物檔案數(shù)字化等技術(shù)推進(jìn)制播體系技術(shù)升級與智慧制播的發(fā)展。人工智能在語音識別、多模態(tài)語音識別、降噪、斷句等關(guān)鍵技術(shù)的突破,使AI字幕能夠更廣泛地應(yīng)用到直播類與非直播類節(jié)目制作中[2]。AI無障礙播報(bào)中使用人工智能情感分析、語義分析、手語動作驅(qū)動及表情驅(qū)動等技術(shù),能夠?yàn)閺V播電視節(jié)目提供手語、表情、唇語等多種表達(dá)方式[3]。虛擬主播技術(shù)發(fā)展迅速,目前已被廣泛應(yīng)用于新聞、綜藝、體育、財(cái)經(jīng)及氣象等廣播電視節(jié)目中,以短視頻主播、數(shù)字網(wǎng)紅、直播帶貨等虛擬形象為主。以2022年兩會為例,央視網(wǎng)推出《兩會C+時(shí)刻》節(jié)目,運(yùn)用實(shí)時(shí)面部+動作捕捉、實(shí)時(shí)渲染、深度學(xué)習(xí)等人工智能技術(shù),實(shí)現(xiàn)虛擬數(shù)字人小C與真人互動。人工智能與廣播電視制作剪輯的結(jié)合,進(jìn)一步提升了廣播電視節(jié)目制作剪輯效率。依托5G高速率、低時(shí)延、大連接特點(diǎn),AI智能剪輯平臺的運(yùn)行更加流暢,能夠更好地為廣播電視節(jié)目服務(wù)。
5G時(shí)代,視頻剪輯的發(fā)展面臨新的形勢。4K/8K、3D、VR/AR/MR、高幀率(HFR)、高動態(tài)范圍(HDR)、廣色域(WCG)視頻迅速發(fā)展,視頻剪輯難度隨之提升[4]。5G時(shí)代,媒體融合的深度與廣度進(jìn)一步拓展,在此背景下產(chǎn)生龐大的視頻資源。視頻素材分散、重復(fù)性工作耗時(shí)費(fèi)力,僅依靠傳統(tǒng)剪輯軟件與人工剪輯,很難在短時(shí)間內(nèi)完成剪輯工作,造成視頻資源浪費(fèi)、優(yōu)質(zhì)資源埋沒、剪輯時(shí)長增加以及人工成本增加等問題[5]。人工智能技術(shù)在智能識別、智能分析、智能生成及智能決策等方面的發(fā)展,能夠有效提升視頻剪輯的效率與質(zhì)量,通過視頻標(biāo)簽、視頻指紋、圖像搜索及內(nèi)容審核等應(yīng)用,提升廣播電視與網(wǎng)絡(luò)視聽節(jié)目的智能化剪輯能力,促進(jìn)廣播電視和網(wǎng)絡(luò)視聽行業(yè)高質(zhì)量、創(chuàng)新性發(fā)展。
AI智能剪輯平臺系統(tǒng)框架主要分為四大部分,包括媒資管理、視頻內(nèi)容理解、視頻內(nèi)容檢索以及視頻內(nèi)容生成,如圖1所示。媒資管理模塊包括電影、電視、短視頻及廣告等多種媒介資源,滿足融媒體時(shí)代多樣化的視頻剪輯要求。在視頻內(nèi)容理解層面,從視頻數(shù)據(jù)幀、鏡頭和場景三個(gè)層次進(jìn)行視頻理解與解析,結(jié)合不同層次的特點(diǎn),通過圖像、語音、文字以及視頻切片完成跨模態(tài)視頻內(nèi)容識別。在視頻內(nèi)容檢索層面,通過跨模態(tài)檢索實(shí)現(xiàn)自然語言、語音或者圖像的視頻檢索模式,實(shí)現(xiàn)關(guān)鍵詞、自然語句、視頻幀及視頻鏡頭等多粒度內(nèi)容快速檢索。在視頻內(nèi)容生成層面,能夠?qū)崿F(xiàn)依據(jù)創(chuàng)作劇本的視頻內(nèi)容生成、學(xué)習(xí)剪輯師或頂流短視頻的剪輯方法[6]。
圖1 AI智能剪輯平臺系統(tǒng)框架圖
AI智能剪輯平臺的技術(shù)框架主要分為CDL數(shù)據(jù)庫、智能語義分析以及智能剪輯三大板塊,如圖2所示。CDL數(shù)據(jù)庫負(fù)責(zé)大量視頻的存儲,智能語義分析包括特征提取、語義分類兩個(gè)方面,智能剪輯流程包括采集視頻圖像、特征提取、關(guān)鍵幀提取以及生成視頻。
圖2 AI智能剪輯平臺技術(shù)框架
AI智能剪輯平臺的功能模塊包括業(yè)務(wù)系統(tǒng)、視頻分析及基礎(chǔ)資源三大模塊,如圖3所示。業(yè)務(wù)系統(tǒng)中主要有新聞網(wǎng)、制作網(wǎng)、媒資庫等,視頻分析包括智能審核、智能識別及智能編輯等功能,基礎(chǔ)資源包括主機(jī)、存儲、網(wǎng)絡(luò)及數(shù)據(jù)庫等模塊。智能審核功能能夠?qū)崿F(xiàn)對視頻聲音、圖像、文字的涉黃、涉暴、涉政識別和定位。智能識別功能中,人臉識別與語音識別是基于大數(shù)據(jù)深度學(xué)習(xí)方案,實(shí)現(xiàn)視頻人物人臉及語音的識別。文字識別、物體識別能夠幫助剪輯工作者快速定位文字與物體在視頻中的位置。幀標(biāo)簽識別能夠自動識別截圖畫面標(biāo)簽,完成物體、場景、動物等萬種標(biāo)簽的自動識別工作。智能編輯實(shí)現(xiàn)精彩錦集、智能拆條、視頻分類、智能封面、數(shù)字水印及片頭片尾等功能。以精彩集錦為例,通過AI智能剪輯平臺,能夠?qū)崿F(xiàn)視頻關(guān)鍵點(diǎn)的智能識別分析,并自動生成體育賽事、游戲活動等精彩集錦。以智能封面為例,AI智能剪輯平臺通過視頻內(nèi)容理解與海量用戶行為數(shù)據(jù)分析,能夠智能化地選出最優(yōu)關(guān)鍵幀和關(guān)鍵片段作為視頻封面。
圖3 AI智能剪輯平臺功能模塊
AI智能剪輯平臺在廣播電視與網(wǎng)絡(luò)視聽領(lǐng)域有廣泛的應(yīng)用,如央視網(wǎng)推出的原創(chuàng)融媒體節(jié)目《春晚進(jìn)行時(shí)》應(yīng)用索貝AI智能剪輯,AI智能剪輯系統(tǒng)能夠獲取6路攝像機(jī)畫面并通過人臉識別、畫面清晰度識別、景別識別等功能進(jìn)行智能化剪輯,推動了互動綜藝類節(jié)目全自動、實(shí)時(shí)、智能輸出成片的發(fā)展。又如湖南衛(wèi)視《我是歌手》節(jié)目通過5G高新視頻AI智能剪輯平臺完成節(jié)目的剪輯工作,有效解決了節(jié)目云錄制、直播視頻實(shí)時(shí)采集、實(shí)時(shí)監(jiān)控、1080P視頻回傳等關(guān)鍵性問題,配備大眾評審團(tuán)臉部識別系統(tǒng),提供定制表情AI識別功能。5G高新視頻AI智能剪輯平臺完成《我是歌手》節(jié)目九期云錄制,處理時(shí)長超過3 821 h,切圖識別超過560萬張,生成拆條視頻超過38萬段,精選視頻超過15萬段,為節(jié)目后期制作提供了豐富的視頻資源。2021年,首屆廣播電視和網(wǎng)絡(luò)視聽人工智能應(yīng)用創(chuàng)新大賽中,智能剪輯類獎項(xiàng)有17個(gè),其中一等獎有三個(gè),包括智能語音轉(zhuǎn)寫系統(tǒng)、5G高新視頻AI智能剪輯平臺以及基于深度學(xué)習(xí)框架的智能視頻內(nèi)容生產(chǎn)平臺。人工智能與剪輯技術(shù)的結(jié)合,能夠有效提升廣播電視與網(wǎng)絡(luò)視聽節(jié)目的制作效率,推動廣播電視高質(zhì)量、創(chuàng)新性發(fā)展。
5G時(shí)代,人工智能、大數(shù)據(jù)、云計(jì)算等技術(shù)與廣播電視的融合更為緊密?;谌斯ぶ悄芗夹g(shù)的AI智能剪輯平臺能夠有效提升剪輯效率,降低剪輯成本,提高視頻資源的利用效率,推動廣播電視從業(yè)人員創(chuàng)作出更多優(yōu)質(zhì)作品,滿足受眾日益多樣化、大眾化、個(gè)性化的視聽需求。