白秀梅,徐世民
(1.黑龍江省氣象服務(wù)中心,黑龍江 哈爾濱150036;2.牡丹江市氣象局,黑龍江 牡丹江 157000)
AI虛擬主播可定義為,在互聯(lián)網(wǎng)時(shí)代,結(jié)合人工智能與三維虛擬形象技術(shù),并可自主承擔(dān)策劃、編輯、制作、導(dǎo)播、主持等一系列工作的主播。是一個(gè)由計(jì)算機(jī)虛擬合成的、高度逼真的3D虛擬形象。
2018年搜狗和新華社聯(lián)合推出了全球首個(gè)AI合成主播。2018年5月,虛擬主持人“康曉輝”有著與真人相似的外形,不僅與央視記者江凱一同主持了《直播長(zhǎng)江》安徽篇,還在現(xiàn)場(chǎng)進(jìn)行了實(shí)時(shí)互動(dòng)?!翱禃暂x”的一大亮點(diǎn)就在于其背后的3D虛擬形象自動(dòng)生成技術(shù)(PTA),該技術(shù)讓人們擺脫了3D虛擬形象定制所需的高昂成本,只需普通攝像頭和一張自拍,就可實(shí)時(shí)生成與自己相似且更美觀的3D虛擬形象。
2019年春晚AI虛擬主持人團(tuán)隊(duì)誕生,在這套AI虛擬主播的方案中,只需輸入一段既有的新聞文本,主播就可實(shí)時(shí)進(jìn)行播報(bào),且發(fā)音與唇形、面部表情等也完全吻合。
AI虛擬主播的實(shí)現(xiàn)方式大致可分為三種:
(1)“真人操作”模式,這一模式靈感來(lái)源于影視業(yè),需要配套真人演繹,前期需要進(jìn)行大量的數(shù)據(jù)采集,中期需要?jiǎng)硬对O(shè)備來(lái)配合播報(bào),后期需要對(duì)視頻制作進(jìn)行再加工。從前期準(zhǔn)備到后期制作,成本耗費(fèi)不高,該模式目前僅限于一些大媒體。
(2)“AR+AI”模式,靈感來(lái)源于全息投影,實(shí)現(xiàn)方式依賴(lài)于增強(qiáng)現(xiàn)實(shí)技術(shù)。這一模式,需要提前設(shè)置好AI虛擬主播的回答、動(dòng)作、表情等,并通過(guò)其與真人主播的互動(dòng),來(lái)制造真實(shí)感。且因?yàn)锳I虛擬主播是后期做上去的,所以現(xiàn)場(chǎng)真人主持與其互動(dòng)時(shí),就要靠“演”。但這種實(shí)現(xiàn)方式,對(duì)真人主持的要求極高,對(duì)后期制作的要求也很高,從應(yīng)用層面來(lái)看,要大范圍推廣非常難。
(3)全AI化模式,靈感來(lái)源于早期主持人,實(shí)現(xiàn)方式和效果卻比早期主持人好很多。這一模式分成定制AI虛擬主播和使用視頻制作后臺(tái)兩步,其將上述兩種方式中“人”的成分大大剔除,專(zhuān)注于用AI來(lái)替代人力,將虛擬主播的語(yǔ)音、情緒、動(dòng)作,乃至后期視頻制作需要的圖片、視頻等都集成到后臺(tái)編輯系統(tǒng)中。目前來(lái)看,它是更接近全自動(dòng)化,也更節(jié)省制作成本、提升制作效率的方式。
全動(dòng)態(tài)3D虛擬形象生成——PTA技術(shù),即photo-to-avatar技術(shù),只需要在智能手機(jī)中導(dǎo)入1張人臉照片,即可自動(dòng)生成一個(gè)全動(dòng)態(tài)3D虛擬形象。P2A技術(shù)通過(guò)深度學(xué)習(xí)算法,利用了人臉的先驗(yàn)知識(shí),即使只是看到一個(gè)人的照片,也可以想象出這個(gè)人的長(zhǎng)相及三維特征,全自動(dòng)構(gòu)建出與照片中人臉高度匹配的全動(dòng)態(tài)3D虛擬形象。虛擬形象五官與照片人物高度匹配,用戶(hù)還可自定義衣服、飾品、背景、光線等效果,創(chuàng)建過(guò)程簡(jiǎn)單快速,生成的3D虛擬形象能被實(shí)時(shí)人臉表情跟蹤SDK所驅(qū)動(dòng)。更重要的是,這種解決方案并不需要依賴(lài)于深度傳感攝像頭,普通的智能手機(jī)攝像鏡頭就能完成。
AI虛擬主播的技術(shù)核心是語(yǔ)音動(dòng)畫(huà)合成技術(shù)(STA),只要輸入文字或語(yǔ)音,就可以生成具備精確發(fā)音口型的虛擬主播播報(bào)視頻。在這一基礎(chǔ)上,為了讓虛擬主播們有更加豐富的表現(xiàn)力,從人物造型、聲音風(fēng)格、表情情緒、肢體動(dòng)作等細(xì)節(jié),都給到更多表達(dá)的可能性,豐富人物的表現(xiàn)力。
90+常用肢體動(dòng)作、17種人物音色、8種表情情緒、多元化人物造型,編輯們?cè)诤笈_(tái)輸入文字內(nèi)容時(shí),只需再點(diǎn)擊選擇所需的音色、情緒、動(dòng)作,就可以智能輸出視頻。
科技的發(fā)展使得語(yǔ)音識(shí)別和自然語(yǔ)言處理的準(zhǔn)確率都達(dá)到了97%以上,從而使虛擬主播達(dá)到了與真人主持一樣的口才。
讓虛擬人物播報(bào)呈現(xiàn)出自然狀態(tài),就必須解決口型匹配、表情匹配,乃至肢體動(dòng)作匹配等問(wèn)題。
虛擬主持人“康曉輝”在播報(bào)內(nèi)容的過(guò)程中,能做出和真人一樣的口型、表情等變化,頭部也能做出點(diǎn)頭、搖頭等一系列動(dòng)作,這些并不是提前做好的動(dòng)畫(huà),而是可以實(shí)時(shí)操控的。這個(gè)實(shí)時(shí)驅(qū)動(dòng)就是通過(guò)虛擬形象驅(qū)動(dòng)技術(shù)實(shí)現(xiàn)的。
實(shí)時(shí)人臉表情跟蹤SDK能夠精確捕捉近50個(gè)面部肌肉運(yùn)動(dòng)節(jié)點(diǎn),將面部表情同步至虛擬形象的面部上,從而實(shí)現(xiàn)人臉實(shí)時(shí)驅(qū)動(dòng)虛擬形象。
在視頻生成效率上,在目前最新研發(fā)的GPU方案下,最快可實(shí)現(xiàn)1:1的視頻生成效率,即生成3 min的播報(bào)新聞,只需要3 min的渲染時(shí)間就能完成。所以在突發(fā)氣象災(zāi)害的場(chǎng)合,AI虛擬主播也能快速應(yīng)對(duì),快速生成視頻、穩(wěn)定輸出內(nèi)容、準(zhǔn)確播報(bào)不出錯(cuò)。
隨后將陰睛雨雪等氣象符號(hào)和各種預(yù)警信號(hào)加在畫(huà)面中,并且讓AI虛擬氣象主播與刮風(fēng)下雨、鵝毛大雪、秋風(fēng)掃落葉、春暖花開(kāi)等自然景觀融為一體。通過(guò)AI虛擬氣象主播的豐富的表情、多樣的動(dòng)作和精彩的配音讓市民在觀看時(shí)對(duì)天氣現(xiàn)象會(huì)有一個(gè)更加形象和深刻的認(rèn)識(shí),同時(shí)也更有利于氣象科普知識(shí)的宣傳。
一個(gè)優(yōu)秀的虛擬氣象主播具有以下特點(diǎn):
(1)時(shí)效性強(qiáng),可以根據(jù)各類(lèi)氣象信息快速制作視頻,在5-10 min內(nèi)制作完成氣象影視節(jié)目,做到了快、穩(wěn)、準(zhǔn)。
(2)可24 h播報(bào),保證節(jié)目穩(wěn)定性及應(yīng)急需求。
(3)具有豐富的面部表情和肢體語(yǔ)言,使天氣預(yù)報(bào)生動(dòng)、有趣。
(4)能把天氣預(yù)報(bào)中重要的內(nèi)容夸張地表現(xiàn)出來(lái),給觀眾留下深刻的印象。非常有利于預(yù)警信號(hào)的發(fā)布和氣象科普知識(shí)的宣傳。
(5)生成的氣象影視節(jié)目數(shù)據(jù)量小,大大節(jié)省了存儲(chǔ)空間,對(duì)網(wǎng)絡(luò)帶寬要求很低,通過(guò)網(wǎng)絡(luò)傳輸?shù)诫娨暸_(tái)的速度很快。每年節(jié)省大量網(wǎng)費(fèi)。
(6)與標(biāo)準(zhǔn)的虛擬主持人相比,節(jié)省了大量成本,制作效率大幅提升。