談冰 安徽聽見科技有限公司副總經(jīng)理
非常榮幸能夠收到第五屆中國(guó)廣播電視紫金論壇的邀請(qǐng),與大家分享科大訊飛人工智能技術(shù)的最新進(jìn)展,介紹科大訊飛人工智能技術(shù)和語音技術(shù)在廣電行業(yè)的賦能應(yīng)用。
先來看一段央視《新聞聯(lián)播》。其中使用了科大訊飛最新的人工智能語音合成技術(shù),來模擬李瑞英和康輝的聲音,自動(dòng)把他們的播音稿文本轉(zhuǎn)換成聲音播放出來。
業(yè)界通常把人工智能的發(fā)展分為三個(gè)階段,第一個(gè)階段是運(yùn)算智能,在這個(gè)階段最具典型的一個(gè)事件就是AlphaGo的圍棋大賽。第二個(gè)階段是感知智能和運(yùn)動(dòng)智能,感知智能就是讓計(jì)算機(jī)做到能聽會(huì)說,能看會(huì)認(rèn);同時(shí)還有運(yùn)動(dòng)智能,讓計(jì)算機(jī)做到能抓會(huì)握,能走會(huì)跑。第三個(gè)階段,人工智能的發(fā)展方向一定是認(rèn)知智能,讓計(jì)算機(jī)和人一樣,能理解,會(huì)思考。
隨著人工智能的發(fā)展,科大訊飛在倡導(dǎo)訊飛超腦計(jì)劃。這個(gè)計(jì)劃是以語音和語言為入口的“認(rèn)知革命”,它包括四個(gè)維度,第一個(gè)維度是通過語音識(shí)別技術(shù)讓機(jī)器能聽,第二個(gè)維度是通過語音合成技術(shù)讓機(jī)器會(huì)說,第三個(gè)維度是通過知識(shí)圖譜技術(shù)讓機(jī)器能理解,第四個(gè)維度是通過邏輯推理技術(shù)讓機(jī)器會(huì)思考。
自然度是語音合成技術(shù)最關(guān)鍵的一個(gè)指標(biāo)。什么叫自然度?就是機(jī)器說話是不是像我們?nèi)艘粯诱f話,那么連貫?zāi)軌蜃尨蠹衣牰I(yè)界采取五分制評(píng)價(jià)機(jī)器人說話的自然度,廣播電臺(tái)、電視臺(tái)的專業(yè)播音員、主持人,他們的說話自然度可以達(dá)到五分,略帶一些方言,有些平舌音,翹舌音不分的說話自然度大約是四分。在國(guó)際上語音合成最權(quán)威Blizzard Challenge語音合成國(guó)際大賽中,科大訊飛已經(jīng)連續(xù)12年奪冠,并且是唯一按照評(píng)分體系自然度得到4.7分,超過了普通人的4分標(biāo)準(zhǔn)。
圖1 人工智能發(fā)展的三個(gè)階段
圖2 以語音和語言為入口的“認(rèn)知革命”
圖3 讓機(jī)器會(huì)說-語音合成
在央視大型紀(jì)錄片《創(chuàng)新中國(guó)》中,根據(jù)紀(jì)錄片的配音文稿,我們利用AI模擬李易老師的人聲配音合成,其效果做到和李易老師本人的配音差異很小。
科大訊飛于2016年首次參加國(guó)際上最權(quán)威的CHiME國(guó)際多通道語音分離和識(shí)別比賽,在全部測(cè)試場(chǎng)景上,以顯著優(yōu)勢(shì)獲得第一名。參賽隊(duì)伍包括英國(guó)劍橋大學(xué),美國(guó)斯坦福研究院、卡內(nèi)基梅隆大學(xué),日本NTT、日立、三菱,新加坡南洋理工大學(xué),法國(guó)國(guó)家信息與自動(dòng)化研究所等國(guó)際著名的科研機(jī)構(gòu)與企業(yè)。
再來介紹語音識(shí)別在廣電行業(yè)的應(yīng)用場(chǎng)景。全國(guó)兩會(huì)期間,我們與人民日?qǐng)?bào)社、咪咕視訊、新奧特合作,基于他們的網(wǎng)絡(luò)直播平臺(tái),為李克強(qiáng)總理政府工作報(bào)告提供中英文實(shí)時(shí)字幕,并提供實(shí)時(shí)的漢英、英漢的翻譯和漢維(吾爾)語的翻譯。
機(jī)器具備人工智能的能力,其中一個(gè)非常重要的因素是讓機(jī)器能理解。知識(shí)圖譜是讓機(jī)器能理解的關(guān)鍵技術(shù)??拼笥嶏w于2016年獲得國(guó)際知識(shí)圖譜構(gòu)建大賽(NIST TAC Knowledge Base Population Entity Discovery and Linking Track)核心任務(wù)全球第一。
圖4 第4屆CHiME Challenge比賽測(cè)試
這次大賽當(dāng)中有個(gè)非常有趣的案例,就是 圖5中呈現(xiàn)的這句話,即美國(guó)大選期間,特朗普炮轟杰布·布什:伊拉克戰(zhàn)爭(zhēng)都是你哥哥的錯(cuò)!作為我們普通人來看這句話,可以明白這句話的含義??墒且層?jì)算機(jī)能夠聽懂,并且明白這句話是什么意思,需要基于大量的基礎(chǔ)信息,你得讓計(jì)算機(jī)知道美國(guó)和伊拉克是兩個(gè)國(guó)家,歷史上這兩國(guó)之間發(fā)生過什么事件,美國(guó)總統(tǒng)是誰,他哥哥和弟弟是什么關(guān)系,伊拉克戰(zhàn)爭(zhēng)爆發(fā)的背景情況等等,把這些信息提供給計(jì)算機(jī),計(jì)算機(jī)才能自我學(xué)習(xí),自我分析,知道美國(guó)和和伊拉克的戰(zhàn)爭(zhēng),美國(guó)伊拉克是兩個(gè)國(guó)家,杰布·布什是誰。
威諾格拉德模式挑戰(zhàn)賽( Winograd Schema Challenge)是圖靈測(cè)試的一個(gè)變種,旨在判定AI系統(tǒng)的常識(shí)推理能力。國(guó)際上現(xiàn)在逐漸用威諾格拉德模式挑戰(zhàn)取代圖靈測(cè)試??拼笥嶏w在2016年國(guó)際著名的威諾格拉德模式挑戰(zhàn)賽中取得第一名。挑戰(zhàn)模式測(cè)試中有一個(gè)非常有趣的案例,就是在圖6框框中列出的兩道題,一道題是“爸爸沒法舉起他的兒子,因?yàn)樗苤亍薄枺赫l重?另一道題是“爸爸沒辦法舉起他的兒子,因?yàn)樗芴撊酢?。問:誰虛弱?作為我們?nèi)藖碇v,非常清楚知道這兩道題中的他指的是誰??墒且寵C(jī)器能夠明白,并且回答出這兩個(gè)他到底指的是誰,要讓機(jī)器能具備邏輯推理的能力。
圖5 國(guó)際知識(shí)圖譜構(gòu)建大賽知識(shí)圖譜測(cè)試
圖6 Winograd Schema Challenge挑戰(zhàn)賽機(jī)器邏輯推理測(cè)試
基于科大訊飛在人工智能和語音技術(shù)方面的積累,科大訊飛成為國(guó)家人工智能創(chuàng)新聯(lián)盟的理事單位,在2017年11月8日正式成立的中國(guó)科學(xué)院人工智能產(chǎn)學(xué)研創(chuàng)新聯(lián)盟中,科大訊飛也是聯(lián)盟的理事單位??萍疾吭?017年10月份,發(fā)布首批國(guó)家人工智能開放創(chuàng)新平臺(tái),科大訊飛也很榮幸承擔(dān)這個(gè)平臺(tái)智能語音方向的研究工作。2017年12月11日,科技部批復(fù)依托訊飛建設(shè)認(rèn)知智能國(guó)家重點(diǎn)實(shí)驗(yàn)室。2017年《MIT科技評(píng)論》評(píng)選“全球最聰明50家公司”的榜單在北京全球首發(fā)。有9家來自中國(guó),分別是:科大訊飛(第6位,002230.SZ)、騰訊(第8位,00700.HK)、曠視科技(第11位)、大疆(第25位)、富士康(第33位,02038.HK)、阿里巴巴(第41位)、HTC(第42位)、螞蟻金服(第49位)、百度(第50位)。
在大數(shù)據(jù)、云計(jì)算、4G、超級(jí)計(jì)算機(jī)等技術(shù)飛速發(fā)展的情況下,人工智能逐漸看到了實(shí)現(xiàn)的希望,由此成為新的產(chǎn)業(yè)發(fā)展主導(dǎo),以加速推動(dòng)整個(gè)廣電行業(yè)的升級(jí)和變革。人工智能技術(shù)可以應(yīng)用到廣電包括制作、集成、傳輸、分發(fā)、接收等環(huán)節(jié)在內(nèi)的整個(gè)產(chǎn)業(yè)鏈條。
合肥市廣播電視臺(tái)的長(zhǎng)期目標(biāo)是利用人工智能技術(shù)優(yōu)勢(shì),以智能語音技術(shù)為突破口,以電視臺(tái)、廣播電臺(tái)、報(bào)社、融媒體為內(nèi)容來源,以智能語音和人工智能技術(shù)為基礎(chǔ),建設(shè)智能語音服務(wù)和應(yīng)用平臺(tái),針對(duì)電視臺(tái)節(jié)目生產(chǎn)進(jìn)行快速發(fā)布、達(dá)到聚攏內(nèi)容的目的,對(duì)內(nèi)容進(jìn)行監(jiān)管、達(dá)到安全播出的目的,并且可以利用用戶畫像進(jìn)行內(nèi)容推薦運(yùn)營(yíng)。
接下來和大家分享一下,科大訊飛基于自己領(lǐng)先的人工智能技術(shù)在廣電行業(yè)的應(yīng)用。在向媒體的推廣科大訊飛人工智能技術(shù)過程中,早前我們有所擔(dān)心,對(duì)媒體行業(yè)來講,安全播出是第一位的,當(dāng)我們的核心技術(shù)還沒有成熟到這種狀態(tài),我們也不敢輕易把這項(xiàng)技術(shù)在媒體應(yīng)用。通過多年的發(fā)展,人工智能技術(shù)不斷迭代更新,現(xiàn)在科大訊飛的人工智能技術(shù),尤其是語音技術(shù),在媒體領(lǐng)域已得到越來越多的應(yīng)用。
圖7是科大訊飛的人工智能技術(shù)在媒體領(lǐng)域的應(yīng)用規(guī)劃。最底層是提供人工智能所搭建的智慧媒體云平臺(tái),包括語音轉(zhuǎn)寫、語音合成、文本翻譯、人臉識(shí)別、聲紋識(shí)別、個(gè)性化推薦、用戶畫像…在智慧媒體云平臺(tái)的基礎(chǔ)上,圍繞媒體的采編播管存的各個(gè)環(huán)節(jié),提供我們核心技術(shù)產(chǎn)品化的應(yīng)用,通過多渠道媒體的內(nèi)容聚合,向各種軟件層面或硬件載體提供內(nèi)容的分發(fā)。
接下來分三個(gè)層面做一個(gè)介紹。第一個(gè)層面是內(nèi)容生產(chǎn)平臺(tái)。以上介紹了基于智慧媒體云平臺(tái)面向媒體行業(yè)采編播審存的主要工作流程,提供語音轉(zhuǎn)寫字幕文稿、虛擬播報(bào)、直播字幕,內(nèi)容管理、內(nèi)容獲取、監(jiān)管研判等應(yīng)用。下面介紹一些應(yīng)用案例。例如在采編環(huán)節(jié),科大訊飛在今年3月份,基于我們的語音轉(zhuǎn)寫技術(shù)發(fā)布了聽見APP,聽見APP可以在網(wǎng)上免費(fèi)下載。聽見APP是一款針對(duì)媒體記者推出的以語音轉(zhuǎn)文字為核心功能的手機(jī)應(yīng)用,同步實(shí)現(xiàn)采訪錄音和新聞初稿生產(chǎn),提高新聞制作的時(shí)效性。記者采訪受訪對(duì)象,應(yīng)用聽見APP不僅可以把采訪內(nèi)容的聲音實(shí)時(shí)錄音,并且還可以把采訪的錄音實(shí)時(shí)轉(zhuǎn)寫成文字,前期采訪記者在返回臺(tái)里的途中,即可把采訪的錄音和文字發(fā)送給后期編輯,稍加編輯就能形成一篇完整的新聞通稿?,F(xiàn)在我們不僅可以做到中文的轉(zhuǎn)寫,包括英文的轉(zhuǎn)寫和中英的翻譯都已經(jīng)集成到聽見APP上,未來還會(huì)支持多語種,多方言的應(yīng)用。
圖7 科大訊飛A.I.+智慧媒體
圖8 A.I.+智慧媒體:內(nèi)容生產(chǎn)平臺(tái)
圖9 采編環(huán)節(jié)典型應(yīng)用-聽見APP
在編輯制作環(huán)節(jié),我們有一個(gè)非常成熟的應(yīng)用叫智能文稿唱詞,通俗講,就是拍唱詞。智能文稿唱詞是一款以語音轉(zhuǎn)文字為核心的字幕和文稿的專業(yè)制作軟件,主要解決媒體行業(yè)字幕制作和音視頻整理成文字的需求,可實(shí)現(xiàn)5-10分鐘完成1小時(shí)的文稿及字幕制作,正確率可以達(dá)到95%以上!
如果嘉賓的口音偏向于方言,或是他的講述具有專業(yè)內(nèi)容,我們只要提前對(duì)軟件做一些訓(xùn)練和優(yōu)化它的轉(zhuǎn)寫效果,準(zhǔn)確率也可以達(dá)到95%以上。
現(xiàn)在傳媒都在做新媒體,不僅有音頻、視頻內(nèi)容,還有平面媒體例如報(bào)社的文本內(nèi)容。我們可以在客戶端中針對(duì)文本信息實(shí)現(xiàn)自動(dòng)播報(bào),將來可以做到自動(dòng)判斷不同的地域特征,不同的地方的聽眾,用當(dāng)?shù)氐姆窖詾槁牨姴?bào),包括全球范圍內(nèi)的多語種,都可以用這種方式進(jìn)行虛擬播報(bào)。
圖10 編輯環(huán)節(jié)典型應(yīng)用-智能文稿唱詞系統(tǒng)
圖11 播出環(huán)節(jié)典型應(yīng)用-虛擬播報(bào)系統(tǒng)
存儲(chǔ)環(huán)節(jié)是智能內(nèi)容管理系統(tǒng)的一個(gè)典型應(yīng)用。有些電臺(tái)、電視臺(tái)歷史媒資的利用率并不高,主要有兩個(gè)原因,一是歷史媒資的時(shí)效性,有些過時(shí)的新聞資訊可能就不會(huì)再使用,二是很多媒資的標(biāo)簽工作現(xiàn)在還是基于人工來做。科大訊飛的智能內(nèi)容管理系統(tǒng)采用智能語音轉(zhuǎn)寫技術(shù),可以把歷史媒資自動(dòng)生成文本信息,將這些文本信息自動(dòng)形成摘要,進(jìn)行智能自動(dòng)的標(biāo)簽化的管理,可以大大提高媒資標(biāo)簽工作的效率。智能全媒體內(nèi)容管理系統(tǒng),可以加強(qiáng)稿庫、資料庫建設(shè),匯集各種稿件、節(jié)目素材、新聞背景資料,集成各種編輯軟件工具,通過用戶畫像、大數(shù)據(jù)分析分類等多維度定位,可以對(duì)內(nèi)容進(jìn)行多渠道推送運(yùn)營(yíng)。
第二個(gè)層面是內(nèi)容監(jiān)審平臺(tái)。面向國(guó)家廣電總局監(jiān)管中心直屬監(jiān)測(cè)臺(tái)、各地方廣電行業(yè)監(jiān)測(cè)部門,通過智能語音轉(zhuǎn)文字技術(shù),將電臺(tái)、電視臺(tái)、新媒體等多路音視頻實(shí)時(shí)/導(dǎo)入轉(zhuǎn)寫,并與關(guān)鍵詞匹配、實(shí)時(shí)報(bào)警,輔助用戶工作,提升監(jiān)管效率。
內(nèi)容監(jiān)審平臺(tái)的業(yè)務(wù)流程見圖13和圖14。
圖12 存儲(chǔ)環(huán)節(jié)典型應(yīng)用-智能內(nèi)容管理系統(tǒng)
圖13 A.I.+智慧媒體:內(nèi)容監(jiān)審平臺(tái)
圖14 內(nèi)容監(jiān)審平臺(tái)的業(yè)務(wù)流程
內(nèi)容獲?。褐饕譃槿竽K,即電視數(shù)據(jù)、電臺(tái)數(shù)據(jù)以及新媒體數(shù)據(jù);
研判監(jiān)管:利用人工智能技術(shù)對(duì)音視頻數(shù)據(jù)進(jìn)行研判,并提供機(jī)器研判結(jié)果;
輿情分析:通過音視頻分析技術(shù)、自然語言理解等技術(shù)實(shí)現(xiàn)輿情方向確認(rèn)、有害分析、趨勢(shì)分析等;
推送處理:對(duì)檢測(cè)出來的輿情信息進(jìn)行向上、向下或平級(jí)推送處理。
通過科大訊飛的語音轉(zhuǎn)寫、人臉識(shí)別、OCR、聲紋識(shí)別、多語種識(shí)別、臺(tái)標(biāo)識(shí)別等技術(shù),可以針對(duì)畫面中的圖文、聲音、圖像自動(dòng)實(shí)時(shí)跟蹤,自動(dòng)提煉出所關(guān)注的關(guān)鍵要素,自動(dòng)報(bào)警,針對(duì)所關(guān)注的關(guān)鍵詞,自動(dòng)進(jìn)行輿情分析并形成輿情摘要。
內(nèi)容監(jiān)審平臺(tái)整體架構(gòu)見圖15。內(nèi)容監(jiān)審平臺(tái)在核心技術(shù)的基礎(chǔ)上構(gòu)建了各種研判分析模型,可以結(jié)合各個(gè)地方監(jiān)管的方向和重點(diǎn),定義不同的研判分析模型,分析結(jié)果推送進(jìn)行相應(yīng)的輿情分析,輿情分析的結(jié)果可以根據(jù)實(shí)際業(yè)務(wù)流程進(jìn)行分發(fā)處理。
圖16是北京某辦微博音視頻監(jiān)管項(xiàng)目的應(yīng)用案例。通過應(yīng)用大數(shù)據(jù)和機(jī)器不斷的深度學(xué)習(xí),網(wǎng)絡(luò)監(jiān)控的準(zhǔn)確度會(huì)越來越高。
第三個(gè)層面是內(nèi)容傳播平臺(tái)。
圖15 內(nèi)容監(jiān)審平臺(tái)整體架構(gòu)
圖16 應(yīng)用案例—北京某辦微博音視頻監(jiān)管項(xiàng)目
圖17 A.I.+智慧媒體:內(nèi)容傳播平臺(tái)
基于科大訊飛提供的AI語音交互的應(yīng)用,眾多二次開發(fā)商能夠快速調(diào)用我們的語音技術(shù),開發(fā)各種硬件終端。例如智能電視終端、智能語音機(jī)頂盒,智能音箱,這些都可能成為智能終端的入口,除了語音入口,同時(shí)它也是內(nèi)容的入口。無論是文本信息、音頻信息都可以通過入口來進(jìn)行傳播。不僅可在有線電視臺(tái)領(lǐng)域傳播,包括音箱、未來的家居、車載都可以成為內(nèi)容傳播的入口。圖18舉例介紹了內(nèi)容傳播平臺(tái)的應(yīng)用場(chǎng)景和傳播載體。圖中利用科大訊飛語音交互技術(shù)做的語音遙控器,只需對(duì)著話筒說出你想看的節(jié)目?jī)?nèi)容,智能電視終端就會(huì)從音像資料庫中調(diào)出相關(guān)的內(nèi)容進(jìn)行播放。還有現(xiàn)在很火的阿爾法蛋機(jī)器人,可以滿足家庭兒童和所有成員應(yīng)用場(chǎng)景的內(nèi)容傳播。阿爾法蛋機(jī)器人集成教育內(nèi)容、超級(jí)電視、視頻通話、智能音箱和自然語音交互等功能,可以用父母的聲音給孩子講故事,可以幫助孩子查各種學(xué)習(xí)資料,家長(zhǎng)可以去查尋各種信息。
圖18 內(nèi)容傳播平臺(tái)應(yīng)用場(chǎng)景和傳播載體
圖19 -1 內(nèi)容傳播平臺(tái):個(gè)性化推送
圖19 -2 內(nèi)容傳播平臺(tái):個(gè)性化推送
目前在科大訊飛的智能語音開放平臺(tái)中已積累了幾億用戶,我們的AI語音交互技術(shù)目前已有多家開發(fā)單位在使用,所有這些數(shù)據(jù)我們都可以共享,這些用戶的大數(shù)據(jù)可以通過精準(zhǔn)畫像來實(shí)現(xiàn)數(shù)據(jù)的增值服務(wù),通過內(nèi)容傳播平臺(tái)進(jìn)行個(gè)性化推送。
科大訊飛的技術(shù)平臺(tái)為內(nèi)容生產(chǎn)、內(nèi)容管理、內(nèi)容監(jiān)審、內(nèi)容傳播提供了一系列的人工智能應(yīng)用,我們也希望能與廣電行業(yè)開展合作并為廣電提供賦能應(yīng)用。
我們已和國(guó)內(nèi)的多家媒體開展了合作協(xié)定。例如,我們和國(guó)家新聞出版廣電總局廣播科學(xué)研究院成立了廣播電視與語音技術(shù)融合創(chuàng)新實(shí)驗(yàn)室,將通過科大訊飛人工智能核心技術(shù)與廣播電視技術(shù)的結(jié)合,在智慧家庭終端、智能應(yīng)用入口、智能廣告平臺(tái)、AI+廣播新技術(shù)業(yè)務(wù)上打造新型智慧廣電業(yè)務(wù)和標(biāo)準(zhǔn),真正實(shí)現(xiàn)AI+智慧廣電生態(tài)圈;我們和人民網(wǎng)簽訂了戰(zhàn)略合作協(xié)定,形成可向全國(guó)媒體推廣的智慧媒體解決方案,雙方將依據(jù)各自優(yōu)勢(shì),結(jié)合媒體行業(yè)采、編、播、審、存等應(yīng)用場(chǎng)景,集成包括語音合成、語音轉(zhuǎn)寫、機(jī)器翻譯等核心能力,共同構(gòu)建“智慧人民網(wǎng)”;我們和央視合作,成立了智能語音轉(zhuǎn)寫實(shí)驗(yàn)室,專門用于研究智能語音技術(shù)在媒體生產(chǎn)各個(gè)環(huán)節(jié)的應(yīng)用技術(shù),中央電視臺(tái)制作中心引入了智能文稿唱詞系統(tǒng),用于節(jié)目制作中的字幕制作,共同合作推進(jìn)提高智能文稿唱詞系統(tǒng)在生產(chǎn)流程中的實(shí)用效果。