• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      智能語(yǔ)音技術(shù)在廣播領(lǐng)域的應(yīng)用探索

      2023-01-17 02:08:54管海建
      電視技術(shù) 2022年6期
      關(guān)鍵詞:字幕錄音音頻

      管海建

      (湖北廣播電視臺(tái),湖北 武漢 430022)

      0 引言

      智能語(yǔ)音技術(shù)包括語(yǔ)音識(shí)別、語(yǔ)音合成、口語(yǔ)評(píng)測(cè)、語(yǔ)義理解、自然語(yǔ)言處理等內(nèi)容。其中語(yǔ)音識(shí)別和語(yǔ)音合成技術(shù)使得各種終端具備了聽(tīng)說(shuō)能力,在機(jī)器人、智能家居、移動(dòng)終端等設(shè)備中實(shí)現(xiàn)廣泛應(yīng)用。隨著5G 移動(dòng)網(wǎng)絡(luò)的普及和人工智能技術(shù)的飛速發(fā)展,語(yǔ)音識(shí)別和播報(bào)技術(shù)極大提升了應(yīng)用程序中的交互效率和體驗(yàn),在移動(dòng)終端的人機(jī)交互中得到廣泛應(yīng)用,

      1952 年,貝爾研究所成功發(fā)布第一個(gè)能識(shí)別簡(jiǎn)單英文和數(shù)字發(fā)音的試驗(yàn)系統(tǒng)。經(jīng)過(guò)幾十年的發(fā)展和進(jìn)步,從字母、孤立詞的識(shí)別逐漸發(fā)展到大詞匯量語(yǔ)音連續(xù)識(shí)別。隨著語(yǔ)音識(shí)別技術(shù)的不斷進(jìn)步,語(yǔ)音識(shí)別在優(yōu)化模型的算法、語(yǔ)音特征提取和優(yōu)化、提高系統(tǒng)的準(zhǔn)確率等方面取得較大進(jìn)展,相關(guān)產(chǎn)品也逐漸走向市場(chǎng),端點(diǎn)檢測(cè)、噪音消除、智能打斷、大詞匯量識(shí)別、特征提取、多操識(shí)別以及熱詞識(shí)別等相關(guān)課題紛紛取得突破。在全球范圍內(nèi),智能語(yǔ)音技術(shù)商業(yè)化已經(jīng)取得了很大的成果。國(guó)外的谷歌、微軟、蘋(píng)果等公司推出了智能語(yǔ)音商用產(chǎn)品,國(guó)內(nèi)的科大訊飛、捷通華聲、中科信利、云知聲等語(yǔ)音企業(yè)以及百度、騰訊、阿里等互聯(lián)網(wǎng)巨頭也紛紛推出集成智能語(yǔ)音技術(shù)的產(chǎn)品和配套解決方案。此外,隨著語(yǔ)音識(shí)別準(zhǔn)確率的逐步提高,各類(lèi)軟硬件都開(kāi)始集成語(yǔ)音識(shí)別功能,語(yǔ)音識(shí)別技術(shù)逐漸融入了有交互需求的各類(lèi)產(chǎn)品。

      語(yǔ)音合成指將以文字為主的媒體內(nèi)容轉(zhuǎn)化為人類(lèi)語(yǔ)音輸出,語(yǔ)音合成的產(chǎn)品用途十分廣泛。和語(yǔ)音識(shí)別一樣,語(yǔ)音合成也是智能語(yǔ)音技術(shù)的重要組成部分。語(yǔ)音合成可以將文字等媒體內(nèi)容轉(zhuǎn)譯成自然清晰、標(biāo)準(zhǔn)流暢的語(yǔ)音輸出,包括且不限于中文、外文或者方言等,可以實(shí)現(xiàn)不同音色的高度模擬。通過(guò)語(yǔ)音合成技術(shù)的應(yīng)用,可以極大程度地提高媒體工作效率,例如路況、氣象預(yù)報(bào)等都可以通過(guò)語(yǔ)音合成來(lái)自動(dòng)實(shí)現(xiàn)。

      1 語(yǔ)音識(shí)別系統(tǒng)工作原理

      語(yǔ)音識(shí)別系統(tǒng)相對(duì)復(fù)雜,技術(shù)原理涉及多個(gè)學(xué)科,包括信號(hào)處理、模式識(shí)別、統(tǒng)計(jì)分析以及人工智能等。語(yǔ)音識(shí)別主要采用模式匹配的方法,通過(guò)提取輸入信號(hào)的聲學(xué)特征作為模板存入數(shù)據(jù)庫(kù),在識(shí)別信號(hào)時(shí)與數(shù)據(jù)庫(kù)中模板進(jìn)行比較后輸出相似度最高的結(jié)果。語(yǔ)音信號(hào)經(jīng)過(guò)話筒輸入采集轉(zhuǎn)變成電信號(hào),在輸入端經(jīng)過(guò)信號(hào)處理消除噪聲,切除前后端的靜音段,然后利用移動(dòng)窗函數(shù)進(jìn)行分幀,分幀后的波形再進(jìn)行轉(zhuǎn)換,每一幀波形變成一個(gè)多維向量,這個(gè)過(guò)程稱(chēng)為聲學(xué)特征提取。目前,聲學(xué)特征提取有多種不同的復(fù)雜算法。

      系統(tǒng)模型的建立包括聲學(xué)和語(yǔ)言兩部分,其中隱馬爾可夫模型是應(yīng)用最廣泛的建模方法。此外,人工神經(jīng)網(wǎng)絡(luò)也是語(yǔ)音識(shí)別技術(shù)發(fā)展的一個(gè)熱點(diǎn)。雖然模型匹配的方法很多,但是受發(fā)音習(xí)慣、方言等的影響,很多語(yǔ)音還需要結(jié)合上下文的含義判斷,準(zhǔn)確識(shí)別相對(duì)存在一定的的難度。隨著技術(shù)的不斷進(jìn)步,整個(gè)系統(tǒng)模型識(shí)別匹配的準(zhǔn)確率一般都達(dá)到了90%以上,可以滿足日常應(yīng)用的需要。

      近年來(lái),深度學(xué)習(xí)理論被廣泛研究與應(yīng)用,智能語(yǔ)音技術(shù)在語(yǔ)音識(shí)別方面也取得了一定突破。通過(guò)各種帶有語(yǔ)音功能的場(chǎng)景和應(yīng)用程序,網(wǎng)絡(luò)中大量的用戶數(shù)據(jù)被不斷收集和匯總到后臺(tái),有的語(yǔ)音產(chǎn)品僅針對(duì)喚醒識(shí)別一項(xiàng)功能就錄制了超過(guò)8 萬(wàn)條語(yǔ)音來(lái)建立狀態(tài)模型,這些海量數(shù)據(jù)通過(guò)神經(jīng)網(wǎng)絡(luò)的分析和學(xué)習(xí)不斷完善數(shù)據(jù)模型和匹配算法。

      2 智能語(yǔ)音技術(shù)與電臺(tái)節(jié)目生產(chǎn)流程的融合

      在廣播電視等媒體的節(jié)目編輯中,經(jīng)常需要將采訪中獲得的大量語(yǔ)音素材整理成文字或者將播出稿件轉(zhuǎn)換成文字稿、將語(yǔ)音信號(hào)轉(zhuǎn)換成視頻字幕等,這些剛性需求為智能語(yǔ)音技術(shù)在電臺(tái)的融合與應(yīng)用提供了契機(jī)。無(wú)論是廣播、電視、報(bào)紙等傳統(tǒng)媒體,還是以微博、微信、視頻平臺(tái)等為代表的新媒體,時(shí)效性一直是行業(yè)聚焦的競(jìng)爭(zhēng)點(diǎn)。在采訪(錄音)、聽(tīng)音打字、整理寫(xiě)稿的過(guò)程中,整理錄音和打字都耗費(fèi)了大量時(shí)間成本,而利用語(yǔ)音識(shí)別技術(shù)能夠顯著降低成本并提高時(shí)效性。

      根據(jù)廣播電臺(tái)的節(jié)目生產(chǎn)流程,廣播節(jié)目件的生成通常需要經(jīng)過(guò)音頻節(jié)目的采編制作和新聞稿件的采編,包括采訪寫(xiě)稿、審稿、存儲(chǔ)、發(fā)播等環(huán)節(jié)。新聞稿件的采訪會(huì)使用便攜式錄音設(shè)備,傳統(tǒng)采訪錄音設(shè)備目前還不具備語(yǔ)音識(shí)別功能,需要將錄音文件導(dǎo)出后進(jìn)行識(shí)別。節(jié)目審聽(tīng)階段,可以應(yīng)用語(yǔ)音識(shí)別技術(shù)來(lái)進(jìn)行關(guān)鍵字查找、定位。目前語(yǔ)音合成技術(shù)也逐漸成熟,合成效果已經(jīng)很接近自然發(fā)音。在移動(dòng)終端的應(yīng)用中,合成語(yǔ)音播報(bào)天氣、路況、講故事等已經(jīng)十分普遍。在電臺(tái)節(jié)目播出過(guò)程中,可以嘗試將主持人聲音制作成語(yǔ)音庫(kù),輸入文字后轉(zhuǎn)換成音頻稿件用于播出。

      3 智能語(yǔ)音技術(shù)的應(yīng)用

      結(jié)合湖北臺(tái)節(jié)目采編流程,筆者研發(fā)設(shè)計(jì)了一款基于Windows 操作系統(tǒng)的應(yīng)用,即智能語(yǔ)音識(shí)別采編器,融合了語(yǔ)音識(shí)別、語(yǔ)音合成、字幕轉(zhuǎn)寫(xiě)以及語(yǔ)音分析等多種常用功能。

      3.1 語(yǔ)音識(shí)別

      語(yǔ)音音頻支持內(nèi)錄、線路輸入、文件導(dǎo)入等多種采集和導(dǎo)入方式,適合不同場(chǎng)合的語(yǔ)音采集工作。

      內(nèi)錄是指錄制本地計(jì)算機(jī)的音頻,即計(jì)算機(jī)聲卡所播放的聲音,將聲卡播放的內(nèi)容識(shí)別成文字。這項(xiàng)功能多用于截取錄制的采訪錄音或音頻中的一段轉(zhuǎn)換為文字,可直接利用操作系統(tǒng)自帶播放器進(jìn)行播放,同時(shí)打開(kāi)采編器內(nèi)錄開(kāi)關(guān)進(jìn)行語(yǔ)音識(shí)別和轉(zhuǎn)換。

      線路輸入指通過(guò)計(jì)算機(jī)聲卡外接話筒輸入音頻信號(hào),將話筒音頻信號(hào)實(shí)時(shí)轉(zhuǎn)換識(shí)別為漢字,可用于記者編輯采用語(yǔ)音寫(xiě)稿、會(huì)議記錄、實(shí)時(shí)采訪等場(chǎng)景。文件導(dǎo)入可將計(jì)算機(jī)內(nèi)音頻文件導(dǎo)入到采編器進(jìn)行文字轉(zhuǎn)換,適合轉(zhuǎn)換已錄制好的語(yǔ)音文件。

      語(yǔ)音識(shí)別引擎安裝在本地計(jì)算機(jī),使用過(guò)程中不需要聯(lián)網(wǎng),語(yǔ)音識(shí)別過(guò)程不會(huì)受到網(wǎng)速的影響。在外接話筒進(jìn)行語(yǔ)音識(shí)別時(shí),轉(zhuǎn)換的文字會(huì)在屏幕上實(shí)時(shí)顯示,而且識(shí)別過(guò)程中可以隨時(shí)進(jìn)行文字修正。系統(tǒng)能夠?qū)ψR(shí)別出的同音詞語(yǔ)結(jié)合整句話語(yǔ)義進(jìn)行自動(dòng)糾正和匹配,利用關(guān)鍵詞也可以預(yù)置人名、地名等專(zhuān)用名詞,大大提高了識(shí)別正確率。

      3.2 字幕轉(zhuǎn)寫(xiě)

      傳統(tǒng)的字幕整理耗時(shí)費(fèi)力,利用端點(diǎn)檢測(cè)、分段、語(yǔ)義理解等技術(shù)可以自動(dòng)生成字幕,再由人工進(jìn)行簡(jiǎn)單修正審核即可直接應(yīng)用。語(yǔ)音轉(zhuǎn)換后的文字生成字幕可直接拖放在擴(kuò)展屏上顯示,通過(guò)視頻編輯軟件豐富字幕場(chǎng)景。字幕轉(zhuǎn)寫(xiě)功能可以為電臺(tái)大型活動(dòng)現(xiàn)場(chǎng)視頻、會(huì)議大屏等提供字幕。

      3.3 語(yǔ)音分析

      隨著廣播事業(yè)的發(fā)展,節(jié)目審聽(tīng)的工作也越來(lái)越多。作為媒體管理的重要組成部分,對(duì)音視頻等的監(jiān)管比對(duì)文字的監(jiān)管要困難得多。傳統(tǒng)的節(jié)目審聽(tīng)采用純?nèi)斯し绞?,由?zhuān)人進(jìn)行大量煩瑣枯燥的機(jī)械性工作。而應(yīng)用語(yǔ)音識(shí)別技術(shù)將關(guān)鍵詞預(yù)置進(jìn)審聽(tīng)系統(tǒng),導(dǎo)入審聽(tīng)節(jié)目后可進(jìn)行自動(dòng)審核,系統(tǒng)檢測(cè)到關(guān)鍵詞則警報(bào)提示,大大提高了審聽(tīng)效率。此外,在語(yǔ)音識(shí)別轉(zhuǎn)文字的過(guò)程中,可以將預(yù)置的關(guān)鍵詞高亮顯示或直接替換。

      3.4 語(yǔ)音合成

      智能語(yǔ)音播報(bào)是基于語(yǔ)音合成業(yè)務(wù)提供服務(wù),語(yǔ)音合成由底層服務(wù)來(lái)完成。通過(guò)語(yǔ)音合成服務(wù)的應(yīng)用接入和調(diào)用,由系統(tǒng)軟件實(shí)現(xiàn)對(duì)新聞稿件的自動(dòng)播報(bào)。在實(shí)際應(yīng)用過(guò)程中,只需要將文稿導(dǎo)入系統(tǒng),由系統(tǒng)實(shí)現(xiàn)對(duì)新聞稿件的自動(dòng)播報(bào)。

      語(yǔ)音合成功能的實(shí)現(xiàn)分為文字和聲學(xué)兩部分。文字部分主要是輸入文稿的語(yǔ)言學(xué)分析,生成發(fā)音規(guī)則。聲學(xué)部分則根據(jù)發(fā)音規(guī)則來(lái)合成音頻輸出,實(shí)現(xiàn)發(fā)音的功能。對(duì)于輸入的文本進(jìn)行語(yǔ)種判斷,然后根據(jù)文本含義進(jìn)行字詞斷句拆分,根據(jù)詞義結(jié)合上下文區(qū)分多音字歧義字等將文本標(biāo)準(zhǔn)化并轉(zhuǎn)成語(yǔ)素標(biāo)記。與此同時(shí),還要分析標(biāo)注字詞連句的韻律、高低曲折以及抑揚(yáng)頓挫等發(fā)音技巧。將標(biāo)注的文本轉(zhuǎn)化為聲音輸出有多種方法可以實(shí)現(xiàn),比較普遍的是波形拼接法。波形拼接需要較長(zhǎng)時(shí)間的人聲錄音采集,要能盡可能多地覆蓋到所有的語(yǔ)音音節(jié)和音素。通過(guò)發(fā)音語(yǔ)料庫(kù)來(lái)拼接對(duì)應(yīng)的文本,錄音時(shí)間越長(zhǎng),拼接發(fā)音就越純正。波形拼接法輸出音質(zhì)較好,可以很好地模擬錄制的人聲來(lái)發(fā)音。此外還有參數(shù)合成法,通過(guò)錄音文件的頻譜參數(shù)來(lái)建模,建立文本序列和語(yǔ)音特征參數(shù)的映射關(guān)系,再將音頻特征轉(zhuǎn)化成音頻輸出。語(yǔ)音合成支持將錄入的文字或者文本文件直接轉(zhuǎn)換成語(yǔ)音,有標(biāo)準(zhǔn)普通話、地方方言等。轉(zhuǎn)換的語(yǔ)音保存為音頻文件,可以通過(guò)快捷方式上傳到FTP 服務(wù)器,也可以直接通過(guò)本地聲卡輸出用于播放。

      為了使合成語(yǔ)音后的文件迅速進(jìn)入制播網(wǎng)絡(luò),臺(tái)內(nèi)制播網(wǎng)絡(luò)也開(kāi)發(fā)了一個(gè)文件掃描功能,播出系統(tǒng)掃描文字轉(zhuǎn)換的語(yǔ)音并轉(zhuǎn)碼實(shí)現(xiàn)自動(dòng)上單,用于節(jié)目制作和播出。湖北廣播電視臺(tái)廣播智能語(yǔ)音識(shí)別采編器經(jīng)過(guò)試用,語(yǔ)音識(shí)別速度和正確率都取得了令人滿意的效果。將該系統(tǒng)與各地同行進(jìn)行了共享交流,展示了其語(yǔ)音寫(xiě)稿、語(yǔ)音識(shí)別、字幕轉(zhuǎn)寫(xiě)、智能語(yǔ)音播報(bào)等功能,系統(tǒng)實(shí)用性獲得了大家的一致好評(píng)。

      4 結(jié)語(yǔ)

      語(yǔ)音識(shí)別技術(shù)經(jīng)過(guò)多年的發(fā)展己經(jīng)相對(duì)成熟,其對(duì)標(biāo)準(zhǔn)普通話的識(shí)別能夠滿足人們?nèi)粘9ぷ髦械男枰窃诜窖院袜须s環(huán)境下的識(shí)別正確率還有待提高。從目前的發(fā)展來(lái)看,語(yǔ)音合成播報(bào)已經(jīng)開(kāi)始逐步應(yīng)用于實(shí)踐,特別是在手機(jī)應(yīng)用程序中取得了較多應(yīng)用成效。人工智能合成的語(yǔ)音可以流暢地對(duì)文本播報(bào),但是播報(bào)顯得生硬,聲音相對(duì)呆板,是否適用于實(shí)際廣播播出還需要進(jìn)一步論證和測(cè)試。在電臺(tái)等傳統(tǒng)媒體中,采訪機(jī)、新聞采編系統(tǒng)、制播系統(tǒng)等軟硬件系統(tǒng)都有著相對(duì)完善的體系。在不會(huì)大幅提升成本的條件下,如何將語(yǔ)音識(shí)別融入到媒體現(xiàn)有的采編和制播系統(tǒng)也是其在傳媒領(lǐng)域進(jìn)一步推廣應(yīng)用面臨的一個(gè)難題。

      猜你喜歡
      字幕錄音音頻
      Listen and Paint, etc.
      Word和Excel聯(lián)手字幕添加更高效
      Funny Phonics
      必須了解的音頻基礎(chǔ)知識(shí) 家庭影院入門(mén)攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      Colorful Seasons多彩四季
      A New Term
      音頻分析儀中低失真音頻信號(hào)的發(fā)生方法
      電子制作(2017年9期)2017-04-17 03:00:46
      整合適應(yīng)選擇度下的動(dòng)畫(huà)電影字幕翻譯——以《冰河世紀(jì)》的字幕漢譯為例
      Pro Tools音頻剪輯及修正
      人間(2015年8期)2016-01-09 13:12:42
      丹巴县| 漠河县| 昌乐县| 莱阳市| 集贤县| 鹰潭市| 邛崃市| 钟山县| 禄丰县| 冕宁县| 当阳市| 西吉县| 大荔县| 资中县| 阜阳市| 永宁县| 兰溪市| 砀山县| 延寿县| 大庆市| 康乐县| 八宿县| 博白县| 防城港市| 宁南县| 韶山市| 岑溪市| 宜州市| 潼关县| 原阳县| 邵阳县| 石台县| 云浮市| 河北省| 濉溪县| 利津县| 平阳县| 漳浦县| 阿勒泰市| 宁武县| 临夏县|