智能語音技術(shù)對(duì)配音行業(yè)的影響

2023-05-30 10:48:04齊小瑜

文化產(chǎn)業(yè) 2023年13期

齊小瑜

伴隨信息技術(shù)日新月異的發(fā)展，人工智能技術(shù)愈加成熟且完備，被廣泛應(yīng)用于各個(gè)領(lǐng)域。其中，與人工語音創(chuàng)作相比，智能語音技術(shù)成本低、效率高，還有高精度的語言語料庫，同時(shí)具有規(guī)范語音，表達(dá)錯(cuò)誤較少，隨時(shí)在崗，應(yīng)用成本低廉等優(yōu)勢(shì)。因此，智能語音技術(shù)被廣泛應(yīng)用在各個(gè)場(chǎng)景中。這給配音行業(yè)帶來了機(jī)遇和挑戰(zhàn)?，F(xiàn)著重探討智能語音技術(shù)對(duì)播音主持專業(yè)分支配音專業(yè)帶來的影響，從目前智能語音技術(shù)在配音行業(yè)的應(yīng)用情況以及智能語音技術(shù)對(duì)配音領(lǐng)域的各個(gè)分支的沖擊等方面著手，討論市場(chǎng)用戶的收聽喜好情況對(duì)配音市場(chǎng)未來的影響，以期在培養(yǎng)配音專業(yè)人才中調(diào)整培養(yǎng)內(nèi)容與方向，探討“人工智能+配音創(chuàng)作”的未來發(fā)展方向。

目前智能語音技術(shù)在配音領(lǐng)域的應(yīng)用情況

隨著新一輪產(chǎn)業(yè)的變革和5G技術(shù)的進(jìn)步，人工智能技術(shù)愈加成熟并滲透到各個(gè)領(lǐng)域[1]。在此背景下，智能語音合成技術(shù)逐漸進(jìn)入人們的生活中，從早晨起床打開微信推文《早啊！新聞來了》聽到康輝的智能語音播報(bào)，到喚醒家里的天貓精靈收聽智能語音播報(bào)獲取當(dāng)日天氣情況，到上班路上開車時(shí)聽到的車載導(dǎo)航沈騰智能語音包，到休息時(shí)打開短視頻收聽文本轉(zhuǎn)換語音后的解說，再到打開喜馬拉雅收聽用tts技術(shù)完美還原的單田芳老先生聲音的評(píng)書等。智能語音技術(shù)成本低、效率高的特征和豐富的語言語料庫給配音行業(yè)的真人配音員帶來了巨大的挑戰(zhàn)。

目前，語音播報(bào)領(lǐng)域如天氣播報(bào)、導(dǎo)航播報(bào)、游戲語音等已被智能語音所占領(lǐng)；在有聲書配音領(lǐng)域，向讀者提供了人工配音、智能語音配音或者人工加智能配音多種選擇方式；在紀(jì)錄片配音領(lǐng)域，先進(jìn)的tts技術(shù)重塑了很多著名配音員的聲音，因紀(jì)錄片的情感變化幅度相對(duì)較小，音高和情緒相對(duì)穩(wěn)定，后期的調(diào)節(jié)工作也很方便，但目前只應(yīng)用在復(fù)原一些著名配音員的經(jīng)典聲音上；在動(dòng)漫配音領(lǐng)域，語音合成演示成熟度高到語調(diào)、情緒、停頓都很融洽，與真人的區(qū)別不大，因其勢(shì)頭剛起，目前還在嘗試推行階段，尚未被廣泛運(yùn)用；在廣告配音領(lǐng)域，因智能語音智能化程度不夠，配音的情緒無法貼合畫面，且語言生硬、腔調(diào)固定，故而對(duì)高端聲音市場(chǎng)的影響尚且不大；在影視配音領(lǐng)域，因其藝術(shù)化程度較高、形式生動(dòng)豐富，智能語音達(dá)不到要求，所以目前很難取代真人配音員。

智能語音技術(shù)對(duì)人工配音領(lǐng)域各個(gè)分支的沖擊與影響

語音播報(bào)領(lǐng)域已大幅度被占領(lǐng)

隨著智能化時(shí)代的到來，在人工智能語音環(huán)境下，智能語音播報(bào)已經(jīng)融入人們的生活場(chǎng)景中。語音播報(bào)是利用語音合成技術(shù)將文字迅速轉(zhuǎn)換為清晰的智能語音，主要運(yùn)用在話費(fèi)查詢、車站播報(bào)、信息咨詢、語音信息播報(bào)等服務(wù)場(chǎng)景中。

智能語音播報(bào)需要在后臺(tái)系統(tǒng)設(shè)置播音員的聲音，然后選擇播報(bào)行業(yè)的音庫，操作人員可以輸入文字或者導(dǎo)入TXT文本文件，再通過設(shè)置音量、音頻、數(shù)字讀法、英文讀法等控制選項(xiàng)對(duì)播音內(nèi)容進(jìn)行操控，根據(jù)需要還可以加入背景音和播音的發(fā)音風(fēng)格，直接生成本次播報(bào)，也可以保存項(xiàng)目下次調(diào)用[2]。

在電信服務(wù)、交通服務(wù)等行業(yè)，智能語音播報(bào)已被常態(tài)化使用；在手機(jī)客戶端中，隨著配音軟件越來越多，聽眾可以直接使用文字轉(zhuǎn)語音的功能；家居生活中的機(jī)器人更是能通過識(shí)別用戶語音迅速查找信息并完成實(shí)時(shí)對(duì)話播報(bào)；出行的導(dǎo)航系統(tǒng)更是推出了定制播報(bào)語音的功能，讓用戶錄制自己的專屬語音包。智能語音播報(bào)一是具有便利性；二是提升了各行業(yè)的服務(wù)效率，緩解了播音員的壓力；三是用戶能夠及時(shí)獲取信息；四是大幅度降低了人工播報(bào)出錯(cuò)率。因此，傳統(tǒng)的人工語音播報(bào)已經(jīng)無法更好地滿足用戶日益增長(zhǎng)的個(gè)性化需求，語音播報(bào)領(lǐng)域已大幅度被人工智能語音所占領(lǐng)。

對(duì)有聲書人工配音市場(chǎng)影響參半

口述故事和聲覺空間構(gòu)成了有聲故事書的內(nèi)核和外衣，用戶在有聲書的非線性互動(dòng)敘事中創(chuàng)建自己的故事。有聲讀物從印刷書籍的外圍副產(chǎn)品轉(zhuǎn)變?yōu)閿?shù)字出版和閱讀的中心，從實(shí)體發(fā)展為純數(shù)字形式，逐步成為大眾娛樂休閑的一種方式，其不僅數(shù)量龐大、形式多樣，閱讀量也遙遙領(lǐng)先[3]。

有聲書市場(chǎng)上已經(jīng)出現(xiàn)人工配音、AI主播配音與AI真人相結(jié)合的聽書模式，但目前大多有聲書平臺(tái)熱門的有聲書仍采用以配音員為主導(dǎo)的傳統(tǒng)模式。隨著市場(chǎng)的不斷擴(kuò)容，人工配音存在生產(chǎn)效率低、制作成本高等問題，而中文在線的文本轉(zhuǎn)換語音技術(shù)一天即可實(shí)現(xiàn)500萬字的內(nèi)容轉(zhuǎn)錄，大大節(jié)約了制作成本，實(shí)現(xiàn)了高效的音頻生產(chǎn)，因此文本轉(zhuǎn)換語音的快速合成方式被各大有聲書生產(chǎn)商嘗試使用，如咪咕閱讀為其售出的電子書提供語音朗讀功能。

同時(shí)，智能語音技術(shù)能夠給受眾提供多種選擇，如訊飛有聲書采用科大訊飛語音合成4.0技術(shù)，擁有幾十位風(fēng)格不同的男聲、女聲朗讀主播，還支持多種方言、趣味童聲及外語聽書，但聲音空間與用戶使用場(chǎng)景的匹配度不夠高，如聽眾在睡前需要沉浸式聲音體驗(yàn)，在休閑場(chǎng)景需要輕松愉悅的聲音體驗(yàn)等，目前科大訊飛正在開發(fā)聲音空間匹配聽眾使用場(chǎng)景的功能。

另外，逐漸成熟的語音合成技術(shù)使得聽眾可以聽到經(jīng)典名人配音員的作品，如喜馬拉雅平臺(tái)上線的用語音合成技術(shù)完美還原單田芳先生聲音的評(píng)書深受用戶喜愛，長(zhǎng)期位列熱播榜前列，AI配音的優(yōu)勢(shì)愈發(fā)明顯。

但AI配音的聲音仍存在壁壘，一方面，缺乏溫度，語氣轉(zhuǎn)換不靈活，輕重音變化不明顯等，使得文字包含的情感難以有效傳達(dá)；另一方面，智能語音的音量是比較恒定的，聽眾難以感知立體化的聲覺空間。有聲讀物應(yīng)該給聽眾打造更加直觀的視覺立體場(chǎng)景，聽眾收聽后會(huì)被喚起聽覺感知，產(chǎn)生情景感，而AI在進(jìn)行講述時(shí)由于恒定的音量導(dǎo)致聽眾只能自己發(fā)揮想象，自行在大腦中構(gòu)建故事場(chǎng)景。

因此，在短期內(nèi)，AI配音難以完全替代人工配音，但生產(chǎn)商為了提升工作效率和節(jié)約成本會(huì)選擇出品在AI輔助下人機(jī)結(jié)合的有聲書。

對(duì)電視紀(jì)錄片配音解說的影響有待觀察

紀(jì)錄片《創(chuàng)新中國(guó)》是世界首部采用人工智能配音的大型紀(jì)錄片。在制作中，制作團(tuán)隊(duì)利用智能語音和人工智能技術(shù)，讓已逝的著名配音藝術(shù)家李易老師的聲音重現(xiàn)熒幕，并將李易老師的聲音分為三類分別運(yùn)用在情緒高昂的宣傳片、平緩敘事的紀(jì)錄片、聲調(diào)較低且松弛的自然類紀(jì)錄片中，團(tuán)隊(duì)把音色、韻律和內(nèi)容三方面進(jìn)行量化，再解決斷句、重音及連貫性的問題，然后進(jìn)行精剪，最后呈現(xiàn)出的作品讓人贊嘆！

但是紀(jì)錄片需要有配音員自身獨(dú)特的思想性、創(chuàng)造性及分寸感，穩(wěn)定的發(fā)音狀態(tài)及有微妙變化的情緒，這些是計(jì)算機(jī)的精妙算法所無法實(shí)現(xiàn)的。人與人之間的溝通表達(dá)經(jīng)歷了漫長(zhǎng)的變化，這種技能人工智能學(xué)習(xí)起來尚且困難[4]。因此，真人解說具有獨(dú)特的優(yōu)勢(shì)。

語音合成技術(shù)可以還原經(jīng)典名人的聲音。這需要掌握語料中個(gè)人聲音的獨(dú)有特質(zhì)，再模擬出與本人非常相似的聲音，通過后續(xù)細(xì)節(jié)調(diào)整才能讓合成音基本貼合本人。紀(jì)錄片制作周期長(zhǎng)，對(duì)解說時(shí)間的要求比較寬松，與智能語音相比，人工配音解說能夠更好地傳達(dá)出紀(jì)錄片獨(dú)特的內(nèi)涵。因此，智能語音在影視紀(jì)錄片領(lǐng)域的應(yīng)用情況有待進(jìn)一步觀察[5]。

對(duì)動(dòng)漫配音領(lǐng)域的影響正在開啟

目前，動(dòng)漫配音在我國(guó)處于蓬勃發(fā)展的階段，動(dòng)漫配音要求聲音富有彈性，生成的聲音符合動(dòng)漫人物或動(dòng)物的個(gè)性，而人工智能語音做出固定強(qiáng)調(diào)和適當(dāng)夸張的語音成分是其擅長(zhǎng)之處，情緒起伏變化也在不斷突破和更新。目前，市場(chǎng)推出的部分智能語音作品已經(jīng)基本聽不出太多生硬的痕跡。由于人工智能具有極大的優(yōu)勢(shì)，人工動(dòng)漫配音領(lǐng)域未來很有可能被其分一杯羹。

廣告配音的低端市場(chǎng)將被擠占

廣告配音是通過聲音展現(xiàn)出某一產(chǎn)品的特點(diǎn)，使得觀眾產(chǎn)生購(gòu)買欲望，其主要目的是宣傳產(chǎn)品特性，引發(fā)消費(fèi)者情感共鳴，讓消費(fèi)者產(chǎn)生購(gòu)買行為。此外，情聲畫有機(jī)結(jié)合才是一條完整的廣告。因此，廣告不僅需要適合特定產(chǎn)品的聲音形象，也需要分析用戶的消費(fèi)心理、產(chǎn)品定位等，以形成獨(dú)特的配音風(fēng)格，還要貼合畫面對(duì)聲音進(jìn)行有機(jī)變化，而這些都是機(jī)器目前難以量化和實(shí)現(xiàn)的[6]。

在傳統(tǒng)配音市場(chǎng)中，固定腔調(diào)的表達(dá)和音質(zhì)較差的作品在語音合成中可以輕易實(shí)現(xiàn)甚至被超越。當(dāng)前智能語音合成在標(biāo)準(zhǔn)統(tǒng)一化和個(gè)性發(fā)展化中有足夠的優(yōu)勢(shì)，工作效率高和成本低的優(yōu)勢(shì)使其迅速占領(lǐng)低端市場(chǎng)。但是高質(zhì)量、符合產(chǎn)品特性、迎合消費(fèi)者心理、樹立品牌形象的人工配音創(chuàng)作的宣傳片和廣告片在市場(chǎng)上仍具有極強(qiáng)的競(jìng)爭(zhēng)優(yōu)勢(shì)。

對(duì)影視劇人物配音的影響不大

影視人物配音是由配音員或者演員本人面對(duì)拍攝的畫面以有聲語言為表現(xiàn)手段，為片中角色進(jìn)行后期配音的創(chuàng)作活動(dòng)。影視人物配音是建立在劇作家一度創(chuàng)作和演員二度創(chuàng)作基礎(chǔ)上的三度創(chuàng)作。在配音前，配音員需要和配音導(dǎo)演進(jìn)行深入溝通，理解一度創(chuàng)作表達(dá)的思想情感，然后結(jié)合視頻成品觀看演員臺(tái)詞和劇情情境進(jìn)行備稿、創(chuàng)作，通過一次次調(diào)試完成貼合作品情景畫面，貼合演員動(dòng)作及口型以及貼合臺(tái)詞情緒的成音。而這些對(duì)人工智能語音來說非常困難，其很難識(shí)別和理解豐富的人物情緒、細(xì)微的動(dòng)作變化，并配出相應(yīng)的聲音，即使啟用后期調(diào)試功能，一是畫面中一幀幀變化耗費(fèi)時(shí)間較長(zhǎng)，二是機(jī)器難以思考和表達(dá)出導(dǎo)演及演員想要表達(dá)的情感內(nèi)容。因此，人工智能語音合成技術(shù)對(duì)影視劇人物配音的影響微乎其微。

用戶收聽喜好的發(fā)展對(duì)配音市場(chǎng)的影響

一項(xiàng)針對(duì)人工智能配音適應(yīng)性的抽樣問卷調(diào)查顯示，在資訊消息和語音播報(bào)等場(chǎng)景中，超過半數(shù)人從一開始就沒有排斥；將近五分之一的人在使用中不適感逐漸消失；只有16%的人認(rèn)為人工智能配音缺乏獨(dú)特性，更傾向真人配音。這些場(chǎng)景中，人們的情感交互需求并不強(qiáng)，絕大多數(shù)人也沒有明顯的排斥，因此在一些用戶情感要求不高的配音作品中，智能語音占據(jù)極大優(yōu)勢(shì)。

調(diào)查還顯示，在一些情感交互較強(qiáng)的文本中，用戶更傾向高質(zhì)量的真人配音，無思想感情的智能語音本身就不存在獨(dú)立思考的能力，它必須依附人類為其提前設(shè)定好的編碼程序才能工作，即使擁有豐富的語料庫，具備停連、輕重音、語氣的綜合處理能力，但對(duì)于藝術(shù)性、創(chuàng)造性、個(gè)性化有要求的廣告配音、紀(jì)錄片配音作品來說，智能語音無法滿足其需求。另外，對(duì)于部分情緒及聲音變化豐富的影視人物、動(dòng)漫角色、有聲小說角色，如果使用智能語音，就需要大量的后期調(diào)節(jié)工作，處理起來麻煩且不一定能達(dá)到很好的效果。

因此，隨著合成技術(shù)的不斷升級(jí)，人工智能語音技術(shù)不斷提升，其能夠更加逼真地還原出真實(shí)的人聲，但在理解用戶意圖、獨(dú)立思考和呈現(xiàn)豐富的聲音變化上，還要走很長(zhǎng)的路。而在一些情感交互要求較強(qiáng)的配音作品中，其仍然無法替代人工配音。

結(jié)語

綜上所述，人工智能語音的發(fā)展給配音行業(yè)帶來了巨大的沖擊。“人工智能+配音創(chuàng)作”已經(jīng)成為時(shí)代發(fā)展的必然趨勢(shì)，也是順應(yīng)市場(chǎng)發(fā)展和滿足用戶需求的必然方向。在未來，應(yīng)當(dāng)順應(yīng)時(shí)代發(fā)展，提升行業(yè)整體水平，在培養(yǎng)配音專業(yè)人才方面：第一，著力于提升語言功底，創(chuàng)作內(nèi)涵豐富、深刻、獨(dú)特、獨(dú)具魅力的作品；第二，加強(qiáng)對(duì)多學(xué)科基礎(chǔ)的學(xué)習(xí)，如語言學(xué)、社會(huì)學(xué)、心理學(xué)等，通過分析文本需要傳遞的精神實(shí)質(zhì)及用戶心理創(chuàng)作出更多深入人心的作品；第三，對(duì)有聲書、廣告片、宣傳片、影視配音等進(jìn)行深刻研究，打磨好每一個(gè)細(xì)節(jié)，創(chuàng)作出更好的配音作品。在人工智能輔助下，人工配音創(chuàng)作應(yīng)找準(zhǔn)方向，發(fā)揮出自身的獨(dú)特優(yōu)勢(shì)，碰撞出璀璨的“創(chuàng)新之花”。

（作者單位：江蘇師范大學(xué)科文學(xué)院）

[1]郭棟，肖愛云.“互聯(lián)網(wǎng)+”趨勢(shì)下人工智能在配音中的應(yīng)用[J].西部廣播電視，2018（20）：186+188.

[2]翁佳.智能語音技術(shù)對(duì)播音主持專業(yè)與行業(yè)影響探究[J].電視研究，2017（12）：57-59.

[3]劉銀娣，楊楊.媒介本體論視域下有聲故事書智能生產(chǎn)研究[J].出版發(fā)行研究，2022（03）：32-39.

[4]吳婉璐.我國(guó)影視劇配音現(xiàn)狀及發(fā)展研究[D].南昌：南昌大學(xué)，2018.

[5]曾誰飛，王仁波.語音合成技術(shù)在智能語音播報(bào)系統(tǒng)中的應(yīng)用探析[J].電信科學(xué)，2010，26（03）：64-68.

[6]王偉.廣告配音的個(gè)性化傳達(dá)與實(shí)現(xiàn)路徑[J].記者觀察，2022（23）：25-27.