齊小瑜
伴隨信息技術(shù)日新月異的發(fā)展,人工智能技術(shù)愈加成熟且完備,被廣泛應(yīng)用于各個(gè)領(lǐng)域。其中,與人工語音創(chuàng)作相比,智能語音技術(shù)成本低、效率高,還有高精度的語言語料庫,同時(shí)具有規(guī)范語音,表達(dá)錯(cuò)誤較少,隨時(shí)在崗,應(yīng)用成本低廉等優(yōu)勢(shì)。因此,智能語音技術(shù)被廣泛應(yīng)用在各個(gè)場(chǎng)景中。這給配音行業(yè)帶來了機(jī)遇和挑戰(zhàn)?,F(xiàn)著重探討智能語音技術(shù)對(duì)播音主持專業(yè)分支配音專業(yè)帶來的影響,從目前智能語音技術(shù)在配音行業(yè)的應(yīng)用情況以及智能語音技術(shù)對(duì)配音領(lǐng)域的各個(gè)分支的沖擊等方面著手,討論市場(chǎng)用戶的收聽喜好情況對(duì)配音市場(chǎng)未來的影響,以期在培養(yǎng)配音專業(yè)人才中調(diào)整培養(yǎng)內(nèi)容與方向,探討“人工智能+配音創(chuàng)作”的未來發(fā)展方向。
目前智能語音技術(shù)在配音領(lǐng)域的應(yīng)用情況
隨著新一輪產(chǎn)業(yè)的變革和5G技術(shù)的進(jìn)步,人工智能技術(shù)愈加成熟并滲透到各個(gè)領(lǐng)域[1]。在此背景下,智能語音合成技術(shù)逐漸進(jìn)入人們的生活中,從早晨起床打開微信推文《早啊!新聞來了》聽到康輝的智能語音播報(bào),到喚醒家里的天貓精靈收聽智能語音播報(bào)獲取當(dāng)日天氣情況,到上班路上開車時(shí)聽到的車載導(dǎo)航沈騰智能語音包,到休息時(shí)打開短視頻收聽文本轉(zhuǎn)換語音后的解說,再到打開喜馬拉雅收聽用tts技術(shù)完美還原的單田芳老先生聲音的評(píng)書等。智能語音技術(shù)成本低、效率高的特征和豐富的語言語料庫給配音行業(yè)的真人配音員帶來了巨大的挑戰(zhàn)。
目前,語音播報(bào)領(lǐng)域如天氣播報(bào)、導(dǎo)航播報(bào)、游戲語音等已被智能語音所占領(lǐng);在有聲書配音領(lǐng)域,向讀者提供了人工配音、智能語音配音或者人工加智能配音多種選擇方式;在紀(jì)錄片配音領(lǐng)域,先進(jìn)的tts技術(shù)重塑了很多著名配音員的聲音,因紀(jì)錄片的情感變化幅度相對(duì)較小,音高和情緒相對(duì)穩(wěn)定,后期的調(diào)節(jié)工作也很方便,但目前只應(yīng)用在復(fù)原一些著名配音員的經(jīng)典聲音上;在動(dòng)漫配音領(lǐng)域,語音合成演示成熟度高到語調(diào)、情緒、停頓都很融洽,與真人的區(qū)別不大,因其勢(shì)頭剛起,目前還在嘗試推行階段,尚未被廣泛運(yùn)用;在廣告配音領(lǐng)域,因智能語音智能化程度不夠,配音的情緒無法貼合畫面,且語言生硬、腔調(diào)固定,故而對(duì)高端聲音市場(chǎng)的影響尚且不大;在影視配音領(lǐng)域,因其藝術(shù)化程度較高、形式生動(dòng)豐富,智能語音達(dá)不到要求,所以目前很難取代真人配音員。
智能語音技術(shù)對(duì)人工配音領(lǐng)域各個(gè)分支的沖擊與影響
語音播報(bào)領(lǐng)域已大幅度被占領(lǐng)
隨著智能化時(shí)代的到來,在人工智能語音環(huán)境下,智能語音播報(bào)已經(jīng)融入人們的生活場(chǎng)景中。語音播報(bào)是利用語音合成技術(shù)將文字迅速轉(zhuǎn)換為清晰的智能語音,主要運(yùn)用在話費(fèi)查詢、車站播報(bào)、信息咨詢、語音信息播報(bào)等服務(wù)場(chǎng)景中。
智能語音播報(bào)需要在后臺(tái)系統(tǒng)設(shè)置播音員的聲音,然后選擇播報(bào)行業(yè)的音庫,操作人員可以輸入文字或者導(dǎo)入TXT文本文件,再通過設(shè)置音量、音頻、數(shù)字讀法、英文讀法等控制選項(xiàng)對(duì)播音內(nèi)容進(jìn)行操控,根據(jù)需要還可以加入背景音和播音的發(fā)音風(fēng)格,直接生成本次播報(bào),也可以保存項(xiàng)目下次調(diào)用[2]。
在電信服務(wù)、交通服務(wù)等行業(yè),智能語音播報(bào)已被常態(tài)化使用;在手機(jī)客戶端中,隨著配音軟件越來越多,聽眾可以直接使用文字轉(zhuǎn)語音的功能;家居生活中的機(jī)器人更是能通過識(shí)別用戶語音迅速查找信息并完成實(shí)時(shí)對(duì)話播報(bào);出行的導(dǎo)航系統(tǒng)更是推出了定制播報(bào)語音的功能,讓用戶錄制自己的專屬語音包。智能語音播報(bào)一是具有便利性;二是提升了各行業(yè)的服務(wù)效率,緩解了播音員的壓力;三是用戶能夠及時(shí)獲取信息;四是大幅度降低了人工播報(bào)出錯(cuò)率。因此,傳統(tǒng)的人工語音播報(bào)已經(jīng)無法更好地滿足用戶日益增長(zhǎng)的個(gè)性化需求,語音播報(bào)領(lǐng)域已大幅度被人工智能語音所占領(lǐng)。
對(duì)有聲書人工配音市場(chǎng)影響參半
口述故事和聲覺空間構(gòu)成了有聲故事書的內(nèi)核和外衣,用戶在有聲書的非線性互動(dòng)敘事中創(chuàng)建自己的故事。有聲讀物從印刷書籍的外圍副產(chǎn)品轉(zhuǎn)變?yōu)閿?shù)字出版和閱讀的中心,從實(shí)體發(fā)展為純數(shù)字形式,逐步成為大眾娛樂休閑的一種方式,其不僅數(shù)量龐大、形式多樣,閱讀量也遙遙領(lǐng)先[3]。
有聲書市場(chǎng)上已經(jīng)出現(xiàn)人工配音、AI主播配音與AI真人相結(jié)合的聽書模式,但目前大多有聲書平臺(tái)熱門的有聲書仍采用以配音員為主導(dǎo)的傳統(tǒng)模式。隨著市場(chǎng)的不斷擴(kuò)容,人工配音存在生產(chǎn)效率低、制作成本高等問題,而中文在線的文本轉(zhuǎn)換語音技術(shù)一天即可實(shí)現(xiàn)500萬字的內(nèi)容轉(zhuǎn)錄,大大節(jié)約了制作成本,實(shí)現(xiàn)了高效的音頻生產(chǎn),因此文本轉(zhuǎn)換語音的快速合成方式被各大有聲書生產(chǎn)商嘗試使用,如咪咕閱讀為其售出的電子書提供語音朗讀功能。
同時(shí),智能語音技術(shù)能夠給受眾提供多種選擇,如訊飛有聲書采用科大訊飛語音合成4.0技術(shù),擁有幾十位風(fēng)格不同的男聲、女聲朗讀主播,還支持多種方言、趣味童聲及外語聽書,但聲音空間與用戶使用場(chǎng)景的匹配度不夠高,如聽眾在睡前需要沉浸式聲音體驗(yàn),在休閑場(chǎng)景需要輕松愉悅的聲音體驗(yàn)等,目前科大訊飛正在開發(fā)聲音空間匹配聽眾使用場(chǎng)景的功能。
另外,逐漸成熟的語音合成技術(shù)使得聽眾可以聽到經(jīng)典名人配音員的作品,如喜馬拉雅平臺(tái)上線的用語音合成技術(shù)完美還原單田芳先生聲音的評(píng)書深受用戶喜愛,長(zhǎng)期位列熱播榜前列,AI配音的優(yōu)勢(shì)愈發(fā)明顯。
但AI配音的聲音仍存在壁壘,一方面,缺乏溫度,語氣轉(zhuǎn)換不靈活,輕重音變化不明顯等,使得文字包含的情感難以有效傳達(dá);另一方面,智能語音的音量是比較恒定的,聽眾難以感知立體化的聲覺空間。有聲讀物應(yīng)該給聽眾打造更加直觀的視覺立體場(chǎng)景,聽眾收聽后會(huì)被喚起聽覺感知,產(chǎn)生情景感,而AI在進(jìn)行講述時(shí)由于恒定的音量導(dǎo)致聽眾只能自己發(fā)揮想象,自行在大腦中構(gòu)建故事場(chǎng)景。
因此,在短期內(nèi),AI配音難以完全替代人工配音,但生產(chǎn)商為了提升工作效率和節(jié)約成本會(huì)選擇出品在AI輔助下人機(jī)結(jié)合的有聲書。
對(duì)電視紀(jì)錄片配音解說的影響有待觀察
紀(jì)錄片《創(chuàng)新中國(guó)》是世界首部采用人工智能配音的大型紀(jì)錄片。在制作中,制作團(tuán)隊(duì)利用智能語音和人工智能技術(shù),讓已逝的著名配音藝術(shù)家李易老師的聲音重現(xiàn)熒幕,并將李易老師的聲音分為三類分別運(yùn)用在情緒高昂的宣傳片、平緩敘事的紀(jì)錄片、聲調(diào)較低且松弛的自然類紀(jì)錄片中,團(tuán)隊(duì)把音色、韻律和內(nèi)容三方面進(jìn)行量化,再解決斷句、重音及連貫性的問題,然后進(jìn)行精剪,最后呈現(xiàn)出的作品讓人贊嘆!
但是紀(jì)錄片需要有配音員自身獨(dú)特的思想性、創(chuàng)造性及分寸感,穩(wěn)定的發(fā)音狀態(tài)及有微妙變化的情緒,這些是計(jì)算機(jī)的精妙算法所無法實(shí)現(xiàn)的。人與人之間的溝通表達(dá)經(jīng)歷了漫長(zhǎng)的變化,這種技能人工智能學(xué)習(xí)起來尚且困難[4]。因此,真人解說具有獨(dú)特的優(yōu)勢(shì)。
語音合成技術(shù)可以還原經(jīng)典名人的聲音。這需要掌握語料中個(gè)人聲音的獨(dú)有特質(zhì),再模擬出與本人非常相似的聲音,通過后續(xù)細(xì)節(jié)調(diào)整才能讓合成音基本貼合本人。紀(jì)錄片制作周期長(zhǎng),對(duì)解說時(shí)間的要求比較寬松,與智能語音相比,人工配音解說能夠更好地傳達(dá)出紀(jì)錄片獨(dú)特的內(nèi)涵。因此,智能語音在影視紀(jì)錄片領(lǐng)域的應(yīng)用情況有待進(jìn)一步觀察[5]。
對(duì)動(dòng)漫配音領(lǐng)域的影響正在開啟
目前,動(dòng)漫配音在我國(guó)處于蓬勃發(fā)展的階段,動(dòng)漫配音要求聲音富有彈性,生成的聲音符合動(dòng)漫人物或動(dòng)物的個(gè)性,而人工智能語音做出固定強(qiáng)調(diào)和適當(dāng)夸張的語音成分是其擅長(zhǎng)之處,情緒起伏變化也在不斷突破和更新。目前,市場(chǎng)推出的部分智能語音作品已經(jīng)基本聽不出太多生硬的痕跡。由于人工智能具有極大的優(yōu)勢(shì),人工動(dòng)漫配音領(lǐng)域未來很有可能被其分一杯羹。
廣告配音的低端市場(chǎng)將被擠占
廣告配音是通過聲音展現(xiàn)出某一產(chǎn)品的特點(diǎn),使得觀眾產(chǎn)生購(gòu)買欲望,其主要目的是宣傳產(chǎn)品特性,引發(fā)消費(fèi)者情感共鳴,讓消費(fèi)者產(chǎn)生購(gòu)買行為。此外,情聲畫有機(jī)結(jié)合才是一條完整的廣告。因此,廣告不僅需要適合特定產(chǎn)品的聲音形象,也需要分析用戶的消費(fèi)心理、產(chǎn)品定位等,以形成獨(dú)特的配音風(fēng)格,還要貼合畫面對(duì)聲音進(jìn)行有機(jī)變化,而這些都是機(jī)器目前難以量化和實(shí)現(xiàn)的[6]。
在傳統(tǒng)配音市場(chǎng)中,固定腔調(diào)的表達(dá)和音質(zhì)較差的作品在語音合成中可以輕易實(shí)現(xiàn)甚至被超越。當(dāng)前智能語音合成在標(biāo)準(zhǔn)統(tǒng)一化和個(gè)性發(fā)展化中有足夠的優(yōu)勢(shì),工作效率高和成本低的優(yōu)勢(shì)使其迅速占領(lǐng)低端市場(chǎng)。但是高質(zhì)量、符合產(chǎn)品特性、迎合消費(fèi)者心理、樹立品牌形象的人工配音創(chuàng)作的宣傳片和廣告片在市場(chǎng)上仍具有極強(qiáng)的競(jìng)爭(zhēng)優(yōu)勢(shì)。
對(duì)影視劇人物配音的影響不大
影視人物配音是由配音員或者演員本人面對(duì)拍攝的畫面以有聲語言為表現(xiàn)手段,為片中角色進(jìn)行后期配音的創(chuàng)作活動(dòng)。影視人物配音是建立在劇作家一度創(chuàng)作和演員二度創(chuàng)作基礎(chǔ)上的三度創(chuàng)作。在配音前,配音員需要和配音導(dǎo)演進(jìn)行深入溝通,理解一度創(chuàng)作表達(dá)的思想情感,然后結(jié)合視頻成品觀看演員臺(tái)詞和劇情情境進(jìn)行備稿、創(chuàng)作,通過一次次調(diào)試完成貼合作品情景畫面,貼合演員動(dòng)作及口型以及貼合臺(tái)詞情緒的成音。而這些對(duì)人工智能語音來說非常困難,其很難識(shí)別和理解豐富的人物情緒、細(xì)微的動(dòng)作變化,并配出相應(yīng)的聲音,即使啟用后期調(diào)試功能,一是畫面中一幀幀變化耗費(fèi)時(shí)間較長(zhǎng),二是機(jī)器難以思考和表達(dá)出導(dǎo)演及演員想要表達(dá)的情感內(nèi)容。因此,人工智能語音合成技術(shù)對(duì)影視劇人物配音的影響微乎其微。
用戶收聽喜好的發(fā)展對(duì)配音市場(chǎng)的影響
一項(xiàng)針對(duì)人工智能配音適應(yīng)性的抽樣問卷調(diào)查顯示,在資訊消息和語音播報(bào)等場(chǎng)景中,超過半數(shù)人從一開始就沒有排斥;將近五分之一的人在使用中不適感逐漸消失;只有16%的人認(rèn)為人工智能配音缺乏獨(dú)特性,更傾向真人配音。這些場(chǎng)景中,人們的情感交互需求并不強(qiáng),絕大多數(shù)人也沒有明顯的排斥,因此在一些用戶情感要求不高的配音作品中,智能語音占據(jù)極大優(yōu)勢(shì)。
調(diào)查還顯示,在一些情感交互較強(qiáng)的文本中,用戶更傾向高質(zhì)量的真人配音,無思想感情的智能語音本身就不存在獨(dú)立思考的能力,它必須依附人類為其提前設(shè)定好的編碼程序才能工作,即使擁有豐富的語料庫,具備停連、輕重音、語氣的綜合處理能力,但對(duì)于藝術(shù)性、創(chuàng)造性、個(gè)性化有要求的廣告配音、紀(jì)錄片配音作品來說,智能語音無法滿足其需求。另外,對(duì)于部分情緒及聲音變化豐富的影視人物、動(dòng)漫角色、有聲小說角色,如果使用智能語音,就需要大量的后期調(diào)節(jié)工作,處理起來麻煩且不一定能達(dá)到很好的效果。
因此,隨著合成技術(shù)的不斷升級(jí),人工智能語音技術(shù)不斷提升,其能夠更加逼真地還原出真實(shí)的人聲,但在理解用戶意圖、獨(dú)立思考和呈現(xiàn)豐富的聲音變化上,還要走很長(zhǎng)的路。而在一些情感交互要求較強(qiáng)的配音作品中,其仍然無法替代人工配音。
結(jié)語
綜上所述,人工智能語音的發(fā)展給配音行業(yè)帶來了巨大的沖擊。“人工智能+配音創(chuàng)作”已經(jīng)成為時(shí)代發(fā)展的必然趨勢(shì),也是順應(yīng)市場(chǎng)發(fā)展和滿足用戶需求的必然方向。在未來,應(yīng)當(dāng)順應(yīng)時(shí)代發(fā)展,提升行業(yè)整體水平,在培養(yǎng)配音專業(yè)人才方面:第一,著力于提升語言功底,創(chuàng)作內(nèi)涵豐富、深刻、獨(dú)特、獨(dú)具魅力的作品;第二,加強(qiáng)對(duì)多學(xué)科基礎(chǔ)的學(xué)習(xí),如語言學(xué)、社會(huì)學(xué)、心理學(xué)等,通過分析文本需要傳遞的精神實(shí)質(zhì)及用戶心理創(chuàng)作出更多深入人心的作品;第三,對(duì)有聲書、廣告片、宣傳片、影視配音等進(jìn)行深刻研究,打磨好每一個(gè)細(xì)節(jié),創(chuàng)作出更好的配音作品。在人工智能輔助下,人工配音創(chuàng)作應(yīng)找準(zhǔn)方向,發(fā)揮出自身的獨(dú)特優(yōu)勢(shì),碰撞出璀璨的“創(chuàng)新之花”。
(作者單位:江蘇師范大學(xué)科文學(xué)院)
[1]郭棟,肖愛云.“互聯(lián)網(wǎng)+”趨勢(shì)下人工智能在配音中的應(yīng)用[J].西部廣播電視,2018(20):186+188.
[2]翁佳.智能語音技術(shù)對(duì)播音主持專業(yè)與行業(yè)影響探究[J].電視研究,2017(12):57-59.
[3]劉銀娣,楊楊.媒介本體論視域下有聲故事書智能生產(chǎn)研究[J].出版發(fā)行研究,2022(03):32-39.
[4]吳婉璐.我國(guó)影視劇配音現(xiàn)狀及發(fā)展研究[D].南昌:南昌大學(xué),2018.
[5]曾誰飛,王仁波.語音合成技術(shù)在智能語音播報(bào)系統(tǒng)中的應(yīng)用探析[J].電信科學(xué),2010,26(03):64-68.
[6]王偉.廣告配音的個(gè)性化傳達(dá)與實(shí)現(xiàn)路徑[J].記者觀察,2022(23):25-27.