汪洋,李紹彬,邊潔蕊
(中國傳媒大學(xué) 信息工程學(xué)院,北京100024)
基于語音信號的發(fā)音器官運動估計,又稱語音反轉(zhuǎn)(Speech Inversion),是根據(jù)說話人語音推斷嘴唇、下頜、面部肌肉、舌頭等發(fā)音器官運動過程的技術(shù),綜合了語音信號處理、生理語音學(xué)、計算機視覺、圖形學(xué)等多學(xué)科前沿知識,在語言教學(xué)、發(fā)音矯正、醫(yī)學(xué)、影視動畫制作等方面有著廣闊的應(yīng)用前景。
語音信號的發(fā)音器官運動估計技術(shù),近年來受到了各領(lǐng)域研究者的廣泛關(guān)注,近期的研究趨向于綜合考慮語音現(xiàn)象、聲學(xué)現(xiàn)象等多維度特征對估計結(jié)果的影響,將語音規(guī)則和信號處理的前沿技術(shù)結(jié)合起來解決發(fā)音器官運動估計問題,取到了較多研究成果。
本文主要對基于單元選擇模型和回歸模型的方法進行介紹。
單元選擇模型(Unit Selection Model)又稱碼本模型(Codebook Model),該模型先將用于估計的目標(biāo)語音切分為若干語音單元,再從預(yù)先建立的碼本庫中選擇出與各語音單元相匹配的運動數(shù)據(jù),將選擇的運動數(shù)據(jù)按照目標(biāo)語音順序排列成序列,最后應(yīng)用重采樣、內(nèi)插平滑等拼接合成算法生成運動軌跡。
碼本庫建設(shè)是單元選擇模型的關(guān)鍵。碼本庫建設(shè)首先進行參測實驗,參測實驗同步記錄了說話人的發(fā)音器官運動數(shù)據(jù)和語音信號。運動捕捉、醫(yī)學(xué)成像、電磁發(fā)音記錄(Electromagnetic Articulometer,EMA)等技術(shù)被廣泛應(yīng)用于發(fā)音器官的運動觀測。語音規(guī)律復(fù)雜,同一個音素在不同的語音環(huán)境中會有不同的發(fā)音表現(xiàn),碼本庫豐富程度將直接影響最終運動呈現(xiàn)逼真程度。
圖1 單元選擇模型
Yu等人[8]為了解決語音反轉(zhuǎn)過程中估算聲道長度問題,利用聚類方法設(shè)計了一個“聲學(xué)參數(shù)-運動數(shù)據(jù)”碼本庫。還有許多研究者做了碼本庫的建設(shè)與研究[3-7]。
運動數(shù)據(jù)序列生成是單元選擇模型的核心,主要包括語音單元切分和選擇算法設(shè)計兩項技術(shù)。
Minnis等人[6]設(shè)計了一種基于3D運動數(shù)據(jù)捕捉的單元選擇方法。與傳統(tǒng)的根據(jù)語言先驗知識將語音劃分為音素或音節(jié)的做法不同,這種方法是根據(jù)碼本庫中音素上下文環(huán)境和目標(biāo)音素上下文環(huán)境的一致性來確定語音單元的。研究者將語音單元定義為“可變長語音段”,在選擇算法實現(xiàn)過程中確定語音單元的劃分。Cao等人[7]也提出了類似方法,所設(shè)計的系統(tǒng)會在所有可能的候選語音段中選擇最長的語音段,這樣做的目的是最小化目標(biāo)語音所分割的段數(shù)。
Suzuki等人[4]建立的碼本庫中記錄了語音信號的譜段(Spectrum Segments)信息,提出了一種發(fā)音參數(shù)路徑平滑程度的計算方法,利用譜段距離和路徑平滑程度兩個約束條件來完成輸入語音和碼本庫中的參數(shù)匹配。在之后的研究[9]中利用隱馬爾可夫模型(Hidden Markov Model,HMM)統(tǒng)計聲學(xué)特征與發(fā)音器官運動參數(shù)關(guān)系。Wei等人[10]采用深度自編碼算法建立了一種深度神經(jīng)網(wǎng)絡(luò)框架來研究元音的聲學(xué)特征和舌頭的超聲波圖像間的一一映射。Edge等人[5]根據(jù)音素在不同上下文環(huán)境中發(fā)音表現(xiàn)不同,提出動態(tài)音素(Dynamic Phonemes)的概念,并基于此改進了單元選擇算法。研究者計算碼本庫中每個音素單元之間的轉(zhuǎn)移概率;再將給定的目標(biāo)語音切分成音素單元,利用維特比算法(Viterbi Algorithm)從碼本庫中找出最有可能的音素序列。
運動軌跡合成是單元選擇模型的難點。為了實現(xiàn)運動數(shù)據(jù)單元間自然逼真的平滑過渡,許多研究者做了大量工作。
Edge等人[5]將序列重新采樣和回放產(chǎn)生動畫,整個過程中沒有內(nèi)插或?qū)M行處理,最終的動畫僅是來自各碼本中動畫幀的重新排序。江辰等人[11]采用Sigmoid函數(shù)算法完成了序列間的內(nèi)插和平滑。Cohen和Massaro提出的Cohen-Massaro協(xié)同發(fā)音模型[13]在此類問題中有優(yōu)異表現(xiàn),被廣泛引用。Klir等人[15]提出了模糊邏輯(Fuzzy Logic)算法,利用數(shù)學(xué)工具優(yōu)化了合成過程。
單元選擇模型中建立碼本庫是非常繁瑣復(fù)雜的工作,需要有經(jīng)驗的語言工作者進行大量的參測實驗,遴選樣本,并人工切分和標(biāo)記單元。近年來,自動標(biāo)記工具的出現(xiàn)大大減輕了研究者的工作量,但還需要人工核對勘誤。單元選擇模型只適用于單一語種,更換語種時需要重新建立碼本庫。另外單元選擇模型在不同受測者中的泛化能力較差,因為每個說話人有不同的發(fā)音習(xí)慣和方言口音,碼本庫很難涵蓋所有語音現(xiàn)象。
回歸模型(Regression Model)應(yīng)用合適的回歸算法建立模型,使用大規(guī)模數(shù)據(jù)集訓(xùn)練模型,使得模型可以較好地“理解”語音聲學(xué)特征與運動數(shù)據(jù)間的擬合關(guān)系。
圖2 回歸模型
大多數(shù)回歸模型忽略語音的語法規(guī)律,僅僅尋找聲學(xué)特征與運動信息之間的映射關(guān)系。
Zelezny等人[16]為了擬合聲音和模型動畫關(guān)鍵幀上唇部、下頜標(biāo)定點位置關(guān)系,建立了一個4狀態(tài)、由左向右的HMM,再利用Cohen-Massaro協(xié)同發(fā)音模型[13]在關(guān)鍵幀間進行插值,完成標(biāo)記點的平滑運動。HMM常被用于處理該類問題[17-19]。
Naraghi等人[20]建立了雙鏈隱馬爾可夫模型(Parallel Hidden Markov Model)實現(xiàn)了基于語音信號的唇部動畫合成,還提出了一種形變算法用于動畫的平滑處理。
Wielgat等人[21]利用動態(tài)時間規(guī)整(Dynamic Time Warping,DWT)算法實現(xiàn)語音信號和EMA數(shù)據(jù)的擬合,并且證明了在小數(shù)據(jù)集條件下,該方法比HMM表現(xiàn)更佳。
Malcangi等人[22]建立人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)來擬合關(guān)鍵幀上運動值,并利用模糊邏輯算法[13]做內(nèi)插,平滑運動軌跡。Luo等人[14]利用深度信念網(wǎng)絡(luò)(Deep Belief Network,DBN)實現(xiàn)語音反轉(zhuǎn),提取語音的梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)及其衍生參數(shù)與EMA數(shù)據(jù)匹配。
Li[23]等人提出了一種方向相對位移(Directional Relative Displacement,DRD)特征提取方法來處理唇部、下頜和舌頭的EMA運動數(shù)據(jù)。研究者在空間建立坐標(biāo)系,提出了一組由嘴唇寬度、上下唇距離和各個EMA傳感器方向相對位移等11個標(biāo)準(zhǔn)化參數(shù)構(gòu)成的特征集合,再利用HMM尋找聲音特征和特征集合的回歸關(guān)系。
Tobing等人[29]提出了一種潛在軌跡高斯混合模型(Latent Trajectory Gaussian Mixture Model,LT-GMM)來處運動數(shù)據(jù)估計問題。傳統(tǒng)的基于GMM的最大釋然法,在訓(xùn)練階段最優(yōu)化GMM時會利用“語音信號-運動數(shù)據(jù)”數(shù)據(jù)集中的靜態(tài)和動態(tài)特征,但在估計運動軌跡時只會利用靜態(tài)特征,因為訓(xùn)練時和數(shù)據(jù)估計時所利用的特征空間不一致,GMM在這類問題中表現(xiàn)不佳,許多研究者在GMM的基礎(chǔ)上再利用動態(tài)特征和靜態(tài)特征的約束關(guān)系來優(yōu)化幀間關(guān)聯(lián)[24-28],但這種方法繁瑣麻煩。Patrick設(shè)計的模型利用最大期望算法優(yōu)化參數(shù),解決了特征空間不一致問題,并利用實驗證明了LT-GMM在處理運動軌跡估計時優(yōu)于傳統(tǒng)方法。
近年來,一些研究者受選擇模型的啟發(fā),將音素標(biāo)定等方法應(yīng)用于回歸模型,目的是增加模型的先驗知識,提高準(zhǔn)確率。
Tamura等人[30]將語音劃分到音節(jié)層級,利用一個4狀態(tài)、由左向右的HMM研究各個音節(jié)和簡單幾何特征之間的關(guān)系。Taylor等人[31]利用帶有音素標(biāo)簽的語音作為輸入,采用一種改進的動態(tài)外觀模型(Active Appearance Models,AAM)[32]跟蹤唇部運動,并確定視頻上的單元長度,訓(xùn)練HMM生成與音素對應(yīng)的可變長動態(tài)唇部運動數(shù)據(jù)單元。Kuhnke等人[33]提出了一種基于音素標(biāo)簽和聲學(xué)特征的新方法來構(gòu)建語音特征集,并利用一種通用的隨機森林方法[34]測試了語音特征集和3D網(wǎng)格序列間的回歸關(guān)系。
回歸模型是一個計算機自己從大量語料中學(xué)習(xí)規(guī)律的過程,盡管有改進算法也應(yīng)用了語音規(guī)則,但往往研究者也很難說清楚計算機在做擬合過程中應(yīng)用了哪些語音規(guī)律。近年來深度學(xué)習(xí)算法被廣泛應(yīng)用,在此類問題中也有較好表現(xiàn),但是深度學(xué)習(xí)算法需要的數(shù)據(jù)量異常巨大?;貧w模型對語種的依賴程度較低。
本文介紹了基于語音信號的發(fā)音器官運動估計技術(shù)的研究現(xiàn)狀,重點闡述了基于單元選擇模型和回歸模型的方法。
單元選擇模型對特定語種的語音規(guī)律和特定人的發(fā)音習(xí)慣依賴性高,在不同語種和不同發(fā)音口音人群中的泛化能力較差。模型中,碼本庫豐富程度將直接影響最終運動呈現(xiàn)逼真程度,但是大型碼本庫建設(shè)是極其繁重的工作。
回歸模型主要尋找聲學(xué)特征和運動軌跡之間的擬合關(guān)系,對語種和說話人口音依賴性較低,回歸模型通常需要大量的訓(xùn)練數(shù)據(jù)。近年來,研究者利用將語音規(guī)律和回歸算法結(jié)合的方法設(shè)計模型,取得了較好效果。
基于語音信號的發(fā)音器官運動估計技術(shù)近年來雖然取得了較大進展,但是仍然有許多問題需要解決,如:如何將語音規(guī)則和回歸算法更好結(jié)合?如何設(shè)計出利用較小數(shù)據(jù)集訓(xùn)練的精巧模型?如何提高運動軌跡合成的精度和真實程度?這些問題將是今后的研究重點。
[1]M Schroeder.A brief history of synthetic speech[C].Speech Communication,1993,13(1):231-237.
[2]T Dutoit.An introduction to text-to-speech synthesis[M].Netherlands:Kluwer Academic,1997.
[3]P Meyer,J Schroeter,M M Sondhi.Design and evaluation of optimal cepstral lifters for accessing articulatory codebooks[C].IEEE Trans ASSP,1991,39(7):1493-1502.
[4]S Suzuki,T Okadome,M Honda.Determination of articulatory positions from speech acoustics by applying dynamic articulatory constraints[C].Proceedings of Int Conf Spoken Language Processing,1998.
[5]J D Edge,A Hilton.Visual speech synthesis from 3d video[C].European Conference Visual Media Production,2006,174-179.
[6]S Minnis,A P Breen.Modeling visual coarticulation in synthetic talking heads using a lip motion unit inventory with concatenative synthesis[C].International Conference on Spoken Language Processing,2000,759-762.
[7]Y Cao,P Faloutsos,E Kohler,F(xiàn) Pighin.Real-time speech motion synthesis from recorded motions[C].ACM SIGGRAPH/Eurographics symposium on Computer animation,2004,345-353.
[8]Z L Yu,S C Zeng.Acoustic-to-articulatory mapping codebook constraint for determining vocal-tract length for inverse speech problem and articulatory synthesis[C].5th international conference on signal processing proceedings,2000,827-830.
[9]S Hiroya,M Honda.Estimation of articulatory movements from speech acoustics using an HMM-based speech production model[J].IEEE Trans Speech Audio Process,2004,12(2):175-185.
[10]J Wei,Q Fang,X Zheng,W Lu,Y He,J Dang.Mapping ultrasound-based articulatory images and vowel sounds with deep neural network framework[J].Multimed Tools Appl,2016,(75):5223-5245.
[11]江辰,於俊,羅常偉,李睿,汪增福.基于生理舌頭模型的語音可視化系統(tǒng)[J].中國圖象圖形學(xué)報,2015,20(9):1237-1246.
[12]W Mattheyses,W Verhelst.Audiovisual speech synthesis:an overview of the state-of-the-art[C].Speech Communication,2014,(66):182-217.
[13]M M Cohen,D W Massaro.Models and Techniques in Computer Animation[M].Springer-Verlag,1993,139-156.
[14]R Luo,Q Fang,J Wei.Acoustic VR in the mouth:A real-time speech-driven visual tongue system[J].Virtual Reality,IEEE,2017,112-121.
[15]G Klir,B Yuan.Fuzzy sets and fuzzy logic[M].Prentice Hall,1995.
[16]M Zelezny,Z Krnoul,P Cisar,J Matousek.Design,implementation and evaluation of the czech realistic audio-visual speech synthesis[J].Signal Processing,2006,86(12):3657-3673.
[17]S Hiroya,M Honda.Estimation of articulatory movements from speech acoustics using an HMM based speech production model[J].IEEE Trans SAP,2004,12(2):175-185.
[18]K Richmond.Advances in Nonlinear Speech Processing Lecture Notes in Computer Science[J].Trajectory Mixture Density Networks,2007,4885:263-272.
[19]T Hueber,A Ben,G Bailly,P Badin,F(xiàn) Eliséi.Cross-speaker Acoustic-to-Articulatory Inversion using Phone-based Trajectory HMM for Pronunciation Training[C].Proceedings of Interspeech,2012.
[20]Z Naraghi,M Jamzad.Speech driven lips animation for the Farsi language[C].International Symposium on Artificial Intelligence and Signal Processing,2015,201-205.
[21]R Wielgat,A Lorenc.Speech inversion by dynamic time warping method[C].International Conference on Signals and Electronic Systems,2016,81-84.
[22]M Malcangi.Text-driven avatars based on artificial neural networks and fuzzy logic[J].International journal of computers,2010,4(2):61-69.
[23]H Li,M H Yang,J H Tao.Speaker-independent lips and tongue visualization of vowels[C].Proceedings of ICASSP,2013,8106-8110.
[24]H Zen,K Tokuda,T Kitamura.Reformulating the HMM as a trajectory model by imposing explicit relationship between static and dynamic feature vector sequences[J].Computer Speech and Language,2007,21(1):760-764.
[25]T Toda,S Young.Trajectory training considering global variance for HMM-based speech synthesis[C].Proc ICCASP,2009,4025-4028.
[26]S Takamichi,T Toda,A W Black,S Nakamura.Modulation spectrum-constrained rajectory training algorithm for GMMbased voice conversion[C].Proc ICCASP,2015,4859-4863.
[27]C W Luo,J Yu,X Li,Z F Wang.Real Time Speech-Driven Facial Animation Using Gaussian Mixture Models[C].International Conference on Multimedia and Expo Workshops,2014,1-6.
[28]C W Luo,J Yu,Z F Wang.Synthesizing Real-Time Speech-Driven Facial Animation[C].International Conference on Acoustics,Speech and Signal Processing,2014,4568-4572.
[29]P L Tobing,H K Toda,H Kameoka,S Nakamur.Acoustic-to-Articulatory Inversion Mapping based on Latent Trajectory Gaussian Mixture Model[C].Inter Speech,2016,8(12):953-957.
[30]M Tamura,T Masuko,T Kobayashi,K Tokuda.Visual speech synthesis based on parameter generation from hmm:Speech-driven and text-and-speech-driven approaches[C].International Conference on Auditory-Visual Speech Processing,1998,221-226.
[31]S Taylor,M Mahler,B Theobald,I Matthews.Dynamic units of visual speech[C].ACM/ Eurographics Symposium on Computer Animation,2012,275-284.
[32]I Matthews,S Baker.Active appearance models revisited[J].International Journal of Computer Vision,2004,60(2):135-164.
[33]F Kuhnke,J Ostermann.Visual speech synthesis form 3D mesh sequences driven by combined speech features[C].Proceeding of the IEEE International Conference on Multimedia and Expo,2017,1075-1080.
[34]T Kim,Y S Yue,S Taylor,I Matthews.A Decision Tree Framework for Spatiotemporal Sequence Prediction[C].Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2015,577-586.