鄧葉勛,趙 暉
(新疆大學 信息科學與工程學院,烏魯木齊 830046)
語音是人機交互的重要方式之一,語音信號中除自身豐富的語言學信息外,還包括大量說話人的個性、主觀感受、情感表達等超語言學信息[1]。隨著語音合成技術(shù)的不斷發(fā)展,未來使計算機產(chǎn)生能夠具有人類情感的語音將成為可能。而情感語音轉(zhuǎn)換的任務(wù)就是在保留基本語義和說話人信息不變的同時,將語音從一種情感狀態(tài)轉(zhuǎn)換為另一種情感狀態(tài)[2]。
早期的語音轉(zhuǎn)換采用映射碼本[3]的方法,但該方法對新數(shù)據(jù)的建模能力有限,轉(zhuǎn)換效果不佳。因此,基于統(tǒng)計方法的語音轉(zhuǎn)換技術(shù)體現(xiàn)出其優(yōu)秀性能[4-5],其中,基于高斯混合模型(Gaussian Mixture Model,GMM)的轉(zhuǎn)換方法被廣泛應用,其采用局部回歸函數(shù)的權(quán)重和作為轉(zhuǎn)換函數(shù)進行轉(zhuǎn)換建模,但該模型中設(shè)置了過多的高斯核,極易產(chǎn)生訓練數(shù)據(jù)的過擬合?;谏窠?jīng)網(wǎng)絡(luò)[6]的方法通過構(gòu)建一個非線性映射函數(shù)避免過擬合,但是該方法需要大量的訓練數(shù)據(jù)進行參數(shù)調(diào)整,在小型語料庫中使用會受限。
隨著語音轉(zhuǎn)換技術(shù)的日趨成熟,對情感語音轉(zhuǎn)換的研究工作也有很多新嘗試。文獻[7]采用Pitch-Target模型參數(shù)化基頻,并使用基于GMM和分類回歸樹(Classification and Regression Trees,CART)的基頻轉(zhuǎn)換方法,實現(xiàn)漢語中性語音至情感語音的基頻轉(zhuǎn)換。在漢語韻律結(jié)構(gòu)中,文獻[8]提出“大波浪加小波、語調(diào)加字調(diào)”的語調(diào)層次思想,文獻[9]選擇離散余弦變換(Discrete Cosine Transform,DCT)參數(shù)化基頻,并根據(jù)層次結(jié)構(gòu)特點將基頻分解為短語層和音節(jié)層2個層次,然后使用基于GMM的方法分別進行轉(zhuǎn)換,基于DCT的方法進行情感語音轉(zhuǎn)換能夠提高目標情感的力度,然而對于不同長度的層級單元,DCT系數(shù)的個數(shù)無法準確確定,對于長度較短的音節(jié),DCT參數(shù)化時表征能力會變?nèi)?導致各韻律層級間無法保證語音基頻的自然連續(xù)性。為在語音轉(zhuǎn)換過程中充分考慮語音的幀間相關(guān)性,文獻[10]提出一種基于卷積非負矩陣分解的語音轉(zhuǎn)換方法,該方法能較好地保存和轉(zhuǎn)換語音幀間的相關(guān)性,但缺少對語音韻律結(jié)構(gòu)進行建模。連續(xù)小波變換(Continuous Wavelet Transform,CWT)在語音基頻的建模和轉(zhuǎn)換中已經(jīng)取得了顯著成效,文獻[11]使用CWT方法將基頻分解至10個層級,并基于動態(tài)核偏最小二乘法進行了語音轉(zhuǎn)換。文獻[12]提出基于非負矩陣分解(Non-negative Matrix Factorization,NMF)的語音轉(zhuǎn)換方法,其采用稀疏表達的思想將目標語音信號特征通過一組基數(shù)據(jù)的線性組合進行表示。近年來,少數(shù)民族語言的轉(zhuǎn)換技術(shù)也取得了顯著的研究成果[13],但是生成語音的自然度仍不夠理想。
針對以上問題,本文基于NMF原理,使用CWT對情感語音基頻進行層次建模,采用STRAIGHT[14]分析工具提取與合成語音特征,在此基礎(chǔ)上提出一種參數(shù)控制的情感語音轉(zhuǎn)換方法。
NMF是一種稀疏編碼方法,其主要設(shè)計思想是將信號表征為一組基的線性組合,本文稱這一組基為范例,其具體形式為:
其中,向量xn表示第n幀輸入特征信號,向量dm和am,n分別表示第n幀信號的第m個范例特征及對應的非負權(quán)重。本文中,xn為第n幀語音信號的基頻特征值,每一個基元素被稱為基頻的范例數(shù)據(jù),其矩陣表示形式為:
xn≈Dan
其中,矩陣D=[d1,d2,…,dM],向量an=[a1,n,a2,n,…,aM,n]T分別表示基矩陣和對應權(quán)重的集,本文中,矩陣D為訓練數(shù)據(jù)中構(gòu)造出的范例字典,向量an為激活向量。
對于一句語音信號中的基頻特征,對其進行NMF建模為:
X=DA
其中,矩陣X=[x1,x2,…,xn]表示基頻參數(shù)化后的特征數(shù)據(jù),矩陣A=[a1,a2,…,aN]表示對應的激活矩陣,N為語音信號的幀長。
NMF方法中加入了非負性限制的條件,在估計激活矩陣A時,最小化目標函數(shù)為:
其中,λ為稀疏限制因子,d(·)為代價函數(shù),其采用Kullback-Leibler(KL)散度誤差最小化方法計算X和DA兩者的散度。對于矩陣a和矩陣b,兩者的KL散度定義為:
其中,h表示a和b兩種KL散度的計算數(shù)據(jù)域。
文獻[15]給出了NMF的求解方法,本文求解激活矩陣A時使用的迭代更新法則如下:
An+1=An.*(DT(X./(DAn)))./(DT+λ)
其中,.*和./分別表示矩陣中各元素間進行點積和點除操作。
利用NMF方法進行語音轉(zhuǎn)換時,需要依據(jù)源字典矩陣Ds和目標字典矩陣Dt構(gòu)造出一個平行字典數(shù)據(jù),其中,源字典Ds由源說話人語音特征范例構(gòu)成,目標字典Dt由轉(zhuǎn)換到特定情感的說話人特征范例構(gòu)成。這2個字典包含說話人相同的文本內(nèi)容,由于基于NMF方法的語音轉(zhuǎn)換需要源和目標的平行數(shù)據(jù),因此本文使用動態(tài)時間規(guī)整(DTW)方法進行源字典和目標字典的對齊。
文獻[16]指出,對于語音信號而言,對源信號和目標信號特征分別用源字典和目標字典進行稀疏表示時,最終獲得的2個激活矩陣具有相似性。依據(jù)該結(jié)論,在已經(jīng)獲得源-目標平行字典范例數(shù)據(jù)的情況下,源字典估計出的源特征激活矩陣可以直接作為目標特征的激活矩陣,即轉(zhuǎn)換中源和目標共用一組激活矩陣。因此,使用待轉(zhuǎn)換的中性語音提取相應的激活矩陣,根據(jù)語料庫中構(gòu)建的情感字典可以將目標情感特征進行重構(gòu)。
在基頻參數(shù)化處理前,需要對提取到的語音基頻進行預處理,將基頻輪廓轉(zhuǎn)換到對數(shù)域尺度,然后使用Z-score標準化方法對數(shù)據(jù)進行歸一化,以便在小波尺度中分析使用。對一句中性語音的基頻預處理操作流程如圖1所示。
圖1 例句“備化學考試”基頻輪廓預處理流程
本文為更好地描述基頻小波參數(shù)化過程,將基頻輪廓表示為序列f0,f0連續(xù)小波變換W(f0)(τ,t)定義為:
其中,f0(x)是輸入信號,ψ(t)是墨西哥帽母函數(shù)。
文獻[2]對5個特定的離散尺度域進行分析,有效簡化了小波建模,根據(jù)該文獻思想,本文基頻重建公式如下:
wi=W2i-1(f0)(t)+W2i(f0)(t)
i=1,2,…,5
其中,wi為特征參數(shù)向量,w1~w5依次對應韻律結(jié)構(gòu)中的音素層、音節(jié)層、單詞層、短語層和句子層。語音基頻在通過預處理操作后,其小波分解后的5層表示形式如圖2所示。
圖2 基頻輪廓的小波5尺度特征表示
NMF方法要求特征數(shù)據(jù)具有非負性,對小波分解后的5層數(shù)據(jù)進行非負變換處理,對矩陣w進行以e為底的冪函數(shù)操作,表示為:
Fc=exp(w)
此時得到的矩陣Fc即為用于NMF的情感轉(zhuǎn)換小波參數(shù)化特征數(shù)據(jù)。
在對基頻進行小波分解后,針對得到的小波 5層特征Fc,用之前獲取的原始基頻幀對齊索引信息作為源和目標特征數(shù)據(jù)的對齊依據(jù)。從訓練語音數(shù)據(jù)中獲取各基頻段的平行特征數(shù)據(jù)Fc,將其作為構(gòu)建平行字典的范例數(shù)據(jù)內(nèi)容。構(gòu)建出的平行字典為:
此時,用于情感語音轉(zhuǎn)換的平行字典被構(gòu)建出來,其構(gòu)成了用于情感語音轉(zhuǎn)換的數(shù)據(jù)。
因為源字典、目標字典使用相同的激活矩陣,所以能夠采用NMF方法實現(xiàn)情感語音的基頻轉(zhuǎn)換。同時,引入轉(zhuǎn)換參數(shù)控制調(diào)整因子進行基頻轉(zhuǎn)換,通過優(yōu)化目標特征的激活值而重建出更具表現(xiàn)力的目標情感語音。
對于待轉(zhuǎn)換的中性語音,采用同樣的方法獲得其基頻段的5層小波表示形式,計算出其激活矩陣As,公式為:
傳統(tǒng)的計算方法中,目標語音特征數(shù)據(jù)的表示方式為:
其中,C為參數(shù)控制調(diào)整因子,是一個常數(shù),其值根據(jù)待轉(zhuǎn)換到不同目標情感語音的實際情況而取得。在源激活矩陣As中的激活值較小時,將所占比重偏小的激活值取為0,該值不參與目標情感基頻特征數(shù)據(jù)的構(gòu)建。經(jīng)過調(diào)整后,目標情感特征數(shù)據(jù)的構(gòu)建采用如下的改進式:
為有效評判引入調(diào)整因子對情感語音轉(zhuǎn)換系統(tǒng)的影響,本文分別在具有調(diào)整因子和不具有調(diào)整因子的轉(zhuǎn)換系統(tǒng)上進行實驗,實驗系統(tǒng)說明如下:
1)NMF-0系統(tǒng)中采用傳統(tǒng)的NMF情感語音轉(zhuǎn)換方法進行情感語音基頻的轉(zhuǎn)換,其作為基準線使用。
2)NMF-1系統(tǒng)在NMF轉(zhuǎn)換方法的基礎(chǔ)上,引入情感語音調(diào)整因子C,其通過調(diào)整參數(shù)C的數(shù)值獲得對應的基頻轉(zhuǎn)換結(jié)果。
實驗選取本研究小組錄制的情感語音數(shù)據(jù)庫作為語料數(shù)據(jù)源,錄音采樣頻率為16 000 Hz,采樣精度為16 bit,為雙聲道采樣音頻。選取中性、高興、恐懼和悲傷4種情感的男聲語音,每類語音共30句語句作為本次實驗數(shù)據(jù),進行由中性語音到其他3種情感語音的訓練和轉(zhuǎn)換實驗,以驗證本文轉(zhuǎn)換方法的有效性。在轉(zhuǎn)換實驗中,用20句平行語句作為實驗訓練集數(shù)據(jù),10句平行語句作為測試集數(shù)據(jù),使用STRAIGHT工具提取語音基頻,幀長為25 ms,幀移為5 ms,結(jié)合情感語音手工標注出濁音部分,提取對應平行語音基頻段,用于情感語音基頻轉(zhuǎn)換。
在進行客觀評測時,使用轉(zhuǎn)換后的基頻值與目標情感的基頻值的均方根誤差(RMSE)作為評估標準,該值表達式如下:
其中,l表示任一幀數(shù)據(jù),L表示基頻段中語音幀數(shù)據(jù)的總個數(shù),Fl′表示經(jīng)轉(zhuǎn)換得到的第l幀基頻數(shù)值,Fl表示對應該幀的目標基頻數(shù)值。RMSE值越小,則情感語音轉(zhuǎn)換的錯誤率越低,轉(zhuǎn)換效果越好。
在實驗中,分別使用NMF-0系統(tǒng)和NMF-1系統(tǒng)對中性到高興情感、中性到恐懼情感、中性到悲傷情感進行基頻轉(zhuǎn)換。其中,中性-高興字典基數(shù)據(jù)個數(shù)為4 535,中性-恐懼字典基數(shù)據(jù)個數(shù)為4 354,中性-悲傷字典基數(shù)據(jù)個數(shù)為5 521。NMF-1系統(tǒng)中選取的調(diào)整因子變化范圍為[1.00E-06,8.00E-04]。不同C值下的客觀實驗結(jié)果如表1所示。
表1 不同C值下基頻轉(zhuǎn)換RMSE結(jié)果
由表1可以看出,在NMF-1中C=1.00E-04時,3種情感轉(zhuǎn)換的RMSE值都比NMF-0中的對應值低,其中,中性-高興情感RMSE值下降了1.77 Hz,中性-恐懼情感RMSE值下降了2.88 Hz,中性-悲傷情感RMSE值下降了1.48 Hz。引入調(diào)整因子C,可以在一定程度上降低情感語音轉(zhuǎn)換的重建誤差,其中,中性-恐懼類情感效果最為明顯,達到了約3 Hz。隨著調(diào)整因子的增大,RMSE值并不呈現(xiàn)下降趨勢,在C=1.00E-06時,中性-高興類和中性-恐懼類情感的RMSE值都有稍微提高,而中性-悲傷類情感RMSE值則有所降低。同時可以看到,當C的取值大于1.00E-04時,RMSE值急劇變大,重建基頻發(fā)生扭曲,轉(zhuǎn)換效果變差,因此,1.00E-04成為選取調(diào)整因子C的分界值。
通過上述分析可知,在基于NMF方法的情感語音轉(zhuǎn)換中,引入調(diào)整因子C可以在一定程度上降低基頻的重建誤差。調(diào)整因子C值的選取不宜過小,也不宜過大,C值過小會因為比重不夠而達不到較好效果;C值過大會使激活值不足而產(chǎn)生嚴重的基頻扭曲,導致情感語音轉(zhuǎn)換誤差過大。
文獻[17]指出在應用的問題規(guī)模逐漸增大時,NMF方法運算規(guī)模隨之增大,此時,基于NMF的情感語音轉(zhuǎn)換也會耗費很大的計算時間,對轉(zhuǎn)換系統(tǒng)的性能有一定影響。為對比NMF-1和NMF-0 2種系統(tǒng)的時效性,對2種方法的情感語音轉(zhuǎn)換計算時間進行實驗分析。在字典中選取個數(shù)為500、1 000、2 000、3 000、4 000的基范例分別進行實驗,統(tǒng)計 2種系統(tǒng)轉(zhuǎn)換測試集數(shù)據(jù)的總時間及兩者時間差,其中,NMF-1中選取調(diào)整因子C=1.00E-04,測試結(jié)果如表2所示。
表2 不同系統(tǒng)計算時間對比
從表2的結(jié)果中可以看出,在加入?yún)?shù)控制后,NMF-0和NMF-1 2種系統(tǒng)在運算耗時方面相差不多,NMF-1系統(tǒng)并沒有因為控制參數(shù)的加入而耗費更多的計算時間,對于3種情感語音轉(zhuǎn)換,中性-高興轉(zhuǎn)換中NMF-1僅在基范例個數(shù)為4 000時耗時相對較多,其他情況下兩者耗時基本相當,其中也出現(xiàn)了NMF-1比NMF-0耗時短的情況,如中性-恐懼轉(zhuǎn)換基范例個數(shù)為1 000、中性-悲傷轉(zhuǎn)換基范例個數(shù)為3 000時。
綜上所述,在基于NMF的情感語音轉(zhuǎn)換中,引入?yún)?shù)控制后,轉(zhuǎn)換系統(tǒng)并沒有因此而產(chǎn)生較多的運行耗時。同時,通過參數(shù)控制的方法可以有效降低轉(zhuǎn)換的RMSE值,使得目標基頻具有更小的誤差值,從而獲得更好的轉(zhuǎn)換結(jié)果。
為進一步對比轉(zhuǎn)換效果,本文進行情感語音平均主觀意見得分(Mean Opinion Score,MOS)實驗。實驗中采用“5分制”分別對數(shù)據(jù)庫中的中性語音、情感語音、NMF-0轉(zhuǎn)換后的情感語音和NMF-1轉(zhuǎn)換后的情感語音進行MOS打分,具體的打分規(guī)則如表3所示。在每組評測中,選取30句情感語音(10句高興,10句恐懼,10句悲傷)進行測試,4名大學生參與本次測聽實驗,受試人員均無聽力方面障礙,能夠熟練理解和運用待測試語言。
由客觀實驗結(jié)果可知,C=1.00E-04時,3種情感的轉(zhuǎn)換語音在RMSE值上均最優(yōu)。因此,主觀實驗中NMF-1方法設(shè)定C=1.00E-04。
表3 MOS打分規(guī)則
圖3所示為對實驗語料庫的4種情感進行MOS打分的結(jié)果,從中可以看出,所有類別的語音都基本能夠正確表現(xiàn)出特定情感,因此,該語料數(shù)據(jù)能有效分析本次主觀實驗。
圖3 原始語料庫MOS打分結(jié)果
圖4所示為NMF-0系統(tǒng)和NMF-1系統(tǒng)由中性轉(zhuǎn)換到高興、恐懼、悲傷情感語音的MOS打分結(jié)果。由圖4中結(jié)果可以看出,NMF-1系統(tǒng)轉(zhuǎn)換的高興和悲傷情感MOS得分都比NMF-0系統(tǒng)高,而轉(zhuǎn)換的恐懼情感MOS得分較低,產(chǎn)生該現(xiàn)象的原因有2點:1)高興和悲傷有很明顯的情感特性,聽辨者很容易捕捉其情感變化;2)由于恐懼情感中帶有顫音、停頓等情感因素,在原始語料庫MOS得分中相對其他2種情感得分較低,情感的變動因素會給聽辨者帶來一定的區(qū)分難度。在本次主觀實驗中,中性轉(zhuǎn)換到高興、悲傷情感達到了預期效果,加入調(diào)整因子的參數(shù)控制方法獲得了相對較高的MOS分。
圖4 不同系統(tǒng)語音轉(zhuǎn)換MOS得分結(jié)果
本文基于NMF提出一種參數(shù)控制的情感語音轉(zhuǎn)換方法,研究特定語言的情感語音基頻轉(zhuǎn)換。通過將目標基范例替換待轉(zhuǎn)換語音基范例重建出目標語音基頻,且在具體的轉(zhuǎn)換方法中引入激活度調(diào)整因子作為參數(shù)控制,從而更好地捕捉目標情感語音基頻特征,提高情感語音轉(zhuǎn)換質(zhì)量。實驗結(jié)果表明,相對沒有引入調(diào)整因子的傳統(tǒng)方法,該改進方法在基頻重建誤差和情感力度方面均表現(xiàn)出一定的優(yōu)勢,能有效將中性語音轉(zhuǎn)換為情感語音。針對本文的分析結(jié)果,后續(xù)將在以下3個方面展開工作:研究平行字典中基范例數(shù)據(jù)的最優(yōu)個數(shù),降低系統(tǒng)的運行時間,提升轉(zhuǎn)換模型的性能;在情感語料庫中擺脫平行數(shù)據(jù)的限制,使用非平行數(shù)據(jù)構(gòu)建轉(zhuǎn)換字典;結(jié)合統(tǒng)計分析方法構(gòu)建優(yōu)化參數(shù)控制模型,基于待轉(zhuǎn)換情感語料自適應獲得調(diào)整因子的最優(yōu)值,提高情感語音轉(zhuǎn)換的靈活性。
[1] 凌震華,高 麗,戴禮榮.基于目標逼近特征和雙向聯(lián)想貯存器的情感語音基頻轉(zhuǎn)換[J].天津大學學報(自然科學與工程技術(shù)版),2015,48(8):670-674.
[2] MING H,HUANG D,DONG M,et al.Fundamental frequency modeling using wavelets for emotional voice conversion[C]//Proceedings of 2015 International Conference on Affective Computing and Intelligent Interaction.Washington D.C.,USA:IEEE Press,2015:804-809.
[3] ABE M,NAKAMURA S,SHIKANO K,et al.Voice conversion through vector quantization[J].Journal of the Acoustical Society of Japan,1988,11(2):71-76.
[4] AFIFY M,CUI X,GAO Y.Stereo-based stochastic mapping for robust speech recognition[J].IEEE Transactions on Audio Speech and Language Processing,2009,17(7):1325-1334.
[5] YE H,YOUNG S.Perceptually weighted linear transfor-mations for voice conversion[EB/OL].[2017-04-20].https://wenku.baidu.com/view/582d53353186bceb18e8bbc9.html.
[6] DESAI S,RAGHAVENDRA E V,YEGNANARAYANA B,et al.Spectral mapping using artificial neural networks for voice conversion[J].IEEE Transactions on Audio Speech and Language Processing,2010,18(5):954-964.
[7] TAO J,KANG Y,LI A.Prosody conversion from neutral speech to emotional speech[J].IEEE Transac-tions on Audio Speech and Language Processing,2006,14(4):1145-1154.
[8] CHAO Y R.A Grammar of Spoken Chinese[M].Berkeley,USA:University of California Press,1970.
[9] 李 賢,於 俊,汪增福.面向情感語音轉(zhuǎn)換的韻律轉(zhuǎn)換方法[J].聲學學報,2014,39(4):509-516.
[10] 孫 健,張雄偉,曹鐵勇,等.基于卷積非負矩陣分解的語音轉(zhuǎn)換方法[J].數(shù)據(jù)采集與處理,2013,28(2):141-148.
[11] SANCHEZ G,SILEN H,NURMINEN J,et al.Hierarchical modeling of F0 contours for voice conversion[EB/OL].[2017-04-20].http://www.isca-speech.org/archive/archive_papers/interspeech_2014/i14_2318.pdf.
[12] AIHARA R,UEDA R,TAKIGUCHI T,et al.Exemplar-based emotional voice conversion using non-negative matrix factorization[C]//Proceedings of 2014 Summit and Conference on Asia-Pacific Signal and Information Processing Association.Washington D.C.,USA:IEEE Press,2014:1-7.
[13] 杜楠楠,趙 暉.維吾爾語情感語音韻律轉(zhuǎn)換研究[J].計算機工程與應用,2016,52(19):154-160.
[14] KAWAHARA H,MORISE M,TAKAHASHI T,et al.Tandem-STRAIGHT:a temporally stable power spectral representation for periodic signals and applications to interference-free spectrum,F0,and aperiodicity estimation[C]//Proceedings of 2008 IEEE International Conference on Acoustics,Speech and Signal Processing.Washington D.C.,USA:IEEE Press,2008:3933-3936.
[15] LEE D D,SEUNG H S.Learning the parts of objects by non-negative matrix factorization[J].Nature,1999,401(6755):788-791.
[16] TAKASHIMA R,TAKIGUCHI T,ARIKI Y.Exemplar-based voice conversion in noisy environment[C]//Proceedings of IEEE Workshop on Spoken Language Technology.Washington D.C.,USA:IEEE Press,2013:313-317.
[17] 郭 立,張守志,汪 衛(wèi),等.一種增量式非負矩陣分解算法[J].計算機工程,2010,36(4):66-68.