王 民,楊秀峰,要趁紅
(西安建筑科技大學(xué)信息與控制工程學(xué)院,陜西 西安 710055)
語(yǔ)音包含許多信息,其中最主要的是語(yǔ)義信息和個(gè)性化特征信息。語(yǔ)音轉(zhuǎn)換是指改變一個(gè)說(shuō)話人的語(yǔ)音個(gè)性特征信息,使之具有另外一個(gè)人的語(yǔ)音個(gè)性特征信息[1]。語(yǔ)音轉(zhuǎn)換是一種新興的語(yǔ)音處理技術(shù),可應(yīng)用于眾多領(lǐng)域,如用于商業(yè)應(yīng)用文語(yǔ)的轉(zhuǎn)換[2]、用于電影行業(yè)的配音[3]及在醫(yī)學(xué)領(lǐng)域提升喉部受損人的語(yǔ)音質(zhì)量和清晰度[4]等。
語(yǔ)音轉(zhuǎn)換系統(tǒng)設(shè)計(jì)的根本在于提取表征說(shuō)話人的個(gè)性特征信息并建立合適的轉(zhuǎn)換模型。目前語(yǔ)音轉(zhuǎn)換系統(tǒng)主要是針對(duì)譜包絡(luò)的轉(zhuǎn)換,譜包絡(luò)中含有大量的語(yǔ)音個(gè)性特征信息,使得譜特征的提取更加便捷。除此之外,韻律特征也是很重要的語(yǔ)音個(gè)性化特征,如基因頻率改變較大的情況下會(huì)導(dǎo)致語(yǔ)音的機(jī)械性。迄今為止,學(xué)者們對(duì)語(yǔ)音轉(zhuǎn)換方法的探索從未停止。孫健等[5]提出了一種基于卷積非負(fù)矩陣分解的語(yǔ)音轉(zhuǎn)換方法,但由于分解結(jié)果的不唯一問題阻礙了其在語(yǔ)音轉(zhuǎn)換中的應(yīng)用;馬振等[6]利用語(yǔ)音的稀疏性和K-均值奇異值分解來(lái)實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)換,但其本質(zhì)上是線性的,對(duì)語(yǔ)音信號(hào)中的非線性特征表征不足。但是,最為普遍使用的語(yǔ)音轉(zhuǎn)換方法是基于高斯混合模型GMM(Gaussian Mixture Model)[7 - 10]和人工神經(jīng)網(wǎng)絡(luò)ANN(Artificial Neural Network)[11 - 14]模型的。然而,利用GMM模型進(jìn)行語(yǔ)音轉(zhuǎn)換存在過(guò)平滑和過(guò)擬合等問題,影響了轉(zhuǎn)換語(yǔ)音的性能。不少學(xué)者對(duì)其進(jìn)行了改進(jìn),如簡(jiǎn)志華等[7]提出采用壓縮感知理論來(lái)考慮語(yǔ)音特征參數(shù)的相關(guān)性,Ghorbandoost等[8]提出特征組合方法進(jìn)行語(yǔ)音轉(zhuǎn)換,Erro等[9]利用雙線性頻率彎折和振幅縮放的方法優(yōu)化GMM,但轉(zhuǎn)換后的效果依然不理想。
Figure 1 Voice conversion system diagram圖1 語(yǔ)音轉(zhuǎn)換系統(tǒng)框圖
針對(duì)以上語(yǔ)音轉(zhuǎn)換方法存在的問題,本文提出了一種粒子群算法PSO(Particle Swarm Optimization)[13,14]優(yōu)化廣義回歸神經(jīng)網(wǎng)絡(luò)GRNN(General Regression Neural Network)[15],形成了PSO-GRNN[16]模型的語(yǔ)音轉(zhuǎn)換方法。首先,GRNN是一個(gè)訓(xùn)練過(guò)程快、相對(duì)耗時(shí)少的學(xué)習(xí)網(wǎng)絡(luò),能很好地表征說(shuō)話人之間個(gè)性特征的非線性關(guān)系,于是利用源語(yǔ)音和目標(biāo)語(yǔ)音的聲道和激勵(lì)源的個(gè)性化特征參數(shù)分別訓(xùn)練兩個(gè)GRNN,得到GRNN的結(jié)構(gòu)參數(shù)。其次,基于實(shí)際應(yīng)用的考慮,引入PSO優(yōu)化GRNN的結(jié)構(gòu)參數(shù)進(jìn)行優(yōu)化,加快網(wǎng)絡(luò)的收斂性,同時(shí)也可最大限度地減少模型參數(shù)選擇時(shí)人為因素的影響,提升語(yǔ)音轉(zhuǎn)換的精確度。最后,對(duì)語(yǔ)音的韻律特征基音輪廓和能量分別進(jìn)行線性轉(zhuǎn)換,保證了轉(zhuǎn)換后的語(yǔ)音含有更多目標(biāo)語(yǔ)音的個(gè)性特征信息,提升了轉(zhuǎn)換語(yǔ)音的自然度與似然度,使得轉(zhuǎn)換后的語(yǔ)音更接近目標(biāo)語(yǔ)音。
語(yǔ)音轉(zhuǎn)換系統(tǒng)的框圖如圖1所示。語(yǔ)音轉(zhuǎn)換系統(tǒng)由訓(xùn)練和轉(zhuǎn)換兩個(gè)階段組成。
訓(xùn)練階段:
(1)對(duì)源和目標(biāo)訓(xùn)練語(yǔ)音進(jìn)行歸一化,然后去除語(yǔ)音端點(diǎn)的冗余,剩余信號(hào)則用于特征提取并改造。
(2)通過(guò)線性預(yù)測(cè)LPC(Linear Predictive Coefficients)分析提取聲道參數(shù),源于LPC參數(shù)的基因殘留用來(lái)描述語(yǔ)音信號(hào)的激勵(lì)源。
(3)LPC參數(shù)推導(dǎo)得到線譜頻率LSF(Line Spectral Frequencies)系數(shù),克服LPC參數(shù)存在的插值、量化和穩(wěn)定性問題,對(duì)基因殘留估計(jì)進(jìn)行小波分解。
(4)對(duì)源和目標(biāo)語(yǔ)音的LSF系數(shù)及第一層小波分解系數(shù)分別使用動(dòng)態(tài)時(shí)間規(guī)整DTW(Dynamic Time Warping)技術(shù);對(duì)韻律特征進(jìn)行參數(shù)提取。
(5)用特征參數(shù)LSF系數(shù)和第一層小波分解系數(shù)分別訓(xùn)練徑向基函數(shù)RBF(Radial Basis Function)、GRNN、PSO-GRNN這三種模型,建立相應(yīng)的轉(zhuǎn)換規(guī)則。
轉(zhuǎn)換階段:
(1)用RBF、GRNN和PSO-GRNN這三種轉(zhuǎn)換模型分別對(duì)測(cè)試語(yǔ)音的個(gè)性特征進(jìn)行轉(zhuǎn)換;
(2)LSF系數(shù)逆推得到LPC參數(shù)。對(duì)轉(zhuǎn)換后的小波系數(shù)進(jìn)行小波重建,特征之間的組合使用LPC合成;
(3)使用基因同步疊加技術(shù)將LPC合成語(yǔ)音、測(cè)試語(yǔ)音的基因輪廓及基因輪廓的比例因子組合成新的語(yǔ)音信號(hào);
(4)將基因能量根據(jù)比例因子也縮放至語(yǔ)音信號(hào)中,再通過(guò)濾波的方式提高轉(zhuǎn)換后的語(yǔ)音質(zhì)量,得到最終期望的目標(biāo)語(yǔ)音。
已知自變量X可求得因變量y的期望為:
(1)
通常聯(lián)合密度函數(shù)f(X,Y)可由訓(xùn)練樣本集近似估計(jì)出來(lái),本文選用高斯核函數(shù)進(jìn)行估計(jì)。
(2)
其中,N為學(xué)習(xí)樣本數(shù)目,σ表示光滑因子,P表示X的維數(shù)。
(3)
(4)
GRNN的拓?fù)浣Y(jié)構(gòu)由兩個(gè)靜態(tài)層構(gòu)成:模式層和求和層,如圖2所示。
Figure 2 Structure diagram of GRNN model圖2 GRNN模型結(jié)構(gòu)圖
模式層的節(jié)點(diǎn)接受輸入層神經(jīng)元的輸出向量Xn=[xn,1,xn,2,…,xn,P]T,其中神經(jīng)元個(gè)數(shù)等于訓(xùn)練樣本中輸入向量的維數(shù)P。通過(guò)式(5)計(jì)算模式層中第n個(gè)訓(xùn)練樣本輸入的第j個(gè)神經(jīng)元的輸出值:
(5)
求和層可以看作是由單元M和單元D組成,分別與式(6)的分子和分母對(duì)應(yīng)。模式層輸出被應(yīng)用到求和層的M、D單元。權(quán)值wj,k表示模式層中第j個(gè)神經(jīng)元與求和層中第k個(gè)分子求和神經(jīng)元之間的連接,等于訓(xùn)練樣本中第j個(gè)輸出向量中的第k個(gè)元素yj,k。
最后,輸出層中神經(jīng)元的個(gè)數(shù)等于學(xué)習(xí)樣本中輸出向量的維數(shù)K,各個(gè)輸出神經(jīng)元的輸出是用單元M的輸出除以單元D的輸出產(chǎn)生結(jié)果:
(6)
在本文中,基于GRNN聲道映射模型是通過(guò)源和目標(biāo)語(yǔ)音的LSP參數(shù)訓(xùn)練建立;激勵(lì)映射模型是通過(guò)小波殘差訓(xùn)練建立。
將GRNN模型的光滑因子看作是PSO的粒子,利用PSO尋找最優(yōu),最大限度地減少人為因素對(duì)模型參數(shù)選擇的影響。粒子在維空間中的位置為xi=(xi1,xi2,…,xip)T,速度為vi=(vi1,vi2,…,viD)T。由式(7)計(jì)算得到每個(gè)粒子的個(gè)體最佳適應(yīng)度值和全局最佳適應(yīng)度值。
(7)
通過(guò)式(8)~式(10)更新粒子的位置和速度:
vid=w·vid+c1·r1d·(pid-xid)+
c2·r2d(pgd-xid),
i=1,2,…,N;d=1,2,…,D
(8)
xid=xid+vid
(9)
(10)
其中,c1、c2為加速因子;r1d、r2d為0~1的隨機(jī)數(shù);pid、pgd為個(gè)體極值和全局極值;w為慣性因子;wma、wmi分別是初始慣性權(quán)值和迭代至最大次數(shù)時(shí)的慣性權(quán)值;it、itma分別是當(dāng)前迭代次數(shù)和最大迭代次數(shù)。
PSO結(jié)束時(shí),得到的全局最優(yōu)值作為GRNN模型的光滑因子。
韻律參數(shù)包括基因輪廓、時(shí)長(zhǎng)和能量等,韻律的轉(zhuǎn)換就是對(duì)韻律參數(shù)的轉(zhuǎn)換。本文采用基因同步的方法轉(zhuǎn)換基因輪廓,轉(zhuǎn)換系數(shù)定義為源和目標(biāo)說(shuō)話人基因的平均總間距之比,故轉(zhuǎn)換系數(shù)又稱為比例因子。比例因子α可以用下式表示:
α=ps/pt
(11)
其中,源和目標(biāo)說(shuō)話人的平均基因周期分別用ps和pt表示。因此,語(yǔ)音轉(zhuǎn)換后的基因輪廓就是測(cè)試語(yǔ)音信號(hào)的基因輪廓和基因修改因子的乘積。
為設(shè)計(jì)有效的語(yǔ)音轉(zhuǎn)換系統(tǒng),測(cè)試語(yǔ)音的能量也需要根據(jù)所需的目標(biāo)語(yǔ)音的能量進(jìn)行調(diào)整。用源和目標(biāo)說(shuō)話人音段平均能量之比表示轉(zhuǎn)換因子,這個(gè)比例因子的數(shù)學(xué)表達(dá)為:
β=es/et
(12)
其中,es和et分別表示源和目標(biāo)說(shuō)話人的平均能量。測(cè)試語(yǔ)音的音段信號(hào)能量根據(jù)比例因子β重構(gòu),即可得到期望信號(hào)的能量。
實(shí)驗(yàn)選用卡內(nèi)基梅隆大學(xué)CMU(Camogie Mellon University)的ARCTIC語(yǔ)音庫(kù)。從該語(yǔ)音庫(kù)中選擇兩個(gè)男性和兩個(gè)女性的語(yǔ)音,然后各挑選120段語(yǔ)音作為訓(xùn)練語(yǔ)音,20段語(yǔ)音作為測(cè)試語(yǔ)音。
關(guān)于PSO的參數(shù)設(shè)置:粒子群大小根據(jù)訓(xùn)練GRNN模型的所得光滑因子確定,設(shè)定為40;加速因子、慣性因子限值、最大迭代次數(shù)分別根據(jù)實(shí)驗(yàn)仿真效果所設(shè),分別為2、0.9~0.4、1 000。
本文采用主、客觀兩種評(píng)價(jià)方式測(cè)評(píng)本文的語(yǔ)音轉(zhuǎn)換方法。主觀評(píng)價(jià)通過(guò)MOS和ABX兩種評(píng)測(cè)方式,分別評(píng)測(cè)轉(zhuǎn)換語(yǔ)音的自然度和似然度;客觀評(píng)價(jià)根據(jù)譜失真來(lái)測(cè)評(píng)。
MOS測(cè)試分為5個(gè)等級(jí),從1分到5分別對(duì)應(yīng):很差、差、一般、好和很好。選用10位具有正常聽覺感知能力的人作為測(cè)評(píng)人,測(cè)評(píng)結(jié)果如表1所示。
Table 1 Result of MOS test表1 MOS測(cè)評(píng)結(jié)果
由表1可知:縱向?qū)Ρ?,基于RBF、GRNN、PSO-GRNN這三種模型的語(yǔ)音轉(zhuǎn)換,同性別轉(zhuǎn)換語(yǔ)音的自然度高于異性間的。橫向?qū)Ρ?,PSO-GRNN模型轉(zhuǎn)換語(yǔ)音測(cè)評(píng)的數(shù)值高于RBF模型和GRNN模型的,說(shuō)明本文提出的基于PSO-GRNN模型轉(zhuǎn)換語(yǔ)音的自然度明顯高于基于RBF和GRNN模型的轉(zhuǎn)換語(yǔ)音,且無(wú)論是同性或異性間的轉(zhuǎn)換語(yǔ)音的自然度均大于或等于3,達(dá)到一般水準(zhǔn)。
ABX測(cè)試中A表示源說(shuō)話人語(yǔ)音,B表示目標(biāo)說(shuō)話人語(yǔ)音,X表示轉(zhuǎn)換得到的語(yǔ)音。選用10位具有正常聽覺感知能力的人作為測(cè)評(píng)人,判斷X與A、B的相似度,滿分為100分。測(cè)評(píng)結(jié)果如表2所示。
Table 2 Result of ABX test表2 ABX測(cè)評(píng)結(jié)果
從表2可以看出:基于RBF、GRNN、PSO-GRNN這三種模型的轉(zhuǎn)換語(yǔ)音,異性間轉(zhuǎn)換的語(yǔ)音似然度優(yōu)于同性之間,而異性間的語(yǔ)音轉(zhuǎn)換似然度又以男聲轉(zhuǎn)換為女生時(shí)為最佳。當(dāng)語(yǔ)音轉(zhuǎn)換的源和目標(biāo)語(yǔ)音一定時(shí),GRNN模型轉(zhuǎn)換語(yǔ)音的相似度優(yōu)于RBF模型的轉(zhuǎn)換語(yǔ)音,而本文提出的PSO-GRNN模型的轉(zhuǎn)換語(yǔ)音相似度優(yōu)于RBF模型和GRNN模型的轉(zhuǎn)換語(yǔ)音,轉(zhuǎn)換后語(yǔ)音的相似度為最佳??v觀表中所有數(shù)據(jù),本文提出的PSO-GRNN模型將男聲轉(zhuǎn)為女聲時(shí)測(cè)評(píng)分?jǐn)?shù)最高,即此時(shí)的轉(zhuǎn)換語(yǔ)音似然度最優(yōu),最接近目標(biāo)語(yǔ)音。
譜失真測(cè)評(píng):
(13)
Figure 3 Voice spectrum distortion(M-F)圖3 語(yǔ)音譜失真圖(男聲-女聲)
從圖3可以看出,基于GRNN模型的語(yǔ)音轉(zhuǎn)換方法的譜失真小于RBF模型的語(yǔ)音轉(zhuǎn)換的譜失真,而PSO-GRNN模型的語(yǔ)音轉(zhuǎn)換方法的譜失真小于GRNN模型的語(yǔ)音轉(zhuǎn)換的譜失真,故本文提出的基于PSO-GRNN模型的轉(zhuǎn)換性能最優(yōu),使得轉(zhuǎn)換語(yǔ)音的質(zhì)量得到了進(jìn)一步提升。
本文建立了兩個(gè)GRNN模型,一個(gè)使用源和目標(biāo)語(yǔ)音信號(hào)的LSF系數(shù)訓(xùn)練,另一個(gè)使用小波分解系數(shù)訓(xùn)練;同時(shí),利用PSO算法來(lái)尋找最優(yōu)的光滑因子σ的值,以此達(dá)到優(yōu)化GRNN模型的目的; 此外,文中還對(duì)韻律參數(shù)進(jìn)行了線性轉(zhuǎn)換,使得轉(zhuǎn)換后的語(yǔ)音含有更多說(shuō)話人的個(gè)性特征。最后的主客觀測(cè)評(píng)結(jié)果表明,相對(duì)于RBF模型和GRNN模型而言,本文提出的基于PSO-GRNN模型的語(yǔ)音轉(zhuǎn)換系統(tǒng)具有更加優(yōu)越的性能,特別是對(duì)于男聲到女聲的轉(zhuǎn)換,轉(zhuǎn)換后的語(yǔ)音更接近目標(biāo)語(yǔ)音。
參考文獻(xiàn):
[1] Savic M,Nam I H.Voice personality transformation[J].Digital Signal Processing,1991,1(2):107-110.
[2] Kain A,Macon M W.Spectral voice conversion for text-to-speech synthesis[C]∥Proc of IEEE International Conference on Acoustics,1999:285-288.
[3] Sundermann D,Ney H,Hoge H.VTLN-based cross-language voice conversion[C]∥Proc of IEEE Workshop on Automatic Speech Recognition and Understanding,2003:676-681.
[4] Nslsmura K,Toda T,Saruwatari H,et al.Speaking-aid systems using GMM-based voice conversion for electrolaryngeal speech[J].Speech Communication,2012,54(2):134-146.
[5] Sun Jian,Zhang Xiong-wei,Cao Tie-yong,et al.Voice conversion based on convolution nonnegative matrix factorization[J].Journal of Data Acquisition and Processing,2013,28(2):141-148.(in Chinese)
[6] Ma Zhen,Zhang Xiong-wei,Yang Ji-bin.A speech conversion method based on the separation of speaker-specific characteristic[J].Journal of Signal Processing,2013,29(4):513-519.(in Chinese)
[7] Jian Zhi-hua, Wang Xiang-wen.A modified algorithm for voice conversion using compressed sensing[J].ACTA ACUSTICA,2014,39(3):400-406.(in Chinese)
[8] Ghorbandoost M,Sayadiyan A,Ahangar M,et al.Voice conversion based on feature combination with limited training data[J].Speech Communication,2015,67(67):113-128.
[9] Erro D,Alonso A,Serrano L,et al.Interpretable parametric voice conversion functions based on Gaussian mixture models and constrained transformations[J].Computer Speech & Language,2014,30(1):3-15.
[10] Li Na, Zeng Xiang-yang,Qiao Yu,et al.Voice conversion using bayesian analysis and dynamic kernel features[J].ACTA ACUSTICA,2015,40(3):455-461.(in Chinese)
[11] Desai S,Black A W,Yegnanarayana B,et al.Spectral mapping using artificial neural networks for voice conversion[J].IEEE Transactions on Audio Speech and Language Processing,2010,18(5):954-964.
[12] Nirmal J H,Patnaik S,Zaveri M A.Voice transformation using radial basis function[J].Lecture Notes in Electrical Engineering,2013,150:345-351.
[13] Kennedy J,Eberhart R.Particle swarm optimization[C]∥Proc of IEEE International Conference on Neural Networks,1995:1942-1948.
[14] Zhang Ling-hua, Yao Shao-qin,Xie Wei-chao.Speech conversion based on adaptive particle swarm optimization for radial basis function neural network[J].Journal of Data Acquisition and Processing,2015,30(2):336-343.(in Chinese)
[15] Nirmal J,Zaveri M,Patnaik S,et al.Voice conversion using general regression neural network[J].Applied Soft Computing,2014,24(24):1-12.
[16] Jia Yi-peng, Lv Qing, Shang Yue-quan.Prediction of rock burst based on particle swarm optimization algorithm and generalized regression neural network [J].Chinese Journal of Rock Mechanics and Engineering,2013,32(2):343-348.(in Chinese)
附中文參考文獻(xiàn):
[5] 孫健,張雄偉,曹鐵勇,等.基于卷積非負(fù)矩陣分解的語(yǔ)音轉(zhuǎn)換方法[J].數(shù)據(jù)采集與處理,2013,28(2):141-148.
[6] 馬振,張雄偉,楊吉斌.基于語(yǔ)音個(gè)人特征信息分離的語(yǔ)音轉(zhuǎn)換方法研究[J].信號(hào)處理,2013,29(4):513-519.
[7] 簡(jiǎn)志華,王向文.采用壓縮感知的改進(jìn)的語(yǔ)音轉(zhuǎn)換算法[J].聲學(xué)學(xué)報(bào),2014,39(3):400-406.
[10] 李娜,曾向陽(yáng),喬宇,等.采用動(dòng)態(tài)核特征及貝葉斯最大后驗(yàn)估計(jì)的語(yǔ)音轉(zhuǎn)換方法[J].聲學(xué)學(xué)報(bào),2015,40(3):455-461.
[14] 張玲華,姚紹芹,解偉超.基于自適應(yīng)粒子群優(yōu)化徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的語(yǔ)音轉(zhuǎn)換[J].數(shù)據(jù)采集與處理,2015,30(2):336-343.
[16] 賈義鵬,呂慶,尚岳全.基于粒子群算法和廣義回歸神經(jīng)網(wǎng)絡(luò)的巖爆預(yù)測(cè)[J].巖石力學(xué)與工程學(xué)報(bào),2013,32(2):343-348.