• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于GMM和ANN混合模型的語音轉(zhuǎn)換方法

    2014-07-25 09:19:30姚紹芹張玲華
    數(shù)據(jù)采集與處理 2014年2期
    關(guān)鍵詞:男聲女聲基頻

    姚紹芹 張玲華

    (南京郵電大學(xué)通信與信息工程學(xué)院,南京,210003)

    引 言

    語音轉(zhuǎn)換[1]試圖對源說話人的語音進(jìn)行轉(zhuǎn)換,使其聽起來像是目標(biāo)說話人說的一樣。語音轉(zhuǎn)換應(yīng)用于多個(gè)領(lǐng)域,比如電影配音、文語合成、醫(yī)療康復(fù)等。

    設(shè)計(jì)語音轉(zhuǎn)換系統(tǒng),最基本的問題在于聲學(xué)特征的選擇。眾所周知,早期的語音轉(zhuǎn)換系統(tǒng)主要集中在頻譜包絡(luò)的轉(zhuǎn)換上,這是因?yàn)轭l譜包絡(luò)在提取源說話人語音特征方面發(fā)揮至關(guān)重要的作用。然而除此之外,一些韻律特征,如基音對獲取高質(zhì)量的合成語音起著至關(guān)重要的作用。

    事實(shí)上,矢量量化(Vector quantization,VQ)[2]、高斯混合模型(Gaussian mixture model,GMM)[3-6]、人工神經(jīng)網(wǎng)絡(luò)(Artificial neural network,ANN)[5,7,8]等多種方法已經(jīng)被用于源語音特征矢量到目標(biāo)語音特征矢量的映射以獲取轉(zhuǎn)換函數(shù)。其中,GMM憑借良好的性能得以廣泛應(yīng)用。盡管如此,GMM中經(jīng)常出現(xiàn)的過平滑現(xiàn)象依舊極大地降低了轉(zhuǎn)換語音的質(zhì)量。鑒于此,文獻(xiàn)[9]通過 MAP(Maximum a posteriori)自適應(yīng),文獻(xiàn)[10]采用轉(zhuǎn)換頻譜的全局變量特征,均試圖探索解決高斯混合模型中的過平滑問題。

    本文認(rèn)為GMM模型中均值矢量是生成轉(zhuǎn)換語音的基本包絡(luò)形狀,因此,通過改進(jìn)均值矢量來緩解過平滑現(xiàn)象帶來的影響。由于源說話人和目標(biāo)說話人在聲道上的變化是非線性的,且基于ANN模型的語音轉(zhuǎn)換模型與基于GMM模型的轉(zhuǎn)換語音在效果上不分伯仲[5],基于 ANN和GMM的混合模型應(yīng)運(yùn)而生,即采用ANN模型對GMM模型中的均值矢量進(jìn)行映射。ANN模型包含很多種類型,本文擬采用徑向基函數(shù)(Radial basis function,RBF)神經(jīng)網(wǎng)絡(luò),這是因?yàn)樗鼡碛锌焖俚挠?xùn)練過程,并且能夠以比較簡單的網(wǎng)絡(luò)架構(gòu)實(shí)現(xiàn)更精確的逼近。

    由于語音的韻律特征,尤其是基頻F0,包含了大量的說話人的個(gè)性特征,同時(shí)考慮到頻譜特征與基頻的相關(guān)性以及特征之間的非線性[11],本文將采用基于RBF神經(jīng)網(wǎng)絡(luò)的聯(lián)合頻譜特征參數(shù)的基頻轉(zhuǎn)換[12]。

    1 特征參數(shù)的提取

    頻譜包絡(luò)特征可以由多種特征矢量來表示。本文采用16階線譜頻率(Line spectrum frequency,LSF)[13],這是因?yàn)?6階 LSF能更好地表征聲道與共振峰模型,并具有良好的插入特性。此外,考慮到LSF具有較強(qiáng)的幀間相關(guān)性,因此,為了獲得連續(xù)的轉(zhuǎn)換頻譜,16階LSF的動(dòng)態(tài)特征Δ也被用來與16階靜態(tài)LSF一起形成32階特征矢量表示頻譜特征。其中,動(dòng)態(tài)特征Δ指的是相鄰幀間的差值。動(dòng)態(tài)時(shí)間規(guī)整(Dynamic time warping,DTW)用來對齊源語音與目標(biāo)語音的特征矢量。此外,由于語音的韻律特征,尤其是F0,包含了大量的說話人的個(gè)性特征,因此,本文也對基頻進(jìn)行了轉(zhuǎn)換。而在分析與合成階段,STRAIGHT模型[14]用來提取語譜參數(shù)和F0,對語譜參數(shù)進(jìn)行快速傅里葉逆變換得到自相關(guān)系數(shù),對自相關(guān)系數(shù)進(jìn)行Levinson-Durbin算法得到自回歸參數(shù),即線性預(yù)測系數(shù)(Linear prediction coefficient,LPC)系數(shù),最后,由LPC系數(shù)轉(zhuǎn)換成LSF系數(shù)。

    2 基于GMM模型的頻譜轉(zhuǎn)換算法

    假設(shè)X={x1,x2,…,xN}和Y={y1,y2,…,yN}分別表示N個(gè)時(shí)間對齊的源說話人和目標(biāo)說話人的頻譜特征矢量,其中,N表示語音的幀數(shù),矢量xt(或是yt)是p維特征矢量。語音轉(zhuǎn)換可以理解成將源特征矢量xt轉(zhuǎn)換成目標(biāo)特征矢量yt的過程。通過最小化轉(zhuǎn)換特征矢量=F(xt)與目標(biāo)特征矢量xt在所有幀間的平方誤差總和,進(jìn)一步得到映射函數(shù)F。

    在早期的研究中,主要有兩類基于GMM模型的語音轉(zhuǎn)換方法,即源GMM模型方法[3]和聯(lián)合密度模型方法[4]。兩種方法性能上相差無幾,本文采用后者作為基本的頻譜轉(zhuǎn)換方法。

    在聯(lián)合密度模型中,聯(lián)合特征矢量Z表示源與目標(biāo)特征矢量的集合Z=(XT,YT)T,其中T代表矢量的轉(zhuǎn)置,然后利用聯(lián)合特征矢量Z對GMM模型進(jìn)行訓(xùn)練。源與目標(biāo)特征矢量的聯(lián)合概率密度函數(shù)表示如下

    式中:N(z;μi,Σi)表示均值為μi、協(xié)方差矩陣為Σi的正態(tài)分布;αi表示第i個(gè)高斯分量的先驗(yàn)概率;M表示高斯分量的總數(shù)目。通過最大期望(Expectation maximization,EM)迭代算法估算GMM參數(shù)(αi,μi,Σi)。均值μi和協(xié)方差Σi可以表示為

    高斯混合模型的轉(zhuǎn)換函數(shù)為

    式中:hi(x)表示給定的輸入矢量x屬于第i個(gè)高斯分量的后驗(yàn)概率,如式(4)所示。

    3 基于混合模型的頻譜轉(zhuǎn)換算法

    盡管基于GMM模型的頻譜轉(zhuǎn)換得到了廣泛使用,但是它依舊受制于過平滑現(xiàn)象,并且無法獲得聲道特性間的非線性關(guān)系。從式(3)中可以得知,映射函數(shù)包含兩部分組成,其中均值矢量代表轉(zhuǎn)換特征的基本頻譜包絡(luò)形狀。為了解決過平滑問題,擬考慮使用RBF神經(jīng)網(wǎng)絡(luò)用于對均值矢量進(jìn)行轉(zhuǎn)換。

    3.1 RBF神經(jīng)網(wǎng)絡(luò)

    RBF神經(jīng)網(wǎng)絡(luò)[15]是由Broomhead和Lowe提出的前饋網(wǎng)絡(luò)。RBF神經(jīng)網(wǎng)絡(luò)包含3層:即輸入層、隱層和輸出層。輸入層不作轉(zhuǎn)換,僅僅將輸入特征矢量分派到隱層。隱蔽層采用徑向基函數(shù),將輸入特征矢量轉(zhuǎn)換到隱層空間。輸出層主要實(shí)現(xiàn)對隱蔽層的輸出加權(quán)求和。

    RBF神經(jīng)網(wǎng)絡(luò)通過將源說話人的聲學(xué)特征轉(zhuǎn)換到目標(biāo)說話人的聲學(xué)特征來獲取轉(zhuǎn)換函數(shù)。如果代表矢量x通過RBF神經(jīng)網(wǎng)絡(luò)映射后的輸出,那么為

    式中:N表示徑向基函數(shù)的數(shù)目;wij表示輸出層的權(quán)值;m表示輸出特征矢量的維數(shù);φi(x)表示徑向基函數(shù)(高斯函數(shù)),如下所示

    式中ci和分別表示隱層RBF的中心和寬度。

    3.2 基于GMM與ANN的混合模型的頻譜轉(zhuǎn)換算法

    本文提出的混合語音轉(zhuǎn)換方法包含兩個(gè)階段,即訓(xùn)練階段和轉(zhuǎn)換階段:

    (1)訓(xùn)練階段

    第一步:針對如前所述的源與目標(biāo)聯(lián)合矢量集合Z,采用EM 算法確定GMM 參數(shù)序列(αi,μi,Σi)。根據(jù)式(3),進(jìn)一步確定GMM映射函數(shù)。

    第二步:生成用于RBF神經(jīng)網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)集合

    第三步:依據(jù)輸入xnew和輸出ynew,構(gòu)造RBF神經(jīng)網(wǎng)絡(luò)映射函數(shù)Frbf。

    (2)轉(zhuǎn)換階段

    第一步:針對測試矢量X′,采用EM算法估算GMM 參數(shù)序列μ′i。

    第二步:依據(jù)RBF神經(jīng)網(wǎng)絡(luò)映射函數(shù)Frbf,得到新的均值矢量μ′new,i

    第三步:采用新的均值矢量μ′new,i代替,得到新的GMM映射函數(shù)。

    第四步:依據(jù)新的GMM映射函數(shù),得到轉(zhuǎn)換后的頻譜特征矢量。

    3.3 基頻轉(zhuǎn)換

    由于語音的韻律特征,尤其是F0,包含了大量的說話人的個(gè)性特征,同時(shí)考慮到頻譜特征與基頻的相關(guān)性以及特征之間的非線性,本文將采用基于RBF神經(jīng)網(wǎng)絡(luò)的聯(lián)合頻譜特征參數(shù)的基頻轉(zhuǎn)換。在訓(xùn)練階段,首先對用于訓(xùn)練的目標(biāo)語音進(jìn)行分幀處理及清濁音判斷,利用STRAIGHT模型依照第一部分的特征參數(shù)提取的方法對濁音幀提取頻譜特征和F0,鑒于女聲的基頻范圍在60~450Hz,男聲的基頻范圍在60~200Hz,RBF網(wǎng)絡(luò)的輸出要求在0~1之間,因此,必須對提取的F0除以500進(jìn)行縮放,然后將頻譜特征與縮放后的F0分別作為RBF神經(jīng)網(wǎng)絡(luò)的輸入和輸出,從而得到轉(zhuǎn)換函數(shù)。在轉(zhuǎn)換階段,首先提取待轉(zhuǎn)換語音的頻譜,然后采用第三部分獲取的新的GMM映射函數(shù)對其進(jìn)行轉(zhuǎn)換得到轉(zhuǎn)換的頻譜,然后根據(jù)訓(xùn)練階段獲得的轉(zhuǎn)換函數(shù)對轉(zhuǎn)換的頻譜進(jìn)行映射得到縮放后的轉(zhuǎn)換基頻,再將其乘以500,即可獲得最終的轉(zhuǎn)換基頻。

    4 實(shí)驗(yàn)與討論

    本實(shí)驗(yàn)通過主觀和客觀測試進(jìn)一步檢驗(yàn)所提方法的性能。鑒于聽力測試對于頻譜轉(zhuǎn)換算法的性能評估至關(guān)重要,擬采用平均意見分(Mean opinion score,MOS)和ABX測試完成頻譜轉(zhuǎn)換系統(tǒng)的主觀評價(jià),而客觀評價(jià)主要以頻譜失真為評價(jià)依據(jù)。GMM采用20個(gè)高斯分量。實(shí)驗(yàn)在一個(gè)平行語料庫里完成。語料庫包含141個(gè)漢字和6個(gè)短句子,它們分別來自于兩個(gè)男聲和兩個(gè)女聲。所有音頻的采樣頻率均為16kHz,以16bit量化。隨機(jī)選取100個(gè)漢字作為訓(xùn)練數(shù)據(jù),其他全部用于測試。其中,只有濁音用于訓(xùn)練與轉(zhuǎn)換,清音保持不變。并且,實(shí)驗(yàn)主要以異性轉(zhuǎn)換為基礎(chǔ),包含男聲向女聲轉(zhuǎn)換和女聲向男聲轉(zhuǎn)換。

    4.1 主觀評價(jià)

    實(shí)驗(yàn)主要采用兩種不同的主觀方法來驗(yàn)證所提算法的實(shí)際性能,即ABX測試以及MOS測試。

    ABX測試用于評價(jià)目標(biāo)語音與轉(zhuǎn)換語音的近似度。假設(shè)A和B分別代表源說話人語音和目標(biāo)說話人語音,X代表采用了上述2種方法轉(zhuǎn)換而來的語音。實(shí)驗(yàn)要求10位經(jīng)驗(yàn)豐富的聽眾從轉(zhuǎn)換的語音中選擇A或B哪一個(gè)聽起來最接近X,共40個(gè)漢字需要聽眾們一一評價(jià)。表1顯示4種轉(zhuǎn)換方法的ABX測試結(jié)果。

    表1 ABX測試結(jié)果Table 1 Result of ABX test

    從表1可以看出,本文提出的混合算法效果明顯優(yōu)于傳統(tǒng)的基于GMM模型的語音轉(zhuǎn)換方法,同時(shí),異性間的轉(zhuǎn)換也比同性間轉(zhuǎn)換更接近目標(biāo)說話人的語音,尤其是男聲到女聲的轉(zhuǎn)換更為突出,從之前的53.65%提高到66.54%,提升了12.89%。

    MOS測試是另一種主觀測試方法,它同樣要求10位經(jīng)驗(yàn)豐富的聽眾采用5分制依次為轉(zhuǎn)換后的語音的質(zhì)量進(jìn)行打分(1:非常差;2:較差;3:一般;4:較好;5:非常好)。實(shí)驗(yàn)結(jié)果如表2所示。

    表2 MOS測試結(jié)果Table 2 Result of MOS test

    根據(jù)表2的實(shí)驗(yàn)結(jié)果,可以得出的結(jié)論是:本文提出的語音轉(zhuǎn)換方法比傳統(tǒng)的基于GMM的語音轉(zhuǎn)換方法性能更佳,同時(shí)由于同性間的個(gè)性差異較小,所以其轉(zhuǎn)換性能要優(yōu)于異性間的轉(zhuǎn)換。對于異性間的轉(zhuǎn)換而言,男聲到女聲的轉(zhuǎn)換效果也要好于女聲到男聲的轉(zhuǎn)換。

    4.2 客觀評價(jià)

    頻譜失真(Spectral distortion,SD)是一種常見的頻譜轉(zhuǎn)換客觀評價(jià)方法,如式(10)所示。

    式中:xi,yi和F(xi)分別表示源說話人的特征矢量、目標(biāo)說話人的特征矢量和轉(zhuǎn)換的特征矢量;N代表語音幀數(shù)。圖1~2分別顯示了女聲到男聲轉(zhuǎn)換和男聲到女聲轉(zhuǎn)換的頻譜失真情況。

    從圖1~2可以看出,本文提出的方法的譜失真率明顯小于傳統(tǒng)的基于GMM模型的語音轉(zhuǎn)換的譜失真率,即轉(zhuǎn)換的性能更優(yōu),同時(shí),該方法在男聲到女聲的轉(zhuǎn)換中效果更佳。

    圖1 女聲到男聲的語音頻譜失真圖Fig.1 Spectral distortion(F-M)

    圖2 男聲到女聲的語音頻譜失真圖Fig.2 Spectral distortion(M-F)

    5 結(jié)束語

    考慮到GMM模型參數(shù)的均值能夠表征轉(zhuǎn)換特征的頻譜包絡(luò)形狀,本文提出一種基于GMM與ANN的混合模型的語音轉(zhuǎn)換方法來克服利用GMM進(jìn)行語音轉(zhuǎn)換的過程中出現(xiàn)的過平滑現(xiàn)象,主要做法就是利用RBF神經(jīng)網(wǎng)絡(luò)對GMM模型參數(shù)的均值進(jìn)行轉(zhuǎn)換以獲得新的GMM模型的轉(zhuǎn)換函數(shù)。同時(shí),考慮到LSF具有較強(qiáng)的幀間相關(guān)性,為了獲取連續(xù)的轉(zhuǎn)換頻譜包絡(luò),采用了靜態(tài)和動(dòng)態(tài)頻譜特征相結(jié)合來逼近轉(zhuǎn)換頻譜序列。此外,由于基頻對于高質(zhì)量的語音轉(zhuǎn)換至關(guān)重要,同時(shí)考慮到頻譜特征與基頻之間的相關(guān)性,因此,在頻譜轉(zhuǎn)換的基礎(chǔ)上,采用了ANN模型對基頻也進(jìn)行了轉(zhuǎn)換。最后,通過主觀和客觀實(shí)驗(yàn)對提出的轉(zhuǎn)換方法的性能進(jìn)行測試,實(shí)驗(yàn)結(jié)果表明與傳統(tǒng)的基于GMM的方法相比,本文提出的方法能夠獲得更好的轉(zhuǎn)換語音。

    [1] 孫健,張雄偉,曹鐵勇,等.基于卷積非負(fù)矩陣分解的語音轉(zhuǎn)換方法[J].數(shù)據(jù)采集與處理,2013,28(1):141-148.

    Sun Jian,Zhang Xiongwei,Cao Tieyong,et al.Voice conversion based on convolutive nonnegative matrix factorization[J].Journal of Data Acquisition and Processing,2013,28(1):141-148.

    [2] Abe M,Nakamura S,Shikano K,et al.Voice conversion through vector quantization[C]//IEEE International Conference on Acoustics,Speech and Signal Processing.New York,USA:IEEE,1988:655-658.

    [3] Stylianou Y,Cappe O,Moulines E.Continuous probabilistic transform for voice conversion[J].IEEE Transactions on Speech and Audio Processing,1998,6(2):131-142.

    [4] Kain A,Macon M W.Spectral voice conversion for text-to-speech synthesis [C]//IEEE International Conference on Acoustics,Speech and Signal Processing.Seattler,WA,USA:IEEE,1998:285-288.

    [5] Laskar R H,Chakrabarty D,Talukdar F A,et al.Comparing ANN and GMM in a voice conversion framework[J].Applied Soft Computing,2012,12(11):3332-3342.

    [6] 岳振軍,鄒翔,王浩.基于隱馬爾可夫模型和高斯混合模型結(jié)合的聲音轉(zhuǎn)換方法[J].數(shù)據(jù)采集與處理,2009,24(3):285-289.

    Yue Zhenjun,Zou Xiang,Wang Hao.Voice conversion with the combination of HMM and GMM[J].Journal of Data Acquisition and Processing,2009,24(3):285-289.

    [7] Desai S,Black A W,Yegnanarayana B,et al.Spectral mapping using artificial neural networks for voice conversion[J].IEEE Transactions on Audio,Speech and Language Processing,2010,18(5):954-964.

    [8] Rao K S.Voice conversion by mapping the speakerspecific features using pitch synchronous approach[J].Computer Speech and Language,2010,24(3):474-494.

    [9] Chen Yining,Chu Min,Chang Eric,et al.Voice conversion with smoothed GMM and MAP adaptation[C]//8th European Conference on Speech Communication and Technology.Geneva,Switzerland:ISCA Archive,2003:2413-2416.

    [10]Toda T.Black A W,Tokuda K.Voice conversion based on maximum-likelihood estimation of spectral parameter trajectory[J].IEEE Transactions on Audio,Speech and Language Processing,2007,15(8):2222-2235.

    [11]Shao Xu,Milner Ben.Pitch prediction from MFCC vectors for speech reconstruction[C]//IEEE International Conference on Acoustics,Speech and Signal Processing.Montreal,Que,Canada:IEEE,2004:97-100.

    [12]解偉超.語音轉(zhuǎn)換中聲道譜參數(shù)和基頻變換算法的研究[D].南京:南京郵電大學(xué),2013.

    Xie Weichao.The research on vocal tract spectrum and pitch frequency transformation in voice conversion[D].Nanjing:Nanjing University of Posts and Telecommunications,2013.

    [13]Turk O,Arslan L M.Robust processing techniques for voice conversion[J].Computer,Speech and Language,2006,20(4):441-467.

    [14]Kawahara H,Masuda-Katsuse I,de CheveignéA.Restructuring speech representations using apitch-adaptive time-frequency smoothing and an instantaneous-frequency-based F0extraction:Possible role of a repetitive structure in sounds[J].Speech Communication,1999,27(3/4):187-207.

    [15]Watanabe T,Murakami T,Namba M,et al.Transformation of spectral envelope for voice conversion based on radial basis function network[C]//7th International Conference on Spoken Language Processing.Denver,Calorado,USA:ISCA Archive,2002:285-288.

    猜你喜歡
    男聲女聲基頻
    語音同一認(rèn)定中音段長度對基頻分析的影響
    基于時(shí)域的基頻感知語音分離方法?
    呢喃(古風(fēng),女聲)
    北方音樂(2020年16期)2020-09-27 01:32:04
    橋面鋪裝層對中小跨徑橋梁基頻影響分析
    豐碑(男聲獨(dú)唱)
    心聲歌刊(2020年1期)2020-04-21 09:25:02
    愛在山水間
    有座美城叫宜春(女聲通俗)
    心聲歌刊(2019年3期)2019-06-06 02:52:34
    夢中的騎手(男聲獨(dú)唱)
    心聲歌刊(2019年3期)2019-06-06 02:52:32
    中 年 人
    繡荷包(女聲無伴奏合唱)
    格尔木市| 北川| 崇明县| 桦甸市| 柯坪县| 勐海县| 岐山县| 邮箱| 丘北县| 从化市| 嘉禾县| 北碚区| 体育| 师宗县| 原平市| 峡江县| 班玛县| 木兰县| 平远县| 元阳县| 县级市| 安多县| 乌鲁木齐县| 伊川县| 凉城县| 太湖县| 怀远县| 福建省| 郸城县| 南投县| 秀山| 象山县| 鄂尔多斯市| 阳东县| 札达县| 雷波县| 诸城市| 民乐县| 赫章县| 通海县| 沂水县|