• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      神經(jīng)網(wǎng)絡(luò)聲碼器的話者無關(guān)與自適應(yīng)訓(xùn)練方法研究

      2019-02-15 09:21:40伍宏傳凌震華
      關(guān)鍵詞:碼器數(shù)據(jù)量聲學(xué)

      伍宏傳,凌震華

      (中國科學(xué)技術(shù)大學(xué) 語音及語言信息處理國家工程實驗室,合肥 230027)

      1 引 言

      語音合成是人機(jī)語音交互中不可或缺的重要技術(shù).近年來,語音合成技術(shù)廣泛應(yīng)用于智能手機(jī)助手、智能音箱、機(jī)器翻譯機(jī)等大眾產(chǎn)品中,同時人們對于合成語音質(zhì)量提出越來越高的要求.統(tǒng)計參數(shù)語音合成方法[1]在最近二十年來發(fā)展迅速,該方法相對于基于大語料庫的單元挑選與波形拼接合成方法具有系統(tǒng)尺寸小、魯棒性高、體現(xiàn)不同發(fā)音人和發(fā)音風(fēng)格的靈活性強(qiáng)等優(yōu)點[2].但是現(xiàn)階段統(tǒng)計參數(shù)方法合成語音的質(zhì)量與自然語音相比還存在一定差距.統(tǒng)計參數(shù)語音合成系統(tǒng)通常由文本分析、聲學(xué)建模、聲碼器三個模塊組成;聲碼器重構(gòu)語音音質(zhì)損失、聲學(xué)模型建模精度不足與參數(shù)生成中的過平滑效應(yīng)是造成該方法合成語音質(zhì)量受損的三個主要因素[3].其中聲學(xué)模型將由文本分析得到的文本特征映射到聲學(xué)特征,傳統(tǒng)方法用隱馬爾可夫模型(Hidden Markov Model,HMM)對聲學(xué)模型建模.近年來,研究者用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)等深度學(xué)習(xí)模型替代傳統(tǒng)的HMM模型構(gòu)建聲學(xué)模型,聲學(xué)模型精度與合成語音自然度均得到了有效改善[4].但是在聲碼器特征提取與波形重構(gòu)過程中的音質(zhì)損失仍然制約著統(tǒng)計參數(shù)合成語音質(zhì)量的進(jìn)一步提升.

      聲碼器實現(xiàn)從基頻、頻譜等聲學(xué)特征中重構(gòu)語音波形,傳統(tǒng)聲碼器[5-12]基于源-濾波器思想[13,14]設(shè)計,STRAIGHT[10]是現(xiàn)階段統(tǒng)計參數(shù)語音合成系統(tǒng)中最常用的聲碼器之一.在特征提取階段,STRAIGHT提取每一幀語音信號的基頻以及去除基音影響的平滑譜包絡(luò).由于譜包絡(luò)維數(shù)較高,譜包絡(luò)通常被轉(zhuǎn)換成維數(shù)較低的倒譜、線譜對等參數(shù)作為聲學(xué)建模中使用的濾波器表征.在波形重構(gòu)階段,首先將倒譜、線譜對等頻譜特征轉(zhuǎn)換為譜包絡(luò),然后依據(jù)基頻特征產(chǎn)生激勵信號,最終通過線性濾波重構(gòu)語音波形.現(xiàn)階段以STRAIGHT為代表的基于源-濾波器模型的聲碼器在以下方面存在不足.首先,由于譜包絡(luò)維數(shù)較高,譜包絡(luò)通常被轉(zhuǎn)換成維數(shù)較低的倒譜、線譜對等參數(shù)作為聲學(xué)建模中使用的濾波器表征,這樣造成頻譜細(xì)節(jié)的丟失;其次,傳統(tǒng)聲碼器提取的頻譜特征往往丟失了相位信息,波形重構(gòu)中使用的語音相位往往依賴最小相位假設(shè)和人工設(shè)計;最后,傳統(tǒng)聲碼器使用時變的線性濾波器來模擬聲道濾波過程,而自然語音的采樣點之間存在非線性相關(guān)性,這種線性濾波框架不足以精確描述語音波形點的生成過程.

      2016年Deep Mind研究者提出了用于直接對語音波形建模與生成的深度卷積神經(jīng)網(wǎng)絡(luò)WaveNet[15],并將其用于從文本特征預(yù)測語音波形,取得了優(yōu)于傳統(tǒng)統(tǒng)計參數(shù)方法的合成語音自然度.已有研究工作[16-18]將WaveNet引入?yún)?shù)語音合成的聲碼器構(gòu)建,使用STRAIGHT提取的語音基頻、頻譜等聲學(xué)特征作為WaveNet的條件輸入,利用特定目標(biāo)發(fā)音人的語音數(shù)據(jù)進(jìn)行模型的訓(xùn)練.對比傳統(tǒng)源-濾波器聲碼器,基于WaveNet的神經(jīng)網(wǎng)絡(luò)聲碼器具有以下優(yōu)勢.首先,傳統(tǒng)聲碼器采用線性濾波器重構(gòu)語音,而神經(jīng)網(wǎng)絡(luò)聲碼器采用多層帶有非線性激活函數(shù)的卷積層來生成波形,具有靈活的非線性處理能力;其次,神經(jīng)網(wǎng)絡(luò)聲碼器模型利用自然語音數(shù)據(jù)通過機(jī)器學(xué)習(xí)方法構(gòu)建,能夠較好的彌補(bǔ)輸入聲學(xué)特征相位和頻譜細(xì)節(jié)缺失的問題.現(xiàn)階段實驗結(jié)果表明在輸入自然聲學(xué)參數(shù)以及由統(tǒng)計參數(shù)語音合成系統(tǒng)預(yù)測的聲學(xué)參數(shù)情況下均取得了優(yōu)于STRAIGHT聲碼器的重構(gòu)語音質(zhì)量[18].

      現(xiàn)有的WaveNet聲碼器[18]采用話者相關(guān)方法訓(xùn)練,為了取得較好的模型精度和重構(gòu)語音質(zhì)量,對于目標(biāo)發(fā)音人的語音數(shù)據(jù)量有較高要求,這限制了WaveNet聲碼器在目標(biāo)發(fā)音人數(shù)據(jù)量受限的語音轉(zhuǎn)換、個性化語音合成等任務(wù)中的應(yīng)用.因此,本文面向目標(biāo)發(fā)音人語音數(shù)據(jù)量受限情況,設(shè)計實現(xiàn)了神經(jīng)網(wǎng)絡(luò)聲碼器的話者無關(guān)與自適應(yīng)訓(xùn)練方法.首先利用多發(fā)音人數(shù)據(jù)訓(xùn)練話者無關(guān)的WaveNet聲碼器模型,進(jìn)一步利用少量目標(biāo)發(fā)音人數(shù)據(jù)對話者無關(guān)模型進(jìn)行自適應(yīng)更新,以得到目標(biāo)發(fā)音人的神經(jīng)網(wǎng)絡(luò)聲碼器模型.本文實驗分析對比了自適應(yīng)訓(xùn)練中局部更新與全局更新兩種策略,以及相同訓(xùn)練數(shù)據(jù)下自適應(yīng)與話者相關(guān)兩種訓(xùn)練方法.實驗結(jié)果表明,利用本文提出方法構(gòu)建的神經(jīng)網(wǎng)絡(luò)聲碼器不僅可以取得優(yōu)于傳統(tǒng)STRAIGH聲碼器的重構(gòu)語音質(zhì)量,在目標(biāo)發(fā)音人語音數(shù)據(jù)量較少的情況下,該方法相對話者相關(guān)訓(xùn)練也可以取得更好的客觀和主觀性能表現(xiàn).

      2 WaveNet簡介

      WaveNet[15]是一種自回歸的深度生成模型.它直接在語音波形層面建模,將波形序列的聯(lián)合概率分解為條件概率連乘:

      (1)

      其中xn是n時刻采樣點,每一個因子項表示用n時刻以前的歷史信息作為輸入預(yù)測當(dāng)前采樣點的概率分布.WaveNet采用因果卷積神經(jīng)網(wǎng)絡(luò)來對條件概率建模,由于語音波形序列的長時相關(guān)性,WaveNet使用了擴(kuò)張因果卷積網(wǎng)絡(luò)結(jié)構(gòu)(帶孔的因果卷積)來獲得足夠大的接受野,即使用較長的波形歷史作為輸入來預(yù)測當(dāng)前波形點,(1)式中條件概率項近似為:

      p(xn|xn-R,xn-R+1,…,xn-1)

      (2)

      其中R是接受野長度.

      WaveNet網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示, 它采用了類似PixelCNN[19,20]的加門控激活函數(shù):

      z=tanh(Wf,k*x)⊙σ(Wg,k*x)

      (3)

      圖1 WaveNet結(jié)構(gòu).“因果”、“1×1”、“2×1擴(kuò)張”分別代表因果、1×1和擴(kuò)張因果卷積,“ReLu”、“加門控”和“Softmax”分別代表修正線性單元、加Sigmoid門控和Softmax激活函數(shù).Fig.1 WaveNetarchitecture.“Causal”,“1×1” and “dilated” represent causal,1×1,and dilated causal convolution respectively.“ReLu” ,“Gated” and “Softmax” represent rectifier linear unit,gated and softmax activation function,respectively.

      其中*是卷積運算,⊙是點乘運算,σ(·)是Sigmoid函數(shù),Wf,k,Wg,k分別代表第k層的濾波卷積權(quán)重與門控卷積權(quán)重.WaveNet還采用殘差網(wǎng)絡(luò)[21]結(jié)構(gòu)以及參數(shù)化的跳躍鏈接(skip connection)來構(gòu)建深層次的網(wǎng)絡(luò),同時這種網(wǎng)絡(luò)結(jié)構(gòu)也有助于加快模型收斂.網(wǎng)絡(luò)輸出層采用了softmax激活函數(shù)輸出當(dāng)前采樣點波形幅度量化值的概率分布,WaveNet使用μ-law壓擴(kuò)對音頻信號進(jìn)行8比特量化,這樣softmax層只需要預(yù)測256個概率值,保證了建模預(yù)測的可行性.

      3 WaveNet聲碼器及其話者無關(guān)與自適應(yīng)訓(xùn)練

      本節(jié)將先介紹話者相關(guān)的WaveNet聲碼器的實現(xiàn),由于話者相關(guān)訓(xùn)練方法對目標(biāo)發(fā)音人的語音數(shù)據(jù)量有較高要求.因此,本文面向目標(biāo)發(fā)音人語音數(shù)據(jù)量較少情況,設(shè)計實現(xiàn)了神經(jīng)網(wǎng)絡(luò)聲碼器的話者無關(guān)與自適應(yīng)訓(xùn)練方法,具體內(nèi)容將在本節(jié)進(jìn)行介紹.

      3.1 WaveNet聲碼器

      在第2節(jié)介紹的WaveNet結(jié)構(gòu)基礎(chǔ)上,增加聲學(xué)特征作為模型的條件輸入,即可構(gòu)造基于WaveNet的神經(jīng)網(wǎng)絡(luò)聲碼器.在輸入外部條件情況下的WaveNet模型可以表示為:

      (4)

      其中h為條件序列,其時域分辨率通常低于語音時域采樣率.為了使兩者的時域分辨率匹配,需要構(gòu)造一個上采樣變換y=f(h),然后把變換后的條件信息序列y加入到WaveNet各節(jié)點的激活函數(shù)中以控制生成預(yù)期的語音序列.加入條件信息后的激活函數(shù)可以表示為:

      z=tanh(Wf,k*x+Vf,k*y)⊙σ(Wg,k*x+Vg,k*y)

      (5)

      其中Vf,k,Vg,k是第k層卷積條件輸入的權(quán)重,Vf,k*y,Vg,k*y都是1×1的卷積運算.

      在之前WaveNet聲碼器研究[16-18]中,條件信息h通常表示用STRAIGHT從自然語音中提取的聲學(xué)特征.為了使加入的條件信息的時域分辨率匹配語音序列,構(gòu)造了一個如圖2左邊所示的條件網(wǎng)絡(luò).輸入的聲學(xué)特征先經(jīng)過1×1卷積,然后經(jīng)過ReLU激活,最后通過最近鄰上采樣加入到激活函數(shù)中.最終圖2所示的整個WaveNet聲碼器模型利用特定目標(biāo)發(fā)音人的數(shù)據(jù)進(jìn)行話者相關(guān)的模型訓(xùn)練.在生成階段,給定輸入的聲學(xué)特征與生成的歷史波形信息,構(gòu)建每個采樣點的條件概率分布,并通過采樣方法實現(xiàn)波形的逐點生成.

      圖2 基于WaveNet的聲碼器模型結(jié)構(gòu)Fig.2 WaveNet-based neural vocoder

      3.2 話者無關(guān)及自適應(yīng)訓(xùn)練

      WaveNet聲碼器的話者無關(guān)與自適應(yīng)訓(xùn)練流程如圖3所示,首先用混合的語音數(shù)據(jù)訓(xùn)練得到話者無關(guān)模型;然后將話者無關(guān)模型作為初始化模型,用目標(biāo)說話人語音數(shù)據(jù)作進(jìn)一步自適應(yīng)訓(xùn)練.

      圖3 WaveNet聲碼器的話者無關(guān)與自適應(yīng)訓(xùn)練Fig.3 Speaker-independent and adaptive training of WaveNet vocoder

      與話者相關(guān)模型訓(xùn)練只使用目標(biāo)發(fā)音人語音不同,話者無關(guān)模型采用混合多說話人的語音數(shù)據(jù)來進(jìn)行訓(xùn)練,希望所得到的模型能夠具有對不同說話人聲學(xué)特征與語音波形之間映射關(guān)系的泛化表示能力.在話者無關(guān)模型訓(xùn)練階段,先利用STRAIGHT從混合多說話人語音數(shù)據(jù)庫中提取每一幀語音對應(yīng)的聲學(xué)特征;然后將聲學(xué)特征序列作為條件輸入,將對應(yīng)的語音波形作為輸出,訓(xùn)練圖2所示的WaveNet聲碼器中的模型參數(shù).

      自適應(yīng)訓(xùn)練指的是在已經(jīng)獲得的話者無關(guān)WaveNet聲碼器模型基礎(chǔ)上,利用目標(biāo)發(fā)音人的語音數(shù)據(jù)對話者無關(guān)模型進(jìn)行進(jìn)一步的優(yōu)化更新.對比隨機(jī)初始化的話者相關(guān)訓(xùn)練,自適應(yīng)訓(xùn)練使用話者無關(guān)模型作為初始值,更適合目標(biāo)發(fā)音人數(shù)據(jù)量受限的應(yīng)用場景.考慮到WaveNet聲碼器模型參數(shù)較多而目標(biāo)發(fā)音人的語音數(shù)據(jù)較少,在自適應(yīng)訓(xùn)練過程中我們也設(shè)計了兩種自適應(yīng)策略:

      1)全局更新:利用目標(biāo)發(fā)音人數(shù)據(jù),基于WaveNet聲碼器訓(xùn)練準(zhǔn)則,對所有模型參數(shù)進(jìn)行更新;

      2)局部更新:在利用目標(biāo)發(fā)音人數(shù)據(jù)更新話者無關(guān)模型參數(shù)時,只更新與條件輸入相關(guān)的部分模型參數(shù),即公式(5)中的權(quán)重矩陣Vf,k,Vg,k.

      4 實 驗

      4.1 實驗條件

      本實驗采用公開的多說話人語音庫VCTK[22]以及CMU Arctic[23]語音庫進(jìn)行實驗.VCTK庫包含109位不同口音的英語母語發(fā)音人的語音數(shù)據(jù),每個發(fā)音人大約400句話,總計時長約44小時.本文選取了其中100個說話人的90%數(shù)據(jù)作為訓(xùn)練集(時長約37小時)來做話者無關(guān)訓(xùn)練.實驗中為了對比目標(biāo)發(fā)音人不同數(shù)據(jù)量情況下的自適應(yīng)與話者相關(guān)模型訓(xùn)練效果,選取Arctic數(shù)據(jù)庫中女發(fā)音人slt數(shù)據(jù)(共1132句,約1小時)作為自適應(yīng)訓(xùn)練數(shù)據(jù)以及測試集,后面實驗中測試集統(tǒng)一使用女發(fā)音人slt的100句話.實驗中使用的聲學(xué)特征包括STRAIGHT分析提取的能量、40維梅爾倒譜、基頻與清濁判決標(biāo)志;WaveNet聲碼器模型參數(shù)配置如表1所示,本文利用Xeon(R)E5-2650和Nvidia 1080Ti GPU來訓(xùn)練WaveNet聲碼器.

      表1 WaveNet聲碼器參數(shù)配置Table 1 Configurations of WaveNet vocoder

      4.2 自適應(yīng)訓(xùn)練更新策略的對比

      在3.2小節(jié)中提到了自適應(yīng)訓(xùn)練的兩種參數(shù)更新策略,為了探究不同訓(xùn)練數(shù)據(jù)下更新策略優(yōu)劣,本文計算了不同模型在測試集上的預(yù)測正確率,如圖4所示.下面簡要說明預(yù)測正確率的計算過程,WaveNet聲碼器將自然歷史采樣點作為輸入,輸出當(dāng)前波形采樣點幅度量化值對應(yīng)的概率分布,將概率最大對應(yīng)的量化值作為預(yù)測結(jié)果與真實波形幅度量化值對比,從而計算采樣點的預(yù)測正確率.從圖中可以看到在訓(xùn)練數(shù)據(jù)較少時,局部更新策略優(yōu)于全局更新.特別的在100句時全局更新自適應(yīng)模型正確率低于話者無關(guān)模型,這說明數(shù)據(jù)量較少時全局更新存在過擬合問題,采用局部更新策略性能更好.在訓(xùn)練數(shù)據(jù)較多時,全局更新模型性能更優(yōu),而且可以發(fā)現(xiàn)全局更新策略高度依賴數(shù)據(jù)量,其模型預(yù)測正確率隨數(shù)據(jù)量的提升率高于局部更新.因此在后續(xù)實驗中,我們對于少于等于200句目標(biāo)發(fā)音人數(shù)據(jù)量情況使用局部更新進(jìn)行模型自適應(yīng)訓(xùn)練,對于多于200句的數(shù)據(jù)量情況使用全局更新訓(xùn)練.

      圖4 不同訓(xùn)練數(shù)據(jù)量兩種更新策略預(yù)測正確率Fig.4 Prediction accuracy of two updating strategies on different training data

      4.3 自適應(yīng)訓(xùn)練與話者相關(guān)訓(xùn)練的對比

      我們首先對比了不同數(shù)據(jù)量情況下,自適應(yīng)訓(xùn)練與話者相關(guān)訓(xùn)練模型在測試集上的預(yù)測正確率,結(jié)果如圖5所示.從圖中可以看到在100、200、500句訓(xùn)練數(shù)據(jù)下,自適應(yīng)方法預(yù)測正確率高于話者相關(guān)訓(xùn)練方法,而話者相關(guān)模型高度依賴數(shù)據(jù)量,只有在足夠大的數(shù)據(jù)量(如1032句)下才能得到優(yōu)于自適應(yīng)方法的預(yù)測正確率.

      圖5 不同訓(xùn)練數(shù)據(jù)量自適應(yīng)方法與話者相關(guān)訓(xùn)練方法預(yù)測正確率對比Fig.5 Prediction accuracy of adaption and speaker-dependent methods on different training data

      由于在計算預(yù)測正確率時采用真實歷史采樣點信息預(yù)測當(dāng)前采樣點,因此測試集預(yù)測正確率不能直接衡量重構(gòu)語音的質(zhì)量,本文還計算了重構(gòu)語音和自然語音的時域與頻域誤差,嘗試從多角度客觀衡量不同模型的語音重構(gòu)能力.本文參照已有的WaveNet聲碼器研究[16]中的客觀指標(biāo),計算了波形信噪比(SNR)、短時幅度譜的均方誤差(RMSE)、基頻誤差以及清濁誤判率,計算公式如下:

      (6)

      (7)

      RMSE(f0)=|Fr-Fs|

      (8)

      (9)

      其中xs(n)是合成語音序列,yr(n)是自然語音序列,特別的在計算SNR時會給合成語音序列線性相位補(bǔ)償和自然語音序列對齊;X(f),Y(f)分別是合成語音的短時幅度譜和自然語音的短時幅度譜;Fs,F(xiàn)r分別是合成語音和自然語音的基頻值;FFU,F(xiàn)FV分別是分別是合成語音中濁音誤判為清音,清音誤判為濁音的幀數(shù),F(xiàn)是總幀數(shù).

      圖6 自適應(yīng)與話者相關(guān)模型的SNRFig.6 SNR of adaption and speaker-dependent models

      從圖6可知在100句時,自適應(yīng)方法SNR高于話者相關(guān)方法,隨著訓(xùn)練集增大話者相關(guān)方法SNR快速提高并且超過了自適應(yīng)方法,而且基于WaveNet聲碼器重構(gòu)語音SNR均高于STRAIGHT.從圖7可知在100句時,自適應(yīng)方法RMSE低于話者相關(guān)方法,隨著訓(xùn)練集增大話者相關(guān)方法RMSE下降而自適應(yīng)方法變化較小,STRAIGHT重構(gòu)語音的RMSE明顯低于WaveNet聲碼器.從圖8可知在100句時,自適應(yīng)方法基頻誤差低于話者相關(guān)方法,但隨著訓(xùn)練集增大話者相關(guān)方法基頻誤差快速下降,并且最終低于STRAIGHT.從圖9可知在100句時,自適應(yīng)方法清濁誤判率低于話者相關(guān)方法,隨著訓(xùn)練集增大話者相關(guān)方法清濁誤判率下降較快而自適應(yīng)方法較慢,STRAIGHT重構(gòu)語音的清濁誤判率一直低于WaveNet聲碼器.總的看來,在100句時自適應(yīng)方法所有客觀指標(biāo)都好于話者相關(guān)方法,話者相關(guān)訓(xùn)練方法的性能隨著訓(xùn)練集規(guī)模增加而提升,但是高度依賴于數(shù)據(jù)量.

      圖7 自適應(yīng)與話者相關(guān)模型的短時幅度譜均方誤差RMSEFig.7 Short-time spectral amplitude RMSE of adaption and speaker-dependent models

      綜合以上客觀實驗結(jié)果可以發(fā)現(xiàn)WaveNet聲碼器的波形SNR明顯高于STRAIGHT聲碼器,但是STRAIGHT聲碼器短時傅里葉譜RMSE、基頻誤差以及清濁誤判率卻都低于WaveNet聲碼器.由于波形SNR同時受到重構(gòu)語音的幅度譜和相位譜影響,這說明WaveNet聲碼器相對傳統(tǒng)STRAIGHT聲碼器更好的重構(gòu)了原始語音中的相位信息,這也驗證了WaveNet聲碼器通過波形建模在保留相位信息方面的優(yōu)勢.

      圖8 自適應(yīng)與話者相關(guān)模型的基頻誤差Fig.8 Fundamental frequency distortion of adaption and speaker-dependent

      圖9 自適應(yīng)與話者相關(guān)模型的清濁誤判率Fig.9 Voiced and unvoiced error of adaption and speaker-dependent models

      4.4 自適應(yīng)模型與話者無關(guān)模型性能對比

      為了驗證自適應(yīng)訓(xùn)練的有效性,我們用100句話自適應(yīng)訓(xùn)練的模型(AD100)、話者無關(guān)模型(SI)以及STRAIGH(ST)聲碼器分別重構(gòu)了Arctic slt測試集上的20句語音[注]http://home.ustc.edu.cn/~whc/xwjxt/demo.htm.利用Amazon Mechanical Turk眾包平臺[25]進(jìn)行以上三個系統(tǒng)兩兩之間合成語音質(zhì)量的傾向性測聽.測聽由20位英語母語測聽者進(jìn)行,傾向性測聽實驗結(jié)果如表2所示.

      表2 100句自適應(yīng)WaveNet聲碼器(AD100)、話者無關(guān)WaveNet聲碼器(SI)與STRAIGHT聲碼器(ST)重構(gòu)語音質(zhì)量傾向性測聽結(jié)果(%),其中N/P表示無傾向,p值為系統(tǒng)間差異的t-test結(jié)果Table 2 Preference test scores among different vocoder AD100,SI and ST

      主觀測聽結(jié)果表明在不進(jìn)行自適應(yīng)訓(xùn)練情況下的話者無關(guān)模型性能不夠理想,其重構(gòu)語音質(zhì)量低于STRAIGHT聲碼器.而在采用100句目標(biāo)發(fā)音人數(shù)據(jù)進(jìn)行自適應(yīng)訓(xùn)練后,WaveNet聲碼器質(zhì)量顯著提升,且優(yōu)于STRAIGHT聲碼器,這也表明了利用少量目標(biāo)發(fā)音人數(shù)據(jù)進(jìn)行自適應(yīng)訓(xùn)練的有效性.

      最后我們對四組訓(xùn)練數(shù)據(jù)量情況下自適應(yīng)和話者相關(guān)兩種方法所得WaveNet聲碼器分別進(jìn)行了重構(gòu)語音質(zhì)量的傾向性測聽實驗,測試方法同上,測聽結(jié)果如表3所示.由表中可知,在100句訓(xùn)練數(shù)據(jù)下自適應(yīng)訓(xùn)練方法所得WaveNet聲碼器重構(gòu)語音質(zhì)量顯著高于話者相關(guān)訓(xùn)練方法;200句時兩種方法差異不明顯;500、1032句訓(xùn)練集時,話者相關(guān)方法重構(gòu)語音質(zhì)量更高.該主觀測試結(jié)果與客觀結(jié)果一致,均表明本文所提出的話者無關(guān)與自適應(yīng)訓(xùn)練方法在較少數(shù)據(jù)時可以取得優(yōu)于話者相關(guān)訓(xùn)練的性能表現(xiàn).

      表3 自適應(yīng)模型(AD)和話者相關(guān)(SD)模型傾向性測聽結(jié)果(%),其中N/P表示無傾向,p值為系統(tǒng)間差異的t-test結(jié)果Table 3 Preference test scores among AD model and SD model

      5 總 結(jié)

      本文提出了WaveNet聲碼器的話者無關(guān)與自適應(yīng)訓(xùn)練方法,以改善話者相關(guān)訓(xùn)練方法對于目標(biāo)發(fā)音人數(shù)據(jù)量的依賴.實驗結(jié)果表明在目標(biāo)發(fā)音人訓(xùn)練數(shù)據(jù)量較少情況下,自適應(yīng)訓(xùn)練方法構(gòu)建的WaveNet聲碼器可以取得優(yōu)于話者相關(guān)方法的客觀與主觀性能,其重構(gòu)語音質(zhì)量也優(yōu)于傳統(tǒng)STRAIGHT聲碼器.該方法在話者轉(zhuǎn)換、個性化語音合成等目標(biāo)發(fā)音人數(shù)據(jù)量受限的場景中具有應(yīng)用潛力.如何通過擴(kuò)充訓(xùn)練數(shù)據(jù)規(guī)模改善話者無關(guān)模型的性能以及在小數(shù)據(jù)量自適應(yīng)訓(xùn)練中避免過訓(xùn)練現(xiàn)象,是今后需要進(jìn)一步探討研究的問題.

      猜你喜歡
      碼器數(shù)據(jù)量聲學(xué)
      磁吸式掃碼器固定調(diào)節(jié)裝置的研究
      五金科技(2023年5期)2023-11-02 01:50:06
      對于多位置條煙條形碼統(tǒng)一檢測的應(yīng)用研究
      電子測試(2021年22期)2021-12-17 11:19:16
      基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
      計算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
      高刷新率不容易顯示器需求與接口標(biāo)準(zhǔn)帶寬
      愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
      寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設(shè)計與研究
      電子制作(2019年13期)2020-01-14 03:15:18
      Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴(kuò)散”
      Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
      Acoustical Treatment Primer:Absorption 談?wù)劼晫W(xué)處理中的“吸聲”
      黄石市| 金溪县| 韩城市| 皋兰县| 巴塘县| 正镶白旗| 嘉鱼县| 遂昌县| 玉溪市| 连南| 拜城县| 平阳县| 平塘县| 垫江县| 武清区| 江源县| 宁津县| 台江县| 沙河市| 温州市| 汝城县| 中山市| 得荣县| 延寿县| 兴海县| 邳州市| 彭水| 久治县| 赤峰市| 广西| 乌恰县| 垦利县| 通辽市| 海盐县| 南靖县| 大荔县| 滦南县| 武平县| 辽中县| 灵石县| 栖霞市|