• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于最大似然線性回歸的隨機(jī)段模型說(shuō)話人自適應(yīng)研究*

      2014-09-13 12:43:43楊占磊劉文舉
      關(guān)鍵詞:錯(cuò)誤率聲學(xué)解碼

      晁 浩,楊占磊,劉文舉

      (1.河南理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,河南 焦作 454000;2.中國(guó)科學(xué)院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京100190)

      基于最大似然線性回歸的隨機(jī)段模型說(shuō)話人自適應(yīng)研究*

      晁 浩1,2,楊占磊2,劉文舉2

      (1.河南理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,河南 焦作 454000;2.中國(guó)科學(xué)院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京100190)

      提出了一種隨機(jī)段模型系統(tǒng)的說(shuō)話人自適應(yīng)方法。根據(jù)隨機(jī)段模型的模型特性,將最大似然線性回歸方法引入到隨機(jī)段模型系統(tǒng)中。在“863-test”測(cè)試集上進(jìn)行的漢語(yǔ)連續(xù)語(yǔ)音識(shí)別實(shí)驗(yàn)顯示,在不同的解碼速度下,說(shuō)話人自適應(yīng)后漢字錯(cuò)誤率均有明顯的下降。實(shí)驗(yàn)結(jié)果表明,最大似然線性回歸方法在隨機(jī)段模型系統(tǒng)中同樣能取得較好的效果。

      語(yǔ)音識(shí)別;說(shuō)話人自適應(yīng);最大似然線性回歸;隨機(jī)段模型

      1 引言

      語(yǔ)音識(shí)別經(jīng)過(guò)幾十年的發(fā)展己經(jīng)取得了很大的進(jìn)展,在純凈語(yǔ)音條件下已經(jīng)達(dá)到了很高的識(shí)別率,但是當(dāng)訓(xùn)練環(huán)境和識(shí)別環(huán)境不匹配時(shí),現(xiàn)有的識(shí)別系統(tǒng)的性能通常會(huì)嚴(yán)重下降,這是語(yǔ)音識(shí)別技術(shù)實(shí)用化的一個(gè)嚴(yán)重障礙。語(yǔ)音識(shí)別系統(tǒng)能在不同的條件下保持較高識(shí)別率的性質(zhì)被稱為穩(wěn)健性,影響穩(wěn)健性的因素很多,說(shuō)話人的變化是影響穩(wěn)健性的一個(gè)重要因素。盡管說(shuō)話人無(wú)關(guān)識(shí)別系統(tǒng)已經(jīng)取得了長(zhǎng)足的進(jìn)步,但是這類系統(tǒng)的性能與針對(duì)特定說(shuō)話人的識(shí)別系統(tǒng)間仍存在巨大的差異。大部分說(shuō)話人無(wú)關(guān)SI(Speaker Independent)系統(tǒng)不能對(duì)所有的說(shuō)話人表現(xiàn)如一,說(shuō)話人年齡、性別、情緒、語(yǔ)言習(xí)慣的差異都可能帶來(lái)識(shí)別性能的嚴(yán)重下降,說(shuō)話人相關(guān)SD(Speaker Dependent)系統(tǒng)可以達(dá)到更高的識(shí)別率,但是為得到說(shuō)話人相關(guān)的碼本需要大量說(shuō)話人的數(shù)據(jù),這在實(shí)際中往往很難得到。說(shuō)話人自適應(yīng)技術(shù)SA(Speaker Adaptation)則可以很好地解決這一問(wèn)題。說(shuō)話人自適應(yīng)技術(shù)利用少量的待識(shí)別的說(shuō)話人數(shù)據(jù)自適應(yīng)說(shuō)話人無(wú)關(guān)系統(tǒng),使系統(tǒng)盡量體現(xiàn)待識(shí)別說(shuō)話人的特性。相對(duì)于SI系統(tǒng)來(lái)說(shuō),SA可以提高系統(tǒng)的識(shí)別率,相對(duì)于SD系統(tǒng)來(lái)說(shuō),又不需要大量的說(shuō)話人數(shù)據(jù)。因此,通過(guò)說(shuō)話人自適應(yīng)的方式對(duì)聲學(xué)模型參數(shù)進(jìn)行優(yōu)化成為語(yǔ)音識(shí)別領(lǐng)域一重要的研究方向[1]。

      隨機(jī)段模型SSM(Stochastic Segment Model)是針對(duì)隱馬爾科夫模型HMM(Hidden Markov Model)的缺陷而提出的一種替代模型[2,3],由于其復(fù)雜度相對(duì)于HMM較高,最初只能用于孤立詞識(shí)別,對(duì)HMM系統(tǒng)的解碼結(jié)果進(jìn)行二次搜索等任務(wù)。經(jīng)過(guò)了十多年的不斷研究,段模型從開(kāi)始只能用于二次解碼逐漸發(fā)展應(yīng)用到小詞匯量連續(xù)語(yǔ)音識(shí)別,最后成功地應(yīng)用到大詞匯量連續(xù)語(yǔ)音識(shí)別任務(wù)中[4,5]。為了使基于隨機(jī)段模型的語(yǔ)音識(shí)別系統(tǒng)的性能得到進(jìn)一步提升,從而能夠與最新的基于HMM的識(shí)別系統(tǒng)相比較,對(duì)段模型進(jìn)行說(shuō)話人自適應(yīng)的優(yōu)化是十分必要的。

      與傳統(tǒng)的最大后驗(yàn)概率自適應(yīng)方法MAP(Maximum A Posteriori)[6]相比,最大似然線性回歸MLLR(Maximum Likelihood Linear Regression)方法[7]只需要較少的自適應(yīng)訓(xùn)練數(shù)據(jù)就能得到較好的效果,是HMM系統(tǒng)常用的說(shuō)話人自適應(yīng)方法。近年來(lái),基于說(shuō)話人空間的本征音EV(Eigen Voice)自適應(yīng)方法成了研究熱點(diǎn)[8~10]。該方法選取參考說(shuō)話人(Reference Speaker)并從語(yǔ)料庫(kù)中抽取基向量,對(duì)于目標(biāo)說(shuō)話人,其聲學(xué)模型參數(shù)就是上述基向量的線性組合。相對(duì)傳統(tǒng)的MAP和MLLR方法,這種方法能在只有極少自適應(yīng)數(shù)據(jù)的條件下取得很好的效果。

      本文的主要研究目標(biāo)是將HMM系統(tǒng)常用的MLLR方法擴(kuò)展應(yīng)用到隨機(jī)段模型系統(tǒng)。與HMM以語(yǔ)音幀為基本解碼單元不同,SSM以語(yǔ)音段為基本建模單元和解碼單元,是對(duì)聲學(xué)特征序列描述更為精確的聲學(xué)模型。因此,基于HMM系統(tǒng)提出的MLLR方法不能直接用于隨機(jī)段模型,需要對(duì)MLLR方法進(jìn)行改進(jìn),使其適應(yīng)于隨機(jī)段模型。

      2 隨機(jī)段模型

      (1)

      (2)

      其中,ri為隨機(jī)段模型α的第i個(gè)域模型。

      3 基于隨機(jī)段模型的MLLR自適應(yīng)

      MLLR方法是求得一組線性變換,通過(guò)這組變換,使自適應(yīng)數(shù)據(jù)的似然函數(shù)最大化。HMM系統(tǒng)中,MLLR方法待變換的參數(shù)一般是狀態(tài)層的GMM的均值;在隨機(jī)段模型中待變換的參數(shù)是域模型的均值向量。變換過(guò)程可以簡(jiǎn)單地表示如下:

      (3)

      (4)

      (5)

      (6)

      (7)

      (8)

      (9)

      (10)

      (11)

      (12)

      (13)

      其中:

      (14)

      在協(xié)方差矩陣為對(duì)角矩陣的情況下,根據(jù)公式(13)可得:

      (15)

      4 實(shí)驗(yàn)及分析

      4.1 實(shí)驗(yàn)設(shè)定與基線系統(tǒng)

      實(shí)驗(yàn)所用的數(shù)據(jù)庫(kù)為國(guó)家863項(xiàng)目漢語(yǔ)廣播語(yǔ)音庫(kù)。使用全部的83位男性說(shuō)話人的數(shù)據(jù)訓(xùn)練聲學(xué)模型,共48 373句,約55.6小時(shí)。使用6個(gè)男說(shuō)話人數(shù)據(jù)做測(cè)試集,共240句話,約17.1分鐘。聲學(xué)特征包括12維梅爾頻率倒譜系數(shù)(MFCC)及一維標(biāo)準(zhǔn)化能量,以及它們的一階及二階差分,幀窗長(zhǎng)為25.6 ms,幀移為10 ms。實(shí)驗(yàn)中采用的漢語(yǔ)普通話音素集包含24個(gè)聲母及37個(gè)韻母,每一個(gè)韻母含有五個(gè)聲調(diào)。去除訓(xùn)練庫(kù)中沒(méi)有出現(xiàn)的聲韻母,音素集中共包含191個(gè)基本音素。

      隨機(jī)段模型的建模單元為聲韻母,采用背景相關(guān)的三音子結(jié)構(gòu),每個(gè)段模型包含15個(gè)域模型和一個(gè)基于伽馬分布的時(shí)長(zhǎng)模型。每個(gè)域模型由12個(gè)混合數(shù)的高斯混合模型模擬。域模型采用基于音素的決策樹(shù)進(jìn)行參數(shù)合并。三音子模型一共有202 984個(gè),經(jīng)過(guò)參數(shù)綁定后實(shí)際上的物理模型數(shù)為24 180個(gè),包含了7 983個(gè)共享的域模型。

      為了與HMM系統(tǒng)進(jìn)行性能比較,我們將文獻(xiàn)[12]中搭建的基于HMM的解碼器作為HMM的基線系統(tǒng)。該系統(tǒng)同樣采用上下文相關(guān)的聲母/帶調(diào)韻母作為基本的建模單元,具體為三音子模型。HMM使用連續(xù)密度的從左到右的拓?fù)浣Y(jié)構(gòu),包含5個(gè)狀態(tài),其中3個(gè)為發(fā)射狀態(tài)。每個(gè)發(fā)射態(tài)的輸出概率用16個(gè)混合數(shù)的混合高斯模型建模。經(jīng)過(guò)參數(shù)綁定后,其物理模型個(gè)數(shù)為15 046個(gè),包含了4 575個(gè)共享狀態(tài)。兩系統(tǒng)所用語(yǔ)言模型為二元語(yǔ)言模型,包含48 188個(gè)詞。兩系統(tǒng)具體參數(shù)如表1所示。

      4.2 結(jié)果及分析

      我們對(duì)六個(gè)不同的說(shuō)話人分別進(jìn)行了自適應(yīng)

      Table 1 Parameters of the HMM system and the SSM System表1 HMM系統(tǒng)和SSM系統(tǒng)的參數(shù)

      的訓(xùn)練,每個(gè)說(shuō)話人共有40句話的語(yǔ)料,分別利用每個(gè)說(shuō)話人的前5、10、15、20句話作為自適應(yīng)語(yǔ)料來(lái)對(duì)聲學(xué)模型進(jìn)行有監(jiān)督和無(wú)監(jiān)督的訓(xùn)練,然后用后20句話作為測(cè)試語(yǔ)料。所用的數(shù)據(jù)都從863連續(xù)語(yǔ)音庫(kù)中選取。同時(shí),我們通過(guò)設(shè)定剪枝閾值的方式來(lái)控制HMM和SSM的解碼速度,從解碼速度和識(shí)別精度兩方面比較分析SSM和HMM的性能。表2顯示了采用不同自適應(yīng)方法以及不同規(guī)模的自適應(yīng)數(shù)據(jù)后,隨機(jī)段模型系統(tǒng)在測(cè)試集上的識(shí)別結(jié)果??梢钥闯鲭S著自適應(yīng)數(shù)據(jù)的增加,不管是采用無(wú)監(jiān)督MLLR方法還是有監(jiān)督MLLR方法,系統(tǒng)的誤識(shí)率持續(xù)下降,而有監(jiān)督MLLR方法的效果又明顯要優(yōu)于無(wú)監(jiān)督MLLR方法。

      Table 2 Performance of SSM after adaptation表2 隨機(jī)段模型的自適應(yīng)

      我們還對(duì)HMM和SSM自適應(yīng)前后的性能做了比較。圖1顯示了四個(gè)系統(tǒng)的漢字錯(cuò)誤率-實(shí)時(shí)因子曲線,以便同時(shí)考察系統(tǒng)解碼的精度和速度。其中SSM和HMM為自適應(yīng)前兩種模型的識(shí)別結(jié)果。由于SSM的模型與HMM相比更為復(fù)雜,而且SSM采用雙重解碼的形式,所以當(dāng)要求的解碼時(shí)間較短時(shí),SSM的錯(cuò)誤率要高于HMM。例如,實(shí)時(shí)因子為0.58時(shí),HMM的漢字錯(cuò)誤率為17.02%,而SSM為18.09%。而隨著解碼時(shí)間的增加,SSM能夠發(fā)揮其模型更精細(xì)的優(yōu)勢(shì),和HMM之間識(shí)別精度的差距也逐漸縮小。當(dāng)解碼時(shí)間超過(guò)1.2倍的實(shí)時(shí)后,SSM的漢字錯(cuò)誤率已經(jīng)低于HMM。

      圖1中SSM+MLLR為隨機(jī)段模型經(jīng)過(guò)MLLR自適應(yīng)后的結(jié)果,HMM+MLLR為隱馬爾科夫模型經(jīng)過(guò)MLLR自適應(yīng)后的結(jié)果。不管是SSM還是HMM,在解碼時(shí)間較短時(shí)MLLR自適應(yīng)對(duì)模型精度提升的程度較大。例如,實(shí)時(shí)因子為0.58時(shí),HMM系統(tǒng)的漢字錯(cuò)誤率從17.02%下降到15.60%,錯(cuò)誤率相對(duì)下降了8.34%;而SSM的漢字錯(cuò)誤率從18.09%下降到16.48%,錯(cuò)誤率相對(duì)下降了8.90%。實(shí)時(shí)因子上升到1.58時(shí),HMM系統(tǒng)的漢字錯(cuò)誤率從13.65%下降到12.71%,錯(cuò)誤率相對(duì)下降了6.89%;而SSM的漢字錯(cuò)誤率從13.07%下降到12.48%,錯(cuò)誤率相對(duì)下降了4.51%。解碼時(shí)間較長(zhǎng)時(shí),由于此時(shí)設(shè)定的剪枝閾值較低,保留的候選路徑數(shù)增大,所以經(jīng)過(guò)說(shuō)話人自適應(yīng)優(yōu)化后的聲學(xué)模型能夠更好地發(fā)揮作用。而剪枝閾值設(shè)置較高時(shí),解碼速度加快,但解碼時(shí)保留的候選路徑數(shù)降低,有可能將正確的路徑剪掉,這種情況下自適應(yīng)算法實(shí)際上并沒(méi)有起到應(yīng)有的作用,所以無(wú)論是HMM還是SSM,自適應(yīng)后識(shí)別精度提高得不明顯。

      Figure 1 Performance comparison between HMM and SSM圖1 HMM和SSM自適應(yīng)前后的性能對(duì)比

      另外,實(shí)時(shí)因子較大時(shí),隨機(jī)段模型自適應(yīng)后與HMM相比性能提升程度稍低。原因可能是隨機(jī)段模型的SI系統(tǒng)的準(zhǔn)確率比HMM高,所以進(jìn)一步提高系統(tǒng)的準(zhǔn)確率要比HMM困難,說(shuō)話人自適應(yīng)技術(shù)對(duì)SSM起到的作用沒(méi)有HMM大。盡管如此,實(shí)時(shí)因子大于1.2時(shí)自適應(yīng)后的SSM系統(tǒng)的誤識(shí)率仍然低于HMM系統(tǒng)。

      5 結(jié)束語(yǔ)

      本文根據(jù)隨機(jī)段模型本身的特點(diǎn),將HMM系統(tǒng)常用的最大似然線性回歸說(shuō)話人自適應(yīng)方法擴(kuò)展應(yīng)用到隨機(jī)段模型系統(tǒng)中。在863語(yǔ)料庫(kù)測(cè)試集上的實(shí)驗(yàn)中,自適應(yīng)后的SSM系統(tǒng)其識(shí)別精度在不同的解碼速度下都取得了明顯的提升。實(shí)驗(yàn)結(jié)果表明了MLLR說(shuō)話人自適應(yīng)方法對(duì)SSM系統(tǒng)的有效性。

      [1] Li Hu-sheng,Liu Jia,Liu Run-sheng.Technology of speaker adaptation in speech recogniton and its development trend[J]. Acta Electronica Sinica,2003,31(1):103-108. (in Chinese)

      [2] Kimball O,Ostendorf M,Bechwati I.Context modeling with the stochastic segment model[J]. IEEE Transactions on Signal Processing,1992,40(6):1584-1587.

      [3] Tang Yun, Liu Wen-Ju, Xu Bo, Mandarin digit string recognition based on segment model using posterior probability decoding[J]. Chinese Journal of Computers, 2006,29(4):635-642. (in Chinese)

      [4] Tang Yun, Liu Wen-Ju, Zhang Hua. One-pass coarse-to-fine segmental speech decoding algorithm[C]∥Proc of ICASSP, 2006:441-444.

      [5] Zhang Hua, Liu Wen-ju, Xu Bo. Research on adaptive step decoding in segment-based LVCSR[C]∥Proc of IEEE NLP-KE’07, 2007:463-467.

      [6] Gauvain J L, Lee C H. Maximum a posteriori estimation for multivariate Gaussian observations[J]. IEEE Transactions on Speech and Audio Processing, 1994, 2(2):291-298.

      [7] Leggetter C,Woodland P.Maximum likelihood linear regression for speaker adaptation of continuous density hidden markov models[J]. Computer Speech and Language, 1995, 9(2):171-185.

      [8] Tang Yun, Rose R C. Rapid speaker adaptation using clustered maximum-likelihood linear basis with sparse training data[J]. IEEE Transactions on Audio, Speech & Language Processing, 2008, 16(3):607-616.

      [9] Kuhn R, Junqua J C. Rapid speaker adaptation in eigenvoice space[J]. IEEE Transactions on Speech and Audio Processing, 2000, 8(6):695-707.

      [10] Luo Jun, Ou Zhi-jian, Wang Zuo-ying. Eigenvoice-based MAP fast adaptation in correlation subspaces[J]. Journal of Tsinghua University (Science and Technology), 2005, 8(6):829-832. (in Chinese)

      [11] Li C F, Siu M. Training for polynomial segment model using the expectation maximization algorithm[C]∥Proc of ICASSP, 2004:841-844.

      [12] Yang Zhan-lei, Liu Wen-ju. A novel path extension framework using steady segment detection for mandarin speech recognition[C]∥Proc of INTERSPEECH, 2010:226-229.

      附中文參考文獻(xiàn):

      [1] 李虎生,劉加,劉潤(rùn)生. 語(yǔ)音識(shí)別說(shuō)話人自適應(yīng)研究現(xiàn)狀及發(fā)展趨勢(shì)[J]. 電子學(xué)報(bào),2003,31(1):103-108.

      [3] 唐赟,劉文舉,徐波. 基于后驗(yàn)概率解碼段模型的漢語(yǔ)語(yǔ)音數(shù)字串識(shí)別[J]. 計(jì)算機(jī)學(xué)報(bào), 2006, 29(4):635-642.

      [10] 羅駿, 歐智堅(jiān), 王作英. 基于相關(guān)子空間本征音分析的MAP快速自適應(yīng)[J]. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2005, 44(6):829-832.

      CHAOHao,born in 1981,PhD candidate,lecturer,his research interest includes speech recognition.

      Researchofspeakeradaptationofstochasticsegmentmodelsusingmaximumlikelihoodlinearregression

      CHAO Hao1,2,YANG Zhan-lei2,LIU Wen-ju2

      (1.School of Computer Science and Technology,Henan Polytechnic University,Jiaozuo 454000;2.National Laboratory of Pattern Recognition,Institute of Automation,Chinese Academy of Sciences,Beijing 100190,China)

      A speaker adaptation method of Stochastic Segment Model (SSM) is proposed. According to the SSM’s characteristics, the theory of Maximum Likelihood Linear Regression (MLLR) method is introduced into the SSM-based systems. Continuous Chinese speech recognition experiment on "863-test" test suite shows that the proposed method makes the error rate of Chinese characters decrease obviously under different decoding speeds. Experiment results indicate that the proposal can also improve the recognition performance on the SSM-based systems.

      speech recognition;speaker adaptation;maximum likelihood linear regression;stochastic segment model

      1007-130X(2014)08-1604-05

      2012-12-19;

      :2013-04-03

      國(guó)家自然科學(xué)基金資助項(xiàng)目(91120303,90820303,90820011);國(guó)家973計(jì)劃資助項(xiàng)目(2004CB318105);國(guó)家863計(jì)劃資助項(xiàng)目(20060101Z4073,2006AA01Z194)

      TP391.4

      :A

      10.3969/j.issn.1007-130X.2014.08.032

      晁浩(1981-),男,河南鄢陵人,博士生,講師,研究方向?yàn)檎Z(yǔ)音識(shí)別。E-mail:chaohao@hpu.edu.cn

      通信地址:454000 河南省焦作市河南理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院

      Address:School of Computer Science and Technology,Henan Polytechnic University,Jiaozuo 454000,Henan,P.R.China

      猜你喜歡
      錯(cuò)誤率聲學(xué)解碼
      限制性隨機(jī)試驗(yàn)中選擇偏倚導(dǎo)致的一類錯(cuò)誤率膨脹*
      《解碼萬(wàn)噸站》
      愛(ài)的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學(xué))Balthus 70
      解碼eUCP2.0
      Acoustical Treatment Primer:Diffusion談?wù)劼晫W(xué)處理中的“擴(kuò)散”
      NAD C368解碼/放大器一體機(jī)
      Acoustical Treatment Primer:Absorption談?wù)劼晫W(xué)處理中的“吸聲”(二)
      Quad(國(guó)都)Vena解碼/放大器一體機(jī)
      Acoustical Treatment Primer:Absorption 談?wù)劼晫W(xué)處理中的“吸聲”
      正視錯(cuò)誤,尋求策略
      教師·中(2017年3期)2017-04-20 21:49:49
      崇仁县| 磴口县| 丹东市| 监利县| 台州市| 霸州市| 汉川市| 尖扎县| 鄱阳县| 鲁山县| 镇康县| 遂昌县| 贵阳市| 金华市| 泸定县| 嘉峪关市| 龙里县| 夹江县| 海兴县| 新丰县| 龙游县| 庆城县| 洛扎县| 文成县| 岳西县| 纳雍县| 夏津县| 江阴市| 九龙县| 德阳市| 慈溪市| 安宁市| 准格尔旗| 长寿区| 黔南| 定远县| 遂宁市| 藁城市| 深圳市| 九龙城区| 清远市|