• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      說話人自適應技術在維吾爾語語音識別中的應用研究

      2016-05-04 00:41:32努爾麥麥提尤魯瓦斯張力文吾守爾斯拉木
      中文信息學報 2016年3期
      關鍵詞:維吾爾語聲學基線

      努爾麥麥提·尤魯瓦斯,張力文,吾守爾·斯拉木

      (新疆大學 信息科學與工程學院,新疆 烏魯木齊 830046)

      說話人自適應技術在維吾爾語語音識別中的應用研究

      努爾麥麥提·尤魯瓦斯,張力文,吾守爾·斯拉木

      (新疆大學 信息科學與工程學院,新疆 烏魯木齊 830046)

      該文針對維吾爾語說話人之間的發(fā)音差異會在一定程度上影響維吾爾語語音識別系統(tǒng)的性能這一情況研究了說話人自適應技術,將目前較為常用的MLLR和MAP以及MLLR和MAP相結合的自適應方法應用于維吾爾語連續(xù)語音識別的聲學模型訓練中,并用這三種方法自適應后的聲學模型分別在測試集上進行識別實驗。實驗結果表明MLLR、MAP以及MAP+MLLR自適應方法使基線識別系統(tǒng)的單詞錯誤識別率分別降低了0.6%、2.34%和2.57%。

      維吾爾語;語音識別;說話人自適應;MLLR;MAP

      新疆是個多民族的地區(qū),其中維吾爾族占有45.2%的比例,擁有超過一千萬的人口,因此研究維吾爾語的語音識別技術是新疆信息化建設的內(nèi)容之一,具有重大的研究意義。最近幾年新疆各學者對維吾爾語連續(xù)語音識別技術進行了研究,并取得一些成果[1-2],但仍然處于起步階段,仍然存在很多問題需要解決,其中就包括維吾爾語說話人之間的發(fā)音差異給識別系統(tǒng)帶來的不利因素。在新疆,不同地區(qū)的維吾爾語說話人之間的方言口音的差異,不同性別和年齡的說話人之間的發(fā)音差異都較為嚴重地影響了維吾爾語連續(xù)語音識別系統(tǒng)的識別性能,而研究表明說話人自適應技術[3](Speaker Adaptation,SA)可以有效地降低說話人發(fā)音差異給語音識別系統(tǒng)帶來的不良影響。

      自適應的目的就是利用語音識別系統(tǒng)使用者少量的訓練語音,對聲學模型參數(shù)進行調(diào)整,使得系統(tǒng)對使用者的識別性能有顯著的提高。目前國內(nèi)外均已對說話人自適應技術進行了研究[3-6]并應用于英語、漢語連續(xù)語音識別系統(tǒng)中,取得了不錯的成效,而在維吾爾語語音識別領域該技術還未得到充分地應用。

      本文所做的工作包括: 對維吾爾語連續(xù)語音識別系統(tǒng)進行了研究與搭建工作;研究了兩種常用的自適應算法: 最大似然線性回歸算法(Maximum Likelihood Linear Regression,MLLR)[7]與最大后驗概率算法(Maximum a posteriori,MAP)[8];最后將基于以上兩種算法的說話人自適應技術應用于維吾爾語大詞匯量連續(xù)語音識別系統(tǒng)中,并對實驗結果進行了分析。

      1 維吾爾語連續(xù)語音識別基線系統(tǒng)

      1.1 連續(xù)語音識別基線系統(tǒng)框架

      維吾爾語連續(xù)語音識別系統(tǒng)與其他語言連續(xù)語音識別系統(tǒng)一樣,實質(zhì)上屬于同一種模式識別,其系統(tǒng)的構成如圖1 所示。系統(tǒng)主要由語音信號處理、聲學模型、語言模型、語音識別器四個部分組成。系統(tǒng)的主要任務是根據(jù)給定的一段語音序列在HMM狀態(tài)空間中找到最優(yōu)的狀態(tài)序列,從而找出這段語音所代表的最有可能的詞序列。

      圖1 維吾爾語連續(xù)語音識別系統(tǒng)框架

      1.2 聲學模型

      本文對訓練語音數(shù)據(jù)提取39 維MFCC 特征(幀長25 ms,幀移10 ms),其中包括每一幀數(shù)據(jù)的12 維倒譜系數(shù)和能量及其一階和二階差分倒譜,并使用倒譜均值方差歸一化方法[9]進行降噪處理。聲學模型采用基于上下文相關三音素綁定的HMM模型,每個模型用五個狀態(tài)表示,其中第一個狀態(tài)為開始,第五個狀態(tài)為結束,每一個狀態(tài)都包含16個獨立的高斯混合分布。靜音模型采用五個狀態(tài)的HMM模型,停頓模型采用了三個狀態(tài)的HMM模型,模型中每個狀態(tài)包含24 個獨立的高斯混合分布。聲學模型利用HTK(Hidden Markov Model Toolkit)[10]工具訓練。

      1.3 語言模型

      通過聲學模型得到的知識過于龐大,所以連續(xù)語音識別系統(tǒng)依賴于語言學知識。語言學知識在語音識別中的應用不僅約束了搜索空間,而且提高了識別率,加快了搜索速度。目前常用的語言模型是最流行的統(tǒng)計N-Gram語言模型。本文根據(jù)文本語料庫(在實驗部分具體介紹)采用SRILM(Stanford Research Institute Language Modeling toolkit)[11]語言模型訓練工具建立了基于單詞的三元語言模型,OOV率是14.8%。

      2 說話人自適應技術

      2.1 自適應方式

      按照訓練語音獲取的方式不同,自適應方式可以分為[12]: (1)批處理式: 用戶一次性錄入訓練語音,然后進行自適應訓練;(2)在線式: 訓練語音數(shù)據(jù)是用戶使用時產(chǎn)生的,識別系統(tǒng)隨著新的語音數(shù)據(jù)的累積不斷地進行自適應。按照訓練過程有無監(jiān)督,自適應又可以分為[5]: (1)有監(jiān)督式自適應: 在進行識別之前,訓練語音數(shù)據(jù)的內(nèi)容對于系統(tǒng)是已知的;(2)無監(jiān)督式自適應: 即系統(tǒng)不知道目標說話人所說的語音內(nèi)容,模型或參數(shù)的修正是通過識別系統(tǒng)的反饋來實現(xiàn)的。

      在實際情況中,最佳的自適應方式是使用者在使用系統(tǒng)之前采用批處理+有監(jiān)督,而在使用期間采用在線式+無監(jiān)督。這樣既保證了識別性能又體現(xiàn)出用戶友好性。而在本文中由于考慮到實驗環(huán)境的限制僅采用批處理+有監(jiān)督的方式進行實驗。

      2.2 基于MLLR的自適應方法

      最大似然線性回歸(MLLR)[5-7]是基于變換的自適應算法,該算法利用自適應數(shù)據(jù)計算出一組變換用于減小初始模型和自適應數(shù)據(jù)之間的差距。由于混合高斯HMM模型的各高斯分量的均值和方差參數(shù)在連續(xù)語音識別系統(tǒng)中起著決定性作用,因此利用基于MLLR算法的自適應方法估計出的一組線性變換對HMM模型參數(shù)進行調(diào)整就可以達到自適應目的。MLLR自適應算法的流程如圖2所示。

      圖2 MLLR自適應流程圖

      MLLR算法假設相近的語音空間共享相同的變換,因此劃分語音空間的準則就是將相近的語音劃為一類。當用于訓練的語音數(shù)據(jù)較少時,將所有語音劃分為一類,稱之為全局變換(Global Transformation);當訓練語音數(shù)據(jù)較多時,對于混合高斯HMM來說,將會根據(jù)聲學模型的不同高斯分布分量的均值來進行聚類,聚類方法很多,本文采用自適應回歸分類樹的聚類方法。對聲學模型完成聚類之后MLLR算法利用自適應數(shù)據(jù)對每一個類估計出一個線性變換矩陣,該變換矩陣可通過求解以下公式獲得[7,10]式(1)。

      (1)

      (2)

      (3)

      (4)

      則公式(1)可等價表示為:

      (5)

      式(5)可以利用高斯消元法進行求解,但是當均值矢量的維數(shù)為n時,式(5)中的系數(shù)矩陣大小為(n+n2)*(n+n2),那么求解所需要的計算量就會非常龐大,嚴重影響系統(tǒng)的實時性。因此在實際應用中我們只考慮協(xié)方差矩陣為對角矩陣的情況,則變換矩陣W的第i行應滿足:

      (6)

      其中:

      (7)

      (8)

      其中σi是協(xié)方差矩陣對角線上第i個元素,則可以看出式(6)的計算量遠比式(5)的小,可以更好地滿足系統(tǒng)的實時性。

      2.3 基于MAP的自適應方法

      MAP算法[5,8]基于后驗概率最大化的基本準則[13-14],利用貝葉斯學習理論,將初始非特定人識別系統(tǒng)的先驗信息與被適應人的信息相結合實現(xiàn)自適應,因此利用該算法的自適應技術也被稱為貝葉斯自適應。在MAP自適應過程中,識別系統(tǒng)中每一個高斯分布的均值都會被MAP算法重估一次,因此,MAP自適應技術需要存儲一個新的自適應后聲學模型。MAP算法的均值重估方式如式(9)所示[8,10]。

      (9)

      (10)

      (11)

      由上述幾個式子可以看出,如果Njm很小那么MAP算法估計的均值就會接近非特定人識別系統(tǒng)的均值,在MAP自適應過程中,每個高斯分量的均值都會被MAP算法重估一次,因此MAP自適應方法需要保存一個新的特定說話人的聲學模型,這樣相比MLLR方法識別系統(tǒng)就會需要更多的存儲空間。

      MAP自適應方法由于考慮了先驗信息有很好的漸進性,隨著自適應數(shù)據(jù)的逐步增加系統(tǒng)的識別性能也會隨之提高,但MAP算法收斂速度慢,所以該方法只能對有觀測數(shù)據(jù)的模型進行自適應,無法處理沒有觀測值的模型。而MLLR自適應方法通過一組線性變換來對初始模型進行自適應,這種方法的優(yōu)點是比較簡單,而且自適應速度比較快,即使自適應數(shù)據(jù)量較少,MLLR方法也可以獲得較理想的效果,但是MLLR算法沒有考慮到先驗信息,因此該方法很難對模型有精確的估計。

      2.4 采用說話人自適應技術的連續(xù)語音識別系統(tǒng)

      通過對以上兩種主流的說話人自適應方法的研究可以發(fā)現(xiàn),所謂說話人自適應技術就是利用自適應數(shù)據(jù)對語音識別中的聲學模型參數(shù)進行重估,那么應用該技術后的維吾爾語連續(xù)語音識別系統(tǒng)框架就從第一章中所介紹的擴展為如圖3所示。

      圖3 應用自適應技術的連續(xù)語音識別系統(tǒng)框架

      3 實驗與結果

      3.1 實驗配置

      實驗中聲學模型訓練集采用的是16kHz采樣頻率,16bit 量化精度,單聲道,用PC在辦公室環(huán)境下錄制。訓練語料包含356 個人(189女,167男)發(fā)聲的128 小時的50,000條語句。測試語音庫分別包含12個說話人(6男,6女)發(fā)聲的大約1小時的測試集(480條語句,每人40句),自適應數(shù)據(jù)包括測試集中12個說話人的(6男,6女,每人100句)大約1200條語句的語音。頻譜特征觀察矢量為每幀39 維向量,包擴12 階MFCC,歸一化對數(shù)能量,及其一階、二階差分?;€系統(tǒng)聲學模型使用MLE 準則,利用隱馬爾可夫模型工具HTK[10]來訓練。

      實驗中語言模型訓練集采用共有1,335,000個句子和590,000個不重復單詞的維吾爾語文本語料庫,內(nèi)容包含新聞、雜志、政府公文、各種理工科書籍等,選取60,000個高頻單詞作為識別發(fā)音詞典和語言模型建模基礎單詞列表,采用SRILM[11]語言模型訓練工具建立了基于單詞的3-Gram語言模型,語言模型因子和單詞插入懲罰值分別設置為20和-40。

      3.2 MLLR自適應過程

      在使用MLE 準則訓練得到一個識別性能較好的基線模型后,在其基礎上進行聲學模型自適應優(yōu)化。使用HTK(Hidden Markov Model Toolkit)[10]工具集完成聲學模型MLLR的自適應過程(如圖2所示),具體過程為: 第一步,對自適應數(shù)據(jù)的單詞級別標注文件進行強制對齊生成新的音素級別的三音子綁定的標注文件;第二步,利用自適應回歸分類樹(葉子節(jié)點數(shù)設置為32個)將基線系統(tǒng)聲學模型按照均值矢量進行聚類;第三步,將基線聲學模型劃分為一類并利用自適應數(shù)據(jù)為該類生成一個全局變換;第四步,將全局變換矩陣作為輸入變換矩陣,利用自適應數(shù)據(jù)對自適應回歸分類樹中的每一個類估計出一個新的線性變換矩陣;最后在進行識別之前對每個分類中所包含的基線聲學模型均值矢量根據(jù)該類的變換矩陣進行線性變換完成自適應訓練。

      3.3 MAP自適應過程

      使用HTK工具集的HERest模塊根據(jù)自適應數(shù)據(jù)對基線系統(tǒng)聲學模型參數(shù)進行重估生成新的聲學模型,之后用自適應后的聲學模型替換基線系統(tǒng)聲學模型進行識別。

      3.4 MAP和MLLR相結合自適應過程

      MAP和MLLR相結合做自適應的過程就是將兩種自適應過程進行整合,即使用MLLR自適應中生成的自適應回歸樹變換對MAP自適應后的聲學模型進行變換,將最后優(yōu)化的聲學模型替換基線系統(tǒng)模型進行識別測試。

      3.5 實驗結果與分析

      實驗大致分兩個步驟,實驗一用來觀察自適應的說話人數(shù)量對識別性能的影響,實驗二用來觀察不同自適應方式隨著自適應數(shù)據(jù)的增多對系統(tǒng)識別性能的影響。在實驗一中分別選取不同的說話人數(shù)量N的自適應數(shù)據(jù)對基線系統(tǒng)的聲學模型進行MLLR自適應,其中每個說話人有40句自適應數(shù)據(jù),再從測試集中挑選出相應說話人的語音數(shù)據(jù)進行測試,也是每人40句,得到如表1的結果。

      表1 不同自適應說話人數(shù)量的識別結果

      從表1中可以看出,隨著自適應說話人數(shù)量的增多,單詞錯誤率逐漸降低識別性能不斷提高,但當說話人數(shù)量超過10后,識別性能提高的幅度變得非常小,也就是說系統(tǒng)識別性能在自適應說話人數(shù)量達到10左右就開始趨于飽和。因此在實驗二中我們固定自適應說話人的數(shù)量為10。

      實驗二中我們采用實驗一中10個說話人(5男5女)的錄音數(shù)據(jù)做自適應和測試,測試集包括大約1小時的400句語音(每個說話人40句),自適應數(shù)據(jù)從每個說話人40句語音開始每次每人增加20句直到增加到100句為止,自適應方式分別采用MLLR、MAP和MLLR+MAP。識別結果如表2所示。

      表2 不同自適應方式的識別結果

      從表2的實驗結果可以看出聲學模型經(jīng)過MLLR、MAP、MAP+MLLR三種方法的自適應之后都比基線系統(tǒng)的識別性能有所提升,其中MAP自適應方法隨著自適應數(shù)據(jù)的增加識別性能有較明顯的提升,在自適應數(shù)據(jù)為1000句時單詞誤識率最低相比于基線系統(tǒng)降低了2.34%,而采用MLLR自適應方法時單詞錯誤率并沒有隨著自適應數(shù)據(jù)的增加有明顯的下降。這是因為MAP算法考慮了先驗信息從而有更好的漸進性而MLLR算法沒有。最后當使用兩種方法相結合做自適應實驗時,系統(tǒng)的單詞錯誤率又有進一步的降低,相比基線系統(tǒng)降低了2.57%。

      4 結語

      維吾爾語聲學模型分別采用MLLR、MAP、MLLR+MAP三種自適應方法優(yōu)化后,使得維吾爾語大詞匯量連續(xù)語音識別基線系統(tǒng)的識別性能有所提升。但是總結全文仍然存在一些問題: 1)單獨使用MLLR自適應方法做自適應時系統(tǒng)性能提升不如MAP方法明顯,主要原因可能是語音數(shù)據(jù)特征空間的劃分比較粗糙; 2)相對于漢語英語等大語種,目前實驗室中用于訓練和測試的維吾爾語語音數(shù)據(jù)規(guī)模還很小,需要進一步收集擴展; 3)本文實驗采用的是批量式+有監(jiān)督的自適應方式,這在實際應用中并不具有用戶友好性,因此今后還會繼續(xù)深入研究維吾爾語語音識別的在線式和無監(jiān)督式的說話人自適應技術。相信如果在今后的研究中能夠解決以上幾個問題,系統(tǒng)的識別性能會進一步得到提升。

      [1] 努爾麥麥提·尤魯瓦斯,吾守爾·斯拉木.面向大詞匯量的維吾爾語連續(xù)語音識別研究[J].計算機工程與應用,2013,49(9): 115-119.

      [2] 那斯爾江·吐爾遜,吾守爾·斯拉木.基于隱馬爾可夫模型的維吾爾語連續(xù)語音識別系統(tǒng)[J].計算機應用,2009,29(7): 2009-2012.

      [3] C HLee,C HLin,B HJuang. A study on speaker adaptation of the parameters of continuous density hidden Markov models[J]. IEEE Trans.on Acoustic and Speech Signal Processing.1991,39 (4): 806-814.

      [4] C J Leggetter. Improved acoustic modeling for HMMs using linear transformations[D]. Cambridge University,1995.

      [5] 李虎生,劉加,劉潤生語音識別說話人自適應研究現(xiàn)狀及發(fā)展趨勢[J].電子學報,2003,31(1): 103-108.

      [6] 羅駿,歐智堅,王作英.說話人自適應訓練方法在連續(xù)語音識別中的應用[J].中文信息學報,2004,18(3): 61-65.

      [7] C J Leggetter,P C Woodland.Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models[J].Computer Speech and Language,1995,9 (2): 171-185.

      [8] J L Gauvain,C HLee.Maximum a posteriori estimation for multivariate Gaussian observations[J]. IEEE Trans. on Speech and Audio Processing,1994,2 (2): 291-298.

      [9] de la Torre A,Segura J C.Non-linear transformations of the feature space for robust speech recognition[C]//Proceedings of the ICASSP,2002: 401-404.

      [10] Steve Young,etc.The HTK Book(for HTK Version 3.4)[R].Cambridge University Engineering Department.2006,12.

      [11] A.Stolcke.SRILM-An Extensible Language Modeling Toolkit[C]//Proceedings of the Conference on Spoken Language Processing,2002,901-904.

      [12] G Zavaliagkost,R Schwatz,J Makhoul. Batch,incremental,and instantaneous adaptation techniques for speech recognition[C]//Proceedings of the ICASSP.1995.

      [13] 張金槐,唐雪梅. BAYES 方法[M]. 長沙: 國防科技大學出版社,1993.

      [14] R O Duda,P E Hart. Pattern Classification and Scene Analysis [M]. New York: John Wiley,1973.

      Speaker Adaptation Technology in Uyghur Continuous Speech Recognition

      Nurmemet Yolwas,ZHANG Liwen,Wushour Silamu

      (College of Information Science and Engineering,Xinjiang University,Urumqi,Xinjiang 830046,China)

      Researches show that pronunciation differences between the speakers can cause serious effects on the Uyghur speech recognition system. Focused on the speaker adaptation technology,this paper applies MLLR,MAP and MLLR+MAP methods to the training of acoustic models of Uyghur Continuous Speech Recognition system. Experimental results show that with the three speaker adaptation methods,the word error rate is reduced by 0.6%,2.34% and 2.57%,respectively.

      Uyghur;speech recognition;speaker adaptation; MLLR; MAP

      努爾麥麥提·尤魯瓦斯(1980—),講師,博士,主要研究領域為語音信號處理。E?mail:y.nurmemet@gmail.com張力文(1991—),碩士研究生,主要研究領域為語音識別。E?mail:lwzhang9161@gmail.com吾守爾·斯拉木(1942—),教授,博士生導師,主要研究領域為多語種信息處理,智能化應用研究。E?mail:wushour@xju.edu.cn

      2014-04-21 定稿日期: 2014-09-04

      國家自然科學基金 (61363064);新疆維吾爾自治區(qū)科技計劃項目(201312104);清華大學騰訊科技有限公司互聯(lián)網(wǎng)創(chuàng)新技術聯(lián)合實驗室創(chuàng)新課題(2012-04)

      1003-0077(2016)03-0079-06

      TP391

      A

      猜你喜歡
      維吾爾語聲學基線
      適用于MAUV的變基線定位系統(tǒng)
      高技術通訊(2021年3期)2021-06-09 06:57:46
      航天技術與甚長基線陣的結合探索
      科學(2020年5期)2020-11-26 08:19:14
      愛的就是這股Hi-Fi味 Davis Acoustics(戴維斯聲學)Balthus 70
      Acoustical Treatment Primer:Diffusion談談聲學處理中的“擴散”
      Acoustical Treatment Primer:Absorption談談聲學處理中的“吸聲”(二)
      Acoustical Treatment Primer:Absorption 談談聲學處理中的“吸聲”
      統(tǒng)計與規(guī)則相結合的維吾爾語人名識別方法
      自動化學報(2017年4期)2017-06-15 20:28:55
      一種改進的干涉儀測向基線設計方法
      維吾爾語話題的韻律表現(xiàn)
      維吾爾語詞重音的形式判斷
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      绵阳市| 阿合奇县| 青田县| 龙州县| 内江市| 池州市| 永登县| 上虞市| 类乌齐县| 鸡西市| 吴旗县| 长宁区| 凤庆县| 常山县| 通江县| 太保市| 洱源县| 宝坻区| 营山县| 太原市| 上林县| 禄丰县| 瑞安市| 栾川县| 达孜县| 出国| 扬中市| 菏泽市| 潜江市| 德阳市| 九龙坡区| 宝兴县| 弥勒县| 阜新市| 阳城县| 岫岩| 永胜县| 凌海市| 晋州市| 镇江市| 理塘县|