馬 亮 程 陳 任海軍 王文青 周 輝
(中國地震局 第二監(jiān)測中心,陜西 西安 710054)
語言是人與人之間信息交流意思表達最直接、最自然的手段,它由語音、詞匯、語法三部分組成。而口語是口頭交際時使用的語言,是最早被人類普遍應用的語言形式。人們訓練口語技能主要從語言表達的準確性、流利度、是否得體、多樣性等為基準。
語音聲紋識別技術是人機交互中的關鍵技術。語音聲紋識別技術就是讓機器通過構建識別和理解過程把語音信號轉變?yōu)橄鄳奈谋净蛎畹母呒夹g。語音聲紋識別技術除了特征提取技術、模式匹配準則及模型訓練技術之外,還涉及到有語音識別單元的選取,選擇識別單元是語音識別研究的第一步。語音識別單元有單詞(句)、音節(jié)和音素三種,而漢語則以音節(jié)單元識別為主[1]。
口語測試的評分一般分為兩種:一種是自動評分,一種為專家評分。在自動評分中可以盡可能脫離人的主觀因素對口語測試者的發(fā)音客觀評分,最大程度呈現測試者的真實水平,在實際中得到了廣泛運用。針對這一研究,我們主要用到的技術是運用語音識別和統計模型的相關理論,通過提取被測者語音信號的特征參數,計算機對其經過一系列數字信號處理,從而在統計模型中對它進行分析測評。特征參數提取采用的是Mel頻率倒譜參數(MFCC)。本文中以非線性的特征參數MFCC為主,結合LSP,提出了一種語音特征參數的混合使用方法 (M/L),使發(fā)音質量判決系統的正確率有所改進。計算公式見式(1):
X=(x1,x2,...,xk)為參考模型的特征矢量,K 代表參數的維數,Y=(y1,y2,...,yk)表示維數為 K 的被測模型特征矢量。
口語測評機制的建立是從聲學特征、韻律特征和感知特征三方面綜合考慮。本文所采用的是基于HMM和神經網絡技術的評分機制,對標準語音的特征通過HMM技術進行訓練建立相應模型,然后與學習者語音的特征進行強制對齊得到三類得分,即聲學分數、韻律分數和感知分數,最后將這三類分數通過評分機制得到最后評分,而這個評分機制是由神經網絡對非標準語音的人工評分和機器評分訓練得到。
聲學分數主要是指語音內容匹配的準確度,它是對語音段進行評價,提取語音的12維MFCC特征和能量特征,并分別對這兩個特征做一階差分和二階差分,綜合得到一個39維的特征向量,然后對這個特征向量進行訓練建立聲學模型。韻律分數由韻律特征提取而定,我們可以提取語音的基音,研究基音隨時間的變化規(guī)律,如取基音均值可以作為一個韻律參數,通過HMM技術建立韻律模型,通過比較標準語音和測試語音得到韻律分數。感知分數通過計算動態(tài)規(guī)整比較標準語音和測試語音的響度差異,由Zwicker公式得出響度,見式(2):
在Bark頻標上計算每個臨界界帶的響度,頻率和臨界帶之間有擬合公式,見式(3):
聲學模型主要用來描述發(fā)音單元(如音子、音節(jié)和詞)在特征空間中的分布狀況以及這種分布隨時間的變化規(guī)律。聲學模型是識別系統的底層模型,并且是語音識別系統中最關鍵的一部分,其目的是提供一種有效的方法計算語音的特征矢量序列和每個發(fā)音模板之間的距離。聲學模型的設計和語言發(fā)音特點密切相關。聲學模型單元大小(字發(fā)音模型、半音節(jié)模型或音素模型)直接影響著語音訓練數據量大小、系統識別率以及靈活性。所以必須根據不同語言的特點、識別系統詞匯量的大小來決定識別單元的大小。
聲學模型的主要功能是對識別基元進行模式劃分。進行模式劃分的方法很多種,但目前語音識別系統中主流的聲學建模技術兩類:一類是基于隱式馬爾可夫模型的概率統計模型的方法;一類是基于人工神經網絡的方法[2]。
神經網絡能依靠權值進行長時間記憶和知識存儲,但是對輸入模式的瞬時相應的記憶能力比較差;而隱馬爾科夫模型的短時記憶的能力比較強,但是假定的前提又與實際情況不符。因此,擬定采用HMM和ANN相結合的混合模型[3]。
在混合HMM/ANN模型方法中,采用分類網絡來估計HMM狀態(tài)的后驗概率。傳統的HMM/ANN模型是用神經分類網絡代替了高斯概率密度分布混合器。因此可以用語法上下文相關的輸入模式作為神經網絡的輸入,這樣就考慮了語音矢量間的時間相關性。神經網絡輸出的后驗概率密度見式(4):
而HMM狀態(tài)需要的是似然概率密度p(x,lq,),應用貝葉斯公式,我們就可以從后驗概率密度,導出尺度化的后驗概率密度,見式(5):
在進行識別時,因為p(x,)對所有的路徑來說是一樣的,所以尺度化的似然函數并不會改變識別的結果。因為分類網絡極大地體現了混合模型的精髓,所以我們采用它來建立語音識別系統。在用混合HMM/ANN模型進行語音識別時,ANN計算的是HMM狀態(tài)的尺度化觀察概率。整個識別過程分兩步進行:(1)計算t時刻所有HMM狀態(tài)的尺度化觀察概率;(2)計算t時刻激活路徑的路徑積累概率,并根據路徑積累概率進行剪枝[4-5],確定t+l時刻的激活路徑。
對上述概率統計結果進行了進一步分析后,基于一種新的隱節(jié)點數目確定方法實現了這種混合模型優(yōu)化。
(1)用迭代自組織數據分析方法得到訓練數據的聚類中心數目,再為屬于不同類的一對聚類中心分配一個隱節(jié)點。這樣,隱節(jié)點就是對輸入模式形成高維空間,在這個空間中輸入節(jié)點更容易形成決策曲面。通過這樣就估計了一個對于訓練和訓練后的剪枝都合適的隱節(jié)點的數目N。
(2)訓練具有N個隱節(jié)點的BP網絡。
(3)通過迭代去除網絡中的冗余隱節(jié)點,然后在保持原有輸入輸出關系的前提下,調整剩下隱節(jié)點的權值,最后得到一個最優(yōu)的網絡隱節(jié)點個數。即對于訓練集中所有的模式見式(6):
語言模型特別適用于中、大詞匯量的語音識別系統。目前比較成功的語言模型通常是基于統計語法的語言模型與基于規(guī)則語法結構命令語言模型。統計語言模型是用概率統計的方法來揭示語言單位內在的統計規(guī)律,其中N-Gram簡單有效,被廣泛使用。N-Gram模型被稱為一階馬爾科夫鏈,該模型基于這樣一種假設,第n個詞的出現只與前面N-1個詞相關,而與其它任何詞都不相關,整句的概率就是各個詞出現概率的乘積。這些概率可以通過直接從語料中統計N個詞同時出現的次數得到。常用的是二元的Bi-Gram和三元的Tri-Gram。
當兩個歷史的最近的N-1個詞(或字)相同時,映射兩個歷史到同一個等價類,在此情況下的模型稱之為N-Gram模型。N的值不能太大,否則計算量太大。根據最大似然估計,給出語言模型的參數,見式(7):
其中,C(w1w2…wi)表示w1w2…wi在訓練數據中出現的次數。
漢語采用分層識別策略:假設漢語句子長度為L,對應的漢字串為 W=(W1,W2,..,WL),對應的又掉拼音串為 A=(A1,A2,..,AL),聲學觀測為 O=(O1,O2,..,OL)。 其中的 Wi,Ai,Oi(i=1,2,…,L)對應 S 中的第 i個字,分別在漢字集、有調拼音集和聲學觀測集上取值。設P(W|O)為聲學觀測為O時所說漢字串為W的概率,則語音識別的目標是在得到聲學觀測O的情況下找到W?,見式(8):
其中,P(W,A)為漢語語言模型,P(O|A)為漢語聲學模型。
漢語普通話測評系統框架如圖1所示,該系統包括有檢測口語發(fā)音部分,所述的檢測口語發(fā)音部分包括以下步驟:標準發(fā)音人語料庫的建立;口語評測語料庫的收集;口語評測語料庫的標注;標準語音聲學模型的建立;計算語音的檢錯參數;建立檢錯參數向專家所標注發(fā)音錯誤的檢錯映射模型。
圖1 普通話測評系統框圖
本系統擬定采用Visual Studio 2008開發(fā)工具下的C++語言搭建系統平臺界面,輔以外加設備,如耳麥、錄音設備等。系統主界面如圖2所示。
圖2 普通話測評系統主題界面
進入測評登記之后,首先錄入語音進行聲紋身份認證并顯示核對信息,聲紋身份認證通過與原始錄入數據進行比較而獲得。在語音測評階段,主要工作是進行語音錄入,并與系統原存儲的標準語音進行對比辨識語音進行測評,如圖3。該階段包括四個裝置:語音辨識裝置、存儲裝置、預處理器和語音決策裝置,通過模型比較,然后產生并輸出一個表明與輸入信號最佳匹配的一個附加模型的信號。
圖3 語音測評
根據語音識別技術開發(fā)的口語語音學習和測評系統,可以對測試者的水平進行有效測評,對每句話、每個詞和甚至每個因素給出得分,提出改進建議。未來可以發(fā)展語音情感識別系統,識別說話人的情感。
[1]王炳錫,屈丹,彭煊.實用語音識別基礎[M].2版.北京:國防工業(yè)出版社,2005:26-29.
[2]林坤輝,息曉靜,周昌樂.基于HMM與神經網絡的聲學模型研究[J].廈門大學學報,2006,45(1):45-47.
[3]馬亮,等.基于 DSP 的 JPEG 視頻壓縮系統的實現[J].電子設計工程,17(9).
[4]趙雷.建立任務型對外漢語口語教學系統的思考[J].語言教學與研究,2008(3):64-66.
[5]宋芳芳,宋曉麗,馬青玉.基于語音識別技術的英語口語自學系統評分機制的研究[D].南京師范大學教育科學學院,20095(7):1726-1728.
[6]FERRASM,BARRAS C,GAUVAIN J.L.Lattice.based MLLR for speaker recognit ion [C]//ICASSP 2009:Proceedings of the 2009 IEEE International Conference on A coustics,Speech and Signal Processing.Washington,DC:IEEE Computer Society,2009:4537-4540.