嚴(yán) 可,魏 思,戴禮榮
(1. 中國(guó)科學(xué)技術(shù)大學(xué),安徽 合肥 230027; 2. 科大訊飛股份有限公司,安徽 合肥 230088)
隨著計(jì)算機(jī)科學(xué)與信息科學(xué)的發(fā)展,計(jì)算機(jī)輔助學(xué)習(xí)系統(tǒng)(Computer Assisted Language Learning, CALL)走進(jìn)千家萬(wàn)戶,發(fā)揮著日益重要的作用。發(fā)音質(zhì)量評(píng)測(cè)是計(jì)算機(jī)輔助學(xué)習(xí)的重要內(nèi)容,它不僅能顯著提升口語(yǔ)學(xué)習(xí)效率,還可代替教師進(jìn)行口語(yǔ)考試部分題型的評(píng)分,極大緩解了大規(guī)模機(jī)考實(shí)踐中教師評(píng)分任務(wù)繁重及費(fèi)用居高不下的問(wèn)題。目前,在文本相關(guān)的發(fā)音質(zhì)量評(píng)測(cè)任務(wù)上,如朗讀、跟讀等,計(jì)算機(jī)已經(jīng)接近人工評(píng)分水平[1],并在普通話水平測(cè)試、英語(yǔ)學(xué)習(xí)等任務(wù)上得到廣泛應(yīng)用,但性能仍需改進(jìn)。
本文研究屬于文本相關(guān)的評(píng)測(cè),即考生按照指定文本發(fā)音,計(jì)算機(jī)根據(jù)發(fā)音質(zhì)量反饋出分?jǐn)?shù)。一般采用自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR)技術(shù),根據(jù)給定文本將語(yǔ)音切分到音素,在此基礎(chǔ)上計(jì)算能反映發(fā)音標(biāo)準(zhǔn)度和流暢度的評(píng)分特征,進(jìn)而給出機(jī)器分。在常用的評(píng)分特征中,幀規(guī)整后驗(yàn)概率[2-3]是目前公認(rèn)的最能反映發(fā)音標(biāo)準(zhǔn)度的度量。另外,人們常用的GOP (Goodness of Pronunciation)算法[4-5]也是在幀規(guī)整后驗(yàn)概率理論框架下的簡(jiǎn)化。
聲學(xué)模型是幀規(guī)整后驗(yàn)概率計(jì)算的重要依據(jù)。由于自動(dòng)發(fā)音質(zhì)量評(píng)測(cè)的研究源于語(yǔ)音識(shí)別,至今人們?nèi)云毡椴捎谜Z(yǔ)音識(shí)別技術(shù)進(jìn)行聲學(xué)建模。但語(yǔ)音識(shí)別與發(fā)音質(zhì)量評(píng)測(cè)有著顯著不同: 語(yǔ)音識(shí)別需要包容非標(biāo)準(zhǔn)發(fā)音,因此采用標(biāo)準(zhǔn)發(fā)音和非標(biāo)準(zhǔn)發(fā)音混合訓(xùn)練聲學(xué)模型,能使訓(xùn)練與測(cè)試更加匹配,從而有效提升識(shí)別性能;而發(fā)音質(zhì)量評(píng)測(cè)任務(wù)需嚴(yán)格鑒別標(biāo)準(zhǔn)發(fā)音與非標(biāo)準(zhǔn)發(fā)音,因此人們僅使用標(biāo)準(zhǔn)發(fā)音進(jìn)行聲學(xué)建模。
起初,人們自然想到使用公認(rèn)的最為標(biāo)準(zhǔn)的發(fā)音——第一語(yǔ)言學(xué)習(xí)者(L1)的標(biāo)準(zhǔn)發(fā)音進(jìn)行聲學(xué)建模[2]。但隨后發(fā)現(xiàn)這種方式會(huì)給第二語(yǔ)言學(xué)習(xí)者(L2)相似的分?jǐn)?shù),無(wú)論其發(fā)音是否良好。顯然,這是由于L2與L1的發(fā)音風(fēng)格差別很大導(dǎo)致。于是,人們提出采用良好的L2發(fā)音來(lái)進(jìn)行聲學(xué)建模[6]。雖然這種建模方式在L2的學(xué)習(xí)任務(wù)上性能良好,隨后發(fā)現(xiàn)機(jī)器會(huì)給L1較低的分?jǐn)?shù)。因?yàn)樵摻7绞秸J(rèn)為良好的L2發(fā)音才是“標(biāo)準(zhǔn)模版”,而標(biāo)準(zhǔn)的L1發(fā)音與之相去甚遠(yuǎn)。不難預(yù)見(jiàn),若L1的標(biāo)準(zhǔn)發(fā)音和L2的良好均參與聲學(xué)模型訓(xùn)練,系統(tǒng)必然會(huì)認(rèn)為這兩種發(fā)音同樣標(biāo)準(zhǔn)(而顯然L1應(yīng)更標(biāo)準(zhǔn)),這種情況同樣令人尷尬。
如何將非標(biāo)準(zhǔn)發(fā)音融入聲學(xué)建模,人們進(jìn)行了不懈努力。文獻(xiàn)[7]提出了“發(fā)音空間建?!彼枷?,將聲學(xué)模型分為“標(biāo)準(zhǔn)發(fā)音”、“中等發(fā)音”和“差等發(fā)音”;文獻(xiàn)[8]利用語(yǔ)音識(shí)別區(qū)分性訓(xùn)練框架,同時(shí)使用正確發(fā)音和錯(cuò)誤發(fā)音數(shù)據(jù)進(jìn)行聲學(xué)模型優(yōu)化。雖然上述策略提升了系統(tǒng)檢錯(cuò)性能,但上述方法應(yīng)用于發(fā)音質(zhì)量評(píng)測(cè)時(shí),需要人工音素級(jí)分?jǐn)?shù),不僅標(biāo)注量強(qiáng)度大,且標(biāo)注質(zhì)量無(wú)法保證。
本文提出一種全新的針對(duì)發(fā)音質(zhì)量評(píng)測(cè)任務(wù)的聲學(xué)模型的優(yōu)化算法。該算法通過(guò)最小化訓(xùn)練集機(jī)器分與人工分均方誤差準(zhǔn)則,同時(shí)利用覆蓋各種發(fā)音的數(shù)據(jù)優(yōu)化聲學(xué)模型,從根本上解決了傳統(tǒng)方式建立的聲學(xué)模型對(duì)非標(biāo)準(zhǔn)發(fā)音視而不見(jiàn)的問(wèn)題,且不需音素級(jí)人工標(biāo)注。同時(shí),聲學(xué)模型的優(yōu)化通過(guò)調(diào)整均值和方差進(jìn)行,不改變模型結(jié)構(gòu),不會(huì)增加評(píng)測(cè)算法的時(shí)間復(fù)雜度。另外,該算法與評(píng)測(cè)常用的后驗(yàn)概率理論緊密相聯(lián),可與各種最新的研究成果融合。實(shí)驗(yàn)在3 685份普通話水平現(xiàn)場(chǎng)考試數(shù)據(jù)集上進(jìn)行(498份用于測(cè)試,3 187份用于訓(xùn)練),并研究該算法在最新的一些研究成果下的性能。實(shí)驗(yàn)結(jié)果均表明該優(yōu)化算法得到的評(píng)測(cè)聲學(xué)模型相比傳統(tǒng)方法所得到的聲學(xué)模型均有著顯著的優(yōu)勢(shì)。
自動(dòng)發(fā)音評(píng)測(cè)系統(tǒng)一般是在語(yǔ)音識(shí)別的基礎(chǔ)上,提取能描述發(fā)音質(zhì)量的評(píng)分特征,再結(jié)合評(píng)分模型計(jì)算得到分?jǐn)?shù)。常用的評(píng)分特征有幀規(guī)整后驗(yàn)概率、語(yǔ)速、時(shí)長(zhǎng)得分等。其中幀規(guī)整后驗(yàn)概率是目前公認(rèn)的最能反映考生發(fā)音標(biāo)準(zhǔn)度的評(píng)測(cè)指標(biāo);語(yǔ)速和時(shí)長(zhǎng)得分等特征反映了發(fā)音的流暢度[2,9]。
令音素集共包含I個(gè)音素,對(duì)于其中第i個(gè)音素,采用隱馬爾可夫模型(HMM)描述其聲學(xué)特征,記為θi,則音素集可表示為θ={θi},i=1,2,…,I。對(duì)于一篇含有N個(gè)音素的朗讀文本,可表示為T(mén)ext=(θid(0),θid(1),…,θid(N)),其中id(n)為文本中第n個(gè)音素的序號(hào)(下文用j表示,即j=id(n))。將文本與語(yǔ)音進(jìn)行對(duì)齊(Forced Alignment)后,得到其對(duì)應(yīng)的觀測(cè)矢量序列On和時(shí)(幀)長(zhǎng)Tn。于是音素級(jí)發(fā)音標(biāo)準(zhǔn)度的度量——幀規(guī)整音素后驗(yàn)概率(通常以對(duì)數(shù)形式表示)的計(jì)算如式(1)所示,其中Q為全音素概率空間[1]。
篇章級(jí)發(fā)音標(biāo)準(zhǔn)度為音素度量的平均,如式(2)所示:
語(yǔ)速(ROS)和時(shí)長(zhǎng)分(Duration Score)是常用的描述發(fā)音流暢度的指標(biāo)。其中語(yǔ)速的計(jì)算如式(3)所示。
時(shí)長(zhǎng)得分的計(jì)算需要先在訓(xùn)練集統(tǒng)計(jì)各不同音素時(shí)長(zhǎng)的均值和標(biāo)準(zhǔn)差,記為{μi,σi}。于是,時(shí)長(zhǎng)得分的計(jì)算如式(4)所示。
在得到上述評(píng)分特征后,最終機(jī)器分可通過(guò)如式(5)所示的線性評(píng)分模型得到,模型參數(shù)w,b通過(guò)在有人工評(píng)分標(biāo)注的數(shù)據(jù)上訓(xùn)練得到,其中x=(MR,ROS,Dur)T為評(píng)分特征。
評(píng)分模型也可采用非線性的形式[1,10],但性能僅有小幅提升??梢钥吹?,人工標(biāo)注的數(shù)據(jù)僅參與只有少量參數(shù)的評(píng)分模型的訓(xùn)練,其作用未得到充分發(fā)揮。
普通話水平測(cè)試是L1的發(fā)音水平測(cè)試,由于L1普遍發(fā)音流暢,按大綱要求,發(fā)音標(biāo)準(zhǔn)度是其重點(diǎn)考察內(nèi)容,因此幀規(guī)整后驗(yàn)概率的性能直接決定了系統(tǒng)性能。近年來(lái),如何使幀規(guī)整后驗(yàn)概率能更好地描述考生發(fā)音標(biāo)準(zhǔn)度,人們進(jìn)行了不懈努力。
該策略的主要思路是建立更精確且更易區(qū)分的聲學(xué)特征或者聲學(xué)模型。在聲學(xué)特征方面,文獻(xiàn)[11]利用HLDA去除聲學(xué)特征中冗余信息,提升了聲學(xué)特征的區(qū)分性;文獻(xiàn)[12]研究了在根據(jù)區(qū)分性思路提取的TANDEM特征,均取得了一定收益。在聲學(xué)模型方面,文獻(xiàn)[12-13]考察了區(qū)分性訓(xùn)練[14]在發(fā)音質(zhì)量評(píng)測(cè)任務(wù)上的應(yīng)用,取得了一定的收益。
然而,式(1)所示的幀規(guī)整后驗(yàn)概率不僅反映了考生的發(fā)音標(biāo)準(zhǔn)度,還反映了當(dāng)前發(fā)音所對(duì)應(yīng)的聲學(xué)模型與概率空間中聲學(xué)模型的混淆,從而嚴(yán)重影響了評(píng)分性能。于是文獻(xiàn)[10,15-16]通過(guò)優(yōu)化概率空間的方式,減少了混淆,已成為目前普通話水平測(cè)試的標(biāo)準(zhǔn)配置。實(shí)現(xiàn)方式如式(6)所示,其中Qi為音素集中第i個(gè)音素所對(duì)應(yīng)的概率空間。
文獻(xiàn)[15]通過(guò)普通話水平考試現(xiàn)場(chǎng)數(shù)據(jù)的典型錯(cuò)誤總結(jié)出概率空間,側(cè)重對(duì)發(fā)音錯(cuò)誤(錯(cuò)發(fā)成音素集中另一音素)的評(píng)測(cè);文獻(xiàn)[10](第22-27頁(yè))通過(guò)KLD聚類得到概率空間,側(cè)重對(duì)發(fā)音缺陷(發(fā)音不像音素集中任何音素)的評(píng)測(cè)。兩者性能相對(duì)于式(1)的全概率空間均有顯著的提升。
文獻(xiàn)[17]提出的“音素評(píng)分模型”可視為是音素相關(guān)的后驗(yàn)概率變換,通過(guò)對(duì)人工分的學(xué)習(xí)使得不同音素的在變換后的幀規(guī)整后驗(yàn)概率更好地反映發(fā)音標(biāo)準(zhǔn)度,如式(7)所示。
其中變換參數(shù){αi,βi},i=1,2,…,I在有人工評(píng)分的數(shù)據(jù)集上通過(guò)最小化機(jī)器分與人工分的均方誤差得到。同時(shí),文獻(xiàn)[17]還提出了更接近評(píng)分員主觀評(píng)測(cè)準(zhǔn)則的非線性sigmoid變換,但性能只有微弱提升。
本節(jié)將詳細(xì)介紹針對(duì)發(fā)音質(zhì)量評(píng)測(cè)的聲學(xué)模型優(yōu)化算法。同時(shí)該算法與評(píng)測(cè)的幀規(guī)整后驗(yàn)概率理論框架緊密相聯(lián),可輕松與上節(jié)回顧的改進(jìn)策略相融合,進(jìn)一步提升系統(tǒng)性能。
令聲學(xué)模型訓(xùn)練(聲學(xué)模型的優(yōu)化屬于聲學(xué)模型的訓(xùn)練或聲學(xué)建模的過(guò)程)數(shù)據(jù)庫(kù)包含R段語(yǔ)料,對(duì)于其中第r(r=1,2,…,R)段語(yǔ)料,對(duì)應(yīng)的觀測(cè)矢量為Or,參考文本為Wr,人工評(píng)分為sr,則數(shù)據(jù)庫(kù)可寫(xiě)成如下形式:
可見(jiàn),本文提出的建模方式與傳統(tǒng)的發(fā)音質(zhì)量評(píng)測(cè)的建模方式差異顯著。首先,人工分及朗讀文本均是聲學(xué)模型優(yōu)化的重要依據(jù);其次,標(biāo)準(zhǔn)發(fā)音、非標(biāo)準(zhǔn)發(fā)音、甚至錯(cuò)誤發(fā)音均可參與聲學(xué)模型的優(yōu)化;同時(shí)算法不需要精細(xì)到音素級(jí)的人工評(píng)分,僅需要篇章級(jí)分?jǐn)?shù)。
注意ROS,Dur是根據(jù)語(yǔ)音識(shí)別結(jié)果提取的評(píng)分特征,與本文的聲學(xué)模型更新無(wú)直接關(guān)系。本文僅考慮如式(1)、式(2)所示的傳統(tǒng)的后驗(yàn)概率策略和式(5)的線性融合方式,即假設(shè)機(jī)器分為式(2)所示的篇章級(jí)度量的線性變換,如式(11)所示。
其中a,b為線性回歸模型的參數(shù),j=id(r,n)為第r段語(yǔ)料的文本中的第n個(gè)音素的序號(hào)(下同)。將式(1)和式(11)代入式(10),于是目標(biāo)函數(shù)如式(12)所示,參數(shù)a,b通過(guò)線性回歸得到。
聲學(xué)模型參數(shù)θ在固定a,b基礎(chǔ)上進(jìn)行。將目標(biāo)函數(shù)對(duì)第i個(gè)聲學(xué)模型的第s狀態(tài)第k個(gè)高斯(記為θisk)求偏導(dǎo),有:
Aux(Or,n,θ)
(14)
輔助函數(shù)與原函數(shù)在原點(diǎn)相切[14],簡(jiǎn)化了式(13)的偏導(dǎo)計(jì)算。
(16)
將輔助函數(shù)S(θ,θ(0))按高斯合并同類項(xiàng),如式(17)、(18)所示。
其中
(18)
為加以簡(jiǎn)潔的描述,仿照文獻(xiàn)[20]引入統(tǒng)計(jì)量的概念,如式(19)所示。統(tǒng)計(jì)量可以直接根據(jù)更新前的模型θ(0)求得。
(19)
(21)
(22)
(23)
方差更新公式如式(25)所示,有興趣的讀者可參閱文獻(xiàn)[19-20]。
針對(duì)式(1)的幀規(guī)整后驗(yàn)概率定制的針對(duì)發(fā)音質(zhì)量評(píng)測(cè)的詞圖,如圖1所示,其中分子為參考文本的切分結(jié)果,分母為概率空間決定的解碼網(wǎng)絡(luò)??梢?jiàn)基于參考文本的后驗(yàn)概率可視為概率空間只含音素θj(其中j=id(r,n))時(shí)的基于概率空間的后驗(yàn)概率。
圖1 針對(duì)發(fā)音質(zhì)量的評(píng)測(cè)詞圖定制(以“中國(guó)”為例)
1) 支路幀規(guī)整后驗(yàn)概率的計(jì)算
從圖2可知,所有支路起止幀均一致,因此支路后驗(yàn)概率可簡(jiǎn)化為類似于音素幀規(guī)整后驗(yàn)概率的形式。對(duì)于序號(hào)為j的音素,支路后驗(yàn)概率γj(ornt)的計(jì)算如式(26)所示。
(26)
可見(jiàn),支路幀規(guī)整后驗(yàn)概率的計(jì)算與評(píng)測(cè)的幀規(guī)整后驗(yàn)概率策略緊密相聯(lián)。在計(jì)算得到支路幀規(guī)整后驗(yàn)概率后,狀態(tài)及高斯級(jí)的后驗(yàn)概率與語(yǔ)音識(shí)別一致,下面加以簡(jiǎn)要介紹。
圖2 狀態(tài)級(jí)分母詞圖(以“zh”為例,圖中狀態(tài)指有效狀態(tài))注: 對(duì)于音素zh,在t時(shí)刻時(shí),狀態(tài)zh[2]的后驗(yàn)概率為1,其他狀態(tài)(如zh[1]及zh[3])的后驗(yàn)概率為0。
2) 狀態(tài)后驗(yàn)概率的計(jì)算
本文利用維比算法(可推廣至前后項(xiàng)算法)進(jìn)行狀態(tài)后驗(yàn)概率的估計(jì),如圖2所示。首先將分子和分母詞圖切分至狀態(tài),再計(jì)算每幀的狀態(tài)后驗(yàn)概率。
因此,對(duì)于給定支路i,狀態(tài)后驗(yàn)概率可由式(28)得出
對(duì)特征Or,n進(jìn)行解碼后,若支路i的第t幀的為狀態(tài)s則st(i,s,Or,n)=1,否則為0。
3) 高斯后驗(yàn)概率的計(jì)算
在得到支路幀規(guī)整后驗(yàn)概率及狀態(tài)后驗(yàn)概率后,高斯后驗(yàn)概率如式(29)、(30)所示:
針對(duì)發(fā)音質(zhì)量評(píng)測(cè)的聲學(xué)模型優(yōu)化流程如圖3所示,其包含聲學(xué)模型的更新的回歸系數(shù)的重訓(xùn)。
另外,通過(guò)本文優(yōu)化算法得到的評(píng)測(cè)聲學(xué)模型不能用于語(yǔ)音識(shí)別。因此測(cè)試時(shí)需利用“語(yǔ)音識(shí)別聲學(xué)模型”(本文采用利用標(biāo)準(zhǔn)發(fā)音訓(xùn)練得到的初始聲學(xué)模型進(jìn)行語(yǔ)音識(shí)別)得到音素邊界,再利用針對(duì)評(píng)測(cè)優(yōu)化的聲學(xué)模型(記為“評(píng)測(cè)聲學(xué)模型”)計(jì)算幀規(guī)整后驗(yàn)概率,如圖4所示。同時(shí)注意到評(píng)測(cè)聲學(xué)模型利用式(24)(25)調(diào)整均值和方差得到,因此與初始聲學(xué)模型拓?fù)渫耆Y(jié)構(gòu)一致,因此系統(tǒng)的時(shí)間復(fù)雜度不會(huì)增加,但空間復(fù)雜度會(huì)有所增加。
圖3 針對(duì)發(fā)音質(zhì)量的評(píng)測(cè)聲學(xué)模型優(yōu)化流程圖
圖4 評(píng)測(cè)聲學(xué)模型在計(jì)算機(jī)輔助學(xué)習(xí)系統(tǒng)中的應(yīng)用
普通話水平測(cè)試分為四個(gè)部分: 單字朗讀(100個(gè)字,共計(jì)10分),雙字詞朗讀(50個(gè)詞,共計(jì)20分),篇章朗讀(400字短文,共計(jì)30分)和自由說(shuō)話(限時(shí)3分鐘,共計(jì)40分),本文只考察前三個(gè)部分的自動(dòng)評(píng)測(cè)。
1) 標(biāo)準(zhǔn)發(fā)音數(shù)據(jù)集: 該集合包含30余名具有普通話水平測(cè)試一甲水平(相當(dāng)于專業(yè)播音員)的錄音數(shù)據(jù),共計(jì)100小時(shí)[1]。
2) 普通話水平考試現(xiàn)場(chǎng)數(shù)據(jù)集: 共包含3 685份來(lái)自全國(guó)十余省的普通話水平考試現(xiàn)場(chǎng)錄制的數(shù)據(jù),考生發(fā)音水平參差不齊,每份數(shù)據(jù)有1~3名專業(yè)評(píng)分員的評(píng)分。本文將上述數(shù)據(jù)分為完全不交疊的訓(xùn)練集(3 187份,參與針對(duì)評(píng)測(cè)的聲學(xué)模型優(yōu)化)和測(cè)試集(498份)。
本文實(shí)驗(yàn)采用39維的MFCC_0_D_A_Z聲學(xué)特征,利用HTK工具對(duì)音素建立單音子(Mono-phone)隱馬爾可夫模型(HMM)。包括靜音模型(sil)、填充模型(filler)和短停模型(sp)在內(nèi)一共67個(gè)HMM,其中聲母(包括零聲母)為3狀態(tài),韻母5狀態(tài)。
實(shí)驗(yàn)采用機(jī)器分與人工分的相關(guān)度及均方根誤差作為系統(tǒng)性能的評(píng)價(jià)指標(biāo),它們均反映了人機(jī)評(píng)分的一致程度。由于聲學(xué)模型的優(yōu)化不影響時(shí)長(zhǎng)語(yǔ)速等評(píng)分特征的計(jì)算,因此后續(xù)實(shí)驗(yàn)只考察幀規(guī)整后驗(yàn)概率的性能。
最大似然估計(jì)(MLE)建模型方式簡(jiǎn)單、 計(jì)算高效,且不需要精細(xì)的時(shí)間標(biāo)注,少量錯(cuò)誤對(duì)模型性能影響微乎其微,因此在計(jì)算機(jī)輔助學(xué)習(xí)系統(tǒng)中得到了廣泛的應(yīng)用。區(qū)分性訓(xùn)練是近十年來(lái)推動(dòng)語(yǔ)音識(shí)別飛速發(fā)展的重要思想,其中以D. Povey在2002年提出的最小化音素錯(cuò)誤(minimum phone error, MPE)具有代表性,同時(shí)本文方法也是受MPE的思想啟發(fā)得到,因此實(shí)驗(yàn)將對(duì)比本文方法及語(yǔ)音識(shí)別的MPE算法。在作者之前的工作中[14],采用引入現(xiàn)場(chǎng)數(shù)據(jù)集進(jìn)行聲學(xué)模型訓(xùn)練會(huì)顯著降低系統(tǒng)的評(píng)分性能,因此本文實(shí)驗(yàn)中的初始聲學(xué)模型均根據(jù)標(biāo)準(zhǔn)發(fā)音數(shù)據(jù)集訓(xùn)練得到。
表1為分別采用MLE及MPE兩種聲學(xué)模型(由標(biāo)準(zhǔn)發(fā)音數(shù)據(jù)訓(xùn)練得到)作為初始模型時(shí)的實(shí)驗(yàn)結(jié)果;符號(hào)OPT為利用普通話水平考試現(xiàn)場(chǎng)數(shù)據(jù),對(duì)初始模型進(jìn)行的針對(duì)評(píng)測(cè)的聲學(xué)模型優(yōu)化,表中括號(hào)外的數(shù)字為相關(guān)度,括號(hào)內(nèi)為均方根誤差。
可見(jiàn),無(wú)論對(duì)于何種聲學(xué)模型,采用針對(duì)評(píng)測(cè)的聲學(xué)模型優(yōu)化均能顯著地提升聲學(xué)模型的評(píng)分性能。圖5為在MPE+DEM配置下,訓(xùn)練集和測(cè)試集的收斂曲線,其中縱坐標(biāo)為均方根誤差。圖中,“1A”代表第一次疊代時(shí),僅更新聲學(xué)模型的性能;“1L”代表第一次更新聲學(xué)模型后,采用線性回歸更新回歸模型的性能,以此類推。
表1 以MLE和MPE聲學(xué)模型作為初始模型的針對(duì)評(píng)測(cè)的聲學(xué)模型優(yōu)化的性能
可見(jiàn)訓(xùn)練集的均方誤差隨著疊代的進(jìn)行而逐漸降低,證明了該方法有效性。在測(cè)試集上的性能略有波動(dòng),但總體上仍然朝著目標(biāo)的方向前進(jìn)。
基于優(yōu)化概率空間的聲學(xué)模型優(yōu)化的實(shí)現(xiàn)僅需要式(6)取代式(1)即可。實(shí)驗(yàn)以MPE為初始模型(由標(biāo)準(zhǔn)發(fā)音數(shù)據(jù)訓(xùn)練得到),實(shí)驗(yàn)結(jié)果如表2所示。
實(shí)驗(yàn)表明,無(wú)論在何種概率空間下,本文所提出的方法均能使聲學(xué)模型的評(píng)分性能有著顯著的提升;并且優(yōu)化概率空間能進(jìn)一步提升評(píng)測(cè)模型的性能。另外,值得注意的是在兩類優(yōu)化的概率空間下,由于概率空間音素個(gè)數(shù)遠(yuǎn)小于全音素概率空間,因此聲學(xué)模型的訓(xùn)練速度及收斂速度均會(huì)明顯提升。
本文作者提出的音素評(píng)分模型[17]可視為音素相關(guān)后驗(yàn)概率變換(Phoneme-dependent posterior probability transformation,PPPT),其進(jìn)一步彌補(bǔ)了幀規(guī)整后驗(yàn)概率與人主觀評(píng)分的差異。將式(7)代入式(13),并經(jīng)類似推導(dǎo)后,可得其統(tǒng)計(jì)量計(jì)算如式(31)所示。
概率空間配置單字朗讀雙字詞朗讀篇章朗讀全音素概率空間MPE(基線)0.587(0.918)0.575(1.355)0.610(1.930)MPE+OPT0.654(0.861)0.670(1.230)0.714(1.681)KLD聚類的概率空間MPE(基線)0.652(0.856)0.682(1.205)0.667(1.795)MPE+OPT0.719(0.784)0.754(1.061)0.749(1.601)基于典型錯(cuò)誤優(yōu)化的概率空間MPE(基線)0.701(0.801)0.705(1.168)0.700(1.832)MPE+OPT0.747(0.748)0.767(1.052)0.720(1.638)
注: 表中括號(hào)外為相關(guān)度,括號(hào)內(nèi)為均方根誤差
(31)
實(shí)驗(yàn)結(jié)果如表3所示。
實(shí)驗(yàn)表明,采用本文提出的針對(duì)評(píng)測(cè)的聲學(xué)模型優(yōu)化算法在各種配置下均有著顯著收益。同時(shí),由于PPPT的優(yōu)化目標(biāo)也是機(jī)器分與人工分的均方誤差,因此系統(tǒng)性能提升幅度會(huì)有所下降。
表3 基于音素相關(guān)后驗(yàn)概率變換的評(píng)測(cè)的聲學(xué)模型優(yōu)化的實(shí)驗(yàn)結(jié)果
注: 表中括號(hào)外為相關(guān)度,括號(hào)內(nèi)為均方根誤差
本文根據(jù)區(qū)分性訓(xùn)練思想,結(jié)合發(fā)音質(zhì)量評(píng)測(cè)目標(biāo),提出了針對(duì)發(fā)音質(zhì)量評(píng)測(cè)的聲學(xué)模型的優(yōu)化算法。算法以優(yōu)化機(jī)器分與人工分均方根誤差為目標(biāo),同時(shí)利用標(biāo)準(zhǔn)發(fā)音和非標(biāo)準(zhǔn)發(fā)音數(shù)據(jù)對(duì)聲學(xué)模型進(jìn)行優(yōu)化,從根本上解決了采用傳統(tǒng)的基于ASR的聲學(xué)建模方式難以避免的訓(xùn)練與測(cè)試不匹配問(wèn)題。實(shí)驗(yàn)在傳統(tǒng)后驗(yàn)概率和各種優(yōu)化配置上進(jìn)行,系統(tǒng)性能均有顯著的提升。
在發(fā)音質(zhì)量評(píng)測(cè)領(lǐng)域,說(shuō)話人自適應(yīng)是一種能顯著提升系統(tǒng)性能的手段[1,10]。然而,通常采用的MLE準(zhǔn)則難以與最小化均方誤差準(zhǔn)則相容。因此,如何得到說(shuō)話人相關(guān)的評(píng)測(cè)聲學(xué)模型是下一步的工作重點(diǎn)。另外,基于ASR框架的聲學(xué)具有明確的物理意義,即聲學(xué)模型代表著標(biāo)準(zhǔn)發(fā)音模版,然而本文算法得到的聲學(xué)模型不具備明確的物理意義,限制了進(jìn)一步優(yōu)化。因此,結(jié)合發(fā)音空間建模策略,建立有明確物理意義的評(píng)測(cè)聲學(xué)模型是重要的工作方向。
[1] R H Wang, Q F Liu, S Wei. Putonghua proficiency test and evaluation[J]. Advances in Chinese Spoken Language Processing. Springer Press, 2006, 407-429.
[2] H L Franco, L Neumeyer, Y Kim, et al. Automatic pronunciation scoring for language instruction[C]//Proceedings of ICASSP 1997, 1465-1468.
[3] L Neumeyer, H Franco, V Digalakis, et al. Automatic scoring of pronunciation quality[J]. Speech Communication, 2000, 30(2-3): 83-93.
[4] S M Witt, S J Young. Phone-level pronunciation scoring and assessment for interactive language learning[J]. Speech Communication 2000, 30(2-3): 95-108.
[5] S M Witt. Use of speech recognition in computer assisted language learning. A dissertation of doctor’s degree for Cambridge, 1999.
[6] T Cincarek, R Gruhn, C Hacker, et al. Automatic pronunciation scoring words and sentences independent from the non-native’s first language[J]. Computer Speech and Language, 2009, 23(1): 65-88.
[7] S Wei, G P Hu, Y Hu, et al. A new method for mispronunciation detection using Support Vector Machine based on Pronunciation Space Models[J]. Speech Communication, 2009, 55(10): 896-905.
[8] 張峰. 基于統(tǒng)計(jì)模式識(shí)別發(fā)音錯(cuò)誤自動(dòng)檢測(cè)的研究[D].中國(guó)科學(xué)技術(shù)大學(xué)博士畢業(yè)論文,2009年。
[9] C Cucchiarini, F D Wet, H Strik, et al. Automatic evaluation of Dutch pronunciation by using speech recognition technology[J]. ICSLP, 1998, 5: 1739-1742.
[10] 劉慶升.計(jì)算機(jī)輔助普通話發(fā)音評(píng)測(cè)關(guān)鍵技術(shù)研究[D].中國(guó)科學(xué)技術(shù)大學(xué)博士畢業(yè)論文,2009年。
[11] F. P. Ge, F. P. Pan, C. L. Liu, et al, An SVM-based mandarin pronunciation quality assessment system[J]. Advances in Intelligent and Soft Computing, 2009, 56: 255-265.
[12] 龔澍, 基于TANDEM的區(qū)分性訓(xùn)練在語(yǔ)音評(píng)測(cè)中的應(yīng)用研究[D].中國(guó)科學(xué)技術(shù)大學(xué)碩士畢業(yè)論文,2010年。
[13] D. Povey, P. Woodland. Minimum phone error and I-smoothing for improved discriminative training[C]//Proceedings of ICASSP 2002: 105-108.
[14] K Yan, S Gong. Pronunciation proficiency evaluation based on discriminatively refined acoustic Models[J]. International Journal of Information Technology and Computer Science, 2011, 3(2): 17-23.
[15] 魏思,胡郁,王仁華. 普通話水平測(cè)試電子化系統(tǒng)[J].中文信息學(xué)報(bào),2006,20(6): 89-96.
[16] 劉慶升,魏思,胡郁,等. 基于語(yǔ)言學(xué)知識(shí)的發(fā)音質(zhì)量評(píng)價(jià)算法改進(jìn)[J].中文信息學(xué)報(bào),2007,21(4):92-96.
[17] 嚴(yán)可, 戴禮榮. 基于音素評(píng)分模型的發(fā)音標(biāo)準(zhǔn)度評(píng)測(cè)研究[J].中文信息學(xué)報(bào),2011,25(5):101-108.
[18] L R Bahl, P F Brown, P V Souza, et al. Maximum mutual information estimation of hidden Markov model parameters for speech recognition[C]//Proceedings of ICASSP, 1986: 49-52.
[19] A P Dempster, N M Laird, D B Rubin. Maximum likelihood from incomplete data via the EM algorithm[J]. Journal of the Royal Statistical Society, Series B (Methodological), 1997, 39(1): 1-38.
[20] R Schluter. Investigations on discriminative training criteria[D]. A dissertation for doctor’s degree, RWTH Aachen University, 2000.
[21] Y Normandin. Maximum mutual information estimation, and the speech recognition problem[D].A dissertation for doctor’s degree at McGill University, 1991.
[22] P Gopalakrishnan, D Kanevsky, A Nadas, et al. An inequality for rational functions with applications to some statistical estimation problems[J]. IEEE Transactions on Information Theory, 1991, 37(1): 107-113.