鄭瑞珺
(四川外國(guó)語(yǔ)大學(xué)國(guó)際關(guān)系學(xué)院,重慶 400031)
英語(yǔ)口語(yǔ)是英語(yǔ)國(guó)家人民普遍應(yīng)用的口頭交流語(yǔ)言形式。英語(yǔ)發(fā)音的準(zhǔn)確和流利決定了英語(yǔ)口語(yǔ)的效果,目前有很多英語(yǔ)發(fā)音校準(zhǔn)方式。文獻(xiàn)[1]中設(shè)計(jì)了一種改進(jìn)動(dòng)態(tài)特征參數(shù)的話者語(yǔ)音識(shí)別校準(zhǔn)系統(tǒng),該系統(tǒng)容易被語(yǔ)音環(huán)境干擾,對(duì)英語(yǔ)發(fā)音的識(shí)別準(zhǔn)確性低;文獻(xiàn)[2]中設(shè)計(jì)的嵌入式實(shí)時(shí)英語(yǔ)語(yǔ)音識(shí)別系統(tǒng),缺乏虛擬語(yǔ)言學(xué)習(xí)環(huán)境以及學(xué)生和教師間的交互溝通,存在校準(zhǔn)準(zhǔn)確率低、學(xué)生學(xué)習(xí)英語(yǔ)發(fā)音效果差的弊端;文獻(xiàn)[3]中設(shè)計(jì)的倫敦英語(yǔ)口語(yǔ)語(yǔ)料庫(kù)發(fā)音校準(zhǔn)系統(tǒng),只能校準(zhǔn)倫敦口語(yǔ)發(fā)音,局限性大。根據(jù)以上的問(wèn)題,設(shè)計(jì)基于虛擬現(xiàn)實(shí)(Virtual Reality,VR)的英語(yǔ)發(fā)音校準(zhǔn)仿真系統(tǒng),提升英語(yǔ)發(fā)音校準(zhǔn)準(zhǔn)確性,提高學(xué)生的英語(yǔ)發(fā)音水平。
基于VR的英語(yǔ)發(fā)音校準(zhǔn)仿真系統(tǒng)的總體結(jié)構(gòu)用圖1 描述。采用Client/Server 體系結(jié)構(gòu)構(gòu)建VR 的發(fā)音校準(zhǔn)仿真系統(tǒng),系統(tǒng)主要由客戶端和服務(wù)器端模塊構(gòu)成,用戶在互動(dòng)界面、獲取用戶命令、與用戶進(jìn)行互動(dòng)都通過(guò)客戶端模塊完成[4];服務(wù)器端模塊用于收集用戶命令同時(shí)對(duì)命令響應(yīng)、防止虛擬場(chǎng)景異常運(yùn)行、有效處理虛擬仿真場(chǎng)景業(yè)務(wù)[5]?;赥CP/IP 協(xié)議的JavaSocket通信技術(shù)支撐系統(tǒng)客戶端模塊和服務(wù)器端模塊間的信息通信[6]。
圖1 系統(tǒng)總體結(jié)構(gòu)
由圖1 可見(jiàn),客戶端模塊包含:
(1)用戶登錄模塊。實(shí)現(xiàn)用戶登錄操作,將虛擬仿真形象提供給用戶挑選,讓用戶成為虛擬人物加入虛擬環(huán)境練習(xí)英語(yǔ)發(fā)音[7]。
(2)環(huán)境設(shè)計(jì)模塊。教師端可操作該模塊[8],教師設(shè)計(jì)英語(yǔ)對(duì)話環(huán)境的時(shí)間、地點(diǎn)、人物等內(nèi)容,這些功能由服務(wù)器端的環(huán)境庫(kù)處理模塊實(shí)現(xiàn)。
(3)環(huán)境選擇模塊。用戶想加入的環(huán)境在環(huán)境列表挑選,私人方式和共享方式組成了加入方式[9]。環(huán)境中除用戶的人物外,其他全部為虛擬人物為私人方式,此方式可讓學(xué)生在一個(gè)安全的環(huán)境學(xué)習(xí)和校正英語(yǔ)發(fā)音。環(huán)境中除用戶的人物與虛擬人物還有其他用戶的人物,具有共享特征,可讓不同用戶分享英語(yǔ)發(fā)音知識(shí)[10]。
(4)環(huán)境顯示模塊。用戶進(jìn)行英語(yǔ)發(fā)音學(xué)習(xí)的環(huán)境通過(guò)虛擬現(xiàn)實(shí)建模語(yǔ)言(Virtual Reality Modeling Language,VRML)的瀏覽器解釋產(chǎn)生。
(5)用戶互動(dòng)模塊。輸入、輸出接口通過(guò)本模塊提供給用戶[11]。本模塊擁有圖形化的瀏覽器界面與多媒體交互界面,虛擬環(huán)境里的場(chǎng)景、道具、模擬人物和用戶的人物通過(guò)以上2 個(gè)界面?zhèn)鬟f給用戶。用戶進(jìn)行英語(yǔ)發(fā)音學(xué)習(xí)的模式分為觀看、試驗(yàn)和向?qū)? 種。
由圖1 可見(jiàn),服務(wù)器端模塊包含:
(1)整體處理模塊。該模塊可對(duì)數(shù)據(jù)庫(kù)后臺(tái)進(jìn)行處理,如處理系統(tǒng)后臺(tái)的資料庫(kù)、場(chǎng)景庫(kù)、用戶庫(kù)等。客戶端模塊獲取的指令與腳本通過(guò)此模塊解析,整體處理模塊控制服務(wù)器端每個(gè)模塊間的通信,并發(fā)送環(huán)境虛擬現(xiàn)實(shí)建模語(yǔ)言(Virtual Reality Modeling Language,VRML)文件[12]。
(2)環(huán)境庫(kù)處理模塊。對(duì)建成的環(huán)境素材實(shí)施管理。素材使用3DMAX 等建模工具構(gòu)建,構(gòu)建后通過(guò)VRML文件存儲(chǔ)為VRML格式文件[13]。
(3)VRML場(chǎng)景構(gòu)建模塊。采用環(huán)境庫(kù)處理模塊獲取用戶挑選的英語(yǔ)發(fā)音學(xué)習(xí)場(chǎng)景素材,將素材放在合適的控制節(jié)點(diǎn),構(gòu)建用戶英語(yǔ)發(fā)音學(xué)習(xí)的VRML場(chǎng)景。
(4)虛擬人物處理模塊。虛擬人物的創(chuàng)建、注銷(xiāo)和基礎(chǔ)動(dòng)作掌控通過(guò)此模塊實(shí)現(xiàn),外界刺激時(shí)虛擬人物發(fā)出相對(duì)動(dòng)作。
(5)環(huán)境處理模塊。環(huán)境里每個(gè)要素的邏輯關(guān)系、時(shí)間關(guān)系、空間關(guān)系的準(zhǔn)確性和統(tǒng)一性通過(guò)此模塊完成[14]。
(6)互動(dòng)處理模塊。系統(tǒng)傳輸?shù)挠脩艨刂泼钔ㄟ^(guò)此模塊獲取,事件采用VRML提供的檢測(cè)器節(jié)點(diǎn)發(fā)生[15]。人物的狀態(tài)變化和動(dòng)作變化通過(guò)虛擬人物處理模塊和環(huán)境處理模塊完成,實(shí)現(xiàn)用戶和場(chǎng)景及虛擬人物的互動(dòng)。
基于VR的英語(yǔ)發(fā)音校準(zhǔn)仿真系統(tǒng)進(jìn)行英語(yǔ)發(fā)音校準(zhǔn)的流程用圖2 描述。
圖2 發(fā)音校準(zhǔn)流程
由圖2 可知,發(fā)音校準(zhǔn)的具體流程:首先識(shí)別用戶的登錄身份,如果是教師則進(jìn)入環(huán)境設(shè)計(jì)模塊;如果是學(xué)生則進(jìn)入環(huán)境選擇模塊;如果是非法用戶則將用戶信息輸出并結(jié)束運(yùn)行。學(xué)生選擇環(huán)境后根據(jù)自己的意愿選擇想要練習(xí)英語(yǔ)發(fā)音的人物和參與方式,如果選擇環(huán)境里的旁觀學(xué)習(xí)模塊,則學(xué)生以旁觀的形式觀看虛擬人物之間的英語(yǔ)對(duì)話;如果選擇私人環(huán)境里的實(shí)驗(yàn)學(xué)習(xí)模塊,則學(xué)生選擇對(duì)話里的一個(gè)人物與其他虛擬人物對(duì)話;如果選擇私人環(huán)境里的向?qū)W(xué)習(xí)模塊,則學(xué)生學(xué)習(xí)英語(yǔ)發(fā)音時(shí)會(huì)由一個(gè)虛擬人物指導(dǎo)英語(yǔ)發(fā)音;如果選擇共享環(huán)境,則讓學(xué)生選擇對(duì)話的虛擬人物或其他用戶虛擬人物;對(duì)話完成后如果不想繼續(xù)對(duì)話則結(jié)束對(duì)話,如果想繼續(xù)對(duì)話則重新選擇英語(yǔ)發(fā)音人物和參與方式;用戶每次發(fā)送英語(yǔ)發(fā)音時(shí)實(shí)施發(fā)音校準(zhǔn),由虛擬人物提示的方式將發(fā)音校準(zhǔn)信息發(fā)送給用戶。
系統(tǒng)將后驗(yàn)概率算法引入英語(yǔ)發(fā)音識(shí)別系統(tǒng),對(duì)英語(yǔ)音素段強(qiáng)制對(duì)齊切分,采用因素后驗(yàn)概率驗(yàn)證本文算法的準(zhǔn)確度。后驗(yàn)概率是系統(tǒng)在接收音素片段后,其接收的片段內(nèi)容信息與發(fā)送片段信息的完整概率,與信息似然度成正比。當(dāng)音素后驗(yàn)概率為1 時(shí),則證明算法能夠準(zhǔn)確判斷算法具有較高準(zhǔn)確性,強(qiáng)制對(duì)齊切分后的英語(yǔ)音素段后驗(yàn)概率
式中:qi為i時(shí)刻的給定音素;qj為j時(shí)刻的給定音素,j=1,2,…,M;yj為時(shí)刻的觀察量;P(qi)為其概率分布;M為總音素的數(shù)目。假設(shè)在i時(shí)刻到j(luò)時(shí)刻之間,所有音素模型出現(xiàn)的概率均相等,即P(qj)=P(qi),則切分后的英語(yǔ)音素段的后驗(yàn)概率
因?yàn)镻(qi)=P(qj),所以
但僅僅依靠判斷音素來(lái)對(duì)學(xué)生英語(yǔ)發(fā)音進(jìn)行分析的方法存在單一性,效果并不精準(zhǔn)。本文設(shè)計(jì)的系統(tǒng)在進(jìn)行語(yǔ)音識(shí)別的過(guò)程中,會(huì)受到各種因素的影響造成英語(yǔ)語(yǔ)音識(shí)別不準(zhǔn)確。如果嚴(yán)格按照對(duì)數(shù)似然度進(jìn)行英語(yǔ)發(fā)音識(shí)別,其效果并不能達(dá)到最優(yōu)。
本文對(duì)上述情況進(jìn)行了改進(jìn),由于音素對(duì)數(shù)似然度的范圍為-∞~+∞,過(guò)大的范圍造成了英語(yǔ)語(yǔ)音識(shí)別的不穩(wěn)定性,為此,采用最終置信度來(lái)判斷輸出數(shù)據(jù)的真實(shí)性。最終置信度是指在置信數(shù)據(jù)樣本區(qū)間內(nèi)的音素信息是否真實(shí),也用于驗(yàn)證語(yǔ)音矯正系統(tǒng)數(shù)據(jù)輸出的可信度,對(duì)數(shù)似然度最終置信度值
式中:PLLRrank1(ot)為針對(duì)音素模型ER 的對(duì)數(shù)似然度值;PLLRrankER(ot)為所測(cè)語(yǔ)音段與音素模型分別求取PLLR(ot)中排名第1 的PLLR(ot)值;RankER為觀測(cè)序列ot與音素模型ER 的PLLR(ot)值在因素模型中的排名;α為常數(shù),與音素排名和音素模型的PLLR(ot)值有關(guān)。如果存在一個(gè)參數(shù)的值,使得其函數(shù)值達(dá)到最大的話,那么這個(gè)值就是最為“合理”的參數(shù)值。本文α取值為0.09。觀測(cè)序列與音素模型ER 的Confc為1,其他情況下小于1。通過(guò)式(3),使每一個(gè)音素模型的置信度值限定在[0,1]之間,可通過(guò)為每個(gè)音素設(shè)定門(mén)限值,對(duì)語(yǔ)音矯正系統(tǒng)輸出數(shù)據(jù)進(jìn)行辨別,通過(guò)音素最終置信度的值來(lái)確定每個(gè)英單詞所涉及的元音音素和輔音音素的發(fā)音是否準(zhǔn)確。
系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行填充處理和屬性規(guī)劃后可采用滅錯(cuò)計(jì)算校準(zhǔn)發(fā)音,對(duì)英語(yǔ)發(fā)音語(yǔ)言進(jìn)行規(guī)范化處理
式中:W、b分別為英語(yǔ)發(fā)音的震動(dòng)音頻和震動(dòng)的波峰極值;P、qj分別為震動(dòng)的波谷極值和音頻的有效周期律;A、NG分別為聲音在介質(zhì)中傳播的振幅和英語(yǔ)發(fā)音的規(guī)范振幅;M、Q分別為音頻總時(shí)長(zhǎng)和發(fā)音期間的震動(dòng)時(shí)長(zhǎng)。當(dāng)A固定,音頻總時(shí)長(zhǎng)大于震動(dòng)時(shí)長(zhǎng)時(shí),英語(yǔ)發(fā)音的振動(dòng)音頻達(dá)到最大極值。音調(diào)與響度逐漸趨于固定時(shí),音準(zhǔn)也逐漸趨于穩(wěn)定。英語(yǔ)發(fā)音語(yǔ)音通過(guò)以上方式實(shí)施規(guī)范處理后實(shí)施口語(yǔ)數(shù)據(jù)填充??谡Z(yǔ)數(shù)據(jù)填充量是系統(tǒng)中的口語(yǔ)數(shù)據(jù)在外界信號(hào)干擾下出現(xiàn)離散現(xiàn)象,系統(tǒng)需要對(duì)離散數(shù)據(jù)進(jìn)行補(bǔ)償,還原初始的口語(yǔ)數(shù)據(jù)量,口語(yǔ)數(shù)據(jù)填充量
式中:βi離散值越大,反映變量值越分散,發(fā)音越不穩(wěn)定;ω′、D分別為填充最大化的權(quán)值函數(shù)差和兩個(gè)音頻節(jié)點(diǎn)之間的跳數(shù);音頻里節(jié)點(diǎn)x和節(jié)點(diǎn)y之間的最短路線為λxy。
屬性規(guī)劃在填充處理數(shù)據(jù)后實(shí)施,填充過(guò)程為
式中,Sx、m分別為評(píng)定音頻的標(biāo)準(zhǔn)和恒定音頻固定周期的參量。滅錯(cuò)校準(zhǔn)運(yùn)算對(duì)屬性實(shí)施標(biāo)定:
式中:Bij、R分別為相對(duì)音頻的匹配系數(shù)和進(jìn)階音頻擁有的高程權(quán)值;當(dāng)R 越大,AT和U-1越小時(shí),V 越大,擁有高的校準(zhǔn)率結(jié)果。量度音符通過(guò)音頻的固定斜動(dòng)性AT完成,使用音頻屬性的合集熵U-1對(duì)音頻校準(zhǔn),音頻滅錯(cuò)校準(zhǔn)最大值為V,通過(guò)音頻滅錯(cuò)校準(zhǔn)值來(lái)判斷英語(yǔ)發(fā)音的準(zhǔn)確性,由V 值的變化確定學(xué)生發(fā)音的校準(zhǔn)率變化情況。
使用本文系統(tǒng)和嵌入式實(shí)時(shí)英語(yǔ)發(fā)音校準(zhǔn)系統(tǒng)校準(zhǔn)某校2020 級(jí)1、2 班共30 名學(xué)生的英語(yǔ)發(fā)音,對(duì)兩種系統(tǒng)的魯棒性實(shí)施對(duì)比,結(jié)果顯示如圖3 所示,分析該圖可得,本文系統(tǒng)的魯棒性比嵌入式實(shí)時(shí)英語(yǔ)發(fā)音校準(zhǔn)系統(tǒng)平均高0.2??芍?,本文系統(tǒng)魯棒性高,系統(tǒng)穩(wěn)定性強(qiáng)。基于上述公式的計(jì)算,本文系統(tǒng)對(duì)英語(yǔ)語(yǔ)音發(fā)音校準(zhǔn)準(zhǔn)確率為95.36%,使用該系統(tǒng)對(duì)英語(yǔ)語(yǔ)音發(fā)音的流利度與正確性進(jìn)行校準(zhǔn)的準(zhǔn)確率較高,效果較好。
圖3 兩種系統(tǒng)的魯棒性對(duì)比
實(shí)驗(yàn)利用spss13.0 軟件統(tǒng)計(jì)使用本文系統(tǒng)校準(zhǔn)英語(yǔ)發(fā)音的實(shí)驗(yàn)班(1 班)和采用嵌入式實(shí)時(shí)英語(yǔ)發(fā)音校準(zhǔn)系統(tǒng)校準(zhǔn)英語(yǔ)發(fā)音的對(duì)照班(2 班)的英語(yǔ)考試成績(jī),兩個(gè)班級(jí)的人數(shù)都是15 人,統(tǒng)計(jì)結(jié)果見(jiàn)表1。
表1 最高與最低分?jǐn)?shù)對(duì)比
結(jié)果顯示,實(shí)驗(yàn)班各項(xiàng)考試的最高分?jǐn)?shù)都在96 分以上,英語(yǔ)對(duì)話的最高分?jǐn)?shù)為98 分,而對(duì)照班各項(xiàng)考試的最高分?jǐn)?shù)在72 分以上,短篇口語(yǔ)的最高分?jǐn)?shù)是74 分;實(shí)驗(yàn)班各項(xiàng)考試的最低分?jǐn)?shù)都在84 分以上,而對(duì)照班各項(xiàng)考試的最低分?jǐn)?shù)在40 分以上;數(shù)據(jù)結(jié)果說(shuō)明,使用本文系統(tǒng)校準(zhǔn)英語(yǔ)發(fā)音的實(shí)驗(yàn)班成績(jī)明顯高于對(duì)照班,本文系統(tǒng)能夠顯著提高學(xué)生的英語(yǔ)發(fā)音能力。
教師對(duì)采用本文系統(tǒng)和嵌入式實(shí)時(shí)英語(yǔ)發(fā)音校準(zhǔn)系統(tǒng)學(xué)習(xí)的實(shí)驗(yàn)班和對(duì)照班學(xué)生英語(yǔ)發(fā)音學(xué)習(xí)效果進(jìn)行評(píng)價(jià),評(píng)價(jià)結(jié)果如圖4 所示。
圖4 教師評(píng)價(jià)結(jié)果
圖4 結(jié)果顯示,教師認(rèn)為采用本文系統(tǒng)進(jìn)行英語(yǔ)口語(yǔ)發(fā)音校準(zhǔn)后的實(shí)驗(yàn)班學(xué)生的自信心、發(fā)音流利度以及語(yǔ)法正確性等指標(biāo)的評(píng)分都達(dá)到90 分以上,而對(duì)照班的各項(xiàng)指標(biāo)評(píng)分都低于60 分,說(shuō)明本文系統(tǒng)的能夠多方位提升學(xué)生英語(yǔ)發(fā)音的學(xué)習(xí)效果,教師滿意度高。
實(shí)驗(yàn)對(duì)本文系統(tǒng)和嵌入式實(shí)時(shí)英語(yǔ)發(fā)音校準(zhǔn)系統(tǒng)的實(shí)際使用情況進(jìn)行問(wèn)卷調(diào)查,問(wèn)卷調(diào)查內(nèi)容是試驗(yàn)學(xué)生對(duì)兩個(gè)系統(tǒng)的滿意度打分情況。本文系統(tǒng)明顯比嵌入式實(shí)時(shí)英語(yǔ)發(fā)音校準(zhǔn)系統(tǒng)好,能顯著提高學(xué)生學(xué)習(xí)英語(yǔ)發(fā)音的積極性,具有較高的滿意度。
本文設(shè)計(jì)的基于VR 的英語(yǔ)發(fā)音校準(zhǔn)仿真系統(tǒng),并通過(guò)實(shí)驗(yàn)仿真對(duì)本文系統(tǒng)英語(yǔ)發(fā)音校準(zhǔn)的準(zhǔn)確率、學(xué)生學(xué)習(xí)效果和老師評(píng)價(jià)效果進(jìn)行了全面檢測(cè)分析。實(shí)驗(yàn)結(jié)果顯示,本文系統(tǒng)對(duì)英語(yǔ)語(yǔ)音發(fā)音校準(zhǔn)準(zhǔn)確率高達(dá)95.36%,系統(tǒng)的魯棒性比嵌入式實(shí)時(shí)英語(yǔ)發(fā)音校準(zhǔn)系統(tǒng)平均高0.2;實(shí)驗(yàn)班考試最高成績(jī)平均都在92 分以上,并且教師認(rèn)為本文系統(tǒng)能夠多方位提升學(xué)生英語(yǔ)發(fā)音的學(xué)習(xí)效果。實(shí)驗(yàn)結(jié)果說(shuō)明,本文系統(tǒng)具有較高的英語(yǔ)發(fā)音校準(zhǔn)率,顯著提高學(xué)生的英語(yǔ)學(xué)習(xí)能力,達(dá)到了學(xué)生和教師的期待效果。