計算機輔助普通話水平測試系統(tǒng)的優(yōu)化

2016-04-14 02:57:02周曉蘭

當代教育理論與實踐 2016年9期

關鍵詞：監(jiān)考評判普通話

周曉蘭

(湖南科技大學計算機科學與工程學院，湖南湘潭 411201)

計算機輔助普通話水平測試系統(tǒng)的優(yōu)化

周曉蘭

(湖南科技大學計算機科學與工程學院，湖南湘潭 411201)

計算機輔助普通話水平測試是一種新型的普通話水平測試手段，目前湖南省的普通話水平測試采用科大訊飛的計算機輔助普通話水平測試系統(tǒng)，該系統(tǒng)基本上能適應普通話水平測試，但還存在某些不足之處。為更好地推動此項技術的發(fā)展，應優(yōu)化語音評判系統(tǒng)，加強建設和搜集高分段錄音樣本，優(yōu)化評分系統(tǒng)的評價模型，改進抽題策略，設計更加人性化的測試系統(tǒng)的交互信息，同時，設置一套有效防范作弊的措施，改進命題說話題的人工打分方式，設計智能的評判模式。

計算機輔助；普通話水平測試；系統(tǒng)優(yōu)化

計算機輔助普通話水平測試系統(tǒng)(Computer Assisted Mandarin Evaluation System)是針對全國普通話水平測試(PSC)，以計算機作為輔助手段，進行無紙化、電子化的高效率測評的系統(tǒng)，由考務信息管理、仿真考試和錄音以及機器輔助評分構成，具有考生信息數(shù)據(jù)庫管理、考生語音數(shù)據(jù)采集、考試流程控制、計算機自動評測打分等功能，實現(xiàn)了考試過程、數(shù)據(jù)收集的自動化等功能。計算機輔助普通話水平測試作為一種利用現(xiàn)代信息技術新型普通話水平測試手段，在全國多個省市推廣，給普通話教學與測試帶來了巨大的變化。測前的準備工作相對減少，大大提高了靈活程度和工作效率，并降低了組織的難度和測試成本。但計算機輔助普通話水平測試中語音評判的準確度問題還存在一定的局限性。雷峻認為應進一步擴充豐富全國各地的錄音樣本，尤其是對高分段(一甲樣本)的搜集，從而對高分段的測試更加準確。韋素玲以廣西師范大學為例探討了高?！皺C輔測試”普通話規(guī)范化管理的相關問題，提出應做好考前、考中、考后的規(guī)范化管理，重點提出實現(xiàn)“機輔測試”走向制度化、規(guī)范化和科學化。王苓、傅江宏提出一種新的測試模式，幫助測試管理機構有效監(jiān)控測試員測評的整個過程，以便得到更加準確的測試成績。何勇等利用遺傳算子和遺傳算法，依據(jù)遺傳算法的編碼、選擇、交叉和變異等步驟，提出自動組卷算法。曾玲基于三明學院普通話測試改革，分析了計算機輔助普通話測試在高校實際運行過程中信息管理系統(tǒng)不夠完善、硬件的兼容性較差等問題，提出優(yōu)化軟件平臺，提高系統(tǒng)管理人性化自動化水平，充實提高機測題庫容量與質量，實現(xiàn)計算機輔助普通話測試的規(guī)范化、科學化管理。為使系統(tǒng)能更加準確地評測前三題，給出更加客觀的分數(shù)，對該測試系統(tǒng)進行優(yōu)化，使之能對所有被測人員做出準確的評價，是研究普通話水平測試系統(tǒng)的重要任務。

1　目前計算機輔助普通話水平測試存在的不足之處

計算機輔助普通話測試的語音評判具有可行性、信度及經(jīng)濟效率，能有效解決人工測試的弊端，并提高測試的公信度、公正性和精確度。

科大訊飛股份有限公司開發(fā)出來的計算機輔助普通話水平測試系統(tǒng)是國家語委鑒定為當前唯一的，并在普通話水平正式測試中應用的測試系統(tǒng)，基本能夠滿足當前高校計算機輔助普通話水平測試的要求?？拼笥嶏w測試系統(tǒng)基于教育部和國家語言文字工作委員會頒布的《普通話水平測試大綱》，以先進的語音合成技術和中文語音評測技術為核心技術，通過對語料庫補充完善、合成器的研發(fā)和語音參數(shù)的優(yōu)化，以及對區(qū)域性語言的分析和研究，可準確地對朗讀單音節(jié)詞、朗讀多音節(jié)詞和朗讀短文等三種測試題型實現(xiàn)自動評測。

科大訊飛系統(tǒng)為了滿足不同的用戶需求，開發(fā)了單機版和網(wǎng)絡版兩種版本?？梢愿屿`活地應用于計算機輔助普通話水平測試系統(tǒng)[1]。網(wǎng)絡版架構設計是監(jiān)考機對考生測試過程進行管理監(jiān)控。目前在大批量的測試中，普遍采用設置每批次20臺測試機，輔助學生完成考試。每一批次進行考試時都由監(jiān)考老師從監(jiān)考機上發(fā)出考試指令(監(jiān)考機能夠隨時監(jiān)控考試機)，考生根據(jù)監(jiān)考老師在監(jiān)考機發(fā)出的指令(指令有時是語音提示，有時是顯示在考試機的屏幕上的文字信息)進行不同的操作?？忌植揭来蔚牟僮魇牵簻士甲C號輸入，身份信息核對，試音以及單音節(jié)詞、多音節(jié)詞、朗讀短文、說話等題型的考試。由測試系統(tǒng)自動完成考生的朗讀單音節(jié)詞、朗讀多音節(jié)詞和朗讀短文的評測，最后一題說話題由測試站將測試數(shù)據(jù)上傳至省中心服務器上并分配測試員后，由測試員根據(jù)錄音進行網(wǎng)上評分。

科大訊飛的計算機輔助普通話測試系統(tǒng)在成績評定上，對二級甲等到三級甲等成績的判定基本上與人工測試的結果比對一致，大部分考生的成績集中在二級甲等到三級甲等這個范圍內，從而系統(tǒng)能滿足高校普通話水平測試的要求。系統(tǒng)對高分段(比如一級甲等)和低分段(比如三級乙等及以下等級)的成績判定與人工測試的誤差大，特別是測試系統(tǒng)對一級甲等的成績認定一般不能做出很好的評價。據(jù)國家語委測試數(shù)據(jù)顯示，在實際測試以及測試環(huán)境完全一致的情況下，讓性別不同、年齡不同以及獲得證書時間不同的已獲得國家語委普通話培訓測試中心認定的一級甲等成績的人員進行試驗測試，最終成績都達不到一級甲等。目前各地區(qū)在送審一甲樣本時，仍舊采用人工測試。系統(tǒng)中最重要也是最關鍵的環(huán)節(jié)——語音評判、語音分析處理技術還是一個比較難解決的問題，對于全部自動化閱卷和對所有分數(shù)段的考生做出準確的評判還有待進一步改進。到目前為止還沒有系統(tǒng)提出改進措施，特別是考生語音數(shù)據(jù)采集和計算機自動評測打分功能優(yōu)化問題沒有系統(tǒng)研究，另外尚未建立對考生在沒有文字憑借情況下的命題說話題進行語音評判的模式。

測試系統(tǒng)的可靠性有待進一步加強[2]。軟件可靠性(software reliability)是軟件產(chǎn)品能否在規(guī)定的時間和條件下滿足規(guī)定的功能的能力，是國際標準化組織頒布的ISO9001制定的軟件評價技術中的質量標準之一，是用戶對軟件產(chǎn)品的正常質量訴求。在使用過程中，科大訊飛測試系統(tǒng)隨機偶發(fā)一些故障。比如：有時考生明明點擊了“下一題”按鈕，但就是無法結束本題考試；有時考試機試音成功后，第一題測試時麥克風無法拾音，提示框顯示的提示信息為“失敗原因: 無輸入信號”；有時考生參加了測試但從考試機導出的考試數(shù)據(jù)trd 壓縮包中沒有以該考生準考證號命名的oef文件，從而信息管理系統(tǒng)中沒有該考生的數(shù)據(jù)[3]。

測試系統(tǒng)出現(xiàn)的有些交互信息不易被理解。測試系統(tǒng)在運行過程中經(jīng)常出現(xiàn)用來提示發(fā)生錯誤原因的“試音失敗、評測失敗、操作失敗”等信息，特別對于出現(xiàn)較多的“失敗原因: 截幅”，截幅是什么、導致截幅原因是什么以及如何克服截幅，系統(tǒng)沒有提供任何的解決方法。軟件說明書中也查找不到截幅相關的說明。非專業(yè)的測試站工作人員無法理解這些信息，更談不上去指導考生了。

測試系統(tǒng)對于考生本身作弊行為或者內外勾結重復考試的作弊行為基本上不能防范。普通話水平測試是國家級的口語測試，各測試站采取了各種各樣的措施加強考場監(jiān)督，但不能徹底杜絕測試中的作弊行為，特別是對于交叉替考作弊方式?jīng)]有任何的防范措施。

2　對存在問題的對策及今后規(guī)范管理的思考

基于計算機輔助普通話水平測試現(xiàn)狀，進一步研究計算機輔助普通話水平測試系統(tǒng)的優(yōu)化，實現(xiàn)優(yōu)化測試手段、規(guī)范測試程序、統(tǒng)一測試標準、降低測試成本、提高測試效率等，真正達到計算機智能普通話水平測試。結合計算機輔助普通話水平測試實際應用現(xiàn)狀提出計算機輔助普通話水平測試中對現(xiàn)有普通話中語音評判進行優(yōu)化的方案，并建立對于考生在沒有文字憑借情況下的命題說話題進行語音初步評判的模式。以系統(tǒng)思考的方法和開拓創(chuàng)新的精神，積極探索改進計算機輔助普通話水平測試系統(tǒng)的不足之處。

第一，優(yōu)化計算機輔助普通話測試的語音評判系統(tǒng)。針對系統(tǒng)對高分段(比如一級甲等)和低分段(比如三級乙及以下等級)的成績判定與人工測試誤差大的情況，可以對計算機輔助普通話水平測試的評價模式進行修改。系統(tǒng)可以對被測樣本進行分析和成績評判，如果被測樣本出屬于普通段，則按照原有模式進行評判；如果被測樣本屬于高分段(或低分段)馬上轉入高分段(或低分段)處理模塊進行處理(專門為高分段或低分段的樣本設計一個處理模塊)。另外，優(yōu)化系統(tǒng)應考慮硬件的兼容性和大批量考生的管理需求，提高系統(tǒng)管理人性化自動化水平，確保省中心和測試站兩級管理模式的有序協(xié)調。

第二，加強高分段錄音樣本的建設和搜集。目前測試系統(tǒng)利用了一種智能語音處理技術，即計算機輔助語言學習技術(Computer Assisted Language Learning，通過機器自動對發(fā)音進行評分、檢錯并給出矯正指導的技術)進行評分。測評系統(tǒng)利用大量的錄音樣本進行分析處理，并產(chǎn)生標準模型，再把被測者的測試樣本與標準模型進行比對評判[4]。盡管系統(tǒng)從全國各地搜集整理了許許多多的樣本，但目前對高分段(一級甲等)的錄音樣本采集還很不足。為了豐富高分段的樣本，可以將國家級的廣播電視媒體和社會上影響力大的播音員、主持人的錄音樣本采集到系統(tǒng)語音庫中，也可以將影視話劇等單位公認的普通話水平很標準的演員的錄音樣本大量地采集到系統(tǒng)語音庫中。樣本比較豐富了，評價系統(tǒng)在對比考生的語音面貌時，將更加客觀。

第三，探索優(yōu)化評分系統(tǒng)的評價模型的新算法。蟻群算法可以準確地估計評價模型向量并且不會產(chǎn)生局部相位的波形惡化，使得各處向量的功率譜有明顯的增益[5]。改進后的評價模型能對語音信號進行良好的識別，具有良好的通用性和全局性。使用蟻群算法對評分系統(tǒng)里評價模型進行優(yōu)化的方法。利用計算機技術蟻群算法對評分系統(tǒng)中的評價模型進行優(yōu)化，并建立對于考生在沒有文字憑借情況下的命題說話題進行語音評判的模式。

第四，改進當前的抽題策略，并進一步建設測試試卷的題庫。目前湖南省測試中心使用50套試題,每個考場從50套中抽取20套，每臺考試機上固定一套試題。按照這種抽題策略，雖然是每個考生一套，但是坐在同一個位置上的考生總是做同一套試題，這樣就可能出現(xiàn)考生作弊的行為。為了防止同一位置做相同的試題，可以每個座位上抽取不同的試題，另外每一套試題的組織應該由題庫中不同類型的題目隨機搭配組成。在被測室選取的試卷號，這個試卷號可以由監(jiān)考老師輸入測試系統(tǒng)。另外這50套測試卷的所有內容已成為公開的秘密,特別是命題說話題,已經(jīng)被人做出不同的標準答案，上傳到網(wǎng)絡之上或者輯印成冊。測試員在評分中經(jīng)常反復聽到同一個話題的同一內容的標準答案，就是因為考生背熟了千篇一律的小文章[1]。為了減少此類現(xiàn)象的發(fā)生,普通話水平測試題庫必須進行修改和更新。題庫的題目不應局限于已經(jīng)存在的幾十套單音節(jié)字詞、雙音節(jié)字詞、短文及說話題目，應增加與考生生活、學習等方面相關的更加豐富的內容。在每次組織考試前,應由省測試中心或測試站負責組卷,這樣考生就不會在考試前準備好標準答案。

第五，廣泛協(xié)調，多方組織合作，大力開展技術改進，進行科研攻關。計算機輔助測試系統(tǒng)技術難度高，一般計算機輔助測試系統(tǒng)的研發(fā)人員是一些懂計算機技術的科研人員，這些人員一般不是普通話水平測試的一線測試員，更加不是語言教學、普通話理論研究專家。計算機技術人員不能準確把握普通話水平測試的用戶的各種需求，所開發(fā)的軟件自然就會出現(xiàn)這樣那樣的不合理之處?；诖?，可以由教育部和國家語言文字工作委員會牽頭，在全國范圍內不定時地組織一些學術研討會或者成立一些專門的研究機構，把語音處理技術上頂尖的專家、既懂計算機技術又十分熟悉普通話理論以及測試的復合型人才以及長期從事普通話教學和測試的骨干組織起來，大家聯(lián)合攻關[6]。使普通話測試工作從管理、測試、培訓到研究真正成為與國際上著名的語言考試比肩的國家品牌。

第六，設計更加人性化的測試系統(tǒng)的交互信息。為了測試站工作人員、監(jiān)考人員和考生都能準確理解提示信息，測試系統(tǒng)的提示信息一般應該做到考生和監(jiān)考老師都能理解出現(xiàn)信息的含義，不能出現(xiàn)監(jiān)考老師和考生都不理解的信息。

第七，測試系統(tǒng)中可以設置一套有效防范作弊的措施。對于考生本身作弊行為中的請人代考的防止措施，可以在系統(tǒng)中增加現(xiàn)在市面上已經(jīng)應用廣泛的指紋識別系統(tǒng)或者面部識別系統(tǒng)。在考生報名時采集其指紋信息或者面部圖像，考試時指紋、面部識別系統(tǒng)將正在測試的考生的生物特征與報名采集的信息比對，并將結果反饋到監(jiān)考機屏幕上，監(jiān)考老師根據(jù)結果確定考生是否舞弊[3]。筆者認為用聲紋識別技術更方便，考試系統(tǒng)不要配置額外的硬件，只要在考生報名時采集一段考生的聲音，考試時候直接把報名時采集的聲紋與考生當場考試的聲紋進行比對即可分清是否替考。對于內外勾結重復考試的作弊行為，應由測試工作站的工作人員監(jiān)視整個考場，防止發(fā)生這種情況。

第八，改進命題說話題的人工打分方式，設計智能的評判模式。測試系統(tǒng)對于考生在沒有文字憑借情況下的命題說話題的處理還處在人工方式階段。系統(tǒng)只能把考生的測試數(shù)據(jù)保存下來，而后上傳至省中心服務器上，由測試系統(tǒng)把測試數(shù)據(jù)分發(fā)給普通話測試員，測試員根據(jù)錄音進行人工打分、網(wǎng)上評分?；诂F(xiàn)在語音評測技術的限制，不能完全由測試系統(tǒng)對命題說話題進行精確的判分，但可對當前的命題說話題進行簡單的預評判，把一些沒有說話的、亂說話的、完全不符合題意的剔除掉，減輕測試員的工作。

3　結語

在計算機輔助普通話水平測試應用過程中，雖然各個測試中心遇到了這樣或者那樣的問題，但是在教育部和國家語言文字工作委員會的指導下測試系統(tǒng)會不斷完善。將來計算機輔助普通話水平測試系統(tǒng)肯定會向著智能化的方向發(fā)展，會有更加廣闊的應用前景。

[1] 黃謙，張小俊，趙秀宏.計算機輔助普通話水平測試存在的問題及對策[J].廊坊師范學院學報(自然科學版)，2011(8)：122-124.

[2] 楊康.國家普通話水平智能測試系統(tǒng)的改進分析[J].考試研究,2015(4)：98-101.

[3] 楊康.ISO9001標準下的國家普通話水平智能測試系統(tǒng)(2．8版)改進建議[J].鎮(zhèn)江高專學報，2015，10(4):39-40.

[4] 雷峻.計算機輔助普通話測試的問題思考及技術對策[J].武漢理工大學學報,2010(7):160-162.

[5] 李超，劉濤.基于蟻群算法的普通話測試系統(tǒng)評分機制改進[J].玉溪師范學院學報，2011(8):59-62.

[6]楊月君，王東波.計算機輔助普通話水平測試運行實踐研究[J].教育教學論壇，2014(6):267-268.

(責任編校莫秀珍)

10.13582/j.cnki.1674-5884.2016.09.037

20160516

湖南省教育廳重點課題(2014ZD-003)

周曉蘭(1974-)，女，湖南洞口人，高級實驗師，碩士，主要從事計算機科學技術及計算機實驗教學研究。

H102

1674-5884(2016)09-0116-04

計算機輔助普通話水平測試系統(tǒng)的優(yōu)化

1 目前計算機輔助普通話水平測試存在的不足之處

2 對存在問題的對策及今后規(guī)范管理的思考

3 結語

1　目前計算機輔助普通話水平測試存在的不足之處

2　對存在問題的對策及今后規(guī)范管理的思考

3　結語