普通話水平測(cè)試第四題“人機(jī)”測(cè)試模式信度研究

2023-02-03 08:40:52楊惠麟

綿陽(yáng)師范學(xué)院學(xué)報(bào) 2023年1期

楊惠麟，張俊

(1.西南醫(yī)科大學(xué)，四川瀘州 646000；2.瀘州市語(yǔ)言文字工作委員會(huì)，四川瀘州 646000)

一、引言

普通話水平測(cè)試(Putonghua Shuiping Ceshi,以下簡(jiǎn)稱PSC)是一項(xiàng)國(guó)家級(jí)語(yǔ)言測(cè)試。公平公正地執(zhí)行測(cè)試，是國(guó)家憲法賦予的使命[1]。自從2007年計(jì)算機(jī)輔助測(cè)試在安徽、上海開(kāi)始試點(diǎn)，PSC開(kāi)始了計(jì)算機(jī)測(cè)試前三題，兩位測(cè)試員測(cè)試第四題(“命題說(shuō)話”項(xiàng))的機(jī)測(cè)模式。這一模式在全國(guó)施行已有十多年。國(guó)內(nèi)的研究者通過(guò)大量的數(shù)據(jù)收集和分析認(rèn)為：計(jì)算機(jī)輔助測(cè)試是普通話水平測(cè)試未來(lái)的發(fā)展方向，但尚有許多技術(shù)問(wèn)題需要解決。機(jī)測(cè)系統(tǒng)有其明顯的優(yōu)點(diǎn)，也有顯而易見(jiàn)的不足。其優(yōu)點(diǎn)主要表現(xiàn)為：減少了測(cè)試員的勞動(dòng)，增加了測(cè)試量；減少了測(cè)試員主觀因素的干擾，從而增強(qiáng)了測(cè)試的客觀性和公正性。其不足主要有：計(jì)算機(jī)對(duì)“語(yǔ)音標(biāo)準(zhǔn)程度”的評(píng)測(cè)，“正誤”辨識(shí)度高，“缺陷”辨識(shí)不準(zhǔn)確[2]；計(jì)算機(jī)測(cè)試系統(tǒng)評(píng)測(cè)時(shí)“字化”現(xiàn)象明顯[3];對(duì)整體的停連、輕重、節(jié)奏、流暢度把握不準(zhǔn)確，不能有效評(píng)測(cè)朗讀的語(yǔ)感；語(yǔ)調(diào)、協(xié)同發(fā)音、音節(jié)韻律等具有“模糊性”的語(yǔ)音現(xiàn)象，成為制約機(jī)評(píng)準(zhǔn)確性的瓶頸[4]；機(jī)評(píng)前三題使兩名測(cè)試員在測(cè)評(píng)第四題時(shí)無(wú)前三題的參考，對(duì)受測(cè)者“語(yǔ)音面貌”不能準(zhǔn)確定檔，導(dǎo)致評(píng)分差異加大，復(fù)評(píng)率上升[5]；機(jī)評(píng)導(dǎo)致復(fù)審二甲錯(cuò)檔人數(shù)增加。

從2019年開(kāi)始，計(jì)算機(jī)輔助測(cè)試又向前邁進(jìn)了一大步，進(jìn)入計(jì)算機(jī)與一名測(cè)試員共測(cè)第四題的全新階段。這就意味著，普通話水平測(cè)試工作已大部分由計(jì)算機(jī)完成，測(cè)試員只參與第四題，并且是與計(jì)算機(jī)共同評(píng)分，采用“人+機(jī)”的全新模式。其信度目前尚無(wú)相關(guān)的研究。

二、研究設(shè)計(jì)

此次研究采用描述性統(tǒng)計(jì)分析方法，以2018、2019、2020年瀘州市語(yǔ)言文字工作委員會(huì)測(cè)試站的測(cè)試數(shù)據(jù)為依據(jù)，篩選出偏差復(fù)審的被試成績(jī)，提取第四題的評(píng)分細(xì)節(jié)進(jìn)行分析。普通話水平測(cè)試中的復(fù)審包括一級(jí)復(fù)審、抽查復(fù)審、偏差復(fù)審、異常復(fù)審。偏差復(fù)審是指普通話水平測(cè)試中同一應(yīng)試人第四題“說(shuō)話”項(xiàng)的語(yǔ)料因計(jì)算機(jī)和測(cè)試員(2019年以前是兩位測(cè)試員)評(píng)分差異較大，由復(fù)審員(國(guó)家級(jí)測(cè)試員)進(jìn)行再次審核測(cè)評(píng)的考評(píng)機(jī)制。應(yīng)試人的最終成績(jī)由復(fù)審員給出的分?jǐn)?shù)與一評(píng)時(shí)計(jì)算機(jī)或測(cè)試員中評(píng)出相近成績(jī)一方的分?jǐn)?shù)平均而成。此次研究偏差復(fù)審的標(biāo)準(zhǔn)，四川省語(yǔ)言文字工作委員會(huì)文件要求為：2018、2019年為2分，2020年為1.5分。本研究只選取偏差復(fù)審的語(yǔ)料進(jìn)行統(tǒng)計(jì)分析，其優(yōu)點(diǎn)是：統(tǒng)計(jì)偏差復(fù)審率，可以直觀分析計(jì)算機(jī)與測(cè)試員的評(píng)分差異；通過(guò)復(fù)審員的復(fù)審可以進(jìn)一步比較計(jì)算機(jī)與復(fù)審員的評(píng)分差異；便于從龐大的測(cè)試數(shù)據(jù)中選出有代表性的數(shù)據(jù)進(jìn)行分析研究，減少了人力、物力和時(shí)間上的浪費(fèi)。

由于計(jì)算機(jī)測(cè)試系統(tǒng)對(duì)第四題只提供一個(gè)總成績(jī)，筆者分別進(jìn)行了三年復(fù)審率比對(duì)，2019、2020年復(fù)審數(shù)據(jù)計(jì)算機(jī)與測(cè)試員評(píng)分差、計(jì)算機(jī)與復(fù)審員評(píng)分差、復(fù)審成績(jī)等級(jí)變化比對(duì)，異常偏差復(fù)審語(yǔ)料50例語(yǔ)音面貌描述和第三次測(cè)評(píng)比對(duì)、討論，并輔以測(cè)試員評(píng)分問(wèn)卷調(diào)查表，多維度地探求計(jì)算機(jī)測(cè)試第四題的信度。

三、偏差復(fù)審數(shù)據(jù)分析研究

(一)(2018—2020)偏差復(fù)審復(fù)評(píng)率比對(duì)

從表1的數(shù)據(jù)看，2018年采用兩名測(cè)試員測(cè)試第四題(即“人+人”模式)，復(fù)評(píng)率高于施行人機(jī)共測(cè)(即“人+機(jī)”模式)的2019年和2020年；2020年復(fù)評(píng)率略高于2019年，應(yīng)是復(fù)評(píng)標(biāo)準(zhǔn)由第四題機(jī)器與測(cè)試員相差2分復(fù)評(píng)，改為相差1.5分復(fù)評(píng)的緣故。可以看出，“人+人”模式比“人+機(jī)”模式的復(fù)評(píng)率高。造成“人+人”模式復(fù)評(píng)率高的原因主要有：1.由于前三題為計(jì)算機(jī)測(cè)試，測(cè)試員只測(cè)試第四題，沒(méi)有更多語(yǔ)料參考對(duì)受測(cè)者“語(yǔ)音面貌”準(zhǔn)確定檔；2.“人+人”模式的兩名測(cè)試員是隨機(jī)確定的，雙方并不了解彼此的評(píng)分習(xí)慣，造成復(fù)評(píng)率高。但“人+人”模式的高復(fù)評(píng)率并不是壞事，有爭(zhēng)議的語(yǔ)料可以通過(guò)復(fù)審再次測(cè)評(píng)，從而保證了測(cè)試成績(jī)的準(zhǔn)確、公正?！叭?機(jī)”模式中，測(cè)試員有可能在長(zhǎng)期的測(cè)試實(shí)踐中與計(jì)算機(jī)“磨合”，自覺(jué)或不自覺(jué)地迎合計(jì)算機(jī)進(jìn)行評(píng)分，從而使看似公平的測(cè)試有最終成為計(jì)算機(jī)“一言堂”的風(fēng)險(xiǎn)。

表1 偏差復(fù)審復(fù)評(píng)率比對(duì)

(二)偏差復(fù)審語(yǔ)料計(jì)算機(jī)與測(cè)試員評(píng)分比對(duì)

從表2可知，2020年偏差復(fù)審的語(yǔ)料以測(cè)試員評(píng)分高為主，占94.8%；計(jì)算機(jī)評(píng)分高的僅占5.2%。以往研究者認(rèn)為計(jì)算機(jī)對(duì)前三題的測(cè)試存在過(guò)于嚴(yán)苛的現(xiàn)象，例如：1.計(jì)算機(jī)把原本應(yīng)判為“缺陷”的語(yǔ)音判為了“錯(cuò)誤”；2.對(duì)語(yǔ)調(diào)、協(xié)同發(fā)音、音節(jié)韻律等具有“模糊性”的語(yǔ)音現(xiàn)象判斷不準(zhǔn)確；3.對(duì)整體的停連、輕重、節(jié)奏、流暢度把握不準(zhǔn)確，不能有效評(píng)測(cè)朗讀的語(yǔ)感。第四題“說(shuō)話”項(xiàng)，被測(cè)者根據(jù)所選的話題自由說(shuō)話三分鐘。面對(duì)不同說(shuō)話對(duì)象，沒(méi)有固定模板，語(yǔ)料測(cè)評(píng)情況更為復(fù)雜，這一現(xiàn)象似乎更為明顯。除上述幾點(diǎn)外，由于計(jì)算機(jī)評(píng)測(cè)時(shí)對(duì)無(wú)效語(yǔ)料時(shí)間的計(jì)算比測(cè)試員更為精準(zhǔn)，因而會(huì)扣掉更多的分值，加之評(píng)測(cè)第四題的測(cè)試員評(píng)分往往是“定性”——整體語(yǔ)音面貌判斷和“定量”——扣分?jǐn)?shù)值相結(jié)合，因此導(dǎo)致計(jì)算機(jī)評(píng)分普遍偏低。

表2 2020第四大題偏差復(fù)審語(yǔ)料“人機(jī)”評(píng)分比對(duì)

(三)偏差復(fù)審語(yǔ)料復(fù)審員與計(jì)算機(jī)、測(cè)試員評(píng)分比對(duì)

為了使研究數(shù)據(jù)更為客觀，此次研究的第三審測(cè)試員均選取未參加過(guò)“人+機(jī)”模式測(cè)試，對(duì)計(jì)算機(jī)評(píng)分習(xí)慣不熟悉的測(cè)試員。從表3和表4可知：1.計(jì)算機(jī)、測(cè)試員、復(fù)審員三方測(cè)試比對(duì)，2019年復(fù)審員評(píng)分最低，2020年計(jì)算機(jī)評(píng)分最低，初評(píng)測(cè)試員兩年評(píng)分均為最高；2.復(fù)審員與計(jì)算機(jī)評(píng)分2019年至2020年分差值越來(lái)越小，與初評(píng)測(cè)試員分差進(jìn)一步加大。這一情況是否說(shuō)明，“人+機(jī)”模式說(shuō)明了瀘州市部分省級(jí)測(cè)試員業(yè)務(wù)水平有待提高，專業(yè)能力訓(xùn)練需要加強(qiáng)；專業(yè)能力強(qiáng)的復(fù)審員與計(jì)算機(jī)的評(píng)分高度一致，反映出計(jì)算機(jī)評(píng)分的準(zhǔn)確性高，亦或更熟悉計(jì)算機(jī)的復(fù)審員會(huì)自覺(jué)或不自覺(jué)地為降低與計(jì)算機(jī)的分差而迎合計(jì)算機(jī)評(píng)分，從而使復(fù)審有失公正。這一統(tǒng)計(jì)與此次研究從2019年和2020年所有偏差復(fù)審語(yǔ)料中選出的異常偏差復(fù)審語(yǔ)料50例的情況一致。從表5的統(tǒng)計(jì)數(shù)據(jù)可看出，第三審測(cè)試員的評(píng)分與第一審測(cè)試員評(píng)分一致率高達(dá)70%，而復(fù)審員與計(jì)算機(jī)評(píng)分一致率竟高達(dá)90%。即便考慮測(cè)試員業(yè)務(wù)水平差異導(dǎo)致的誤差，從統(tǒng)計(jì)數(shù)據(jù)的呈現(xiàn)上看，也讓人憂慮偏差復(fù)審這一環(huán)節(jié)，復(fù)審員會(huì)自覺(jué)或不自覺(jué)地迎合計(jì)算機(jī)的評(píng)分規(guī)律評(píng)分，從而使復(fù)審失去意義。

表3 2019年偏差復(fù)審語(yǔ)料“人機(jī)”評(píng)分差比對(duì)

表4 2020年偏差復(fù)審語(yǔ)料“人機(jī)”評(píng)分差比對(duì)

表5 異常偏差復(fù)審語(yǔ)料50例“人機(jī)”評(píng)分差比對(duì)

(四)偏差復(fù)審語(yǔ)料等級(jí)變化比對(duì)

四川省偏差復(fù)審由語(yǔ)言文字工作委員會(huì)辦公室組織，選調(diào)其他地市州國(guó)測(cè)員組織進(jìn)行。從表6數(shù)據(jù)比對(duì)可見(jiàn)，機(jī)測(cè)第四題以后，復(fù)評(píng)等級(jí)變化情況不大，整體仍以等級(jí)降低占絕對(duì)高值，即便在異常偏差復(fù)審50例中也高達(dá)42%(見(jiàn)表7)。這一數(shù)據(jù)說(shuō)明：1.復(fù)審等級(jí)降低占絕對(duì)高值這一情況在計(jì)算機(jī)參與第四題測(cè)試前后沒(méi)有發(fā)生改變；2.異常偏差復(fù)審50例中的語(yǔ)料，雖因各種原因造成評(píng)分困難或分差較大，但等級(jí)不變的卻能高達(dá)58%，這說(shuō)明計(jì)算機(jī)對(duì)情況復(fù)雜、難于評(píng)分的語(yǔ)料定檔還是比較準(zhǔn)確的。此50例語(yǔ)料為2019、2020年共445例偏差復(fù)審語(yǔ)料中精選的有較強(qiáng)語(yǔ)音特征和評(píng)分爭(zhēng)議的語(yǔ)料。等級(jí)降低的21例中“二乙”降為“三甲”15人，“二甲”降為“二乙”的6人。

表6 2020年與2018年偏差復(fù)審等級(jí)變化比對(duì)

表7 異常偏差復(fù)審語(yǔ)料50例等級(jí)變化情況

(五)異常偏差復(fù)審語(yǔ)料50例分析

1.8號(hào)語(yǔ)料

評(píng)分情況如下：第一審計(jì)算機(jī)評(píng)分23分、測(cè)試員評(píng)分29分；復(fù)審評(píng)分25分；三審評(píng)分28分。語(yǔ)料情況描述:“語(yǔ)音標(biāo)準(zhǔn)程度”定檔四檔，但因考前未做準(zhǔn)備，有效話語(yǔ)時(shí)長(zhǎng)共五個(gè)時(shí)段，共34秒左右。此語(yǔ)料計(jì)算機(jī)與一審測(cè)試員分差6分，與復(fù)審員分差2分，與三審測(cè)試員分差5分，其原因應(yīng)為：(1)計(jì)算缺時(shí)的時(shí)間差異；(2)評(píng)判無(wú)效語(yǔ)料的標(biāo)準(zhǔn)。其中計(jì)算缺時(shí)時(shí)長(zhǎng)應(yīng)為最主要的原因，計(jì)算機(jī)顯然比人工更為精確，測(cè)試員之間對(duì)時(shí)間的計(jì)算差異較大。這樣的情況同樣出現(xiàn)在4號(hào)、38號(hào)、40號(hào)、44號(hào)、47號(hào)、48號(hào)、49號(hào)語(yǔ)料上。依據(jù)《普通話水平測(cè)試大綱》(教育部、國(guó)家語(yǔ)言文字工作委員會(huì)發(fā)教語(yǔ)用〔2003〕2號(hào)文件)的評(píng)分標(biāo)準(zhǔn)，說(shuō)話不足3分鐘，酌情扣分：缺時(shí)1分鐘以內(nèi)(含1分鐘)，扣1分、2分、3分；缺時(shí)1分鐘以上，扣4分、5分、6分；說(shuō)話不滿30秒(含30秒)本測(cè)試項(xiàng)成績(jī)計(jì)為0分[6]。另在評(píng)分時(shí)，補(bǔ)充評(píng)分標(biāo)準(zhǔn)為：(1)說(shuō)話時(shí)間不足2分鐘的，“語(yǔ)音標(biāo)準(zhǔn)程度”已得分?jǐn)?shù)再降2分；“詞匯語(yǔ)法規(guī)范程度”和“自然流暢程度”至多定為二檔，這兩項(xiàng)各自再扣1分或2分。(2)說(shuō)話不足1分鐘的，“語(yǔ)音標(biāo)準(zhǔn)程度”已得分?jǐn)?shù)再降4分；“詞匯語(yǔ)法規(guī)范程度”和“自然流暢程度”至多定為三檔，這兩項(xiàng)各自再扣3分或4分。缺時(shí)1分鐘以內(nèi)(含1分鐘)按20秒為一個(gè)檔次計(jì)，缺時(shí)1分鐘以上按30秒一個(gè)檔次計(jì)，時(shí)間計(jì)算相差幾秒，有可能產(chǎn)生8分至9分，甚至更大的分差。這一標(biāo)準(zhǔn)使測(cè)試員在具體實(shí)施時(shí)很難操作。測(cè)試員之間差異大，計(jì)算機(jī)與測(cè)試員之間差異更大。隨著評(píng)分方式的變化，為了考試的公平公正，國(guó)家相關(guān)部門(mén)應(yīng)重新出臺(tái)更適合目前測(cè)試方式的評(píng)分細(xì)則，減少計(jì)算機(jī)與測(cè)試員之間對(duì)“缺時(shí)”的差異，使評(píng)分更為客觀公正。

2.44號(hào)、19號(hào)、21號(hào)語(yǔ)料

評(píng)分情況如下：第一審計(jì)算機(jī)評(píng)分29分、測(cè)試員評(píng)分33分；復(fù)審評(píng)分30分；三審評(píng)分33.5分。語(yǔ)料情況描述:“語(yǔ)音標(biāo)準(zhǔn)程度”定檔四檔，“詞匯語(yǔ)法規(guī)范”和“缺時(shí)”兩項(xiàng)容易判斷，分差應(yīng)出現(xiàn)在“自然流暢度”上。由于準(zhǔn)備不充分，談話者在1∶15—2∶40區(qū)間，每一兩句出現(xiàn)2～3秒的停頓多次，2∶40—2∶48出現(xiàn)8秒停頓一次。另有兩例為19和21號(hào)，將這兩例語(yǔ)料由兩名省測(cè)員進(jìn)行了第四次測(cè)試并由幾名測(cè)試員進(jìn)行了討論，較為認(rèn)可的等級(jí)均為“二乙”，與初測(cè)等級(jí)相同。經(jīng)討論認(rèn)為這兩例語(yǔ)料的共同特點(diǎn)為：(1)整體語(yǔ)音面貌和語(yǔ)音標(biāo)準(zhǔn)程度尚可定為四檔；(2)由于受測(cè)者在說(shuō)話初始階段，因緊張等因素，自然流暢度受到影響，但隨著自我調(diào)整慢慢恢復(fù)到正常狀態(tài)。其中21號(hào)語(yǔ)料此特點(diǎn)最為明顯。三次評(píng)分均為計(jì)算機(jī)最低，復(fù)審員其次，第三測(cè)最高。其中初評(píng)與第三次測(cè)試的測(cè)試員評(píng)分分差低于1分，而與計(jì)算機(jī)分差為3～4分，和復(fù)審員分差2～3分。這一現(xiàn)象說(shuō)明計(jì)算機(jī)的評(píng)分過(guò)于死板，忽略了人在情緒變化時(shí)語(yǔ)言流暢度正常的變化，而一般的測(cè)試員對(duì)這一現(xiàn)象有更包容的態(tài)度。

停頓是一種自然的言語(yǔ)現(xiàn)象，停頓的頻次和長(zhǎng)短常常被用作言語(yǔ)流暢與非流暢的量化標(biāo)準(zhǔn)。關(guān)于停頓的頻次和時(shí)長(zhǎng)，國(guó)內(nèi)外語(yǔ)言學(xué)者都做了許多的研究，但在自然狀態(tài)下的言語(yǔ)過(guò)程中，影響停頓的因素很多，例如年齡、性別、習(xí)慣、情緒等，因此并未有公認(rèn)的較為客觀的界定流暢與非流暢的明確標(biāo)準(zhǔn)。這使計(jì)算機(jī)和測(cè)試員在判斷“自然流暢”“基本流暢”“語(yǔ)言不連貫”上很難統(tǒng)一。由于沒(méi)有數(shù)據(jù)，無(wú)法知道計(jì)算機(jī)是怎樣給一段3分鐘話語(yǔ)的流暢度進(jìn)行評(píng)分的，加之《普通話水平測(cè)試大綱》上并沒(méi)有明確的頻次和長(zhǎng)短的參考數(shù)值，測(cè)試員基本上是依據(jù)自己的專業(yè)和生活經(jīng)驗(yàn)來(lái)進(jìn)行評(píng)分。從評(píng)分的情況對(duì)比來(lái)看，測(cè)試員的“人腦”似乎比“電腦”在評(píng)分標(biāo)準(zhǔn)上更具靈活性和包容度，能依據(jù)說(shuō)話人的年齡、語(yǔ)言習(xí)慣、情緒等作出判斷，因此普遍評(píng)分偏高。除了以上3例語(yǔ)料，在這50例語(yǔ)料中，還有多個(gè)語(yǔ)料亦是這種情況。

3.32號(hào)、40號(hào)語(yǔ)料

評(píng)分情況如下：第一審計(jì)算機(jī)評(píng)分30分、測(cè)試員33.5分；復(fù)審評(píng)分30分；三審評(píng)分34.8分。語(yǔ)料情況描述:語(yǔ)音面貌定檔三檔(扣4分)或四檔(扣5分)，此語(yǔ)料在“詞匯語(yǔ)法規(guī)范”“自然流暢度”和“缺時(shí)”上無(wú)爭(zhēng)議。評(píng)分差應(yīng)為錄音效果不好(話筒距離受測(cè)者太近或錄音設(shè)備故障)導(dǎo)致對(duì)“語(yǔ)音標(biāo)準(zhǔn)程度”的扣分。40號(hào)語(yǔ)料也是這種情況。40號(hào)評(píng)分情況如下：第一審計(jì)算機(jī)評(píng)分30分、測(cè)試員33.5分；復(fù)審評(píng)分31分；三審評(píng)分34分。為此，筆者組織了兩名測(cè)試員第四次測(cè)試和討論。結(jié)果為：32號(hào)和40號(hào)語(yǔ)料排除掉錄音效果干擾，單從整體語(yǔ)音面貌印象來(lái)判斷，32號(hào)為二乙高段，40號(hào)為二乙中段。有研究認(rèn)為，“人腦”可以自動(dòng)“修復(fù)”因外界因素導(dǎo)致的語(yǔ)音信息不全，排除干擾，從而獲得更多的信息。而這也是導(dǎo)致計(jì)算機(jī)和測(cè)試員面對(duì)此類語(yǔ)料分差大的原因。如果上述兩則語(yǔ)料不是受測(cè)者自身操作不當(dāng)，那么提高計(jì)算機(jī)的語(yǔ)音識(shí)別能力，縮小與“人腦”的差距，會(huì)讓考試更為公正。

(六)測(cè)試員問(wèn)卷調(diào)查情況

本次研究，采用了問(wèn)卷調(diào)查法，對(duì)參與初審的測(cè)試員進(jìn)行了測(cè)試感受的問(wèn)卷調(diào)查。此次問(wèn)卷共7個(gè)問(wèn)題，共20名瀘州市語(yǔ)言文字工作委員會(huì)測(cè)試員參與，有效問(wèn)卷14份，調(diào)查結(jié)果如下：

問(wèn)卷問(wèn)題分別為：1.測(cè)試的過(guò)程中，你是否有不自覺(jué)地根據(jù)電腦的評(píng)分特征評(píng)分的行為？2.測(cè)試的過(guò)程中，你是否會(huì)為減少偏差分?jǐn)?shù)，根據(jù)電腦的評(píng)分特征迎合電腦評(píng)分？3.你認(rèn)為機(jī)測(cè)與人測(cè)分?jǐn)?shù)偏差最大的是哪項(xiàng)？4.你認(rèn)為機(jī)測(cè)與人測(cè)分?jǐn)?shù)偏差最小的是哪項(xiàng)？5.你認(rèn)為機(jī)測(cè)與人測(cè)的分?jǐn)?shù)偏差是否能接受？6.你認(rèn)為電腦測(cè)試的最終結(jié)果是否可信？7.你認(rèn)為電腦會(huì)不會(huì)最終完全取代測(cè)試員？

從問(wèn)卷調(diào)查的結(jié)果，可以分析出以下信息：1.測(cè)試員有可能在長(zhǎng)期的測(cè)試實(shí)踐中與計(jì)算機(jī)“磨合”，自覺(jué)或不自覺(jué)地迎合計(jì)算機(jī)進(jìn)行評(píng)分，從而使看似公平的測(cè)試有最終成為計(jì)算機(jī)“一言堂”的風(fēng)險(xiǎn)。2.從測(cè)試員主觀感受來(lái)看，“詞匯、語(yǔ)法規(guī)范程度”評(píng)分結(jié)果偏差最小，“無(wú)效話語(yǔ)界定”評(píng)分結(jié)果偏差最大。3.大部分測(cè)試員認(rèn)為機(jī)測(cè)與人測(cè)的分?jǐn)?shù)偏差是能接受的，并認(rèn)為電腦測(cè)試的最終結(jié)果基本可信。4.大部分測(cè)試員認(rèn)為電腦不會(huì)完全取代測(cè)試員，認(rèn)為普通話水平測(cè)試是仍需要測(cè)試員參與的。

四、結(jié)論

從本次研究數(shù)據(jù)分析的結(jié)果，可以得出如下的結(jié)論：普通話水平測(cè)試機(jī)評(píng)第四題“命題說(shuō)話”測(cè)試成績(jī)基本可信，大部分測(cè)試工作者對(duì)“人+機(jī)”測(cè)試模式及測(cè)試結(jié)果是認(rèn)可的。但第四題“命題說(shuō)話”測(cè)試目的，是測(cè)查應(yīng)試人在無(wú)文字憑借的情況下，使用普通話進(jìn)行言語(yǔ)表達(dá)和交際的能力。不僅要測(cè)試語(yǔ)音標(biāo)準(zhǔn)程度，還要測(cè)試詞匯語(yǔ)法規(guī)范程度，更要測(cè)試其使用普通話時(shí)的說(shuō)話語(yǔ)感、自然流暢度。因此“人+機(jī)”模式仍有如下問(wèn)題需要解決：1.測(cè)試員、復(fù)審員在長(zhǎng)期的測(cè)試實(shí)踐中與計(jì)算機(jī)“磨合”，自覺(jué)或不自覺(jué)地迎合計(jì)算機(jī)進(jìn)行評(píng)分，從而使看似公平的測(cè)試有最終成為計(jì)算機(jī)“一言堂”的風(fēng)險(xiǎn)。2.計(jì)算機(jī)、測(cè)試員、復(fù)審員三方測(cè)試比對(duì)，計(jì)算機(jī)評(píng)分最低，最為嚴(yán)格，而這種嚴(yán)格與第四題測(cè)試目的不符，顯得過(guò)于“嚴(yán)苛”。之前有研究者提出計(jì)算機(jī)在前三題的測(cè)試中存在以下問(wèn)題：“語(yǔ)音標(biāo)準(zhǔn)程度”的評(píng)測(cè)，“正誤”辨識(shí)度高，“缺陷”辨識(shí)不準(zhǔn)確；評(píng)測(cè)時(shí)“字化”現(xiàn)象明顯，對(duì)整體的停連、輕重、節(jié)奏、流暢度把握不準(zhǔn)確；對(duì)語(yǔ)調(diào)、協(xié)同發(fā)音、音節(jié)韻律等具有“模糊性”的語(yǔ)音現(xiàn)象不能準(zhǔn)確地處理判斷。這些問(wèn)題最終使計(jì)算機(jī)評(píng)分普遍低于測(cè)試員，從而造成了“嚴(yán)苛”這一現(xiàn)象。由于此次研究時(shí)間偏短，數(shù)據(jù)不夠充分，未能作進(jìn)一步探討，但從已知的數(shù)據(jù)看，計(jì)算機(jī)在“自然流暢程度”和“缺時(shí)”的評(píng)分上與測(cè)試員有較大分歧，且評(píng)分較低。3.計(jì)算機(jī)對(duì)錄音效果要求高，錄音語(yǔ)料出現(xiàn)意外干擾會(huì)嚴(yán)重影響評(píng)分的準(zhǔn)確性。

通過(guò)此次研究，筆者對(duì)今后普通話測(cè)試工作有如下建議：1.普通話測(cè)試應(yīng)緊跟科技發(fā)展的步伐，不斷完善測(cè)試系統(tǒng)平臺(tái)的各項(xiàng)工作，進(jìn)一步解決計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)存在的技術(shù)性問(wèn)題；采集更多的語(yǔ)料數(shù)據(jù)，完善數(shù)據(jù)庫(kù)；完善系統(tǒng)管理功能；緊跟時(shí)代特征，完善測(cè)試題庫(kù)建設(shè)。2.建立協(xié)調(diào)互補(bǔ)的多維度評(píng)分體系和測(cè)試管理體系。如：評(píng)分差異最大的“無(wú)效話語(yǔ)界定”可否將評(píng)分細(xì)則進(jìn)一步細(xì)化，以減少評(píng)分偏差；“缺時(shí)”扣分計(jì)算機(jī)比測(cè)試員更精準(zhǔn)，這項(xiàng)評(píng)分是否可由計(jì)算機(jī)獨(dú)立完成，測(cè)試員不再參與；“自然流暢度”評(píng)分，由于測(cè)試員在評(píng)分標(biāo)準(zhǔn)把握上更具靈活性和包容度，能依據(jù)說(shuō)話人的年齡、語(yǔ)言習(xí)慣、情緒等作出判斷，更符合第四題的測(cè)試目的，能否由測(cè)試員獨(dú)立評(píng)分或測(cè)試員評(píng)分權(quán)重更大；3.應(yīng)處理好計(jì)算機(jī)與測(cè)試員之間的協(xié)作關(guān)系。隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展，計(jì)算機(jī)將更多地參與到國(guó)家各級(jí)各類考評(píng)測(cè)試中，處理好“人機(jī)”關(guān)系是不得不思考的問(wèn)題?！叭藱C(jī)”誰(shuí)為“主導(dǎo)”，誰(shuí)為“輔助”？揚(yáng)長(zhǎng)避短，充分發(fā)揮“人”與“機(jī)”各自的優(yōu)勢(shì)，才能使測(cè)試更加客觀、公正。