楊惠麟,張 俊
(1.西南醫(yī)科大學(xué),四川瀘州 646000;2.瀘州市語(yǔ)言文字工作委員會(huì),四川瀘州 646000)
普通話水平測(cè)試(Putonghua Shuiping Ceshi,以下簡(jiǎn)稱PSC)是一項(xiàng)國(guó)家級(jí)語(yǔ)言測(cè)試。公平公正地執(zhí)行測(cè)試,是國(guó)家憲法賦予的使命[1]。自從2007年計(jì)算機(jī)輔助測(cè)試在安徽、上海開(kāi)始試點(diǎn),PSC開(kāi)始了計(jì)算機(jī)測(cè)試前三題,兩位測(cè)試員測(cè)試第四題(“命題說(shuō)話”項(xiàng))的機(jī)測(cè)模式。這一模式在全國(guó)施行已有十多年。國(guó)內(nèi)的研究者通過(guò)大量的數(shù)據(jù)收集和分析認(rèn)為:計(jì)算機(jī)輔助測(cè)試是普通話水平測(cè)試未來(lái)的發(fā)展方向,但尚有許多技術(shù)問(wèn)題需要解決。機(jī)測(cè)系統(tǒng)有其明顯的優(yōu)點(diǎn),也有顯而易見(jiàn)的不足。其優(yōu)點(diǎn)主要表現(xiàn)為:減少了測(cè)試員的勞動(dòng),增加了測(cè)試量;減少了測(cè)試員主觀因素的干擾,從而增強(qiáng)了測(cè)試的客觀性和公正性。其不足主要有:計(jì)算機(jī)對(duì)“語(yǔ)音標(biāo)準(zhǔn)程度”的評(píng)測(cè),“正誤”辨識(shí)度高,“缺陷”辨識(shí)不準(zhǔn)確[2];計(jì)算機(jī)測(cè)試系統(tǒng)評(píng)測(cè)時(shí)“字化”現(xiàn)象明顯[3];對(duì)整體的停連、輕重、節(jié)奏、流暢度把握不準(zhǔn)確,不能有效評(píng)測(cè)朗讀的語(yǔ)感;語(yǔ)調(diào)、協(xié)同發(fā)音、音節(jié)韻律等具有“模糊性”的語(yǔ)音現(xiàn)象,成為制約機(jī)評(píng)準(zhǔn)確性的瓶頸[4];機(jī)評(píng)前三題使兩名測(cè)試員在測(cè)評(píng)第四題時(shí)無(wú)前三題的參考,對(duì)受測(cè)者“語(yǔ)音面貌”不能準(zhǔn)確定檔,導(dǎo)致評(píng)分差異加大,復(fù)評(píng)率上升[5];機(jī)評(píng)導(dǎo)致復(fù)審二甲錯(cuò)檔人數(shù)增加。
從2019年開(kāi)始,計(jì)算機(jī)輔助測(cè)試又向前邁進(jìn)了一大步,進(jìn)入計(jì)算機(jī)與一名測(cè)試員共測(cè)第四題的全新階段。這就意味著,普通話水平測(cè)試工作已大部分由計(jì)算機(jī)完成,測(cè)試員只參與第四題,并且是與計(jì)算機(jī)共同評(píng)分,采用“人+機(jī)”的全新模式。其信度目前尚無(wú)相關(guān)的研究。
此次研究采用描述性統(tǒng)計(jì)分析方法,以2018、2019、2020年瀘州市語(yǔ)言文字工作委員會(huì)測(cè)試站的測(cè)試數(shù)據(jù)為依據(jù),篩選出偏差復(fù)審的被試成績(jī),提取第四題的評(píng)分細(xì)節(jié)進(jìn)行分析。普通話水平測(cè)試中的復(fù)審包括一級(jí)復(fù)審、抽查復(fù)審、偏差復(fù)審、異常復(fù)審。偏差復(fù)審是指普通話水平測(cè)試中同一應(yīng)試人第四題“說(shuō)話”項(xiàng)的語(yǔ)料因計(jì)算機(jī)和測(cè)試員(2019年以前是兩位測(cè)試員)評(píng)分差異較大,由復(fù)審員(國(guó)家級(jí)測(cè)試員)進(jìn)行再次審核測(cè)評(píng)的考評(píng)機(jī)制。應(yīng)試人的最終成績(jī)由復(fù)審員給出的分?jǐn)?shù)與一評(píng)時(shí)計(jì)算機(jī)或測(cè)試員中評(píng)出相近成績(jī)一方的分?jǐn)?shù)平均而成。此次研究偏差復(fù)審的標(biāo)準(zhǔn),四川省語(yǔ)言文字工作委員會(huì)文件要求為:2018、2019年為2分,2020年為1.5分。本研究只選取偏差復(fù)審的語(yǔ)料進(jìn)行統(tǒng)計(jì)分析,其優(yōu)點(diǎn)是:統(tǒng)計(jì)偏差復(fù)審率,可以直觀分析計(jì)算機(jī)與測(cè)試員的評(píng)分差異;通過(guò)復(fù)審員的復(fù)審可以進(jìn)一步比較計(jì)算機(jī)與復(fù)審員的評(píng)分差異;便于從龐大的測(cè)試數(shù)據(jù)中選出有代表性的數(shù)據(jù)進(jìn)行分析研究,減少了人力、物力和時(shí)間上的浪費(fèi)。
由于計(jì)算機(jī)測(cè)試系統(tǒng)對(duì)第四題只提供一個(gè)總成績(jī),筆者分別進(jìn)行了三年復(fù)審率比對(duì),2019、2020年復(fù)審數(shù)據(jù)計(jì)算機(jī)與測(cè)試員評(píng)分差、計(jì)算機(jī)與復(fù)審員評(píng)分差、復(fù)審成績(jī)等級(jí)變化比對(duì),異常偏差復(fù)審語(yǔ)料50例語(yǔ)音面貌描述和第三次測(cè)評(píng)比對(duì)、討論,并輔以測(cè)試員評(píng)分問(wèn)卷調(diào)查表,多維度地探求計(jì)算機(jī)測(cè)試第四題的信度。
從表1的數(shù)據(jù)看,2018年采用兩名測(cè)試員測(cè)試第四題(即“人+人”模式),復(fù)評(píng)率高于施行人機(jī)共測(cè)(即“人+機(jī)”模式)的2019年和2020年;2020年復(fù)評(píng)率略高于2019年,應(yīng)是復(fù)評(píng)標(biāo)準(zhǔn)由第四題機(jī)器與測(cè)試員相差2分復(fù)評(píng),改為相差1.5分復(fù)評(píng)的緣故。可以看出,“人+人”模式比“人+機(jī)”模式的復(fù)評(píng)率高。造成“人+人”模式復(fù)評(píng)率高的原因主要有:1.由于前三題為計(jì)算機(jī)測(cè)試,測(cè)試員只測(cè)試第四題,沒(méi)有更多語(yǔ)料參考對(duì)受測(cè)者“語(yǔ)音面貌”準(zhǔn)確定檔;2.“人+人”模式的兩名測(cè)試員是隨機(jī)確定的,雙方并不了解彼此的評(píng)分習(xí)慣,造成復(fù)評(píng)率高。但“人+人”模式的高復(fù)評(píng)率并不是壞事,有爭(zhēng)議的語(yǔ)料可以通過(guò)復(fù)審再次測(cè)評(píng),從而保證了測(cè)試成績(jī)的準(zhǔn)確、公正?!叭?機(jī)”模式中,測(cè)試員有可能在長(zhǎng)期的測(cè)試實(shí)踐中與計(jì)算機(jī)“磨合”,自覺(jué)或不自覺(jué)地迎合計(jì)算機(jī)進(jìn)行評(píng)分,從而使看似公平的測(cè)試有最終成為計(jì)算機(jī)“一言堂”的風(fēng)險(xiǎn)。
表1 偏差復(fù)審復(fù)評(píng)率比對(duì)
從表2可知,2020年偏差復(fù)審的語(yǔ)料以測(cè)試員評(píng)分高為主,占94.8%;計(jì)算機(jī)評(píng)分高的僅占5.2%。以往研究者認(rèn)為計(jì)算機(jī)對(duì)前三題的測(cè)試存在過(guò)于嚴(yán)苛的現(xiàn)象,例如:1.計(jì)算機(jī)把原本應(yīng)判為“缺陷”的語(yǔ)音判為了“錯(cuò)誤”;2.對(duì)語(yǔ)調(diào)、協(xié)同發(fā)音、音節(jié)韻律等具有“模糊性”的語(yǔ)音現(xiàn)象判斷不準(zhǔn)確;3.對(duì)整體的停連、輕重、節(jié)奏、流暢度把握不準(zhǔn)確,不能有效評(píng)測(cè)朗讀的語(yǔ)感。第四題“說(shuō)話”項(xiàng),被測(cè)者根據(jù)所選的話題自由說(shuō)話三分鐘。面對(duì)不同說(shuō)話對(duì)象,沒(méi)有固定模板,語(yǔ)料測(cè)評(píng)情況更為復(fù)雜,這一現(xiàn)象似乎更為明顯。除上述幾點(diǎn)外,由于計(jì)算機(jī)評(píng)測(cè)時(shí)對(duì)無(wú)效語(yǔ)料時(shí)間的計(jì)算比測(cè)試員更為精準(zhǔn),因而會(huì)扣掉更多的分值,加之評(píng)測(cè)第四題的測(cè)試員評(píng)分往往是“定性”——整體語(yǔ)音面貌判斷和“定量”——扣分?jǐn)?shù)值相結(jié)合,因此導(dǎo)致計(jì)算機(jī)評(píng)分普遍偏低。
表2 2020第四大題偏差復(fù)審語(yǔ)料“人機(jī)”評(píng)分比對(duì)
為了使研究數(shù)據(jù)更為客觀,此次研究的第三審測(cè)試員均選取未參加過(guò)“人+機(jī)”模式測(cè)試,對(duì)計(jì)算機(jī)評(píng)分習(xí)慣不熟悉的測(cè)試員。從表3和表4可知:1.計(jì)算機(jī)、測(cè)試員、復(fù)審員三方測(cè)試比對(duì),2019年復(fù)審員評(píng)分最低,2020年計(jì)算機(jī)評(píng)分最低,初評(píng)測(cè)試員兩年評(píng)分均為最高;2.復(fù)審員與計(jì)算機(jī)評(píng)分2019年至2020年分差值越來(lái)越小,與初評(píng)測(cè)試員分差進(jìn)一步加大。這一情況是否說(shuō)明,“人+機(jī)”模式說(shuō)明了瀘州市部分省級(jí)測(cè)試員業(yè)務(wù)水平有待提高,專業(yè)能力訓(xùn)練需要加強(qiáng);專業(yè)能力強(qiáng)的復(fù)審員與計(jì)算機(jī)的評(píng)分高度一致,反映出計(jì)算機(jī)評(píng)分的準(zhǔn)確性高,亦或更熟悉計(jì)算機(jī)的復(fù)審員會(huì)自覺(jué)或不自覺(jué)地為降低與計(jì)算機(jī)的分差而迎合計(jì)算機(jī)評(píng)分,從而使復(fù)審有失公正。這一統(tǒng)計(jì)與此次研究從2019年和2020年所有偏差復(fù)審語(yǔ)料中選出的異常偏差復(fù)審語(yǔ)料50例的情況一致。從表5的統(tǒng)計(jì)數(shù)據(jù)可看出,第三審測(cè)試員的評(píng)分與第一審測(cè)試員評(píng)分一致率高達(dá)70%,而復(fù)審員與計(jì)算機(jī)評(píng)分一致率竟高達(dá)90%。即便考慮測(cè)試員業(yè)務(wù)水平差異導(dǎo)致的誤差,從統(tǒng)計(jì)數(shù)據(jù)的呈現(xiàn)上看,也讓人憂慮偏差復(fù)審這一環(huán)節(jié),復(fù)審員會(huì)自覺(jué)或不自覺(jué)地迎合計(jì)算機(jī)的評(píng)分規(guī)律評(píng)分,從而使復(fù)審失去意義。
表3 2019年偏差復(fù)審語(yǔ)料“人機(jī)”評(píng)分差比對(duì)
表4 2020年偏差復(fù)審語(yǔ)料“人機(jī)”評(píng)分差比對(duì)
表5 異常偏差復(fù)審語(yǔ)料50例“人機(jī)”評(píng)分差比對(duì)
四川省偏差復(fù)審由語(yǔ)言文字工作委員會(huì)辦公室組織,選調(diào)其他地市州國(guó)測(cè)員組織進(jìn)行。從表6數(shù)據(jù)比對(duì)可見(jiàn),機(jī)測(cè)第四題以后,復(fù)評(píng)等級(jí)變化情況不大,整體仍以等級(jí)降低占絕對(duì)高值,即便在異常偏差復(fù)審50例中也高達(dá)42%(見(jiàn)表7)。這一數(shù)據(jù)說(shuō)明:1.復(fù)審等級(jí)降低占絕對(duì)高值這一情況在計(jì)算機(jī)參與第四題測(cè)試前后沒(méi)有發(fā)生改變;2.異常偏差復(fù)審50例中的語(yǔ)料,雖因各種原因造成評(píng)分困難或分差較大,但等級(jí)不變的卻能高達(dá)58%,這說(shuō)明計(jì)算機(jī)對(duì)情況復(fù)雜、難于評(píng)分的語(yǔ)料定檔還是比較準(zhǔn)確的。此50例語(yǔ)料為2019、2020年共445例偏差復(fù)審語(yǔ)料中精選的有較強(qiáng)語(yǔ)音特征和評(píng)分爭(zhēng)議的語(yǔ)料。等級(jí)降低的21例中“二乙”降為“三甲”15人,“二甲”降為“二乙”的6人。
表6 2020年與2018年偏差復(fù)審等級(jí)變化比對(duì)
表7 異常偏差復(fù)審語(yǔ)料50例等級(jí)變化情況
1.8號(hào)語(yǔ)料
評(píng)分情況如下:第一審計(jì)算機(jī)評(píng)分23分、測(cè)試員評(píng)分29分;復(fù)審評(píng)分25分;三審評(píng)分28分。語(yǔ)料情況描述:“語(yǔ)音標(biāo)準(zhǔn)程度”定檔四檔,但因考前未做準(zhǔn)備,有效話語(yǔ)時(shí)長(zhǎng)共五個(gè)時(shí)段,共34秒左右。此語(yǔ)料計(jì)算機(jī)與一審測(cè)試員分差6分,與復(fù)審員分差2分,與三審測(cè)試員分差5分,其原因應(yīng)為:(1)計(jì)算缺時(shí)的時(shí)間差異;(2)評(píng)判無(wú)效語(yǔ)料的標(biāo)準(zhǔn)。其中計(jì)算缺時(shí)時(shí)長(zhǎng)應(yīng)為最主要的原因,計(jì)算機(jī)顯然比人工更為精確,測(cè)試員之間對(duì)時(shí)間的計(jì)算差異較大。這樣的情況同樣出現(xiàn)在4號(hào)、38號(hào)、40號(hào)、44號(hào)、47號(hào)、48號(hào)、49號(hào)語(yǔ)料上。依據(jù)《普通話水平測(cè)試大綱》(教育部、國(guó)家語(yǔ)言文字工作委員會(huì)發(fā)教語(yǔ)用〔2003〕2號(hào)文件)的評(píng)分標(biāo)準(zhǔn),說(shuō)話不足3分鐘,酌情扣分:缺時(shí)1分鐘以內(nèi)(含1分鐘),扣1分、2分、3分;缺時(shí)1分鐘以上,扣4分、5分、6分;說(shuō)話不滿30秒(含30秒)本測(cè)試項(xiàng)成績(jī)計(jì)為0分[6]。另在評(píng)分時(shí),補(bǔ)充評(píng)分標(biāo)準(zhǔn)為:(1)說(shuō)話時(shí)間不足2分鐘的,“語(yǔ)音標(biāo)準(zhǔn)程度”已得分?jǐn)?shù)再降2分;“詞匯語(yǔ)法規(guī)范程度”和“自然流暢程度”至多定為二檔,這兩項(xiàng)各自再扣1分或2分。(2)說(shuō)話不足1分鐘的,“語(yǔ)音標(biāo)準(zhǔn)程度”已得分?jǐn)?shù)再降4分;“詞匯語(yǔ)法規(guī)范程度”和“自然流暢程度”至多定為三檔,這兩項(xiàng)各自再扣3分或4分。缺時(shí)1分鐘以內(nèi)(含1分鐘)按20秒為一個(gè)檔次計(jì),缺時(shí)1分鐘以上按30秒一個(gè)檔次計(jì),時(shí)間計(jì)算相差幾秒,有可能產(chǎn)生8分至9分,甚至更大的分差。這一標(biāo)準(zhǔn)使測(cè)試員在具體實(shí)施時(shí)很難操作。測(cè)試員之間差異大,計(jì)算機(jī)與測(cè)試員之間差異更大。隨著評(píng)分方式的變化,為了考試的公平公正,國(guó)家相關(guān)部門(mén)應(yīng)重新出臺(tái)更適合目前測(cè)試方式的評(píng)分細(xì)則,減少計(jì)算機(jī)與測(cè)試員之間對(duì)“缺時(shí)”的差異,使評(píng)分更為客觀公正。
2.44號(hào)、19號(hào)、21號(hào)語(yǔ)料
評(píng)分情況如下:第一審計(jì)算機(jī)評(píng)分29分、測(cè)試員評(píng)分33分;復(fù)審評(píng)分30分;三審評(píng)分33.5分。語(yǔ)料情況描述:“語(yǔ)音標(biāo)準(zhǔn)程度”定檔四檔,“詞匯語(yǔ)法規(guī)范”和“缺時(shí)”兩項(xiàng)容易判斷,分差應(yīng)出現(xiàn)在“自然流暢度”上。由于準(zhǔn)備不充分,談話者在1∶15—2∶40區(qū)間,每一兩句出現(xiàn)2~3秒的停頓多次,2∶40—2∶48出現(xiàn)8秒停頓一次。另有兩例為19和21號(hào),將這兩例語(yǔ)料由兩名省測(cè)員進(jìn)行了第四次測(cè)試并由幾名測(cè)試員進(jìn)行了討論,較為認(rèn)可的等級(jí)均為“二乙”,與初測(cè)等級(jí)相同。經(jīng)討論認(rèn)為這兩例語(yǔ)料的共同特點(diǎn)為:(1)整體語(yǔ)音面貌和語(yǔ)音標(biāo)準(zhǔn)程度尚可定為四檔;(2)由于受測(cè)者在說(shuō)話初始階段,因緊張等因素,自然流暢度受到影響,但隨著自我調(diào)整慢慢恢復(fù)到正常狀態(tài)。其中21號(hào)語(yǔ)料此特點(diǎn)最為明顯。三次評(píng)分均為計(jì)算機(jī)最低,復(fù)審員其次,第三測(cè)最高。其中初評(píng)與第三次測(cè)試的測(cè)試員評(píng)分分差低于1分,而與計(jì)算機(jī)分差為3~4分,和復(fù)審員分差2~3分。這一現(xiàn)象說(shuō)明計(jì)算機(jī)的評(píng)分過(guò)于死板,忽略了人在情緒變化時(shí)語(yǔ)言流暢度正常的變化,而一般的測(cè)試員對(duì)這一現(xiàn)象有更包容的態(tài)度。
停頓是一種自然的言語(yǔ)現(xiàn)象,停頓的頻次和長(zhǎng)短常常被用作言語(yǔ)流暢與非流暢的量化標(biāo)準(zhǔn)。關(guān)于停頓的頻次和時(shí)長(zhǎng),國(guó)內(nèi)外語(yǔ)言學(xué)者都做了許多的研究,但在自然狀態(tài)下的言語(yǔ)過(guò)程中,影響停頓的因素很多,例如年齡、性別、習(xí)慣、情緒等,因此并未有公認(rèn)的較為客觀的界定流暢與非流暢的明確標(biāo)準(zhǔn)。這使計(jì)算機(jī)和測(cè)試員在判斷“自然流暢”“基本流暢”“語(yǔ)言不連貫”上很難統(tǒng)一。由于沒(méi)有數(shù)據(jù),無(wú)法知道計(jì)算機(jī)是怎樣給一段3分鐘話語(yǔ)的流暢度進(jìn)行評(píng)分的,加之《普通話水平測(cè)試大綱》上并沒(méi)有明確的頻次和長(zhǎng)短的參考數(shù)值,測(cè)試員基本上是依據(jù)自己的專業(yè)和生活經(jīng)驗(yàn)來(lái)進(jìn)行評(píng)分。從評(píng)分的情況對(duì)比來(lái)看,測(cè)試員的“人腦”似乎比“電腦”在評(píng)分標(biāo)準(zhǔn)上更具靈活性和包容度,能依據(jù)說(shuō)話人的年齡、語(yǔ)言習(xí)慣、情緒等作出判斷,因此普遍評(píng)分偏高。除了以上3例語(yǔ)料,在這50例語(yǔ)料中,還有多個(gè)語(yǔ)料亦是這種情況。
3.32號(hào)、40號(hào)語(yǔ)料
評(píng)分情況如下:第一審計(jì)算機(jī)評(píng)分30分、測(cè)試員33.5分;復(fù)審評(píng)分30分;三審評(píng)分34.8分。語(yǔ)料情況描述:語(yǔ)音面貌定檔三檔(扣4分)或四檔(扣5分),此語(yǔ)料在“詞匯語(yǔ)法規(guī)范”“自然流暢度”和“缺時(shí)”上無(wú)爭(zhēng)議。評(píng)分差應(yīng)為錄音效果不好(話筒距離受測(cè)者太近或錄音設(shè)備故障)導(dǎo)致對(duì)“語(yǔ)音標(biāo)準(zhǔn)程度”的扣分。40號(hào)語(yǔ)料也是這種情況。40號(hào)評(píng)分情況如下:第一審計(jì)算機(jī)評(píng)分30分、測(cè)試員33.5分;復(fù)審評(píng)分31分;三審評(píng)分34分。為此,筆者組織了兩名測(cè)試員第四次測(cè)試和討論。結(jié)果為:32號(hào)和40號(hào)語(yǔ)料排除掉錄音效果干擾,單從整體語(yǔ)音面貌印象來(lái)判斷,32號(hào)為二乙高段,40號(hào)為二乙中段。有研究認(rèn)為,“人腦”可以自動(dòng)“修復(fù)”因外界因素導(dǎo)致的語(yǔ)音信息不全,排除干擾,從而獲得更多的信息。而這也是導(dǎo)致計(jì)算機(jī)和測(cè)試員面對(duì)此類語(yǔ)料分差大的原因。如果上述兩則語(yǔ)料不是受測(cè)者自身操作不當(dāng),那么提高計(jì)算機(jī)的語(yǔ)音識(shí)別能力,縮小與“人腦”的差距,會(huì)讓考試更為公正。
本次研究,采用了問(wèn)卷調(diào)查法,對(duì)參與初審的測(cè)試員進(jìn)行了測(cè)試感受的問(wèn)卷調(diào)查。此次問(wèn)卷共7個(gè)問(wèn)題,共20名瀘州市語(yǔ)言文字工作委員會(huì)測(cè)試員參與,有效問(wèn)卷14份,調(diào)查結(jié)果如下:
問(wèn)卷問(wèn)題分別為:1.測(cè)試的過(guò)程中,你是否有不自覺(jué)地根據(jù)電腦的評(píng)分特征評(píng)分的行為?2.測(cè)試的過(guò)程中,你是否會(huì)為減少偏差分?jǐn)?shù),根據(jù)電腦的評(píng)分特征迎合電腦評(píng)分?3.你認(rèn)為機(jī)測(cè)與人測(cè)分?jǐn)?shù)偏差最大的是哪項(xiàng)?4.你認(rèn)為機(jī)測(cè)與人測(cè)分?jǐn)?shù)偏差最小的是哪項(xiàng)?5.你認(rèn)為機(jī)測(cè)與人測(cè)的分?jǐn)?shù)偏差是否能接受?6.你認(rèn)為電腦測(cè)試的最終結(jié)果是否可信?7.你認(rèn)為電腦會(huì)不會(huì)最終完全取代測(cè)試員?
從問(wèn)卷調(diào)查的結(jié)果,可以分析出以下信息:1.測(cè)試員有可能在長(zhǎng)期的測(cè)試實(shí)踐中與計(jì)算機(jī)“磨合”,自覺(jué)或不自覺(jué)地迎合計(jì)算機(jī)進(jìn)行評(píng)分,從而使看似公平的測(cè)試有最終成為計(jì)算機(jī)“一言堂”的風(fēng)險(xiǎn)。2.從測(cè)試員主觀感受來(lái)看,“詞匯、語(yǔ)法規(guī)范程度”評(píng)分結(jié)果偏差最小,“無(wú)效話語(yǔ)界定”評(píng)分結(jié)果偏差最大。3.大部分測(cè)試員認(rèn)為機(jī)測(cè)與人測(cè)的分?jǐn)?shù)偏差是能接受的,并認(rèn)為電腦測(cè)試的最終結(jié)果基本可信。4.大部分測(cè)試員認(rèn)為電腦不會(huì)完全取代測(cè)試員,認(rèn)為普通話水平測(cè)試是仍需要測(cè)試員參與的。
從本次研究數(shù)據(jù)分析的結(jié)果,可以得出如下的結(jié)論:普通話水平測(cè)試機(jī)評(píng)第四題“命題說(shuō)話”測(cè)試成績(jī)基本可信,大部分測(cè)試工作者對(duì)“人+機(jī)”測(cè)試模式及測(cè)試結(jié)果是認(rèn)可的。但第四題“命題說(shuō)話”測(cè)試目的,是測(cè)查應(yīng)試人在無(wú)文字憑借的情況下,使用普通話進(jìn)行言語(yǔ)表達(dá)和交際的能力。不僅要測(cè)試語(yǔ)音標(biāo)準(zhǔn)程度,還要測(cè)試詞匯語(yǔ)法規(guī)范程度,更要測(cè)試其使用普通話時(shí)的說(shuō)話語(yǔ)感、自然流暢度。因此“人+機(jī)”模式仍有如下問(wèn)題需要解決:1.測(cè)試員、復(fù)審員在長(zhǎng)期的測(cè)試實(shí)踐中與計(jì)算機(jī)“磨合”,自覺(jué)或不自覺(jué)地迎合計(jì)算機(jī)進(jìn)行評(píng)分,從而使看似公平的測(cè)試有最終成為計(jì)算機(jī)“一言堂”的風(fēng)險(xiǎn)。2.計(jì)算機(jī)、測(cè)試員、復(fù)審員三方測(cè)試比對(duì),計(jì)算機(jī)評(píng)分最低,最為嚴(yán)格,而這種嚴(yán)格與第四題測(cè)試目的不符,顯得過(guò)于“嚴(yán)苛”。之前有研究者提出計(jì)算機(jī)在前三題的測(cè)試中存在以下問(wèn)題:“語(yǔ)音標(biāo)準(zhǔn)程度”的評(píng)測(cè),“正誤”辨識(shí)度高,“缺陷”辨識(shí)不準(zhǔn)確;評(píng)測(cè)時(shí)“字化”現(xiàn)象明顯,對(duì)整體的停連、輕重、節(jié)奏、流暢度把握不準(zhǔn)確;對(duì)語(yǔ)調(diào)、協(xié)同發(fā)音、音節(jié)韻律等具有“模糊性”的語(yǔ)音現(xiàn)象不能準(zhǔn)確地處理判斷。這些問(wèn)題最終使計(jì)算機(jī)評(píng)分普遍低于測(cè)試員,從而造成了“嚴(yán)苛”這一現(xiàn)象。由于此次研究時(shí)間偏短,數(shù)據(jù)不夠充分,未能作進(jìn)一步探討,但從已知的數(shù)據(jù)看,計(jì)算機(jī)在“自然流暢程度”和“缺時(shí)”的評(píng)分上與測(cè)試員有較大分歧,且評(píng)分較低。3.計(jì)算機(jī)對(duì)錄音效果要求高,錄音語(yǔ)料出現(xiàn)意外干擾會(huì)嚴(yán)重影響評(píng)分的準(zhǔn)確性。
通過(guò)此次研究,筆者對(duì)今后普通話測(cè)試工作有如下建議:1.普通話測(cè)試應(yīng)緊跟科技發(fā)展的步伐,不斷完善測(cè)試系統(tǒng)平臺(tái)的各項(xiàng)工作,進(jìn)一步解決計(jì)算機(jī)語(yǔ)音識(shí)別系統(tǒng)存在的技術(shù)性問(wèn)題;采集更多的語(yǔ)料數(shù)據(jù),完善數(shù)據(jù)庫(kù);完善系統(tǒng)管理功能;緊跟時(shí)代特征,完善測(cè)試題庫(kù)建設(shè)。2.建立協(xié)調(diào)互補(bǔ)的多維度評(píng)分體系和測(cè)試管理體系。如:評(píng)分差異最大的“無(wú)效話語(yǔ)界定”可否將評(píng)分細(xì)則進(jìn)一步細(xì)化,以減少評(píng)分偏差;“缺時(shí)”扣分計(jì)算機(jī)比測(cè)試員更精準(zhǔn),這項(xiàng)評(píng)分是否可由計(jì)算機(jī)獨(dú)立完成,測(cè)試員不再參與;“自然流暢度”評(píng)分,由于測(cè)試員在評(píng)分標(biāo)準(zhǔn)把握上更具靈活性和包容度,能依據(jù)說(shuō)話人的年齡、語(yǔ)言習(xí)慣、情緒等作出判斷,更符合第四題的測(cè)試目的,能否由測(cè)試員獨(dú)立評(píng)分或測(cè)試員評(píng)分權(quán)重更大;3.應(yīng)處理好計(jì)算機(jī)與測(cè)試員之間的協(xié)作關(guān)系。隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,計(jì)算機(jī)將更多地參與到國(guó)家各級(jí)各類考評(píng)測(cè)試中,處理好“人機(jī)”關(guān)系是不得不思考的問(wèn)題?!叭藱C(jī)”誰(shuí)為“主導(dǎo)”,誰(shuí)為“輔助”?揚(yáng)長(zhǎng)避短,充分發(fā)揮“人”與“機(jī)”各自的優(yōu)勢(shì),才能使測(cè)試更加客觀、公正。