摘要:作者利用自主研發(fā)的英語(yǔ)語(yǔ)音計(jì)算機(jī)測(cè)試系統(tǒng)先后對(duì)200名英語(yǔ)專業(yè)在校生的英語(yǔ)語(yǔ)音進(jìn)行計(jì)算機(jī)測(cè)試,并將其成績(jī)與傳統(tǒng)語(yǔ)音測(cè)試成績(jī)作對(duì)比分析,給出誤差修正公式及降低誤差的方法。
關(guān)鍵詞:英語(yǔ)語(yǔ)音;測(cè)試;誤差;分析
中圖分類號(hào):TP311? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2023)13-0113-03
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID) :
0 引言
隨著語(yǔ)音合成、輸出和語(yǔ)音識(shí)別技術(shù)的出現(xiàn),使英語(yǔ)語(yǔ)音計(jì)算機(jī)測(cè)試成為可能,現(xiàn)階段筆者已經(jīng)研發(fā)了一套英語(yǔ)語(yǔ)音計(jì)算機(jī)測(cè)試系統(tǒng)軟件[1],它能利用計(jì)算機(jī)對(duì)學(xué)生的英語(yǔ)語(yǔ)音判斷識(shí)別并給出相應(yīng)的成績(jī),與此同時(shí)還進(jìn)行同步錄音,以便考試結(jié)束后教師檢查修正學(xué)生的英語(yǔ)語(yǔ)音成績(jī)。
英語(yǔ)語(yǔ)音計(jì)算機(jī)測(cè)試是一個(gè)新的領(lǐng)域,它需要計(jì)算機(jī)代替人腦去判斷測(cè)試者的語(yǔ)音并給出相應(yīng)的分值,因而其測(cè)試結(jié)果的準(zhǔn)確度將成為該技術(shù)能否被廣泛應(yīng)用的關(guān)鍵。此前,筆者已經(jīng)開發(fā)了一套英語(yǔ)語(yǔ)音計(jì)算機(jī)測(cè)試系統(tǒng),并組織紹興文理學(xué)院外國(guó)語(yǔ)學(xué)院英語(yǔ)專業(yè)學(xué)生進(jìn)行測(cè)試,但是發(fā)現(xiàn)測(cè)試的成績(jī)與傳統(tǒng)教師評(píng)分的成績(jī)存在一定的誤差。分析原因可能與學(xué)生機(jī)器操作的熟練程度以及機(jī)器評(píng)分的成績(jī)計(jì)算公式有關(guān),為了讓計(jì)算機(jī)測(cè)試結(jié)果更加準(zhǔn)確,為此,筆者通過(guò)兩組實(shí)驗(yàn)對(duì)比分析,再結(jié)合費(fèi)希納對(duì)數(shù)定律的公式對(duì)計(jì)算機(jī)測(cè)試成績(jī)進(jìn)行優(yōu)化,并跟傳統(tǒng)的教師評(píng)分進(jìn)行優(yōu)良率分析比對(duì),初步找出控制誤差的方法。
1 理論依據(jù)
1.1 心理量概念
心理量指人在受到外界刺激而引起的自身知覺(jué)的大小,觸覺(jué)心理量是指由外部接觸刺激引起的知覺(jué)經(jīng)驗(yàn)[2]。
1.2 物理量概念
物理量是指能準(zhǔn)確表示物體狀態(tài)以及物理變化的程度。如長(zhǎng)寬高、運(yùn)行速度、溫度、做功、電阻以及電流等。
1.3 差別感受性和差別感覺(jué)閾限
差別感受性是指人剛能覺(jué)察出兩個(gè)同類刺激物之間最小差異的能力,而這兩個(gè)同類刺激物之間的最小差異量稱為差別感覺(jué)閾限。差別感受性和差別感覺(jué)閾限在數(shù)值上是成反比關(guān)系的。
德國(guó)生理學(xué)家韋伯發(fā)現(xiàn),差別感覺(jué)閾限并不是固定的值,而是隨著原刺激量的增加而增加,但它們的比值卻是一個(gè)常數(shù),這就是韋伯定律:
[K=ΔI/I] (1)
式中:[I]表示原刺激量;[ΔI]表示刺激增減量;[K]代表常數(shù)。
1.4 費(fèi)希納對(duì)數(shù)定律
1860年,德國(guó)心理學(xué)家費(fèi)希納在研究人們對(duì)心理刺激量的變化時(shí)提出了心理量的概念。指出韋伯定律中的最小的可覺(jué)差(Just-Noticeable Difference,JND) [3]是對(duì)刺激量的一個(gè)最小變化的覺(jué)察量,并將其作為測(cè)量心理量變化的單位。當(dāng)刺激量增大時(shí),產(chǎn)生的[ΔJND]的變化量就會(huì)增大,根據(jù)韋伯定律在心理量增大的情況下,如要感知到同樣的[ΔJND]差異,就需要更大的刺激變化。而心理量跟刺激變化的關(guān)系為:
[K=S/lnR] (2)
式中:[S]是心理量;[R]是刺激量;[K]是常數(shù);其中[R]與[S]之間是一種對(duì)數(shù)關(guān)系。這一規(guī)律稱為費(fèi)希納定律。
準(zhǔn)確地講,費(fèi)希納定律指出了:由刺激引起心理量[S]變化值與刺激強(qiáng)度[F]的變化值成對(duì)數(shù)之積。如圖1,[AB]之間的差異在刺激差異量上與[BC]之間不等,但引起的心理量相等,都是2個(gè)最小可察覺(jué)差異。從數(shù)學(xué)角度看當(dāng)心理量以算術(shù)級(jí)數(shù)(1-2-3) 增長(zhǎng)時(shí),刺激能量以幾何級(jí)數(shù)(1-4-9) 增長(zhǎng),心理量與刺激強(qiáng)度之間在數(shù)量上是一種對(duì)數(shù)關(guān)系[2]。
由圖1關(guān)系費(fèi)希納推出S與F之間的關(guān)系為:
[S =m+nln(F+d)] (3)
式中:[m]、[n]以及[d]為常數(shù)。
2 軟件應(yīng)用
筆者利用自己開發(fā)的英語(yǔ)語(yǔ)音測(cè)試系統(tǒng)軟件對(duì)紹興文理學(xué)院外語(yǔ)專業(yè)2個(gè)年段的學(xué)生(總共200人)的英語(yǔ)語(yǔ)音進(jìn)行了計(jì)算機(jī)測(cè)試和傳統(tǒng)人工測(cè)試,并將兩者的成績(jī)結(jié)果進(jìn)行了比較分析。其中第一組人員經(jīng)過(guò)反復(fù)練習(xí)熟悉計(jì)算機(jī)語(yǔ)音考試的要領(lǐng)后進(jìn)行機(jī)考測(cè)試,第二組人員則直接進(jìn)行計(jì)算機(jī)語(yǔ)音考試。
語(yǔ)音識(shí)別的具體過(guò)程就是根據(jù)模式匹配原理和一些相似性度量規(guī)則,在參考模式數(shù)據(jù)庫(kù)中對(duì)未知模式與參考模型進(jìn)行匹配[4]。軟件通過(guò)波形訓(xùn)練和語(yǔ)音測(cè)試模塊來(lái)不斷改進(jìn)學(xué)生的語(yǔ)音訓(xùn)練,界面如圖2所示。
波形訓(xùn)練模塊可以使學(xué)習(xí)者矯正發(fā)音方式,再通過(guò)語(yǔ)音測(cè)試模塊分別從單詞、單句以及段落綜合評(píng)分,最終測(cè)算出學(xué)習(xí)者最終得分。
3 利用費(fèi)希納對(duì)數(shù)定律對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行誤差矯正
為防止出現(xiàn)以偏概全的現(xiàn)象,筆者在20級(jí)和21級(jí)英語(yǔ)專業(yè)新生中各抽取100人進(jìn)行測(cè)試。
3.1 實(shí)驗(yàn)一組
測(cè)試對(duì)象:2020級(jí)英語(yǔ)專業(yè)新生100人,且經(jīng)過(guò)反復(fù)訓(xùn)練后再進(jìn)行計(jì)算機(jī)語(yǔ)音測(cè)試。
測(cè)試內(nèi)容:2個(gè)段落、7個(gè)單句、6個(gè)單詞
實(shí)驗(yàn)步驟:學(xué)生在測(cè)試電腦語(yǔ)音時(shí),系統(tǒng)進(jìn)行同步錄音,測(cè)試結(jié)束后,由教師分別對(duì)錄音文件進(jìn)行線上評(píng)分得到教師評(píng)測(cè)成績(jī)和電腦評(píng)測(cè)成績(jī)?nèi)鐖D3。
從圖3可以看出:教師的評(píng)分區(qū)間控制在60~80之間且比較穩(wěn)定,而計(jì)算機(jī)測(cè)評(píng)成績(jī)起落較大,且通過(guò)與教師評(píng)分成績(jī)的平均絕對(duì)誤差計(jì)算達(dá)到17.2。
3.2 實(shí)驗(yàn)二組
測(cè)試對(duì)象:選取了2021級(jí)英語(yǔ)專業(yè)新生100人,沒(méi)有經(jīng)過(guò)訓(xùn)練直接進(jìn)行語(yǔ)音測(cè)試。
測(cè)試內(nèi)容:2個(gè)段落、4個(gè)單句、10個(gè)單詞。
實(shí)驗(yàn)步驟:學(xué)生在測(cè)試電腦語(yǔ)音時(shí),系統(tǒng)進(jìn)行同步錄音,測(cè)試結(jié)束后,由教師分別對(duì)錄音文件進(jìn)行線上評(píng)分得到教師評(píng)測(cè)成績(jī)和電腦評(píng)測(cè)成績(jī)?nèi)鐖D4。
從圖4可以看出:教師的評(píng)分區(qū)間控制在60~80之間且比較穩(wěn)定,計(jì)算機(jī)測(cè)評(píng)成績(jī)起落仍較大,且通過(guò)與教師評(píng)分成績(jī)的平均絕對(duì)誤差計(jì)算達(dá)到14.9。
從以上兩組實(shí)驗(yàn)得出,計(jì)算機(jī)進(jìn)行語(yǔ)音測(cè)評(píng)的分?jǐn)?shù)和教師進(jìn)行傳統(tǒng)語(yǔ)音測(cè)評(píng)的分?jǐn)?shù),它們的絕對(duì)誤差都在10分以上,且這兩個(gè)平均絕對(duì)誤差值相差不大,這說(shuō)明計(jì)算機(jī)評(píng)分雖然分值起落比較大但是和教師評(píng)分的絕對(duì)誤差值是相對(duì)穩(wěn)定的,兩者之間存在某種系統(tǒng)誤差,需要通過(guò)某種公式進(jìn)行優(yōu)化計(jì)算機(jī)測(cè)評(píng)成績(jī)。
3.3 誤差分析處理
傳統(tǒng)測(cè)試教師判斷學(xué)生的語(yǔ)音成績(jī)是從心理量角度來(lái)評(píng)分。傳統(tǒng)測(cè)試評(píng)分是指教師在受到學(xué)生語(yǔ)音刺激后根據(jù)引起的自身知覺(jué)的大小給出評(píng)分,所以傳統(tǒng)測(cè)試的成績(jī)是以心理量的方式顯示的。計(jì)算機(jī)測(cè)試是機(jī)器根據(jù)語(yǔ)音識(shí)別引擎來(lái)判斷學(xué)生語(yǔ)音的成績(jī)是從物理量角度來(lái)評(píng)分。計(jì)算機(jī)測(cè)試評(píng)分是計(jì)算機(jī)對(duì)所接收到的語(yǔ)音信號(hào)的一種刺激強(qiáng)度的變化量來(lái)給出評(píng)分,所以計(jì)算機(jī)測(cè)試的成績(jī)是以刺激強(qiáng)度的方式顯示的。
根據(jù)費(fèi)希納對(duì)數(shù)定律,傳統(tǒng)測(cè)試成績(jī)和計(jì)算機(jī)測(cè)試成績(jī)應(yīng)該滿足心理量[S]和刺激強(qiáng)度[F]的關(guān)系,即它們之間滿足的式(3) 的關(guān)系。經(jīng)過(guò)筆者多次測(cè)試比較(具體過(guò)程略),最終將計(jì)算機(jī)測(cè)試的成績(jī)通過(guò)以下公式換算成心理量表示:
[S=LN(F)*17.4] (4)
式中:[S]為新計(jì)算機(jī)測(cè)試成績(jī)(以心理量為評(píng)分標(biāo)準(zhǔn));[F]為原計(jì)算機(jī)測(cè)試成績(jī)(以刺激強(qiáng)度為評(píng)分標(biāo)準(zhǔn))。
經(jīng)過(guò)式(4) 處理后得到新計(jì)算機(jī)測(cè)試成績(jī),再將新計(jì)算機(jī)測(cè)試成績(jī)與原來(lái)的教師測(cè)評(píng)成績(jī)對(duì)比,得到圖5、圖6。
從圖5、圖6中可以看出,教師測(cè)評(píng)成績(jī)和電腦測(cè)評(píng)成績(jī)兩者的評(píng)分曲線基本上吻合,平均絕對(duì)誤差分別為4.86和6.25,較未使用費(fèi)希納對(duì)數(shù)定律之前的電腦測(cè)試成績(jī)有較大的準(zhǔn)確率提升,說(shuō)明按照費(fèi)希納對(duì)數(shù)定律進(jìn)行誤差矯正能夠?qū)⒂?jì)算機(jī)的測(cè)試成績(jī)跟人工測(cè)試成績(jī)基本符合。
4 對(duì)糾正后的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析
從圖5、圖6中可以看出,教師的測(cè)評(píng)成績(jī)和計(jì)算機(jī)測(cè)評(píng)成績(jī)基本吻合,平均絕對(duì)誤差都在10以內(nèi),通過(guò)數(shù)據(jù)分析統(tǒng)計(jì)得到兩者的成績(jī)絕對(duì)誤差在10分以內(nèi)的均占比達(dá)到97%。效度計(jì)算公式為:
r2=SV2/SX2 (5)
其中r為效度系數(shù),SV2為電腦測(cè)評(píng)方差,SX2為教師測(cè)評(píng)方差。第一組效度為0.79,第二組效度為0.70,可見(jiàn)兩組的成績(jī)對(duì)比都能達(dá)到SPSS效度最優(yōu)區(qū)間0.5~0.8之間。
4.1 優(yōu)良及格率分析
英語(yǔ)語(yǔ)音評(píng)分本身就是主觀性比較強(qiáng)的一種評(píng)分方式,因此對(duì)于分?jǐn)?shù)上存在一定的差異性應(yīng)該被允許的,一般設(shè)定絕對(duì)誤差在5分以內(nèi)的屬于正常誤差范圍。設(shè)定大于80以上為優(yōu)秀,70至80之間為中等,60至70之間為及格,60以下為不及格。進(jìn)行優(yōu)良率分析如圖7,從中看到第一組的教師測(cè)評(píng)優(yōu)良率分布和機(jī)器測(cè)評(píng)的優(yōu)良率分布基本一致;其中機(jī)器測(cè)評(píng)出現(xiàn)的不及格率7%,經(jīng)過(guò)統(tǒng)計(jì)分析,其中與教師測(cè)評(píng)分差5分以內(nèi)的占不及格人數(shù)的71%即5人,如果對(duì)這5人進(jìn)行一定的加權(quán)使其及格,那么第一組機(jī)器測(cè)評(píng)及格率將從48%達(dá)到53%,不及格率將變成2%,屬于正常的誤差范圍。
第二組的機(jī)器測(cè)評(píng)和教師測(cè)評(píng)在優(yōu)秀率和中等率上的百分比差別超過(guò)10個(gè)百分點(diǎn),經(jīng)過(guò)統(tǒng)計(jì)分析,教師測(cè)評(píng)為優(yōu)秀的人員,在機(jī)器測(cè)評(píng)中都被列為中等,且兩者的分差超過(guò)5分,從第二組的優(yōu)良率看,機(jī)器評(píng)分大部分集中在中等,優(yōu)秀率不高。
4.2 原因分析
1) 對(duì)于語(yǔ)音機(jī)考的熟練程度。第二組學(xué)生由于初次進(jìn)行計(jì)算機(jī)語(yǔ)音測(cè)試,對(duì)計(jì)算機(jī)語(yǔ)音測(cè)試的方法還不習(xí)慣,還沒(méi)能掌握好測(cè)試的技巧。段落測(cè)試和單詞單句測(cè)試的計(jì)算機(jī)評(píng)判方法不同,因而朗讀的方法也要求不同,一般來(lái)說(shuō)段落應(yīng)該朗讀得慢而清晰,單詞單句應(yīng)該朗讀得快而流暢。語(yǔ)音好的學(xué)生習(xí)慣連讀,但對(duì)于段落識(shí)別來(lái)說(shuō)連讀反而拉低了成績(jī)。
2) 英音和美音的區(qū)別。傳統(tǒng)測(cè)試中英語(yǔ)語(yǔ)音成績(jī)好的學(xué)生往往喜歡美式發(fā)音,而本次機(jī)考的語(yǔ)音識(shí)別標(biāo)準(zhǔn)音是以英式發(fā)音為主。因此發(fā)美音的學(xué)生在計(jì)算機(jī)測(cè)試中成績(jī)就偏差。
3) 軟件在處理識(shí)別的語(yǔ)音時(shí)也存在一定的誤差。
5 措施
5.1 提高技能、細(xì)化考題
平時(shí)組織學(xué)生經(jīng)常性訓(xùn)練英語(yǔ)語(yǔ)音,熟悉機(jī)考的發(fā)音技巧,確保在機(jī)考測(cè)試中能盡量避免因不熟練而引起的失分;通過(guò)對(duì)整個(gè)試卷考題類型分類、細(xì)化 ,并且根據(jù)教學(xué)內(nèi)容進(jìn)行權(quán)重設(shè)定使評(píng)分依據(jù)明朗化[5]。
5.2 多種模型、提升信度
計(jì)算機(jī)進(jìn)行語(yǔ)音測(cè)試時(shí),可以提供發(fā)音選項(xiàng),即確保發(fā)美音的學(xué)生用美音的標(biāo)準(zhǔn)音進(jìn)行測(cè)試,發(fā)英音的學(xué)生用英音標(biāo)準(zhǔn)進(jìn)行測(cè)試,從而提高分?jǐn)?shù)的可信度。
5.3 同步錄音、方便核查
學(xué)生在語(yǔ)音機(jī)考時(shí)進(jìn)行同步錄音,這樣以便發(fā)現(xiàn)判分嚴(yán)重失誤時(shí)可以及時(shí)人工介入,確保分?jǐn)?shù)準(zhǔn)確性。
6 結(jié)束語(yǔ)
基于費(fèi)希納對(duì)數(shù)定律的計(jì)算機(jī)英語(yǔ)語(yǔ)音評(píng)分測(cè)試誤差分析,使得語(yǔ)音識(shí)別架構(gòu)下英語(yǔ)口語(yǔ)考試輔助評(píng)分系統(tǒng)避免了教師評(píng)分中的缺陷[6],通過(guò)計(jì)算機(jī)測(cè)試成績(jī)和教師測(cè)評(píng)成績(jī)的對(duì)比分析和誤差調(diào)整,使得計(jì)算機(jī)英語(yǔ)語(yǔ)音測(cè)試系統(tǒng)更加具有人性化,也為計(jì)算機(jī)英語(yǔ)語(yǔ)言測(cè)試這一新領(lǐng)域開辟道路。
參考文獻(xiàn):
[1] 羅軍平.利用語(yǔ)音識(shí)別引擎實(shí)現(xiàn)電腦英語(yǔ)語(yǔ)音測(cè)試的探索[J].中國(guó)教育技術(shù)裝備,2005(1):19-20.
[2] 沈春山,聶余滿,葛運(yùn)建.機(jī)器人傳感器觸覺(jué)心理量檢測(cè)的研究[J].傳感器技術(shù),2005(4):11-12,15.
[3] B.H.坎特威茨.實(shí)驗(yàn)心理學(xué):掌握心理學(xué)的研究[M].郭秀艷,譯.上海:華東師范大學(xué)出版社,2001:208-209.
[4] 曹課興.基于模糊理論的大學(xué)英語(yǔ)語(yǔ)音測(cè)試系統(tǒng)研究[J].電腦知識(shí)與技術(shù),2019,15(9):197-198.
[5] 陳香美,岳峰.量化理論在提高英語(yǔ)語(yǔ)音測(cè)試評(píng)分反饋效度的研究[J].福建商業(yè)高等??茖W(xué)校學(xué)報(bào),2012(4):11-15.
[6] 田偉偉.語(yǔ)音識(shí)別架構(gòu)下英語(yǔ)口語(yǔ)考試輔助評(píng)分系統(tǒng)[J].自動(dòng)化技術(shù)與應(yīng)用,2022,41(5):168-170,179.
【通聯(lián)編輯:謝媛媛】