• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      概化理論下英語翻譯測試評分者的信度研究

      2020-07-07 12:52:12
      關(guān)鍵詞:概化方差分量

      閻 莉

      (武漢工程大學(xué) 外語學(xué)院 湖北 武漢:430073)

      翻譯測試是翻譯教學(xué)中的一個重要環(huán)節(jié),也是國內(nèi)外多種外語水平考試中常用的考試題型。翻譯測試是在外語教學(xué)和翻譯教學(xué)中用來評估學(xué)生語言能力和翻譯能力的重要方法及手段[1]。但翻譯作為主觀型測試,受試者翻譯能力的判斷取決于評分者按照評分標準得出的分數(shù),由于評分者之間的差異,評分可能存在不一致性,而評分者的信度是衡量測試質(zhì)量、保證其公平公正的主要指標[2]。因此,評分者因素已成為可能影響課堂和標準化評估環(huán)境中評估翻譯的分數(shù)有效性和可靠性的因素。

      目前,許多學(xué)者在翻譯測試的構(gòu)建上已有較為深入的理論思考[3-4];在測試方法和評分標準、評分量表、評分信度等方面也展開相關(guān)研究[5-7]。但是,以概化理論深入挖掘翻譯測試的有效性和可靠性的研究鮮有涉及,尤其是評閱人培訓(xùn)背景對英語翻譯評估的影響研究較少。

      鑒于此,本研究運用概化理論(Generalizability Theory)對兩組不同背景評分人進行檢驗,通過概化(Generalizability,G)和決策(Decision,D)研究,審視不同培訓(xùn)背景評分者對英語翻譯測試的可靠性影響。

      1 概化理論:翻譯評估研究的框架

      概化理論是經(jīng)典測量理論與方差分析技術(shù)形成一種現(xiàn)代測量評價的理論。概化理論也是一種統(tǒng)計方法,可以識別得分方差和錯誤的來源,并估計這些方差成分對評分一致性和準確性的影響[8]。研究人員在ESL/EFL主觀性評估中廣泛使用了概化理論來檢驗評分的信度或結(jié)構(gòu)效度[9-10]。概化理論分析問題的基本過程主要包括兩部分,即概化(G)研究和決策(D)研究。概化(G)研究按照總差異百分比檢查設(shè)計中的每個差異成分。例如,在按考生、任務(wù)和評分者(p×t×r)的交叉設(shè)計中,G研究可以提供以下七個方差成分的信息:考生(p),任務(wù)(t),評分者(r),考生和任務(wù)的交互作用(p×t),考生和評分者的交互作用(p×r),任務(wù)和評分者的交互作用(t×r)和評分者、任務(wù)和考生之間的交互作用(p×t×r)(即殘差,為評分者、任務(wù)和考生之間無法解釋的系統(tǒng)和非系統(tǒng)錯誤源); 決策(D)研究是對概化(G)研究所得數(shù)據(jù)的轉(zhuǎn)換和解釋環(huán)節(jié),為實驗?zāi)康奶峁┎煌男哦群托Ф戎笜?。具體來說,D研究表明需要多少項任務(wù)和評估者數(shù)量才能達到特定的評分可靠性(即分別用于規(guī)范參考和標準參考解釋的概化系數(shù)和可靠性系數(shù))。

      在過去的三十年中,概化理論被越來越多地用作指導(dǎo)主觀性評估研究的理論框架[9-12]。概化理論為翻譯評估研究提供了非常強大的理論框架。因此,本文應(yīng)用概化理論為指導(dǎo)框架,采用隨機交叉設(shè)計來探索評分者對英漢翻譯評估的影響,對翻譯的評分信度進行檢驗。

      2 研究過程

      2.1 翻譯樣本的選擇

      參加本研究的翻譯樣本來自湖北某大學(xué)非英語專業(yè)大二的學(xué)生。11名學(xué)生都參加過2018年6月的CET-4考試,其中,有9位學(xué)生通過了四級考試,有2位學(xué)生未通過四級考試。筆者本人為他們的大學(xué)英語任課教師,并確認測試的漢譯英段落翻譯任務(wù)均為學(xué)生未接觸過的試題,征得學(xué)生同意后,在2019年6月CET-4考試結(jié)束的后兩周,分配學(xué)生30分鐘時間,進行翻譯測試,第一次為文化類翻譯,第二次為經(jīng)濟類翻譯。然后,筆者按照CET-4翻譯考試評分標準進行初評,學(xué)生的初評分數(shù)覆蓋了5分檔(4-6分)、8分檔(7-9分)、11分檔(10-12分)和14分檔(13-15分)4個分數(shù)檔。最后這11名學(xué)生的22篇翻譯由20名不同培訓(xùn)背景評分者進行評分。

      2.2 評分者的信息

      參與本項研究的評分者來自省屬3所不同高校,均為大學(xué)英語課程專任教師。20名參與者包括10名受聘于四級評閱中心的評分員和10名在職但無改卷培訓(xùn)經(jīng)歷的老師。大部分的參與者年齡在35至50歲之間,20名參與者包括2名本科教育背景教師,16名碩士教育背景教師和2位博士教育背景教師。

      有培訓(xùn)背景的評分員指參加過大學(xué)英語考試委員會四級翻譯閱卷培訓(xùn)經(jīng)歷的老師。評分員在每次大學(xué)英語四級閱卷前,培訓(xùn)組的組長會仔細解讀翻譯的測評標準,評分員在熟悉標準之后進行網(wǎng)上試評閱卷,評分員先獨立完成A組試評,然后網(wǎng)上閱卷系統(tǒng)會給出這個評分員的評分情況和專家的統(tǒng)一評分,以幫助評分員更好地了解熟悉評分細則,掌握評分的依據(jù)。通過了A組試評以后,那么評分員再進入B組進行進一步的試評。通過兩輪培訓(xùn)后,在閱卷組長和專家們的監(jiān)控下,達到評閱的標準,才可進入真正的閱卷工作。

      而另一組是沒有經(jīng)過正式閱卷培訓(xùn)的老師,但這些英語老師長期在大學(xué)英語教學(xué)一線工作,且有十年以上的工作經(jīng)驗,多次參與校級大學(xué)生英語選拔比賽或省級翻譯大賽等相關(guān)翻譯的評閱工作,對大學(xué)英語四級翻譯題型及評分規(guī)則也十分熟悉。

      2.3 研究問題

      使用概化理論作為理論框架,研究以下三個問題:

      (1)評分者的培訓(xùn)背景對評估翻譯分數(shù)的顯著差異?

      (2)翻譯測試評分變化貢獻的來源是什么?

      (3)大學(xué)英語翻譯測試的成績可靠性是什么?

      2.4 評分程序

      因為研究的樣本為紙質(zhì)手寫版本,22個翻譯樣本由筆者去除考生姓名和學(xué)號等個人信息后,掃描成電子版本發(fā)送給評分者,評分者有20位,其中10位評分者接受了CET-4翻譯評分的培訓(xùn),還有10位評分者沒有培訓(xùn)背景。為了研究需要,要求所有評分者嚴格遵循CET-4翻譯標準,具體來說,每位評分者以0-15分的標準對22篇翻譯試題進行整體評分。整體評分有四個主要標準,這些標準包括:(1)表達原文意思;(2)用詞貼切;(3)行文流暢;(4)沒有語言錯誤。

      2.5 數(shù)據(jù)分析

      首先,數(shù)據(jù)進行描述性靜態(tài)分析和配對樣本t檢驗。其次,一個隨機效應(yīng)評估人、任務(wù)和考生(p×t×r)的G研究和兩個評估人交叉考生(p×r)的G研究(一個用于第一篇翻譯任務(wù),另一個用于第二篇翻譯任務(wù))。從這些概化(G)研究獲得的信息用于檢查評分變異貢獻來源。最后,產(chǎn)生一個影響評估人、任務(wù)和考生(p×t×r)決策(D)研究。決策(D)研究獲得的結(jié)果用于檢驗評分者評分成績的可靠性。概化(G)和決策(D)研究均使用計算機程序GENOVA[8,13]。

      3 數(shù)據(jù)結(jié)果

      表1匯總了11位中國大學(xué)生翻譯的22篇段落測試的得分統(tǒng)計結(jié)果。表1顯示,有培訓(xùn)背景的評分者第一篇翻譯測試平均分為8.49,第二篇翻譯測試平均分為7.98,兩篇翻譯評分嚴格控制在8分檔(7-9分),都在及格檔位;而沒有培訓(xùn)背景的評分者分數(shù)分別為10.05和9.44,評閱均分普遍較高,介于及格檔(7-9分)和良好檔(10-12分)之間。這表明有培訓(xùn)背景的評分者對評分檔位的控制較一致,換句話說,有培訓(xùn)背景的評分者比無培訓(xùn)背景的評分者更為嚴格;另一方面也說明不同背景評分人對高分的規(guī)定評分理解有所不同,評分標準存在差異。

      表1 兩組不同背景評分者的評分結(jié)果

      3.1 配對樣本t檢驗結(jié)果

      配對樣本t檢驗結(jié)果見表2。表2顯示有培訓(xùn)背景的評分者與無培訓(xùn)背景的評分者之間平均得分有顯著差異。不同培訓(xùn)背景評分者在評閱兩篇翻譯的平均得分顯著值為0.000(p<0.01),表明評分者的培訓(xùn)背景以及不同類型的翻譯任務(wù)確實影響翻譯測試的評分。

      表2 配對樣本t檢驗測試結(jié)果

      *相關(guān)在1%水平上顯著(雙尾檢驗)

      3.2 概化理論分析結(jié)果

      為了更好了解不同培訓(xùn)背景的評估者得分變化貢獻來源,本研究進行了考生和評分者(嵌入背景中)混合效應(yīng)分析。研究了有培訓(xùn)背景評分者和無培訓(xùn)背景評分者隨機效果的結(jié)果,隨后為其提供G(概化)研究(詳見表3)??忌驮u分者(嵌套在背景中)混合效果G研究中,混合效應(yīng)得出以下五種變異來源:考生(p),背景(e),評分者嵌套在背景(r:e),考生交叉背景(pe),考生交叉評估者(嵌套背景中)(pr:e)。表3中的結(jié)果表明殘差(pr:e)測量得出最大方差分量(占比45.76%)。這是由于隨機交叉產(chǎn)生無法解釋的系統(tǒng)性和非系統(tǒng)性錯誤來源??忌?p)產(chǎn)生第二大方差分量,占總方差的32.91%,表明選定的翻譯樣本在質(zhì)量上有很大差異。批分者背景(e)和評分者在背景中嵌套(r:e)產(chǎn)生了第三大方差分量(占比14.26%)和第四大方差分量(占比7.05%),表明翻譯分數(shù)可能存在很大差異歸因于評分者的批閱背景,而且不同培訓(xùn)背景的評分者在評分的嚴厲程度方面不同。

      表3 考生*評分者:培訓(xùn)背景混合效應(yīng)方差分量的概化(G)結(jié)果

      考生*評分者(p×r)隨機效應(yīng)產(chǎn)生以下方差分量:考生(p),評估者(r)和考生交叉評估者效應(yīng)。表4列出了這兩項G研究的結(jié)果。

      表4 考生*評分者(p×r)隨機效應(yīng)方差分量的 G-study結(jié)果

      對于有無批改培訓(xùn),考生和評分者隨機效應(yīng)G研究結(jié)果,如表4所示,殘差產(chǎn)生了最大的方差分量(57.12%),殘差是由于評分者和考生之間相互作用引起的可變性以及其他無法解釋的系統(tǒng)性和非系統(tǒng)性的來源錯誤。結(jié)果顯示考生(p)產(chǎn)生第二大方差(占比41.57%)。表明翻譯樣本的質(zhì)量差異極大。但是,評分者(r)方差分量為總方差的1.31%,表明有培訓(xùn)背景的評分者一致性相當高,翻譯測試評分信度好。

      如表4所示,無評閱背景評分者的結(jié)果顯示考生(p)產(chǎn)生最大的方差分量(占比53.58%),表明翻譯的質(zhì)量差異非常大。殘差(由于評分者之間的相互作用以及其他無法解釋的系統(tǒng)和非系統(tǒng)的錯誤來源)產(chǎn)生第二大方差(占比27.75%)。然而,評分人(r)方差分量產(chǎn)生第三大方差分量(18.67%)的總方差。這一結(jié)果表明沒有培訓(xùn)背景的評分者在測試評分上不太一致,對翻譯評分存在較大差異。

      3.3 翻譯分數(shù)可靠性結(jié)果

      為了檢查翻譯任務(wù)分數(shù)的可靠性,分別對有無培訓(xùn)背景的評分者進行了隨機效果D研究,結(jié)果列于表5。

      表5 評分者、任務(wù)和考生(p×t×r)設(shè)計決策研究概化系數(shù)

      概化系數(shù)大于0.80說明信度優(yōu)秀。如表5所示,在一般翻譯測試中,每位考生只需要完成一道漢譯英篇章翻譯題,如果一道翻譯測試題由一名評分者來評分,有培訓(xùn)背景評分者的可靠性系數(shù)為0.659,兩名評分者可靠性系數(shù)為0.794,接近于0.80的優(yōu)秀水平;而對于一名有著豐富教學(xué)經(jīng)驗但沒有培訓(xùn)背景的老師的可靠性系數(shù)為0.421遠遠低于優(yōu)秀值,且需要增加到6名老師測試的可靠性才能達到優(yōu)秀。

      4 結(jié)論

      基于以上檢驗、分析,本研究得到以下結(jié)論:

      (1)本研究在有培訓(xùn)背景的評分者和經(jīng)驗豐富但沒有正式培訓(xùn)背景評分者之間進行分析,研究表明,沒有培訓(xùn)背景的評分者評分方面對評分標準把握不一致,有培訓(xùn)背景的評分者對翻譯分數(shù)檔位控制較好,而且不同背景評分者對高分的規(guī)定評分理解有所不同,評分標準存在差異。

      (2)對于翻譯測試得分差異的來源,結(jié)果表明,殘差產(chǎn)生了最大的方差分量(57.12%),殘差是由于評估者和考生之間相互作用引起的可變性以及其他無法解釋的系統(tǒng)性和非系統(tǒng)性的來源錯誤,表明翻譯測試評分差異來源于更多不明原因。考生產(chǎn)生第二大方差,表明翻譯樣本的質(zhì)量差異會導(dǎo)致評分的不同。評分者方差分量表明,有無培訓(xùn)背景的評分者對考生得分造成影響。最后,分析結(jié)果表明,有培訓(xùn)背景的評分者得分一致性相當高,翻譯測試評分信度好,而沒有培訓(xùn)背景的評分者在測試評分上不太一致,對翻譯評分存在較大差異。

      (3)最后在評分者分數(shù)的可靠性決策研究結(jié)果表明,有培訓(xùn)背景的評分者比沒有培訓(xùn)背景評分者更一致且更可靠。

      當然本研究僅考察了評分者教育背景對漢譯英翻譯評估的影響。許多研究表明,多種因素共同影響主觀性的評估[14]。對其他因素的忽視可能導(dǎo)致概化理論分析中的大殘差方差分量,存在很大的無法解釋的變異性。而大的殘余效應(yīng)可以表明隱藏性[8]。后期研究中,我們將進一步明確隱藏方面更大的殘差[12]。

      總而言之,在真實環(huán)境中,教師對學(xué)生進行評分通常不會接受正規(guī)培訓(xùn),翻譯評分公正性主要靠評估者的經(jīng)驗來兌現(xiàn)。作為主觀性考試的翻譯,評分標準的科學(xué)性、嚴密性、評分員對標準的一致性尤為重要。因此,在翻譯測試前,實施嚴格的評估培訓(xùn),使評分者自身和內(nèi)部的差異最小化,這將有助于提高翻譯評分的準確性和一致性。

      猜你喜歡
      概化方差分量
      方差怎么算
      概率與統(tǒng)計(2)——離散型隨機變量的期望與方差
      帽子的分量
      一物千斤
      智族GQ(2019年9期)2019-10-28 08:16:21
      計算方差用哪個公式
      論《哈姆雷特》中良心的分量
      方差生活秀
      分量
      基于MIKE21二維數(shù)值模擬的不同橋墩概化方式下河道壅水計算結(jié)果對比分析
      結(jié)構(gòu)化面試中多源變異的概化分析
      闽侯县| 中宁县| 英山县| 彭水| 娱乐| 扎兰屯市| 通榆县| 金寨县| 舒城县| 平远县| 福泉市| 安溪县| 乐昌市| 共和县| 石首市| 横山县| 米林县| 乐业县| 海城市| 高雄县| 民权县| 常德市| 永城市| 安陆市| 淮滨县| 罗田县| 怀集县| 洛宁县| 安化县| 孟津县| 新民市| 扶沟县| 特克斯县| 新乡市| 墨玉县| 方正县| 洪湖市| 赣州市| 八宿县| 阳城县| 德清县|