鄭美玲
(北京語(yǔ)言大學(xué),北京100083)
相關(guān)文獻(xiàn)表明(李中權(quán)等,2008;張潔,何蓮珍,2008;李清華,孔文, 2010;羅丹,2011),國(guó)內(nèi)幾類高風(fēng)險(xiǎn)語(yǔ)言運(yùn)用測(cè)試的質(zhì)量問(wèn)題常受到學(xué)者們的關(guān)注。 課堂翻譯測(cè)試也屬于運(yùn)用測(cè)試,但其質(zhì)量狀況往往被忽視。 同時(shí),該類測(cè)試的評(píng)分員評(píng)分、測(cè)試任務(wù)的設(shè)計(jì)、評(píng)分標(biāo)準(zhǔn)和評(píng)分量表的制定可能都存在一定的隨意性。 此類測(cè)試雖是一種低風(fēng)險(xiǎn)測(cè)試,但它使用頻繁,在形成性評(píng)價(jià)中發(fā)揮著重要的作用,應(yīng)該具有較高的質(zhì)量。 因此,我們有必要對(duì)課堂翻譯測(cè)試的質(zhì)量狀況進(jìn)行研究。
Bachman 和Palmer(1996:18) 認(rèn)為測(cè)試的有用性包括信度、結(jié)構(gòu)效度、真實(shí)性、交互性、影響和實(shí)用性。 其中效度對(duì)測(cè)試的質(zhì)量至關(guān)重要。 效度驗(yàn)證指的是利用理論觀點(diǎn)和實(shí)證數(shù)據(jù)對(duì)效度進(jìn)行研究的過(guò)程 (鄒申, 2005)。Weir (2010) 提出了基于證據(jù)的多層次效度驗(yàn)證方法,該理論對(duì)語(yǔ)言運(yùn)用測(cè)試的效驗(yàn)有深刻指導(dǎo)意義。 語(yǔ)言運(yùn)用測(cè)試涉及多方因素且因素間存在交互作用,比如評(píng)分員與評(píng)分量表、測(cè)量工具、考生之間,考生與測(cè)量工具之間等等,這些因素都影響著測(cè)試的效度。
鑒于此,本文試圖對(duì)一次普通的課堂翻譯測(cè)試的效度進(jìn)行驗(yàn)證,從以下方面收集證據(jù):評(píng)分員、考生、任務(wù)、評(píng)分標(biāo)準(zhǔn)、評(píng)分量表。 研究結(jié)果可以為評(píng)分員培訓(xùn)和試題設(shè)計(jì)提供反饋信息,還可幫助教師更好地分析考生答題過(guò)程從而促進(jìn)老師的教和學(xué)生的學(xué)。
本研究采用多面Rasch 模型(MFRM)。 Rasch 模型屬于單參數(shù)IRT 模型的一種, 用來(lái)分析多項(xiàng)選擇題中的項(xiàng)目難度和考生的能力。 MFRM 是單參數(shù)Rasch 模型的延伸, 它可用來(lái)分析主觀題中的考生能力以及考生能力之外的所有因素對(duì)考生得分的影響,這些因素包括評(píng)分人、任務(wù)、評(píng)分標(biāo)準(zhǔn)、評(píng)分量表等。 所有因素在MFRM 中被設(shè)定為各個(gè)面。MFRM 能幫助我們分析各層面造成的誤差,然后對(duì)原始分?jǐn)?shù)進(jìn)行修正補(bǔ)償,使分?jǐn)?shù)更接近考生特質(zhì),提高試題的公平性。這里值得注意的一點(diǎn)是:經(jīng)典測(cè)試?yán)碚撘曀械姆謹(jǐn)?shù)變異為消極性并試圖消除;MFRM 則認(rèn)為評(píng)分員自身嚴(yán)厲度的變化是評(píng)分過(guò)程不可避免的,適度變化是可接受的。而且,評(píng)分員之間嚴(yán)厲度的顯著差異不可能消除。總之,MFRM 已經(jīng)成為運(yùn)用測(cè)試中一種強(qiáng)大的測(cè)量工具。
1. 在評(píng)分過(guò)程中, 評(píng)分員自身是否具有一致性? 評(píng)分員之間是否具有一致性?
2. 考生在答題過(guò)程中是否具有一致性?
3. 考試任務(wù)能否合理的區(qū)分所有考生?
4. 評(píng)分標(biāo)準(zhǔn)和評(píng)分量表的效度怎樣?
本次測(cè)試是筆譯這門課程進(jìn)行期間的課堂測(cè)試,此課程每周一次,一次兩課時(shí)??忌莵?lái)自北京某大學(xué)英語(yǔ)專業(yè)三年級(jí)兩個(gè)班的學(xué)生。三位評(píng)分員參與評(píng)分,其中兩名女性,一名男性。 女性評(píng)分員都有翻譯測(cè)試閱卷經(jīng)驗(yàn)。男性評(píng)分員有閱卷經(jīng)驗(yàn),但不是翻譯測(cè)試閱卷。
本測(cè)試包括四篇英文短文,每篇平均100 字,要求考生在90 分鐘內(nèi)將這些短文翻成漢語(yǔ)。 關(guān)于評(píng)分量表,本測(cè)試的評(píng)分采用1-5 級(jí)分析型量表,從準(zhǔn)確性、流利度、得體性以及優(yōu)雅這四項(xiàng)標(biāo)準(zhǔn)分別評(píng)分。 關(guān)于評(píng)分員,評(píng)分員1 是本門課程的教師,也是此次測(cè)試的開(kāi)發(fā)者,在此項(xiàng)研究開(kāi)展之前已經(jīng)完成了評(píng)分。 本次研究另外聘請(qǐng)了兩位評(píng)分員, 目的是比較三位評(píng)分員之間的一致性。 評(píng)分前,兩位評(píng)分員仔細(xì)了解評(píng)分量表,對(duì)測(cè)量構(gòu)念達(dá)成共識(shí)。 然后從考生之前的翻譯練習(xí)材料中取樣, 選取5份能夠代表各個(gè)翻譯能力等級(jí)的文本讓評(píng)分員試評(píng),并對(duì)評(píng)分結(jié)果進(jìn)行討論。 正式測(cè)評(píng)中, 每位評(píng)分員對(duì)每位考生的每個(gè)翻譯任務(wù)進(jìn)行評(píng)分。 最后收集到每位考生在12 個(gè)評(píng)分項(xiàng)上的得分。
此研究的模型可以理解為: 該考生得到某一成績(jī)的概率(p)=考生能力-任務(wù)難度-評(píng)分員嚴(yán)厲度-第n 個(gè)評(píng)分標(biāo)準(zhǔn)難度-第n 個(gè)評(píng)分標(biāo)準(zhǔn)上得等級(jí)k 的難度。 模型的建立和計(jì)算都在FACET 中進(jìn)行。
所有數(shù)據(jù)輸入軟件FACET 中并建立模型,得到總體分析層面圖, 該圖中各個(gè)面及其個(gè)體都在同一個(gè)洛基(logit)量尺上,這樣能幫助我們對(duì)各個(gè)面的各個(gè)個(gè)體之間, 以及各個(gè)面之間進(jìn)行大致比較。 大體觀察得到如下信息:①考生層面,考生能力基本呈正態(tài)分布,但能力跨度很大, 能力最高和能力最低的考生相差近10 個(gè)洛基值。 48 號(hào)考生能力最高,31 號(hào)考生能力最低。 ②評(píng)分員層面,評(píng)分員度量值為均值0 是理想狀態(tài)。1 號(hào)和2 號(hào)評(píng)分員的位置相對(duì)集中,在均值附近。3 號(hào)評(píng)分員距離另兩位評(píng)分員稍遠(yuǎn),評(píng)分最嚴(yán)厲。 ③任務(wù)層面,最難的題目和最簡(jiǎn)單的題目相差近1.5 個(gè)洛基值。 第2 題和第4 題較其他兩題更難。 一般來(lái)說(shuō), 考生能力和任務(wù)難度度量值大體相當(dāng)?shù)臅r(shí)候, 最能夠測(cè)出考生的真實(shí)能力水平。 ④評(píng)分標(biāo)準(zhǔn)層面,除elegance 外其他幾項(xiàng)位置相對(duì)集中,一致性較好。 下面是各個(gè)層面及相關(guān)成分的信息。
評(píng)分員統(tǒng)計(jì)表中的Measures 一列顯示,評(píng)分員3 最嚴(yán)厲,評(píng)分員2 最仁慈。 Infit Mnsq 一列則反映評(píng)分員自身一致性。Infit 值為1 表示數(shù)據(jù)與模型擬合良好。由于評(píng)分員自身水平,情感因素,身體因素等主觀因素多,評(píng)分員評(píng)分過(guò)程很難嚴(yán)格按照一樣的嚴(yán)厲度評(píng)分,適當(dāng)?shù)牟▌?dòng)是允許。 對(duì)于Infit 的取值,不同學(xué)者觀點(diǎn)不同,比如0.7 -1.3 ( Bonk & Ockey,2003)、0.6 -1.4 或 0.5 -1.5(Linacre, 2010; Weigle, 1998)。 McNamara (1996:173) 提出認(rèn)為可以接受的取值范圍介于平均值正負(fù)兩個(gè)標(biāo)準(zhǔn)差之間。對(duì)于語(yǔ)言運(yùn)用測(cè)試,范圍可適當(dāng)擴(kuò)大。因此,本研究對(duì)于各個(gè)層面?zhèn)€體的擬合指數(shù)采取0.5-1.5 的取值范圍。這里的數(shù)據(jù)顯示,所有評(píng)分員Infit 值都在合理范圍內(nèi)波動(dòng),評(píng)分員內(nèi)部一致性較好。
表格底部的分隔比率和分隔信度是層面水平上的統(tǒng)計(jì)量。 Myford & Wolfe(2004) 認(rèn)為:當(dāng)分隔比率大于2 且分隔系數(shù)大于0.9 時(shí), 每一面中各個(gè)成分之間有顯著差異。 分隔信度反映了評(píng)分員之間信度。 它表示每個(gè)層面的個(gè)體之間有顯著差異的程度,取值在0-1,值越大表明個(gè)體間差異越大。此測(cè)試的分隔信度是0.98,說(shuō)明評(píng)分員之間有很大差異。 但此差異是否于誤差有關(guān), 要看分隔系數(shù),這里的分隔系數(shù)為7.69,說(shuō)明評(píng)分員之間有顯著差異。 同時(shí),卡方值為120.5,不是很大,但P<0.05, 說(shuō)明評(píng)分員之間具有統(tǒng)計(jì)意義上的顯著差異,因而應(yīng)該拒絕評(píng)分員評(píng)分無(wú)差異的零假設(shè)。
根據(jù)已知統(tǒng)計(jì)量,此次測(cè)試的評(píng)分員自身一致性高,但評(píng)分員之間一致性差。 3 號(hào)評(píng)分員采取了最嚴(yán)格的評(píng)分標(biāo)準(zhǔn),這與Weigle(1998) 的研究結(jié)果一致:無(wú)經(jīng)驗(yàn)的評(píng)分員一般評(píng)分更嚴(yán)格。 可通過(guò)評(píng)分員培訓(xùn)縮減評(píng)分員之間的差異。在本研究中,盡管有差異存在,但相差不大,對(duì)結(jié)果影響不大。 研究也多次表明, 嚴(yán)厲度屬于評(píng)分員個(gè)人風(fēng)格,即便有詳盡的評(píng)分量表以及多次培訓(xùn),評(píng)分員之間嚴(yán)厲度上仍存在差差異, 可以通過(guò)增加題量的方式減少評(píng)分員之間的差異對(duì)測(cè)試效度造成的影響。
考生能力表中,|ZStd|大于2 表示顯著非擬合和過(guò)度擬合考生。 他們占考生總數(shù)將近20%,遠(yuǎn)遠(yuǎn)超過(guò)了2%,因此, 我們可以說(shuō)有20%的考生其答題過(guò)程不一致(Pollitt & Hutchinson, 轉(zhuǎn)引自 江進(jìn)林& 文秋芳, 2010)。出題人應(yīng)重視。
對(duì)于擬合度不好的考生應(yīng)該從評(píng)分員和考生兩方面分別解釋。 一方面, 評(píng)分員對(duì)某些考生的評(píng)分可能特別高或者特別低,造成評(píng)分差異大于預(yù)測(cè)值,出現(xiàn)非擬合考生。 所以,非擬合情況要結(jié)合評(píng)分員被試偏差分析。 而評(píng)分員對(duì)某些考生的評(píng)判可能過(guò)于保守, 只用到某些分?jǐn)?shù)段,且各項(xiàng)給分趨于相同,存在趨中效應(yīng)或光環(huán)效應(yīng),出現(xiàn)過(guò)度擬合考生。 因此, 要結(jié)合這些過(guò)度擬合考生在各項(xiàng)評(píng)分標(biāo)準(zhǔn)上的具體得分來(lái)確定是否的確存在考分接近的現(xiàn)象。 另一方面, 某些考生可能因背景知識(shí)過(guò)少對(duì)某些翻譯任務(wù)不感興趣而發(fā)揮欠佳, 而某些考生可能對(duì)某些翻譯任務(wù)非常感興趣而發(fā)揮超長(zhǎng)。 此測(cè)試中所有翻譯任務(wù)都是從課文中隨機(jī)挑選的段落, 該測(cè)試出題方式可能會(huì)對(duì)部分考生造成不公平現(xiàn)象。 要在復(fù)查階段對(duì)擬合不好的考生進(jìn)行面試從而具體分析。 Fair-MAvrage 是根據(jù)評(píng)分員嚴(yán)厲度,評(píng)分標(biāo)準(zhǔn)難度等對(duì)考生原始平均分做出調(diào)整以及補(bǔ)償后的期望平均值, 該分值更接近考生的真實(shí)能力,這正是Rasch 優(yōu)勢(shì)之一,SPSS 無(wú)法做到。
在MFRM 中,考生層面的分隔系數(shù)和分隔信度對(duì)應(yīng)的是試題之間的內(nèi)部一致性信度。 測(cè)試的目的就是盡可能把考生能力區(qū)分開(kāi), 所以數(shù)值越高, 試題信度越好(Wright &Masters, 1982)。 這里分隔系數(shù)、 分隔信度和卡方值都較大,說(shuō)明考生之間的翻譯能力存在統(tǒng)計(jì)意義上的顯著差異。
試題任務(wù)表顯示第1 題難度最低,第2 題難度最高,各任務(wù)的擬合度都在適當(dāng)范圍內(nèi), 都能夠合理區(qū)分所有考生。 說(shuō)明所有任務(wù)只測(cè)量了一種能力, 任務(wù)層面的效度驗(yàn)證較理想。另外分隔信度為0.99,任務(wù)之間有顯著差異,分隔比率和卡方值也很高,說(shuō)明任務(wù)之間有統(tǒng)計(jì)意義上的顯著差異。
評(píng)分標(biāo)準(zhǔn)難度表中,首先,度量值一列顯示評(píng)分員對(duì)標(biāo)準(zhǔn)2 (elegance)的評(píng)分最嚴(yán)厲,對(duì)標(biāo)準(zhǔn)3(fluency)的得分最寬松,這與翻譯標(biāo)準(zhǔn)的理解是一致的,elegance 是譯文質(zhì)量的最高境界,準(zhǔn)確、流利并且得體的譯文不一定優(yōu)雅,所以在優(yōu)雅這項(xiàng)標(biāo)準(zhǔn)上的得分最難,評(píng)分員也最重視, 評(píng)分也最嚴(yán)格。 其次, 擬合度一列顯示各項(xiàng)標(biāo)準(zhǔn)的Infit 取值均在可接受范圍內(nèi), 說(shuō)明考官在各項(xiàng)評(píng)分標(biāo)準(zhǔn)上的評(píng)分總體上具有較好的前后一致性, 也說(shuō)明本測(cè)試從四個(gè)不同的維度共同測(cè)量了翻譯這一能力,評(píng)分標(biāo)準(zhǔn)效度較高。 再次,分隔系數(shù)和分隔比率顯示,各項(xiàng)評(píng)分標(biāo)準(zhǔn)具有統(tǒng)計(jì)意義上的顯著差異。
評(píng)分量表的質(zhì)量可以從三方面考察:1, 評(píng)分員對(duì)評(píng)分量表中各個(gè)分?jǐn)?shù)段的使用情況。 2,每個(gè)分?jǐn)?shù)段與考生的能力對(duì)應(yīng)情況。 3,量表中分?jǐn)?shù)段之間的間距對(duì)考生能力的區(qū)分情況。 (Bonk & Ockey, 2003)。 MFRM 提供四個(gè)標(biāo)準(zhǔn)的整體評(píng)分量表分?jǐn)?shù)段統(tǒng)計(jì)表, 表中的average measure,Outfit MnSq 以及step calibration measure 從不同方面提供相關(guān)信息,這些統(tǒng)計(jì)量是進(jìn)行效度驗(yàn)證的重要指標(biāo),
第一, 表格第一大列顯示了各分?jǐn)?shù)段的使用次數(shù)和頻率。 本測(cè)試中評(píng)分員使用了所有的分?jǐn)?shù)段, 第三個(gè)分?jǐn)?shù)段使用頻率最高。 第二,第二大列是平均度量值,即得該分?jǐn)?shù)段考生的平均能力。 能力越高,分值應(yīng)該越高,因此理想情況是呈單調(diào)遞增趨勢(shì)。 當(dāng)平均度量值和預(yù)測(cè)度量值接近時(shí),Outfit MnSq 接近理想值1, 如果差距越大,Outfit MnSq 指數(shù)越大。 如果大于2 表明考生預(yù)測(cè)分?jǐn)?shù)和實(shí)際分?jǐn)?shù)有較大差距, 該分?jǐn)?shù)不能準(zhǔn)確反應(yīng)考生水平。對(duì)于應(yīng)用不當(dāng)?shù)姆謹(jǐn)?shù)段, 應(yīng)加強(qiáng)評(píng)分員對(duì)該段的理解。數(shù)據(jù)顯示本測(cè)試平均度量值呈單調(diào)遞增,說(shuō)明每個(gè)分?jǐn)?shù)段體現(xiàn)了考生相應(yīng)的能力。 但分?jǐn)?shù)段1 和3 的Outfit MnSq 取值有偏離理想值1。第三, Linacre(2010) 認(rèn)為,就5 分制評(píng)分量表而言, 相鄰分?jǐn)?shù)段之間的間距應(yīng)該至少有1 個(gè)洛基值,如果間隔過(guò)小,就要加大分?jǐn)?shù)段之間的間隔,合并分?jǐn)?shù)段或者修改評(píng)分量表是研究者可選擇的方式。 此表第三大列顯示階梯標(biāo)定值呈單調(diào)遞增, 而且分?jǐn)?shù)段之間有至少1 個(gè)洛基值的間隔。
另外, 概率曲線圖也能直觀的看出量表能否很好地區(qū)分考生的能力水平。 一般, 每個(gè)分?jǐn)?shù)段都應(yīng)有一個(gè)相對(duì)獨(dú)立的分布均勻的小尖峰,這說(shuō)明各等級(jí)使用情況較好。圖表顯示分?jǐn)?shù)段3 和4 的尖峰不明顯。出題人應(yīng)該注意。
結(jié)合以上信息,我們可以得出結(jié)論:該評(píng)分量表從整體來(lái)講效度尚可, 但仍有改進(jìn)空間。 需要進(jìn)行評(píng)分員培訓(xùn)加強(qiáng)對(duì)個(gè)別分?jǐn)?shù)段的理解。
綜合上述分析可得出如下結(jié)論:①所有評(píng)分員在評(píng)分過(guò)程中顯示出了較好的自身一致性。 ②三位評(píng)分員之間的嚴(yán)厲度具有統(tǒng)計(jì)意義上的顯著差異, 但跨度只占1個(gè)洛基值,對(duì)結(jié)果不會(huì)造成很大影響。 ③考生之間的翻譯能力具有顯著差異,多數(shù)考生的答題過(guò)程具有一致性,但非擬合和過(guò)度擬合的考生數(shù)量超過(guò)了可接受的上線。因此,需要更詳細(xì)的偏差分析來(lái)檢驗(yàn)評(píng)分員考生之間以及考生任務(wù)之間的交互作用。④四道翻譯任務(wù)都能合理區(qū)分所有考生。 ⑤評(píng)分標(biāo)準(zhǔn)效度較高,但評(píng)分量表質(zhì)量有待提高,評(píng)分員需要加強(qiáng)對(duì)個(gè)別分?jǐn)?shù)段的理解。
總之,在運(yùn)用測(cè)試中,MFRM 能從考生、評(píng)分員、測(cè)試任務(wù)、評(píng)分標(biāo)準(zhǔn)和評(píng)分量表多個(gè)層面提供有用的反饋信息, 研究結(jié)果對(duì)今后提高運(yùn)用課堂測(cè)驗(yàn)的質(zhì)量具有一定的指導(dǎo)意義。
但本研究有其局限性,在一些方面存在改進(jìn)的空間。第一, 在數(shù)據(jù)收集方面,MFRM 對(duì)數(shù)據(jù)的多少比較敏感,數(shù)據(jù)越大越誤差越小,在今后的研究中,如果資源充足,可以增加考生、 評(píng)分員以及任務(wù)的數(shù)量從而減少誤差。第二,在評(píng)分員層面,可以更加深入的研究評(píng)分員效應(yīng),從評(píng)分員的準(zhǔn)確性、 集中度和嚴(yán)厲度角度綜合分析。 第三,在研究工具層面,可以采用SPSS 和MFRM 分析相結(jié)合的方法進(jìn)行比較研究,互補(bǔ)性的分析結(jié)果能更真實(shí)更全面地反映測(cè)試本質(zhì)。
[1] 李中權(quán),孫曉敏,張厚粲,張立松. 多面Rasch 模型在主觀題評(píng)分培訓(xùn)中的應(yīng)用[J]. 中國(guó)考試,2008, (1): 26-31.
[2] 張潔,何蓮珍. 語(yǔ)言運(yùn)用測(cè)試中的分?jǐn)?shù)差異研究---基于多層面Rasch 模型的方法[J]. 中國(guó)英語(yǔ)教學(xué)(雙月刊),2008,31(4): 40-49.
[3] 李清華, 孔文. TEM-4 寫作新分項(xiàng)式評(píng)分標(biāo)準(zhǔn)的多層面Rasch 模型分析[J]. 外語(yǔ)電化教學(xué), 2010, (131): 19-25.
[4] 羅丹. 多面RASCH 模型在HSK(中級(jí))口語(yǔ)評(píng)分檢驗(yàn)中的應(yīng)用. [北京語(yǔ)言大學(xué)文學(xué)碩士論文], 2008:16-21.
[5] Bachman L. F. & A. Palmer. Language Testing in Practice[M] Oxford: Oxford University Press, 1996.
[6] 鄒申. 語(yǔ)言測(cè)試[M]. 上海:上海外語(yǔ)教育出版社, 2005.
[7] Weir, C. J. Language testing and validation: an evidencebased approach [M]. 北京: 外語(yǔ)教學(xué)與研究出版社,2010.
[8] Bonk William. J & G.. J. Ockey. A many-facet Rasch analysis of the second language group oral discussion task [J ].Language Testing , 2003, 20 (1):89-110.
[9] Linacre, J. M. A User's Guide to FACETS: Rasch-Model Computer Program[M]. Chicago: MESA Press, 2010.
[10] Weigle, S. C. Using FACETS to model rater training effects[J].Language Testing, 1998, 15 ( 2) : 276.
[11]McNamara, T. F. Measuring Second Language Performance[M]. London: New York: Longman, 1996
[12] Myford, C.M. & E. W. Wolfe. Detecting and measuring rater effects using many-facet Rasch measurement: Part Ⅱ[J].Journal of Applied Measurement, 2004, 5(2): 189-227.
[13] 江進(jìn)林, 文秋芳. 基于Rasch 模型的翻譯測(cè)試效度研究[J]. 外語(yǔ)電化教學(xué),2010, (131): 14-18.