王 蕾,張文靜
【統(tǒng)計(jì)應(yīng)用研究】
PISA中國(guó)試測(cè)研究的評(píng)分者效應(yīng)分析對(duì)高考網(wǎng)上閱卷的啟示
王 蕾1,張文靜2
(1.教育部考試中心,北京100084;2.北京師范大學(xué)發(fā)展心理研究所,北京100875)
針對(duì)PISA 2009中國(guó)試測(cè)研究主觀題評(píng)分環(huán)節(jié)所采用的多重編碼設(shè)計(jì),分析在閱讀、數(shù)學(xué)和科學(xué)領(lǐng)域的評(píng)分中是否存在評(píng)分者效應(yīng)。根據(jù)多側(cè)面Rasch模型方法,分別對(duì)這三個(gè)領(lǐng)域進(jìn)行評(píng)分者主效應(yīng)的分析。結(jié)果顯示:閱讀和科學(xué)領(lǐng)域中,評(píng)分者之間的嚴(yán)苛度/寬松度差異非常顯著;而數(shù)學(xué)領(lǐng)域中,評(píng)分者之間的嚴(yán)苛度/寬松度差異較小。最后,探討了這些結(jié)果的可能原因以及對(duì)高考網(wǎng)上閱卷評(píng)分借鑒的建議。
評(píng)分者效應(yīng);嚴(yán)苛度/寬松度;PISA;多重編碼;高考網(wǎng)上閱卷
Scullen、Mount和Goff將評(píng)分者效應(yīng)(rater effects)界定為“一種導(dǎo)致成績(jī)?cè)u(píng)定等級(jí)系統(tǒng)變異的效應(yīng)類(lèi)別,在某種意義上,評(píng)定的等級(jí)與評(píng)分者相關(guān),而與被評(píng)分者的真實(shí)表現(xiàn)無(wú)關(guān)?!保?]換句話說(shuō),評(píng)分者效應(yīng)與欲評(píng)估的結(jié)構(gòu)或特質(zhì)無(wú)關(guān),從而影響了評(píng)估的信度和效度[2][3]66-70。
在實(shí)際情境中,評(píng)分者效應(yīng)非常普遍。一旦涉及多個(gè)評(píng)分者評(píng)定被評(píng)分者的表現(xiàn),評(píng)分者效應(yīng)很容易隨之出現(xiàn)。例如,奧運(yùn)會(huì)中多個(gè)裁判員評(píng)價(jià)運(yùn)動(dòng)員的表現(xiàn);企事業(yè)單位或公司的管理者評(píng)判面試申請(qǐng)者與工作崗位的匹配性;大學(xué)根據(jù)申請(qǐng)者的材料判斷其能否獲得獎(jiǎng)學(xué)金;教師根據(jù)學(xué)生對(duì)主觀題的作答進(jìn)行評(píng)分等。研究認(rèn)為在評(píng)分過(guò)程中,有三種潛在的偏差或誤差來(lái)源:評(píng)分量尺(rating scales)、評(píng)分程序(rating procedure)和評(píng)分者(raters)。Cronbach指出,評(píng)分活動(dòng)是“復(fù)雜而又易犯錯(cuò)的認(rèn)知過(guò)程”。Thorndike和Hagen認(rèn)為評(píng)分者的認(rèn)知過(guò)程是“黑箱”(black box):“評(píng)分是一個(gè)評(píng)估總結(jié)的過(guò)程,評(píng)分者使用其‘內(nèi)部計(jì)算機(jī)’即過(guò)去或現(xiàn)在的經(jīng)驗(yàn),對(duì)輸入的數(shù)據(jù)以一種復(fù)雜而又不確定的方式加以處理,從而得到最終的判定”[4]。因此,最大限度地減少評(píng)分偏差是任何評(píng)估項(xiàng)目,特別是大規(guī)模教育考試中需要解決的重要課題之一。通常采用的措施包括嚴(yán)格選拔評(píng)分者、對(duì)評(píng)分者進(jìn)行培訓(xùn)以及監(jiān)控評(píng)分過(guò)程等。
Myford和Wolfe總結(jié)了四類(lèi)常見(jiàn)的評(píng)分者效應(yīng):嚴(yán)苛度/寬松度(severity/leniency)、暈輪效應(yīng)(halo effect)、中心化趨勢(shì)(central tendency)和全距限制(restriction of range)[4]。除此之外,還有其他一些類(lèi)型的評(píng)分者效應(yīng),由于它們較難被檢測(cè)或測(cè)量,因此甚少提及,如不精確性、邏輯錯(cuò)誤、對(duì)照錯(cuò)誤等。Cronbach認(rèn)為與其他類(lèi)型的評(píng)分者效應(yīng)相比,嚴(yán)苛度/寬松度是評(píng)分者在評(píng)分過(guò)程中的最嚴(yán)重錯(cuò)誤[4]。所謂嚴(yán)苛,指某些評(píng)分者傾向于給出較低的分?jǐn)?shù);相反,寬松的評(píng)分者傾向于給出較高的分?jǐn)?shù)。本研究的關(guān)注對(duì)象是在多個(gè)評(píng)分者存在的情況下,對(duì)考試中的主觀題(需要考生自己用文字寫(xiě)出答案)進(jìn)行評(píng)分的嚴(yán)苛度/寬松度。以高考為例,每個(gè)科目都有大量主觀性試題,它們非常容易受到評(píng)分者的知識(shí)水平、綜合能力、愛(ài)好、情緒、疲勞等主觀因素的影響。不光不同評(píng)分員之間存在差異,同一個(gè)評(píng)分員在不同時(shí)間也具有不穩(wěn)定性。為消除評(píng)分者效應(yīng),常用的辦法是對(duì)評(píng)分者進(jìn)行培訓(xùn),或?qū)τ谙嗤目忌M(jìn)行多人評(píng)分。然而,有研究表明,無(wú)論如何進(jìn)行事前培訓(xùn),評(píng)分者也無(wú)法在嚴(yán)苛度/寬松度上保持一致[5]。也有研究者使用Kendall和諧系數(shù)等考查評(píng)分者之間的一致性,但作用非常有限,因?yàn)檫@類(lèi)評(píng)分者一致性系數(shù)屬于事后檢驗(yàn),對(duì)考生得分不會(huì)產(chǎn)生校正作用[6-7]。因此,實(shí)際考試評(píng)分中非常需要能夠?qū)忌梅旨皶r(shí)進(jìn)行統(tǒng)計(jì)校正的方法。多側(cè)面Rasch模型(many-facet Rasch model)是可以提供解決方案的模型之一。Rasch模型屬于測(cè)量理論中項(xiàng)目反應(yīng)理論(item response theory)的一種,它認(rèn)為考生在某個(gè)題目上的正確作答概率是考生的某種潛在心理特質(zhì)(latent trait)和題目難度的函數(shù)[8]122-125。多側(cè)面Rasch模型是對(duì)Rasch模型的擴(kuò)展,通常適用于在模型中考慮多個(gè)側(cè)面(如評(píng)分者、考試形式等)的情況,該模型所提供的統(tǒng)計(jì)分析框架在估算各個(gè)側(cè)面的測(cè)量值時(shí),將各個(gè)側(cè)面之間的相互作用進(jìn)行了區(qū)分和隔離,因此,可以消除主觀評(píng)分中各個(gè)方面的因素對(duì)于評(píng)分結(jié)果的影響,提高評(píng)分結(jié)果的信度[9]80-85,應(yīng)用這個(gè)框架也可以提高測(cè)量的信度[10]。
本研究擬使用多側(cè)面Rasch模型考察PISA(Program for International Student Assessment)2009年中國(guó)試測(cè)研究中,主觀題評(píng)分的評(píng)分者嚴(yán)苛度/寬松度是否存在顯著差異。其中多側(cè)面Rasch模型的數(shù)學(xué)表達(dá)式通常為:
ln(Pnijk/Pnijk-1)=Bn-Dj-Cj-Fk
其中Pnijk是指作答者n在題目i上被評(píng)分者j評(píng)定為k的概率,Pnijk-1是指作答者n在題目i上被評(píng)分者j評(píng)定為k-1的概率,Bn是指作答者n的潛在特質(zhì)水平,Dj是指題目i的難度,Cj是指評(píng)分者j的嚴(yán)苛度,F(xiàn)k是指量表類(lèi)別k相對(duì)于量表類(lèi)別k-1的難度。
本研究主要有兩個(gè)目的:一是考察在對(duì)PISA 2009中國(guó)試測(cè)研究的閱讀、數(shù)學(xué)和科學(xué)題目進(jìn)行評(píng)分時(shí),評(píng)分者之間的嚴(yán)苛度/寬松度是否存在差異;二是考察多重編碼和多側(cè)面Rasch模型分析對(duì)高考網(wǎng)上閱卷評(píng)分實(shí)踐的意義。
(一)PISA簡(jiǎn)介
PISA是經(jīng)濟(jì)合作與發(fā)展組織(OECD)于1997年發(fā)起的一項(xiàng)監(jiān)測(cè)15歲在校學(xué)生學(xué)習(xí)質(zhì)量的比較研究項(xiàng)目,旨在評(píng)價(jià)義務(wù)教育階段結(jié)束時(shí),學(xué)生是否具備參與未來(lái)社會(huì)所必需的知識(shí)和技能。該項(xiàng)目自2000年開(kāi)始每隔三年實(shí)施一次,評(píng)價(jià)領(lǐng)域包括數(shù)學(xué)、閱讀和科學(xué)素養(yǎng),每次側(cè)重一個(gè)領(lǐng)域,依據(jù)評(píng)價(jià)年命名。PISA 2000、PISA 2003和PISA 2006的主評(píng)估領(lǐng)域分別是閱讀、數(shù)學(xué)和科學(xué),PISA 2009的主評(píng)估領(lǐng)域則又回歸到閱讀[11]18-24。
(二)PISA 2009中國(guó)試測(cè)研究數(shù)據(jù)
中國(guó)先后于2006年和2009年兩次開(kāi)展PISA試測(cè)研究。PISA的題目類(lèi)型有選擇題和開(kāi)放式簡(jiǎn)答題兩種。開(kāi)放式簡(jiǎn)答題即為主觀題。PISA采用兩種評(píng)分方式,一種稱(chēng)單獨(dú)編碼(single coding),即每個(gè)題目?jī)H由一個(gè)評(píng)分員評(píng)閱;另一種稱(chēng)多重編碼(multiple coding),即每個(gè)題目由多個(gè)評(píng)分員評(píng)閱。多重編碼的目的就是為了考察評(píng)分員使用評(píng)分標(biāo)準(zhǔn)的一致性程度。
1.抽樣程序
PISA2009中國(guó)試測(cè)采用三階段分層隨機(jī)抽樣設(shè)計(jì),三個(gè)階段分別是:?。ㄗ灾螀^(qū)、直轄市);學(xué)校;學(xué)生。
第一階段完成省(自治區(qū)、市)的選擇。在保證全國(guó)15歲學(xué)生代表性的基礎(chǔ)上,兼顧自愿參加的原則,參照各?。ㄗ灾螀^(qū)、市)的綜合人文、經(jīng)濟(jì)及教育指標(biāo),兼顧課改省,在東、中、西部各選擇3~4個(gè)?。ㄗ灾螀^(qū)、市)。最后共10個(gè)?。ㄗ灾螀^(qū)、市)參加了此次研究。第二階段完成學(xué)校層面抽樣,通過(guò)“是否特殊教育學(xué)?!焙汀笆欠穹菨h語(yǔ)教學(xué)”這兩類(lèi)信息將特殊教育學(xué)校和非漢語(yǔ)教學(xué)學(xué)校排除在抽樣范圍之外,然后選取三個(gè)分層變量:學(xué)校的地理位置(城市、縣鎮(zhèn)和農(nóng)村)、學(xué)校的性質(zhì)(公辦學(xué)校、民辦學(xué)校)、學(xué)段(初中、高中和完全中學(xué))。按照這三個(gè)維度設(shè)計(jì)了抽樣框架,10個(gè)?。ㄗ灾螀^(qū)、市)據(jù)此框架上報(bào)了本地區(qū)所有包含15歲學(xué)生學(xué)校的統(tǒng)計(jì)信息。按照PISA抽樣的基本要求,每個(gè)地區(qū)各分配了60所學(xué)校的樣本量。為確保每名學(xué)生被抽取到的概率相同,保證樣本的充分代表性,減少抽樣誤差,采用了PPS抽樣方法,即學(xué)校被抽取到的概率與其所含15歲學(xué)生的數(shù)量成正比,以保證每名學(xué)生被抽取到的概率相同,保證抽樣數(shù)據(jù)的代表性和所得結(jié)論的可推廣性。第三階段完成學(xué)生樣本的抽取。以完全隨機(jī)抽樣的原則從10個(gè)?。ㄗ灾螀^(qū)、市)的587所學(xué)校各自中抽出35名15歲學(xué)生作為學(xué)生樣本,15歲學(xué)生總數(shù)不足35人的學(xué)校中所有15歲學(xué)生全部參加。數(shù)據(jù)還將出生年月不符合要求的學(xué)生、智殘學(xué)生和外籍學(xué)生數(shù)據(jù)排除在抽樣范圍外,最終共有來(lái)自587所中學(xué)的152 265名學(xué)生被納入樣本,有效地代表了10個(gè)?。ㄗ灾螀^(qū)、市)18 550所學(xué)校的6 583 212名15歲在校學(xué)生總體。
2.研究對(duì)象
PISA 2009中國(guó)試測(cè)研究抽樣學(xué)生被隨機(jī)分配完成OECD提供的13個(gè)試題冊(cè)中的1個(gè),評(píng)分前從這13個(gè)試題冊(cè)中各抽取100個(gè)拷貝共計(jì)1 300個(gè)試題冊(cè)用于多重編碼。PISA的每個(gè)試題冊(cè)由4個(gè)子題本構(gòu)成,這些子題本來(lái)自三個(gè)領(lǐng)域(其中閱讀共7個(gè)子題本,數(shù)學(xué)和科學(xué)各3個(gè)子題本),根據(jù)矩陣取樣設(shè)計(jì),不同子題本的組合構(gòu)成了13個(gè)試題冊(cè)。多重編碼并不是對(duì)整個(gè)試題冊(cè)進(jìn)行評(píng)分,而是從每個(gè)試題冊(cè)中選取特定子題本的題目由多個(gè)評(píng)分者評(píng)閱。表1是PISA2009中國(guó)試測(cè)研究選用題冊(cè)子題本組成。
表1 PISA2009中國(guó)試測(cè)研究選用題冊(cè)子題本組成表
3.評(píng)分者
共有50名評(píng)分者參與PISA 2009中國(guó)試測(cè)研究的閱卷工作。這些評(píng)分者均為來(lái)自某師范院校教育或心理學(xué)專(zhuān)業(yè)的碩士研究生,其中五分之四為女生,32人參與了多重編碼的工作。之所以選擇他們作為PISA 2009中國(guó)試測(cè)研究的評(píng)分者,出于以下兩個(gè)方面的考慮:首先,本次試測(cè)研究覆蓋范圍較廣,如果由學(xué)科專(zhuān)家或教師評(píng)分將導(dǎo)致成本過(guò)大或時(shí)間過(guò)長(zhǎng),不利于整個(gè)項(xiàng)目的順利開(kāi)展;第二,碩士研究生接受過(guò)較高水平教育,對(duì)新事物(如PISA的評(píng)分方式)有較強(qiáng)的接受和學(xué)習(xí)能力。這些措施和考慮均得到OECD/PISA專(zhuān)家組的認(rèn)同。
4.評(píng)分設(shè)計(jì)
評(píng)分前,首先由國(guó)外專(zhuān)家對(duì)評(píng)分者進(jìn)行培訓(xùn)。評(píng)分過(guò)程采用全程質(zhì)量監(jiān)控程序以保證評(píng)分者使用編碼指南的一致性。質(zhì)量監(jiān)控程序?yàn)?,?個(gè)評(píng)分者由一個(gè)學(xué)科教師或?qū)<冶O(jiān)控;每25個(gè)評(píng)分者由2個(gè)高級(jí)學(xué)科專(zhuān)家監(jiān)控;最后,由1個(gè)權(quán)威學(xué)科專(zhuān)家監(jiān)控整個(gè)編碼評(píng)分的質(zhì)量。
根據(jù)單一編碼設(shè)計(jì),50個(gè)評(píng)分者將評(píng)閱所有三個(gè)領(lǐng)域的題目;而在多重編碼設(shè)計(jì)中,32個(gè)評(píng)分者通過(guò)領(lǐng)域間的鏈接設(shè)計(jì)也將評(píng)閱所有三個(gè)領(lǐng)域的題目,因多重編碼設(shè)計(jì)分組為閱讀1、2和數(shù)學(xué)1、2、3以及科學(xué)。
(一)分析程序
分別使用兩個(gè)模型加以分析:(1)無(wú)評(píng)分者效應(yīng)模型;(2)評(píng)分者效應(yīng)模型。所有分析都在ConQuest軟件中完成[12]29-55。PISA試題冊(cè)中分別有(0,1)記分和(0,1,2)記分的題目,適用分步記分(partial credit)的多側(cè)面Rasch模型。無(wú)評(píng)分者效應(yīng)模型即在多側(cè)面Rasch模型中去掉評(píng)分者效應(yīng)參數(shù)Cj,對(duì)PISA數(shù)據(jù)來(lái)說(shuō),該模型即簡(jiǎn)化為Rasch家族模型中的分步記分模型。
(二)分析結(jié)果
1.模型比較
表2和表3分別為閱讀、數(shù)學(xué)和科學(xué)三個(gè)領(lǐng)域無(wú)評(píng)分者效應(yīng)模型和評(píng)分者效應(yīng)模型的比較結(jié)果。
表2顯示,對(duì)閱讀1和科學(xué)來(lái)說(shuō),與無(wú)評(píng)分者效應(yīng)模型相比,評(píng)分者效應(yīng)模型擬合的更好(p值分別為0.000 7和0.022 3);對(duì)閱讀2來(lái)說(shuō),無(wú)評(píng)分者效應(yīng)模型與評(píng)分者效應(yīng)模型沒(méi)有顯著差異(p=0.254 5)。這說(shuō)明閱讀1和科學(xué)試題上存在顯著的評(píng)分者效應(yīng),但閱讀2的題目上則無(wú)評(píng)分者效應(yīng)。表3說(shuō)明,數(shù)學(xué)2上有顯著的評(píng)分者效應(yīng)(p=0.024 8),而數(shù)學(xué)1和數(shù)學(xué)3上則無(wú)評(píng)分者效應(yīng)(p值分別為0.543 5和0.859 0)。換句話說(shuō),分別評(píng)閱閱讀2、數(shù)學(xué)1和數(shù)學(xué)3的4個(gè)評(píng)分者在使用相應(yīng)的評(píng)分指南時(shí)較為一致,而評(píng)閱閱讀1、科學(xué)和數(shù)學(xué)2的評(píng)分者在使用評(píng)分指南時(shí)差異較大。下面僅以閱讀1的結(jié)果展示評(píng)分者效應(yīng)模型的分析。
表2 閱讀和科學(xué)無(wú)評(píng)分者效應(yīng)模型和評(píng)分者效應(yīng)模型的比較結(jié)果表
表3 數(shù)學(xué)無(wú)評(píng)分者效應(yīng)模型和評(píng)分者效應(yīng)模型的比較結(jié)果表
2.閱讀1的評(píng)分者效應(yīng)
(1)評(píng)分者的嚴(yán)苛度/寬松度。圖1是表征閱讀1子領(lǐng)域上考生能力、題目難度和評(píng)分者效應(yīng)大小的懷特圖(Wright Map)。表4呈現(xiàn)了18個(gè)評(píng)分者嚴(yán)苛度/寬松度的估計(jì)值(按照從寬松到嚴(yán)苛的順序排列)和相應(yīng)的標(biāo)準(zhǔn)誤??梢钥闯?,評(píng)分者間的嚴(yán)苛度/寬松度存在顯著的差異。評(píng)分者嚴(yán)苛度/寬松度估計(jì)值間的最大差異(即估計(jì)值的最大值與最小值之差)為0.854個(gè)邏輯單位(logit),這個(gè)值接近考生能力測(cè)量分布全域的五分之一。換句話說(shuō),如果與考生潛在能力分布的標(biāo)準(zhǔn)差0.640相比,差異值0.854則意味著,如果忽略評(píng)分者嚴(yán)苛度/寬松度的影響,那么某個(gè)學(xué)生的能力估計(jì)值將在潛在能力分布上移動(dòng)多于一個(gè)標(biāo)準(zhǔn)差的位置。因此,為取得較高的評(píng)分者一致性,盡管之前有嚴(yán)格的培訓(xùn)環(huán)節(jié)和質(zhì)量監(jiān)控,但是對(duì)閱讀1上的評(píng)分者嚴(yán)苛度/寬松度的測(cè)量仍然呈現(xiàn)異質(zhì)性。這一異質(zhì)性也被懷特圖下方的分離統(tǒng)計(jì)量(separation statistics)所驗(yàn)證:(1)卡方檢驗(yàn)的值非常顯著,表明至少有兩個(gè)評(píng)分者的嚴(yán)苛度/寬松度估計(jì)值并不相同(在允許測(cè)量誤差的情況下);(2)評(píng)分者分離的信度(reliability of rater separation)也說(shuō)明評(píng)分者在編碼指南的使用上非常不一致。
圖1 閱讀1的懷特圖
如果使用評(píng)分者嚴(yán)苛度/寬松度估計(jì)值的均值作為比較的標(biāo)準(zhǔn)[13],那么則有5名評(píng)分者(28%)的嚴(yán)苛度/寬松度顯著地低于均值,即這些評(píng)分者在評(píng)分過(guò)程中表現(xiàn)得較為寬松;同樣地,也有5名評(píng)分者(28%)的嚴(yán)苛度/寬松度顯著地高于均值,即這些評(píng)分者在評(píng)分過(guò)程中表現(xiàn)得較為嚴(yán)苛。圖2顯示了評(píng)分者參數(shù)估計(jì)值的位置,按照最寬松到最嚴(yán)苛的評(píng)分者進(jìn)行排列,每個(gè)評(píng)分者嚴(yán)苛度/寬松度估計(jì)值伴隨著相應(yīng)的95%的置信區(qū)間。該圖表明,如果評(píng)分者的95%的置信區(qū)間與均值交叉,那么該評(píng)分者與均值無(wú)顯著差異;否則,則存在顯著差異。需要注意的是,評(píng)分者743的95%置信區(qū)間最長(zhǎng),該評(píng)分者在ConQuest估計(jì)中處于最后一個(gè)位置,默認(rèn)為被限制(constrain)的參數(shù),這是程序規(guī)則造成其有如此大的標(biāo)準(zhǔn)誤的原因。
表4 閱讀1評(píng)分者的嚴(yán)苛度/寬松度表
圖2 閱讀1評(píng)分者嚴(yán)苛度/寬松度估計(jì)值和95%的置信區(qū)間圖
(2)評(píng)分者擬合(rater fit)。評(píng)分者擬合指在對(duì)考生的作答進(jìn)行評(píng)分時(shí),評(píng)分者自身在使用編碼指南時(shí)的一致性程度。ConQuest為每個(gè)評(píng)分者提供了兩類(lèi)均方統(tǒng)計(jì)量以表征數(shù)據(jù)——模型擬合程度,即評(píng)分者加權(quán)和未加權(quán)的擬合統(tǒng)計(jì)量。其中,加權(quán)擬合統(tǒng)計(jì)量對(duì)評(píng)分者累積后的不一致評(píng)分較為敏感,而未加權(quán)的擬合統(tǒng)計(jì)量則對(duì)評(píng)分者單個(gè)的不一致評(píng)分較為敏感。這兩個(gè)統(tǒng)計(jì)量的期望值均為1,其值域范圍為0至無(wú)窮大[4,14]。
如果某個(gè)評(píng)分者的擬合統(tǒng)計(jì)量大于1,則說(shuō)明該評(píng)分者的評(píng)分比模型期望的評(píng)分顯示出更大的變異;由這類(lèi)評(píng)分者提供的數(shù)據(jù)傾向于不擬合(misfit)模型。相反地,如果某個(gè)評(píng)分者的擬合統(tǒng)計(jì)量小于1,則說(shuō)明該評(píng)分者的評(píng)分比模型預(yù)期的評(píng)分顯示出較小的變異;由這類(lèi)評(píng)分者提供的數(shù)據(jù)則傾向于過(guò)分?jǐn)M合(overfit)模型。作為一種經(jīng)驗(yàn)法則,Linacre建議加權(quán)和未加權(quán)的均方統(tǒng)計(jì)量均以0.50和1.50作為其控制下限和控制上限[14],也有研究者建議使用較窄的控制范圍,即0.70(或0.75)到1.30[8]122-150[15]201-203。
18個(gè)評(píng)分者的加權(quán)和未加權(quán)統(tǒng)計(jì)量按照未加權(quán)統(tǒng)計(jì)量的值加以排序的結(jié)果見(jiàn)表5。加權(quán)和未加權(quán)統(tǒng)計(jì)量的排序非常相似。結(jié)果顯示,評(píng)分者的擬合統(tǒng)計(jì)量均大于1,在使用較寬松的擬合統(tǒng)計(jì)量標(biāo)準(zhǔn)即0.50~1.50時(shí),僅有7個(gè)評(píng)分者(39%)的擬合統(tǒng)計(jì)量的值處在可接受的范圍內(nèi),然而卻有11個(gè)評(píng)分者(61%)的擬合統(tǒng)計(jì)量屬于不擬合的類(lèi)別。因此,在很大程度上,該結(jié)果說(shuō)明評(píng)分者在評(píng)分過(guò)程中體現(xiàn)出內(nèi)部不一致性,且沒(méi)有恰當(dāng)?shù)厥褂镁幋a指南。
表5 閱讀1的評(píng)分者擬合統(tǒng)計(jì)量表
本研究的主要目的是考察PISA 2009中國(guó)試測(cè)研究在閱讀、數(shù)學(xué)和科學(xué)三個(gè)領(lǐng)域的評(píng)分工作中是否存在顯著的評(píng)分者效應(yīng)。結(jié)果顯示,PISA 2009中國(guó)試測(cè)研究的評(píng)分者效應(yīng)分析的結(jié)果在三個(gè)領(lǐng)域上不一致。將閱讀分為兩個(gè)部分加以分析后,閱讀1的18個(gè)評(píng)分者在嚴(yán)苛度/寬松度上存在顯著的差異;閱讀2的4個(gè)評(píng)分者則顯示其較為一致地使用了編碼指南。數(shù)學(xué)被分為三個(gè)部分加以分析后,數(shù)學(xué)2的4個(gè)評(píng)分者在嚴(yán)苛度/寬松度上有較少的差異,只有一名評(píng)分者(727)的嚴(yán)苛度/寬松度顯著地高于均值0;而數(shù)學(xué)1和數(shù)學(xué)3沒(méi)有顯著的評(píng)分者效應(yīng)??茖W(xué)中的9個(gè)評(píng)分者在評(píng)閱考生的反應(yīng)時(shí)存在非常顯著的評(píng)分者嚴(yán)苛度/寬松度效應(yīng)。
本研究認(rèn)為PISA 2009中國(guó)試測(cè)研究在閱讀、數(shù)學(xué)和科學(xué)均存在評(píng)分者效應(yīng)。該結(jié)論與語(yǔ)言測(cè)驗(yàn)領(lǐng)域和成就測(cè)試領(lǐng)域中的一些相關(guān)研究的結(jié)論是一致的[16]261-287。同時(shí),本研究發(fā)現(xiàn)如果評(píng)分者之間的嚴(yán)苛度或?qū)捤啥炔町愝^大,將導(dǎo)致相當(dāng)一部分考生的真實(shí)能力水平被低估(當(dāng)評(píng)分者較為嚴(yán)苛?xí)r)或被高估(當(dāng)評(píng)分者較為寬松時(shí))。這個(gè)發(fā)現(xiàn)顯示,如果在事關(guān)考生個(gè)人利益的高風(fēng)險(xiǎn)考試中不考慮評(píng)分者效應(yīng),那么對(duì)考生來(lái)說(shuō)是不公平的,為降低評(píng)分者效應(yīng)對(duì)考生能力估計(jì)的影響,多側(cè)面Rasch分析能為每個(gè)考生產(chǎn)生一個(gè)期望的評(píng)分值[17],這個(gè)評(píng)分來(lái)自于一個(gè)假設(shè)的評(píng)分者,該評(píng)分者的嚴(yán)苛度或?qū)捤啥人綖?,即均值水平。這個(gè)“公平均值(fair average)或公平分?jǐn)?shù)(fair score)”能提供一個(gè)與評(píng)分者無(wú)關(guān)的考生能力估計(jì)值。此外,根據(jù)分析結(jié)果,閱讀1和科學(xué)的絕大多數(shù)評(píng)分者的擬合統(tǒng)計(jì)量均屬于不擬合的類(lèi)別,說(shuō)明評(píng)分者展現(xiàn)出的差異比模型所預(yù)期的變異更大。換句話說(shuō),這些評(píng)分者自身不能一致地使用編碼指南。一個(gè)可能的原因是有一些評(píng)分者被要求評(píng)閱所有三個(gè)領(lǐng)域的題目??梢韵胂螅珙I(lǐng)域培訓(xùn)會(huì)給評(píng)分者造成了較大的認(rèn)知負(fù)擔(dān)。另外,評(píng)分過(guò)程中不可避免地會(huì)出現(xiàn)疲勞效應(yīng)以及對(duì)每個(gè)領(lǐng)域編碼指南的理解程度的不同。通過(guò)比較這兩個(gè)研究的結(jié)果可以發(fā)現(xiàn),在今后的評(píng)分設(shè)計(jì)中,我們推薦從有經(jīng)驗(yàn)的教師和學(xué)科專(zhuān)家中選取評(píng)分者,并針對(duì)不同的領(lǐng)域設(shè)計(jì)適當(dāng)?shù)脑u(píng)分程序。在今后的研究中,我們將根據(jù)本分析得到的參數(shù)估計(jì)值作為真值,進(jìn)行模擬研究,以比較實(shí)證分析與模擬分析的結(jié)果,為研究結(jié)果提供更多支持性證據(jù)。
現(xiàn)在以高考為背景討論一下所獲得的研究結(jié)論在高考中可能的應(yīng)用前景。
與PISA相比,高考開(kāi)放題的比重大大增加,更為重要的,與PISA開(kāi)放題大部分評(píng)分設(shè)計(jì)被限制在(0,1)和(0,1,2)記分不同,高考各學(xué)科很多開(kāi)放題目的滿(mǎn)分達(dá)12至15之多,更不要說(shuō)作文的滿(mǎn)分要高達(dá)60分。一份48分的作文和一份44分的作文究竟能在多大程度上顯示出差別?是什么樣的人在評(píng)分?有哪些質(zhì)量控制程序?一道開(kāi)放題的滿(mǎn)分以多少為合適?扣分和得分的依據(jù)和標(biāo)準(zhǔn)是什么?凡此種種,如果不能有效地控制評(píng)分者之間和評(píng)分者自己在不同時(shí)間不同場(chǎng)合下評(píng)分的差異和不穩(wěn)定性,評(píng)分結(jié)果的誤差就有極大的可能掩蓋原本精心設(shè)計(jì)的題目的考查功能。
中國(guó)絕大多數(shù)省的高考已經(jīng)實(shí)現(xiàn)網(wǎng)上閱卷,但目前網(wǎng)上閱卷的組織形式更多地只是把人工閱卷積累起來(lái)的豐富經(jīng)驗(yàn)和計(jì)算機(jī)技術(shù)有機(jī)結(jié)合,從而提高工作效率。事實(shí)上,網(wǎng)上閱卷更大的意義是它使得在傳統(tǒng)的閱卷組織形式下絕無(wú)可能的一種全新的業(yè)務(wù)創(chuàng)新成為可能。在網(wǎng)上閱卷中,計(jì)算機(jī)系統(tǒng)可以將考生和閱卷員的各種個(gè)人信息、答題信息和閱卷信息的海量資料全部詳細(xì)存儲(chǔ)起來(lái)并加以實(shí)時(shí)處理,這就為應(yīng)用教育測(cè)量理論和各種較新的統(tǒng)計(jì)方法來(lái)提高閱卷質(zhì)量、控制評(píng)分誤差提供了可能。從理論上說(shuō),完全可以結(jié)合網(wǎng)上閱卷的管理流程,應(yīng)用現(xiàn)代測(cè)量評(píng)價(jià)技術(shù)和方法,提高評(píng)分的信度和效度,這才是網(wǎng)上閱卷的根本價(jià)值所在。按此思路,至少以下一些方向是值得管理部門(mén)和研究人員思考和改進(jìn)的:為主觀題評(píng)分確定客觀公正的評(píng)分標(biāo)準(zhǔn)和程序,建立并應(yīng)用評(píng)分者質(zhì)量指標(biāo)去挑選和管理高水平的評(píng)分隊(duì)伍,將較為關(guān)鍵和重要的題目分派給較高水平的評(píng)分者,實(shí)時(shí)監(jiān)測(cè)和調(diào)整評(píng)分者效應(yīng),及時(shí)發(fā)現(xiàn)抄襲和雷同等作弊現(xiàn)象并加以懲罰,及時(shí)發(fā)現(xiàn)有創(chuàng)見(jiàn)有新意的答案并給予獎(jiǎng)勵(lì),最大限度地消除評(píng)分者效應(yīng)。PISA中國(guó)試測(cè)研究的實(shí)踐證明這是完全可能的,比如,PISA評(píng)分者效應(yīng)模型中獲得的考生能力已經(jīng)是綜合考慮了評(píng)分人員嚴(yán)苛度差異自動(dòng)調(diào)節(jié)后的結(jié)果。
[1] Scullen S E,Mount M K,Goff M.Understanding the Latent Structure of Job Performance Ratings[J].Journal ofApplied Pyschology,2000,85(6).
[2] Messick S.Validity of Psychological Assessment:Validation of Inferences from Persons’Responses and Performances as Scientific Inquiry into Score Meaning[J].American Psychologist,1995,50(9).
[3] Weir C J.Language Testing and Validation:An Evidence-Based Approach[M].Houndmills,England:Palgrave Macmillan Press,2005.
[4] Myford C M,Wolfe E W.Detecting and Measuring Rater Effects Using Many-Facet Rasch Measurement:Part I[J].Journal of Applied Measurement,2003,4(4).
[5] Lunz M E,Wright B D,Linacre J M.Measuring the Impact of Judge Severity on Examination Scores[J].Applied Measurement in Education,1990,3(4).
[6] 吳志明,張厚粲.結(jié)構(gòu)化面試中的評(píng)分一致性問(wèn)題初探[J].應(yīng)用心理學(xué),1997,3(2).
[7] 蘇永華.國(guó)家公務(wù)員錄用面試初步分析[J].應(yīng)用心理學(xué),1998,4(1).
[8] Wilson M.Constructing Measures:An Item Response Modeling Approach[M].Mahwah,NJ:Lawrence Erlbaum Associates Publishers,2005.
[9] Linacre J M.Many-facet Rasch Measurement[M].Chicago,IL:MESA Press,1994.
[10]田清源.HSK主觀考試評(píng)分的Rasch實(shí)驗(yàn)分析[J].心理學(xué)探新,2007,27(1).
[11]OECD.PISA 2009Results:What Students Know and Can Do-Student Performance in Reading,Mathematics and Science(Volume I)[M].Paris:OECD Publishing,2010.
[12]Wu,Adams,Wilson,et al.ACER ConQuest Version 2.0:Generalized Item Response Modeling Software[M].Melbourne:ACER Press,2007.
[13]Wolfe E W.Identifying Rater Effects Using Latent Trait Models[J].Psychology Science,2004,46(1).
[14]Linacre J M.What Do Infit and Outfit,Mean-Square and Standardized Mean?[J].Rasch Measurement Transactions,2002,16(2).
[15]Bond T G,F(xiàn)ox C M.Applying the Rasch Model:Fundamental Measurement in the Human Sciences[M].Mahwah,NJ:Lawrence Erlbaum Associates Press,2001.
[16]Engelhard G Jr.Monitoring Raters in Performance Assessments[C]//Tindal G,Haladyna T M.Large-scale Assessment Programs for All Students:Validity,Technical Adequacy,and Implementation.Mahwah,NJ:Lawrence Erlbaum Associates Press,2002.
[17]Eckes T.Examining Rater Effects in TestDaF Writing and Speaking Performance Assessments:A Many-Facet Rasch Analysis[J].Language Assessment Quarterly,2005,2(3).
PISA China Trial Rater Effects Analysis for Gaokao Online Rating
WANG Lei1,ZHANG Wen-jing2
(1.National Education Examinations Authority,The Ministry of Education,Beijing 100084,China;2.Institute of Developmental Psychology,Beijing Normal University,Beijing 100875,China)
The aim of this study was to analyze rater effects in reading,math,and science for PISA2009China Trial Study.Based on the many-facet Rasch measurement methodology,the focus was on the rater main effects in the three subjects respectively.Results show that considerably strong rater severity/leniency effects occurred in reading and science,but a relatively weak rater severity/leniency effects for math.The potential reasons about these results were discussed and some implications for National College Entrance Examination(commonly referred to as“Gaokao”))online ratings are provided.
rater effects;severity/leniency;PISA;multiple coding;online rating of Gaokao
book=95,ebook=5
B841
A
1007-3116(2012)06-0095-07
(責(zé)任編輯:王南豐)
2012-01-20
全國(guó)教育科學(xué)規(guī)劃2009年度教育考試研究專(zhuān)項(xiàng)課題《學(xué)生能力國(guó)際評(píng)價(jià)PISA的教育評(píng)價(jià)技術(shù)在高考中的應(yīng)用》(GFA097021)
王 蕾,女,北京人,管理學(xué)博士,副研究員,研究方向:教育管理與評(píng)價(jià);張文靜,女,山東棗莊人,博士生,研究方向:心理測(cè)量與評(píng)價(jià)。