汪文義 宋麗紅 丁樹良
(1江西師范大學(xué)計(jì)算機(jī)信息工程學(xué)院; 2江西師范大學(xué)初等教育學(xué)院, 南昌 330022)
標(biāo)準(zhǔn)參照測(cè)驗(yàn)(CRT)關(guān)注學(xué)生具體知識(shí)或技能的掌握情況及達(dá)到的水平。CRT有助于發(fā)揮考試的診斷功能和促進(jìn)學(xué)生發(fā)展, 從而對(duì)教育評(píng)價(jià)產(chǎn)生了深刻影響(戴海琦, 2010)。CRT的廣泛應(yīng)用或需求,很好地體現(xiàn)了其在教育評(píng)價(jià)中的重要性:教育部基礎(chǔ)教育質(zhì)量監(jiān)測(cè)(NAEQ)中心開發(fā)的監(jiān)測(cè)工具采用了CRT; 美國(guó)的“力爭(zhēng)上游”教改計(jì)劃中強(qiáng)調(diào)采用新型標(biāo)準(zhǔn)和評(píng)價(jià), 促使學(xué)生在大學(xué)或工作崗位上取得成功, 在全球范圍內(nèi)具備更好的人才競(jìng)爭(zhēng)力; 美國(guó)前教育部長(zhǎng)阿恩·鄧肯(Arne Duncan)曾表示“一旦建立和采用新標(biāo)準(zhǔn), 就需要?jiǎng)?chuàng)建新測(cè)試, 測(cè)量學(xué)生是否滿足這些標(biāo)準(zhǔn)” (Duncan, 2009)。CRT已經(jīng)廣泛應(yīng)用于水平和資格考試等, 如國(guó)際學(xué)生評(píng)估項(xiàng)目(PISA)、國(guó)際閱讀素養(yǎng)進(jìn)步研究項(xiàng)目(PIRLS)、國(guó)際數(shù)學(xué)和科學(xué)成就趨勢(shì)研究(TIMSS)、美國(guó)教育進(jìn)步評(píng)價(jià)(NAEP)、美國(guó)研究生入學(xué)考試(GRE)、美國(guó)大學(xué)水平考試(CLEP)和NAEQ等(甘良梅, 余嘉元,2006; 辛濤, 李勉, 任曉瓊, 2015)。
CRT一般將被試分為“掌握、未掌握”或“初級(jí)、中級(jí)、高級(jí)”等表現(xiàn)水平, 測(cè)量結(jié)果直接決定學(xué)習(xí)進(jìn)程、被試選拔和教學(xué)質(zhì)量評(píng)價(jià)等。而測(cè)量往往存在測(cè)量誤差, 如何根據(jù)標(biāo)準(zhǔn)和綜合各種測(cè)驗(yàn)分?jǐn)?shù)對(duì)被試表現(xiàn)水平給出可靠而有效地評(píng)價(jià), 以及如何量化評(píng)價(jià)分類結(jié)果的一致性和準(zhǔn)確性, 成為研究者關(guān)注的重點(diǎn)(Douglas & Mislevy, 2010; 陳平, 李珍, 辛濤,高慧健, 2011)。
分類一致性是指兩次平行測(cè)驗(yàn)中被試觀察分類相同的概率, 主要反映測(cè)驗(yàn)信度; 分類準(zhǔn)確性是指被試觀察與真實(shí)分類相同的概率, 主要反映測(cè)驗(yàn)效度(Lee, Brennan, & Wan, 2009; 陳平等, 2011)。分類一致性和準(zhǔn)確性指標(biāo)的發(fā)展趨勢(shì)為:從平行測(cè)驗(yàn)過渡到單個(gè)測(cè)驗(yàn)指標(biāo)估計(jì); 從經(jīng)典測(cè)驗(yàn)理論(CTT)過渡到項(xiàng)目反應(yīng)理論(IRT)下指標(biāo)估計(jì)。本文關(guān)注IRT下單個(gè)測(cè)驗(yàn)指標(biāo)估計(jì), 這是該領(lǐng)域的研究熱點(diǎn)之一(Guo, 2006; Lathrop & Cheng, 2013; Lee, 2010;Rudner, 2005; Wyse & Hao, 2012)。指標(biāo)主要分為兩類:一類是以Lee方法為代表的基于觀察分?jǐn)?shù)(測(cè)驗(yàn)總分)的決策指標(biāo); 另一類是以Rudner方法為代表的基于能力分?jǐn)?shù)的決策指標(biāo)(Lathrop & Cheng,2013; Rudner, 2005)。Guo方法作為Rudner方法的改良, 不像Rudner方法需要借助正態(tài)性假設(shè)(Guo,2006; Wyse & Hao, 2012), 因此本研究中暫不考慮Rudner方法。
這些研究?jī)H從模擬或?qū)嵶C角度比較Lee和Guo指標(biāo)表現(xiàn), 本研究嘗試從理論上尋求兩類指標(biāo)之間的內(nèi)在關(guān)系。相關(guān)研究主要集中于單維IRT (UIRT)下指標(biāo)估計(jì), 而隨著測(cè)量學(xué)研究的深入, 眾多研究表明, 許多教育或心理測(cè)驗(yàn), 如NAEP, PISA, TIMSS,NAEQ和西方五因素人格問卷(如NEO-PI-R), 都是多維測(cè)驗(yàn)(Debeer, Buchholz, Hartig, & Janssen, 2014;Makransky, Mortensen, & Glas, 2013; Rijmen, Jeon,von Davier, & Rabe-Hesketh, 2014; Yao & Boughton,2007; Zhang, 2012)。用于多維測(cè)驗(yàn)分析的多維IRT(MIRT)涌現(xiàn)了許多研究成果, 涉及模型、估計(jì)、等值、自適應(yīng)測(cè)驗(yàn)和應(yīng)用等方面(Cai, 2010; Reckase,2009; Wang, 2015; 劉紅云, 駱方, 王玥, 張玉,2012; 杜文久, 肖涵敏, 2012; 康春花, 辛濤, 2010;毛秀珍, 辛濤, 2015; 涂冬波, 蔡艷, 戴海琦, 丁樹良,2011; 許志勇, 丁樹良, 鐘君, 2013; 詹沛達(dá), 王文中,王立君, 李曉敏, 2014)。
伴隨著MIRT的發(fā)展, 近年來有研究將Lee方法推廣用于估計(jì)多維測(cè)驗(yàn)的分類一致性和準(zhǔn)確性,如Grima和Yao (2011)、Yao (2016)將Lee方法從UIRT推廣到MIRT, 并指出使用UIRT分析多維數(shù)據(jù)會(huì)導(dǎo)致指標(biāo)估計(jì)有偏; LaFond (2014)將Lee方法應(yīng)用于雙因子模型和題組模型。這兩項(xiàng)研究均是基于Lee方法計(jì)算觀察分?jǐn)?shù)的分類一致性和準(zhǔn)確性。而最近有研究表明, 在兩或三參數(shù)邏輯斯蒂克模型和等級(jí)反應(yīng)模型下, 基于能力分?jǐn)?shù)的決策指標(biāo)要優(yōu)于基于觀察分?jǐn)?shù)的決策指標(biāo)(Lathrop & Cheng,2013)。因此, 如何計(jì)算各內(nèi)容、技能或能力分?jǐn)?shù)上的分類一致性和準(zhǔn)確性, 能否將基于能力分?jǐn)?shù)的Guo方法推廣到MIRT, UIRT下得出的結(jié)論在MIRT下是否仍成立, Guo與Lee方法在什么條件下等價(jià),Guo或Lee方法是否具有獨(dú)特的優(yōu)勢(shì)?這些是本文要探討的主要問題。
對(duì)學(xué)生有重要影響(如影響受教育機(jī)會(huì))的決策,教育與心理測(cè)量標(biāo)準(zhǔn)要求不能僅基于單個(gè)測(cè)驗(yàn)分?jǐn)?shù)(Henderson-Montero, Julian, & Yen, 2003), 而要求使用多重測(cè)量結(jié)果做決策, 以提高測(cè)量信度、效度、公平性等(Chester, 2003; McBee, Peters, &Waterman, 2014)。在“中小學(xué)教育修正法”和“不讓一個(gè)孩子掉隊(duì)”法案推動(dòng)下, 一般采用合成分?jǐn)?shù)合成多重測(cè)量結(jié)果。合成方法常采用聯(lián)合、補(bǔ)償、聯(lián)合?補(bǔ)償混合和驗(yàn)證規(guī)則, 并應(yīng)用于英語水平考試、通識(shí)教育發(fā)展考試和學(xué)業(yè)水平評(píng)價(jià)等(Abedi, 2004;Carroll & Bailey, 2015; Chester, 2003; Henderson-Montero et al., 2003)。以上關(guān)于決策規(guī)則的研究基本是集中于CTT。雖然MIRT非常適合分析多重測(cè)量結(jié)果, 如能反饋學(xué)生各方面內(nèi)容、技能和能力的診斷信息(Chang, 2012; 康春花, 辛濤, 2010), 但是至今尚沒有研究在MIRT框架下比較各種決策規(guī)則下的分類一致性和準(zhǔn)確性。
基于以上文獻(xiàn)回顧和分析, 提出如下實(shí)驗(yàn)假設(shè):基于能力分?jǐn)?shù)的Guo指標(biāo)比基于觀察分?jǐn)?shù)的Lee指標(biāo)更為靈活, 可方便計(jì)算各能力維度、聯(lián)合和補(bǔ)償?shù)葟?fù)雜規(guī)則下指標(biāo); 在計(jì)算多重積分方面具有獨(dú)特優(yōu)勢(shì)的蒙特卡羅方法, 可較好地估計(jì)Guo和Lee指標(biāo)。
其中示性函數(shù)定義如下:
x
的各個(gè)得分向量y的聯(lián)合概率之和。根據(jù)X
的條件分布和劃界分?jǐn)?shù), 可計(jì)算能力為θ的被試位于或被分到第h
類的概率:先計(jì)算能力的期望總分或真分?jǐn)?shù):
決策規(guī)則直接影響測(cè)驗(yàn)分類結(jié)果的信度和效度, 決策規(guī)則可分為聯(lián)合、補(bǔ)償及混合型等(Douglas& Mislevy, 2010)。如研究生入學(xué)考試要求考生在單科分?jǐn)?shù)和總分均達(dá)到分?jǐn)?shù)線, 這屬于一種混合型規(guī)則。下面介紹三種多維潛在能力下的決策規(guī)則, 決策區(qū)域示意圖見圖1。
(1)基于各個(gè)能力分?jǐn)?shù)的決策規(guī)則, 第k
維能力上決策區(qū)域?yàn)椋?p>(2)基于合成能力分?jǐn)?shù)的決策規(guī)則, 決策區(qū)域?yàn)椋?/p>
(3)基于各個(gè)能力和合成分?jǐn)?shù)的決策規(guī)則, 決策區(qū)域?yàn)椋?/p>
圖1 三種決策規(guī)則對(duì)應(yīng)的決策區(qū)域示意圖(H=3, d=2)
i
分到第h
類的期望概率為:通過模擬研究探討基于Guo方法估計(jì)的分類一致性和準(zhǔn)確性是否可以準(zhǔn)確地評(píng)價(jià)測(cè)驗(yàn)的模擬分類一致性和準(zhǔn)確性。模擬分類一致性, 又稱為重測(cè)一致性, 是通過模擬同一批被試在同一份測(cè)驗(yàn)上的獨(dú)立作答兩次, 然后計(jì)算兩次測(cè)驗(yàn)上估計(jì)能力所在相同類的比率; 模擬分類準(zhǔn)確性, 是指所有被試中模擬能力與估計(jì)能力屬于同一類的比率。
借鑒多維模型下模擬研究的實(shí)驗(yàn)設(shè)計(jì)(Wang,2015; Yao & Boughton, 2007), 為了評(píng)價(jià)測(cè)驗(yàn)長(zhǎng)度、維度、相關(guān)和樣本量的影響。采用四因素完全隨機(jī)設(shè)計(jì), 由于單維測(cè)驗(yàn)不能考慮能力間相關(guān), 共28種實(shí)驗(yàn)條件。表1給出了固定樣本量(1000和3000)水平下其他因素的條件組合。
表1 固定樣本量水平下三個(gè)因素的實(shí)驗(yàn)條件
模擬研究中使用了R軟件和Matlab R2015a軟件, 其中MGRM的參數(shù)估計(jì)算法采用的是MH-RM算法(Cai, 2010)。因?yàn)橛醒芯匡@示個(gè)體方法與分布方法結(jié)果類似(Lee, 2010), 因此本文中Lee方法指標(biāo)均是基于個(gè)體方法計(jì)算, 即公式(8)和(13)采用樣本中個(gè)體指標(biāo)的平均, 即使用估計(jì)能力代替能力,并對(duì)所有被試指標(biāo)求均值代替加權(quán)積分。因?yàn)殡S著測(cè)驗(yàn)項(xiàng)目數(shù)和等級(jí)數(shù)較多, 可能的項(xiàng)目反應(yīng)模式數(shù)量非常大, 公式(6)采用蒙特卡羅方法模擬作答反應(yīng)進(jìn)行近似計(jì)算。采用馬爾柯夫蒙特卡羅方法之Metropolis-Hastings構(gòu)造獨(dú)立鏈抽樣并近似計(jì)算公式(17)的多重積分。
將被試分為三類, 采用三種決策規(guī)則:(1)基于測(cè)驗(yàn)原始總分的決策規(guī)則, 劃界分?jǐn)?shù)設(shè)置為滿分的50%和80%。當(dāng)測(cè)驗(yàn)長(zhǎng)度為15且所有項(xiàng)目的最高等級(jí)分為2時(shí), 測(cè)驗(yàn)滿分為30, 劃界分?jǐn)?shù)為15和24分; (2)基于各維度能力分?jǐn)?shù)的決策規(guī)則, 各劃界分?jǐn)?shù)采用各能力維度下子測(cè)驗(yàn)滿分的50%和80%。如四維模型下測(cè)驗(yàn)長(zhǎng)度為30的測(cè)驗(yàn), 每個(gè)能力維度上有10個(gè)項(xiàng)目(含測(cè)量?jī)蓚€(gè)維度的項(xiàng)目), 劃界分?jǐn)?shù)為10和16分; (3)基于合成能力分?jǐn)?shù)的決策規(guī)則。公式(15)和(16)中能力權(quán)重設(shè)為維度的倒數(shù), 而劃界分?jǐn)?shù)設(shè)為0和0.75。在前兩種決策規(guī)則下, 可計(jì)算Lee和Guo方法指標(biāo)。而在第三種決策規(guī)則下,由于不能建立能力子空間與總分子區(qū)間的一一對(duì)應(yīng)關(guān)系, 只計(jì)算Guo方法指標(biāo)。
表2 兩維模型下的項(xiàng)目參數(shù)(Cai, 2010)
在總分決策規(guī)則下, 本部分主要給出指標(biāo)誤差的結(jié)果。指標(biāo)誤差來源主要有項(xiàng)目參數(shù)估計(jì)誤差和蒙特卡羅方法近似計(jì)算誤差。這是因?yàn)椋涸谡鎸?shí)測(cè)驗(yàn)情景下, 并沒有真實(shí)項(xiàng)目參數(shù), 而只能基于參數(shù)估計(jì)軟件估計(jì)項(xiàng)目參數(shù), 再進(jìn)行指標(biāo)計(jì)算, 這個(gè)過程當(dāng)中就存在項(xiàng)目參數(shù)的估計(jì)誤差; 已知真實(shí)或估計(jì)的項(xiàng)目參數(shù), 在指標(biāo)計(jì)算過程中, 為避免維數(shù)災(zāi)難問題或樣本空間特別大問題, 需要采用蒙特卡羅方法計(jì)算多重積分或獲得估計(jì)能力條件下總分的經(jīng)驗(yàn)分布, 此時(shí), 蒙特卡羅方法中樣本的抽樣數(shù)量將影響近似計(jì)算精度。下面主要考慮真實(shí)或估計(jì)項(xiàng)目參數(shù)和三種抽樣數(shù)量(1000,3000,9000)對(duì)指標(biāo)誤差的影響。
使用偏差(bias
)、絕對(duì)偏差(abs
)和誤差均方根(RMSE
)來反映真值與估計(jì)值差異大小。給定模擬項(xiàng)目參數(shù), 由極大似然法估計(jì)被試能力, 然后分別計(jì)算估計(jì)能力、觀測(cè)總分與模擬能力所在類相同的比率, 分別得到Guo或Lee方法的模擬分類準(zhǔn)確性(Lathrop & Cheng, 2013):由模擬或估計(jì)的項(xiàng)目參數(shù)使用極大似然法估計(jì)被試能力, 再使用公式(13)和(19)估計(jì)分類準(zhǔn)確性。
表3給出了在真實(shí)或估計(jì)項(xiàng)目參數(shù)、三種抽樣數(shù)量條件下兩類分類準(zhǔn)確性指標(biāo)的誤差。結(jié)果顯示:(1)對(duì)于分類準(zhǔn)確性指標(biāo)精度, 真實(shí)項(xiàng)目參數(shù)下精度好于估計(jì)項(xiàng)目參數(shù)下精度; (2)基于Lee方法的分類準(zhǔn)確性指標(biāo)精度已經(jīng)基本上不受抽樣數(shù)量影響, 這是因?yàn)榭偡蛛S機(jī)變量的樣本空間可數(shù)而能力空間不可數(shù); (3)基于Guo方法的分類準(zhǔn)確性指標(biāo)精度隨著抽樣數(shù)量增加而提高。當(dāng)抽樣數(shù)量從1000增加到3000時(shí),RMSE
減少0.0035或0.001, 而當(dāng)抽樣數(shù)量增加到9000時(shí), 估計(jì)精度增幅非常小; (4)精度并不完全隨抽樣數(shù)量增加而提高, 可能由于取樣隨機(jī)性引起?;谝陨辖Y(jié)果, 下面只對(duì)估計(jì)項(xiàng)目參數(shù)和抽樣數(shù)量為3000的結(jié)果進(jìn)行分析。表4給出真實(shí)項(xiàng)目參數(shù)下分類準(zhǔn)確性指標(biāo)的模擬值、估計(jì)項(xiàng)目參數(shù)下的分類準(zhǔn)確性指標(biāo)估計(jì)值及其對(duì)應(yīng)的Kappa (兩維模型和四維模型結(jié)果類似,為節(jié)省篇幅, 故兩維模型結(jié)果未列出)。結(jié)果顯示:(1)兩類方法估計(jì)的分類準(zhǔn)確性指標(biāo)返真性好, 均可以準(zhǔn)確地估計(jì)模擬分類準(zhǔn)確性; (2)單維、兩維和四維模型下, 分類準(zhǔn)確性隨著測(cè)驗(yàn)長(zhǎng)度增加而嚴(yán)格遞增; (3)單維模型下, 分類準(zhǔn)確性并沒有隨樣本量增加而提高, 存在一定的差異, 可能主要由于得分矩陣的隨機(jī)性引起。另外, 樣本量1000已經(jīng)基本達(dá)到了單維模型下準(zhǔn)確估計(jì)項(xiàng)目參數(shù)的要求, 并且分類準(zhǔn)確性指標(biāo)對(duì)項(xiàng)目參數(shù)估計(jì)誤差不是太敏感(見表3); (4)兩維模型和四維模型下, 分類準(zhǔn)確性多數(shù)隨樣本量增加而有所提高。直觀上, 維數(shù)越大需要估計(jì)的項(xiàng)目參數(shù)數(shù)量更多, 對(duì)樣本量有更高要求;(5)兩類方法的分類準(zhǔn)確性均隨著能力間相關(guān)增加而嚴(yán)格遞增, 并且四維模型與兩維模型的結(jié)果類似;(6)單維模型和兩維模型下, Guo方法下的模擬或估計(jì)的分類準(zhǔn)確性指標(biāo)均稍高于Lee方法相應(yīng)指標(biāo)(但是兩者相當(dāng)接近, 與理論結(jié)果相符), 兩種方法得到的估計(jì)值對(duì)應(yīng)的Kappa有類似的趨勢(shì)。而在四維模型下, 結(jié)果有所不同, 僅在相關(guān)為0.8時(shí), Guo方法下分類準(zhǔn)確性指標(biāo)估計(jì)值的Kappa較明顯高于Lee方法的Kappa; (7)相同條件下, 兩類指標(biāo)值差異相當(dāng)小。表5給出了分類一致性, 結(jié)果類似于分類準(zhǔn)確性, 在此不詳細(xì)說明。
表3 模擬研究所有條件下兩類分類準(zhǔn)確性指標(biāo)的三類誤差指標(biāo)的平均值
單維模型的維數(shù)為1, 能力維度決策規(guī)則與總分決策規(guī)則相同, 對(duì)應(yīng)的指標(biāo)估計(jì)相同, 結(jié)果不重復(fù)列出。由于設(shè)計(jì)的測(cè)驗(yàn)考慮了各能力維度上的項(xiàng)目數(shù)平衡, 各能力維度上的分類準(zhǔn)確性十分接近,下面僅考慮第一個(gè)能力維度下指標(biāo)的結(jié)果(其他結(jié)果未列出)。表6僅給出四維模型的真實(shí)項(xiàng)目參數(shù)下分類準(zhǔn)確性指標(biāo)的模擬值、估計(jì)項(xiàng)目參數(shù)下的分類準(zhǔn)確性指標(biāo)估計(jì)值及其對(duì)應(yīng)的Kappa。
表6結(jié)果顯示:(1)兩類方法估計(jì)的分類準(zhǔn)確性指標(biāo)返真性好, Guo方法返真性稍好; (2)分類準(zhǔn)確性隨著測(cè)驗(yàn)長(zhǎng)度增加而提高; (3)分類準(zhǔn)確性并不隨著樣本量增加而提高, 可能由于相應(yīng)子測(cè)驗(yàn)長(zhǎng)度較短和得分陣中隨機(jī)性導(dǎo)致; (4)分類準(zhǔn)確性隨著能力間相關(guān)增加而提高; (5)平均而言, Lee方法比Guo方法的分類準(zhǔn)確性高; (6)相同條件下, 各能力維度決策規(guī)則比總分決策規(guī)則所得到的分類準(zhǔn)確性要小, 這意味著, 在實(shí)際應(yīng)用中報(bào)告各能力維度分?jǐn)?shù)或內(nèi)容領(lǐng)域分?jǐn)?shù)時(shí), 需要考慮其分類準(zhǔn)確性是否達(dá)到指定的精度。該決策規(guī)則下的分類一致性指標(biāo)與總分決策規(guī)則的分類一致性指標(biāo)變化趨勢(shì)相似, 只是值要小一些, 故結(jié)果省略。
表4 總分決策規(guī)則下分類準(zhǔn)確性指標(biāo)及估計(jì)值對(duì)應(yīng)的Kappa (抽樣數(shù)量為3000)
表5 總分決策規(guī)則下分類一致性指標(biāo)及估計(jì)值對(duì)應(yīng)的Kappa (抽樣數(shù)量為3000)
表6 第一個(gè)能力維度決策規(guī)則下分類準(zhǔn)確性指標(biāo)及估計(jì)值對(duì)應(yīng)的Kappa (抽樣數(shù)量為3000)
表7給出真實(shí)項(xiàng)目參數(shù)下分類一致性和準(zhǔn)確性指標(biāo)模擬值、估計(jì)項(xiàng)目參數(shù)下分類一致性和準(zhǔn)確性指標(biāo)估計(jì)值及其對(duì)應(yīng)的Kappa (兩維模型結(jié)果未列出)。結(jié)果顯示:(1)兩維模型和四維模型下, 推廣的Guo方法能很好地估計(jì)合成能力規(guī)則下的分類一致性和準(zhǔn)確性; (2)在單維模型下, 由于并沒有其他能力維度參與合成, 其實(shí)就只有單個(gè)能力參與決策,但是基于能力量尺劃界分?jǐn)?shù)與總分決策規(guī)則的劃界分?jǐn)?shù)稍微有所差異。劃界分?jǐn)?shù)為滿分50%基本上對(duì)應(yīng)能力劃界分?jǐn)?shù)0, 而若總分服從正態(tài)分布, 可計(jì)算劃界分?jǐn)?shù)為滿分80%對(duì)應(yīng)的Z分?jǐn)?shù)約為0.84,這與能力劃界分?jǐn)?shù)0.75稍有差異。劃界分?jǐn)?shù)對(duì)應(yīng)的能力值也可以通過已知總分量尺上的劃界分?jǐn)?shù), 由真分?jǐn)?shù)計(jì)算公式迭代估計(jì)出對(duì)應(yīng)的能力值(可參見戴海琦, 2010)。因此, 單維模型下的分類一致性和準(zhǔn)確性指標(biāo)與表4和表5中結(jié)果稍有差異。
表7 合成能力決策規(guī)則下分類一致性和準(zhǔn)確性指標(biāo)(抽樣數(shù)量為3000)
CRT一般將被試分成少數(shù)幾個(gè)表現(xiàn)水平, 從而可以較短測(cè)驗(yàn)長(zhǎng)度獲得較高的測(cè)量精度, 特別適合于大尺度教育評(píng)估等, 并且CRT有利于提高教學(xué)(戴海琦, 2010; Chang, 2012)。許多大尺度評(píng)估具有多維性, 為了更好地利用維度間的相關(guān)信息, MIRT成為分析這類測(cè)驗(yàn)的重要選擇。信度和效度是評(píng)價(jià)測(cè)量工具質(zhì)量的重要指標(biāo), 因此, 非常有必要開發(fā)分類信度和效度的評(píng)價(jià)指標(biāo)。本研究正是在這樣的背景之下, 探討MIRT下CRT的分類一致性和準(zhǔn)確性指標(biāo)。
本研究在MIRT下推廣分類一致性和準(zhǔn)確性指標(biāo), 采用蒙特卡羅方法計(jì)算多重積分值, 實(shí)現(xiàn)復(fù)雜決策規(guī)則下指標(biāo)計(jì)算, 并從數(shù)學(xué)上證明分類準(zhǔn)確性兩類估計(jì)量在總分決策規(guī)則和均勻先驗(yàn)下依概率收斂于同一真值。綜合考慮測(cè)驗(yàn)長(zhǎng)度、維度、相關(guān)、樣本量和決策規(guī)則等對(duì)指標(biāo)估計(jì)的影響, 研究表明,新指標(biāo)及其估計(jì)方法表現(xiàn)不錯(cuò), 可以在復(fù)雜決策規(guī)則下評(píng)價(jià)CRT分類信度和效度。如果劃界分?jǐn)?shù)直接定義在能力分?jǐn)?shù)量尺之上, 相比Lee方法, Guo方法更適合于各個(gè)能力維度、聯(lián)合和補(bǔ)償?shù)葟?fù)雜規(guī)則下指標(biāo)估計(jì)。
分類一致性和準(zhǔn)確性的估計(jì)方法的實(shí)際用處到底是什么、是否有替代方法、這些方法如何應(yīng)用于真實(shí)測(cè)驗(yàn)情景和是否已經(jīng)有應(yīng)用的例子、以及在什么情景下需要使用新方法?這些問題十分重要,直接決定這類方法或新方法的推廣性。為了清晰地闡明分類一致性和準(zhǔn)確性或新方法的用處, 下面對(duì)這些問題分別進(jìn)行說明。
第一, 新方法可用于估計(jì)單個(gè)測(cè)驗(yàn)的分類一致性和準(zhǔn)確性, 無需進(jìn)行重測(cè)、能力模擬和估計(jì)。一方面, 盡管測(cè)驗(yàn)的分類一致性可以通過重測(cè)得到,但是由于重測(cè)條件十分苛刻而要獲得重測(cè)數(shù)據(jù)不太可能(Lee, 2010), 因此, 實(shí)際應(yīng)用中較難直接通過重測(cè)獲得分類一致性。另一方面, 由于在實(shí)際應(yīng)用中真實(shí)能力并不知道, 估計(jì)分類準(zhǔn)確性的模擬方法需要模擬并估計(jì)能力。即先根據(jù)估計(jì)能力和項(xiàng)目參數(shù), 模擬作答數(shù)據(jù)再估計(jì)能力并比較兩者分類相同的比率, 即模擬的分類準(zhǔn)確性。由于估計(jì)能力并非被試的真實(shí)能力, 該模擬方法仍有不足之處。以上兩方面的考慮, 正是眾多研究者提出了其他方法估計(jì)單個(gè)測(cè)驗(yàn)的分類一致性和準(zhǔn)確性的初衷。
第二, 條件標(biāo)準(zhǔn)誤指標(biāo)并不能直接反映測(cè)驗(yàn)的分類準(zhǔn)確性。盡管CRT分類誤差還可通過其他指標(biāo)來衡量, 如條件標(biāo)準(zhǔn)誤等指標(biāo)(戴海琦, 2010)。由于條件標(biāo)準(zhǔn)誤只能反映能力估計(jì)與“真值”之間的一種差異, 并不能直接以“百分比”的形式反映測(cè)驗(yàn)上所有被試的分類準(zhǔn)確率。不過, 在UIRT和誤差分布為正態(tài)分布條件下, 有研究者發(fā)現(xiàn)能力估計(jì)的標(biāo)準(zhǔn)誤與分類準(zhǔn)確性指標(biāo)存在著一種較為復(fù)雜的非線性轉(zhuǎn)換關(guān)系(Cheng, Liu, & Behrens, 2015)。理論上這種關(guān)系應(yīng)該可以推廣到MIRT, 但仍需要進(jìn)行相關(guān)研究。
第三, 新方法或指標(biāo)并不僅僅能用于模擬研究,更為重要是可以應(yīng)用于實(shí)證研究。首先, 在真實(shí)測(cè)驗(yàn)情景下, 由于被試真實(shí)能力未知, 無法得到分類準(zhǔn)確性真值, 本文開展的模擬研究只是為了驗(yàn)證新指標(biāo)的表現(xiàn)。一般來講, 模擬研究的邏輯是, 如果模擬條件下結(jié)果不好, 那么在錯(cuò)綜復(fù)雜的真實(shí)情況下結(jié)果一般更加差, 即模擬研究至少可以起到淘汰作用。結(jié)合本文來說, 如果在相當(dāng)理想的模擬條件下, 新指標(biāo)不能很好地估計(jì)真實(shí)的分類一致性和準(zhǔn)確性, 那么在更加復(fù)雜的實(shí)際情況中, 新指標(biāo)就不可用。其次, 從文中敘述的方法和條件來看, 新方法或指標(biāo)完全可用于真實(shí)測(cè)驗(yàn)情景。本文敘述的復(fù)雜決策規(guī)則下MIRT的分類一致性和準(zhǔn)確性估計(jì)方法, 只要將相關(guān)算法嵌入到相應(yīng)的MIRT參數(shù)估計(jì)程序中, 基于測(cè)驗(yàn)作答數(shù)據(jù)、參數(shù)估計(jì)結(jié)果和決策規(guī)則, 就可估計(jì)真實(shí)測(cè)驗(yàn)的分類一致性和準(zhǔn)確性。相關(guān)研究顯示, 有些分類一致性和準(zhǔn)確性估計(jì)方法已應(yīng)用于真實(shí)測(cè)驗(yàn), 如在UIRT或其他模型下,Lathrop和Cheng (2014)在其文中的引言中提到(pp.318?319), 前人提出的分類一致性和準(zhǔn)確性估計(jì)方法, 包括本文中用到的Lee方法, 已用于評(píng)價(jià)許多實(shí)際測(cè)驗(yàn)的分類結(jié)果質(zhì)量, 并且已經(jīng)開發(fā)可供用戶使用的專門商業(yè)或免費(fèi)軟件。
第四, 新方法或指標(biāo)可用于復(fù)雜決策規(guī)則下多維測(cè)驗(yàn)的領(lǐng)域分?jǐn)?shù)報(bào)告質(zhì)量評(píng)價(jià)。領(lǐng)域分?jǐn)?shù)主要反映學(xué)生在一組代表某個(gè)內(nèi)容和技能的試題(領(lǐng)域)上的表現(xiàn), 這比量表分或測(cè)驗(yàn)總分更直接, 更能被大眾理解和接受(辛濤, 謝敏, 2010)?;贗RT的領(lǐng)域分?jǐn)?shù)更具有優(yōu)勢(shì)。根據(jù)題目與潛在維度之間的關(guān)系,多維模型或測(cè)驗(yàn)主要分為兩類:“題目間多維”和“題目?jī)?nèi)多維”, 其中題目間多維測(cè)驗(yàn)的各個(gè)題目?jī)H能測(cè)量多個(gè)潛在維度中一個(gè); 而題目?jī)?nèi)多維測(cè)驗(yàn)允許每個(gè)題目考察多個(gè)潛在維度(Adams, Wilson, &Wang, 1997)。題目間多維測(cè)驗(yàn)的領(lǐng)域分?jǐn)?shù)報(bào)告研究較多(Yao, 2016; Yao & Boughton, 2007), 而題目?jī)?nèi)多維測(cè)驗(yàn)僅有報(bào)告能力領(lǐng)域分?jǐn)?shù)(Yao, 2010)。在復(fù)雜決策規(guī)則下, 新指標(biāo)可用于評(píng)估這兩類測(cè)驗(yàn)的分類準(zhǔn)確率和一致性, 從而豐富分?jǐn)?shù)報(bào)告內(nèi)容。
基于Guo方法的新指標(biāo)可根據(jù)不同決策規(guī)則計(jì)算分類一致性和準(zhǔn)確性, 不需要復(fù)雜的計(jì)算程序。Guo方法不像Rudner指標(biāo)(Rudner, 2005; Wyse& Hao, 2012)需要借助正態(tài)性假設(shè)(Guo, 2006), 可適合于非正態(tài)性數(shù)據(jù), 同時(shí)可避免分?jǐn)?shù)分布正態(tài)性轉(zhuǎn)換可能帶來分類結(jié)果的不同(Douglas & Mislevy,2010)。但是本研究并沒有模擬非正態(tài)分布能力, 以檢驗(yàn)Guo指標(biāo)對(duì)于非正態(tài)數(shù)據(jù)的穩(wěn)健性。能力分布為非正態(tài)分布條件下, 指標(biāo)表現(xiàn)如何?有待研究。
盡管Guo方法并不需要能力誤差具有正態(tài)性假設(shè), 但是需要利用IRT下的似然函數(shù), 因此Guo方法的表現(xiàn)依賴于模型-資料擬合情況。如果模型-資料擬合不好, 對(duì)Guo方法的影響如何?是否有更好的替代方法?最近有研究基于非參數(shù)統(tǒng)計(jì)中假設(shè)更弱的密度估計(jì)方法用于估計(jì)總分的平滑分布, 并用于估計(jì)分類一致性和準(zhǔn)確性(Lathrop &Cheng, 2014)。非參數(shù)方法, 能否用于多維情形下各種決策規(guī)則下的分類一致性和準(zhǔn)確性估計(jì), 仍有待考慮。
MIRT下, 如何基于Rudner方法(Rudner, 2005;Wyse & Hao, 2012)估計(jì)分類一致性和準(zhǔn)確性?值得研究。Rudner指標(biāo)需要借助能力估計(jì)的誤差矩陣或信息矩陣來計(jì)算, 能力的信息矩陣的不同估計(jì)方法也將影響指標(biāo)的結(jié)果。信息矩陣哪一種估計(jì)方法更有利于估計(jì)分類一致性和準(zhǔn)確性, 仍值得研究。如果在測(cè)驗(yàn)長(zhǎng)度較長(zhǎng)時(shí), 極大似然法估計(jì)的能力誤差漸近服從多元正態(tài)分布。而多元正態(tài)分布隨機(jī)向量落在任意區(qū)域的概率的計(jì)算相對(duì)容易, 或可為分類一致性和準(zhǔn)確性的計(jì)算帶來一定的方便。
本研究采用了內(nèi)容平衡技術(shù)生成多維測(cè)驗(yàn), 因此采用了相同權(quán)重得到合成分?jǐn)?shù), 并計(jì)算其分類一致性和準(zhǔn)確性。若以合成能力分?jǐn)?shù)信息量最大的方式求取權(quán)重(Yao, 2010), 這樣合成能力分?jǐn)?shù)的分類一致性和準(zhǔn)確性如何值得探討?;诟鲀?nèi)容領(lǐng)域的觀察分?jǐn)?shù)的如何合成, 及其分類一致性和準(zhǔn)確性評(píng)價(jià)也值得考慮。在特定應(yīng)用領(lǐng)域, 使用哪種決策規(guī)則, 需要綜合考慮決策目的、信度、效度、公平性和風(fēng)險(xiǎn)等因素。另外, 有待開展新指標(biāo)在真實(shí)的CRT或計(jì)算機(jī)分類測(cè)驗(yàn)中的應(yīng)用。
本研究探討了MGRM下的分類一致性和準(zhǔn)確性指標(biāo), 并采用蒙特卡羅方法模擬樣本進(jìn)行指標(biāo)估計(jì)。研究表明:
(1)基于Guo方法(Guo, 2006; Wyse & Hao,2012)提出的多維模型下的分類一致性和準(zhǔn)確性指標(biāo), 可準(zhǔn)確地評(píng)價(jià)多維CRT的分類信度和效度;
(2)相比Lee方法, Guo方法更加靈活, 適用于多種決策規(guī)則指標(biāo)估計(jì), 不僅可用于觀察總分、各個(gè)內(nèi)容或技能分?jǐn)?shù)指標(biāo)估計(jì), 還適宜于合成分?jǐn)?shù)等復(fù)雜決策規(guī)則下分類一致性和準(zhǔn)確性指標(biāo)估計(jì);
(3)多維模型下基于能力分?jǐn)?shù)的Guo方法比基于觀察總分的Lee方法得到的分類一致性略高, 分類準(zhǔn)確性在能力間相關(guān)較大時(shí)更高。因此, 如果IRT擬合測(cè)驗(yàn)數(shù)據(jù), 更適合基于能力做決策。單維等級(jí)反應(yīng)模型下的基于能力分?jǐn)?shù)的決策更準(zhǔn)確,Lathrop和Cheng (2013)在比較Lee方法和Rudner方法, 也有相同的發(fā)現(xiàn)。
(4)在總分決策規(guī)則和無信息先驗(yàn)分布下(即先驗(yàn)分布為均勻分布), 從數(shù)學(xué)上證明了兩種方法下分類準(zhǔn)確性指標(biāo)估計(jì)量依概率收斂于同一真值。
Abedi, J. (2004). The No Child Left Behind Act and English language learners: Assessment and accountability issues.Educational Researcher, 33
(1), 4–14.Adams, R. J., Wilson, M., & Wang, W. C. (1997). The multidimensional random coefficients multinomial logit model.Applied Psychological Measurement, 21
(1), 1–23.Cai, L. (2010). High-dimensional exploratory item factor analysis by a Metropolis–Hastings Robbins–Monro algorithm.Psychometrika, 75
(1), 33–57.Carroll, P. E., & Bailey, A. L. (2016). Do decision rules matter?A descriptive study of English language proficiency assessment classifications for English-language learners and native English speakers in fifth grade.Language Testing, 33
(1), 23–52.Chang, H. H. (2012). Making computerized adaptive testing diagnostic tools for schools. In R. W. Lissitz & H. Jiao(Eds.),Computers an d their impact on st ate as sessment:Recent history and predictions for the future
(pp. 195–226.).Charlotte, NC: Information Age.Chen, P., Li, Z., Xin, T., & Gao, H. J. (2011). A review of decision consistency indices of criteria-reference test.Psychological Development and Education, 27
(2), 210–215.[陳平, 李珍, 辛濤, 高慧健. (2011). 標(biāo)準(zhǔn)參照測(cè)驗(yàn)決策一致性指標(biāo)研究的總結(jié)與展望.心理發(fā)展與教育, 27
(2),210–215.]Cheng, Y., Liu, C., & Behrens, J. (2015). Standard error of ability estimates and the classification accuracy and consistency of binary decisions.Psychometrika, 8 0
(3),645–664.Chester, M. D. (2003). Multiple measures and high-stakes decisions: A framework for combining measures.Educational Measurement: Issues and Practice, 22
(2), 32–41.Dai, H. Q. (2010).Psychometrics
. Beijing, China: Higher Education Press.[戴海琦. (2010).心理測(cè)量學(xué)
. 北京: 高等教育出版社.]Du, W. J., & Xiao, H. M. (2012). Multidimensional grade response model.Acta Psychologica Sinica, 44
(10), 1402–1407.[杜文久, 肖涵敏. (2012). 多維項(xiàng)目反應(yīng)理論等級(jí)反應(yīng)模型.心理學(xué)報(bào), 44
(10), 1402–1407.]Debeer, D., Buchholz, J., Hartig, J., & Janssen, R. (2014).Student, school, and country differences in sustained test-taking effort in the 2009 PISA reading assessment.Journal of Ed ucational and Be havioral Statistics, 39
(6),502–523.Douglas, K. M., & Mislevy, R. J. (2010). Estimating classification accuracy for complex decision rules based on multiple scores.Journal o f E ducational an d B ehavioral Statistics, 35
(3), 280–306.Duncan, A. (2009, June 14). Address by the secretary of education at the 2009 governors education symposium:States will lead the way towards reform. Washington, DC:U.S. Department of Education. Retrieved May 10, 2016,from http://www2.ed.gov/news/speeches/2009/06/06142009.pdf
Gan, L. M., & Yu, J. Y. (2006). The study of criterion referenced test's score system.Psychological Exploration,26
(3), 79–83.[甘良梅, 余嘉元. (2006). 標(biāo)準(zhǔn)參照測(cè)驗(yàn)分?jǐn)?shù)體系的探討研究.心理學(xué)探新, 26
(3), 79–83.]Grima, A., & Yao, L. H. (2011).Classification consistency and accuracy fo r test of mix ed item ty pes: U nidimensional versus multidimensional IRT procedures
. Paper presented at the annual meeting of National Council on Measurement in Education, New Orleans, LA.Guo, F. M. (2006). Expected classification accuracy using the latent distribution.Practical A ssessment, Res earch &Evaluation, 11
(6), 1–6.Henderson-Montero, D., Julian, M. W., & Yen, W. M. (2003).Multiple measures: alternative design and analysis models.Educational Measurement: Is sues a nd Pr actice, 22
(2),7–12.Kang, C. H., & Xin, T. (2010). New development in test theory:Multidimensional item response theory.Advances i n Psychological Science, 18
(3), 530–536[康春花, 辛濤. (2010). 測(cè)驗(yàn)理論的新發(fā)展: 多維項(xiàng)目反應(yīng)理論.心理科學(xué)進(jìn)展, 18
(3), 530–536.]Kroehne, U., Goldhammer, F., & Partchev, I. (2014).Constrained multidimensional adaptive testing without intermixing items from different dimensions.Psychological Test and Assessment Modeling, 56
(4), 348–367.LaFond, L. J. (2014).Decision co nsistency and ac curacy indices for the bifactor and testlet response theory models
(Unpublished doctorial dissertation). University of Iowa.Lathrop, Q. N., & Cheng, Y. (2013). Two approaches to estimation of classification accuracy rate under item response theory.Applied Ps ychological M easurement,37
(3), 226–241.Lathrop, Q. N., & Cheng, Y. (2014). A nonparametric approach to estimate classification accuracy and consistency.Journal of Educational Measurement, 51
(3), 318–334.Lee, W. C. (2010). Classification consistency and accuracy for complex assessments using item response theory.Journal of Educational Measurement, 47
(1), 1–17.Lee, W. C., Brennan, R. L., & Wan, L. (2009). Classification consistency and accuracy for complex assessments under the compound multinomial model.Applied Psy chological Measurement, 33
(5), 374–390.Liu, H. Y., Luo, F., Wang, Y., & Zhang, Y. (2012). Item parameter estimation for multidimensional measurement:Comparisons of SEM and MIRT based methods.Acta Psychologica Sinica, 44
(1), 121–132.[劉紅云, 駱方, 王玥, 張玉. (2012). 多維測(cè)驗(yàn)項(xiàng)目參數(shù)的估計(jì): 基于SEM與MIRT方法的比較.心理學(xué)報(bào), 44
(11),121–132.]Makransky, G., Mortensen, E. L., & Glas, C. A. W. (2013).Improving personality facet scores with multidimensional computer adaptive testing: An illustration with the Neo Pi-R.Assessment, 20
(1), 3–13.Mao, X. Z., & Xin, T. (2015). Multidimensional computerized adaptive testing: Model, techniques and methods.Advances in Psychological Science, 23
(5), 907–918.[毛秀珍, 辛濤. (2015). 多維計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn): 模型、技術(shù)和方法.心理科學(xué)進(jìn)展, 23
(5), 907–918.]McBee, M. T., Peters, S. J., & Waterman, C. (2014).Combining scores in multiple-criteria assessment systems:The impact of combination rule.Gifted Ch ild Q uarterly,58
(1), 69–89.Reckase, M. D. (2009).Multidimensional item response theory
.New York: Springer.Rijmen, F., Jeon, M., von Davier, M., & Rabe-Hesketh, S.(2014). A third-order item response theory model for modeling the effects of domains and subdomains in large-scale educational assessment surveys.Journal o f Educational and Behavioral Statistics, 39
(4), 235–256.Rudner, L. M. (2005). Expected classification accuracy.Practical Assessment, Research & Evaluation, 10
(13), 1–4.Tu, D. B., Cai, Y., Dai, H. Q., & Ding, S. L. (2011).Parameters estimation of MIRT model and its application in psychological tests.Acta Ps ychologica Si nica, 43
(11),1329–1340.[涂冬波, 蔡艷, 戴海琦, 丁樹良. (2011). 多維項(xiàng)目反應(yīng)理論:參數(shù)估計(jì)及其在心理測(cè)驗(yàn)中的應(yīng)用.心理學(xué)報(bào), 43
(11),1329–1340.]Wang, C. (2015). On latent trait estimation in multidimensional compensatory item response models.Psychometrika, 80
(2),428–449.Wyse, A. E., & Hao, S. Q. (2012). An evaluation of item response theory classification accuracy and consistency indices.Applied Psychological Measurement, 36
(7), 602–624.Xin, T., Li, M., & Ren, X. Q. (2015).Reporting and using the results of national assessment of education quality
. Beijing,China: Beijing Normal University Publishing Group.[辛濤, 李勉, 任曉瓊. (2015).基礎(chǔ)教育質(zhì)量監(jiān)測(cè)報(bào)告撰寫與結(jié)果應(yīng)用
. 北京: 北京師范大學(xué)出版集團(tuán).]Xin, T., & Xie, M. (2010). Group-level domain score and its estimation methods.Psychological D evelopment and Education, 26
(4), 416–422.[辛濤, 謝敏. (2010). 群體水平領(lǐng)域分?jǐn)?shù)及其估計(jì)方法.心理發(fā)展與教育, 26
(4), 416–422.]Xu, Z. Y., Ding, S. L., & Zhong, J. (2013). The analysis and application of MIRT in mathematics paper in college entrance examination.Psychological Ex ploration, 33
(5),438–443.[許志勇, 丁樹良, 鐘君. (2013). 高考數(shù)學(xué)試卷多維項(xiàng)目反應(yīng)理論的分析及應(yīng)用.心理學(xué)探新, 33
(5), 438– 443.]Xu, W. N., Wang, P. X., Han, P., Yan, T. L., & Zhang, S. Y.(2011). Application of Kappa coefficient to accuracy assessments of drought forecasting model: A case study of guanzhong plain.Journal of Natural Disasters, 20
(6), 81–86.[許文寧, 王鵬新, 韓萍, 嚴(yán)泰來, 張樹譽(yù). (2011). Kappa系數(shù)在干旱預(yù)測(cè)模型精度評(píng)價(jià)中的應(yīng)用——以關(guān)中平原的干旱預(yù)測(cè)為例.自然災(zāi)害學(xué)報(bào), 20
(6), 81–86.]Yao, L. H. (2010). Reporting valid and reliable overall scores and domain scores.Journal of Educational Measurement,47
(3), 339–360.Yao, L. H. (2012). Multidimensional CAT item selection methods for domain scores and composite scores: Theory and applications.Psychometrika, 77
(3), 495–523.Yao, L. H. (2016). The BMIRT toolkit. Retrieved August 8,2016, from http://www.bmirt.com/media/f5abb5352d553d5fffff807cffff d524.pdf
Yao, L. H., & Boughton, K. A. (2007). A multidimensional item response modeling approach for improving subscale proficiency estimation and classification.Applied Psychological Measurement, 31
(2), 83–105.Zhan, P. D., Wang, W. C., Wang, L. J., & Li, X. M. (2014).The multidimensional testlet-effect Rasch model.Acta Psychologica Sinica, 46
(8), 1208–1222.[詹沛達(dá), 王文中, 王立君, 李曉敏. (2014). 多維題組效應(yīng)Rasch模型.心理學(xué)報(bào), 46
(8), 1208–1222.]Zhang, J. M. (2012). Calibration of response data using MIRT models with simple and mixed structures.Applied Psychological Measurement, 36
(5), 375–398.