• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    復(fù)雜決策規(guī)則下MIRT的分類準(zhǔn)確性和分類一致性*

    2016-02-01 22:11:12汪文義宋麗紅丁樹良
    心理學(xué)報(bào) 2016年12期
    關(guān)鍵詞:測(cè)驗(yàn)準(zhǔn)確性一致性

    汪文義 宋麗紅 丁樹良

    (1江西師范大學(xué)計(jì)算機(jī)信息工程學(xué)院; 2江西師范大學(xué)初等教育學(xué)院, 南昌 330022)

    1 引言

    標(biāo)準(zhǔn)參照測(cè)驗(yàn)(CRT)關(guān)注學(xué)生具體知識(shí)或技能的掌握情況及達(dá)到的水平。CRT有助于發(fā)揮考試的診斷功能和促進(jìn)學(xué)生發(fā)展, 從而對(duì)教育評(píng)價(jià)產(chǎn)生了深刻影響(戴海琦, 2010)。CRT的廣泛應(yīng)用或需求,很好地體現(xiàn)了其在教育評(píng)價(jià)中的重要性:教育部基礎(chǔ)教育質(zhì)量監(jiān)測(cè)(NAEQ)中心開發(fā)的監(jiān)測(cè)工具采用了CRT; 美國(guó)的“力爭(zhēng)上游”教改計(jì)劃中強(qiáng)調(diào)采用新型標(biāo)準(zhǔn)和評(píng)價(jià), 促使學(xué)生在大學(xué)或工作崗位上取得成功, 在全球范圍內(nèi)具備更好的人才競(jìng)爭(zhēng)力; 美國(guó)前教育部長(zhǎng)阿恩·鄧肯(Arne Duncan)曾表示“一旦建立和采用新標(biāo)準(zhǔn), 就需要?jiǎng)?chuàng)建新測(cè)試, 測(cè)量學(xué)生是否滿足這些標(biāo)準(zhǔn)” (Duncan, 2009)。CRT已經(jīng)廣泛應(yīng)用于水平和資格考試等, 如國(guó)際學(xué)生評(píng)估項(xiàng)目(PISA)、國(guó)際閱讀素養(yǎng)進(jìn)步研究項(xiàng)目(PIRLS)、國(guó)際數(shù)學(xué)和科學(xué)成就趨勢(shì)研究(TIMSS)、美國(guó)教育進(jìn)步評(píng)價(jià)(NAEP)、美國(guó)研究生入學(xué)考試(GRE)、美國(guó)大學(xué)水平考試(CLEP)和NAEQ等(甘良梅, 余嘉元,2006; 辛濤, 李勉, 任曉瓊, 2015)。

    CRT一般將被試分為“掌握、未掌握”或“初級(jí)、中級(jí)、高級(jí)”等表現(xiàn)水平, 測(cè)量結(jié)果直接決定學(xué)習(xí)進(jìn)程、被試選拔和教學(xué)質(zhì)量評(píng)價(jià)等。而測(cè)量往往存在測(cè)量誤差, 如何根據(jù)標(biāo)準(zhǔn)和綜合各種測(cè)驗(yàn)分?jǐn)?shù)對(duì)被試表現(xiàn)水平給出可靠而有效地評(píng)價(jià), 以及如何量化評(píng)價(jià)分類結(jié)果的一致性和準(zhǔn)確性, 成為研究者關(guān)注的重點(diǎn)(Douglas & Mislevy, 2010; 陳平, 李珍, 辛濤,高慧健, 2011)。

    分類一致性是指兩次平行測(cè)驗(yàn)中被試觀察分類相同的概率, 主要反映測(cè)驗(yàn)信度; 分類準(zhǔn)確性是指被試觀察與真實(shí)分類相同的概率, 主要反映測(cè)驗(yàn)效度(Lee, Brennan, & Wan, 2009; 陳平等, 2011)。分類一致性和準(zhǔn)確性指標(biāo)的發(fā)展趨勢(shì)為:從平行測(cè)驗(yàn)過渡到單個(gè)測(cè)驗(yàn)指標(biāo)估計(jì); 從經(jīng)典測(cè)驗(yàn)理論(CTT)過渡到項(xiàng)目反應(yīng)理論(IRT)下指標(biāo)估計(jì)。本文關(guān)注IRT下單個(gè)測(cè)驗(yàn)指標(biāo)估計(jì), 這是該領(lǐng)域的研究熱點(diǎn)之一(Guo, 2006; Lathrop & Cheng, 2013; Lee, 2010;Rudner, 2005; Wyse & Hao, 2012)。指標(biāo)主要分為兩類:一類是以Lee方法為代表的基于觀察分?jǐn)?shù)(測(cè)驗(yàn)總分)的決策指標(biāo); 另一類是以Rudner方法為代表的基于能力分?jǐn)?shù)的決策指標(biāo)(Lathrop & Cheng,2013; Rudner, 2005)。Guo方法作為Rudner方法的改良, 不像Rudner方法需要借助正態(tài)性假設(shè)(Guo,2006; Wyse & Hao, 2012), 因此本研究中暫不考慮Rudner方法。

    這些研究?jī)H從模擬或?qū)嵶C角度比較Lee和Guo指標(biāo)表現(xiàn), 本研究嘗試從理論上尋求兩類指標(biāo)之間的內(nèi)在關(guān)系。相關(guān)研究主要集中于單維IRT (UIRT)下指標(biāo)估計(jì), 而隨著測(cè)量學(xué)研究的深入, 眾多研究表明, 許多教育或心理測(cè)驗(yàn), 如NAEP, PISA, TIMSS,NAEQ和西方五因素人格問卷(如NEO-PI-R), 都是多維測(cè)驗(yàn)(Debeer, Buchholz, Hartig, & Janssen, 2014;Makransky, Mortensen, & Glas, 2013; Rijmen, Jeon,von Davier, & Rabe-Hesketh, 2014; Yao & Boughton,2007; Zhang, 2012)。用于多維測(cè)驗(yàn)分析的多維IRT(MIRT)涌現(xiàn)了許多研究成果, 涉及模型、估計(jì)、等值、自適應(yīng)測(cè)驗(yàn)和應(yīng)用等方面(Cai, 2010; Reckase,2009; Wang, 2015; 劉紅云, 駱方, 王玥, 張玉,2012; 杜文久, 肖涵敏, 2012; 康春花, 辛濤, 2010;毛秀珍, 辛濤, 2015; 涂冬波, 蔡艷, 戴海琦, 丁樹良,2011; 許志勇, 丁樹良, 鐘君, 2013; 詹沛達(dá), 王文中,王立君, 李曉敏, 2014)。

    伴隨著MIRT的發(fā)展, 近年來有研究將Lee方法推廣用于估計(jì)多維測(cè)驗(yàn)的分類一致性和準(zhǔn)確性,如Grima和Yao (2011)、Yao (2016)將Lee方法從UIRT推廣到MIRT, 并指出使用UIRT分析多維數(shù)據(jù)會(huì)導(dǎo)致指標(biāo)估計(jì)有偏; LaFond (2014)將Lee方法應(yīng)用于雙因子模型和題組模型。這兩項(xiàng)研究均是基于Lee方法計(jì)算觀察分?jǐn)?shù)的分類一致性和準(zhǔn)確性。而最近有研究表明, 在兩或三參數(shù)邏輯斯蒂克模型和等級(jí)反應(yīng)模型下, 基于能力分?jǐn)?shù)的決策指標(biāo)要優(yōu)于基于觀察分?jǐn)?shù)的決策指標(biāo)(Lathrop & Cheng,2013)。因此, 如何計(jì)算各內(nèi)容、技能或能力分?jǐn)?shù)上的分類一致性和準(zhǔn)確性, 能否將基于能力分?jǐn)?shù)的Guo方法推廣到MIRT, UIRT下得出的結(jié)論在MIRT下是否仍成立, Guo與Lee方法在什么條件下等價(jià),Guo或Lee方法是否具有獨(dú)特的優(yōu)勢(shì)?這些是本文要探討的主要問題。

    對(duì)學(xué)生有重要影響(如影響受教育機(jī)會(huì))的決策,教育與心理測(cè)量標(biāo)準(zhǔn)要求不能僅基于單個(gè)測(cè)驗(yàn)分?jǐn)?shù)(Henderson-Montero, Julian, & Yen, 2003), 而要求使用多重測(cè)量結(jié)果做決策, 以提高測(cè)量信度、效度、公平性等(Chester, 2003; McBee, Peters, &Waterman, 2014)。在“中小學(xué)教育修正法”和“不讓一個(gè)孩子掉隊(duì)”法案推動(dòng)下, 一般采用合成分?jǐn)?shù)合成多重測(cè)量結(jié)果。合成方法常采用聯(lián)合、補(bǔ)償、聯(lián)合?補(bǔ)償混合和驗(yàn)證規(guī)則, 并應(yīng)用于英語水平考試、通識(shí)教育發(fā)展考試和學(xué)業(yè)水平評(píng)價(jià)等(Abedi, 2004;Carroll & Bailey, 2015; Chester, 2003; Henderson-Montero et al., 2003)。以上關(guān)于決策規(guī)則的研究基本是集中于CTT。雖然MIRT非常適合分析多重測(cè)量結(jié)果, 如能反饋學(xué)生各方面內(nèi)容、技能和能力的診斷信息(Chang, 2012; 康春花, 辛濤, 2010), 但是至今尚沒有研究在MIRT框架下比較各種決策規(guī)則下的分類一致性和準(zhǔn)確性。

    基于以上文獻(xiàn)回顧和分析, 提出如下實(shí)驗(yàn)假設(shè):基于能力分?jǐn)?shù)的Guo指標(biāo)比基于觀察分?jǐn)?shù)的Lee指標(biāo)更為靈活, 可方便計(jì)算各能力維度、聯(lián)合和補(bǔ)償?shù)葟?fù)雜規(guī)則下指標(biāo); 在計(jì)算多重積分方面具有獨(dú)特優(yōu)勢(shì)的蒙特卡羅方法, 可較好地估計(jì)Guo和Lee指標(biāo)。

    2 多維等級(jí)反應(yīng)模型和Lee方法

    2.1 多維等級(jí)反應(yīng)模型

    給定觀察數(shù)據(jù)y、項(xiàng)目參數(shù)α和β, 可基于極大似然法或其他方法(Wang, 2015)估計(jì)被試能力。能力為θ的似然函數(shù)為:

    其中示性函數(shù)定義如下:

    2.2 多維模型下Lee方法

    2.2.1 基于Lee方法的分類一致性指標(biāo)

    該式表示總分為

    x

    的各個(gè)得分向量y的聯(lián)合概率之和。根據(jù)

    X

    的條件分布和劃界分?jǐn)?shù), 可計(jì)算能力為θ的被試位于或被分到第

    h

    類的概率:

    2.2.2 基于Lee方法的分類準(zhǔn)確性指標(biāo)

    先計(jì)算能力的期望總分或真分?jǐn)?shù):

    3 決策規(guī)則和新指標(biāo)

    3.1 決策規(guī)則

    決策規(guī)則直接影響測(cè)驗(yàn)分類結(jié)果的信度和效度, 決策規(guī)則可分為聯(lián)合、補(bǔ)償及混合型等(Douglas& Mislevy, 2010)。如研究生入學(xué)考試要求考生在單科分?jǐn)?shù)和總分均達(dá)到分?jǐn)?shù)線, 這屬于一種混合型規(guī)則。下面介紹三種多維潛在能力下的決策規(guī)則, 決策區(qū)域示意圖見圖1。

    (1)基于各個(gè)能力分?jǐn)?shù)的決策規(guī)則, 第

    k

    維能力上決策區(qū)域?yàn)椋?p>

    (2)基于合成能力分?jǐn)?shù)的決策規(guī)則, 決策區(qū)域?yàn)椋?/p>

    (3)基于各個(gè)能力和合成分?jǐn)?shù)的決策規(guī)則, 決策區(qū)域?yàn)椋?/p>

    圖1 三種決策規(guī)則對(duì)應(yīng)的決策區(qū)域示意圖(H=3, d=2)

    3.2 基于Guo方法的分類一致性和準(zhǔn)確性指標(biāo)

    根據(jù)Guo方法思想, 給定被試觀察數(shù)據(jù)y、項(xiàng)目參數(shù)α和β, 可基于似然函數(shù)計(jì)算被試

    i

    分到第

    h

    類的期望概率為:

    3.3 Guo方法和Lee方法下分類準(zhǔn)確性指標(biāo)的關(guān)系

    4 模擬研究

    4.1 研究目的

    通過模擬研究探討基于Guo方法估計(jì)的分類一致性和準(zhǔn)確性是否可以準(zhǔn)確地評(píng)價(jià)測(cè)驗(yàn)的模擬分類一致性和準(zhǔn)確性。模擬分類一致性, 又稱為重測(cè)一致性, 是通過模擬同一批被試在同一份測(cè)驗(yàn)上的獨(dú)立作答兩次, 然后計(jì)算兩次測(cè)驗(yàn)上估計(jì)能力所在相同類的比率; 模擬分類準(zhǔn)確性, 是指所有被試中模擬能力與估計(jì)能力屬于同一類的比率。

    4.2 研究設(shè)計(jì)

    借鑒多維模型下模擬研究的實(shí)驗(yàn)設(shè)計(jì)(Wang,2015; Yao & Boughton, 2007), 為了評(píng)價(jià)測(cè)驗(yàn)長(zhǎng)度、維度、相關(guān)和樣本量的影響。采用四因素完全隨機(jī)設(shè)計(jì), 由于單維測(cè)驗(yàn)不能考慮能力間相關(guān), 共28種實(shí)驗(yàn)條件。表1給出了固定樣本量(1000和3000)水平下其他因素的條件組合。

    表1 固定樣本量水平下三個(gè)因素的實(shí)驗(yàn)條件

    4.3 數(shù)據(jù)模擬

    模擬研究中使用了R軟件和Matlab R2015a軟件, 其中MGRM的參數(shù)估計(jì)算法采用的是MH-RM算法(Cai, 2010)。因?yàn)橛醒芯匡@示個(gè)體方法與分布方法結(jié)果類似(Lee, 2010), 因此本文中Lee方法指標(biāo)均是基于個(gè)體方法計(jì)算, 即公式(8)和(13)采用樣本中個(gè)體指標(biāo)的平均, 即使用估計(jì)能力代替能力,并對(duì)所有被試指標(biāo)求均值代替加權(quán)積分。因?yàn)殡S著測(cè)驗(yàn)項(xiàng)目數(shù)和等級(jí)數(shù)較多, 可能的項(xiàng)目反應(yīng)模式數(shù)量非常大, 公式(6)采用蒙特卡羅方法模擬作答反應(yīng)進(jìn)行近似計(jì)算。采用馬爾柯夫蒙特卡羅方法之Metropolis-Hastings構(gòu)造獨(dú)立鏈抽樣并近似計(jì)算公式(17)的多重積分。

    4.4 決策規(guī)則

    將被試分為三類, 采用三種決策規(guī)則:(1)基于測(cè)驗(yàn)原始總分的決策規(guī)則, 劃界分?jǐn)?shù)設(shè)置為滿分的50%和80%。當(dāng)測(cè)驗(yàn)長(zhǎng)度為15且所有項(xiàng)目的最高等級(jí)分為2時(shí), 測(cè)驗(yàn)滿分為30, 劃界分?jǐn)?shù)為15和24分; (2)基于各維度能力分?jǐn)?shù)的決策規(guī)則, 各劃界分?jǐn)?shù)采用各能力維度下子測(cè)驗(yàn)滿分的50%和80%。如四維模型下測(cè)驗(yàn)長(zhǎng)度為30的測(cè)驗(yàn), 每個(gè)能力維度上有10個(gè)項(xiàng)目(含測(cè)量?jī)蓚€(gè)維度的項(xiàng)目), 劃界分?jǐn)?shù)為10和16分; (3)基于合成能力分?jǐn)?shù)的決策規(guī)則。公式(15)和(16)中能力權(quán)重設(shè)為維度的倒數(shù), 而劃界分?jǐn)?shù)設(shè)為0和0.75。在前兩種決策規(guī)則下, 可計(jì)算Lee和Guo方法指標(biāo)。而在第三種決策規(guī)則下,由于不能建立能力子空間與總分子區(qū)間的一一對(duì)應(yīng)關(guān)系, 只計(jì)算Guo方法指標(biāo)。

    表2 兩維模型下的項(xiàng)目參數(shù)(Cai, 2010)

    5 實(shí)驗(yàn)結(jié)果

    5.1 總分決策規(guī)則下的指標(biāo)誤差評(píng)價(jià)

    在總分決策規(guī)則下, 本部分主要給出指標(biāo)誤差的結(jié)果。指標(biāo)誤差來源主要有項(xiàng)目參數(shù)估計(jì)誤差和蒙特卡羅方法近似計(jì)算誤差。這是因?yàn)椋涸谡鎸?shí)測(cè)驗(yàn)情景下, 并沒有真實(shí)項(xiàng)目參數(shù), 而只能基于參數(shù)估計(jì)軟件估計(jì)項(xiàng)目參數(shù), 再進(jìn)行指標(biāo)計(jì)算, 這個(gè)過程當(dāng)中就存在項(xiàng)目參數(shù)的估計(jì)誤差; 已知真實(shí)或估計(jì)的項(xiàng)目參數(shù), 在指標(biāo)計(jì)算過程中, 為避免維數(shù)災(zāi)難問題或樣本空間特別大問題, 需要采用蒙特卡羅方法計(jì)算多重積分或獲得估計(jì)能力條件下總分的經(jīng)驗(yàn)分布, 此時(shí), 蒙特卡羅方法中樣本的抽樣數(shù)量將影響近似計(jì)算精度。下面主要考慮真實(shí)或估計(jì)項(xiàng)目參數(shù)和三種抽樣數(shù)量(1000,3000,9000)對(duì)指標(biāo)誤差的影響。

    使用偏差(

    bias

    )、絕對(duì)偏差(

    abs

    )和誤差均方根(

    RMSE

    )來反映真值與估計(jì)值差異大小。給定模擬項(xiàng)目參數(shù), 由極大似然法估計(jì)被試能力, 然后分別計(jì)算估計(jì)能力、觀測(cè)總分與模擬能力所在類相同的比率, 分別得到Guo或Lee方法的模擬分類準(zhǔn)確性(Lathrop & Cheng, 2013):

    由模擬或估計(jì)的項(xiàng)目參數(shù)使用極大似然法估計(jì)被試能力, 再使用公式(13)和(19)估計(jì)分類準(zhǔn)確性。

    表3給出了在真實(shí)或估計(jì)項(xiàng)目參數(shù)、三種抽樣數(shù)量條件下兩類分類準(zhǔn)確性指標(biāo)的誤差。結(jié)果顯示:(1)對(duì)于分類準(zhǔn)確性指標(biāo)精度, 真實(shí)項(xiàng)目參數(shù)下精度好于估計(jì)項(xiàng)目參數(shù)下精度; (2)基于Lee方法的分類準(zhǔn)確性指標(biāo)精度已經(jīng)基本上不受抽樣數(shù)量影響, 這是因?yàn)榭偡蛛S機(jī)變量的樣本空間可數(shù)而能力空間不可數(shù); (3)基于Guo方法的分類準(zhǔn)確性指標(biāo)精度隨著抽樣數(shù)量增加而提高。當(dāng)抽樣數(shù)量從1000增加到3000時(shí),

    RMSE

    減少0.0035或0.001, 而當(dāng)抽樣數(shù)量增加到9000時(shí), 估計(jì)精度增幅非常小; (4)精度并不完全隨抽樣數(shù)量增加而提高, 可能由于取樣隨機(jī)性引起?;谝陨辖Y(jié)果, 下面只對(duì)估計(jì)項(xiàng)目參數(shù)和抽樣數(shù)量為3000的結(jié)果進(jìn)行分析。

    5.2 總分決策規(guī)則下的指標(biāo)估計(jì)

    表4給出真實(shí)項(xiàng)目參數(shù)下分類準(zhǔn)確性指標(biāo)的模擬值、估計(jì)項(xiàng)目參數(shù)下的分類準(zhǔn)確性指標(biāo)估計(jì)值及其對(duì)應(yīng)的Kappa (兩維模型和四維模型結(jié)果類似,為節(jié)省篇幅, 故兩維模型結(jié)果未列出)。結(jié)果顯示:(1)兩類方法估計(jì)的分類準(zhǔn)確性指標(biāo)返真性好, 均可以準(zhǔn)確地估計(jì)模擬分類準(zhǔn)確性; (2)單維、兩維和四維模型下, 分類準(zhǔn)確性隨著測(cè)驗(yàn)長(zhǎng)度增加而嚴(yán)格遞增; (3)單維模型下, 分類準(zhǔn)確性并沒有隨樣本量增加而提高, 存在一定的差異, 可能主要由于得分矩陣的隨機(jī)性引起。另外, 樣本量1000已經(jīng)基本達(dá)到了單維模型下準(zhǔn)確估計(jì)項(xiàng)目參數(shù)的要求, 并且分類準(zhǔn)確性指標(biāo)對(duì)項(xiàng)目參數(shù)估計(jì)誤差不是太敏感(見表3); (4)兩維模型和四維模型下, 分類準(zhǔn)確性多數(shù)隨樣本量增加而有所提高。直觀上, 維數(shù)越大需要估計(jì)的項(xiàng)目參數(shù)數(shù)量更多, 對(duì)樣本量有更高要求;(5)兩類方法的分類準(zhǔn)確性均隨著能力間相關(guān)增加而嚴(yán)格遞增, 并且四維模型與兩維模型的結(jié)果類似;(6)單維模型和兩維模型下, Guo方法下的模擬或估計(jì)的分類準(zhǔn)確性指標(biāo)均稍高于Lee方法相應(yīng)指標(biāo)(但是兩者相當(dāng)接近, 與理論結(jié)果相符), 兩種方法得到的估計(jì)值對(duì)應(yīng)的Kappa有類似的趨勢(shì)。而在四維模型下, 結(jié)果有所不同, 僅在相關(guān)為0.8時(shí), Guo方法下分類準(zhǔn)確性指標(biāo)估計(jì)值的Kappa較明顯高于Lee方法的Kappa; (7)相同條件下, 兩類指標(biāo)值差異相當(dāng)小。表5給出了分類一致性, 結(jié)果類似于分類準(zhǔn)確性, 在此不詳細(xì)說明。

    表3 模擬研究所有條件下兩類分類準(zhǔn)確性指標(biāo)的三類誤差指標(biāo)的平均值

    5.3 各能力維度決策規(guī)則下的指標(biāo)估計(jì)

    單維模型的維數(shù)為1, 能力維度決策規(guī)則與總分決策規(guī)則相同, 對(duì)應(yīng)的指標(biāo)估計(jì)相同, 結(jié)果不重復(fù)列出。由于設(shè)計(jì)的測(cè)驗(yàn)考慮了各能力維度上的項(xiàng)目數(shù)平衡, 各能力維度上的分類準(zhǔn)確性十分接近,下面僅考慮第一個(gè)能力維度下指標(biāo)的結(jié)果(其他結(jié)果未列出)。表6僅給出四維模型的真實(shí)項(xiàng)目參數(shù)下分類準(zhǔn)確性指標(biāo)的模擬值、估計(jì)項(xiàng)目參數(shù)下的分類準(zhǔn)確性指標(biāo)估計(jì)值及其對(duì)應(yīng)的Kappa。

    表6結(jié)果顯示:(1)兩類方法估計(jì)的分類準(zhǔn)確性指標(biāo)返真性好, Guo方法返真性稍好; (2)分類準(zhǔn)確性隨著測(cè)驗(yàn)長(zhǎng)度增加而提高; (3)分類準(zhǔn)確性并不隨著樣本量增加而提高, 可能由于相應(yīng)子測(cè)驗(yàn)長(zhǎng)度較短和得分陣中隨機(jī)性導(dǎo)致; (4)分類準(zhǔn)確性隨著能力間相關(guān)增加而提高; (5)平均而言, Lee方法比Guo方法的分類準(zhǔn)確性高; (6)相同條件下, 各能力維度決策規(guī)則比總分決策規(guī)則所得到的分類準(zhǔn)確性要小, 這意味著, 在實(shí)際應(yīng)用中報(bào)告各能力維度分?jǐn)?shù)或內(nèi)容領(lǐng)域分?jǐn)?shù)時(shí), 需要考慮其分類準(zhǔn)確性是否達(dá)到指定的精度。該決策規(guī)則下的分類一致性指標(biāo)與總分決策規(guī)則的分類一致性指標(biāo)變化趨勢(shì)相似, 只是值要小一些, 故結(jié)果省略。

    表4 總分決策規(guī)則下分類準(zhǔn)確性指標(biāo)及估計(jì)值對(duì)應(yīng)的Kappa (抽樣數(shù)量為3000)

    表5 總分決策規(guī)則下分類一致性指標(biāo)及估計(jì)值對(duì)應(yīng)的Kappa (抽樣數(shù)量為3000)

    表6 第一個(gè)能力維度決策規(guī)則下分類準(zhǔn)確性指標(biāo)及估計(jì)值對(duì)應(yīng)的Kappa (抽樣數(shù)量為3000)

    5.4 合成能力決策規(guī)則下的指標(biāo)估計(jì)

    表7給出真實(shí)項(xiàng)目參數(shù)下分類一致性和準(zhǔn)確性指標(biāo)模擬值、估計(jì)項(xiàng)目參數(shù)下分類一致性和準(zhǔn)確性指標(biāo)估計(jì)值及其對(duì)應(yīng)的Kappa (兩維模型結(jié)果未列出)。結(jié)果顯示:(1)兩維模型和四維模型下, 推廣的Guo方法能很好地估計(jì)合成能力規(guī)則下的分類一致性和準(zhǔn)確性; (2)在單維模型下, 由于并沒有其他能力維度參與合成, 其實(shí)就只有單個(gè)能力參與決策,但是基于能力量尺劃界分?jǐn)?shù)與總分決策規(guī)則的劃界分?jǐn)?shù)稍微有所差異。劃界分?jǐn)?shù)為滿分50%基本上對(duì)應(yīng)能力劃界分?jǐn)?shù)0, 而若總分服從正態(tài)分布, 可計(jì)算劃界分?jǐn)?shù)為滿分80%對(duì)應(yīng)的Z分?jǐn)?shù)約為0.84,這與能力劃界分?jǐn)?shù)0.75稍有差異。劃界分?jǐn)?shù)對(duì)應(yīng)的能力值也可以通過已知總分量尺上的劃界分?jǐn)?shù), 由真分?jǐn)?shù)計(jì)算公式迭代估計(jì)出對(duì)應(yīng)的能力值(可參見戴海琦, 2010)。因此, 單維模型下的分類一致性和準(zhǔn)確性指標(biāo)與表4和表5中結(jié)果稍有差異。

    表7 合成能力決策規(guī)則下分類一致性和準(zhǔn)確性指標(biāo)(抽樣數(shù)量為3000)

    6 討論

    6.1 新方法提出的背景和意義

    CRT一般將被試分成少數(shù)幾個(gè)表現(xiàn)水平, 從而可以較短測(cè)驗(yàn)長(zhǎng)度獲得較高的測(cè)量精度, 特別適合于大尺度教育評(píng)估等, 并且CRT有利于提高教學(xué)(戴海琦, 2010; Chang, 2012)。許多大尺度評(píng)估具有多維性, 為了更好地利用維度間的相關(guān)信息, MIRT成為分析這類測(cè)驗(yàn)的重要選擇。信度和效度是評(píng)價(jià)測(cè)量工具質(zhì)量的重要指標(biāo), 因此, 非常有必要開發(fā)分類信度和效度的評(píng)價(jià)指標(biāo)。本研究正是在這樣的背景之下, 探討MIRT下CRT的分類一致性和準(zhǔn)確性指標(biāo)。

    本研究在MIRT下推廣分類一致性和準(zhǔn)確性指標(biāo), 采用蒙特卡羅方法計(jì)算多重積分值, 實(shí)現(xiàn)復(fù)雜決策規(guī)則下指標(biāo)計(jì)算, 并從數(shù)學(xué)上證明分類準(zhǔn)確性兩類估計(jì)量在總分決策規(guī)則和均勻先驗(yàn)下依概率收斂于同一真值。綜合考慮測(cè)驗(yàn)長(zhǎng)度、維度、相關(guān)、樣本量和決策規(guī)則等對(duì)指標(biāo)估計(jì)的影響, 研究表明,新指標(biāo)及其估計(jì)方法表現(xiàn)不錯(cuò), 可以在復(fù)雜決策規(guī)則下評(píng)價(jià)CRT分類信度和效度。如果劃界分?jǐn)?shù)直接定義在能力分?jǐn)?shù)量尺之上, 相比Lee方法, Guo方法更適合于各個(gè)能力維度、聯(lián)合和補(bǔ)償?shù)葟?fù)雜規(guī)則下指標(biāo)估計(jì)。

    6.2 分類一致性和準(zhǔn)確性的用處

    分類一致性和準(zhǔn)確性的估計(jì)方法的實(shí)際用處到底是什么、是否有替代方法、這些方法如何應(yīng)用于真實(shí)測(cè)驗(yàn)情景和是否已經(jīng)有應(yīng)用的例子、以及在什么情景下需要使用新方法?這些問題十分重要,直接決定這類方法或新方法的推廣性。為了清晰地闡明分類一致性和準(zhǔn)確性或新方法的用處, 下面對(duì)這些問題分別進(jìn)行說明。

    第一, 新方法可用于估計(jì)單個(gè)測(cè)驗(yàn)的分類一致性和準(zhǔn)確性, 無需進(jìn)行重測(cè)、能力模擬和估計(jì)。一方面, 盡管測(cè)驗(yàn)的分類一致性可以通過重測(cè)得到,但是由于重測(cè)條件十分苛刻而要獲得重測(cè)數(shù)據(jù)不太可能(Lee, 2010), 因此, 實(shí)際應(yīng)用中較難直接通過重測(cè)獲得分類一致性。另一方面, 由于在實(shí)際應(yīng)用中真實(shí)能力并不知道, 估計(jì)分類準(zhǔn)確性的模擬方法需要模擬并估計(jì)能力。即先根據(jù)估計(jì)能力和項(xiàng)目參數(shù), 模擬作答數(shù)據(jù)再估計(jì)能力并比較兩者分類相同的比率, 即模擬的分類準(zhǔn)確性。由于估計(jì)能力并非被試的真實(shí)能力, 該模擬方法仍有不足之處。以上兩方面的考慮, 正是眾多研究者提出了其他方法估計(jì)單個(gè)測(cè)驗(yàn)的分類一致性和準(zhǔn)確性的初衷。

    第二, 條件標(biāo)準(zhǔn)誤指標(biāo)并不能直接反映測(cè)驗(yàn)的分類準(zhǔn)確性。盡管CRT分類誤差還可通過其他指標(biāo)來衡量, 如條件標(biāo)準(zhǔn)誤等指標(biāo)(戴海琦, 2010)。由于條件標(biāo)準(zhǔn)誤只能反映能力估計(jì)與“真值”之間的一種差異, 并不能直接以“百分比”的形式反映測(cè)驗(yàn)上所有被試的分類準(zhǔn)確率。不過, 在UIRT和誤差分布為正態(tài)分布條件下, 有研究者發(fā)現(xiàn)能力估計(jì)的標(biāo)準(zhǔn)誤與分類準(zhǔn)確性指標(biāo)存在著一種較為復(fù)雜的非線性轉(zhuǎn)換關(guān)系(Cheng, Liu, & Behrens, 2015)。理論上這種關(guān)系應(yīng)該可以推廣到MIRT, 但仍需要進(jìn)行相關(guān)研究。

    第三, 新方法或指標(biāo)并不僅僅能用于模擬研究,更為重要是可以應(yīng)用于實(shí)證研究。首先, 在真實(shí)測(cè)驗(yàn)情景下, 由于被試真實(shí)能力未知, 無法得到分類準(zhǔn)確性真值, 本文開展的模擬研究只是為了驗(yàn)證新指標(biāo)的表現(xiàn)。一般來講, 模擬研究的邏輯是, 如果模擬條件下結(jié)果不好, 那么在錯(cuò)綜復(fù)雜的真實(shí)情況下結(jié)果一般更加差, 即模擬研究至少可以起到淘汰作用。結(jié)合本文來說, 如果在相當(dāng)理想的模擬條件下, 新指標(biāo)不能很好地估計(jì)真實(shí)的分類一致性和準(zhǔn)確性, 那么在更加復(fù)雜的實(shí)際情況中, 新指標(biāo)就不可用。其次, 從文中敘述的方法和條件來看, 新方法或指標(biāo)完全可用于真實(shí)測(cè)驗(yàn)情景。本文敘述的復(fù)雜決策規(guī)則下MIRT的分類一致性和準(zhǔn)確性估計(jì)方法, 只要將相關(guān)算法嵌入到相應(yīng)的MIRT參數(shù)估計(jì)程序中, 基于測(cè)驗(yàn)作答數(shù)據(jù)、參數(shù)估計(jì)結(jié)果和決策規(guī)則, 就可估計(jì)真實(shí)測(cè)驗(yàn)的分類一致性和準(zhǔn)確性。相關(guān)研究顯示, 有些分類一致性和準(zhǔn)確性估計(jì)方法已應(yīng)用于真實(shí)測(cè)驗(yàn), 如在UIRT或其他模型下,Lathrop和Cheng (2014)在其文中的引言中提到(pp.318?319), 前人提出的分類一致性和準(zhǔn)確性估計(jì)方法, 包括本文中用到的Lee方法, 已用于評(píng)價(jià)許多實(shí)際測(cè)驗(yàn)的分類結(jié)果質(zhì)量, 并且已經(jīng)開發(fā)可供用戶使用的專門商業(yè)或免費(fèi)軟件。

    第四, 新方法或指標(biāo)可用于復(fù)雜決策規(guī)則下多維測(cè)驗(yàn)的領(lǐng)域分?jǐn)?shù)報(bào)告質(zhì)量評(píng)價(jià)。領(lǐng)域分?jǐn)?shù)主要反映學(xué)生在一組代表某個(gè)內(nèi)容和技能的試題(領(lǐng)域)上的表現(xiàn), 這比量表分或測(cè)驗(yàn)總分更直接, 更能被大眾理解和接受(辛濤, 謝敏, 2010)?;贗RT的領(lǐng)域分?jǐn)?shù)更具有優(yōu)勢(shì)。根據(jù)題目與潛在維度之間的關(guān)系,多維模型或測(cè)驗(yàn)主要分為兩類:“題目間多維”和“題目?jī)?nèi)多維”, 其中題目間多維測(cè)驗(yàn)的各個(gè)題目?jī)H能測(cè)量多個(gè)潛在維度中一個(gè); 而題目?jī)?nèi)多維測(cè)驗(yàn)允許每個(gè)題目考察多個(gè)潛在維度(Adams, Wilson, &Wang, 1997)。題目間多維測(cè)驗(yàn)的領(lǐng)域分?jǐn)?shù)報(bào)告研究較多(Yao, 2016; Yao & Boughton, 2007), 而題目?jī)?nèi)多維測(cè)驗(yàn)僅有報(bào)告能力領(lǐng)域分?jǐn)?shù)(Yao, 2010)。在復(fù)雜決策規(guī)則下, 新指標(biāo)可用于評(píng)估這兩類測(cè)驗(yàn)的分類準(zhǔn)確率和一致性, 從而豐富分?jǐn)?shù)報(bào)告內(nèi)容。

    6.3 研究不足和有待進(jìn)一步探討的問題

    基于Guo方法的新指標(biāo)可根據(jù)不同決策規(guī)則計(jì)算分類一致性和準(zhǔn)確性, 不需要復(fù)雜的計(jì)算程序。Guo方法不像Rudner指標(biāo)(Rudner, 2005; Wyse& Hao, 2012)需要借助正態(tài)性假設(shè)(Guo, 2006), 可適合于非正態(tài)性數(shù)據(jù), 同時(shí)可避免分?jǐn)?shù)分布正態(tài)性轉(zhuǎn)換可能帶來分類結(jié)果的不同(Douglas & Mislevy,2010)。但是本研究并沒有模擬非正態(tài)分布能力, 以檢驗(yàn)Guo指標(biāo)對(duì)于非正態(tài)數(shù)據(jù)的穩(wěn)健性。能力分布為非正態(tài)分布條件下, 指標(biāo)表現(xiàn)如何?有待研究。

    盡管Guo方法并不需要能力誤差具有正態(tài)性假設(shè), 但是需要利用IRT下的似然函數(shù), 因此Guo方法的表現(xiàn)依賴于模型-資料擬合情況。如果模型-資料擬合不好, 對(duì)Guo方法的影響如何?是否有更好的替代方法?最近有研究基于非參數(shù)統(tǒng)計(jì)中假設(shè)更弱的密度估計(jì)方法用于估計(jì)總分的平滑分布, 并用于估計(jì)分類一致性和準(zhǔn)確性(Lathrop &Cheng, 2014)。非參數(shù)方法, 能否用于多維情形下各種決策規(guī)則下的分類一致性和準(zhǔn)確性估計(jì), 仍有待考慮。

    MIRT下, 如何基于Rudner方法(Rudner, 2005;Wyse & Hao, 2012)估計(jì)分類一致性和準(zhǔn)確性?值得研究。Rudner指標(biāo)需要借助能力估計(jì)的誤差矩陣或信息矩陣來計(jì)算, 能力的信息矩陣的不同估計(jì)方法也將影響指標(biāo)的結(jié)果。信息矩陣哪一種估計(jì)方法更有利于估計(jì)分類一致性和準(zhǔn)確性, 仍值得研究。如果在測(cè)驗(yàn)長(zhǎng)度較長(zhǎng)時(shí), 極大似然法估計(jì)的能力誤差漸近服從多元正態(tài)分布。而多元正態(tài)分布隨機(jī)向量落在任意區(qū)域的概率的計(jì)算相對(duì)容易, 或可為分類一致性和準(zhǔn)確性的計(jì)算帶來一定的方便。

    本研究采用了內(nèi)容平衡技術(shù)生成多維測(cè)驗(yàn), 因此采用了相同權(quán)重得到合成分?jǐn)?shù), 并計(jì)算其分類一致性和準(zhǔn)確性。若以合成能力分?jǐn)?shù)信息量最大的方式求取權(quán)重(Yao, 2010), 這樣合成能力分?jǐn)?shù)的分類一致性和準(zhǔn)確性如何值得探討?;诟鲀?nèi)容領(lǐng)域的觀察分?jǐn)?shù)的如何合成, 及其分類一致性和準(zhǔn)確性評(píng)價(jià)也值得考慮。在特定應(yīng)用領(lǐng)域, 使用哪種決策規(guī)則, 需要綜合考慮決策目的、信度、效度、公平性和風(fēng)險(xiǎn)等因素。另外, 有待開展新指標(biāo)在真實(shí)的CRT或計(jì)算機(jī)分類測(cè)驗(yàn)中的應(yīng)用。

    7 結(jié)論

    本研究探討了MGRM下的分類一致性和準(zhǔn)確性指標(biāo), 并采用蒙特卡羅方法模擬樣本進(jìn)行指標(biāo)估計(jì)。研究表明:

    (1)基于Guo方法(Guo, 2006; Wyse & Hao,2012)提出的多維模型下的分類一致性和準(zhǔn)確性指標(biāo), 可準(zhǔn)確地評(píng)價(jià)多維CRT的分類信度和效度;

    (2)相比Lee方法, Guo方法更加靈活, 適用于多種決策規(guī)則指標(biāo)估計(jì), 不僅可用于觀察總分、各個(gè)內(nèi)容或技能分?jǐn)?shù)指標(biāo)估計(jì), 還適宜于合成分?jǐn)?shù)等復(fù)雜決策規(guī)則下分類一致性和準(zhǔn)確性指標(biāo)估計(jì);

    (3)多維模型下基于能力分?jǐn)?shù)的Guo方法比基于觀察總分的Lee方法得到的分類一致性略高, 分類準(zhǔn)確性在能力間相關(guān)較大時(shí)更高。因此, 如果IRT擬合測(cè)驗(yàn)數(shù)據(jù), 更適合基于能力做決策。單維等級(jí)反應(yīng)模型下的基于能力分?jǐn)?shù)的決策更準(zhǔn)確,Lathrop和Cheng (2013)在比較Lee方法和Rudner方法, 也有相同的發(fā)現(xiàn)。

    (4)在總分決策規(guī)則和無信息先驗(yàn)分布下(即先驗(yàn)分布為均勻分布), 從數(shù)學(xué)上證明了兩種方法下分類準(zhǔn)確性指標(biāo)估計(jì)量依概率收斂于同一真值。

    Abedi, J. (2004). The No Child Left Behind Act and English language learners: Assessment and accountability issues.

    Educational Researcher, 33

    (1), 4–14.Adams, R. J., Wilson, M., & Wang, W. C. (1997). The multidimensional random coefficients multinomial logit model.

    Applied Psychological Measurement, 21

    (1), 1–23.Cai, L. (2010). High-dimensional exploratory item factor analysis by a Metropolis–Hastings Robbins–Monro algorithm.

    Psychometrika, 75

    (1), 33–57.Carroll, P. E., & Bailey, A. L. (2016). Do decision rules matter?A descriptive study of English language proficiency assessment classifications for English-language learners and native English speakers in fifth grade.

    Language Testing, 33

    (1), 23–52.Chang, H. H. (2012). Making computerized adaptive testing diagnostic tools for schools. In R. W. Lissitz & H. Jiao(Eds.),

    Computers an d their impact on st ate as sessment:Recent history and predictions for the future

    (pp. 195–226.).Charlotte, NC: Information Age.Chen, P., Li, Z., Xin, T., & Gao, H. J. (2011). A review of decision consistency indices of criteria-reference test.

    Psychological Development and Education, 27

    (2), 210–215.[陳平, 李珍, 辛濤, 高慧健. (2011). 標(biāo)準(zhǔn)參照測(cè)驗(yàn)決策一致性指標(biāo)研究的總結(jié)與展望.

    心理發(fā)展與教育, 27

    (2),210–215.]Cheng, Y., Liu, C., & Behrens, J. (2015). Standard error of ability estimates and the classification accuracy and consistency of binary decisions.

    Psychometrika, 8 0

    (3),645–664.Chester, M. D. (2003). Multiple measures and high-stakes decisions: A framework for combining measures.

    Educational Measurement: Issues and Practice, 22

    (2), 32–41.Dai, H. Q. (2010).

    Psychometrics

    . Beijing, China: Higher Education Press.[戴海琦. (2010).

    心理測(cè)量學(xué)

    . 北京: 高等教育出版社.]Du, W. J., & Xiao, H. M. (2012). Multidimensional grade response model.

    Acta Psychologica Sinica, 44

    (10), 1402–1407.[杜文久, 肖涵敏. (2012). 多維項(xiàng)目反應(yīng)理論等級(jí)反應(yīng)模型.

    心理學(xué)報(bào), 44

    (10), 1402–1407.]Debeer, D., Buchholz, J., Hartig, J., & Janssen, R. (2014).Student, school, and country differences in sustained test-taking effort in the 2009 PISA reading assessment.

    Journal of Ed ucational and Be havioral Statistics, 39

    (6),502–523.Douglas, K. M., & Mislevy, R. J. (2010). Estimating classification accuracy for complex decision rules based on multiple scores.

    Journal o f E ducational an d B ehavioral Statistics, 35

    (3), 280–306.

    Duncan, A. (2009, June 14). Address by the secretary of education at the 2009 governors education symposium:States will lead the way towards reform. Washington, DC:U.S. Department of Education. Retrieved May 10, 2016,from http://www2.ed.gov/news/speeches/2009/06/06142009.pdf

    Gan, L. M., & Yu, J. Y. (2006). The study of criterion referenced test's score system.

    Psychological Exploration,26

    (3), 79–83.[甘良梅, 余嘉元. (2006). 標(biāo)準(zhǔn)參照測(cè)驗(yàn)分?jǐn)?shù)體系的探討研究.

    心理學(xué)探新, 26

    (3), 79–83.]Grima, A., & Yao, L. H. (2011).

    Classification consistency and accuracy fo r test of mix ed item ty pes: U nidimensional versus multidimensional IRT procedures

    . Paper presented at the annual meeting of National Council on Measurement in Education, New Orleans, LA.Guo, F. M. (2006). Expected classification accuracy using the latent distribution.

    Practical A ssessment, Res earch &Evaluation, 11

    (6), 1–6.Henderson-Montero, D., Julian, M. W., & Yen, W. M. (2003).Multiple measures: alternative design and analysis models.

    Educational Measurement: Is sues a nd Pr actice, 22

    (2),7–12.Kang, C. H., & Xin, T. (2010). New development in test theory:Multidimensional item response theory.

    Advances i n Psychological Science, 18

    (3), 530–536[康春花, 辛濤. (2010). 測(cè)驗(yàn)理論的新發(fā)展: 多維項(xiàng)目反應(yīng)理論.

    心理科學(xué)進(jìn)展, 18

    (3), 530–536.]Kroehne, U., Goldhammer, F., & Partchev, I. (2014).Constrained multidimensional adaptive testing without intermixing items from different dimensions.

    Psychological Test and Assessment Modeling, 56

    (4), 348–367.LaFond, L. J. (2014).

    Decision co nsistency and ac curacy indices for the bifactor and testlet response theory models

    (Unpublished doctorial dissertation). University of Iowa.Lathrop, Q. N., & Cheng, Y. (2013). Two approaches to estimation of classification accuracy rate under item response theory.

    Applied Ps ychological M easurement,37

    (3), 226–241.Lathrop, Q. N., & Cheng, Y. (2014). A nonparametric approach to estimate classification accuracy and consistency.

    Journal of Educational Measurement, 51

    (3), 318–334.Lee, W. C. (2010). Classification consistency and accuracy for complex assessments using item response theory.

    Journal of Educational Measurement, 47

    (1), 1–17.Lee, W. C., Brennan, R. L., & Wan, L. (2009). Classification consistency and accuracy for complex assessments under the compound multinomial model.

    Applied Psy chological Measurement, 33

    (5), 374–390.Liu, H. Y., Luo, F., Wang, Y., & Zhang, Y. (2012). Item parameter estimation for multidimensional measurement:Comparisons of SEM and MIRT based methods.

    Acta Psychologica Sinica, 44

    (1), 121–132.[劉紅云, 駱方, 王玥, 張玉. (2012). 多維測(cè)驗(yàn)項(xiàng)目參數(shù)的估計(jì): 基于SEM與MIRT方法的比較.

    心理學(xué)報(bào), 44

    (11),121–132.]Makransky, G., Mortensen, E. L., & Glas, C. A. W. (2013).Improving personality facet scores with multidimensional computer adaptive testing: An illustration with the Neo Pi-R.

    Assessment, 20

    (1), 3–13.Mao, X. Z., & Xin, T. (2015). Multidimensional computerized adaptive testing: Model, techniques and methods.

    Advances in Psychological Science, 23

    (5), 907–918.[毛秀珍, 辛濤. (2015). 多維計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn): 模型、技術(shù)和方法.

    心理科學(xué)進(jìn)展, 23

    (5), 907–918.]McBee, M. T., Peters, S. J., & Waterman, C. (2014).Combining scores in multiple-criteria assessment systems:The impact of combination rule.

    Gifted Ch ild Q uarterly,58

    (1), 69–89.Reckase, M. D. (2009).

    Multidimensional item response theory

    .New York: Springer.Rijmen, F., Jeon, M., von Davier, M., & Rabe-Hesketh, S.(2014). A third-order item response theory model for modeling the effects of domains and subdomains in large-scale educational assessment surveys.

    Journal o f Educational and Behavioral Statistics, 39

    (4), 235–256.Rudner, L. M. (2005). Expected classification accuracy.

    Practical Assessment, Research & Evaluation, 10

    (13), 1–4.Tu, D. B., Cai, Y., Dai, H. Q., & Ding, S. L. (2011).Parameters estimation of MIRT model and its application in psychological tests.

    Acta Ps ychologica Si nica, 43

    (11),1329–1340.[涂冬波, 蔡艷, 戴海琦, 丁樹良. (2011). 多維項(xiàng)目反應(yīng)理論:參數(shù)估計(jì)及其在心理測(cè)驗(yàn)中的應(yīng)用.

    心理學(xué)報(bào), 43

    (11),1329–1340.]Wang, C. (2015). On latent trait estimation in multidimensional compensatory item response models.

    Psychometrika, 80

    (2),428–449.Wyse, A. E., & Hao, S. Q. (2012). An evaluation of item response theory classification accuracy and consistency indices.

    Applied Psychological Measurement, 36

    (7), 602–624.Xin, T., Li, M., & Ren, X. Q. (2015).

    Reporting and using the results of national assessment of education quality

    . Beijing,China: Beijing Normal University Publishing Group.[辛濤, 李勉, 任曉瓊. (2015).

    基礎(chǔ)教育質(zhì)量監(jiān)測(cè)報(bào)告撰寫與結(jié)果應(yīng)用

    . 北京: 北京師范大學(xué)出版集團(tuán).]Xin, T., & Xie, M. (2010). Group-level domain score and its estimation methods.

    Psychological D evelopment and Education, 26

    (4), 416–422.[辛濤, 謝敏. (2010). 群體水平領(lǐng)域分?jǐn)?shù)及其估計(jì)方法.

    心理發(fā)展與教育, 26

    (4), 416–422.]Xu, Z. Y., Ding, S. L., & Zhong, J. (2013). The analysis and application of MIRT in mathematics paper in college entrance examination.

    Psychological Ex ploration, 33

    (5),438–443.[許志勇, 丁樹良, 鐘君. (2013). 高考數(shù)學(xué)試卷多維項(xiàng)目反應(yīng)理論的分析及應(yīng)用.

    心理學(xué)探新, 33

    (5), 438– 443.]Xu, W. N., Wang, P. X., Han, P., Yan, T. L., & Zhang, S. Y.(2011). Application of Kappa coefficient to accuracy assessments of drought forecasting model: A case study of guanzhong plain.

    Journal of Natural Disasters, 20

    (6), 81–86.[許文寧, 王鵬新, 韓萍, 嚴(yán)泰來, 張樹譽(yù). (2011). Kappa系數(shù)在干旱預(yù)測(cè)模型精度評(píng)價(jià)中的應(yīng)用——以關(guān)中平原的干旱預(yù)測(cè)為例.

    自然災(zāi)害學(xué)報(bào), 20

    (6), 81–86.]Yao, L. H. (2010). Reporting valid and reliable overall scores and domain scores.

    Journal of Educational Measurement,47

    (3), 339–360.Yao, L. H. (2012). Multidimensional CAT item selection methods for domain scores and composite scores: Theory and applications.

    Psychometrika, 77

    (3), 495–523.

    Yao, L. H. (2016). The BMIRT toolkit. Retrieved August 8,2016, from http://www.bmirt.com/media/f5abb5352d553d5fffff807cffff d524.pdf

    Yao, L. H., & Boughton, K. A. (2007). A multidimensional item response modeling approach for improving subscale proficiency estimation and classification.

    Applied Psychological Measurement, 31

    (2), 83–105.Zhan, P. D., Wang, W. C., Wang, L. J., & Li, X. M. (2014).The multidimensional testlet-effect Rasch model.

    Acta Psychologica Sinica, 46

    (8), 1208–1222.[詹沛達(dá), 王文中, 王立君, 李曉敏. (2014). 多維題組效應(yīng)Rasch模型.

    心理學(xué)報(bào), 46

    (8), 1208–1222.]Zhang, J. M. (2012). Calibration of response data using MIRT models with simple and mixed structures.

    Applied Psychological Measurement, 36

    (5), 375–398.

    猜你喜歡
    測(cè)驗(yàn)準(zhǔn)確性一致性
    關(guān)注減污降碳協(xié)同的一致性和整體性
    公民與法治(2022年5期)2022-07-29 00:47:28
    注重教、學(xué)、評(píng)一致性 提高一輪復(fù)習(xí)效率
    IOl-master 700和Pentacam測(cè)量Kappa角一致性分析
    淺談如何提高建筑安裝工程預(yù)算的準(zhǔn)確性
    《新年大測(cè)驗(yàn)》大揭榜
    趣味(語文)(2018年7期)2018-06-26 08:13:48
    兩個(gè)處理t測(cè)驗(yàn)與F測(cè)驗(yàn)的數(shù)學(xué)關(guān)系
    考試周刊(2016年88期)2016-11-24 13:30:50
    美劇翻譯中的“神翻譯”:準(zhǔn)確性和趣味性的平衡
    論股票價(jià)格準(zhǔn)確性的社會(huì)效益
    基于事件觸發(fā)的多智能體輸入飽和一致性控制
    你知道嗎?
    成年人午夜在线观看视频| 一本一本综合久久| 高清黄色对白视频在线免费看| 五月开心婷婷网| 99热全是精品| 校园人妻丝袜中文字幕| 一二三四中文在线观看免费高清| 99热网站在线观看| 国产极品粉嫩免费观看在线 | av在线观看视频网站免费| 交换朋友夫妻互换小说| 永久免费av网站大全| 中文字幕人妻丝袜制服| 三级国产精品欧美在线观看| 国产免费福利视频在线观看| .国产精品久久| 亚洲,欧美,日韩| 精品国产露脸久久av麻豆| 日本-黄色视频高清免费观看| 成人亚洲欧美一区二区av| .国产精品久久| 男的添女的下面高潮视频| 精品人妻偷拍中文字幕| 人妻夜夜爽99麻豆av| av.在线天堂| 日韩av不卡免费在线播放| 久久久亚洲精品成人影院| 我的女老师完整版在线观看| 王馨瑶露胸无遮挡在线观看| 一个人免费看片子| 色网站视频免费| 国产国语露脸激情在线看| 久久97久久精品| 国产又色又爽无遮挡免| 免费高清在线观看日韩| 国产免费福利视频在线观看| 午夜福利网站1000一区二区三区| 久久久亚洲精品成人影院| 边亲边吃奶的免费视频| 精品熟女少妇av免费看| 成人毛片a级毛片在线播放| 交换朋友夫妻互换小说| 日韩一本色道免费dvd| 欧美日韩成人在线一区二区| 如日韩欧美国产精品一区二区三区 | 伊人亚洲综合成人网| 国产精品国产三级国产av玫瑰| 美女福利国产在线| av线在线观看网站| 99精国产麻豆久久婷婷| 亚洲av福利一区| 五月天丁香电影| 久久久久久久亚洲中文字幕| 高清黄色对白视频在线免费看| 亚洲av福利一区| 老司机影院成人| 一级爰片在线观看| 日韩一本色道免费dvd| a级毛片免费高清观看在线播放| 下体分泌物呈黄色| 亚洲精华国产精华液的使用体验| 91aial.com中文字幕在线观看| 国产精品一区二区在线不卡| 婷婷色av中文字幕| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 亚洲精品久久成人aⅴ小说 | 美女国产高潮福利片在线看| 天天影视国产精品| 亚洲av中文av极速乱| 丰满乱子伦码专区| 欧美丝袜亚洲另类| 欧美激情极品国产一区二区三区 | 少妇猛男粗大的猛烈进出视频| 自线自在国产av| 成人亚洲精品一区在线观看| 精品午夜福利在线看| 久久国内精品自在自线图片| 日韩一区二区视频免费看| 永久网站在线| 日韩强制内射视频| 亚洲国产成人一精品久久久| 国产精品一区二区三区四区免费观看| 日韩三级伦理在线观看| 51国产日韩欧美| av视频免费观看在线观看| 久久久亚洲精品成人影院| 狂野欧美激情性xxxx在线观看| 99热这里只有是精品在线观看| 亚洲无线观看免费| 一区二区av电影网| 在现免费观看毛片| 一个人免费看片子| 日韩电影二区| 高清视频免费观看一区二区| 久久女婷五月综合色啪小说| 亚洲精品乱码久久久久久按摩| 视频在线观看一区二区三区| 最新的欧美精品一区二区| 如日韩欧美国产精品一区二区三区 | 18在线观看网站| 亚洲天堂av无毛| 亚洲伊人久久精品综合| 午夜久久久在线观看| 亚洲国产精品一区三区| 在线观看美女被高潮喷水网站| 观看美女的网站| 亚洲精品国产av成人精品| 在线观看www视频免费| 国产深夜福利视频在线观看| 18+在线观看网站| 成人免费观看视频高清| 男女啪啪激烈高潮av片| 中文字幕最新亚洲高清| 免费黄网站久久成人精品| 人体艺术视频欧美日本| 国产精品欧美亚洲77777| 久久99热6这里只有精品| 国产成人freesex在线| 久久精品国产自在天天线| 成人无遮挡网站| av在线老鸭窝| 视频在线观看一区二区三区| 欧美日韩视频高清一区二区三区二| 飞空精品影院首页| 我的老师免费观看完整版| 欧美国产精品一级二级三级| 18禁动态无遮挡网站| 成人亚洲精品一区在线观看| 黑人猛操日本美女一级片| 三级国产精品片| 国产在线免费精品| 2018国产大陆天天弄谢| 婷婷色av中文字幕| 大话2 男鬼变身卡| 久久青草综合色| 丝瓜视频免费看黄片| 熟女电影av网| 国产精品欧美亚洲77777| 在线观看www视频免费| 五月开心婷婷网| 亚州av有码| 亚洲精品第二区| 高清视频免费观看一区二区| 成人国产av品久久久| 久久人妻熟女aⅴ| 精品一区在线观看国产| 亚洲av在线观看美女高潮| av.在线天堂| a级毛片免费高清观看在线播放| 亚洲精品456在线播放app| 国产高清不卡午夜福利| 免费av中文字幕在线| 午夜激情福利司机影院| 三上悠亚av全集在线观看| 午夜视频国产福利| 亚洲内射少妇av| 久久ye,这里只有精品| 国产高清有码在线观看视频| 曰老女人黄片| 熟妇人妻不卡中文字幕| 精品人妻偷拍中文字幕| 午夜91福利影院| 青春草视频在线免费观看| 免费高清在线观看视频在线观看| 午夜免费鲁丝| 青春草国产在线视频| 又黄又爽又刺激的免费视频.| 日韩,欧美,国产一区二区三区| 久久久久久久久久人人人人人人| 亚洲av国产av综合av卡| 日韩大片免费观看网站| 久久久久视频综合| 啦啦啦视频在线资源免费观看| 一本久久精品| 欧美日韩亚洲高清精品| 男人添女人高潮全过程视频| 亚洲经典国产精华液单| 美女大奶头黄色视频| 97超视频在线观看视频| 性色av一级| 日韩熟女老妇一区二区性免费视频| 18禁裸乳无遮挡动漫免费视频| 国产黄色视频一区二区在线观看| 老司机影院毛片| 一边亲一边摸免费视频| av线在线观看网站| 天天躁夜夜躁狠狠久久av| 精品少妇久久久久久888优播| av黄色大香蕉| 国产精品一国产av| 老司机影院成人| 亚洲国产精品999| 菩萨蛮人人尽说江南好唐韦庄| 亚洲精品日本国产第一区| 国产探花极品一区二区| 国产精品免费大片| 国产亚洲精品第一综合不卡 | 大片电影免费在线观看免费| 国产精品久久久久久精品古装| 你懂的网址亚洲精品在线观看| 亚洲av电影在线观看一区二区三区| 自线自在国产av| 日韩av不卡免费在线播放| av卡一久久| 少妇的逼水好多| 国产极品粉嫩免费观看在线 | 欧美三级亚洲精品| 黑人欧美特级aaaaaa片| 在线观看免费视频网站a站| 国产一区二区三区av在线| 一本久久精品| 女人久久www免费人成看片| 高清av免费在线| 亚洲国产成人一精品久久久| 免费高清在线观看视频在线观看| 精品一区二区三区视频在线| 九九在线视频观看精品| 成人18禁高潮啪啪吃奶动态图 | 哪个播放器可以免费观看大片| 久久国内精品自在自线图片| 亚洲成色77777| 男女国产视频网站| 丝袜喷水一区| 少妇丰满av| 欧美xxxx性猛交bbbb| 女性生殖器流出的白浆| 国产综合精华液| 久久国产精品男人的天堂亚洲 | 久久 成人 亚洲| 中文字幕久久专区| 亚洲国产av影院在线观看| av卡一久久| 老熟女久久久| 黑丝袜美女国产一区| 美女主播在线视频| 午夜福利视频精品| 亚洲av不卡在线观看| 日韩一区二区视频免费看| 你懂的网址亚洲精品在线观看| 久久久久久伊人网av| 免费观看的影片在线观看| 在线亚洲精品国产二区图片欧美 | 国产片内射在线| 亚洲欧美中文字幕日韩二区| 亚洲国产成人一精品久久久| 免费大片黄手机在线观看| 久久久午夜欧美精品| 黑人猛操日本美女一级片| 精品一区二区三区视频在线| 精品亚洲成a人片在线观看| 亚洲成人av在线免费| 日韩伦理黄色片| 精品少妇内射三级| 九九爱精品视频在线观看| 亚洲成人av在线免费| 黄片播放在线免费| 国产av一区二区精品久久| 菩萨蛮人人尽说江南好唐韦庄| 韩国高清视频一区二区三区| 日韩av不卡免费在线播放| 国语对白做爰xxxⅹ性视频网站| 国产成人一区二区在线| 亚洲精品国产色婷婷电影| 免费黄频网站在线观看国产| 国产精品一国产av| 丰满饥渴人妻一区二区三| 国产成人精品久久久久久| 美女福利国产在线| 岛国毛片在线播放| 午夜免费鲁丝| 麻豆成人av视频| 午夜激情久久久久久久| 乱码一卡2卡4卡精品| 日本午夜av视频| 51国产日韩欧美| 久久人妻熟女aⅴ| 毛片一级片免费看久久久久| 在线精品无人区一区二区三| 久久ye,这里只有精品| 在线观看一区二区三区激情| 亚洲国产精品专区欧美| 在线亚洲精品国产二区图片欧美 | 久久久久久久久久久丰满| 国产精品一国产av| 妹子高潮喷水视频| 蜜臀久久99精品久久宅男| 曰老女人黄片| 国产女主播在线喷水免费视频网站| videossex国产| 亚洲精品美女久久av网站| 亚洲精品国产色婷婷电影| 精品久久久噜噜| 精品国产一区二区久久| 亚洲国产成人一精品久久久| 五月伊人婷婷丁香| 国产精品蜜桃在线观看| 日本av免费视频播放| 国产精品一区www在线观看| 日本免费在线观看一区| 婷婷色综合www| 久久久国产精品麻豆| 26uuu在线亚洲综合色| 精品少妇内射三级| 亚洲av二区三区四区| 久久99热这里只频精品6学生| 亚洲精华国产精华液的使用体验| 日韩强制内射视频| 蜜桃在线观看..| 精品国产乱码久久久久久小说| 日日摸夜夜添夜夜爱| 自线自在国产av| 久久人妻熟女aⅴ| 搡老乐熟女国产| 在线免费观看不下载黄p国产| av视频免费观看在线观看| 视频在线观看一区二区三区| 人人妻人人添人人爽欧美一区卜| 蜜桃久久精品国产亚洲av| 欧美日韩一区二区视频在线观看视频在线| 97超视频在线观看视频| 欧美日韩av久久| 国产成人一区二区在线| 成人毛片60女人毛片免费| 亚洲国产精品一区三区| 免费黄频网站在线观看国产| 一区二区三区精品91| 国产黄片视频在线免费观看| 国产日韩欧美亚洲二区| 国产女主播在线喷水免费视频网站| 日本猛色少妇xxxxx猛交久久| 99热这里只有是精品在线观看| 国产精品一区二区三区四区免费观看| xxx大片免费视频| 亚洲精品第二区| 国产白丝娇喘喷水9色精品| 久久精品国产自在天天线| 91精品国产国语对白视频| videos熟女内射| 插逼视频在线观看| 狂野欧美激情性xxxx在线观看| 成人综合一区亚洲| 成人国语在线视频| av在线老鸭窝| 大片电影免费在线观看免费| h视频一区二区三区| 午夜激情久久久久久久| 午夜免费观看性视频| 各种免费的搞黄视频| 丁香六月天网| 在线观看三级黄色| 久久国产精品男人的天堂亚洲 | 插阴视频在线观看视频| 免费观看av网站的网址| 久久久久网色| 国产永久视频网站| 一边摸一边做爽爽视频免费| 国产午夜精品久久久久久一区二区三区| 欧美xxxx性猛交bbbb| av网站免费在线观看视频| 国产精品熟女久久久久浪| 午夜福利在线观看免费完整高清在| 丰满少妇做爰视频| 国产精品久久久久久久电影| 五月天丁香电影| 久久99一区二区三区| 大片免费播放器 马上看| 人人妻人人澡人人爽人人夜夜| 在线观看免费高清a一片| 成人免费观看视频高清| 最后的刺客免费高清国语| 大陆偷拍与自拍| 美女内射精品一级片tv| 色网站视频免费| av电影中文网址| 国产精品久久久久久久电影| 国产片特级美女逼逼视频| 人妻夜夜爽99麻豆av| av女优亚洲男人天堂| 制服丝袜香蕉在线| 亚洲欧美一区二区三区国产| 超色免费av| 丰满饥渴人妻一区二区三| 久久99蜜桃精品久久| 亚洲av综合色区一区| 日本色播在线视频| 亚洲图色成人| 99久久中文字幕三级久久日本| 伊人久久国产一区二区| 亚洲精品色激情综合| 日本欧美视频一区| 男女边吃奶边做爰视频| 亚洲国产精品999| 国产成人av激情在线播放 | 亚洲欧洲精品一区二区精品久久久 | 欧美精品一区二区大全| 国产精品99久久99久久久不卡 | 久久精品国产亚洲av天美| 成人国产麻豆网| 97在线人人人人妻| 久久人人爽人人爽人人片va| 久久久精品免费免费高清| 国产精品三级大全| 中国美白少妇内射xxxbb| 18禁在线播放成人免费| 大香蕉久久网| 亚洲国产最新在线播放| 成年美女黄网站色视频大全免费 | 99精国产麻豆久久婷婷| 免费大片18禁| 国产淫语在线视频| 九九久久精品国产亚洲av麻豆| 国产一级毛片在线| 国产极品天堂在线| 午夜91福利影院| 赤兔流量卡办理| 精品一区二区免费观看| 99热这里只有是精品在线观看| 肉色欧美久久久久久久蜜桃| 国产黄片视频在线免费观看| 一级毛片aaaaaa免费看小| 欧美日韩综合久久久久久| 国产高清国产精品国产三级| 国产精品久久久久久久久免| 我的老师免费观看完整版| 国精品久久久久久国模美| 秋霞伦理黄片| 日韩精品有码人妻一区| 久久国内精品自在自线图片| 免费看光身美女| 九色成人免费人妻av| 欧美日韩亚洲高清精品| 日韩av在线免费看完整版不卡| 人妻人人澡人人爽人人| 久久精品国产亚洲av涩爱| 日本wwww免费看| 老司机亚洲免费影院| 欧美日本中文国产一区发布| 搡老乐熟女国产| 伊人久久精品亚洲午夜| 性色avwww在线观看| 日本-黄色视频高清免费观看| 熟女人妻精品中文字幕| 成人黄色视频免费在线看| 亚洲精品国产av蜜桃| 99久久中文字幕三级久久日本| 美女中出高潮动态图| 国产高清国产精品国产三级| 亚洲中文av在线| 我要看黄色一级片免费的| 看免费成人av毛片| 久久韩国三级中文字幕| 欧美三级亚洲精品| 精品人妻熟女av久视频| 汤姆久久久久久久影院中文字幕| 国产爽快片一区二区三区| 亚洲综合色惰| 一级毛片aaaaaa免费看小| 一级二级三级毛片免费看| 五月开心婷婷网| 99久久精品国产国产毛片| 一级,二级,三级黄色视频| 嘟嘟电影网在线观看| 亚洲综合色惰| 少妇的逼水好多| 一区二区三区四区激情视频| 一级毛片黄色毛片免费观看视频| 午夜激情福利司机影院| 人人妻人人澡人人看| 人成视频在线观看免费观看| 亚洲精品456在线播放app| 国产成人91sexporn| 日本欧美视频一区| 黄片播放在线免费| 美女脱内裤让男人舔精品视频| 在线 av 中文字幕| 欧美日韩在线观看h| 国产乱人偷精品视频| 一级a做视频免费观看| 亚洲精品一二三| 亚洲色图综合在线观看| 免费观看在线日韩| 亚洲精品成人av观看孕妇| 亚洲天堂av无毛| 国产亚洲av片在线观看秒播厂| 九色成人免费人妻av| 91精品三级在线观看| 性色avwww在线观看| 91午夜精品亚洲一区二区三区| 美女视频免费永久观看网站| 国产欧美另类精品又又久久亚洲欧美| 国产伦理片在线播放av一区| 天堂8中文在线网| 国产精品99久久久久久久久| 搡老乐熟女国产| 赤兔流量卡办理| 男女国产视频网站| 秋霞伦理黄片| 日韩av免费高清视频| 久久久a久久爽久久v久久| 国产熟女午夜一区二区三区 | 久久人妻熟女aⅴ| 一区二区三区乱码不卡18| 国产在线免费精品| 亚洲精品av麻豆狂野| 国产精品不卡视频一区二区| av免费在线看不卡| 高清毛片免费看| 看非洲黑人一级黄片| 妹子高潮喷水视频| 国产精品 国内视频| 高清欧美精品videossex| videosex国产| 国产综合精华液| a级片在线免费高清观看视频| 又粗又硬又长又爽又黄的视频| 免费黄网站久久成人精品| 91aial.com中文字幕在线观看| 简卡轻食公司| 亚洲av二区三区四区| 色视频在线一区二区三区| 考比视频在线观看| 黑人猛操日本美女一级片| 免费黄频网站在线观看国产| 视频区图区小说| 蜜桃国产av成人99| 亚洲精品日韩在线中文字幕| 国产 精品1| 全区人妻精品视频| 在线观看免费高清a一片| 成年人免费黄色播放视频| 欧美性感艳星| 欧美激情 高清一区二区三区| 免费久久久久久久精品成人欧美视频 | 亚洲精品日韩在线中文字幕| 水蜜桃什么品种好| 亚洲av欧美aⅴ国产| 欧美日韩av久久| 男女啪啪激烈高潮av片| 午夜激情av网站| 国产精品 国内视频| 97精品久久久久久久久久精品| 制服丝袜香蕉在线| a 毛片基地| 国产午夜精品久久久久久一区二区三区| 久久精品国产亚洲av天美| 一级片'在线观看视频| 国产探花极品一区二区| 亚洲综合精品二区| 国产精品成人在线| 国产爽快片一区二区三区| 国产精品免费大片| 欧美日本中文国产一区发布| 国产老妇伦熟女老妇高清| 成人手机av| 新久久久久国产一级毛片| 黑人猛操日本美女一级片| 久久久久久久久久久免费av| 亚洲欧美一区二区三区国产| 亚洲精品日韩av片在线观看| tube8黄色片| 国产日韩一区二区三区精品不卡 | av又黄又爽大尺度在线免费看| 国产午夜精品一二区理论片| 亚洲婷婷狠狠爱综合网| 久久久亚洲精品成人影院| 久久久久久久大尺度免费视频| 精品午夜福利在线看| 国产在线免费精品| 亚洲精品第二区| 亚洲一级一片aⅴ在线观看| 亚洲在久久综合| 下体分泌物呈黄色| 极品人妻少妇av视频| 午夜福利,免费看| 老司机亚洲免费影院| 日韩精品有码人妻一区| 国产不卡av网站在线观看| 午夜福利影视在线免费观看| 哪个播放器可以免费观看大片| 成年女人在线观看亚洲视频| 99久久综合免费| 国产精品偷伦视频观看了| 国产色婷婷99| 日日摸夜夜添夜夜爱| 亚洲精品日韩在线中文字幕| 少妇精品久久久久久久| 高清不卡的av网站| 18在线观看网站| 国产成人精品一,二区| 久久国产亚洲av麻豆专区| 男女啪啪激烈高潮av片| 午夜福利视频在线观看免费| 视频中文字幕在线观看| 成人毛片a级毛片在线播放| 国产在线一区二区三区精| 天堂8中文在线网| 亚洲av欧美aⅴ国产| 97在线人人人人妻| 精品少妇久久久久久888优播| 精品人妻偷拍中文字幕| 在线观看人妻少妇| 色视频在线一区二区三区| 天天躁夜夜躁狠狠久久av| 在线观看人妻少妇| 亚洲精品av麻豆狂野| 国产精品国产三级专区第一集| 亚洲第一av免费看| 亚洲婷婷狠狠爱综合网| 如日韩欧美国产精品一区二区三区 | 国产女主播在线喷水免费视频网站| 久久精品国产亚洲av天美| 人人澡人人妻人| 亚洲精品aⅴ在线观看| 乱人伦中国视频| 国产综合精华液|