毛秀珍 辛 濤
(1四川師范大學(xué)教育科學(xué)學(xué)院, 成都 610066) (2北京師范大學(xué)發(fā)展心理研究所, 北京 100875)
多維項(xiàng)目反應(yīng)理論(multidimensional item response theory, MIRT)引入多維能力、多維項(xiàng)目區(qū)分度以及多個(gè)步驟難度參數(shù)模擬測(cè)驗(yàn)項(xiàng)目和被試間的相互作用, 采用概率模型來(lái)表征具有特定多維能力水平的被試正確答對(duì)特定項(xiàng)目的概率(Reckase, 2009)。一方面, MIRT能同時(shí)估計(jì)被試在測(cè)驗(yàn)每個(gè)維度上的能力水平, 實(shí)現(xiàn)測(cè)驗(yàn)的認(rèn)知診斷功能(Zhang & Stone, 2008)。于是, MIRT的應(yīng)用順應(yīng)了從 2001年美國(guó)法案“No Child Left Behind” (NCLB)到 2011“Race to the top”早期學(xué)習(xí)挑戰(zhàn)經(jīng)費(fèi)的設(shè)立, 再到我國(guó)《國(guó)家中長(zhǎng)期教育改革和發(fā)展規(guī)劃綱要(2010?2020)年》對(duì)教育認(rèn)知診斷功能的要求。另一方面, MIRT比項(xiàng)目反應(yīng)理論(item response theory, IRT)更適用于分析許多新形式的測(cè)驗(yàn)如認(rèn)知診斷測(cè)驗(yàn)、公務(wù)員考試、表現(xiàn)性評(píng)估以及寫作測(cè)驗(yàn)的項(xiàng)目和被試特征(van der Linden & Hambleton, 1997)。例如, Yao和Schwarz(2006)運(yùn)用 MIRT分析五年級(jí)學(xué)生寫作測(cè)驗(yàn)的二維結(jié)構(gòu)和項(xiàng)目特征; 涂冬波、蔡艷、戴海琦和丁樹(shù)良(2011)運(yùn)用 MIRT獲得瑞文高級(jí)推理測(cè)驗(yàn)的項(xiàng)目參數(shù)和被試的能力水平; 張軍(2011)運(yùn)用MIRT分析漢語(yǔ)水平考試(HSK)閱讀部分的潛在多維度結(jié)構(gòu); 許志勇、丁樹(shù)良和鐘君(2013)應(yīng)用MIRT分析2010年某省市高考數(shù)學(xué)理工試卷考查的五個(gè)能力維度, 并獲得各維度之間的相關(guān)系數(shù)和考生的多維能力水平。由此可見(jiàn), MIRT具有廣闊的應(yīng)用前景,是現(xiàn)代心理測(cè)量學(xué)的重點(diǎn)研究方向。
計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)(computerized adaptive testing, CAT)的核心是基于被試在已作答項(xiàng)目上的反應(yīng)估計(jì)其能力水平, 然后根據(jù)選題策略從剩余題庫(kù)中選擇最適合被試作答的項(xiàng)目施測(cè)被試,重復(fù)上述步驟直到測(cè)驗(yàn)結(jié)束。它包括采用的項(xiàng)目反應(yīng)模型、題庫(kù)、初始項(xiàng)目的選擇、選題策略、能力估計(jì)方法和測(cè)驗(yàn)終止規(guī)則幾個(gè)部分。根據(jù)CAT采用的測(cè)量模型, 可將其劃分為基于IRT的單維CAT (unidimensional CAT, UCAT); 基于MIRT的多維 CAT (multidimensional CAT, MCAT)以及以認(rèn)知診斷理論為基礎(chǔ)的認(rèn)知診斷 CAT (cognitive diagnostic CAT, CD-CAT)。
MCAT與UCAT相比, 除了能同時(shí)分析被試在測(cè)驗(yàn)每個(gè)維度上的表現(xiàn)獲得更多診斷信息外,它還具有如下優(yōu)點(diǎn)。第一, Segall (1996)和Luecht(1996)研究表明, 在達(dá)到相同甚至更高測(cè)量精度時(shí), MCAT需要的項(xiàng)目比UCAT少1/3左右。第二,Frey和Seitz (2011)指出只有MCAT可用于多維測(cè)驗(yàn), UCAT不能用于這類測(cè)驗(yàn)。第三, MCAT不需要內(nèi)容平衡策略就能自動(dòng)滿足各個(gè)內(nèi)容領(lǐng)域的測(cè)量要求(Wang, Chang, & Boughton, 2011)。另外,雖然 MCAT提供的診斷信息不及 CD-CAT豐富,但它與CD-CAT相比具有以下特點(diǎn)。第一, MCAT有成熟的、可適用于二級(jí)和多級(jí)評(píng)分項(xiàng)目的反應(yīng)模型(Reckase, 2009), CD-CAT還將在一定時(shí)期內(nèi)受到多級(jí)評(píng)分項(xiàng)目認(rèn)知診斷模型研究的限制而局限于二級(jí)評(píng)分項(xiàng)目的研究。第二, MCAT根據(jù)數(shù)據(jù)與模型的擬合度分析測(cè)驗(yàn)維度, 而不需要分析表征項(xiàng)目與屬性間關(guān)系的Q矩陣(這正是認(rèn)知診斷評(píng)估的難點(diǎn)之一)。第三, MCAT中每個(gè)維度涵蓋的內(nèi)容通常比CD-CAT中屬性包含的內(nèi)容更多。一般地, 測(cè)驗(yàn)考查的屬性越多, CD-CAT的測(cè)量準(zhǔn)確性越低。因此, MCAT適用范圍比CD-CAT更廣。
MCAT兼具M(jìn)IRT和CAT的優(yōu)點(diǎn), 其在實(shí)踐中突顯了測(cè)驗(yàn)的高效、快捷和診斷功能, 必將成為研究者關(guān)注的重點(diǎn)內(nèi)容之一。自Bloxom和Vale(1987)將UCAT推廣到多維以來(lái), MCAT的相關(guān)研究在最近幾年才有了突破性進(jìn)展。下面分別對(duì)MCAT的模型基礎(chǔ)、能力估計(jì)方法、選題策略和終止規(guī)則進(jìn)行介紹和評(píng)價(jià), 然后對(duì)今后的研究方向提出幾點(diǎn)思考和建議。
測(cè)量模型貫穿CAT的始終, 決定分?jǐn)?shù)報(bào)告的形式也是影響測(cè)評(píng)結(jié)果準(zhǔn)確性和有效性的重要因素之一。根據(jù)項(xiàng)目記分方式可將多維項(xiàng)目反應(yīng)模型(multidimensional item response model, MIRM)劃分為二級(jí)評(píng)分項(xiàng)目反應(yīng)模型和多級(jí)評(píng)分項(xiàng)目反應(yīng)模型; 按完成任務(wù)時(shí)某一能力維度上的不足是否可以被其它優(yōu)勢(shì)能力所補(bǔ)償可將MIRM分為補(bǔ)償和非補(bǔ)償模型。Bolt和Lall (2003)指出(1)非補(bǔ)償模型產(chǎn)生的數(shù)據(jù), 補(bǔ)償模型和非補(bǔ)償模型具有相似擬合度; (2)由補(bǔ)償模型產(chǎn)生的數(shù)據(jù), 非補(bǔ)償模型的擬合度不高。于是, 本文僅討論補(bǔ)償MIRM。
針對(duì)二級(jí)評(píng)分項(xiàng)目, 下面主要介紹 logistic MIRM 和正態(tài)肩形 MIRM。另外, 全文中同一字母的含義相同, 且僅在首次出現(xiàn)時(shí)給予說(shuō)明。
假設(shè)測(cè)驗(yàn)考查M個(gè)能力維度。向量標(biāo)量和ci分別表示項(xiàng)目i的區(qū)分度、斜率(截距)參數(shù)以及猜測(cè)參數(shù), 且T表示轉(zhuǎn)置。那么, 能力為的被試p正確作答項(xiàng)目i的概率用三參數(shù) logistic MIRM(multidimensional extension of three-parameter logistic model, M3PL)表示如下(Reckase, 1985):
此外, MIRT還定義原點(diǎn)到項(xiàng)目反應(yīng)曲面上點(diǎn)的連線中的最大斜率值為多維項(xiàng)目區(qū)分度(multidimensional discrimination, MDISC),用以評(píng)價(jià)項(xiàng)目的整體區(qū)分度; 原點(diǎn)到項(xiàng)目反應(yīng)曲面上點(diǎn)的連線中具有最大斜率的點(diǎn)之間的距離Bi表示多維項(xiàng)目難度(multidimensional difficulty,MDIFF), 且
正態(tài)肩形 MIRM 的一般形式是(Samejima,1974):
將Rasch模型推廣到多維能力空間沒(méi)有l(wèi)ogistic模型的推廣那么容易。因?yàn)? 如果 M2PL中的各個(gè)分量等于 1, 則于是,除能力參數(shù)等于各個(gè)維度能力值之和外, 它和Rasch模型沒(méi)有任何區(qū)別。Adams, Wilson和Wang(1997)推廣了Adams和Wilson (1996)提出的廣義Rasch模型, 得到適用于二分和多分項(xiàng)目的多維廣義Rasch模型, 又稱為多維隨機(jī)系數(shù)多項(xiàng)logit模型(multidimensional random coefficient multinomial logit model, MRCMLM) (Wang, 2014b)。Kelderman和 Rijkes (1994)還給出另一個(gè)非常相似的多分Rasch MIRM。假設(shè)項(xiàng)目i的個(gè)反應(yīng)類別分別對(duì)應(yīng)的得分為0,1,..,Ki, 被試p在項(xiàng)目i上得k(0,1,...,Ki)分的概率用MRCMLM表示為:
其中,M維列向量表示第i題第k+1個(gè)反應(yīng)類別上的計(jì)分向量, 它反映影響項(xiàng)目i得k分的能力維度; 列向量稱為第i題在第k+1個(gè)反應(yīng)類別的設(shè)計(jì)向量; 列向量表示試題參數(shù)向量。的行數(shù)與的行數(shù)相等, 等于所有項(xiàng)目的Ki之和。舉例來(lái)說(shuō), 若一份測(cè)驗(yàn)包含2個(gè)項(xiàng)目考查2個(gè)維度。其中, 第一題是二級(jí)計(jì)分項(xiàng)目, 考查第一個(gè)能力維度。第二題有三種反應(yīng)類別, 得1分受到第二個(gè)能力維度的影響, 于是得2分受到兩個(gè)能力維度的影響, 則因此,對(duì)第二個(gè)項(xiàng)目第2個(gè)反應(yīng)類別而言, 有通過(guò)(4)式即可求被試p在第2題得1分的概率。更多參數(shù)設(shè)置的例子請(qǐng)參見(jiàn)許志勇等(2013)。特別地, 對(duì)二分項(xiàng)目中k=0時(shí), (4)式分母對(duì)應(yīng)的指數(shù)部分等于1。于是,對(duì)二級(jí)評(píng)分項(xiàng)目的多維Rasch模型表示如下:
如果項(xiàng)目各個(gè)維度的區(qū)分度不相等, 被試p在項(xiàng)目i上得k(k=0,1,...,Ki)分的概率可用多維兩參數(shù)分部評(píng)分模型(multidimensional two parameter partial credit model, M-2PPC)計(jì)算(Yao & Schwarz,2006)。M-2PPC的模型表達(dá)式為:
上式中δiu(u=0,1,...,Ki)表示得u分的閾值參數(shù), 且。此外, 他們還推導(dǎo)了M-2PPC模型中項(xiàng)目難度、區(qū)分度以及信息量的計(jì)算方法, 為該模型的廣泛應(yīng)用奠定了基礎(chǔ)。
當(dāng)完成項(xiàng)目i需要多個(gè)步驟, 并且完成第k步需要完成前面k-1步時(shí), 一般用MGRM模擬正確作答概率。令得分大于等于分的概率為于是且那么被試恰好得k分的概率表示為:
Muraki和 Carlson (1993)采用正態(tài)肩形模型得到其中標(biāo)量被定義為被試達(dá)到第k個(gè)等級(jí)的類別參數(shù), 它表示被試答對(duì)第k步的“難度參數(shù)”,等級(jí)越高, 其值越大, 且和只有從數(shù)據(jù)估計(jì)而得。為避免積分運(yùn)算的復(fù)雜性, 杜文久和肖涵敏(2012)用logistic函數(shù)表示得到 logistic形式的MGRM。他們還以二維 MGRM 為例分析其數(shù)學(xué)函數(shù)圖象和性質(zhì)并推導(dǎo)項(xiàng)目信息函數(shù)的計(jì)算。
大部分 MIRM 直接從對(duì)應(yīng)項(xiàng)目反應(yīng)模型(item response model, IRM)推廣而得, 具有類似于IRM的特點(diǎn)。例如(5)式所示的二分MRCMLM模型中能力的充分統(tǒng)計(jì)量是對(duì)被試在每個(gè)項(xiàng)目i(i=1,2,...,L,L表示被試作答的所有項(xiàng)目數(shù))上的得分與向量之積求和, 即被試正確作答的項(xiàng)目i(i=1,2,...,L)的向量之和; 項(xiàng)目的參數(shù)的充分統(tǒng)計(jì)量是對(duì)所有被試在該項(xiàng)目上的得分與向量之積求和, 即正確作答該項(xiàng)目的被試人數(shù)乘以向量(Reckase, 2009)。又如 MGRM中步驟難度參數(shù)遞增, 而MPCM中步驟難度參數(shù)不一定遞增。再如, MGRM 中“難度參數(shù)”bi,k與GRM 中等級(jí)難度的意義一致。MIRM, 特別是多分MIRM描述實(shí)際數(shù)據(jù)潛在維度結(jié)構(gòu)的程度如何,MIRM 的項(xiàng)目統(tǒng)計(jì)特征、測(cè)驗(yàn)特征等都還有待深入研究。此外, 康春花和辛濤(2010)還強(qiáng)調(diào)今后需要開(kāi)發(fā)更多程序估計(jì)高維多級(jí)評(píng)分項(xiàng)目MIRM的模型參數(shù)。
Bloxom和 Vale (1987)將 Owen (1975)的序列更新程序推廣到 MCAT, 通過(guò)一系列正態(tài)逼近獲得能力的點(diǎn)估計(jì)。Tam (1992)針對(duì)二維正態(tài)肩形模型推導(dǎo)了迭代極大似然能力估計(jì)方法, Segall(1996)推導(dǎo)了 M3PL中能力的極大似然估計(jì)和貝葉斯估計(jì)算法, Yao (2014a)還給出M-2PPC的相應(yīng)算法。具體而言, 記包含已施測(cè)的k-1個(gè)項(xiàng)目, 項(xiàng)目反應(yīng)記為
一般采用 Newton-Raphson迭代算法求其近似解。令的第h次和h+1次逼近分別記為和為保證算法收斂, 實(shí)際采用如下 Newton-Raphson程序:
貝葉斯能力估計(jì)方法通常指最大后驗(yàn)估計(jì)(maximum a posterior estimation, MAP)和期望后驗(yàn)估計(jì)(expected a posterior estimation, EAP)。前者求后驗(yàn)概率密度的最大值, 后者對(duì)其求期望。
基于貝葉斯定理, 令的先驗(yàn)密度服從均值為0μ, 協(xié)方差矩陣為Σ0的多變量正態(tài)分布。基于的邊際概率可得的后驗(yàn)密度為欲求等價(jià)于求下述非線性方程組的解。
類似于 MLE方法, 實(shí)際上 Newton-Raphson迭代程序用代替(9)式中W的r行s列元素等于
EAP方法通過(guò)高斯-埃爾米特求積公式或Monte Carlo積分求能力維度l(l=1,2,…,M)的后驗(yàn)邊際期望估計(jì)值, 即進(jìn)而獲得
上述方法具有以下特點(diǎn)。首先, MLE在測(cè)驗(yàn)之初對(duì)全部正確(錯(cuò)誤)回答項(xiàng)目的被試不能得到有限估計(jì)值, 但其估計(jì)偏差小于貝葉斯方法。其次, 貝葉斯方法中后驗(yàn)分布的返真性極大地受到先驗(yàn)分布的影響從而使其估計(jì)值往往趨于先驗(yàn)分布的均值, 但它們的估計(jì)均方根誤差小于MLE方法。再次, 與MAP方法相比, EAP方法的估計(jì)方差更小更穩(wěn)健, 但其計(jì)算量更大、計(jì)算時(shí)間更長(zhǎng)。一般地, 隨著測(cè)驗(yàn)項(xiàng)目的增多, MLE、EAP和MAP的估計(jì)值越來(lái)越接近(Reckase, 2009)。因此, 大部分研究都采用MLE或者M(jìn)AP方法。另外, van der Linden (1999)還推導(dǎo)估計(jì)線性組合能力的MLE方法, Wang (2014b)介紹了基于單維加權(quán)似然估計(jì)方法(Warm, 1989)推廣而得的多變量加權(quán)MLE方法。
MCAT的測(cè)驗(yàn)條件通常比較復(fù)雜。它不僅需要考慮各個(gè)維度之間的相關(guān), 還需要考慮測(cè)驗(yàn)是項(xiàng)目間多維還是項(xiàng)目?jī)?nèi)多維。所謂項(xiàng)目間多維是指測(cè)驗(yàn)考查多種能力, 但是每個(gè)項(xiàng)目只考查一種能力; 項(xiàng)目?jī)?nèi)多維是指測(cè)驗(yàn)至少包含一個(gè)同時(shí)考查多種能力的項(xiàng)目。除此之外, 測(cè)驗(yàn)長(zhǎng)度、每個(gè)量表的項(xiàng)目數(shù)、總體分布也都是影響估計(jì)準(zhǔn)確性的重要因素。于是, 在不同測(cè)驗(yàn)條件下探討各種能力估計(jì)方法的特點(diǎn)、比較它們的表現(xiàn)對(duì) MCAT實(shí)踐具有重要意義。
選題策略決定被試作答的測(cè)驗(yàn)項(xiàng)目, 關(guān)系到測(cè)驗(yàn)結(jié)果的準(zhǔn)確性、測(cè)驗(yàn)安全和測(cè)驗(yàn)信、效度, 是MCAT的重要環(huán)節(jié)之一。
MCAT與UCAT在選題方面存在兩點(diǎn)顯著差異。第一, UCAT要求在一個(gè)維度上達(dá)到最優(yōu)估計(jì),而MCAT要求同時(shí)在多個(gè)維度上達(dá)到最優(yōu)估計(jì)。第二, UCAT中單一的測(cè)驗(yàn)維度是測(cè)驗(yàn)考查的目標(biāo), 而MCAT中項(xiàng)目敏感的維度不一定都是研究者關(guān)注的目標(biāo)。換句話說(shuō), 研究者可能不同程度地關(guān)注MCAT考查的各個(gè)維度。以下用R表示題庫(kù), 其中的項(xiàng)目記為表示作答k-1個(gè)項(xiàng)目后的能力估計(jì)值,ik表示將施測(cè)的第k個(gè)項(xiàng)目, 它選自剩余題庫(kù)
研究者不僅將 Fisher信息、Kullback-Leibler(KL)信息、shannon熵和互信息推廣到多維能力空間, 而且深入探討了各種方法之間的關(guān)系。
4.1.1.1 基于Fisher信息矩陣的選題方法
MIRT中Fisher信息量不再是一個(gè)實(shí)數(shù), 而是一個(gè)矩陣。例如, 以M3PL為例, 項(xiàng)目i的Fisher信息矩陣等于施測(cè)k-1個(gè)項(xiàng)目后, 能力區(qū)間估計(jì)構(gòu)成一個(gè)橢圓(橢球體), 其面積(體積)的方差-協(xié)方差矩陣的行列式成正比, 且于是,為使施測(cè)第k個(gè)項(xiàng)目后Vk下降最快, Segall (1996,2010)提出選擇使測(cè)驗(yàn)Fisher信息矩陣行列式值最大的方法, 又稱為D-優(yōu)化方法(Mulder & van der Linden, 2009)。具體而言, 該方法依據(jù)下式
選擇項(xiàng)目ik。其中, det表示求行列式的值,和分別表示項(xiàng)目集Sk?1和項(xiàng)目j在處的信息矩陣。當(dāng)考慮能力先驗(yàn)分布時(shí)可得貝葉斯 D-優(yōu)化方法的項(xiàng)目選擇標(biāo)準(zhǔn)劉發(fā)明和丁樹(shù)良(2006)還推導(dǎo)了與貝葉斯 D-優(yōu)化規(guī)則等價(jià)的項(xiàng)目選擇方法。
另外, Mulder和van der Linden (2009)從能力估計(jì)橢圓(橢球體)的最大軸與能力估計(jì)誤差的關(guān)系出發(fā)提出最小化能力極大似然估計(jì)的漸近抽樣方差的和, 稱為A-優(yōu)化方法。
該方法與Wang, Chang和Boughton (2013)采用的T-規(guī)則選題方法本質(zhì)上是相同的。上述方法的表現(xiàn)均依賴中間能力估計(jì)與能力真值的接近程度, 而測(cè)驗(yàn)初期二者往往相差很大。類似于UCAT, MCAT中一種弱化此條件的方法就是KL方法。
4.1.1.2 基于KL信息量的選題方法
KL與Fisher信息一樣具有可加性, 即測(cè)驗(yàn)信息等于項(xiàng)目信息之和。項(xiàng)目i的KL信息表示為
由于真實(shí)能力未知, 通常計(jì)算全局 KL信息量指標(biāo)(記為KI), 即
其中r通常取值3, 進(jìn)而KI方法選擇使KI值最大的項(xiàng)目。van der Linden等人還基于KL信息提出以下三種項(xiàng)目選擇方法。
(1)后驗(yàn)期望KL信息方法(B K)
Veldkamp和van der Linden (2002)提出以能力后驗(yàn)分布為權(quán)重對(duì)項(xiàng)目 KL距離求期望的B K方法, 其項(xiàng)目選擇指標(biāo)為:
研究證明, 該方法與貝葉斯 D-優(yōu)化方法具有相似的測(cè)量精度, 但B K方法更適用于具有內(nèi)容約束的測(cè)驗(yàn)(Mulder & van der Linden, 2010)。
(2)能力后驗(yàn)分布的KL距離方法(P K)
適應(yīng)性測(cè)驗(yàn)中, 每施測(cè)一個(gè)項(xiàng)目后都會(huì)更新能力的后驗(yàn)分布。然而, 如果施測(cè)一個(gè)不恰當(dāng)?shù)捻?xiàng)目將使的后驗(yàn)密度變化不大。于是, Mulder和van der Linden (2010)建議選擇在兩個(gè)連續(xù)后驗(yàn)分布之間具有最大 KL距離的項(xiàng)目, 記為KP方法。其項(xiàng)目選擇標(biāo)準(zhǔn)為:
(3)互信息(mutual information)方法(IM)
互信息表示隨機(jī)變量X,Y的聯(lián)合分布f(x,y)和邊際分布積的KL距離。若X和Y表示連續(xù)變量, 則特別地, 令則IM項(xiàng)目選擇指標(biāo)表示為
Mulder和van der Linden (2010)證明互信息等價(jià)于與之間KL信息量的均值, 而P K等價(jià)于之間KL信息量的均值。由于KL具有非對(duì)稱性, 因此P K和IM本質(zhì)上并不相同。
KB、均定義了兩個(gè)概率分布間的KL距離。對(duì)應(yīng)反應(yīng)分布間 KL距離以為權(quán)重的期望。KP和IM則從不同角度定義兩個(gè)連續(xù)后驗(yàn)分布的 KL距離。另外, 根據(jù) Mulder和 van der Linden (2010)及Wang (2014a), 可知Wang和Chang (2011)與Wang(2014a)中提到的基于貝葉斯更新的KL信息(KLB)方法實(shí)質(zhì)上與IM方法等價(jià)。
4.1.1.3 連續(xù)熵方法(continuous entropy method, CEM)
香農(nóng)熵(Shannon entropy)測(cè)量隨機(jī)變量分布內(nèi)在不確定性程度。當(dāng)隨機(jī)變量X服從連續(xù)分布時(shí), 香農(nóng)熵就是連續(xù)熵, 也稱為微分熵。Wang和Chang (2011)指出在作答k-1個(gè)項(xiàng)目之后后驗(yàn)分布的連續(xù)熵為:若選擇第k個(gè)項(xiàng)目之前對(duì)項(xiàng)目j的反應(yīng)求期望, 便得到如下期望后驗(yàn)連續(xù)熵:
CEM 方法將選擇Rk中使期望后驗(yàn)連續(xù)熵最小的項(xiàng)目。
4.1.1.4 基于項(xiàng)目信息量選題方法簡(jiǎn)評(píng)
總結(jié)相關(guān)研究, 不難發(fā)現(xiàn)上述方法具有如下關(guān)系。第一, KI方法等價(jià)于最大化Fisher信息矩陣的跡(即其特征值之和), 盡管它更傾向于選擇所有維度具有高區(qū)分度的項(xiàng)目, 它也選擇各維度區(qū)分度參數(shù)差異較大的項(xiàng)目??傊? KI方法嚴(yán)重依賴MDISC值選擇項(xiàng)目。D-優(yōu)化方法等價(jià)于最大化Fisher信息矩陣行列式的值, 傾向于選擇在某一維度具有高區(qū)分度的項(xiàng)目(Wang, Chang, & Boughton,2011)。第二, KL與Fisher信息都很容易從單維推廣到多維。無(wú)論能力維度多大,都是一個(gè)數(shù)量值, 而基于 Fisher信息矩陣選題需要將信息矩陣約減為一個(gè)單維指標(biāo)值。第三, CEM試圖極大地降低的后驗(yàn)熵, 間接使從下面項(xiàng)目中獲得關(guān)于能力的信息最大化, 而IM則直接使獲得的信息最大化, 二者的不同在于熵的基線不同。第三, 當(dāng)題庫(kù)項(xiàng)目各維度的區(qū)分度參數(shù)分布一致時(shí),IM和 D-優(yōu)化方法所選項(xiàng)目的重疊率最大, 其次是KI方法和D-優(yōu)化方法,IM與CEM或與KI方法所選項(xiàng)目的重疊率都更低。最后, 無(wú)論題庫(kù)項(xiàng)目各維度區(qū)分度參數(shù)分布是否一致,IM方法的測(cè)量精度最高, D-優(yōu)化和CEM方法的測(cè)量精度次之, KI方法的測(cè)量精度最低(Wang & Chang,2011)。
基于項(xiàng)目信息量選題方法的計(jì)算量通常很大,而項(xiàng)目選擇標(biāo)準(zhǔn)總離不開(kāi)項(xiàng)目特征參數(shù)。于是,研究者還根據(jù)項(xiàng)目參數(shù)提出一些簡(jiǎn)便的選題方法。例如, Bloxom和Vale (1987), Tam (1992)以難度和能力匹配來(lái)選擇項(xiàng)目; Wang等(2011)基于二維能力空間中 KI方法的選題特征提出兩種簡(jiǎn)化的KL信息指標(biāo)這兩種方法與 KI方法相比極大地降低了計(jì)算復(fù)雜度、縮短了計(jì)算時(shí)間的同時(shí)沒(méi)有明顯降低測(cè)量精度。對(duì)高維測(cè)驗(yàn),可由代替, 其中i,j=1,2,…,M,且i≠j。但是它們?cè)谌S及更高維能力空間的表現(xiàn)還有待進(jìn)一步研究證實(shí)。
當(dāng)測(cè)驗(yàn)考查的各個(gè)維度的重要程度不同時(shí),MCAT通常要求在能力線性組合處達(dá)到最優(yōu)。van der Linden (1999)以二維能力空間為例, 給出估計(jì)復(fù)合能力分?jǐn)?shù)方差的計(jì)算方法后提出第k個(gè)項(xiàng)目應(yīng)使復(fù)合分?jǐn)?shù)具有最小誤差方差, 即
研究表明, 復(fù)合分?jǐn)?shù)中權(quán)重λ的值對(duì)測(cè)量精度影響不大。復(fù)合能力值處于極端水平被試的估計(jì)誤差比中等水平被試的估計(jì)誤差更大, 但如果增加測(cè)驗(yàn)長(zhǎng)度可以提高測(cè)量精度。
另外, Mulder和van der Linden (2009, 2010)針對(duì)測(cè)驗(yàn)考查無(wú)關(guān)能力維度和復(fù)合能力分?jǐn)?shù)的情況, 分別給出給出D-優(yōu)化和A-優(yōu)化,和的相應(yīng)變式。他們指出大部分條件下 D-優(yōu)化和A-優(yōu)化的表現(xiàn)類似, A-優(yōu)化指標(biāo)的表現(xiàn)有時(shí)候比 D-優(yōu)化更好, 但其計(jì)算也更復(fù)雜;K P與IM比方法更適合這類測(cè)驗(yàn)。
上述研究中復(fù)合分?jǐn)?shù)的權(quán)重由研究者或考試機(jī)構(gòu)決定。Yao (2012)通過(guò)數(shù)理論證得到使復(fù)合能力的測(cè)量標(biāo)準(zhǔn)誤最小時(shí)權(quán)重的計(jì)算方法。在此基礎(chǔ)上, 她提出在最優(yōu)權(quán)重復(fù)合分?jǐn)?shù)處具有最小誤差的選題方法(記為 V2), 即
然后, 比較了 V2與等權(quán)重復(fù)合分?jǐn)?shù)處具有最小誤差方差的選題方法(記為 V1)、B K、D-優(yōu)化方法以及使在已施測(cè)項(xiàng)目處具有最小信息量的方向上具有最大信息量的項(xiàng)目選擇方法(記為 Ag)(Reckase, 2009)的選題表現(xiàn)。結(jié)果表明 D-優(yōu)化和Ag方法的表現(xiàn)類似, 均能平衡各個(gè)維度的測(cè)量精度; V1, V2和B K方法在復(fù)合能力和各個(gè)能力維度都達(dá)到了較高測(cè)量精度, 新方法 V2還提高了題庫(kù)利用率。Yao (2012)不僅關(guān)注復(fù)合能力, 而且關(guān)注各個(gè)能力維度的測(cè)量精度, 體現(xiàn)了MCAT不僅可用于預(yù)測(cè)將來(lái)表現(xiàn), 還可用于提供診斷信息的雙重目的。
CAT通常要求測(cè)驗(yàn)所考查的各個(gè)內(nèi)容域具有恰當(dāng)比例, 項(xiàng)目呈現(xiàn)的順序合理, 正確答案選項(xiàng)的分布平衡、項(xiàng)目的長(zhǎng)度適當(dāng), 等等。如果違反這些約束將影響被試作答, 從而降低測(cè)量準(zhǔn)確性和有效性。因而, 滿足內(nèi)容約束是MCAT實(shí)踐需要考慮的問(wèn)題之一。
影子測(cè)驗(yàn)方法的核心是選擇第k個(gè)項(xiàng)目之前組合一個(gè)在處具有最大測(cè)驗(yàn)信息量、包括已施測(cè)項(xiàng)目且滿足內(nèi)容約束的完整測(cè)驗(yàn), 然后將影子測(cè)驗(yàn)中具有最大信息量的項(xiàng)目施測(cè)給被試。Veldkamp和van der Linden (2002)在五種測(cè)驗(yàn)條件下運(yùn)用線性規(guī)劃方法組合影子測(cè)驗(yàn), 證明影子測(cè)驗(yàn)方法可滿足MCAT多種內(nèi)容約束。
Yao (2013)借鑒最大優(yōu)先指標(biāo)方法(Cheng &Chang, 2009)定義MCAT中項(xiàng)目i的優(yōu)先指標(biāo)為
UCAT中, Belov, Armstrong和Weissman (2008)指出影子測(cè)驗(yàn)方法可以滿足多種內(nèi)容約束, 但它降低了測(cè)量精度并導(dǎo)致項(xiàng)目曝光不均衡。最大優(yōu)先指標(biāo)方法則將約束條件轉(zhuǎn)化為目標(biāo)值并結(jié)合已施測(cè)項(xiàng)目的信息構(gòu)建選題指標(biāo), 避免了計(jì)算的復(fù)雜性和不可解問(wèn)題。但是它采用序列選題的方式,不但不能保證滿足所有約束條件也不一定能選到最優(yōu)項(xiàng)目, 因而可能會(huì)降低測(cè)量準(zhǔn)確性(Cheng &Chang, 2009)。對(duì)于MCAT, 情況是否如此, 是否還有更好的選題方法都值得進(jìn)一步研究。
項(xiàng)目曝光率即項(xiàng)目的使用頻率。曝光率越大,項(xiàng)目使用的次數(shù)越多, 則考生之間越可能分享試題信息, 從而影響測(cè)驗(yàn)安全和測(cè)量準(zhǔn)確性。反之,當(dāng)大部分項(xiàng)目都曝光過(guò)低甚至沒(méi)有使用時(shí), 意味著項(xiàng)目沒(méi)有得到充分利用, 這將嚴(yán)重影響題庫(kù)建設(shè)。因而, 項(xiàng)目曝光均勻性是評(píng)價(jià)選題方法優(yōu)劣的重要標(biāo)準(zhǔn)之一。
Lee, Ip和Fuh (2008)借鑒UCAT中a-分層方法的思想, 基于 M2PL提出按區(qū)分度向量的函數(shù)的值從小到大的順序?qū)㈩}庫(kù)分為F層, 并將測(cè)驗(yàn)分成F個(gè)階段, 然后第k個(gè)項(xiàng)目選擇對(duì)應(yīng)題庫(kù)層中項(xiàng)目參數(shù)b與最接近的項(xiàng)目, 以達(dá)到控制項(xiàng)目曝光率的目的。結(jié)果表明, 該方法與 a-分層方法在控制項(xiàng)目曝光率方面具有相似特點(diǎn)。另外, 它與 D-優(yōu)化方法相比, 能顯著提高項(xiàng)目曝光均勻性, 但也適當(dāng)降低了測(cè)量精度。測(cè)驗(yàn)越長(zhǎng),它們的測(cè)量精度相差越小。但該方法僅適用于二維測(cè)驗(yàn), 能否直接推廣到三維或更高維能力空間還有待研究證實(shí)。
另外, Finkelman, Nering和Roussos (2009)首先將Sympson-Hetter方法(SH) (Sympson & Hetter,1985)應(yīng)用到MCAT (記為GSH方法), 然后基于能力點(diǎn)控制項(xiàng)目曝光率的思想在 Stocking-Lewis方法(SL) (Stocking & Lewis, 1998)的基礎(chǔ)上簡(jiǎn)化得到GSL方法, 最后比較了GSH、GSL和KB方法的表現(xiàn)。結(jié)果表明:GSL方法與KB的測(cè)量精度差不多, 且高于GSH方法; GSL的最大項(xiàng)目曝光率和項(xiàng)目曝光率的標(biāo)準(zhǔn)差都最小, 其項(xiàng)目曝光率比GSH和KB方法更均勻??傮w上, GSH和GSL方法能較好地控制最大項(xiàng)目曝光率, 但仍有大部分項(xiàng)目曝光過(guò)低, 而且它們都需要事先模擬決定曝光率控制參數(shù)。此外, GSL方法從基于能力分布網(wǎng)格中能力點(diǎn)的思想控制項(xiàng)目曝光率, 當(dāng)測(cè)驗(yàn)增加到三維及以上時(shí), GSL方法也將變得非常復(fù)雜甚至不可用。
另外, Yao (2014b)在滿足各個(gè)內(nèi)容域項(xiàng)目個(gè)數(shù)要求的條件下將 Yao (2012)的五種項(xiàng)目選擇方法分別與最大優(yōu)先指標(biāo)方法和S-H方法相結(jié)合選題以控制最大項(xiàng)目曝光率。結(jié)果表明, 結(jié)合 S-H方法選題比結(jié)合最大優(yōu)先指標(biāo)方法選題的測(cè)量精度更高, 但是題庫(kù)利用率更低, 運(yùn)行時(shí)間更長(zhǎng)。
針對(duì)二級(jí)評(píng)分項(xiàng)目, 以提高測(cè)量精度為主要目標(biāo)的選題方法具有幾個(gè)顯著特點(diǎn)。第一, 研究將UCAT和CD-CAT中各類信息量指標(biāo)推廣到多維能力空間, 并論證它們之間的關(guān)系。從中不難發(fā)現(xiàn) D-優(yōu)化和 A-優(yōu)化方法需要將信息矩陣簡(jiǎn)化為一個(gè)單一維度指標(biāo), 其它方法均包含積分運(yùn)算。于是, 隨著能力維度的增加, 基于項(xiàng)目信息量選題的計(jì)算量將隨之增大。第二, 基于項(xiàng)目參數(shù)選題在不明顯降低測(cè)量精度的同時(shí)極大地降低了計(jì)算復(fù)雜度, 具有廣泛的應(yīng)用前景。但它們僅適用于二維測(cè)驗(yàn), 因而有待將它們推廣到更高維能力空間。除此之外, 針對(duì)測(cè)驗(yàn)考查無(wú)關(guān)維度和復(fù)合分?jǐn)?shù)的情形, 研究者還全面探討了各種項(xiàng)目信息量方法在這些情況下的變式及表現(xiàn)。
另外, 參加CAT的考生一般在不同時(shí)間、地點(diǎn)作答不完全相同的項(xiàng)目。因此, 如何使不同被試作答的測(cè)驗(yàn)具有相同結(jié)構(gòu)以保證測(cè)驗(yàn)的信、效度和測(cè)驗(yàn)公平是CAT選題面臨的又一實(shí)際問(wèn)題。而對(duì)具有內(nèi)容約束的選題方法, MCAT相關(guān)研究還涉足不深。今后一方面可借鑒UCAT和CD-CAT的相關(guān)方法, 另一方面從MCAT自身特點(diǎn)出發(fā)探索滿足內(nèi)容約束的選題方法。
最后, 針對(duì)MCAT中項(xiàng)目曝光控制的研究表明, 按區(qū)分度函數(shù)值分層的選題方法能提高曝光不足項(xiàng)目的使用率, 但不能明顯降低最大項(xiàng)目曝光率; GSH和GSL方法能有效控制最大項(xiàng)目曝光率, 但不能提高曝光不足項(xiàng)目的使用率; 最大優(yōu)先指標(biāo)方法能很好地控制最大項(xiàng)目曝光率, 并提高題庫(kù)利用率。值得注意的是, D-優(yōu)化方法和IM方法傾向于選擇某一個(gè)維度具有高區(qū)分度的項(xiàng)目,而 KI 傾向于選擇所有維度具有高區(qū)分度的項(xiàng)目,于是, 為保證測(cè)量精度并提高題庫(kù)利用率, 不妨結(jié)合多種方法選題。一般地, 項(xiàng)目曝光控制不僅要降低過(guò)度曝光項(xiàng)目的使用率而且應(yīng)提高曝光過(guò)低項(xiàng)目的使用率。因此, MCAT中如何進(jìn)一步提高項(xiàng)目曝光均勻性仍有待深入研究。
同UCAT一樣, MCAT要么固定測(cè)驗(yàn)長(zhǎng)度, 要么固定測(cè)量精度作為測(cè)驗(yàn)結(jié)束準(zhǔn)則。目前, 幾乎所有定長(zhǎng)MCAT的測(cè)驗(yàn)長(zhǎng)度都不小于25, 針對(duì)變長(zhǎng) MCAT, Yao (2013)、Wang 等(2013)和 Wang(2014a)從不同角度度量測(cè)量精度, 提出以下幾種終止規(guī)則。
在α顯著性水平下能力估計(jì)置信橢圓(橢球體)S 的面積(體積)V 等于其中, Γ(?) 表 示Gamma函數(shù)。若限制V的最大值為c或S的最大軸長(zhǎng)度為 2q以滿足某一測(cè)量精度, 便得到如下D-規(guī)則和 E-規(guī)則。具體而言, D-規(guī)則表示為即滿足j≥1和的最小整數(shù)j時(shí)停止測(cè)驗(yàn)。E規(guī)則表示為表示廣義Fisher信息矩陣的最小特征值。
T-規(guī)則規(guī)定當(dāng)能力估計(jì)的總方差小于x時(shí)結(jié)束測(cè)驗(yàn), 即值得注意的是, 當(dāng)題庫(kù)項(xiàng)目在各個(gè)維度的區(qū)分度參數(shù)分布不均衡時(shí), 盡管總方差低于閾值x, 仍可能在某些維度具有較大方差。于是, 為保證每個(gè)維度的最大方差小于預(yù)設(shè)值e, T-規(guī)則通常修改為:T-規(guī)則涉及信息矩陣的逆矩陣, 因此無(wú)論實(shí)踐還是模擬研究都應(yīng)考慮信息矩陣是否為奇異矩陣。
Yao (2013)在滿足內(nèi)容約束和控制最大項(xiàng)目曝光率的條件下比較了變長(zhǎng)MCAT中基于測(cè)量標(biāo)準(zhǔn)誤(standard error, SE)方法和預(yù)測(cè)標(biāo)準(zhǔn)誤減少量(predicted standard error reduction, PSER)終止規(guī)則的表現(xiàn)。結(jié)果發(fā)現(xiàn), PSER方法的測(cè)量精度略低于SE方法, 但它的測(cè)驗(yàn)長(zhǎng)度更短。Yao (2013)不僅考察了變長(zhǎng) MCAT的終止規(guī)則, 而且在變長(zhǎng)MCAT中實(shí)現(xiàn)了內(nèi)容約束, 這是研究的亮點(diǎn), 也是今后深入研究的方向。
和CEM-規(guī)則:
上述方法都能在達(dá)到預(yù)定測(cè)量精度時(shí)結(jié)束測(cè)驗(yàn), 它們還具有如下關(guān)系。第一, D、T和E規(guī)則從不同角度度量能力估計(jì)標(biāo)準(zhǔn)誤, 類似于 UCAT中 SE規(guī)則, 而 K-規(guī)則通過(guò)控制候選項(xiàng)目有用信息量的大小來(lái)結(jié)束測(cè)驗(yàn)。第二, 對(duì)D, E和T規(guī)則,具有極端能力值被試的測(cè)驗(yàn)長(zhǎng)度近似是那些中等能力水平被試測(cè)驗(yàn)長(zhǎng)度的2倍以上, 而K規(guī)則中測(cè)驗(yàn)長(zhǎng)度的差異不明顯。但K規(guī)則受先驗(yàn)密度的影響, 先驗(yàn)密度的信息量越大, 測(cè)驗(yàn)越短。于是,將來(lái)可考察不同先驗(yàn)分布對(duì)K規(guī)則的影響模式。第三, 當(dāng)能力后驗(yàn)分布服從多變量正態(tài)分布時(shí),CEM-規(guī)則與D-規(guī)則等價(jià)。第四, 終止規(guī)則往往包括統(tǒng)計(jì)表達(dá)式和臨界值。臨界值與測(cè)量精度息息相關(guān), 其值需要根據(jù)期望測(cè)量精度、能力維度、題庫(kù)特征進(jìn)行調(diào)整。因此, 今后不僅需要探討臨界值的設(shè)置方法, 而且有待在不同測(cè)驗(yàn)條件(如各維度之間的相關(guān)、項(xiàng)目質(zhì)量?jī)?yōu)劣等等)下深入比較終止規(guī)則的表現(xiàn)。
MIRT、認(rèn)知診斷理論和 CAT是現(xiàn)代心理測(cè)量學(xué)發(fā)展的三大主要方向。MIRT是近期的研究熱點(diǎn), CAT是一種新興的、有前途的測(cè)驗(yàn)形式, 將兩者結(jié)合在一起的MCAT勢(shì)必成為CAT研究的一個(gè)新方向。本文對(duì)MCAT的相關(guān)研究做了比較系統(tǒng)的介紹和評(píng)價(jià)??v觀其發(fā)展趨勢(shì), 我們認(rèn)為還有待從以下幾個(gè)方面研究MCAT。
迄今為止, 大部分MCAT都以M2PL或M3PL為模型基礎(chǔ), 也有極少研究基于其它 MIRM。例如, Wang和Chen (2004)以MRCMLM為基礎(chǔ)的研究表明MCAT在高維測(cè)驗(yàn)、各個(gè)維度高相關(guān)、評(píng)分水平數(shù)較多的情況下同樣具有較高測(cè)驗(yàn)效率。今后首先應(yīng)更加深入探討各類MIRM的模型特點(diǎn)和數(shù)學(xué)函數(shù)圖象等各種統(tǒng)計(jì)特征, 然后以多維Rasch模型和多級(jí)評(píng)分項(xiàng)目 MIRM 為基礎(chǔ)開(kāi)展MCAT研究。
隨著能力維度的增加, 基于項(xiàng)目信息量選題的計(jì)算都愈加復(fù)雜。因此, 三維甚至更高維度的情況下, 如何在各種信息量指標(biāo)基礎(chǔ)上簡(jiǎn)化選題策略將是今后的重點(diǎn)研究?jī)?nèi)容。其次, MCAT中項(xiàng)目曝光控制方法要么能有效控制最大項(xiàng)目曝光率,要么能提高曝光不足項(xiàng)目的使用率。于是, 今后研究一方面可借鑒UCAT和CD-CAT中表現(xiàn)較好的隨機(jī)程序法及變式(Barrada Olea, Ponsoda, &Abad, 2008; Wang, Chang, & Huebner, 2011), 另一方面可結(jié)合運(yùn)用多種項(xiàng)目曝光控制方法以進(jìn)一步提高項(xiàng)目曝光均勻性。再次, 雖然MCAT可保證各個(gè)內(nèi)容域的測(cè)量精度, 但如何選題以滿足多種約束條件也是今后的研究問(wèn)題之一。例如, 考察UCAT和CD-CAT中表現(xiàn)較好的Monte Carlo方法(Belov et al., 2008; Mao & Xin, 2013)在MCAT中的表現(xiàn),將測(cè)驗(yàn)組卷中滿足約束的 0-1線性規(guī)劃(binary programming, BP)和遺傳算法(genetic algorithm,GA) (Finkelman, Kim, Roussos, & Verschoor, 2010)等用到具有多種約束的MCAT選題, 或者探索滿足約束的測(cè)驗(yàn)組卷算法都是有價(jià)值的研究問(wèn)題。最后, 盡管針對(duì) MCAT提出了多種選題方法, 但沒(méi)有全面比較各種方法的表現(xiàn)。因此, 在不同測(cè)驗(yàn)條件下比較它們的表現(xiàn)同樣具有重要實(shí)踐意義。
隨著多級(jí)評(píng)分項(xiàng)目復(fù)雜評(píng)分算法的出現(xiàn)使得問(wèn)答題、題組和結(jié)構(gòu)反應(yīng)項(xiàng)目逐漸出現(xiàn)在CAT中(Clauser, Margolis, Clyman, & Ross, 1997), 多級(jí)評(píng)分項(xiàng)目的應(yīng)用將越來(lái)越受到重視。例如, 美國(guó)醫(yī)學(xué)院學(xué)會(huì)已設(shè)立專項(xiàng)經(jīng)費(fèi)用于研究醫(yī)大入學(xué)考試的語(yǔ)文推理部分采用題組評(píng)分項(xiàng)目的 CAT; 美國(guó)國(guó)立衛(wèi)生研究院 2003年申請(qǐng)數(shù)百萬(wàn)美元用于開(kāi)發(fā)根據(jù)病人的臨床報(bào)告進(jìn)行診斷的CAT系統(tǒng)。然而, 迄今為止未曾見(jiàn)到多級(jí)評(píng)分項(xiàng)目MCAT的相關(guān)研究。因此, 針對(duì)測(cè)量精度、項(xiàng)目曝光控制和內(nèi)容約束問(wèn)題探索多級(jí)評(píng)分項(xiàng)目MCAT的選題策略無(wú)疑是今后研究的趨勢(shì)與重點(diǎn)內(nèi)容之一。
MCAT要付諸實(shí)踐關(guān)鍵要有由大量質(zhì)量合格、參數(shù)已標(biāo)定的項(xiàng)目構(gòu)成的題庫(kù)。隨著時(shí)間的推移, 題庫(kù)中的一些項(xiàng)目會(huì)因?yàn)榇嬖谌毕?、過(guò)時(shí)或過(guò)度曝光等原因需要用新題去替換或進(jìn)行增補(bǔ)(陳平, 2011)。于是, 項(xiàng)目增補(bǔ)對(duì)MCAT題庫(kù)的維護(hù)和開(kāi)發(fā)至關(guān)重要。UCAT和CD-CAT中在線校準(zhǔn)技術(shù)常用于估計(jì)新題的項(xiàng)目參數(shù)。因此, 借鑒已有研究探索MCAT中基于被試在項(xiàng)目上的作答反應(yīng)準(zhǔn)確地、聯(lián)合地估計(jì)項(xiàng)目參數(shù)將具有不言而喻的意義。
MCAT理論研究不僅需要實(shí)踐來(lái)檢驗(yàn)其實(shí)踐效能, 其理論研究成果反過(guò)來(lái)又推動(dòng)實(shí)踐進(jìn)步。因此, 如何在 MIRT理論指導(dǎo)下編寫測(cè)驗(yàn)項(xiàng)目、分析項(xiàng)目特征完成題庫(kù)建構(gòu); 探索多級(jí)評(píng)分項(xiàng)目在線自動(dòng)評(píng)分算法; 開(kāi)發(fā) MCAT考試系統(tǒng)都是MCAT實(shí)踐的必要前提。
陳平. (2011).認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)的項(xiàng)目增補(bǔ)——以DINA模型為例(博士學(xué)位論文), 北京師范大學(xué).
杜文久, 肖涵敏. (2012). 多維項(xiàng)目反應(yīng)理論等級(jí)反應(yīng)模型.心理學(xué)報(bào), 44, 1402–1407.
劉發(fā)明, 丁樹(shù)良. (2006). 多維自適應(yīng)測(cè)驗(yàn)初探.江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 30, 428–430.
康春花, 辛濤. (2010). 測(cè)驗(yàn)理論的新發(fā)展: 多維項(xiàng)目反應(yīng)理論.心理科學(xué)進(jìn)展, 18, 530–536.
涂冬波, 蔡艷, 戴海琦, 丁樹(shù)良. (2011). 多維項(xiàng)目反應(yīng)理論: 參數(shù)估計(jì)及其在心理測(cè)驗(yàn)中的應(yīng)用.心理學(xué)報(bào), 43,1329–1340.
許志勇, 丁樹(shù)良, 鐘君. (2013). 高考數(shù)學(xué)試卷多維項(xiàng)目反應(yīng)理論的分析及應(yīng)用.心理學(xué)探新, 33, 438–443.
張軍. (2011). HSK潛在維度的探索性分析——多維項(xiàng)目反應(yīng)理論的應(yīng)用.考試研究, 29, 47–58.
Adams, R. J., & Wilson, M. (1996). A random coefficients multinomial logit: A generalized approach to fitting Rasch models. In G. Engelhard & M. Wilson (Eds.),Objective measurement III: Theory into practice(pp. 142–166).Norwood, NJ: Ablex.
Adams, R. J., Wilson, M., & Wang, W. (1997). The multidimensional random coefficients multinomial logit model.Applied Psychological Measurement, 21, 1–24.
Barrada, J. R., Olea, J., Ponsoda, V., & Abad, F. J. (2008).Incorporating randomness in the Fisher information for improving item-exposure control in CATs.British Journal of Mathematical and Statistical Psychology, 61, 493–513.
Belov, D. I., Armstrong, R. D., & Weissman, A. (2008). A Monte Carlo approach for adaptive testing with content constraints.Applied Psychological Measurement, 32, 431–446.
Bloxom, B. M., & Vale, C. D. (1987).Multididmensional adaptive testing: A procedure for sequential estimation of the posterior centriod and dispersion of theta. Paper presented at the meeting of the Psychometric society, Montreal, Canada.
Bolt, D. M., & Lall, V. F. (2003). Estimation of compensatory and noncompensatory multidimensional item response models using Markov chain Monte Carlo.Applied Psychological Measurement, 27, 395–414.
Cheng, Y., & Chang, H. H. (2009). The maximum priority index method for severely constrained item selection in computerized adaptive testing.British Journal of Mathematical and Statistical Psychology, 62, 369–383.
Clauser, B. E., Margolis, M. J., Clyman, S. G., & Ross, L. P.(1997). Development of automated scoring algorithms for complex performance assessments: A comparison of two approaches.Journal of Educational Measurement, 34,141–161.
Finkelman, M. D., Kim, W., Roussos, L., & Verschoor, A.(2010). A binary programming approach to automated test assembly for cognitive diagnosis models.Applied Psychological Measurement, 34, 310–326.
Finkelman, M., Nering, M. L., & Roussos, L. A. (2009). A conditional exposure control method for multidimensional adaptive testing.Journal of Educational Measurement, 46,84–103.
Frey, A., & Seitz, N. N. (2011). Hypothetical use of multidimensional adaptive testing for the assessment of student achievement on the programme for international student assessment.Educational and Psychological Measurement, 71, 503–522.
Kelderman, H., & Rijkes, C. E. M. (1994). Loglinear multidimensional IRT models for polytomously scored items.Psychometrika, 59, 149–176.
Lee, Y. H., Ip, E. H., & Fuh, C. D. (2008). A strategy for controlling item exposure in multidimensional computerized adaptive testing.Educational and Psychological Measurement,68, 215–232.
Luecht, R. M. (1996). Multidimensional computerized adaptive testing in a certification or licensure context.Applied Psychological Measurement, 20, 389–404.
Mao, X. Z., & Xin, T. (2013). The application of the monte carlo approach to cognitive diagnostic computerized adaptive testing with content constraints.Applied Psychological Measurement, 37, 482–496.
McKinley, R. L., & Reckase, M. D. (1982).The use of the general Rasch model with multidimensional item response data(Research Report ONR 82–1). American College Testing, Iowa City, IA.
Mulder, J., & van der Linden, W. J. (2009). Multidimensional adaptive testing with optimal design criteria for item selection.Psychometrika, 74, 273–296.
Mulder, J., & van der Linden, W. J. (2010). Multidimensional adaptive testing with Kullback-Leibler information item selection. In W. J. van der Linden & C. A. W. Glas (Eds.),Elements of adaptive testing, statistics for social and behaviroal sciences.New-York: Springer Science+Business Media.
Muraki, E., & Carlson, J. E. (1993).Full-information factor analysis for polytomous item responses.Paper presented at the annual meeting of the American Educational Research Association, Atlanta.
Owen, R. J. (1975). A bayesian sequential procedure for quantal response in the context of adaptive mental testing.Journal of the American Statistical Association, 70, 351–356.
Reckase, M. D. (1985). The difficulty of test items that measure more than one ability.Applied Psychological Measurement,9, 401–412.
Reckase, M. D. (2009).Multidimensional item response theory. New York: Springer.
Samejima, F. (1974). Normal ogive model on the continuous response level in the multidimensional latent space.Psychometrika, 39, 111–121.
Segall, D. O. (1996). Multidimensional adaptive testing.Psychometrika, 61, 331–354.
Segall, D. O. (2010). Principles of multidimensional adaptive testing. In W. J. van der Linden & C. A. W. Glas (Eds.),Elements of adaptive testing, statistics for social and behavioral sciences.New York: Springer Science+Business Media.
Stocking, M. L., & Lewis, C. (1998). Controlling item exposure conditional on ability in computerized adaptive testing.Journalof Educational and Behavioral Statistics, 23, 57–75.
Sympson, J. B., & Hetter, R. D. (1985).Controlling item-exposure rates in computerized adaptive testing.In Proceedings of the 27th annual meeting of the Military Testing Association (pp. 973–977). San Diego, CA: Navy Personnel Research and Development Center.
Tam, S. S. (1992).A comparison of methods for adaptive estimation of a multidimensional trait(Unpublished doctoral dissertation). Columbia University, New York.
van der Linden, W. J. (1999). Multidimensional adaptive testing with a minimum error-variance criterion.Journal of Educational and Behavioral Statistics, 24, 398–412.
van der Linden, W. J., & Hambleton, R. K. (1997).Handbook of modern item response theory. New York: Springer-Verlag.
Veldkamp, B. P., & van der Linden, W. J. (2002).Multidimensional adaptive testing with constraints on test content.Psychometrika, 67, 575–588.
Wang, C. (2014a). Multidimensional computerized adaptive testing: Early development and recent advancements. In Y.Cheng & H.-H. Chang (Eds.),Advances in modern international testing: Transition from summative to formative assessment. Charlotte, NC: Information Age.
Wang, C., & Chang, H. H. (2011). Item selection in multidimensional computerized adaptive testing-gaining information from different angles.Psychometrika, 76, 363–384.
Wang, C., Chang, H. H., & Boughton, K. A. (2011).Kullback-Leibler information and its applications in multidimensional adaptive testing.Psychometrika, 76, 13–39.
Wang, C., Chang, H. H., & Boughton, K. A. (2013). Deriving stopping rules for multidimensional computerized adaptive testing.Applied Psychological Measurement, 37, 99–122.
Wang, C., Chang, H. H., & Huebner, A. (2011). Restrictive stochastic item selection methods in cognitive diagnostic computerized adaptive testing.Journal of Educational Measurement, 48, 255–273.
Wang, W. C. (2014b). Multidimensional Rasch models:Theories and applications. In Y. Cheng & H.-H. Chang(Eds.),Advances in modern international testing: Transition from summative to formative assessment. Charlotte, NC:Information Age.
Wang, W. C., & Chen, P. H. (2004). Implementation and measurement efficiency of multidimensional computerized adaptive testing.Applied Psychological Measurement, 28,295–316.
Warm, T. A. (1989). Weighted likelihood estimation of ability in item response theory.Psychometrika, 54, 427–450.
Yao, L. H. (2012). Multidimensional CAT item selection methods for domain scores and composite scores: Theory and applications.Psychometrika, 77, 495–523.
Yao, L. H. (2013). Comparing the performance of five multidimensional CAT selection procedures with different stopping rules.Applied Psychological Measurement, 37, 3–23.
Yao, L. H. (2014a). Multidimensional item response theory for score reporting. In Y. Cheng & H.-H. Chang (Eds.),Advances in modern international testing: Transition from summative to formative assessment.Charlotte, NC:Information Age.
Yao, L. H. (2014b). Multidimensional CAT item selection methods for domain scores and composite scores with item exposure control and content constrains.Journal of Educational Measurement, 51, 18–38.
Yao, L. H., & Schwarz, R. D. (2006). A multidimensional partial credit model with associated item and test statistics:An application to mixed-format tests.Applied Psychological Measurement, 30, 469–492.
Zhang, B., & Stone, C. A. (2008). Evaluating item fit for multidimensional item response models.Educational and Psychological Measurement, 68(2), 181–196.