基于分部評分模型思路的多級評分認(rèn)知診斷模型開發(fā)*

2019-12-12 05:54:38高旭亮汪大勛涂冬波

心理學(xué)報(bào) 2019年12期

高旭亮汪大勛王芳蔡艷涂冬波

高旭亮1,2汪大勛1王芳2蔡艷1涂冬波1

(1江西師范大學(xué)心理學(xué)院, 南昌 330022) (2貴州師范大學(xué)心理學(xué)院, 貴陽 550000)

基于分部評分模型的思路, 本文提出了一般化的分部評分認(rèn)知診斷模型(General Partial Credit Diagnostic Model, GPCDM), 與國際上已有的基于分部評分模型思路的多級評分模型GDM (von Davier, 2008)和PC-DINA (de la Torre, 2012)相比, GPCDM的Q矩陣定義更加靈活, 項(xiàng)目參數(shù)的約束條件更少。Monte Carlo實(shí)驗(yàn)研究表明, GPCDM模型的參數(shù)估計(jì)精度指標(biāo)RMSE介于[0.015, 0.043], 表明估計(jì)精度尚可; TIMSS (2007)實(shí)證數(shù)據(jù)應(yīng)用研究表明, 與GDM和PC-DINA模型相比, GPCDM與該數(shù)據(jù)的擬合度更好, 并且使用GPCDM分析該數(shù)據(jù)的診斷效果也更優(yōu)?？傊? 本研究提供了一種約束條件更少、功能更為強(qiáng)大的多級評分認(rèn)知診斷模型。

認(rèn)知診斷; 多級評分認(rèn)知診斷模型; GDM; PC-DINA

1 引言

目前, 教育評估和心理計(jì)量學(xué)的最新發(fā)展越來越強(qiáng)調(diào)形成性評估(Formative Assessments), 它可以提供更多的信息來改進(jìn)學(xué)習(xí)和教學(xué)策略。認(rèn)知診斷評估(Cognitively Diagnostic Assessments, CDA)旨在測量特定的知識結(jié)構(gòu)和加工技能, 從而為教師和學(xué)生提供即時(shí)的診斷信息, 以便對課堂教學(xué)進(jìn)行相應(yīng)的規(guī)劃或修改, 以促進(jìn)個(gè)體的全面發(fā)展(de la Torre & Minchen, 2014; Leighton & Gierl, 2007)。特別地, 美國2001年通過了《不讓一個(gè)孩子掉隊(duì)法》法案(No Child Left Behind Act of 2001), 法案要求測驗(yàn)要給學(xué)生、家長和老師提供有價(jià)值的診斷性報(bào)告, 報(bào)告要包括關(guān)于學(xué)生在解決問題時(shí)所需的基礎(chǔ)知識和認(rèn)知處理技能等方面的掌握信息, 從而為學(xué)生提供量身定制的教育服務(wù)。美國政府2015年再次通過了每個(gè)學(xué)生成功(Every Student Succeeds Act)教育法案, 新法案繼續(xù)強(qiáng)調(diào)測驗(yàn)要為學(xué)生及家長提供診斷性評價(jià)、形成性評價(jià)。我國在2010年通過的《國家中長期教育改革和發(fā)展規(guī)劃綱要(2010?2020年)》強(qiáng)調(diào)要注重因材施教, 減輕學(xué)生負(fù)擔(dān), 改革教學(xué)評價(jià)制度, 建立科學(xué)的教育質(zhì)量評價(jià)體系等。從國內(nèi)外的教育政策可見, CDA在未來的教育評估領(lǐng)域?qū)l(fā)揮更大的作用。

當(dāng)前, 研究者已經(jīng)開發(fā)了大量的二級(0-1)評分認(rèn)知診斷模型(Cognitive Diagnosis Model, CDM), 然而在實(shí)際教育和心理評估測驗(yàn)中存在大量多級評分的數(shù)據(jù), 例如, 心理測驗(yàn)中經(jīng)常使用李克特型(Likert-type)量表問卷, 在態(tài)度傾向性的問卷中, 使用“完全不同意”, “不同意”, “不確定”, “同意”和“完全同意”等5個(gè)選項(xiàng)來表示不同程度的態(tài)度傾向, 每個(gè)選項(xiàng)代表不同的得分。不僅如此, 與二級評分的題目相比, 多級評分題目可以提供更多的信息, 它只需要更少的題目就能達(dá)到和較多二級題目同樣的測量精度(van der Ark, 2001)。

為了分析多級評分?jǐn)?shù)據(jù), 一個(gè)常用的方法是將多級評分?jǐn)?shù)據(jù)轉(zhuǎn)換為二級評分, 然后再使用二級評分的CDM來分析(Templin & Henson, 2006)。然而, 經(jīng)過轉(zhuǎn)換之后必然要損失很多有價(jià)值的信息, Ma和de la Torre (2016)以及Tu, Zheng, Cai, Gao和Wang (2017)的研究均發(fā)現(xiàn), 與使用多級評分模型相比, 使用二級評分模型分析多級評分?jǐn)?shù)據(jù)會在很大程度上降低測驗(yàn)的精度。

在CDA領(lǐng)域, 研究者已經(jīng)開發(fā)了少量的多級評分CDMs (polytomous CDMs)。但是已有的多級評分CDMs主要是屬于累積概率(cumulative probability)模型和連續(xù)比率(continuation ratio)模型。Hansen (2013)借鑒Samejima (1969)等級反應(yīng)模型(Graded Response Model, GRM)的思想, 提出了多級評分的LCDM模型。涂冬波、蔡艷、戴海琦和丁樹良(2010)基于等級反應(yīng)模型(GRM)的建模思路提出了多級評分的DINA模型(polytomous DINA, P-DINA)。蔡艷、苗瑩和涂冬波 (2016)在P-DINA模型的基礎(chǔ)上加以改進(jìn), 提出了拓廣的P-DINA (Generalized P-DINA, GP-DINA)模型。Ma和de la Torre (2016)在G-DINA模型的基礎(chǔ)上提出了序列加工G-DINA模型(sequential G-DINA), 序列加工G-DINA模型是基于連續(xù)比率(continuation ratio)模型的一個(gè)特例。

然而, 目前對于相鄰類別(adjacent category)或者分部評分(partial-credit)類的多級評分CDMs的研究還相對薄弱。已有的分部評分多級CDMs模型僅有von Davier (2008)提出的一般診斷模型(General Diagnostic Model, GDM)和de la Torre (2012)提出的分部評分DINA (Partial CreditDINA, PC-DINA)模型。但這兩個(gè)模型具有以下缺陷:

(2) 其次, 對于GDM模型而言, 它假設(shè)屬性之間不存在交互效應(yīng), 即它只考慮了屬性的主效應(yīng)。而在實(shí)際的數(shù)據(jù)中, 屬性之間常常存在交互效應(yīng), 即被試答對題目的概率不僅受到屬性主效應(yīng)的影響, 還受到屬性之間交互效應(yīng)的影響; (3)對于PC-DINA模型來說, 它是基于DINA模型而提出的, DINA模型假設(shè)屬性沒有主效應(yīng), 僅有所有屬性間的交互效應(yīng), 它屬于具有嚴(yán)格理論假設(shè)的簡單模型, 因此, 它不具一般性認(rèn)知診斷模型的優(yōu)勢。

表1 兩種不同類型的Q矩陣示例

基于此, 本研究重點(diǎn)關(guān)注基于分部評分模型的建模思路, 開發(fā)出新的功能更為強(qiáng)大的多級評分認(rèn)知診斷模型, 以彌補(bǔ)當(dāng)前國際上基于分部評分模型思路的多級評分CDMs (如GDM和PC-DINA)的不足。新開發(fā)的模型不僅將屬性定義在得分類別水平(屬性的定義更加精細(xì)), 而且它以G-DINA模型作為加工函數(shù), 因此具有一般性認(rèn)知診斷模型的優(yōu)勢。

2 基于分部評分模型思路的多級評分CDM開發(fā)

基于局部logit (local logit) 函數(shù)的定義, 定義了以下一般化的分部評分認(rèn)知診斷模型(General Partial Credit Diagnostic Model, GPCDM)表達(dá)式:

假設(shè)題目的滿分是3分, 即有4個(gè)得分類別(0, 1, 2, 3), 此時(shí), 可以得到每個(gè)得分類別的答對概率, 如下所示:

化解公式3的方程組, 可以得到如下公式:

通過公式4, 進(jìn)一步可以概括出GPCDM模型的每個(gè)得分類別的一般化公式:

如果將Q矩陣定義在題目水平, 即使用Item-Q時(shí), 并且假設(shè)屬性沒有主效應(yīng), 僅保留屬性間的最高階交互效應(yīng), 則公式(1)可以簡化為:

綜上, 已有的分部評分CDMs都將Q矩陣定義在題目水平, 而GPCDM的Q矩陣定義更加靈活, 它可以定義在題目水平和得分類別水平; 當(dāng)Q矩陣定義在得分類別時(shí), 即Q矩陣的定義更加精細(xì), 有助于提供更多的診斷信息。在實(shí)際應(yīng)用中, 使用者可以根據(jù)自身的需求靈活選擇不同類型的Q矩陣。另外, GDM和PC-DINA的理論假設(shè)均比較嚴(yán)苛, 在應(yīng)用中具有較大的限制。而GPCDM的約束條件更少, 因而, 理論上GPCDM在實(shí)際應(yīng)用中更加靈活, 更具優(yōu)勢。

3 參數(shù)估計(jì)

本研究的參數(shù)估計(jì)程序使用R軟件來編寫, 在R軟件中optim函數(shù)包含了幾種常用的極值優(yōu)化算法。optim函數(shù)在R里的表達(dá)式是optim (par, fn, method), par代表項(xiàng)目參數(shù)初值, fn代表目標(biāo)函數(shù), method可選擇的優(yōu)化算法, 因此, 使用optim函數(shù)計(jì)算極值時(shí)只需要輸入par (項(xiàng)目參數(shù)初值), 初值可以從均勻分布中隨機(jī)生成, fn (目標(biāo)函數(shù))和選擇的優(yōu)化算法即可。

EM算法每循環(huán)一次, 就驗(yàn)證是否達(dá)到收斂條件, 如果達(dá)到收斂條件, 則迭代停止, 否則, 重復(fù)E步和M步。最后, 通過EM算法得到項(xiàng)目參數(shù)后, 采用期望后驗(yàn)(Expected a Posteriori, EAP)方法來估計(jì)被試參數(shù)(屬性掌握模式)。

4 實(shí)驗(yàn)1: Monte Carlo實(shí)驗(yàn)研究

實(shí)驗(yàn)1旨在檢驗(yàn): (1)GPCDM模型的參數(shù)估計(jì)精度及其性能; (2)當(dāng)采用Cat-Q矩陣生成數(shù)據(jù)時(shí), 如果采用Item-Q矩陣分析數(shù)據(jù)是否會降低參數(shù)估計(jì)的精度, Item-Q可以從Cat-Q得到, 例如, 表2中的第1題得分類別1和2考察的屬性向量分別是(1, 0, 0, 0, 0)和(0, 1, 0, 0, 0), 而Item-Q中得分類別1和2考察的屬性向量都是(1, 1, 0, 0, 0)。

自變量包括: (1)樣本容量(500, 1000, 2000和4000)。(2)屬性個(gè)數(shù)(5個(gè)和7個(gè)); 5屬性和7屬性的Cat-Q見表2和表3, 多級評分題目中每個(gè)得分類別最多考察2個(gè)屬性, 并且Cat-Q中每個(gè)屬性的測量次數(shù)都是相同的。另外, 為了提高診斷測驗(yàn)的效果, 5屬性和7屬性的Cat-Q分別包含了5個(gè)和7個(gè)二級評分的題目, 且這些測驗(yàn)包括了一個(gè)完整的可達(dá)矩陣(R陣)。(3)測驗(yàn)長度, 5屬性時(shí)包括20和40題, 7屬性時(shí)包括25和50題, 40題和50題的Cat-Q與20題和25題的Cat-Q是重復(fù)關(guān)系。為了減少隨機(jī)誤差, 每種條件下重復(fù)模擬實(shí)驗(yàn)100次。

表2 5屬性的Cat-Q矩陣

表3 7屬性的Cat-Q矩陣

4.1 參數(shù)的模擬

4.1.1 被試參數(shù)的模擬

4.1.2 題目參數(shù)的模擬

4.1.3 作答數(shù)據(jù)的模擬

4.2 評價(jià)標(biāo)準(zhǔn)

評價(jià)標(biāo)準(zhǔn)包括被試參數(shù)和項(xiàng)目參數(shù)的返真性, 它們的返真性分別用模式判準(zhǔn)率(Pattern Match Rate, PMR)和均方根誤差指標(biāo)(Root Mean Square Error, RMSE)來反映(Ma & de la Torre, 2016)。兩個(gè)指標(biāo)的計(jì)算公式如下:

4.3 實(shí)驗(yàn)結(jié)果

表4和表5分別顯示了各種實(shí)驗(yàn)條件下的測驗(yàn)PMR指標(biāo)和RMSE指標(biāo)。

需要強(qiáng)調(diào)的是, 作答數(shù)據(jù)是基于類別水平Q矩陣(Cat-Q)生成的。因此, 為了評估參數(shù)估計(jì)的精度, 主要關(guān)注Cat-Q的結(jié)果。從表4的結(jié)果可見, 屬性個(gè)數(shù)等于5且使用Cat-Q時(shí), 測驗(yàn)長度在20題時(shí), 不同樣本容量下的PMR值都在0.94以上, 而當(dāng)測驗(yàn)長度增加到40題時(shí), 不同樣本容量下的PMR值均在0.99以上。當(dāng)屬性個(gè)數(shù)等于7且使用Cat-Q時(shí), 在測驗(yàn)長度為25題時(shí), 不同樣本容量下的PMR值都在0.86以上, 而在測驗(yàn)長度為50題時(shí), 不同樣本容量下的PMR值都在0.98以上。

表4 各種實(shí)驗(yàn)條件下被試參數(shù)返真性PMR值

表5的結(jié)果顯示, 當(dāng)使用Cat-Q時(shí), 不管屬性個(gè)數(shù)、測驗(yàn)長度和樣本容量如何變化, 在所有條件下的測驗(yàn)RMSE值均在0.05以下。隨著樣本量的增加, RMSE也隨之降低, 例如, 屬性個(gè)數(shù)等于5和測驗(yàn)長度等于20時(shí), 在樣本容量為500的條件下, 基于Item-Q和Cat-Q的RMSE值分別是0.103和0.043, 同樣的條件下, 當(dāng)樣本容量增加到4000時(shí),基于Item-Q和Cat-Q的RMSE值分別降低到0.053和0.015。

表6顯示了在屬性個(gè)數(shù)為5, 樣本容量為1000, 測驗(yàn)長度為20題時(shí), Cat-Q和Item-Q條件下每一題的RMSE指標(biāo), 由于其他實(shí)驗(yàn)條件下的結(jié)果和表6有相似的趨勢, 因此, 限于篇幅的原因, 只提供了一種條件下的結(jié)果。

從表6的結(jié)果可以發(fā)現(xiàn), 由于后5題是二級評分的題目, 此時(shí)Cat-Q和Item-Q是等價(jià)的, 因此Cat-Q和Item-Q的RMSE值基本相當(dāng), 而在多級評分的前15題中, 基于Cat-Q得到的RMSE值始終要小于基于Item-Q的RMSE值, 基于Cat-Q的最大RMSE是0.036。另外, 還可以發(fā)現(xiàn), 二級評分題目的RMSE要略低于多級評分的題目, 這是因?yàn)? 二級評分題目考察的屬性個(gè)數(shù)要少于多級評分題目。這個(gè)結(jié)果充分表明, EM算法可以提供精確的參數(shù)估計(jì)精度, 和Item-Q相比, 使用Cat-Q有助于提供更多有價(jià)值的診斷信息, 從而提高診斷測驗(yàn)的精度。

從表4和表5基于Cat-Q的結(jié)果可以發(fā)現(xiàn), 當(dāng)屬性個(gè)數(shù)等于5或7時(shí), 基于Cat-Q的PMR在短測驗(yàn)(20題和25題)時(shí), 分別達(dá)到了0.9和0.8以上, 而在長測驗(yàn)條件下(40和50題)時(shí), 它們的PMR值都在0.95以上, 它們的RMSE值均在0.05以下。這充分說明本研究提出的模型參數(shù)估計(jì)算法可以提供穩(wěn)健、精確的估計(jì)精度。

對比基于不同類別Q矩陣的結(jié)果可以發(fā)現(xiàn), 在同樣的實(shí)驗(yàn)條件下, 與基于Cat-Q結(jié)果相比, 基于Item-Q導(dǎo)致更低的PMR值, 和更高的RMSE值。這兩種Q矩陣之間的差異尤其在短測驗(yàn)(5屬性時(shí)20題或7屬性時(shí)25題)或被試人數(shù)較少(例如500人時(shí))的條件下更加明顯, 例如, 當(dāng)屬性個(gè)數(shù)等于7, 測驗(yàn)長度為20, 被試人數(shù)為500人時(shí), 從表4可以看出, 使用Cat-Q時(shí)的PMR值大約是0.86, 而當(dāng)使用Item-Q時(shí)的PMR值大約是0.82。而從表5可以發(fā)現(xiàn), 在同樣的條件下, 使用Cat-Q時(shí)的RMSE值大約是0.04, 而使用Item-Q時(shí), 它的RMSE值則大約是0.1。這些結(jié)果都表明如果采用Item-Q來分析Cat-Q產(chǎn)生的數(shù)據(jù)確實(shí)會降低項(xiàng)目參數(shù)和被試參數(shù)的估計(jì)精度。這個(gè)結(jié)論啟發(fā)實(shí)際使用者, 在編寫多級評分的診斷題目時(shí), 對于Q矩陣的標(biāo)定, 應(yīng)盡量構(gòu)建基于得分類別的測驗(yàn)Q矩陣(即Cat-Q), 使用Cat-Q有利于提供更多的診斷信息, 從而提高診斷的精度。

表5 各種實(shí)驗(yàn)條件下的項(xiàng)目參數(shù)返真性RMSE值

5 實(shí)驗(yàn)2: 實(shí)證數(shù)據(jù)研究

5.1 研究目的

為了進(jìn)一步探討和比較GPCDM在實(shí)證數(shù)據(jù)中的效果, 比較了三個(gè)基于分部評分模型思路的多級評分認(rèn)知診斷模型, 即本文新開發(fā)的GPCDM以及國際上GDM和PC-DINA模型, 在國際數(shù)學(xué)與科學(xué)趨勢研究(Trends in International Mathematics and Science Study, TIMSS) 2007四年級數(shù)學(xué)評估測驗(yàn)數(shù)據(jù)中的表現(xiàn)。TIMSS是由國際教育成就評價(jià)協(xié)會(International Association for the Evaluation of Educational Achievement)發(fā)起的一個(gè)國際大型教育評估項(xiàng)目, 該項(xiàng)目評估的對象是全球4年級和8年級的數(shù)學(xué)與科學(xué)學(xué)業(yè)成就。TIMSS從1995年開始第一次測試, 每4年舉行一次。在2015年的TIMSS評估測驗(yàn)中, 來自世界各地的60多個(gè)國家參加了這次測試。

本文分析了TIMSS (2007)數(shù)據(jù)的一個(gè)子集, 其中包括823名學(xué)生對11個(gè)題目涉及8個(gè)屬性的數(shù)據(jù)。11個(gè)題目中, 有3個(gè)多級評分題, 8個(gè)二級評分題目, 它的Q矩陣見表7。

5.2 評價(jià)標(biāo)準(zhǔn)

評價(jià)標(biāo)準(zhǔn)包括以下3個(gè)方面:

(1) 模型和測驗(yàn)數(shù)據(jù)整體擬合度: 通過模型擬合指標(biāo): ?2倍對數(shù)似然(?2 log-likelihood values, ?2LL), Akaike的信息準(zhǔn)則(Akaike’s information criterion, AIC; Akaike, 1974), 和貝葉斯信息準(zhǔn)則(Bayesian Information Criterion, BIC; Schwarz, 1978)等來比較3個(gè)模型的擬合度。

(2) 兩類特殊被試的診斷屬性邊際概率(Marginal Probability): 兩類特殊的被試是指測驗(yàn)得0分的被試和得滿分(即14分)的被試, 一般來說, 得0分的被試意味著對所考察的屬性基本沒掌握, 而得滿分的考生應(yīng)該完全掌握了所考察的屬性, 因此, 理論上, 得0分的被試估計(jì)得到的屬性邊際概率應(yīng)該很低(接近于0), 而得滿分的被試估計(jì)得到屬性邊際概率應(yīng)該很高(接近于1)。屬性邊際概率的計(jì)算公式如下:

(3) 認(rèn)知診斷信度分析: Templin和Bradshaw (2013)提出了一種計(jì)算CDM下屬性信度(attribute reliability)的方法, 該方法可以分為以下幾步: (1)首先, 使用選定的CDM估計(jì)每個(gè)被試的屬性邊際概率; (2)根據(jù)第一步估計(jì)得到的屬性邊際概率, 構(gòu)建四格列聯(lián)表, 其中的列聯(lián)表的四個(gè)元素可以通過下列公式計(jì)算:

表7 實(shí)證數(shù)據(jù)的Q矩陣

5.3 研究結(jié)果

5.3.1 模型擬合結(jié)果

表8顯示了3個(gè)模型的相對擬合指標(biāo), 結(jié)果顯示, GDM和PC-DINA這2個(gè)模型相比而言, 在3個(gè)擬合指標(biāo)中, GDM模型的擬合更優(yōu)。而這3個(gè)模型相比而言, GPCDM在3個(gè)擬合指標(biāo)的值都是最小的, 即與GDM和PC-DINA模型相比, GPCDM是相對擬合更好的模型。

表8 模型相對擬合指標(biāo)

5.3.2 兩類特殊被試的屬性邊際概率

表9顯示了3個(gè)模型估計(jì)的兩類特殊被試的屬性邊際概率, 對于得0分被試而言, 3個(gè)模型的平均屬性邊際概率從低到高順序依次是: GPCDM、GDM和PC-DINA模型。對比3個(gè)模型的估計(jì)結(jié)果可以發(fā)現(xiàn), PC-DINA模型估計(jì)的屬性邊際概率在8個(gè)屬性上都要明顯高于GDM和GPCDM, 其中屬性A1的邊際概率達(dá)到了0.548, 平均屬性邊際概率達(dá)到了0.375, PC-DINA模型會高估這些得0分被試的屬性邊際概率。GDM模型和GPCDM估計(jì)的屬性邊際概率都比較低, 兩者的平均屬性邊際概率分別是0.093和0.001, 但就具體屬性而言, GDM模型在屬性A7的邊際概率達(dá)到了0.278, 與GPCDM的結(jié)果相比, GDM模型高估了屬性A7的邊際概率。

對于得滿分(14分)的被試而言, 3個(gè)模型的平均屬性邊際概率從高到低順序依次是: GPCDM、GDM和PC-DINA模型。PC-DINA模型只有在屬性A2、A3和A7的屬性邊際概率達(dá)到了0.9以上, 而在其余屬性的邊際概率都在0.7以下, 平均屬性邊際概率只有0.749; GDM模型和GPCDM的平均屬性邊際概率分別是0.881和0.975, 但與GPCDM相比, GDM模型在屬性A1、A6和A8的邊際概率分別是0.786、0.671和0.671, 都明顯低于GPCDM的0.984、0.998和0.998。

總體來看, 對于得0分和滿分的被試, 擬合最優(yōu)的GPCDM模型估計(jì)的結(jié)果是最合理的, 其次是GDM模型, 最后是PC-DINA模型。

5.3.3 屬性信度分析

表10顯示了3個(gè)模型擬合該實(shí)證數(shù)據(jù)時(shí)的屬性信度, 表10的最后一列表示8個(gè)屬性的平均信度。對于GDM模型而言, 屬性A8的信度指標(biāo)只有0.710, 是相對最低的, 而其余7個(gè)屬性的信度指標(biāo)都在0.8以上, 屬性信度指標(biāo)的最高的是A6屬性, 達(dá)到了0.997。對于PC-DINA模型而言, 屬性A5的信度指標(biāo)是相對最低, 只有0.507, 而屬性A3的信度指標(biāo)最高, 但也只有0.827。而GPCDM的8個(gè)屬性最低信度指標(biāo)是0.841。

表9 兩類特殊被試的屬性邊際概率

表10 每個(gè)模型下的屬性信度

總體而言, PC-DINA模型的8個(gè)屬性的信度指標(biāo)都要明顯低于GDM和GPCDM。而GDM和GPCDM相比而言, GPCDM在屬性A1、A2、A4、A7和A8的信度指標(biāo)也要高于GDM模型, 即GPCDM在5個(gè)屬性的信度要優(yōu)于GDM模型, GPCDM在剩余屬性A3、A6和A7的信度指標(biāo)和GDM非常接近。從平均屬性信度指標(biāo)來看, GPCDM的平均屬性信度是最高的, 其次是GDM模型, 最后是PC-DINA, 即GPCDM分析該實(shí)證數(shù)據(jù)的效果更優(yōu)。

6 研究結(jié)論與討論展望

6.1 研究結(jié)論

本研究開發(fā)了一種更為靈活、功能更為強(qiáng)大, 且更有理論意義和應(yīng)用價(jià)值的廣義多級評分模型, 通過模擬研究驗(yàn)證了GPCDM的參數(shù)估計(jì)精度, 最后通過一個(gè)實(shí)證數(shù)據(jù)比較了GPCDM和已有基于分部評分思路的多級評分CDMs (GDM和PC-DINA)的應(yīng)用效果, 研究結(jié)論主要有:

(1) Monte Carlo實(shí)驗(yàn)研究發(fā)現(xiàn), 本研究開發(fā)的GPCDM的屬性模式診斷正確率PMR在5屬性時(shí)都在0.9以上, 項(xiàng)目參數(shù)的RMSE平均不到0.05, 這表明GPCDM模型具有較高的參數(shù)估計(jì)精度。

(2) 當(dāng)使用Item-Q擬合Cat-Q生成的數(shù)據(jù)時(shí), 題目和被試參數(shù)的估計(jì)精度都會降低。因此, 建議研究者在構(gòu)建多級評分認(rèn)知診斷的測驗(yàn)Q矩陣時(shí), 應(yīng)盡量構(gòu)建基于得分類別的測驗(yàn)Q矩陣(即Cat-Q), 它能提供更多的診斷信息。

(3) 最后比較了GPCDM、GDM和PC-DINA模型在TIMSS (2007)數(shù)據(jù)的實(shí)際應(yīng)用效果, 結(jié)果發(fā)現(xiàn)GPCDM的模型擬合度更優(yōu), 并且GPCDM分析該數(shù)據(jù)時(shí)的效果也更好。這表明新模型在實(shí)踐應(yīng)用中具有一定的優(yōu)勢。

6.2 討論和展望

為使研究的結(jié)果不失一般性以及進(jìn)一步拓展多級評分CDMs的相關(guān)研究, 未來至少還可以在以下幾方面展開研究:

(1) 本研究假設(shè)屬性之間是相互獨(dú)立的, Q矩陣的標(biāo)定完全正確, 另外, 本研究僅采用了EAP方法來估計(jì)被試參數(shù), 并未對其他方法進(jìn)行對比研究, 這些因素都可能會影響本研究的結(jié)論。

(2) 同一份測驗(yàn)中, 不同的題目可能擬合不同的CDM, 在二級評分的數(shù)據(jù)中, de la Torre (2011)應(yīng)用Wald統(tǒng)計(jì)檢驗(yàn)的方法為每個(gè)題目選擇不同的CDM。而在多級評分?jǐn)?shù)據(jù)中, 如何為每一題選擇最適合的多級評分CDM也有待進(jìn)一步研究。

(3) 多級評分的Q矩陣可以定義在得分類別水平, 這有助于提供更多診斷信息, 但是這也會增加Q矩陣標(biāo)定的工作量。目前, 已經(jīng)有學(xué)者開發(fā)了一系列輔助Q矩陣標(biāo)定的算法, 但這些方法只局限于二級評分的模型。未來的研究可以繼續(xù)探討多級評分CDM中Q矩陣的標(biāo)定算法。

(4) 本研究開發(fā)的模型假設(shè)考生的解題策略只有一種, 但在實(shí)際應(yīng)用中, 同一道題目經(jīng)常存在不同的解題策略。如果在診斷測驗(yàn)中考慮了被試解題策略的差異, 這也有助于提供更多有價(jià)值的信息, 從而提高診斷的精度(涂冬波, 蔡艷, 戴海琦, 丁樹良, 2012)。因此, 開發(fā)多策略的多級評分CDM值得進(jìn)一步研究。

(5) 已有的CD-CAT相關(guān)研究, 幾乎都是基于二級評分的模型而展開, 事實(shí)上, 多級評分CD-CAT (Polytomous CD-CAT, PCD-CAT)在實(shí)際應(yīng)用中具有更廣闊的前景, 不僅是因?yàn)樾睦砘蚪逃u估測驗(yàn)中存在大量的多級評分?jǐn)?shù)據(jù), 更重要的是與二級評分的題目相比, 多級評分題目可以提供更多的信息, 即多級評分的CD-CAT有助于進(jìn)一步提高測驗(yàn)的效率, 未來的研究可以針對PCD-CAT的相關(guān)算法展開研究。

Akaike, H. (1974). A new look at the statistical model identification., 19, 716–723.

Cai, Y., Miao, Y., & Tu, D. B. (2016). The polytomously scored cognitive diagnosis computerized adaptive testing.(10), 1338–1346.

[蔡艷, 苗瑩, 涂冬波. (2016). 多級評分的認(rèn)知診斷計(jì)算機(jī)化適應(yīng)測驗(yàn).,(10), 1338–1346.]

de la Torre, J. (2011). The generalized DINA model framework.(2), 179–199.

de la Torre, J. (2012). Application of the DINA model framework to enhance assessment and learning.(pp. 87–103). Springer, Dordrecht.

de la Torre, J., & Minchen, N. (2014). Cognitively diagnostic assessments and the cognitive diagnosis model framework.,(2), 89–97.

Hansen, M. (2013).. Unpublished doctoral dissertation. University of California at Los Angeles.

Leighton, J. P., & Gierl, M. J. (2007). Defining and evaluating models of cognition used in educational measurement to make inferences about examinees’ thinking processes.(2), 3–16.

Ma, W., & de la Torre, J. (2016). A sequential cognitive diagnosis model for polytomous responses.,(3), 253–275.

Mellenbergh, G. J. (1995). Conceptual notes on models for discrete polytomous item responses.(1)91–100.

Samejima, F. (1969). Estimation of latent ability using a response pattern of graded scores.(S1), 1–97.

Schwarz, G. (1978). Estimating the dimension of a model.,(2), 461–464.

Templin, J. L. & Bradshaw, L. (2013). Measuring the reliability of diagnostic classification model examinee estimates.(2), 251–275.

Templin, J. L., & Henson, R. A. (2006). Measurement of psychological disorders using cognitive diagnosis models.(3), 287–305.

Tu, D. B., Cai, Y., Dai, H. Q., & Ding, S. L. (2010). A polytomous cognitive diagnosis model: P-DINA model.(10), 1011–1020.

[涂冬波, 蔡艷, 戴海琦, 丁樹良. (2010). 一種多級評分的認(rèn)知診斷模型: P-DINA 模型的開發(fā).,(10), 1011–1020.]

Tu, D. B., Cai, Y., Dai, H. Q., & Ding, S. L. (2012). A new multiple-strategies cognitive diagnosis model: The MSCD method.(11), 1547–1553.

[涂冬波, 蔡艷, 戴海琦, 丁樹良. (2012). 一種多策略認(rèn)知診斷方法: MSCD方法的開發(fā).,(11), 1547–1553.]

Tu, D., Zheng, C., Cai, Y., Gao, X., & Wang, D. (2017). A polytomous model of cognitive diagnostic assessment for graded data.,(3), 231?252.

Tutz, G. (1997). Sequential models for ordered responses.(pp. 139?152). Springer, New York, NY.

van Der Ark, L. A. (2001). Relationships and properties of polytomous item response theory models.(3), 273–282.

von Davier, M. (2008). A general diagnostic model applied to language testing data.(2), 287–307.

Development of a Generalized Cognitive Diagnosis Model for polytomous responses based on Partial Credit Model

GAO Xuliang1,2; WANG Daxun1; WANG Fang2; CAI Yan1; TU Dongbo1

(1School of Psychology Jiangxi normal university, Nanchang 330022, China) (2School of Psychology Guizhou normal university, Guiyang 550000, China)

Currently, a large number of cognitive diagnosis models (CDMs) have been proposed to satisfy the demands of the cognitively diagnostic assessment. However, most existing CDMs are only suitable for dichotomously scored items. In practice, there are lager polytomously-score items/data in educational and psychological tests. Therefore, it is very necessary to develop CDMs for polytomous data.

Under the item response theory (IRT) framework, the polytomous models can be divided into three categories: (i) the cumulative probability (or graded-response) models, (ii) continuation ratios (or sequential) models, and (iii) the adjacent-category (or partial-credit) models.

At present, several efforts have been made to develop polytomous partial-credit CDMs, including the general diagnostic model (GDM; von Davier, 2008) and the partial credit DINA (PC-DINA; de la Torre, 2012) model. However, the existing polytomous partial-credit CDMs need to be improved in the following aspects: (1) These CDMs do not consider the relationship between attributes and response categories by assuming that all response categories of an item measure the same attributes. This may result in loss of diagnostic information, because different response categories could measure different attributes; (2) More importantly, the PC-DINA is based on reduced DINA model. Therefore, the current polytomous CDMs are established under strong assumptions and do not have the advantages of general cognitive diagnosis model.

The current article proposes a general partial credit diagnostic model (GPCDM) for polytomous responses with less restrictive assumptions. Item parameters of the proposed models can be estimated using the marginal maximum likelihood estimation approach via Expectation Maximization (MMLE/EM) algorithm.

Study 1 aims to examine (1) whether the EM algorithm can accurately estimate the parameters of the proposed models, and (2) whether using item level Q-matrix (referred to as the Item-Q) to analyze data generated by category level Q-matrix (referred to as the Cat-Q) will reduce the accuracy of parameter estimation. Results showed that when using Cat-Q fitting data, the maximum RMSE was less than 0.05. When the number of attributes was equal to 5 or 7, the minimum pattern match rate (PMR) was 0.9 and 0.8, respectively. These results indicated that item and person parameters could be recovered accurately based on the proposed estimation algorithm. In addition, the results also showed that when Item-Q is used to fit the data generated by Cat-Q, the estimation accuracy of both the item and person parameters could be reduced. Therefore, it is suggested that when constructing the polytomously-scored items for cognitively diagnostic assessment, the item writer should try to identify the association between attributes and categories. In the process, more diagnostic information may be extracted, which in turn helps improve the diagnostic accuracy.

The purpose of Study 2 is to apply the proposed model to the TIMSS (2007) fourth-grade mathematics assessment test to demonstrate its application and feasibility and compare with the exiting GDM and PC-DINA model. The results showed that compared with GDM and PC-DINA models, the new model had a better model fit of test-level, higher attribute reliability and better diagnostic effect.

cognitive diagnosis; polytomous CDMs; GDM model; PC-DINA model

2019–02–12

* 國家自然科學(xué)基金(31660278, 31760288, 31960186 )資助。

汪大勛為共同第一作者。

B841

涂冬波, E-mail: tudongbo@aliyun.com。

10.3724/SP.J.1041.2019.01386