康春花 任 平 曾平飛
(浙江師范大學(xué)教師教育學(xué)院, 金華 321004)
認(rèn)知診斷評估(Cognitive Diagnostic Assessment,CDA)以認(rèn)知診斷測驗為載體, 采用合適的認(rèn)知診斷模型對學(xué)生的知識結(jié)構(gòu)進(jìn)行診斷分析。在 CDA中, 被試知識狀態(tài)分類準(zhǔn)確性的影響因素眾多, 其中最主要的是有效的認(rèn)知診斷測驗和適宜的診斷模型(Borsboom, Mellenbergh, & van Heerden, 2004)。Fu和Li (2007)總結(jié)出60多種診斷模型, 典型的如規(guī)則空間模型(Rule Space Model, RSM) (Tatsuoka,1983)、屬性層級模型(Attribute Hierarchy Model,AHM) (Leighton, Gierl, & Hunka, 2004)、DINA 模型(deterministic inputs, noisy and gate model) (De La Torre & Douglas, 2004; Junker & Sijtsma, 2001)、融合模型(Fusion Model) (Hartz, 2002)等。這些認(rèn)知診斷模型多為參數(shù)診斷模型。參數(shù)模型有其特有的優(yōu)勢, 但同時也存在一些局限性, 如參數(shù)估計過程比較復(fù)雜, 需要借助特殊軟件運用EM算法或MCMC算法等通過編程來實現(xiàn), 而MCMC算法耗時太長,EM 算法常在局部最優(yōu)值處收斂等。此外, 參數(shù)模型往往需要大樣本數(shù)據(jù), 且屬性個數(shù)又不能太多,否則就會出現(xiàn)參數(shù)估計不正確及模型不擬合等問題(Chiu & Douglas, 2013; 涂冬波, 蔡艷, 戴海琦,丁樹良, 2010)。由此, 研究者開始探索更為簡潔的非參數(shù)方法, 因為相比參數(shù)方法, 非參數(shù)方法具有受限較少、假設(shè)條件較弱、計算簡便、在專業(yè)的統(tǒng)計軟件包就能完成等優(yōu)勢。
在非參數(shù)診斷方法的研究中, Henson等人提出了屬性合分的思想(Henson, Templin, & Douglas,2007), 該思想簡明易了, 然而其獲得決斷值的過程較為復(fù)雜, 需要借助其它參數(shù)模型先獲得項目參數(shù)和被試參數(shù)信息, 未能起到非參數(shù)方法易于操作的效果。2008年, Ayers等人對屬性合分進(jìn)行標(biāo)準(zhǔn)化, 采用標(biāo)準(zhǔn)化的能力向量來描述被試對各屬性的掌握情況(Ayers, Nugent, & Dean, 2008; Nugent,Ayers, & Dean, 2009), 屬性合分標(biāo)準(zhǔn)化的思想消除了因各屬性考察次數(shù)不同而造成的屬性合分不可比問題。Chiu等人(Chiu, Douglas, & Li, 2009)也進(jìn)一步借用屬性合分的思路, 提出屬性合分的聚類分析方法, 通過模擬研究比較了基于不同初始值選取方法的 K-means聚類法和基于不同距離度量方法的系統(tǒng)聚類法(Hierarchical Agglomerative Cluster)的表現(xiàn)。此外, 其近年研究表明懲罰性漢明距離(Penalized Hamming Distance)可依據(jù)項目類型的不同, 對猜測和失誤分別設(shè)置權(quán)重, 其判準(zhǔn)率可與參數(shù)模型媲美(Chiu & Douglas, 2013)。然而, 該研究中, 由于數(shù)據(jù)模擬是通過 DINA模型產(chǎn)生, 其分類結(jié)果的好壞是以DINA模型的最大似然估計的結(jié)果為基準(zhǔn)。
非參數(shù)診斷方法已有一些研究基礎(chǔ), 然而這些方法都是基于0-1計分提出的, 不滿足結(jié)構(gòu)化反應(yīng)題采用多級計分的實踐應(yīng)用情境。2001年教育部《基礎(chǔ)教育課程改革綱要(試行)》提出:為完善考試管理制度, 考試內(nèi)容應(yīng)加強與社會實際和學(xué)生生活經(jīng)驗的聯(lián)系, 重視考察學(xué)生分析問題、解決問題的能力。為此, 在許多大型測評和考試項目中, 都出現(xiàn)了諸如作文、簡答、論述等“結(jié)構(gòu)化反應(yīng)”題, 因為這類題型更能反應(yīng)學(xué)生對知識的分析、綜合、應(yīng)用、評價等方面的能力。這種題型中, 不僅題目測量的屬性有多個, 而且評分者采用分步給分的方式來評價被試的作答(Kim, Walker, & McHale, 2010),因此被試在每個題目上的得分是連續(xù)取值的, 在這種情況下, 若仍然使用 0-1計分的診斷方法, 則會損失一部分?jǐn)?shù)據(jù)信息, 從而影響診斷和分類的效果。
針對參數(shù)診斷模型的局限性, 而非參數(shù)研究僅停留在 0-1計分階段, 為滿足目前測評與考試的實踐需求, 本文擬將聚類診斷分析這種簡單易行的非參數(shù)診斷方法拓展至多級評分, 同時探討樣本容量、失誤率及屬性層次結(jié)構(gòu)對該方法的診斷正確率的影響。研究包括4個部分:0-1計分聚類方法簡介;多級計分聚類方法的拓展; 模擬研究; 實證研究。
假設(shè)3個屬性之間相互獨立, 測驗Q陣如表1所示。若被試i在測驗的7道題目的作答反應(yīng)向量為(1,1,1,0,1,0,0), 則根據(jù)合分向量計算公式, 被試i的屬性合分W= (2,1,2)。各屬性考察的題目數(shù)量向量為(4,4,4), 因此被試i的能力向量W= (1/2, 1/4, 1/2)。
表1 含3個屬性的測驗Q陣
聚類分析就是將數(shù)據(jù)對象分成多個類, 使同類中的對象相似度最大, 不同類間的對象相異性最大。k-means算法是最常用和最典型的算法之一, 它采用距離作為相似性的評價指標(biāo), 認(rèn)為兩個對象的距離越近, 其相似度越大。k-means的優(yōu)點在于能快速的收斂及易于實現(xiàn), 其核心思想是把N個數(shù)據(jù)對象劃分為 M 個聚類, 使每個類內(nèi)的數(shù)據(jù)點到該類中心的平方和最小, 具體算法如下:
4)重復(fù)步驟2和3, 直至聚類中心不再變化。
K-means算法對中心初始值的依賴性較大, 因此初始值的選取非常重要。CDA的目的是根據(jù)被試的觀察反應(yīng)模式(Observed Response Patterns, ORP),把其劃分到相應(yīng)的理想掌握模式(Ideal Master Pattern,IMP)中。因此, 采用聚類分析對被試進(jìn)行分類與診斷時, 可根據(jù)測驗所考察的屬性層級關(guān)系, 得到所有符合邏輯的IMP, 則可將IMP對應(yīng)的能力向量作為聚類中心初始值(Ayers et al., 2008; Nugent et al.,2009)。
根據(jù)K-means算法的具體過程, 在CDA中, 其聚類分析思路如下:
1)根據(jù)屬性層次關(guān)系, 得到IMP, 計算IMP對應(yīng)的能力向量, 作為K-means聚類初始中心;
2)根據(jù)被試 ORP計算出被試能力向量(如 2.1所示), 計算被試能力向量與各聚類中心的距離,把被試分配到最近的聚類中心;
3)所有被試分配完成后, 重新計算K-means聚類中心;
4)基于過程 3)得到的聚類中心, 重新分配被試到距離最近的中心, 重復(fù)該過程直到每個被試不再重新分配為止。
基于 0-1計分聚類診斷方法的思路, 研究者將其拓展為多級計分的聚類診斷方法(Grade Response Cluster Diagnostic Method, GRCDM)。假設(shè)測驗考察了4個屬性, 用A1、A2、A3、A4表示, 其屬性層次關(guān)系為圖1所示, 由圖1得到的項目屬性關(guān)聯(lián)矩陣Q如表2所示, 則GRCDM的核心概念及分析思路如下(步驟和初始值的選取與0-1計分相同, 不再贅述)。
表2 圖1屬性層次關(guān)系對應(yīng)的Q矩陣
表3 圖1和表2對應(yīng)的IMP與IRP
表2陣中, 從第1題到第6題, 滿分分值為1、2、2、3、3、4。以第6題為例, 說明題目得分不同時, 在各屬性合分上所累加的分?jǐn)?shù), 即ρ值的計算。第6題滿分4分, 當(dāng)被試i得1分時, 屬性A1掌握概率為100%, 屬性A1的合分加1分, 即ρ = 1。當(dāng)被試得 2分時, 被試可能掌握的屬性組合是 A1A2或 A1A4, 掌握屬性A1的概率為 100%, 掌握屬性A2、A4的概率為50%, 屬性A1的合分加1分, 屬性A2、A4的合分各加0.5分。當(dāng)被試得3分時, 被試可能掌握的屬性組合是A1A2A3或A1A2A4, 掌握屬性A1的概率是100%, 掌握屬性A2的概率是100%, 掌握屬性 A3和 A4的概率分別為 50%, 則屬性A1和A2合分分別加1分, 屬性A3和A4合分分別加0.5分。當(dāng)被試得4分時, 掌握4個屬性的概率都為100%, 則 4個屬性合分分別加1分。如此, 被試在各題上的得分模式時, 各屬性的貢獻(xiàn)率ρ取見如表4所示。有了ρ值, 則根據(jù)被試的在所有題目上的反應(yīng)模式, 就可以得到被試的屬性合分向量 W, 即被試的屬性合分向量中的各元素 W為被試在所有題目中所得到的第k個屬性的ρ值總和(每道題目得不同分?jǐn)?shù)時, 第k個屬性的ρ值不同)。k上的合分,
表4 ρ值表
基于上述屬性合分向量和能力向量的計算方法, 當(dāng)未發(fā)生失誤作答時, IRP所對應(yīng)的各屬性合分W和能力值B見表5。
表5 表3所示IRP對應(yīng)的Wik和Bik
基于GRCDM, 采用K-means算法對被試進(jìn)行診斷分類, 以考察其適用性。在固定屬性個數(shù)、被試知識狀態(tài)分布的情況下, 探討屬性層次結(jié)構(gòu), 樣本容量、失誤率對判準(zhǔn)率的影響。
在知識狀態(tài)為均勻分布、屬性個數(shù)為7個的情況下, 研究包含4種屬性層次結(jié)構(gòu)(線型、收斂型、發(fā)散型、無結(jié)構(gòu)型, 見圖2)、3種樣本容量(100人、500人、2000人)、3種失誤率(5%、10%、20%)的4×3×3的交叉設(shè)計, 共36個試驗, 每個試驗重復(fù)30次以減少誤差。4種結(jié)構(gòu)下的簡化Q陣分別包含7、8、25、64題。羅歡、丁樹良、汪文義、喻曉鋒和曹慧媛(2010)認(rèn)為無結(jié)構(gòu)型64題太多, 可剔除含屬性較多的題目, 本文無結(jié)構(gòu)型選22題, 只包含測量1到3個屬性的題目。由此, 各層次結(jié)構(gòu)下的Q矩陣如表6~表9所示。
首先, 通過3.2介紹的方法得到各被試ORP所對應(yīng)的能力向量, 然后計算出IMP對應(yīng)的能力向量作為初始聚類中心, 接著按照 2.4的步驟對被試進(jìn)行聚類分析, 得到被試的知識狀態(tài)。
圖2 含7個屬性的四種屬性層次結(jié)構(gòu)
表6 Q矩陣(線型)
表7 Q矩陣(收斂型)
表8 Q矩陣(發(fā)散型)
以上模擬過程均通過matlab 7.0編程實現(xiàn)。
表9 Q矩陣(無結(jié)構(gòu)型)
表10為GRCDM在各實驗條件下的PMR和MMR均值(重復(fù)30次)。從表中可以看出, 該方法不僅具有很高的邊際判準(zhǔn)率, MMR介于0.982到1之間, 而且還具有較高的模式判準(zhǔn)率, 失誤率為5%時, 收斂型的PMR為1, 隨著失誤率的增高, 模式判準(zhǔn)率雖有下降的趨勢, 但其值仍然較高, 即使在無結(jié)構(gòu)型、樣本容量為100、失誤率為20%時, 模式判準(zhǔn)率的最低值也能達(dá)到0.815??梢? GRCDM具有較強的穩(wěn)定性與適用性。
表10 GRCDM在各實驗條件下的PMR和MMR均值
由于各條件下, MMR均值都很高, 因此, 本文更關(guān)心各條件下 PMR的變化。為探討失誤率、層次結(jié)構(gòu)、樣本容量對 PMR的影響, 采用方差分析對實驗數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn):樣本容量、失誤率和層級結(jié)構(gòu)主效應(yīng)均顯著(F(2,1044) = 53.647, p<0.001,η= 0.093; F(2,1044) = 3016, p<0.001, η= 0.852;F(3,1044) = 688.256, p<0.001,η= 0.664); 樣本容量與失誤率、樣本容量與層次結(jié)構(gòu)、失誤率與層次結(jié)構(gòu)的兩次交互效應(yīng)均顯著(F(4,1044) = 32.883,p<0.001, η=0.112; F(6,1044)= 17.477, p<0.001, η=0.091; F(6,1044) = 216.599, p<0.001, η= 0.555); 三因素的三次交互效應(yīng)也顯著(F(12,1044) = 11.38,p<0.001, η= 0.116)??梢? 三因素對PMR的影響不是獨立發(fā)生的, 而是相互關(guān)聯(lián)、交叉進(jìn)行的, 應(yīng)對三次交互效應(yīng)進(jìn)一步進(jìn)行分析, 以揭示其對PMR影響的內(nèi)部機制。
(1) 失誤率為5%和10%時, PMR不受樣本容量的影響
已有研究表明, 失誤率的增加必然導(dǎo)致診斷正確率在一定程度上的下降(田偉, 辛濤, 2012; 祝玉芳, 丁樹良, 2009), 因此, 本研究宜在失誤率的不同水平上, 分析樣本容量與層次結(jié)構(gòu)的簡單交互效應(yīng), 以探測三因素對PMR的交叉影響。
結(jié)果表明:失誤率為 5%和 10%時, 樣本容量不存在主效應(yīng)、樣本容量與層次結(jié)構(gòu)之間不存在交互效應(yīng)(F(2,348) = 2.48, p>0.05; F(6,348) = 0.30,p>0.05; F(2,348) = 1.292, p>0.05; F(6,348) = 1.747,p>0.05), 只有層次結(jié)構(gòu)主效應(yīng)顯著(F(3,348) =171.685, p<0.001, η= 0.579; F(3,348) = 281.192,p<0.001, η= 0.708)。對層次結(jié)構(gòu)的事后比較發(fā)現(xiàn):失誤率為5%時, 無結(jié)構(gòu)型和發(fā)散型的PMR均值無顯著差異, 其它各結(jié)構(gòu)均差異顯著(發(fā)散型、無結(jié)構(gòu)型>線型>收斂型); 失誤率為 10%時, 各層次結(jié)構(gòu)間的PMR均值均顯著, 且發(fā)散型>無結(jié)構(gòu)型>線型>收斂型, 結(jié)果見表11、表12。
表11 層次結(jié)構(gòu)事后多重比較 Scheffe (失誤率=5%)
表12 層次結(jié)構(gòu)事后多重比較 Scheffe (失誤率=10%)
圖3 樣本容量與層次結(jié)構(gòu)交互效應(yīng)圖
表13 Scheffe (失誤率 = 20% & n = 100)
表14 Scheffe (失誤率 = 20% & n = 2000)
表15 Scheffe (失誤率 = 20% & n = 100)
(2) 失誤率為20%時, PMR受樣本容量與層次結(jié)構(gòu)的交互影響
失誤率為20%時, 樣本容量和層次結(jié)構(gòu)的主效應(yīng)以及兩者之間的交互效應(yīng)均顯著(F(2,348) =59.553, p<0.001, η= 0.254; F(3,348) = 440.536,p<0.001, η= 0.792; F(6,348) = 19.646, p<0.001, η=0.253, 見圖 3)。
固定樣本容量對層次結(jié)構(gòu)進(jìn)行簡單簡單效應(yīng)發(fā)現(xiàn):樣本容量為100人、500人和2000人時, 層次結(jié)構(gòu)間PMR均值差異均顯著(F(3,116) = 95.320,p<0.001, η= 0.711; F(3,116) = 311.936, p<0.001, η=0.890; F(3,116) = 1177.518, p<0.001, η= 0.968),但差異方向和強度均不同(見表13~表15)。表13-15表明樣本容量為 100人時, 發(fā)散型>線型>收斂型>無結(jié)構(gòu)型; 樣本容量為500人時, 發(fā)散型>線型>收斂型和無結(jié)構(gòu)型; 樣本容量為2000人時, 發(fā)散型>線型>無結(jié)構(gòu)型>收斂型。
固定層次結(jié)構(gòu)對樣本容量進(jìn)行簡單簡單效應(yīng)發(fā)現(xiàn):線型和收斂型時, 樣本容量的簡單簡單效應(yīng)均不顯著(F(2,87) = 1.063, p>0.05; F(2,87) = 3.5,p>0.05), 而在發(fā)散型和無結(jié)構(gòu)型時, 樣本容量的簡單簡單效應(yīng)均顯著(F(2,87) = 13.176, p<0.001, η=0.232; F(2,87) = 68.103, p<0.001, η= 0.610), 且均為2000人、500人>100人, 但2000人和500人之間差異并不顯著, 見表16~表19。
表16 Scheffe (失誤率 = 20% & 層次結(jié)構(gòu)=線型)
表17 Scheffe (失誤率 = 20% & 層次結(jié)構(gòu)=發(fā)散型)
表18 Scheffe (失誤率 = 20% & 層次結(jié)構(gòu)=收斂型)
表19 Scheffe (失誤率 = 20% & 層次結(jié)構(gòu)=無結(jié)構(gòu)型)
為驗證GRCDM在實踐中的效能, 采用GRCDM對小學(xué)行程問題解決的認(rèn)知診斷數(shù)據(jù)進(jìn)行分析(康春花, 2011), 考察其在實踐中的適用性。
數(shù)據(jù)來源于康春花(2011)的小學(xué)應(yīng)用題認(rèn)知診斷評估數(shù)據(jù), 為 1240名學(xué)生(好、中、差學(xué)校人數(shù)各為135、853 和252 人)在17道題上的原始得分。測驗考察了8個認(rèn)知屬性:基本算術(shù)運算(A1)、基本圖式(A2)、多步運算和等級復(fù)雜性(A3)、復(fù)雜圖式(A4)、識別隱含條件(A5)、關(guān)系表征(A6)、圖式表征(A7)、項目代數(shù)性(A8)。8個屬性的層級關(guān)系及測驗Q矩陣見圖4和表20(康春花, 辛濤, 田偉, 2013)。
圖4 8屬性的層次關(guān)系
表20 Q矩陣
GRCDM在實證研究中的思路為:(1)根據(jù)圖4屬性層次結(jié)構(gòu), 可得到39種IMP; (2)依據(jù)3.1所示得到IMP對應(yīng)的IRP; (3)根據(jù)3.2.1所示求得不同得分模式下各屬性對合分的貢獻(xiàn)值ρ, 從而得到IRP對應(yīng)的能力向量; (4)依據(jù)1240名被試在17道題上的ORP, 按 3.2所示, 得到他們的能力向量; (6)以 39種 IMP所對應(yīng)的能力向量為初始聚類中心, 對1240名被試的原始能力向量進(jìn)行聚類, 把他們歸類到39種IMP中。
程序與軟件:matlab 7.0自編程序?qū)崿F(xiàn)聚類分析與診斷; SPSS 19.0和EXCEL 2007實現(xiàn)效度驗證分析。
表21 歸類結(jié)果
GRCDM對1240名被試的分類結(jié)果見表21:該方法把1240名被試分到39種掌握模式中的37種,有兩個模式(3和8)為空, 相比多級規(guī)則空間的分類結(jié)果(該結(jié)果有8個模式為空) (康春花, 2011), 更加均勻。
基于表7的結(jié)果, 可得到各屬性的掌握人數(shù)百分比(見表22)。在兩個先決條件屬性A1、A2上, 被試表現(xiàn)很好, 隨著復(fù)雜行程問題的出現(xiàn), 在完成復(fù)雜任務(wù)的基本條件A1、A2、A3、A4中, 其錯誤主要出現(xiàn)在 A4上。此外, 被試的認(rèn)知錯誤主要以認(rèn)知過程屬性為主, 如 A5、A7和 A8出現(xiàn)的錯誤較多。各屬性的難度趨勢與各屬性的性質(zhì)是相匹配的,從易到難依次為程序性知識屬性、陳述性知識屬性、認(rèn)知技能或策略屬性。可見, 該方法在實證中也有較好的分類效果。
表22 各屬性掌握人數(shù)百分比(%)
按康春花等人(2013)的研究, 學(xué)校類型(好、中、差)可以作為一個外部客觀標(biāo)準(zhǔn), 用來分析診斷評估的外部效度。由于被試在單個屬性上的通過百分比, 可看作是屬性通過率, 如果把這些比率看作是各屬性得分的均值, 則可利用方差分析對學(xué)校類型差異進(jìn)行檢驗。本研究中, 各學(xué)校類型在各屬性上的屬性通過率及其差異見圖5。
圖5 好、中、差學(xué)校在各屬性上的掌握人數(shù)百分比
方差分析發(fā)現(xiàn), A1-A8的屬性通過率均存在學(xué)校類型主效應(yīng)(F(2,1237) = 26.554, p<0.001, η= 0.041;F(2,1237) = 28.268, p<0.001, η= 0.044; F(2,1237) =48.504, p<0.001, η= 0.073; F(2,1237) = 65.604,p<0.001, η= 0.096; F(2,1237) = 18.049, p<0.001, η=0.028; F(2,1237) = 30.227, p<0.001, η= 0.047;F(2,1237) = 52.772, p<0.001, η= 0.079; F(2,1237) =4.83, p<0.001, η= 0.008), 并且, 除了在 A8 上, 好、中>差外, 其余均為好>中>差, 但差異強度有所不同, 這可以從圖5很直觀的看出。在較易和較難的屬性上(A1、A2和A8), 差異程度較低, 而在其它5個屬性上, 差異程度有所增加, 并且表現(xiàn)在好學(xué)校與中等學(xué)校差異程度擴大, 而中等學(xué)校與差學(xué)校雖有差異, 其差異程度相對較小。
在統(tǒng)計學(xué)中, 相比參數(shù)方法, 非參數(shù)方法具有假設(shè)條件少、不受限于樣本容量、計算簡便、更具穩(wěn)健性且適用面廣等優(yōu)勢(胡竹菁, 2010)。本研究所得結(jié)果可為CDA方法選擇和實踐應(yīng)用提供參考和建議。
GRCDM 充分利用了連續(xù)得分的數(shù)據(jù)信息, 操作簡單, 便于理解、只需屬性層次關(guān)系和Q矩陣、無需估計參數(shù)、對樣本容量無依賴、耗時短、且具有較好的穩(wěn)健性。模擬研究表明, 在每種試驗條件下(共36種), 重復(fù)30次試驗的平均PMR和MMR值均很高(PMR:95.35%; MMR:99%)。為進(jìn)一步說明GRCDM的穩(wěn)定性和適用性, 加入與前人研究相同條件下的比較(田偉和祝玉芳等人對等級反應(yīng)模型的規(guī)則空間方法和AHM方法(包括A方法、B方法、LL方法)) (田偉, 辛濤, 2012; 祝玉芳, 丁樹良, 2009)。考慮到篇幅限制, 挑選線型條件來做比較(因在本研究中, 線型結(jié)構(gòu)下的判準(zhǔn)率較其他結(jié)構(gòu)低, 而前人研究是線型條件下判準(zhǔn)率更高)。與前人實驗條件相同:被試總分服從正態(tài)分布、人數(shù)為5000、屬性層次結(jié)構(gòu)為線型(7題)、失誤率分別為2%、5%、10%、15%, 各實驗條件重復(fù) 30次, 結(jié)果見表23。
從表 23可以看出, 在與前人條件完全相同的情況下, 該方法的判準(zhǔn)率表現(xiàn)出一定的優(yōu)勢, 尤其是在失誤率增大的情況下, 該方法的模式判準(zhǔn)率表現(xiàn)出了更好的穩(wěn)定性, 然而其思路和方法卻比前人方法簡單, 因此該方法具有較強的適用性與穩(wěn)定性,能夠滿足當(dāng)前測驗改革的實踐情境, 實現(xiàn)對被試知識狀態(tài)的準(zhǔn)確分類與診斷。
表23 GRCDM與前人方法的比較
以往研究發(fā)現(xiàn), 被試容量和題目容量對 PMR的影響較大, 研究者比較了這兩者對五大認(rèn)知模型判準(zhǔn)率的影響, 結(jié)果表明在100人/20題時, PMR值最高為 94.14%, 多數(shù)為73%左右, 最低才 34.75%,隨著被試容量或題目容量的增加, 如在 100人/100題時或5000人/60題時, PMR得到明顯改善(蔡艷,涂冬波, 丁樹良, 2013)。因此, 要提高判準(zhǔn)率, 要么增大被試容量, 要么增大題目容量。然而, 本研究中的被試容量最大為2000、其次為500和100, 題目容量最多為25題, 模擬研究發(fā)現(xiàn), 失誤率為5%和 10%時, 樣本容量不存在主效應(yīng), 且與其它因素也不存在交互效應(yīng), 這表明樣本容量的大小不會導(dǎo)致判準(zhǔn)率的差異, 此時, 即使是100人, PMR和MMR在各層次結(jié)構(gòu)中的最低值都達(dá) 94.9%。另外, 當(dāng)失誤率為 20%時, 也僅發(fā)散型和無結(jié)構(gòu)型下, 表現(xiàn)為2000人、500人的PMR值顯著高于100人, 其增幅最多也僅為7.82%, 500人與2000人差異并不顯著。可見, 該方法具有不依賴樣本容量的優(yōu)勢, 100人與500人的樣本容量就能達(dá)到很高的判準(zhǔn)率, 這為CDA走向小型測驗及課堂評估奠定了一定的基礎(chǔ)。
以往研究表明, 層次結(jié)構(gòu)對判準(zhǔn)率影響較大,屬性間邏輯關(guān)系越緊密, 判準(zhǔn)率越高; 屬性間邏輯關(guān)系越松散, 判準(zhǔn)率偏低(蔡艷等, 2013; 田偉, 辛濤, 2012)。本研究中, 屬性層次關(guān)系及其與樣本容量的交互作用對 PMR會產(chǎn)生影響, 但其影響的方向和強度不同。模擬研究發(fā)現(xiàn), GRCDM在各層次關(guān)系下的MMR和PMR均很高(發(fā)散型、線型、無結(jié)構(gòu)型、收斂型的 PMR依次為:99%、94.55%、94.54%、93.33%)。當(dāng)考慮失誤率和樣本容量時, 在5%和 10%失誤率時, 發(fā)散型和無結(jié)構(gòu)型(5%:99.98%、99.65%; 10%:99.76%、97.85%)下的PMR雖顯著高于線型和收斂型(5%:97.96%、97.4%;10%:95.76%、94.74%), 但差異量最多僅為5.02%,且與樣本容量無關(guān); 當(dāng)失誤率增加到 20%時, 各樣本容量下均為發(fā)散型表現(xiàn)最優(yōu)(96.2%、97.35%、97.8%), 在小樣本容量(100人和500人)時, 無結(jié)構(gòu)型稍差(81.47%、87.70%)。由此可見, GRCDM在各層次結(jié)構(gòu)下具有較好的穩(wěn)健性, 在失誤率不高的情況下, 尤其適用于發(fā)散型和無結(jié)構(gòu)型, 且不受樣本容量影響; 隨著失誤率的增加, 若樣本容量能保持在500人以上, 該方法依然能保持較好的穩(wěn)健性。
為考察GRCDM在實踐中的適用性, 本研究對1240名學(xué)生在行程問題上的表現(xiàn)進(jìn)行了評估。研究發(fā)現(xiàn), 學(xué)生在 8個屬性上的掌握比例較高的是 A1和A2, 居中的是A3、A6, 相對較低的是A4、A5、A7、A8。在這些屬性中, A1、A2、A3測量的是基本計算、基本概念及多步運算, 作為高年級小學(xué)生理應(yīng)較好的掌握; A5、A7和 A8為認(rèn)知過程屬性,屬于認(rèn)知技能, 本來難度就相對較大; A4雖為知識內(nèi)容屬性, 但掌握 A4需以掌握較多屬性為前提,因此難度也較大??梢? GRCDM 所得各屬性的難度趨勢與屬性性質(zhì)、屬性層次關(guān)系是相匹配的, 該方法具有較好的內(nèi)部效度。利用學(xué)校類型作為外部校標(biāo), 對好中差學(xué)校學(xué)生的屬性通過率進(jìn)行差異分析表明該方法具有較好的外部效度。當(dāng)然, 后續(xù)研究還需通過多種方式收集外部效度證據(jù)。
本研究雖然得到了一些有意義的結(jié)果, 但仍有地方需進(jìn)一步完善。首先, 模擬研究中所得結(jié)果是在知識狀態(tài)為均勻分布時產(chǎn)生的, 盡管聚類分析法對原始數(shù)據(jù)的分布形態(tài)不作要求, 但被試知識狀態(tài)的分布會不會影響其判準(zhǔn)率, 需進(jìn)一步探討; 其次,在計算屬性合分時, 基于被試在每道題上的得分推測其各屬性的得分, 是采用屬性等權(quán)重的思想, 即有可能是A2或A4得分時, 各取0.50, 而實際上屬性難度會有不同, 如何基于屬性的先驗信息, 賦予不同屬性不同權(quán)重, 是后續(xù)關(guān)于屬性合分研究應(yīng)考慮的問題; 最后, 后續(xù)還應(yīng)關(guān)注GRCDM與其它參數(shù)或非參數(shù)方法的直接比較, 進(jìn)一步考證其在診斷分類中的優(yōu)越性, 以獲得更為直接可靠的結(jié)論。
本文通過模擬和實證研究探討了 GRCDM 在CDA中的適用性, 得到以下結(jié)論:(1)該方法在 36種試驗條件下均表現(xiàn)出較高的PMR和MMR;(2)該方法對樣本容量依賴小, 可以適用于小型測評和課堂評估; (3)該方法在各屬性層次結(jié)構(gòu)下, 其判準(zhǔn)率均較高, 特別是在發(fā)散型和無結(jié)構(gòu)型下, 也能達(dá)到很高水平, 這為解決判準(zhǔn)率受層次結(jié)構(gòu)緊密度影響的困境找到了一個突破口; (4)GRCDM在實踐情境中也同樣表現(xiàn)出較好的內(nèi)外部效度。
Ayers, E., Nugent, R., & Dean, N. (2008, June). Skill set profile clustering based on student capability vectors computed from online tutoring data. In R. S. J. d. Baker, T.Barnes, & J. E. Beck (Eds.), Educational data mining 2008:Proceedings of the 1st International Conference on Educational Data Mining (pp. 210–217). Retrieved from http://www.educationaldatamining.org/EDM2008/.
Borsboom, D., Mellenbergh, G. J., & van Heerden, J. (2004). The concept of validity. Psychological Review, 111(4), 1061–1071.
Cai, Y., Tu, D. B., & Ding, S. L. (2013). A simulation study to compare five cognitive diagnostic models. Acta Psychologica Sinica, 45(11), 1295–1304.
[蔡艷, 涂冬波, 丁樹良. (2013). 五大認(rèn)知診斷模型的診斷正確率比較及其影響因素: 基于分布形態(tài), 屬性數(shù)及樣本容量的比較. 心理學(xué)報, 45(11), 1295–1304.]
Chiu, C.-Y., & Douglas, J. (2013). A nonparametric approach to cognitive diagnosis by proximity to ideal response patterns. Journal of Classification, 30(2), 225–250.
Chiu, C.-Y., Douglas, J. A., & Li, X. D. (2009). Cluster analysis for cognitive diagnosis: Theory and applications.Psychometrika, 74(4), 633–665.
De La Torre, J., & Douglas, J. A. (2004). Higher-order latent trait models for cognitive diagnosis. Psychometrika, 69(3),333–353.
Fu, J., & Li, Y. (2007). Cognitively diagnostic psychometric models: An integrative review. Paper presented at the annual meeting of the National Council on Measurement in Education, Chicago, IL.
Hartz, S. M. (2002). A Bayesian framework for the unified model for assessing cognitive abilities: Blending theory with practicality. 63, ProQuest Information & Learning, US.Retrieved from http://search.ebscohost.com/login.aspx?direct=true&db=ps yh&AN=2002-95016-234&lang=zh-cn&site=ehost-live Available from EBSCOhost psyh database.
Henson, R., Templin, J., & Douglas, J. (2007). Using efficient model based Sum-scores for conducting skills diagnoses.Journal of Educational Measurement, 44(4), 361–376.
Hu, Z. J. (Ed.). (2010). Psychological statistics. Beijing, China:Higher Education Press.
[胡竹菁. (2010). 心理統(tǒng)計學(xué). 北京: 高等教育出版社.]
Junker, B. W., & Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric item response theory. Applied Psychological Measurement, 25(3), 258–272.
Kang, C. H. (2011). Cognitive diagnostic assessment on primary school students' arithmetic word problem solving (Unpublished doctorial dissertation). Beijing Normal University.
[康春花. (2011). 小學(xué)數(shù)學(xué)應(yīng)用題問題解決的認(rèn)知診斷研究(博士學(xué)位論文). 北京師范大學(xué).]
Kang, C. H., Xin, T., & Tian, W. (2013). Development and validation of diagnostic test for primary school arithmetic word problems. Examinations Research, (6), 24–43.
[康春花, 辛濤, 田偉. (2013). 小學(xué)數(shù)學(xué)應(yīng)用題認(rèn)知診斷測驗編制及效度驗證. 考試研究, (6), 24–43.]
Kim, S., Walker, M. E., & McHale, F. (2010). Investigating the effectiveness of equating designs for constructed-response tests in large-scale assessments. Journal of Educational Measurement, 47(2), 186–201.
Leighton, J. P., Gierl, M. J., & Hunka, S. M. (2004). The attribute hierarchy method for cognitive assessment: A variation on Tatsuoka's Rule-space approach. Journal of Educational Measurement, 41(3), 205–237.
Luo, H., Ding, S. L., Wang, W. Y., Yu, X. F., & Cao, H. Y.(2010). Attribute hierarchy method based on graded response model with different scoring-weight for attributes.Acta Psychologica Sinica, 42(4), 528–538.
[羅歡, 丁樹良, 汪文義, 喻曉鋒, 曹慧媛. (2010). 屬性不等權(quán)重的多級評分屬性層級方法. 心理學(xué)報, 42(4), 528–538.]
Nugent, R., Ayers, E., & Dean, N. (2009, July). Conditional subspace clustering of skill mastery: Identifying skills that separate students. In T. Barnes, M. Desmarais, C. Romero,& S. Ventura (Eds.), Educational Data Mining 2009:Proceedings of the 2nd International Conference on Educational Data Mining (pp. 101–110). Retrieved from http://www.educationaldatamining.org/EDM2009/.
Tatsuoka, K. K. (1983). Rule space: An approach for dealing with misconceptions based on item response theory.Journal of Educational Measurement, 20(4), 345–354.
Tian, W., & Xin, T. (2012). A polytomous extension of rule space method based on graded response model. Acta Psychologica Sinica, 44(1), 249–262.[田偉, 辛濤. (2012). 基于等級反應(yīng)模型的規(guī)則空間方法.心理學(xué)報, 44(1), 249–262.]
Tu, D. B., Cai, Y., Dai, H. Q., & Ding, S. L. (2010). A polytomous cognitive diagnosis model: P- DINA model.Acta Psychologica Sinica, 42(10), 1011–1020.
[涂冬波, 蔡艷, 戴海琦, 丁樹良. (2010). 一種多級評分的認(rèn)知診斷模型: P-DINA 模型的開發(fā). 心理學(xué)報, 42(10),1011–1020.]
Zhu, Y. F., & Ding, S. L. (2009). A polytomous extension of attribute hierarchy method based on graded response model.Acta Psychologica Sinica, 41(3), 267–275.
[祝玉芳, 丁樹良. (2009). 基于等級反應(yīng)模型的屬性層級方法. 心理學(xué)報, 41(3), 267–275.]