• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于項目擬合統(tǒng)計量RMSEA的Q矩陣估計方法

      2020-02-14 05:57:35楊亞坤朱仕浩劉芯伶
      心理技術與應用 2020年1期

      楊亞坤 朱仕浩 劉芯伶

      摘 要 Q矩陣在認知診斷評估中至關重要,Q矩陣可以由相關領域的專家界定,也可以根據(jù)學生的作答數(shù)據(jù)進行估計。在已有Q矩陣修正方法的基礎上,研究提出了基于項目擬合統(tǒng)計量RMSEA的Q矩陣估計方法,通過模擬和實證研究驗證了該方法的可行性、有效性及效率。結果表明:(1)基于RMSEA的CSE算法可以有效地估計新題的屬性向量,且耗時較少;(2)對Q矩陣估計的成功率受屬性數(shù)目和基礎題個數(shù)影響甚大,尤其是當屬性數(shù)目較多時,要求有較多的基礎題個數(shù);(3)該統(tǒng)計量對被試數(shù)量要求不高,即使被試人數(shù)為400人,只要基礎題個數(shù)足夠多,估計效果依然較好;(4)該方法應用于實證數(shù)據(jù)的分析,可以一定程度地優(yōu)化已有的分析結果,提高模型-數(shù)據(jù)的擬合性。

      關鍵詞 認知診斷;Q矩陣估計;項目擬合統(tǒng)計量;DINA模型

      分類號 B841.2

      DOI: 10.16842/j.cnki.issn2095-5588.2020.01.007

      1 引言

      在認知診斷評估(Cognitive Diagnostic Assessment, CDA)中,Q矩陣表征了題目與認知屬性之間的關聯(lián),是認知診斷測驗編制的藍圖。Q矩陣直接關系著診斷測驗的質(zhì)量,并最終影響著診斷分類的精確性(涂冬波, 蔡艷, 戴海琦, 2012; Chiu, 2013; de la Torre, 2008; de la Torre & Chiu, 2010; Kunina-Habenicht,Rupp & Wilhelm,2012; Rupp & Templin, 2008)。

      在CDA實踐中,可以通過采用多種方法,如文獻分析、學生口語報告法和領域?qū)<遗袛嗟却_定測驗的Q矩陣,然而,這些方法都或多或少具有一定的主觀性。如,對于分數(shù)減法的屬性界定至今仍存在很多的爭議性(de la Torre, 2008; DeCarlo, 2011, 2012)。因此,研究者提出直接從學生作答數(shù)據(jù)中估計測驗Q矩陣。DeCarlo(2012)基于DINA模型(Junker, & Sijtsma, 2001),提出可以使用貝葉斯方法直接估計Q矩陣中不確定的元素。貝葉斯方法在一定程度上克服了主觀性,但需要事先知道Q矩陣中哪些元素或項目是不確定的。Liu,Xu和Ying(2012)嘗試通過最小化S統(tǒng)計量直接從作答數(shù)據(jù)估計出Q矩陣,并證明了估計的Q矩陣收斂于真實Q矩陣。但此方法在計算題目數(shù)和屬性個數(shù)時,計算量巨大且耗時。喻曉鋒等人(2015)直接從模型—數(shù)據(jù)擬合的角度,構建并使用似然比D2統(tǒng)計量,在搜索算法的基礎上,通過一定數(shù)量的基礎題(即屬性考核模式已知的項目),使用LROE(Likelihood Ratio Online Estimation)算法,來定義題目考核模式,進而估計Q矩陣。模擬研究顯示,該方法可以較好地用于在線項目估計,在執(zhí)行效率上也較Liu,Xu和Ying(2012, 2013)的S統(tǒng)計量更高。根據(jù)模型—數(shù)據(jù)擬合的思路,汪大勛,高旭亮,蔡艷,涂冬波(2018)和汪大勛,高旭亮, 韓雨婷,涂冬波(2018)分別通過重現(xiàn)建構屬性一致性指標(hierarchy consistency index; HCI)和RSS(residual sum of squares)指標,提出了兩種非參數(shù)的Q矩陣估計方法,即ICC-IR(ICC based on ideal response)法和基于海明距離的 Q 矩陣估計方法。非參數(shù)估計方法操作簡單,但不能獲取題目的相關參數(shù),不能進行項目質(zhì)量的評估與擬合檢驗等。且與喻曉鋒等(2015)方法相似,ICC-IR法和基于海明距離的 Q 矩陣估計方法通過搜索算法使得項目對應的指標或統(tǒng)計量最大/最小,實現(xiàn)對Q矩陣的估計,相比Liu等(2012,2013)的S統(tǒng)計量方法更簡單明了,便于操作,但由于沒有明確的擬合范圍,在修正階段需要對Q矩陣中的題目進行逐個修正,直至收斂。如果初步估計的Q矩陣正確題目較多,就會浪費時間,如果正確的題目較少,錯誤的題目可能會影響統(tǒng)計量的準確性,進而把正確的題目重新估計錯誤。

      一個好的用于Q矩陣估計的擬合統(tǒng)計量,應該簡單高效且有確定的擬合范圍。 von Davier(2005)提出了一個可以用于認知診斷的項目擬合統(tǒng)計量近似誤差均方根(Root Mean Square Error of Approximation, RMSEA)。Kunina-Habenicht, Rupp和Wilhelm(2009,2012)通過模擬和實證研究,將該統(tǒng)計量作為評估認知診斷測驗中項目質(zhì)量擬合好壞的指標,并給出了擬合范圍:RMSEA小于0.05為擬合很好;介于0.05~0.1為中度擬合;大于0.1為不擬合。Kang, Yang和Zeng (2019)進一步將該統(tǒng)計量應用于Q矩陣的修正中,并從數(shù)理上證明了該統(tǒng)計量的合理性,模擬研究表明,該統(tǒng)計量可以找出Q矩陣的不擬合項目并進行修正。然而, Kunina-Habenicht等(2009, 2012)和Kang等(2019)使用RMSEA探測不擬合項目或進行Q矩陣修正,但并沒有進一步使用RMSEA對Q矩陣進行估計。借鑒喻曉鋒等(2015)LROE算法的思路,使用項目擬合統(tǒng)計量RMSEA對Q矩陣進行估計,在修正階段就可以利用其擬合范圍找到不擬合項目,然后僅對不擬合項目中的項目進行修正,應該能在一定程度上節(jié)省搜索時間,提高修正效率。為此,本文擬提出一種基于RMSEA的Q矩陣估計方法,并通過模擬研究驗證其估計效果。研究包括:(1)基于RMSEA的Q矩陣修正算法; (2)算法的有效性及效率; (3)討論與結論。

      2 基于RMSEA的Q矩陣修正算法

      2.1 DINA模型

      本研究使用DINA模型來考察該統(tǒng)計量作為Q矩陣估計的擬合統(tǒng)計量,DINA模型易于解釋且簡潔,具有擴展到更復雜認知診斷模型的潛力(de la Torre,2009;Park & Lee,2014)。并且DINA模型常被用于Q矩陣估計和修正方法的研究中(涂冬波,蔡艷,戴海崎,2012; 汪大勛,高旭亮等,2018;喻曉鋒等,2015; DeCarlo, 2012; de la Torre,2008)。

      2.2 最小統(tǒng)計量算法

      Chiu(2013)基于非參數(shù)分類方法,提出通過計算項目的RSS值來為可能存在錯誤的項目進行重新定義。對于項目j,如果屬性考察個數(shù)k已知,那么該項目的可能屬性向量就可以知道。比如,基于DINA模型,不考慮屬性之間的層級關系,對于任何項目,其可能的屬性向量均為2k-1種?;诜菂?shù)方法,計算項目j在不同屬性向量下的RSS值,找到使得RSS值最小所對應的那個屬性向量,并把其作為項目j新的屬性向量。類似的,喻曉鋒等(2015)、汪大勛等(2018)在一定數(shù)量的基礎題上,采用“增量”的方式,即每次只考慮一個項目,通過計算項目的似然比統(tǒng)計量D2,利用LROE算法,尋找每個項目j在不同屬性向量下的最小D2對應的屬性向量,對項目進行逐個估計,進而估計Q矩陣。為便于表述,本文將這種通過尋找統(tǒng)計量最小值對應的項目屬性向量來對項目進行重新定義的方法,稱為最小統(tǒng)計量算法。

      最小統(tǒng)計量算法通過每次估計一個項目,來對Q矩陣進行定義或修正,一般包括兩個階段:估計階段和校正階段。在估計階段,利用不同的估計方法,如非參數(shù)分類方法或EM算法,估計獲得被試的屬性掌握模式或項目參數(shù),計算不同屬性向量對應的項目統(tǒng)計量值,并把項目重新定義為統(tǒng)計量值最小時對應的屬性向量。在校正階段,對所有項目逐個進行估計,直至達到某個收斂標準(汪大勛等,2018;喻曉鋒等,2015)。

      2.3 基于RMSEA的最小統(tǒng)計量算法

      本文借鑒前人研究的思路,介紹基于最小RMSEA的Q矩陣修正算法,因RMSEA為基于卡方的統(tǒng)計量,為方便介紹,將基于RMSEA的算法命名為CSE(Chi Square Estimation)算法。假設已有少量屬性向量正確的項目,稱為基礎題,記為Qbase;屬性未知的項目稱為新題,記為Qnew。CSE算法的具體步驟如下:

      第一步,估計階段:

      (1)從需要定義的新題Qnew中選取一個,為qnew,將其加到Qbase中;同時把受測者在qnew上的作答數(shù)據(jù)也加到Qbase的作答數(shù)據(jù)中。

      (2)為qnew選擇可能的屬性向量,根據(jù)選擇的屬性向量組成的新Q矩陣和作答數(shù)據(jù)(Qbase和qnew組合而成),使用EM算法(de la Torre,2009)進行參數(shù)估計。

      (3)計算每種可能的屬性向量下,qnew的項目擬合統(tǒng)計量RMSEAqj,選擇項目擬合統(tǒng)計量RMSEAqj最小時,qnew對應的屬性向量為其題目屬性向量,把該題納入Qbase,記作Qbase2

      (4)把qnew從Qnew中忽略,即Qnew2=Qnew\(qnew)。

      (5)把Qbase2和Qnew2分別賦值給Qbase和Qnew,重復1~4,直至所有新題估計完成,得到估計后的Q矩陣,記為Q0。

      第二步,校正階段:

      (1)以所有作答數(shù)據(jù)(即Qnew和Qbase上的作答數(shù)據(jù))和Q0矩陣進行參數(shù)估計,計算每題的項目擬合統(tǒng)計量RMSEAj。

      (2)找出其中項目擬合統(tǒng)計量RMSEAj大于0.05的項目。

      (3)計算每種項目屬性向量下,項目j的項目擬合統(tǒng)計量RMSEAj,并把項目擬合統(tǒng)計量RMSEAj最小時對應的項目屬性向量更新為項目j的屬性向量。直至所有項目擬合統(tǒng)計量RMSEAj大于0.05的項目都進行了校正。

      (4)算法結束,此時所得Q矩陣作為最終估計值。

      已有的研究使用最小統(tǒng)計量算法對Q矩陣的項目逐個進行估計,實現(xiàn)對屬性向量未知項目的定義。但是,初步估計得到Q矩陣仍可能存在錯誤,需反復逐個項目校正直至達到某個收斂標準。這種沒有針對性的校正耗費時間,且可能出現(xiàn)不收斂的情況。CSE算法使用RMSEA的擬合范圍,只對擬合不好的項目進行重新估計,可以大大縮減算法執(zhí)行時間,提高修正效率。

      3 模擬研究:CSE算法的有效性及效率3.1 研究目的

      為了研究最小RMSEA算法對Q矩陣估計的有效性和效率,即使用一定數(shù)量的基礎題,逐個加入新題,利用CSE算法對新題進行估計。從屬性個數(shù)、基礎題個數(shù)和被試人數(shù)等3個方面考察CSE算法的穩(wěn)健性。

      3.2 研究方法

      3.2.1 研究設計

      在被試的屬性掌握模式為均勻分布的情況下,研究為包含3種屬性個數(shù)(K=3,4,5),4種被試人數(shù)(N=400,500,800,1000),5種基礎題個數(shù)(J=8,9,10,11,12)的3×4×5的交叉設計,共60種條件。包含20個題目的Q矩陣真值(喻曉鋒等,2015; Li ,Xu & Ying, 2012),見圖1。其考察的屬性個數(shù)遞增,分別為3、4、5,記為Q1、Q2、Q3。

      3.2.2 數(shù)據(jù)模擬

      DINA模型下,當屬性考察個數(shù)為K時,被試屬性掌握模式為2k種;將被試按均勻分布分配到各屬性掌握模式中,使每種屬性掌握模式上的人數(shù)大致相等。然后使用公式1,分別得到被試在Q1、Q2、Q3上的理想反應模式(Ideal Response Pattern, IRP);生成題目參數(shù)s和g,在區(qū)間[ 0.05,0.25 ]隨機產(chǎn)生且服從均勻分布(喻曉鋒等,2015)。根據(jù)IRP使用公式2,計算被試在Q1、Q2、Q3上的正確作答概率,并將其與均勻分布U(0,1)的隨機數(shù)比較,當正確作答概率大于隨機數(shù),則被試作答正確,否則作答錯誤。

      每種條件模擬100批數(shù)據(jù),從中隨機抽取不同個數(shù)的基礎題及其對應的屬性向量作為初始Q矩陣,這樣每種基礎題個數(shù)下都有100個初始Q矩陣。

      3.2.3 參數(shù)估計與數(shù)據(jù)分析

      以初始Q矩陣和對應的被試作答數(shù)據(jù)作為估計算法的出發(fā)點,使用CSE算法的第一步,逐個將新題加入到基礎題中進行估計,直至所有新題估計完成。使用CSE算法第二步進行校正,確定最終Q矩陣。

      3.2.4 評價指標

      對于不同基礎題個數(shù),計算CSE算法在100個初始Q矩陣下的估計成功率(估計得到的Q矩陣與原始Q矩陣的相同率),以此作為算法的評價指標(汪大勛等,2018;喻曉鋒等,2015; Liu,Xu & Ying,2012)。3.3 研究結果

      3.3.1 CSE算法具有較高的估計成功率

      表1是各條件下CSE算法的估計結果。從表1可以看出,CSE算法的成功率分布范圍為25%~100%,除了Q3時8,9,10個基礎題下的成功率較低外,其他各條件下的成功率均較高。縱觀60個條件下的成功率(每條件下均為重復100次的均值),可以發(fā)現(xiàn):在14個條件下,其成功率為100%(見加黑的數(shù)字),成功率在90%~99%的有18個條件,在80%~90%的有8個條件。由此,60種實驗條件下,成功率在80%以上的有40個。此外,成功率在60%以下的有10個條件,為屬性個數(shù)較多基礎題又較少的各個條件(見表1斜體數(shù)字)。

      3.3.2 成功率受樣本容量的影響相對較小

      結合表1和圖2、圖3、圖4可以看出,相對屬性數(shù)目(Q矩陣)和基礎題個數(shù),CSE算法估計成功率受樣本容量影響甚微。在Q1條件下,5種基礎題個數(shù)下的成功率在樣本容量上的變量最大只有2%(基礎題9時, 樣本容量400~800變化時的98%~100%), 多數(shù)條件下成功率基本不變; 在Q2和Q3條件下, 成功率隨樣本容量的變化稍微大點,但一般情況下也只變化5、6個百分點,最大也只變化了15個百分點,為Q2條件下8基礎題時,樣本容量500~1000時的63%~78%。因此,在屬性數(shù)目較少時,樣本容量基本不影響CSE算法的估計成功率,但隨著屬性數(shù)目的增多,樣本容量也不宜太小。

      3.3.3 成功率受屬性數(shù)目和基礎題個數(shù)影響顯著 ?從表1中的平均估計成功率,結合圖2、圖3、圖4縱坐標的截距點和變化趨勢明顯地看出, 相對于樣本容量,CSE算法成功率受屬性數(shù)目和基礎題個數(shù)影響顯著。從3個圖中可以看出,各樣本容量的變化趨勢線挨得很近,表明成功率受樣本容量影響甚微。然而,各圖中縱坐標的起點和終點差異很大,表明成功率受屬性數(shù)目和基礎題個數(shù)影響明顯。具體而言:當基礎題個數(shù)從8個增加到12個時,成功率的變化為:Q1時, 成功率從98%增加到100%; Q2時, 成功率從70.5%增加逐步遞增到98.5%,起點較Q1時低,但變化幅度較Q1時大,增加了28個百分點;Q3時,起點再次降低,幅度再次提升,從30.5%增加到86.5%,上升了56個百分點。進一步對Q1、Q2、Q3不同基礎題個數(shù)的估計成功次數(shù)進行Kurskal-Wallis H檢驗,結果顯示不同個數(shù)的基礎題估計成功率有顯著差異,分別為χ22=14.85, df=4,p<0.01;χ22=16.72, df=4,p<0.01;χ22=17.91, df=4,p<0.001。由此,可以得出:CSE算法估計成功率隨著屬性數(shù)目的增加而減低,隨著基礎題個數(shù)的增加而升高,但受樣本容量影響相對較小。在Q矩陣估計中,基礎題個數(shù)非常重要,當屬性數(shù)目沒辦法改變時,提高成功率的重要途徑則是增加基礎題個數(shù)。

      3.3.4 CSE算法的執(zhí)行時間少,具有較高的效率 ?表2列出了各條件下算法完成一次估計和校正的平均用時。在60個條件下,平均用時的波動范圍為約9s(N=1000, J=12, K=3)~15min(N=500,J=8,K=5)??v觀表2的所有數(shù)據(jù),可以發(fā)現(xiàn):執(zhí)行時間受屬性數(shù)目影響較大,而與基礎題個數(shù)和樣本容量關系不大。表2最右側(cè)列出了各條件下的平均用時。Q1時,所需時間為10.07~10.70秒;Q2時,所需時間為139.10~180.11秒;Q3時,所需時間為635.60~682.50秒??梢?,在每個Q矩陣內(nèi)部,執(zhí)行時間因樣本容量和基礎題個數(shù)影響甚小,但在每個Q矩陣之間,每增加一個屬性,所需時間從10秒左右變化到100多秒直至5個屬性時的600多秒。

      4 實證研究:CSE算法在實證數(shù)據(jù)中的應用 ?為進一步探討CSE算法在實際應用中的效果,本研究使用該方法對K. K. Tatsuoka (1990)的分數(shù)減法數(shù)據(jù)進行分析,數(shù)據(jù)包含了536名學生在15個測驗項目上的作答,測驗考察了5個屬性,測驗Q矩陣改編自Missevy(1996)。該數(shù)據(jù)在之前的Q矩陣的估計和修正研究中均被使用(汪大勛等,2018;DeCarlo, 2012; de la Torre, 2008)。根據(jù)原始作答數(shù)據(jù)和Q矩陣,使用DINA模型計算出各項目的鑒別度指數(shù)(item discrimination index, IDI; Lee, de la Torre & Park,2012)。將數(shù)據(jù)按IDI從高到低排列,分別選取前6、7、8、9、10題作為基礎題,對剩余項目逐個進行估計。分析重新估計后的Q矩陣與原始Q矩陣的一致性程度,其中Q矩陣共有15×5=75個元素,計算相同元素的比例(括號內(nèi)為相同元素個數(shù)),結果如下表。從表3可以看出,使用不同基礎題個數(shù),估計得到的Q矩陣與原始Q矩陣一致性程度差異不大,說明不同基礎題個數(shù)下Q矩陣的估計結果趨于穩(wěn)定。

      為比較估計的Q矩陣與原始Q矩陣的合理性,這里分別計算根據(jù)不同Q矩陣其模型擬合指標(即負2倍的對數(shù)似然、AIC和BIC指標)。結果見表4。從表4可以看出,重新估計的Q矩陣在擬合指標上優(yōu)于原始Q矩陣,且隨著基礎題個數(shù)的增加,呈現(xiàn)逐漸優(yōu)化的趨勢。在基礎題為10個時, 各擬合指標相比于9個時略變差,這可能是因為基礎題為10個時,基礎題包含鑒別指數(shù)前10的項目,第10個項目鑒別指標較小,作為基礎題有一定偏差??傮w而言,估計Q矩陣在基礎題9個時達到最優(yōu),且優(yōu)于原始Q矩陣擬合水平。

      5 討論

      Q矩陣界定是認知診斷研究中的一個重要問題,尤其是在認知診斷計算機自適應測驗中,常常需要對題庫的項目進行在線標定。為獲得有效、客觀的Q矩陣,本文從項目擬合的角度,提出一種基于項目擬合統(tǒng)計量RMSEA的Q矩陣項目估計思路,并通過模擬和實證研究考察了方法的有效性和穩(wěn)定性。

      5.1 RMSEA可以作為題目屬性向量估計的有效指標 ?使用CSE算法基于一定數(shù)量的基礎題對新題逐個進行估計,并把0.05作為擬合臨界值,在校正階段只對大于擬合值的項目進行重新估計,耗時較短,效率較高。為了說明CSE算法的有效性和效率,加入與同樣基于參數(shù)的Q矩陣估計的LROE算法的比較。

      從表5可以看出,在屬性考察個數(shù)為3個或4個時CSE算法估計成功率比LROE算法高,這可能是因為當屬性個數(shù)較少時,基于相同數(shù)目的基礎題,RMSEA能準確地找到項目屬性向量,在校正階段可以有效的識別并校正錯誤項目而不是對所有項目進行重新估計。當屬性考察個數(shù)為5個時,CSE算法估計成功率總體較LROE算法略低,這可能是因為屬性個數(shù)為5個時,基礎題個數(shù)較少,估計得到的Q矩陣包含的錯誤較多,當使用擬合臨界值作為修正臨界值,對Q矩陣中錯誤的項目不能有效的識別并修正。不過,兩者所呈現(xiàn)的趨勢仍然是一致的,即隨著基礎題個數(shù)的增加,算法的表現(xiàn)越來越好。因此,當屬性個數(shù)較多時,可以適當增加基礎題以達到較為理想的效果。此外,從表6可以看出,CSE算法在各條件下所花費時間明顯比LROE算法少,這表明CSE算法效率較高。

      關于臨界值的選取,Kunina-Habenicht等(2012)指出I類錯誤率相同的情況下,對于不同條件(樣本大小和屬性考察個數(shù))沒有單一的截斷值,研究者或應用者可以根據(jù)特定的條件進行模擬,獲取該條件下更精確的臨界值。不過可以肯定的是,當Q矩陣錯誤較少時,選擇較為寬松的臨界值可以節(jié)省時間,且可達到較好的修正效果(Kang et al., 2019)。這也說明選取一個合適的截斷值,不僅可以有效的識別和修正Q矩陣中的錯誤,也可以減少Q(mào)矩陣估計時修正階段所花費的時間。未來研究可以進一步探討,不同條件下,臨界值的選取對Q矩陣估計的影響。此外,該方法對被試人數(shù)的要求不高,但對于基礎題(即屬性向量界定正確的題目)個數(shù)有一定要求。

      5.2 CSE算法用于實證數(shù)據(jù)分析效果較好

      對于分數(shù)減法的屬性界定至今仍存在很多爭議(DeCarlo,2011,2012; de la Torre, 2008),本研究通過將CSE算法應用于分數(shù)減法數(shù)據(jù)的分析,發(fā)現(xiàn)使用不同數(shù)量的基礎題,能在一定程度上提高數(shù)據(jù)—模型的擬合水平;且隨著基礎題個數(shù)的增加,該方法的表現(xiàn)逐漸變好,這與模擬研究發(fā)現(xiàn)的結果一致。在基礎題個數(shù)為9個時,估計Q矩陣擬合情況整體最好, 與汪大勛, 高旭亮, 韓雨婷等(2018)所得結果較為一致。由此,該方法在用于實證數(shù)據(jù)的分析時也可以取得較好的效果。

      此外,CSE算法是一種直接從模型—數(shù)據(jù)擬合角度對Q矩陣進行估計的方法,對被試數(shù)量要求不高,并且不同認知診斷模型RMSEA的計算在R語言直接調(diào)用即可,具有較強的適用性,可以滿足多種研究或?qū)嵺`的需要。

      6 結論

      本研究通過模擬實驗和實證數(shù)據(jù)分析,探討了將RMSEA用于Q矩陣估計的方法的可行性、有效性及效率問題,得到以下結論:(1)基于RMSEA的CSE算法可以有效地估計新題的屬性向量,且耗時較少;(2)對Q矩陣估計的成功率受屬性數(shù)目和基礎題個數(shù)影響甚大,尤其是當屬性數(shù)目較多時,要求有較多的基礎題個數(shù);(3)該統(tǒng)計量對被試數(shù)量要求不高,即使被試人數(shù)為400人,只要基礎題個數(shù)足夠多,估計效果依然較好,可適于中等規(guī)模的測評中;(4)該方法應用于實證數(shù)據(jù)的分析,可以一定程度的優(yōu)化已有的分析結果,提高模型—數(shù)據(jù)的擬合性。

      參考文獻

      涂冬波, 蔡艷, 戴海崎(2012). 基于DINA模型的Q矩陣修正方法. 心理學報, 44(4), 558-568.

      汪大勛, 高旭亮, 韓雨婷, 涂冬波(2018). 一種簡單有效的Q矩陣估計方法開發(fā):基于非參數(shù)化方法視角. 心理科學, 41(1), 180-188.

      汪大勛, 高旭亮, 蔡艷, 涂冬波(2018). 一種非參數(shù)化的Q矩陣估計方法:ICC-IR方法開發(fā). 心理科學, 41(2), 466-474.

      喻曉鋒, 羅照盛, 高椿雷, 李喻駿, 王睿, 王鈺彤(2015). 使用似然比D2統(tǒng)計量的題目屬性定義方法. 心理學報, 47(3), 417-426.

      Chiu, C. Y. (2013). Statistical Refinement of the Q-matrix in Cognitive Diagnosis. Applied Psychological Measurement, 37(8), 598-618.

      DeCarlo, L. T. (2011). On the analysis of fraction subtraction data: The DINA model, classification, latent class sizes, and the Q-matrix. Applied Psychological Measurement, 35(1), 8-26.

      DeCarlo, L. T. (2012). Recognizing uncertainty in the Q-matrix via a Bayesian extension of the DINA model. Applied Psychological Measurement, 36(6), 447-468.

      de la Torre, J. (2008). An empirically based method of Q-matrix validation for the DINA model: Development and applications. Journal of Educational Measurement, 45(4), 343-362.

      de la Torre, J. (2009). DINA model and parameter estimation: A didactic. Journal of Educational and Behavioral Statistics, 34(1), 115-130.

      de la Torre, J., & Chiu, C. -Y. (2010). A General Method of Empirical QMatrix Validation Osing the GDINA Model Discrimination Index. Paper Presented at the Annual Meeting of the National Council on Measurement in Education, Denver.

      Junker, B. W., & Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric item response theory. Applied Psychological Measurement, 25(3), 258-272.

      Kang, C., Yang, Y., & Zeng, P. (2019). Q-Matrix Refinement Based on Item Fit Statistic RMSEA. Applied Psychological Measurement, 43(7), 527-542.

      Kunina-Habenicht, O., Rupp, A. A., & Wilhelm, O. (2009). A practical illustration of multidimensional diagnostic skills profiling: Comparing results from confirmatory factor analysis and diagnostic classification models. Studies in Educational Evaluation, 35(2-3), 64-70.

      Kunina-Habenicht, O., Rupp, A. A., & Wilhelm, O. (2012). The impact of model misspecification on parameter estimation and item-fit assessment in log-linear diagnostic classification models. Journal of Educational Measurement, 49(1), 59-81.

      Lee, Y. S., de la Torre, J., & Park, Y. S. (2012). Relationships between cognitive diagnosis, CTT, and IRT indices: An empirical investigation. Asia Pacific Education Review, 13(2), 333-345.

      Liu, J., Xu, G., & Ying, Z. (2012). Data-driven learning of Q-matrix. Applied psychological measurement, 36(7), 548-564.

      Liu, J., Xu, G., & Ying, Z. (2013). Theory of the self-learning Q-matrix. Bernoulli, 19(5A), 1790-1817.

      Mislevy, R. J. (1996). Test theory reconceived. Journal of Educational Measurement, 33(4), 379-416.

      Park, Y. S., & Lee, Y. S. (2014). An extension of the DIAN model using covariates: examining factors affecting response probability and latent classification. Applied Psychological Measurement, 38(5), 376-390.

      Rupp, A. A., & Templin, J. (2008). The effects of Q-matrix misspecification on parameter estimates and classification accuracy in the DINA model. Educational and Psychological Measurement, 68(1), 78-96.

      Tatsuoka, K. K. (1990). Toward an integration of item-response theory and cognitive error diagnosis. Diagnostic monitoring of skill and knowledge acquisition, 453-488.

      von Davier, M. (2005). A general diagnostic model applied to language testing data. ETS Research Report Series, 2005(2), 1-35.

      Abstract

      Usually, cognitive diagnostic assessment (CDA) is based on a test and the corresponding cognitive diagnostic model to construct a diagnostic analysis. Many approaches need a Qmatrix which reflects how attributes are measured in each item when applying the cognitive diagnosis model into an assessment. Qmatrix plays an important role in CDA. Qmatrix can be defined by experts in related fields, and also can be estimated according to students response data. Based on the existing Qmatrix refinement methods, a Qmatrix estimation method using an item fitting statistics RMSEA is proposed. The effectiveness and efficiency of the method are verified by a simulation study. And a real data analysis is also included. The results show that: (1) the CSE algorithm based on RMSEA can effectively estimate the attribute vectors of new items, and it takes less time; (2) the success recovery rate of Qmatrix estimation is greatly affected by the number of attributes and the number of basic items, especially when the number of attributes is large, it requires more basic items to estimate the attribute vectors of new items; (3) The sample size has little effect on the performance of CSE approach and a big sample size is not necessary to implement the Qmatrix modification method. Even if the number of subjects is 400, as long as the number of basic items is enough, it can have a high recovery ratio; (4) The application of this method to the analysis of empirical data can optimize the existing analysis results to a certain extent and improve the fitting of model-data.

      Key words: cognitive diagnosis; Qmatrix estimation; item fit statistic; DINA model

      岑巩县| 浠水县| 舒城县| 遵义市| 高平市| 个旧市| 南木林县| 桃园县| 台东市| 吉首市| 乡城县| 哈巴河县| 达日县| 准格尔旗| 湖口县| 石门县| 临沭县| 商丘市| 德兴市| 始兴县| 宁阳县| 友谊县| 准格尔旗| 盐津县| 汝州市| 巴彦淖尔市| 政和县| 张家港市| 吐鲁番市| 凤凰县| 阿瓦提县| 五河县| 棋牌| 高唐县| 邯郸县| 惠来县| 准格尔旗| 南安市| 林芝县| 林甸县| 辽阳市|