喻曉鋒 羅照盛 高椿雷 李喻駿 王 睿 王鈺彤
(1江西師范大學(xué)心理學(xué)院, 南昌 330022) (2亳州師范高等專科學(xué)校, 亳州 236800)
我國中長期教育改革和發(fā)展規(guī)劃綱要(2010-2020年)明確提到:要注重因材施教, 要改進(jìn)教育教學(xué)評(píng)價(jià), 探索促進(jìn)學(xué)生發(fā)展的多種評(píng)價(jià)方式。要做到因材施教, 首先就必須深入地了解學(xué)生的認(rèn)知特點(diǎn), 對(duì)其長處和短處進(jìn)行診斷性分析, 即實(shí)施認(rèn)知診斷評(píng)價(jià)(也簡稱認(rèn)知診斷)。相對(duì)于其它的評(píng)價(jià)形式, 認(rèn)知診斷評(píng)價(jià)不但能提供被試在測驗(yàn)上的總體評(píng)價(jià)指標(biāo), 而且能提供被試在測驗(yàn)領(lǐng)域上的詳細(xì)的診斷報(bào)告。著名的“分?jǐn)?shù)減法”數(shù)據(jù)(Tatsuoka,1990)中包含 20個(gè)題目, 界定了將整數(shù)化為分?jǐn)?shù)、從帶分?jǐn)?shù)中分離出整數(shù)、在減法運(yùn)算前進(jìn)行化簡等8個(gè)屬性。如果某被試的屬性掌握模式為[1 0 0 0 0 0 0 0], 表明該被試只掌握了第1個(gè)屬性(即將整數(shù)轉(zhuǎn)化為分?jǐn)?shù)), 對(duì)其他7個(gè)屬性都沒有掌握。有了診斷性分析報(bào)告, 就可以進(jìn)行有針對(duì)性的補(bǔ)救教學(xué)和學(xué)習(xí)。由此可見, 認(rèn)知診斷報(bào)告中可提供豐富的信息,對(duì)被試的學(xué)習(xí)、教師的教學(xué)和教學(xué)效果的評(píng)價(jià)都有很重要的參考作用。
屬性是指測驗(yàn)所考察的被試的潛在特質(zhì), 包括知識(shí)、技能、策略等(Leighton, Gierl, & Hunka,2004)。Q矩陣(Tatsuoka, 1983)描述了測驗(yàn)中的所有題目和屬性之間的關(guān)聯(lián)關(guān)系, 通常用1來表示題目考察了某屬性, 用0來表示題目沒有考察某屬性。丁樹良等人對(duì) Q矩陣?yán)碚撨M(jìn)行了深入研究(丁樹良,羅芬, 汪文義, 2012; 丁樹良, 毛萌萌, 汪文義, 羅芬, Cui, 2012; 丁樹良, 汪文義, 羅芬, 2012; 丁樹良, 汪文義, 楊淑群, 2011; 丁樹良, 楊淑群, 汪文義, 2010)。Q矩陣的建立包括題目屬性的定義和題目屬性向量的驗(yàn)證。被試在測驗(yàn)屬性(通常有多個(gè))上的掌握情況就構(gòu)成了被試的屬性掌握模式。
認(rèn)知診斷模型借助Q矩陣, 以作答數(shù)據(jù)為基礎(chǔ)去推斷被試的屬性掌握模式。題目屬性(在本文中,如無特別說明, 題目屬性是指題目的屬性向量)的定義和認(rèn)知診斷模型對(duì)認(rèn)知診斷評(píng)價(jià)很重要。測驗(yàn)中題目屬性向量(即Q矩陣)的定義是否正確對(duì)于認(rèn)知診斷模型的識(shí)別和被試的分類都是十分關(guān)鍵的(Rupp & Templin, 2008)。通常情況下, 題目屬性是由領(lǐng)域?qū)<腋鶕?jù)自己的知識(shí)或經(jīng)驗(yàn)進(jìn)行定義的, 但這容易受到專家主觀因素的影響, 從而導(dǎo)致題目屬性的定義出現(xiàn)偏差。上述“分?jǐn)?shù)減法”測驗(yàn)(Tatsuoka,1990), 直到今天, 其題目屬性定義仍然存在爭議??梢? 題目屬性的定義是一件非常困難和關(guān)鍵的工作。
Q矩陣的建立包括題目屬性的定義和題目屬性向量的驗(yàn)證。一方面, 研究者們研究了測驗(yàn)題目固定(即每位被試作答的項(xiàng)目相同)時(shí) Q矩陣的修證。de la Torre (2008)提出了一個(gè)基于經(jīng)驗(yàn)的驗(yàn)證Q矩陣的方法, 即δ法, 該方法研究了題目屬性向量取不同值時(shí), 通過該題目的猜測參數(shù)和失誤參數(shù)的變化情況(設(shè)置閾值)來進(jìn)行判斷題目屬性向量的正確性; 涂冬波, 蔡艷和戴海琦(2012)研究了基于DINA模型的 Q矩陣修正方法, 即γ法, 通過對(duì)猜測或失誤參數(shù)過大(設(shè)置閾值)的題目進(jìn)行檢驗(yàn), 來判斷該題目是否考察了某屬性。上述研究在確定正確題目屬性向量的標(biāo)準(zhǔn)時(shí)存在主觀性。DeCarlo(2011, 2012)利用貝葉斯方法來識(shí)別 Q矩陣中存在的錯(cuò)誤, 但是該方法沒有為存在錯(cuò)誤的題目提供建議的屬性向量。Liu, Xu和Ying (2011, 2012)提出從作答數(shù)據(jù)中推導(dǎo)Q矩陣的方法, 構(gòu)建了評(píng)價(jià)Q矩陣的統(tǒng)計(jì)量, 并建立了相應(yīng)的理論基礎(chǔ), 這為客觀地推導(dǎo)Q矩陣邁出了重要的一步。模擬實(shí)驗(yàn)結(jié)果表明,Liu等的方法有比較好的估計(jì)準(zhǔn)確率, 但是 Liu等的方法在執(zhí)行上比較費(fèi)時(shí)。Xiang (2013)在Liu等人(2011, 2012)的基礎(chǔ)上, 將 Q矩陣中的元素當(dāng)作連續(xù)變量進(jìn)行估計(jì), 通過截?cái)帱c(diǎn)轉(zhuǎn)換成0, 1數(shù)據(jù), 但是相對(duì)于Liu等人(2011, 2012)的方法, 這種方法在準(zhǔn)確率上并沒有優(yōu)勢。
另一方面, 也有研究者們研究了計(jì)算機(jī)自適應(yīng)測驗(yàn)形式下題目參數(shù)和題目屬性向量的估計(jì)。汪文義等人(汪文義, 丁樹良, 2010; 汪文義, 丁樹良,游曉鋒, 2011)研究了在給定“新題(即題目屬性未知的題)”的題目參數(shù)以及被試在“舊題(即題目屬性已知的題)”和“新題”作答的基礎(chǔ)上, 使用極大似然估計(jì)方法、邊際極大似然估計(jì)方法以及交差方法來估計(jì)“新題”的屬性向量。陳平和辛濤(2011a)研究了“新題”參數(shù)的在線標(biāo)定技術(shù), 他們將“新題”隨機(jī)或自適應(yīng)分配給被試, 通過被試在“舊題”上的作答,估計(jì)出被試的屬性掌握模式和題目參數(shù), 然后條件估計(jì)“新題”的題目參數(shù)。陳平和辛濤(2011b)研究了基于“新題”和“舊題”作答數(shù)據(jù)聯(lián)合估計(jì)“新題”的題目參數(shù)和屬性向量。上述研究都是在得到被試的屬性掌握模式之后, 或者已知題目的屬性向量來估計(jì)題目的參數(shù), 或者已知題目的屬性向量,“在線估計(jì)”題目的參數(shù), 或者是以在線的方式聯(lián)合估計(jì)題目的屬性向量和題目參數(shù)。
在現(xiàn)代教育和心理測驗(yàn)中, 需要對(duì)所選擇的項(xiàng)目反應(yīng)模型與作答反應(yīng)數(shù)據(jù)進(jìn)行擬合檢驗(yàn), 來評(píng)價(jià)所使用的模型與數(shù)據(jù)之間的擬合情況。通常是把模型的預(yù)測值(比如期望得分)和實(shí)際觀察值(比如實(shí)際得分)之間的殘差作為統(tǒng)計(jì)量, 這個(gè)殘差的不同計(jì)算方法就構(gòu)成了不同的擬合統(tǒng)計(jì)量, 常用的有Bock的卡方統(tǒng)計(jì)量(Bock, 1972), Yen統(tǒng)計(jì)量(Yen,1981), 似然比 G統(tǒng)計(jì)量(McKinley & Mills, 1985)等。
本研究受項(xiàng)目反應(yīng)理論(Item Response Theory,IRT)中題目和數(shù)據(jù)擬合檢驗(yàn)方法的啟發(fā), 提出本研究的邏輯假設(shè):在認(rèn)知診斷評(píng)價(jià)中, 測驗(yàn)中的題目屬性定義與作答反應(yīng)數(shù)據(jù)的擬合情況, 應(yīng)該也是可以按照類似IRT中的模型—資料擬合檢驗(yàn)的方法進(jìn)行檢驗(yàn)的, 選擇擬合指標(biāo)最好的題目屬性向量作為當(dāng)前作答反應(yīng)數(shù)據(jù)所對(duì)應(yīng)的題目屬性定義?;谶@種邏輯假設(shè), 本文提出一種簡單易懂的定義和驗(yàn)證題目屬性向量的方法:即使用似然比統(tǒng)計(jì)量來對(duì)被試的屬性掌握模式、題目參數(shù)和題目的屬性向量進(jìn)行在線的聯(lián)合估計(jì)。
一般來說, 數(shù)據(jù)與模型的擬合優(yōu)度可評(píng)價(jià)觀察結(jié)果與期望結(jié)果之間的一致性程度(McKinley &Mills, 1985; Orlando & Thissen, 2000)。在IRT框架下, 通常評(píng)價(jià)每個(gè)題目作答反應(yīng)數(shù)據(jù)與模型的擬合性的過程如下:
(1)在作答數(shù)據(jù)和所選擇的 IRT模型的基礎(chǔ)上,估計(jì)題目參數(shù)和能力參數(shù);
(2)根據(jù)被試的能力估計(jì)值構(gòu)造能力分組, 通常按能力分組的組數(shù)是一個(gè)比較小的整數(shù), 比如10, 在同一組內(nèi)的被試的能力值接近;
(3)根據(jù)能力估計(jì)值和作答數(shù)據(jù), 為每個(gè)能力組被試計(jì)算觀察得分分布, 即計(jì)算每個(gè)能力組被試對(duì)題目實(shí)際的正確作答概率;
(4)根據(jù)能力估計(jì)值、選定的IRT模型, 計(jì)算各被試組在題目上的期望得分分布, 即計(jì)算各能力組被試對(duì)題目的期望正確作答概率;
(5)比較觀察得分分布和期望得分分布之間的差異。
其中第(5)步中通常采用某種卡方統(tǒng)計(jì)量來進(jìn)行比較, 這里只介紹與本文相關(guān)的似然比G統(tǒng)計(jì)量。
這里的g是題目j在能力全距內(nèi)將被試所分的組的個(gè)數(shù),p和π分別是第i組被試在題目j上的實(shí)際正確作答概率和期望正確作答概率。N和r分別是第i組被試的總?cè)藬?shù)和其中實(shí)際正確作答題目j的人數(shù), 并且有公式(2)成立。
π是根據(jù)第i組被試的能力平均值計(jì)算出來的正確作答概率(期望正確作答概率)。當(dāng)采用邊際極大似然估計(jì)方法來估計(jì)題目參數(shù)時(shí), G服從自由度為 g的 χ分布(du Toit, 2003)。
本文在G統(tǒng)計(jì)量的基礎(chǔ)上進(jìn)行修改得到D統(tǒng)計(jì)量, 并采用 D統(tǒng)計(jì)量檢驗(yàn)題目屬性與作答反應(yīng)數(shù)據(jù)之間的擬合度, 進(jìn)一步確定合理的題目屬性向量。這里以DINA模型為例來說明估計(jì)題目屬性向量的具體過程, 該方法可以很容易地?cái)U(kuò)展到其它認(rèn)知診斷模型上。
“確定性輸入, 噪音‘與’門” (Deterministic Inputs, Noisy And “gate”, DINA )模型(de la Torre,2008, de la Torre, 2009, Junker & Sijtsma, 2001, Rupp& Templin, 2008)是近年來受到廣泛關(guān)注的認(rèn)知診斷模型之一。DINA模型是一個(gè)非?!肮?jié)省”的模型,每個(gè)題目只有兩個(gè)參數(shù), 分別是失誤參數(shù)(slipping parameter, s)和猜測參數(shù)(guessing parameter, g)。失誤參數(shù)s表示被試掌握了題目所考察的屬性, 但是錯(cuò)誤作答的概率; 猜測參數(shù)g表示被試未完全掌握題目所考察的屬性, 但是正確作答的概率。DINA模型是一種“連接”的、非補(bǔ)償?shù)哪P??!斑B接”是指在不考慮猜測和失誤的情況下, 被試必須完全掌握題目所考察的屬性才能正確作答題目, 這種情況下的作答稱為理想作答, 用η表示。
公式(3)表示被試i (屬性掌握模式為α)在題目j (屬性向量為q)上的理想作答。當(dāng)已知題目j的參數(shù)分別為s和g, 則被試i在題目j上的正確作答概率可表示為公式(4)。
式(5)中, K是測驗(yàn)考察的屬性個(gè)數(shù), DINA模型不考慮屬性之間的相互關(guān)系, 測驗(yàn)將被試分成 2組。η表示在第i組被試在題目j上的理想作答(即不考慮猜測和失誤時(shí)的作答), 取值0或1。N是第i組被試的總?cè)藬?shù), r是 N中正確作答題目 j的人數(shù)。 s和 g分別是題目j的失誤參數(shù)和猜測參數(shù)。p是第i組被試中實(shí)際的正確作答題目j的人數(shù)比例, p的計(jì)算見公式(2)。
為方便介紹, 將采用 D似然比統(tǒng)計(jì)量的在線估計(jì)(Likelihood Ratio Online Estimation)算法命名為LROE算法。假設(shè)測驗(yàn)共考察K個(gè)屬性, 不考慮屬性之間的相互關(guān)系(即假設(shè)屬性之間的層級(jí)結(jié)構(gòu)是獨(dú)立型), 則一共有 2種屬性掌握模式(即有 2類被試), 每個(gè)被試屬于其中的一類。如無特別說明,本文用大寫字母 Q帶下標(biāo)的方式表示題目的屬性向量集合, 用小寫字母q帶下標(biāo)的方式表示某個(gè)題目的屬性向量。
假設(shè)已經(jīng)有少部分題目屬性被正確定義, 稱這部分題目的集合為“基礎(chǔ)題”, 記為Q。屬性向量未定義的題目集合為“新題”, 記為 Q, Q中的題目屬性向量需要借助于 Q中的題目來界定。這里采用“增量”的方式每次從“新題”中選擇一個(gè)題目(記為 q)累積加入到 Q中, 然后聯(lián)合估計(jì)Q的題目參數(shù)、q的屬性向量和題目參數(shù), 直到所有新增題的屬性向量和參數(shù)都被估計(jì)。
下面介紹詳細(xì)的估計(jì)過程, LROE算法的過程包括兩大步驟, 具體內(nèi)容如下:
第一步:估計(jì)所有新增題目的屬性向量和題目參數(shù), 包括以下幾個(gè)具體步驟:
(1)從 Q中選擇一個(gè)題目, 記為 q, 將 q加入到Q中, 并且把q作為第1個(gè)題目。
(2)以 Q、q和作答數(shù)據(jù)為基礎(chǔ), 使用MMLE/EM算法(de la Torre, 2009)聯(lián)合估計(jì)題目參數(shù)和被試的屬性掌握模式。
對(duì)每個(gè)新增題目的估計(jì)過程, 需要計(jì)算 D統(tǒng)計(jì)量和調(diào)用MMLE/EM算法的次數(shù)都為2-1次。
第二步:對(duì)所有題目的屬性向量和題目參數(shù)進(jìn)行校正, 包括以下幾個(gè)具體步驟:
(7)算法結(jié)束, 得到Q矩陣的最終估計(jì)值。
以上第一步對(duì)每個(gè)題目進(jìn)行估計(jì)時(shí), 每次是“增量”式地選擇一個(gè)新題進(jìn)行估計(jì), 當(dāng)包含的“基礎(chǔ)題”較多時(shí), 這種方法會(huì)有利于對(duì)每個(gè)新題的估計(jì), 因?yàn)榇藭r(shí)數(shù)據(jù)中包含較多有用的信息和較少的噪音信息。但是當(dāng)“基礎(chǔ)題”的數(shù)量較少時(shí), 即數(shù)據(jù)中包含的信息不足以對(duì)某些新題進(jìn)行估計(jì), 可能會(huì)導(dǎo)致出現(xiàn)偏差。
第二步會(huì)在第一步估計(jì)得到的 Q矩陣基礎(chǔ)上(此時(shí)的Q矩陣中包含的錯(cuò)誤較少)對(duì)每個(gè)題目進(jìn)行第二次“校正”, 相當(dāng)于使用數(shù)據(jù)對(duì)題目進(jìn)行了雙重“校正”。因此, 整個(gè)LROE算法包含兩個(gè)步驟:先基于第一步算法對(duì)每個(gè)新題完成估計(jì), 然后對(duì)整個(gè)Q矩陣進(jìn)行校正。在第二步中, 算法每完成從步驟(5)到(10)的一次執(zhí)行稱為一次迭代, 為了防止估計(jì)程序執(zhí)行時(shí)間太長或不收斂, 可以通過設(shè)置最大迭代次數(shù)來避免(當(dāng)“基礎(chǔ)題”較少或被試人數(shù)較少時(shí)可能會(huì)出現(xiàn)程序執(zhí)行時(shí)間較長或不收斂的情況)。
為了研究本文所提出的算法在不同條件下的表現(xiàn), 考慮的因素有三個(gè):屬性個(gè)數(shù)、作為基礎(chǔ)的題目個(gè)數(shù)和被試人數(shù)。
4.1.1 Q矩陣的模擬與初始Q矩陣
Q矩陣的真值與Liu等人(2012)相同, 一共有三個(gè), 分別記為Q、Q和Q, 如圖1所示。Q、Q和Q中的屬性個(gè)數(shù)分別為3, 4和5, 題目個(gè)數(shù)都是20。
圖1 模擬的真實(shí)Q矩陣(引自Liu等(2012))
4.1.2 題目參數(shù)的模擬
題目參數(shù)s
和g
按均勻分布模擬, 取值區(qū)間為[0.05,0.25]。4.1.3 被試的屬性掌握模式和作答的模擬
被試總體按均勻分布模擬, 即每種屬性掌握模式的人數(shù)相近, 分別產(chǎn)生 400、500、800和 1000人, 共四種情況。使用公式(4), 在題目參數(shù)、題目屬性向量和被試屬性掌握模式的基礎(chǔ)上模擬被試作答, 即將正確作答概率與均勻分布的隨機(jī)數(shù)比較,當(dāng)正確作答概率大于隨機(jī)數(shù)時(shí)為正確作答, 否則為錯(cuò)誤作答。
4.1.4 基礎(chǔ)題和初始Q矩陣
基礎(chǔ)題的個(gè)數(shù)一共有8, 9, 10, 11, 12共5種情況, 基礎(chǔ)題的選擇方式是從Q矩陣中隨機(jī)選取。初始Q矩陣是作為估計(jì)程序的輸入, 第一次迭代時(shí)的初始Q矩陣只包含基礎(chǔ)題, 之后的初始Q矩陣都在前一次的基礎(chǔ)上增加一個(gè)新題。
本研究中三個(gè)因素(Q矩陣、基礎(chǔ)題的個(gè)數(shù)和被試人數(shù))的水平分別為3, 5和4, 一共有3×5×4=60種情況。
4.1.5 評(píng)價(jià)指標(biāo)
因?yàn)橛?p>K個(gè)屬性組成的屬性向量有 2種, 在定義錯(cuò)誤的情況下, 題目的屬性向量有 2-2(不能是全0向量和正確的向量)種可能。對(duì)于結(jié)果的評(píng)價(jià)采用與Liu等(2012)中相同的方式, 即從100批模擬數(shù)據(jù)中算法恢復(fù)正確 Q矩陣的次數(shù)作為評(píng)價(jià)指標(biāo),恢復(fù)次數(shù)越接近100, 表明算法恢復(fù)的成功率越高。具體的研究過程如下:
(1)分別在 Q, Q和 Q下, 模擬題目、被試和作答;
(2)針對(duì)每種不同個(gè)數(shù)的“基礎(chǔ)題”, 產(chǎn)生100個(gè)只包含“基礎(chǔ)題”的初始Q矩陣(即每次從20個(gè)題目中隨機(jī)抽取預(yù)定個(gè)數(shù)的題目作為“基礎(chǔ)題”, 這樣使得100個(gè)初始Q
矩陣中包含的基礎(chǔ)題個(gè)數(shù)相同, 但是具體題目不同。從而產(chǎn)生不同的初始Q矩陣, 以此作為估計(jì)算法的出發(fā)點(diǎn), 下一次迭代的輸入總是在前一次初始Q矩陣的基礎(chǔ)之上加入一個(gè)新題);(3)使用 LROE算法的第一步, 每次選擇一個(gè)需要估計(jì)的新題q, 補(bǔ)充到初始Q矩陣Q中, 作為算法的出發(fā)點(diǎn)去估計(jì)q, 直到所有的新題都被估計(jì)。
(4)使用 LROE算法的第二步對(duì)包含所有題目的Q矩陣進(jìn)行校正。
(5)計(jì)算算法從 100個(gè)初始 Q矩陣中的估計(jì)成功率。估計(jì)成功是指估計(jì)的 Q矩陣(包含基礎(chǔ)題和新題)與真實(shí)Q矩陣完全相同。
表1是LROE算法的估計(jì)結(jié)果, 圖2、圖3和圖4描述了LROE算法對(duì)Q, Q和Q的成功次數(shù)變化曲線。表2列出了LROE算法在各種情況下成功估計(jì)的平均運(yùn)行時(shí)間, 表3列出了LROE算法在各種情況下基于真實(shí)Q矩陣和估計(jì)矩陣Q時(shí), 模式判準(zhǔn)率(Leighton et al., 2004)及其變化情況。
表1 使用LROE算法估計(jì)Q矩陣的結(jié)果
圖2 LROE算法對(duì)Q1矩陣成功次數(shù)變化曲線
圖3 LROE算法對(duì)Q2矩陣成功次數(shù)變化曲線
圖4 LROE算法對(duì)Q3矩陣成功次數(shù)變化曲線
從表1的結(jié)果來看, LROE算法有較高的Q矩陣估計(jì)成功率, 即使是“基礎(chǔ)題”和“被試人數(shù)”都較少時(shí)。比如, 當(dāng)被試為400人, Q下, “基礎(chǔ)題”為8個(gè)時(shí), 估計(jì)的成功率達(dá)到95%。當(dāng)“基礎(chǔ)題”達(dá)到10個(gè), 被試人數(shù)為400或更多, 就可以100%的恢復(fù)上述指定的正確的Q
矩陣。對(duì)于Q和Q, 當(dāng)“基礎(chǔ)題”只有9個(gè), 即使是人數(shù)達(dá)到1000, LROE算法的成功率也較低, 分別只有 83%和 79%, 當(dāng)“基礎(chǔ)題”增加到12個(gè)時(shí), 估計(jì)的成功率都達(dá)到98%。這說明,當(dāng) Q矩陣中的屬性個(gè)數(shù)增多時(shí), 相對(duì)于被試人數(shù),“基礎(chǔ)題”的個(gè)數(shù)顯得更加重要, 比如對(duì)于Q, 當(dāng)被試人數(shù)為400, “基礎(chǔ)題”從8逐漸增加到12, 成功率分別增加 18%、20%、8%和 16%, 每增加一個(gè)“基礎(chǔ)題”, 成功率平均增加15.5%; 當(dāng)“基礎(chǔ)題”為8個(gè),被試人數(shù)從400增加到1000, 估計(jì)成功率分別增加18%、7%和13%, 每增加100人, 成功率平均增加6.3%。從表1中還可以看出, 當(dāng)被試人數(shù)為 500或800時(shí), “基礎(chǔ)題”達(dá)到9個(gè)或以上時(shí), LROE算法對(duì)Q的估計(jì)成功率低于 Q的估計(jì)成功率。直觀的理解會(huì)認(rèn)為在相同被試人數(shù)、相同基礎(chǔ)題目條件下,算法對(duì)Q的估計(jì)成功率應(yīng)該要高于Q的估計(jì)成功率。為什么會(huì)出現(xiàn)這種反常的現(xiàn)象?通過檢查模擬程序在各次迭代的中間結(jié)果和 Q矩陣的估計(jì)值發(fā)現(xiàn):在錯(cuò)誤估計(jì)Q的情形下, 通常是由于對(duì)最后兩個(gè)題目的估計(jì)不準(zhǔn)確所導(dǎo)致的。不同于Q和Q, Q的最后兩個(gè)題目都是考察了所有的屬性(下面稱“全屬性題目”), 而Q中只有一個(gè)“全屬性題目”, Q中沒有“全屬性題目”, 當(dāng)真實(shí)矩陣中包含多個(gè)“全屬性題目”時(shí), 算法更容易出現(xiàn)錯(cuò)誤估計(jì)的情況。
表2是使用LROE算法在100批數(shù)據(jù)中, 成功估計(jì)時(shí)的平均使用時(shí)間。這里只統(tǒng)計(jì)成功估計(jì)的時(shí)間, 主要是由于估計(jì)不成功時(shí), 模擬程序達(dá)到收斂條件需要經(jīng)過很多次迭代, 不同批次數(shù)據(jù)的執(zhí)行時(shí)間差異較大。在LROE算法的執(zhí)行過程中, 在第二步的(6)處設(shè)置最大執(zhí)行次數(shù), 在成功的估計(jì)過程中, 第二步的(6)執(zhí)行次數(shù)一般都不超過 10次, 因此, 可以設(shè)置第二步的(6)執(zhí)行次數(shù)達(dá)到 20次時(shí),強(qiáng)制結(jié)束算法的執(zhí)行。
表2 使用LROE算法成功估計(jì)Q矩陣的平均執(zhí)行時(shí)間(單位:秒)
從表2的結(jié)果來看, 基礎(chǔ)題個(gè)數(shù)和被試人數(shù)共同影響著算法的執(zhí)行時(shí)間。固定被試人數(shù)時(shí), 增加基礎(chǔ)題; 或者固定基礎(chǔ)題, 增加被試人數(shù)都可以降低算法的運(yùn)行時(shí)間。當(dāng)被試人數(shù)和基礎(chǔ)題個(gè)數(shù)都較少時(shí), 比如400人, 8個(gè)基礎(chǔ)題, 在三個(gè)Q矩陣下,算法都需要最多的時(shí)間, 因?yàn)榇藭r(shí)算法成功估計(jì)需要的迭代次數(shù)較多。表2中還可以看出, 當(dāng)測驗(yàn)中考察的屬性個(gè)數(shù)增加時(shí), 會(huì)導(dǎo)致算法的執(zhí)行時(shí)間急劇增加, 比如三個(gè)Q矩陣, 400人, 8個(gè)基礎(chǔ)題時(shí)的執(zhí)行時(shí)間分別為:230.321秒, 1631.775秒和2983.422秒, 這是因?yàn)槊吭黾?個(gè)屬性, 會(huì)導(dǎo)致每個(gè)題目可能的屬性向量個(gè)數(shù)翻一番。
表3是基于作答數(shù)據(jù)和LROE算法估計(jì)得到的Q矩陣, 采用DINA模型進(jìn)行分析得到的平均屬性掌握模式判準(zhǔn)率。從中可以看出, 模式判準(zhǔn)率的變化反映了LROE算法的估計(jì)成功率, 即算法的估計(jì)成功率越高, 采用Q矩陣估計(jì)值和真實(shí)Q矩陣得到的模式判準(zhǔn)率就越接近。對(duì)于真實(shí)的Q矩陣, 無論是在 Q, Q或 Q下, 被試人數(shù)的增加與屬性模式判準(zhǔn)率之間沒有必然的聯(lián)系, 這一點(diǎn)可以從表3中的第3列數(shù)據(jù)可以看出。對(duì)于采用LROE算法估計(jì)得到的Q矩陣, 平均模式判準(zhǔn)率會(huì)隨著“基礎(chǔ)題”的增加而增加, 這是因?yàn)樵黾印盎A(chǔ)題”會(huì)提高算法的估計(jì)成功率。固定被試人數(shù), 隨著“基礎(chǔ)題”的增加,平均模式判準(zhǔn)率會(huì)更接近于基于真實(shí) Q矩陣對(duì)應(yīng)的模式判準(zhǔn)率。
為了考查Q, Q和Q下, LROE算法的估計(jì)結(jié)果在不同被試人數(shù)或“基礎(chǔ)題”個(gè)數(shù)下是否有差異, 進(jìn)行基于“被試人數(shù)”或“基礎(chǔ)題”的單因素方差分析。
從表4的分析結(jié)果可以看出, 不論是Q, Q還是 Q, 在顯著性水平為 0.05時(shí), 不同“被試人數(shù)”(實(shí)驗(yàn)中涉及到的4種樣本量)下的Q矩陣估計(jì)成功率之間不存在顯著差異, 但是不同“基礎(chǔ)題”個(gè)數(shù)(實(shí)驗(yàn)中涉及到的5種個(gè)數(shù))下的Q矩陣估計(jì)成功率之間有顯著差異, “事后多重比較”的檢驗(yàn)結(jié)果如表5所示。
從表5中檢驗(yàn)的結(jié)果可以看出, 在Q下, 8個(gè)“基礎(chǔ)題”與9, 10, 11和12個(gè)“基礎(chǔ)題”的估計(jì)成功率都有顯著差異; 而9, 10, 11和12個(gè)“基礎(chǔ)題”的估計(jì)成功率之間兩兩不存在顯著差異。在Q下, 8個(gè)“基礎(chǔ)題”與9, 10, 11和12個(gè)“基礎(chǔ)題”的估計(jì)成功率也都有顯著差異; 而9, 10和11個(gè)“基礎(chǔ)題”的估計(jì)成功率之間兩兩不存在顯著差異, 9個(gè)“基礎(chǔ)題”與12個(gè)“基礎(chǔ)題”的估計(jì)成功率之間有顯著差異。在 Q下, 8個(gè)“基礎(chǔ)題”與9, 10, 11和12個(gè)“基礎(chǔ)題”的估計(jì)成功率都有顯著差異; 而9與10個(gè)“基礎(chǔ)題”的估計(jì)成功率之間沒有顯著差異, 9個(gè)“基礎(chǔ)題”與11和12個(gè)“基礎(chǔ)題”的估計(jì)成功率之間有顯著差異。
表3 基于真實(shí)和估計(jì)Q矩陣的模式判準(zhǔn)率
表4 LROE算法估計(jì)結(jié)果的統(tǒng)計(jì)檢驗(yàn)分析
表5 Q1, Q2和Q3下, LROE算法在不同“基礎(chǔ)題”條件下估計(jì)成功率的事后多重檢驗(yàn)
D
統(tǒng)計(jì)量對(duì) Q矩陣進(jìn)行估計(jì), 可以基于“基礎(chǔ)題”, 對(duì)“新題”實(shí)現(xiàn)在線估計(jì),進(jìn)一步對(duì)測驗(yàn)中的所有題目進(jìn)行“校正”, 這樣即使是“基礎(chǔ)題”較少時(shí), LROE算法都可以有較高的估計(jì)成功率。相對(duì)于本文中提到的其它題目屬性定義方法, LROE算法有一些優(yōu)點(diǎn), 主要表現(xiàn)在:(1)實(shí)現(xiàn)了被試的屬性掌握模式、題目屬性向量和題目參數(shù)的在線聯(lián)合估計(jì); (2)即使當(dāng)“基礎(chǔ)題”個(gè)數(shù)較少,被試量較小時(shí), 有較高的估計(jì)成功率; (3)更簡單和省時(shí)。D
統(tǒng)計(jì)量比Liu等(2011, 2012)的S
統(tǒng)計(jì)量執(zhí)行效率更高, 在相同的條件下(屬性個(gè)數(shù), 被試人數(shù)和題目個(gè)數(shù)都相同)下, LROE更省時(shí), 比如, 采用 matlab 編寫程序, 當(dāng)人數(shù)為 1000, 屬性個(gè)數(shù)為3, 20個(gè)題目中有3個(gè)錯(cuò)誤題目, 在CPU為Intel 酷睿i7 2600, 8G內(nèi)存的臺(tái)式計(jì)算機(jī)上, 在成功估計(jì)時(shí),LROE算法需要 40.059秒, 而 Liu等算法需要408.954秒, 從時(shí)間上來看, LROE算法不到Liu等算法的1/10。這是因?yàn)長iu等人的方法中涉及到T
矩陣和β向量的計(jì)算, 即使是屬性個(gè)數(shù)為 3時(shí), 題目個(gè)數(shù)為 20,T
矩陣和β向量的行數(shù)也是一個(gè)“巨大”的數(shù)字, 雖然Liu等對(duì)算法中T
矩陣中的行數(shù)進(jìn)行了壓縮, 但是算法仍然很費(fèi)時(shí)。從結(jié)果上看, 使用D
統(tǒng)計(jì)量來估計(jì)題目的屬性向量, 對(duì)樣本量要求不高。即使是400人, 當(dāng)“基礎(chǔ)題”達(dá)到10個(gè), 估計(jì)算法在Q上的估計(jì)成功率是100%, 這樣一來, 使得本方法有很好的實(shí)用性?!霸诰€估計(jì)算法”需要通過兩步完成, 第一步是增量估計(jì)需要估計(jì)的題目, 第二步是對(duì)所有的題目進(jìn)行“校正”, 從而對(duì)題目實(shí)現(xiàn)了“雙重校正”, 可以保證“在線估計(jì)”的成功率。并且, 如果Q矩陣中只有少部分題目存在疑問或錯(cuò)誤時(shí), 也可以直接使用LORE算法的第二步進(jìn)行被試的屬性掌握模式、題目參數(shù)和題目的屬性向量進(jìn)行聯(lián)合估計(jì)。因此,LORE算法可以較好的處理兩種情況:一是專家界定的Q矩陣(作為初始的Q矩陣)質(zhì)量較好, 只包含少部分錯(cuò)誤, 可以直接使用第二步進(jìn)行聯(lián)合估計(jì);二是只有少部分題目已經(jīng)正確定義, 有更多的題目需要定義, 則可以使用LORE算法先進(jìn)行增量式在線估計(jì), 然后進(jìn)行所有題目的整體聯(lián)合估計(jì)。使用D
統(tǒng)計(jì)量進(jìn)行 Q矩陣估計(jì)時(shí), 從統(tǒng)計(jì)檢驗(yàn)的結(jié)果來看, 為了獲得較好的估計(jì)成功率, “基礎(chǔ)題”數(shù)量最好取8個(gè)以上。LORE算法對(duì)被試人數(shù)有一定的要求, 當(dāng)被試人數(shù)少于400時(shí), 比如200或300, 算法的估計(jì)成功率會(huì)很低。需要特別注意的是,當(dāng)被試人數(shù)達(dá)到 1000甚至更多時(shí), 算法的估計(jì)成功率并不會(huì)有明顯的優(yōu)勢, 因此, 使用D統(tǒng)計(jì)量進(jìn)行Q矩陣估計(jì)的理想被試人數(shù)應(yīng)該是800到1000。本研究中所采用的Q矩陣相對(duì)比較簡單, LORE算法對(duì)于更復(fù)雜的情況下的表現(xiàn)如何值得更進(jìn)一步研究。當(dāng)然, 以上結(jié)果都是基于模擬數(shù)據(jù)下的結(jié)果,D統(tǒng)計(jì)量的在線估計(jì)算法還需要在實(shí)際測驗(yàn)中去驗(yàn)證。
Bock, R. D. (1972). Estimating item parameters and latent ability when responses are scored in two or more nominal categories. Psychometrika, 37(1), 29-51.
Chen, P., & Xin, T. (2011a). Developing on-line calibration methods for cognitive diagnostic computerized adaptive testing. Acta Psychologica Sinica, 43(7), 710-724.
[陳平, 辛濤. (2011a). 認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測驗(yàn)中在線標(biāo)定方法的開發(fā). 心理學(xué)報(bào), 43(6), 710-724.]
Chen, P., & Xin, T. (2011b). Item replenishing in cognitive diagnostic computerized adaptive testing. Acta Psychologica Sinica, 43(7), 836-850.
[陳平, 辛濤. (2011b). 認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測驗(yàn)中的項(xiàng)目增補(bǔ). 心理學(xué)報(bào), 43(7), 836-850.]
de la Torre, J. (2008). An empirically based method of Q-matrix validation for the DINA model: Development and applications. Journal of Educational Measurement, 45(4),343-362.
de la Torre, J. (2009). DINA model and parameter estimation:A didactic. Journal of Educational and Behavioral Statistics, 34(1), 115-130.
DeCarlo, L. T. (2011). On the analysis of fraction subtraction data: The DINA model, classification, latent class sizes,and the Q-matrix. Applied Psychological Measurement,35(1), 8-26.
DeCarlo, L. T. (2012). Recognizing uncertainty in the Q-Matrix via a bayesian extension of the DINA model.Applied Psychological Measurement, 36(6), 447-468.
Ding, S. L., Luo, F., & Wang, W. Y. (2012). Extension to Tatsuoka’s Q matrix theory. Psychological Exploration,32(5), 417-422.
[丁樹良, 羅芬, 汪文義. (2012). Q矩陣?yán)碚摰臄U(kuò)展. 心理學(xué)探新, 32(5), 417-422.]
Ding, S. L., Mao, M. M., Luo, F., & Cui, Y. (2012). Evaluating the consistency of test items relative to the cognitive model for educational cognitive diagnosis. Acta Paychologica Sinica, 44(11), 1535-1546.
[丁樹良, 毛萌萌, 汪文義, 羅芬, Cui, Y. (2012). 教育認(rèn)知診斷測驗(yàn)與認(rèn)知模型一致性的評(píng)估. 心理學(xué)報(bào), 44(11),1535-1546.]
Ding, S. L., Wang, W. Y., & Luo, F. (2012). Q matrix and Q matrix Theory in cognitive diagnosis. Journal of Jiangxi Normal University (Natural Science), 36(5), 441-445.
[丁樹良, 汪文義, 羅芬. (2012). 認(rèn)知診斷中Q矩陣和Q矩陣?yán)碚? 江西師范大學(xué)學(xué)報(bào)(自然科學(xué)版), 36(5), 441-445.]
Ding, S. L., Wang, W. Y., & Yang, S. Q. (2011). The design of cognitive diagnostic test blueprints. Journal of Psychological Science, 34(2), 258-265.
[丁樹良, 汪文義, 楊淑群. (2011). 認(rèn)知診斷測驗(yàn)藍(lán)圖的設(shè)計(jì). 心理科學(xué), 34(2), 258-265. ]
Ding, S. L., Yang, S. Q., & Wang, W. Y. (2010). The importance of reachability matrix in constructing cognitively diagnostic testing. Journal of JiangXi Normal University (Natural Science), 34(5), 490-494.
[丁樹良, 楊淑群, 汪文義. (2010). 可達(dá)矩陣在認(rèn)知診斷測驗(yàn)編制中的重要作用. 江西師范大學(xué)學(xué)報(bào), 34(5),490-494.]
du Toit, M. (2003). IRT from SSI: bilog-mg, multilog, parscale,testfact. Scientific Software International.
Junker, B. W., & Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric item response theory. Applied Psychological Measurement, 25(3), 258-272.
Leighton, J. P., Gierl, M. J., & Hunka, S. M. (2004). The attribute hierarchy method for cognitive assessment: A variation on Tatsuoka's rule-space approach. Journal of Educational Measurement, 41(3), 205-237.
Liu, J. C., Xu, G. J., & Ying, Z. L. (2011). Theory of the self-learning Q-matrix. Prepriint, 19, 1790-1817.
Liu, J. C., Xu, G. J., & Ying, Z. L. (2012). Data driven learning of Q matrix. Applied Psychological Measurement, 36(7),548-564.
McKinley, R. L., & Mills, C. N. (1985). A comparison of several goodness-of-fit statistics. Applied Psychological Measurement, 9(1), 49-57.
Orlando, M., & Thissen, D. (2000). Likelihood-based item-fit indices for dichotomous item response theory models.Applied Psychological Measurement, 24(1), 50-64.
Rupp, A. A., & Templin, J. L. (2008). The effects of Q-matrix misspecification on parameter estimates and classification accuracy in the DINA model. Educational and Psychological Measurement, 68(1), 78-96. doi: 10.1177/0013164407301545
Tatsuoka, K. K. (1983). Rule space: An approach for dealing with misconceptions based on item response theory.Journal of Educational Measurement, 20(4), 345-354.
Tatsuoka, K. (1990). Toward an integration of item-response theory and cognitive error diagnosis. In N. Frederiksen, R.Glaser, A. Lesgold, & Safto, M. (Eds.), Monitoring skills and knowledge acquisition (pp. 453-488). Hillsdale, NJ:Erlbaum.
Tu, D. B., Cai, Y., & Dai, H. Q. (2012). A new method of Q-Matrix validation based on DINA model. Acta Psychologica Sinica, 44(4), 558-568.
[涂冬波, 蔡艷, 戴海崎. (2012). 基于DINA模型的Q矩陣修正方法. 心理學(xué)報(bào), 44(4), 558-568.]
Wang, W. Y., & Ding, S. L. (2010). Attribute identification of new items in cognitive diagnostic computerized adaptive testing. Paper presented at 9th cross-strait conference on psychological and educational testing, Taiwan.
[汪文義, 丁樹良. (2010). 計(jì)算機(jī)化自適應(yīng)診斷測驗(yàn)中原始題的屬性標(biāo)定. 第九屆海峽兩岸心理與教育測驗(yàn)學(xué)術(shù)研討會(huì), 臺(tái)灣.]
Wang, W. Y., Ding, S. L., & You, X. F. (2011). On-line item attribute identification in cognitive diagnostic computerized adaptive testing. Acta Psychologica Sinica, 43(8), 964-976.
[汪文義, 丁樹良, 游曉鋒. (2011). 計(jì)算機(jī)化自適應(yīng)診斷測驗(yàn)中原始題的屬性標(biāo)定. 心理學(xué)報(bào), 43(8), 964-976.]
Xiang, R. (2013). Nonlinear penalized estimation of true Q-Matrix in cognitive diagnostic models. Unpublished doctorial dissertation, Columbia University.
Yen, W. M. (1981). Using simulation results to choose a latent trait model. Applied Psychological Measurement, 5(2),245-262.