李俊杰,鄭慧婧,康春花*
(1.北京師范大學(xué)中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心,北京 100875;2.浙江師范大學(xué)心理學(xué)院,浙江 金華 321004)
認(rèn)知診斷計(jì)算機(jī)化自適應(yīng)測驗(yàn)(cognitive diagnostic computerized adaptive testing,CD-CAT)結(jié)合了認(rèn)知診斷理論和CAT的雙重優(yōu)勢,相比傳統(tǒng)的測驗(yàn)形式,它可以更精確、更迅速、更靈活地測量出被試的潛在知識狀態(tài)(knowledge state,KS),從而獲得被試在知識點(diǎn)上的掌握情況,為教育教學(xué)工作者提供有針對性的指導(dǎo),促進(jìn)學(xué)生的個(gè)性化發(fā)展.近年來,國內(nèi)外越來越多的研究者關(guān)注CD-CAT這一領(lǐng)域.
在對CD-CAT的眾多分類中,依據(jù)CD-CAT使用的診斷方法可將CD-CAT分為參數(shù)CD-CAT 和非參數(shù)CD-CAT.參數(shù)CD-CAT的診斷方法常用極大似然估計(jì)法(maximum likelihood estimation,MLE)、極大后驗(yàn)估計(jì)法(maximum a posteriori,MAP)和期望后驗(yàn)估計(jì)法(expected a posteriori,EAP).這3種方法都是在項(xiàng)目參數(shù)已知的條件下通過概率計(jì)算來估計(jì)被試的知識狀態(tài)(knowledge states,KS)或?qū)傩哉莆漳J?而非參數(shù)CD-CAT是采用更加簡單的有效距離判別法來估計(jì)被試的知識狀態(tài),在估計(jì)過程中不需要進(jìn)行概率計(jì)算,進(jìn)而也不需要知曉項(xiàng)目參數(shù),所依據(jù)的是理想反應(yīng)和觀察反應(yīng)之間的距離最小的原則,即與觀察反應(yīng)之間距離最小的理想反應(yīng)所對應(yīng)的屬性掌握模式視為考生的知識狀態(tài).參數(shù)CD-CAT和非參數(shù)CD-CAT的結(jié)構(gòu)均包含5個(gè)部分:題庫、初始項(xiàng)目選擇方法、知識狀態(tài)或能力值的估計(jì)、選題策略和終止規(guī)則.目前參數(shù)CD-CAT已在選題策略[1-6]、屬性在線標(biāo)定[7-9]和終止規(guī)則[10-11]等方面展開了相關(guān)的研究.相比于參數(shù)CD-CAT,非參數(shù)CD-CAT發(fā)展較晚,截至目前,非參數(shù)CD-CAT的研究主要集中在選題策略[12]方面.而大部分圍繞選題策略的非參數(shù)CD-CAT研究均是以定長(fixed-length)CAT的形式作為終止規(guī)則,即固定每次測驗(yàn)的長度,在被試完成測驗(yàn)后,根據(jù)被試的作答反應(yīng)估計(jì)其知識狀態(tài).定長CAT雖然固定了測驗(yàn)長度,施測較為方便,但對不同的被試會有不同的測量精度.一個(gè)更加合理的做法是,應(yīng)該使CD-CAT形式的測驗(yàn)對每個(gè)被試的測量精度相同,這也正是自適應(yīng)測驗(yàn)優(yōu)勢的體現(xiàn)[13].與定長CAT相對應(yīng)的終止規(guī)則為變長(variable-length)CAT,變長CAT能夠使每個(gè)被試具有相同測量精度并由此終止測驗(yàn)[14].相對于定長CAT,變長CAT更能體現(xiàn)出自適應(yīng)的特點(diǎn)和優(yōu)勢,因此,開展這方面的研究非常有意義.總體來講,傳統(tǒng)CAT測驗(yàn)終止規(guī)則可以歸納成2類:1)達(dá)到預(yù)設(shè)測驗(yàn)信息量終止規(guī)則,即不斷施測項(xiàng)目直到測量標(biāo)準(zhǔn)誤差落在可接受范圍內(nèi),或測驗(yàn)信息量達(dá)到某個(gè)預(yù)先設(shè)定的指標(biāo);2)最小信息量終止規(guī)則,即在剩余題庫中所有項(xiàng)目的項(xiàng)目信息量都低于某個(gè)預(yù)設(shè)水平[7].在參數(shù)CD-CAT中,C.L. Hsu等[10]在C. Tatsuoka[15]以最大后驗(yàn)概率作為測驗(yàn)終止條件的基礎(chǔ)上提出了變長CD-CAT的終止規(guī)則(本文將其稱為Hsu法).其研究結(jié)果表明:當(dāng)固定屬性掌握模式在后驗(yàn)概率分布中的最大后驗(yàn)概率預(yù)設(shè)水平時(shí),被試的模式判準(zhǔn)率會隨著第2大后驗(yàn)概率預(yù)設(shè)水平的降低而增大;當(dāng)固定知識狀態(tài)后驗(yàn)分布的第2大后驗(yàn)概率預(yù)設(shè)水平時(shí),被試的模式判準(zhǔn)率會隨著最大后驗(yàn)概率預(yù)設(shè)水平的升高而增大.參數(shù)CD-CAT的變長測驗(yàn)終止規(guī)則的提出極大推動(dòng)了變長參數(shù)CD-CAT發(fā)展.正如前文所述, C.L. Hsu等[10]對變長CD-CAT的終止規(guī)則是建立在后驗(yàn)概率的基礎(chǔ)上的,而在非參數(shù)CD-CAT情境中,通常在題庫建設(shè)過程中標(biāo)定題目的項(xiàng)目參數(shù),此時(shí)HSU法或Tatsuoka法將無法適用于非參數(shù)CD-CAT情境.那么,在非參數(shù)CD-CAT的體系內(nèi)有沒有類似參數(shù)后驗(yàn)概率的指標(biāo)可用于衡量某個(gè)屬性掌握是被試真實(shí)知識狀態(tài)的可能性呢?文獻(xiàn)[16]率先嘗試使用距離加權(quán)(dwac)結(jié)合理想反應(yīng)的方式構(gòu)建了距離加權(quán)-理想作答選題方法(DWIR),并闡述了在測驗(yàn)中隨著測驗(yàn)長度的增加,更高可能性是被試的屬性掌握模式的dwac值越大,更低可能性是被試的屬性掌握模式的dwac值越小.
因此,本文首先借鑒變長參數(shù)CD-CAT的終止規(guī)則,隨后結(jié)合在文獻(xiàn)[16]提出的DWIR方法中距離加權(quán)(dwac)的指標(biāo)開發(fā)2種非參數(shù)變長CD-CAT的終止規(guī)則:最大距離比例終止規(guī)則和距離比例雙重標(biāo)準(zhǔn)終止規(guī)則.
該模型因?yàn)閮H涉及失誤和猜測2個(gè)參數(shù),所以真正實(shí)現(xiàn)了對認(rèn)知診斷模型的簡化[17-18].其表達(dá)式為
其中ηij是一個(gè)二分變量,它表示被試i是否掌握了第j題所考查的全部屬性,gj表示第j題的猜測參數(shù)(guess parameter),其是未掌握該題所測全部屬性的被試答對這道題的概率,s表示第j題的失誤參數(shù)(slip parameter),其是掌握了該題所測全部屬性的被試答錯(cuò)這道題的概率.
縮減的再參數(shù)化統(tǒng)一模型(reducedreparame-terized unified model,RRUM)是另一種常用的認(rèn)知診斷模型[19-20].RRUM模型的表達(dá)式為
GP-DINA模型[21]是在涂冬波等[22]提出的P-
DINA模型上拓展而來的,GP-DINA的項(xiàng)目反應(yīng)函數(shù)為
ηij=fx(aiq′jmj/(qjq′j)),
其中ηij是被試i在項(xiàng)目j上的理想得分,mj是項(xiàng)目j的滿分值,fx(·)是對被試的理想得分進(jìn)行取整.
P(Xij=t|ai)=P*(Xij=t|ai)-P*(Xij=t+1|ai),
其中P*(Xij=t|ai)表示被試在題目j上得t分及t分以上的概率,t的取值范圍為0~mj(mj項(xiàng)目j的滿分值),P(Xij=t|ai)為屬性掌握模式ai的被試得t分的概率.
Xu Gongjun等[23]提出的Q-最優(yōu)準(zhǔn)則的依據(jù)為:當(dāng)考察在領(lǐng)域中的所有屬性(設(shè)共有K個(gè))時(shí)一個(gè)測試所需的題量至少為K,即給出了使用最小測試長度K是識別所有屬性掌握模式的充要條件.特別是為了達(dá)到最小測試長度,在測試中的第1項(xiàng)應(yīng)當(dāng)只考察1個(gè)屬性,隨后的題目依次添加1個(gè)新屬性.應(yīng)用Q-最優(yōu)準(zhǔn)則選擇CD-CAT前K個(gè)題目的具體過程如下:
1)初始化題庫R(0);
2)為被試i從R(0)中隨機(jī)選題j,使得題目j的q向量qj=e1.通過刪除題目j來更新R(0),即R(0)=R(0)-{j};
3)被試作答題目j,并記錄反應(yīng)向量yi;
5)對被試施測題目j′,通過y(k)=(yk-1,y(k))更新反應(yīng)向量;
6)令k=k+1,重復(fù)步驟4)~步驟5)直至k=K.
文獻(xiàn)[16]基于理想作答反應(yīng)構(gòu)建了非參CD-CAT選題策略,其核心思想是:依據(jù)不同屬性掌握模式在同一個(gè)題目上的理想反應(yīng)存在差異來選擇能夠區(qū)分被試的估計(jì)屬性掌握模式與其他屬性掌握模式的題目.具體算法如下:
dwac=exp(max{da}-dac)/(exp(max(da)-min(da))),
DWIR方法選題過程:1)根據(jù)DWIR選題策略,計(jì)算題庫中剩余題目的DW值,并將在題庫中的最大DW值對應(yīng)的多個(gè)題目組成待選題庫;2)從待選題庫中隨機(jī)選取一題對被試進(jìn)行施測;3)重復(fù)1)、2)的步驟直至滿足測驗(yàn)終止規(guī)則.
C. Tatsuoka[15]提出了變長CD-CAT的經(jīng)驗(yàn)性準(zhǔn)則,即當(dāng)被試屬于某種知識狀態(tài)的后驗(yàn)概率超過設(shè)定的標(biāo)準(zhǔn)時(shí),測驗(yàn)終止.
C.L. Hsu等[10]基于C. Tatsuoka的思想,進(jìn)一步提出了雙重標(biāo)準(zhǔn)的變長CD-CAT終止規(guī)則,即當(dāng)被試在某種知識狀態(tài)下的最大后驗(yàn)概率P1st不低于某個(gè)預(yù)設(shè)水平(如0.7),并且第2后驗(yàn)概率P2nd不高于某個(gè)預(yù)設(shè)水平(如0.1)時(shí),測驗(yàn)終止.
在Hsu方法中采用后驗(yàn)概率作為終止測驗(yàn)的精度指標(biāo),其原理是若某種屬性掌握模式的后驗(yàn)概率越大則這種屬性掌握模式就越可能是被試的真實(shí)知識狀態(tài).已有研究[24-26]表明:與觀察反應(yīng)的距離越小的理想反應(yīng)所對應(yīng)的屬性掌握模式越可能是被試真正的屬性掌握模式.文獻(xiàn)[16]采用距離權(quán)重的方式用于衡量每個(gè)屬性掌握模式是被試真實(shí)知識狀態(tài)的可能性,屬性掌握模式dwac越大的更有可能是被試的真正屬性掌握模式.不難看出,非參數(shù)的dwac同樣能夠作為終止測驗(yàn)的精度指標(biāo),同時(shí)受C. Tatsuoka[15]啟發(fā),本文首先提出最大距離比例終止規(guī)則.最大距離比例d1st計(jì)算如下:
其中M為潛在的屬性掌握模式的種數(shù),m1為在M種潛在的屬性掌握模式中dw值最大所對應(yīng)的屬性掌握模式.可以看出,m1的dw值占比越大,d1st的值將會越大.
最大距離比重終止規(guī)則:當(dāng)被試屬于某種屬性掌握模式的最大距離比例d1st超過設(shè)定的標(biāo)準(zhǔn)時(shí),測驗(yàn)終止.
在文獻(xiàn)[15]的基礎(chǔ)上,C.L. Hsu等[10]提出了采用雙重標(biāo)準(zhǔn)的終止規(guī)則以進(jìn)一步確保測量精度.因此,本文在非參數(shù)視角下的最大距離比例d1st基礎(chǔ)上進(jìn)一步結(jié)合第2大距離比例d2nd,提出了距離比例雙重標(biāo)準(zhǔn)法.
準(zhǔn)則1當(dāng)最大距離比例d1st不小于預(yù)定值(如0.70)時(shí),CD-CAT停止.
準(zhǔn)則2當(dāng)最大的非參數(shù)比例d1st不小于預(yù)定值(如0.70),并且第2大距離比例d2nd也不大于預(yù)定值(如0.10)時(shí),CD-CAT停止.
在準(zhǔn)則2中考慮d2nd,這可以有效避免2個(gè)競爭的屬性掌握模式.如假設(shè)d1st的預(yù)定值設(shè)置為0.60,使用準(zhǔn)則1,當(dāng)d1st達(dá)到0.60時(shí),CD-CAT停止,此時(shí)d2nd可能仍然很高(如接近0.20).若是這樣,則會出現(xiàn)2個(gè)相互競爭的屬性掌握模式,這2個(gè)屬性掌握模式均有較高的可能性是被試的真實(shí)屬性掌握模式.解決這個(gè)問題的一種方法是將d1st的預(yù)定值從0.60增加到0.90,當(dāng)CD-CAT只有對測驗(yàn)結(jié)果非常有信心時(shí),CD-CAT才會停止.有時(shí)候,這種程度的自信可能是不必要的.解決這個(gè)問題的另一種方法是將d2st設(shè)定一個(gè)標(biāo)準(zhǔn),如只有當(dāng)d1st不小于0.60且d2nd不大于0.20時(shí),CD-CAT才能停止.盡管在理論上可以在第3種或其他d上設(shè)置另一種標(biāo)準(zhǔn),但根據(jù)筆者的經(jīng)驗(yàn),考慮第1和第2大非參數(shù)比例就足夠了.
通過模擬研究檢驗(yàn)MDRM和DRDSM在0-1計(jì)分情境中作為變長終止規(guī)則是否具有良好的性能.
該研究采用2選題方法(NPS、DWIR)×4測驗(yàn)終止規(guī)則(Tatsuoka、Hsu、MDRM、DRDSM)×3題庫質(zhì)量(HD、LD、HyD)×2屬性掌握模式分布(均勻分布、多元正態(tài)分布)共48個(gè)條件生成數(shù)據(jù)進(jìn)行模擬研究,其中選題方法為組內(nèi)變量,其余變量為組間變量.
終止標(biāo)準(zhǔn)設(shè)置:在MDRM和DRDSM中d1st包含2個(gè)水平(0.80和0.90);DRDSM的d2nd包含4個(gè)水平(1.00、0.20、0.10、0.05).在Tatsuoka和Hsu法中P1st同樣包含2個(gè)水平(0.80和0.90),Hsu法P2nd包含4個(gè)水平(1.00、0.20、0.10、0.05),在計(jì)算P1st和P2nd時(shí),采用生成參數(shù)真值計(jì)算.
在題庫方面,研究參照Chang Yuanpei等[12]的研究設(shè)計(jì)思路,項(xiàng)目庫由J=300個(gè)項(xiàng)目組成,其中150項(xiàng)目遵守了DINA模型和其他150項(xiàng)目符合RRUM;高質(zhì)量題庫(HD)項(xiàng)目的猜測和滑動(dòng)均服從均勻分布U(0.10,0.20),低質(zhì)量題庫(LD)項(xiàng)目的猜測和滑動(dòng)均服從均勻分布U(0.20,0.30),混合質(zhì)量庫(HyD)項(xiàng)目的猜測和滑動(dòng)均服從均勻分布U(0.05,0.25).在模擬研究中,以0.3的概率考察每個(gè)屬性生成題目的Q向量.
在模擬被試方面,模擬被試2 000人,分別服從2種屬性掌握模式分布.1)被試的屬性掌握模式由均勻分布(每個(gè)屬性掌握模式的概率為1/2K)生成;2)考生的知識狀態(tài)服從協(xié)方差為0.5的多元正態(tài)(MVN)分布[27].研究設(shè)定最大測驗(yàn)長度為50題,若被試施測50題后仍未達(dá)到測驗(yàn)終止的要求,則仍然終止測驗(yàn).
評價(jià)指標(biāo)采用屬性掌握模式判準(zhǔn)率:
其中Ri表示被試i的知識狀態(tài)估計(jì)與真值之間一致性,若一致則Ri=1,否則Ri=0,N為測驗(yàn)總?cè)藬?shù).PC為考生知識狀態(tài)估計(jì)正確的比例,PC越大表明對被試整體知識狀態(tài)的估計(jì)越精確.
此外還有平均測驗(yàn)長度(mean test length)和測驗(yàn)長度的標(biāo)準(zhǔn)差(standard deviation).
在CD-CAT中采用Q-最優(yōu)準(zhǔn)則進(jìn)行初始選題,整個(gè)研究用R語言自編所有程序進(jìn)行模擬驗(yàn)證.
表1和表2呈現(xiàn)了在均勻分布下Tatsuoka法、Hsu法、MDRM、DRDSM在0-1計(jì)分情境下的表現(xiàn),由表1和表2可以發(fā)現(xiàn)MDRM是當(dāng)DRDSM的d2nd=1時(shí)的特殊情況;Tatsuoka法是當(dāng)Hsu法的P2nd=1時(shí)的特殊情況.整體而言,NPS和DWIR 在使用距離比例作為終止規(guī)則時(shí)的分類準(zhǔn)確性比后驗(yàn)概率終止規(guī)則更高,但測驗(yàn)長度更長.可以發(fā)現(xiàn)距離比例終止規(guī)則與后驗(yàn)概率終止規(guī)則類似,測驗(yàn)終止條件越苛刻N(yùn)PS和DWIR的分類準(zhǔn)確性越高,不同的是MDRM和DRDSM分別受到的是d1st和d2nd的影響.在HD題庫條件下,d1st取值范圍為0.80~0.90,NPS和DWIR的屬性分類準(zhǔn)確性從0.83增加至0.90,并且在d1st=0.80時(shí),d2nd不同值的PC范圍為0.831~0.977,且隨著d2nd的減小而增大,在后驗(yàn)概率終止規(guī)則下的PC為0.777~0.914.在HyD題庫條件下,NPS和DWIR采用MDRM和DRDSM終止測驗(yàn)的PC的結(jié)果與HD題庫條件的結(jié)果相似,這說明在MDRM、DRDSM中距離比例d1st有后驗(yàn)概率P1st相似的作用:在作為測驗(yàn)終止條件時(shí),減小d1st可以提高測驗(yàn)的屬性分類準(zhǔn)確性.距離比例d2nd與后驗(yàn)概率P2nd有相似的作用:在作為測驗(yàn)終止條件時(shí),減小d2nd可以有效地提高測驗(yàn)的屬性分類準(zhǔn)確性.在LD題庫條件下,NPS和DWIR采用MDRM和DRDSM的屬性分類準(zhǔn)確性與采用Tatsuoka法和Hsu法的結(jié)果相近,特別是當(dāng)d2nd和P2nd減小到0.05時(shí),NPS和DWIR在不同中終止規(guī)則條件下的分類準(zhǔn)確性相差小于0.03,這說明:隨著測驗(yàn)終止的條件愈發(fā)嚴(yán)苛,即d1st和P1st不斷接近1或者d2nd和P2nd不斷接近0,在采用MDRM和DRDSM作為測驗(yàn)終止規(guī)則時(shí)取得的結(jié)果將與在采用后驗(yàn)概率作為終止規(guī)則時(shí)取得的結(jié)果相同.
表1 在0-1計(jì)分和均勻分布條件下的屬性分類準(zhǔn)確性
表2 在0-1計(jì)分和均勻分布條件下測試長度
表2(續(xù))
在測驗(yàn)長度的使用方面,NPS和DWIR的平均測驗(yàn)長度受到d1st、d2nd、P1st和P2nd的影響.總的來說,NPS和DWIR的測驗(yàn)隨著d1st和P1st增大而變長,如在HD題庫條件下,d1st從0.80增至0.90,測驗(yàn)長度增加約為2;P1st從0.80增至0.90,測驗(yàn)長度增加約為3.NPS和DWIR的測驗(yàn)隨著d2nd和P2nd減小而變長,如在HD題庫條件下,d2nd從1.00減至0.05,測驗(yàn)長度增加約為12;P2nd從1.00減至0.05,測驗(yàn)長度增加約為6.觀察表2可以發(fā)現(xiàn):在HyD題庫條件下的結(jié)果與在HD題庫條件的結(jié)果基本相似.在表2中,LD題庫的NPS和DWIR采用MDRM和DRDSM的測驗(yàn)長度與采用Tatsuoka法和Hsu法的測驗(yàn)長度相近,特別是當(dāng)d2nd和P2nd的減小到0.05時(shí),NPS和DWIR在不同中終止規(guī)則條件下的平均測驗(yàn)長度相差小于3.在多元正態(tài)分布下的分類結(jié)果和題庫使用情況與在均勻分布下的均相同,這里不再呈現(xiàn).
通過模擬研究檢驗(yàn)MDRM和DRDSM在混合計(jì)分情境中作為變長終止規(guī)則是否具有良好的性能.
在研究采用2選題方法(NPS、DWIR)×4測驗(yàn)終止規(guī)則(Tatsuoka、Hsu、MDRM、DRDSM)×3題庫質(zhì)量(HD、LD、HyD)×2屬性掌握模式分布(均勻分布、多元正態(tài)分布)共48個(gè)條件生成數(shù)據(jù)進(jìn)行模擬研究,其中選題方法為組內(nèi)變量,其余變量為組間變量.整個(gè)研究除題庫設(shè)置方面與上述研究不同,其他條件相同.
在題庫方面,題目數(shù)量為300,題目的最高分為3分.在高質(zhì)量題庫中題目的猜測參數(shù)和失誤參數(shù)均服從均勻分布U(0.10,0.20),且為隨機(jī)生成;在低質(zhì)量題庫中題目參數(shù)服從均勻分布U(0.20,0.30),且為隨機(jī)生成,混合質(zhì)量庫(HyD)項(xiàng)目的猜測和滑動(dòng)均服從均勻分布U(0.05, 0.25).題目sj和gj分布根據(jù)文獻(xiàn)[21]的設(shè)定,sj單調(diào)遞增,gj單調(diào)遞減,將隨機(jī)生成3個(gè)sj按升序排列,3個(gè)gj按降序排列;在仿真研究中,屬性的層級關(guān)系為獨(dú)立性,在題庫中的題目平均分布到每種測量模式上(在5個(gè)屬性時(shí),題庫有31種測量模式).
在CD-CAT中采用Q-最優(yōu)準(zhǔn)則進(jìn)行初始選題,整個(gè)研究R用語言自編所有程序進(jìn)行模擬驗(yàn)證.
表3和表4呈現(xiàn)了在均勻分布下Tatsuoka法、Hsu法、MDRM、DRDSM在混合計(jì)分情境下的表現(xiàn).整體而言,NPS和DWIR的研究結(jié)果與在0-1計(jì)分情境下的類似,在使用距離比例作為終止規(guī)則時(shí)的分類準(zhǔn)確性比在后驗(yàn)概率終止規(guī)則時(shí)的更高,但測驗(yàn)長度更長.無論是距離比例終止規(guī)則還是后驗(yàn)概率終止規(guī)則,均有:測驗(yàn)終止條件越苛刻,NPS和DWIR的平均測驗(yàn)長度越大,屬性分類準(zhǔn)確性越高;不同的是MDRM和DRDSM分別受到的是d1st和d2nd的影響.同時(shí),從不同題庫條件的結(jié)果中發(fā)現(xiàn):隨著測驗(yàn)終止的條件愈發(fā)嚴(yán)苛,即d1st和P1st不斷增大或者d2nd和P2nd不斷減小,NPS和DWIR在Tatsuoka法和MDRM測驗(yàn)終止規(guī)則條件下的屬性分類準(zhǔn)確率不斷接近;Hsu法的結(jié)果和DRDSM終止條件下的結(jié)果不斷接近.此外,在多元正態(tài)分布下的分類結(jié)果和題庫使用情況與在均勻分布下的均相同,這里不再呈現(xiàn).
表3 在混合計(jì)分和均勻分布條件下的屬性分類準(zhǔn)確性
表4 在混合計(jì)分和均勻分布條件下測試長度
目前大部分非參數(shù)CD-CAT的研究集中于定長終止條件,雖然定長CAT由于固定了測驗(yàn)長度,所以施測較為方便,但是其對不同的被試會有不同的測量精度.一個(gè)更加合理的做法是, 應(yīng)該使CD-CAT形式的測驗(yàn)對每個(gè)被試的測量精度相同,這也正是自適應(yīng)測驗(yàn)的優(yōu)勢所在.為了發(fā)展變長非參數(shù)CD-CAT,本研究嘗試結(jié)合在DWIR方法中的距離權(quán)重構(gòu)建了2種非參數(shù)距離比例終止規(guī)則MDRM、DRDSM,隨后通過模擬研究將采用后驗(yàn)概率終止規(guī)則的Tatsuoka法、Hsu法作為MDRM、DRDSM使用效果參照對象來驗(yàn)證MDRM、DRDSM的性能.
2個(gè)模擬研究的結(jié)果均顯示:本文提出的2種非參數(shù)距離比例終止規(guī)則MDRM、DRDSM獲得的分類準(zhǔn)確率比采用后驗(yàn)概率終止規(guī)則的Tatsuoka法和Hsu法的分類準(zhǔn)確率更高,但其代價(jià)則是需要更多的測驗(yàn)題目.特別是在0-1計(jì)分的情境下MDRM、DRDSM規(guī)則所需的題目數(shù)量更多,這也可能與0-1計(jì)分的計(jì)分規(guī)則所提供的的信息更少有關(guān),此外,這也可能與研究的MDRM、DRDSM中的距離比例計(jì)算有關(guān).在MDRM、DRDSM規(guī)則下,雖然設(shè)置非參數(shù)距離比例d1st、d2nd與后驗(yàn)概率P1st、P2nd相等,但是MDRM、DRDSM達(dá)到終止測驗(yàn)的條件d1st、d2nd更加嚴(yán)苛,從而其需要更多的測驗(yàn)題目,進(jìn)而導(dǎo)致更高的分類準(zhǔn)確率.這是在CAT情境中一直面臨的利益權(quán)衡問題[6-7,11,28].事實(shí)上,在MDRM和DRDSM規(guī)則下分類準(zhǔn)確率的高低與測驗(yàn)長度情況之間的利益權(quán)衡可通過研究設(shè)置給予實(shí)現(xiàn),當(dāng)研究目的在于盡可能獲得更準(zhǔn)確分類結(jié)果時(shí),可增加在MDRM 規(guī)則下的d1st值,或者在DRDSM規(guī)則下增大d1st值和減小d2nd;反之,可以適當(dāng)減少d1st值或者增大d2nd.最后研究也發(fā)現(xiàn):隨著測驗(yàn)終止的條件愈發(fā)嚴(yán)苛,即d1st和P1st不斷接近1或者d2nd和P2nd不斷接近0,在采用MDRM和DRDSM作為測驗(yàn)終止規(guī)則時(shí)的結(jié)果和在采用后驗(yàn)概率作為終止規(guī)則時(shí)的結(jié)果逐漸接近.
本文通過2個(gè)模擬研究檢驗(yàn)了MDRM和DRDSM在非參數(shù)CD-CAT中的使用性能,得出了如下結(jié)論:
1)2種非參數(shù)終止規(guī)則MDRM和DRDSM適用于在0-1計(jì)分和混合計(jì)分下的非參數(shù)CD-CAT測驗(yàn);
2)當(dāng)研究目的在于盡可能獲得更準(zhǔn)確分類結(jié)果時(shí),可在MDRM規(guī)則下增加d1st值,或者在DRDSM規(guī)則下增大d1st值和減小d2nd;反之,可以適當(dāng)減少d1st值或者增大d2nd;
3)測驗(yàn)終止的條件愈發(fā)嚴(yán)苛,即d1st和P1st不斷接近1或者d2nd和P2nd不斷接近0,在采用MDRM和DRDSM作為測驗(yàn)終止規(guī)則時(shí)的結(jié)果和在采用后驗(yàn)概率作為終止規(guī)則時(shí)的結(jié)果逐漸接近.