楊文清 江西工業(yè)職業(yè)技術(shù)學(xué)院
計算機化自適應(yīng)測驗(Computerized Adaptive Testing,CAT)是利用計算機自的能力模型的計算結(jié)果的挑選適合測試者的能力水平的來進行的。而基于GRM 模型的CAT一直以來都受到眾多研究者青睞。如何在固定考試題目的考試中用盡可能少的時間而又精準的來測量出受測者的能力一直是研究者不懈努力的核心。
最大Fisher 信息量選題策略(MFI)是指選題時根據(jù)被試的能力估計值,計算題庫中剩余試題的Fisher 信息量,然后從中選取Fisher信息量最大的試題作為被試的下一道測試題的一種選題策略。其數(shù)學(xué)表達式為:
其中:R 為題庫中尚未選中作答的試題的集合;
Ij(θ)為Fisher 信息函數(shù);
Pj(θ)表示項目j 的被試反應(yīng)函數(shù);
P'j(θ)表示被試反應(yīng)函數(shù)對能力θ的一階導(dǎo)數(shù)。
在基于Fisher 信息量的選題策略中,削弱區(qū)分度在信息量中的影響或是通過指數(shù)函數(shù)都可以達到提高項目使用的均勻性、提升題庫的安全性的目的。所以,我們對于信息量函數(shù)進行指數(shù)運算,其指數(shù)值選擇黃金分割比值,同時,加強對于曝光因子的影響。由此得到一個新的選題策略:
其中:L(i)為到第i 個被試為止當前被試已作答試題個數(shù);
本實驗?zāi)M出一個擁有1000 個測試項目的題庫,模擬1000 個不同能力的被試參加考試。每個測試項目有設(shè)為5 個難度等級,其難度程度遞增。采用兩種不同的題庫類型對新策略進行優(yōu)劣進行分析。
本次實驗采用定長測試,測驗的項目數(shù)目定為24。對比中分層類的選題策略,每層選擇6 個測試項目對被試進行測試,共4 層,每層的項目數(shù)之比為4:3:2:1,,對題庫按區(qū)分度a 升序排序。
模擬實驗中,通過能力估計準確值(ABS)、能力估計準確差(Se)、項目調(diào)用均勻性(De)、χ2檢驗統(tǒng)計、測驗效率(Eff)、測試重疊率評價指標(Rt)來揭示選題策略的優(yōu)劣性。
基于GRM 模型的不定長實驗結(jié)果如下表:
表1 題庫2:a~U[0.2,2.5],b~U[-3,3]
表2 題庫3:lna~N(0.1),b~N(0,1),且a ∈[0.2,2.5],b ∈[3,3]
由上表可知,新策略在項目的調(diào)用的均勻性和χ2檢驗統(tǒng)計量上的有顯著的改善,特別是χ2檢驗統(tǒng)計值相比其他的選題策略降低了一半,但是新策略在提高了題庫的安全性的同時,測量的精度下降了。
新策略在項目調(diào)用的均勻性和χ2檢驗統(tǒng)計量上相較于傳統(tǒng)的多級評分選題策略還是有較大的改善,并且在測量精度上雖然沒有提高,但是整體的指標比較均衡等,造成這種情況主要是由于測試的長度固定,而新的選題策略對曝光因子的加強,使得信息量小的常常被選中,而項目提供的信息量越小,該測驗在評價該被試能力水平時越不精確。