劉霖 戴經(jīng)國 袁輝勇
摘要:當(dāng)前,在線測評系統(tǒng)得到廣泛應(yīng)用,選題策略成為發(fā)揮系統(tǒng)效能的關(guān)鍵,傳統(tǒng)的選題策略存在檢驗精度不夠、試題曝光不均衡,題庫安全性差等不足,論文提出一種新的自適應(yīng)選題策略,先對題庫進(jìn)行基于難度的分區(qū),區(qū)內(nèi)再按區(qū)分度二次分層,建立相應(yīng)選擇量模型,通過反饋機制,選出信息量最大的試題。實驗表明新策略在保證檢測效能的前提下有效地降低了試卷重復(fù)率,保證了題庫的安全性。
關(guān)鍵詞:自適應(yīng)策略;信息量;隨機抽樣法
中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2019)32-0007-04
目前,計算機教學(xué)中廣泛采用在線訓(xùn)練平臺與個性化隨機測試相結(jié)合。測試過程中,如何有效地進(jìn)行試題選擇成為考評檢驗學(xué)生學(xué)習(xí)效果的關(guān)鍵,然而傳統(tǒng)的自適應(yīng)試題生成策略存在著試題曝光率過高、試卷重復(fù)、檢驗效果不佳等不如人意的地方,影響到系統(tǒng)的有效利用及學(xué)生學(xué)習(xí)效果檢驗。因此,提出一種改進(jìn)的選擇策略成為在線訓(xùn)練平臺的關(guān)鍵。
1經(jīng)典的試題選擇策略
選題策略是計算機自適應(yīng)測驗中最關(guān)鍵的部分。自適應(yīng)測驗過程中,系統(tǒng)會根據(jù)使用者的表現(xiàn)從測驗題庫中選擇最合適的項目進(jìn)行。廣泛應(yīng)用的在線選題策略主要有:最大信息量法和a分層法。
其中a代表了試題的區(qū)分度,c用于對不確定因素的估值,稱為猜測因子,b用于表示試題的難度。從以上模型提示項目正比于區(qū)分度,反比于猜測因子,試題難度越高越能檢驗使用者的真實能力。最大信息量策略的核心是通過收集使用者的能力信息,然后再在未選擇的試題中選擇最大信息量試題。此策略過程為收集使用者的相關(guān)測試結(jié)果,如果初次使用則可以預(yù)設(shè)定一個能力初值,依能力值對未選擇的試題計算信息量,選出最大信息量的試題供測試者使用,再依據(jù)使用試題的結(jié)果進(jìn)行反饋,重新估計能力值,按新的能力值再對選定的試題進(jìn)行排序,選擇直到滿足結(jié)束條件為止。
此策略應(yīng)用十分廣泛,在此基礎(chǔ)上,研究者也對策略進(jìn)行了進(jìn)一步的改善,主要有極大加權(quán)信息量法、最大全局信息量法,貝葉斯法等。此類策略試題區(qū)分度與試題信息量成正比,在難度與猜測因子確定的條件下,此策略會優(yōu)先選擇高區(qū)分度的試題。實際使用過程中試題的利用率不均衡,過多使用的試題容易過早暴露于后繼使用者面前,造成檢驗結(jié)構(gòu)失真。
1.2 a分層法
a分層策略先對試題按區(qū)分度等級進(jìn)行劃分區(qū)間。策略對試題的選擇過程是:由先驗數(shù)據(jù)估計使用者的能力值(即使用者的能力特征),無先驗數(shù)據(jù)者可以預(yù)估一個值;由使用者的檢測步數(shù)值從對應(yīng)的分層中選擇試題。依據(jù)選擇的試題難度與使用者能力值的匹配度,并把此匹配度反饋給使用者。由反饋結(jié)果再調(diào)整選擇合適的分層再選出試題。反復(fù)循環(huán),直到滿足停止條件。a分層可以避免高區(qū)分度試題過度選中,有利于較好的檢測出使用者的能力。另外,使用過程中,每次要對題庫中沒使用的試題計算信息量,增加了資源消耗。
a分層策略在進(jìn)行層次劃分時沒考慮試題參數(shù)之間的相關(guān)性,它對試題理想化為每個分層中均會有不同難度的試題供選擇,但實際應(yīng)用中高區(qū)分度分層中通常高難度試題較多,高區(qū)分度區(qū)間中難找到低難度試題,無法保證檢測試題的平衡控制,檢驗精度比最大信息量法差,同時實際使用過程中,由于計算量大,a分層策略效率更低。
2一種新的自適應(yīng)選題策略
2.1設(shè)計思想
選題策略中,信息量能較好地反映出使用者的能力,最大信息量法具有較好的能力檢驗度,但高區(qū)分度的試題過度使用,不利于題庫的安全。a分層策略降低了測試精度。隨后研究者提出了信息量分層法與漸近信息量法(GMIR)作為改進(jìn)策略.漸進(jìn)信息量法和信息量分層法是自適應(yīng)選題策略的變種。
M表示模型中測試總步數(shù),已經(jīng)完成的步數(shù)用m表示,θm-1對應(yīng)測試步數(shù)為m-1時反映出來的能力得分,a、b、c分別代表試題的區(qū)分度、難度和猜測因子。每次使用時總是計算模型左側(cè)值最大的試題作為被選試題提供給使用者。
為了進(jìn)一步優(yōu)化使用效果,研究者在a分層基礎(chǔ)上提出試題信息量分層,每次試題難度和使用者能力值最吻合的試題被選中。以上的思想均是在測評準(zhǔn)確度與選題曝光率上進(jìn)行改進(jìn)。
受此啟發(fā),新方法基于難度與區(qū)分度進(jìn)行多級分層,信息量(精度)正比于試題區(qū)分度,試題難度與使用者能力如果吻合越好,信息量(精度)會越大;對于題庫,統(tǒng)計上有如下規(guī)律:試題呈現(xiàn)正態(tài)分布,在(-3,3)區(qū)間內(nèi)使用者的能力與難度相吻合,信息量最大,測試最準(zhǔn)確,但通常試題題庫較大,每次匹配會耗費大量時間。因此,使用分層的方式,依據(jù)難度進(jìn)行題庫分層,即先按難度進(jìn)行一級分層以優(yōu)化選題效率,并有利于使用者的能力值與難度進(jìn)行匹配,然后再依據(jù)區(qū)分度進(jìn)行二次分層,通過二次分層保證試題處于合理的曝光次數(shù)下,有效的提升選題測驗的精度。
2.2策略設(shè)計
新方法在使用過程中先基于難度分層,可記為難度b分層,能使難度均勻分布,二次分層考慮曝光率,解決了題庫的安全暴露問題,提高了題庫的安全性,同時也保證了低區(qū)分度試題的有效利用性。再通過策略模型選擇合適的試題。
依托反應(yīng)理論中定義的選題策略信息量,精度可由信息量體現(xiàn),自適應(yīng)選題策略信息量可以用每個試題的信息量與其概率積的累加和表示,如公式(5)。
此模型中項目i的信息量用Ii(2)表示,試題(項目)的£越大,越有可能被抽中,因子的引入用以調(diào)節(jié)高區(qū)分度試題的曝光率,使其在合理范圍內(nèi),也讓低區(qū)分度的試題能合理利用,同時保證了試題形成的檢驗有效性。
2.3算法實現(xiàn)
使用時先對試題題庫進(jìn)行兩級分層,先按難度分層,檢驗步數(shù)設(shè)為N,則難度分層數(shù)k滿足N<=k<=2N,難度分層可以使用如下兩種方法:1)等量難度劃分;2)等距難度劃分。等量難度劃分保證了項目數(shù)相等,但需要關(guān)注可能存在難度跨度不均衡性問題,等距劃分保證難度值均衡,但需要關(guān)注項目數(shù)分布均衡性問題,防止出現(xiàn)部分項目曝光過高問題,具體情況視應(yīng)用題庫不同而選擇。二級分層依據(jù)項目區(qū)分度a進(jìn)行,采用等量劃分方式,其層內(nèi)項目數(shù)可計算為每層的項目總數(shù)除以分層數(shù)k:
m=M1/K(21)
新策略算法可做如下簡要描述:
(1)無反饋時,設(shè)置使用者初始能力值,初始區(qū)分度層c為1,如有反饋結(jié)果,則難度分層G與區(qū)分度層c所對應(yīng)的層數(shù)按反饋結(jié)果得出,難度層G取得與能力值相對應(yīng)的層數(shù)。
(2)在G與C層中選出試題,記錯誤次數(shù)W=0,按模型計算分層項目的曝光率與信息量。
(3)按模型計算出對應(yīng)分層中所有項目(試題)的選擇量,把選擇量最大的項目推薦給使用者。
(4)用戶使用推薦項目進(jìn)行測評,并依據(jù)所選項目情況計算使用者能力值。
(5)若使用者測試結(jié)果正確,則G層數(shù)與c層數(shù)分別加1,若使用者測試結(jié)果錯誤,則錯誤標(biāo)ii2W=W+1,若w=2,降低難度G=G-1,若G=0,則設(shè)置G=1,若R=1,則改變二級分層數(shù)C=C+1。
(6)判斷難度層G與區(qū)分層c,苦c,>K(層數(shù))則中止,算法結(jié)束,否則反饋檢驗結(jié)果轉(zhuǎn)步1。
其流程圖如圖1。
3實驗測試
3.1實驗方法
新策略的真實環(huán)境檢驗需要組織大量人員進(jìn)行不同策略的選題試驗,開銷極大,并且耗時較長。因此,本策略采用蒙特卡洛模擬法進(jìn)行驗證。各策略的理論基礎(chǔ)是項目反應(yīng)理論,而依據(jù)此理論,難度、區(qū)分度、猜測因子均滿足概率分布,使用者的能力也滿足(-3,3)的正態(tài)分布。項目反應(yīng)理論的使用者能力值是在某個項目中的概率預(yù)測,所以其選題及答題也可以用隨機抽樣方法進(jìn)行模擬,也即蒙特卡洛方法模擬驗證嘲。
蒙特卡洛模擬屬于統(tǒng)計方法或者隨機抽樣方法對策略的應(yīng)用進(jìn)行模擬,實驗中依據(jù)試題的概率分布情況,生成滿足實際概率分布情況的隨機數(shù),以策略選題模型得出各隨機數(shù)的選取情況從而推導(dǎo)出各策略的近似解。其精度取決于樣本點的大小,生成的隨機數(shù)不能具有關(guān)聯(lián)性,樣本越大越精確,通常考慮計算代價與精度,會生成適量的隨機樣本點。
本案實驗過程描述為:(1)在(-3,3)區(qū)間生成500個正態(tài)分布的隨機能力值;(2)正態(tài)分布區(qū)間(-3,3)中生成不同項目難度數(shù)1000個,項目隨機區(qū)分度在0-1中隨機生成;(3)選中一個還沒使用的模擬能力值;(4)以此能力值為依據(jù)進(jìn)行選題測試;(5)以能力值模擬進(jìn)行多種策略選題;(6)記錄各測驗數(shù)據(jù),如果所有能力值被使用完成,則結(jié)束,否則轉(zhuǎn)(3)。實驗效果從策略中的關(guān)鍵參數(shù)進(jìn)行比較得到驗證。
3.2實驗結(jié)果
實驗表明最大信息量法平均誤差與均方誤差均最小,但其需要在選題時有全部信息,通常作為理想狀態(tài),可以作為其他策略的參照。a分層策略有較好誤差值,從方差看其廣泛使用時誤差更大,效果不好,具有隨機性。漸進(jìn)最大信息量法比a分層法更好;新策略雖然誤差平均值相比最大信息量法略差優(yōu)于其他策略,但方差比較小,說明平均而言,其精度是最高的。
(2)曝光率
測試時對試題按區(qū)分度進(jìn)行排序,區(qū)分度越高,編號越靠后,對每種策略測試其試題曝光率,實驗結(jié)果見圖3。
實驗結(jié)果表明,最大信息量法曝光率過于集中,a分層法在試題的曝光率較好,新策略曝光率較均衡,同一難度區(qū)間內(nèi)存在二次分層中有小部分曝光率偏高,但不突出,能保證試卷的有效利用與安全性。
(3)試題測驗效率
用以體現(xiàn)測驗過程中提供的信息量指標(biāo),以測評試題反映學(xué)生(測試者)真實能力的水平參數(shù)。此參數(shù)用試題測驗過程中,提供信息量的平均值,用如下公式計算:
3.3實驗結(jié)論
綜上,新策略在曝光率、曝光均衡性方面均優(yōu)于最大信息量法,同時具有較好的檢驗效果。新策略在測驗精度和準(zhǔn)確度上與最大信息量法相比差距并不大,優(yōu)于其他策略,但是卻大幅改進(jìn)了最大信息量法部分項目高曝光率和高區(qū)分度項目重復(fù)率高問題,保證了題庫的安全性。全面考慮后,新策略具有較好的綜合優(yōu)越性,具有較好的應(yīng)用價值。
4結(jié)論
選題策略是影響在線測評系統(tǒng)有效性的基礎(chǔ)。文章針對傳統(tǒng)選題策略存在的不足,提出了基于難度分層后結(jié)合區(qū)分度分層的方式對題庫進(jìn)行多級分層,依據(jù)相關(guān)理論建立模型,基于模型選擇最大信息量的試題給使用者。本方案能結(jié)合a分層法與最大信息量法的優(yōu)點,在確保測量的準(zhǔn)確性與精度的基礎(chǔ)上降低了最大信息量法的曝光率與均衡性,有效地降低試題的重復(fù)次數(shù),綜合性能最優(yōu)。為在線測評系統(tǒng)發(fā)揮更大效果奠定了基礎(chǔ)。