許 嘉,韋婷婷,于 戈,黃欣悅,呂 品,2,3
1.廣西大學(xué)計(jì)算機(jī)與電子信息學(xué)院,南寧530004
2.廣西大學(xué)廣西多媒體通信網(wǎng)絡(luò)技術(shù)重點(diǎn)實(shí)驗(yàn)室,南寧530004
3.廣西大學(xué)廣西高校并行與分布式計(jì)算重點(diǎn)實(shí)驗(yàn)室,南寧530004
4.東北大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,沈陽(yáng)110819
考試是區(qū)分學(xué)生能力和選拔人才的重要手段,在教育領(lǐng)域發(fā)揮著至關(guān)重要的作用。試卷質(zhì)量的好壞對(duì)考試公平性有直接影響。而題目難度是影響試卷質(zhì)量的核心因素,因?yàn)檫^(guò)于簡(jiǎn)單或者過(guò)于困難的題目都無(wú)法很好地支撐學(xué)生能力的區(qū)分和人才的選拔??梢?jiàn),題目難度評(píng)估是保障考試公平性需要解決的重要問(wèn)題之一。與此同時(shí),題目難度評(píng)估也在智能教育領(lǐng)域中發(fā)揮著重要作用,為智能組卷、題目自動(dòng)生成和個(gè)性化習(xí)題推薦等多項(xiàng)智能教育領(lǐng)域的核心任務(wù)提供有效支撐。鑒于此,本文對(duì)近年來(lái)題目難度評(píng)估相關(guān)的研究工作進(jìn)行了深入調(diào)研和分析,以期為相關(guān)領(lǐng)域的研究學(xué)者提供幫助。
在對(duì)題目難度評(píng)估的相關(guān)研究工作進(jìn)行深入討論之前,首先澄清三個(gè)術(shù)語(yǔ)——題目、試題和習(xí)題之間的區(qū)別和聯(lián)系。根據(jù)應(yīng)用領(lǐng)域的不同,題目可以被稱(chēng)為試題(當(dāng)其應(yīng)用于考試時(shí))或習(xí)題(當(dāng)其應(yīng)用于課后練習(xí)時(shí))??梢?jiàn),試題和習(xí)題是題目在不同應(yīng)用場(chǎng)景下的不同表述。因此本文用術(shù)語(yǔ)“題目”統(tǒng)一指代術(shù)語(yǔ)“試題”和“習(xí)題”。
經(jīng)典測(cè)試?yán)碚摚╟lassical test theory,CTT)將題目難度定義為正確回答該題的學(xué)生占總體學(xué)生的比率。佟威等人認(rèn)為基于題目文本獲得的題目難度可稱(chēng)為題目的絕對(duì)難度。Zhu 等人則認(rèn)為題目難度是對(duì)題目?jī)?nèi)容復(fù)雜性的度量。此外,Teusner 等人認(rèn)為不同學(xué)生對(duì)題目的感知難度與學(xué)生的知識(shí)狀態(tài)水平密切相關(guān)。同時(shí),Gan 等人也認(rèn)為存在由學(xué)生知識(shí)狀態(tài)水平而決定的題目相對(duì)難度。上述對(duì)于題目難度的理解可歸于兩種觀(guān)點(diǎn):第一種觀(guān)點(diǎn)認(rèn)為題目難度是題目本身特性(例如題型和題目?jī)?nèi)容等)的反映,本文稱(chēng)之為題目的絕對(duì)難度;第二種觀(guān)點(diǎn)則認(rèn)為題目難度是學(xué)生個(gè)體知識(shí)狀態(tài)水平的反映,應(yīng)該通過(guò)學(xué)生與題目之間的答題交互表現(xiàn)來(lái)量化題目難度,本文稱(chēng)之為題目的相對(duì)難度。本文將題目難度分為絕對(duì)難度和相對(duì)難度兩方面分別進(jìn)行討論。
題目難度評(píng)估是當(dāng)下教育領(lǐng)域的研究熱點(diǎn),雖然近三年來(lái)已有5 篇綜述類(lèi)論文對(duì)題目難度評(píng)估的相關(guān)研究工作進(jìn)行了分析總結(jié),然而本文和這些論文具有顯著區(qū)別并作出了新的貢獻(xiàn)。其中,文獻(xiàn)[16-18]一方面只針對(duì)經(jīng)典的知識(shí)追蹤模型進(jìn)行了介紹和分析,沒(méi)有討論題目難度評(píng)估的其他模型方法;另一方面,沒(méi)有覆蓋近兩年最新發(fā)表的眾多知識(shí)追蹤模型。文獻(xiàn)[19]僅對(duì)題目絕對(duì)難度的研究方法進(jìn)行了分析,沒(méi)有涉及對(duì)題目相對(duì)難度研究方法的總結(jié)。文獻(xiàn)[20]則主要分析了基于深度學(xué)習(xí)方法的知識(shí)追蹤模型,沒(méi)有討論除深度學(xué)習(xí)方法之外的知識(shí)追蹤模型。綜上,已有的綜述類(lèi)論文要么只關(guān)注于題目絕對(duì)難度評(píng)估相關(guān)的研究工作,要么只是針對(duì)題目相對(duì)難度評(píng)估所涉及的知識(shí)追蹤模型進(jìn)行了分析總結(jié),均沒(méi)有以整個(gè)題目難度評(píng)估領(lǐng)域?yàn)橐暯菍?duì)近年來(lái)的研究進(jìn)展進(jìn)行系統(tǒng)的梳理、對(duì)比和分析。本文不但系統(tǒng)總結(jié)了題目難度評(píng)估領(lǐng)域的最新研究進(jìn)展,還基于同一個(gè)公開(kāi)數(shù)據(jù)集對(duì)近年來(lái)最受關(guān)注的基于深度學(xué)習(xí)的題目相對(duì)難度評(píng)估方法中的典型模型進(jìn)行了實(shí)驗(yàn)對(duì)比和分析,從而讓讀者對(duì)這些模型有深入的理解。
本文以整個(gè)題目難度評(píng)估領(lǐng)域?yàn)橐暯?,分析總結(jié)了該領(lǐng)域的研究現(xiàn)狀,主要貢獻(xiàn)包括:
(1)對(duì)近十年來(lái)題目難度評(píng)估的相關(guān)研究工作進(jìn)行了統(tǒng)計(jì)、比較和分類(lèi);
(2)以題目絕對(duì)難度預(yù)測(cè)和題目相對(duì)難度預(yù)測(cè)為分類(lèi)框架對(duì)相關(guān)研究工作進(jìn)行了分類(lèi)討論;
(3)對(duì)近年來(lái)最受關(guān)注的基于深度學(xué)習(xí)的題目相對(duì)難度評(píng)估模型進(jìn)行了實(shí)驗(yàn)對(duì)比和分析;
(4)對(duì)題目難度預(yù)測(cè)的相關(guān)數(shù)據(jù)集、題目難度預(yù)測(cè)方法中典型的信息提取方法、模型的評(píng)價(jià)指標(biāo)和訓(xùn)練標(biāo)簽進(jìn)行了系統(tǒng)總結(jié)。
傳統(tǒng)教育中的題目絕對(duì)難度評(píng)估方法包括預(yù)測(cè)試和專(zhuān)家評(píng)估。預(yù)測(cè)試是指在題目未被應(yīng)用到考試前組織一部分學(xué)生對(duì)所有的題目進(jìn)行提前測(cè)試,再根據(jù)學(xué)生在測(cè)試中的答題表現(xiàn)統(tǒng)計(jì)每道題目的難度。預(yù)測(cè)試方法常被應(yīng)用于雅思、托福等考試中。易知,預(yù)測(cè)試法的局限性:(1)其得到的題目難度與參加預(yù)測(cè)試的學(xué)生的知識(shí)能力水平緊密相關(guān);(2)存在題目泄露的風(fēng)險(xiǎn);(3)參與預(yù)測(cè)試的學(xué)生規(guī)模一般要求比較大,導(dǎo)致較多人力和財(cái)力的消耗。專(zhuān)家評(píng)估則由命題經(jīng)驗(yàn)豐富的領(lǐng)域?qū)<一蚪處煂?duì)題目難度進(jìn)行評(píng)估。由于專(zhuān)家或教師的評(píng)估結(jié)果帶有主觀(guān)性,這無(wú)疑會(huì)影響題目難度評(píng)估的穩(wěn)定性。
在教育心理學(xué)領(lǐng)域,經(jīng)典測(cè)試?yán)碚撘惨詫W(xué)生的測(cè)試結(jié)果作為題目難度的評(píng)估依據(jù)。然而,由于該理論存在假設(shè)性強(qiáng)且某些參數(shù)在理論上具有意義卻很難在實(shí)際中計(jì)算得到等問(wèn)題,在經(jīng)典測(cè)試?yán)碚摰倪\(yùn)用中通常只是簡(jiǎn)單以題目得分率或通過(guò)率作為題目難度的取值。
鑒于目前已有不少題目絕對(duì)難度的評(píng)估方法被提出,一些文獻(xiàn)對(duì)這些題目絕對(duì)難度評(píng)估方法進(jìn)行分類(lèi)。其中,以文獻(xiàn)[19]的分類(lèi)策略最為細(xì)致全面。文獻(xiàn)[19]將題目絕對(duì)難度評(píng)估方法分為認(rèn)知法和系統(tǒng)方法。首先,認(rèn)知法認(rèn)為題目的絕對(duì)難度是學(xué)生正確回答該題所需要的認(rèn)知能力,進(jìn)一步可分為啟發(fā)式法和教育分類(lèi)法。啟發(fā)式法又被稱(chēng)為專(zhuān)家評(píng)估法,其依賴(lài)于領(lǐng)域?qū)<覍?duì)題目難度進(jìn)行評(píng)估和確定;教育分類(lèi)法則利用認(rèn)知模型(例如Bloom 分類(lèi)模型)評(píng)估題目的絕對(duì)難度。題目絕對(duì)難度評(píng)估方法的另一大分支系統(tǒng)方法利用各種計(jì)算機(jī)技術(shù)(例如自然語(yǔ)言處理技術(shù))來(lái)量化題目絕對(duì)難度,以減少難度量化過(guò)程中的人為干預(yù),又可分為統(tǒng)計(jì)法和數(shù)據(jù)驅(qū)動(dòng)法。以經(jīng)典測(cè)試?yán)碚摓榇淼慕y(tǒng)計(jì)法以學(xué)生們的歷史答題數(shù)據(jù)為輸入并利用統(tǒng)計(jì)模型量化得到題目絕對(duì)難度值。系統(tǒng)法中的數(shù)據(jù)驅(qū)動(dòng)法可進(jìn)一步分為基于規(guī)則的方法和基于機(jī)器學(xué)習(xí)的方法。其中,基于規(guī)則的方法利用專(zhuān)家制定的規(guī)則來(lái)計(jì)算題目的絕對(duì)難度?;跈C(jī)器學(xué)習(xí)的方法則是以題目的題干、選項(xiàng)等信息作為題目特征,以題目已知的難度信息作為標(biāo)簽進(jìn)而利用機(jī)器學(xué)習(xí)模型構(gòu)建題目絕對(duì)難度預(yù)測(cè)模型,是目前題目絕對(duì)難度評(píng)估的主流方法。經(jīng)過(guò)統(tǒng)計(jì)分析,本文在文獻(xiàn)[19]提出的題目絕對(duì)難度方法分類(lèi)策略的基礎(chǔ)上進(jìn)一步將基于機(jī)器學(xué)習(xí)方法細(xì)分為基于傳統(tǒng)機(jī)器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。圖1 展示了本文的分類(lèi)策略。鑒于基于機(jī)器學(xué)習(xí)方法是當(dāng)今題目絕對(duì)難度評(píng)估的主流技術(shù),本文將在第2 章詳細(xì)討論其研究現(xiàn)狀。
圖1 題目絕對(duì)難度評(píng)估的方法分類(lèi)Fig.1 Classification of approaches for question absolute difficulty evaluation
教育心理學(xué)領(lǐng)域提出的認(rèn)知診斷理論是近年來(lái)解決題目相對(duì)難度評(píng)估問(wèn)題的主流方法。認(rèn)知診斷是對(duì)個(gè)體認(rèn)知過(guò)程、加工技能或知識(shí)結(jié)構(gòu)的診斷評(píng)估。在被運(yùn)用于題目難度評(píng)估時(shí),認(rèn)知診斷首先以學(xué)生答題數(shù)據(jù)為輸入對(duì)該生的知識(shí)狀態(tài)水平進(jìn)行診斷,之后基于診斷結(jié)果評(píng)估某道題目對(duì)于該生的相對(duì)難度。認(rèn)知診斷被分為靜態(tài)認(rèn)知診斷(忽略時(shí)間因素)和動(dòng)態(tài)認(rèn)知診斷(考慮時(shí)間因素對(duì)學(xué)生知識(shí)狀態(tài)水平的診斷結(jié)果的影響)。
靜態(tài)認(rèn)知診斷假設(shè)學(xué)生的知識(shí)狀態(tài)水平在一定時(shí)間內(nèi)是固定不變的,其利用學(xué)生的答題數(shù)據(jù)對(duì)學(xué)生的知識(shí)狀態(tài)水平進(jìn)行評(píng)估,進(jìn)而評(píng)估題目對(duì)學(xué)生的相對(duì)難度。作為靜態(tài)認(rèn)知診斷模型的代表,項(xiàng)目反應(yīng)模型(item response model,IRM)和DINA 模型(deterministic input,noisy“and”gate model)都常被用于量化題目的相對(duì)難度。其中,項(xiàng)目反應(yīng)模型首先基于學(xué)生的答題結(jié)果計(jì)算學(xué)生的能力參數(shù)和題目的特性參數(shù)(包括絕對(duì)難度、區(qū)分度、猜測(cè)度),再以這些參數(shù)作為L(zhǎng)ogistics 函數(shù)的輸入來(lái)得到題目對(duì)于學(xué)生的相對(duì)難度信息。項(xiàng)目反應(yīng)模型沒(méi)有引入知識(shí)點(diǎn)的概念,只將學(xué)生的知識(shí)狀態(tài)水平粗粒度地描述為單一的能力值。與項(xiàng)目反應(yīng)模型不同的是,DINA 模型引入了知識(shí)點(diǎn)的概念并通過(guò)定義矩陣來(lái)描述題目和知識(shí)點(diǎn)之間的關(guān)系,之后以矩陣和記錄了全體學(xué)生的答題結(jié)果數(shù)據(jù)的矩陣為輸入,并定義相應(yīng)的項(xiàng)目反應(yīng)函數(shù)來(lái)診斷得到學(xué)生對(duì)各個(gè)知識(shí)點(diǎn)的掌握程度值,題目對(duì)于學(xué)生的相對(duì)難度值則等于該學(xué)生對(duì)該題考查的各個(gè)知識(shí)點(diǎn)的掌握程度值的乘積。近年來(lái),學(xué)者們將模糊集理論、機(jī)器學(xué)習(xí)模型與各種認(rèn)知診斷模型相結(jié)合,提出了多種混合認(rèn)知診斷技術(shù),進(jìn)一步提高了認(rèn)知診斷的準(zhǔn)確率,因此本文將靜態(tài)認(rèn)知診斷方法分為傳統(tǒng)認(rèn)知診斷和混合認(rèn)知診斷。
動(dòng)態(tài)認(rèn)知診斷則基于學(xué)生的答題數(shù)據(jù)序列動(dòng)態(tài)評(píng)估和更新學(xué)生的知識(shí)狀態(tài)水平,以跟蹤學(xué)生隨時(shí)間的變化對(duì)知識(shí)點(diǎn)的掌握情況,進(jìn)而在不同時(shí)刻更新題目對(duì)于學(xué)生的相對(duì)難度信息。由于知識(shí)追蹤技術(shù)利用學(xué)生的答題序列追蹤學(xué)生隨時(shí)間變化的知識(shí)狀態(tài)水平,從而評(píng)估某一道題目對(duì)于學(xué)生的相對(duì)難度,因此有學(xué)者認(rèn)為知識(shí)追蹤等同于動(dòng)態(tài)認(rèn)知診斷。根據(jù)追蹤手段的不同,動(dòng)態(tài)認(rèn)知診斷方法可進(jìn)一步分為基于貝葉斯網(wǎng)絡(luò)的動(dòng)態(tài)認(rèn)知診斷和基于深度學(xué)習(xí)的動(dòng)態(tài)認(rèn)知診斷。
圖2 給出了本文對(duì)于題目相對(duì)難度評(píng)估方法的分類(lèi)策略。由于近十年發(fā)表的靜態(tài)認(rèn)知診斷相關(guān)的文獻(xiàn)大都采用了混合認(rèn)知診斷策略,本文將會(huì)在第3.1 節(jié)詳細(xì)介紹這類(lèi)方法。3.2 節(jié)則對(duì)動(dòng)態(tài)認(rèn)知診斷技術(shù)進(jìn)行闡釋和分析。
圖2 題目相對(duì)難度評(píng)估的方法分類(lèi)Fig.2 Classification of approaches for question relative difficulty evaluation
鑒于預(yù)測(cè)試和專(zhuān)家評(píng)估等題目絕對(duì)難度評(píng)估方法具有耗時(shí)耗力、主觀(guān)性較強(qiáng)、效率低下等缺點(diǎn),學(xué)者們開(kāi)始通過(guò)建立難度預(yù)測(cè)模型來(lái)評(píng)估題目的絕對(duì)難度。近十年來(lái)的題目絕對(duì)難度評(píng)估方法主要利用機(jī)器學(xué)習(xí)模型評(píng)估(或稱(chēng)預(yù)測(cè))題目的絕對(duì)難度,預(yù)測(cè)過(guò)程可分為四個(gè)基本任務(wù):(1)獲取題目真實(shí)絕對(duì)難度;(2)數(shù)據(jù)預(yù)處理;(3)特征提取;(4)題目絕對(duì)難度預(yù)測(cè)模型選擇。本文根據(jù)題目絕對(duì)難度預(yù)測(cè)方法在特征提取和預(yù)測(cè)模型選擇階段是否使用深度學(xué)習(xí)技術(shù)將基于機(jī)器學(xué)習(xí)的方法細(xì)分為基于傳統(tǒng)機(jī)器學(xué)習(xí)方法和基于深度學(xué)習(xí)方法。題目絕對(duì)難度預(yù)測(cè)方法的分類(lèi)策略詳見(jiàn)圖3所示。下文分別對(duì)每類(lèi)方法進(jìn)行深入討論。
圖3 基于機(jī)器學(xué)習(xí)的題目絕對(duì)難度預(yù)測(cè)方法分類(lèi)Fig.3 Classification of machine learning based approaches for question absolute difficulty prediction
該類(lèi)方法利用傳統(tǒng)機(jī)器學(xué)習(xí)中的支持向量機(jī)、決策樹(shù)、隨機(jī)森林、淺層BP(back propagation)神經(jīng)網(wǎng)絡(luò)等模型實(shí)現(xiàn)對(duì)題目絕對(duì)難度的預(yù)測(cè)。
文獻(xiàn)[41]基于淺層BP 神經(jīng)網(wǎng)絡(luò)提出了一種針對(duì)中文閱讀理解題的題目絕對(duì)難度預(yù)測(cè)的方法。該方法首先從題目和閱讀文本中提取多個(gè)特征(例如題干長(zhǎng)度、選項(xiàng)長(zhǎng)度),其次分析這些特征與題目絕對(duì)難度之間的相關(guān)性,最終篩選出對(duì)題目絕對(duì)難度有較高影響力的特征作為BP 神經(jīng)網(wǎng)絡(luò)的輸入,最終實(shí)現(xiàn)對(duì)閱讀理解題的絕對(duì)難度值的預(yù)測(cè)。
文獻(xiàn)[42]則利用支持向量機(jī)對(duì)臺(tái)灣社會(huì)課程的單選題進(jìn)行絕對(duì)難度預(yù)測(cè)。首先,使用社會(huì)課程教科書(shū)和詞嵌入技術(shù)構(gòu)建一個(gè)語(yǔ)義空間,并將題目元素(包括題目題干、正確答案、干擾選項(xiàng))投影到語(yǔ)義空間中,以獲得相應(yīng)表征向量。通過(guò)計(jì)算題目元素表征向量之間的余弦相似性從而得到題目的語(yǔ)義特征。最后,將語(yǔ)義特征輸入支持向量機(jī)中進(jìn)行訓(xùn)練和測(cè)試,最終實(shí)現(xiàn)題目絕對(duì)難度預(yù)測(cè)。
文獻(xiàn)[43]利用隨機(jī)森林模型對(duì)漢語(yǔ)選擇題進(jìn)行難度等級(jí)預(yù)測(cè)。首先以漢語(yǔ)教材中的專(zhuān)有名詞為基礎(chǔ)建立知識(shí)樹(shù)模型,其后將知識(shí)樹(shù)的屬性(例如知識(shí)樹(shù)的廣度和深度)作為隨機(jī)森林模型的輸入,從而對(duì)題目的絕對(duì)難度進(jìn)行等級(jí)評(píng)估。
文獻(xiàn)[44]利用題目編號(hào)、題目難度類(lèi)型、題目總提交次數(shù)、題目總通過(guò)次數(shù)、題目首次提交通過(guò)的次數(shù)和首次提交通過(guò)的總用時(shí)作為決策樹(shù)模型的輸入特征,實(shí)現(xiàn)了編程題的絕對(duì)難度預(yù)測(cè)。
各種回歸模型也常被用于預(yù)測(cè)題目的絕對(duì)難度。例如,文獻(xiàn)[45]首先分析得到了英國(guó)小學(xué)科學(xué)測(cè)試題目的難度影響因素,具體包括課程變量(涉及課程主題、課程子主題、概念)、題目類(lèi)型、刺激性質(zhì)(即題目中的圖表類(lèi)型)、知識(shí)深度和語(yǔ)言變量,并使用上述變量建立回歸模型來(lái)預(yù)測(cè)題目的絕對(duì)難度。又如文獻(xiàn)[46]討論了英語(yǔ)時(shí)態(tài)的提示性填空題(cued gap-filling items)的難度預(yù)測(cè)問(wèn)題。其針對(duì)題目文本、填空詞語(yǔ)等多個(gè)影響題目難度的題目特征進(jìn)行了嶺回歸分析,從而建立題目特征與題目難度之間的關(guān)系模型。文獻(xiàn)[21]則提出從題目文本提取題目的語(yǔ)料庫(kù)特征(例如詞匯特征和句法特征),并將這些特征作為多元線(xiàn)性回歸模型的輸入來(lái)訓(xùn)練該模型從而實(shí)現(xiàn)題目絕對(duì)難度預(yù)測(cè)。
上述提及的文獻(xiàn)均只選用單一的機(jī)器學(xué)習(xí)模型對(duì)題目難度進(jìn)行預(yù)測(cè),而部分論文會(huì)利用多種機(jī)器學(xué)習(xí)模型進(jìn)行題目絕對(duì)難度預(yù)測(cè),再?gòu)闹羞x擇特定應(yīng)用場(chǎng)景下最優(yōu)的模型。例如,文獻(xiàn)[47-48]均是利用多元線(xiàn)性回歸和決策樹(shù)模型對(duì)英語(yǔ)閱讀理解題中的選擇題進(jìn)行難度預(yù)測(cè)。又如文獻(xiàn)[49]從英文聽(tīng)力題的聽(tīng)力材料文本和題目文本中提取多個(gè)特征并基于這些特征訓(xùn)練線(xiàn)性回歸、決策樹(shù)、支持向量機(jī)等機(jī)器學(xué)習(xí)模型。文獻(xiàn)[50]選取了醫(yī)學(xué)單選題的多個(gè)特征(例如語(yǔ)言學(xué)特征和信息檢索特征),并利用隨機(jī)森林、線(xiàn)性回歸、支持向量機(jī)等機(jī)器學(xué)習(xí)模型對(duì)題目絕對(duì)難度進(jìn)行評(píng)估。文獻(xiàn)[51]使用邏輯回歸、支持向量機(jī)和隨機(jī)森林對(duì)文本信息較為豐富的英語(yǔ)閱讀題進(jìn)行題目絕對(duì)難度等級(jí)的預(yù)測(cè)。文獻(xiàn)[52]將從選擇題的題目文本中提取的可讀性特征、語(yǔ)言學(xué)特征和信息檢索特征作為隨機(jī)森林、決策樹(shù)、支持向量機(jī)、線(xiàn)性回歸模型的輸入,實(shí)現(xiàn)對(duì)題目絕對(duì)難度的預(yù)測(cè)。文獻(xiàn)[25]提取題目文本的詞頻逆文本頻率指數(shù)特征作為隨機(jī)森林、決策樹(shù)、支持向量機(jī)和線(xiàn)性回歸模型的輸入,模型輸出題目的絕對(duì)難度值和區(qū)分度。文獻(xiàn)[53]則使用支持向量機(jī)、決策樹(shù)、樸素貝葉斯網(wǎng)絡(luò)和淺層BP 神經(jīng)網(wǎng)絡(luò)對(duì)題目絕對(duì)難度進(jìn)行等級(jí)評(píng)估。
基于傳統(tǒng)機(jī)器學(xué)習(xí)的題目難度預(yù)測(cè)方法的相關(guān)文獻(xiàn)較多,表1 總結(jié)了常用于題目絕對(duì)難度預(yù)測(cè)的傳統(tǒng)機(jī)器學(xué)習(xí)模型和相關(guān)文獻(xiàn)。
表1 題目絕對(duì)難度預(yù)測(cè)常用的機(jī)器學(xué)習(xí)模型Table1 Frequently-used machine learning models for question absolute difficulty prediction
近年來(lái),深度學(xué)習(xí)技術(shù)的運(yùn)用進(jìn)一步提升了許多應(yīng)用領(lǐng)域中預(yù)測(cè)或分類(lèi)任務(wù)的精度。因此,不少學(xué)者也開(kāi)始利用深度學(xué)習(xí)框架來(lái)提高對(duì)題目絕對(duì)難度預(yù)測(cè)的準(zhǔn)確性。
文獻(xiàn)[58]基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)提出了一種預(yù)測(cè)英語(yǔ)考試中閱讀理解題絕對(duì)難度的神經(jīng)網(wǎng)絡(luò)模型TACNN(test-aware attentionbased convolutional neural network),如圖4(a)所示。首先輸入層將題目文本進(jìn)行向量化,其次利用CNN學(xué)習(xí)題目文本信息(包括閱讀文本、題干和選項(xiàng))的有效語(yǔ)義表征。然后,使用注意力機(jī)制來(lái)限定閱讀文本中每個(gè)句子對(duì)題目絕對(duì)難度評(píng)估的貢獻(xiàn)。最后,考慮到不同測(cè)試中題目難度的不可比性,提出了一種基于考試上下文信息的訓(xùn)練方式來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型TACNN。
文獻(xiàn)[12]則基于卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的思想提出了三種針對(duì)數(shù)學(xué)試題的絕對(duì)難度預(yù)測(cè)神經(jīng)模型,包括C-MIDP(基于CNN 構(gòu)建)、R-MIDP(基于RNN 構(gòu)建)和HMIDP(基于CNN 和RNN 構(gòu)建的混合模型)。這三種模型的框架如圖4(b)所示。具體的,CNN 用來(lái)提取題目文本的語(yǔ)義信息,RNN 則用來(lái)提取題目文本的序列語(yǔ)義和邏輯信息,此外考慮到不同考試中學(xué)生群體的不可比性,在訓(xùn)練模型的過(guò)程中同樣采用了一種基于考試上下文信息的訓(xùn)練方式,以期提升預(yù)測(cè)的準(zhǔn)確度。
鑒于長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)在處理序列數(shù)據(jù)上表現(xiàn)良好,文獻(xiàn)[23]基于LSTM 網(wǎng)絡(luò)提出了一種針對(duì)漢語(yǔ)閱讀理解題的題目絕對(duì)難度預(yù)測(cè)模型,本文將其命名為T(mén)CN-DPN(text correlation network and difficulty prediction network),其模型如圖4(c)所示。該模型首先將題目文本進(jìn)行向量化;然后,將題目文本向量輸入LSTM 模型中得到題目信息向量,最后題目信息向量經(jīng)過(guò)全連接層輸出題目的絕對(duì)難度等級(jí)。
文獻(xiàn)[22]基于深度神經(jīng)網(wǎng)絡(luò)模型提出了針對(duì)醫(yī)學(xué)考試中選擇題的題目絕對(duì)難度預(yù)測(cè)模型DAN(document enhanced attention based neural network),詳見(jiàn)圖4(d)所示。DAN 首先通過(guò)拼接題目的題干和選項(xiàng)構(gòu)造查詢(xún),然后基于查詢(xún)從一個(gè)醫(yī)學(xué)文檔數(shù)據(jù)庫(kù)中獲取和該題相關(guān)的醫(yī)學(xué)文檔。之后,利用Bi-LSTM(bidirectional long short-term memory)模型構(gòu)建選擇題文本組成部分(即題干、選項(xiàng)和檢索到的相關(guān)醫(yī)學(xué)文檔)的語(yǔ)義特征表達(dá)。最后,基于語(yǔ)義特征表達(dá)將題目的難度信息分為刻畫(huà)學(xué)習(xí)者排除干擾選項(xiàng)困難程度的困惑難度(confusion difficulty)和刻畫(huà)從醫(yī)學(xué)文檔數(shù)據(jù)庫(kù)中獲取與該題相關(guān)的醫(yī)學(xué)文檔的困難程度的召回難度(recall difficulty)兩部分,并最終以加權(quán)求和方式將這兩部分難度整合形成該題的絕對(duì)難度值。
文獻(xiàn)[2]對(duì)帶圖片的選擇題的難度評(píng)估問(wèn)題進(jìn)行研究,首先基于深度多模態(tài)嵌入模型學(xué)習(xí)題目的文本和圖片信息的有效表征,然后提出一個(gè)基于貝葉斯推理的題目難度預(yù)測(cè)框架(Bayesian inference-based exercise difficulty prediction,BEDP)來(lái)預(yù)測(cè)該類(lèi)型題目的絕對(duì)難度。BEDP 模型的框架如圖4(e)所示。
圖4 基于深度學(xué)習(xí)的題目絕對(duì)難度預(yù)測(cè)重要模型架構(gòu)Fig.4 Architecture of important deep learning based question absolute difficulty prediction models
表2 對(duì)基于深度學(xué)習(xí)的題目絕對(duì)難度預(yù)測(cè)模型的優(yōu)點(diǎn)和局限性進(jìn)行了對(duì)比分析。
表2 基于深度學(xué)習(xí)的題目絕對(duì)難度預(yù)測(cè)模型對(duì)比Table 2 Comparison of deep learning based question absolute difficulty prediction models
雖然近十年提出的題目絕對(duì)難度預(yù)測(cè)方法大多是基于機(jī)器學(xué)習(xí)模型構(gòu)建的,仍有學(xué)者提出了其他的解決思路。例如,針對(duì)人工智能課程中的特定類(lèi)型的題目,包括將自然語(yǔ)言轉(zhuǎn)化為FOL(first-order logic)的題目和FOL 轉(zhuǎn)化為自然語(yǔ)言句子的題目,學(xué)者們提出了基于專(zhuān)家制定規(guī)則的題目絕對(duì)難度評(píng)估策略。具體的,學(xué)者們從這類(lèi)題目的特點(diǎn)出發(fā),利用可獲取的題目答案參數(shù)(例如量詞的數(shù)量、隱含符號(hào)的數(shù)量、不同連接詞的數(shù)量)和專(zhuān)家制定的規(guī)則來(lái)預(yù)測(cè)這類(lèi)題目的絕對(duì)難度等級(jí)。還有學(xué)者提出可以將題目的不同部分或者不同方面的絕對(duì)難度進(jìn)行相乘或者相加來(lái)計(jì)算題目的絕對(duì)難度。例如,文獻(xiàn)[60]首先從題目的題干和選項(xiàng)中獲取與絕對(duì)難度相關(guān)的因素,其次利用定義的公式獲得題干的難度值和選項(xiàng)的難度,最后將題干和選項(xiàng)的難度分?jǐn)?shù)進(jìn)行相乘最終得到題目的絕對(duì)難度值。文獻(xiàn)[61]以求和的方法將任務(wù)難度、內(nèi)容難度和刺激難度(指學(xué)生在理解和分析題目陳述內(nèi)容時(shí)所面臨的困難程度)整合起來(lái)作為題目的絕對(duì)難度值。文獻(xiàn)[62]則研究了Java 編程題的難度評(píng)估問(wèn)題,根據(jù)題目的答案獲取到多個(gè)軟件度量指標(biāo)(例如圈復(fù)雜度、平均嵌套塊深度)后對(duì)每個(gè)軟件度量指標(biāo)的取值進(jìn)行加權(quán)求和后作為題目的絕對(duì)難度值。此外,部分學(xué)者還將神經(jīng)網(wǎng)絡(luò)模型與模糊集理論相結(jié)合,實(shí)現(xiàn)對(duì)題目絕對(duì)難度的評(píng)估。例如,文獻(xiàn)[63]對(duì)雅思聽(tīng)力題的聽(tīng)力材料和題目文本進(jìn)行特征提取,隨后利用自適應(yīng)神經(jīng)模糊推理系統(tǒng)成功量化了雅思聽(tīng)力題的絕對(duì)難度。文獻(xiàn)[64]則以Tree 數(shù)據(jù)結(jié)構(gòu)的參數(shù)(例如節(jié)點(diǎn)數(shù)、樹(shù)的深度)為輸入,并同時(shí)利用自適應(yīng)神經(jīng)模糊推理系統(tǒng)與神經(jīng)象征模型構(gòu)建搜索算法題(例如深度優(yōu)先搜索算法題)的絕對(duì)難度預(yù)測(cè)模型。
近十年提出的題目絕對(duì)難度預(yù)測(cè)方法主要包括基于傳統(tǒng)機(jī)器學(xué)習(xí)方法和基于深度學(xué)習(xí)方法。在論文數(shù)量方面,前者占題目絕對(duì)難度預(yù)測(cè)相關(guān)文獻(xiàn)總數(shù)的近九成,這很大程度是因?yàn)榛谏疃葘W(xué)習(xí)框架來(lái)提升題目絕對(duì)難度預(yù)測(cè)的準(zhǔn)確性是需要大量題目數(shù)據(jù)和學(xué)生答題數(shù)據(jù)作為支撐的,而能訪(fǎng)問(wèn)到這樣規(guī)模數(shù)據(jù)的研究機(jī)構(gòu)不多。本文對(duì)收集到的近十年的題目絕對(duì)難度相關(guān)文獻(xiàn)進(jìn)行統(tǒng)計(jì)后發(fā)現(xiàn):這些方法所服務(wù)的學(xué)科集中在英語(yǔ)(21%)、計(jì)算機(jī)(16%)、醫(yī)學(xué)(12%)、語(yǔ)文(7%)和數(shù)學(xué)(7%);題型方面,針對(duì)選擇題所提出的方法占比最大(29%),剩下依次是填空題(7%)、聽(tīng)力題(7%)和編程題(5%)。
近十年提出的靜態(tài)認(rèn)知診斷方法大都為混合認(rèn)知診斷方法,即將經(jīng)典的認(rèn)知診斷模型與各種機(jī)器學(xué)習(xí)模型、教育理論進(jìn)行結(jié)合,以?xún)?yōu)化認(rèn)知診斷過(guò)程從而提高對(duì)題目相對(duì)難度的預(yù)測(cè)準(zhǔn)確率(表3 展示了近年來(lái)典型的混合認(rèn)知診斷方法)。
表3 混合認(rèn)知診斷Table 3 Hybrid cognitive diagnostic
項(xiàng)目反應(yīng)理論(item response theory,IRT)是經(jīng)典的認(rèn)知診斷方法之一,為分析學(xué)生能否答對(duì)某道題提供了可解釋的參數(shù)。然而經(jīng)典的IRT 模型僅基于學(xué)生的答題結(jié)果數(shù)據(jù)預(yù)測(cè)題目的相對(duì)難度值,未利用題目的文本和知識(shí)點(diǎn)信息。鑒于此,文獻(xiàn)[36]將IRT 模型和深度學(xué)習(xí)框架相結(jié)合提出了一個(gè)深層項(xiàng)目反應(yīng)理論框架(deep item response theory,DIRT)來(lái)彌補(bǔ)傳統(tǒng)IRT 模型的不足。DIRT 框架包含了三大模塊:輸入模塊、深度診斷模塊和預(yù)測(cè)模塊。輸入模塊使用能力向量來(lái)表征學(xué)生對(duì)各個(gè)知識(shí)點(diǎn)的掌握程度值,并設(shè)計(jì)密集嵌入層將題目文本向量和題目知識(shí)點(diǎn)向量進(jìn)行密集化處理。深度診斷模塊中,基于輸入模塊中生成的學(xué)生能力向量、題目文本向量和知識(shí)點(diǎn)向量來(lái)作為深度神經(jīng)網(wǎng)絡(luò)模型的輸入。最后的預(yù)測(cè)模塊以深度診斷模塊得到的學(xué)生能力參數(shù)、題目區(qū)分度和題目絕對(duì)難度作為Rasch 模型的輸入,利用訓(xùn)練好的模型預(yù)測(cè)題目相對(duì)難度值。文獻(xiàn)[37]則將認(rèn)知診斷和神經(jīng)網(wǎng)絡(luò)相結(jié)合,提出了一個(gè)通用的神經(jīng)認(rèn)知診斷框架,命名為NeuralCD(neural cognitive diagnosis)。
部分學(xué)者將認(rèn)知診斷模型和模糊集理論相結(jié)合,提出題目相對(duì)難度評(píng)估的新思路。部分認(rèn)知診斷模型(例如DINA 模型)只利用學(xué)生在客觀(guān)題上的答題結(jié)果數(shù)據(jù),無(wú)法充分利用主觀(guān)題的多級(jí)評(píng)分信息。為了同時(shí)利用學(xué)生在客觀(guān)題和主觀(guān)題上的答題結(jié)果數(shù)據(jù),文獻(xiàn)[38]將模糊集理論和教育假設(shè)結(jié)合到認(rèn)知診斷模型DINA 中,提出了模糊認(rèn)知診斷框架FuzzyCDF(fuzzy cognitive diagnosis framework)。
近年來(lái),學(xué)者們還將矩陣分解技術(shù)(matrix factorization,MF)應(yīng)用到認(rèn)知診斷領(lǐng)域,即將學(xué)生得分矩陣分解為學(xué)生潛在矩陣和題目潛在矩陣,分別用以刻畫(huà)學(xué)生和題目在低維空間中的表現(xiàn)程度?;趯W(xué)生和題目的低維矩陣的乘積對(duì)學(xué)生得分矩陣進(jìn)行逼近,進(jìn)而得到題目對(duì)于學(xué)生的相對(duì)難度。概率矩陣分解(probabilistic matrix factorization,PMF)是常用的矩陣分解方法之一,文獻(xiàn)[8]混合運(yùn)用了PMF 模型和認(rèn)知診斷模型用于預(yù)測(cè)學(xué)生關(guān)于某道題的相對(duì)難度。首先將學(xué)生答題歷史矩陣和專(zhuān)家標(biāo)注的矩陣作為DINA 模型的輸入,得到學(xué)生的知識(shí)點(diǎn)掌握程度。在得到學(xué)生知識(shí)點(diǎn)掌握程度后,將其作為先驗(yàn)參數(shù)應(yīng)用于概率矩陣分解中,進(jìn)而預(yù)測(cè)題目相對(duì)難度。
為了便于讀者的理解,本節(jié)用知識(shí)追蹤代替動(dòng)態(tài)認(rèn)知診斷。由于本文收集到的題目相對(duì)難度預(yù)測(cè)方法大部分是知識(shí)追蹤相關(guān)的,本文根據(jù)統(tǒng)計(jì)的實(shí)際情況將題目相對(duì)難度預(yù)測(cè)方法中的知識(shí)追蹤分為基于貝葉斯方法和基于深度學(xué)習(xí)方法,如圖5 所示。
圖5 知識(shí)追蹤方法的分類(lèi)Fig.5 Classification of knowledge tracking approaches
基于隱馬爾可夫模型設(shè)計(jì)的貝葉斯知識(shí)追蹤模型(Bayesian knowledge tracing,BKT)是早期知識(shí)追蹤方法的代表。BKT 將學(xué)生對(duì)于某個(gè)知識(shí)點(diǎn)的掌握狀態(tài)建模為一個(gè)二值變量,包括掌握和未掌握兩個(gè)狀態(tài),并假設(shè)該生對(duì)于每個(gè)知識(shí)點(diǎn)都有四個(gè)參數(shù):(1)先驗(yàn)知識(shí)水平,即該生未答題前對(duì)該知識(shí)點(diǎn)的掌握程度;(2)學(xué)習(xí)率,指該生每次答題后知識(shí)點(diǎn)從未掌握狀態(tài)轉(zhuǎn)移至掌握狀態(tài)的概率;(3)猜測(cè)概率,指該生未掌握該知識(shí)點(diǎn)但猜測(cè)答對(duì)其對(duì)應(yīng)題目的概率;(4)失誤概率,指該生掌握該知識(shí)點(diǎn)卻失誤答錯(cuò)其對(duì)應(yīng)題目的概率。EM(expectation maximum)算法常被用來(lái)估計(jì)BKT 模型中的以上四個(gè)參數(shù),利用得到的參數(shù)并通過(guò)隱馬爾可夫模型更新學(xué)生知識(shí)點(diǎn)的掌握狀態(tài)。
在BKT 模型的基礎(chǔ)上:一方面,一些學(xué)者繼續(xù)從學(xué)生方面和題目方面探討其他因素(如學(xué)生遺忘行為、學(xué)生不同的學(xué)習(xí)能力、題目絕對(duì)難度、知識(shí)點(diǎn)的層次結(jié)構(gòu)關(guān)系)對(duì)題目相對(duì)難度的影響;另一方面,也有學(xué)者利用教育心理學(xué)領(lǐng)域的理論模型擴(kuò)展BKT模型以獲得更高的題目相對(duì)難度預(yù)測(cè)準(zhǔn)確率。表4總結(jié)比較了近十年提出的BKT 擴(kuò)展模型。
表4 BKT 擴(kuò)展模型Table 4 Extended models for BKT
在擴(kuò)展BKT 模型的研究任務(wù)中,部分學(xué)者考慮加入學(xué)生方面的多種因素以提升對(duì)學(xué)生知識(shí)狀態(tài)水平的評(píng)估準(zhǔn)確度,繼而提高對(duì)題目相對(duì)難度的預(yù)測(cè)精度。例如,文獻(xiàn)[72]假設(shè)學(xué)生間隔一段時(shí)間后的答題表現(xiàn)下降的原因有二:(1)學(xué)生遺忘知識(shí)點(diǎn)內(nèi)容;(2)學(xué)生答題失誤。利用該假設(shè),分別將學(xué)生遺忘概率和同一天的失誤概率作為參數(shù)引入到BKT 模型。文獻(xiàn)[39]從學(xué)生的個(gè)性化特性出發(fā)提出了三種改進(jìn)的BKT 模型,分別考慮不同學(xué)生對(duì)知識(shí)點(diǎn)的初始掌握程度、不同學(xué)生對(duì)知識(shí)點(diǎn)的學(xué)習(xí)速率以及同時(shí)考慮了以上二者。文獻(xiàn)[75]將利用便攜式腦電圖設(shè)備檢測(cè)學(xué)生的心理狀態(tài)數(shù)據(jù)嵌入到BKT 模型中。文獻(xiàn)[80]則基于所收集的學(xué)生答題行為特征對(duì)BKT 模型進(jìn)行了擴(kuò)展改進(jìn)。文獻(xiàn)[82]則直接加入了表征學(xué)生情感狀態(tài)的變量(如是否困惑、無(wú)聊等狀態(tài))來(lái)擴(kuò)展標(biāo)準(zhǔn)的BKT 模型。文獻(xiàn)[84]提出了四個(gè)改進(jìn)的BKT模型:BKT+F(考慮遺忘因素)、BKT+S(考慮知識(shí)點(diǎn)間的相似性)、BKT+A(假設(shè)能力較強(qiáng)的學(xué)生有較低的失誤率和較高的猜測(cè)概率)以及BKT+FSA(前三個(gè)模型的綜合)。
標(biāo)準(zhǔn)BKT 模型將學(xué)生對(duì)知識(shí)點(diǎn)的掌握狀態(tài)設(shè)置為掌握和未掌握兩個(gè)狀態(tài)。文獻(xiàn)[86]提出學(xué)生對(duì)知識(shí)點(diǎn)的掌握狀態(tài)不應(yīng)只是一個(gè)二值變量,繼而在標(biāo)準(zhǔn)的BKT 模型中增加了一個(gè)從未掌握到掌握的過(guò)渡狀態(tài)。而文獻(xiàn)[81]在學(xué)生對(duì)知識(shí)點(diǎn)的掌握和未掌握兩個(gè)狀態(tài)之間添加兩個(gè)中間狀態(tài)對(duì)標(biāo)準(zhǔn)BKT 模型進(jìn)行擴(kuò)充。文獻(xiàn)[88]則提出了一個(gè)多狀態(tài)BKT 模型,將描述學(xué)生對(duì)知識(shí)點(diǎn)的掌握狀態(tài)的變量從標(biāo)準(zhǔn)BKT 模型中的兩種狀態(tài)(即“掌握”和“未掌握”)擴(kuò)展到21種狀態(tài)。
此外,還有部分學(xué)者考慮加入題目方面的多種因素來(lái)提升BKT 模型對(duì)題目相對(duì)難度的預(yù)測(cè)效果。例如,文獻(xiàn)[74]考慮了學(xué)生當(dāng)前正在回答的題目與之前已回答的題目之間的相似性,并利用題目間的相似性來(lái)改進(jìn)BKT 的預(yù)測(cè)效果。在看到標(biāo)準(zhǔn)BKT 模型缺乏對(duì)學(xué)習(xí)領(lǐng)域中不同知識(shí)點(diǎn)間層次關(guān)系的描述能力,文獻(xiàn)[77]提出了能夠表征和利用知識(shí)點(diǎn)拓?fù)浣Y(jié)構(gòu)關(guān)系的動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)。文獻(xiàn)[73]則引入題目絕對(duì)難度特征來(lái)改進(jìn)標(biāo)準(zhǔn)的BKT 模型。
上述研究工作表明將學(xué)生方面的多種因素或題目方面的多種因素融合到標(biāo)準(zhǔn)BKT 模型中均可有效提升模型的預(yù)測(cè)準(zhǔn)確率。鑒于此,有學(xué)者同時(shí)利用學(xué)生方面和題目方面的多種因素對(duì)標(biāo)準(zhǔn)BKT 模型進(jìn)行擴(kuò)展。例如,文獻(xiàn)[79]提出一個(gè)BKT改進(jìn)模型Fast,允許將學(xué)生方面和題目方面的一般特征集成到該模型中。又如,文獻(xiàn)[83]利用教學(xué)系統(tǒng)中課程章節(jié)學(xué)習(xí)視頻之間的結(jié)構(gòu)信息設(shè)計(jì)了兩種知識(shí)跟蹤方法:Multi-Grained-BKT 和Historical-BKT。其中,前者考慮了粗粒度知識(shí)點(diǎn)(例如Python 數(shù)據(jù)類(lèi)型)和細(xì)粒度知識(shí)點(diǎn)(例如字符串、List 列表)之間的關(guān)聯(lián)結(jié)構(gòu)關(guān)系,后者則設(shè)定學(xué)生猜測(cè)答對(duì)和失誤答錯(cuò)的概率都取決于其上一次的答題結(jié)果,即如果上一次答題是正確的,則此次答題猜測(cè)答對(duì)的概率越大而失誤概率越小。
除了引入學(xué)生和題目方面的影響因素,還有學(xué)者或?qū)⑵渌碚摶蚣夹g(shù)與標(biāo)準(zhǔn)BKT 模型相結(jié)合,或考慮將其他方面的特征融入到標(biāo)準(zhǔn)BKT 模型中,以提升BKT 模型對(duì)題目相對(duì)難度信息的預(yù)測(cè)性能。例如,文獻(xiàn)[76]將潛在因子模型和BKT 模型相結(jié)合。文獻(xiàn)[78]則將BKT 模型和項(xiàng)目反應(yīng)理論模型(即IRM)進(jìn)行整合。又如文獻(xiàn)[85]考慮不同類(lèi)型的教學(xué)干預(yù)會(huì)對(duì)學(xué)生的學(xué)生狀態(tài)產(chǎn)生不同的影響。文獻(xiàn)[87]則將時(shí)差信息集成到BKT 模型中。
(1)DKT 模型及其擴(kuò)展模型
BKT 模型一方面需要領(lǐng)域?qū)<沂孪榷x知識(shí)點(diǎn)因此引入了一定的主觀(guān)性,另一方面假設(shè)學(xué)生對(duì)知識(shí)點(diǎn)的掌握程度為掌握或未掌握的二元狀態(tài)過(guò)于簡(jiǎn)化。為了彌補(bǔ)BKT 模型的不足,學(xué)者們開(kāi)始嘗試?yán)媒陙?lái)流行的深度學(xué)習(xí)框架設(shè)計(jì)題目相對(duì)難度的預(yù)測(cè)模型。文獻(xiàn)[89]首次利用深度神經(jīng)網(wǎng)絡(luò)對(duì)學(xué)生學(xué)習(xí)過(guò)程進(jìn)行建模,提出了深度知識(shí)追蹤模型(deep knowledge tracing,DKT)。
DKT 模型架構(gòu)圖如圖6 所示。其以學(xué)生每一個(gè)時(shí)間步(1,2,…,)的歷史答題數(shù)據(jù)序列{,,…,x}為輸入,并利用LSTM 的隱藏狀態(tài)向量{,,…,h}表征學(xué)生不同時(shí)刻的知識(shí)狀態(tài)水平,進(jìn)而預(yù)測(cè)學(xué)生在不同時(shí)刻正確回答每一道題的概率{,,…,y}(即題目對(duì)于學(xué)生的相對(duì)難度)。
圖6 DKT 模型架構(gòu)Fig.6 Architecture of DKT model
由于DKT 模型無(wú)法建模學(xué)生對(duì)于各個(gè)知識(shí)點(diǎn)的掌握程度,且隱藏狀態(tài)向量的可解釋性差,DKT 模型的可解釋性也不強(qiáng)。除了考慮學(xué)生的歷史答題數(shù)據(jù)序列,DKT 模型沒(méi)有將影響題目絕對(duì)難度的學(xué)生和題目方面的因素(例如學(xué)生的學(xué)習(xí)率、遺忘因素、題目的文本和絕對(duì)難度等)引入模型。針對(duì)上述不足,學(xué)者們一方面嘗試?yán)庙?xiàng)目反應(yīng)理論和注意力機(jī)制等理論或技術(shù)對(duì)DKT 模型可解釋性不強(qiáng)的問(wèn)題進(jìn)行優(yōu)化,另一方面通過(guò)向DKT 模型中融入學(xué)生或題目方面的影響因素對(duì)DKT 模型進(jìn)行了改進(jìn)。表5 對(duì)DKT 的擴(kuò)展模型進(jìn)行了總結(jié)和對(duì)比。下面對(duì)代表性的DKT 擴(kuò)展模型進(jìn)行介紹。
表5 DKT 模型的擴(kuò)展模型Table 5 Extended models of DKT model
由于DKT 模型的輸入僅考慮學(xué)生的答題交互序列而忽略了其他學(xué)生方面的特征,部分研究工作考慮加入學(xué)生方面的多種特征以提升DKT 模型評(píng)估學(xué)生知識(shí)狀態(tài)水平的準(zhǔn)確度。例如,文獻(xiàn)[90]利用特征工程將學(xué)生方面的豐富特征(例如學(xué)生答題次數(shù)、請(qǐng)求提示的次數(shù))作為標(biāo)準(zhǔn)DKT 模型的一部分輸入,提出了一個(gè)新的深度知識(shí)追蹤模型,本文將其命名為DKT-FE(deep knowledge tracing of rich features)模型。文獻(xiàn)[100]則考慮導(dǎo)致學(xué)生遺忘行為的兩大類(lèi)因素:學(xué)生距離上一次答題的時(shí)間和過(guò)去對(duì)一個(gè)題目的答題次數(shù),通過(guò)將學(xué)生遺忘行為有關(guān)的多種特征向量化,然后將向量化后的特征拼接到RNN 模型的輸入和輸出空間。文獻(xiàn)[95]則考慮了不同學(xué)生的學(xué)習(xí)能力的差異性。
此外,一些研究工作考慮加入題目方面的多種特征對(duì)DKT 模型進(jìn)行擴(kuò)展以提升評(píng)估學(xué)生知識(shí)狀態(tài)水平的準(zhǔn)確度。例如,文獻(xiàn)[101]考慮題目所包含知識(shí)點(diǎn)之間的相似性關(guān)系,將知識(shí)點(diǎn)之間的相似性關(guān)系轉(zhuǎn)化為題目關(guān)系圖,其中節(jié)點(diǎn)表示題目,邊表示兩道題之間存在相似性,并將題目關(guān)系圖向量化后和向量化后的答題序列一起作為模型的輸入。文獻(xiàn)[107]同樣考慮了題目之間的相似性,并提出一種圖拉普拉斯正則化方法作為正則化損失函數(shù)來(lái)擴(kuò)充原始的損失函數(shù),從而將題目相似度整合到了DKT 模型中。文獻(xiàn)[96]則將知識(shí)點(diǎn)之間的先決關(guān)系整合到DKT 模型中。文獻(xiàn)[99]利用了題目和知識(shí)點(diǎn)之間的關(guān)系,將其和學(xué)生答題交互序列一起作為DKT 模型的部分輸入。文獻(xiàn)[109]則同時(shí)將題目方面的知識(shí)點(diǎn)、題目語(yǔ)義和題目絕對(duì)難度信息和答題序列一起作為DKT 模型的輸入。
部分研究工作在利用題目方面的特征來(lái)加強(qiáng)知識(shí)跟蹤方法的有效性之外,還將神經(jīng)網(wǎng)絡(luò)中的注意力機(jī)制整合到DKT 模型中以期進(jìn)一步提高模型評(píng)估學(xué)生知識(shí)狀態(tài)水平的準(zhǔn)確率。例如,文獻(xiàn)[94]提出了一個(gè)能夠利用題目的文本信息的深度知識(shí)追蹤框架,命名為EERNN(exercise-enhanced recurrent neural network)。EERNN 模型需要獲得完整的題目文本信息以提取題目之間的相關(guān)性,但由于知識(shí)產(chǎn)權(quán)和隱私保護(hù)等原因,通常很難獲取到完整的題目文本。為了應(yīng)對(duì)該局限性,文獻(xiàn)[108]提出可以基于題目的知識(shí)點(diǎn)信息來(lái)提取題目之間的相似性繼而提出了一種基于注意力機(jī)制的深層知識(shí)追蹤模型。此外,還有文獻(xiàn)或利用異構(gòu)信息網(wǎng)絡(luò)或基于圖卷積神經(jīng)網(wǎng)絡(luò)來(lái)擴(kuò)展DKT 模型。
為同時(shí)利用學(xué)生方面和題目方面的多種特征,文獻(xiàn)[91]使用分類(lèi)與回歸樹(shù)(classification and regression trees,CART)對(duì)學(xué)生方面和題目方面的特征(例如答題時(shí)間、題目文本)進(jìn)行特征處理。文獻(xiàn)[93]拓展了文獻(xiàn)[91]的工作,使用其他的分類(lèi)樹(shù)模型進(jìn)行特征處理。
此外,部分研究工作還提出將DKT 模型與BKT模型以及教育心理學(xué)領(lǐng)域中的理論模型(例如項(xiàng)目反應(yīng)模型)進(jìn)行整合。例如,文獻(xiàn)[103]綜合了貝葉斯神經(jīng)網(wǎng)絡(luò)與DKT 模型,不僅可以對(duì)學(xué)生與題目的交互行為進(jìn)行建模,還有效地防止過(guò)擬合,提高了模型的泛化能力。文獻(xiàn)[110]則將多維項(xiàng)目反應(yīng)理論的參數(shù)集成到一個(gè)改進(jìn)的RNN 模型中。
DKT 的擴(kuò)展模型除了上述提及的考慮學(xué)生方面、題目方面或者同時(shí)考慮上述兩方面的豐富特征外,還有部分研究工作或?qū)KT 模型的損失函數(shù)進(jìn)行優(yōu)化,或利用機(jī)器學(xué)習(xí)技術(shù)對(duì)DKT 進(jìn)行擴(kuò)展。例如,文獻(xiàn)[97]利用數(shù)據(jù)可視化技術(shù)發(fā)現(xiàn)DKT 模型存在的兩個(gè)問(wèn)題:第一是DKT 模型無(wú)法重構(gòu)輸入信息(即學(xué)生在某道題上回答錯(cuò)誤,與該題相關(guān)的知識(shí)點(diǎn)的掌握程度卻在上升);第二是DKT 模型所預(yù)測(cè)的學(xué)生對(duì)知識(shí)點(diǎn)的掌握程度并不是隨著時(shí)間的推移逐漸過(guò)渡變化的。因此,作者提出了DKT+模型用于解決上述問(wèn)題,定義了“重構(gòu)錯(cuò)誤”(reconstruction error)和“波動(dòng)準(zhǔn)則”(waviness measures)作為正則化損失函數(shù)來(lái)擴(kuò)充原始的DKT 模型中的損失函數(shù)。文獻(xiàn)[98]則將題目與知識(shí)點(diǎn)之間的關(guān)系看作一個(gè)二元嵌入矩陣,提出了一個(gè)用于學(xué)習(xí)該矩陣的模型,然后將學(xué)習(xí)到的嵌入矩陣應(yīng)用于DKT 模型的輸入空間中,并對(duì)模型的損失函數(shù)進(jìn)行了改進(jìn)。DKT 的擴(kuò)展模型還有很多,在此不一一贅述,感興趣的讀者可參看表5 給出的信息。
(2)DKVMN 模型及其擴(kuò)展模型
DKT 模型將學(xué)生對(duì)所有知識(shí)點(diǎn)的掌握程度都?xì)w納為一個(gè)隱藏狀態(tài),導(dǎo)致DKT無(wú)法輸出學(xué)生對(duì)于具體知識(shí)點(diǎn)的掌握程度情況,因而模型的可解釋性較差。鑒于此,文獻(xiàn)[111]利用記憶增強(qiáng)神經(jīng)網(wǎng)絡(luò)(memoryaugmented neural networks,MANN)的思想提出了動(dòng)態(tài)鍵值記憶網(wǎng)絡(luò)(dynamic key-value memory networks,DKVMN)模型。
表6 DKVMN 模型的擴(kuò)展模型Table 6 Extended models of DKVMN model
圖7 DKVMN 模型架構(gòu)Fig.7 Architecture of DKVMN model
部分學(xué)者提出可以將更多能捕獲的學(xué)生方面的特征加入標(biāo)準(zhǔn)的DKVMN 模型對(duì)其進(jìn)行擴(kuò)展,以期提高預(yù)測(cè)準(zhǔn)確率。例如,以DKVMN 模型的基本框架作為出發(fā)點(diǎn),文獻(xiàn)[113]將學(xué)生申請(qǐng)答題提示的行為數(shù)據(jù)也作為模型輸入的一部分,并將預(yù)測(cè)學(xué)生在接下來(lái)的答題階段是否申請(qǐng)答題提示作為知識(shí)追蹤的子任務(wù),從而提出了一個(gè)多任務(wù)知識(shí)追蹤模型。又如,文獻(xiàn)[118]將學(xué)生豐富的答題行為特征(例如學(xué)生回答某道題的嘗試次數(shù)、學(xué)生答題的響應(yīng)時(shí)間)和學(xué)生答題交互序列一起作為模型的輸入。文獻(xiàn)[40]則考慮了影響學(xué)生知識(shí)遺忘問(wèn)題的四個(gè)因素:學(xué)生重復(fù)學(xué)習(xí)知識(shí)點(diǎn)的間隔時(shí)間、重復(fù)學(xué)習(xí)知識(shí)點(diǎn)的次數(shù)、順序?qū)W習(xí)的間隔時(shí)間以及學(xué)生對(duì)知識(shí)點(diǎn)的掌握程度。
部分學(xué)者提出可以同時(shí)利用學(xué)生方面和題目方面的豐富特征優(yōu)化DKVMN 模型。例如,文獻(xiàn)[117]一方面將題目絕對(duì)難度信息、學(xué)生所處的學(xué)習(xí)階段(例如預(yù)習(xí)階段、上課階段、家庭作業(yè)階段)和答題時(shí)間信息作為模型的輸入,另一方面引入題目與其涉及的知識(shí)點(diǎn)之間的關(guān)系權(quán)重。
此外,不少學(xué)者將DKVMN 模型與各種模型進(jìn)行結(jié)合。例如,針對(duì)DKT 模型可解釋性差的問(wèn)題,文獻(xiàn)[119]綜合具有一定可解釋性的DKVMN 模型和可解釋性較強(qiáng)的IRT 模型提出了一種新穎的深度知識(shí)追蹤模型Deep-IRT。Deep-IRT 模型使用DKVMN 模型對(duì)學(xué)生和題目間的交互進(jìn)行建模,從而得到題目絕對(duì)難度值和學(xué)生的能力值,隨后輸入IRT 模型以估計(jì)題目相對(duì)難度。文獻(xiàn)[115]在DKVMN 模型和DKTDSC 模型(一種改進(jìn)的DKT 模型)的基礎(chǔ)上提出了一個(gè)命名為DSCMN 的知識(shí)追蹤模型。該模型通過(guò)所捕捉的學(xué)生長(zhǎng)期學(xué)習(xí)過(guò)程中的每個(gè)時(shí)間間隔內(nèi)的學(xué)習(xí)能力信息來(lái)優(yōu)化現(xiàn)有的知識(shí)追蹤方法。文獻(xiàn)[114]則整合了DKVMN 模型和EERNN 模型(一種改進(jìn)的DKT 模型)提出了知識(shí)追蹤模型EKT。該模型使用雙向LSTM 提取題目文本的語(yǔ)義特征,并將該特征與學(xué)生答題交互序列組合作為模型的輸入。文獻(xiàn)[116]則綜合了DKT 模型的循環(huán)建模能力和DKVMN 的記憶能力,提出了新的深度知識(shí)追蹤模型。在意識(shí)到對(duì)于給定的一道題并非所有的學(xué)生答題數(shù)據(jù)都有助于預(yù)測(cè)該題的相對(duì)難度,文獻(xiàn)[116]因此通過(guò)在DKVMN模型中引入一個(gè)Hop-LSTM 模型,從而使得新模型能夠跳過(guò)答題序列中與目標(biāo)題目不相關(guān)的題目,繼而獲得更高效、準(zhǔn)確的模型預(yù)測(cè)性能。
(3)基于Transformers的模型
部分學(xué)者將自然語(yǔ)言處理領(lǐng)域的Transformers 模型應(yīng)用在知識(shí)追蹤領(lǐng)域。文獻(xiàn)[121]首次基于Transformers模型的簡(jiǎn)化版對(duì)學(xué)生答題交互序列進(jìn)行建模,繼而提出了一種完全基于注意力機(jī)制的知識(shí)追蹤模型SAKT(self-attentive knowledge tracing)。SAKT 模型的架構(gòu)圖如圖8 所示。圖中,SAKT 模型首先對(duì)輸入的學(xué)生答題歷史交互序列{,,…,x}進(jìn)行嵌入編碼;然后利用位置編碼機(jī)制對(duì)序列的位置進(jìn)行編碼;其后的多頭注意力機(jī)制旨在確定學(xué)生當(dāng)前作答題目與其歷史作答題目之間的相關(guān)性;在經(jīng)過(guò)一個(gè)前饋神經(jīng)網(wǎng)絡(luò)后,模型的預(yù)測(cè)層使用全連接網(wǎng)絡(luò)來(lái)預(yù)測(cè)題目對(duì)于學(xué)生的相對(duì)難度值。
圖8 SAKT 模型架構(gòu)Fig.8 Architecture of SAKT model
SAKT 模型被提出之后,文獻(xiàn)[122]提出分別使用不同的多頭注意力機(jī)制層對(duì)學(xué)生答題交互序列中的題目序列和答題結(jié)果序列分別進(jìn)行處理,并將處理得到的結(jié)果作為另一個(gè)多頭注意力機(jī)制層的輸入,以期更好地捕獲題目和答題結(jié)果間的復(fù)雜關(guān)系。文獻(xiàn)[123]則改進(jìn)了Transformers 模型的結(jié)構(gòu),使得改進(jìn)后的模型(本文將其命名為DKTT 模型)不但能夠自動(dòng)識(shí)別題目涉及的知識(shí)點(diǎn),還可以處理學(xué)生答題交互序列的時(shí)間戳。表7 總結(jié)了各個(gè)基于Transformers的知識(shí)追蹤模型的優(yōu)點(diǎn)和局限性。
表7 基于Transformers的知識(shí)追蹤模型總結(jié)Table 7 Summary of knowledge tracking models based on Transformers
(4)其他的深度學(xué)習(xí)模型
除了運(yùn)用LSTM、RNN、MANN 和Transformers模型對(duì)學(xué)生的答題交互序列進(jìn)行建模,部分學(xué)者還嘗試運(yùn)用深度學(xué)習(xí)中的其他模型建模學(xué)生的答題交互序列。例如,文獻(xiàn)[124]提出了一種基于圖神經(jīng)網(wǎng)絡(luò)的知識(shí)跟蹤模型GKT(如圖9 所示),通過(guò)將題目知識(shí)點(diǎn)間的關(guān)系轉(zhuǎn)換為圖,進(jìn)而將題目相對(duì)難度預(yù)測(cè)任務(wù)轉(zhuǎn)化為圖神經(jīng)網(wǎng)絡(luò)中的隨時(shí)間變化的節(jié)點(diǎn)分類(lèi)任務(wù)。文獻(xiàn)[125]考慮了學(xué)生的個(gè)性化特性(如不同學(xué)生具有不同的先驗(yàn)知識(shí)和學(xué)習(xí)率),并利用卷積神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)題目相對(duì)難度的預(yù)測(cè),其模型框架CKT如圖10 所示。還有學(xué)者提出了基于其他深度學(xué)習(xí)框架的題目相對(duì)難度預(yù)測(cè)模型,涉及聯(lián)邦學(xué)習(xí)、可微神經(jīng)計(jì)算機(jī)和推薦領(lǐng)域中的DeepFM模型。
圖9 GKT 模型架構(gòu)Fig.9 Architecture of GKT model
圖10 CKT 模型架構(gòu)Fig.10 Architecture of CKT model
(5)基于深度學(xué)習(xí)的知識(shí)追蹤模型的對(duì)比
深度知識(shí)追蹤模型是當(dāng)下題目相對(duì)難度評(píng)估領(lǐng)域的研究熱點(diǎn),因此本小節(jié)首先分析對(duì)比了當(dāng)下典型的深度知識(shí)追蹤模型,包括DKT、DKVMN、SAKT、GKT和CKT,詳見(jiàn)表8 所示。
表8 DKT、DKVMN、SAKT、GKT 和CKT 模型對(duì)比Table 8 Comparison of DKT,DKVMN,SAKT,GKT and CKT model
為了幫助讀者加深對(duì)已有深度知識(shí)追蹤模型的理解,現(xiàn)對(duì)目前代碼已開(kāi)源的DKT、DKVMN、GKT和CKT 模型進(jìn)行實(shí)驗(yàn)比較和分析。雖然提出這幾個(gè)模型的文獻(xiàn)都給出了各自模型基于A(yíng)SSISTments2009(https://sites.google.com/site/assistmentsdata/home/assistment-2009-2010-data/skill-builder-data-2009-2010)這個(gè)公開(kāi)數(shù)據(jù)集得到的實(shí)驗(yàn)數(shù)據(jù)。然而,這些文獻(xiàn)中給出的實(shí)驗(yàn)數(shù)據(jù)仍不能作為橫向比較這些模型的依據(jù),原因如下:(1)不同文獻(xiàn)所使用的ASSISTments2009數(shù)據(jù)集版本可能存在差異,因?yàn)锳SSISTments2009 數(shù)據(jù)集版本曾被多次更新。(2)即使所采用的ASSISTments2009 數(shù)據(jù)集的版本相同,不同文獻(xiàn)對(duì)數(shù)據(jù)集的預(yù)處理方法也不相同(例如提出DKVMN 模型的文獻(xiàn)[111]與提出GKT 模型的文獻(xiàn)[124]中的數(shù)據(jù)預(yù)處理方法不相同)。(3)即使數(shù)據(jù)集的預(yù)處理結(jié)果相同,部分文獻(xiàn)在比較現(xiàn)有模型時(shí)所設(shè)置的現(xiàn)有模型的參數(shù)并非其最優(yōu)設(shè)置(例如DKVMN 模型的來(lái)源文獻(xiàn)[111]和CKT 模型的來(lái)源文獻(xiàn)[125]中雖然數(shù)據(jù)預(yù)處理后得到的數(shù)據(jù)一樣,但前者的實(shí)驗(yàn)結(jié)論是DKVMN比DKT 優(yōu)異,后者的實(shí)驗(yàn)結(jié)論卻是DKT 比DKVMN優(yōu)異,由此可推斷上述兩篇文獻(xiàn)并未同時(shí)使用各個(gè)模型的最優(yōu)參數(shù)進(jìn)行實(shí)驗(yàn))。鑒于此,本文基于能滿(mǎn)足所有待比較模型數(shù)據(jù)需求的ASSISTments2009 數(shù)據(jù)集,統(tǒng)一使用文獻(xiàn)[131]給出的數(shù)據(jù)集預(yù)處理方法,并在模型參數(shù)設(shè)置方面遵循提出各個(gè)模型的文獻(xiàn)中推薦的參數(shù)設(shè)置,橫向比較了DKT、DKVMN、GKT和CKT 這四種深度知識(shí)追蹤模型完成題目相對(duì)難度評(píng)估任務(wù)的AUC 值(area under curve,AUC)和模型的訓(xùn)練時(shí)間。實(shí)驗(yàn)中將模型訓(xùn)練階段的參數(shù)epoch 和batch_size 分別設(shè)置為100 和32。實(shí)驗(yàn)所用的硬件環(huán)境為8核CPU,64 GB內(nèi)存,1.5 TB硬盤(pán);軟件環(huán)境為64位Ubuntu 20.04 操作系統(tǒng),模型實(shí)現(xiàn)語(yǔ)言為Python 3。此外,ASSISTments2009 數(shù)據(jù)集預(yù)處理后所得到的數(shù)據(jù)集的基本情況如下:學(xué)生數(shù)量為3 841,知識(shí)點(diǎn)數(shù)量為123,學(xué)生答題記錄數(shù)目為283 103。
表9 給出了ASSISTments2009 數(shù)據(jù)集上各個(gè)模型的AUC 值和模型的訓(xùn)練時(shí)間。觀(guān)察表9 可得到如下結(jié)論:
(1)DKVMN 模型和CKT 模型的題目相對(duì)難度評(píng)估準(zhǔn)確性?xún)?yōu)于DKT 模型。作為首個(gè)被提出的深度知識(shí)追蹤模型,DKT 模型用一個(gè)維度固定的隱藏向量表示學(xué)生對(duì)任意多個(gè)知識(shí)點(diǎn)的掌握程度,因此隱藏向量的表達(dá)能力受限,導(dǎo)致DKT 模型的評(píng)估準(zhǔn)確性低于DKVMN 模型和CKT 模型。與DKT 模型不同,DKVMN 模型為每個(gè)潛在知識(shí)點(diǎn)單獨(dú)定義了一個(gè)狀態(tài)向量,獲得了較大的外部存儲(chǔ)能力,不但增強(qiáng)了模型的可解釋性,還有效提高了模型的評(píng)估準(zhǔn)確性。表9 還展示出CKT 模型略?xún)?yōu)于DKVMN 模型,得益于其在建模時(shí)考慮了學(xué)生個(gè)性化的先驗(yàn)知識(shí)和學(xué)習(xí)率。此外,基于CNN 構(gòu)建的CKT 模型在實(shí)驗(yàn)中取得了最優(yōu)的評(píng)估性能也說(shuō)明了CNN 模型適用于對(duì)知識(shí)追蹤問(wèn)題進(jìn)行建模。
表9 重要深度知識(shí)追蹤模型實(shí)驗(yàn)對(duì)比Table 9 Experimental comparison of important deep knowledge tracking models
(2)ASSISTments2009 數(shù)據(jù)集上GKT 模型的題目相對(duì)難度評(píng)估準(zhǔn)確性最低。這是因?yàn)镚KT 模型的預(yù)測(cè)精度受學(xué)生歷史答題交互序列長(zhǎng)度的影響:序列長(zhǎng)度較長(zhǎng)時(shí)(GKT 模型原文實(shí)驗(yàn)使用的數(shù)據(jù)集的序列長(zhǎng)度限制為不小于10),其模型預(yù)測(cè)性能優(yōu)于DKVMN 模型;而當(dāng)序列長(zhǎng)度較短時(shí)(本文實(shí)驗(yàn)使用的數(shù)據(jù)集的序列長(zhǎng)度限制只為不小于3),其模型預(yù)測(cè)性能則顯著低于DKVMN 模型??梢?jiàn),GKT 模型對(duì)學(xué)生歷史答題交互序列較長(zhǎng)的數(shù)據(jù)集更為友好,更能發(fā)揮其優(yōu)越性。
(3)CKT 模型的模型訓(xùn)練時(shí)間最短,GKT 模型的訓(xùn)練時(shí)間最長(zhǎng)。這是因?yàn)镃KT 模型使用CNN 模型對(duì)學(xué)生答題交互序列進(jìn)行建模,所以與其他模型相比需要最少的模型訓(xùn)練時(shí)間。GKT 模型由于引入了圖結(jié)構(gòu),在追蹤學(xué)生的知識(shí)狀態(tài)變化時(shí),需要執(zhí)行基于圖結(jié)構(gòu)的推演計(jì)算,導(dǎo)致其模型的訓(xùn)練時(shí)間顯著高于其他模型。
近十年提出的題目相對(duì)難度預(yù)測(cè)方法主要利用動(dòng)態(tài)認(rèn)知診斷中貝葉斯網(wǎng)絡(luò)方法和基于深度學(xué)習(xí)方法構(gòu)建,但仍有學(xué)者提出了其他的解決思路。例如,為了對(duì)學(xué)習(xí)過(guò)程的動(dòng)態(tài)因素進(jìn)行建模,文獻(xiàn)[130]引入時(shí)間維度,將二維空間的矩陣分解擴(kuò)展至三維空間的張量分解從而更好地實(shí)現(xiàn)對(duì)題目相對(duì)難度信息的預(yù)測(cè)。為了考慮時(shí)間因素,文獻(xiàn)[66]將學(xué)生的答題得分記錄表示為學(xué)生得分張量,并將記憶和遺忘曲線(xiàn)綜合到概率矩陣分解模型中提出了KPT(knowledge proficiency tracing)模型。為了解決某些學(xué)生答題數(shù)據(jù)較稀疏的問(wèn)題,文獻(xiàn)[132]在KPT 模型的基礎(chǔ)上考慮了題目之間的關(guān)系并提出了EKPT(exercisecorrelated knowledge proficiency tracing)模型。文獻(xiàn)[133]則利用回歸模型對(duì)題目相對(duì)難度進(jìn)行預(yù)測(cè),并利用因子分解機(jī)解決特征組合問(wèn)題,提出了知識(shí)追蹤模型(knowledge tracing machines,KTM)。KTM模型并不考慮學(xué)生答題過(guò)程中的時(shí)間因素,屬于靜態(tài)認(rèn)知診斷模型。為此,文獻(xiàn)[15]在KTM 模型的基礎(chǔ)上考慮了學(xué)生隨著時(shí)間變化的學(xué)習(xí)率、遺忘等因素提出了一個(gè)動(dòng)態(tài)的知識(shí)追蹤模型。
本節(jié)將收集到的近十年的題目相對(duì)難度預(yù)測(cè)相關(guān)文獻(xiàn)進(jìn)行整理分析后分為兩類(lèi):一類(lèi)是靜態(tài)認(rèn)知診斷(論文占比約7%);另一類(lèi)是動(dòng)態(tài)認(rèn)知診斷(論文占比約93%)??梢?jiàn),動(dòng)態(tài)認(rèn)知診斷相關(guān)的論文更為豐富,可被進(jìn)一步分為基于貝葉斯網(wǎng)絡(luò)方法(論文占比約26%)、基于深度學(xué)習(xí)方法(論文占比約68%)和其他方法的動(dòng)態(tài)認(rèn)知診斷(論文占比約6%)。由統(tǒng)計(jì)的數(shù)據(jù)可知基于深度學(xué)習(xí)的方法是目前題目相對(duì)難度預(yù)測(cè)的主流方法。
本章對(duì)題目難度預(yù)測(cè)相關(guān)的數(shù)據(jù)集、題目難度預(yù)測(cè)模型常用的評(píng)價(jià)指標(biāo)、訓(xùn)練模型所用的題目真實(shí)難度標(biāo)簽來(lái)源以及深度題目難度預(yù)測(cè)模型中典型的信息提取方法進(jìn)行介紹和總結(jié)。
題目的絕對(duì)難度通常是以題目本身的屬性為出發(fā)點(diǎn)實(shí)現(xiàn)評(píng)估量化的。不同學(xué)科的題目在題型和內(nèi)容上均有所區(qū)別,導(dǎo)致對(duì)不同學(xué)科的題目所提取的特征存在較大差異。鑒于此,題目絕對(duì)難度評(píng)估方面的研究工作一般都是針對(duì)特定學(xué)科的特定題型進(jìn)行討論的。因此是否擁有相應(yīng)學(xué)科和題型的數(shù)據(jù)集以及所擁有的數(shù)據(jù)集是否具備一定規(guī)模決定了研究是否能順利進(jìn)行以及某些模型方法是否能夠得以運(yùn)用。目前,題目絕對(duì)難度評(píng)估研究領(lǐng)域的相關(guān)文獻(xiàn)所使用的較大規(guī)模的題目數(shù)據(jù)集大都來(lái)自大型公司,往往是不開(kāi)源的。例如文獻(xiàn)[58]所用的英語(yǔ)閱讀理解題數(shù)據(jù)集和文獻(xiàn)[12]所用的數(shù)學(xué)題數(shù)據(jù)集均來(lái)自科大訊飛股份有限公司;文獻(xiàn)[2]所用的兩個(gè)數(shù)據(jù)集(分別對(duì)應(yīng)帶圖片的數(shù)學(xué)選擇題和醫(yī)學(xué)選擇題)來(lái)自視源(CVTE)旗下的希沃(Seewo)公司和??漆t(yī)療(Xicco)公司;文獻(xiàn)[22]所用的醫(yī)學(xué)題數(shù)據(jù)集則由騰訊醫(yī)療AI 實(shí)驗(yàn)室提供。若無(wú)法獲得公司提供的數(shù)據(jù)集,學(xué)者們則通過(guò)自主開(kāi)發(fā)的教學(xué)服務(wù)平臺(tái)/系統(tǒng)收集數(shù)據(jù)或者在課堂上手動(dòng)收集數(shù)據(jù),但是這些方式所收集到的數(shù)據(jù)集的規(guī)模有限。因此,如何獲取到高質(zhì)量、大規(guī)模、包含題目數(shù)據(jù)以及學(xué)生答題數(shù)據(jù)的數(shù)據(jù)集從而支撐題目絕對(duì)難度評(píng)估方面的研究仍是一個(gè)需要解決的難題。
對(duì)于題目的相對(duì)難度評(píng)估方法而言,認(rèn)知診斷和知識(shí)追蹤都是近年來(lái)熱門(mén)的題目相對(duì)難度預(yù)測(cè)方法。標(biāo)準(zhǔn)的認(rèn)知診斷和知識(shí)追蹤模型的輸入較為簡(jiǎn)單,即學(xué)生的答題交互序列數(shù)據(jù),因此對(duì)特定的學(xué)科和題型不具依賴(lài)性。另外某些學(xué)者提出利用題目文本信息特征擴(kuò)展標(biāo)準(zhǔn)的模型以提高預(yù)測(cè)的準(zhǔn)確率,使得其所需要的數(shù)據(jù)集具有一定的特殊性。
表10 總結(jié)了目前開(kāi)源的、被用于支撐題目相對(duì)難度評(píng)估研究工作的學(xué)生交互序列數(shù)據(jù)集。
表10 學(xué)生交互序列公開(kāi)數(shù)據(jù)集Table 10 Public datasets of student interaction sequences
根據(jù)模型預(yù)測(cè)結(jié)果的不同,題目絕對(duì)難度預(yù)測(cè)模型分為分類(lèi)模型和回歸模型兩種。如果模型預(yù)測(cè)得到的是題目難度的類(lèi)別(例如可分為簡(jiǎn)單、中等和困難三類(lèi)),則該模型為分類(lèi)問(wèn)題。反之,如果題目絕對(duì)難度預(yù)測(cè)模型得到的是一個(gè)題目難度的預(yù)測(cè)值,那么該模型為回歸模型。對(duì)于題目絕對(duì)難度預(yù)測(cè)的分類(lèi)模型,其常用的評(píng)價(jià)指標(biāo)為準(zhǔn)確率(accuracy,ACC),表示模型預(yù)測(cè)的分類(lèi)是正確分類(lèi)的情況占總樣本數(shù)的百分比,如式(1)所示。題目絕對(duì)難度預(yù)測(cè)的回歸模型常用的評(píng)價(jià)指標(biāo)有均方根誤差(root mean square error,RMSE)和平均絕對(duì)誤差(mean absolute error,MAE),兩者都用于表示模型預(yù)測(cè)的題目絕對(duì)難度值和真實(shí)題目難度值之間的差距,具體計(jì)算公式分別如式(2)和式(3)所示。
其中,表示題目總數(shù),表示模型預(yù)測(cè)正確的題目數(shù)量,該評(píng)價(jià)指標(biāo)值越高越好。
對(duì)于題目相對(duì)難度的預(yù)測(cè)模型,也常從回歸或者分類(lèi)的角度對(duì)模型的效用進(jìn)行評(píng)估。常用的分類(lèi)評(píng)價(jià)指標(biāo)包括AUC(如式(4)所示)和ACC,常用的回歸評(píng)價(jià)指標(biāo)則為RMSE 和MAE。
AUC 表示模型預(yù)測(cè)的正例排在負(fù)例前面的概率,其中為正例的數(shù)量,為負(fù)例的數(shù)量。
題目真實(shí)難度作為題目難度預(yù)測(cè)模型的訓(xùn)練標(biāo)簽,對(duì)于訓(xùn)練題目難度預(yù)測(cè)模型具有重要作用。經(jīng)統(tǒng)計(jì),如表11 所示,根據(jù)題目真實(shí)難度標(biāo)簽來(lái)源的不同可將題目絕對(duì)難度預(yù)測(cè)模型中的真實(shí)難度標(biāo)簽分為兩大類(lèi):專(zhuān)家評(píng)估法和基于學(xué)生答題數(shù)據(jù)統(tǒng)計(jì)法。前者需要邀請(qǐng)領(lǐng)域?qū)<遥ㄈ缛握n教師、課程助教等)對(duì)題目的絕對(duì)難度進(jìn)行評(píng)估并給出評(píng)估結(jié)果。后者以一定規(guī)模的學(xué)生答題數(shù)據(jù)為輸入并利用統(tǒng)計(jì)學(xué)公式計(jì)算得到題目的真實(shí)難度。常用的統(tǒng)計(jì)學(xué)公式為題目通過(guò)率計(jì)算公式和項(xiàng)目反應(yīng)理論涉及的公式。而題目相對(duì)難度預(yù)測(cè)模型則使用學(xué)生在題目上的真實(shí)答題結(jié)果作為訓(xùn)練標(biāo)簽。
表11 題目真實(shí)難度標(biāo)簽的來(lái)源Table 11 Sources of true difficulty lables of questions
為了讓讀者更加了解題目難度預(yù)測(cè)的研究思路,現(xiàn)對(duì)基于深度學(xué)習(xí)的題目難度預(yù)測(cè)模型中典型的信息提取方法進(jìn)行分析和總結(jié)。
題目絕對(duì)難度方面,由于題目絕對(duì)難度主要基于題目本身的特性得到,近年來(lái),學(xué)者們開(kāi)始利用神經(jīng)網(wǎng)絡(luò)模型從題目文本中獲取題目絕對(duì)難度,該種方法首先利用詞向量模型(如word2vec、BERT)對(duì)題目文本進(jìn)行向量化,隨后輸入神經(jīng)網(wǎng)絡(luò)中提取語(yǔ)義信息、邏輯信息等。例如,文獻(xiàn)[12]和文獻(xiàn)[58]均利用word2vec 技術(shù)將題目文本向量化,隨后利用神經(jīng)網(wǎng)絡(luò)(如CNN、LSTM)提取文本中的語(yǔ)義信息或者邏輯信息。使用神經(jīng)網(wǎng)絡(luò)對(duì)題目中的信息進(jìn)行提取,無(wú)需手動(dòng)定義特征和特征提取,但需要大量的題目文本數(shù)據(jù)和訓(xùn)練標(biāo)簽,因此,該信息提取方法只適用于數(shù)據(jù)量較大的數(shù)據(jù)集。
題目相對(duì)難度方面,除了利用學(xué)生的答題交互序列,部分文獻(xiàn)還將題目方面(如題目文本、題目和知識(shí)點(diǎn)之間的關(guān)系)和學(xué)生方面(如學(xué)生答題的嘗試次數(shù)、學(xué)生答題的時(shí)間間隔)的豐富信息也作為輸入。題目方面的信息提取方法主要可以分為兩大類(lèi):第一類(lèi)是專(zhuān)家標(biāo)注,例如,文獻(xiàn)[99]中專(zhuān)家手動(dòng)標(biāo)注矩陣,從而得到題目和知識(shí)點(diǎn)之間的包含關(guān)系,文獻(xiàn)[96]中專(zhuān)家手動(dòng)標(biāo)注矩陣、知識(shí)點(diǎn)間先決依賴(lài)關(guān)系的矩陣,文獻(xiàn)[117]中需要專(zhuān)家手動(dòng)標(biāo)注題目絕對(duì)難度標(biāo)簽。專(zhuān)家標(biāo)注得到的題目信息準(zhǔn)確率較高,但該方法是勞動(dòng)密集性的,耗時(shí)耗力,只適用于學(xué)生答題交互序列涉及的題目數(shù)據(jù)量較少的場(chǎng)景。另一類(lèi)則利用機(jī)器學(xué)習(xí)的方法對(duì)題目方面的信息進(jìn)行提取。例如,文獻(xiàn)[94]設(shè)計(jì)了一個(gè)雙向的LSTM 模型,從而可以從題目文本中學(xué)習(xí)每個(gè)題目的語(yǔ)義表示,文獻(xiàn)[104]利用異構(gòu)信息網(wǎng)絡(luò)對(duì)題目和其屬性之間的復(fù)雜信息進(jìn)行提取,文獻(xiàn)[105]利用圖卷積神經(jīng)網(wǎng)絡(luò)捕捉題目和知識(shí)點(diǎn)之間的高級(jí)關(guān)系。該類(lèi)型的信息提取方法能自動(dòng)提取題目方面信息,無(wú)需具備專(zhuān)業(yè)知識(shí)的人進(jìn)行標(biāo)注,可適用于具有大量數(shù)據(jù)的智能教育線(xiàn)上場(chǎng)景,該類(lèi)方法除了需要大量的數(shù)據(jù)集以外,不同的神經(jīng)網(wǎng)絡(luò)方法存在差異,例如文獻(xiàn)[104]中使用異構(gòu)信息網(wǎng)絡(luò)提取題目和題目屬性之間的關(guān)系,而異構(gòu)信息網(wǎng)絡(luò)需要依賴(lài)適當(dāng)?shù)脑窂?,而元路徑的定義需要領(lǐng)域知識(shí)且具有一定的主觀(guān)性。文獻(xiàn)[94]需要數(shù)據(jù)集中包含較為完整的題目文本,而開(kāi)源的學(xué)生交互數(shù)據(jù)集中鮮少有數(shù)據(jù)集會(huì)提供完整的題目文本。而學(xué)生方面的典型信息提取方式可分為兩大類(lèi):第一類(lèi)依賴(lài)于系統(tǒng)的設(shè)計(jì),且占據(jù)了學(xué)生方面相關(guān)的大部分信息(如學(xué)生答題的時(shí)間間隔、學(xué)生獲取答題提示),利用系統(tǒng)獲得的學(xué)生信息準(zhǔn)確直觀(guān)且經(jīng)過(guò)簡(jiǎn)單處理后可直接作為題目相對(duì)難度預(yù)測(cè)模型的一部分輸入,但該類(lèi)型的信息獲取需要專(zhuān)業(yè)人員提前進(jìn)行定義,且依賴(lài)于開(kāi)發(fā)人員提前對(duì)智能教學(xué)系統(tǒng)進(jìn)行設(shè)計(jì),當(dāng)系統(tǒng)不具備提取特定信息的功能時(shí),無(wú)法獲得該類(lèi)型的學(xué)生信息。第二類(lèi)學(xué)生方面的信息無(wú)法通過(guò)系統(tǒng)直接得到,需要綜合系統(tǒng)收集的多種學(xué)生信息。例如文獻(xiàn)[40]中學(xué)生的遺忘行為需要綜合系統(tǒng)收集到的多個(gè)學(xué)生方面的信息(包括學(xué)生距離上次學(xué)習(xí)相同知識(shí)點(diǎn)的時(shí)間間隔、距離上次學(xué)習(xí)的時(shí)間間隔、重復(fù)學(xué)習(xí)知識(shí)點(diǎn)的次數(shù)和學(xué)生原本對(duì)于該知識(shí)點(diǎn)的掌握程度)。文獻(xiàn)[100]合并與遺忘相關(guān)的多種類(lèi)型的學(xué)生信息來(lái)考慮遺忘。
題目難度評(píng)估是教育領(lǐng)域需要解決的重要問(wèn)題,近年來(lái)學(xué)者們提出了不少題目難度評(píng)估的新方法。本文將題目難度評(píng)估分為題目絕對(duì)難度評(píng)估和題目相對(duì)難度評(píng)估兩部分,并分別進(jìn)行分析總結(jié)。
(1)題目絕對(duì)難度評(píng)估方面。題目絕對(duì)難度評(píng)估的主要依據(jù)是題目自身的特性。不同學(xué)科下的題目特性存在差異,導(dǎo)致大部分題目絕對(duì)難度的評(píng)估方法的泛化能力有限,甚至只能解決面向特定學(xué)科和特定題型的難度評(píng)估問(wèn)題。此外,大部分工作的研究對(duì)象集中為題目文本信息較為豐富或者答案唯一的題目,從而便于問(wèn)題的建模和求解。數(shù)據(jù)集方面,大部分用于評(píng)估題目絕對(duì)難度評(píng)估模型的數(shù)據(jù)集是自主收集的且規(guī)模不大。由于缺少公開(kāi)的大規(guī)模數(shù)據(jù)集,近十年發(fā)表的基于機(jī)器學(xué)習(xí)的題目絕對(duì)難度預(yù)測(cè)工作大部分是基于傳統(tǒng)機(jī)器學(xué)習(xí)方法設(shè)計(jì)的。近年來(lái)一些學(xué)者和大公司合作,在大公司提供的較大規(guī)模的數(shù)據(jù)集上利用深度學(xué)習(xí)框架成功提升了題目絕對(duì)難度的預(yù)測(cè)精度。
(2)題目相對(duì)難度評(píng)估方面。認(rèn)知診斷和知識(shí)追蹤都是近年來(lái)學(xué)者們用于解決題目相對(duì)難度評(píng)估的熱點(diǎn)方法。尤其是基于深度學(xué)習(xí)框架設(shè)計(jì)的知識(shí)追蹤模型更是成為了題目相對(duì)難度評(píng)估的主流策略,代表性模型包括DKT 模型、DKVMN 模型和基于Transformers 的知識(shí)追蹤模型等。標(biāo)準(zhǔn)的DKT 模型和DKVMN 模型的輸入較為簡(jiǎn)單,因此不少學(xué)者利用學(xué)生方面和題目方面的豐富特征來(lái)增強(qiáng)這些模型的輸入,從而有效提升了模型預(yù)測(cè)的準(zhǔn)確率。此外,部分學(xué)者還嘗試?yán)蒙窠?jīng)網(wǎng)絡(luò)中的注意力機(jī)制和教育心理學(xué)的相關(guān)理論來(lái)解決深度知識(shí)追蹤模型的模型可解釋性不強(qiáng)的問(wèn)題。支撐題目相對(duì)難度研究的公開(kāi)數(shù)據(jù)集資源較為豐富,部分公開(kāi)數(shù)據(jù)集的數(shù)據(jù)規(guī)模也比較大,為基于深度學(xué)習(xí)框架的題目相對(duì)難度預(yù)測(cè)模型的設(shè)計(jì)和評(píng)估提供了保障。
雖然題目難度評(píng)估研究領(lǐng)域近年來(lái)有不少研究工作在國(guó)內(nèi)外高水平的會(huì)議或期刊上發(fā)表,但該研究領(lǐng)域仍存在以下問(wèn)題亟待解決。
(1)缺乏支撐題目絕對(duì)難度評(píng)估研究的公開(kāi)數(shù)據(jù)集(尤其是大規(guī)模數(shù)據(jù)集)。由于直接發(fā)布題目信息(例如題目題干和選項(xiàng))可能會(huì)增加試題泄露的風(fēng)險(xiǎn),目前鮮有支撐題目絕對(duì)難度評(píng)估的公開(kāi)數(shù)據(jù)集(尤其是大規(guī)模的公開(kāi)數(shù)據(jù)集)。因此亟待研究題目數(shù)據(jù)的安全開(kāi)源方法,從而更好地支撐基于深度學(xué)習(xí)框架的題目難度預(yù)測(cè)模型的設(shè)計(jì)與評(píng)估。
(2)題目中提取的信息不夠豐富。目前大部分題目絕對(duì)難度的評(píng)估方法僅針對(duì)題目的文本進(jìn)行語(yǔ)義提取或邏輯提取,而這些題目信息提取策略并不適用于那些文本信息較少的題目,例如編程題和開(kāi)放式簡(jiǎn)答題等。因此,除上述提及的題目信息提取角度之外,如何從更多的題目信息提取角度出發(fā),設(shè)計(jì)面向文本信息較少的題目的信息提取方法也是需要解決的問(wèn)題。例如英語(yǔ)學(xué)科的語(yǔ)法填空題,該類(lèi)型的題目更側(cè)重于語(yǔ)法結(jié)構(gòu),因此可考慮提取句子中的語(yǔ)法結(jié)構(gòu)信息。此外,對(duì)于具有大量代碼的編程題,可考慮從該類(lèi)型題目的答案(即代碼)中提取信息,如將代碼轉(zhuǎn)換為抽象語(yǔ)法樹(shù),利用卷積神經(jīng)網(wǎng)絡(luò)等提取樹(shù)中提取代碼的邏輯結(jié)構(gòu)信息。
(3)需要應(yīng)用其他深度學(xué)習(xí)框架進(jìn)一步提升題目難度評(píng)估的準(zhǔn)確性。不論是在題目絕對(duì)難度評(píng)估領(lǐng)域還是題目相對(duì)難度評(píng)估研究領(lǐng)域,近年研究已表明基于深度學(xué)習(xí)框架的模型方法能夠進(jìn)一步提升傳統(tǒng)機(jī)器學(xué)習(xí)模型的準(zhǔn)確性。因此,如何運(yùn)用更多的深度學(xué)習(xí)框架(例如生成對(duì)抗網(wǎng)絡(luò)、多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)等)來(lái)改進(jìn)教育領(lǐng)域的題目難度評(píng)估問(wèn)題也是亟待研究的重要問(wèn)題。
(4)沒(méi)有充分利用知識(shí)點(diǎn)間的先決依賴(lài)關(guān)系來(lái)提升題目難度評(píng)估的準(zhǔn)確性。大量研究工作表明,增加題目難度評(píng)估模型的輸入信息種類(lèi)能進(jìn)一步提高現(xiàn)有模型的評(píng)估準(zhǔn)確性。鑒于題目考查的知識(shí)點(diǎn)之間往往存在著先決依賴(lài)關(guān)系,而現(xiàn)有的題目難度評(píng)估模型大都忽略了該信息。例如,數(shù)據(jù)庫(kù)的三個(gè)知識(shí)點(diǎn)“第一范式”、“第二范式”和“第三范式”之間存在先決依賴(lài)關(guān)系,掌握前面兩個(gè)知識(shí)點(diǎn)是掌握第三個(gè)知識(shí)點(diǎn)的先決條件。那么易知,在題目絕對(duì)難度方面,涉及知識(shí)點(diǎn)“第三范式”的題目的絕對(duì)難度大于涉及知識(shí)點(diǎn)“第二范式”和“第一范式”的題目,而該信息可用于求精題目絕對(duì)難度的評(píng)估結(jié)果。在題目相對(duì)難度方面,如果某個(gè)學(xué)生在知識(shí)點(diǎn)“第三范式”的相關(guān)題目上表現(xiàn)良好,卻在知識(shí)點(diǎn)“第一范式”或者“第二范式”的相關(guān)題目上表現(xiàn)較差,則意味該學(xué)生很可能是猜對(duì)了“第三范式”的相關(guān)題目,即該題相對(duì)于該學(xué)生的相對(duì)難度評(píng)估值應(yīng)該進(jìn)行修正。因此,如何利用知識(shí)點(diǎn)之間存在的先決依賴(lài)信息從而進(jìn)一步提升現(xiàn)有題目難度評(píng)估模型的準(zhǔn)確性是需要研究的重要問(wèn)題。
(5)部分題目相對(duì)難度評(píng)估模型缺乏教育層面的可解釋性。部分新提出的題目相對(duì)難度評(píng)估模型(例如基于深度學(xué)習(xí)框架的知識(shí)追蹤模型)雖然有效提高了題目難度預(yù)測(cè)的準(zhǔn)確性,卻存在模型在教育層面可解釋性不強(qiáng)的問(wèn)題。因此可以考慮將題目相對(duì)難度評(píng)估模型的設(shè)計(jì)和各種教育心理學(xué)理論(例如自我決定理論和Bloom 教學(xué)理論)相結(jié)合,從而讓題目相對(duì)難度評(píng)估過(guò)程更符合教育過(guò)程的自然規(guī)律和學(xué)生心理發(fā)展規(guī)律,進(jìn)一步提高現(xiàn)有模型的可解釋性。
(6)缺乏基于教學(xué)反饋的題目難度評(píng)估方法改進(jìn)策略的研究。題目難度評(píng)估往往僅是解決教學(xué)領(lǐng)域具體問(wèn)題(例如個(gè)性化題目推薦問(wèn)題和考試組卷問(wèn)題)的前置條件。因而,如何充分利用題目難度評(píng)估方法所量化的題目難度信息來(lái)改進(jìn)教學(xué)過(guò)程并基于教學(xué)過(guò)程的反饋信息來(lái)針對(duì)性地進(jìn)一步改進(jìn)現(xiàn)有題目難度評(píng)估方法也是值得實(shí)踐和研究的問(wèn)題。