吳正洋,湯 庸,劉 海
華南師范大學(xué) 計(jì)算機(jī)學(xué)院,廣州510631
隨著人工智能與大數(shù)據(jù)技術(shù)的廣泛應(yīng)用,教育大數(shù)據(jù)與教育數(shù)據(jù)挖掘以其豐富的內(nèi)涵和實(shí)用性為智能教育中相關(guān)技術(shù)的發(fā)展注入了新的動(dòng)力。學(xué)習(xí)推薦系統(tǒng)是教育數(shù)據(jù)挖掘領(lǐng)域的重要研究方向,且被廣泛地應(yīng)用于各類智能學(xué)習(xí)系統(tǒng)。在智能學(xué)習(xí)系統(tǒng)中,學(xué)習(xí)者利用各類學(xué)習(xí)資源加入教學(xué)活動(dòng),學(xué)習(xí)資源包括課件、多媒體和模擬場(chǎng)景、練習(xí)題和測(cè)驗(yàn),甚至適度和生動(dòng)的討論話題等。這些學(xué)習(xí)資源由于內(nèi)在關(guān)系可能組合形成一個(gè)復(fù)雜的結(jié)構(gòu),如圖1所示,在線學(xué)習(xí)系統(tǒng)中的各類學(xué)習(xí)資源通常源自互聯(lián)網(wǎng)或者教師。圖中的正方形、六邊形、圓形以及五邊形分別表示不同種類的學(xué)習(xí)資源。同類學(xué)習(xí)資源之間存在知識(shí)的前序、后繼、同級(jí)的層次關(guān)系,這種層次關(guān)系也可能存在于不同種類的資源間。而即使學(xué)習(xí)資源的類型不同,也可能具有相同知識(shí)、相同來源,屬于相同課程,此外,它們之間還可能存在相互引用、擴(kuò)展知識(shí)的關(guān)系。
圖1 在線學(xué)習(xí)系統(tǒng)中學(xué)習(xí)資源的復(fù)雜關(guān)系Fig.1 Complex relationship of learning resources in online learning system
學(xué)習(xí)者通過與學(xué)習(xí)資源的交互達(dá)到認(rèn)知提升的目的,但由于學(xué)習(xí)資源種類數(shù)量繁多且結(jié)構(gòu)復(fù)雜,因此有必要在學(xué)習(xí)系統(tǒng)中嵌入個(gè)性化功能,以適應(yīng)性地跟蹤學(xué)習(xí)者的進(jìn)展,并提供適合他們需要的學(xué)習(xí)資源。鑒于此,學(xué)習(xí)推薦系統(tǒng)(learning recommender system,LRS)應(yīng)運(yùn)而生。學(xué)習(xí)是一項(xiàng)具有綜合性特征的活動(dòng),需要學(xué)習(xí)者長(zhǎng)期持續(xù)的認(rèn)知加工、情感投入乃至意志支撐。因此,與推薦系統(tǒng)在其他領(lǐng)域的應(yīng)用不同,學(xué)習(xí)推薦不是為了預(yù)測(cè)或迎合學(xué)習(xí)者的潛在行為,而應(yīng)該通過推薦的內(nèi)容,輔助學(xué)習(xí)者在合適的學(xué)習(xí)進(jìn)程中以合理的方式發(fā)現(xiàn)與其個(gè)性化參數(shù)相匹配的學(xué)習(xí)資源,從而保持學(xué)習(xí)者的積極性,并支持他們有效地完成學(xué)習(xí)活動(dòng)。
根據(jù)以上目標(biāo),本文從學(xué)習(xí)推薦系統(tǒng)的研究中歸納了三個(gè)核心問題:第一個(gè)是學(xué)習(xí)者建模問題,即如何對(duì)學(xué)習(xí)者的學(xué)習(xí)風(fēng)格、認(rèn)知水平、情感狀態(tài)等信息進(jìn)行全面捕獲,并有效地建立學(xué)習(xí)者模型。第二個(gè)是學(xué)習(xí)推薦對(duì)象建模問題,即如何發(fā)掘?qū)W習(xí)推薦對(duì)象與學(xué)習(xí)者個(gè)性化參數(shù)相關(guān)聯(lián)的信息,并有效地建立學(xué)習(xí)推薦對(duì)象模型。第三個(gè)是學(xué)習(xí)推薦算法設(shè)計(jì)問題,即采用何種計(jì)算模式將學(xué)習(xí)者模型和學(xué)習(xí)推薦資源模型有效結(jié)合,從而提升比較、過濾、匹配等操作的效率和精度。此外,建構(gòu)主義學(xué)習(xí)理論認(rèn)為,學(xué)習(xí)活動(dòng)是學(xué)習(xí)者認(rèn)知構(gòu)建的過程,且具有持續(xù)性和連貫性,因此,對(duì)推薦效果的評(píng)價(jià)和跟蹤也是學(xué)習(xí)推薦系統(tǒng)應(yīng)解決的重要問題。
一個(gè)通用的學(xué)習(xí)推薦系統(tǒng)框架如圖2 所示,該框架由三個(gè)子模塊構(gòu)成,即學(xué)習(xí)者建模、推薦對(duì)象建模以及推薦算法。學(xué)習(xí)者建模主要包括學(xué)習(xí)者狀態(tài)表示算法以及學(xué)習(xí)者模型;學(xué)習(xí)推薦對(duì)象建模主要包括推薦對(duì)象狀態(tài)表示算法以及學(xué)習(xí)推薦對(duì)象模型;推薦算法模塊通過處理學(xué)習(xí)者模型和學(xué)習(xí)推薦對(duì)象模型,向目標(biāo)學(xué)習(xí)者輸出推薦結(jié)果。
圖2 學(xué)習(xí)推薦系統(tǒng)的框架示意圖Fig.2 Schematic diagram of framework of learning recommendation system
對(duì)于個(gè)性化推薦系統(tǒng)而言,首要解決的是用戶和推薦對(duì)象建模的問題。所謂用戶或推薦對(duì)象的建模,即通過對(duì)用戶、推薦對(duì)象顯式特征的轉(zhuǎn)換或潛在特征的提取,來構(gòu)成能夠體現(xiàn)其獨(dú)特性或相似性的表示方式。在學(xué)習(xí)推薦系統(tǒng)中,用戶即為學(xué)習(xí)者,其特征包括學(xué)習(xí)偏好、學(xué)習(xí)風(fēng)格、知識(shí)掌握水平、知識(shí)背景等。學(xué)習(xí)者表示模塊即通過算法將學(xué)習(xí)者在學(xué)習(xí)過程中所體現(xiàn)出來的個(gè)性化參數(shù)值進(jìn)行有效表示,并盡量使其蘊(yùn)涵更豐富的個(gè)性化語義。學(xué)習(xí)推薦對(duì)象表示模塊的作用則是將推薦對(duì)象的特征提取出來,并進(jìn)一步轉(zhuǎn)換推薦對(duì)象模型。推薦算法模塊通過處理學(xué)習(xí)者和推薦對(duì)象模型,實(shí)現(xiàn)推薦。但與其他個(gè)性化推薦系統(tǒng)不同的是,學(xué)習(xí)推薦對(duì)象可以是課件、多媒體、練習(xí)題等單一學(xué)習(xí)資源,也可以是由若干有關(guān)聯(lián)的學(xué)習(xí)資源組合構(gòu)成的學(xué)習(xí)路徑。這是因?yàn)樵谝粋€(gè)完整的課程學(xué)習(xí)過程中,單一學(xué)習(xí)資源推薦可能會(huì)導(dǎo)致一些問題,首先是忽略了學(xué)習(xí)者對(duì)不同學(xué)習(xí)資源的偏好,只推薦一種學(xué)習(xí)資源可能會(huì)影響本身不喜歡這類資源的學(xué)習(xí)者的積極性,其次是忽略了學(xué)習(xí)者在學(xué)習(xí)過程中的進(jìn)步和變化,從而喪失了學(xué)習(xí)推薦的引導(dǎo)作用??梢?,個(gè)性化學(xué)習(xí)推薦問題在考慮學(xué)習(xí)資源與學(xué)習(xí)者個(gè)性化特征匹配的基礎(chǔ)上,還應(yīng)考慮對(duì)學(xué)習(xí)者學(xué)習(xí)效果的影響。參考推薦系統(tǒng)對(duì)個(gè)性化學(xué)習(xí)推薦系統(tǒng)進(jìn)行形式化定義:設(shè)P是學(xué)習(xí)者的個(gè)性化參數(shù)集合,函數(shù)表示學(xué)習(xí)者建模過程,(P)是學(xué)習(xí)者模型集合;P是所有可以推薦給學(xué)習(xí)者的對(duì)象的特征集合,函數(shù)表示推薦對(duì)象建模過程,(P) 是推薦對(duì)象模型集合。設(shè)函數(shù)可以用于計(jì)算推薦對(duì)象對(duì)學(xué)習(xí)者的推薦度,即((P),(P))→,是一定范圍內(nèi)的全序的非負(fù)實(shí)數(shù),推薦的目標(biāo)就是找到推薦度最大的那些對(duì)象,如式(1)所示:
由以上形式化定義可以看出,學(xué)習(xí)者建模、推薦對(duì)象建模以及推薦算法,是個(gè)性化學(xué)習(xí)推薦的3個(gè)關(guān)鍵技術(shù),本文接下來將圍繞這些內(nèi)容展開介紹。
學(xué)習(xí)者建模是構(gòu)建精準(zhǔn)、優(yōu)質(zhì)、個(gè)性化學(xué)習(xí)推薦系統(tǒng)的先決條件。學(xué)習(xí)者模型應(yīng)反映多方面的、動(dòng)態(tài)變化的學(xué)習(xí)者個(gè)性化參數(shù)。文獻(xiàn)[14]總結(jié)了19 項(xiàng)學(xué)習(xí)者個(gè)性化參數(shù),并將其歸納為3 個(gè)類別:“為何學(xué)”“學(xué)什么”以及“如何學(xué)”。其中,“為何學(xué)”類別下的參數(shù),是將學(xué)習(xí)目標(biāo)和動(dòng)機(jī)視為學(xué)習(xí)者的個(gè)性化差異;“學(xué)什么”類別下的參數(shù)體現(xiàn)了學(xué)習(xí)本質(zhì)內(nèi)容,即根據(jù)學(xué)習(xí)預(yù)期達(dá)到的知識(shí)點(diǎn)和技能目標(biāo)等作為學(xué)習(xí)者的個(gè)性化差異;“如何學(xué)”類別下包含了更豐富的個(gè)性化參數(shù),如學(xué)習(xí)偏好、學(xué)習(xí)風(fēng)格以及面向?qū)W習(xí)內(nèi)容所采用教學(xué)方法的相關(guān)知識(shí)背景等,這些參數(shù)可用于體現(xiàn)學(xué)習(xí)者的個(gè)體化學(xué)習(xí)方案差異。對(duì)于學(xué)習(xí)推薦系統(tǒng)而言,可根據(jù)應(yīng)用場(chǎng)景考慮其中一項(xiàng)或多項(xiàng)參數(shù)的組合。如在線課程學(xué)習(xí)中,學(xué)習(xí)者的目標(biāo)一般是在限定的時(shí)間(三個(gè)月或一個(gè)學(xué)期)內(nèi)完成學(xué)習(xí)任務(wù)且取得好成績(jī)。為此,學(xué)習(xí)者只需關(guān)注與自己的知識(shí)背景、能力水平等參數(shù)相匹配,且可以在限定的時(shí)間內(nèi)完成的學(xué)習(xí)資源;接下來,學(xué)習(xí)者會(huì)在這些學(xué)習(xí)資源中挑選符合自己學(xué)習(xí)風(fēng)格偏好的那些開展學(xué)習(xí)。因此,文獻(xiàn)[7]從學(xué)習(xí)路徑推薦視角,將學(xué)習(xí)者的個(gè)性化參數(shù)設(shè)置為學(xué)習(xí)目標(biāo)、技能學(xué)習(xí)、知識(shí)背景、時(shí)間限制以及學(xué)習(xí)風(fēng)格五個(gè),每個(gè)參數(shù)從屬的類別如圖3 所示。
圖3 學(xué)習(xí)路徑推薦視角下的學(xué)習(xí)者個(gè)性化參數(shù)分類Fig.3 Classification of learners'personalized parameters from perspective of learning path recommendation
學(xué)習(xí)者建模應(yīng)能獲取、表示、存儲(chǔ)和修改學(xué)習(xí)者的特征和狀態(tài),能通過推理,對(duì)學(xué)習(xí)者進(jìn)行分類和識(shí)別,使系統(tǒng)更充分、更準(zhǔn)確地捕獲學(xué)習(xí)者的特征和狀態(tài)。Chrysafiadi 等總結(jié)了九種學(xué)習(xí)者建模方法:覆蓋建模(overlay)、原型建模(stereotypes)、攝動(dòng)建模(perturbation)、機(jī)器學(xué)習(xí)技術(shù)建模(machine learning techniques)、基于認(rèn)知理論建模(cognitive theories)、基于約束的建模(constraint-based)、模糊建模(fuzzybased)、基于貝葉斯網(wǎng)絡(luò)建模(Bayesian networks)以及基于本體的建模(ontology-based)??梢钥闯觯瑢W(xué)習(xí)者建模除了要體現(xiàn)學(xué)習(xí)者的基本屬性特征(如年齡、性別等)之外,還需體現(xiàn)學(xué)習(xí)者的認(rèn)知狀態(tài)(或知識(shí)掌握狀態(tài))、情感狀態(tài)等,這類狀態(tài)會(huì)隨著學(xué)習(xí)活動(dòng)的進(jìn)行而變化。近年來,隨著深度學(xué)習(xí)和特征工程相關(guān)研究的發(fā)展,學(xué)習(xí)者建模方法也在發(fā)展。本文接下來將結(jié)合近幾年學(xué)習(xí)者建模方法的研究進(jìn)展,并從學(xué)習(xí)者特征表示的視角將其歸納為顯式的學(xué)習(xí)者建模方法、隱式的學(xué)習(xí)者建模方法以及語義式的學(xué)習(xí)者建模方法,如圖4 所示。
圖4 本文歸納學(xué)習(xí)者建模的三類方法Fig.4 Three types of learner modeling methods in this paper
顯式的建模方法是通過提取系統(tǒng)或文檔等明顯的學(xué)習(xí)者特征或偏好描述數(shù)據(jù),構(gòu)成能夠體現(xiàn)學(xué)習(xí)者獨(dú)特性或相似性的表示方式。顯式的學(xué)習(xí)者建模有利于將學(xué)習(xí)者模型與個(gè)性化參數(shù)直接對(duì)應(yīng)。由于存在多種學(xué)習(xí)者個(gè)性化參數(shù),在不同的應(yīng)用需求下,顯式學(xué)習(xí)者建模方法所描述的學(xué)習(xí)者特征可能也不同。文獻(xiàn)[15]從學(xué)習(xí)者對(duì)被推薦對(duì)象的偏好出發(fā),認(rèn)為在學(xué)習(xí)路徑選擇上,學(xué)習(xí)者更關(guān)注研究的新穎性、權(quán)威性和普及性,并基于此提出了一個(gè)學(xué)習(xí)路徑推薦方法,該方法以學(xué)習(xí)路徑中所配置學(xué)習(xí)資源的新穎度、流行度和權(quán)威度3 個(gè)值的加權(quán)平均表示學(xué)習(xí)者模型。有的顯式學(xué)習(xí)者建模方法直接采用了學(xué)習(xí)者對(duì)學(xué)習(xí)資源項(xiàng)目評(píng)分,如在文獻(xiàn)[16]所提出的學(xué)習(xí)推薦模型中,將所有學(xué)習(xí)者對(duì)所有學(xué)習(xí)資源項(xiàng)目的評(píng)分形成一個(gè)矩陣,該矩陣的每一行即為一個(gè)學(xué)習(xí)者的向量表示。
有的方法通過采集學(xué)習(xí)者在不同系統(tǒng)中體現(xiàn)的個(gè)性化參數(shù)進(jìn)行學(xué)習(xí)者建模,如文獻(xiàn)[17]將學(xué)習(xí)者在多個(gè)系統(tǒng)中所表現(xiàn)出的不同學(xué)習(xí)目標(biāo)進(jìn)行組合后形成學(xué)習(xí)者模型。該方法對(duì)學(xué)習(xí)者的描述是基于其在多個(gè)系統(tǒng)中配置文件的前個(gè)標(biāo)簽,并重點(diǎn)描述該學(xué)習(xí)者在系統(tǒng)中的行為,即其最活躍的個(gè)性化特征。還有的研究通過直接調(diào)查獲取個(gè)性化參數(shù)的方法進(jìn)行學(xué)習(xí)者建模,比如文獻(xiàn)[18]所提出的學(xué)習(xí)推薦模型就直接通過采集學(xué)習(xí)風(fēng)格進(jìn)行學(xué)習(xí)者建模,還為此開發(fā)了一套關(guān)于學(xué)習(xí)風(fēng)格的在線調(diào)查表工具,使用學(xué)習(xí)風(fēng)格分類法描述學(xué)習(xí)者的學(xué)習(xí)風(fēng)格特征。文獻(xiàn)[8]提出的學(xué)習(xí)推薦方法同樣使用了在線問卷調(diào)查的方式收集更豐富的個(gè)性化參數(shù),所形成的學(xué)習(xí)者模型除了學(xué)習(xí)風(fēng)格之外,還包括學(xué)習(xí)者的學(xué)習(xí)進(jìn)展。顯式學(xué)習(xí)者建模高效直觀,保留了推薦系統(tǒng)所需要的學(xué)習(xí)者特征,使學(xué)習(xí)者模型具有良好的可解釋性,但在學(xué)習(xí)者特征缺少的情形下,顯式的學(xué)習(xí)者建模方法往往失效。另一方面,當(dāng)學(xué)習(xí)者與學(xué)習(xí)項(xiàng)目交互矩陣過于稀疏時(shí),采用顯式學(xué)習(xí)者建模方法也難以有效表現(xiàn)學(xué)習(xí)者與學(xué)習(xí)資源項(xiàng)目的交互行為特征。
所謂隱式學(xué)習(xí)者建模,是指將顯式的學(xué)習(xí)者特征數(shù)據(jù)或行為數(shù)據(jù)經(jīng)過轉(zhuǎn)換計(jì)算后得到一種可以描述學(xué)習(xí)者特征的向量。該向量的組成元素看似不是特征值的直觀表示,但能表達(dá)學(xué)習(xí)者特征的語義信息。由于這種向量通常被稱為“隱向量”,本文將這種建模方式稱為“隱式學(xué)習(xí)者建?!?。隱式學(xué)習(xí)者建模是當(dāng)前學(xué)習(xí)推薦系統(tǒng)研究的熱點(diǎn),主要包括基于模型的方法、基于會(huì)話的方法和基于圖的方法。
(1)矩陣分解
矩陣分解(matrix factorization,MF)已經(jīng)廣泛應(yīng)用于推薦系統(tǒng)中,它基于的假設(shè)是:用戶偏好受到少量潛在因素的影響,且項(xiàng)目的評(píng)分取決于其每個(gè)特征因素如何應(yīng)用于用戶偏好。MF 能夠把“用戶-項(xiàng)目”評(píng)分矩陣分解成兩個(gè)或者多個(gè)低維矩陣的乘積實(shí)現(xiàn)維數(shù)的規(guī)約,用低維空間數(shù)據(jù)研究高維數(shù)據(jù)的性質(zhì),主要包括非負(fù)矩陣分解(non-negative matrix factorization,NMF)、廣義矩陣分解(generalized matrix factorization,GMF)和概率矩陣分解(probabilistic matrix factorization,PMF)。其中NMF 方法是把用戶對(duì)項(xiàng)目的評(píng)分矩陣R分解成兩個(gè)實(shí)值非負(fù)矩陣U和V,使得≈,如圖5 所示。
圖5 矩陣分解示意圖Fig.5 Schematic diagram of matrix factorization
采用矩陣分解進(jìn)行學(xué)習(xí)者建模,通常先根據(jù)交互數(shù)據(jù)構(gòu)建值為1/0 的矩陣,再將該矩陣分解為兩個(gè)低維矩陣,其中一個(gè)矩陣的行數(shù)與學(xué)習(xí)者人數(shù)相同,每行即表示一個(gè)學(xué)習(xí)者的隱特征向量。凡有交互或評(píng)分行為的應(yīng)用場(chǎng)景都可以考慮使用矩陣分解方法。比如在文獻(xiàn)[24]中,采用了一個(gè)×的矩陣表示學(xué)習(xí)者在論壇上的表現(xiàn),其中每行表示至少在課程的在線論壇上發(fā)布一次的學(xué)習(xí)者,每一列表示文中所定義的學(xué)習(xí)者在論壇中五種行為維度之中的某個(gè)類別標(biāo)簽(比如知識(shí)構(gòu)建維度中的一個(gè)類別是“觀察或意見聲明”)。如果學(xué)習(xí)者發(fā)布至少一個(gè)帖子分配了的內(nèi)容標(biāo)簽,則的每個(gè)條目C為1,否則為0。因此,是一個(gè)值為1/0 的矩陣,然后對(duì)采用貝葉斯非負(fù)矩陣分解(Bayesian non-negative matrix factorization,BNMF)方法生成學(xué)習(xí)者隱特征向量。文獻(xiàn)[25]根據(jù)學(xué)習(xí)者課程學(xué)習(xí)記錄,構(gòu)建了“學(xué)習(xí)者-所選課程”矩陣,再采用PMF 方法并假設(shè)其條件概率符合高斯分布,將選課矩陣分解為學(xué)習(xí)者和課程的隱特征向量。文獻(xiàn)[26]首先將學(xué)習(xí)者對(duì)學(xué)習(xí)資源的點(diǎn)擊、閱讀或使用看作一次“交互”,從而形成一個(gè)“學(xué)習(xí)者-學(xué)習(xí)資源”交互矩陣。采用GMF 方法將其分解為學(xué)習(xí)者和學(xué)習(xí)資源的隱特征向量,為了融入學(xué)習(xí)者與學(xué)習(xí)資源長(zhǎng)時(shí)期交互的特征,該模型還結(jié)合長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)進(jìn)一步生成學(xué)習(xí)者和學(xué)習(xí)資源的融合隱特征向量,并將兩種特征向量進(jìn)行組合后,共享同一個(gè)Sigmoid輸出層。在使用過程中,將學(xué)習(xí)者與學(xué)習(xí)資源的交互記錄作為輸入數(shù)據(jù),經(jīng)過模型生成學(xué)習(xí)者對(duì)候選學(xué)習(xí)資源的交互概率,最后將交互概率最高的前幾項(xiàng)學(xué)習(xí)資源推薦給學(xué)習(xí)者。
(2)自編碼器
圖6 自編碼器結(jié)構(gòu)Fig.6 Framework of auto-encoder
文獻(xiàn)[31]提出的練習(xí)題推薦系統(tǒng)中,采用了兩套結(jié)構(gòu)相同的堆疊降噪自編碼器(stacked denoising auto-encoder,SDAE)分別生成學(xué)習(xí)者隱表示和練習(xí)題的隱表示。SDAE 是降噪自編碼器(denoising auto-encoder,DAE)的變體,DAE 的提出是為了防止過擬合,在自編碼器輸入層的輸入數(shù)據(jù)加入噪音,使學(xué)習(xí)得到的編碼器具有魯棒性;而SDAE 就是將多個(gè)DAE 堆疊在一起形成一個(gè)深層網(wǎng)絡(luò)結(jié)構(gòu),并且只在訓(xùn)練時(shí)才對(duì)輸入進(jìn)行加噪。與矩陣分解不同的是,自編碼器能夠?qū)W(xué)習(xí)者多種特征所整合的高維向量進(jìn)行降維,而矩陣分解則聚焦于表示學(xué)習(xí)者與學(xué)習(xí)資源的交互特征。
(3)基于上下文
學(xué)習(xí)者所受到的環(huán)境影響,難以通過主觀調(diào)查獲得?;谏舷挛牡膶W(xué)習(xí)者建模方法能夠適當(dāng)將學(xué)習(xí)環(huán)境的信息融入學(xué)習(xí)者模型中。比如,有研究提出從社交網(wǎng)絡(luò)中產(chǎn)生的信息作為特征提取的數(shù)據(jù)來源,用以更準(zhǔn)確捕獲學(xué)習(xí)者的潛在偏好。文獻(xiàn)[33]以多媒體為媒介,將學(xué)習(xí)者看作社交網(wǎng)絡(luò)中多媒體資源的提供者,基于他/她所學(xué)習(xí)的多媒體資源描述文本所表達(dá)的上下文信息,使用特征袋(bag of features,BOF)算法模型產(chǎn)生學(xué)習(xí)者的隱特征向量。另外還有研究認(rèn)為,學(xué)習(xí)者作為群體中的成員也會(huì)受到所在班級(jí)環(huán)境的影響,文獻(xiàn)[35]提出了一種基于班級(jí)上下文因素(class contextual factors,CCF)實(shí)現(xiàn)個(gè)性化學(xué)習(xí)推薦的方法。該方法所采用的班級(jí)上下文因素是學(xué)習(xí)者對(duì)課程知識(shí)點(diǎn)的掌握水平,并以此作為學(xué)習(xí)者的隱特征表示。
基于會(huì)話的推薦任務(wù)是指給定用戶在會(huì)話中的上一次互動(dòng),預(yù)測(cè)用戶對(duì)下一次出現(xiàn)項(xiàng)目感興趣的可能性。對(duì)應(yīng)的推薦方法采用了用戶與項(xiàng)目在一段時(shí)間內(nèi)的交互序列,因此,用于處理序列數(shù)據(jù)的模型,如循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)、Transformer等被廣泛使用。文獻(xiàn)[38]根據(jù)學(xué)習(xí)者的答題記錄,使用基于LSTM(RNN 的一種變體)的知識(shí)追蹤模型(如圖7 所示)預(yù)測(cè)學(xué)習(xí)者正確回答知識(shí)點(diǎn)的概率,由于練習(xí)題包含一個(gè)或多個(gè)知識(shí)點(diǎn),可以基于此形成知識(shí)點(diǎn)掌握水平概率的向量表示,從而構(gòu)建學(xué)習(xí)者模型。
圖7 基于LSTM 的知識(shí)追蹤模型Fig.7 Knowledge tracking model based on LSTM
近年來,注意力機(jī)制(attention mechanism)受到了推薦模型研究的關(guān)注,傳統(tǒng)的注意力機(jī)制是面向源端和目標(biāo)端的隱變量的計(jì)算,從而得到源端輸入與目標(biāo)端輸出之間的依賴關(guān)系。自注意力機(jī)制(self-attention mechanism)是一種常用的注意力機(jī)制,它首先分別在源端和目標(biāo)端進(jìn)行,捕捉源端或目標(biāo)端自身的隱變量之間的依賴關(guān)系;然后將源端和目標(biāo)端的注意力結(jié)合,捕捉源端和目標(biāo)端之間隱變量的依賴關(guān)系。因此,自注意力機(jī)制不僅可以得到源端與目標(biāo)端隱變量之間的依賴關(guān)系,同時(shí)還可以有效獲取源端或目標(biāo)端隱變量之間的依賴關(guān)系。文獻(xiàn)[39]使用自注意力機(jī)制,根據(jù)學(xué)習(xí)者在課程中的瀏覽點(diǎn)擊記錄,分別捕獲查詢、鍵和值的上下文信息,進(jìn)一步生成注意力向量,表示會(huì)話中的線程?;谧宰⒁饬C(jī)制的表示生成模型如圖8 所示。
圖8 基于自注意力機(jī)制的表征生成Fig.8 Self-attention mechanism based representation generation
相比序列結(jié)構(gòu)而言,圖或網(wǎng)絡(luò)結(jié)構(gòu)更能表現(xiàn)學(xué)習(xí)環(huán)境下的真實(shí)情況。在基于圖形結(jié)構(gòu)的推薦系統(tǒng)中,數(shù)據(jù)以圖形的形式表示,其中節(jié)點(diǎn)是用戶、標(biāo)簽或資源,邊是它們之間的事務(wù)或關(guān)系。文獻(xiàn)[40]根據(jù)學(xué)習(xí)者、學(xué)習(xí)資源之間的關(guān)系為其添加排序標(biāo)簽,即以基于位置關(guān)系的排序?qū)W(xué)習(xí)者進(jìn)行表示。文獻(xiàn)[41]提出將學(xué)習(xí)者和練習(xí)題作為實(shí)體,用邊表示學(xué)習(xí)者回答練習(xí),再根據(jù)學(xué)習(xí)者回答練習(xí)的正確率確定邊的權(quán)重。文獻(xiàn)[42]在實(shí)驗(yàn)部分提到了一種基于知識(shí)圖譜表示的練習(xí)題推薦方法,該方法將學(xué)習(xí)者和練習(xí)題作為實(shí)體,并將學(xué)生回答練習(xí)的結(jié)果作為關(guān)系?;谥R(shí)圖譜獲得每個(gè)實(shí)體的低維向量,并進(jìn)行關(guān)系學(xué)習(xí),使圖的結(jié)構(gòu)和語義信息保持在向量中。
所謂基于知識(shí)的學(xué)習(xí)者建模,是指基于領(lǐng)域知識(shí)背景,通過識(shí)別學(xué)習(xí)者特征實(shí)體和其之間的關(guān)系,從而形成蘊(yùn)含語義的網(wǎng)絡(luò)或圖結(jié)構(gòu),再通過將其實(shí)例化形成學(xué)習(xí)者模型?;谥R(shí)的學(xué)習(xí)者建模通常需要領(lǐng)域?qū)<业膮⑴c,難以避免主觀偏差,本體技術(shù)在該建模方法中被廣泛使用。本體是基于領(lǐng)域中所涉及的概念、屬性和條件,以及它們之間的關(guān)系所形成的領(lǐng)域知識(shí)表示形式,支持抽象概念和屬性的形式表示,并可在需要時(shí)進(jìn)行重用、擴(kuò)展以及更新知識(shí)。在學(xué)習(xí)推薦應(yīng)用場(chǎng)景下,基于本體的學(xué)習(xí)者建模方法通常根據(jù)學(xué)習(xí)者的基本屬性和學(xué)習(xí)特征來構(gòu)建學(xué)習(xí)者本體。文獻(xiàn)[45]提出的基于本體的學(xué)習(xí)者建模方法,首先使用學(xué)習(xí)風(fēng)格指數(shù)(index of learning styles,ILS)問卷對(duì)學(xué)習(xí)者的學(xué)習(xí)風(fēng)格進(jìn)行分析,并將有效規(guī)則定義為學(xué)習(xí)風(fēng)格語義組與學(xué)習(xí)目標(biāo)之間存在交集。文獻(xiàn)[46]提出了一個(gè)基于本體的MOOC 學(xué)習(xí)活動(dòng)推薦方法。在該推薦方法中,本體被用于建模和表示領(lǐng)域知識(shí)、學(xué)習(xí)者以及學(xué)習(xí)活動(dòng)。其中,學(xué)習(xí)者本體由4 個(gè)子類構(gòu)成,即知識(shí)水平、學(xué)習(xí)方式、教學(xué)偏好以及學(xué)習(xí)者基本特征。采用本體技術(shù)可以將學(xué)習(xí)者建模擴(kuò)展到多模態(tài)數(shù)據(jù)。文獻(xiàn)[47]提出一種通過學(xué)習(xí)者的Facebook 帳戶提取他/她的社交數(shù)據(jù),將個(gè)人資料信息、好友列表、喜歡的頁面、帖子和群組等進(jìn)行過濾,尋找那些定義教育興趣、訪問時(shí)間偏好、語言媒體偏好等信息,再基于這些信息對(duì)學(xué)習(xí)者本體進(jìn)行實(shí)例化。文獻(xiàn)[48]構(gòu)建了一個(gè)基于學(xué)習(xí)系統(tǒng)領(lǐng)域規(guī)則的通用本體,該本體結(jié)合了用于建模用戶配置文件的概念和屬性,以便在學(xué)習(xí)系統(tǒng)中制定具體、完整和可擴(kuò)展的用戶建模。該方法使學(xué)習(xí)者模型不斷更新,并利用語義規(guī)則來分析學(xué)生的學(xué)習(xí)情況,從而更新關(guān)于學(xué)習(xí)者表現(xiàn)的知識(shí)。
學(xué)習(xí)者建模方法應(yīng)圍繞學(xué)習(xí)者個(gè)性化參數(shù),并盡可能保留學(xué)習(xí)者特征語義。本章將學(xué)習(xí)者建模方法歸納為顯式、隱式和基于知識(shí)的方法。其中,顯式學(xué)習(xí)者建模方法最直觀,但在學(xué)習(xí)者特征數(shù)據(jù)缺少的情形下往往失效。因此,當(dāng)前對(duì)學(xué)習(xí)者建模方法的研究比較傾向于隱式學(xué)習(xí)者建模,如基于模型的方法、基于會(huì)話的方法和基于圖的方法等。基于模型的方法旨在通過模型從文本描述、上下文等非結(jié)構(gòu)化的數(shù)據(jù)中提取學(xué)習(xí)者特征,常采用矩陣分解、自編碼器等能夠產(chǎn)生稠密向量的模型;基于會(huì)話的方法利用學(xué)習(xí)者與學(xué)習(xí)資源帶有時(shí)序特征的交互數(shù)據(jù),一般使用RNN 或其變體、注意力機(jī)制等模型處理數(shù)據(jù),其本質(zhì)是生成學(xué)習(xí)者在交互序列中下一個(gè)時(shí)間步狀態(tài)的隱特征向量;基于圖的方法則首先要將學(xué)習(xí)者、學(xué)習(xí)資源以及其之間的關(guān)系用圖結(jié)構(gòu)表示,然后采用隨機(jī)游走或用于處理知識(shí)圖譜表征的翻譯嵌入(translating embeddings,TransE)模型生成關(guān)系圖中學(xué)習(xí)者的隱特征向量表示?;谥R(shí)的學(xué)習(xí)者建模側(cè)重于領(lǐng)域知識(shí)表示模型的構(gòu)建,旨在通過構(gòu)建完備的學(xué)習(xí)知識(shí)表示模型來預(yù)先設(shè)定學(xué)習(xí)者建模所涉及的特征,再通過實(shí)例化生成學(xué)習(xí)者模型。隱式學(xué)習(xí)者建模方法缺乏直觀性,用于學(xué)習(xí)者隱特征表示的稠密向量只能間接反映學(xué)習(xí)者的相對(duì)狀態(tài),且向量維度往往需要通過模型訓(xùn)練調(diào)參才能確定。
學(xué)習(xí)推薦對(duì)象主要包括學(xué)習(xí)資源、好友以及學(xué)習(xí)路徑。其中學(xué)習(xí)資源是學(xué)習(xí)活動(dòng)中所使用的資源,包括習(xí)題、課程、教學(xué)視頻、參考文獻(xiàn)、考試卷等,相關(guān)推薦的研究較多。按來源不同可將學(xué)習(xí)資源分為兩類:一類源自在線學(xué)習(xí)平臺(tái)內(nèi)部,在平臺(tái)建設(shè)初期導(dǎo)入,并隨著平臺(tái)的運(yùn)作不斷更新和補(bǔ)充;另一類源自在線學(xué)習(xí)平臺(tái)外部,學(xué)習(xí)者可以通過平臺(tái)提供的鏈接訪問。無論來源于內(nèi)部或外部,在線學(xué)習(xí)平臺(tái)都應(yīng)對(duì)其進(jìn)行統(tǒng)一標(biāo)準(zhǔn)化管理,標(biāo)準(zhǔn)化的內(nèi)容包括資源的類型、所覆蓋的知識(shí)點(diǎn)、難度、適用階段、學(xué)習(xí)時(shí)間等。此外,為了提高檢索效率,通常在學(xué)習(xí)資源管理系統(tǒng)中采用自動(dòng)或半自動(dòng)的語義化方法,從而為學(xué)習(xí)推薦對(duì)象的特征描述提供豐富的語義。學(xué)習(xí)推薦對(duì)象建模是學(xué)習(xí)推薦任務(wù)的重要部分,建模之前要考慮以下幾個(gè)問題:
(1)從推薦對(duì)象提取的特征應(yīng)與學(xué)習(xí)者的個(gè)性化參數(shù)相匹配。學(xué)習(xí)推薦對(duì)象可能具有多種屬性特征,其中有些屬性與學(xué)習(xí)者的個(gè)性化參數(shù)相關(guān),比如推薦對(duì)象所包含的知識(shí)點(diǎn)與學(xué)習(xí)者對(duì)知識(shí)點(diǎn)的掌握情況相關(guān);推薦對(duì)象的資源類型與學(xué)習(xí)者的學(xué)習(xí)偏好相關(guān)等。為了推薦的有效實(shí)現(xiàn),在提取推薦對(duì)象屬性特征時(shí),應(yīng)考慮與之匹配的學(xué)習(xí)者個(gè)性化參數(shù)。
(2)不同類型推薦對(duì)象的特征表示應(yīng)該統(tǒng)一。在個(gè)性化學(xué)習(xí)推薦場(chǎng)景中,可能出現(xiàn)多種不同類型的推薦對(duì)象(如練習(xí)題、課程視頻等),這些資源的屬性特征不可能完全相同,但要反映同一學(xué)習(xí)者對(duì)這些不同類型資源的偏好時(shí),就需要采用統(tǒng)一的特征表示方式,比如以評(píng)分作為對(duì)所有資源的表示。
(3)推薦對(duì)象的特征應(yīng)符合算法模型的輸入要求。用于推薦對(duì)象建模的特征,將成為推薦算法模型的輸入,為了適應(yīng)算法模型的有效運(yùn)行,該特征應(yīng)符合其輸入要求。
學(xué)習(xí)推薦對(duì)象特征的獲取是建模的首要任務(wù)。根據(jù)描述特征的獲取方式,可將當(dāng)前常用的學(xué)習(xí)推薦對(duì)象建模方法歸納為:靜態(tài)方法、動(dòng)態(tài)方法以及基于知識(shí)的方法三類。
學(xué)習(xí)推薦對(duì)象建模靜態(tài)方法是指提取推薦對(duì)象顯式特征中與學(xué)習(xí)推薦相關(guān)的那些來形成模型。比如直接采集學(xué)習(xí)推薦對(duì)象的文檔描述,如文獻(xiàn)[15]使用特征關(guān)鍵詞集描述學(xué)習(xí)資源,其中包括:發(fā)表時(shí)間、引文次數(shù)、搜索頻率、出版商影響以及作者影響力,然后使用加權(quán)關(guān)鍵詞矢量方法,通過對(duì)推薦對(duì)象文檔的統(tǒng)計(jì)分析得出對(duì)象的特征向量。直接提取文檔描述雖然簡(jiǎn)單直觀,但是往往難以體現(xiàn)推薦對(duì)象的內(nèi)在差異性。有研究著眼于挖掘更深層次的特征,從推薦對(duì)象文本中提取特征,比如從簡(jiǎn)介、摘要、練習(xí)題的題干中提取。文獻(xiàn)[53]提出了一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的學(xué)習(xí)資源特征表示生成模型,提取學(xué)習(xí)資源中的文本信息(例如MOOC 平臺(tái)中的課程介紹、學(xué)習(xí)資源的摘要等)的特征,生成低維度的隱向量表示,該模型的結(jié)構(gòu)如圖9 所示。
圖9 基于CNN 的學(xué)習(xí)資源文本特征提取模型Fig.9 CNN-based learning resource text feature extraction model
文本特征提取的方法雖然比較多,但學(xué)習(xí)推薦系統(tǒng)的對(duì)象不一定都具有文本特征,或文本描述不充分,比如來自網(wǎng)絡(luò)的學(xué)習(xí)視頻、音頻等多媒體學(xué)習(xí)資源,此時(shí)基于內(nèi)容的學(xué)習(xí)推薦對(duì)象建模還需要結(jié)合多媒體內(nèi)容分析領(lǐng)域的相關(guān)技術(shù)。靜態(tài)方法利用學(xué)習(xí)推薦對(duì)象的明顯特征對(duì)其建模,在特征描述豐富的前提下,能夠直觀且高效地達(dá)成建模任務(wù),其所用特征的顯著特點(diǎn)也有利于提高推薦的可解釋性。
學(xué)習(xí)推薦對(duì)象建??梢圆捎谩胺诸悺焙汀敖换ァ眱煞N動(dòng)態(tài)方法實(shí)現(xiàn)?!胺诸悺奔窗淹扑]對(duì)象放入不同類別中,這樣可以把同類學(xué)習(xí)資源推薦給相關(guān)的學(xué)習(xí)者??梢允褂没诮y(tǒng)計(jì)機(jī)器學(xué)習(xí)的分類方法如樸素貝葉斯(Naive-Bayes)、近鄰(-nearest neighbor,NN)和支持向量機(jī)(support vector machine,SVM)等,也可以使用基于深度學(xué)習(xí)的方法。推薦對(duì)象的類別標(biāo)簽可以預(yù)先設(shè)置,也可以聚類生成。但是這兩種方式都不能完全脫離人工參與,因?yàn)橛勺詣?dòng)聚類產(chǎn)生的標(biāo)簽對(duì)學(xué)習(xí)者來說可能并沒有意義。“交互”則利用學(xué)習(xí)者與推薦對(duì)象的交互數(shù)據(jù)進(jìn)行建模。文獻(xiàn)[54]提出一種基于規(guī)則空間(rule-space)模型的推薦方法,該方法根據(jù)學(xué)習(xí)者在學(xué)習(xí)對(duì)象上的學(xué)習(xí)效果和學(xué)習(xí)進(jìn)度等生成診斷表,并進(jìn)一步將每個(gè)課程中學(xué)習(xí)對(duì)象描述為對(duì)于學(xué)習(xí)者的強(qiáng)弱學(xué)習(xí)狀態(tài)。文獻(xiàn)[55]提出一種基于貝葉斯個(gè)性化排序(Bayesian personalized ranking,BPR)算法的MOOC 課程推薦模型,該模型沿用了BPR 算法的成對(duì)排序思想,將一個(gè)正樣本課程與隨機(jī)采樣的個(gè)負(fù)樣本課程兩兩組合成個(gè)“正-負(fù)”樣本對(duì),然后將它們的編號(hào)通過嵌入矩陣轉(zhuǎn)換生成嵌入表示。該方法中還采用了一種可以從成對(duì)樣本中學(xué)習(xí)偏好排序的神經(jīng)網(wǎng)絡(luò),用于捕獲課程兩兩之間的偏好排序信息。動(dòng)態(tài)方法利用了“資源-資源”之間的關(guān)系、“資源-學(xué)習(xí)者”之間的動(dòng)態(tài)關(guān)系形成推薦對(duì)象特征,使對(duì)象模型具備了動(dòng)態(tài)性,即能隨著推薦對(duì)象在系統(tǒng)中隨學(xué)習(xí)過程產(chǎn)生的狀態(tài)變化而進(jìn)行調(diào)整,有利于更好與不斷變化的學(xué)習(xí)者特征匹配。
基于知識(shí)的學(xué)習(xí)推薦對(duì)象建模方法也通常采用領(lǐng)域本體或知識(shí)圖譜實(shí)現(xiàn)。學(xué)習(xí)資源本體的構(gòu)建多采用半自動(dòng)化或手工方式,同樣離不開人工參與,難以避免主觀偏差。文獻(xiàn)[45]通過專家咨詢,采用五種特征構(gòu)建學(xué)習(xí)資源本體,即:格式、交互類型、交互級(jí)別、語義密度和學(xué)習(xí)資源類型。文獻(xiàn)[57]為了提高學(xué)習(xí)資源本體構(gòu)建的效率,采用了領(lǐng)域?qū)<覅f(xié)作標(biāo)注結(jié)合DOGMA的本體構(gòu)建方法,框架如圖10 所示。該方法在準(zhǔn)備好包含相關(guān)知識(shí)數(shù)據(jù)的基礎(chǔ)上,先進(jìn)行清洗和修剪,凸顯出實(shí)體、屬性以及關(guān)系,并基于此建構(gòu)推薦對(duì)象本體;在本體構(gòu)建的過程中,再結(jié)合領(lǐng)域?qū)<业膮f(xié)作參與不斷完善和優(yōu)化推薦對(duì)象本體。
圖10 DOGMA 本體構(gòu)建方法框架Fig.10 Framework of DOGMA ontology construction method
基于知識(shí)的方法本質(zhì)上是借助專家參與,利用領(lǐng)域知識(shí)來補(bǔ)充學(xué)習(xí)推薦對(duì)象的描述,從而使推薦對(duì)象的特征更加豐富,對(duì)象模型更適用于相應(yīng)的推薦算法。由于領(lǐng)域知識(shí)的加入,使學(xué)習(xí)推薦對(duì)象能夠根據(jù)需要匹配多種推薦應(yīng)用場(chǎng)景,且使相應(yīng)的推薦算法具備了更高的可解釋性。
本章將介紹學(xué)習(xí)推薦方法,這些方法是在學(xué)習(xí)者模型(第2 章所介紹)與推薦對(duì)象模型(第3 章所介紹)基礎(chǔ)之上實(shí)現(xiàn)的。學(xué)習(xí)推薦方法中利用了學(xué)習(xí)者和推薦對(duì)象建模的功能,且這些功能會(huì)隨著應(yīng)用需求的差異而各不相同。本章重點(diǎn)介紹根據(jù)學(xué)習(xí)者和推薦對(duì)象模型進(jìn)行計(jì)算、匹配、篩選、排序等用于推薦的算法模型。
許多個(gè)性化學(xué)習(xí)推薦方法參考了電子商務(wù)領(lǐng)域的商品推薦方法。這些方法把學(xué)習(xí)者看作電子商務(wù)平臺(tái)的用戶,把學(xué)習(xí)資源看作商品,以學(xué)習(xí)者在學(xué)習(xí)資源上的打分作為推薦模型的訓(xùn)練標(biāo)簽。常用的方法包括基于內(nèi)容推薦(content-based recommendation,CBR)、協(xié)同過濾推薦(collaborative filtering recommendation,CFR)以及混合推薦(hybrid recommendation,HR)。此外,基于知識(shí)的學(xué)習(xí)推薦方法,以及基于會(huì)話的學(xué)習(xí)推薦方法也是研究的熱點(diǎn),本章將對(duì)這些方法進(jìn)行介紹。
基于內(nèi)容推薦方法(CBR)是通過比較學(xué)習(xí)資源的屬性特征與學(xué)習(xí)者的偏好,找到與學(xué)習(xí)者偏好最符合的學(xué)習(xí)資源。與電子商務(wù)中基于內(nèi)容的推薦有所不同,基于內(nèi)容的學(xué)習(xí)推薦可以借鑒學(xué)習(xí)領(lǐng)域的一些知識(shí)背景,比如學(xué)習(xí)風(fēng)格模型。文獻(xiàn)[62]通過人工定義若干推薦規(guī)則將學(xué)習(xí)資源的特征與學(xué)習(xí)者的學(xué)習(xí)風(fēng)格模型進(jìn)行關(guān)聯(lián),基于滿足規(guī)則的情況計(jì)算學(xué)習(xí)資源與學(xué)習(xí)者的相關(guān)性分?jǐn)?shù),再根據(jù)分?jǐn)?shù)排序推薦。也有研究將學(xué)習(xí)資源與學(xué)習(xí)者的知識(shí)掌握水平進(jìn)行關(guān)聯(lián),如文獻(xiàn)[63]提出了一種學(xué)習(xí)內(nèi)容推薦方法,該方法首先采用特征選擇模型提取學(xué)習(xí)資源的表示特征,再將表示特征根據(jù)學(xué)習(xí)者理解水平進(jìn)行分類,從而在大量數(shù)據(jù)中識(shí)別出確切的學(xué)習(xí)資源內(nèi)容,然后根據(jù)學(xué)習(xí)者的理解水平進(jìn)行推薦。除了與學(xué)習(xí)資源的屬性特征直接比較外,現(xiàn)有研究關(guān)注于提取學(xué)習(xí)資源的潛在特征,以及發(fā)掘其與學(xué)習(xí)者的關(guān)聯(lián)。文獻(xiàn)[53]提出的推薦方法通過歷史學(xué)習(xí)資源的文本數(shù)據(jù)(內(nèi)容本身或內(nèi)容簡(jiǎn)介)結(jié)合學(xué)習(xí)者偏好訓(xùn)練CNN 模型。在使用時(shí),該模型可以將輸入的學(xué)習(xí)資源文本信息轉(zhuǎn)換為學(xué)習(xí)資源的特征,然后結(jié)合學(xué)習(xí)者偏好預(yù)測(cè)評(píng)分進(jìn)行推薦?;趦?nèi)容的學(xué)習(xí)推薦方法離不開學(xué)習(xí)資源屬性特征,一旦缺乏有用的特征數(shù)據(jù),該方法的有效性將大為降低。
協(xié)同過濾是推薦系統(tǒng)中的經(jīng)典算法,其執(zhí)行過程是根據(jù)“用戶-用戶”相似矩陣或者“項(xiàng)目-項(xiàng)目”相似矩陣比較找到最相似用戶或項(xiàng)目,因此進(jìn)一步可以分為基于用戶的協(xié)同過濾(user-based CFR),如圖11(a)所示,和基于項(xiàng)目的協(xié)同過濾(item-based CFR),如圖11(b)所示。圖11(a)和圖11(b)中矩陣的行表示用戶,列表示項(xiàng)目,矩陣內(nèi)的元素表示用戶對(duì)項(xiàng)目的評(píng)分,但兩者的計(jì)算方式不同。如在圖11(a)所展示的User-based 協(xié)同過濾中,將第2 行和第4 行分別作為用戶和的項(xiàng)目偏好特征向量,通過計(jì)算其相似度來確定相似用戶;在圖11(b)所展示的Item-based 協(xié)同過濾中,將第1 列和第4 列分別作為項(xiàng)目和的用戶偏好特征向量,通過計(jì)算其相似度來確定相似項(xiàng)目。
圖11 協(xié)同過濾推薦使用的相似矩陣Fig.11 Recommended similarity matrix for collaborative filtering
在學(xué)習(xí)推薦場(chǎng)景中,該類方法則是基于學(xué)習(xí)者對(duì)學(xué)習(xí)資源的評(píng)分構(gòu)建“學(xué)習(xí)者-學(xué)習(xí)者”相似度矩陣或“學(xué)習(xí)資源-學(xué)習(xí)資源”相似度矩陣,然后根據(jù)學(xué)習(xí)資源項(xiàng)目上的評(píng)分找到相似的學(xué)習(xí)者。NN 是協(xié)同過濾推薦方法中的常用算法,基于NN 的協(xié)同過濾推薦方法根據(jù)學(xué)習(xí)者或項(xiàng)目在相似矩陣中的表示,直接使用所有鄰居進(jìn)行項(xiàng)目之間的相似度計(jì)算,在相似矩陣很大的情況下導(dǎo)致了較高的時(shí)間復(fù)雜度。在推薦應(yīng)用中,NN 通常采用單個(gè)距離度量方法進(jìn)行相似度的計(jì)算,如Cosine、Jaccard、Manhattan等,由于這些指標(biāo)本身的側(cè)重點(diǎn)不同,可能會(huì)對(duì)系統(tǒng)的性能產(chǎn)生不同的影響。
混合學(xué)習(xí)推薦方法(HR)是將多種學(xué)習(xí)推薦相結(jié)合的方法,以達(dá)到提高推薦準(zhǔn)確度,以及緩解單一推薦方法所可能出現(xiàn)的如矩陣稀疏、冷啟動(dòng)等問題的目的?;旌贤扑]方法最初是將基于內(nèi)容的推薦方法與協(xié)同過濾推薦方法結(jié)合,并優(yōu)化結(jié)合策略。如文獻(xiàn)[67]提出了一種基于內(nèi)容推薦和協(xié)同過濾推薦的混合方法用于課程推薦,該方法利用本體來克服信息超載問題,即采用相似結(jié)構(gòu)層次的本體來映射課程的屬性結(jié)構(gòu)與學(xué)習(xí)者的特征結(jié)構(gòu)。文獻(xiàn)[61]提出了一種采用人工免疫系統(tǒng)算法融合基于內(nèi)容推薦與協(xié)同過濾推薦的課程推薦方法,該方法以學(xué)習(xí)者的課程學(xué)習(xí)效果為目標(biāo),根據(jù)過往課程的學(xué)習(xí)效果為學(xué)習(xí)者建模。然后運(yùn)用免疫網(wǎng)絡(luò)理論中親和性與擴(kuò)展圖的概念設(shè)計(jì)算法,計(jì)算學(xué)習(xí)者與課程的“親和度”從而實(shí)施推薦。對(duì)混合學(xué)習(xí)推薦的研究具有靈活性,可以通過調(diào)整其涉及的下級(jí)推薦方法,或者優(yōu)化混合的策略來提升推薦的質(zhì)量。文獻(xiàn)[68]提出了一種采用遺傳算法整合多種推薦策略的課程推薦方法,該方法將定制的遺傳算法應(yīng)用于推薦的前置階段,利用訓(xùn)練數(shù)據(jù)優(yōu)化推薦系統(tǒng)的參數(shù)配置,然后用該配置構(gòu)建推薦系統(tǒng)模型。文獻(xiàn)[69]提出了一種混合過濾推薦方法,以提高學(xué)習(xí)推薦的個(gè)性化和多樣性。該方法首先采用顯式學(xué)習(xí)者建模方法,盡可能豐富學(xué)習(xí)者的特征描述,然后運(yùn)用自組織推薦策略進(jìn)行學(xué)習(xí)者聚類,最后通過順序模式挖掘完成學(xué)習(xí)資源的排序及推薦。文獻(xiàn)[42]提出的練習(xí)題推薦方法中,融合了基于會(huì)話的推薦方法和模擬退火算法,以在保障推薦準(zhǔn)確性的同時(shí)改善推薦的多樣性和新穎度。文獻(xiàn)[70]提出了一種基于多目標(biāo)粒子群優(yōu)化算法的學(xué)習(xí)推薦方法,該方法以學(xué)習(xí)者規(guī)劃的時(shí)間為約束,以同時(shí)滿足學(xué)習(xí)者偏好和學(xué)習(xí)資源難度最適宜為優(yōu)化目標(biāo)進(jìn)行學(xué)習(xí)資源推薦。
學(xué)習(xí)是一種在教育情境中符合一定心理規(guī)律的行為,這是基于知識(shí)(knowledge-based)學(xué)習(xí)推薦方法的研究背景,這種推薦方法將學(xué)習(xí)者和學(xué)習(xí)資源的有關(guān)知識(shí)結(jié)合考慮,并應(yīng)用到推薦過程中,根據(jù)學(xué)習(xí)者在領(lǐng)域知識(shí)中的偏好向其推薦學(xué)習(xí)資源?;谥R(shí)的推薦系統(tǒng)需要使用三種類型的知識(shí):即用戶的知識(shí)、項(xiàng)目的知識(shí)以及項(xiàng)目與用戶需求之間匹配的知識(shí)。而這種方法的主要缺點(diǎn)是對(duì)領(lǐng)域知識(shí)整理的要求離不開人工參與,往往帶有主觀偏差,而且所構(gòu)建領(lǐng)域知識(shí)的完備性也難以保障。使用本體對(duì)學(xué)習(xí)領(lǐng)域進(jìn)行建模是基于知識(shí)學(xué)習(xí)推薦中的常用手段。在此過程中,除了可以用本體對(duì)學(xué)習(xí)者和學(xué)習(xí)資源的知識(shí)進(jìn)行建模之外,還可以用它來描述學(xué)習(xí)場(chǎng)景中的要素。比如,文獻(xiàn)[43]構(gòu)建了E-learning環(huán)境中的學(xué)習(xí)行為標(biāo)準(zhǔn)本體。文獻(xiàn)[46]使用本體描述了學(xué)習(xí)者在學(xué)習(xí)過程中表現(xiàn)的行為,分別對(duì)學(xué)習(xí)者、領(lǐng)域知識(shí)和學(xué)習(xí)行為進(jìn)行建模。文獻(xiàn)[74]設(shè)計(jì)了一個(gè)框架來存儲(chǔ)學(xué)習(xí)資源,對(duì)學(xué)習(xí)資源進(jìn)行分類并基于本體生成資源表示。
近年來基于知識(shí)圖譜的學(xué)習(xí)推薦方法受到了關(guān)注。文獻(xiàn)[75]基于學(xué)習(xí)過程中已出現(xiàn)知識(shí)單元、目標(biāo)知識(shí)單元、知識(shí)單元依賴等構(gòu)建知識(shí)圖譜,從而形成多個(gè)學(xué)習(xí)路徑,然后根據(jù)學(xué)習(xí)者的學(xué)習(xí)日志判斷其學(xué)習(xí)進(jìn)度,再向其推薦學(xué)習(xí)路徑。文獻(xiàn)[15]構(gòu)建了一個(gè)以學(xué)習(xí)目標(biāo)為導(dǎo)向的跨學(xué)習(xí)領(lǐng)域知識(shí)圖譜,其中包括了六種語義關(guān)系,然后結(jié)合學(xué)習(xí)者的學(xué)習(xí)目標(biāo)和學(xué)習(xí)資源的特征表示推薦學(xué)習(xí)路徑。
基于知識(shí)的學(xué)習(xí)推薦方法具有靈活性的語義描述域,文獻(xiàn)[52]提出一種采用本體綜合描述CBR、CFR、HR 等推薦算法,并選擇性調(diào)用相關(guān)算法的課程推薦方法,該方法能夠根據(jù)需求,對(duì)已描述的推薦算法進(jìn)行動(dòng)態(tài)調(diào)用?;谥R(shí)的學(xué)習(xí)推薦方法廣受關(guān)注的主要原因在于:教學(xué)是一個(gè)有規(guī)律的活動(dòng),學(xué)習(xí)行為的目標(biāo)明確,而且學(xué)習(xí)資源特征與學(xué)習(xí)者的需求之間的映射規(guī)則易于定制。但是,領(lǐng)域本體或領(lǐng)域知識(shí)圖譜的構(gòu)建也是一個(gè)需要人工參與,且耗時(shí)耗力的過程,所構(gòu)建本體的合理性和完備性也會(huì)影響推薦的效果。此外,學(xué)習(xí)者的狀態(tài),如情感、知識(shí)水平并非一成不變,知識(shí)的描述如果沒有合理的更新機(jī)制,則會(huì)導(dǎo)致學(xué)習(xí)路徑固化,反而與“個(gè)性化”的初衷相悖。
CBR 基于用戶和項(xiàng)目的靜態(tài)特征,而CFR 則依賴長(zhǎng)期的“用戶-項(xiàng)目”交互歷史數(shù)據(jù),兩者都在一定程度上忽略了用戶近期狀態(tài)的變化,這會(huì)導(dǎo)致用戶當(dāng)前真實(shí)狀態(tài)被長(zhǎng)期平均情況所掩蓋。而且,CBR和CFR 通常將一個(gè)基礎(chǔ)交互單元(如評(píng)分、點(diǎn)擊等)分解為多個(gè)“用戶-項(xiàng)目”的交互對(duì)記錄,并將這些記錄混合,這樣顯然不利于保留用戶在交互事件中所隱含的“狀態(tài)轉(zhuǎn)移”。此外,在實(shí)際應(yīng)用場(chǎng)景中,用戶信息往往并不完全,并且只有處于正在進(jìn)行會(huì)話中的用戶行為更能體現(xiàn)其當(dāng)前狀態(tài)。因此,能對(duì)有限范圍內(nèi)(一個(gè)會(huì)話)的行為進(jìn)行建模是提高推薦質(zhì)量的有效途徑。近年來,基于會(huì)話(session-based)的推薦方法成為研究熱點(diǎn)。采用基于會(huì)話的方法,能捕獲用戶狀態(tài)的變化,并將其更好地應(yīng)用于推薦模型的訓(xùn)練。文獻(xiàn)[39]提出了一種基于會(huì)話的MOOC 課程討論線程推薦方法,該方法將學(xué)習(xí)者在當(dāng)前會(huì)話中所查看主題的歷史記錄作為輸入序列,通過模型計(jì)算候選線程的推薦得分,最后輸出得分最高的前幾個(gè)線程組成推薦列表。在學(xué)習(xí)推薦場(chǎng)景下,除了偏好可能會(huì)隨著學(xué)習(xí)過程而發(fā)生變化之外,學(xué)習(xí)者的知識(shí)掌握狀態(tài)也在學(xué)習(xí)過程中不斷變化,知識(shí)掌握狀態(tài)是學(xué)習(xí)發(fā)展的核心因素。文獻(xiàn)[78]提出了一種基于認(rèn)知診斷模型預(yù)測(cè)學(xué)習(xí)者知識(shí)掌握狀態(tài)的個(gè)性化練習(xí)題推薦方法,該方法根據(jù)學(xué)生的答題會(huì)話記錄所形成的認(rèn)知診斷模型表示學(xué)習(xí)者知識(shí)掌握狀態(tài),再采用PMF 預(yù)測(cè)學(xué)生的答題情況,最后根據(jù)預(yù)測(cè)結(jié)果進(jìn)行練習(xí)題推薦。文獻(xiàn)[42]提出的練習(xí)題推薦方法采用深度知識(shí)追蹤(deep knowledge tracing,DKT)模型捕獲學(xué)習(xí)者知識(shí)掌握狀態(tài)變化,并用知識(shí)點(diǎn)掌握概率為學(xué)習(xí)者建模;采用LSTM 模型預(yù)測(cè)知識(shí)點(diǎn)出現(xiàn)概率并以此對(duì)練習(xí)題建模。在形成學(xué)習(xí)者和練習(xí)題的表示后,通過匹配、篩選和排序生成練習(xí)題推薦列表。
本文把近年來對(duì)個(gè)性化學(xué)習(xí)推薦方法的研究歸納為基于內(nèi)容的學(xué)習(xí)推薦、協(xié)同過濾學(xué)習(xí)推薦、混合學(xué)習(xí)推薦、基于知識(shí)的學(xué)習(xí)推薦以及基于會(huì)話的學(xué)習(xí)推薦五類,并對(duì)各類代表性推薦方法中的部分指標(biāo)進(jìn)行了比較,如表1 所示?;趦?nèi)容、協(xié)同過濾以及混合推薦屬于傳統(tǒng)的推薦方法,也被廣泛應(yīng)用于其他推薦場(chǎng)景,這三種方法相關(guān)的研究比較豐富。基于內(nèi)容的推薦方法有利于直接將推薦對(duì)象特征與學(xué)習(xí)者個(gè)性化參數(shù)進(jìn)行匹配,易于實(shí)現(xiàn)且高效,但無法獲取學(xué)習(xí)者和推薦對(duì)象在學(xué)習(xí)過程中的變化。協(xié)同過濾基于學(xué)習(xí)者與推薦對(duì)象的交互歷史,從行為數(shù)據(jù)挖掘?qū)W習(xí)者對(duì)推薦對(duì)象的潛在評(píng)價(jià),這種方法有助于發(fā)掘?qū)W習(xí)者的潛在興趣或新興趣,從而提高推薦的質(zhì)量,但協(xié)同過濾推薦存在冷啟動(dòng)、數(shù)據(jù)稀疏性等問題?;旌贤扑]方法利用多個(gè)推薦算法協(xié)同合作,能夠在一定程度緩解單個(gè)算法存在的問題,不同的混合推薦方法可能采用的混合策略不同,通常要根據(jù)具體的應(yīng)用場(chǎng)景和數(shù)據(jù)情況而定?;谥R(shí)的推薦方法充分利用教育領(lǐng)域知識(shí),使學(xué)習(xí)推薦系統(tǒng)具備良好的可解釋性,但由于領(lǐng)域知識(shí)模型離不開人工參與,難以避免主觀偏差。以上幾種學(xué)習(xí)推薦方法多關(guān)注學(xué)習(xí)者的長(zhǎng)期靜態(tài)偏好,而忽略了他們偏好隨時(shí)間的轉(zhuǎn)移?;跁?huì)話的學(xué)習(xí)推薦全面考慮了學(xué)習(xí)者在前后會(huì)話間的狀態(tài)轉(zhuǎn)移,并將會(huì)話作為推薦的基本單元,有利于對(duì)學(xué)習(xí)者即時(shí)狀態(tài)的獲取。但由于是會(huì)話數(shù)據(jù)自身特征所驅(qū)動(dòng),基于會(huì)話的學(xué)習(xí)推薦方法在會(huì)話內(nèi)部結(jié)構(gòu)處理、會(huì)話之間關(guān)系建模等問題上還有待進(jìn)一步研究。
表1 個(gè)性化學(xué)習(xí)推薦方法摘要及對(duì)比Table 1 Summary and comparison of personalized learning recommendation methods
隨著在線教育和網(wǎng)絡(luò)技術(shù)的蓬勃發(fā)展,開放式學(xué)習(xí)拓展了學(xué)習(xí)推薦系統(tǒng)的應(yīng)用場(chǎng)景。在開放式的學(xué)習(xí)環(huán)境下,學(xué)習(xí)者往往會(huì)登錄多個(gè)在線學(xué)習(xí)平臺(tái)、學(xué)習(xí)管理平臺(tái),使用各種各樣的學(xué)習(xí)資源,直接或間接地與其他學(xué)習(xí)者接觸。開放式學(xué)習(xí)環(huán)境網(wǎng)絡(luò)中的某些學(xué)習(xí)資源由于來源于不同的系統(tǒng),相互之間可能存在較大的特征結(jié)構(gòu)差異。為了解決這一問題,文獻(xiàn)[80]以分布式MOOC 平臺(tái)為基礎(chǔ),將多個(gè)平臺(tái)各類型學(xué)習(xí)資源整合至統(tǒng)一平臺(tái),其學(xué)習(xí)資源推薦方法采用了基于Apriori 的改進(jìn)分布式關(guān)聯(lián)規(guī)則挖掘算法。文獻(xiàn)[33]提出了一種基于分布式在線學(xué)習(xí)的視頻推薦模型,該模型采用去中心化服務(wù)供應(yīng)商協(xié)同工作以處理學(xué)習(xí)視頻的大規(guī)模上下文數(shù)據(jù)。有的研究利用了本體在知識(shí)表示形式化方面的優(yōu)勢(shì),從組成學(xué)習(xí)環(huán)境網(wǎng)絡(luò)的異構(gòu)數(shù)據(jù)中發(fā)現(xiàn)相似學(xué)習(xí)資源。如文獻(xiàn)[74]提出了本體匹配的概念,通過比較不同實(shí)體的本體相似性,實(shí)現(xiàn)學(xué)習(xí)資源在各種學(xué)習(xí)搜索引擎和學(xué)習(xí)管理系統(tǒng)之間共享。此外,可以將包含多模態(tài)學(xué)習(xí)資源的在線學(xué)習(xí)平臺(tái)看作異質(zhì)信息網(wǎng)絡(luò)(heterogeneity information networks,HIN)的一個(gè)實(shí)例,如圖12 所示,由學(xué)習(xí)者、學(xué)習(xí)資源、教師等實(shí)體構(gòu)成。文獻(xiàn)[84]根據(jù)網(wǎng)絡(luò)中實(shí)體之間的關(guān)系,提取“學(xué)習(xí)者-學(xué)習(xí)資源-學(xué)習(xí)者”“學(xué)習(xí)者-教師-學(xué)習(xí)者”等元路徑,提出了基于HIN 的學(xué)習(xí)資源推薦方法。
圖12 異質(zhì)學(xué)習(xí)網(wǎng)絡(luò)中的實(shí)體關(guān)系示意圖Fig.12 Schematic diagram of entity relationship in heterogeneous learning network
冷啟動(dòng)是推薦系統(tǒng)的常見問題。推薦系統(tǒng)中的冷啟動(dòng)問題又可以分為“項(xiàng)目”冷啟動(dòng)問題和“用戶”冷啟動(dòng)問題。在學(xué)習(xí)推薦系統(tǒng)中,“項(xiàng)目”冷啟動(dòng)是指系統(tǒng)中加入了新的學(xué)習(xí)資源,而這些學(xué)習(xí)資源之前并沒有被學(xué)習(xí)者使用或評(píng)價(jià)過;“用戶”冷啟動(dòng)是指系統(tǒng)中加入了新的學(xué)習(xí)者,這些學(xué)習(xí)者們?cè)趯W(xué)習(xí)系統(tǒng)中沒有學(xué)習(xí)記錄,或只有很少的學(xué)習(xí)記錄。這兩種冷啟動(dòng)問題均會(huì)導(dǎo)致“學(xué)習(xí)者-學(xué)習(xí)資源”評(píng)分矩陣的稀疏,使協(xié)同過濾推薦算法失去精確性?;贚STM 網(wǎng)絡(luò)的模型能夠通過訓(xùn)練從數(shù)據(jù)中捕獲長(zhǎng)期和短期的學(xué)習(xí)行為,從而達(dá)到預(yù)測(cè)較少學(xué)習(xí)記錄的學(xué)習(xí)者學(xué)習(xí)行為和效果的目的。文獻(xiàn)[86]提出一種基于LSTM 模型融合知識(shí)關(guān)系的全路徑學(xué)習(xí)推薦模型,基于學(xué)習(xí)者個(gè)性特征訓(xùn)練LSTM 網(wǎng)絡(luò),預(yù)測(cè)學(xué)習(xí)路徑及其表現(xiàn),再根據(jù)預(yù)測(cè)結(jié)果進(jìn)行學(xué)習(xí)路徑推薦,從而緩解學(xué)習(xí)者冷啟動(dòng)問題。面向個(gè)性化學(xué)習(xí)問題,文獻(xiàn)[87]提出,在知識(shí)追蹤模型中引入外部信息能夠?qū)鋯?dòng)起到有效緩解作用。文獻(xiàn)[88]采用具備一致信息傳輸?shù)目缬蛲扑]方法,通過外部數(shù)據(jù)緩解冷啟動(dòng)問題。文獻(xiàn)[89]建立學(xué)習(xí)者與課程的關(guān)聯(lián)規(guī)則模型,對(duì)于新的課程,基于注冊(cè)信息與學(xué)習(xí)日志數(shù)據(jù),計(jì)算新課程與學(xué)習(xí)者的關(guān)聯(lián)度,并使用頻繁模式增長(zhǎng)(frequent pattern-growth,F(xiàn)P-growth)算法生成推薦的可視化展示。此外,在推薦方法中融入社交網(wǎng)絡(luò)信息,也能夠緩解冷啟動(dòng)和評(píng)分矩陣稀疏問題。文獻(xiàn)[90]提出了一種利用社交信息增強(qiáng)深度學(xué)習(xí)的學(xué)習(xí)資源推薦方法,并討論了使用社交信息緩解推薦冷啟動(dòng)問題的優(yōu)勢(shì)。文獻(xiàn)[91]提出了一種融合社交網(wǎng)絡(luò)信息的學(xué)習(xí)推薦方法,該方法基于學(xué)習(xí)者的社交網(wǎng)絡(luò)信息發(fā)掘社交網(wǎng)絡(luò)中的學(xué)習(xí)者之間所具有的潛在相似性,并對(duì)學(xué)習(xí)者聚類,再根據(jù)聚類標(biāo)簽進(jìn)行學(xué)習(xí)資源和學(xué)習(xí)好友推薦。
學(xué)習(xí)推薦系統(tǒng)的評(píng)估通常圍繞系統(tǒng)性能、用戶體驗(yàn)和學(xué)習(xí)適用性三方面進(jìn)行,本章將從這三方面對(duì)學(xué)習(xí)推薦系統(tǒng)的評(píng)估方法進(jìn)行介紹。
推薦系統(tǒng)的核心性能是推薦的準(zhǔn)確性,即推薦預(yù)測(cè)值與真值的接近或誤差程度。主要包括推薦預(yù)測(cè)的精度(accuracy)、召回率(recall)、1 分?jǐn)?shù)、平均絕對(duì)誤差(mean absolute error,MAE)、均方根誤差(root mean square error,RMSE)等。有的研究同時(shí)采用多個(gè)指標(biāo)的組合方式,以達(dá)到多角度評(píng)估的目的。比如文獻(xiàn)[60]和文獻(xiàn)[93]對(duì)所提出的推薦算法分別進(jìn)行了精度、召回率和1 分?jǐn)?shù)的評(píng)估。文獻(xiàn)[38]使用了召回率和排序質(zhì)量的指標(biāo)(normalized discounted cumulative gain,NDCG),因?yàn)镹DCG 是一個(gè)有位置感知的度量標(biāo)準(zhǔn),它能為推薦項(xiàng)目的排名列表更高位置的項(xiàng)目分配更高的分值,從而測(cè)量推薦列表的質(zhì)量。在實(shí)際應(yīng)用中,也可以對(duì)系統(tǒng)的性能進(jìn)行單個(gè)指標(biāo)上的評(píng)估,如文獻(xiàn)[94]只采用了1 分?jǐn)?shù),因?yàn)? 分?jǐn)?shù)可以看作精度和召回率的一種調(diào)和平均,被認(rèn)為能夠同時(shí)兼顧精度和召回率。也有的研究從誤差的角度來評(píng)估推薦系統(tǒng)性能,比如文獻(xiàn)[93]和文獻(xiàn)[95]采用了平均誤差(MAE),文獻(xiàn)[96]和文獻(xiàn)[97]則使用均方根誤差(RMSE)。雖然大部分推薦系統(tǒng)性能評(píng)估的指標(biāo)可以用于學(xué)習(xí)推薦系統(tǒng)的性能評(píng)估,但是對(duì)于性能的評(píng)估只是學(xué)習(xí)推薦系統(tǒng)評(píng)估的角度之一。
文獻(xiàn)[60]對(duì)七種推薦的結(jié)果進(jìn)行人工評(píng)估,結(jié)果表明用戶體驗(yàn)的質(zhì)量與推薦的高精度并不相關(guān)。一般而言,用戶體驗(yàn)好的推薦內(nèi)容,除了符合自己偏好外,還要盡量做到不與剛剛看過的內(nèi)容完全相同或者非常相似,但是一味追求推薦的高精度往往會(huì)忽視這一問題。為了解決這一問題,近年來研究人員對(duì)推薦的“偶然性”開展研究。文獻(xiàn)[100]指出,現(xiàn)有大多數(shù)的推薦算法基于準(zhǔn)確性評(píng)估,但難以保障推薦內(nèi)容能夠滿足用戶需求、偏好的變化,因?yàn)閱渭儨?zhǔn)確性可能會(huì)導(dǎo)致所推薦內(nèi)容沒有新意。為了獲得高的精度評(píng)估值,用戶可能僅收到那些與他們初始評(píng)分高的項(xiàng)目類似的推薦項(xiàng)目(過度專業(yè)化)。這必然會(huì)降低用戶體驗(yàn)的滿意度。因此,用戶體驗(yàn)評(píng)估的核心指標(biāo)是推薦的“偶然性”,該指標(biāo)通常采用新穎度(novelty)和多樣性(diversity)等二級(jí)指標(biāo)來衡量。新穎度是指所推薦的項(xiàng)目在用戶過往的交互記錄中出現(xiàn)得越少越好;多樣性是指推薦列表中出現(xiàn)的項(xiàng)目越不相似越好,因?yàn)橛脩艨赡軐?duì)包含彼此非常相似項(xiàng)目的推薦列表感到不滿意。新穎而多樣的學(xué)習(xí)資源會(huì)在一定程度上激發(fā)學(xué)習(xí)者的學(xué)習(xí)興趣,即提高學(xué)習(xí)資源推薦的新穎度和多樣性會(huì)對(duì)學(xué)習(xí)者的學(xué)習(xí)熱情產(chǎn)生積極影響。文獻(xiàn)[42]結(jié)合練習(xí)題的題型、難度、涵蓋的知識(shí)點(diǎn)等特征,在對(duì)練習(xí)題推薦精度的基礎(chǔ)上,還對(duì)推薦的新穎度和多樣性進(jìn)行了評(píng)估。對(duì)用戶體驗(yàn)的評(píng)估也常采用人工方法。如文獻(xiàn)[103]和文獻(xiàn)[104]中,設(shè)計(jì)了用戶體驗(yàn)量表,采用人工打分的方式進(jìn)行評(píng)估,來衡量推薦的感知相關(guān)性,此外文獻(xiàn)[103]還采用人工打分方式評(píng)估了推薦的可用性。
學(xué)習(xí)適用性也是學(xué)習(xí)推薦系統(tǒng)評(píng)估的另一個(gè)重要方面,所采取的方式比較靈活,可以通過推薦系統(tǒng)對(duì)學(xué)習(xí)成績(jī)的影響,對(duì)學(xué)習(xí)積極性的影響來進(jìn)行評(píng)估。在文獻(xiàn)[105]中,首先將學(xué)習(xí)者分為三類:第一類通過所提出推薦系統(tǒng)獲得推薦;第二類隨機(jī)獲得推薦;第三類沒有獲得推薦。然后通過比較三類學(xué)習(xí)者的成績(jī)來開展學(xué)習(xí)適用性評(píng)估。文獻(xiàn)[106]通過統(tǒng)計(jì)學(xué)習(xí)者對(duì)所推薦文章的閱讀、回復(fù)和發(fā)布頻率來評(píng)估推薦的適用性。文獻(xiàn)[107]將學(xué)習(xí)者在推薦影響下參與學(xué)習(xí)活動(dòng)的頻率作為推薦適用性的評(píng)估依據(jù)。與文獻(xiàn)[105]一樣,文獻(xiàn)[108]和文獻(xiàn)[109]也都采用了“推薦前”和“推薦后”的成績(jī)對(duì)比來評(píng)估學(xué)習(xí)適用性。其中文獻(xiàn)[109]還預(yù)設(shè)了“適用性等級(jí)”,通過成績(jī)提升效果來衡量推薦適用性的級(jí)別。此外,文獻(xiàn)[108]和文獻(xiàn)[109]還通過對(duì)學(xué)習(xí)者在使用推薦系統(tǒng)前后的在線時(shí)長(zhǎng)、互動(dòng)頻率等進(jìn)行了比較評(píng)估。文獻(xiàn)[18]和文獻(xiàn)[110]使用Felder-Silverman 學(xué)習(xí)風(fēng)格指數(shù)問卷,通過測(cè)量使用推薦系統(tǒng)前后學(xué)習(xí)風(fēng)格變化,來評(píng)估所提出推薦系統(tǒng)的學(xué)習(xí)適用性。文獻(xiàn)[111]使用“自我-同行”評(píng)估方法,應(yīng)用知識(shí)指示事件(knowledge indicating events,KIE)來評(píng)估推薦系統(tǒng)對(duì)于學(xué)習(xí)者知識(shí)水平的影響。
目前可用于評(píng)估個(gè)性化學(xué)習(xí)推薦系統(tǒng)的通用數(shù)據(jù)集不多,從當(dāng)前研究的應(yīng)用場(chǎng)景來看,可以分為用于課程推薦、學(xué)習(xí)資源推薦以及學(xué)習(xí)路徑推薦三類。課程推薦常用到edX、Coursera、學(xué)堂在線(XuetangX)、中國(guó)慕課大學(xué)(icourse163)等在線課程平臺(tái)提供的數(shù)據(jù)集,比如edX 數(shù)據(jù)集可用于評(píng)估基于學(xué)習(xí)風(fēng)格的課程推薦,XuetangX 數(shù)據(jù)集可用于評(píng)估基于學(xué)習(xí)偏好的課程推薦,icourse163 數(shù)據(jù)集可用于課程學(xué)習(xí)中的主題推薦。對(duì)于學(xué)習(xí)資源推薦常采用Amazon 產(chǎn)品數(shù)據(jù)集、ASSISTment 學(xué)習(xí)平臺(tái)數(shù)據(jù)集等,比如學(xué)習(xí)書籍推薦使用Amazon 的Book-Crossing 數(shù)據(jù)集、e-book 數(shù)據(jù)集,練習(xí)題推薦使用ASSISTment 數(shù)據(jù)集。對(duì)于學(xué)習(xí)路徑推薦而言,離線方法并不能提供可靠的結(jié)果,因?yàn)槠浼僭O(shè)學(xué)習(xí)者的行為不會(huì)隨時(shí)間發(fā)生變化,研究人員無法獲取適用于他們實(shí)驗(yàn)的公共數(shù)據(jù)集,所以通常自組織數(shù)據(jù)集,比如文獻(xiàn)[15]和文獻(xiàn)[75]均使用了自組織的數(shù)據(jù)集對(duì)提出的推薦方法進(jìn)行評(píng)估。
除此之外,還有不少研究人員使用自主研發(fā)平臺(tái)的數(shù)據(jù)集,或所在教學(xué)機(jī)構(gòu)的數(shù)據(jù)集來測(cè)試推薦性能,以便于進(jìn)一步對(duì)推薦效果進(jìn)行評(píng)估。比如文獻(xiàn)[60]從名為PLEM 的學(xué)習(xí)平臺(tái)獲取數(shù)據(jù)集,用于驗(yàn)證其基于標(biāo)簽的學(xué)習(xí)資源推薦方法有效性;文獻(xiàn)[61]使用了作者所在大學(xué)(YZU)在2005—2009 年的課程學(xué)習(xí)數(shù)據(jù)集;文獻(xiàn)[68]使用了作者所在大學(xué)(University of Cordoba)計(jì)算機(jī)相關(guān)課程的數(shù)據(jù)集;文獻(xiàn)[67]使用了來自大學(xué)課程管理平臺(tái)UCAS 的數(shù)據(jù)集;文獻(xiàn)[73]使用了多所大學(xué)的課程學(xué)習(xí)數(shù)據(jù)來構(gòu)成數(shù)據(jù)集。
不同方法的評(píng)估角度和目的不相同,系統(tǒng)性能評(píng)估通常根據(jù)推薦系統(tǒng)在測(cè)試數(shù)據(jù)集上的表現(xiàn)來實(shí)現(xiàn),本質(zhì)上評(píng)估的是推薦系統(tǒng)對(duì)訓(xùn)練數(shù)據(jù)的學(xué)習(xí)能力表現(xiàn),常使用精度、誤差等指標(biāo)來衡量;用戶體驗(yàn)評(píng)估在于測(cè)量學(xué)習(xí)者對(duì)所推薦學(xué)習(xí)資源的感受,常通過對(duì)新穎度、多樣性等指標(biāo)的測(cè)量來評(píng)估是否出現(xiàn)推薦的過度專業(yè)化,從而彌補(bǔ)單純準(zhǔn)確性評(píng)估的不足;學(xué)習(xí)適用性則注重于所推薦的學(xué)習(xí)資源是否有利于學(xué)習(xí)效果和學(xué)習(xí)質(zhì)量的提升,常通過學(xué)生成績(jī)、學(xué)習(xí)時(shí)長(zhǎng)等衡量。性能評(píng)估任務(wù)能夠使用離線數(shù)據(jù)集完成,用戶體驗(yàn)和學(xué)習(xí)適用性則可能需要加入真實(shí)教學(xué)場(chǎng)景中的實(shí)驗(yàn)。從現(xiàn)有的研究可以看出,對(duì)學(xué)習(xí)推薦系統(tǒng)的評(píng)估逐漸傾向于采用多種方法組合互為補(bǔ)充的方式,通過評(píng)估方法測(cè)量到學(xué)習(xí)推薦系統(tǒng)的不同效應(yīng)也越來越豐富和多樣化,尤其是對(duì)用戶體驗(yàn)和學(xué)習(xí)適用性的評(píng)估,以及評(píng)估中所涉及到的數(shù)據(jù)隱私問題近年來也越來越受到研究人員的關(guān)注。
學(xué)習(xí)推薦是人工智能教育的核心研究?jī)?nèi)容,其目標(biāo)是為學(xué)習(xí)者匹配到最適合的學(xué)習(xí)資源或路徑,這種匹配并非僅僅迎合學(xué)習(xí)者的興趣,而應(yīng)該以激發(fā)和培養(yǎng)學(xué)習(xí)動(dòng)機(jī),提高學(xué)習(xí)者的學(xué)習(xí)積極性和持久性,達(dá)到提升學(xué)習(xí)效率為目標(biāo)。鑒于此,本文從學(xué)習(xí)推薦系統(tǒng)的通用框架結(jié)構(gòu)出發(fā),將其分解為三個(gè)核心問題,即:學(xué)習(xí)者建模、學(xué)習(xí)推薦對(duì)象建模以及學(xué)習(xí)推薦方法。具體而言,在學(xué)習(xí)者建模方面,應(yīng)根據(jù)需求組合多種學(xué)習(xí)者個(gè)性化參數(shù)構(gòu)建學(xué)習(xí)者模型,并采用能夠充分保留學(xué)習(xí)者特征語義的建模方法。在學(xué)習(xí)推薦對(duì)象建模方面,所提取的特征應(yīng)與學(xué)習(xí)者的個(gè)性化參數(shù)相匹配,不同類型對(duì)象的特征表示應(yīng)該統(tǒng)一,且符合算法模型的輸入要求。在學(xué)習(xí)推薦方法方面,應(yīng)以學(xué)習(xí)活動(dòng)的開展為背景,并圍繞學(xué)習(xí)者與學(xué)習(xí)資源的交互行為進(jìn)行設(shè)計(jì)。學(xué)習(xí)推薦系統(tǒng)的總體設(shè)計(jì)思路,不能脫離學(xué)習(xí)活動(dòng)的規(guī)律,且有必要適時(shí)結(jié)合人工評(píng)估,或真實(shí)教學(xué)場(chǎng)景下的實(shí)驗(yàn)開展用戶體驗(yàn)和學(xué)習(xí)適用性的評(píng)價(jià)。在未來的研究中,學(xué)習(xí)推薦系統(tǒng)可能在學(xué)習(xí)者狀態(tài)獲取和表征,以及學(xué)習(xí)場(chǎng)景建模等方面產(chǎn)生新的發(fā)展。
(1)學(xué)習(xí)效果預(yù)測(cè)
學(xué)習(xí)效果預(yù)測(cè)是自適應(yīng)學(xué)習(xí)的研究熱點(diǎn)。學(xué)習(xí)推薦系統(tǒng)的目標(biāo)之一是通過推薦對(duì)象提升學(xué)習(xí)效果,因此在推薦系統(tǒng)中融合學(xué)習(xí)效果預(yù)測(cè),能夠?qū)ν扑]方法的適應(yīng)性進(jìn)行預(yù)檢驗(yàn),有利于及時(shí)調(diào)整和優(yōu)化推薦策略。
(2)多特征學(xué)習(xí)狀態(tài)表示
學(xué)習(xí)者的個(gè)性化參數(shù)較多,且認(rèn)知水平、情緒狀態(tài)、學(xué)習(xí)風(fēng)格等多種特征會(huì)隨著學(xué)習(xí)活動(dòng)的開展產(chǎn)生變化。如何及時(shí)捕獲這些特征的變化并進(jìn)行有效表示,將是學(xué)習(xí)者建模研究的一個(gè)重要方向。
(3)基于網(wǎng)絡(luò)理論和圖方法的學(xué)習(xí)推薦
隨著在線學(xué)習(xí)環(huán)境的拓展和形式的多樣化,學(xué)習(xí)交互行為的類型越來越豐富,“學(xué)習(xí)者-學(xué)習(xí)者”“學(xué)習(xí)資源-學(xué)習(xí)資源”以及“學(xué)習(xí)者-學(xué)習(xí)資源”之間的關(guān)系越來越復(fù)雜,形成了復(fù)雜的圖或網(wǎng)絡(luò)結(jié)構(gòu)。與線性結(jié)構(gòu)相比,網(wǎng)絡(luò)或圖結(jié)構(gòu)能夠反映更真實(shí)的情境,表達(dá)更豐富的信息。因此,運(yùn)用圖計(jì)算和圖神經(jīng)網(wǎng)絡(luò)技術(shù)對(duì)學(xué)習(xí)者建模和學(xué)習(xí)資源建模,并設(shè)計(jì)基于圖的學(xué)習(xí)推薦算法模型,將是未來學(xué)習(xí)推薦研究的熱點(diǎn)方向。
隨著智慧學(xué)習(xí)和人工智能教育的廣泛應(yīng)用,個(gè)性化學(xué)習(xí)推薦技術(shù)也在不斷發(fā)展,但這過程中還需對(duì)體系框架、學(xué)習(xí)者建模、學(xué)習(xí)推薦對(duì)象建模、推薦算法等核心關(guān)鍵技術(shù)進(jìn)行持續(xù)探索。同時(shí),還要甄別與其他推薦系統(tǒng)在推薦目標(biāo)上的差異,深度融合教育學(xué)、心理學(xué)相關(guān)理論和方法,搭建針對(duì)用戶體驗(yàn)和學(xué)習(xí)適用性的評(píng)估體系,并積極推廣至學(xué)習(xí)系統(tǒng)中,促進(jìn)在線教育的內(nèi)涵發(fā)展,推動(dòng)在線學(xué)習(xí)系統(tǒng)的技術(shù)創(chuàng)新。