劉芳,田楓,李欣,林琳
(1.東北石油大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,黑龍江 大慶 163318;2.訥河市第一中學(xué),黑龍江 訥河 161300)
近年來,隨著互聯(lián)網(wǎng)技術(shù)高速發(fā)展,在線教育平臺的使用越來越被學(xué)習(xí)者所接受,尤其新型冠狀病毒爆發(fā)之后,線上學(xué)習(xí)是在不能正常進(jìn)行線下學(xué)習(xí)的情況下優(yōu)選的學(xué)習(xí)模式。數(shù)據(jù)表明,截至2020 年12 月,我國在線教育用戶規(guī)模達(dá)3.42億,占網(wǎng)民整體的34.6%。該項(xiàng)數(shù)據(jù)在2020 年3 月時(shí)達(dá)到高峰,為4.23 億,占比數(shù)據(jù)為46.8%[1]。面對巨大的在線學(xué)習(xí)需求,在線教育機(jī)構(gòu)提供免費(fèi)在線課程,共享在線教學(xué)資源,在線教育行業(yè)呈現(xiàn)爆發(fā)式增長趨勢。然而隨著在線學(xué)習(xí)平臺的廣泛使用,在線學(xué)習(xí)資源的數(shù)量也急劇增長,在數(shù)量龐大的在線學(xué)習(xí)資源中,學(xué)習(xí)者很難快速定位自己需要的資源,導(dǎo)致“信息迷航”。
信息推薦是解決用戶從海量對象中迅速有效地篩選出符合自己偏好特征的對象的方法[2]。目前,信息推薦技術(shù)被廣泛應(yīng)用于諸多領(lǐng)域。將信息推薦技術(shù)應(yīng)用到在線教育,實(shí)現(xiàn)在線教育過程中學(xué)習(xí)資源的個(gè)性化推薦是解決“信息迷航”問題的一個(gè)有效途徑。協(xié)同過濾算法是目前信息推薦技術(shù)的主流算法,該算法的相關(guān)研究工作大多集中在相似度計(jì)算和用戶對資源評分的優(yōu)化上[3]。在相似度計(jì)算方面,Wang 等[4]提出了基于Kullback-Leibler 散度的項(xiàng)目相似度計(jì)算方法來改進(jìn)相似度計(jì)算,提高推薦準(zhǔn)確率;Jiang 等[5]提出了基于Quasi-norm 的用戶相似度計(jì)算方法,來提高推薦精度;Mu 等[6]提出了一種改進(jìn)的Pearson 相關(guān)系數(shù)的方法改進(jìn)相似度計(jì)算從而改善推薦結(jié)果。他們都是通過提高用戶相似性的度量來提高信息推薦的質(zhì)量。但是協(xié)同過濾在應(yīng)用到學(xué)習(xí)資源個(gè)性化推薦方面,僅靠提高相似度很難提高推薦質(zhì)量,將學(xué)習(xí)者這一學(xué)習(xí)資源推薦的主體與信息資源推薦的用戶相對比,學(xué)習(xí)者的學(xué)習(xí)風(fēng)格、偏好、背景、認(rèn)知水平等個(gè)性化特征更為復(fù)雜,學(xué)習(xí)者的復(fù)雜特征對在線學(xué)習(xí)資源推薦質(zhì)量影響較大,國內(nèi)外諸多研究人員對學(xué)習(xí)者展開研究。Wang等[7]設(shè)計(jì)了自適應(yīng)的推薦模型,該模型研究了學(xué)習(xí)者的興趣偏好特征,并以學(xué)習(xí)者和學(xué)習(xí)資源的相關(guān)性為依據(jù),挖掘基于本體的學(xué)習(xí)資源的語義關(guān)系;Segal 等[8]將社會選擇特征融入傳統(tǒng)的協(xié)同過濾算法,提出了Edu Rank 算法,該算法可適應(yīng)個(gè)性化教學(xué);Zhang 等[9]提出基于本體的語義關(guān)系模型,并將協(xié)同過濾算法與改模型融合;Aleksandra 等[10]提出采用聚類方法的學(xué)習(xí)者學(xué)習(xí)風(fēng)格模型,并改進(jìn)矩陣分解方法進(jìn)行推薦。
學(xué)習(xí)者是在線學(xué)習(xí)的參與者,學(xué)習(xí)資源推薦的個(gè)性化程度,直接決定著學(xué)習(xí)者的學(xué)習(xí)效果,因此在推薦時(shí)不僅要考慮相似度的計(jì)算方法的改進(jìn),更要研究學(xué)習(xí)者的個(gè)性化特征。個(gè)性化的學(xué)習(xí)者模型的構(gòu)建是學(xué)者們研究的重點(diǎn)[11-13],但大多研究都較集中在學(xué)習(xí)者行為數(shù)據(jù)分析、學(xué)習(xí)資源特征分析、語義特征分析等單一方面,缺乏對學(xué)習(xí)者整體特征的綜合分析和學(xué)習(xí)者多維度特征的個(gè)性化研究。本文以在線學(xué)習(xí)平臺中的學(xué)習(xí)者真實(shí)數(shù)據(jù)為依托,以學(xué)習(xí)者為中心,提出融合學(xué)習(xí)者多維度模型的在線學(xué)習(xí)資源協(xié)同過濾推薦方法,優(yōu)化在線教學(xué)學(xué)習(xí)效果,進(jìn)一步提高在線教育的個(gè)性化程度。
學(xué)習(xí)者是在線學(xué)習(xí)的主體,具有靜態(tài)和動態(tài)的個(gè)性化特征,學(xué)習(xí)者模型用于描述學(xué)習(xí)者特征,該模型的構(gòu)建是提高在線學(xué)習(xí)資源推薦性能,優(yōu)化推薦精度,實(shí)現(xiàn)個(gè)性化推薦的核心。在構(gòu)建學(xué)習(xí)者模型時(shí)首選要確定學(xué)習(xí)者的個(gè)性化特征,本文依據(jù)CELTS-11 學(xué)習(xí)者信息模型規(guī)范[14],以學(xué)習(xí)風(fēng)格理論[15]和教育目標(biāo)分類理論[16]為指導(dǎo),將學(xué)習(xí)者特征分為靜態(tài)特征和動態(tài)特征兩個(gè)部分,其中,靜態(tài)特征包括學(xué)習(xí)者基本信息、學(xué)習(xí)風(fēng)格和靜態(tài)興趣偏好,動態(tài)特征包括認(rèn)知水平和動態(tài)興趣偏好。靜態(tài)特征是學(xué)習(xí)者的初始特征,在整個(gè)學(xué)習(xí)過程中不能隨著學(xué)習(xí)深入而發(fā)生變化,不能表示學(xué)習(xí)者的個(gè)性化特征程度,但作為基本特征可以解決初始用戶在推薦過程中存在的冷啟動問題。動態(tài)特征是指隨著學(xué)習(xí)行為的發(fā)生,學(xué)習(xí)者的一些隱含特征逐漸顯現(xiàn),如學(xué)習(xí)認(rèn)知狀態(tài)和對某些資源的學(xué)習(xí)評價(jià)等都會隨著時(shí)間發(fā)生變化,因此動態(tài)特征是構(gòu)建學(xué)習(xí)者模型的重點(diǎn)。學(xué)習(xí)者的靜態(tài)和動態(tài)數(shù)據(jù)通過采集層進(jìn)行數(shù)據(jù)采集,在數(shù)據(jù)層完成信息歸類,數(shù)據(jù)分析層將歸類好的信息進(jìn)行進(jìn)一步數(shù)據(jù)挖掘,為表示層的學(xué)習(xí)風(fēng)格、認(rèn)知水平、靜態(tài)和動態(tài)興趣偏好特征提供數(shù)據(jù)基礎(chǔ)。學(xué)習(xí)者模型構(gòu)建過程如圖1所示。
圖1 學(xué)習(xí)者模型構(gòu)建過程Fig.1 Building process of learner model
學(xué)習(xí)者的初始靜態(tài)數(shù)據(jù)和動態(tài)行為數(shù)據(jù)是構(gòu)建學(xué)習(xí)者模型的數(shù)據(jù)基礎(chǔ)。通過學(xué)習(xí)者注冊時(shí)所填寫的問卷、量表等獲取學(xué)習(xí)者模型的基本信息、學(xué)習(xí)風(fēng)格以及靜態(tài)的興趣偏好等特征信息;通過調(diào)取學(xué)習(xí)平臺的章節(jié)知識點(diǎn)測評數(shù)據(jù)和各類學(xué)習(xí)者行為數(shù)據(jù)獲取學(xué)習(xí)者的認(rèn)知水平和動態(tài)興趣偏好特征。通過數(shù)據(jù)采集層實(shí)現(xiàn)基礎(chǔ)數(shù)據(jù)的獲取與收集,為下一步的歸類分析挖掘以及特征表示做基礎(chǔ)。
學(xué)習(xí)風(fēng)格的概念是1954 年由美國賽倫首次提出的,它是反應(yīng)學(xué)習(xí)者生理、心理等需要的概念,學(xué)習(xí)風(fēng)格的研究為學(xué)習(xí)者模型的個(gè)性化要求提供了依據(jù)[17]。以Felder-Silverman 風(fēng)格模型為基礎(chǔ),以所羅門學(xué)習(xí)風(fēng)格量表(index of learning style questionnaire,ILSQ)[18]為手段,將學(xué)習(xí)者的學(xué)習(xí)風(fēng)格從感知、輸入、處理和理解4 個(gè)維度進(jìn)行量化,在數(shù)據(jù)采集層每一個(gè)學(xué)習(xí)者都要填寫學(xué)習(xí)風(fēng)格調(diào)查量表,將獲取的ILSQ 量表結(jié)果送入數(shù)據(jù)層和分析層,在表示層構(gòu)建學(xué)習(xí)風(fēng)格特征。
學(xué)習(xí)風(fēng)格特征量化的具體流程如下:
1)以四元組
2)學(xué)習(xí)者填寫ILSQ 量表時(shí),共44 道題,每題包含兩個(gè)選項(xiàng)A 和B,答題結(jié)果的值定義為Pj,其中j表示題號;
3)根據(jù)Pj的結(jié)果篩選處理,分類累加,最后的累加結(jié)果用a和b表示;
4)對a和b值的大小進(jìn)行判斷,如果a>b,則Vi=(a?b)a;如果a
5)學(xué)習(xí)風(fēng)格特征的測試結(jié)果四元組LS則為學(xué)習(xí)者的學(xué)習(xí)風(fēng)格特征量化結(jié)果。
學(xué)習(xí)者的興趣偏好特征分為靜態(tài)興趣偏好特征和動態(tài)興趣偏好特征。將數(shù)據(jù)集中的學(xué)習(xí)資源通過部分人工標(biāo)注,再將剩余的資源通過相似度計(jì)算、最近鄰排序等方法,實(shí)現(xiàn)自動標(biāo)注,最后通過人工查詢相關(guān)反饋機(jī)制進(jìn)行校核,保證學(xué)習(xí)資源特征表示的準(zhǔn)確性。以學(xué)習(xí)資源特征構(gòu)成的規(guī)范化標(biāo)簽集合為選項(xiàng),構(gòu)建靜態(tài)興趣偏好問卷,在數(shù)據(jù)采集層每一個(gè)學(xué)習(xí)者都要填寫靜態(tài)興趣偏好問卷,將獲取的結(jié)果送入數(shù)據(jù)層和分析層,在表示層構(gòu)建靜態(tài)興趣偏好特征。
學(xué)習(xí)者的學(xué)習(xí)過程是一個(gè)動態(tài)變化的過程,學(xué)習(xí)過程中各種操作都會產(chǎn)生相應(yīng)的行為信息,該信息反映了當(dāng)前學(xué)習(xí)者的興趣偏好,本文將隨著時(shí)間變化產(chǎn)生的興趣偏好稱為動態(tài)興趣偏好[19],具體的量化過程如下:
1)學(xué)習(xí)者行為分類及權(quán)重計(jì)算
學(xué)習(xí)者行為主要分為5 類,即瀏覽行為、收藏行為、分享行為、下載行為以及評價(jià)行為,不同的行為所代表的學(xué)習(xí)者的隱含偏好程度是不同的[20],這里引入權(quán)重來表示不同的學(xué)習(xí)行為的貢獻(xiàn)程度。權(quán)重的確定方法有很多種,專家評測或者經(jīng)驗(yàn)主義權(quán)重具有一定的主觀性,本文采用熵權(quán)法確定權(quán)重[21]學(xué)習(xí)者行為分類、權(quán)重分布及本文最后采用的權(quán)重?cái)?shù)值,如表1 所示,其中wi表示第i個(gè)行為所占的權(quán)重分配。
表1 學(xué)習(xí)者行為分類及權(quán)重分布Table 1 Learner behavior classification and weight distribution
2)學(xué)習(xí)者?學(xué)習(xí)資源評分矩陣構(gòu)建
依據(jù)學(xué)習(xí)行為及其所占的權(quán)重分配構(gòu)建學(xué)習(xí)者?資源評分矩陣Pm×n,該矩陣可作為學(xué)習(xí)者對學(xué)習(xí)資源的評價(jià)依據(jù),Pm×n為
Pm×n矩陣中的每個(gè)值都表示學(xué)習(xí)者um對資源in的行為權(quán)重,如果su i=0,那么說明學(xué)習(xí)者uj并未對ik產(chǎn)生任何行為,如果矩陣元素全為0,則說明學(xué)習(xí)者uj并沒有開始學(xué)習(xí)。
3)學(xué)習(xí)資源?學(xué)習(xí)標(biāo)簽矩陣構(gòu)建
為了建立學(xué)習(xí)者與學(xué)習(xí)資源標(biāo)簽的直接關(guān)聯(lián)關(guān)系,首先構(gòu)建學(xué)習(xí)資源標(biāo)簽矩陣來表征學(xué)習(xí)資源的特征:
Qn×l矩陣中的元素rjk表示資源ij是否擁有標(biāo)簽tk,rjk=1 表示標(biāo)簽tk標(biāo)注了資源ij;rjk=0 表示未被標(biāo)注,因此矩陣Qn×l是一個(gè)由0 和1 構(gòu)成的矩陣。
依據(jù)學(xué)習(xí)者?學(xué)習(xí)資源評分矩陣Pm×n和學(xué)習(xí)者?學(xué)習(xí)資源標(biāo)簽矩陣Qn×l構(gòu)建學(xué)習(xí)者?標(biāo)簽矩陣Tm×l:
4)學(xué)習(xí)者動態(tài)興趣偏好行為特征表示
學(xué)習(xí)者的不同行為操作在學(xué)習(xí)資源上累積可以用動態(tài)興趣偏好矩陣Tm×l來表示,學(xué)習(xí)者對資源的偏好程度體現(xiàn)著學(xué)習(xí)者之間的差異,這一差異在表征學(xué)習(xí)者的行為特征屬性時(shí)是一個(gè)漸增函數(shù),其計(jì)算公式為
式中:guk(1 ≤k≤l)是學(xué)習(xí)者興趣偏好在學(xué)習(xí)資源上的累加值,是學(xué)習(xí)者u在關(guān)聯(lián)資源的標(biāo)簽tk上不斷累加的行為之和;v是學(xué)習(xí)者平均興趣偏好值;λ是學(xué)習(xí)者行為累加和的最小值,用來消除不同學(xué)習(xí)者間興趣偏好偏差。
5)時(shí)間因素調(diào)整動態(tài)興趣偏好特征的偏移
學(xué)習(xí)者的興趣偏好特征會隨著學(xué)習(xí)的深入產(chǎn)生偏移,動態(tài)興趣偏好特征的調(diào)整包括各類行為的特征表示和時(shí)間因素,行為特征采用上述的漸增函數(shù),而時(shí)間因素表征了學(xué)習(xí)者基于時(shí)間參數(shù)的特征,采用時(shí)間衰減函數(shù)來進(jìn)行計(jì)算[22]。學(xué)習(xí)者的動態(tài)興趣偏好特征時(shí)間因素的計(jì)算公式為
式中:tnow為當(dāng)前時(shí)間;表示學(xué)習(xí)者u被標(biāo)簽tk標(biāo)注的時(shí)間集合里的最近值;超參數(shù)θ∈[0,1]可以影響時(shí)間因素對動態(tài)興趣特征的計(jì)算,二者表現(xiàn)為負(fù)相關(guān)。
將行為特征和時(shí)間權(quán)重特征進(jìn)行綜合,得到學(xué)習(xí)者的動態(tài)興趣偏好特征,即
學(xué)習(xí)者的認(rèn)知水平特征描述的是學(xué)習(xí)者在學(xué)習(xí)某個(gè)知識點(diǎn)之后,對該知識點(diǎn)對應(yīng)的試題進(jìn)行測試,獲取的對該知識點(diǎn)的掌握程度。
以“布魯姆教育目標(biāo)分類理論”為依據(jù),知識點(diǎn)對應(yīng)的學(xué)習(xí)資源的學(xué)習(xí)目標(biāo)被分為6 個(gè)等級(如圖2),這6 個(gè)等級代表著不同學(xué)習(xí)者對核心知識點(diǎn)掌握程度,即認(rèn)知水平。在學(xué)習(xí)過程中,采集層的章節(jié)知識測試數(shù)據(jù)代表了績效信息,通過分析章節(jié)知識點(diǎn)和試題測試成績,獲取認(rèn)識水平特征,由于該項(xiàng)指標(biāo)分為6 個(gè)等級,不同的學(xué)習(xí)者會有不同的整體認(rèn)知水平,同一個(gè)學(xué)習(xí)者不同時(shí)期對于不同的知識點(diǎn)也會有不同的水平狀態(tài),因此認(rèn)知水平體現(xiàn)著學(xué)習(xí)者的個(gè)性化特征。學(xué)習(xí)者的認(rèn)知水平特征表達(dá)式為
圖2 學(xué)習(xí)資源知識點(diǎn)掌握程度的表示方法Fig.2 Representation method of learning resources knowledge points master degree
式中:ki表示第i個(gè)知識點(diǎn);li表示對第i個(gè)知識點(diǎn)的掌握程度,即認(rèn)知水平,n是學(xué)已學(xué)過的知識點(diǎn)數(shù)量。
協(xié)同過濾是信息推薦技術(shù)中經(jīng)典的推薦方法[23-26],本文采用協(xié)同過濾作為在線學(xué)習(xí)資源推薦的基本算法,實(shí)現(xiàn)基本的推薦,在基本推薦的基礎(chǔ)上融合學(xué)習(xí)者模型的多維度特征,進(jìn)行精準(zhǔn)推薦。
經(jīng)典協(xié)同過濾技術(shù)的推薦過程分成3 個(gè)部分:1)收集學(xué)習(xí)者對學(xué)習(xí)資源的評分,構(gòu)建學(xué)習(xí)者-學(xué)習(xí)資源評分矩陣;2)學(xué)習(xí)者-學(xué)習(xí)資源評分矩陣隱含著學(xué)習(xí)者對學(xué)習(xí)資源的興趣偏好,因此可以通過相似度計(jì)算求出與被推薦的學(xué)習(xí)者具有相似興趣偏好的學(xué)習(xí)者集合,構(gòu)成K近鄰學(xué)習(xí)者集合;3)計(jì)算K近鄰學(xué)習(xí)者集合中每個(gè)學(xué)習(xí)者對學(xué)習(xí)資源的評分,產(chǎn)生被推薦學(xué)習(xí)者對學(xué)習(xí)資源的預(yù)測評分,按照評分進(jìn)行排序,產(chǎn)生學(xué)習(xí)資源推薦集合,在該集合中篩選出沒有被被推薦學(xué)習(xí)者學(xué)習(xí)過的Top-N 個(gè)資源,這Top-N 個(gè)資源就是最后的推薦結(jié)果。
冷啟動問題是推薦系統(tǒng)的共性問題,它指的是在面對剛剛進(jìn)入推薦系統(tǒng)的新學(xué)習(xí)者時(shí),由于行為數(shù)據(jù)較少,因此系統(tǒng)無法獲取初始學(xué)習(xí)者的隱含偏好信息,本文構(gòu)建的學(xué)習(xí)者模型的靜態(tài)特征可以較好地解決冷啟動問題。在數(shù)據(jù)采集層通過問卷、量表等方式獲取學(xué)習(xí)者的學(xué)習(xí)風(fēng)格以及靜態(tài)的興趣偏好等特征信息,通過加權(quán)融合計(jì)算學(xué)習(xí)者靜態(tài)綜合特征相似度,按相似度排序構(gòu)成K近鄰學(xué)習(xí)者集合,根據(jù)K近鄰學(xué)習(xí)者的學(xué)習(xí)資源列表完成初始學(xué)習(xí)者的推薦。
1)靜態(tài)興趣偏好特征相似度計(jì)算
學(xué)習(xí)者un的初始興趣偏好標(biāo)簽個(gè)數(shù)為q,學(xué)習(xí)者um的初始興趣偏好標(biāo)簽個(gè)數(shù)為p,學(xué)習(xí)者un和um之間含相同標(biāo)簽數(shù)目為k,相似度計(jì)算公式為
2)學(xué)習(xí)風(fēng)格特征相似度計(jì)算
學(xué)習(xí)風(fēng)格包括4 個(gè)維度,不同維度的分?jǐn)?shù)值表示為S={s1,s2,s3,s4},將S值標(biāo)準(zhǔn)化之后,利用歐幾里得距離公式計(jì)算學(xué)習(xí)風(fēng)格距離,其計(jì)算公式為
um和un的學(xué)習(xí)風(fēng)格相似度計(jì)算公式為
3)靜態(tài)綜合特征相似度計(jì)算
將學(xué)習(xí)風(fēng)格特征相似度和靜態(tài)興趣偏好特征相似度加權(quán)融合形成學(xué)習(xí)者靜態(tài)綜合特征相似度,超參數(shù)α∈[0,1]可以影響學(xué)習(xí)風(fēng)格和靜態(tài)興趣偏好的影響程度,α的具體數(shù)值通過實(shí)驗(yàn)統(tǒng)計(jì)數(shù)據(jù)的經(jīng)驗(yàn)獲得,靜態(tài)綜合相似度計(jì)算公式為
為豐富推薦結(jié)果的多樣性,提高推薦結(jié)果的準(zhǔn)確性,在融合靜態(tài)特征推薦的基礎(chǔ)上,引入學(xué)習(xí)資源-學(xué)習(xí)標(biāo)簽矩陣,結(jié)合基礎(chǔ)協(xié)同過濾算法中用到的學(xué)習(xí)者-學(xué)習(xí)資源評分矩陣,構(gòu)建學(xué)習(xí)者-學(xué)習(xí)標(biāo)簽矩陣,更新動態(tài)興趣偏好特征。通過分析章節(jié)知識點(diǎn)和試題測試成績,獲取認(rèn)識水平特征,通過計(jì)算融合動態(tài)興趣偏好特征和認(rèn)知水平特征的相似度,得到融合學(xué)習(xí)者動態(tài)特征的K近鄰學(xué)習(xí)者集合,由K近鄰集合得到推薦資源列表的過程與基于協(xié)同過濾的方法一致。
1)融合行為特征和時(shí)間權(quán)重特征的興趣偏好相似度計(jì)算
以學(xué)習(xí)者對學(xué)習(xí)資源的評分來描述學(xué)習(xí)者的興趣偏好特征是不全面不準(zhǔn)確的,在構(gòu)建學(xué)習(xí)者模型動態(tài)興趣偏好特征時(shí),融入各類學(xué)習(xí)行為,再對這些行為加權(quán)計(jì)算,構(gòu)建融合行為加權(quán)的學(xué)習(xí)者-學(xué)習(xí)資源評分矩陣,從而構(gòu)建學(xué)習(xí)者-學(xué)習(xí)標(biāo)簽矩陣,再融合時(shí)間因素,表示學(xué)習(xí)者動態(tài)興趣偏好特征隨著學(xué)習(xí)行為的持續(xù)和時(shí)間的深入產(chǎn)生的偏移問題。
融合行為特征和時(shí)間特征的興趣偏好特征向量表示為Fu={Fut1,Fut2,···,Futj},學(xué)習(xí)者um和un之間的相似性可以通過皮爾遜相關(guān)系數(shù)進(jìn)行計(jì)算,即
式中:Tmn由學(xué)習(xí)者um和un的興趣偏好標(biāo)簽的交集構(gòu)成的標(biāo)簽集合;Fm,ti和Fn,ti分別表示學(xué)習(xí)者um和un對標(biāo)簽ti的興趣特征值;分別表示學(xué)習(xí)者um和un對集合中所有標(biāo)簽的平均興趣值。計(jì)算學(xué)習(xí)者的興趣特征值相似度,并按相似度的高低進(jìn)行排序,構(gòu)建出與目標(biāo)學(xué)習(xí)者興趣特征最為相似的近鄰學(xué)習(xí)者集合U={u1,u2,···,um,···,uk},這里k為超參數(shù),具體數(shù)值通過經(jīng)驗(yàn)或?qū)嶒?yàn)驗(yàn)證給出。
2)融合認(rèn)知水平特征的相似度計(jì)算
將學(xué)習(xí)者um在已學(xué)習(xí)過的知識點(diǎn)上的認(rèn)知水平的集合表示為L(um)={L(um)=(k1um,h1um),(k2um,h2um),···,(kjum,hjum)}。其中,kjum表示學(xué)習(xí)者um掌握的第j個(gè)知識點(diǎn);hjum表示對第j個(gè)知識點(diǎn)的學(xué)習(xí)者um的掌握程度,即認(rèn)知水平。使用余弦相似度計(jì)算公式計(jì)算學(xué)習(xí)者的認(rèn)知水平相似度,構(gòu)建出與目標(biāo)學(xué)習(xí)者認(rèn)知水平特征最為相似的近鄰學(xué)習(xí)者集合,學(xué)習(xí)者um和un的認(rèn)知水平相似度計(jì)算公式為
3)學(xué)習(xí)者動態(tài)綜合特征相似度計(jì)算
將2 種動態(tài)特征相似度加權(quán),計(jì)算出學(xué)習(xí)者的動態(tài)綜合特征相似度。設(shè)置參數(shù) β調(diào)整融合比例,具體計(jì)算公式為
以超星為在線學(xué)習(xí)資源推薦研究依托平臺,《C 程序設(shè)計(jì)》課程的學(xué)習(xí)資料為學(xué)習(xí)資源,東北石油大學(xué)《C 程序設(shè)計(jì)》學(xué)習(xí)者2020 年3 月到2020 年7 月時(shí)間段的學(xué)生的真實(shí)學(xué)習(xí)行為為數(shù)據(jù)開展實(shí)驗(yàn),數(shù)據(jù)集中主要有3 類文件:1)學(xué)習(xí)者特征中的靜態(tài)數(shù)據(jù)文件,包括學(xué)生基本信息、學(xué)習(xí)風(fēng)格信息和學(xué)習(xí)興趣信息;2)學(xué)習(xí)者特征中的動態(tài)數(shù)據(jù)文件,包括知識點(diǎn)測評信息,學(xué)習(xí)資源瀏覽、收藏、下載、評價(jià)和分享行為數(shù)據(jù);3)帶有標(biāo)簽信息的學(xué)習(xí)資源數(shù)據(jù)。原始數(shù)據(jù)經(jīng)過數(shù)據(jù)預(yù)處理后,共計(jì)數(shù)據(jù)20547 條,學(xué)生849 人,學(xué)習(xí)資源19876 個(gè),其中靜態(tài)數(shù)據(jù)8567 條,動態(tài)數(shù)據(jù)11980 條。將數(shù)據(jù)集按照4∶1 的比例分為訓(xùn)練集和測試集進(jìn)行模型的訓(xùn)練和測試。
準(zhǔn)確率、召回率、F1是常用的用于評價(jià)推薦性能的評價(jià)標(biāo)準(zhǔn)。準(zhǔn)確率是系統(tǒng)推薦給學(xué)習(xí)者的資源與學(xué)習(xí)者在測試集上感興趣的資源的交集和系統(tǒng)推薦給學(xué)習(xí)者的資源的比率,即
召回率是系統(tǒng)推薦給學(xué)習(xí)者的資源和學(xué)習(xí)者在測試集上感興趣的資源的交集與學(xué)習(xí)者在測試集上感興趣的資源的比率,即
式中:R(u)表示推薦產(chǎn)生的學(xué)習(xí)資源;T(u)表示學(xué)習(xí)者在測試集上關(guān)注的學(xué)習(xí)資源。隨著學(xué)習(xí)資源推薦個(gè)數(shù)的增多,準(zhǔn)確率會有所下降,但是召回率有所上升。對測試集所有學(xué)習(xí)者的上述度量求均值計(jì)算平均準(zhǔn)確率AP 和平均召回率AR,引入F1值度量整體推薦方法的性能,F(xiàn)1值越大,表示該推薦方法性能越好,F(xiàn)1值計(jì)算公式為
本文構(gòu)建的學(xué)習(xí)者模型包括靜態(tài)特征和動態(tài)特征,其中,靜態(tài)特征包括靜態(tài)興趣偏好特征和靜態(tài)學(xué)習(xí)風(fēng)格特征;動態(tài)特征包括動態(tài)興趣偏好特征和動態(tài)認(rèn)知水平特征。從驗(yàn)證融合學(xué)習(xí)者特征算法有效性角度出發(fā),首先基于學(xué)習(xí)者對學(xué)習(xí)資源的評分矩陣,實(shí)現(xiàn)了基于經(jīng)典協(xié)同過濾的推薦。在此基礎(chǔ)上融合各項(xiàng)動靜態(tài)特征,本文的經(jīng)典協(xié)同過濾算法采用文獻(xiàn)[2]中的通過構(gòu)建“用戶-項(xiàng)目”評分矩陣計(jì)算用戶相似度,匹配近鄰用戶進(jìn)行推薦的方法。
1)融合學(xué)習(xí)者靜態(tài)特征實(shí)驗(yàn)分析
基于協(xié)同過濾方法,融合學(xué)習(xí)者靜態(tài)特征,在學(xué)習(xí)資源推薦個(gè)數(shù)為5、10、15、20、25、30、35 時(shí)的準(zhǔn)確率、召回率和F1值比較如圖3 所示。通過實(shí)驗(yàn)結(jié)果可知,對比于只依靠學(xué)習(xí)者對學(xué)習(xí)資源評分矩陣的經(jīng)典協(xié)同過濾推薦,融合了學(xué)習(xí)者模型的單項(xiàng)的靜態(tài)特征會提高整體推薦的性能,但是單項(xiàng)實(shí)驗(yàn)并不會得出哪個(gè)特征對推薦結(jié)果的影響更大,而且多項(xiàng)特征的融合效果也不會通過單項(xiàng)實(shí)驗(yàn)得到,因此多項(xiàng)特征的融合參數(shù)如何選擇也是要解決的問題。
圖3 融合學(xué)習(xí)者各項(xiàng)靜態(tài)特征的推薦性能Fig.3 Recommended performance of integrating learners’various static characteristics
實(shí)驗(yàn)中涉及學(xué)習(xí)資源推薦個(gè)數(shù)k的實(shí)驗(yàn)參數(shù)和靜態(tài)興趣偏好特征與靜態(tài)學(xué)習(xí)風(fēng)格特征相融合的權(quán)重系數(shù)α。實(shí)驗(yàn)過程中,先定義推薦的學(xué)習(xí)資源個(gè)數(shù)為5 個(gè),再對融合參數(shù)α取值從0.1~1 的推薦結(jié)果計(jì)算準(zhǔn)確率和召回率的F1值,如圖4 所示。當(dāng)α取值為0.6 時(shí)F1值最高(見圖4),因此在后續(xù)測試結(jié)果中令α=0.6,再通過實(shí)驗(yàn)測試對比分析融合靜態(tài)興趣偏好特征和靜態(tài)學(xué)習(xí)風(fēng)格特征在不同學(xué)習(xí)資源推薦個(gè)數(shù)情況下的準(zhǔn)確率和召回率。
圖4 靜態(tài)特征融合參數(shù)選擇比較Fig.4 Static feature fusion parameter selection comparison
2)融合學(xué)習(xí)者動態(tài)特征實(shí)驗(yàn)分析
學(xué)習(xí)者動態(tài)特征融合包括學(xué)習(xí)者動態(tài)變化的認(rèn)知水平和學(xué)習(xí)者對學(xué)習(xí)資源持續(xù)性的學(xué)習(xí)體現(xiàn)出的動態(tài)興趣偏好特征。通過多次實(shí)驗(yàn)對比分析準(zhǔn)確率、召回率和F1值,將時(shí)間參數(shù)θ、動態(tài)特征融合參數(shù)β調(diào)到最優(yōu)值,最終在θ=0.2,β=0.7 時(shí),推薦結(jié)果最準(zhǔn)確。
3)綜合對比分析
綜合對比分析基于協(xié)同過濾的推薦、融合學(xué)習(xí)者靜態(tài)特征的推薦和融合學(xué)習(xí)者動態(tài)特征的推薦,從準(zhǔn)確率、召回率和F1值3 個(gè)角度進(jìn)行分析,實(shí)驗(yàn)數(shù)據(jù)如圖5~7 所示。
圖5 不同推薦方法的準(zhǔn)確率比較Fig.5 Accuracy comparison of different recommended methods
圖6 不同推薦方法的召回率比較Fig.6 Recall rate comparison of different recommended methods
圖7 不同推薦方法F1 值比較Fig.7 F1 value comparison of different recommended methods
通過綜合對比分析,得出結(jié)論:動態(tài)特征方面,融合行為特征和時(shí)間特征的動態(tài)興趣偏好特征對最后推薦結(jié)果影響相對較大;靜態(tài)特征方面,學(xué)習(xí)者的興趣偏好特征要比學(xué)習(xí)者學(xué)習(xí)風(fēng)格特征影響大。整體上,融合學(xué)習(xí)者動態(tài)特征的推薦性能優(yōu)于融合學(xué)習(xí)者靜態(tài)特征的推薦和基于協(xié)同過濾的推薦。
目前在線教育學(xué)習(xí)平臺中存在海量學(xué)習(xí)資源,然而提供的服務(wù)個(gè)性化程度卻不高,針對在線學(xué)習(xí)過程中的“信息迷航”問題,本文以在線學(xué)習(xí)平臺中的學(xué)習(xí)資源數(shù)據(jù)和學(xué)習(xí)者數(shù)據(jù)為采集層的基礎(chǔ)數(shù)據(jù),通過數(shù)據(jù)分析和挖掘,構(gòu)建了多維度的個(gè)性化學(xué)習(xí)者模型。該學(xué)習(xí)者模型包括學(xué)習(xí)者靜態(tài)特征和學(xué)習(xí)者動態(tài)特征,靜態(tài)特征包括學(xué)習(xí)風(fēng)格特征和靜態(tài)興趣偏好特征,動態(tài)特征包括認(rèn)知水平特征和動態(tài)興趣偏好特征。采用協(xié)同過濾作為在線學(xué)習(xí)資源的基礎(chǔ)方法,將學(xué)習(xí)者靜態(tài)特征和動態(tài)特征分別融入?yún)f(xié)同過濾的推薦方法中,通過實(shí)驗(yàn)得到的數(shù)據(jù)證實(shí),本文構(gòu)建的學(xué)習(xí)者模型,以及基于該模型構(gòu)建的學(xué)習(xí)資源推薦方法提高了在線學(xué)習(xí)資源協(xié)同過濾推薦的性能。該方法對于滿足個(gè)性化學(xué)習(xí)的需求、提高在線學(xué)習(xí)的學(xué)習(xí)效果具有重要意義。