盧春華 胡曉楠 彭璐康 李翠霞
1(安順學(xué)院數(shù)理學(xué)院 貴州 安順 561000) 2(樸茨茅斯大學(xué)會(huì)計(jì)與金融管理系 樸茨茅斯 PO1 2UP) 3(北京郵電大學(xué)網(wǎng)絡(luò)技術(shù)研究院 北京 100876)
近年,隨著科技的發(fā)展和“互聯(lián)網(wǎng)+”概念的迅速普及,基于互聯(lián)網(wǎng)的在線學(xué)習(xí)應(yīng)運(yùn)而生,學(xué)習(xí)方式發(fā)生了翻天覆地的變化。在線學(xué)習(xí)由于其在資源利用、學(xué)習(xí)方法和教學(xué)形式等方面的優(yōu)點(diǎn),逐漸成為了一種新的趨勢(shì)。然而,隨著時(shí)間的推移以及用戶的不斷增加,在線學(xué)習(xí)系統(tǒng)上的數(shù)據(jù)變得愈加龐大,資源過(guò)載問(wèn)題日益凸顯,給學(xué)生在課程選擇方面帶來(lái)了極大的困難。個(gè)性化推薦方法可以通過(guò)分析學(xué)生的歷史行為數(shù)據(jù)等對(duì)其進(jìn)行個(gè)性化建模,自動(dòng)生成潛在興趣課程并進(jìn)行智能推薦,有效緩解課程資源過(guò)載問(wèn)題,為用戶個(gè)性化、精準(zhǔn)化地提供學(xué)習(xí)資源建議,提升學(xué)習(xí)效率和用戶滿意度。
傳統(tǒng)的個(gè)性化推薦算法主要分為三種:基于內(nèi)容的推薦方法、協(xié)同過(guò)濾推薦方法和混合型推薦方法[1]。這些推薦算法在某些特定的應(yīng)用場(chǎng)景下能取得良好的推薦效果,但在某些方面還存在一些缺陷[2]。目前,深度學(xué)習(xí)在圖像識(shí)別、文本處理和語(yǔ)音識(shí)別等領(lǐng)域都取得了前所未有的突破,其方法也被不斷地應(yīng)用到課程推薦領(lǐng)域。Shen等[3]結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和隱含因子模型,利用卷積神經(jīng)網(wǎng)絡(luò)從課程資源的文本描述中獲取隱式特征,提升了模型的推薦效果。朱柳青[4]基于神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)了一種課程推薦模型,該模型使用卷積神經(jīng)網(wǎng)絡(luò)處理用戶和課程的數(shù)據(jù)并建模,得到它們的隱式特征,提高了課程推薦的準(zhǔn)確性。Khribi等[5]根據(jù)學(xué)生瀏覽記錄對(duì)用戶進(jìn)行個(gè)性化建模,并結(jié)合學(xué)習(xí)資源等內(nèi)容完成課程推薦。林木輝[6]通過(guò)構(gòu)建學(xué)習(xí)資源本體,提出一種基于學(xué)習(xí)者認(rèn)知水平的個(gè)性化課程推薦模型,其中認(rèn)知水平是通過(guò)對(duì)知識(shí)點(diǎn)進(jìn)行難度標(biāo)注產(chǎn)生的。Aher等[7]使用半監(jiān)督機(jī)器學(xué)習(xí)從用戶歷史數(shù)據(jù)中挖掘用戶的主要興趣,較為合理地為學(xué)習(xí)者進(jìn)行課程推薦。Batouche等[8]提出一種基于改進(jìn)的人工神經(jīng)網(wǎng)絡(luò)的教學(xué)資源推薦模型,獲得了較為合理的推薦結(jié)果。文孟飛等[9]通過(guò)結(jié)合支持向量機(jī)與深度學(xué)習(xí),將網(wǎng)絡(luò)教學(xué)視頻實(shí)時(shí)推送給學(xué)習(xí)者,提升了教學(xué)資源的利用率;Zhou等[10]提出了基于長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)的在線學(xué)習(xí)路徑推薦策略??傮w來(lái)說(shuō),以上模型在特征選擇的時(shí)候都使用同種類型的結(jié)構(gòu)化數(shù)據(jù),而現(xiàn)實(shí)世界中的數(shù)據(jù)大多都是異構(gòu)的、非結(jié)構(gòu)化的,這大大制約了推薦模型的建模能力?;谶@個(gè)角度出發(fā),本文提出了一種基于網(wǎng)絡(luò)拓?fù)浜臀谋咎卣鞯闹悄苷n程推薦方法,旨在通過(guò)融合在線教育過(guò)程中產(chǎn)生的大量異構(gòu)數(shù)據(jù)對(duì)在線課程進(jìn)行全面的建模,進(jìn)而匹配用戶特征并進(jìn)行智能化的推薦。具體步驟為:首先為了充分利用網(wǎng)絡(luò)結(jié)構(gòu)信息,分別以課程-學(xué)生、課程-教師和課程為主體構(gòu)建網(wǎng)絡(luò)拓?fù)?,利用node2vec隨機(jī)游走的方法生成節(jié)點(diǎn)序列;然后使用句向量將它們和相關(guān)課程的描述文本信息嵌入到更低維的表示向量中;其次通過(guò)多模塊的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)分別得到它們的向量表示,通過(guò)向量首尾拼接的方法來(lái)建模用戶的偏好;最后,通過(guò)計(jì)算用戶查看課程信息與目標(biāo)課程的相似度大小得出推薦課程序列。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是一個(gè)重要的深度學(xué)習(xí)模型。目前,卷積神經(jīng)網(wǎng)絡(luò)在自然語(yǔ)言處理中的應(yīng)用已經(jīng)取得了較好的結(jié)果[11-12],框架如圖1所示,其主要包含三層結(jié)構(gòu):卷積層、池化層和全連接層。
圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
卷積層:用來(lái)提取某個(gè)區(qū)域的特征,卷積層計(jì)算式如下:
xj=σ(Wj?X+bj)
(1)
式中:xj表示在j層(卷積層)的特征圖;Wj是第j層的卷積核;X表示第j層輸入;?表示卷積操作;bj是第j層的偏置項(xiàng);σ表示激活函數(shù)。
池化層用來(lái)對(duì)不同位置的特征圖進(jìn)行壓縮,可以減少特征圖的大小,簡(jiǎn)化網(wǎng)絡(luò)計(jì)算復(fù)雜度。池化層運(yùn)算公式如下:
xj=σ(δjS(xj-1)+bj)
(2)
式中:S(°)表示降采樣函數(shù);δ為乘子偏差;b為附加偏差;σ表示激活函數(shù)。一般情況下,池化層后接入全連接層,主要實(shí)現(xiàn)從特征到分類類別輸出的轉(zhuǎn)換。
詞的向量化是將自然語(yǔ)言中的詞語(yǔ)映射到低維連續(xù)空間,生成一個(gè)實(shí)數(shù)向量[13],Word2vec[14-15]是一種使用廣泛的無(wú)監(jiān)督式詞向量化模型,它從海量文本語(yǔ)料中學(xué)習(xí)富含語(yǔ)義信息的低維詞向量,使得語(yǔ)義相似的單詞在向量空間中距離相近[16],Word2vec包括兩種訓(xùn)練模型,分別是連續(xù)詞袋模型CBOW和Skip-gram[17]模型。類似Word2vec、Doc2vec用來(lái)進(jìn)行語(yǔ)句或段落的向量化表示,網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,Doc2vec將句子和詞的向量通過(guò)求平均或者首尾相連作為輸入來(lái)預(yù)測(cè)文本中的下一個(gè)單詞,對(duì)于給定的段落di和其詞語(yǔ)序列w1,w2,…,wt,該方法的目標(biāo)是使平均對(duì)數(shù)概率最大化,計(jì)算式如下:
圖2 Doc2vec
(3)
(4)
y=b+Uh(wt-k,…,wt+k,di;W,D)
(5)
式中:U和b是模型參數(shù)。h由W中提取的詞向量與D中提取的段落向量聯(lián)結(jié)或平均構(gòu)成。
受到Skip-gram的啟發(fā),Vasile等[18]使用元數(shù)據(jù)嵌入,將項(xiàng)目元數(shù)據(jù)映射到潛在空間后通過(guò)計(jì)算元數(shù)據(jù)之間的相似性來(lái)得出推薦序列。后來(lái),Perozzi等[19]發(fā)現(xiàn)自然語(yǔ)言處理中單詞的出現(xiàn)頻率和無(wú)標(biāo)度網(wǎng)絡(luò)中節(jié)點(diǎn)的出現(xiàn)頻率均服從冪律分布[2],并基于此提出了Deepwalk,該方法將隨機(jī)游走產(chǎn)生的節(jié)點(diǎn)序列作為文本的句子并將節(jié)點(diǎn)作為單詞,使用Word2vec學(xué)習(xí)節(jié)點(diǎn)序列的低維表示。Grover等[20]在Deepwalk的基礎(chǔ)上提出了Node2vec方法,該方法結(jié)合廣度優(yōu)先搜索算法(BFS)和深度優(yōu)先搜索算法(DFS)這兩種策略,通過(guò)調(diào)節(jié)隨機(jī)游走的走向來(lái)挖掘網(wǎng)絡(luò)拓?fù)?。研究結(jié)果表明鄰居節(jié)點(diǎn)具有相似性,而充當(dāng)相同角色的節(jié)點(diǎn)具有結(jié)構(gòu)一致性。在網(wǎng)絡(luò)的表示中,節(jié)點(diǎn)間的這種性質(zhì)是十分重要的。在生成序列時(shí)兩個(gè)節(jié)點(diǎn)間的轉(zhuǎn)移概率是通過(guò)如下公式產(chǎn)生的。
πvx=αpq(t,x)·ωvx
(6)
式中:ωvx表示節(jié)點(diǎn)v和節(jié)點(diǎn)x之間邊的權(quán)重值,α為轉(zhuǎn)移概率,如圖3所示,計(jì)算公式為:
圖3 Node2vec的游走策略
(7)
式中:v表示當(dāng)前的節(jié)點(diǎn),t是v的上一步所在節(jié)點(diǎn),而x代表下一步的位置;dtx表示t和x之間的最短距離。
在線課程網(wǎng)站上具有豐富的元數(shù)據(jù)信息(包括課程、老師和學(xué)生等實(shí)體以及屬性信息),這些實(shí)體構(gòu)成一個(gè)巨大的圖結(jié)構(gòu),充分挖掘其中蘊(yùn)涵的特征對(duì)于個(gè)性化推薦系統(tǒng)的性能提升具有重大意義。如圖4所示,學(xué)生a和學(xué)生b同時(shí)學(xué)習(xí)了課程A,同時(shí)學(xué)生b也學(xué)習(xí)了課程B,而課程A和課程B屬于同一個(gè)二級(jí)學(xué)科,這時(shí)課程B和學(xué)生a之間存在較強(qiáng)的相關(guān)性,可以給學(xué)生a推薦課程B。為了緩解數(shù)據(jù)稀疏性,本文分別以課程-學(xué)生、課程-老師和課程所屬二級(jí)學(xué)科科目為依據(jù)構(gòu)建課程圖結(jié)構(gòu),從相關(guān)元數(shù)據(jù)的信息中得到課程的向量表示。
圖4 課程圖結(jié)構(gòu)示意圖
在課程-學(xué)生元數(shù)據(jù)圖結(jié)構(gòu)AS={VS,ES,WS},VS表示課程節(jié)點(diǎn)集合,ES表示節(jié)點(diǎn)之間的邊集合,WS是邊的權(quán)重。它結(jié)合了學(xué)生社交關(guān)系(關(guān)注與被關(guān)注)、個(gè)人信息等,如具有社交關(guān)系的學(xué)生學(xué)習(xí)的課程之間、共同學(xué)生占課程總?cè)藬?shù)超過(guò)比重P的兩個(gè)課程之間構(gòu)成邊。
在課程-老師元數(shù)據(jù)圖結(jié)構(gòu)AT={VT,ET,WT}中,VT表示老師節(jié)點(diǎn)集合,ET表示節(jié)點(diǎn)之間的邊集合,WT是邊的權(quán)重。它結(jié)合了老師之間的社交關(guān)系、個(gè)人信息等,如具有社交關(guān)系的老師所教授課程之間、具有相同研究方向的老師教授課程之間、同一個(gè)老師所教授課程之間構(gòu)成邊。
在課程-課程元數(shù)據(jù)圖結(jié)構(gòu)AC={VC,EC,WC}中,VC表示課程節(jié)點(diǎn)集合,EC表示節(jié)點(diǎn)之間的邊集合,WC是邊的權(quán)重。課程元數(shù)據(jù)圖結(jié)構(gòu)主要根據(jù)二級(jí)學(xué)科進(jìn)行統(tǒng)計(jì)的,例如計(jì)算機(jī)系統(tǒng)結(jié)構(gòu)、計(jì)算機(jī)軟件與理論、計(jì)算機(jī)應(yīng)用技術(shù)屬于同一個(gè)學(xué)科大類,屬于它們的課程之間構(gòu)成邊。
關(guān)于邊的權(quán)重值,以課程-課程元數(shù)據(jù)圖結(jié)構(gòu)為例,若其與其他課程共含有n種邊的關(guān)系類型,課程i和課程j之間有邊,若課程i和課程j之間共有m種關(guān)系,則課程j和課程j在圖結(jié)構(gòu)中邊的權(quán)重值w(i,j)∈WS為:
(8)
在課程推薦系統(tǒng)中,熱門課程通常會(huì)得到很多學(xué)生的青睞,所以在隨機(jī)游走過(guò)程中考慮到邊的權(quán)重可以使節(jié)點(diǎn)往較為熱門的方向游走。在課程-學(xué)生元數(shù)據(jù)圖結(jié)構(gòu)AS={VS,ES,WS}中,隨機(jī)選定節(jié)點(diǎn)S1,從S1出發(fā)選定長(zhǎng)度為L(zhǎng)的游走節(jié)點(diǎn)學(xué)列,如圖5所示,節(jié)點(diǎn)從Sk-2游走到Sk-1,則下一步的游走概率為:
圖5 游走過(guò)程示意圖
(9)
式中:α為二階隨機(jī)游走參數(shù),v為與Sk-1節(jié)點(diǎn)有邊的節(jié)點(diǎn)。
針對(duì)課程推薦中特征單一、結(jié)果不精準(zhǔn)的問(wèn)題,本文提出了基于邊隨機(jī)游走的多模塊神經(jīng)網(wǎng)絡(luò)表示學(xué)習(xí)方法。該方法包括生成節(jié)點(diǎn)序列、使用向量嵌入學(xué)習(xí)生成圖結(jié)構(gòu)中節(jié)點(diǎn)以及課程描述文本的低維表示、訓(xùn)練基于異構(gòu)特征的多模塊CNN模型三個(gè)階段。首先分別將課程-學(xué)生、課程-教師和課程-課程為主體構(gòu)建網(wǎng)絡(luò)拓?fù)?;其次利用Node2vec隨機(jī)游走的方法各自生成節(jié)點(diǎn)序列并嵌入表示,使用Doc2vec將相關(guān)課程的描述文本信息嵌入到低維的表示向量中;最后通過(guò)多模塊的CNN進(jìn)行網(wǎng)絡(luò)和文本特征的轉(zhuǎn)換,并使用向量首尾拼接的方法得到的向量來(lái)用戶的偏好表示X,計(jì)算X與前饋層處理的目標(biāo)課程Y(包含網(wǎng)絡(luò)和文本特征)的相似度大小得出課程推薦序列。模型架構(gòu)圖如圖6所示,課程相似度大小計(jì)算式為:
圖6 模型架構(gòu)圖
XTY=S
(10)
式中:X表示用戶的偏好向量;Y表示目標(biāo)課程向量;S表示與目標(biāo)課程(候選課程)相似度大小,S值越大,目標(biāo)課程在推薦序列中的排名越靠前。
本文數(shù)據(jù)集來(lái)自于“愛課程”網(wǎng)。通過(guò)網(wǎng)絡(luò)爬蟲技術(shù)采集“愛課程_中國(guó)大學(xué)MOOC(慕課)”上的課程,涉及的課程類別包括計(jì)算機(jī)、化學(xué)、外語(yǔ)、經(jīng)濟(jì)學(xué)、管理學(xué)、醫(yī)藥衛(wèi)生、電子和教育教學(xué)這八個(gè)門類。采集的課程信息主要包括中文文本格式的課程名稱、課程詳情、課程頁(yè)面鏈接、教師詳情和學(xué)生詳情等內(nèi)容,實(shí)驗(yàn)總共收集350余門在線開放課程的相關(guān)元數(shù)據(jù),共計(jì)170余萬(wàn)字。具體詳情如表1所示。
表1 數(shù)據(jù)集
本文設(shè)置的基準(zhǔn)模型如下:
(1) 基于用戶的最近鄰?fù)扑]方法(User-KNN):將評(píng)分?jǐn)?shù)據(jù)集和當(dāng)前學(xué)生ID作為輸入,找出與當(dāng)前學(xué)生的聽課記錄有相似偏好的其他學(xué)生,對(duì)當(dāng)前學(xué)生未學(xué)習(xí)的每個(gè)課程A,利用學(xué)生的近鄰對(duì)課程A的評(píng)分進(jìn)行預(yù)測(cè);最后,選擇評(píng)分最高的TopN個(gè)課程推薦給當(dāng)前學(xué)生。
(2) 基于物品的最近鄰?fù)扑]方法(Item-KNN):通過(guò)計(jì)算課程的相似度代替用戶的相似度進(jìn)行推薦,但是并不以課程的內(nèi)容屬性計(jì)算相似度,而是主要通過(guò)分析學(xué)生的行為記錄。一般而言,課程A和B具有很大相似度是因?yàn)橄矚g物品A的用戶大都喜歡B。
(3) 非負(fù)矩陣分解(NMF)[21]:將用戶—課程矩陣分解為用戶和課程矩陣相乘的形式,矩陣中每行代表一個(gè)個(gè)體,最終匹配得分通過(guò)這些向量表示。
(4) FGMSI[22]:基于社會(huì)影響力因素的圖形推薦模型。該模型首先構(gòu)建一個(gè)異構(gòu)的社交網(wǎng)絡(luò),然后計(jì)算基于元路徑的相似性。最后,從網(wǎng)絡(luò)中提取一些特定功能,并將其用于推薦。
在本文實(shí)驗(yàn)中,選取準(zhǔn)確率(Precision)和折扣累計(jì)利潤(rùn)及其歸一化(Normalized Discounted Cumulative Gain,NDCG)作為推薦結(jié)果的評(píng)估指標(biāo)[14]。
Precision表示推薦方法推薦的課程被用戶喜歡的比例,其計(jì)算式如下:
(11)
式中:R(u)表示推薦模型認(rèn)為用戶喜歡的課程;T(u)表示用戶真正喜歡的課程。
NDCG指標(biāo)通過(guò)比較推薦課程結(jié)果列表中位置與課程指定所在位置,評(píng)估出推薦結(jié)果有效性,其計(jì)算式如下:
(12)
(13)
式中:r(i)是第i個(gè)課程的結(jié)果得分;iDCG是查詢的理想值,即查詢結(jié)果好的狀態(tài)下計(jì)算出來(lái)的DCG值。
對(duì)于神經(jīng)網(wǎng)絡(luò)模型,其超參數(shù)的初始化設(shè)置對(duì)模型性能是極其重要的。本文對(duì)所構(gòu)建網(wǎng)絡(luò)拓?fù)淅肗ode2vec隨機(jī)游走的方法進(jìn)行嵌入表示,對(duì)將相關(guān)課程的描述文本信息使用Doc2vec的方法進(jìn)行嵌入表示,其中Node2vec和Doc2vec參數(shù)設(shè)置如表2和表3所示。
表2 Node2vec參數(shù)設(shè)置
表3 Doc2vec參數(shù)設(shè)置
最后通過(guò)多模塊的CNN進(jìn)行網(wǎng)絡(luò)和文本特征的轉(zhuǎn)換,為了訓(xùn)練得到性能最好的模型,Epoch大小設(shè)定為250,且在每20個(gè)Epoch后保存一次模型,最后選擇在測(cè)試集上效果最好的模型作為本文最后的推薦模型。表4給出了本本提出模型的參數(shù)設(shè)置情況。
表4 模型超參數(shù)設(shè)置
TopN推薦中,N表示在推薦列表中的前N個(gè)推薦課程。實(shí)驗(yàn)結(jié)果如表5和圖7所示,本文推薦模型較其他模型表現(xiàn)出了最好的推薦效果。當(dāng)N=10時(shí),在推薦指標(biāo)準(zhǔn)確率Precision指標(biāo)上,本文模型比基于用戶的最近鄰?fù)扑]方法有約16.4百分點(diǎn)的性能提升,比基于物品的最近鄰?fù)扑]方法有約10.2百分點(diǎn)的提升,比NMF推薦方法有約9.5百分點(diǎn)的提升,比基于神經(jīng)網(wǎng)絡(luò)模型的FGMSI推薦方法有約5.2百分點(diǎn)的提升;在更注重推薦列表排序的指標(biāo)NDCG方面,本文模型比基于用戶的最近鄰?fù)扑]方法有約23.6百分點(diǎn)的提升,比基于物品的最近鄰?fù)扑]方法有約23.5百分點(diǎn)的提升,比NMF推薦方法有約16.9百分點(diǎn)的提升,比基于神經(jīng)網(wǎng)絡(luò)模型的FGMSI推薦方法有約4.86百分點(diǎn)的提升??梢缘贸?,本文以課程、學(xué)生和教師為主體構(gòu)建網(wǎng)絡(luò)拓?fù)?,利用Node2vec隨機(jī)游走的方法獲取了課程與課程、學(xué)生與課程、老師與課程之間的關(guān)系,并通過(guò)多模塊的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)將它們有機(jī)地融合在一起,有效地提升了模型的推薦性能。
表5 N為10時(shí)推薦模型的性能
(a) 準(zhǔn)確率
(b) NDCG圖7 各模型在數(shù)據(jù)集上的性能比較
為了能直觀地說(shuō)明本文模型的推薦機(jī)制,本文選取了數(shù)據(jù)集中的一條推薦實(shí)例加以說(shuō)明。如圖8所示,對(duì)于特定學(xué)生A,推薦目標(biāo)是根據(jù)目前學(xué)習(xí)記錄(計(jì)算機(jī)組成原理、數(shù)據(jù)結(jié)構(gòu)、人工智能原理等),及其相關(guān)的圖結(jié)特征和文本描述特征,將目標(biāo)課程“操作系統(tǒng)”進(jìn)行精準(zhǔn)推薦。在本實(shí)例中,由于“操作系統(tǒng)”與已學(xué)習(xí)的三門課程具有類似的網(wǎng)絡(luò)結(jié)構(gòu),同時(shí),它們的描述文本也具有相似之處(如:計(jì)算機(jī)、基礎(chǔ)課程、大學(xué)生必修等),因而本文提出的模型會(huì)將該目標(biāo)課程排在相對(duì)靠前的位置(第二名),它與排名第一的課程“計(jì)算機(jī)網(wǎng)絡(luò)”具有相似的特征。這說(shuō)明本文提出的模型能夠進(jìn)行精準(zhǔn)推薦,同時(shí)對(duì)于推薦結(jié)果是可解釋的,顯示出其在大規(guī)模在線教育平臺(tái)應(yīng)用中存在極大的潛力。
圖8 推薦實(shí)例
除了上述實(shí)驗(yàn),文本通過(guò)依次將各特征模塊消除的方法來(lái)探索各特征對(duì)模型性能的影響。實(shí)驗(yàn)結(jié)果如9所示,圖中,C_Student表示在原模型的基礎(chǔ)上消除課程-學(xué)生元數(shù)據(jù)信息模塊,同理,C_Teacher、C_Course、C_Description表示在原模型的基礎(chǔ)上分別消除課程-教師、課程-課程和相關(guān)課程的文本描述信息模塊。
(a) Precision
(b) NDCG圖9 各實(shí)驗(yàn)在數(shù)據(jù)集上的性能比較
由圖9可知,對(duì)于本文模型四個(gè)輸入模塊(課程-學(xué)生元數(shù)據(jù)信息、課程-老師元數(shù)據(jù)信息、課程-課程元數(shù)據(jù)信息和課程的文本描述信息),去掉某種輸入特征之后模型的性能都會(huì)下降,說(shuō)明本文使用的三個(gè)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和文本特征對(duì)于模型都有正面的積極作用。在三個(gè)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中,課程-教師網(wǎng)絡(luò)對(duì)模型推薦結(jié)果影響最小,課程-課程網(wǎng)絡(luò)次之,課程-學(xué)生網(wǎng)絡(luò)影響最大,表明對(duì)于學(xué)生與課程關(guān)系的挖掘具有重大潛力。而課程文本描述信息相較三種網(wǎng)絡(luò)特征對(duì)模型的推薦效果影響都大,說(shuō)明文本特征對(duì)推薦模型效果最重要。這進(jìn)一步表明本模型融合課程-學(xué)生、課程-教師和課程-課程的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),并結(jié)合課程描述文本信息來(lái)建模學(xué)生的偏好,能為學(xué)生提供個(gè)性化、精準(zhǔn)化的學(xué)習(xí)資源推薦服務(wù)。
本文提出了一種融合網(wǎng)絡(luò)特征和文本特征的智能課程推薦方法。首先構(gòu)建在線課程的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),并將其通過(guò)Node2vec映射到低維向量空間中,同時(shí)將文本數(shù)據(jù)通過(guò)Doc2vec表示,使用多模塊CNN神經(jīng)網(wǎng)絡(luò)擬合網(wǎng)絡(luò)和文本特征并計(jì)算用戶和目標(biāo)課程之間的相似度。在進(jìn)行推薦時(shí),選擇匹配度最高的TopN課程。實(shí)驗(yàn)結(jié)果表明,該方法的性能遠(yuǎn)遠(yuǎn)超過(guò)四種基準(zhǔn)模型性能,同時(shí)消除實(shí)驗(yàn)表明本文使用的每種特征對(duì)于推薦性能的提升都有積極作用。在以后的工作中,將挖掘更多形式的異構(gòu)特征(例如學(xué)習(xí)序列、課程的多模態(tài)數(shù)據(jù)),并探討不同特征融合方法對(duì)于智能課程推薦的影響。