廖宏建, 曲 哲, 胡 瑩
(廣州大學(xué) a.網(wǎng)絡(luò)與現(xiàn)代教育技術(shù)中心; b.圖書館, 廣東 廣州 510006)
近年來,大規(guī)模在線開放課程(Massive Open Online Course,MOOC)的迅猛發(fā)展,為人們提供了前所未有的學(xué)習(xí)機(jī)會,每年有數(shù)以千萬計的學(xué)習(xí)者參與MOOC學(xué)習(xí),但MOOC的高輟學(xué)率也同樣引起了關(guān)注(完成率僅約為5%~15%)[1].師生時空分離引起的孤獨感、邊緣參與和群體動力缺乏等是高輟學(xué)率的主要歸因[2-3].大量文獻(xiàn)研究和教學(xué)實踐已證明,學(xué)伴互動對降低孤獨感,增加持續(xù)學(xué)習(xí)投入和促進(jìn)深層次學(xué)習(xí)具有重要意義[4-5],而學(xué)伴推薦(Learning Partner Recommendation, LPR)能促進(jìn)學(xué)伴互動.
聯(lián)通主義學(xué)習(xí)理論認(rèn)為,學(xué)習(xí)即連接及形成網(wǎng)絡(luò)[6],學(xué)習(xí)者與其他同伴以學(xué)習(xí)為目的進(jìn)行社交時,會伴隨生成隱形人際關(guān)系,并推動學(xué)習(xí)社區(qū)形成.隨著大規(guī)模在線學(xué)習(xí)的興起,MOOC已不僅僅是一門視頻課程,更是一個知識創(chuàng)造、交流和分享的學(xué)習(xí)社區(qū),且具有以下特點:①學(xué)員的規(guī)?;c多樣性.一門課程的學(xué)員往往成千上萬,來自不同的行業(yè)和年齡段,有著不同的知識水平、興趣偏好和自我調(diào)節(jié)學(xué)習(xí)能力等;②學(xué)習(xí)與社交趨向融合.學(xué)習(xí)社交化,社交學(xué)習(xí)化,MOOC社區(qū)具有學(xué)習(xí)與社交的雙重屬性;③學(xué)習(xí)情境的移動化與泛在化.基于移動媒介的微學(xué)習(xí),形成移動社會網(wǎng)絡(luò),行為日志數(shù)據(jù)呈現(xiàn)自然浮現(xiàn)、多模態(tài)、碎片化和時空情境化等特點.
MOOC社區(qū)的“規(guī)?;⑸缃换鸵苿踊钡忍卣魇沟脤W(xué)習(xí)者情境更為復(fù)雜,如何在MOOC社區(qū)中智能、動態(tài)地推薦適配的學(xué)伴,成為MOOC發(fā)展中的重要研究問題.網(wǎng)絡(luò)分析被認(rèn)為是研究在線學(xué)習(xí)大規(guī)模交互的有效方法[7],它將行動者抽象為節(jié)點,將關(guān)系抽象為節(jié)點之間的邊,形成一個社群圖,從而描述網(wǎng)絡(luò)關(guān)系.本文在網(wǎng)絡(luò)關(guān)系中引入信任度概念,使用信任度來統(tǒng)攝和描述MOOC社區(qū)節(jié)點間的興趣、時間和位置等情境信息的相似度,構(gòu)建動態(tài)信任網(wǎng)絡(luò),實現(xiàn)基于移動情境感知的學(xué)伴推薦.
MOOC社區(qū)中的學(xué)習(xí)同伴推薦(LPR)借鑒社交網(wǎng)絡(luò)好友推薦的相關(guān)方法,主要有3類:①基于好友關(guān)系拓?fù)渚W(wǎng)絡(luò)的推薦;②基于用戶行為、興趣等相關(guān)信息的推薦;③基于信任的推薦.徐彬等[8]分析了MOOC論壇區(qū)學(xué)習(xí)者的行為特征及形成的關(guān)系邊類型,基于課程內(nèi)容關(guān)鍵詞創(chuàng)建固定主題模型,根據(jù)學(xué)生討論內(nèi)容主題分布的相似性來推薦學(xué)伴,實驗驗證該方法能有效挖掘出主題相關(guān)的學(xué)習(xí)者.但其缺點在于需要事先為每門課程建立關(guān)鍵詞詞典.蔡霞等[9]構(gòu)建了基于學(xué)習(xí)者特征(包含學(xué)習(xí)者屬性、能力和偏好)的同伴推薦算法,推薦互補(bǔ)型或相似型的學(xué)習(xí)同伴.Hugues團(tuán)隊[10]使用對照研究分析了MOOC中“同伴推薦能否促進(jìn)學(xué)習(xí)投入”及3種推薦策略的效果,結(jié)果表明,有學(xué)伴推薦的實驗組學(xué)員在參與度和課程完成率方面均優(yōu)于無學(xué)伴推薦的對照組;在3種推薦策略上,基于人口統(tǒng)計信息相似性(包括地理位置、先前經(jīng)驗)的同伴推薦效果稍優(yōu)于基于MOOC進(jìn)度的推薦和隨機(jī)推薦[11].劉海鷗等[12]提出了一種基于大數(shù)據(jù)深度畫像學(xué)習(xí)伙伴匹配的理論模型,使用學(xué)習(xí)者教育背景、內(nèi)容偏好和學(xué)習(xí)互動等情境計算學(xué)習(xí)風(fēng)格,從而推薦風(fēng)格相近或風(fēng)格互補(bǔ)的學(xué)伴,但缺乏具體實踐.為了體現(xiàn)學(xué)習(xí)者行為和興趣的動態(tài)性,Elghomary等[13]提出了一種基于信任管理系統(tǒng)(TMS)的動態(tài)學(xué)伴推薦系統(tǒng)(DPRS),該方法吸收了社交物聯(lián)網(wǎng)(SIoT)的社會信任指標(biāo),如直接信任度、對象中心度、能量、社區(qū)興趣、合作性和服務(wù)得分來計算節(jié)點的可信度,并定期進(jìn)行信任更新.
綜上所述,MOOC學(xué)伴推薦研究尚處于起步階段,主要借鑒了一般性社會網(wǎng)絡(luò)中好友推薦的思路和方法.MOOC作為一種在線知識社區(qū),包含顯性知識(課程資源)和隱性知識(學(xué)習(xí)者)節(jié)點,學(xué)習(xí)是特定節(jié)點之間建立連接并形成網(wǎng)絡(luò)的過程,從本質(zhì)上講,學(xué)伴推薦即知識連接.因此,在推薦情境和推薦目的上,MOOC學(xué)伴推薦有其自身的特點:①學(xué)習(xí)者與課程內(nèi)容之間的連接及交互行為是反映學(xué)習(xí)者知識水平、興趣偏好的重要依據(jù),也是影響學(xué)伴連接的重要情境.已有推薦方法忽略了學(xué)習(xí)者與學(xué)習(xí)內(nèi)容交互行為特征的分析及量化;②MOOC社交網(wǎng)絡(luò)具有高動態(tài)性和移動性,學(xué)伴連接的出現(xiàn)或消失是MOOC社交網(wǎng)絡(luò)的鏈接拓?fù)潆S時間、空間、學(xué)習(xí)內(nèi)容、興趣偏好、知識水平和交互關(guān)系等諸多情境變化引起的,且根據(jù)推薦目標(biāo)的側(cè)重點不同,情境的取舍也會不同,如地理位置能為在線社區(qū)中學(xué)伴線下交流不緊密的問題提供情境線索.選擇適切的、促進(jìn)學(xué)伴連接的情境,是實現(xiàn)有效學(xué)伴推薦的關(guān)鍵.
探究社區(qū)理論模型(Community of Inquiry, CoI) 指通過發(fā)展“教學(xué)臨場、社會臨場和認(rèn)知臨場”3個相互依存的要素,創(chuàng)造深層次和有意義的學(xué)習(xí)體驗過程[14].學(xué)習(xí)者與課程內(nèi)容的交互等構(gòu)成“教學(xué)臨場”;學(xué)習(xí)者對知識的連接、批判性反思和深加工等活動構(gòu)成“認(rèn)知臨場”;學(xué)習(xí)者之間互動(情感反應(yīng)、交互式響應(yīng)和凝聚力反應(yīng))構(gòu)成“社會臨場”[15].其中,交互式響應(yīng)是社會臨場的核心,它是指引用學(xué)習(xí)同伴的話語信息來維持學(xué)習(xí)主題的討論,或表達(dá)對他人信息的同意,或贊賞,或轉(zhuǎn)發(fā)等.3種臨場感的載體為“學(xué)習(xí)者、課程資源和交互”,3者的連接關(guān)系及構(gòu)建的知識地圖可描述如圖1所示.
圖1 探究社區(qū)視角下的MOOC知識地圖構(gòu)成Fig.1 The construction of MOOC knowledge map from the perspective of COI
MOOC社區(qū)中的知識構(gòu)成包括顯性知識和隱性知識.學(xué)習(xí)者本身作為一種隱性知識載體,是整個知識網(wǎng)絡(luò)中的重要組成節(jié)點,節(jié)點之間的交互意向、信任關(guān)系創(chuàng)建等,無疑受到來自教學(xué)臨場、認(rèn)知臨場中的時間、興趣、位置和交互等情境影響.實現(xiàn)個性化學(xué)伴推薦(即構(gòu)建隱性知識連接網(wǎng)絡(luò)),需要計算和量化知識地圖中的相關(guān)情境信息,并根據(jù)情境相似性構(gòu)建學(xué)習(xí)者間的信任關(guān)系及動態(tài)信任網(wǎng)絡(luò).
依據(jù)圖1,學(xué)習(xí)者的交互行為可以分為兩類:學(xué)習(xí)者—課程資源交互、學(xué)習(xí)者—學(xué)習(xí)者交互.第一類交互行為主要反映了學(xué)習(xí)者的興趣、時間、地點和影響力等情境信息,跟用戶自身相關(guān),在網(wǎng)絡(luò)中具有全局性,謂之用戶情境; 第二類交互行為主要反映學(xué)習(xí)者之間的交互關(guān)系,是點對點的行為,是“從虛擬或現(xiàn)實社會中獲取的人際互動信息集”[16],謂之社會情境.因此,面向?qū)W伴推薦的情境信息分類如表1所示.
表1 面向?qū)W伴推薦的情境信息分類
對上述情境量化計算和融合,使用信任來統(tǒng)攝和度量學(xué)員間的情境相似度,并構(gòu)建信任網(wǎng)絡(luò),實現(xiàn)基于情境感知的學(xué)伴推薦.
在好友推薦中,定義信任為目標(biāo)用戶對所推薦用戶的有效性、真實性和可靠性的一種信賴和肯定程度.MOOC社區(qū)學(xué)員間綜合信任度由用戶情境信任度和社會情境信任度構(gòu)成.
3.1.1 興趣偏好信任度
根據(jù)自我知覺理論(Self-perception theory),用戶的態(tài)度和偏好在一定程度上可以通過用戶的行為來預(yù)測[17].根據(jù)該理論,學(xué)員過去的真實學(xué)習(xí)行為投入能在一定程度上反映其對該MOOC的偏好.學(xué)習(xí)行為投入是指學(xué)習(xí)者在學(xué)習(xí)活動中的行為表現(xiàn),包含了投入時間、努力程度和活動強(qiáng)度等[18].除了態(tài)度和偏好,在同一門課程或同一活動中學(xué)習(xí)行為投入的相似度也能在一定程度上反映學(xué)習(xí)者知識水平的相似性.借鑒文獻(xiàn)[19]的學(xué)習(xí)行為投入評測框架,本研究中選取自主學(xué)習(xí)、行為反思和知識水平3個維度共7項指標(biāo),見表1.此外,學(xué)員對課程的評分也是反映興趣偏好的重要數(shù)據(jù).因此,反映學(xué)習(xí)者興趣偏好的信任度計算步驟如下.
(1)學(xué)習(xí)行為投入系數(shù).為消除量綱對結(jié)果的影響,對7項指標(biāo)使用極大值-極小值做歸一化處理,對歸一化后的值進(jìn)行累加得到學(xué)員u對課程i的學(xué)習(xí)行為投入系數(shù)eu,i, 然后使用經(jīng)典算法皮爾遜相關(guān)系數(shù)計算學(xué)員間信任度,如式(1)所示.
(1)
(2)課程評分.課程評價一般采用[1,5]區(qū)間的整數(shù)表示,相比學(xué)習(xí)投入矩陣,評分矩陣數(shù)據(jù)更為稀疏.假如2名學(xué)員僅有1門共同評分課程,且評分相同,使用皮爾遜相關(guān)系數(shù)計算得到相似度為1,這與實際情況不符.因此,使用均方偏差和Jaccard系數(shù)的乘積來增強(qiáng)度量學(xué)員評分相似性.假設(shè)學(xué)員u和學(xué)員v對課程均有評分,則
sTrust′=MSDu,v*JACu,v=
(2)
課程評分具有一定的主觀性,有些學(xué)員的評分習(xí)慣性偏高,有些學(xué)員則習(xí)慣性偏低,這種評分偏好使用偏差系數(shù)來表示,即用某學(xué)員與所有學(xué)員打分的差值來表示.將信任度乘以打分偏差系數(shù),能夠消除打分偏好的影響,得到更為客觀的信任值,如式(3)所示.
(3)
綜合式(1)和式(3)得到調(diào)和后的基于學(xué)習(xí)者興趣偏好的信任度如式(4)所示.
preTrustu,v=aeTrustu,v+(1-a)sTrustu,v
(4)
其中,a為權(quán)重參數(shù),用于調(diào)節(jié)學(xué)習(xí)投入和評分在興趣偏好信任度中的比重.
3.1.2 地理位置信任度
MOOC平臺在選課日志、登錄日志和每次學(xué)習(xí)行為日志中均記錄了學(xué)習(xí)者的IP信息.通過IP信息可以獲得學(xué)習(xí)者的地理位置信息,實現(xiàn)基于相同或相近位置的學(xué)伴推薦,促進(jìn)學(xué)習(xí)互動從線上走向線下.任意學(xué)習(xí)者u和學(xué)習(xí)者v在空間上的相似性可以使用離散地理位置相似性度量.計算如式(5)所示.
(5)
3.1.3 同時在線時間信任度
在MOOC社區(qū)交互中,同步互動比異步互動更能提升社會臨場感,能提高交互率和學(xué)習(xí)效果.任意學(xué)員u和v在時間上的相似度可以用同時在線時間相似度來表示,計算如式(6)所示.
(6)
3.1.4 用戶情境信任度綜合計算
春江水暖鴨先知。1979年,俊發(fā)集團(tuán)董事長李俊的母親石寶鳳辭掉國企的鐵飯碗,只身“下?!眲?chuàng)辦金馬家具廠,拿到了云南第一份私營企業(yè)的營業(yè)執(zhí)照。1983年,石寶鳳成立了昆明市晶晶床墊家具制造有限責(zé)任公司。今天,在此根基上發(fā)展壯大的俊發(fā)集團(tuán)已坐上了云南民營經(jīng)濟(jì)100強(qiáng)的“頭把交椅”。
將上述基于興趣偏好、地理位置和在線時間的信任值按權(quán)值綜合,如式(7)所示,得到用戶情境信任度.
UserTrust=α·preTrust+β·localTrust+γ·timeTrust
(7)
其中,α,β,γ分別為這類信任度的權(quán)重,取值為[0,1]區(qū)間,且α+β+γ=1.
交互行為體現(xiàn)了學(xué)習(xí)者之間的信任關(guān)系.在MOOC社區(qū)中,學(xué)員之間的回貼、點贊和轉(zhuǎn)發(fā)等行為都代表了某種信任關(guān)系.尤其當(dāng)學(xué)員頻繁回復(fù)或者轉(zhuǎn)發(fā)另一學(xué)員發(fā)布的內(nèi)容時,表明該學(xué)員與該內(nèi)容發(fā)布者之間具有較強(qiáng)的信任關(guān)系.
3.2.1 初始交互信任度計算
本文將MOOC交互行為集v={回帖,點贊,轉(zhuǎn)發(fā)}作為交互信任度的計算指標(biāo).已有文獻(xiàn)主要使用交互頻次構(gòu)建信任度,而MOOC交互作為一種知識學(xué)習(xí)和分享行為,交互時長能在一定程度上反映交流的深度.MOOC平臺一般不記錄某次交互行為的時長,因而這里使用回帖文本長度模擬交互時長.
(1)對不同交互行為賦予不同的權(quán)重
(8)
(9)
其中,CFu→v表示學(xué)員u指向?qū)W員v的行為頻次;CTu→v表示時長;同樣,可以計算得到v指向u的行為頻次CFv→u和時長CTv→u.λ、μ、ν分別表示3種交互行為的權(quán)重.
(2)構(gòu)建信任度
MOOC交互具有方向性,如果只是單方面主動發(fā)起聯(lián)系,即便單方強(qiáng)度高,并不能代表雙方熟識且信任度高,雙向互動比單向互動構(gòu)成好友的可能性更大,基于雙向互動構(gòu)建的信任度才有意義.因此,本文綜合考慮雙向互動來構(gòu)建學(xué)員間的信任度,如式(10)所示,CFu,v表示基于交互頻次的信任度.
(10)
用同樣的方法計算基于交互時長的信任度CTu,v.因?qū)W員交互時長和交互頻次與信任度之間符合邊際效應(yīng)遞減理論,故采用對數(shù)來度量交互與信任度之間的關(guān)系,得到初始交互信任度.
SociaTrust(u,v)=b×ln(CTu,v)+(1-b)×ln(CFu,v)
(11)
其中,CTu,v和CFu,v分別表示學(xué)員u和v的交互時長和交互頻次;b表示調(diào)整交互頻次和時長的權(quán)重.
3.2.2 交互信任的時序動態(tài)更新
在MOOC社區(qū)中,學(xué)員的興趣與關(guān)注點是隨著學(xué)習(xí)進(jìn)程不斷演化的,其學(xué)伴關(guān)系也會隨著時間的變化而變化.具體而言,學(xué)伴的推薦受到兩個方面的影響:①交互強(qiáng)度.當(dāng)兩個學(xué)員交互升溫并進(jìn)入專注期,且交互頻次和深度明顯高出其他人,這時應(yīng)該予以獎勵,使其脫穎而出;②交互時效.歷史交互行為對信任值有遠(yuǎn)近效應(yīng),近期交互對當(dāng)前信任值的影響大,遠(yuǎn)期交互對當(dāng)前信任值的影響小.為了更關(guān)注近期交互的影響,引入時間衰減因子來削弱或遺忘歷史行為記錄的影響.相應(yīng)地,本研究通過信任獎勵因子和時間衰減因子來實現(xiàn)交互信任值的動態(tài)調(diào)整.將整個課程學(xué)習(xí)周期劃分為若干個大小為T的時間窗口(按照MOOC交互規(guī)律,一般T=3 d),信任值每經(jīng)過一個窗口T時更新一次.如圖2所示,學(xué)員u和v、u和w的信任值依據(jù)課程中交互行為動態(tài)變化,t時刻為信任評估和推薦的時間節(jié)點(可根據(jù)需要將課程周期劃分為多個t節(jié)點).
圖2 獎勵因子和時間衰減因子作用下的信任度演化示例
(1)獎勵因子
在第i個時間窗口ti時刻,學(xué)員u對v的信任值可表示為ITrust(u,v,ti),因為ti時刻的交互信任是ti-1時刻交互信任的延續(xù),也可以看作是對ti-1窗口交互體驗的反饋.為量化交互反饋,定義反饋得分Si為在ti時刻,用戶u對v的交互行為(包含頻次和時長)占用戶u對所有學(xué)員交互行為的比例.計算公式如下:
(12)
比較ti時刻和ti-1時刻交互反饋得分,若Si-Si-1>=0,則為正反饋;反之,若Si-Si-1<0,則為負(fù)反饋.引入信任獎勵因子,對正反饋進(jìn)行獎勵.MOOC社區(qū)交互不存在一般信任網(wǎng)絡(luò)中的惡意攻擊和偽裝用戶等,故不考慮施加懲罰因子,使得信任的自適應(yīng)性特征改變?yōu)椤翱煸雎郎p”,更吻合MOOC學(xué)習(xí)過程中學(xué)伴推薦的實際情況.
信任獎勵因子r(k)定義為兩個連續(xù)時間窗口反饋得分的比值,即斜率r(k)=Si/Si-1表示k時刻的獎勵因子.交互結(jié)果為正反饋時,則r(k)≥1;為負(fù)反饋時,則r(k)<1.
因此,經(jīng)過T時間窗口后更新的信任值如式(13)所示.
SociaTrust(u,v,ti)′=SociaTrust(u,v,ti)*r(k)
(13)
經(jīng)過獎勵因子調(diào)節(jié)后,信任值在每個時間窗口T呈現(xiàn)了動態(tài)變化性.
(2)時間衰減因子
在推薦時間節(jié)點t,為了給遠(yuǎn)近不同的歷史交互行為施加差異權(quán)重,使用時間衰減因子更新t周期內(nèi)的信任值.時間衰減因子定義如下:
δ(t)=e-c·[(t-ti)/T]
(14)
其中,t表示信任評估與推薦時刻,ti表示周期t內(nèi)第i個時間窗口時刻,T為時間窗格,c為衰減系數(shù),則施加時間衰減因子后的交互信任值為
SociaTrust(u,v,ti)=SociaTrust(u,v,ti)*δ(t)
(15)
從式(15)中可知,ti離評估t時刻越遠(yuǎn),則經(jīng)歷的窗口越多,衰減幅度越大.
3.3.1 信任調(diào)和
將前面基于用戶情境的信任度和基于社會情境的信任度通過式(16)調(diào)和,得到綜合信任度.
MOOCTrustu,v=η·UserTrustu,v+
(1-η)·SociaTrustu,v
(16)
其中,η為調(diào)和參數(shù)(0≤η≤1),若η<0.5,則用戶情境信任度占主導(dǎo);若η>0.5,則社會情境信任度占主導(dǎo);η=1時,則完全使用用戶情境,解決冷啟動用戶社會情境信任數(shù)據(jù)的稀疏性問題.
3.3.2 信任傳遞與信任網(wǎng)絡(luò)構(gòu)建
(1)信任傳遞.信任具有傳遞性,用戶往往會接受其信任的朋友推薦的朋友,即朋友的朋友(Friend of friend)也可能會成為朋友.信任傳遞可以緩解數(shù)據(jù)稀疏性,為目標(biāo)用戶匹配更多的鄰居用戶.在MOOC社區(qū)中,信任是多鏈路傳遞的,一個學(xué)員收到不同信任傳遞的鏈路越多,其信任度就越客觀.本文采用廣泛使用的有序加權(quán)平均聚合算法計算多鏈路傳遞[20],該方法為每條信任鏈賦予不同的權(quán)重,能真實反映綜合信任度.首先將目標(biāo)用戶Uu到Uv的N條信任鏈按長短排序,根據(jù)OWA算子定理,信任鏈權(quán)重的計算公式為
(17)
(2)信任網(wǎng)絡(luò).得到所有學(xué)員的信任關(guān)系矩陣后,可構(gòu)建MOOC社區(qū)學(xué)員信任網(wǎng)絡(luò),該網(wǎng)絡(luò)是一種有向加權(quán)網(wǎng)絡(luò).使用圖論方法可形式化描述如下:使用一個三元組G(U,E,W)表示復(fù)雜信任網(wǎng)絡(luò),其中,集合U={U1,U2,…,Un}表示學(xué)員節(jié)點集合;集合E={E1,E2,…,En}表示圖中邊的集合,即學(xué)員間的信任關(guān)系;W={W1,W2,…,Wn}表示邊集合E對應(yīng)的信任權(quán)重集合;基于該網(wǎng)絡(luò),依據(jù)信任權(quán)重值實現(xiàn)對目標(biāo)學(xué)員的Top-N推薦.
在國內(nèi)大型MOOC社區(qū)平臺“好大學(xué)在線”隨機(jī)抽取了課程“現(xiàn)代文學(xué)經(jīng)典導(dǎo)讀”某一期開課的真實日志數(shù)據(jù)作為實驗對象.該課程選課人數(shù)為2 125人,課程周期為15周,學(xué)習(xí)活動有觀看視頻、學(xué)習(xí)課件、文學(xué)創(chuàng)作、主觀作業(yè)互評、議題討論和自由討論等.用到的主要數(shù)據(jù)文件有5個:uc_action_log(含用戶基本信息、登錄時間、請求IP、請求學(xué)習(xí)資源ID及訪問頁面等)、course_comments(課程多維評價)、uc_discuz(帖子基本信息、發(fā)帖、回帖、點贊、轉(zhuǎn)發(fā)及標(biāo)記等)、uc_exam(互評、測驗、考試及分?jǐn)?shù)等)和uc_notice(筆記時間、內(nèi)容及所關(guān)聯(lián)資源等).用戶原始行為日志數(shù)據(jù)約37萬余條,按照表1和式(1)計算學(xué)習(xí)行為投入系數(shù),剔除系數(shù)為0或過低(偶爾或零星行為)的非活躍學(xué)員,得到1 350人及32萬余日志數(shù)據(jù)進(jìn)入最終測試數(shù)據(jù)集.
為了從原始數(shù)據(jù)中獲得推薦需要的情境信息,對數(shù)據(jù)進(jìn)行了預(yù)處理和轉(zhuǎn)換.
(1)學(xué)習(xí)行為投入.①在線學(xué)習(xí)時長計算.MOOC平臺日志一般只記錄某一個行為(如看視頻、參與討論)的開始時間戳,學(xué)員總在線時長通過前后兩次行為的時間戳差值的累計來計算.如果用戶直接關(guān)閉瀏覽器時系統(tǒng)無法記錄學(xué)習(xí)結(jié)束時間,則根據(jù)MOOC微學(xué)習(xí)特征,該次學(xué)習(xí)時長取30 min,即前后相鄰行為的時間戳差值的閾值設(shè)為30 min.②交互時長計算.發(fā)帖和回帖時長(這里忽略點贊和轉(zhuǎn)發(fā)行為的時長)通過其帖子的文本長度模擬轉(zhuǎn)換為時長.
(2)時間情境.為計算在線學(xué)習(xí)時間段相似性,根據(jù)MOOC學(xué)習(xí)特點,將一個自然日按30 min劃分為48個時段,用序列集合T表示.
(3)位置情境.使用百度IP定位API接口,將日志中每次請求的IP地址轉(zhuǎn)換為城市信息,用序列集合P表示.
(4)信任更新周期.原始數(shù)據(jù)包括105 d的學(xué)員行為,時間窗格T分別取值為3 d、5 d、7 d計算時,全樣本中回帖、點贊及轉(zhuǎn)發(fā)等交互行為頻次的平均更新率為3.21%、5.52%、9.85%,為平衡推薦精度和計算性能,令時間窗格T=5,課程全周期中信任評估和推薦次數(shù)設(shè)為7(即圖4中t=7,每次推薦周期為105 d/7次=15 d).
4.2.1 學(xué)習(xí)者信任網(wǎng)絡(luò)圖譜
根據(jù)用戶情境和社會情境,計算測試集中學(xué)員的信任值,并構(gòu)建信任關(guān)系矩陣,使用社會網(wǎng)絡(luò)分析工具UCINET生成MOOC學(xué)習(xí)者的復(fù)雜信任網(wǎng)絡(luò)圖譜.圖3為隨機(jī)抽取的某目標(biāo)學(xué)員(昵稱為徜徉@塞納河畔)在t=5時刻的信任網(wǎng)絡(luò)圖,為簡化節(jié)點和連線,提高顯示效果,學(xué)伴跳數(shù)設(shè)為2,二級學(xué)伴信任閾值設(shè)為0.2.
通過對MOOC社區(qū)相關(guān)情境信息進(jìn)行系列量化和計算,構(gòu)建目標(biāo)學(xué)員的信任網(wǎng)絡(luò),實現(xiàn)了對圖3中學(xué)伴關(guān)系的可視化分析和展示.
圖3 目標(biāo)學(xué)員t時刻信任網(wǎng)絡(luò)圖譜Fig.3 Target student’s trust network map at T-Time
4.2.2 推薦結(jié)果分析
MOOC學(xué)伴推薦的目的在于促進(jìn)推薦后的交互行為發(fā)生,文獻(xiàn)[8]將所推薦的學(xué)伴在后期與目標(biāo)用戶確實產(chǎn)生交流作為推薦成功的衡量指標(biāo).本文也基于這一思路,分別統(tǒng)計課程7個信任評估和推薦周期內(nèi)學(xué)員間的交互頻次,并將頻次大于一定閾值的統(tǒng)計為本周期的真實好友.
(1)評價指標(biāo).本文使用的是Top-N推薦,評價指標(biāo)采用推薦系統(tǒng)中常用的準(zhǔn)確率(precision)、召回率(recall)和F1值作為實驗效果的評價指標(biāo),具體計算方法如式(18)~(20)所示.
(18)
(19)
(20)
其中,R(u)表示在t階段(t=1,2,…,7)系統(tǒng)推薦給目標(biāo)學(xué)員u的好友數(shù)量,T(u)表示學(xué)員u在t之后所有階段的真實好友數(shù)量.準(zhǔn)確率是指推薦命中的學(xué)伴數(shù)量占推薦總?cè)藬?shù)的比例,反映推薦方法的精度.召回率是指推薦命中的學(xué)伴數(shù)量占測試數(shù)據(jù)集中真實學(xué)伴總數(shù)的比例,反映推薦方法的覆蓋率.這兩個指標(biāo)值越大,推薦總體效果越好.但這兩個指標(biāo)有時會矛盾,故使用兩者的加權(quán)調(diào)和平均指標(biāo)F1-measure表示綜合推薦效果.
(2)各個參數(shù)的設(shè)定
1)在用戶情境中,根據(jù)前期相關(guān)研究[19],學(xué)習(xí)投入相比課程評分對興趣偏好具有更強(qiáng)的解釋力,因此,學(xué)習(xí)投入權(quán)重設(shè)為0.6,評分權(quán)重設(shè)為0.4;在用戶情境信任度中,興趣偏好權(quán)重默認(rèn)設(shè)為1,在線時段和位置權(quán)重根據(jù)實際需要可設(shè)為大于0的系數(shù),默認(rèn)設(shè)為0.
2)在社會情境中,一般地,點贊的交互性較低,而“轉(zhuǎn)發(fā)”或“回帖”的交互性較高[21],代表對目標(biāo)更為信任,因此,其權(quán)重也稍高,令λ=0.4,μ=0.4,ν=0.2.交互頻次與時長權(quán)重的確定,根據(jù)文獻(xiàn)[22]的經(jīng)驗值,頻次取0.4,時長取0.6.
3)時間衰減系數(shù)c取值范圍為[0,10]之間的整數(shù),值越大,時間衰減因子值越小.對數(shù)據(jù)集進(jìn)行多輪模擬計算,本實驗中取c=4.
4)參數(shù)η的確定,默認(rèn)取值為0.5,即用戶情境信任度和社會情境信任度各占一半比重.
(3)推薦準(zhǔn)確性的時序變化.分別在7次信任評估和更新時間節(jié)點計算推薦準(zhǔn)確率,在推薦列表個數(shù)為10時,結(jié)果如圖4所示.
圖4 準(zhǔn)確率時序變化分析Fig.4 Analysis of accuracy changes with time sequence
在課程的前3次更新周期中,由于學(xué)生基數(shù)較大,而學(xué)習(xí)投入和交互行為關(guān)系矩陣數(shù)據(jù)稀疏,推薦準(zhǔn)確率偏低;從第4次開始,推薦準(zhǔn)確率明顯得到提升,這是因為隨著學(xué)習(xí)投入和交互行為數(shù)據(jù)的豐富,形成的關(guān)系邊及信任網(wǎng)絡(luò)逐步完善,同時,部分淺嘗輒止的學(xué)員不斷退出,有效行為數(shù)據(jù)更加聚集,算法性能得到體現(xiàn).
(4)不同情境的影響權(quán)重.本文考察比較了混合法、只考慮用戶情境和只考慮社會情境3種方法的推薦效果,并計算推薦列表個數(shù)分別為4、8、12、16等多種情況下的綜合推薦效果F1值,結(jié)果如圖5所示.
圖5 推薦個數(shù)及不同方法下的綜合準(zhǔn)確率
實驗發(fā)現(xiàn),在推薦個數(shù)為12左右時具有最佳的推薦效果.綜合用戶情境和社會情境的混合法反映了學(xué)習(xí)投入和互動關(guān)系,其推薦效果要遠(yuǎn)高于只考慮互動關(guān)系的社會情境方法,這是因為MOOC是一種內(nèi)容型社區(qū),學(xué)伴間產(chǎn)生連接的主要前提是對學(xué)習(xí)內(nèi)容的投入程度和興趣偏好.與只考慮用戶情境方法相比,混合法的推薦效果也要稍高,在top值增大時變得更為明顯,這是因為用戶情境法局限于依靠學(xué)習(xí)投入和興趣相似度推薦學(xué)伴,無法在用戶數(shù)據(jù)增加時利用交互關(guān)系構(gòu)建連接拓?fù)渚W(wǎng)絡(luò)來拓展學(xué)伴圈子,導(dǎo)致數(shù)據(jù)稀疏,從而影響其推薦效果.
為進(jìn)一步確定用戶情境和社會情境對綜合推薦效果的影響權(quán)重,按Top-12標(biāo)準(zhǔn),對調(diào)和參數(shù)η從0到1按0.1遞增計算綜合指標(biāo)F1值,結(jié)果繪制如圖6所示.從圖6可知,當(dāng)η=0.6時具有最優(yōu)的推薦效果,也即在MOOC學(xué)伴推薦中,用戶情境占有一定的主導(dǎo)作用.
圖6 信任調(diào)和參數(shù)對推薦效果的影響
(5)不同應(yīng)用場景的適配
本文提出的方法綜合考慮了學(xué)習(xí)投入、時間、位置、交互行為、頻次及時長等情境因素,通過對多維權(quán)重值的動態(tài)調(diào)整,可以實現(xiàn)具體應(yīng)用場景的靈活應(yīng)用.本文在上述MOOC數(shù)據(jù)集上進(jìn)行了對照實驗,實驗組是本文提出融合多類情境的學(xué)伴推薦模型,對照組是文獻(xiàn)[23]提出基于情境感知的移動社交網(wǎng)絡(luò)好友推薦方法,實驗結(jié)果如表2所示.
表2 不同應(yīng)用場景的參數(shù)設(shè)置及意義
從表2可見,兩種方法均可以實現(xiàn)學(xué)伴(好友)推薦,但在F1-measure比較中,本文提出的推薦模型具有更好的效果.本文方法可以在不同類型的課程(或同一課程不同階段)調(diào)整權(quán)重參數(shù)獲得更優(yōu)推薦.如針對交互要求較少的課程(或課程前階段),可適當(dāng)增大調(diào)和參數(shù)η值以增加學(xué)習(xí)投入行為對推薦的比重;針對交互行為較多的課程(或課程后階段),可適當(dāng)減少η值以增加互動行為和互動關(guān)系對推薦的比重.
本文基于探究社區(qū)模型,分析和梳理了MOOC社區(qū)中影響學(xué)伴推薦的情境因素,提出了一種結(jié)合用戶情境和社會情境構(gòu)建學(xué)員間信任網(wǎng)絡(luò)并實現(xiàn)Top-N推薦的方法.本文的創(chuàng)新之處在于,在用戶情境中引入學(xué)習(xí)者對學(xué)習(xí)內(nèi)容的行為投入量化和計算,反映了學(xué)員的興趣偏好;社會情境在學(xué)員間交互關(guān)系中引入獎勵因子和時間衰減因子,反映了信任關(guān)系的動態(tài)變化性.實驗數(shù)據(jù)表明,該方法對具有高動態(tài)性和移動性的MOOC學(xué)伴推薦具有較好的效果,并且對多維參數(shù)權(quán)重值的動態(tài)調(diào)整可以實現(xiàn)不同推薦場景的靈活應(yīng)用.學(xué)習(xí)投入包含行為、認(rèn)知和情感3個維度,本研究的不足之處在于未考慮認(rèn)知和情感投入對學(xué)伴推薦的影響,下一步工作是挖掘MOOC社區(qū)中學(xué)習(xí)者的認(rèn)知投入和情感投入及其量化方法,并納入信任度構(gòu)建模型,進(jìn)一步提升MOOC社區(qū)學(xué)伴推薦的準(zhǔn)確度.
廣州大學(xué)學(xué)報(自然科學(xué)版)2021年2期