王新美
上海市電化教育館
隨著“互聯(lián)網(wǎng)+”、大數(shù)據(jù)等信息技術(shù)的快速發(fā)展,信息量呈幾何級數(shù)爆發(fā)式增長。互聯(lián)網(wǎng)每天都以指數(shù)級增長的速度輸出數(shù)據(jù),面對海量資源,各類互聯(lián)網(wǎng)用戶可以獲取更加豐富、便捷的信息和資源。但是,想要準(zhǔn)確地捕捉與獲取符合自身個性化需求的信息和資源,卻需要不斷地投入更多的時間和精力,“信息過載”“信息迷航”的問題日益突出。在教育領(lǐng)域,上述問題同樣存在。
上海市特殊教育資源庫(以下簡稱“特教資源庫”)自2010年上線以來,收錄了國內(nèi)外特教發(fā)展文件、最新研究成果、教學(xué)示范視頻、康復(fù)技巧演示、教輔具使用方法、精品課程資源、教育評估等豐富資源,資源數(shù)量及種類日趨豐富。為進(jìn)一步發(fā)揮資源的使用效益,自2017年以來,特教資源庫重點(diǎn)推進(jìn)資源的使用交流機(jī)制研究,開展一系列的資源及應(yīng)用案例征集活動,不斷提高廣大教師共建共享特教資源的積極性。上述做法有一定的促進(jìn)作用,但隨著資源的日益膨脹,以傳統(tǒng)搜索引擎為主導(dǎo)的資源被動檢索及推送模式很難滿足用戶的個性化資源需求,優(yōu)質(zhì)特教資源的“掩埋”效應(yīng)日趨凸顯,很難從根本上提升特教資源的使用效益。
因此,如何順應(yīng)用戶的個性化資源需求,針對用戶的個體差異,從復(fù)雜、海量的資源中搜索、定位并推薦用戶所需的教育資源,并不斷提升個性化推薦的準(zhǔn)確性和智能性,是目前亟待解決的關(guān)鍵問題。
在此背景下,個性化推薦服務(wù)應(yīng)運(yùn)而生。它在一定程度上有效解決了用戶的“信息迷航”困境,實(shí)現(xiàn)了從“人找資源”的信息被動檢索模式到“資源找人”的信息主動服務(wù)的轉(zhuǎn)變,彌補(bǔ)了搜索系統(tǒng)的不足[1]。本文深入研究和借鑒個性化推薦領(lǐng)域的應(yīng)用實(shí)踐,對多維多源的用戶特征進(jìn)行有效提取,分析特教資源與用戶需求之間的內(nèi)在聯(lián)系,構(gòu)建了特教資源的個性化推薦服務(wù)框架,為大數(shù)據(jù)和人工智能背景下開展特殊教育資源個性化推薦服務(wù)與滿足用戶個性化資源需求提供參考。
個性化推薦是推薦系統(tǒng)根據(jù)用戶的特征,如興趣、愛好、職業(yè)特點(diǎn)等,主動向用戶推送適合其需要或其可能感興趣的信息資源的一種推薦技術(shù)[2]。
“個性化推薦”的概念最早出現(xiàn)于20世紀(jì)90年代。國內(nèi)關(guān)于個性化推薦的研究始于2000年。隨著研究的不斷深入,個性化推薦服務(wù)現(xiàn)在已廣泛應(yīng)用于電子商務(wù)、新聞傳媒等領(lǐng)域,應(yīng)用成效已十分顯著。教育領(lǐng)域的應(yīng)用研究,近幾年呈上升趨勢。國內(nèi)基于教育資源的個性化推薦研究,一部分側(cè)重于對用戶的學(xué)習(xí)行為和個性特征進(jìn)行分析,從而構(gòu)建個性化推薦系統(tǒng)。例如,牟智佳等對學(xué)習(xí)者的個性特征進(jìn)行分析,構(gòu)建了學(xué)習(xí)者模型,采用混合式推薦算法用于電子書包學(xué)習(xí)系統(tǒng)的個性化資源推薦[3]。李浩君等通過基于MIFS的特征選擇模型和學(xué)習(xí)者—學(xué)習(xí)資源二部圖關(guān)聯(lián)模型,同時基于深度神經(jīng)網(wǎng)絡(luò)模型,深度挖掘?qū)W習(xí)者的個性化偏好,設(shè)計(jì)了深度學(xué)習(xí)視角下的個性化學(xué)習(xí)資源推薦方法[4]。另一部分研究側(cè)重于對個性化推薦算法的研究和優(yōu)化,以緩解推薦算法中存在的數(shù)據(jù)稀疏、冷啟動等問題,從而提高個性化推薦的質(zhì)量和精準(zhǔn)度。例如,蔡強(qiáng)等提出基于標(biāo)簽和協(xié)同過濾的個性化資源推薦算法,將標(biāo)簽作為體現(xiàn)用戶興趣偏好和資源特征的信息來提升推薦的準(zhǔn)確性[5];周樸雄等提出運(yùn)用BP神經(jīng)網(wǎng)絡(luò)方法來預(yù)測不同情境下的用戶對資源類別的偏好,同時結(jié)合協(xié)同過濾算法來實(shí)現(xiàn)精準(zhǔn)的個性化信息推薦[6]。
通過分析上述研究成果,可知教育領(lǐng)域的個性化推薦已經(jīng)有了一定的發(fā)展,但大多集中于將各類算法和應(yīng)用平臺引入個性化推薦服務(wù),缺乏對用戶特征及在學(xué)習(xí)系統(tǒng)或資源平臺內(nèi)產(chǎn)生的行為記錄信息的深入挖掘和分析,從而導(dǎo)致對用戶的特征和興趣研究不夠,對用戶的興趣偏好和潛在需求分析不深,資源個性化推薦服務(wù)不夠精準(zhǔn)等問題。本研究將在借鑒互信息和貝葉斯網(wǎng)絡(luò)概念的基礎(chǔ)上,對用戶特征及興趣進(jìn)行深入分析和挖掘,構(gòu)建更加精準(zhǔn)的用戶模型,從而探索構(gòu)建基于多維多源數(shù)據(jù)的個性化資源推薦服務(wù)框架,為大數(shù)據(jù)背景下資源的個性化推薦服務(wù)提供參考。
用戶及資源特征模型作為個性化推薦服務(wù)的重要組成部分,對于個性化服務(wù)的質(zhì)量至關(guān)重要。個性化推薦服務(wù)的準(zhǔn)確性依賴于用戶及資源特征的提取,對特征提取越充分,推薦效果越好;但過量的冗余和無關(guān)特征,又會影響推薦的效率。因此,需要選擇合適的特征選擇策略,對含有大量數(shù)據(jù)的特征集進(jìn)行預(yù)處理,降低特征維度,提高推薦服務(wù)的質(zhì)量。
在一網(wǎng)通辦、信息系統(tǒng)整合等工作的推進(jìn)下,特教資源庫現(xiàn)已接入上海智慧教育平臺(https://www.sh.smartedu.cn),通過上海市基礎(chǔ)教育統(tǒng)一身份認(rèn)證實(shí)現(xiàn)用戶管理和授權(quán)。不僅可以獲取用戶在特教資源庫中的特征信息,也可以獲取用戶在其他學(xué)習(xí)系統(tǒng)、資源平臺上的特征信息。用戶特征呈現(xiàn)出多維性和多源性,特征數(shù)據(jù)豐富且雜亂,需要進(jìn)行有效特征選擇,來構(gòu)建用戶及資源特征模型。
用戶特征從語義上講是一種模糊的、不可計(jì)算的概念,而且用戶的興趣偏好會隨著時間的推移而發(fā)生改變,因此具有很強(qiáng)的不確定性。而貝葉斯網(wǎng)絡(luò)是對不確定性知識概率關(guān)系的描述,它可以發(fā)現(xiàn)隨機(jī)變量之間潛在的內(nèi)在關(guān)系,而且以圖形化的形式來表述變量之間的關(guān)系,可用清晰的邏輯框架來解決不確定性問題。
貝葉斯網(wǎng)絡(luò)雖然可對用戶特征的描述實(shí)現(xiàn)計(jì)算性,但是它忽略了事物之間語義上的聯(lián)系。將互信息引入貝葉斯網(wǎng)絡(luò)用戶建模,將隨機(jī)詞語之間的互信息作為貝葉斯網(wǎng)絡(luò)條件概率計(jì)算依據(jù)的方法來構(gòu)建用戶模型,可有效地優(yōu)化推薦服務(wù)的質(zhì)量。
特教資源庫底層數(shù)據(jù)庫中包含用戶開展資源瀏覽、下載、評論及用戶間交流活動所產(chǎn)生的各類行為數(shù)據(jù)。將各類數(shù)據(jù)進(jìn)行語義關(guān)聯(lián)可以表征成用戶的特征信息,從而為用戶個性化地推薦資源?;谝陨侠碚摚疚臉?gòu)建了特教資源庫中用戶及資源的特征層級結(jié)構(gòu),如圖1所示。
圖1 特教資源庫特征層級結(jié)構(gòu)圖
對特教資源庫中的特征數(shù)據(jù)進(jìn)行降維、歸類,可分為特教資源特征庫、評估測量特征庫、互動交流特征庫和元數(shù)據(jù)特征庫四大類。其中,元數(shù)據(jù)特征庫中包含用戶個人信息(姓名、年齡等基礎(chǔ)信息,學(xué)歷、專業(yè)等受教育經(jīng)歷信息,任職單位、任教學(xué)科、任職年限等職業(yè)經(jīng)歷信息,特教崗位培訓(xùn)、在職培訓(xùn)等培訓(xùn)信息)、資源信息(標(biāo)題、關(guān)鍵詞、資源類型、所屬領(lǐng)域、殘疾類別、媒體格式等屬性信息,點(diǎn)擊量、下載數(shù)、收藏?cái)?shù)、評分等交互信息)和用戶行為信息(檢索記錄、訪問時間、瀏覽時長、收藏記錄、下載記錄等)。同時,其他三類特征庫中也包含了用戶的各類行為特征。其中,特教資源特征庫包含主題包交互記錄、文檔交互記錄和視頻交互記錄;評估測量特征庫包含評估過程記錄、評估檔案記錄和評估工具記錄;互動交流特征庫包含用戶好友關(guān)系、討論交流記錄和活動記錄。元數(shù)據(jù)特征庫與其他特征庫互聯(lián)互通,它負(fù)責(zé)將其他特征庫中的相關(guān)信息進(jìn)行匯總并基于特定的規(guī)則和算法對特征信息建立關(guān)聯(lián)。
在建立特教資源庫特征層級結(jié)構(gòu)及特征關(guān)聯(lián)數(shù)據(jù)后,借鑒互信息和貝葉斯網(wǎng)絡(luò)思想來構(gòu)建個性化的用戶特征模型(圖2)。
圖2 用戶特征模型
用戶特征模型依次為用戶層、用戶初始特征集、用戶擴(kuò)展特征集和推薦資源/活動集。用戶初始特征集是基于歷史特征記錄提取的用戶特征。用戶擴(kuò)展特征集是通過基于互信息的貝葉斯網(wǎng)絡(luò)擴(kuò)展得到的用戶特征。每一個特征都是用戶模型中的一個節(jié)點(diǎn),每個特征節(jié)點(diǎn)與用戶有直接或間接的關(guān)聯(lián)。節(jié)點(diǎn)之間通過一定的條件概率關(guān)系構(gòu)成貝葉斯網(wǎng)絡(luò),無詞義相關(guān)節(jié)點(diǎn)間的語義關(guān)聯(lián)關(guān)系,又通過互信息來表示。兩種方式結(jié)合,可以對用戶特征進(jìn)行有效更新及潛在興趣挖掘,匯聚成更為全面且準(zhǔn)確的用戶特征集。精準(zhǔn)的用戶特征模型是提升個性化推薦服務(wù)質(zhì)量的前提保障。
個性化資源推薦的本質(zhì)是對用戶個體/群體特征、資源特征進(jìn)行匹配,從而求出差異最小值,進(jìn)而推薦資源序列的過程。個性化資源推薦框架如圖3所示。
圖3 個性化資源推薦框架
傳統(tǒng)的推薦系統(tǒng)往往是在已經(jīng)充分獲取用戶歷史數(shù)據(jù)及資源特征信息的前提下,主要針對用戶和資源的評分或者交互數(shù)據(jù),構(gòu)建靜態(tài)且獨(dú)立的特征數(shù)據(jù),設(shè)計(jì)并調(diào)試好特定的推薦模型,為其提供個性化推薦。此類模式由于特征數(shù)據(jù)稀疏,導(dǎo)致對用戶特征的概況能力不足,且只能持續(xù)為用戶推薦特定主題的資源。然而,在實(shí)際應(yīng)用場景中,用戶與推薦系統(tǒng)之間會發(fā)生持續(xù)且密切的交互行為,推薦系統(tǒng)的目標(biāo)是在保證推薦質(zhì)量的前提下,為用戶推薦多樣、新穎,以及符合用戶潛在需求的資源。
在對特教資源庫用戶及資源特征進(jìn)行梳理和構(gòu)建并充分挖掘用戶特征的基礎(chǔ)上,本文構(gòu)建了特教資源的個性化推薦服務(wù)框架(圖4),主要包括數(shù)據(jù)基礎(chǔ)層、數(shù)據(jù)處理層、數(shù)據(jù)挖掘?qū)雍蛿?shù)據(jù)應(yīng)用層。
圖4 特教資源個性化推薦服務(wù)框架
數(shù)據(jù)基礎(chǔ)層主要采集來自特教資源庫、上海智慧教育平臺其他子應(yīng)用中的用戶個人信息和交互信息。數(shù)據(jù)基礎(chǔ)層整合、貫通整個服務(wù)框架的基礎(chǔ)信息數(shù)據(jù),是數(shù)據(jù)采集中樞。
數(shù)據(jù)處理層是將用戶的個人信息、行為信息,資源的屬性信息、交互信息等進(jìn)行整合、分析、處理,形成特征集群,并通過特征配置庫對不同的特征信息依據(jù)權(quán)重進(jìn)行排序,獲得用戶及資源模型的有序特征集合。
數(shù)據(jù)挖掘?qū)邮莻€性化推薦服務(wù)框架的核心,主要是利用已建立的用戶及資源模型,利用聚類、關(guān)聯(lián)分析等算法,對用戶及用戶群組的特征進(jìn)行聚合分析,并通過相似度計(jì)算,進(jìn)行用戶及資源/活動的特征匹配,通過評價函數(shù)對推薦結(jié)果進(jìn)行過濾和排序,最終生成個性化推薦結(jié)果序列。推薦結(jié)果序列包括資源推薦集(文本、音視頻和主題包推薦等)、活動推薦集(話題、興趣主題、好友推薦等)和評估推薦集(評估檔案、方法、工具推薦等)。
數(shù)據(jù)應(yīng)用層是將推薦結(jié)果序列推送給用戶,并收集和分析用戶反饋。通過用戶對推薦結(jié)果的打分情況及問卷調(diào)查等形式收集用戶的反饋信息。推薦效果評估模塊獲取反饋信息后,從用戶滿意度、推薦準(zhǔn)確度、覆蓋率、多樣性和新穎性五個維度對推薦質(zhì)量進(jìn)行評估。根據(jù)評估結(jié)果,完善和優(yōu)化數(shù)據(jù)采集、處理流程,不斷提升用戶及資源特征集群的精準(zhǔn)度。
在特教資源個性化推薦服務(wù)的服務(wù)過程中,由于用戶對資源的需求是動態(tài)變化的,特教資源庫要確保個性化推薦服務(wù)的質(zhì)量,需要實(shí)時更新并即時采集動態(tài)變化的各類特征數(shù)據(jù),完成用戶對特教資源需求的精準(zhǔn)描述與分析。雖然用戶個體的需求變化較大,但是用戶群組的屬性特征及對特教資源的需求變化幅度相對較小。因此,可依據(jù)相似用戶群組的屬性特征及對資源的偏好信息,針對用戶群組開展特教資源個性化推薦服務(wù),服務(wù)流程主要包括群組劃分及特征生成、個性化推薦和動態(tài)更新三個階段。具體實(shí)現(xiàn)流程描述如圖5所示。
圖5 基于用戶群組的特教資源個性化推薦服務(wù)流程
第一,根據(jù)用戶特征庫,獲取初始特征和擴(kuò)展特征,構(gòu)建用戶模型。
第二,對用戶進(jìn)行聚類分析,根據(jù)用戶特征,進(jìn)行相似度計(jì)算,對用戶進(jìn)行群組劃分。
第三,采用群組偏好融合策略,對群組的特征進(jìn)行表述,生成用戶群組特征庫。
第四,根據(jù)資源特征庫與群組特征庫,進(jìn)行用戶群組及資源特征匹配,生成基于群組的結(jié)果推薦集。
第五,獲取群組用戶對推薦結(jié)果的反饋,評估反饋效果,根據(jù)評估結(jié)果更新特征集群的相關(guān)信息和數(shù)據(jù)。
個性化推薦服務(wù)給用戶帶來了極大的便利,在一定程度上解決了用戶信息過載與快速獲取個性化資源之間的矛盾。實(shí)現(xiàn)個性化推薦的前提和關(guān)鍵便是對用戶特征的精準(zhǔn)描述。本文結(jié)合貝葉斯網(wǎng)絡(luò)和互信息思想,對特教資源庫的用戶和資源特征層級結(jié)構(gòu)進(jìn)行重構(gòu),構(gòu)建了能夠全面而有效地挖掘用戶興趣偏好的特征模型,并設(shè)計(jì)了特教資源庫的個性化推薦服務(wù)框架和基于用戶群組的個性化推薦服務(wù)流程。但就個性化推薦服務(wù)在教育資源領(lǐng)域的發(fā)展現(xiàn)狀而言,仍然面臨諸多挑戰(zhàn)。如何科學(xué)、全面地描述用戶及群組的相似性和差異性,如何選擇合理的推薦算法以實(shí)現(xiàn)資源的精準(zhǔn)推薦等,都是亟須解決的問題。因此,在后續(xù)的研究中,仍需深入分析用戶及群組特征數(shù)據(jù)的有效提取和表述,在實(shí)際應(yīng)用中不斷完善和優(yōu)化個性化推薦服務(wù)框架,為特教資源個性化推薦服務(wù)的設(shè)計(jì)和實(shí)現(xiàn)提供支持和參考。