• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于數(shù)據(jù)挖掘的課程推薦系統(tǒng)設(shè)計研究

    2023-07-10 22:25:15王仡捷
    電腦知識與技術(shù) 2023年14期
    關(guān)鍵詞:數(shù)據(jù)挖掘

    王仡捷

    關(guān)鍵詞:數(shù)據(jù)挖掘;課程推薦;協(xié)同過濾算法

    中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A

    文章編號:1009-3044(2023)14-0054-03

    1概論

    1.1 研究背景和意義

    隨著在線學(xué)習(xí)的逐漸興起和規(guī)模的擴(kuò)大,各種在線學(xué)習(xí)平臺和相關(guān)資訊也在不斷增多,各種類型課程也在快速增多,類型越來越豐富,用戶學(xué)習(xí)課程類型選擇的余地也逐漸增加,但是顧客往往要花費大量的時間才能找到自己喜歡的類型的課程,并且缺少與用戶交流的功能,多以用戶為主導(dǎo),由用戶主動去直接搜索,很少有對用戶進(jìn)行個性化推薦的功能,這些存在一定的局限性,從而可能造成課程平臺的用戶流失問題。為了解決這個問題,個性化推薦系統(tǒng)應(yīng)運而生[1]。個性化推薦系統(tǒng)基于特定的算法向用戶推薦他們感興趣的課程,實現(xiàn)了系統(tǒng)與用戶之間的互動,根據(jù)用戶的學(xué)習(xí)記錄和學(xué)習(xí)習(xí)慣或者用戶對課程的評分,向用戶推薦用戶喜歡的具有相同標(biāo)簽的課程或者相同類型的課程內(nèi)容。

    1.2 國內(nèi)外研究現(xiàn)狀

    網(wǎng)絡(luò)學(xué)習(xí)推薦技術(shù)是指通過對用戶歷史行為數(shù)據(jù)和課程資源屬性等信息的分析,利用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù)為用戶推薦合適的課程,以提高學(xué)習(xí)效果和用戶滿意度。Natarajan S等人[2]根據(jù)網(wǎng)民的網(wǎng)頁操作行為推薦課程資源。在課程推薦系統(tǒng)中,除了明確的評分之外,還有各種類型的隱性評分?jǐn)?shù)據(jù),如贊、評論等。在許多混合系統(tǒng)中,這些功能被視為要包含在評級矩陣基礎(chǔ)上的模型中的側(cè)信息(評級可以是數(shù)字或二進(jìn)制)。國內(nèi)在推薦領(lǐng)域的研究雖然起步較晚,但也產(chǎn)生了一批具有代表性的推薦算法,如古險峰等人[3]針對項目評分的稀疏性,提出一種基于項目的協(xié)同過濾推薦算法;劉錦濤等人[4]提出一種適應(yīng)用戶興趣變化的協(xié)同過濾推薦算法,以此來解決傳統(tǒng)協(xié)同過濾不能反映用戶興趣變化的問題;潘毓昉等人[5]針對傳統(tǒng)概率矩陣分解算法容易忽略用戶和產(chǎn)品之間的關(guān)系,提出一種基于時序行為的推薦算法。針對課程推薦的準(zhǔn)確性問題,魏江南[6]認(rèn)為可以從用戶的學(xué)習(xí)行為中獲取用戶評分,從而解決評分矩陣稀疏的問題,進(jìn)而提高推薦的準(zhǔn)確率。

    2 推薦系統(tǒng)推薦系統(tǒng)

    主要分為用戶(User)、項目(Item)及評價(Review)三個不同的數(shù)據(jù),用戶數(shù)據(jù)是用來描述用戶的特征,例如用戶的性別、年齡、零售產(chǎn)品、居住地等信息。但這些特征與項目之間難以建立彼此的關(guān)系,因此在推薦系統(tǒng)中雖然有被使用,但很少與算法進(jìn)行結(jié)合,通常都是對推薦的結(jié)果進(jìn)行過濾排序。推薦系統(tǒng)在不同領(lǐng)域的應(yīng)用上,鑒于產(chǎn)生推薦的方式不同,文獻(xiàn)[7]將推薦系統(tǒng)共分為內(nèi)容導(dǎo)向(Content-Based)、協(xié)同過濾(Collaborative Filtering)、混合過濾(Hybrid Fil?tering)以及人口統(tǒng)計推薦(Demographic Recommenda?tion)四類。

    1)基于內(nèi)容導(dǎo)向的推薦:它是基于項目的內(nèi)容信息上做推薦,不需要利用用戶對項目的評價意見,例如根據(jù)音樂的類型、電影的風(fēng)格等固有或內(nèi)在品質(zhì)的屬性進(jìn)行推薦,以項目內(nèi)容的相似性作為依據(jù)來做推薦。

    2)協(xié)同過濾的推薦:利用用戶過往的行為記錄分析偏好并提供個人化的推薦,也是電子商務(wù)中最常使用的推薦方法。根據(jù)用戶歷史購買記錄,并從具有相似購買行為的用戶群中的購買行為來推薦目標(biāo)用戶可能感興趣或喜歡的商品。

    3)混合過濾的推薦:它組合了2種以上的推薦系統(tǒng)方法,希望能避免自己本身的缺點,同時融合彼此的優(yōu)點。而Burke整理了混合過濾的推薦系統(tǒng)的方法以及其介紹,主要分為權(quán)重(Weighted)、交換(Switch?ing)、混合(Mixed)、特征組合(Feature combination)、瀑布型(Cascade)、特征遞增(Feature augmentation)及元層級(Meta-level)7種。

    4)人口統(tǒng)計的推薦:它依據(jù)用戶的個人屬性作為分類的指標(biāo),包含性別、年齡、居住地區(qū)、薪資、零售產(chǎn)品等個人屬性。用戶的個人屬性與相似的個人屬性彼此間都可能會擁有共同的喜好,因此可以利用這些屬性對每個用戶建立一個用戶剖面(User Profile)進(jìn)行聚類,并且通過計算分析用戶之間的相似度,最后將評分較高的項目推薦給當(dāng)前的用戶。

    這四種方法中,依據(jù)學(xué)者的研究發(fā)現(xiàn)協(xié)同過濾法較常被推薦系統(tǒng)所使用。協(xié)同過濾推薦算法擁有簡單高效的特點,也是比較受歡迎的個人化(Personal?ized)推薦方法,因此在實踐中受到許多研究者的關(guān)注。在協(xié)同過濾的推薦中又可分為基于記憶體(Memory-based)的協(xié)同過濾和基于模型(Modelbased)的協(xié)同過濾。

    3 課程推薦設(shè)計

    本研究的推薦系統(tǒng)整體的流程如圖1所示,先利用人口統(tǒng)計的過濾法,經(jīng)由用戶的年齡和性別的特征,先計算進(jìn)門用戶與歷史數(shù)據(jù)里用戶彼此間的相似度,借此得到初步的推薦結(jié)果。接著針對相似的用戶所適合的課程,根據(jù)設(shè)計的權(quán)重替課程產(chǎn)生各自的評分,并進(jìn)行排名,取得最終TOP-N的推薦結(jié)果。因此該系統(tǒng)可以提供個性化推薦服務(wù),依據(jù)不同的用戶提供不同的推薦服務(wù)。

    當(dāng)面對大量數(shù)據(jù)時,首先需要進(jìn)行數(shù)據(jù)清理,剔除不需要的數(shù)據(jù),過濾錯誤的信息,提取自己需要的有用信息等前置作業(yè)。我們將各種不同來源的相關(guān)數(shù)據(jù)集合起來進(jìn)行分析,包含數(shù)據(jù)庫、數(shù)據(jù)倉儲以及網(wǎng)絡(luò)流等。接著根據(jù)不同情況,不同目標(biāo)進(jìn)行數(shù)據(jù)過濾處理,找出有價值或者所需要的數(shù)據(jù)。然后將過濾后的數(shù)據(jù)放進(jìn)模塊里進(jìn)行評估確認(rèn)和調(diào)整,確保評估出的結(jié)果是所期望的結(jié)果。最后再將數(shù)據(jù)進(jìn)行分析,確認(rèn)模型所評估出來的結(jié)果是正確的,若是錯誤則回到模型進(jìn)行調(diào)整。

    對于用戶情況以及歷史學(xué)習(xí)記錄的搭配,我們對用戶做出推薦,以下為推薦生成的步驟流程:

    步驟一:首先進(jìn)行用戶特征提取,這邊選擇了幾個屬性作為描述用戶的特征,分別為年齡、性別和疾病。

    步驟二:接著進(jìn)行用戶相似度計算,度量或相似度量(SM)用來確定用戶對用戶或項目對項目之間的相似度,取得用戶或項目之間的相似度也是很重要的一環(huán)。KNN算法基本上基于使用統(tǒng)計起源的傳統(tǒng)相似度量,其中最常用的傳統(tǒng)指標(biāo)有Pearson correlation、Cosine以及Euclidean等。本文所選擇的是歐幾里得距離公式,如公式(1),計算空間向量中兩點的距離,距離越近,代表相似度越高。利用距離公式,計算出A 用戶與其他用戶數(shù)據(jù)之間的相似度。

    步驟三:根據(jù)計算出的相似度,選擇前N個相似度最高的用戶,并將前N個用戶曾學(xué)習(xí)的課程挑選出來,為其課程產(chǎn)生評分以及推薦結(jié)果。

    步驟四:在推薦評分的部分,考慮到由于系統(tǒng)中沒有用戶對課程的評價記錄,因此我們設(shè)計了一套評分機(jī)制,利用過往用戶的學(xué)習(xí)記錄,將課程的類型和學(xué)習(xí)數(shù)量作為推薦依據(jù),同時加入了時間的考慮。因為季節(jié)的不同會影響用戶學(xué)習(xí)課程的行為,因此把每一季課程的學(xué)習(xí)頻率也考慮在評分機(jī)制里,并生成最后的評分。公式(2)中,評價分?jǐn)?shù)分為三個部分:課程點擊數(shù)量、類型和該季課程的學(xué)習(xí)頻率。Oi為會員學(xué)習(xí)課程i的數(shù)量,Ci為課程i的類型系數(shù),Tni為課程i在每月里第n天的學(xué)習(xí)頻率系數(shù)。

    在這些歷史學(xué)習(xí)數(shù)據(jù)中,我們必須先對數(shù)據(jù)預(yù)先處理過。根據(jù)分析系統(tǒng)的學(xué)習(xí)情況,扣除批量學(xué)習(xí),或者一些特殊情況發(fā)生,將學(xué)習(xí)數(shù)量超過5都視為離群值過濾掉。Ci的計算中,如公式(3),Oi為該會員學(xué)習(xí)課程i的總數(shù)量,Tni的學(xué)習(xí)率則是計算在第n天中,所有學(xué)習(xí)過的課程總數(shù)量里課程i所被學(xué)習(xí)過的數(shù)量占的百分比,而w0、w1與w2則是課程數(shù)量、課程類型和該季課程學(xué)習(xí)頻率之間的權(quán)重設(shè)置,三者相加總和為1。

    步驟五:最后依據(jù)關(guān)聯(lián)規(guī)則產(chǎn)生的權(quán)重所生成的課程評分產(chǎn)生最后的推薦結(jié)果排名,根據(jù)推薦排名順序,將課程推薦給A用戶。

    關(guān)聯(lián)法則也被稱作購物車分析,經(jīng)典的案例是美國零售業(yè)者沃爾瑪從結(jié)賬訂單中發(fā)現(xiàn)每當(dāng)星期五晚上啤酒與尿布的銷量有正向關(guān)聯(lián),因此在每周五都會將這兩樣商品放在同一區(qū)讓銷售量增加30%。在本研究中嘗試將每位用戶每天評價的課程數(shù)據(jù)視為一筆數(shù)據(jù),計算課程間同時發(fā)生的概率。該概率值作為權(quán)重可以輸入用戶偏好預(yù)測的權(quán)重,從而更好地完成混合推薦算法。

    4 結(jié)果分析

    4.1 實驗數(shù)據(jù)

    此系統(tǒng)研發(fā)者進(jìn)行實驗的數(shù)據(jù)來源是使用爬蟲軟件進(jìn)行采集的某教學(xué)系統(tǒng)中的真實用戶數(shù)據(jù)以及課程數(shù)據(jù)。在進(jìn)行數(shù)據(jù)采集時,先以某一組用戶選取為種子節(jié)點,選取之后,使用滾雪球抽樣的方式來抽取其他用戶并采集這些用戶的信息,從而得到實驗需要的數(shù)據(jù)。此次為完成實驗進(jìn)行采集的數(shù)據(jù)中,包含100位用戶的具體信息,如背景信息、行為信息以及社會信息等,同時還包含相關(guān)的2000 位課程的具體信息。

    4.2 評價標(biāo)準(zhǔn)

    本系統(tǒng)能夠度量預(yù)測用戶評分的準(zhǔn)確率,當(dāng)平均絕對誤差(MAE)較大時,系統(tǒng)預(yù)測準(zhǔn)確率低,系統(tǒng)推薦準(zhǔn)確度低,反之亦然。

    4.3 實驗

    本文使用傳統(tǒng)的基于用戶的協(xié)同過濾推薦算法作為基準(zhǔn)算法進(jìn)行對比實驗,具體的實驗結(jié)果如圖2 所示。

    通過圖2的算法比較可以發(fā)現(xiàn),本文的算法MAE 值一直都比傳統(tǒng)的算法低,說明本文的系統(tǒng)具有很好的精確度。本文還測試了不同n值對系統(tǒng)的推薦結(jié)果的影響,具體的實驗結(jié)果如圖3所示。

    如圖3所示,從算法驗證的結(jié)果不難發(fā)現(xiàn):無論n 的取值為多少,改進(jìn)后的算法都要比傳統(tǒng)算法的MAE 值低。這是因為在進(jìn)行協(xié)同過濾算法的改進(jìn)時,充分將用戶評分的時間衰減和用戶信任度考慮了進(jìn)去,使得改進(jìn)后的算法在準(zhǔn)確度方面有所提升。

    5 結(jié)束語

    隨著大數(shù)據(jù)時代的來臨,數(shù)據(jù)的增加速度比以往更加迅速,因此如何從這龐大的數(shù)據(jù)中提取所需要的數(shù)據(jù),如何從中獲得重要信息并做出正確的決策判斷,是一個重要的議題。因此本文所提出方法,除了改善傳統(tǒng)的協(xié)同過濾方式,與人口統(tǒng)計推薦進(jìn)行結(jié)合,還改進(jìn)了該算法的準(zhǔn)確性。課程的排名推薦是利用我們所研究出的評分機(jī)制以及權(quán)重調(diào)整,最終產(chǎn)生更符合實際情況的推薦結(jié)果,這樣可以讓用戶除了更有目標(biāo)性地快速找到所想要的課程外,還能大幅增加用戶體驗的滿意度,讓更多用戶愿意學(xué)習(xí)該課程。未來我們希望能朝兩個方向更進(jìn)一步地研究,完善模型,配合學(xué)習(xí)記錄的數(shù)據(jù),加入更多不同的屬性,增強(qiáng)用戶彼此間的相似度。同時配合權(quán)重更多比例的分配,讓推薦系統(tǒng)所推薦的課程更貼近用戶所期望的結(jié)果。

    猜你喜歡
    數(shù)據(jù)挖掘
    探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
    數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
    基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
    電力與能源(2017年6期)2017-05-14 06:19:37
    數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
    一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
    數(shù)據(jù)挖掘的分析與探索
    河南科技(2014年23期)2014-02-27 14:18:43
    數(shù)據(jù)挖掘技術(shù)綜述與應(yīng)用
    河南科技(2014年19期)2014-02-27 14:15:26
    基于GPGPU的離散數(shù)據(jù)挖掘研究
    利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
    高級數(shù)據(jù)挖掘與應(yīng)用國際學(xué)術(shù)會議
    临邑县| 安乡县| 响水县| 福州市| 滕州市| 洛宁县| 大竹县| 揭东县| 错那县| 长垣县| 武冈市| 甘洛县| 孟州市| 彭水| 昭觉县| 依兰县| 白水县| 永定县| 广西| 绍兴县| 株洲县| 隆化县| 柘荣县| 韶关市| 沧源| 新邵县| 安图县| 始兴县| 江山市| 枝江市| 楚雄市| 乌拉特后旗| 肥乡县| 宜兰县| 晋宁县| 会昌县| 香港| 蒲城县| 依兰县| 咸宁市| 北辰区|