• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      協(xié)同過濾的相似度融合改進(jìn)算法①

      2017-02-20 07:46:03于世彩謝穎華
      關(guān)鍵詞:類別聚類協(xié)同

      于世彩, 謝穎華, 王 巧

      ?

      協(xié)同過濾的相似度融合改進(jìn)算法①

      于世彩, 謝穎華, 王 巧

      (東華大學(xué)信息科學(xué)與技術(shù)學(xué)院, 上海 201620)

      針對(duì)傳統(tǒng)協(xié)同過濾推薦在數(shù)據(jù)稀疏性條件下性能不佳的問題, 在相似度計(jì)算上做出了優(yōu)化, 提出了一種基于項(xiàng)目類別和用戶興趣相似度融合的協(xié)同過濾算法, 算法將相似度的計(jì)算分解為兩個(gè)方面進(jìn)行: 用戶-項(xiàng)目類別評(píng)分相似度和用戶-項(xiàng)目類別興趣相似度, 將兩者用合適的權(quán)值加以融合得到最終相似度, 參與最終預(yù)測(cè)評(píng)分的計(jì)算. 利用MovieLens公用數(shù)據(jù)集對(duì)改進(jìn)前后的算法進(jìn)行對(duì)比. 結(jié)果表明, 基于項(xiàng)目類別和用戶興趣的協(xié)同過濾改進(jìn)算法有效地緩解了數(shù)據(jù)稀疏性問題的影響, 提高了推薦的準(zhǔn)確性.

      協(xié)同過濾; 數(shù)據(jù)稀疏性; 項(xiàng)目類別; 用戶興趣; 相似度融合

      互聯(lián)網(wǎng)的發(fā)展帶來了便利的同時(shí), 也造成了信息量的急速增長(zhǎng)和膨脹, 出現(xiàn)了“信息過載”[1]現(xiàn)象. 互聯(lián)網(wǎng)信息過于豐富甚至超出了瀏覽者能夠有效利用的范圍, 導(dǎo)致了信息的利用率低下, 人們必須耗費(fèi)大量的時(shí)間和精力才能找到需要的信息. 為緩解這一個(gè)問題, 多種方法被提了出來, 信息檢索在其中扮演著重要的角色, 然而“一視同仁”的特性致使它忽略了用戶特性, 其輸出結(jié)果僅與輸入的關(guān)鍵字有關(guān), 對(duì)用戶來說, 仍需要耗費(fèi)大量時(shí)間篩選出所需信息, 信息過載問題并沒有得到有效的解決. 個(gè)性化推薦系統(tǒng)能夠在信息過載的大環(huán)境下, 幫助用戶快速從海量數(shù)據(jù)中找到所需信息.

      推薦過程依賴于3個(gè)要素: 推薦候選對(duì)象、用戶和推薦方法[2]. 推薦系統(tǒng)使用戶擺脫了單向的搜索服務(wù), 實(shí)現(xiàn)了用戶和系統(tǒng)的雙向溝通, 在電子商務(wù)中扮演著重要的角色. 為了不斷提高推薦效果的精確性與有效性, 提升推薦系統(tǒng)的整體性能, 不同的推薦技術(shù)陸續(xù)被提了出來, 其中包括基于用戶統(tǒng)計(jì)信息的推薦、基于內(nèi)容的推薦、協(xié)同過濾推薦以及基于混合模型的推薦等[3].

      協(xié)同過濾推薦技術(shù)是目前最廣為應(yīng)用也是效果最理想的推薦技術(shù)[4], 它通過用戶-項(xiàng)目評(píng)分矩陣來計(jì)算并確定目標(biāo)用戶的最近鄰居用戶集合, 根據(jù)集合中各鄰居對(duì)各項(xiàng)目的評(píng)分得到目標(biāo)用戶的預(yù)測(cè)評(píng)分, 最終將評(píng)分最高的項(xiàng)目推薦給用戶. 協(xié)同過濾推薦技術(shù)不需要提供領(lǐng)域的知識(shí), 并且會(huì)隨著時(shí)間的推移, 用戶對(duì)項(xiàng)目評(píng)分的完善, 推薦的質(zhì)量和準(zhǔn)確度也會(huì)大幅提升; 另一方面, 由于協(xié)同過濾推薦對(duì)用戶評(píng)分的依賴性很強(qiáng), 網(wǎng)絡(luò)結(jié)構(gòu)、用戶和項(xiàng)目數(shù)量的急劇增長(zhǎng)使得數(shù)據(jù)稀疏等問題漸漸暴露了出來.

      根據(jù)有關(guān)資料的統(tǒng)計(jì)[5], 大型電子商務(wù)系統(tǒng)中, 所有用戶購買過并給出評(píng)分的商品數(shù)只占到系統(tǒng)中商品總量的 1%~2%左右. 面對(duì)這種數(shù)據(jù)極端稀疏的情況, 在為用戶找到鄰居集合的方面, 協(xié)同過濾算法就變得力不從心, 這也就進(jìn)一步導(dǎo)致了推薦質(zhì)量的大幅降低, 這一問題也成為了制約協(xié)同過濾應(yīng)用與發(fā)展的最主要問題.

      1 數(shù)據(jù)稀疏性問題[6]

      由于網(wǎng)站結(jié)構(gòu)的日漸復(fù)雜, 用戶和項(xiàng)目數(shù)量的急劇增長(zhǎng), 使評(píng)價(jià)過的項(xiàng)目數(shù)占系統(tǒng)中項(xiàng)目總數(shù)的比例越來越小, 導(dǎo)致相似度計(jì)算時(shí)沒有足夠的輸入數(shù)據(jù), 從而得不到準(zhǔn)確的相似度, 進(jìn)而降低了系統(tǒng)的推薦質(zhì)量. 假設(shè)一個(gè)稀疏的評(píng)分矩陣如表1.

      表1 稀疏的評(píng)分矩陣

      由該表可以看出, 用戶1和2沒有共同評(píng)分的項(xiàng)目, 因此由傳統(tǒng)的協(xié)同過濾算法計(jì)算的二者相似度為0, 但是用戶1與2、2和3之間的相似度都是不為0的, 換句話說就是3同時(shí)與1、2相似, 由相似的傳遞性可知用戶1、2之間并不是完全不相關(guān)的, 這說明數(shù)據(jù)稀疏性影響了用戶鄰居的確定, 不僅降低了推薦質(zhì)量, 也嚴(yán)重影響了推薦精度.

      不少研究者從很早就意識(shí)到了數(shù)據(jù)稀疏性的對(duì)于推薦質(zhì)量的制約, 研究并提出了多種方法來緩解數(shù)據(jù)稀疏性造成的影響. 其中應(yīng)用較廣泛的有矩陣填充技術(shù)、矩陣降維技術(shù)和基于聚類的方法[7].

      1) 矩陣填充技術(shù)

      所謂矩陣填充技術(shù), 就是將用戶-項(xiàng)目評(píng)分矩陣中沒有評(píng)分的項(xiàng)目用特定的數(shù)值替換掉, 以此直接的降低數(shù)據(jù)的稀疏性, 提高推薦質(zhì)量和精度. 在這種情況下, 閾值的選取就顯得尤為重要, 一般來說, 這個(gè)值常取評(píng)分區(qū)間的中間值或者是所有評(píng)分的平均值. 這就產(chǎn)生了一個(gè)問題, 雖說這種方法改善了數(shù)據(jù)的稀疏性問題, 但是他忽略了用戶的個(gè)性和評(píng)分習(xí)慣的差異, 并沒能使數(shù)據(jù)稀疏問題從根本上得到解決.

      2) 矩陣降維技術(shù)

      矩陣降維技術(shù), 就是降低用戶-項(xiàng)目評(píng)分矩陣的維數(shù), 將系統(tǒng)中未被評(píng)分的項(xiàng)目或者是未評(píng)過分的用戶刪掉就是最簡(jiǎn)單也是最直接矩陣降維方法, 但是, 這種方法應(yīng)用起來會(huì)導(dǎo)致沒有評(píng)過分的用戶就不會(huì)接收到系統(tǒng)的推薦, 沒有被評(píng)過分的項(xiàng)目也不會(huì)被推薦給用戶.

      3) 基于聚類的方法

      聚類方法中, 系統(tǒng)用特定的標(biāo)準(zhǔn)將各個(gè)項(xiàng)目集合劃分到若干個(gè)聚類中, 相同聚類是具有相似屬性的若干個(gè)不同項(xiàng)目的集合, 不同的聚類中的各個(gè)項(xiàng)目則具有不同的屬性. 通常采用的聚類方法[8]主要有: K-Means 聚類、基于網(wǎng)格的聚類、基于密度的聚類和 PAM 算法等.

      以上幾種方法的主要思想是對(duì)矩陣進(jìn)行降維或者填充, 然而單純的填充忽略了用戶個(gè)性, 而降維技術(shù)又不可避免的導(dǎo)致了某些信息的丟失, 都不能較好的解決數(shù)據(jù)稀疏性問題. 因此需要尋求一種方法, 不改變?cè)u(píng)分矩陣稀疏性程度, 卻能達(dá)到有效提高推薦算法精度的目的, 于是本文提出了基于項(xiàng)目類別和用戶興趣相似度融合的協(xié)同過濾算法.

      2 協(xié)同過濾的相似度融合改進(jìn)算法

      考慮到數(shù)據(jù)稀疏性的影響, 本文對(duì)相似度的計(jì)算做出優(yōu)化, 將傳統(tǒng)的計(jì)算過程一分為二, 分別在項(xiàng)目類別評(píng)分矩陣和量化的用戶興趣矩陣上計(jì)算用戶相似度并融合, 引入兩個(gè)調(diào)節(jié)項(xiàng)來進(jìn)行相似度的修正.

      2.1 傳統(tǒng)用戶相似度的計(jì)算

      用戶相似度的計(jì)算是推薦算法中最核心的部分, 傳統(tǒng)計(jì)算的相似度的方法主要有三種: 余弦相似度、修正的余弦相似度和相關(guān)相似度[9].

      用戶評(píng)分?jǐn)?shù)據(jù)用矩陣表示, 其中,表示用戶個(gè)數(shù),r表示用戶u對(duì)項(xiàng)目的評(píng)分, 于是用戶相似度可以簡(jiǎn)單地利用余弦相似度計(jì)算得到.

      在這種情況下, 要求相似性的兩個(gè)項(xiàng)目被看作𝑚維用戶空間的兩個(gè)向量. 向量代表用戶對(duì)所有項(xiàng)目的評(píng)分所構(gòu)成的向量, 向量代表用戶對(duì)所有項(xiàng)目的評(píng)分所構(gòu)成的向量, 用戶和用戶之間的相似度為:

      本文采用的是調(diào)整余弦相似度, 并在基本的計(jì)算方法上加以改進(jìn). 基本的余弦方式在計(jì)算相似度的方面有很多的不足和缺陷, 不同用戶會(huì)有不同的評(píng)分習(xí)慣, 因而它們的評(píng)分范圍可能存在較大差異, 此方法卻沒有考慮到這點(diǎn). 調(diào)整余弦相似度通過從每個(gè)評(píng)分中減去該用戶對(duì)所有項(xiàng)目評(píng)分的平均分值, 從而只考慮評(píng)分的偏差值, 這種方法計(jì)算的用戶和之間的相似度為:

      (2)

      2.2 相似度計(jì)算的改進(jìn)算法

      2.2.1 用戶-項(xiàng)目類別興趣相似度

      用戶-項(xiàng)目類別興趣相似度描述了不同用戶之間的興趣與關(guān)注點(diǎn)的相似性. 這一指標(biāo)可以采用用戶對(duì)該項(xiàng)目類別中所有項(xiàng)目的評(píng)價(jià)次數(shù)之和來表示, 這個(gè)值越高, 就表明用戶對(duì)這個(gè)項(xiàng)目類別中的項(xiàng)目興趣度越高, 它的值是一個(gè)有限的整數(shù).

      用戶興趣描述的是用戶對(duì)某個(gè)項(xiàng)目類別的總體感興趣程度. 由上文的分析可知, 單純的通過降低維度的方式不能很好地解決數(shù)據(jù)稀疏性問題, 還需要一種方法與之結(jié)合, 彌補(bǔ)其精度上的不足. 建立一個(gè)興趣矩陣T用來表現(xiàn)用戶對(duì)各個(gè)類別的感興趣程度.

      其中,代表用戶總數(shù),代表項(xiàng)目類別總數(shù), 元素t代表第個(gè)用戶給第個(gè)項(xiàng)目類別所包含的所有項(xiàng)目評(píng)價(jià)次數(shù)的和, 這個(gè)值可以用來描述用戶對(duì)這個(gè)項(xiàng)目類別感興趣的程度.

      此外, 為了提高興趣相似度的準(zhǔn)確程度, 本文還考慮到了用戶年齡可能產(chǎn)生的影響, 就日常經(jīng)驗(yàn)來講, 年齡越接近的用戶擁有相同興趣的可能性越大, 而年齡相差越大的用戶之間很可能有著截然不同的興趣與關(guān)注點(diǎn). 就音樂來講, 青年人更喜歡搖滾或流行歌曲, 中年人多喜歡抒情類的歌曲, 而老年人更喜歡年代性歷史性比較強(qiáng)的歌曲. 因此, 除了要考慮到用戶歷史評(píng)分次數(shù)之外, 本文加入了年齡調(diào)節(jié)項(xiàng)以達(dá)到更高的相似精度. 由此可得到用戶、之間的項(xiàng)目類別興趣相似度計(jì)算公式如下:

      (4)

      其中,C是一個(gè)集合, 它由用戶、評(píng)過分的所有項(xiàng)目類別構(gòu)成;t代表用戶對(duì)項(xiàng)目類別所包含的項(xiàng)目的累計(jì)評(píng)價(jià)次數(shù);t表示用戶對(duì)所有項(xiàng)目類別的評(píng)價(jià)次數(shù)的平均值;u表示用戶的年齡, 另外設(shè)置了一個(gè)年齡調(diào)節(jié)參數(shù)來調(diào)節(jié)相似度計(jì)算的精度, 最佳的參數(shù)值可以在試驗(yàn)中進(jìn)行對(duì)比選取和驗(yàn)證.

      2.2.2 用戶-項(xiàng)目類別評(píng)分相似度

      用戶-項(xiàng)目類別評(píng)分相似度通過計(jì)算用戶的評(píng)分傾向和偏好來確定他們之間的相似程度, 即若用戶對(duì)相同項(xiàng)目類別的評(píng)分越接近, 就對(duì)應(yīng)有更高的相似度. 考慮到用戶打分習(xí)慣與范圍的差別, 將對(duì)項(xiàng)目類別的評(píng)分用這個(gè)用戶對(duì)此項(xiàng)目類別中所有項(xiàng)目評(píng)分的平均值來表示, 它的取值范圍與評(píng)分范圍一致, 通常在區(qū)間[0, 5]中.

      所有的商品都帶有自身的屬性, 可以根據(jù)其本身的屬性把它們歸入多個(gè)不同的類別中, 這樣, 同一個(gè)類別當(dāng)然也會(huì)包含多個(gè)不同的商品, 即項(xiàng)目與項(xiàng)目類別是多對(duì)多的關(guān)系. 因此, 項(xiàng)目類別是一個(gè)集合, 其中包含了多個(gè)具有某個(gè)相同屬性的項(xiàng)目. 項(xiàng)目類別這個(gè)概念的應(yīng)用, 其實(shí)是通過聚類的方式降低了用戶-項(xiàng)目評(píng)分矩陣的維度, 從而在一定程度上達(dá)到了緩解數(shù)據(jù)稀疏性的目的. 用戶與項(xiàng)目類別的關(guān)系由用戶-項(xiàng)目類別評(píng)分矩陣P來進(jìn)行描述.

      其中,代表用戶總數(shù),代表項(xiàng)目類別總數(shù), 元素p代表第個(gè)用戶給第個(gè)項(xiàng)目類別中所包含的項(xiàng)目分?jǐn)?shù)的平均值, 可以用這個(gè)值來衡量用戶對(duì)此項(xiàng)目類別中包含的所有項(xiàng)目的滿意程度.

      同樣地, 為了提高評(píng)分相似度的準(zhǔn)確程度, 本文還考慮到了用戶評(píng)價(jià)的項(xiàng)目的一致性. 考慮一個(gè)極端的情況, 若兩個(gè)用戶對(duì)同一項(xiàng)目類別進(jìn)行過評(píng)分, 且分值接近, 但是兩人評(píng)價(jià)的項(xiàng)目完全不相交, 此時(shí)不能說兩人具有較高的相似性. 因此, 除了考慮用戶對(duì)項(xiàng)目類別的歷史評(píng)分之外, 還加入了調(diào)節(jié)項(xiàng)表示用戶評(píng)分項(xiàng)目一致性來達(dá)到更高的相似度精度.

      項(xiàng)目類別評(píng)分相似度利用改進(jìn)后的皮爾森相似度來進(jìn)行計(jì)算, 改進(jìn)后的用戶-項(xiàng)目類別評(píng)分相似度的具體計(jì)算如下:

      其中,C是一個(gè)集合, 它由用戶評(píng)過分的所有項(xiàng)目類別構(gòu)成;r由用戶對(duì)項(xiàng)目類別中的所有項(xiàng)目的平均評(píng)分;r表示用戶給分的平均值. 調(diào)節(jié)項(xiàng)表示在項(xiàng)目類別中, 用戶與用戶共同評(píng)價(jià)的項(xiàng)目數(shù)與二人評(píng)價(jià)的項(xiàng)目總數(shù)的比值.

      2.2.3 相似度融合

      3 實(shí)驗(yàn)結(jié)果與分析

      3.1 實(shí)驗(yàn)數(shù)據(jù)集

      本文的實(shí)驗(yàn)數(shù)據(jù)集采用由明尼蘇達(dá)州大學(xué)在GroupLens研究項(xiàng)目中收集的MovieLens公用數(shù)據(jù)集[10], 它是一個(gè)基于網(wǎng)頁的推薦研究系統(tǒng), 提供了用戶信息表、電影信息表和評(píng)分信息表三張表. 這個(gè)數(shù)據(jù)集包含了943個(gè)獨(dú)立的用戶信息. 這些用戶共曾標(biāo)記過1682部電影, 為數(shù)據(jù)庫中的電影的評(píng)分更是超過了10萬. 特別的, 只考慮為20部以上的電影評(píng)過分的用戶, 并將數(shù)據(jù)庫分為70%的訓(xùn)練集和30%的測(cè)試集, 然后將數(shù)據(jù)集轉(zhuǎn)換成一個(gè)有943行(用戶)和1682列(用戶中至少有一人評(píng)過分的電影)構(gòu)成的用戶-電影矩陣.

      3.2 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)

      推薦系統(tǒng)研究者們用許多不同的方式評(píng)價(jià)推薦或者是預(yù)測(cè)是否成功, 本文采用了一個(gè)普遍應(yīng)用的統(tǒng)計(jì)學(xué)的準(zhǔn)確性度量, 叫做平均絕對(duì)誤差(MAE)[11]. 這種方法就是衡量推薦與真實(shí)的用戶賦給值的偏差. 對(duì)于每一對(duì)評(píng)分預(yù)測(cè)數(shù)據(jù)的具體誤差也就是進(jìn)行處理. 平均絕對(duì)誤差的計(jì)算方法是先計(jì)算N對(duì)評(píng)分-預(yù)測(cè)數(shù)據(jù)對(duì)的誤差之和, 然后計(jì)算平均值, 如下式:

      一般來說, 平均絕對(duì)誤差越小, 推薦結(jié)果越準(zhǔn)確, 系統(tǒng)性能就越好.

      3.3 確定未知參數(shù)的值

      3.3.1 年齡調(diào)節(jié)參數(shù)ω的確定

      在實(shí)驗(yàn)過程中, 以1: 4的比例隨機(jī)地將數(shù)據(jù)集分成兩組不同的測(cè)試集和訓(xùn)練集, 分別用D1、D2表示, 然后分別在D1、D2上進(jìn)行仿真實(shí)驗(yàn). 在算法執(zhí)行過程中, 將形成的用戶最近鄰居集的大小(K)分別設(shè)為10、20和30, 進(jìn)行對(duì)比試驗(yàn). 推薦質(zhì)量的高低用平均絕對(duì)誤差MAE的大小來描述. 得到的實(shí)驗(yàn)結(jié)果分別如圖1、圖2.

      圖1 數(shù)據(jù)集D1上的實(shí)驗(yàn)結(jié)果

      圖2 數(shù)據(jù)集D2上的實(shí)驗(yàn)結(jié)果

      由以上的實(shí)驗(yàn)結(jié)果不難發(fā)現(xiàn): 平均絕對(duì)誤差值的大小, 也就是推薦系統(tǒng)推薦質(zhì)量的高低跟用戶的最近鄰居集合大小有關(guān), 鄰居數(shù)量越大, 推薦越精確.

      年齡調(diào)節(jié)參數(shù)ω的改變也能影響推薦系統(tǒng)的推薦精度. 在ω的值從1變化至20的過程中, MAE的值隨之先減小后增大, 在三個(gè)數(shù)據(jù)集上都呈現(xiàn)出相同的變化趨勢(shì), 并且在ω值取8的時(shí)候得到最小的MAE值, 也就是說, 當(dāng)年齡調(diào)節(jié)參數(shù)ω的值取8時(shí), 推薦系統(tǒng)能夠達(dá)到最高的精度. 綜上所述, 可以將年齡調(diào)節(jié)參數(shù)ω的值確定為8.

      3.3.2 相似度融合參數(shù)α的確定

      在對(duì)用戶項(xiàng)目評(píng)分相似度和興趣相似度進(jìn)行融合得到最終相似度的過程中, 參數(shù)α的值是不確定的, 在區(qū)間[0, 1]之間取得, 可以將α作為變量, 分別在數(shù)據(jù)集D1、D2上研究MAE隨著α值變化而變化的趨勢(shì), 從而得到最佳的融合參數(shù)值. 此次將鄰居集數(shù)目(K)分別設(shè)置為10、20和30, 進(jìn)行對(duì)比試驗(yàn), 實(shí)驗(yàn)結(jié)果分別如圖3、圖4.

      圖3 數(shù)據(jù)集D1上的實(shí)驗(yàn)結(jié)果

      圖4 數(shù)據(jù)集D2上的實(shí)驗(yàn)結(jié)果

      由以上的實(shí)驗(yàn)結(jié)果可得: 首先, 平均絕對(duì)誤差值得大小跟用戶的最近鄰居集合中鄰居的數(shù)量有關(guān), 鄰居集數(shù)量越大, MAE越小, 推薦越精確.

      相似度融合參數(shù)α的改變也能影響推薦系統(tǒng)的推薦精度. 在α的值從0變化至1的過程中, MAE的值隨之先減小后增大, 在三個(gè)數(shù)據(jù)集上都呈現(xiàn)出相同的變化趨勢(shì), 并且在α值取0.3的時(shí)候得到最小的MAE值, 也就是說, 當(dāng)參數(shù)α的值取0.3時(shí), 推薦系統(tǒng)能夠達(dá)到最高的推薦精度. 由此可以取相似度融合參數(shù)α的值為0.3. 也就是說, 在總的用戶相似度中, 用戶項(xiàng)目類別興趣相似度所占的比重為0.3, 對(duì)應(yīng)的評(píng)分相似度所占的比重為0.7.

      3.4 算法有效性驗(yàn)證

      在年齡調(diào)節(jié)參數(shù)ω的值為8, 相似度融合參數(shù)α的值為0.3的情況下, 將傳統(tǒng)的協(xié)同過濾算法與本文提出的基于數(shù)據(jù)稀疏性的改進(jìn)協(xié)同過濾算法分別在數(shù)據(jù)集D1、D2上進(jìn)行仿真實(shí)驗(yàn), 比較兩種算法性能隨著鄰居集數(shù)量(K)的增大的變化趨勢(shì), 驗(yàn)證改進(jìn)算法的有效性. 實(shí)驗(yàn)結(jié)果如圖5、圖6.

      圖5 數(shù)據(jù)集D1上的實(shí)驗(yàn)結(jié)果

      圖6 數(shù)據(jù)集D2上的實(shí)驗(yàn)結(jié)果

      由以上實(shí)驗(yàn)結(jié)果不難發(fā)現(xiàn), 推薦系統(tǒng)的推薦質(zhì)量隨著鄰居集的不斷增大, 推薦質(zhì)量也不斷提高, 最終趨于一個(gè)穩(wěn)定值, 由此結(jié)果也可以幫助在應(yīng)用推薦系統(tǒng)時(shí)選擇合適的鄰居集大小. 通過實(shí)驗(yàn)可以看出改進(jìn)后的協(xié)同過濾算法對(duì)推薦系統(tǒng)的推薦質(zhì)量是有明顯的提升的, 也就是說, 本文提出的基于數(shù)據(jù)稀疏性的協(xié)同過濾算法能夠在一定程度上達(dá)到緩解數(shù)據(jù)稀疏性問題的目的.

      4 結(jié)語

      本文重點(diǎn)針對(duì)協(xié)同過濾中的數(shù)據(jù)稀疏現(xiàn)象, 引入項(xiàng)目類別的概念, 進(jìn)行數(shù)據(jù)壓縮, 將傳統(tǒng)的相似度轉(zhuǎn)化為融合相似度來計(jì)算, 有效地緩解了數(shù)據(jù)稀疏性的不利影響. 本文從用戶評(píng)分和興趣兩方面分別計(jì)算相似性, 引入年齡調(diào)節(jié)因子和用戶評(píng)分一致性因子兩個(gè)調(diào)節(jié)項(xiàng)來對(duì)用戶相似度進(jìn)行進(jìn)一步的修正, 最后選取合適權(quán)值進(jìn)行相似度融合得到最終用戶相似度.

      利用MovieLens標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)仿真, 對(duì)結(jié)果進(jìn)行比較分析, 從而確定了改進(jìn)算法中參數(shù)ω和α的取值, 驗(yàn)證了改進(jìn)算法的有效性. 本文提出的改進(jìn)算法在同樣的數(shù)據(jù)環(huán)境中能夠選出相似度更高的用戶, 為用戶提供更加理想的推薦, 提高了推薦質(zhì)量.

      1 劉魯,任曉麗.推薦系統(tǒng)研究進(jìn)展及展望.信息系統(tǒng)學(xué)報(bào), 2008,4(1):82–90.

      2 李珊.個(gè)性化推薦系統(tǒng)研究綜述.科技致富向?qū)?2014(11): 157–157.

      3 鄧曉亮.基于數(shù)據(jù)稀疏性的協(xié)同過濾推薦算法研究[碩士學(xué)位論文].重慶:重慶郵電大學(xué),2013.

      4 丁卯.基于協(xié)同過濾的推薦系統(tǒng)研究[碩士學(xué)位論文].天津:河北工業(yè)大學(xué),2013.

      5 Hu JM. Application and research of collaborative filtering in e-commerce recommendation system. International Conference on Computer Science and Information Technology. 2010, 4. 686–689.

      6 郭少聃.數(shù)據(jù)稀疏和隱性反饋條件下用戶偏好挖掘方法[碩士學(xué)位論文].武漢:華中科技大學(xué),2012.

      7 Xia WW, He L, Chen MH, Ren L, Gu JZ. A new collaborative filtering approach utilizing item’s popularity. IEEE International Conference on Industrial Engineering and Engineering Management. 2009. 1480–1484.

      8 王駿,王士同,鄧趙紅.聚類分析研究中的若干問題.控制與決策,2012,27(3):321–328.

      9 鄧愛林.電子商務(wù)推薦系統(tǒng)關(guān)鍵技術(shù)研究[博士學(xué)位論文]. 上海:復(fù)旦大學(xué),2003.

      10 Zhao K, Lu PY. Improved collaborative filtering approach based on user similarity combination. International Conference on Management Science & Engineering. 2014. 238–243.

      11 Zhang L, Qin T, Teng PQ. An improved collaborative filtering algorithm based on user interest. Journal of Software, 2014, 9(4).

      Improved Collaborative Filtering Algorithm of Similarity Integration

      YU Shi-Cai, XIE Ying-Hua, WANG Qiao

      (School of Information Science and Technology, Donghua University, Shanghai 201620, China)

      Aiming at the poor recommendation quality due to the data sparsity problem of traditional collaborative filtering recommendation, this paper puts forward an improved collaborative filtering algorithm. The improved algorithm proposes a collaborative filtering algorithm based on the similarity integration of item categories and user interests to make optimization on the similarity calculation. The algorithm does not simply concentrate on similarity calculation, but divides it into two aspects: users-item category interest similarity and users-item category rating similarity, which will finally be integrated with appropriate weights to get the final similarity. After a series of verification and comparison carried out on the MovieLens public data set, it is concluded that the improved algorithm based on data sparsity of collaborative filtering indeed plays a positive role in reducing the influence caused by data sparsity and improves the accuracy of recommendation.

      collaborative filtering; data sparsity; item category; user interest; similarity integration

      2016-04-20;收到修改稿時(shí)間:2016-06-01

      [10.15888/j.cnki.csa.005551]

      猜你喜歡
      類別聚類協(xié)同
      蜀道難:車與路的協(xié)同進(jìn)化
      “四化”協(xié)同才有出路
      汽車觀察(2019年2期)2019-03-15 06:00:50
      基于DBSACN聚類算法的XML文檔聚類
      三醫(yī)聯(lián)動(dòng) 協(xié)同創(chuàng)新
      服務(wù)類別
      基于改進(jìn)的遺傳算法的模糊聚類算法
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      論類別股東會(huì)
      商事法論集(2014年1期)2014-06-27 01:20:42
      協(xié)同進(jìn)化
      中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
      闽侯县| 衡南县| 双江| 吉水县| 高邑县| 安岳县| 龙泉市| 达拉特旗| 建阳市| 额敏县| 苍南县| 郁南县| 邵东县| 平阴县| 凤冈县| 乌什县| 和田县| 攀枝花市| 长宁县| 宁远县| 永年县| 垣曲县| 灌南县| 砀山县| 西吉县| 阿瓦提县| 滦南县| 伊川县| 翁牛特旗| 元氏县| 区。| 玛多县| 祁门县| 乌兰浩特市| 利津县| 专栏| 长兴县| 栖霞市| 万盛区| 昂仁县| 南部县|