• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    協(xié)同過濾數(shù)據(jù)稀疏性問題研究

    2014-04-29 00:00:00顧立志

    摘 要:本文簡要介紹了協(xié)同過濾推薦技術(shù)的核心思想以及優(yōu)缺點(diǎn),重點(diǎn)描述了協(xié)同過濾推薦系統(tǒng)的數(shù)據(jù)稀疏性問題,并總結(jié)了四種解決數(shù)據(jù)稀疏性問題的方法,分別是簡單填值、聚類、降維和結(jié)合內(nèi)容的過濾方法。

    關(guān)鍵詞:協(xié)同過濾;稀疏性;降維

    中圖分類號:TP391

    隨著Internet的快速發(fā)展,信息過載的問題變得越來越嚴(yán)重。推薦系統(tǒng)就是為了提高用戶從大量的數(shù)據(jù)中找到自己需要信息的效率而產(chǎn)生的。推薦系統(tǒng)主要分為三種,分別是基于內(nèi)容、基于協(xié)同過濾技術(shù)和將兩種技術(shù)融合的推薦系統(tǒng)。其中,協(xié)同過濾推薦系統(tǒng)以其特有的優(yōu)勢得到了更為廣泛的應(yīng)用。例如,大型網(wǎng)絡(luò)書店亞馬遜、國外知名的購物網(wǎng)店ebay、國內(nèi)的淘寶網(wǎng)等電子商務(wù)網(wǎng)站中的推薦系統(tǒng)都采用了協(xié)同過濾的推薦方法。另外,還有一些專門的協(xié)同推薦系統(tǒng)的網(wǎng)站,例如著名的 Ringo音樂推薦系統(tǒng)、Jester笑話推薦系統(tǒng)等。

    1 協(xié)同過濾算法簡介

    1.1 協(xié)同過濾核心思想以及分類

    協(xié)同過濾以其特有的優(yōu)勢成為眾多專家和學(xué)者關(guān)注的焦點(diǎn),目前在各大電子商務(wù)網(wǎng)站得到廣泛應(yīng)用。該算法的思想是:根據(jù)系統(tǒng)中已有的評分?jǐn)?shù)據(jù)計(jì)算用戶(或項(xiàng)目)之間的相似性;根據(jù)計(jì)算得到的相似性找出當(dāng)前用戶(或項(xiàng)目)的最近鄰;根據(jù)最近鄰中用戶(或項(xiàng)目)的評分預(yù)測當(dāng)前用戶對其他項(xiàng)目的評分值,最終根據(jù)評分值大小確定是否將該項(xiàng)目推薦給當(dāng)前用戶。

    協(xié)同過濾推薦算法可以分為基于用戶的協(xié)同過濾(UCF)與基于項(xiàng)目的協(xié)同過濾(ICF)。這兩個(gè)算法的共同點(diǎn)在于二者都是根據(jù)用戶-項(xiàng)目評分矩陣建立推薦系統(tǒng)模型,從而為用戶提供個(gè)性化推薦服務(wù)的。不同之處在于UCF是根據(jù)用戶之間的相似性找到目標(biāo)用戶的最近鄰集,然后根據(jù)該集合中用戶的評分情況確定目標(biāo)用戶的推薦結(jié)果。而ICF則是通過分析項(xiàng)目之間的相似性,最終將與目標(biāo)用戶評價(jià)較好的項(xiàng)目相似度較高的作為推薦列表的結(jié)果。

    1.2 協(xié)同過濾的優(yōu)缺點(diǎn)

    基于協(xié)同過濾算法的推薦系統(tǒng)主要有以下優(yōu)點(diǎn):

    (1)協(xié)同過濾算法的數(shù)據(jù)源是用戶對項(xiàng)目的評價(jià)信息,不用考慮項(xiàng)目是否屬于同一類別,所以協(xié)同過濾算法可以從屬性不同的項(xiàng)目中提取有用的信息。

    (2)協(xié)同過濾算法同時(shí)考慮了當(dāng)前用戶和其他用戶的評價(jià)信息,這樣能夠增加產(chǎn)生推薦可利用的信息量,從而提高推薦的質(zhì)量與效率。

    (3)協(xié)同過濾算法的新穎性較高,推薦結(jié)果可能是用戶意想不到的。

    目前,協(xié)同過濾技術(shù)已經(jīng)得到了廣泛應(yīng)用。但是網(wǎng)站商品信息量和用戶人數(shù)在不斷攀升,網(wǎng)站的結(jié)構(gòu)也越來越復(fù)雜,因此基于協(xié)同過濾的推薦系統(tǒng)面臨著一系列問題[1],比如:稀疏性問題、冷啟動(dòng)問題和可擴(kuò)展性問題。

    冷啟動(dòng)問題分為系統(tǒng)冷啟動(dòng)、用戶冷啟動(dòng)和項(xiàng)目冷啟動(dòng)。系統(tǒng)冷啟動(dòng)問題主要解決如何在一個(gè)新開發(fā)的網(wǎng)站上設(shè)計(jì)個(gè)性化推薦系統(tǒng),從而在網(wǎng)站剛發(fā)布的時(shí)候就能讓用戶體驗(yàn)到個(gè)性化推薦服務(wù)。用戶冷啟動(dòng)主要解決的是在沒有新用戶的行為數(shù)據(jù)時(shí)如果為其提供個(gè)性化推薦服務(wù)。項(xiàng)目冷啟動(dòng)主要解決將新上架的項(xiàng)目推薦給可能對它感興趣的用戶。另外,電子商務(wù)網(wǎng)站、商品、用戶的數(shù)量都在不斷增加,推薦系統(tǒng)將面臨嚴(yán)重的可擴(kuò)展性問題。

    2 稀疏性問題描述

    稀疏性問題是推薦系統(tǒng)面臨的主要問題,也是導(dǎo)致推薦系統(tǒng)質(zhì)量下降的重要原因。在一些大型網(wǎng)站如亞馬遜,用戶評價(jià)過的項(xiàng)目質(zhì)量相對網(wǎng)站中總項(xiàng)目數(shù)量可謂是冰山一角,這就導(dǎo)致了用戶項(xiàng)目評分矩陣的數(shù)據(jù)極端稀疏,在計(jì)算用戶或項(xiàng)目的最近鄰時(shí)準(zhǔn)確率就會(huì)比較低,從而使得推薦系統(tǒng)的推薦質(zhì)量急劇下降。

    3 稀疏性問題解決方式

    稀疏性問題直接影響這推薦系統(tǒng)的質(zhì)量問題,因此受到了學(xué)術(shù)界和應(yīng)用界的高度關(guān)注。目前提出的解決稀疏性問題的方式已經(jīng)有很多種,常用的有:簡單填值、聚類、降維、結(jié)合內(nèi)容的過濾方法等。

    3.1 簡單填值的方法

    填值法就是用一個(gè)固定的數(shù)值填充系統(tǒng)中所有的未評過分的項(xiàng)目,從而解決稀疏性問題一種方法。常用固定值的選取方法有兩種:

    (1)缺省值可以設(shè)為評分的平均值,或者對前兩者進(jìn)行某種合成。該方法在一定程度上能緩解數(shù)據(jù)稀疏性問題,但在用戶和項(xiàng)目數(shù)量很大的情況下填充所有缺省值,完成推薦的計(jì)算量也比較大,因此適合于小規(guī)模數(shù)據(jù)庫。另外用戶對未評過分的項(xiàng)目評分情況會(huì)有一些差異,該方法采用統(tǒng)一的數(shù)值進(jìn)行填充,沒有考慮到用戶的興趣差異,抹殺了用戶的個(gè)性。

    (2)眾數(shù)法。眾數(shù)法就是將目標(biāo)用戶所有評分的眾數(shù)作為新項(xiàng)目預(yù)測評分的方法。從統(tǒng)計(jì)學(xué)的角度來說,采用眾數(shù)法這種預(yù)測方法的準(zhǔn)確率會(huì)比較高,但是在實(shí)際生活中,采用眾數(shù)法預(yù)測用戶對項(xiàng)目的評分可能會(huì)是錯(cuò)誤的。另外,用戶對項(xiàng)目的評分可能會(huì)存在多個(gè)眾數(shù)或者沒有眾數(shù)的情況,因此眾數(shù)法的應(yīng)用局限性比較大。

    3.2 聚類的方法

    該方法根據(jù)用戶興趣之間的差異,利用某種聚類算法將系統(tǒng)中的所有用戶劃分為不同的群體;系統(tǒng)把用戶所在群體的中心值作為用戶對未評項(xiàng)目的評分預(yù)測值,進(jìn)行用戶項(xiàng)目評分矩陣的填充。主要的聚類方法有k-means聚類和遺傳聚類等。聚類方法針對的對象可以是用戶,也可以是項(xiàng)目,還可以對用戶和項(xiàng)目均進(jìn)行聚類。其中,對用戶進(jìn)行聚類時(shí)首先要對用戶-項(xiàng)目評分?jǐn)?shù)據(jù)庫進(jìn)行聚類,然后選擇目標(biāo)用戶所屬類的用戶作為最近鄰集合;對項(xiàng)目進(jìn)行聚類時(shí)根據(jù)用戶對項(xiàng)目評分的相似性對項(xiàng)目進(jìn)行k-means聚類生成相應(yīng)聚類中心,在此基礎(chǔ)上計(jì)算目標(biāo)項(xiàng)目與聚類中心的相似性,從而只需在與目標(biāo)項(xiàng)目最相似的若干個(gè)聚類中就能尋找到目標(biāo)項(xiàng)目的最近鄰,并能夠產(chǎn)生推薦列表,這種方法是由鄧愛林等人提出的[2];對用戶和項(xiàng)目均進(jìn)行聚類的方法主要有層次聚類、biclustering聚類和co-clustering聚類等。聚類的方法利用相似群體的評分信息提高了預(yù)測的準(zhǔn)確度,但不能體現(xiàn)用戶間的愛好區(qū)別,因此推薦結(jié)果的準(zhǔn)確率并沒有得到顯著提高。

    3.3 降維的方法

    用戶-項(xiàng)目評分矩陣出現(xiàn)數(shù)據(jù)稀疏的情況是由項(xiàng)目的高維數(shù)據(jù)引起的,因此可以考慮采取一定措施降低項(xiàng)目數(shù)據(jù)的維度,進(jìn)而達(dá)到約減數(shù)據(jù)的目的。目前常見的降維技術(shù)主要有簡單降維方法、矩陣分解和主成分分析(PCA)三類。

    (1)簡單降維方法。簡單的降維方法就是通過設(shè)置限制條件刪除一些用戶和項(xiàng)目,從而降低用戶-評分矩陣的維度。被刪除的往往是沒有參加過評分活動(dòng)或者是評分次數(shù)很少的用戶,或者是沒有被用戶評價(jià)過或者是被評價(jià)的次數(shù)很少的項(xiàng)目。利用該方法可以在一定程度上降低評分矩陣的維度,但是無法對被刪除的用戶或者項(xiàng)目進(jìn)行推薦,這就導(dǎo)致了用戶流失和信息隱藏的問題。

    (2)矩陣分解。矩陣分解的最簡單方法是單值分解算法。用該方法分解用戶-項(xiàng)目評分矩陣,可以約減評分矩陣中的數(shù)據(jù)。但是該算法在分解矩陣的過程中會(huì)造成數(shù)據(jù)遺失,影響準(zhǔn)確率。

    奇異值分解(SVD)是一種矩陣分解的有效方式,該技術(shù)在計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)等領(lǐng)域有著廣泛應(yīng)用。SVD可以將高度相關(guān)且在一起出現(xiàn)的內(nèi)容作為單獨(dú)因子,把通常很大的矩陣向量拆解成更小階的近似矩陣。奇異值分解能夠應(yīng)用于協(xié)同過濾算法解決數(shù)據(jù)稀疏性問題,主要原因是協(xié)同過濾中用戶對項(xiàng)目評分是因?yàn)橛脩魧@些項(xiàng)目的隱含特性比較感興趣,而這些項(xiàng)目之間也存在著一些共同的特征。用戶喜歡某一項(xiàng)目的表現(xiàn)為用戶對這些項(xiàng)目的評分比較高,所以通過將用戶的評分用線性代數(shù)方法分解為一些特征,可以根據(jù)用戶對這些特征的喜好程度來預(yù)測用戶對他所沒有評過分的項(xiàng)目的喜好。

    (3)主成分分析。主成分分析是基于矩陣特征值分解計(jì)算的標(biāo)準(zhǔn)統(tǒng)計(jì)分析方法。該方法式將原來的變量重新組合成一組新的互相無關(guān)的綜合變量,同時(shí)根據(jù)實(shí)際需要可以從中取出幾個(gè)能夠盡可能多地反映原來信息綜合變量作為新的參考信息。經(jīng)過PCA處理后,原始評分?jǐn)?shù)據(jù)被投射到最相關(guān)的主特征向量上,從而能夠約減數(shù)據(jù)集。

    降維技術(shù)雖然在一定程度上能夠降低用戶-項(xiàng)目評分矩陣的規(guī)模和稀疏程度,但采用該技術(shù)也流失了一部分用戶對項(xiàng)目的評分?jǐn)?shù)據(jù)。C C Aggarwak指出降維技術(shù)產(chǎn)生的效果與數(shù)據(jù)集密切相關(guān),在項(xiàng)目空間維度很高的情況下進(jìn)行降維,效果往往難以得到保證。

    3.4 結(jié)合內(nèi)容的過濾

    協(xié)同過濾利用的信息只是用戶評分?jǐn)?shù)據(jù),基于內(nèi)容的過濾可以具體顯示用戶的描述信息,因此將這兩種方式融合在一起可以增加可利用的數(shù)據(jù)量。具體的融合方式有以下四種[3]:

    (1)綜合考慮協(xié)同過濾和基于內(nèi)容的過濾的推薦結(jié)果,采用一定方式將兩種結(jié)果融合在一起。

    (2)將協(xié)同過濾和基于內(nèi)容的過濾集成到一個(gè)統(tǒng)一的模型。

    (3)將協(xié)同過濾的部分功能集成到基于內(nèi)容的過濾。

    (4)將基于內(nèi)容過濾的部分功能集成到協(xié)同過濾。

    4 結(jié)束語

    數(shù)據(jù)稀疏性不僅降低了最近鄰居搜尋準(zhǔn)確率,而且也降低了推薦覆蓋率,直接影響著推薦的質(zhì)量與效率。因此稀疏性問題一直是進(jìn)行推薦系統(tǒng)研究的重點(diǎn)。目前,眾多專家和學(xué)者已經(jīng)提出了解決數(shù)據(jù)稀疏性的方法,有效的提高了推薦結(jié)果的質(zhì)量。

    參考文獻(xiàn):

    [1]孫小華.協(xié)同過濾系統(tǒng)的稀疏性與冷啟動(dòng)問題研究[D].浙江大學(xué),2005.

    [2]鄧愛林,左子葉,朱揚(yáng)勇.基于項(xiàng)目聚類的協(xié)同過濾推薦算法[J].小型微型計(jì)算機(jī)系統(tǒng),2004(09):1665-1670.

    [3]G Adomavicius,A Tuzhilin. Toward the next generation of recommender systems:a survey of the state-of-the-art and possible extensions[J].IEEE Transactions on Knowledge and Data Engineering,2005(06):734-749.

    作者簡介:顧立志(1980-),男,河北人,交付中心經(jīng)理,工程師,研究生,研究方向:信息管理與信息系統(tǒng)。

    作者單位:CSC信息科技(天津)有限公司,天津 300308

    丹东市| 子长县| 轮台县| 云和县| 乐安县| 仲巴县| 汤原县| 卓尼县| 报价| 墨脱县| 饶平县| 长泰县| 阿城市| 正定县| 阿勒泰市| 秦安县| 长宁县| 绵阳市| 扶沟县| 广东省| 孙吴县| 舞阳县| 盱眙县| 额尔古纳市| 高清| 衡阳市| 廊坊市| 揭东县| 西乡县| 武乡县| 汝南县| 鹿泉市| 齐齐哈尔市| 天峻县| 浮梁县| 大荔县| 疏勒县| 商城县| 柞水县| 陇西县| 象山县|