蒲國林,王 剛,向 偉,楊勇智
(1.四川文理學院 計算機學院,達州 635000;2.安康學院 科技處,安康 725000)
信息量的暴漲,產品數(shù)量和種類的快速增長,使個性化推薦系統(tǒng)成為研究熱點.Mizzaro認為,個性化服務是收集并存儲用戶的使用信息,分析這些信息得到用戶的特定興趣和需求,然后在合適的時間向每一位訪問者發(fā)送正確的信息.早期的推薦系統(tǒng)主要有:由Xerox Palo Alto研究中心開發(fā)的推薦系統(tǒng) Typestry;[1]1995年 3月,卡耐基.梅隆大學的Robert Armstrong等人提出的個性化導航系統(tǒng)Web Watcher;斯坦福大學的Marko Balabanovic等人推出的個性化推薦系統(tǒng)LIRA;1995年8月,麻省理工學院的Henry Lieberman提出的個性化導航智能體Litizia.近期的成功應用主要有:Overstock運行個性化橫幅廣告取得了驚人的成果,“廣告的點擊率是以前的兩倍,伴隨而來的銷售增長也高達20%至30%”;國內首個個性化推薦系統(tǒng)科研團隊北京百分點信息科技有限公司專注于個性化推薦、推薦引擎技術與解決方案,[2]每天為數(shù)以千萬計的消費者提供實時智能的商品推薦.
新聞推薦是推薦系統(tǒng)的一個重要應用,其推薦算法有三類:協(xié)同過濾的推薦方法、基于內容的推薦方法和混合推薦方法.協(xié)同過濾是從海量用戶中挖掘出興趣偏好相同或相近的用戶,并以“如果用戶A和用戶B具有相近的興趣偏好,那么用戶A感興趣的信息用戶B也感興趣”為假設前提,如 Let’s Browse.[3]基于內容的推薦是將與用戶過去感興趣的新聞相似度高的新聞推薦給用戶,它以“如果用戶A過去對某類信息感興趣,那么用戶A現(xiàn)在甚至將來也對該類信息感興趣”為假設前提,如 Web Personalizer.[4]興趣具有指向性、持久性等品質.興趣的指向性,即對什么發(fā)生興趣;興趣的持久性,即興趣的穩(wěn)定程度.基于內容的推薦符合興趣相對穩(wěn)定的特征,協(xié)同過濾的推薦又能發(fā)現(xiàn)或挖掘出用戶新的興趣指向,混合推薦則是將兩種方法綜合起來.
如圖1所示,基于內容的個性化新聞推薦系統(tǒng)可以分為三層:語義處理層、興趣模型層和用戶交互層.在語義處理層主要通過語義處理完成新聞分類;在興趣模型層主要實現(xiàn)興趣模型的建立與更新,以及興趣的發(fā)現(xiàn)與新聞推薦;在用戶交互層記錄用戶的相關行為信息,為用戶興趣模型的更新提供依據(jù).
圖1 系統(tǒng)核心架構圖
在該系統(tǒng)架構中,進行個性化新聞推薦前的技術處理有:
1)新聞獲取.網(wǎng)頁的獲取是通過Java的I/O操作完成.利用開源的目前公認最好的html解析和分析工具Htmlparser,實現(xiàn)網(wǎng)絡爬蟲,獲取新聞資源.
2)中文分詞.目前中文分詞方法主要有:使用詞典匹配分詞和詞頻統(tǒng)計分詞.本系統(tǒng)利用中科院的ICTCLAS完成中文分詞和頻數(shù)統(tǒng)計.ICTCLAS具有分詞、自定義用戶詞典、關鍵詞提取和指紋提取等功能.在關鍵詞提取中,還統(tǒng)計出了各關鍵詞的頻數(shù)權重.在系統(tǒng)中,考慮到標題、關鍵詞和正文中的特征項具有不同的重要程度,還可以設置其對象權重 Wt、Wk和 Wb,如:Wt=1,Wk=0.9,Wb=0.5.
3)文檔分類
用特征項的頻數(shù)權重與其所屬對象權重之積來描述該特征項的權重,并將權重大于某一閾值的前n個關鍵詞作為該文檔的特征項,以此建立新聞文檔的特征模型.新聞文檔模型采用向量空間模型表示,[5]如式(1)所示:
其中,NDMi表示第 i個新聞文檔的特征模型,Tj表示該新聞文檔的第j個特征項,Wj表示此特征項Tj在該文檔中的權重.在該模型中,閾值取得越大,特征項越少,計算越簡單,分類也越粗糙;閾值越小,特征項越多,計算越復雜,分類越精準.特征項取多少合適,這與個體的興趣取向的維度有關系.
本系統(tǒng)在上述新聞文檔特征模型的基礎上,采用式(2)改進的互信息法進行新聞分類:
其中P(Tk,Ci)代表特征項 Tk在Ci中出現(xiàn)的概率,P(Tk)表示特征項Tk在所有類別中出現(xiàn)的概率,P(Ci)表示Ci類在所有類別中的概率.對該新聞與所有類進行互信息計算,與某類的互信息越多,則該新聞屬于該類的概率越大.
4)用戶興趣模型
用戶興趣模型表示用戶對信息的穩(wěn)定需求,能夠反應用戶在一段時間內對新聞的主要傾向.用戶興趣模型在個性化推薦系統(tǒng)中起到核心作用,真實地表現(xiàn)了用戶的偏好,在很大程度上決定個性化推薦的效果.用戶興趣模型有一個動態(tài)更新的過程,更新依據(jù)主要是用戶行為信息.良好的用戶興趣模型有利于個性化推薦,本文設計的用戶興趣模型具有指向性和持久性.用戶興趣模型亦用向量空間模型表示,在結構上與新聞文檔模型一致,如式(3):
其中,UIMi表示用戶Ui的用戶興趣模型,Cj表示用戶感興趣的類別,Wj表示該用戶對該類別感興趣的程度,即權重.如:{(軍事,0.2),(經濟,0.1),(食品安全,0.2),……}.
在文獻中,研究了用戶興趣模型的建立、更新、降維和興趣度的歸一化處理等問題,在此不再細述.[6]
考慮到用戶評價的惰性和被動性,在該系統(tǒng)中,設置一個“我感興趣”按鈕.如果用戶點擊“我感興趣”按鈕,則可直接判斷用戶對該類新聞感興趣;如果用戶未點擊該按鈕,則根據(jù)用戶在頁面的停留時間來判斷.一個人的正常閱讀速度是在每分鐘100字到300字左右.如果用戶的停留時間遠遠小于正常閱讀的時間,說明用戶對該類新聞不感興趣;如果用戶的停留時間遠遠大于正常閱讀的時間,同樣說明用戶對該類新聞不感興趣,因為用戶已離開電腦或者是在做其他操作.有用戶行為反饋的基礎上,動態(tài)更新用戶興趣模型.
建立用戶興趣模型的AJAX代碼如圖2所示:
圖2 建立用戶興趣模型
動態(tài)更新用戶興趣模型的AJAX代碼如圖3所示:
圖3 更新用戶興趣模型
系統(tǒng)根據(jù)用戶的注冊信息建立用戶的初始化興趣模型.并依據(jù)該模型進行新聞推薦,同時根據(jù)用戶的行為對用戶興趣模型動態(tài)更新.這樣用戶可以不用花時間從大量的新聞中去尋找自己感興趣的新聞.
用戶興趣模型和新聞文檔模型都是基于向量空間的表示方法,利用向量空間模型的相似度計算得到與用戶興趣模型匹配的新聞文檔集,并完成新聞推薦.關鍵代碼見圖4:
推薦系統(tǒng)向用戶推薦新聞,可以向同一用戶推薦多條新聞,也可以向多個用戶推薦同一新聞.不同的用戶收到新聞后,會表現(xiàn)出不同的興趣度,其具體表現(xiàn)在用戶的不同的眼神和面部肌肉表情中.對于系統(tǒng)向用戶推薦的新聞,假設共得到n人次的用戶體驗,且第i人次用戶體驗的興趣度為Ii(已進行了歸一化處理),則定義推薦系統(tǒng)的推薦效率即命中率h為:
該式表明,系統(tǒng)推薦命中率的計算總是從第一條信息開始的.初期的較低的推薦命中率對后期的推薦命中率有較大的影響.總的說來,推薦系統(tǒng)的命中率高,則推薦效率高,用戶體驗好.對于商品廣告信息則可以增加廣告點擊率,提高銷售業(yè)績.
圖5 命中率測試
在三種情況下對該系統(tǒng)進行了推薦命中率測試.I類,對用戶進行隨機的新聞推薦;II類,對沒有興趣愛好等相關注冊信息的用戶進行的個性化新聞推薦;III類,對提交了興趣愛好等注冊信息的用戶進行的個性化新聞推薦.以各推薦100條新聞進行測試,得到的推薦命中率變化曲線如圖5所示:
由圖可知:
I類的命中率(虛線)在0.5上下波動;
在初期,III類的命中率(粗實線)明顯高于II類的命中率(細實線);
在經過一定數(shù)量的新聞推薦過后,II類和III類都經過了多次用戶興趣模型更新,推薦命中率明顯提高,并逐漸接近同一個常數(shù).
個性化推薦系統(tǒng)在商業(yè)領域有著很好的應用前景.好的推薦系統(tǒng),既能做到“有的放矢”的推薦,還能讓用戶有良好的體驗.在新聞推薦系統(tǒng)中,用戶興趣模型的建立和更新是根本,推薦算法是關鍵.在實際應用中,考慮到用戶興趣愛好的多元性,多渠道的綜合推薦算法更有利于發(fā)現(xiàn)用戶的新的興趣點,從而創(chuàng)造新的商機.
[1]Goldberg D,Nichols D,Oki B,et al.Using Collaborative Filtering to Weave an Information Tapestry[J].Communications of t he ACM,1992(12):61270
[2]柏林森,蘇 萌.百分點個性化推薦引擎[EB/OL].http://baike.baidu.com/view/4362864.htm,2013102119.
[3]Lieberman H,Dyke N V,Vivacqua A.Let's Browse:Acollaborative Web Browsing Agent[J].International Conference on Intelligent User Interfaces,Los Angeles:ACM Press,1999:318.
[4]Bamshad Mobasher,Robert Cooley,Jaideep Srivastava.Automatic Personalization Based on Web Usage Mining[J].Communications of the ACM,2000(8):142-151.
[5]Salton G,McGill M J.Introduction to Modern Information Retrieval[J].NewYork:McGraw Hill,1983:147.
[6]蒲國林,楊清平,王 剛,等.基于語義的個性化用戶興趣模型[J].計算機科學,2008(7):181-184.