• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于動態(tài)用戶畫像的信息推薦研究①

      2018-06-14 08:49:24吳翔宇解本巨
      計算機系統(tǒng)應用 2018年6期
      關鍵詞:查準率特征詞詞頻

      劉 勇,吳翔宇,解本巨

      1(青島科技大學 信息科學技術學院,青島 266061)

      2(青島惠澤創(chuàng)建信息新技術有限公司,青島 266000)

      “信息過載 (information overload)”[1]效應是互聯(lián)網(wǎng)高速發(fā)展的副產(chǎn)物,為了解決“信息過載”問題,研究人員提供了兩種方案,一種是搜索引擎,另一種為推薦系統(tǒng).前者通過檢索關鍵字對海量信息進行篩選,列出用戶可能用到的信息列表供用戶選擇;后者通過綜合分析用戶歷史數(shù)據(jù)(興趣、行為)、用戶所在場景、環(huán)境等,把用戶最為感興趣的內(nèi)容主動推送給用戶,相較于前者,推薦系統(tǒng)的普適性、智能化程度以及精準度都存在一定的優(yōu)勢[2].現(xiàn)如今推薦技術已經(jīng)成為學術研究的熱點之一,在社交網(wǎng)絡、電子商務、廣告投放等諸多領域獨占鰲頭[3].

      目前主流的推薦方法可以分為:基于內(nèi)容的推薦(content-based recommendation)、基于協(xié)同過濾的推薦(collaborative filtering-based recommendation)、基于知識的推薦(knowledge-based recommendation)以及組合推薦(hybrid recommendation)[4].針對應用場景和環(huán)境的不同可以選擇不同的推薦方式.

      在網(wǎng)絡信息推薦領域,用戶和信息交互只存在瀏覽行為,并沒有對項目進行評分,用戶的興趣偏好隱含在瀏覽歷史當中,所以必須通過分析用戶行為來挖掘用戶的興趣[5].傳統(tǒng)的基于標簽的信息推薦,通過分析用戶瀏覽記錄給用戶打上“興趣-權重”標簽然后進行推薦,在一定程度上忽略了用戶興趣的變化趨勢,隨著時間的推移,推薦精度往往會降低,影響用戶體驗.

      所以,要想提高信息推薦的精度,需要一種可以隨時間增長,動態(tài)更新用戶推薦候選項的方法,基于這個設想,本文提出一種基于動態(tài)用戶畫像的方法,該方法建立在文本分類和用戶行為動態(tài)分析的基礎上,后續(xù)相關實驗證明了該方法的可行性.

      1 文本處理和分類

      在進行文本信息的推薦之前,首先要對推薦集合中的文本進行處理.本文使用支持向量機(SVM)文本分類法[6,7]對文本進行分類處理,其核心思想是在n維向量空間內(nèi)尋找一個最優(yōu)分類的超平面,表示為:

      SVM文本分類的主要步驟大致可以分為:文本特征提取、文本特征表示、文本分類.

      1.1 文本特征提取

      首先對文本進行分詞,然后對文本中的停用詞和單字詞進行過濾.計算給定文本中詞語的詞頻:

      其中,ni,j為 該詞在文本dj中出現(xiàn)的次數(shù),分母為總詞語量.選取特征之前,假設每個特征具有獨立性,然后選取若干詞頻較高的詞語作為該文本的特征詞集合,將文本表示為n維特征向量:

      其中,n為選取詞語的個數(shù).

      1.2 文本特征表示

      特征詞的權重使用TF-IDF公式進行計算,公式如下所示:

      其中,t fik表示詞tk在文本中的詞頻,N為所有的文本,nk為包含特征詞tk的文本數(shù).

      1.2.1 歸一化處理

      因為文本長度偏差會影響特征詞的權重計算,所以要進行歸一化處理,將選定的特征詞權重規(guī)范到一定區(qū)間內(nèi),其公式為:

      其中,t f?為標準化后的詞頻,m in為該特征詞在所有文本中的最小詞頻,max為最大詞頻.

      1.3 文本分類

      通過上述過程計算就可以得到文本的n維特征向量:

      其中,ti表示特征詞,wi(d)為該詞在文本中的權重,n為特征詞的個數(shù).

      由上述步驟就可以將文本量化為可進行計算的數(shù)據(jù)結構,然后通過相似度計算就可以確定目標文本的所屬分類,經(jīng)文本處理和分類后的文檔集可以表示為如下的向量集:

      其中,d ocumentCollection為向量余弦相似度較高的一類文本集合,N?為不含0的自然數(shù)集.

      2 動態(tài)用戶畫像

      2.1 用戶畫像

      用戶畫像是通過綜合分析用戶數(shù)據(jù),抽象出的一個可代表用戶各項維度的標簽模型,其中維度一般包括:人口統(tǒng)計學維度、興趣維度和商業(yè)維度,形式如圖1所示.

      圖1 用戶畫像

      在本文的研究場景中,用戶瀏覽過程一般是匿名的,所以可得到的用戶人口統(tǒng)計學維度信息較少,而用戶的瀏覽歷史數(shù)據(jù)相對容易獲取,這使得建立用戶興趣模型成為可能.

      2.2 引入動態(tài)用戶畫像

      隨著時間的推移,用戶瀏覽歷史的文本集合不斷擴大,用戶的興趣標簽權重會發(fā)生變化,如果不能更新興趣標簽的權重,會導致推薦精度下降,所以必須通過一定的方式更新用戶的興趣標簽集.

      為了方便表示用戶興趣維度,本文采用一個n維元組[8]表示用戶興趣標簽集,其形式表示為:

      其中l(wèi)abeli代表用戶興趣標簽.

      用戶興趣維度的n維特征向量可表示為:

      設用戶興趣標簽集為查詢向量:

      通過計算查詢向量和推薦集中的文檔向量的相似度,來決定是否將文本推薦給目標用戶.本文選用余弦相似度來度量兩向量的相似程度:

      隨著用戶的瀏覽集合不斷擴大,能代表用戶興趣的標簽的權重會隨時間推移而發(fā)生變化,通過動態(tài)的分析用戶的瀏覽行為,在一定程度上可以預測用戶的興趣變化.

      為了更好的預測用戶的興趣的變化趨勢,提高推薦的精度,本文使用貝葉斯動態(tài)線性模型對用戶興趣維度進行預測,下面給出模型定義:

      其中,yt為t時刻的觀測值;θt為未知的狀態(tài)向量;Ft為已知的n維向量,用來描述觀測數(shù)據(jù)和狀態(tài)之間的關系;vt為觀測誤差值;wt為狀態(tài)誤差值,且vt和wt相互獨立.

      對用戶瀏覽集合U進行采樣,

      時間間隔為

      觀測序列為

      由模型定義給出其一步預測和后驗分布:

      通過后驗信息不斷修正先驗信息,求得預測值,根據(jù)預測值更新用戶畫像興趣維度的標簽權重,從而更新用戶興趣集U,由公式(5)計算更新后的興趣集與文檔向量的余弦相似度,當相似度大于0.6時將該文本信息推薦給用戶.

      3 實驗分析

      3.1 實驗數(shù)據(jù)

      本文通過網(wǎng)絡爬蟲抓取某信息分享平臺200用戶的交互信信息,其中包括個人主頁信息、關注人URL、收藏、個人動態(tài)、關注領域等信息.為了高效的提取網(wǎng)頁文本信息,使用行塊分布函數(shù)對網(wǎng)頁文本內(nèi)容進行抽取.

      本文分別對傳統(tǒng)的基于標簽的信息推薦(Basedon Label Recommendation,BLR)和基于動態(tài)用戶畫像的推薦( Based-on Dynamic User Portrait Recommendation,BDUPR)進行實驗,前者直接通過分析全部的用戶瀏覽集合進行用戶的偏好計算,后者通過對用戶瀏覽集進行分時段采樣,動態(tài)計算用戶的興趣偏好.

      3.2 評價標準

      預測準確度有3類[9]:評分預測準確度評測、使用預測準確度評測、物品排名預測準確度評測.在本文的應用場景中,推薦并不預測用戶對項目的偏好(評分),而是用戶是否點擊(收藏、關注等)被推薦的信息,所以選用“使用預測準確度評價”作為本文方法的評價標準.

      為用戶推薦的內(nèi)容可能有下列幾種情況:

      表1 結果分類

      通過統(tǒng)計上表數(shù)值,計算如下比率:

      在實際推薦中,用戶的瀏覽量十分有限且推薦集中的文本數(shù)量較多,所以這里選用查準率作為驗證標準.

      3.3 實驗結果

      推薦列表長度對多用戶平均查準率具有較大的影響,如果取值太則小無法說明推薦方法的可行性,取值過大會造成結果難以預估[2](查準率可能偏大也可能偏小).圖2為推薦列表長度與查準率的關系:

      圖2 查準率

      測試列表長度的實驗條件是優(yōu)化過的,所以查準率可能較高.經(jīng)過多次試驗最后設定列表長度為100,那么兩種推薦方式的查準率和時間序列的關系如圖3所示.

      圖3 查準率對比

      從圖中可以看出,在時間序列的一開始,BDUPR的查準率并不理想,這是因為訓練集數(shù)量較小,所以查準率偏低,但隨著時間序列的增長,訓練集不斷增加,成上升趨勢,開始趨于平穩(wěn).BLR在推薦的一開始具有較高的查準率,這是因為BLR在推薦進行之前就將全部的用戶歷史數(shù)據(jù)量化,用于構建用戶的興趣模型,其文檔訓練集數(shù)據(jù)要多于BDUPR的分時段采樣訓練集合,所以在靠前的推薦周期當中,BLR的推薦準確率要高于BDUPR,但隨著時間推移,用戶興偏好會發(fā)生一定的變化,致使BLR的推薦準確率降低.

      兩種方法在進行實驗過程中都存在一定的數(shù)據(jù)波動,可能有以下幾個原因:用戶群體中部分用戶的興趣點差距很大,導致平均查準率偏低;由于網(wǎng)絡信息更新速度較快,用戶興趣波動較大.

      4 結束語

      本文研究的基于動態(tài)用畫像的推薦在捕捉用戶興趣變化方面較靜態(tài)推薦有一定優(yōu)勢,但在新異推薦方面還存在不足:建立用戶興趣模型的數(shù)據(jù)全部來源于用戶和服務器的歷史交互數(shù)據(jù),對于那些用戶之前從未接觸過的信息,存在冷啟動問題.

      1 王國霞,劉賀平.個性化推薦系統(tǒng)綜述.計算機工程與應用,2012,48(7):66-76.

      2 吳麗花,劉魯.個性化推薦系統(tǒng)用戶建模技術綜述.情報學報,2006,25(1):55-62.

      3 孟祥武,劉樹棟,張玉潔,等.社會化推薦系統(tǒng)研究.軟件學報 ,2015,26(6):1356-1372.[doi:10.13328/j.cnki.jos.00 4831]

      4 許海玲,吳瀟,李曉東,等.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究.軟件學報,2009,20(2):350-362.

      5 史艷翠,戴浩男,石和平,等.一種基于時間戳的新聞推薦模型.計算機應用與軟件,2016,(6):40-43.[doi:10.3969/j.issn.1000-386x.2016.06.010]

      6 王正鵬,謝志鵬,邱培超.語義關系相似度計算中的數(shù)據(jù)標準化方法比較.計算機工程,2012,38(10):38-40.[doi:10.3969/j.issn.1007-130X.2012.10.008]

      7 張征杰,王自強.文本分類及算法綜述.電腦知識與技術,2012,8(4):825-828,841.

      8 王智囊.基于用戶畫像的醫(yī)療信息精準推薦的研究[碩士學位論文].成都:電子科技大學,2016.

      9 Ricci F,Rokach L,Shapira B,et al.Recommender Systems Handbook.2nd ed.北京:機械工業(yè)出版社,2015

      猜你喜歡
      查準率特征詞詞頻
      基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
      園林科技(2021年3期)2022-01-19 03:17:48
      基于數(shù)據(jù)挖掘技術的網(wǎng)絡信息過濾系統(tǒng)設計
      基于改進TFIDF算法的郵件分類技術
      大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
      產(chǎn)品評論文本中特征詞提取及其關聯(lián)模型構建與應用
      基于深度特征分析的雙線性圖像相似度匹配算法
      詞頻,一部隱秘的歷史
      面向文本分類的特征詞選取方法研究與改進
      云存儲中支持詞頻和用戶喜好的密文模糊檢索
      以關鍵詞詞頻法透視《大學圖書館學報》學術研究特色
      圖書館論壇(2014年8期)2014-03-11 18:47:59
      临泉县| 浮山县| 天等县| 休宁县| 万山特区| 香格里拉县| 平和县| 凌云县| 泰来县| 东海县| 肥东县| 华容县| 双江| 腾冲县| 黔南| 白河县| 平凉市| 浪卡子县| 江达县| 改则县| 贵德县| 彭阳县| 宝鸡市| 迁安市| 麻栗坡县| 启东市| 保定市| 区。| 武陟县| 云梦县| 青田县| 正定县| 连平县| 贞丰县| 仙居县| 海阳市| 霍州市| 沁水县| 邻水| 承德市| 横峰县|