• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于隱變量模型的多維用戶偏好建模

    2017-09-22 09:28:24王珊蕾岳昆武浩田凱琳
    關鍵詞:數(shù)據(jù)量變量節(jié)點

    王珊蕾,岳昆,武浩,田凱琳

    (1.云南大學信息學院,昆明650500;2.西南林業(yè)大學圖書館,昆明,650224)

    基于隱變量模型的多維用戶偏好建模

    王珊蕾1,岳昆1,武浩1,田凱琳2

    (1.云南大學信息學院,昆明650500;2.西南林業(yè)大學圖書館,昆明,650224)

    從用戶行為數(shù)據(jù)構建用戶偏好模型,是解決個性化服務、評分預測和用戶行為定向等問題的重要基礎.本文從用戶的評分數(shù)據(jù)出發(fā),以多個隱變量分別描述用戶在評分對象多個維度的偏好,以含有多個隱變量的貝葉斯網(wǎng)(簡稱隱變量模型)作為表示用戶偏好的基本知識框架.首先根據(jù)用戶偏好和隱變量的特定含義給出模型構建的約束條件,進而提出基于約束條件的模型構建方法,使用約束條件下的EM算法來計算模型參數(shù),約束條件下的SEM算法來構建模型結構.針對多隱變量情形下模型構建過程中產(chǎn)生大量中間數(shù)據(jù)帶來的計算復雜度急劇上升的問題,本文使用Spark計算框架實現(xiàn)模型構建的方法.建立在Movielens數(shù)據(jù)集上的實驗表明,本文提出的方法是有效的.

    評分數(shù)據(jù);多維偏好;隱變量;貝葉斯網(wǎng);Spark

    0 引言

    隨著移動互聯(lián)網(wǎng)和Web2.0的快速發(fā)展,互聯(lián)網(wǎng)已經(jīng)滲入到人們生活工作的方方面面,隨之產(chǎn)生了大量的用戶行為數(shù)據(jù).例如,用戶的位置信息數(shù)據(jù)、用戶對電影或音樂的評分數(shù)據(jù)、電子商務應用中用戶對商品做出評價而產(chǎn)生的用戶評分數(shù)據(jù),這些數(shù)據(jù)的不斷產(chǎn)生使得用戶行為建模成為可能.用戶行為建模對個性化信息服務、行為定向等問題的解決有重要的作用;分析用戶行為數(shù)據(jù),建立用戶偏好模型是實現(xiàn)和提供這些服務的基礎和關鍵,具有重要意義.

    一般的用戶評分數(shù)據(jù)包含用戶屬性信息、評分對象屬性信息以及用戶評分.用戶偏好是用戶對事物的喜好或傾向性的選擇,不能被直接觀測到.用戶評分數(shù)據(jù)反映了用戶偏好,用戶偏好也從一定程度上決定了用戶的評分.實際中,用戶對事物的喜好或傾向選擇會受到事物本身所固有的多個屬性的影響.例如,MovieLens數(shù)據(jù)集[1]包括用戶信息、電影信息和評分,電影信息包括多個維度的電影屬性,如年代、類型、語言等;而用戶對每個維度的電影屬性都會有相應的喜好或傾向,形成了多個維度的用戶偏好.這意味著,用戶對電影最終的傾向會受多維偏好的影響,對多維偏好的分析是獲得精確用戶傾向或喜好的必要條件.同時,多個維度的用戶偏好之間也可能相互影響,這使得準確描述多維偏好、建立用戶偏好模型具有實際意義,也具有一定的挑戰(zhàn).

    近年來,關于多維用戶偏好建模已經(jīng)有了一些研究,使用向量模型或主題模型等表達多維用戶偏好[2-6].例如,LDA(Latent Dirichlet Allocation)[4]是一種具有代表性的主題模型, SVD(Singular Value Decomposition)[6]是協(xié)同過濾中常見的評分預測算法,這些模型能夠表達預先給定的依賴關系.但是,評分數(shù)據(jù)中各個屬性間存在相互影響的依賴關系,且具有不確定性,例如,評分、用戶屬性以及電影屬性之間會相互影響,且影響的方向以及程度不確定.這些模型能夠表達預先給定的依賴關系,但評分數(shù)據(jù)中任意的、不確定性的依賴關系的表示,還需進一步探索.

    貝葉斯網(wǎng)(BN,Bayesian Network)[7]是由一組節(jié)點構成的有向無環(huán)圖(DAG,Directed Acyclic Graph),其中每個節(jié)點都有一個條件概率表(CPT,Conditional Probability Table). BN是表達屬性間任意的依賴關系以及不確定性的有效工具[8],且具有優(yōu)秀的推理能力.使用隱變量描述用戶偏好,將隱變量引入BN構成含隱變量的BN,簡稱為隱變量模型(LVM, Latent Variable Model),是本文研究的基本思想.為了客觀有效地描述評分數(shù)據(jù)中任意的、不確定的依賴關系,我們以多個隱變量分別描述多個維度的用戶偏好,以隱變量模型作為表示各變量之間依賴關系的基本知識框架,進而從用戶評分數(shù)據(jù)構建隱變量模型.

    隱變量無法被直接觀測到[9],參數(shù)的計算需要先對隱變量進行填充,不能直接使用最大似然估計來計算參數(shù).期望最大算法(EM,Expectation Maximization)[10]是一種可以對隱變量進行填充并尋找參數(shù)最大似然或最大后驗概率的有效算法.結構期望最大算法(SEM,Structure Expectation Maximization)[11]是一種結合了EM算法的結構打分搜索方法,能夠在EM迭代中直接優(yōu)化打分,可以有效的構建隱變量模型的結構.基于此,本文基于EM算法提出隱變量模型參數(shù)的計算方法,基于SEM算法提出結構的構建方法.

    一方面,SEM算法和EM算法的運行結果均會受初始結構和約束條件的影響[12]. Friedman等[11]指出,隨機的初始結構會導致SEM算法很難得到一個有意義的運行結果. Jin等[13]也已經(jīng)證明,隨機初始參數(shù)也會導致EM算法容易收斂到局部極值點.基于此,為了保證模型構建的有效性,本文對EM算法和SEM算法進行了擴展,從初始值的約束限定出發(fā),提出了基于約束條件的模型構建方法.另一方面,EM算法和SEM算法的執(zhí)行,都涉及大量的迭代計算,而每一次迭代計算又涉及NP困難的概率計算,計算復雜度較高.Spark是一種基于內(nèi)存的并行計算框架,所有中間結果暫存在內(nèi)存中,可以處理高復雜度的問題,而且擅長迭代計算.基于此,本文使用Spark計算框架實現(xiàn)基于約束的EM算法以及基于約束的SEM算法的并行執(zhí)行.

    總的來說,本文的主要內(nèi)容可以概括如下:

    ?從用戶評分數(shù)據(jù)出發(fā),用多個隱變量分別表示多個維度的用戶偏好,以含多隱變量的貝葉斯網(wǎng)(隱變量模型)來構建多維偏好模型.

    ?提出約束條件下的模型構建方法,包括約束下的參數(shù)計算方法以及約束下的結構構建方法,并利用Spark實現(xiàn)模型構建方法.

    ?建立在MovieLens數(shù)據(jù)集上的實驗,驗證了本文方法的高效性和有效性.

    1 相關工作

    從評分數(shù)據(jù)出發(fā)構建偏好模型方面,Zhao等[14]提出評價數(shù)據(jù)較少情形下的商品服務評估模型.文獻[15]基于上下文感知的方法來獲取用戶偏好.文獻[16]以條件偏好網(wǎng)絡模型來構建用戶偏好.文獻[17]基于上下文最小二乘支持向量機來構建用戶偏好.在多維偏好建模方面,也出現(xiàn)了大量研究.Kassak[2]等以對象的多個屬性特征來描述對象,以向量描述多維偏好.Zhao等[5]融合了類型主題模型和地域主題模型,構建了一種二維偏好模型(對地域的偏好和對類型的偏好).這些方法只能表達預先給定的相互影響的依賴關系,而數(shù)據(jù)中任意形式的依賴關系的表示,還需進一步研究.

    基于BN或隱變量模型的單維用戶偏好建模方面,Kim等[9]用隱變量表示用戶的評價行為,用含隱變量的BN來構建偏好模型.Gao等[18]用隱變量描述用戶對電影類型的偏好,進而構建偏好模型.Huang等[19]從旅游的領域知識構建BN,在此基礎上估計用戶的旅游偏好. Chapelle等[20]使用隱變量刻畫用戶興趣,預定義模型的結構,提出了用以描述用戶點擊行為的動態(tài)貝葉斯網(wǎng)模型.這些方法為我們的研究提供了參考,但是以隱變量模型為基本框架來構建多維偏好模型的方法還需進一步研究.

    在利用BN進行多維偏好建模方面,Huete等[21]用BN表示用戶畫像,將用戶對商品多個維度的評分視為隱變量,根據(jù)各維度評分與最終評分之間的特定關系構建BN結構,進而根據(jù)BN的推理來預測商品的評分.Auf f enberg等[22]用多個隱變量來刻畫用戶應對溫度變化可能的多個類型的傾向選擇,以給定的依賴關系來構建BN結構.上述基于隱變量模型的偏好建模方法,以隱變量表示用戶偏好,以含隱變量的BN來構建偏好模型,這些方法為我們的研究提供了參考,但通常是先給定BN的圖結構.以隱變量模型為基本框架,從評分數(shù)據(jù)構建能客觀表達不確定性的多維偏好模型,還需進一步研究.

    基于數(shù)據(jù)分析的隱變量模型構建方面,我們[23]基于MapReduce模型,從打分搜索的方法入手,以MDL的數(shù)值來打分選擇貝葉斯網(wǎng)模型.Yoshinori等[24]對搜索空間進行了分布式的處理,基于動態(tài)規(guī)劃的思想提出了一種最優(yōu)結構的搜索算法.這些隱變量模型構建方法為本文的研究提供了參考,但針對含多個隱變量的BN構建方法還需進一步探索.

    2 相關定義

    R={r1,r2,…,rk}是用戶對評分對象的評分集合,S={S1,S2,…,Sm}為用戶屬性的集合,I={I1,I2,…,In}為評分對象屬性的集合,隱變量的集合L表示用戶的n維偏好,L={L1,L2,…,Ln}.Ii為評分對象第i個屬性的取值.Li表示用戶對第i個屬性的偏好(1≤i≤n),即用戶對評分對象第i個屬性所傾向的取值.Li,Ii∈{ai1,ai2,…,aili},li為第i個屬性的可能取值個數(shù).

    例如,電影評分數(shù)據(jù)中,R={1,2,3,4,5},S1∈{男,女};S2∈{律師,醫(yī)生,教師};I1,L1∈{動作,喜劇};I2,L2∈{80年代,90年代};I3,L3∈{英語,漢語}.對于一條評分數(shù)據(jù),用戶屬性描述為S={S1(性別)=女,S2(職業(yè))=律師},評分對象屬性描述為I={I1(類型)=動作, I2(年代)=90年代,I3(語言)=英語},用戶對評分對象各屬性的偏好描述為L={L1(類型)=動作,L2(年代)=90年代,L3(語言)=漢語}.

    下面給出多維偏好模型的形式化定義.

    定義1一個多維用戶偏好模型是一個含多個隱變量的貝葉斯網(wǎng),即多維隱變量模型(MLVM,Multiple Latent Variables Model),表示為二元組(φ,θ),其中:

    ?φ=(V,E)是模型的有向無環(huán)圖結構,其中,V為圖中節(jié)點的集合,V=S∪L∪I∪R. E是有向邊的集合,節(jié)點間的邊表示的變量之間的直接依賴關系.

    ?θ是模型的參數(shù)(即CPT)集合,θ表示為聯(lián)合概率P(X1=x1,X2=x2,…,Xn=xn)為所有節(jié)點的條件概率的乘積.

    3 多維用戶偏好模型的構建

    3.1 約束條件

    為了保證模型構建的有效性,本文對EM算法和SEM的初始值進行約束限定.本文從用戶評分數(shù)據(jù)出發(fā),根據(jù)用戶偏好和隱變量的特定含義給出模型構建的初始值需要滿足的約束條件.

    約束1第i維的偏好L表達用戶對第i維屬性Ii的傾向,多維偏好和評分對象的多個屬性一一對應;用戶屬性{S1,S2,…,Sm}不依賴于其它變量.如圖1所示.

    約束2用Li=Ii描述用戶的第i維偏好和對象的第i個屬性取值相一致的情形. {L1,L2,…,Ln}與{I1,I2,…,In}各維度取值相一致的屬性總數(shù)為n1,不一致的屬性總數(shù)為n2,0≤n1,n2≤n,n1+n2=n.若n1>n2,則用戶更可能傾向或喜好該對象會打高分,反之打低分.這一約束用公式(1)描述:

    圖1 結構約束Fig.1 Structural constraint

    3.2 基于約束條件的參數(shù)計算

    EM算法從一個隨機初始參數(shù)開始,先對數(shù)據(jù)集中隱變量的值進行填充,然后計算并更新參數(shù),迭代直至收斂.假設數(shù)據(jù)集Dt中一次用戶評分記錄為一個樣本,若已經(jīng)進行了t次迭代,第t+1次迭代的執(zhí)行過程由E-步和M-步完成.

    E-步

    首先,根據(jù)當前缺值數(shù)據(jù)集Dt以及當前參數(shù)集θt填充數(shù)據(jù)集.根據(jù)公式(2)計算不同隱變量取值組合的概率,使用該取值及概率來填充數(shù)據(jù).

    其中,L表示隱變量的集合,j表示隱變量取值的集合.

    M-步

    然后,使用公式(4)計算本次迭代所求的參數(shù)值θt+1.

    為了確保收斂的效率,我們給定一個閾值來度量兩次迭代所得參數(shù)的相似程度.如公式(5)所示,ln P(Dt+1|θt+1)和ln P(Dt|θt)分別是第t+1次和第t次迭代所得參數(shù)的對數(shù)似然函數(shù),若S(θt,θt+1)<?(?為參數(shù)相似度閾值),則認為參數(shù)已經(jīng)收斂,迭代結束.

    EM算法迭代的每一步,都會對隱變量的值進行填充、并生成新的CPT.每個隱變量都有多個可能的填充值,對所有隱變量的值進行填充后,評分數(shù)據(jù)集中的數(shù)據(jù)量隨隱變量個數(shù)的增加呈階乘數(shù)量級增長.同時,隱變量CPT的規(guī)模也隨隱變量父節(jié)點個數(shù)的增加呈階乘數(shù)量級擴大.數(shù)據(jù)填充時大量的中間結果及對其頻繁的讀寫操作,對數(shù)據(jù)存儲及讀寫速度提出了新挑戰(zhàn),傳統(tǒng)的單任務計算框架已經(jīng)無法滿足需求.

    因此,本文基于Spark框架設計了并行的參數(shù)計算方法.首先隨機產(chǎn)生一組滿足約束2的初始參數(shù);然后,以這組參數(shù)作為EM算法的初始值,執(zhí)行以下步驟.

    1)數(shù)據(jù)集被分割成q個數(shù)據(jù)塊,并分配給q個Map函數(shù).針對每個數(shù)據(jù)塊中的每個樣本,根據(jù)公式(2)進行樣本數(shù)據(jù)填充,然后收集每個Map函數(shù)的結果,根據(jù)公式(3)計算充分統(tǒng)計量.

    2)根據(jù)公式(4)計算參數(shù).

    步驟1)和2)迭代執(zhí)行,直至收斂,執(zhí)行流程如圖2所示,上述思想見算法1.

    例如,表1給出了用戶評分數(shù)據(jù)片段的示例,L1和L2分別有0和1兩種取值可能.以圖3(a)為模型當前結構,執(zhí)行算法1,迭代一次得到的參數(shù)如圖4所示,對樣本ID為0的樣本進行隱變量值的填充,結果如表2所示.評分R依賴于L1、L2、I1和I2,R的條件概率表如圖3(b)所示.

    表1 數(shù)據(jù)集片斷Tab.1 Fragment of data set

    表2 填充后數(shù)據(jù)Tab.2 Filled data

    圖3 當前結構和部分參數(shù)Fig.3 Current structure and partial parameters

    圖4 參數(shù)集Fig.4 Set of parameters

    3.3 基于約束的結構構建

    SEM算法是一種基于打分搜索的結構構建算法,貝葉斯信息準則(BIC,Bayesian Information Criterion)是一種常用的有效打分標準,能在缺值樣本前提下對結構進行打分.其計算公式如公式(6)所示.

    其中,i、j和k分別表示節(jié)點編號、i節(jié)點父節(jié)點的取值組合和i節(jié)點的取值,N表示樣本個數(shù),mijk表示充分統(tǒng)計量,mij表示充分統(tǒng)計量按k求和.SEM的基本思想是遍歷每個節(jié)點,對于每一個節(jié)點做加、減、轉(zhuǎn)邊的操作產(chǎn)生一系列候選模型.接著,根據(jù)公式(6)對候選模型進行BIC打分,挑選分數(shù)最高的候選模型作為當前模型.最后,構建當前結構的參數(shù).迭代直至所有節(jié)點遍歷結束.

    本文基于Spark框架設計模型結構構建的并行算法.首先從約束1出發(fā),隨機產(chǎn)生一組滿足約束1的初始結構,然后隨機生成一組滿足約束2的初始參數(shù).以生成的初始參數(shù)和結構作為SEM算法的初始值,對每個節(jié)點:

    1)調(diào)用算法1對數(shù)據(jù)集中的隱變量值進行填充,并將充分統(tǒng)計量持久化(保存直至本次迭代結束),以便計算BIC分數(shù)值.收集完整數(shù)據(jù)集以及充分統(tǒng)計量,通過加、減和轉(zhuǎn)邊生成一系列候選模型.

    2)為每個候選模型分配一個Map函數(shù),由步驟1)得到充分統(tǒng)計量計算候選模型的BIC分數(shù);收集每個Map函數(shù)的結果,選擇BIC分數(shù)最大的作為當前模型,并調(diào)用算法1構建參數(shù).

    上述步驟1)和2)迭代執(zhí)行,直到所有節(jié)點遍歷結束.上述思想見算法2.

    例如,圖5為當前模型及參數(shù),執(zhí)行算法2,對節(jié)點S1操作,通過加、減、轉(zhuǎn)邊得到一系列候選模型,若圖6(a)結構的BIC分值最大,則選取為當前模型.

    圖5 當前結構和參數(shù)Fig.5 Current structure and parameters

    圖6 候選結構Fig.6 Candidate structure

    4 實驗結果

    本文使用MovieLens數(shù)據(jù)集[1]作為測試數(shù)據(jù),包括3 952條電影信息數(shù)據(jù),1 000 209條評分數(shù)據(jù)以及6 040條用戶信息.預處理后的數(shù)據(jù)集共有1 000 209行,每行數(shù)據(jù)是一次用戶評分記錄;每行數(shù)據(jù)都有2個用戶屬性,5個電影屬性以及1個評分值.實驗環(huán)境如下:在兩臺主頻2.3 GHZ的雙路HP服務器上開辟了7臺虛擬機,1臺作為主節(jié)點、其余6臺作為計算節(jié)點搭建Spark集群;主節(jié)點分配4個CPU核心16 GB內(nèi)存,每個計算節(jié)點分配8個CPU核心16 GB內(nèi)存,將一個CPU計算核心簡稱為C.

    4.1 參數(shù)計算效率測試

    我們首先測試了隱變量模型包括7個節(jié)點(其中2個隱變量)情況下,不同計算核心個數(shù)、不同數(shù)據(jù)量情形下算法1的執(zhí)行時間,如圖7所示.可以看出,算法1的執(zhí)行時間隨著數(shù)據(jù)量的增大而增加,并且計算節(jié)點越多執(zhí)行時間越少.這說明算法1能夠在較大數(shù)據(jù)量情形下能有效地學習隱變量模型的參數(shù),且具有較好的可擴展性.

    圖7 算法1的執(zhí)行時間Fig.7 Execution time of Algorithm 1

    加速比是串行算法的執(zhí)行時間與并行算法的執(zhí)行時間的比值.隨著數(shù)據(jù)量的增加,算法1在不同計算核心時的加速比如圖8所示.可以看出,算法1的加速比隨計算核心的增多而增大,隨數(shù)據(jù)量的增大而逐漸穩(wěn)定,這說明算法1有較好的可擴展性.

    圖8 算法1的加速比Fig.8 Speedup ratio of Algorithm 1

    然后,我們測試了10萬行數(shù)據(jù)時,隱變量個數(shù)對算法1執(zhí)行時間的影響.如圖9所示,算法1的執(zhí)行時間隨隱變量的個數(shù)增加呈階乘數(shù)量級增加,其原因在于隱變量的增加會使得填充后的數(shù)據(jù)量呈階乘數(shù)量級增加,算法1的執(zhí)行時間也隨之上升.

    圖9 隱變量個數(shù)增加時算法1的執(zhí)行時間Fig.9 Execution time of Algorithm 1 with the increase of latent variables

    接著,我們測試了10萬行數(shù)據(jù)、2個隱變量(與加速比實驗保持一致)的情況下,算法1的執(zhí)行時間與隱變量父節(jié)點個數(shù)的關系,如圖10所示.可以看出算法1的執(zhí)行時間隨隱變量父節(jié)點的增多而快速增大.這說明,隨著隱變量父節(jié)點數(shù)的增加,模型的依賴關系更加密集,條件概率表的規(guī)模成階乘數(shù)量級增大,算法1的執(zhí)行時間也隨之上升,隱變量父節(jié)點數(shù)是影響模型參數(shù)計算效率的瓶頸.

    4.2 結構構建效率測試

    類似地,本文對算法2進行了測試.首先測試隱變量模型包括7個節(jié)點(其中2個隱變量)的情況下,不同數(shù)據(jù)量情形下算法2的執(zhí)行時間,如圖11所示.可以看出,算法2的執(zhí)行時間隨著數(shù)據(jù)量的增加而增加,計算節(jié)點越多、執(zhí)行時間越少,這說明算法2在較大數(shù)據(jù)量情形下能有效地構建隱變量模型結構,且具有較好可擴展性.我們進一步測試了算法2的加速比,如圖12所示,可以看出,算法2的加速比隨計算核心數(shù)的增加而增大,說明算法2具有較好可擴展性.

    圖10 隱變量父節(jié)點數(shù)增加時算法1的執(zhí)行時間Fig.10 Execution time of Algorithm 1 with the increase of parent nodes of the latent variable

    圖11 算法2的執(zhí)行時間Fig.11 Execution time of Algorithm 2

    圖12 算法2的加速比Fig.12 Speedup ratio of Algorithm 2

    然后,我們對90萬行數(shù)據(jù),不同計算核心,隱變量模型包括7個節(jié)點(其中2個隱變量)的情況下,算法1和算法2的執(zhí)行時間進行了對比.如圖13所示,算法2的執(zhí)行時間遠高于算法1,隨著計算核心的增多,算法1和算法2的執(zhí)行時間都有明顯減少,這從一定程度上說明本文方法具有較好的可擴展性.

    圖13 執(zhí)行時間對比Fig.13 Comparison of execution time

    4.3 有效性測試

    BN的推理是用BN的結構和參數(shù)來計算條件概率P(Q|E=e),其中Q為查詢變量, E為證據(jù)變量.變量消元法是一種有效的BN推理算法[6],適用于小規(guī)模的BN的推理以及對推理精度要求較高的情況.BN工具箱(BNT)[25]是一個開源的Matlab軟件包,提供了以變量消元法為基礎的推理工具,設定模型結構和參數(shù),并確定查詢變量和證據(jù)變量,即可調(diào)用該推理工具進行推理.為了測試模型的有效性,我們從預處理過的Movielens數(shù)據(jù)集中隨機采樣70%數(shù)據(jù)做為訓練數(shù)據(jù)構建多維偏好模型,其余30%數(shù)據(jù)作為測試數(shù)據(jù).進而使用BNT中的推理工具進行推理,以評分值為查詢變量,其余變量為證據(jù)變量,以評分值后驗概率最大時的取值作為最有可能的評分值.將數(shù)據(jù)中用戶評4或5分的電影記為用戶所傾向的電影,我們對推理所得的用戶有傾向的電影和真實數(shù)據(jù)中用戶有傾向的電影進行對比.據(jù)此,我們對模型的準確性,覆蓋率和F值進行了測試.

    P re表示準確性,如公式(7)所示,num(inf erence)是推理出用戶傾向電影的數(shù)目, num(ture)是推理出有傾向且實際中也有傾向的電影數(shù)目.

    C ov表示覆蓋率,如公式(8)所示,num(sample)是實際中用戶有傾向的電影的數(shù)目, num(ture)是推理出有傾向且實際也有傾向的電影數(shù)目.

    F值反映了準確性和覆蓋率的綜合性能,如公式(9)所示.

    如圖14、圖15和圖16所示,隨著數(shù)據(jù)量的增大,準確性、覆蓋率以及F值均逐漸穩(wěn)定,這在一定程度上說明了本文所提方法的可擴展性.同時,隨著數(shù)據(jù)量的上升,應用本文模型對用戶傾向電影預測的準確性逐漸穩(wěn)定在0.57,這表明使用本模型推理出的用戶傾向符合實際的概率大于不符合實際的概率,這在一定程度上說明了本文方法的有效性.

    圖14 準確性Fig.14 Precision

    圖15 覆蓋率Fig.15 Coverage

    圖16 F值Fig.16 F score

    進一步對本文提出的模型(MLVM)與只含單隱變量的隱變量模型(LVM)、SVD和LDA的準確性、覆蓋率和F值進行了比較,分別如圖17、圖18和圖19所示.隨著數(shù)據(jù)量的增加,使用本文模型對用戶傾向電影進行預測的準確性高于其他三種模型;覆蓋率比SVD和LVM稍低,但明顯高于LDA;F值高于其他三種模型.這從一定程度上說明了本文模型的有效性.

    圖17 準確性對比Fig.17 Comparison of precision

    圖18 覆蓋率對比Fig.18 Comparison of coverage

    圖19 F值對比Fig.19 Comparison of F scores

    5 總結與展望

    本文從用戶評分數(shù)據(jù)出發(fā),分析并描述了多維用戶偏好,以多個隱變量描述用戶的多維偏好,以含有多個隱變量的貝葉斯網(wǎng)來構建多維偏好模型,并使用Spark計算框架實現(xiàn)模型構建方法,建立在真實數(shù)據(jù)上的實驗驗證了本方法的效率和有效性.本文的模型既可以表達多個維度的用戶偏好,又可以描述用戶評分數(shù)據(jù)中各屬性間任意的依賴關系,為后續(xù)的個性化等服務提供了更加準確的保證.

    本文方法構建的多維偏好模型,能夠描述多個維度的用戶偏好以及評分數(shù)據(jù)各屬性間不確定的依賴關系.但是,本文方法只能在靜態(tài)數(shù)據(jù)上進行建模,評分數(shù)據(jù)是動態(tài)變化的,以增量的方式構建偏好模型仍需進一步探索.同時,用戶偏好也是動態(tài)變化的,建立動態(tài)模型描述,對變化的偏好進行估計,是我們將要開展的研究工作.

    [1]GROUPLENS RESEARCH.MovieLens Dataset[EB/OL].[2017-08-20].http://grouplens.org/datasets/movielens/.

    [2]KASSAK O,KOMPAN M,BIELIKOVA M.User preference modeling by global and individual weights for personalized recommendation[J].Acta Polytechnica Hungarica,2015,12(8):27-41

    [3]YIN H,CUI B,CHEN L,et al.Modeling location-based user rating prof i les for personalized recommendation [J].ACM Transactions on Knowledge Discovery from Data,2015,9(3):1-41.

    [4]YUAN Q,CONG G,MA Z,et al.Who,where,when and what:Discover spatio-temporal topics for Twitter users[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2013: 605-613.

    [5]ZHAO K,CONG G,YUAN Q,et al.SAR:A sentiment-aspect-region model for user preference analysis in geo-tagged reviews[C]//IEEE,International Conference on Data Engineering.IEEE,2015:675-686.

    [6]JIANG B,LIANG J,SHA Y,et al.Retweetingbehavior prediction based on one-class collaborative f i ltering in social networks[C]//Proceedings of the 39th International ACM Special Interest Group on Information Retrievalconference on Research and Development in Information Retrieval.ACM,2016:977-980.

    [7]張連文,郭海鵬.貝葉斯網(wǎng)引論[M].北京:科學出版社,2006.

    [8]DAPHNEKOLLER,NIRFRIEDMAN,科勒,等.概率圖模型[M].北京:清華大學出版社,2015.

    [9]KIM J S,JUN C H.Ranking evaluation of institutions based on a Bayesian network having a latent variable[J]. Knowledge-Based Systems,2013,50:87-99.

    [10]SCH¨UTZ W,SCH¨AFER R.Bayesian networks for estimating the user’s interests in the context of a conf i guration task[C]//Proceedings of the UM2001 Workshop on Machine Learning for User Modeling,2001:13-17.

    [11]FRIEDMAN N.The Bayesian structural EM algorithm[C]//Proceedings of the 14th Conference on Uncertainty in Artif i cial Intelligence,2013:129-138.

    [12]ELIDAN G,FRIEDMAN N.Learning hidden variable networks:The information bottleneck approach[J].Journal of Machine Learning Research,2005,6(6):81-127.

    [13]JIN C,ZHANG Y,BALAKRISHNAN S,et al.Local maxima in the likelihood of gaussian mixture models: Structural results and algorithmic consequences[J].Advances in Neural Information Processing Systems,2016, 4(1):16-24.

    [14]ZHAO G,QIANX,XIE X.User-service rating prediction by exploring social users’rating behaviors[J].IEEE Transactions on Multimedia,2016,18(3):496-506.

    [15]高全力,高嶺,楊建鋒,等.上下文感知推薦系統(tǒng)中基于用戶認知行為的偏好獲取方法[J].計算機學報,2015(9):1767-1776.

    [16]王紅兵,孫文龍,王華蘭.Web服務選擇中偏好不確定問題的研究[J].計算機學報,2013,36(2):275-285.

    [17]史艷翠,孟祥武,張玉潔,等.一種上下文移動用戶偏好自適應學習方法[J].軟件學報,2012,23(10):2533-2549.

    [18]GAO R,YUE K,WU H,et al.Modeling user preference from rating data based on the bayesian network with a latent variable[C]//Proceedings of 17th International Conference on Web-Age Information Management,2016: 3-16.

    [19]HUANG Y,BIAN L.A Bayesian network and analytic hierarchy process based personalized recommendations for tourist attractions over the Internet[J].Expert Systems with Applications,2009,36(1):933-943.

    [20]CHAPELLE O,ZHANG Y.A dynamic Bayesian network click model for web search ranking[C]//Proceedings of the 18th International Conference on World Wide Web,ACM,2009:1-10.

    [21]HUETE J,DE CAMPOS L M,FERNANDEZ-LUNA J M,et al.Using structural content information for learning user prof i les[C]//Proceedings of 30th Special Interest Group on Information Retrieval,2007:38-45.

    [22]AUFFENBERG F,STEIN S,ROGERS A.A personalised thermal comfort model using a Bayesian network [C]//Proceedings of the 2015 International Joint Conference on Artif i cial Intelligence,2015:130-139.

    [23]YUE K,FANG Q,WANG X,et al.A parallel and incremental approach for data-intensive learning of Bayesian networks[J].IEEE Transactions on Cybernetics,2015,45(12):2890-2909.

    [24]TAMADA Y,IMOTO S,MIYANO S.Parallel algorithm for learning optimal Bayesian network structure[J]. Journal of Machine Learning Research,2011,12(7):2437-2459.

    [25]MIT.FullBNT[CP/OL].[2017-08-20].http://www.cs.ubc.ca/~murphyk/Software/BNT/FullBNT-1.0.4.Zip.

    (責任編輯:李萬會)

    Modeling multi-dimensional user preference based on the latent variable model

    WANG Shan-lei1,YUE Kun1,WU Hao1,TIAN Kai-lin2
    (1.School of Information Science and Engineering,Yunnan University,Kunming 650500,China; 2.Library of South West Forestry University,Kunming 650224,China)

    Modeling user preference from user behavior data is the basis of personalization service,score prediction,user behavior targeting,etc.In this paper,multi-dimensional preferences from rating data are described by multiple latent variables and the Bayesian network with multiple latent variables is adopted as the preliminary knowledge framework of user preference.Constraint conditions are given according to the inherence of user preference and latent variables,upon which we propose a method for modeling user preference.Parameters are computed by EM algorithm and structure is established by SEM algorithm with respect to the given constraints.In the case of multiple latentvariables,a large amount of intermediate data is generated in modeling,which causes the increasing computational complexity.Therefore,we implement the modeling method with Spark computing framework.Experiments results on the Movielens dataset verify that the method proposed in this paper is ef f ective.

    rating data;multi-dimensional preference;latent variable;Bayesian network;Spark

    TP311

    A

    10.3969/j.issn.1000-5641.2017.05.013

    1000-5641(2017)05-0138-16

    2017-05-01

    國家自然科學基金(61472345,61562090);教育部“云數(shù)融合、科教創(chuàng)新”基金(2017B000 16);第二批“云嶺學者”培養(yǎng)項目(C6153001);云南省應用基礎研究計劃重點項目(2014F A023);云南大學青年英才培育計劃(WX173602);中國博士后科研基金(2016M592721)

    王珊蕾,男,碩士研究生,研究方向為海量數(shù)據(jù)分析與知識發(fā)現(xiàn).E-mail:407773704@qq.com.

    岳昆,男,博士,教授,博士生導師,研究方向為海量數(shù)據(jù)分析與知識發(fā)現(xiàn). E-mail:kyue@ynu.edu.cn.

    猜你喜歡
    數(shù)據(jù)量變量節(jié)點
    CM節(jié)點控制在船舶上的應用
    Analysis of the characteristics of electronic equipment usage distance for common users
    基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
    抓住不變量解題
    計算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
    基于AutoCAD的門窗節(jié)點圖快速構建
    高刷新率不容易顯示器需求與接口標準帶寬
    也談分離變量
    寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設計與研究
    電子制作(2019年13期)2020-01-14 03:15:18
    抓住人才培養(yǎng)的關鍵節(jié)點
    谢通门县| 余干县| 泽普县| 黔西县| 长武县| 乌拉特前旗| 洪洞县| 麻阳| 穆棱市| 怀化市| 广东省| 阆中市| 桐梓县| 高台县| 海淀区| 武乡县| 盐城市| 绥中县| 游戏| 龙陵县| 金阳县| 龙山县| 隆昌县| 内黄县| 高青县| 鄂托克旗| 白银市| 平南县| 平度市| 邯郸县| 凤翔县| 通山县| 柳林县| 随州市| 大石桥市| 霞浦县| 陵水| 九寨沟县| 渑池县| 特克斯县| 寻乌县|