• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向冷啟動(dòng)用戶偏好獲取的自適應(yīng)物品詢問(wèn)列表生成方法

      2020-01-08 02:00:32趙海燕陳慶奎
      關(guān)鍵詞:冷啟動(dòng)列表決策樹(shù)

      汪 靜,趙海燕,陳慶奎,曹 健

      1(上海市現(xiàn)代光學(xué)系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,光學(xué)儀器與系統(tǒng)教育部工程研究中心,上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)2(上海交通大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)系,上海 200030)

      1 引 言

      推薦系統(tǒng)可以為用戶主動(dòng)選擇和推送他們可能感興趣的信息.近年來(lái),推薦系統(tǒng)引起了電子商務(wù)應(yīng)用的普遍關(guān)注并得到了廣泛應(yīng)用.推薦系統(tǒng)利用用戶已有的行為數(shù)據(jù)、項(xiàng)目和用戶的特征來(lái)獲取用戶的興趣模型,在預(yù)測(cè)活躍用戶的興趣時(shí)表現(xiàn)出了較高的準(zhǔn)確性.然而,推薦技術(shù)在實(shí)際應(yīng)用中遭受冷啟動(dòng)問(wèn)題的阻礙,包括新用戶冷啟動(dòng)和新項(xiàng)目冷啟動(dòng)問(wèn)題.

      冷啟動(dòng)是指系統(tǒng)中沒(méi)有或沒(méi)有足夠的關(guān)于新用戶或新項(xiàng)目的信息(評(píng)級(jí)、標(biāo)簽等),現(xiàn)有的推薦技術(shù)在新用戶或新項(xiàng)目上的應(yīng)用沒(méi)有很好的效果.在基于內(nèi)容的推薦技術(shù)中,利用項(xiàng)目的屬性可以減輕項(xiàng)目冷啟動(dòng)問(wèn)題帶來(lái)的負(fù)面影響,并且這些項(xiàng)目信息也易于獲取.相比較而言,用戶冷啟動(dòng)更難以處理,因?yàn)樾枰掠脩糁鲃?dòng)提供他的相關(guān)信息(如年齡,喜歡的風(fēng)格等)或直接表達(dá)他對(duì)項(xiàng)目的感覺(jué)(如提供評(píng)分、提供標(biāo)簽等),但大多數(shù)用戶厭煩于提供太多信息或評(píng)價(jià)太多項(xiàng)目[1].此外,推薦的準(zhǔn)確性與用戶的滿意度也直接相關(guān)[2],新用戶從首次使用推薦系統(tǒng)時(shí),就開(kāi)始評(píng)估系統(tǒng),如果系統(tǒng)不能為用戶提供可靠的建議,就可能使用戶在系統(tǒng)學(xué)習(xí)并返回正確的建議之前離開(kāi).所以,新用戶冷啟動(dòng)問(wèn)題成為推薦系統(tǒng)中需要解決的首要問(wèn)題.

      用于緩解新用戶冷啟動(dòng)的技術(shù)可以分為被動(dòng)學(xué)習(xí)和主動(dòng)學(xué)習(xí).被動(dòng)學(xué)習(xí)依靠評(píng)分的慢慢積累,因此學(xué)習(xí)新用戶的偏好非常緩慢[3].主動(dòng)學(xué)習(xí)允許系統(tǒng)與用戶交互,有選擇地挑選項(xiàng)目請(qǐng)求用戶評(píng)分,或者創(chuàng)建個(gè)性化問(wèn)卷,從而獲取用戶數(shù)據(jù).現(xiàn)有的主動(dòng)學(xué)習(xí)方法基于不確定性、熵等信息選擇物品讓用戶提供反饋[3].然而由于用戶的差異性,其適合的最佳策略是不一樣的.

      本文提出了一個(gè)解決用戶冷啟動(dòng)問(wèn)題的自適應(yīng)列表生成的主動(dòng)學(xué)習(xí)策略,通過(guò)用戶提供的前一階段的評(píng)分,采用訓(xùn)練出的分類器為用戶選擇生成下一階段問(wèn)卷內(nèi)容的策略,從而對(duì)不同的用戶呈現(xiàn)不同的問(wèn)卷內(nèi)容,最終使新用戶跨過(guò)冷啟動(dòng)階段.同時(shí),本文中提出了采用優(yōu)化算法來(lái)優(yōu)化各個(gè)階段問(wèn)卷長(zhǎng)度(物品數(shù)量),以獲得最佳效果.

      文章的后續(xù)內(nèi)容安排如下:第二部分介紹相關(guān)的研究工作;第三部分描述算法思想;第四部分介紹具體的實(shí)驗(yàn)過(guò)程、對(duì)照試驗(yàn)以及實(shí)驗(yàn)結(jié)果分析;最后是文章的總結(jié)以及對(duì)未來(lái)工作方向的分析展望.

      2 相關(guān)工作

      2.1 生成詢問(wèn)列表的方法

      研究者近年來(lái)提出了一些生成詢問(wèn)列表的方法.基于不確定采樣的方法的主要思想選取那些評(píng)分差異較大的物品,即有爭(zhēng)議性的物品,讓用戶提供評(píng)分;而variance策略會(huì)選擇樣本池中方差最高的物品呈獻(xiàn)給用戶;entropy策略選擇熵值最高的物品詢問(wèn)用戶評(píng)分.也有一些方法將幾種方法進(jìn)行集成,采用多個(gè)模型的綜合意見(jiàn)來(lái)決定選取哪些物品.但是,這些方法都忽略了不同用戶最適用的詢問(wèn)列表生成方法可能是不一樣的.

      2.2 考慮自適應(yīng)調(diào)整的推薦方法

      很多學(xué)者都認(rèn)識(shí)到自適應(yīng)推薦能夠給系統(tǒng)帶來(lái)更快更好的性能提升.文獻(xiàn)[4]將老用戶當(dāng)作“假設(shè)的”新用戶看待,將數(shù)據(jù)集劃分成多個(gè)包含相似實(shí)例的子集,并在子集上構(gòu)建決策樹(shù),依據(jù)決策樹(shù)對(duì)新用戶進(jìn)行分類,并呈現(xiàn)不同的推薦物品.文獻(xiàn)[5]提出的ADTS模型,在對(duì)系統(tǒng)中用戶進(jìn)行推薦時(shí),建立用戶之間的信任機(jī)制,隨著獲取到的評(píng)分?jǐn)?shù)量不斷增多,實(shí)時(shí)更新用戶間的信任強(qiáng)度,動(dòng)態(tài)調(diào)整用戶看到的推薦內(nèi)容.文獻(xiàn)[6]的作者主張將推薦作為一個(gè)排名問(wèn)題看待,提出將矩陣分解(MF)與AdaRank算法相結(jié)合對(duì)模型分多輪進(jìn)行訓(xùn)練,對(duì)系統(tǒng)中用戶設(shè)置權(quán)重,重點(diǎn)增加訓(xùn)練成績(jī)較差的用戶的權(quán)重,不斷修正模型中的推薦組件.文獻(xiàn)[7]根據(jù)時(shí)間因素建立自適應(yīng)推薦,利用時(shí)間上下文感知的推薦系統(tǒng)關(guān)注評(píng)分的時(shí)間上下文,追蹤用戶的偏好演變,并相應(yīng)地調(diào)整推薦建議.

      以上研究從多個(gè)方面考慮對(duì)推薦模型進(jìn)行調(diào)整,但是這些研究不是針對(duì)新用戶的.

      2.3 決策樹(shù)

      決策樹(shù)是運(yùn)用于分類以及回歸的一種樹(shù)結(jié)構(gòu).決策樹(shù)自上而下建立,依據(jù)內(nèi)部節(jié)點(diǎn)的不同取值建立分支,劃分?jǐn)?shù)據(jù)子集,并在子集上重復(fù)重復(fù)建立下層節(jié)點(diǎn),最終生成完整樹(shù)結(jié)構(gòu).本文中用決策樹(shù)對(duì)用戶進(jìn)行分組,對(duì)于不同分組的用戶運(yùn)用不同的預(yù)測(cè)模型,實(shí)現(xiàn)詢問(wèn)列表的個(gè)性化.文獻(xiàn)[8]提出FDT(Factorized Decision Trees)算法重新定義決策樹(shù)的生成方式,并用MPS(Most Popular Sampling)方法加速?zèng)Q策樹(shù)的生長(zhǎng).文獻(xiàn)[9]用分類器依據(jù)用戶對(duì)物品評(píng)分的高低將用戶分為三組:喜歡、不喜歡和未知,并以組為單位對(duì)那些未評(píng)價(jià)過(guò)的物品進(jìn)行評(píng)分預(yù)測(cè).

      2.4 遺傳算法

      遺傳算法的基本思想是模擬自然界物種進(jìn)化過(guò)程與求解極值問(wèn)題的一種自適應(yīng)全局優(yōu)化搜索算法[10].遺傳算法對(duì)種群中個(gè)體的基因進(jìn)行編碼,經(jīng)過(guò)交叉、變異以及優(yōu)勝劣汰的自然選擇,最終留下最優(yōu)個(gè)體,適用于解決復(fù)雜的非線性和多維空間尋優(yōu)等實(shí)際問(wèn)題,并已成功應(yīng)用于自動(dòng)控制、無(wú)線傳感、藥物開(kāi)發(fā)等領(lǐng)域.

      本文使用遺傳算法自動(dòng)地對(duì)不同階段的列表長(zhǎng)度進(jìn)行優(yōu)化,以找到最佳的列表長(zhǎng)度設(shè)置.

      3 算法描述

      本文提出的算法會(huì)根據(jù)用戶對(duì)上一列表的不同反饋(評(píng)分)決定用戶下一列表的內(nèi)容.詢問(wèn)列表具體層次的設(shè)計(jì)可以根據(jù)數(shù)據(jù)集特點(diǎn)以及應(yīng)用情況進(jìn)行擴(kuò)展或縮減,但是當(dāng)列表層次過(guò)多時(shí)會(huì)導(dǎo)致模型計(jì)算復(fù)雜,交互過(guò)程時(shí)間過(guò)長(zhǎng),用戶體驗(yàn)差等,而列表層次過(guò)少時(shí)就無(wú)法呈現(xiàn)適合目標(biāo)用戶的物品,無(wú)法獲取充分或有價(jià)值的信息,所以本文中算法以三階段詢問(wèn)列表(階段1,階段2,階段3)向用戶展示物品并獲取評(píng)分,但是本文的方法可以用于更多階段.

      為了便于形式化的表示,本文用到的符號(hào)標(biāo)記如表1所示,符號(hào)之間的具體關(guān)系如圖1所示.

      表1 數(shù)學(xué)符號(hào)
      Table 1 Math notation

      符號(hào)意 義I,U分別代表物品集合、用戶集合A,B,C分別表示不同的模型L表示詢問(wèn)列表k表示列表總長(zhǎng)度ki表示第i個(gè)列表的長(zhǎng)度T1階段1構(gòu)建的決策樹(shù)T2階段2構(gòu)建的決策樹(shù)T3階段3構(gòu)建的決策樹(shù)S1表示階段1的初始訓(xùn)練集S2·表示階段2的初始訓(xùn)練集S3··表示階段3的初始訓(xùn)練集

      3.1 階段1列表生成方法

      在本文提出的方法中,要保證三點(diǎn),一是每層的決策樹(shù)都能夠被成功構(gòu)建,這就要求詢問(wèn)物品時(shí)要能收獲足夠多的反饋,不能冷門;二是由于實(shí)驗(yàn)方法逐級(jí)分組的特點(diǎn),要求有足夠多的用戶能支持實(shí)驗(yàn)中的不斷的劃分;三是由于每個(gè)階段都需要建立分類器,而逐級(jí)分組的特點(diǎn)又會(huì)加劇數(shù)據(jù)的稀疏性,所以要求用戶集的篩選過(guò)程要盡量選用活躍用戶或評(píng)分更多的用戶.綜上,實(shí)驗(yàn)中的第一個(gè)詢問(wèn)列表L1采用popularity作為選擇策略.

      首先,根據(jù)公式(1)計(jì)算物品的流行度,其中表示對(duì)該物品打分的用戶集.

      Popularity(i)=|U(i)|

      (1)

      圖1 算法過(guò)程圖Fig.1 Algorithm process

      (2)

      Log(popularity)*Entropy策略是一個(gè)平衡策略,其在保證獲取的評(píng)分?jǐn)?shù)據(jù)量的同時(shí),將物品的攜帶的信息量加入考量范圍,log函數(shù)試圖克服entropy與popularity間的分布差異對(duì)實(shí)驗(yàn)結(jié)果帶來(lái)的影響.Entropy的計(jì)算公式見(jiàn)公式(3),式中,P(ri=r)表示評(píng)分r的概率,k表示用戶可以給出的評(píng)分?jǐn)?shù),如在EachMovie中采取0到5分制,此時(shí)k=5,r從0開(kāi)始.

      (3)

      (4)

      本文使用準(zhǔn)確率Precision來(lái)評(píng)估某一策略在目標(biāo)用戶上的運(yùn)用效果,計(jì)算方法見(jiàn)公式(4),R(u)表示推薦系統(tǒng)給出的物品集合,T(u)表示測(cè)試集上用戶u喜歡的物品集合.若Precision大于某一閾值σ時(shí),即有理由相信該用戶“適用于”該策略,并在數(shù)據(jù)集中對(duì)該用戶標(biāo)注該策略對(duì)應(yīng)的標(biāo)簽,A模型對(duì)應(yīng)′A′標(biāo)簽,B模型對(duì)應(yīng)′B′標(biāo)簽,C模型對(duì)應(yīng)′C′標(biāo)簽.接著用這些被程序標(biāo)注過(guò)的記錄構(gòu)建決策樹(shù)T1,決策樹(shù)的構(gòu)建可以參照文獻(xiàn)[14],這邊不再贅述.用構(gòu)建好的對(duì)數(shù)據(jù)集中那些沒(méi)有標(biāo)注的記錄進(jìn)行分類標(biāo)注,再根據(jù)標(biāo)簽分組,將數(shù)據(jù)集劃分成三個(gè)數(shù)據(jù)子集,作為階段2的訓(xùn)練集.

      3.2 階段2列表生成方法

      第2階段的生成方法有三個(gè)版本,具體版本的選擇是根據(jù)用戶對(duì)階段1中物品的評(píng)分,分類器T1得出的類別.階段1用流行度對(duì)用戶進(jìn)行大類別的劃分,而階段2開(kāi)始對(duì)不同用戶使用不同策略進(jìn)行細(xì)化分組.由階段1分好的三個(gè)子集,S11,S12以及S13分別作為三個(gè)版本的階段2的初始訓(xùn)練集,并用不同的策略生成詢問(wèn)列表,其他的處理方法基本相同,所以在這里采用子集S11作為代表,闡述階段2的思想.

      子集S11用A模型選擇k2個(gè)物品(S12用B模型選擇物品,S13用C模型選擇物品),生成詢問(wèn)列表L2,發(fā)起第二輪詢問(wèn).獲取用戶對(duì)L2中物品的評(píng)分,形成新的數(shù)據(jù)集S21.再對(duì)S21中用戶隨機(jī)劃分,并分別運(yùn)用A、B、C模型,當(dāng)準(zhǔn)確率P>σ時(shí),則對(duì)該用戶進(jìn)行標(biāo)注.用帶標(biāo)簽的數(shù)據(jù)構(gòu)建決策樹(shù)T2,并用T2對(duì)未標(biāo)注用戶進(jìn)行標(biāo)注.最后按照標(biāo)簽將S21劃分成三個(gè)部分S111、S112、S113.

      3.3 階段3列表生成方法

      階段3是在階段2的基礎(chǔ)上對(duì)用戶進(jìn)行更細(xì)致的分組.階段3要用策略選擇出k3個(gè)物品作為L(zhǎng)3,其他處理方式與階段2基本相同.

      4 列表長(zhǎng)度的優(yōu)化設(shè)置

      上述階段1、階段2以及階段3中都有一個(gè)重要參數(shù):詢問(wèn)列表長(zhǎng)度,即k1、k2、k3,也是影響實(shí)驗(yàn)結(jié)果好壞的決定性參數(shù).設(shè)k=k1+k2+k3,在k值一定的情況下,(k1、k2、k3)有很多不同的組合,所以本文用帶有約束條件的遺傳算法對(duì)(k1、k2、k3)組合進(jìn)行編碼,具體的約束條件可以根據(jù)算法要求和實(shí)際問(wèn)題設(shè)計(jì).

      將解空間中的所有(k1、k2、k3)組合視為一個(gè)個(gè)體,k1、k2、k3分別用n位基因表示,個(gè)體染色體共用3n位基因位表示,并隨機(jī)生成種群(共m個(gè)個(gè)體),設(shè)置交叉因子λ、變異因子μ,對(duì)個(gè)體染色體上的任意位置進(jìn)行變異或交叉.在自然選擇階段,考慮約束條件對(duì)個(gè)體的淘汰機(jī)制,若新生個(gè)體不滿足約束則保留老個(gè)體;若新生個(gè)體滿足約束則淘汰老個(gè)體,保留新個(gè)體,并設(shè)置種群迭代次數(shù)γ,此過(guò)程中始終保持種群規(guī)模不變,得到最終的新種群.最后對(duì)新種群中的個(gè)體染色體進(jìn)行解碼,前n位、中間n位以及最后n位分別轉(zhuǎn)換為k1、k2、k3,得到m個(gè)(k1、k2、k3)組合.

      由于本文試驗(yàn)中的k設(shè)置為30,所以種群中的個(gè)體用15位二進(jìn)制編碼,前5位代表k1值,中間5位代表k2值,最后5位代表k3值,并根據(jù)構(gòu)建決策樹(shù)的條件以及列表長(zhǎng)度的考慮,對(duì)k1、k2、k3加以約束條件如公式(5)所示:

      (5)

      5 實(shí)驗(yàn)過(guò)程與結(jié)果分析

      5.1 數(shù)據(jù)預(yù)處理

      文中所提算法有逐級(jí)分類的特點(diǎn)要求有足夠多的用戶及評(píng)分,所以本文的實(shí)驗(yàn)采用美國(guó)DEC系統(tǒng)研究中心提供的EachMovie數(shù)據(jù)集1.該數(shù)據(jù)集有72916名用戶,1628部不同的電影(電影和錄像),總計(jì)2811983個(gè)評(píng)分,每條記錄分別由用戶編號(hào)(Person_ID),電影編號(hào)(Movie_ID),評(píng)分(Score),權(quán)重(Weight)以及時(shí)間戳(Modified)組成.EachMovie中的評(píng)分由0.0,0.2,0.4,0.6,0.8,1.0,共6個(gè)等級(jí)組成,為了方便計(jì)算,將評(píng)分統(tǒng)一轉(zhuǎn)化成0-5分制,0.0分對(duì)應(yīng)0分,1.0對(duì)應(yīng)5分.此外,Weight字段的不同值有不同的意義,Weight=1時(shí),表示用戶對(duì)該電影的評(píng)分為0分;當(dāng)Weight<1時(shí),表示用戶覺(jué)得該電影“聽(tīng)起來(lái)很糟糕”,雖然沒(méi)看過(guò)但表示不會(huì)看,因此在處理數(shù)據(jù)集時(shí),將Weight<1的記錄中Score字段直接設(shè)置為0,與“用戶對(duì)該電影評(píng)分為0分”的情況做相同處理.

      實(shí)驗(yàn)過(guò)程中,以用戶為單位劃分訓(xùn)練集與測(cè)試集.通過(guò)對(duì)數(shù)據(jù)集稀疏度的計(jì)算,選用3000名評(píng)分?jǐn)?shù)據(jù)最多的用戶構(gòu)成用戶集U,剩余用戶中抽取340名用戶作為測(cè)試集,保證9:1的訓(xùn)練集與測(cè)試集.

      5.2 算法過(guò)程

      綜合上一節(jié)對(duì)階段1,階段2、階段3以及遺傳算法的介紹,實(shí)驗(yàn)步驟詳述如下:

      1)用遺傳算法得出(k1、k2、k3)組合.

      2)第1階段,根據(jù)流行度,選擇k1個(gè)物品和用戶集U中用戶的評(píng)分作為訓(xùn)練集S.

      3)對(duì)S中的用戶隨機(jī)運(yùn)用任某一模型,計(jì)算準(zhǔn)確率P,若P>σ,則對(duì)該用戶標(biāo)注對(duì)應(yīng)模型的標(biāo)簽.

      4)用帶有標(biāo)簽的用戶及其評(píng)分信息構(gòu)建第一層決策樹(shù)T1,并用T1對(duì)其他未標(biāo)注的用戶進(jìn)行標(biāo)注.

      5)按照用戶的標(biāo)注分組,得到的多個(gè)數(shù)據(jù)子集即為下一階段的訓(xùn)練樣本集.階段1內(nèi)容結(jié)束.

      6)用戶進(jìn)入2階段,根據(jù)階段1得到的數(shù)據(jù)子集,運(yùn)用相應(yīng)的模型(A、B或C)選擇k2個(gè)物品,獲取用戶評(píng)分,擴(kuò)充訓(xùn)練樣本.

      7)對(duì)訓(xùn)練樣本中用戶隨機(jī)運(yùn)用某一模型,計(jì)算準(zhǔn)確率P,若P>σ,則對(duì)該用戶標(biāo)注.

      8)用帶有標(biāo)簽的數(shù)據(jù)構(gòu)建第二層決策樹(shù)T2,并對(duì)其他未標(biāo)注數(shù)據(jù)進(jìn)行標(biāo)注.

      9)按照標(biāo)簽分組,分成的數(shù)據(jù)子集將作為下個(gè)列表的訓(xùn)練樣本集.階段2內(nèi)容結(jié)束.

      10)用戶進(jìn)入階段3階段,用階段2分出來(lái)的數(shù)據(jù)子集,運(yùn)用相應(yīng)的模型,選擇k3個(gè)物品,獲取評(píng)分,擴(kuò)充樣本.

      11)隨機(jī)運(yùn)用模型,按照準(zhǔn)確率進(jìn)行標(biāo)注,構(gòu)造第三層決策樹(shù)T3,并對(duì)未標(biāo)注內(nèi)容進(jìn)行標(biāo)注.

      12)按照標(biāo)注的標(biāo)簽分組,得到最終的用戶群組,以便對(duì)新用戶進(jìn)行推薦.階段3內(nèi)容結(jié)束.

      13)將L1中的物品向新用戶u發(fā)起詢問(wèn),根據(jù)新用戶的回答,用T1決定該用戶適合于階段2的某一模型,再向新用戶詢問(wèn)L2中的物品,用T2決定該用戶適合階段3的某一模型,最后向新用戶詢問(wèn)L3中的物品,用T3得到該用戶的類群W.

      15)或者,根據(jù)W中不同用戶對(duì)目標(biāo)用戶的影響大小對(duì)評(píng)分加權(quán),預(yù)測(cè)出加權(quán)評(píng)分r′作為該用戶u的預(yù)測(cè)評(píng)分,計(jì)算RMSE.

      5.3 對(duì)照試驗(yàn)

      本實(shí)驗(yàn)采用兩個(gè)對(duì)照實(shí)驗(yàn):基于決策樹(shù)的方法D-Tree以及基于流行度的方法Popu.

      對(duì)照實(shí)驗(yàn)D-Tree針對(duì)本文所提出的算法中會(huì)根據(jù)用戶對(duì)列表的不同反饋,選用不同的模型的特點(diǎn)而設(shè)計(jì),D-Tree實(shí)驗(yàn)會(huì)從物品列表中隨機(jī)選出L1,用用戶集對(duì)L1中物品的評(píng)分構(gòu)成訓(xùn)練集,并對(duì)訓(xùn)練集中的用戶隨機(jī)分類,構(gòu)建出決策樹(shù)T;再隨機(jī)選擇物品生成L2,用新加入的評(píng)分?jǐn)?shù)據(jù)再訓(xùn)練T;按照同樣的方式生成L3,訓(xùn)練出成熟的決策樹(shù)T.新用戶u分別給出L1,L2以及L3中的物品評(píng)分,用T決定新用戶u的最終類別組U,再借助U中其他用戶的評(píng)分信息對(duì)該用戶做出推薦預(yù)測(cè).對(duì)照實(shí)驗(yàn)Popu是針對(duì)算法中多個(gè)詢問(wèn)列表相互關(guān)聯(lián),后一個(gè)列表的具體內(nèi)容依據(jù)用戶對(duì)前一個(gè)列表的反饋不同進(jìn)行動(dòng)態(tài)調(diào)整而設(shè)計(jì)的,Popu實(shí)驗(yàn)按照物品流行度,一次性給出三個(gè)列表的全部?jī)?nèi)容,沒(méi)有分級(jí)詢問(wèn)和用戶分類的設(shè)置,最后根據(jù)協(xié)同過(guò)濾的方式對(duì)新用戶做出推薦.

      5.4 實(shí)驗(yàn)結(jié)果分析

      實(shí)驗(yàn)中,列表呈現(xiàn)的物品長(zhǎng)度組合(k1、k2、k3)對(duì)實(shí)驗(yàn)結(jié)果的好壞起決定性影響,故接下來(lái)著重對(duì)這三個(gè)參數(shù)的不同組合下的RMSE進(jìn)行討論分析(以下所有圖例中ADL(Adaptive Dynamic List)表示自適應(yīng)動(dòng)態(tài)列表策略結(jié)果,D-Tree表決策樹(shù)策略的結(jié)果,Popu表示流行度策略的結(jié)果,其中Popu策略并無(wú)k1、k2、k3參數(shù),在圖中僅作參考對(duì)照效果).

      1)k1=10不變,k2遞增,k3遞減

      圖2中縱坐標(biāo)表示RMSE值,橫坐標(biāo)表示(k2,k3)的組合.在k1=10,k2+k3=20的前提下,ADL的實(shí)驗(yàn)效果最優(yōu),Popu的實(shí)驗(yàn)效果最差,并且不論是ADL還是對(duì)照試驗(yàn)D-Tree,RMSE值的總體波動(dòng)不大,表明RMSE值的變動(dòng)與k1和k2+k3相關(guān).因?yàn)閷?shí)驗(yàn)的第一次分類是劃分粗粒度的大類別,而第二、三次劃分類別是細(xì)粒度的劃分,劃分出的類別之間差異性相對(duì)較小,所以從實(shí)驗(yàn)結(jié)果也體現(xiàn)出k2、k3單獨(dú)作用于RMSE的影響較小,該結(jié)論在后面的實(shí)驗(yàn)結(jié)果中也將體現(xiàn).圖2(a)和圖2(b)相比較,加權(quán)評(píng)分的預(yù)測(cè)精確度比平均評(píng)分的預(yù)測(cè)精確度更高.

      圖2 不同(k2,k3)組合下不同算法的RMSE的比較Fig.2 Comparisons of RMSE between different algorithms with different (k2,k3)

      2)k2=10不變,k1遞增,k3遞減

      圖3中縱坐標(biāo)表示RMSE值,橫坐標(biāo)表示(k1,k3)的組合.在k2不變的前提下,當(dāng)k1>4時(shí),RMSE隨著k1的增大而

      圖3 不同(k1,k3)組合下不同算法的RMSE的比較Fig.3 Comparisons of RMSE between different algorithms with different (k1,k3)

      增大,隨著k3的減小而減小,實(shí)驗(yàn)結(jié)果在(4,10,16)處取得最優(yōu).當(dāng)k1<4時(shí),由于物品數(shù)目過(guò)少,構(gòu)建出的決策樹(shù)不成熟,分類準(zhǔn)確度較低,導(dǎo)致實(shí)驗(yàn)誤差較大.

      3)k3=10不變,k1遞增,k2遞減

      圖4中縱坐標(biāo)表示RMSE值,橫坐標(biāo)表示(k1,k2)的組合.在k3不變的情況下,RMSE隨著k1的增大而增大,隨k2的減小而減小,ADL在(4,16,10)組合處取到最小值,D-Tree在(5,15,10)組合處取到最小值.結(jié)合圖2可以看出,RMSE隨著k1的減小而減小,因?yàn)殡A段1呈現(xiàn)的是根據(jù)流行度策略選擇的物品,這些物品過(guò)于流行,對(duì)用戶的正確分類不具有太大的價(jià)值,所以列表長(zhǎng)度在一定范圍內(nèi)是越小越好.

      圖4 不同(k1,k2)組合下不同算法的RMSE的比較Fig.4 Comparisons of RMSE between different algorithms with different (k1,k2)

      4)遺傳算法尋優(yōu)

      圖5 遺傳算法尋優(yōu)Fig.5 Genetic algorithm optimization

      設(shè)置交叉因子λ=0.1,變異因子μ=0.05.遺傳算法尋優(yōu)的實(shí)驗(yàn)效果如圖5所示,橫坐標(biāo)表示種群迭代次數(shù)γ,縱坐標(biāo)表示實(shí)驗(yàn)結(jié)果的平均RMSE和最優(yōu)RMSE.由圖可見(jiàn)種群在迭代次數(shù)γ=6次左右就開(kāi)始收斂,實(shí)驗(yàn)的誤差達(dá)到最小,并趨于穩(wěn)定.

      綜上所述,各個(gè)策略對(duì)應(yīng)的最優(yōu)RMSE如表2所示,其中ADL策略的結(jié)果是在k1=4,k2+k3=26,λ=0.1,μ=0.05,γ=6,σ=0.8的參數(shù)組合下得到的.

      表2 各個(gè)策略對(duì)應(yīng)的RMSE值
      Table 2 RMSE of different strategies

      RMSEADLD-TreePopu加權(quán)評(píng)分r'0.22190.34250.505平均評(píng)分r0.23660.34360.524

      6 總 結(jié)

      本文提出的針對(duì)用戶冷啟動(dòng)的自適應(yīng)動(dòng)態(tài)列表生成的策略,將要詢問(wèn)的物品分批次呈現(xiàn)給用戶,并根據(jù)用戶的回答動(dòng)態(tài)調(diào)整列表的內(nèi)容,使得獲取的數(shù)據(jù)更能體現(xiàn)用戶的興趣,也避開(kāi)了問(wèn)卷決策樹(shù)的弊端.主動(dòng)學(xué)習(xí)中,詢問(wèn)列表的內(nèi)容很大程度上決定了策略的優(yōu)劣,ADL算法模型在面臨新用戶時(shí)也能很好的擬合出用戶的偏好.實(shí)驗(yàn)的最終結(jié)果也表明,通過(guò)分層級(jí)向用戶詢問(wèn)物品評(píng)分并找到新用戶的群組,能夠在新用戶進(jìn)入系統(tǒng)的最初就能有不錯(cuò)的推薦準(zhǔn)確率,提高新用戶對(duì)系統(tǒng)的忠誠(chéng)度.

      本算法雖然取得了一定的效果,但仍有許多值得深入研究的地方.例如,在構(gòu)造決策樹(shù)時(shí),中間節(jié)點(diǎn)都是由物品構(gòu)建的,后面也可以考慮將某些數(shù)據(jù)特征(平均值、中位數(shù)、流行度等)也加入中間節(jié)點(diǎn)中,并且還可以將時(shí)間因素考慮進(jìn)來(lái),對(duì)不同時(shí)間階段的用戶可以有不斷更新的物品集合,提高預(yù)測(cè)準(zhǔn)確率,這些都是后續(xù)預(yù)備研究的方向.

      猜你喜歡
      冷啟動(dòng)列表決策樹(shù)
      巧用列表來(lái)推理
      輕型汽油車實(shí)際行駛排放試驗(yàn)中冷啟動(dòng)排放的評(píng)估
      基于學(xué)習(xí)興趣的冷啟動(dòng)推薦模型
      客聯(lián)(2021年2期)2021-09-10 07:22:44
      學(xué)習(xí)運(yùn)用列表法
      擴(kuò)列吧
      一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
      決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      基于決策樹(shù)的出租車乘客出行目的識(shí)別
      基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
      不含3-圈的1-平面圖的列表邊染色與列表全染色
      延庆县| 开阳县| 鄯善县| 额敏县| 崇礼县| 安顺市| 双鸭山市| 贺兰县| 富阳市| 岱山县| 郸城县| 阿鲁科尔沁旗| 临湘市| 蛟河市| 正定县| 山丹县| 吉安县| 遂宁市| 敖汉旗| 葫芦岛市| 龙海市| 顺平县| 安国市| 乡宁县| 西贡区| 隆林| 河津市| 大同市| 都昌县| 隆林| 曲靖市| 子洲县| 河津市| 汝城县| 新营市| 富锦市| 丹寨县| 潜江市| 乌拉特前旗| 固安县| 玛多县|