• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于評論主題分析的評分預(yù)測方法研究

    2017-06-01 11:29:47馬春平陳文亮
    中文信息學(xué)報 2017年2期
    關(guān)鍵詞:主題詞物品向量

    馬春平,陳文亮

    (蘇州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

    基于評論主題分析的評分預(yù)測方法研究

    馬春平,陳文亮

    (蘇州大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)

    推薦系統(tǒng)(recommender system)廣泛應(yīng)用于電子商務(wù)網(wǎng)站。目前流行的基于協(xié)同過濾的推薦算法利用用戶的歷史評分來預(yù)測用戶對物品的喜好程度。隨著互聯(lián)網(wǎng)的發(fā)展,如今的電子商務(wù)網(wǎng)站越來越注重與用戶的交互,于是產(chǎn)生了大量的用戶生成內(nèi)容(user generated content),如評論、地理位置、好友關(guān)系等。相對評分來說,用戶對物品的評論從用戶或者物品的各個角度具體表達了用戶的觀點。利用這些信息更有助于挖掘用戶的喜好。該文提出一種基于詞向量的方法挖掘用戶評論信息,并結(jié)合協(xié)同過濾的方法設(shè)計新的推薦算法,來改善評分預(yù)測的效果。實驗結(jié)果表明,該算法較大程度上提高了評分預(yù)測精度。

    推薦系統(tǒng);評分預(yù)測;詞向量;用戶評論

    1 引言

    推薦系統(tǒng)是根據(jù)用戶的歷史行為和興趣特點,為用戶推薦其感興趣的信息或商品。推薦系統(tǒng)可以通過評分預(yù)測來實現(xiàn),即將預(yù)測評分高的商品推薦給用戶。傳統(tǒng)的推薦算法包括基于內(nèi)容的推薦[1](content-based recommendation)和協(xié)同過濾(collaborative filtering)。基于內(nèi)容的推薦算法過于依賴用戶和物品的描述性的特征,無法利用用戶的反饋信息。協(xié)同過濾算法,如User-Based[2]、Item-based[3]、Slope One[4],簡單有效,在互聯(lián)網(wǎng)公司中得到廣泛應(yīng)用。但是協(xié)同過濾算法僅以用戶的歷史行為為依據(jù)推測用戶對物品的喜好,沒有深層次挖掘用戶或者物品的特征,例如,兩個用戶均對一家餐館打出5分滿分,但是評價角度可能不同,一個人認為菜肴美味,另一個覺得服務(wù)周到。

    近年來,Web2.0得到飛速發(fā)展,其關(guān)鍵特征之一就是用戶主導(dǎo)生成內(nèi)容。評論信息是重要的用戶生成內(nèi)容之一,一些電商網(wǎng)站,如淘寶、大眾點評、Yelp等,擁有數(shù)千萬用戶對大量商品或者餐館的評論。這些評論是用戶對商品各個角度的評價,可以看作用戶對物品評分的詳細解釋。而傳統(tǒng)的推薦算法往往忽略這一重要資源。近幾年,情感分析和意見挖掘領(lǐng)域已經(jīng)有大量的工作成功從文本中挖掘出有效信息[5-7]。對評論的角度(如服務(wù)、口味、環(huán)境等)和情感(正面、負面、中立等)的挖掘?qū)ν扑]系統(tǒng)領(lǐng)域有重大的利用價值[8-13]。GANU等人[8]利用人工標注評論的主題和情感,然后訓(xùn)練SVM[9]模型,將評分的角度和情感進行分類,最后將正面評價、負面評價進行綜合作出評分預(yù)測。QU等人[10]提出意見袋(bag-of-opinions)的概念,用來表示評價詞根、修飾詞和否定詞。利用意見袋和評分訓(xùn)練線性模型進行評分預(yù)測。這些算法都是根據(jù)用戶對物品的評論預(yù)測用戶對物品的評分,并不能直接用于推薦系統(tǒng)。MCAULEY等人[11]提出利用HFT(hidden factors as topics)將評分和評論信息結(jié)合,構(gòu)建特征矩陣,利用SVD[12]來作推薦,但無法同時考慮評論信息中的用戶角度和物品角度。ZHANG[14]等人利用LDA(latent dirichlet allocation)[15]算法對評論進行主題分析生成主題詞表,利用主題詞表將用戶評論表示成特征向量,然后利用機器學(xué)習(xí)算法建模進行評分預(yù)測。但是評論屬于非結(jié)構(gòu)化文本,具有異構(gòu)、海量、實時等特點,處理難度較大,ZHANG等人的工作主要缺陷是主題詞表產(chǎn)生了大量無關(guān)詞,影響了推薦效果。

    本文在上述基于評論分析的研究工作基礎(chǔ)上,提出基于詞向量的方法挖掘評論信息,設(shè)計基于評論分析的推薦算法,然后結(jié)合傳統(tǒng)推薦算法改善推薦系統(tǒng)的性能。在大眾點評數(shù)據(jù)集進行實驗驗證,結(jié)果表明本文提出的算法有效地提高了推薦系統(tǒng)的評分預(yù)測性能。

    2 相關(guān)工作

    Web2.0時代的到來使得用戶能夠在網(wǎng)絡(luò)上發(fā)表自己的看法,同時也可參考他人的意見和評論作出自己的決定。因此,很多推薦系統(tǒng)的研究者把目光轉(zhuǎn)移到從用戶評論中挖掘用戶喜好和物品特征,從而提高推薦效果。GNAU等人對評論進行情感和角度的標注,將標注結(jié)果利用SVM分類器進行訓(xùn)練和測試,然后對其他評論進行分類。最后利用式(1)來預(yù)測評分。

    (1)

    其中,P代表評論中正面評價的句子的數(shù)量,N代表評論中負面評價的數(shù)量。該方法只考慮正面評價和負面評價,忽略了中立評價和評論角度,并且該方法需要大量的人工標注工作且準確性不高。

    QU等人提出用意見袋(bag-of-opinions)的表示方式來挖掘評論信息。每條評論中都有針對物品不同方面的多種評論意見,該方法將每條評論中的每個評論意見表示為一個三元集合,包括詞根集(root words)、修飾詞集(modifier words)、否定詞集(negation words)。如“書不是非常便宜,但對自己很有幫助?!边@條評論意見中“便宜”和“有幫助”是詞根,“非?!焙汀昂堋笔切揎椩~,“不是”是否定詞。在一條評論意見中,詞根決定了用戶評價的情感,修飾詞加強或者減弱了評價的情感,否定詞則消減或者轉(zhuǎn)變評價的情感。該算法為每個意見賦予一個評分,各個意見的評分的平均分即該條評論的評分,計算每個意見評分的公式如式(2)所示。

    (2)

    GANU和QU等人提出的方法都是利用用戶的評論來預(yù)測該用戶對商品的評分。這些算法無法直接用于推薦系統(tǒng),因為在決定是否對一個用戶推薦一款該用戶從未接觸過的商品時,無法得到該用戶對該商品的評論。

    MCAULEY等人提出利用HFT(hidden factors as topics)將評分和評論信息結(jié)合起來做推薦。HFT將評分中的隱含因子和評論中的隱含主題匹配生成用戶或者物品的特征矩陣,然后用SVD來做評分預(yù)測。但是用戶對物品的評論可能是從物品角度出發(fā)的,也可能是從自身角度出發(fā)的。HFT的缺點是每次只能考慮評論的用戶角度和物品角度中的一個。

    ZHANG等人利用LDA算法對評論進行主題分析,生成主題詞表。根據(jù)評論中是否含有主題詞來將一條評論表示成一組向量,將這些向量根據(jù)用戶或者物品歸類,經(jīng)過平均、歸一化等處理得到用戶特征和物品特征。同時利用向量和對應(yīng)的評分,通過機器學(xué)習(xí)模型訓(xùn)練得到用戶對物品不同的主題的權(quán)重。在評分預(yù)測階段,利用用戶特征和物品特征模擬出目標用戶對目標物品的評論特征向量,結(jié)合用戶對物品不同的主題的權(quán)重得到目標用戶對目標物品的預(yù)測評分。由于評論文本的非結(jié)構(gòu)化特征和LDA算法的局限性,該方法生成的主題詞表含有大量無關(guān)詞,從而影響了推薦效果。因此本文分別提出了基于人工標注方法和基于詞向量的方法構(gòu)建主題詞表,并結(jié)合協(xié)同過濾算法設(shè)計一種混合推薦算法。

    3 基于評論的推薦算法

    本節(jié)針對基于評論的現(xiàn)有工作[11, 14]所存在的問題,提出兩種新的評論主題分析方法。在此基礎(chǔ)上,提出一種結(jié)合協(xié)同過濾算法的組合算法。

    3.1 相關(guān)定義

    3.2 評論主題分析

    本節(jié)使用不同方法進行用戶評論分析,生成主題詞表。根據(jù)評論是否涉及各個主題將評論表示成一組K維向量(K是主題個數(shù)),分析結(jié)果將在3.3節(jié)中被用于推薦系統(tǒng)。

    3.2.1 基于LDA的評論分析

    ZHANG等人提出利用LDA算法挖掘評論主題,大眾點評數(shù)據(jù)集*數(shù)據(jù)表述見4.1節(jié)。經(jīng)LDA算法生成的主題分布如表1所示,主題詞按在該主題下的概率由大到小排列。實驗主題數(shù)設(shè)置為6,每個主題的主題詞個數(shù)設(shè)置為20。

    表1 基于LDA的主題分布(大眾點評網(wǎng))

    續(xù)表

    3.2.2 基于人工標注的評論分析

    由于基于LDA的評分分析存在大量的與相應(yīng)主題無關(guān)的詞,因此本節(jié)考慮利用人工標注的方法生成主題詞表。考慮到評論中主要用形容詞表達情感,本文提取評論中的所有形容詞,按詞頻由高到低排序,然后對出現(xiàn)次數(shù)高于20的形容詞標注主題和情感。主題數(shù)設(shè)定為6,分別為食物、服務(wù)、價格、環(huán)境、酒水、路程。由于各個主題的主題詞數(shù)目不同,其中食物出現(xiàn)113個主題詞,服務(wù)出現(xiàn)114個出題詞,價格出現(xiàn)24個主題詞,環(huán)境出現(xiàn)123個主題詞,酒水的主題詞只有13個,路程出現(xiàn)21個主題詞。表2顯示每類前20個主題詞,其中正面情感標注為1,負面情感標注為-1。

    從表2可以看出,人工標注的主題詞表比LDA生成的主題詞表可靠得多,但人工標注費時費力。

    3.2.3 基于詞向量的評論分析

    為了解決人工標注的不足,本節(jié)提出基于詞向量的主題分析方法挖掘評論中用戶的喜好和意見,該方法既克服了LDA算法的局限性和不可靠性,

    表2 人工標注主題分布

    又避免了大量的人工標注工作。詞向量(word embedding)是將語言中的詞進行數(shù)學(xué)化,表示成一組向量的一種方式。word2vec是MIKOLOV等人[16]提出的將詞表征轉(zhuǎn)化為實數(shù)值向量的高效工具,其輸入是大量文本語料庫,輸出是詞的向量表示。得到的詞向量可以被用于很多自然語言處理任務(wù)和機器學(xué)習(xí)任務(wù),如詞性標注、句法分析、命名實體識別等。我們可以利用詞向量表示來尋找詞的相近詞集合?;谠~向量的這個特性,可自動尋找某主題下的主題詞,具體步驟如下。

    (1) 利用word2vec*https://code.google.com/p/word2vec/工具將所有評論數(shù)據(jù)中的詞表示為詞向量;

    (2) 本文中主題數(shù)設(shè)定為6,分別為食物、服務(wù)、價格、環(huán)境、酒水、路程。依據(jù)cosine相似度,找到與各個主題詞最相近的20個詞,過濾無關(guān)詞,將剩余的詞按相似度由大到小排序,取前10個詞作為主題詞候選詞。

    (3) 同樣根據(jù)詞向量相似度,找到各個主題下每個候選詞最相近的10個詞,將其加入到各個主題的主題詞候選詞中,每個主題下有110個主題詞。

    (4) 過濾重復(fù)詞與無關(guān)詞,然后將剩余詞按相似度排序,取前20個詞。以此得到的主題詞表如表3所示,主題詞按相似度由大到小排列。

    3.3 基于評論主題的評分預(yù)測

    基于評論分析結(jié)果,本文使用線性回歸模型構(gòu)建評分預(yù)測系統(tǒng)。

    3.3.1 模型參數(shù)訓(xùn)練

    根據(jù)評論分析結(jié)果,對評論進行特征表示。評論Cu i的特征表示為θu i,如式(3)所示。

    (3)

    其中,K是實驗設(shè)置的主題的個數(shù);θu ik表示用戶u對物品i的評論第k個特征值。特征值的計算方式如式(4)所示。

    表3 基于詞向量的主題分布

    (4)

    其中,n是各個主題下主題詞的個數(shù),若評論中包含該主題詞t,則θuikt是各個主題詞對應(yīng)的值,反之,θuikt為0。根據(jù)不同的主題分析方法,θuikt的值略有不同,具體計算方法如表4所示。

    表4 θuikt計算方式

    在得到每條評論的特征表示之后,利用線性回歸模型訓(xùn)練特征權(quán)重,如式(5)所示。

    (5)

    其中,W是各個主題的權(quán)重;ε是誤差偏置;rui是該條評論中用戶u對物品i的評分。

    3.3.2 評分預(yù)測

    由于在評分預(yù)測階段,系統(tǒng)無法預(yù)知用戶的評論,因此本文模擬用戶u對物品i的評論的特征表示用于評分預(yù)測。首先,生成用戶和物品過的特征表示。用戶u第k維特征用puk表示。

    (6)

    其中式(6)是對相應(yīng)的特征進行歸一化。同樣,定義物品i第k維特征,如式(7)所示。

    (7)

    由式(6)產(chǎn)生的用戶特征和式(7)產(chǎn)生的物品特征計算出評論的特征如式(8)、式(9)所示。

    (8)

    (9)

    然后,對于給定的目標用戶u和目標物品i,根據(jù)線性回歸得到的權(quán)重W和誤差偏置ε,以及模擬的評論特征表示,使用式(10)計算目標用戶u對物品i的評分。

    (10)

    3.4 組合推薦算法

    在上述基于評論主題的推薦算法的基礎(chǔ)上,本文提出結(jié)合協(xié)同過濾算法的組合算法。協(xié)同過濾算法由于簡單高效而得到廣泛應(yīng)用。Bias From Mean是協(xié)同過濾算法中的一種,由HERLOCKER等人[17]在1999年提出,它的優(yōu)勢就是計算代價低,可解釋性較強。計算公式如式(11)所示。

    (11)

    將Bias From Mean的預(yù)測結(jié)果βui作為線性回歸模型的特征之一,新的計算公式如式(12)所示。

    (12)

    其中,W是各個主題的權(quán)重;θui是用戶u對物品i的評論的特征表示;ε是誤差偏置;βui是Bias From Mean算法的計算結(jié)果;Wβ是βui的權(quán)重;rui是該條評論中用戶u對物品i的評分。得到各個特征的權(quán)重,利用模擬出的評論的特征表示和Bias From Mean算法的計算結(jié)果即可進行評分預(yù)測。

    4 實驗結(jié)果與分析

    4.1 數(shù)據(jù)集

    本文實驗采用了大眾點評網(wǎng)的數(shù)據(jù)集。大眾點評網(wǎng)(www.dianping.com)是中國最大的獨立第三方消費點評網(wǎng)站。本文使用的數(shù)據(jù)集為中文數(shù)據(jù)集,全部來自上海地區(qū),包含自大眾點評2003年成立到2013年中,70萬用戶對5萬個商戶的440萬條評論。評論信息包含用戶名、商戶名、總體評分,以及評論文本內(nèi)容。根據(jù)實驗需要,過濾數(shù)據(jù)集中沒有文本評論信息的評論,因此本文使用的數(shù)據(jù)集包含63萬個用戶對五萬個商戶的360萬條評論,其中88.6%的用戶評論數(shù)為1~10,平均每個用戶評論5.6次,平均每個商戶擁有74.3條評論。本文實驗采用5重交叉驗證,將評論數(shù)據(jù)按數(shù)量隨機平分成5份子集,交叉驗證重復(fù)5次,每次選擇一個子集作為測試集,其余子集作為訓(xùn)練集,并將5次交叉實驗的平均結(jié)果作為最后的實驗結(jié)果。其中評論數(shù)據(jù)的評分人數(shù)分布如表5所示。

    表5 評分人數(shù)分布

    4.2 評價指標

    本文采用平均絕對偏差(mean absolute error,MAE)評價算法預(yù)測準確程度,MAE的計算公式如式(13)所示。

    (13)

    4.3 實驗結(jié)果與案例分析

    所有實驗結(jié)果如表6所示。實驗1、2、3均是協(xié)同過濾的推薦算法,它們的優(yōu)勢在于簡單有效,三種方法中BIAS FROM MEAN的效果最好。

    表6 實驗結(jié)果

    實驗4~9均是通過分析評論來預(yù)測評分,其中實驗4、實驗5利用LDA算法分析評論。在進行LDA實驗時,主題數(shù)設(shè)置為6,每個主題的主題詞個數(shù)設(shè)置為20,超參數(shù)α設(shè)置為0.2,β設(shè)置為0.1, 迭代次數(shù)為1 000,保存步長為100。本文使用的LDA工具是GibbsLDA++*http://gibbslda.sourceforge.net/。為了得到最佳效果,本文考慮將評論作預(yù)處理,只取評論中的形容詞和名詞。實驗4以LDA算法進行主題分析,實驗結(jié)果MAE為0.674 7。實驗5在此基礎(chǔ)上構(gòu)建組合推薦系統(tǒng),其實驗結(jié)果MAE為0.601 3。

    實驗6、實驗7通過人工標注評論中的主題和情感來分析評論,實驗6的結(jié)果MAE為0.662 8,實驗7在此基礎(chǔ)之上構(gòu)建組合推薦系統(tǒng),其實驗結(jié)果MAE為0.590 2。為了避免大量的人工標注工作,同時提高評論主題分析的準確性,實驗8、9利用基于詞向量的方法分析評論預(yù)測評分,實驗8的實驗結(jié)果MAE為0.626 5,實驗9在此基礎(chǔ)上構(gòu)建組合推薦系統(tǒng),其實驗結(jié)果MAE為0.581 7。

    最近研究工作表明,在訓(xùn)練詞向量時不同來源的語料對結(jié)果有很大影響。本文使用中文Gigaword*https://catalog.ldc.upenn.edu/LDC2003T09語料來獲取詞向量,進行對比實驗。實驗結(jié)果如表7所示。結(jié)果顯示,使用餐飲領(lǐng)域(dianping)的評論語料的系統(tǒng)可以更準確預(yù)測結(jié)果。經(jīng)過進一步分析,我們發(fā)現(xiàn)由于 Gigaword主要是新聞?wù)Z料,生成的主題詞分布中產(chǎn)生大量新聞中常見的專業(yè)性詞語,而這些詞語在評論文本中很少見。這對評分預(yù)測的準確性產(chǎn)生影響。

    表7 對比實驗結(jié)果

    綜上所述,各個方法在加入BIAS FROM MEAN的結(jié)果作為線性回歸模型的特征之一構(gòu)建組合算法時,實驗性能都能得到一定提高。本文提出基于詞向量的方法,采用word2vec工具挖掘評論中的主題和情感,在此基礎(chǔ)上構(gòu)建的組合推薦系統(tǒng)的實驗結(jié)果是眾方法中最佳的。另外,針對用戶打分和評論內(nèi)容存在矛盾這一現(xiàn)象,例如,淘寶用戶因怕商家騷擾而給商品好評,但在評論文本中寫出真實感受,本文選出一些案例進行實驗分析。實驗結(jié)果如表8所示,實驗證明利用本文提出的基于詞向量的評分預(yù)測模型得出的評分可以在一定程度上更貼近用戶的真實評分。

    表8 評論內(nèi)容與打分矛盾案例分析

    5 總結(jié)與展望

    本文針對協(xié)同過濾算法和基于評論分析的推薦算法的局限性和不穩(wěn)定性,提出了采用基于詞向量的方法挖掘評論中的評論主題和情感,并結(jié)合協(xié)同過濾算法,從而形成一種組合推薦模型,起到兩者互補的作用。大規(guī)模評分預(yù)測實驗結(jié)果表明組合推薦模型能有效提高預(yù)測性能?;谠u論的推薦算法還有很大的研究空間,如何準確有效地挖掘評論中的主題、情感,避免用戶打分和內(nèi)容生成得分之間出現(xiàn)矛盾,并減少人工干預(yù)將是下一步的研究工作。

    [1] Schafer J B,Konstan J, Riedl J. Recommender systems in e-commerce[C]//Proceedings of the 1st ACM conference on Electronic commerce. ACM, 1999: 158-166.

    [2] Resnick P, Iacovou N, Suchak M, et al. GroupLens: an open architecture for collaborative filtering of netnews[C]//Proceedings of the 1994 ACM conference on Computer supported cooperative work. ACM, 1994: 175-186.

    [3] Sarwar B, Karypis G, Konstan J, et al. Item-based collaborative filtering recommendation algorithms[C]//Proceedings of the 10th international conference on World Wide Web. ACM, 2001: 285-295.

    [4] Lemire D, Maclachlan A. Slope One Predictors for Online Rating-Based Collaborative Filtering[C]//Processdings of the SDM. 2005, 5: 1-5.

    [5] Kiritchenko S, Zhu X, Mohammad S M. Sentiment Analysis of Short Informal Text[J]. Journal of Artificial Intelligence Research, 2014, 50:723-762.

    [6] Tang D, Qin B, Liu T. Learning semantic representations of users and products for document level sentiment classification[C]//Proceedings of the ACL. 2015:1014-1023.

    [7] Wang L, Liu K, Cao Z, et al. Sentiment-Aspect Extraction based on Restricted Boltzmann Machines[C]//Proceedings of the ACL. 2015:616-625.

    [8] Ganu G, Elhadad N, Marian A. Beyond the Stars: Improving Rating Predictions using Review Text Content[C]//Proceedings of the WebDB. 2009, 9: 1-6.

    [9] Joachims T. A support vector method for multivariate performance measures[C]//Proceedings of the 22nd international conference on Machine learning. ACM, 2005: 377-384.

    [10] Qu L, Ifrim G, Weikum G. The bag-of-opinions method for review rating prediction from sparse text patterns[C]//Proceedings of the 23rd International Conference on Computational Linguistics. Association for Computational Linguistics, 2010: 913-921.

    [11] McAuley J, Leskovec J. Hidden factors and hidden topics: understanding rating dimensions with review text[C]//Proceedings of the 7th ACM conference on Recommender systems. ACM, 2013: 165-172.

    [12] Koren Y, Bell R. Advances in collaborative filtering[M]. Recommender systems handbook. Springer US, 2011: 145-186.

    [13] 陳慶章, 湯仲喆, 王凱,等. 采用數(shù)據(jù)挖掘的自動化推薦技術(shù)的研究[J]. 中文信息學(xué)報, 2012, 26(4):115-121.

    [14] Zhang R, Gao Y F, Yu W Z, et al. Review Comment Analysis for Predicting Ratings[C]//Proceedings of the The 16th International Conference on Web-Age Information Management. Qingdao, 2015:247-259.

    [15] Blei D M, Ng A Y, Jordan M I. Latentdirichlet allocation[J]. the Journal of machine Learning research, 2003, 3: 993-1022.

    [16] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of the Advances in Neural Information Processing Systems. 2013: 3111-3119.

    [17] Herlocker J, Konstan J, Borchers A, et al. An algorithmic framework for performing collaborative filtering[C]//Proceedings of Reseach and Development in Information Retrieval. New York: ACM Press, 1999,230-237

    A Review Topic Analysis Method for Rating Prediction

    MA Chunping, CHEN Wenliang

    (School of Computer Sciences and Technology, Soochow University, Suzhou, Jiangsu 215006, China)

    Recommender system is widely used in e-commerce web sites. Traditional recommendation algorithms, e.g. collaborative filtering, predict the degree of user preference to an item based on user scoring history. Due to the development of the Internet, e-commerce websites pay more attention to user interactions, which leads to a great deal of user generated contents like comments, geographic locations and social relationships. Compared to the user rating, user comment demonstrates their opinions on different facets of the item. By taking full advantage of user generated contents, user preference can be further discovered. In this paper, we proposed an approach to using word-embedding to analyze review comments and design a novel system to predict the scores. Empirical experiments on a large review dataset show that the proposed approach can effectively improve the precision of the recommender system.

    recommender system; rating prediction; word embedding; user comment

    馬春平(1990—),碩士,主要研究領(lǐng)域為自然語言處理、推薦系統(tǒng)。E?mail:machunpingjj@163.com陳文亮(1977—),教授,碩士生導(dǎo)師,主要研究領(lǐng)域為句法分析、知識圖譜。E?mail:wlchen@suda.edu.cn

    2015-09-15 定稿日期: 2016-04-15

    1003-0077(2017)02-0204-08

    文獻標識碼:

    表可以看出,通過LDA算法挖掘出的主題大致將評論分為以下六個主題,依次為: 甜品,飲料;肉類,火鍋;面類小吃;鮮嫩菜類;服務(wù)評價;環(huán)境評價。同時可以看到在各主題下出現(xiàn)了大量無關(guān)的詞,這勢必會影響評分預(yù)測的效果。

    猜你喜歡
    主題詞物品向量
    稱物品
    向量的分解
    聚焦“向量與三角”創(chuàng)新題
    “雙十一”,你搶到了想要的物品嗎?
    誰動了凡·高的物品
    向量垂直在解析幾何中的應(yīng)用
    向量五種“變身” 玩轉(zhuǎn)圓錐曲線
    找物品
    我校學(xué)報第32卷第5期(2014年10月)平均每篇有3.04個21世紀的Ei主題詞
    我校學(xué)報第32卷第6期(2014年12月)平均每篇有3.00個21世紀的Ei主題詞
    武邑县| 南部县| 罗源县| 汝州市| 榆社县| 遂溪县| 定南县| 泸州市| 九寨沟县| 安化县| 东宁县| 石景山区| 邢台县| 淮安市| 来安县| 松滋市| 汉阴县| 耿马| 浦城县| 旺苍县| 安庆市| 尉犁县| 双峰县| 黎川县| 阳江市| 类乌齐县| 东港市| 罗山县| 蕲春县| 光泽县| 固原市| 富宁县| 台江县| 崇礼县| 洞口县| 云安县| 渭南市| 九龙县| 蛟河市| 金门县| 基隆市|