基于網(wǎng)絡(luò)購(gòu)物評(píng)論的協(xié)同過(guò)濾推薦算法

2018-05-07 03:27:23徐文祥魏紅芹

現(xiàn)代計(jì)算機(jī) 2018年9期

徐文祥，魏紅芹

（東華大學(xué)旭日工商管理學(xué)院，上海 200051）

0 引言

Web2.0下，電子商務(wù)發(fā)生了翻天覆地的變化，傳統(tǒng)的電子商務(wù)以企業(yè)為中心發(fā)布產(chǎn)品信息逐漸轉(zhuǎn)變?yōu)槠髽I(yè)與消費(fèi)者的互動(dòng)，網(wǎng)絡(luò)購(gòu)物評(píng)論作為口碑的一種新形式，指的是消費(fèi)者對(duì)產(chǎn)品的質(zhì)量和服務(wù)，通過(guò)短文本形式在網(wǎng)購(gòu)平臺(tái)評(píng)論系統(tǒng)中發(fā)表的評(píng)價(jià)。根據(jù)相關(guān)調(diào)查研究，網(wǎng)絡(luò)購(gòu)物評(píng)論對(duì)消費(fèi)者的決策產(chǎn)生了重要的影響。而現(xiàn)有的電子商務(wù)只是簡(jiǎn)單地根據(jù)商品的好評(píng)和差評(píng)數(shù)量幫助用戶進(jìn)行快速?zèng)Q策，并沒(méi)有考慮不同用戶的情感傾向和偏好，基于此，本文在短文本觀點(diǎn)抽取和推薦算法相關(guān)研究進(jìn)入深入分析的基礎(chǔ)上，通過(guò)挖掘評(píng)論信息中產(chǎn)品的特征和對(duì)應(yīng)的用戶觀點(diǎn)，構(gòu)建產(chǎn)品特征模型和用戶偏好模型，結(jié)合修正的余弦相似度計(jì)算對(duì)傳統(tǒng)的協(xié)同過(guò)濾算法進(jìn)行改進(jìn)，最終得到了融合網(wǎng)絡(luò)購(gòu)物評(píng)論的協(xié)同過(guò)濾推薦算法。

1 相關(guān)工作

協(xié)同過(guò)濾推薦算法可以分為基于內(nèi)存（Memorybased）的方法和基于模型（Model-based）的方法[1]。其中基于內(nèi)存[2]的方法根據(jù)研究對(duì)象的不同，又可以分為基于用戶的推薦（User-based）和基于項(xiàng)目的推薦（Item-based）兩種?；谟脩舻耐扑]是根據(jù)用戶對(duì)項(xiàng)目打分等數(shù)據(jù)，計(jì)算目標(biāo)用戶與其他用戶的相似度，再尋找與目標(biāo)用戶最為接近的Top-k個(gè)相似用戶，對(duì)于目標(biāo)用戶未曾打分的物品用相似用戶的歷史打分?jǐn)?shù)據(jù)進(jìn)行加權(quán)打分，最后根據(jù)物品的打分進(jìn)行排序得到一個(gè)推薦結(jié)果列表給目標(biāo)用戶?；陧?xiàng)目的協(xié)同過(guò)濾與基于用戶的協(xié)同過(guò)濾相似，不同是將最近鄰搜索從用戶整體空間轉(zhuǎn)換到項(xiàng)目空間上，大大地改善了傳統(tǒng)基于用戶算法的計(jì)算瓶頸，但是這兩者都無(wú)法解決推薦系統(tǒng)冷啟動(dòng)問(wèn)題。為了解決用戶冷啟動(dòng)和項(xiàng)目冷啟動(dòng)問(wèn)題，相關(guān)學(xué)者提出了基于模型的協(xié)同過(guò)濾推薦算法，其主要思想是用基礎(chǔ)的協(xié)同過(guò)濾從歷史數(shù)據(jù)中訓(xùn)練出一個(gè)模型，再通過(guò)訓(xùn)練出來(lái)的模型進(jìn)行預(yù)測(cè)。

網(wǎng)絡(luò)評(píng)論數(shù)據(jù)屬于非結(jié)構(gòu)化的文本信息，主要由評(píng)論者、評(píng)論的對(duì)象、評(píng)論內(nèi)容、評(píng)價(jià)者觀點(diǎn)四個(gè)部分組成。大部分的研究工作主要為產(chǎn)品特征提取和情感分析以及極性分析，涉及到的相關(guān)學(xué)科領(lǐng)域知識(shí)有信息檢索知識(shí)、自然語(yǔ)言的處理、機(jī)器學(xué)習(xí)等。

挖掘評(píng)論信息中用戶感興趣的產(chǎn)品特征分為兩種[3]，一種是顯性的特征，如：“整體用著還不錯(cuò)，開(kāi)機(jī)速度挺快的，十幾秒。”其中“整體”、“開(kāi)機(jī)速度”可以自己從評(píng)論語(yǔ)句中提取出來(lái)的為顯性特征；一類為隱形特征，如“機(jī)器顏色很好看，攜帶很方便，不過(guò)手部有油，留的痕跡也很明顯?！逼渲小邦伾敝傅氖鞘謾C(jī)的外觀，而“攜帶很方便”討論的是手機(jī)的尺寸，但是這些特征都不能夠直接從評(píng)論語(yǔ)句中獲得，只能根據(jù)上下文語(yǔ)境進(jìn)行語(yǔ)義分析獲取。產(chǎn)品的顯性特征挖掘，常用的方法有監(jiān)督式和非監(jiān)督式算法[4]。隱性方面的特征詞挖掘需要對(duì)評(píng)論語(yǔ)句進(jìn)行深刻的語(yǔ)義理解[4]。觀點(diǎn)挖掘的算法主要分為：基于規(guī)則的抽取、基于統(tǒng)計(jì)模型提取和基于深度模型的提取方法[4]。

在結(jié)合評(píng)論挖掘的推薦方面，藍(lán)金炯[5]運(yùn)用LDA模型挖掘評(píng)論主題分布，利用Rocchio算法得到了用戶的主題分布向量，改進(jìn)了協(xié)同過(guò)濾推薦。那日薩[6]等運(yùn)用構(gòu)建產(chǎn)品屬性與推薦度模糊規(guī)則，實(shí)現(xiàn)了個(gè)性化產(chǎn)品推薦計(jì)算。扈中凱利用相似度傳遞技術(shù)環(huán)節(jié)了緩解了推薦系統(tǒng)中數(shù)據(jù)稀疏性問(wèn)題。

2 整體框架

本節(jié)主要針對(duì)網(wǎng)絡(luò)評(píng)論挖掘和改進(jìn)的個(gè)性化推薦模型進(jìn)行實(shí)驗(yàn)研究，實(shí)驗(yàn)思路和過(guò)程如圖1所示，首先從收集評(píng)論數(shù)據(jù)；接著對(duì)收集的評(píng)論數(shù)據(jù)進(jìn)行預(yù)處理；隨后就是從評(píng)論語(yǔ)句中挖掘產(chǎn)品特征集、觀點(diǎn)識(shí)別、極性判斷和計(jì)算；然后對(duì)評(píng)論挖掘的結(jié)果進(jìn)行分析，改進(jìn)協(xié)同過(guò)濾推薦算法，構(gòu)建產(chǎn)品特征模型和用戶偏好模型，產(chǎn)生推薦。

圖1 基于網(wǎng)絡(luò)購(gòu)物評(píng)論的產(chǎn)品推薦框架

3 融合用戶評(píng)論挖掘的協(xié)同過(guò)濾推薦算法

3.1 評(píng)論數(shù)據(jù)預(yù)處理

（1）關(guān)鍵詞過(guò)濾

網(wǎng)絡(luò)評(píng)論數(shù)據(jù)充滿著大量無(wú)用的垃圾信息，例如廣告、推廣等，例如評(píng)論中出現(xiàn)通知、公告、簡(jiǎn)訊、快訊等詞語(yǔ)，可以通過(guò)建立關(guān)鍵詞過(guò)濾詞典，進(jìn)行去噪。

（2）句式過(guò)濾

消費(fèi)者發(fā)表的評(píng)論往往都帶有一定的感情色彩，句型一般要不為感嘆句，要不就是陳述語(yǔ)氣，很少有疑問(wèn)句或者反問(wèn)句式對(duì)商品進(jìn)行評(píng)價(jià)，針對(duì)于這種情況，可以判斷如果評(píng)論語(yǔ)句中包含了“？”等表示疑問(wèn)的標(biāo)點(diǎn)符號(hào)，可以直接從評(píng)論集中過(guò)濾掉。

（3）冗余消除

另外，經(jīng)常在購(gòu)物網(wǎng)站中會(huì)發(fā)現(xiàn)有些評(píng)論是完全一模一樣，基于某中原因，有的是出自同一個(gè)評(píng)論者，或者不同的評(píng)論者，對(duì)于研究是沒(méi)有用處的，所以也可以去掉這些重復(fù)的評(píng)論，保證了評(píng)論的唯一性。

3.2 特征情感詞語(yǔ)對(duì)提取

定義 1：用戶評(píng)論數(shù)據(jù)集 R={r1，r2，…，rn}，r={s1,s2，…，sm}，評(píng)論數(shù)據(jù)集由所有的用戶評(píng)論組成，每一條評(píng)論包含多個(gè)句子。

定義2：特征情感詞語(yǔ)對(duì)由＜Fword,Oword,Mword，Is?Neg＞表示，其中Fword表示特征指示詞語(yǔ)，一般為名詞或名詞詞組，Oword表示情感詞語(yǔ)，一般為形容詞，Mword為情感修飾詞語(yǔ)，一般為程度副詞，IsNeg代表否定詞，若句中含有否定詞語(yǔ)，則情感的極性要取反。

本文基于詞性抽取評(píng)論中的產(chǎn)品特征和用戶觀點(diǎn)，首先要對(duì)評(píng)論中的句子進(jìn)行分詞和詞性標(biāo)注（part of speech）。通過(guò)建立產(chǎn)品特征詞語(yǔ)庫(kù)FDict進(jìn)行過(guò)濾，特征情感詞語(yǔ)對(duì)提取步驟如下：

步驟1：迭代每條評(píng)論r，對(duì)r分句，分句后對(duì)每條句子s分詞和標(biāo)注詞性；

步驟2：抽取句子s中的名詞詞語(yǔ)N，如N存在于FDict中，則將 N存入 Fword中，不存在，則 Fword置為NULL；

步驟3：抽取句子s中中的形容詞ADJ，若包含一個(gè)或多個(gè)，則將 ADJ存入 Oword中，否則 Oword置為NULL；

步驟4：抽取句子中程度修飾副詞ADV,若ADV不存在，則Mword置為NULL，否則將ADV存入Mword中；

步驟 5：尋找否定詞語(yǔ)NEG，若存在，則IsNeg=true,否則，IsNeg=Flase；

步驟6：將抽取的結(jié)果按照＜Rid,Sid,Fword,Oword,Mword，IsNeg＞存放，其中Rid表示評(píng)論編號(hào)，Sid表示評(píng)論的句子編號(hào)。

3.3 情感極性計(jì)算

本文基于HowNet情感字典構(gòu)建電子產(chǎn)品領(lǐng)域的極性字典。極性判定詞典的詞性分為3類：褒義（Posi?tive）、貶義（Negative）、中性（Neutral），這 3類詞語(yǔ)極性的取值（Pvalue）為 positive、negative、neutral、unknown,其中Spos、Sneg和Sneu分別表示褒義詞集合，貶義詞集合和中性詞集合。unk為未登錄詞，不在這3個(gè)集合中，需要通過(guò)一定的方法進(jìn)行判斷。本文計(jì)算未登錄詞的極性采用SO-PMI算法。

PMI（Pointwise Mutual Information），中文全稱點(diǎn)互信息，常用于機(jī)器學(xué)習(xí)領(lǐng)域，是計(jì)算兩個(gè)事物之間的相關(guān)性，計(jì)算公式（1）如下：

如果x與y不相關(guān)，則上式為零，若x與y相關(guān)性越大，則上式就越大。

本文通過(guò)建立極性詞典，通過(guò)信息檢索的方式，分別求出未登錄詞與極性詞典里面的正向詞和負(fù)向詞的PMI，若正向的PMI值大，則未登錄詞判定為正向，否則判定為負(fù)向。SO-PMI計(jì)算公式（2）如下：

如果 SO（unk）為正，則極性為 Positive，否則，極性為Negative

極性強(qiáng)度strength（w）計(jì)算公式如公式（5）所示。

公式（3）中V表示情感詞語(yǔ)原始極性，公式（4）中L1，L2，L3，L4，L5，L6分別代表 HowNet中程度修飾副詞不同的六個(gè)等級(jí)。

3.4 用戶偏好模型構(gòu)建

傳統(tǒng)的協(xié)同過(guò)濾推薦算法只考慮到了用戶評(píng)分之間的相似性，本文通過(guò)抽取用戶在產(chǎn)品特征層面的興趣偏好，通過(guò)用戶偏好來(lái)修正基于用戶的協(xié)同過(guò)濾推薦算法。

定義：用戶的關(guān)注偏好可以用向量來(lái)表示Pij={pij1,pij2,…,pijk}，其中 pijk表示用戶i對(duì)產(chǎn)品j的第K個(gè)特征的偏好程度。對(duì)于用戶共同評(píng)價(jià)的項(xiàng)目可以用用戶-產(chǎn)品特征矩陣如圖2所示：

圖2 用戶-產(chǎn)品特征矩陣

傳統(tǒng)的余弦相似度計(jì)算，不能反映出不同的用戶對(duì)不同的產(chǎn)品的主觀評(píng)價(jià)尺度，往往會(huì)導(dǎo)致沒(méi)有相同的興趣愛(ài)好的用戶錯(cuò)誤的聚類在一起，產(chǎn)生了不相關(guān)的推薦，為了克服不同用戶主觀差異帶來(lái)的問(wèn)題，本文在原來(lái)相似度的基礎(chǔ)上，減去原來(lái)用戶對(duì)所有項(xiàng)目的平均得分作為用戶對(duì)產(chǎn)品的新評(píng)分，其改進(jìn)的余弦相似度計(jì)算公式如下所示，其中-Ra和-Rb表示用戶a和用戶b對(duì)產(chǎn)品的所有屬性的平均得分。

3.5 評(píng)分預(yù)測(cè)產(chǎn)生推薦

在協(xié)同過(guò)濾推薦算法中，通過(guò)K個(gè)最近鄰用戶預(yù)測(cè)目標(biāo)用戶對(duì)未評(píng)分的項(xiàng)目進(jìn)行評(píng)分預(yù)測(cè)。

其中Puif表示用戶u對(duì)產(chǎn)品i的第j個(gè)特征的預(yù)測(cè)評(píng)分，U表示K個(gè)相似用戶集合，表示K個(gè)相似用戶的平均評(píng)分。Sim（u,m）表示用戶u和用戶m的相似度。

根據(jù)上式對(duì)目標(biāo)用戶未評(píng)分的項(xiàng)目進(jìn)行預(yù)測(cè)評(píng)分，再與用戶的實(shí)際評(píng)分進(jìn)行比較，最后可以得出該模型的精確，并將評(píng)分按照從大到小進(jìn)行排序，產(chǎn)生推薦結(jié)果。

4 實(shí)驗(yàn)及結(jié)果分析

4.1 數(shù)據(jù)來(lái)源

本文數(shù)據(jù)來(lái)自于京東電子商務(wù)平臺(tái)的手機(jī)評(píng)論數(shù)據(jù)，通過(guò)運(yùn)用網(wǎng)頁(yè)采集技術(shù)，一共爬取了100款手機(jī)共300,000評(píng)論數(shù)據(jù)。通過(guò)建立手機(jī)特征詞語(yǔ)庫(kù)和手機(jī)領(lǐng)域極性詞典，經(jīng)過(guò)數(shù)據(jù)清洗，一共提取了564個(gè)用戶對(duì)57款手機(jī)的12,148條評(píng)論。

實(shí)驗(yàn)采用交叉驗(yàn)證，隨機(jī)提取75%的數(shù)據(jù)作為訓(xùn)練集TrainSet，剩下的作為測(cè)試集TestSet，驗(yàn)證模型的精確度。

4.2 評(píng)價(jià)標(biāo)準(zhǔn)

推薦算法的評(píng)價(jià)公式一般驗(yàn)證采用平均絕對(duì)誤差，其公式（8）如下所示：

其中Ra表示用戶的實(shí)際評(píng)分，pa表示預(yù)測(cè)得分。

4.3 結(jié)果分析

通過(guò)設(shè)定不同的相似用戶的數(shù)量，比較本文算法同傳統(tǒng)協(xié)同過(guò)濾算法的MAE比較。結(jié)果如圖3所示。從圖中可以，橫坐標(biāo)為相似用戶選取數(shù)量，取值從15-30，縱坐標(biāo)表示MAE值，系列1表示本文改進(jìn)的協(xié)同過(guò)濾算法，系列2表示傳統(tǒng)的協(xié)同過(guò)濾算法，結(jié)果表明，本文的算法評(píng)分預(yù)測(cè)精確度要高于傳統(tǒng)的協(xié)同過(guò)濾推薦算法。

圖3 本文算法與傳統(tǒng)協(xié)同過(guò)濾算法MAE比較

5 結(jié)語(yǔ)

本文提出了融合網(wǎng)絡(luò)購(gòu)物評(píng)論的協(xié)同過(guò)濾推薦算法，通過(guò)對(duì)挖掘評(píng)論中的特征觀點(diǎn)詞對(duì)，得到了用戶在產(chǎn)品特征層面的偏好程度，改善了用戶的偏好模型的質(zhì)量，同時(shí)，在用戶相似度計(jì)算方面，修正了傳統(tǒng)余弦相似度未考慮不同用戶主觀評(píng)價(jià)尺度不同的問(wèn)題，通過(guò)減去用戶的平均得分，得到用戶的新評(píng)分，在一定程度上解決了用戶主觀評(píng)價(jià)帶來(lái)的不足。最后通過(guò)預(yù)測(cè)用戶的評(píng)分進(jìn)行排序產(chǎn)生推薦結(jié)果，實(shí)驗(yàn)結(jié)果，表明，本文的推薦算法較傳統(tǒng)的給予用戶的推薦算法推薦精度有明顯的提高。

本文的不足在于未考慮用戶其他的歷史行為數(shù)據(jù)，只將評(píng)論作為模型的數(shù)據(jù)源，在實(shí)際的推薦系統(tǒng)中，建模的數(shù)據(jù)會(huì)是來(lái)自多個(gè)層面的，推薦的數(shù)據(jù)源選取還有待更進(jìn)一步的研究。在評(píng)論特征挖掘方面，本文只針對(duì)了顯性特征的抽取，對(duì)于隱性特征的提取，本文沒(méi)有涉及，隱形特征對(duì)于產(chǎn)品特征建模同樣的重要，后期還有待進(jìn)一步完善。

參考文獻(xiàn)：

[1]Breese J S,Heckerman D,Kadie C.Empirical Analysis of Predictive Algorithms for Collaborative Filtering[C].Fourteenth Conference on Uncertainty in Artificial Intelligence.Morgan Kaufmann Publishers Inc，1998:43-52.

[2]Gong S J,Ye H W,Tan H S.Combining Memory-Based and Model-Based Collaborative Filtering in Recommender System[C].Circuits,Communications and Systems,2009.PACCS'09.Pacific-Asia Conference on.IEEE，2009:690-693.

[3]Hu M,Liu B.Mining and Summarizing Customer Reviews[C].Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Seattle,Washington,Usa,August.DBLP，2004:168-177.

[4]韓忠明，李夢(mèng)琪，劉雯，張夢(mèng)玫，段大高，于重重.網(wǎng)絡(luò)評(píng)論方面級(jí)觀點(diǎn)挖掘方法研究綜述.軟件學(xué)報(bào)[J].2017:1-23.

[5]藍(lán)金炯.融合在線用戶評(píng)論的協(xié)同過(guò)濾推薦研究[D].華南理工大學(xué)，2016.

[6]那日薩,鐘佳豐,童強(qiáng).基于情感詞匯的在線評(píng)論產(chǎn)品個(gè)性化推薦方法研究[J].鄭州大學(xué)學(xué)報(bào)（理學(xué)版）,2011,43（2）:48-51.