徐文祥,魏紅芹
(東華大學(xué)旭日工商管理學(xué)院,上海 200051)
Web2.0下,電子商務(wù)發(fā)生了翻天覆地的變化,傳統(tǒng)的電子商務(wù)以企業(yè)為中心發(fā)布產(chǎn)品信息逐漸轉(zhuǎn)變?yōu)槠髽I(yè)與消費(fèi)者的互動(dòng),網(wǎng)絡(luò)購(gòu)物評(píng)論作為口碑的一種新形式,指的是消費(fèi)者對(duì)產(chǎn)品的質(zhì)量和服務(wù),通過(guò)短文本形式在網(wǎng)購(gòu)平臺(tái)評(píng)論系統(tǒng)中發(fā)表的評(píng)價(jià)。根據(jù)相關(guān)調(diào)查研究,網(wǎng)絡(luò)購(gòu)物評(píng)論對(duì)消費(fèi)者的決策產(chǎn)生了重要的影響。而現(xiàn)有的電子商務(wù)只是簡(jiǎn)單地根據(jù)商品的好評(píng)和差評(píng)數(shù)量幫助用戶進(jìn)行快速?zèng)Q策,并沒(méi)有考慮不同用戶的情感傾向和偏好,基于此,本文在短文本觀點(diǎn)抽取和推薦算法相關(guān)研究進(jìn)入深入分析的基礎(chǔ)上,通過(guò)挖掘評(píng)論信息中產(chǎn)品的特征和對(duì)應(yīng)的用戶觀點(diǎn),構(gòu)建產(chǎn)品特征模型和用戶偏好模型,結(jié)合修正的余弦相似度計(jì)算對(duì)傳統(tǒng)的協(xié)同過(guò)濾算法進(jìn)行改進(jìn),最終得到了融合網(wǎng)絡(luò)購(gòu)物評(píng)論的協(xié)同過(guò)濾推薦算法。
協(xié)同過(guò)濾推薦算法可以分為基于內(nèi)存(Memorybased)的方法和基于模型(Model-based)的方法[1]。其中基于內(nèi)存[2]的方法根據(jù)研究對(duì)象的不同,又可以分為基于用戶的推薦(User-based)和基于項(xiàng)目的推薦(Item-based)兩種?;谟脩舻耐扑]是根據(jù)用戶對(duì)項(xiàng)目打分等數(shù)據(jù),計(jì)算目標(biāo)用戶與其他用戶的相似度,再尋找與目標(biāo)用戶最為接近的Top-k個(gè)相似用戶,對(duì)于目標(biāo)用戶未曾打分的物品用相似用戶的歷史打分?jǐn)?shù)據(jù)進(jìn)行加權(quán)打分,最后根據(jù)物品的打分進(jìn)行排序得到一個(gè)推薦結(jié)果列表給目標(biāo)用戶?;陧?xiàng)目的協(xié)同過(guò)濾與基于用戶的協(xié)同過(guò)濾相似,不同是將最近鄰搜索從用戶整體空間轉(zhuǎn)換到項(xiàng)目空間上,大大地改善了傳統(tǒng)基于用戶算法的計(jì)算瓶頸,但是這兩者都無(wú)法解決推薦系統(tǒng)冷啟動(dòng)問(wèn)題。為了解決用戶冷啟動(dòng)和項(xiàng)目冷啟動(dòng)問(wèn)題,相關(guān)學(xué)者提出了基于模型的協(xié)同過(guò)濾推薦算法,其主要思想是用基礎(chǔ)的協(xié)同過(guò)濾從歷史數(shù)據(jù)中訓(xùn)練出一個(gè)模型,再通過(guò)訓(xùn)練出來(lái)的模型進(jìn)行預(yù)測(cè)。
網(wǎng)絡(luò)評(píng)論數(shù)據(jù)屬于非結(jié)構(gòu)化的文本信息,主要由評(píng)論者、評(píng)論的對(duì)象、評(píng)論內(nèi)容、評(píng)價(jià)者觀點(diǎn)四個(gè)部分組成。大部分的研究工作主要為產(chǎn)品特征提取和情感分析以及極性分析,涉及到的相關(guān)學(xué)科領(lǐng)域知識(shí)有信息檢索知識(shí)、自然語(yǔ)言的處理、機(jī)器學(xué)習(xí)等。
挖掘評(píng)論信息中用戶感興趣的產(chǎn)品特征分為兩種[3],一種是顯性的特征,如:“整體用著還不錯(cuò),開(kāi)機(jī)速度挺快的,十幾秒。”其中“整體”、“開(kāi)機(jī)速度”可以自己從評(píng)論語(yǔ)句中提取出來(lái)的為顯性特征;一類為隱形特征,如“機(jī)器顏色很好看,攜帶很方便,不過(guò)手部有油,留的痕跡也很明顯?!逼渲小邦伾敝傅氖鞘謾C(jī)的外觀,而“攜帶很方便”討論的是手機(jī)的尺寸,但是這些特征都不能夠直接從評(píng)論語(yǔ)句中獲得,只能根據(jù)上下文語(yǔ)境進(jìn)行語(yǔ)義分析獲取。產(chǎn)品的顯性特征挖掘,常用的方法有監(jiān)督式和非監(jiān)督式算法[4]。隱性方面的特征詞挖掘需要對(duì)評(píng)論語(yǔ)句進(jìn)行深刻的語(yǔ)義理解[4]。觀點(diǎn)挖掘的算法主要分為:基于規(guī)則的抽取、基于統(tǒng)計(jì)模型提取和基于深度模型的提取方法[4]。
在結(jié)合評(píng)論挖掘的推薦方面,藍(lán)金炯[5]運(yùn)用LDA模型挖掘評(píng)論主題分布,利用Rocchio算法得到了用戶的主題分布向量,改進(jìn)了協(xié)同過(guò)濾推薦。那日薩[6]等運(yùn)用構(gòu)建產(chǎn)品屬性與推薦度模糊規(guī)則,實(shí)現(xiàn)了個(gè)性化產(chǎn)品推薦計(jì)算。扈中凱利用相似度傳遞技術(shù)環(huán)節(jié)了緩解了推薦系統(tǒng)中數(shù)據(jù)稀疏性問(wèn)題。
本節(jié)主要針對(duì)網(wǎng)絡(luò)評(píng)論挖掘和改進(jìn)的個(gè)性化推薦模型進(jìn)行實(shí)驗(yàn)研究,實(shí)驗(yàn)思路和過(guò)程如圖1所示,首先從收集評(píng)論數(shù)據(jù);接著對(duì)收集的評(píng)論數(shù)據(jù)進(jìn)行預(yù)處理;隨后就是從評(píng)論語(yǔ)句中挖掘產(chǎn)品特征集、觀點(diǎn)識(shí)別、極性判斷和計(jì)算;然后對(duì)評(píng)論挖掘的結(jié)果進(jìn)行分析,改進(jìn)協(xié)同過(guò)濾推薦算法,構(gòu)建產(chǎn)品特征模型和用戶偏好模型,產(chǎn)生推薦。
圖1 基于網(wǎng)絡(luò)購(gòu)物評(píng)論的產(chǎn)品推薦框架
(1)關(guān)鍵詞過(guò)濾
網(wǎng)絡(luò)評(píng)論數(shù)據(jù)充滿著大量無(wú)用的垃圾信息,例如廣告、推廣等,例如評(píng)論中出現(xiàn)通知、公告、簡(jiǎn)訊、快訊等詞語(yǔ),可以通過(guò)建立關(guān)鍵詞過(guò)濾詞典,進(jìn)行去噪。
(2)句式過(guò)濾
消費(fèi)者發(fā)表的評(píng)論往往都帶有一定的感情色彩,句型一般要不為感嘆句,要不就是陳述語(yǔ)氣,很少有疑問(wèn)句或者反問(wèn)句式對(duì)商品進(jìn)行評(píng)價(jià),針對(duì)于這種情況,可以判斷如果評(píng)論語(yǔ)句中包含了“?”等表示疑問(wèn)的標(biāo)點(diǎn)符號(hào),可以直接從評(píng)論集中過(guò)濾掉。
(3)冗余消除
另外,經(jīng)常在購(gòu)物網(wǎng)站中會(huì)發(fā)現(xiàn)有些評(píng)論是完全一模一樣,基于某中原因,有的是出自同一個(gè)評(píng)論者,或者不同的評(píng)論者,對(duì)于研究是沒(méi)有用處的,所以也可以去掉這些重復(fù)的評(píng)論,保證了評(píng)論的唯一性。
定義 1:用戶評(píng)論數(shù)據(jù)集 R={r1,r2,…,rn},r={s1,s2,…,sm},評(píng)論數(shù)據(jù)集由所有的用戶評(píng)論組成,每一條評(píng)論包含多個(gè)句子。
定義2:特征情感詞語(yǔ)對(duì)由<Fword,Oword,Mword,Is?Neg>表示,其中Fword表示特征指示詞語(yǔ),一般為名詞或名詞詞組,Oword表示情感詞語(yǔ),一般為形容詞,Mword為情感修飾詞語(yǔ),一般為程度副詞,IsNeg代表否定詞,若句中含有否定詞語(yǔ),則情感的極性要取反。
本文基于詞性抽取評(píng)論中的產(chǎn)品特征和用戶觀點(diǎn),首先要對(duì)評(píng)論中的句子進(jìn)行分詞和詞性標(biāo)注(part of speech)。通過(guò)建立產(chǎn)品特征詞語(yǔ)庫(kù)FDict進(jìn)行過(guò)濾,特征情感詞語(yǔ)對(duì)提取步驟如下:
步驟1:迭代每條評(píng)論r,對(duì)r分句,分句后對(duì)每條句子s分詞和標(biāo)注詞性;
步驟2:抽取句子s中的名詞詞語(yǔ)N,如N存在于FDict中,則將 N存入 Fword中,不存在,則 Fword置為NULL;
步驟3:抽取句子s中中的形容詞ADJ,若包含一個(gè)或多個(gè),則將 ADJ存入 Oword中,否則 Oword置為NULL;
步驟4:抽取句子中程度修飾副詞ADV,若ADV不存在,則Mword置為NULL,否則將ADV存入Mword中;
步驟 5:尋找否定詞語(yǔ)NEG,若存在,則IsNeg=true,否則,IsNeg=Flase;
步驟6:將抽取的結(jié)果按照<Rid,Sid,Fword,Oword,Mword,IsNeg>存放,其中Rid表示評(píng)論編號(hào),Sid表示評(píng)論的句子編號(hào)。
本文基于HowNet情感字典構(gòu)建電子產(chǎn)品領(lǐng)域的極性字典。極性判定詞典的詞性分為3類:褒義(Posi?tive)、貶義(Negative)、中性(Neutral),這 3類詞語(yǔ)極性的取值(Pvalue)為 positive、negative、neutral、unknown,其中Spos、Sneg和Sneu分別表示褒義詞集合,貶義詞集合和中性詞集合。unk為未登錄詞,不在這3個(gè)集合中,需要通過(guò)一定的方法進(jìn)行判斷。本文計(jì)算未登錄詞的極性采用SO-PMI算法。
PMI(Pointwise Mutual Information),中文全稱點(diǎn)互信息,常用于機(jī)器學(xué)習(xí)領(lǐng)域,是計(jì)算兩個(gè)事物之間的相關(guān)性,計(jì)算公式(1)如下:
如果x與y不相關(guān),則上式為零,若x與y相關(guān)性越大,則上式就越大。
本文通過(guò)建立極性詞典,通過(guò)信息檢索的方式,分別求出未登錄詞與極性詞典里面的正向詞和負(fù)向詞的PMI,若正向的PMI值大,則未登錄詞判定為正向,否則判定為負(fù)向。SO-PMI計(jì)算公式(2)如下:
如果 SO(unk)為正,則極性為 Positive,否則,極性為Negative
極性強(qiáng)度strength(w)計(jì)算公式如公式(5)所示。
公式(3)中V表示情感詞語(yǔ)原始極性,公式(4)中L1,L2,L3,L4,L5,L6分別代表 HowNet中程度修飾副詞不同的六個(gè)等級(jí)。
傳統(tǒng)的協(xié)同過(guò)濾推薦算法只考慮到了用戶評(píng)分之間的相似性,本文通過(guò)抽取用戶在產(chǎn)品特征層面的興趣偏好,通過(guò)用戶偏好來(lái)修正基于用戶的協(xié)同過(guò)濾推薦算法。
定義:用戶的關(guān)注偏好可以用向量來(lái)表示Pij={pij1,pij2,…,pijk},其中 pijk表示用戶i對(duì)產(chǎn)品j的第K個(gè)特征的偏好程度。對(duì)于用戶共同評(píng)價(jià)的項(xiàng)目可以用用戶-產(chǎn)品特征矩陣如圖2所示:
圖2 用戶-產(chǎn)品特征矩陣
傳統(tǒng)的余弦相似度計(jì)算,不能反映出不同的用戶對(duì)不同的產(chǎn)品的主觀評(píng)價(jià)尺度,往往會(huì)導(dǎo)致沒(méi)有相同的興趣愛(ài)好的用戶錯(cuò)誤的聚類在一起,產(chǎn)生了不相關(guān)的推薦,為了克服不同用戶主觀差異帶來(lái)的問(wèn)題,本文在原來(lái)相似度的基礎(chǔ)上,減去原來(lái)用戶對(duì)所有項(xiàng)目的平均得分作為用戶對(duì)產(chǎn)品的新評(píng)分,其改進(jìn)的余弦相似度計(jì)算公式如下所示,其中-Ra和-Rb表示用戶a和用戶b對(duì)產(chǎn)品的所有屬性的平均得分。
在協(xié)同過(guò)濾推薦算法中,通過(guò)K個(gè)最近鄰用戶預(yù)測(cè)目標(biāo)用戶對(duì)未評(píng)分的項(xiàng)目進(jìn)行評(píng)分預(yù)測(cè)。
其中Puif表示用戶u對(duì)產(chǎn)品i的第j個(gè)特征的預(yù)測(cè)評(píng)分,U表示K個(gè)相似用戶集合,表示K個(gè)相似用戶的平均評(píng)分。Sim(u,m)表示用戶u和用戶m的相似度。
根據(jù)上式對(duì)目標(biāo)用戶未評(píng)分的項(xiàng)目進(jìn)行預(yù)測(cè)評(píng)分,再與用戶的實(shí)際評(píng)分進(jìn)行比較,最后可以得出該模型的精確,并將評(píng)分按照從大到小進(jìn)行排序,產(chǎn)生推薦結(jié)果。
本文數(shù)據(jù)來(lái)自于京東電子商務(wù)平臺(tái)的手機(jī)評(píng)論數(shù)據(jù),通過(guò)運(yùn)用網(wǎng)頁(yè)采集技術(shù),一共爬取了100款手機(jī)共300,000評(píng)論數(shù)據(jù)。通過(guò)建立手機(jī)特征詞語(yǔ)庫(kù)和手機(jī)領(lǐng)域極性詞典,經(jīng)過(guò)數(shù)據(jù)清洗,一共提取了564個(gè)用戶對(duì)57款手機(jī)的12,148條評(píng)論。
實(shí)驗(yàn)采用交叉驗(yàn)證,隨機(jī)提取75%的數(shù)據(jù)作為訓(xùn)練集TrainSet,剩下的作為測(cè)試集TestSet,驗(yàn)證模型的精確度。
推薦算法的評(píng)價(jià)公式一般驗(yàn)證采用平均絕對(duì)誤差,其公式(8)如下所示:
其中Ra表示用戶的實(shí)際評(píng)分,pa表示預(yù)測(cè)得分。
通過(guò)設(shè)定不同的相似用戶的數(shù)量,比較本文算法同傳統(tǒng)協(xié)同過(guò)濾算法的MAE比較。結(jié)果如圖3所示。從圖中可以,橫坐標(biāo)為相似用戶選取數(shù)量,取值從15-30,縱坐標(biāo)表示MAE值,系列1表示本文改進(jìn)的協(xié)同過(guò)濾算法,系列2表示傳統(tǒng)的協(xié)同過(guò)濾算法,結(jié)果表明,本文的算法評(píng)分預(yù)測(cè)精確度要高于傳統(tǒng)的協(xié)同過(guò)濾推薦算法。
圖3 本文算法與傳統(tǒng)協(xié)同過(guò)濾算法MAE比較
本文提出了融合網(wǎng)絡(luò)購(gòu)物評(píng)論的協(xié)同過(guò)濾推薦算法,通過(guò)對(duì)挖掘評(píng)論中的特征觀點(diǎn)詞對(duì),得到了用戶在產(chǎn)品特征層面的偏好程度,改善了用戶的偏好模型的質(zhì)量,同時(shí),在用戶相似度計(jì)算方面,修正了傳統(tǒng)余弦相似度未考慮不同用戶主觀評(píng)價(jià)尺度不同的問(wèn)題,通過(guò)減去用戶的平均得分,得到用戶的新評(píng)分,在一定程度上解決了用戶主觀評(píng)價(jià)帶來(lái)的不足。最后通過(guò)預(yù)測(cè)用戶的評(píng)分進(jìn)行排序產(chǎn)生推薦結(jié)果,實(shí)驗(yàn)結(jié)果,表明,本文的推薦算法較傳統(tǒng)的給予用戶的推薦算法推薦精度有明顯的提高。
本文的不足在于未考慮用戶其他的歷史行為數(shù)據(jù),只將評(píng)論作為模型的數(shù)據(jù)源,在實(shí)際的推薦系統(tǒng)中,建模的數(shù)據(jù)會(huì)是來(lái)自多個(gè)層面的,推薦的數(shù)據(jù)源選取還有待更進(jìn)一步的研究。在評(píng)論特征挖掘方面,本文只針對(duì)了顯性特征的抽取,對(duì)于隱性特征的提取,本文沒(méi)有涉及,隱形特征對(duì)于產(chǎn)品特征建模同樣的重要,后期還有待進(jìn)一步完善。
參考文獻(xiàn):
[1]Breese J S,Heckerman D,Kadie C.Empirical Analysis of Predictive Algorithms for Collaborative Filtering[C].Fourteenth Conference on Uncertainty in Artificial Intelligence.Morgan Kaufmann Publishers Inc,1998:43-52.
[2]Gong S J,Ye H W,Tan H S.Combining Memory-Based and Model-Based Collaborative Filtering in Recommender System[C].Circuits,Communications and Systems,2009.PACCS'09.Pacific-Asia Conference on.IEEE,2009:690-693.
[3]Hu M,Liu B.Mining and Summarizing Customer Reviews[C].Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,Seattle,Washington,Usa,August.DBLP,2004:168-177.
[4]韓忠明,李夢(mèng)琪,劉雯,張夢(mèng)玫,段大高,于重重.網(wǎng)絡(luò)評(píng)論方面級(jí)觀點(diǎn)挖掘方法研究綜述.軟件學(xué)報(bào)[J].2017:1-23.
[5]藍(lán)金炯.融合在線用戶評(píng)論的協(xié)同過(guò)濾推薦研究[D].華南理工大學(xué),2016.
[6]那日薩,鐘佳豐,童強(qiáng).基于情感詞匯的在線評(píng)論產(chǎn)品個(gè)性化推薦方法研究[J].鄭州大學(xué)學(xué)報(bào)(理學(xué)版),2011,43(2):48-51.