施曉菁,梁 循,孫曉蕾
(1.中國(guó)人民大學(xué)信息學(xué)院,北京 100872;2.中科院科技政策與管理科學(xué)研究所 100190)
?
基于在線評(píng)級(jí)和評(píng)論的評(píng)價(jià)者效用機(jī)制研究
施曉菁1,梁 循1,孫曉蕾2
(1.中國(guó)人民大學(xué)信息學(xué)院,北京 100872;2.中科院科技政策與管理科學(xué)研究所 100190)
互聯(lián)網(wǎng)中對(duì)產(chǎn)品和服務(wù)的評(píng)價(jià)越來越受到重視,因?yàn)樵u(píng)價(jià)能夠消除消費(fèi)者的不確定性,輔助其做出購(gòu)買決策。大多數(shù)在線購(gòu)物網(wǎng)站中用戶的評(píng)價(jià)包括評(píng)級(jí)和評(píng)論?,F(xiàn)有的評(píng)價(jià)反饋系統(tǒng)和評(píng)價(jià)研究往往只單獨(dú)關(guān)注評(píng)價(jià)者之間的評(píng)級(jí)或評(píng)論,而忽略了兩者之間的有機(jī)統(tǒng)一。評(píng)價(jià)者的評(píng)級(jí)并不一定反映評(píng)價(jià)者的真實(shí)評(píng)價(jià),很多評(píng)價(jià)者更傾向于選擇評(píng)論文本來表達(dá)自己的真實(shí)情感。本文以從淘寶網(wǎng)抓取的852071條評(píng)價(jià)數(shù)據(jù)為基礎(chǔ),通過分析評(píng)價(jià)者評(píng)級(jí)和評(píng)論之間的不一致性,結(jié)合RFM模型,考慮評(píng)級(jí)和評(píng)論兩種信息形成的評(píng)價(jià)效用,提出了RFMA模型來計(jì)算評(píng)價(jià)者的總體評(píng)價(jià)效用。并據(jù)此對(duì)好的與不好的評(píng)價(jià)者進(jìn)行區(qū)分,進(jìn)一步為消費(fèi)者的購(gòu)買決策提供支持。通過對(duì)評(píng)價(jià)者的總體分析可以得出,本文提出的機(jī)制更加具有可用性和有效性。
評(píng)級(jí)和評(píng)論的不一致性;評(píng)價(jià);評(píng)價(jià)者;RFMA
在線交易機(jī)制和環(huán)境使得消費(fèi)者對(duì)產(chǎn)品和服務(wù)掌握的信息不充分,因?yàn)橄M(fèi)者在購(gòu)買產(chǎn)品前不能看見或使用它。但是若消費(fèi)者信任該服務(wù)提供商,那么即使他事先未看見或未使用商品,他也會(huì)做出購(gòu)買決策。當(dāng)用戶需要做出是否與某個(gè)服務(wù)提供商進(jìn)行交互的決定時(shí),往往非常在意商家的信譽(yù)[1]。而判斷某個(gè)實(shí)體是否值得信任是非常困難的,因?yàn)樵诰€交流媒體使得我們遠(yuǎn)離了原先熟悉的交互方式[2]。因此,大部分在線購(gòu)物網(wǎng)站為消費(fèi)者提供了評(píng)價(jià)(在本文中,評(píng)價(jià)是包括評(píng)級(jí)與評(píng)論的整體)反饋機(jī)制,消費(fèi)者在購(gòu)買商品后能以評(píng)級(jí)和評(píng)論的形式進(jìn)行評(píng)價(jià)。由于評(píng)級(jí)往往以數(shù)字等級(jí)的形式展示,這些購(gòu)物網(wǎng)站可以方便地將消費(fèi)者的評(píng)級(jí)集合起來,提供商品總體評(píng)分的信息,幫助消費(fèi)者直觀地了解評(píng)價(jià)者對(duì)商品的總體評(píng)價(jià)。但是出于種種原因,人們的評(píng)級(jí)往往不能真實(shí)地反映他們的傾向,且評(píng)級(jí)所包含的信息太過單一,評(píng)論文本信息逐漸成為了人們決策的重要參考。很多消費(fèi)者通過查看評(píng)論文本來了解商品的好壞。研究表明,在線商品評(píng)論顯著地影響著消費(fèi)者的購(gòu)買決策和B2C電子商務(wù)網(wǎng)站的產(chǎn)品銷售[3]。評(píng)論使得消費(fèi)者能夠集合社區(qū)中集體智慧來幫助自己做出購(gòu)買商品和服務(wù)的決策[4]。一方面,在線消費(fèi)者常常通過衡量他人對(duì)某件商品的評(píng)論來制定自己的購(gòu)買決策;另一方面,商品制造商可以從在線商品評(píng)論中獲得啟發(fā),從而支持廣泛的管理活動(dòng),如品牌塑造、客戶關(guān)系管理、產(chǎn)品研發(fā)以及質(zhì)量管理[5]。不論買家還是賣家,作為在線商品評(píng)論的讀者都希望從中獲得有助于制定決策的信息。
很多用戶在各種社交媒體上發(fā)表和共享大量的評(píng)論,為消費(fèi)者提供了豐富的決策參考信息。但這也帶來了很大的問題:面對(duì)海量評(píng)論,評(píng)論閱讀者可能迷失其中,無法有效識(shí)別和利用其中有價(jià)值的信息來判斷商品的真實(shí)質(zhì)量[6]。另外,雖然在線評(píng)論的文本內(nèi)容十分豐富,可為人們提供海量的信息資源,但并非所有評(píng)論都有價(jià)值,其中包括許多隨意或虛假的評(píng)論。由于網(wǎng)絡(luò)的匿名性、非面對(duì)面地接觸、溝通成本低廉等特征[7],評(píng)論的質(zhì)量往往參差不齊。評(píng)論的海量性及其質(zhì)量的不確定性,使得消費(fèi)者不容易從中獲得所需的信息,干擾了消費(fèi)者對(duì)商品質(zhì)量的判斷,從而影響了消費(fèi)決策。
因此,及時(shí)有效地識(shí)別在線評(píng)論文本中有價(jià)值的信息對(duì)提高消費(fèi)者的決策效率和效果至關(guān)重要。針對(duì)這一點(diǎn),許多B2C 電子商務(wù)網(wǎng)站,如淘寶、亞馬遜、京東商城等,提供在線商品評(píng)論的效用評(píng)價(jià)功能——依據(jù)每條評(píng)論獲得的“有用”投票數(shù)占總投票數(shù)的比例對(duì)商品評(píng)論進(jìn)行排序,獲得支持票數(shù)越多的評(píng)論,其排名越靠前[8],通過這樣的手段來幫助評(píng)論閱讀者識(shí)別評(píng)論的價(jià)值。但是該指標(biāo)需要長(zhǎng)時(shí)間累積,無法及時(shí)提供最新發(fā)布的評(píng)論的有用性信息,應(yīng)用效果有待衡量[9]。這是因?yàn)槿藗兺粚?duì)前幾條評(píng)論進(jìn)行瀏覽,已經(jīng)置頂?shù)脑u(píng)論更加有機(jī)會(huì)被瀏覽而被重復(fù)投票,而一些新發(fā)布的高品質(zhì)的評(píng)論則因?yàn)闆]有及時(shí)獲得足夠的有用投票而被忽略。
評(píng)級(jí)信息的單一性,使得由此設(shè)計(jì)的商品總體評(píng)分制度不能準(zhǔn)確反映評(píng)價(jià)者的觀點(diǎn)。評(píng)論信息的復(fù)雜性與主觀性,使得潛在消費(fèi)者難以直接從中快速獲得有用的觀點(diǎn)。通過前期研究發(fā)現(xiàn),評(píng)價(jià)者對(duì)某件商品給出的評(píng)級(jí)與評(píng)論經(jīng)常存在相反或不一致的現(xiàn)象,如評(píng)價(jià)者給出的評(píng)級(jí)為好評(píng),評(píng)論內(nèi)容卻是“質(zhì)量不怎么樣,習(xí)慣性好評(píng)”。為解決當(dāng)前B2C 電子商務(wù)網(wǎng)站對(duì)在線商品評(píng)論的效用評(píng)價(jià)的局限性,學(xué)術(shù)界提出了一系列基于文本挖掘和信息質(zhì)量評(píng)價(jià)理論的解決方案。但是很少有研究關(guān)注到評(píng)級(jí)信息與評(píng)論信息的不一致性,也幾乎沒有研究考慮將其進(jìn)行有機(jī)統(tǒng)一,對(duì)整體評(píng)價(jià)進(jìn)行效用分析。另外,評(píng)價(jià)者本身是否為一個(gè)好的評(píng)價(jià)者,對(duì)于潛在消費(fèi)者是否決定采納這條評(píng)價(jià)有著重要的影響。如何判別評(píng)價(jià)者的評(píng)價(jià)效用,也是評(píng)價(jià)研究中十分重要的一個(gè)方向。
針對(duì)這些問題,在本文的研究中,我們?cè)O(shè)計(jì)并提出了一種評(píng)價(jià)效用衡量機(jī)制,通過引入營(yíng)銷領(lǐng)域的RFM模型,以評(píng)價(jià)者的評(píng)級(jí)和評(píng)論信息作為評(píng)價(jià)效用(A)這一新指標(biāo),提出RFMA模型來對(duì)評(píng)價(jià)者本身的評(píng)價(jià)能力進(jìn)行分析,從而對(duì)評(píng)價(jià)者進(jìn)行分類,從中找出好的評(píng)價(jià)者。蔡淑琴[10]等已將RFM模型引入到對(duì)意見領(lǐng)袖的識(shí)別中,并添加了情感(S)這一新指標(biāo)。但是僅以情感值的大小作為新指標(biāo)進(jìn)行輸入,而未區(qū)分情感的正負(fù)向以及進(jìn)一步考慮情感在其中所起的作用。本文引入評(píng)論情感的正負(fù)向來對(duì)評(píng)價(jià)者的評(píng)級(jí)和評(píng)論的不一致性進(jìn)行衡量,并將這種不一致體現(xiàn)在對(duì)評(píng)價(jià)者的效用衡量上,充分使用了評(píng)級(jí)和評(píng)論信息。
以下是本文的三個(gè)主要研究問題:
(1)如何衡量評(píng)級(jí)和評(píng)論之間的不一致性。評(píng)級(jí)和評(píng)論之間的不一致性會(huì)造成混亂,因此衡量其不一致性在本文提出的機(jī)制中有著重要作用。我們使用了文本情感分析的方法對(duì)評(píng)論的情感傾向進(jìn)行衡量,并與評(píng)級(jí)進(jìn)行比較。
(2) 如何衡量單次評(píng)價(jià)的效用。購(gòu)物之后的評(píng)價(jià)反饋包括數(shù)字的評(píng)級(jí)和文本的評(píng)論。為了充分利用評(píng)論包含的信息,本文使用PageRank方法衡量評(píng)級(jí)的效用,并使用基于LDA主題模型的相似度方法衡量評(píng)論的效用,提出了將兩種信息相結(jié)合的評(píng)價(jià)效用衡量機(jī)制,同時(shí)還給出了可信度。
(3)如何衡量評(píng)價(jià)者的評(píng)價(jià)能力與評(píng)價(jià)效用并區(qū)分好與不好的評(píng)價(jià)者。根據(jù)新提出的RFMA模型,綜合得到評(píng)價(jià)者的總體評(píng)價(jià)效用。通過模型分類與人工分類的比較,衡量本文提出的機(jī)制對(duì)評(píng)價(jià)者評(píng)價(jià)能力的分類效果。
在線購(gòu)物網(wǎng)站已經(jīng)成為人們購(gòu)物不可或缺的平臺(tái)。但是,信息不對(duì)稱和信譽(yù)問題導(dǎo)致用戶不能放心地在網(wǎng)上進(jìn)行購(gòu)物?,F(xiàn)有的評(píng)論效用研究往往只單獨(dú)考慮評(píng)論本身,而忽略了評(píng)級(jí)與評(píng)論的有機(jī)統(tǒng)一。如何將用戶的兩種評(píng)價(jià)信息統(tǒng)一到衡量體系中,是一個(gè)重要的研究方向。在本節(jié)中,我們提出一種新的集成RFM模型并結(jié)合評(píng)級(jí)和評(píng)論兩種信息的評(píng)價(jià)者評(píng)價(jià)效用衡量機(jī)制(RFMA),為用戶的購(gòu)買決策提供重要支持。
2.1 RFM測(cè)量
RFM模型是客戶關(guān)系管理領(lǐng)域中一種定量分析模型,其基本思想是通過三個(gè)客戶行為指標(biāo)來判斷客戶價(jià)值,即近度(Recency)、頻度(Frequency)和值度(Monentary)。近度表示客戶最近一次交易離現(xiàn)在的時(shí)間間隔,頻度表示客戶在一定時(shí)期交易的次數(shù),值度表示客戶在一定時(shí)期內(nèi)交易的總金額。近度值越低,頻度值越高,值度值越高,則客戶的價(jià)值也越高。
本文將RFM模型用于測(cè)量在線評(píng)價(jià)者的評(píng)價(jià)能力,需要對(duì)三個(gè)指標(biāo)的含義進(jìn)行修正。其中R、F指標(biāo)可以直接進(jìn)行類比。M指標(biāo)原本為客戶在一定時(shí)期內(nèi)交易的總金額,但是評(píng)價(jià)對(duì)其他人影響的購(gòu)買金額無法準(zhǔn)確統(tǒng)計(jì)。蔡淑琴[10]等使用其他用戶對(duì)在線口碑做出的有用性判斷作為指標(biāo)M。本文作者在對(duì)實(shí)際在線購(gòu)物網(wǎng)站進(jìn)行觀察后發(fā)現(xiàn),大部分的評(píng)價(jià)者并不使用該功能,且該功能需要長(zhǎng)時(shí)間進(jìn)行累積,不具有可用性。而對(duì)于評(píng)價(jià)者,其發(fā)布評(píng)論的本身特征才是用于衡量評(píng)價(jià)者評(píng)價(jià)能力的合理指標(biāo)。因此,本文對(duì)這三個(gè)指標(biāo)修正如下:(1) 近度(R)表示評(píng)價(jià)者三個(gè)月內(nèi)最近一次發(fā)布評(píng)價(jià)到當(dāng)前的時(shí)間間隔,以天為時(shí)間單位。(2) 頻度(F)定義為評(píng)價(jià)者在最近三個(gè)月內(nèi)進(jìn)行評(píng)價(jià)(有評(píng)論內(nèi)容)的次數(shù)。(3) 值度(M)則表示評(píng)價(jià)者發(fā)表的評(píng)論的長(zhǎng)度平均值,以字?jǐn)?shù)為單位。
由于R、F、M三個(gè)指標(biāo)的度量單位和取值存在較大差異,且影響方向并不相同,所以需要對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。R′、F′、M′分別表示標(biāo)準(zhǔn)化后的R、F、M,計(jì)算公式如下式(1):
(1)
其中Rmin和Rmin分別表示R的最大值與最小值,F(xiàn)max和Fmin分別表示F的最大值與最小值,Mmax和Mmin分別表示M的最大值與最小值。
2.2 評(píng)級(jí)和評(píng)論的比較
從用戶的生成內(nèi)容中可以分析用戶的情感傾向,從而獲得對(duì)其他用戶有用的參考信息。為了確定用戶發(fā)布內(nèi)容的傾向性,一些情感分析的方法已經(jīng)被提出,其中大部分是基于文本分析的[11]。因此,為了探究評(píng)價(jià)者在評(píng)級(jí)和評(píng)論上的不一致性,本文對(duì)評(píng)論文本進(jìn)行短文本情感傾向分析。將評(píng)論的情感傾向轉(zhuǎn)化為可量化的數(shù)字,從而與評(píng)級(jí)的好(1)、中(0)、差評(píng)(-1)進(jìn)行比較。本文采用的是基于Shen Yang等[12]提出的MBEWC方法進(jìn)行改進(jìn)的計(jì)算方法。以HowNet[13]情感詞典為基礎(chǔ),對(duì)文本進(jìn)行分句、分詞、標(biāo)注、情感處理等后,通過詞語的語義相似度計(jì)算,綜合計(jì)算短文本的情感傾向。
本文使用HowNet語義相似度計(jì)算軟件及其提供的情感和評(píng)價(jià)詞匯構(gòu)建模糊情感本體庫(kù),得到正負(fù)向兩個(gè)情感詞典。每個(gè)詞匯對(duì)正負(fù)向情感詞典有不同的隸屬度。在這里選取隸屬度大的那個(gè)情感類作為該詞的情感類,隸屬度最大值就是這個(gè)詞的情感強(qiáng)度。若出現(xiàn)隸屬度相同的情況,則將該詞判斷為中性詞。
在中文中,程度副詞經(jīng)常與情感詞一起出現(xiàn)從而改變了情感詞的情感強(qiáng)烈程度。為了更好地分析評(píng)論本文中的情感強(qiáng)度,我們?cè)O(shè)定了一個(gè)程度副詞詞典(Degree words dictionary),從HowNet中抽取58個(gè)程度副詞并將其分成7類。我們?cè)谇楦性~的上下文中設(shè)置一個(gè)大小為5的檢測(cè)窗口,如果在檢測(cè)窗口中有程度副詞出現(xiàn),則按照表1中所給的賦值相應(yīng)改變情感詞的情感強(qiáng)度。
表1 程度副詞
否定詞的出現(xiàn)往往會(huì)改變情感詞傾向性。同樣從HowNet中人工抽取10個(gè)否定副詞建立否定副詞詞典(Negative Words Dictionary)。在情感詞上下文設(shè)置了一個(gè)大小為5的檢測(cè)窗口,若在檢測(cè)窗口內(nèi)出現(xiàn)否定詞,就對(duì)詞的情感值取反。
綜合上述規(guī)則,每條評(píng)論的情感值計(jì)算如式(2):
(2)
其中,Sensibility(wk)表示詞匯的情感值(即情感類的隸屬度);l表示否定副詞的個(gè)數(shù);valueadv表示程度副詞的取值。
最終每條評(píng)論都能得到一個(gè)數(shù)值的情感值。為了能更好地與評(píng)級(jí)進(jìn)行比較,我們對(duì)評(píng)論的情感值做一個(gè)處理,將情感值大于0的評(píng)論歸為好評(píng),情感值小于0的歸為差評(píng),而情感值等于0的歸為中評(píng)。
2.3 評(píng)級(jí)的效用衡量
評(píng)級(jí)是評(píng)價(jià)者最基本的評(píng)價(jià)信息,目前大多數(shù)在線購(gòu)物網(wǎng)站都使用評(píng)級(jí)信息來進(jìn)行商品總體評(píng)分計(jì)算。不同于簡(jiǎn)單的加和計(jì)算,為了衡量評(píng)價(jià)者的評(píng)級(jí)質(zhì)量,我們使用的方法來源于Brin[14]等提出的用于部分搜索引擎的PageRank算法。本節(jié)使用的方法基于這樣的假設(shè):商品的質(zhì)量可以由多數(shù)原則來衡量。即若一件商品的大多數(shù)評(píng)級(jí)都為好評(píng),那么我們有理由相信這件商品的質(zhì)量較好;若針對(duì)某一商品的大多數(shù)評(píng)級(jí)為差評(píng),那么這件商品很有可能質(zhì)量很差。
由于評(píng)價(jià)者的評(píng)級(jí)是用數(shù)字表示的好、中、差評(píng)三種類別,通過針對(duì)一個(gè)商品的所有評(píng)級(jí)的頻率分布來計(jì)算每個(gè)獨(dú)立評(píng)級(jí)的質(zhì)量。根據(jù)評(píng)價(jià)者對(duì)同一商品給出的評(píng)級(jí)將其分組,組內(nèi)的評(píng)價(jià)者被認(rèn)為相互給出最大的支持。組間的支持則由每個(gè)評(píng)級(jí)的不一致性來界定。那么,評(píng)級(jí)i的質(zhì)量可被定義為QRi,是由所有組對(duì)其支持的總和來決定的,具體公式如式(3)所示:
(3)
其中,QRj是評(píng)級(jí)j的質(zhì)量;Ej,i是評(píng)級(jí)j對(duì)評(píng)級(jí)i的支持;Ni和Nj分別是給出評(píng)級(jí)i和評(píng)級(jí)j的評(píng)論者數(shù)量。某個(gè)組對(duì)其他組及其本身的支持度總和為1。所有QRi的總和也為1。
另外,QRi的置信度由評(píng)級(jí)的數(shù)量Ni(即對(duì)某個(gè)商品的某類評(píng)級(jí)總數(shù))決定?;贑hen[15]等所使用的來源于Breslow[16]等提出的統(tǒng)計(jì)指數(shù),如表2所示的分段函數(shù)將用于計(jì)算QRi的置信度CRi。
圖2 CR分段函數(shù)
2.4 評(píng)論的效用衡量
除了以數(shù)字表示的評(píng)級(jí),評(píng)價(jià)者的評(píng)論文本其實(shí)包含了更多的信息。我們可以看出評(píng)論者滿意或是不滿意的原因等評(píng)級(jí)無法表達(dá)的信息。因此,如何計(jì)算評(píng)論的效用,是本文研究的一個(gè)重點(diǎn)。Hu Nan等[17]認(rèn)為蘊(yùn)含較強(qiáng)極性和個(gè)人觀點(diǎn)的商品評(píng)論可能并不可靠。我們認(rèn)為,能夠反映大多數(shù)其他消費(fèi)者觀點(diǎn)的評(píng)論才有可能是一篇好的評(píng)論。郝媛媛[6]等提出,評(píng)論內(nèi)容的正負(fù)向情感混雜度對(duì)評(píng)論有用性存在顯著正向影響,且評(píng)論中觀點(diǎn)句的主觀與客觀表達(dá)形式的混雜度也對(duì)評(píng)論有用性存在顯著正向影響。淘寶網(wǎng)在每個(gè)商品評(píng)價(jià)頁(yè)面給出了商品評(píng)價(jià)的總體標(biāo)簽,包括商品的客觀屬性和主觀評(píng)價(jià)結(jié)果,并且包含了正負(fù)向兩種情感傾向,因此我們以淘寶網(wǎng)自身評(píng)價(jià)頁(yè)面的標(biāo)簽作為標(biāo)準(zhǔn)評(píng)論,計(jì)算評(píng)價(jià)者評(píng)論與其相似度,以此作為評(píng)價(jià)者評(píng)論的效用。
由于文檔的主題分布是文檔向量空間的單純形映射,所以在文檔的主題表示情況下,計(jì)算兩條評(píng)論的相似度可以通過計(jì)算與之對(duì)應(yīng)的主題概率分布來實(shí)現(xiàn)。由于主題是詞向量的混合分布,因而使用KL (Kullback-Leibler)距離作為相似度度量標(biāo)準(zhǔn)。公式如(4):
(4)
其中p和q分別為兩條評(píng)論的主題概率分布。但是由于KL距離非對(duì)稱,使用變化后的JS (Jensen-Shannon) 距離進(jìn)行衡量,公式如(5):
(5)
那么第l條評(píng)論的質(zhì)量QCl由公式(6)來衡量。其中pl是第l條評(píng)論的主題概率分布,而s是標(biāo)準(zhǔn)評(píng)論的主題概率分布:
QCl=DJS(pl,s)
(6)
以每個(gè)評(píng)價(jià)者在每個(gè)商品所屬品類下的評(píng)論個(gè)數(shù)比上其所有評(píng)論個(gè)數(shù)作為評(píng)論的置信度CC。
2.5 評(píng)價(jià)效用指標(biāo)A測(cè)量
在分別得到評(píng)級(jí)和評(píng)論的效用和置信度后,我們對(duì)單次評(píng)價(jià)的效用進(jìn)行衡量。在衡量單次評(píng)價(jià)的總體效用時(shí),我們基于這樣的兩個(gè)假設(shè):大多數(shù)人的評(píng)價(jià)是可信的;個(gè)人的評(píng)論與評(píng)級(jí)相一致才有可能是好的評(píng)價(jià)。當(dāng)評(píng)級(jí)與評(píng)論情感傾向不一致時(shí),即使評(píng)論本身的效用很高,我們也認(rèn)為這次評(píng)價(jià)不是一個(gè)好的評(píng)價(jià),因?yàn)榫W(wǎng)站只使用評(píng)級(jí)對(duì)商品進(jìn)行總體計(jì)分,而虛高的總分會(huì)使評(píng)論閱讀者產(chǎn)生混亂。評(píng)價(jià)的總價(jià)值A(chǔ)Q可由如下公式(7)得出。
(7)
消費(fèi)者在在線購(gòu)物網(wǎng)站中購(gòu)買很多商品,并做出評(píng)價(jià)反饋,累積了很多歷史評(píng)價(jià)信息。將評(píng)價(jià)者的歷史評(píng)價(jià)效用AQ進(jìn)行累加并計(jì)算均值得到指標(biāo)A,標(biāo)準(zhǔn)化計(jì)算見下式(8):
(8)
其中Amax和Amin分別是A的最大值和最小值。
2.6 RFMA模型權(quán)重確定
我們希望對(duì)評(píng)價(jià)者本身的評(píng)價(jià)能力進(jìn)行衡量。在RFMA模型下,評(píng)價(jià)者的整體評(píng)價(jià)效用可以表示成式(9):
U(ci)=WR×R′(ci)+WF×F′(ci)+WM×M′(ci)+WA×A′(ci)
(9)
其中R(ci),F(xiàn)(ci),M(ci),A(ci)分別表示評(píng)價(jià)者ci的四個(gè)指標(biāo)值;而WR,WF,WM,WA則分別表示四個(gè)指標(biāo)的權(quán)重,且WR+WF+WM+WA=1。
Hughes[19]認(rèn)為RFM中三個(gè)變量權(quán)重相等,并未給予不同劃分。但Stone[20]在對(duì)信用卡進(jìn)行實(shí)證分析后,認(rèn)為各個(gè)指標(biāo)的權(quán)重并不相同。本文認(rèn)為這幾個(gè)權(quán)重存在一定的差異,因此采用層次分析法來進(jìn)行比較分析,通過兩兩比較矩陣(一致性比例CR=0.0097<0.1)最終得到四個(gè)指標(biāo)的權(quán)重分別為:
[WR,WF,WM,WA]=[0.0953,0.1598,0.2773,0.4676]
其中A的權(quán)重最大,即認(rèn)為評(píng)級(jí)和評(píng)論的效用是影響評(píng)價(jià)者效用高低的最主要因素。
2.7 評(píng)價(jià)者評(píng)價(jià)效用衡量
為測(cè)試上述提出的機(jī)制對(duì)評(píng)價(jià)者整體評(píng)價(jià)效用分類能力,衡量評(píng)價(jià)者的整體評(píng)價(jià)效用,按照Ghose和Ipeirotis[21]提出的方法進(jìn)行分類。
(1)對(duì)評(píng)價(jià)者是否為好的評(píng)價(jià)者進(jìn)行人工標(biāo)注。我們以人工的方法對(duì)評(píng)價(jià)者評(píng)價(jià)效用進(jìn)行區(qū)分。按照這些基本原則:評(píng)價(jià)的個(gè)數(shù)、評(píng)級(jí)與評(píng)論的一致性、評(píng)論的篇幅、評(píng)論內(nèi)容的客觀性與主觀性。
(2)確定一個(gè)合適的分界值θ將評(píng)價(jià)者分為好的和不好兩類。平均評(píng)價(jià)效用≥θ的評(píng)價(jià)者被分類為“好的評(píng)價(jià)者”,而平均評(píng)價(jià)效用<θ的評(píng)價(jià)者被分類為“不好的評(píng)價(jià)者”。
(3)將模型分類結(jié)果與人工分類結(jié)果做比較。判斷評(píng)價(jià)者是否為好的評(píng)價(jià)者是一種二值分類,借助二維列聯(lián)表計(jì)算查準(zhǔn)率、查全率及兩者合成的綜合指數(shù),以此來評(píng)估模型的效果。見表3。
表3 分類評(píng)估列聯(lián)表
其中,好的評(píng)價(jià)者的查準(zhǔn)率:
(10)
好的評(píng)價(jià)者的查全率:
(11)
綜合指數(shù):
(12)
3.1 數(shù)據(jù)及來源
作為一個(gè)C2C網(wǎng)上交易平臺(tái),淘寶在中國(guó)擁有最多的商品列表,最高的轉(zhuǎn)化率,超過8千萬的注冊(cè)用戶,以及在2億5千多萬的網(wǎng)民中最高的普及率[22]。因此本實(shí)驗(yàn)選擇淘寶平臺(tái)作為數(shù)據(jù)來源。通過編寫爬蟲程序隨機(jī)抽取1個(gè)店鋪的商品列表頁(yè)商品的所有評(píng)價(jià)者,去掉其中匿名的用戶及歷史購(gòu)買次數(shù)小于30的用戶。將選取出來的183名評(píng)價(jià)者作為研究對(duì)象,根據(jù)他們的歷史評(píng)價(jià)記錄進(jìn)行計(jì)算,共得到8303條歷史評(píng)論。另外,本文還抽取了所有這些評(píng)價(jià)者的歷史評(píng)價(jià)中的商品的所有評(píng)價(jià)(剔除無效數(shù)據(jù))共852071條。所有的數(shù)據(jù)收集工作在2014年5月24到6月7日之間完成。數(shù)據(jù)抓取的結(jié)構(gòu)圖見圖1。
圖1 數(shù)據(jù)抓取結(jié)構(gòu)
3.2 情感詞典的構(gòu)建
從HowNet提供的情感詞匯和評(píng)價(jià)詞匯表中,我們抽取了與網(wǎng)上購(gòu)物評(píng)價(jià)相關(guān)的正負(fù)向詞匯,其中正向詞匯1131個(gè),負(fù)向詞匯1710個(gè)。所有183個(gè)用戶的歷史評(píng)論數(shù)據(jù)進(jìn)行分詞、去除停用詞等預(yù)處理后,利用HowNet提供的語義相似度計(jì)算軟件分別與正負(fù)向詞匯進(jìn)行相似度計(jì)算,分別得到正負(fù)向相似度詞典,格式為(詞1,詞2:相似度)。在兩個(gè)詞典中,對(duì)同一個(gè)詞只保留相似度最大的那一行,最終得到正負(fù)向情感詞典。
3.3 評(píng)論文本效用計(jì)算
LDA主題模型的Gibbs Sampling方法已經(jīng)有了各種實(shí)現(xiàn),本文使用Matlab軟件的topictoolbox工具包進(jìn)行計(jì)算。我們將進(jìn)行分詞、去停用詞等預(yù)處理后的文本數(shù)據(jù)處理成工具包所需的輸入形式。對(duì)于所考察的183名評(píng)價(jià)者,分別對(duì)其所有的評(píng)價(jià)進(jìn)行評(píng)論文本的衡量,得到每條評(píng)論與標(biāo)準(zhǔn)評(píng)論的相似度,作為評(píng)論文本的效用。
我們的實(shí)驗(yàn)分成兩部分:第一部分是對(duì)于原始評(píng)級(jí)和評(píng)論及其區(qū)別的觀察;第二部分則是對(duì)于我們所構(gòu)建的評(píng)價(jià)效用機(jī)制的實(shí)現(xiàn)和分析。
4.1 評(píng)級(jí)和評(píng)論的不一致性
對(duì)于每個(gè)評(píng)價(jià)者,我們分別統(tǒng)計(jì)了他們歷史評(píng)價(jià)中的好、中、差評(píng)的個(gè)數(shù),以及進(jìn)行了情感分析后的評(píng)論數(shù)據(jù)中得分為1、0、-1的個(gè)數(shù),結(jié)果如下圖2(a)、2(b)所示。
圖2(a) 評(píng)價(jià)者評(píng)級(jí)的好、中、差評(píng)分布
圖2(b) 評(píng)價(jià)者評(píng)論(情感分析后)的好、中、差評(píng)分布
從圖2(a)中可以直觀地看出,原始的評(píng)級(jí)基本上集中在好評(píng),中評(píng)和差評(píng)很少。進(jìn)行了情感分析后,圖2(b)顯示了評(píng)級(jí)的分布向中評(píng)和差評(píng)軸偏移,也就是中評(píng)和差評(píng)的個(gè)數(shù)變多了。這種現(xiàn)象符合我們對(duì)在線購(gòu)物評(píng)價(jià)的認(rèn)知:消費(fèi)者在評(píng)級(jí)時(shí)往往不能真實(shí)表達(dá)自己的感受,習(xí)慣性好評(píng)或是擔(dān)心被商家報(bào)復(fù)而給予好評(píng);在文字評(píng)論中,消費(fèi)者能夠直接表達(dá)真實(shí)的評(píng)價(jià)信息。這是由于現(xiàn)有的在線購(gòu)物評(píng)價(jià)系統(tǒng)只以評(píng)級(jí)作為商品總分計(jì)算的來源造成的。
同時(shí),我們計(jì)算了評(píng)級(jí)和評(píng)論(情感分析后)的好、中、差評(píng)個(gè)數(shù)的歐氏距離,并畫出其概率密度曲線,見圖3和圖4。可以看到評(píng)價(jià)者評(píng)級(jí)與評(píng)論的不一致性的分布具有長(zhǎng)尾現(xiàn)象,大部分的評(píng)價(jià)者具有一定的不一致性,完全一致和完全不一致的評(píng)價(jià)者較少。這也符合我們對(duì)現(xiàn)實(shí)中評(píng)價(jià)者的認(rèn)知,評(píng)價(jià)者們并不會(huì)完全隱藏自己的真實(shí)感情。
圖3 評(píng)級(jí)與評(píng)論好、中、差評(píng)的歐氏距離(標(biāo)準(zhǔn)化后)
圖4 概率密度分布
為了更進(jìn)一步地分析評(píng)級(jí)與評(píng)論的不一致性,我們將不同的商品歸結(jié)為鞋服配飾類、手機(jī)數(shù)碼類、彩妝個(gè)護(hù)類、母嬰用品類、家居物業(yè)類、食品類、運(yùn)動(dòng)戶外用品類與花鳥文娛類這八個(gè)大類,分別探究評(píng)價(jià)者對(duì)不同類別商品的評(píng)級(jí)與評(píng)論的好、中、差評(píng)分布情況。圖5選取了其中最為典型的鞋服配飾類、彩妝個(gè)護(hù)類與家居物業(yè)類這三個(gè)類別進(jìn)行展示。同時(shí)將評(píng)價(jià)者進(jìn)行編號(hào),方便比較,可以看到如G1、J10、F16等點(diǎn)都發(fā)生了較大的偏移。整體來說,鞋服配飾類的偏移最大,居家物業(yè)類次之,彩妝個(gè)護(hù)類
圖5 rating-1到rating-3分別是評(píng)價(jià)者評(píng)級(jí)在鞋服配飾類、彩妝個(gè)護(hù)類與居家物業(yè)類的好中差評(píng)分布;sentiment-1到sentiment-3分別是評(píng)價(jià)者評(píng)論(情感分析后)在鞋服配飾類、彩妝個(gè)護(hù)類與居家物業(yè)類的好中差評(píng)分布
最小。這是因?yàn)樾滹楊惖纳唐放c賣家質(zhì)量參差不齊,也是消費(fèi)者的購(gòu)買主體,導(dǎo)致出現(xiàn)的評(píng)價(jià)差異很大,往往包含較多的不一致現(xiàn)象。而彩妝個(gè)護(hù)類的商品使用效果具有較大的個(gè)體差異性,評(píng)價(jià)者所給出的評(píng)價(jià)也帶有較強(qiáng)的主觀性,反而能夠較為真實(shí)地反映情感傾向。
進(jìn)一步地,我們可以從圖6對(duì)三種評(píng)級(jí)的均值看出,經(jīng)過情感分析后,中評(píng)變化不大,但是差評(píng)個(gè)數(shù)卻是增加了。
通過對(duì)評(píng)價(jià)者評(píng)級(jí)與評(píng)論的不一致性結(jié)果進(jìn)行分析,并對(duì)原始數(shù)據(jù)進(jìn)行觀察,我們對(duì)評(píng)價(jià)者評(píng)級(jí)與評(píng)論的不一致性的原因進(jìn)行了總結(jié):(1)評(píng)價(jià)者擔(dān)心負(fù)面的評(píng)級(jí)會(huì)遭到賣家的報(bào)復(fù)而選擇正面的評(píng)級(jí),但在評(píng)論里表達(dá)了自己的負(fù)面情感;(2)評(píng)價(jià)者的個(gè)體標(biāo)準(zhǔn)差異性導(dǎo)致評(píng)論里表達(dá)對(duì)商品較為滿意,評(píng)級(jí)卻是中差評(píng);(3)操作誤差。
圖6 情感分析前后好中差評(píng)均值
4.2 評(píng)價(jià)者評(píng)價(jià)效用分析
為了衡量評(píng)價(jià)者的評(píng)價(jià)效用,區(qū)分評(píng)價(jià)者的評(píng)價(jià)能力,我們按照前述方法對(duì)其進(jìn)行模型分類與人工分類的比較。對(duì)只用評(píng)級(jí)效用、只用評(píng)論效用、使用評(píng)論效用、RFM模型效用、RFMA模型效用這五者都分別進(jìn)行分類比較,見表4、5、6、7、8。
分別計(jì)算得到好的評(píng)價(jià)者的查準(zhǔn)率、查全率和綜合指數(shù)見下表9。
表4 分類評(píng)估列聯(lián)表(評(píng)級(jí)效用)
表5 分類評(píng)估列聯(lián)表(評(píng)論效用)
表6 分類評(píng)估列聯(lián)表(評(píng)價(jià)效用)
表7 分類評(píng)估列聯(lián)表(RFM模型效用)
表8 分類評(píng)估列聯(lián)表(RFMA模型效用)
表9 評(píng)價(jià)者分類計(jì)算結(jié)果
從表中結(jié)果可以看出,雖然在查準(zhǔn)率方面稍遜于以RFM模型效用來區(qū)分的分類效果,但是在查全率和綜合指數(shù)上,結(jié)合了評(píng)級(jí)和評(píng)論的評(píng)價(jià)效用機(jī)制要遠(yuǎn)遠(yuǎn)優(yōu)于其他幾種方法。說明本文提出的機(jī)制對(duì)于是否為好的評(píng)價(jià)者有較強(qiáng)的區(qū)分能力。
本文以中國(guó)最大的在線購(gòu)物網(wǎng)站淘寶網(wǎng)為數(shù)據(jù)來源,以為評(píng)價(jià)閱讀者及時(shí)提供評(píng)價(jià)效用,并幫助評(píng)價(jià)閱讀者區(qū)別評(píng)價(jià)者的評(píng)價(jià)能力為目標(biāo),結(jié)合文本挖掘中的情感分析和LDA主題模型研究方法,引入客戶營(yíng)銷模型RFM,結(jié)合評(píng)級(jí)和評(píng)論兩種信息,提出以RFMA模型對(duì)評(píng)價(jià)者評(píng)價(jià)效用進(jìn)行衡量的機(jī)制,并據(jù)此對(duì)評(píng)價(jià)者進(jìn)行分類,區(qū)分好與不好的評(píng)價(jià)者。該機(jī)制不僅能夠幫助消費(fèi)者從海量評(píng)價(jià)信息中識(shí)別出具有價(jià)值的部分,還能結(jié)合評(píng)級(jí)和評(píng)論兩種信息來提升消費(fèi)者的決策效率。另外,潛在消費(fèi)者在閱讀評(píng)價(jià)時(shí),除了看重評(píng)價(jià)本身的效用,還關(guān)注評(píng)價(jià)者的評(píng)價(jià)能力,即評(píng)價(jià)者是否為好的評(píng)價(jià)者?;赗FM模型提出的RFMA模型為評(píng)價(jià)者的評(píng)價(jià)效用衡量找出了新的機(jī)制,并且可以作為購(gòu)物平臺(tái)實(shí)現(xiàn)對(duì)評(píng)價(jià)者進(jìn)行分類的基礎(chǔ),為進(jìn)一步完善現(xiàn)有的信譽(yù)系統(tǒng)提供了新的思路。實(shí)驗(yàn)結(jié)果表明,本文提出的機(jī)制對(duì)于區(qū)分評(píng)價(jià)者具有很好的效果。
在研究過程中發(fā)現(xiàn),標(biāo)準(zhǔn)評(píng)論的選取會(huì)對(duì)評(píng)論的效用結(jié)果產(chǎn)生較大的影響。本文選取的是淘寶評(píng)價(jià)頁(yè)面的標(biāo)簽,在后續(xù)研究中,可以通過自主提取標(biāo)簽來改進(jìn)研究結(jié)果。另外,由于LDA主題模型需要預(yù)先設(shè)定主題個(gè)數(shù),主題個(gè)數(shù)對(duì)于詞項(xiàng)的分布有較大的影響,如何科學(xué)地確定有效的主題個(gè)數(shù)也是后續(xù)需要開展的研究。
[2] J?sang A, Ismail R, Boyd C.A survey of trust and reputation systems for online service provision[J].Decision support systems, 2007, 43(2): 618-644.
[3] Park D H, Lee J, Han I.The effect of on-line consumer reviews on consumer purchasing intention: The moderating role of involvement[J].International Journal of Electronic Commerce, 2007, 11(4): 125-148.
[4] Chen Mao, Singh J P.Computing and using reputations for internet ratings[C]//Proceedings of the 3rd ACM conference on Electronic Commerce.Tampa,Florida,USA,October 14-17,2001.
[5] Dellarocas C.The digitization of word of mouth: Promise and challenges of online feedback mechanisms[J].Management science, 2003, 49(10): 1407-1424.
[6] 郝媛媛, 葉強(qiáng), 李一軍.基于影評(píng)數(shù)據(jù)的在線評(píng)論有用性影響因素研究[J].管理科學(xué)學(xué)報(bào), 2010, 13(8): 78-88.
[7] Harrison-Walker L J.The measurement of word-of-mouth communication and an investigation of service quality and customer commitment as potential antecedents[J].Journal of Service Research, 2001, 4(1): 60-75.
[8] 楊銘, 祁巍, 閆相斌.在線商品評(píng)論的效用分析研究[J].管理科學(xué)學(xué)報(bào), 2012, 15(5): 65-75.
[9] Ghose A, Ipeirotis P G.Designing novel review ranking systems: Predicting the usefulness and impact of reviews[C]//Proceedings of the ninth international conference on Electronic commerce,Minneapolis,MN,USA,August 19-22,2007.
[10] 蔡淑琴, 馬玉濤, 王瑞.在線口碑傳播的意見領(lǐng)袖識(shí)別方法研究[J].中國(guó)管理科學(xué), 2013, 21(2): 185-192.
[11] Rabelo J C B, Prudêncio R C B, Barros F A.Leveraging relationships in social networks for sentiment analysis[C]//Proceedings of the 18th Brazilian symposium on Multimedia and the Web,S?o Paulo,Brazil,October 15-18,2012.
[12] Shen Yang, Li Shuchen, Zheng Ling, et al.Emotion mining research on micro-blog[C]//Proceedings of 1st IEEE Symposium on Web Society,Lanzhou,China,August 23-24,2009.
[13] 劉群,李素建.基于知網(wǎng)的詞匯語義相似度的計(jì)算[C]//第三屆漢語詞匯語義學(xué)研討會(huì),臺(tái)北,2002.
[14] Brin S, Page L.The anatomy of a large-scale hypertextual Web search engine[J].Computer networks and ISDN systems, 1998, 30(1): 107-117.
[15] Chen Mao, Singh J P.Computing and using reputations for internet ratings[C]//Proceedings of the 3rd ACM conference on Electronic Commerce,Tampa,Florida,USA,October 14-17,2001.
[16] Breslow N E, Day N E.Statistical methods in cancer research[M].Lyon: International Agency for Research on Cancer, 1987.
[17] Hu Nan, Pavlou P A, Zhang Jie.Can online reviews reveal a product's true quality?: Empirical findings and analytical modeling of Online word-of-mouth communication[C]//Proceedings of the 7th ACM conference on Electronic Commerce,Ann Arbor,Michigan,USA,June 11-15,2006.
[18] Blei D M, Ng A Y, Jordan M I.Latent dirichlet allocation[J].the Journal of machine Learning research, 2003, 3: 993-1022.
[19] Hughes AM.Boosting response with RFM[J].American Demographics, 1996, 5: 4-9.
[20] Stone B, Jacobs R.Successful direct marketing methods[M].Lincolnwood, IL: NTC Business Books, 1988.
[21] Ghose A, Ipeirotis P G.Designing novel review ranking systems: Predicting the usefulness and impact of reviews[C]//Proceedings of the ninth international conference on Electronic commerce,Minneapolis,MN,USA,August 19-22,2007.
[22] Ou C X, Davison R M.Technical opinion Why eBay lost to TaoBao in China: The glocal advantage[J].Communications of the ACM, 2009, 52(1): 145-148.
Rater Utility Mechanism Research Based On Online Rating and Comment
SHI Xiao-jing1, LIANG Xun1, SUN Xiao-lei2
(1.School of Information, Renmin University of China, Beijing 100872, China;2.Institute of Policy and Management, Chinese Academy of Sciences, Beijing 100190, China)
Appraisals for products and services are increasingly important on the Internet, as they eliminate consumers’ uncertainty, and help them to make purchase decision.Raters’ appraisals for products are divided into ratings and comments in most online shopping sites.The existing online reputation system and appraisal studies tend to focus on the user rating or comment respectively, but ignore the organic unification between them.User ratings do not fully reflect users’ real evaluation, as they are inclined to express their true feelings by comments.On the basis of the 852071 appraisal captured from Taobao, this paper proposes RFMA model to calculate raters’ appraise quality, which combines RFM model and considers two kinds of information containing rating and comment by analyzing the inconsistency of rating and comment.Then the good raters and bad raters are distinguished, and further support for consumer purchase is provided.The proposed RFMA model finds a new mechanism for measuring raters’ effectiveness.It can be used as a basement for shopping platform to classify the raters, and provide a new way of thinking to further improve the existing online reputation system.Through analyzing all of the raters, it can be concluded that the mechanism of combining the comments is more available and effective.
inconsistency of rating and comment; appraise; rater; RFMA
1003-207(2016)05-0149-09
10.16381/j.cnki.issn1003-207x.2016.05.017
2014-06-27;
2014-12-21
國(guó)家自然科學(xué)基金資助項(xiàng)目(71531012,71271211);京東商城電子商務(wù)研究項(xiàng)目(413313012);北京市自然科學(xué)基金資助項(xiàng)目(4132067);中國(guó)人民大學(xué)品牌計(jì)劃項(xiàng)目(10XNI029)
簡(jiǎn)介:梁循(1965-),男(漢族),北京人,中國(guó)人民大學(xué)信息學(xué)院教授,研究方向:數(shù)據(jù)挖掘、網(wǎng)絡(luò)金融、社會(huì)計(jì)算,E-mail:xliang@ruc.edu.cn.
F272.5
A