(華南理工大學(xué)經(jīng)濟(jì)與貿(mào)易學(xué)院 廣東 廣州 510006)
21世紀(jì)是信息膨脹的大數(shù)據(jù)時(shí)代,海量的數(shù)據(jù)容易造成信息過載,導(dǎo)致用戶花費(fèi)更多成本獲取有用信息。在線評(píng)論作為消費(fèi)者獲取商品有用信息的第三方數(shù)據(jù),由眾多消費(fèi)者產(chǎn)生并發(fā)布,每個(gè)人對(duì)商品的感受不同,產(chǎn)生的評(píng)論也不同。這些評(píng)論在一定程度上會(huì)幫助消費(fèi)者做出決策,但大量的評(píng)論反而混淆消費(fèi)者對(duì)商品的認(rèn)知,消費(fèi)者翻閱這些評(píng)論不僅消耗大量時(shí)間成本,而且其對(duì)商品褒貶不一的評(píng)價(jià)甚至?xí)屜M(fèi)者放棄購買。
平臺(tái)對(duì)評(píng)論排序使消費(fèi)者能更快找到需要的信息,但當(dāng)前在線評(píng)論排序機(jī)制仍存在問題,如排序依據(jù)單一,按星級(jí)排序只能看到星級(jí)最高或最低的評(píng)論排前,但該條評(píng)論不一定是有用的,按時(shí)間排序也存在類似的問題。如果按閱讀者給的有用性投票對(duì)評(píng)論進(jìn)行排序,排列靠前的是認(rèn)為有用的評(píng)論,這在一定程度上幫助之后的閱讀者獲取有用信息,但是排在前面的評(píng)論被瀏覽的可能更大,獲得的有用性投票也更多,這就是評(píng)論排序中出現(xiàn)的馬太效應(yīng)。馬太效應(yīng)使得新發(fā)布的評(píng)論曝光度減少,更有用的評(píng)論可能會(huì)被忽視,同時(shí)還可能影響消費(fèi)者生成用戶內(nèi)容的積極性。本文將從在線評(píng)論有用性影響因素研究、在線評(píng)論排序兩大方面對(duì)在線評(píng)論的相關(guān)研究進(jìn)行綜述,總結(jié)當(dāng)前研究的不足,為未來的在線評(píng)論排序研究提供方向。
在線評(píng)論排序時(shí)需要選取對(duì)應(yīng)特征構(gòu)建模型,而這些特征多是對(duì)在線評(píng)論的有用性產(chǎn)生影響的因素。眾多學(xué)者通過對(duì)影響在線評(píng)論有用性的因素做出假設(shè)并進(jìn)行實(shí)證研究,試圖找出哪些因素會(huì)影響評(píng)論有用性,從而針對(duì)性地提出建議。本文從評(píng)論的元數(shù)據(jù)特征和文本特征對(duì)評(píng)論有用性影響因素研究進(jìn)行綜述,為在線評(píng)論排序模型的指標(biāo)選取提供參考。
在線評(píng)論的元數(shù)據(jù)特征(meta-data feature)獨(dú)立于評(píng)論本身,與語言特征無關(guān),可以從網(wǎng)站上得到,包括評(píng)論標(biāo)題、評(píng)論時(shí)間和評(píng)論效價(jià)(星級(jí))等。
許多學(xué)者認(rèn)為星級(jí)會(huì)對(duì)評(píng)論有用性產(chǎn)生影響,殷國鵬[1]認(rèn)為中等星級(jí)的評(píng)論有用性會(huì)更大,廖成林[2]則提出極端星級(jí)的評(píng)論具有更高有用性。殷國鵬還將評(píng)論星級(jí)與平均星級(jí)之差作為影響因素進(jìn)行實(shí)證研究,從從眾效應(yīng)的心理學(xué)角度解釋了兩者差異越大評(píng)論有用性越低這一結(jié)論。評(píng)論的發(fā)表時(shí)間作為評(píng)論的元數(shù)據(jù)特征之一,也被認(rèn)為會(huì)對(duì)評(píng)論有用性產(chǎn)生影響,有學(xué)者認(rèn)為評(píng)論的發(fā)表時(shí)間距離現(xiàn)在越近,有用性越高,也有學(xué)者提出評(píng)論發(fā)表的時(shí)間越久有用性越高。對(duì)于評(píng)論的標(biāo)題,郝媛媛[3]認(rèn)為評(píng)論標(biāo)題中含有的情感更積極、表達(dá)更主觀,對(duì)應(yīng)的評(píng)論有用性更高。此外,還有學(xué)者考慮到評(píng)論中圖片的數(shù)量會(huì)對(duì)評(píng)論質(zhì)量以及消費(fèi)者購買產(chǎn)生影響[4,5]。除了原有的評(píng)論,評(píng)論者在使用商品一段時(shí)間后追加的評(píng)論也會(huì)對(duì)原有評(píng)論的有用性造成影響。
除了以上提到的評(píng)論元數(shù)據(jù)特征,有學(xué)者認(rèn)為發(fā)布評(píng)論的評(píng)論者特征也影響評(píng)論的有用性。殷國鵬[1]提出被他人的關(guān)注程度、發(fā)表評(píng)論的數(shù)量、加入群組的數(shù)目等變量都與評(píng)論有用性的高低有關(guān)系,廖成林[2]認(rèn)為具有購買經(jīng)驗(yàn)的消費(fèi)者發(fā)布的評(píng)論更有用。
文本特征(text feature)區(qū)別于元數(shù)據(jù)特征,需要對(duì)文本內(nèi)容進(jìn)行處理獲取,評(píng)論的情感傾向、評(píng)論的可讀性等都屬于評(píng)論的文本特征。
評(píng)論的情感傾向被認(rèn)為是影響評(píng)論有用性的文本特征之一。郝媛媛[3]通過實(shí)證研究驗(yàn)證了評(píng)論的正向情感與評(píng)論有用性的正向關(guān)系,而Agnihotri & Bhattacharya指出,情感傾向存在一個(gè)理想點(diǎn),當(dāng)超過這個(gè)點(diǎn)時(shí),評(píng)論包含的情感越正向,有用性越低[7]。評(píng)論可讀性用來衡量閱讀者閱讀評(píng)論的難易程度,國內(nèi)學(xué)者多采用平均句長衡量句子的可讀性[3],郝媛媛等[3]認(rèn)為平均句長越長,即評(píng)論可讀性越低,有用性越大。國外學(xué)者多采用Flesch Reading Ease(FRE)作為衡量可讀性的指標(biāo),或是通過The Dale-Chall readability formula公式計(jì)算英文評(píng)論的閱讀難易程度[6,8]。Agnihotri & Bhattacharya就以FRE作為可讀性衡量指標(biāo),驗(yàn)證了可讀性與有用性之間的曲線關(guān)系[7]。隨著在線評(píng)論的有用性的關(guān)注度不斷提高,越來越多的文本特征被列入有用性的影響因素。相甍甍等[5]將評(píng)論中包含的商品屬性特征詞和情感特征詞列為影響有用性的因素,Saumya & Singh等學(xué)者將名詞、動(dòng)詞、形容詞等因素考慮在內(nèi),并將評(píng)論的信息熵列為影響有用性的新的因素進(jìn)行了研究[6,8]。
面對(duì)大量的商品評(píng)論,消費(fèi)者很難做到全部瀏覽,大部分消費(fèi)者只會(huì)瀏覽排列靠前的評(píng)論從而做出購買決策。這一行為導(dǎo)致了馬太效應(yīng)(Matthew Effect)的產(chǎn)生[6,8],即排列靠前的評(píng)論更易獲得有用性投票,有用投票數(shù)越來越多,而排列靠后的評(píng)論因排列靠后獲得投票較少甚至沒有,將一直排列靠后,最后被淹沒。馬太效應(yīng)容易使新發(fā)布的有用評(píng)論淹沒在大量評(píng)論中,一方面會(huì)對(duì)商品銷售和消費(fèi)者獲取有用信息造成影響,另一方面,新評(píng)論的低曝光度也會(huì)降低消費(fèi)者發(fā)布有用評(píng)論的積極性。在線評(píng)論的排序研究逐漸受到學(xué)者們的關(guān)注。
國內(nèi)外眾多學(xué)者采用不同的研究方法對(duì)在線評(píng)論排序進(jìn)行了研究。相甍甍等[5]選取10個(gè)影響評(píng)論效用的指標(biāo),基于GA-BP神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)效用評(píng)價(jià)方法。Saumya等[6]從評(píng)論、商品描述、消費(fèi)者問答中選取特征,采用隨機(jī)森林和梯度提升進(jìn)行分類和預(yù)測(cè)。Singh等[8]使用集成學(xué)習(xí)(梯度提升算法)對(duì)選取的影響評(píng)論有用性的因素進(jìn)行權(quán)重排列。張艷豐等[9]提取影響評(píng)論有用性的指標(biāo),采用模糊層次分析法進(jìn)行指標(biāo)賦權(quán),結(jié)合并改進(jìn) TOPSIS 分析法進(jìn)行在線評(píng)論有用性計(jì)算和排序。郭順利等[10]基于加權(quán)灰色關(guān)聯(lián)分析法構(gòu)建排序模型。王倩倩[11]對(duì)文本型評(píng)論與數(shù)值型評(píng)論的一致性進(jìn)行量化,與其他量化指標(biāo)相結(jié)合,通過賦值權(quán)重計(jì)算可信度得分從而進(jìn)行排序。Krishnamoorthy等[14]使用樸素貝葉斯NB、支持向量機(jī)SVM、隨機(jī)森林RandF構(gòu)建預(yù)測(cè)模型。Lee & Choeh[6]構(gòu)建多層感知機(jī)神經(jīng)網(wǎng)絡(luò)(multilayer perceptron neural network model)預(yù)測(cè)評(píng)論有用性。Ghose & Ipeirotis[7]對(duì)比隨機(jī)森林和支持向量機(jī)算法效果,最后采用隨機(jī)森林構(gòu)建預(yù)測(cè)模型。
對(duì)前人的研究進(jìn)行綜述發(fā)現(xiàn),國內(nèi)外對(duì)在線評(píng)論排序的研究主要分為兩種,一種是采用模糊層次分析法對(duì)選取的在線評(píng)論特征進(jìn)行指標(biāo)賦權(quán)后,結(jié)合TOPSIS等方法進(jìn)行排序,另一種是采用機(jī)器學(xué)習(xí)算法構(gòu)建模型,采用文本分析等技術(shù)獲取評(píng)論特征后進(jìn)行排序預(yù)測(cè)。評(píng)論排序研究的數(shù)據(jù)多通過網(wǎng)頁爬取獲得,也有文獻(xiàn)直接采用已有真實(shí)數(shù)據(jù)集進(jìn)行研究。
對(duì)國內(nèi)外的研究進(jìn)行綜述發(fā)現(xiàn),大部分文獻(xiàn)從評(píng)論的元數(shù)據(jù)特征和文本特征中選取影響因素對(duì)評(píng)論有用性進(jìn)行研究,一些文獻(xiàn)從信息源角度考慮評(píng)論者特征對(duì)有用性的影響。此外部分文獻(xiàn)還將商品類型、品牌熱度等作為調(diào)節(jié)變量研究其對(duì)其他因素的評(píng)論有用性調(diào)節(jié)作用。但是,當(dāng)前對(duì)于文本特征的有用性影響因素研究尚不完善,評(píng)論中的一些文本特征,如信息熵、屬性詞等可以作為有用性影響因素進(jìn)行研究。
評(píng)論有用性影響因素是研究在線評(píng)論的排序不可缺少的一部分,采用影響因素構(gòu)建在線評(píng)論排序模型,以有用性驗(yàn)證模型有效性將是未來評(píng)論排序研究的一大研究方向。目前國內(nèi)采用模糊層次分析法進(jìn)行指標(biāo)賦權(quán)后結(jié)合TOPSIS等方法進(jìn)行排序,采用機(jī)器學(xué)習(xí)構(gòu)建排序模型的研究較少,也較少有學(xué)者考慮商品類型對(duì)排序模型預(yù)測(cè)效果的影響。未來在構(gòu)建中文評(píng)論排序模型時(shí),可以結(jié)合國內(nèi)電商平臺(tái)的評(píng)論特征,借鑒國外的英文文本特征(如The Dale-Chall readability formula),選取更多文本特征,從機(jī)器學(xué)習(xí)的角度研究在線評(píng)論的排序。