楊帆
[摘要]比較評(píng)論是一種比較普遍的評(píng)論形式,借用比較可以得到產(chǎn)品之間的差異性。文章在研究現(xiàn)有情感分析方法的基礎(chǔ)上,對比較評(píng)論情感分析方法進(jìn)行了探討。其一般過程為:采用簡單的比較句識(shí)別方式,使用監(jiān)督學(xué)習(xí)構(gòu)建特征詞典,在詞典中增加非特征詞的特征判斷,然后采用情感極性判斷或使用情感詞權(quán)重、程度副詞以及否定詞加權(quán)計(jì)分的方法判斷語句的情感得分,獲取到比較產(chǎn)品之間在特征屬性上的差異。
[關(guān)鍵詞]中文比較評(píng)論;情感分析;中文分詞;評(píng)價(jià)模型
[DOI]10.13939/j.cnki.zgsc.2019.25.185
1引言
隨著網(wǎng)上購物的蓬勃發(fā)展,網(wǎng)絡(luò)評(píng)論越來越多,中文文本的情感分析研究也隨之增加。這些評(píng)論對于產(chǎn)品的評(píng)價(jià)有較高的現(xiàn)實(shí)意義,比起早期的商品購物評(píng)分機(jī)制,評(píng)論更加具體,更加多元化,對于評(píng)論的挖掘是對評(píng)分機(jī)制的重要補(bǔ)充,甚至有超越和代替評(píng)分的趨勢。在這些商品購買評(píng)論中,比較評(píng)論是指用戶購物后發(fā)表的評(píng)論中有關(guān)這一產(chǎn)品與另一產(chǎn)品的對比信息,這類還有比較句的評(píng)論比起一般評(píng)論,能反映出更多產(chǎn)品之間的差異和優(yōu)劣,有助于分析產(chǎn)品在市場上的競爭力,故比較評(píng)論挖掘近來也受到研究者的重視,有不少學(xué)者對其進(jìn)行情感分析并得到關(guān)于多個(gè)產(chǎn)品在不同屬性上的比較數(shù)據(jù),為決策者提供參考。
2相關(guān)研究
比較評(píng)論挖掘的研究是從文本挖掘中的關(guān)系抽取技術(shù)演化而來的,關(guān)系抽取是信息抽取的一個(gè)重要分支,是將有關(guān)系的實(shí)體從文本中獲取出來的方法。其具體的手段包括監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)以及遠(yuǎn)程監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)人工參與多,而無監(jiān)督學(xué)習(xí)則無人工行為,遠(yuǎn)程監(jiān)督是借用遠(yuǎn)程數(shù)據(jù)進(jìn)行人工標(biāo)注的方式。
借助關(guān)系抽取的研究方法,比較評(píng)論情感分析主要從以下幾個(gè)方面開展,包括比較句識(shí)別技術(shù)、比較要素抽取以及比較觀點(diǎn)的情感分析。
2.1比較句識(shí)別技術(shù)
比較句的識(shí)別最開始是英文的識(shí)別研究,Jindal等提出將分類器和CSR相結(jié)合的比較句識(shí)別方法獲得了不錯(cuò)的F值。[1]國內(nèi)較早的研究是黃小江討論了漢語比較句的范疇、外延和特征,定義了漢語比較句識(shí)別的任務(wù),并提出用SVM分類器將漢語句子分為“比較”和“非比較”兩類。[2]黃高輝以SVM為分類器,以特征詞和 CSR序列規(guī)則為特征, 同時(shí)利用 CRF算法抽取實(shí)體對象 , 并增加以實(shí)體對象的信息作為特征,顯著提高了比較句識(shí)別的準(zhǔn)確率 、召回率和 F 度量。[3]
比較句的識(shí)別主要是通過識(shí)別算法發(fā)掘文本中的比較語句,由于中文語句的靈活性,其算法比英文的比較句復(fù)雜,也有學(xué)者提出比較簡單的發(fā)現(xiàn)方式,特別是針對差比語句的情感分析研究,其識(shí)別方式為只要語句中包含兩個(gè)比較產(chǎn)品以及“比”就識(shí)別為差比語句。文章的研究就是采用這種簡單有效的方式進(jìn)行識(shí)別。
2.2比較要素的抽取
比較要素是比較句中的特征識(shí)別,即比較點(diǎn)的識(shí)別和抽取,簡單地說就是這個(gè)比較句是在比較這兩個(gè)對象的什么特征。對于細(xì)粒度的屬性級(jí)別的情感研究,特征發(fā)現(xiàn)和抽取也是非常重要的一個(gè)環(huán)節(jié)。
比較要素的抽取目前主要有兩種方法,一種是人工總結(jié)特征詞典,包括收集產(chǎn)品說明書中的產(chǎn)品特征,相關(guān)專家給出的產(chǎn)品特征以及總結(jié)部分測試文本中的特征,然后根據(jù)特征詞典使用字符串匹配的方法抽取比較句中的比較點(diǎn)信息;另一種是使用特征發(fā)掘,在沒有特征詞典的情況下,使用發(fā)掘算法在測試數(shù)據(jù)集中發(fā)現(xiàn)總結(jié)特征詞,動(dòng)態(tài)形成特征詞典,然后在使用字符串匹配等方式抽取比較點(diǎn)。[4-5]
2.3比較觀點(diǎn)的情感分析
比較觀點(diǎn)的情感分析是比較評(píng)論挖掘的第三個(gè)研究方向,這個(gè)主要是借用一般語句的情感分析方法對比較語句做情感分析。常用的情感分析主要是使用情感詞典,并結(jié)合考慮程度副詞以及否定詞,然后判斷出該句的情感傾向。目前有兩種情感計(jì)分方法,一種是只判斷情感極性,正面情感為+1,負(fù)面情感為-1;另一種是在判斷極性的基礎(chǔ)上,還要根據(jù)程度副詞判斷好壞程度,有的還會(huì)根據(jù)情感詞本身的情感強(qiáng)烈程度給出權(quán)重后再結(jié)合程度副詞進(jìn)行判斷。[6]
3模型實(shí)現(xiàn)方式
3.1實(shí)現(xiàn)工具
(1)Python語言與爬蟲技術(shù)。Python語言是一種簡單而又強(qiáng)大的高級(jí)編程語言,有非常豐富的數(shù)據(jù)結(jié)構(gòu),靈活的程序處理方式,以及大量的支持該語言的第三方函數(shù)庫,在爬蟲和大數(shù)據(jù)處理方面有非常明顯的編程優(yōu)勢。[7]
(2)分詞?,F(xiàn)存的幾大分詞工具有:結(jié)巴中文分詞、中科院分詞、Smallseg以及Yaha分詞等,其效果存在細(xì)微的差異,大致上的分詞結(jié)果相仿。文章采用基于python的結(jié)巴中文分詞技術(shù),對抽取出的比較評(píng)語進(jìn)行分詞。
分詞的好壞主要影響情感分值的計(jì)算,對于特征抽取的影響較少。為了減少由于分詞不當(dāng)而導(dǎo)致的詞語計(jì)分錯(cuò)誤,多采用人工的方式對情感詞典進(jìn)行修正。
(3)詞典。詞典的優(yōu)劣直接決定了模型的有效性,一般在現(xiàn)存的一些詞典(知網(wǎng)情感詞典、臺(tái)灣大學(xué)NTUSD、清華大學(xué)李軍的褒貶義詞典等)基礎(chǔ)上,結(jié)合所訓(xùn)練的文本材料自身的行業(yè)特點(diǎn),設(shè)計(jì)特定語境的情感詞典。另外,為了抽取特征,獲得比較對以及計(jì)算情感權(quán)重,還需要設(shè)計(jì)產(chǎn)品名稱詞典、特征詞典、特征分類詞典、否定詞典、程度副詞詞典以及同義詞典。其中程度副詞詞典分為前綴詞典和后綴詞典。
部分詞典情況如表1所示。
3.2實(shí)現(xiàn)步驟
按照比較評(píng)論情感分析的具體需要,文章設(shè)計(jì)了一種基于在線比較評(píng)論情感分析步驟,如圖1所示。從網(wǎng)絡(luò)評(píng)語到統(tǒng)計(jì)分析,共包括了5大處理過程:網(wǎng)絡(luò)評(píng)語的爬取、數(shù)據(jù)的預(yù)處理與比較句的識(shí)別、自動(dòng)分詞、訓(xùn)練情感詞典、計(jì)算情感得分、統(tǒng)計(jì)分析。
4結(jié)論
文章在現(xiàn)有研究的基礎(chǔ)上,提出了一種在線比較評(píng)論情感分析方法的解決思路,能很好地對產(chǎn)品做成評(píng)價(jià),進(jìn)行數(shù)據(jù)試驗(yàn)后,其評(píng)價(jià)的結(jié)果與官方給出的排名結(jié)果基本一致。而此方法不僅能對產(chǎn)品的綜合情況進(jìn)行分析,還可以針對產(chǎn)品某一具體特征的情況給出評(píng)價(jià)值,為決策提供更加精細(xì)的分析數(shù)據(jù)。主要的研究不足為模型的智能化程度還不夠,分值計(jì)算為線性方式也會(huì)損失精度,后續(xù)研究可進(jìn)一步完善。
參考文獻(xiàn):
[1]?NITIN JINDAL,BING LIU.?Identifying comparative sentences in text documents[C].Washington:In Proceedings of SIGIR,2006:244-251.
[2]黃小江,萬小軍,楊建武.漢語比較句識(shí)別研究[J].中文信息學(xué)報(bào),2008, 22 (5):30-37.
[3]黃高輝,姚天防,劉全升.CRF算法的漢語比較句識(shí)別和關(guān)系抽取[J].計(jì)算機(jī)應(yīng)用研究,2010, 27(6): 61-64.
[4]王鳳霞.比較句識(shí)別及觀點(diǎn)要素抽取方法研究[D].太原:山西大學(xué),2013.
[5]周紅照,侯明午,侯敏,等.基于語義分類的比較句識(shí)別與比較要素抽取研究[J].中文信息學(xué)報(bào),2014,28(3):136-141,149.
[6]?吳晨,韋向峰 .?用戶評(píng)價(jià)中比較句的識(shí)別和傾向性分析[J].計(jì)算機(jī)科學(xué),2016,43(6A):435-439.
[7]黃紅梅,張良均.?Python數(shù)據(jù)分析與應(yīng)用[M].北京:人民郵電出版社,2017.