邵其武,繆裕青,2,謝益均,高 韓,蔡國永,2
(1.桂林電子科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,廣西桂林 541004; 2.桂林電子科技大學(xué)廣西可信軟件重點(diǎn)實(shí)驗(yàn)室,廣西桂林 541004)
一種改進(jìn)的商品評(píng)價(jià)情感極性分析算法
邵其武1,繆裕青1,2,謝益均1,高 韓1,蔡國永1,2
(1.桂林電子科技大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,廣西桂林 541004; 2.桂林電子科技大學(xué)廣西可信軟件重點(diǎn)實(shí)驗(yàn)室,廣西桂林 541004)
針對(duì)商品評(píng)價(jià)信息的褒貶分析問題,提出PMI_HRV算法。算法在基于語料庫的PMI算法基礎(chǔ)上,采用最新的基于知網(wǎng)詞典算法,解決基于語料庫算法中低頻詞準(zhǔn)確率差的問題;建立評(píng)價(jià)領(lǐng)域詞語相關(guān)的基準(zhǔn)詞表,并增加否定屬性表和網(wǎng)絡(luò)用語表以擴(kuò)充知網(wǎng)詞典,使結(jié)果更為準(zhǔn)確。實(shí)驗(yàn)結(jié)果表明,PMI_HRV算法具有較高的準(zhǔn)確率和召回率。
情感分析;商品評(píng)價(jià);點(diǎn)互信息;知網(wǎng)詞典;基準(zhǔn)詞表
情感分析(sentiment analysis)又稱評(píng)論挖掘或意見挖掘,是數(shù)據(jù)挖掘和計(jì)算機(jī)語言學(xué)相結(jié)合的一種對(duì)網(wǎng)上各種內(nèi)容進(jìn)行分析(包括提取、分析、處理、推理等)的技術(shù)[1]。情感分析的一個(gè)重要應(yīng)用是對(duì)網(wǎng)絡(luò)上大量的產(chǎn)品評(píng)論進(jìn)行挖掘和分析,計(jì)算情感褒貶傾向性,進(jìn)而發(fā)現(xiàn)產(chǎn)品優(yōu)缺點(diǎn),為用戶決策提供支持[2]。
目前,計(jì)算情感褒貶傾向性主要有2類方法:1)基于大規(guī)模語料庫,通過統(tǒng)計(jì)詞的概率分布來計(jì)算[3];2)基于某種世界知識(shí),一般是語義詞典,通過詞典層次結(jié)構(gòu)關(guān)系來計(jì)算[4]。前一類方法結(jié)果比較準(zhǔn)確,人為影響小,但計(jì)算復(fù)雜、計(jì)算量大,而且與語料庫的規(guī)模和領(lǐng)域關(guān)系比較大;后一類方法簡(jiǎn)單有效,計(jì)算量小,但結(jié)果依賴人工建立的詞典,受人主觀因素的影響比較大,并不一定能客觀地反映事實(shí)。
鑒于此,提出一種改進(jìn)的評(píng)價(jià)詞情感極性計(jì)算方法PMI_HRV(point mutual information and hownet and reference vocabulary)算法。該方法在點(diǎn)互信息方法基礎(chǔ)上,采用最新的基于知網(wǎng)詞典算法,解決基于語料庫算法中低頻詞準(zhǔn)確率低的問題。在計(jì)算2個(gè)詞的相似度時(shí),不僅考慮2個(gè)詞的距離,還考慮2個(gè)詞的位置信息,從而使相似度計(jì)算的結(jié)果更為準(zhǔn)確;建立結(jié)合評(píng)價(jià)領(lǐng)域詞語的基準(zhǔn)詞表,分別從待評(píng)價(jià)語料和人民日?qǐng)?bào)語料中選擇基準(zhǔn)詞,組成基準(zhǔn)詞表,并增加否定屬性表和網(wǎng)絡(luò)用語表來擴(kuò)充知網(wǎng)詞典。
1.1 基于語料庫的詞語情感極性計(jì)算方法
語料庫是一種電子文本庫,通常已經(jīng)過科學(xué)取樣和加工,借助一些分析工具(如計(jì)算機(jī)),可開展相關(guān)的語言理論以及應(yīng)用研究。
《人民日?qǐng)?bào)》標(biāo)注語料庫是北京大學(xué)計(jì)算語言學(xué)研究所和富士通研究開發(fā)中心共同制作的標(biāo)注語料庫,是我國第一個(gè)大型現(xiàn)代漢語標(biāo)注語料庫[5]。語料庫中每個(gè)詞語的詞性均有明確的標(biāo)記,目前共有40多個(gè)標(biāo)記。語料庫涵蓋范圍廣,涉及領(lǐng)域多,是當(dāng)前最常用語料庫之一,也是本研究所采用的語料庫。
基于語料庫的方法主要是點(diǎn)互信息(point mutual information,簡(jiǎn)稱PMI)方法[3],通過大規(guī)模語料庫中詞語的統(tǒng)計(jì)信息進(jìn)行情感傾向計(jì)算。首先,選取一些基準(zhǔn)詞,其中有褒義詞也有貶義詞,計(jì)算待求詞與所有基準(zhǔn)詞基于語料庫的點(diǎn)互信息值,然后計(jì)算待求詞褒貶傾向。PMI計(jì)算公式為:
其中:P(W1)為詞W1在語料庫中獨(dú)立出現(xiàn)的概率; P(W2)為詞W2在語料庫中獨(dú)立出現(xiàn)的概率; P(W1&W2)為詞W1和W2在語料庫中同時(shí)出現(xiàn)的概率,一般指θPMI個(gè)詞距內(nèi)W1和W2共同出現(xiàn)的概率。例如,W1在語料庫中出現(xiàn)了n次,則P(W1)=n,同理,W2在語料庫中出現(xiàn)了m次,則P(W2)=m,θPMI=p,則P(W1&W2)指在距離為p的范圍內(nèi),W1和W2同時(shí)出現(xiàn)的次數(shù),由此可得PMI值。由式(1)可知,PMI值與語料庫和基準(zhǔn)詞有關(guān)。
假定褒義基準(zhǔn)詞集Swordset1={C1,C2,…,Cn},貶義基準(zhǔn)詞集Swordset2={D1,D2,…,Dn},則對(duì)于待求詞W,基于PMI的情感極性SSO_PMI(W)計(jì)算公式為:
即所有褒義詞與待求詞的PMI值之和減去所有貶義詞與待求詞的PMI值之和,歸一化后使結(jié)果為[-1, 1]。若結(jié)果大于0,則待求詞為褒義詞,情感極性強(qiáng)弱由結(jié)果大小表示,結(jié)果越大,則褒義越強(qiáng);若結(jié)果小于0,則待求詞為貶義詞,情感極性強(qiáng)弱由結(jié)果大小表示,結(jié)果越小,則貶義越強(qiáng)。
通過分析可知,基于語料庫的PMI方法人工干預(yù)較少,當(dāng)待求詞在語料庫中出現(xiàn)概率較大時(shí),能夠比較真實(shí)地反映詞語褒貶傾向。然而,該法的計(jì)算過程復(fù)雜,計(jì)算結(jié)果嚴(yán)重依賴語料庫,若某個(gè)詞情感極性強(qiáng),但在語料庫中出現(xiàn)次數(shù)很少甚至為0,則計(jì)算結(jié)果值很小,不能完全體現(xiàn)真實(shí)情況。另外,基準(zhǔn)詞的選取對(duì)最終結(jié)果影響很大。
1.2 基于詞典的詞語情感極性計(jì)算方法
《知網(wǎng)》是由著名機(jī)器翻譯家董振東先生發(fā)起和創(chuàng)建的一個(gè)常識(shí)知識(shí)庫,用來描述漢語和英語詞語所代表的概念[6]?!案拍睢迸c“義原”是知網(wǎng)中最重要的2個(gè)概念。每個(gè)詞語可表示為一個(gè)或多個(gè)“概念”,每個(gè)“概念”可表示為一個(gè)或多個(gè)“義原”?!傲x原”是知網(wǎng)中最小的有意義的單位,共有約1500個(gè)義原。義原之間存在復(fù)雜的關(guān)系,《知網(wǎng)》描述了義原之間的8種關(guān)系,其中最重要的是上下位關(guān)系。根據(jù)上下位關(guān)系,所有義原組成一個(gè)義原層次結(jié)構(gòu),它是一個(gè)樹狀結(jié)構(gòu),是語義相似度計(jì)算的基礎(chǔ)。詞語、概念、義原關(guān)系如圖1所示,義原層次結(jié)構(gòu)如圖2所示。
圖1 知網(wǎng)詞典中詞語、概念、義原間的關(guān)系Fig.1 The relationship of words,concepts and sememes in Hownet
圖2 樹狀的義原層次結(jié)構(gòu)Fig.2 Sememes hierarchy tree
基于詞典的方法是基于知網(wǎng)詞典進(jìn)行相似度計(jì)算[4-8]。首先,選取一些基準(zhǔn)詞,其中有褒義也有貶義,計(jì)算待求詞與所有基準(zhǔn)詞基于知網(wǎng)的相似度,然后計(jì)算待求詞褒貶傾向。
假如一個(gè)詞語有m個(gè)概念,另一個(gè)詞語有n個(gè)概念,那么就有m×n種組合,計(jì)算每對(duì)概念的相似度,取最大者作為詞語間相似度。這樣,2個(gè)詞語的相似度就歸結(jié)為2個(gè)概念的相似度。實(shí)詞概念和虛詞概念之間相似度為0。實(shí)詞概念的語義表達(dá)式分為4部分:1)第一獨(dú)立義原描述式,其相似度記為s1; 2)其他獨(dú)立義原描述式,其相似度記為s2;3)關(guān)系義原描述式,其相似度記為s3;4)符號(hào)義原描述式,其相似度記為s4??偟南嗨贫葹?部分加權(quán)和,
其中βi為參數(shù),指si在最終s中所占比例,β1+β2+β3 +β4=1。
第一獨(dú)立義原更能反映詞語的主要特征,對(duì)次要部分相似度值起制約作用,即若SSIM1比較小,SSIM2比較大,則最終結(jié)果不能真實(shí)反映2個(gè)詞語相似度情況[4]。因此,對(duì)式(3)進(jìn)行修改,得到新的相似度計(jì)算公式:
義原相似度計(jì)算公式[7]:
其中:S1、S2為2個(gè)義原;α為可調(diào)節(jié)參數(shù);d為2個(gè)義原在義原樹上的距離。
2個(gè)義原的相似度不能僅考慮2個(gè)義原的距離,還應(yīng)考慮其他因素,因此,2個(gè)義原的相似度還應(yīng)考慮義原在義原樹上的位置因素[9]:
其中:dS1、dS2分別為2個(gè)義原在知網(wǎng)層次樹中的深度;D(S1,S2)為2個(gè)義原在層次樹中的距離。
通過式(6)得到2個(gè)詞語的相似度,然后通過基準(zhǔn)詞計(jì)算某個(gè)詞的情感極值。假定褒義基準(zhǔn)詞集SWordset1={C1,C2,…,Cn},貶義基準(zhǔn)詞集SWordset2= {D1,D2,…,Dn},則對(duì)于待求詞W,基于知網(wǎng)的情感極性SSo_Hownet(W)計(jì)算公式為:
通過分析可發(fā)現(xiàn),基于知網(wǎng)詞典的情感極性計(jì)算方法,計(jì)算過程簡(jiǎn)單,能很快得到結(jié)果。然而,該法的計(jì)算基礎(chǔ)為知網(wǎng)詞典,而知網(wǎng)詞典是手工建立,不能完全真實(shí)反映所有領(lǐng)域的所有情況,尤其是當(dāng)一個(gè)詞在不同語境下有不同意義時(shí),知網(wǎng)計(jì)算取所有情況下相似度最大值,顯然不能真實(shí)反映詞語的相似度。因此,通過知網(wǎng)難以獲得完全真實(shí)的結(jié)果。
基于語料庫的方法與基于知網(wǎng)詞典的方法均有一定的局限性,在基于語料庫方法的基礎(chǔ)上,結(jié)合最新的基于知網(wǎng)的相似度計(jì)算方法,建立結(jié)合評(píng)價(jià)領(lǐng)域詞語的基準(zhǔn)詞表,并增加否定屬性表和網(wǎng)絡(luò)用語表來擴(kuò)充詞典,提出PMI_HRV算法。
首先,對(duì)需要處理的商品評(píng)價(jià)語句進(jìn)行預(yù)處理。從網(wǎng)上獲取的評(píng)價(jià)語句長短不一,格式各不相同,需要進(jìn)行預(yù)處理才能進(jìn)行分析。預(yù)處理首先是斷句,然后通過分詞和依存句法分析以及否定標(biāo)記等,得到三元對(duì)(屬性名、情感詞、否定屬性標(biāo)記)。
觀察發(fā)現(xiàn),商品評(píng)論句子有很多相似性,比如一般評(píng)論偏向口語化,用語比較簡(jiǎn)單,一般都是常用詞,情感表達(dá)比較明確,且容易判斷。另外,人民日?qǐng)?bào)語料庫涵蓋范圍廣,大多都是通俗易懂的報(bào)道,比較符合商品評(píng)論特點(diǎn),因此,大部分三元對(duì)中的情感詞都可通過式(2)計(jì)算得到明確的褒貶極性。對(duì)于一些特殊評(píng)價(jià)詞,比如出現(xiàn)概率不大或者不常用的詞,雖然比例很小,但對(duì)最終的結(jié)果仍有影響,這部分用式(7)計(jì)算。
2.1 基準(zhǔn)詞表、否定屬性表、網(wǎng)絡(luò)用語表的建立
基準(zhǔn)詞表是情感極性計(jì)算的重要影響因素,通常選擇詞典中出現(xiàn)頻率較高的詞作為基準(zhǔn)詞[10],但這種選擇基準(zhǔn)詞的方法不能反映不同領(lǐng)域的情況。PMI_HRV算法動(dòng)態(tài)生成基準(zhǔn)詞表。首先,統(tǒng)計(jì)語料中詞語詞頻,選擇詞頻最高的30個(gè)褒義詞和30個(gè)貶義詞作為基準(zhǔn)詞表一部分,然后統(tǒng)計(jì)待計(jì)算詞語詞頻,將最多的10個(gè)褒義詞和10個(gè)貶義詞作為基準(zhǔn)詞表一部分。不同測(cè)試集將得到不同的基準(zhǔn)詞表。
本算法將原始數(shù)據(jù)處理成三元對(duì)(屬性名、情感詞、否定屬性標(biāo)記)。一般對(duì)商品評(píng)價(jià)數(shù)據(jù)的處理得到二元對(duì)(屬性名、情感詞)[11],然而,商品某些屬性本身含有否定意義,比如費(fèi)用、塑料感、溫度等,對(duì)應(yīng)的情感詞如高、強(qiáng)、高等,它們是褒義詞,但實(shí)際上屬于否定意義,因此,有必要對(duì)這部分屬性進(jìn)行單獨(dú)標(biāo)記。本算法通過人工篩選建立了一個(gè)否定屬性表。
商品評(píng)價(jià)的特點(diǎn)是口語化、通俗易懂、網(wǎng)絡(luò)用語多,其中網(wǎng)絡(luò)用語是影響結(jié)果的一個(gè)重要因素。本算法從大量網(wǎng)絡(luò)用語中篩選出與商品評(píng)價(jià)相關(guān)的網(wǎng)絡(luò)用語,建立網(wǎng)絡(luò)用語表。
2.2 算法描述
圖3為算法流程圖。PMI_HRV算法描述如下:
圖3 算法流程圖Fig.3 The flow chart of algorithm
Input:數(shù)據(jù)集dataset、語料庫文件corpus、知網(wǎng)詞典hownet、網(wǎng)絡(luò)用語詞典集net_dic、否定屬性集neg_att、一般基準(zhǔn)詞集base_list1。
Output:褒義詞識(shí)別數(shù)qua1、褒義詞正確數(shù)qua2、貶義詞識(shí)別數(shù)qua3、貶義詞正確數(shù)qua4。
for(eachSentence(i)∈Dataset)//預(yù)處理
{(attribute(i),word(i))←sentence(i);}
for(i=0;i≤dataset.size;i++)
{if(attribute(i)∈neg_att)
(attribute(i),word(i))→(attribute(i),word (i),1);
else
(attribute(i),word(i))→(attribute(i),word (i),0);}
for(i=0;i≤dataset.size;i++)
{if(word(i)∈褒義詞)褒義詞集←word(i);
else if(word(i)∈貶義詞)貶義詞集←word(i);}
base_list←top10(褒義詞集)//取頻次最高的10個(gè)加入基準(zhǔn)詞集
base_list←top10(貶義詞集)
base_list←top30(base_list1中褒義詞)∪top30 (base_list1中貶義詞)
for(i=0;i<=dataset.size;i++)
{if(word(i)對(duì)應(yīng)三元對(duì)為(attribute(i),word (i),1))
{通過式(2)計(jì)算word(i)的PMI值a
if(a>θ)result←(attribute(i),-a);
else通過式(7)計(jì)算word(i)的hownet值b
result←(attribute(i),-b);}
else if(word(i)對(duì)應(yīng)三元對(duì)為(attribute(i), word(i),0))
{通過式(2)計(jì)算word(i)的PMI值a
if(a>θ)result←(attribute(i),a);
else通過式(7)計(jì)算word(i)的hownet值b
result←(attribute(i),b);}}
if((attribute(i),i).get(i)>0)
{qua1++;
if(attribute(i)是褒義詞)qua2++;}
else if((attribute(i),i).get(i)<0)
{qua3++;
if(attribute(i)是貶義詞)qua4++;}
return qua1,qua2,qua3,qua4;
3.1 實(shí)驗(yàn)環(huán)境與實(shí)驗(yàn)數(shù)據(jù)
測(cè)試環(huán)境是PC機(jī),配置Intel Core i3 3.4 GHz, 4 GB內(nèi)存,Windows 7系統(tǒng),算法實(shí)現(xiàn)語言為Java,運(yùn)行環(huán)境為Eclipse 3.6。
測(cè)試數(shù)據(jù)是網(wǎng)上某電商關(guān)于某款筆記本電腦的評(píng)價(jià)數(shù)據(jù),實(shí)驗(yàn)語料庫是人民日?qǐng)?bào)標(biāo)注語料庫,知網(wǎng)詞典從知網(wǎng)官網(wǎng)下載,網(wǎng)絡(luò)用語詞典是收集整理網(wǎng)絡(luò)用語后手工建立。
首先建立基準(zhǔn)詞表,通過知網(wǎng)和測(cè)試數(shù)據(jù),得到基準(zhǔn)詞表,如表1所示。通過測(cè)試數(shù)據(jù)分析得到否定屬性表,如表2所示。建立的網(wǎng)絡(luò)用語詞典如表3所示。
表1 基準(zhǔn)詞表Tab.1 Reference words list
表2 否定屬性表Tab.2 Negative attribute words list
表3 網(wǎng)絡(luò)用語詞典Tab.3 Network words list
3.2 實(shí)驗(yàn)過程
為了對(duì)比實(shí)驗(yàn)效果,共進(jìn)行5次實(shí)驗(yàn)。實(shí)驗(yàn)1單獨(dú)采用文獻(xiàn)[3]的PMI方法,統(tǒng)計(jì)褒義詞和貶義詞數(shù);實(shí)驗(yàn)2單獨(dú)采用文獻(xiàn)[9]的知網(wǎng)詞典方法,統(tǒng)計(jì)褒義詞和貶義詞數(shù);實(shí)驗(yàn)3采用PMI_HRV算法,統(tǒng)計(jì)褒義詞和貶義詞數(shù);實(shí)驗(yàn)4通過不同的設(shè)定,找到合適的θPMI值和θ值;實(shí)驗(yàn)5通過不同的基準(zhǔn)詞表在PMI_HRV算法下的效果對(duì)比說明本算法采用的基準(zhǔn)詞表的作用。
5次實(shí)驗(yàn)所用的預(yù)處理后的數(shù)據(jù)、否定屬性表和網(wǎng)絡(luò)用語詞典完全一致,前4個(gè)實(shí)驗(yàn)所用的基準(zhǔn)詞表為本算法所用基準(zhǔn)詞表,實(shí)驗(yàn)5對(duì)比的基準(zhǔn)詞表是一般用的基準(zhǔn)詞表和本算法基準(zhǔn)詞表。
3.3 實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)結(jié)果采用P、R、F值作為評(píng)價(jià)指標(biāo),P為準(zhǔn)確率,R為召回率,F為綜合評(píng)價(jià)指標(biāo)。P和R是廣泛用于信息檢索和統(tǒng)計(jì)學(xué)分類領(lǐng)域的2個(gè)度量值,用來評(píng)價(jià)結(jié)果的好壞,其中P衡量檢索系統(tǒng)的查準(zhǔn)率, R衡量檢索系統(tǒng)的查全率。通過計(jì)算各個(gè)算法的P、R以及F值來衡量算法的優(yōu)劣,F=P×R×2/(P+ R)。表4~7為實(shí)驗(yàn)結(jié)果。
表4 不同算法識(shí)別數(shù)與正確數(shù)對(duì)比Tab.4 The comparison of different algorithms in identification and correct number
從表4可看出,對(duì)于褒義詞,3種算法識(shí)別數(shù)都小于總數(shù),其中PMI_HRV算法識(shí)別數(shù)1791比PMI算法識(shí)別數(shù)1578和知網(wǎng)詞典算法識(shí)別數(shù)1686更接近總數(shù)2057;在3種算法的正確數(shù)上,PMI_HRV算法的1775最高。對(duì)于貶義詞,3種算法的識(shí)別數(shù)大于總數(shù)1115,說明有部分褒義詞被判斷成了貶義詞,這是評(píng)論語料的詞語分布不平衡所導(dǎo)致的。PMI_ HRV算法的識(shí)別數(shù)更接近褒義詞總數(shù)1115,說明效果最好;在貶義詞的正確數(shù)上,PMI_HRV算法為1047,和知網(wǎng)詞典算法相同,高于PMI算法的923。綜合來看,PMI_HRV算法的性能要好于基于PMI和基于知網(wǎng)詞典的算法。
表5 不同算法P、R、F對(duì)比Tab.5 The comparison of different algorithms in P,R and F
表5由表4的實(shí)驗(yàn)數(shù)據(jù)計(jì)算得到。PMI_HRV算法在褒義詞上的P值比基于PMI和基于知網(wǎng)詞典的算法稍差,但R值要高很多,F值比基于知網(wǎng)的算法高3個(gè)百分點(diǎn),比基于PMI的算法高10個(gè)百分點(diǎn)。PMI_HRV算法在貶義詞上的P值比基于PMI和基于知網(wǎng)詞典的算法分別高6個(gè)和14個(gè)百分點(diǎn), R值比基于知網(wǎng)的算法稍高,比基于PMI的算法高11個(gè)百分點(diǎn),F值比基于知網(wǎng)的算法高3個(gè)百分點(diǎn),比基于PMI的算法高13個(gè)百分點(diǎn)。
從表6可看出,不同閾值下P、R、F有不同結(jié)果,從實(shí)驗(yàn)數(shù)據(jù)看,θPMI=5,θ=0.2時(shí),褒義詞上的P、R、F值分別為0.991、0.863、0.923,貶義詞上的P、R、F值分別為0.843、0.939、0.888,都比其他情況下的值更高,因此,選取5、0.2作為最終閾值。
從表7可看出,采用本算法基準(zhǔn)詞表在褒義詞P值上比一般基準(zhǔn)詞表高22個(gè)百分點(diǎn),R值低5個(gè)百分點(diǎn),F值高9個(gè)百分點(diǎn);在貶義詞上P值與一般基準(zhǔn)詞表基本相等,R值比一般基準(zhǔn)詞表高39個(gè)百分點(diǎn),F值比一般基準(zhǔn)詞表高30個(gè)百分點(diǎn)。采用本算法的基準(zhǔn)詞表,算法效果明顯。
單獨(dú)用基于語料庫的算法和單獨(dú)用基于知網(wǎng)詞典的算法,結(jié)果F值均低于PMI_HRV算法。主要原因是單獨(dú)用基于語料庫的算法,部分低頻詞和中性詞無法區(qū)分;單獨(dú)用基于知網(wǎng)詞典的算法,依賴手工建立的知網(wǎng)詞典。PMI_HRV算法是2種算法的融合,可以很好地解決這些問題?;鶞?zhǔn)詞表是算法計(jì)算的基礎(chǔ),實(shí)驗(yàn)結(jié)果表明,本算法基準(zhǔn)詞表因?yàn)榧骖櫿Z料庫中詞語和待評(píng)價(jià)領(lǐng)域中詞語,F值高于一般的基準(zhǔn)詞表,說明不同領(lǐng)域之間沒有通用的基準(zhǔn)詞表,需要建立結(jié)合評(píng)價(jià)領(lǐng)域的基準(zhǔn)詞表。
表6 不同閾值下結(jié)果對(duì)比Tab.6 The comparison of different thresholds
表7 不同基準(zhǔn)詞表結(jié)果對(duì)比Tab.7 The comparison of different reference words list
對(duì)商品評(píng)價(jià)信息進(jìn)行褒貶分析可為商家和消費(fèi)者提供決策支持。傳統(tǒng)基于語料庫的方法,結(jié)果比較準(zhǔn)確,人為影響小,但計(jì)算復(fù)雜、計(jì)算量大,對(duì)于出現(xiàn)頻率很低的詞,準(zhǔn)確率低;基于知網(wǎng)詞典的方法簡(jiǎn)單有效,計(jì)算過程簡(jiǎn)單,但其結(jié)果依賴人工建立的詞典,受人主觀意識(shí)影響較大。在基于語料庫的PMI方法基礎(chǔ)上,通過建立結(jié)合評(píng)價(jià)領(lǐng)域詞語的基準(zhǔn)詞表,增加否定屬性表和網(wǎng)絡(luò)用語表,結(jié)合基于知網(wǎng)詞典方法,提出PMI_HRV算法,解決了使用PMI算法計(jì)算時(shí)低頻詞無法計(jì)算的問題,擴(kuò)展了知網(wǎng)詞典,使基于知網(wǎng)詞典的計(jì)算結(jié)果更為準(zhǔn)確。實(shí)驗(yàn)結(jié)果和分析表明,算法的準(zhǔn)確率、召回率和F值相比已有算法有明顯提高,有一定的實(shí)際應(yīng)用價(jià)值。
本研究提出算法在某些方面仍然有待改進(jìn)。例如,采用的語料庫是人民日?qǐng)?bào)語料庫,對(duì)特定領(lǐng)域適應(yīng)性不高,下一步工作將考慮研究建立一個(gè)較通用的跨領(lǐng)域語料庫。
[1] 蘇杰,繆裕青,劉少兵,等.基于語義傾向計(jì)算器的情感分析方法[J].桂林電子科技大學(xué)學(xué)報(bào),2012,32(4):302-306.
[2] 魏慧玲.文本情感分析在產(chǎn)品評(píng)論中的應(yīng)用研究[D].北京:北京交通大學(xué),2014:1-2.
[3] Turney P D.Thumbs up or thumbs down?semantic orientation applied to unsupervised classification of reviews [C]//Proceedings of the 40th Annual Meeting on Association for Computational Linguistics.Stroudsburg:Association for Computational Linguistics,2002:417-424.
[4] 劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計(jì)算[C]//第三屆漢語詞匯語義學(xué)研討會(huì)論文集.臺(tái)北:臺(tái)北市中研院語言學(xué)研究所,2002:59-76.
[5] 北京大學(xué)計(jì)算語言學(xué)研究所.人民日?qǐng)?bào)語料庫簡(jiǎn)介[EB/OL].[2001-05-10].http://www.icl.pku.edu. cn/icl_res/.
[6] 董振東,董強(qiáng).知網(wǎng)簡(jiǎn)介[EB/OL].[2013-01-29].http://www.keenage.com.
[7] 李峰,李芳.中文詞語語義相似度計(jì)算:基于《知網(wǎng)》2000 [J].中文信息學(xué)報(bào),2007,21(3):99-105.
[8] 朱嫣嵐,閔錦,周雅倩,等.基于Hownet的詞語語義傾向計(jì)算[J].中文信息學(xué)報(bào),2005,20(1):14-20.
[9] 江敏,肖詩斌,王宏蔚,等.一種改進(jìn)的基于知網(wǎng)的詞語語義相似度計(jì)算[J].中文信息學(xué)報(bào),2008,22(5):84-89.
[10] 祖李軍,王衛(wèi)平.中文網(wǎng)絡(luò)評(píng)論中提取產(chǎn)品特性的研究[J].計(jì)算系統(tǒng)應(yīng)用,2014,23(5):196-201.
[11] 周劍鋒,陽愛民,周詠梅,等.基于二元搭配詞的微博情感特征選擇[J].計(jì)算機(jī)工程,2014,40(6):162-165.
編輯:梁王歡
An improved algorithm for sentiment polarity analysis of product reviews
Shao Qiwu1,Miao Yuqing1,2,Xie Yijun1,Gao Han1,Cai Guoyong1,2
(1.School of Computer Science and Engineering,Guilin University of Electronic Technology,Guilin 541004,China; 2.Guangxi Key Laboratory of Trusted Software,Guilin University of Electronic Technology,Guilin 541004,China)
In order to solve the problem that low-frequency words have poor accuracy,PMI_HRV algorithm is proposed for judgment analysis on product evaluation information.PMI_HRV uses the latest method of Hownet based on the PMI.Moreover,the reference vocabulary in the method is related to the evaluation.In addition,the negative attribute table and the network glossary is appended to the Hownet to improve the accuracy.Experimental results show that PMI_HRV algorithm has better precision and recall rates.
sentiment analysis;product review;point mutual information;Hownet;reference vocabulary
TP301.6
A
1673-808X(2015)02-0156-06
2015-01-26
廣西自然科學(xué)基金(2014GXNSFAA118395);廣西教育廳科研項(xiàng)目(2013YB094);廣西可信軟件重點(diǎn)實(shí)驗(yàn)室基金(kx201116);桂林電子科技大學(xué)研究生教育創(chuàng)新計(jì)劃(GDYCSZ201466)
繆裕青(1966-),女,浙江臺(tái)州人,副教授,博士,研究方向?yàn)閿?shù)據(jù)挖掘、分布式計(jì)算、云計(jì)算。E-mail:miaoyuqing@guet.edu.cn
邵其武,繆裕青,謝益均,等.一種改進(jìn)的商品評(píng)價(jià)情感極性分析算法[J].桂林電子科技大學(xué)學(xué)報(bào),2015,35(2):156-161.