蔡肖紅, 劉培玉, 王智昊
(1.山東師范大學(xué) 信息科學(xué)與工程學(xué)院 山東 濟(jì)南 250014; 2.山東省分布式計(jì)算機(jī)軟件新技術(shù)重點(diǎn)實(shí)驗(yàn)室 山東 濟(jì)南 250014)
基于語(yǔ)境情感消岐的評(píng)論傾向性分析
蔡肖紅1,2, 劉培玉1,2, 王智昊1,2
(1.山東師范大學(xué) 信息科學(xué)與工程學(xué)院 山東 濟(jì)南 250014; 2.山東省分布式計(jì)算機(jī)軟件新技術(shù)重點(diǎn)實(shí)驗(yàn)室 山東 濟(jì)南 250014)
研究評(píng)論傾向性分析中情感詞的動(dòng)態(tài)極性變化問(wèn)題.用Apriori算法在語(yǔ)境基礎(chǔ)上挖掘情感歧義詞語(yǔ)搭配,構(gòu)建出(情感對(duì)象,情感詞,情感傾向性)三元組形式的情感歧義詞搭配詞典,利用條件隨機(jī)場(chǎng)模型(CRFs)序列標(biāo)注方法從評(píng)論文本中抽取出情感要素,在構(gòu)建的情感歧義詞搭配詞典基礎(chǔ)上對(duì)評(píng)論文本進(jìn)行了細(xì)粒度情感傾向性分析.在手機(jī)和電腦兩個(gè)領(lǐng)域的評(píng)論語(yǔ)料集上進(jìn)行多組實(shí)驗(yàn),與傳統(tǒng)方法的對(duì)比實(shí)驗(yàn)表明了方法的可行性,較為明顯地提高了情感傾向性分析的準(zhǔn)確率.
情感歧義詞; CRFs; 語(yǔ)境; 細(xì)粒度; 情感要素
情感分析主要的研究對(duì)象是互聯(lián)網(wǎng)上的海量文本信息,主要任務(wù)包括網(wǎng)絡(luò)文本的情感極性判斷、評(píng)價(jià)對(duì)象抽取和意見(jiàn)摘要[1]等.目前研究更傾向于細(xì)粒度級(jí)別的情感分析,如詞語(yǔ)或短語(yǔ)級(jí)的評(píng)價(jià)關(guān)系的識(shí)別和分析.細(xì)粒度的情感分析也稱為基于特征的情感分析,旨在從評(píng)論文本中抽取情感要素,為一些實(shí)際應(yīng)用提供必要的細(xì)節(jié)信息[2].在評(píng)價(jià)對(duì)象和評(píng)價(jià)詞抽取及情感傾向性分析方面已有不少學(xué)者進(jìn)行相關(guān)研究.文獻(xiàn)[3]利用關(guān)聯(lián)規(guī)則挖掘的方法依據(jù)詞頻信息抽取名詞和名詞短語(yǔ)作為產(chǎn)品屬性,并抽取產(chǎn)品屬性臨近的形容詞作為觀點(diǎn),擴(kuò)展低頻屬性詞,再通過(guò)剪枝處理移除噪聲,得到最終屬性集合,該方法由于規(guī)則限定導(dǎo)致召回率低.文獻(xiàn)[4]首次將基于條件隨機(jī)場(chǎng)的判別式學(xué)習(xí)模型運(yùn)用于評(píng)論文本的細(xì)粒度情感分析,避免了特征之間的條件獨(dú)立性假設(shè)問(wèn)題.王素格等利用依存句法分析結(jié)果分別建立了名詞、動(dòng)詞及形容詞的組塊規(guī)則,設(shè)計(jì)評(píng)價(jià)對(duì)象與評(píng)價(jià)詞的搭配算法[5].徐冰等人將淺層句法信息和啟發(fā)式位置信息引入到條件隨機(jī)場(chǎng)模型中,在不增加領(lǐng)域情感詞典的情況下,有效地提高了系統(tǒng)的準(zhǔn)確率[6].戴敏等人引入句法分析來(lái)豐富句法特征,使用基于條件隨機(jī)場(chǎng)模型的監(jiān)督學(xué)習(xí)方法實(shí)現(xiàn)對(duì)英文的評(píng)價(jià)對(duì)象抽取[7].
此外,研究者們也嘗試了利用領(lǐng)域本體來(lái)解決細(xì)粒度的情感分析問(wèn)題.姚天昉等人利用領(lǐng)域本體抽取汽車(chē)評(píng)論中的實(shí)體和特征,利用極性詞詞典識(shí)別用戶評(píng)論意見(jiàn)并判斷它們的褒貶性以及強(qiáng)度[8].郭沖等人針對(duì)細(xì)粒度的意見(jiàn)要素抽取和情感判定問(wèn)題,定義了一種情感本體樹(shù)結(jié)構(gòu),并通過(guò)評(píng)價(jià)搭配抽取算法、評(píng)價(jià)搭配傾向預(yù)測(cè)算法和特征聚合算法自動(dòng)構(gòu)建領(lǐng)域情感本體樹(shù)[2].劉麗珍等基于產(chǎn)品特征之間的語(yǔ)義關(guān)系,設(shè)計(jì)詞性模式匹配方法提取特征詞和情感詞的固定搭配,并采用評(píng)論句的極性標(biāo)簽結(jié)合否定詞典,逆向推測(cè)搭配組合的情感極性,構(gòu)建領(lǐng)域情感本體,進(jìn)一步設(shè)計(jì)本體節(jié)點(diǎn)匹配規(guī)則進(jìn)行情感分析[9].
1.1 情感歧義詞定義
情感傾向性分析中主要基于情感詞的極性與否定轉(zhuǎn)折等情感影響因子計(jì)算情感得分,本文從情感角度出發(fā),挖掘情感歧義詞在不同語(yǔ)境中的動(dòng)態(tài)情感傾向性.根據(jù)語(yǔ)境信息可將情感詞劃分為兩種:第一種是上下文無(wú)關(guān)型,具有明顯的褒貶傾向,如喜歡、討厭等;第二種是上下文相關(guān)型,如高、大、長(zhǎng)、快等.第一種情感詞依據(jù)基礎(chǔ)情感詞典可得到確定的情感極性,然而第二種則需要結(jié)合情感詞所搭配的上下文語(yǔ)境信息,根據(jù)不同詞語(yǔ)的搭配動(dòng)態(tài)地選擇情感極性,本文定義此類(lèi)具有動(dòng)態(tài)情感極性的情感詞為情感歧義詞.情感歧義詞具有動(dòng)態(tài)情感極性(dynamic polarity),即在不同上下文語(yǔ)境中修飾不同產(chǎn)品屬性或搭配某些詞語(yǔ)時(shí)表現(xiàn)出不同的情感極性,例如:
comment1:這款新手機(jī)的配置很高,音質(zhì)是亮點(diǎn),就是價(jià)格太高了.
comment2:風(fēng)扇有聲音,屏幕有亮點(diǎn)…
對(duì)比兩條評(píng)論可看出,comment1中有評(píng)論短語(yǔ)“配置、高”和“價(jià)格、高”,情感詞“高”在修飾產(chǎn)品屬性“配置”時(shí)是正向的情感,而在修飾產(chǎn)品屬性“價(jià)格”時(shí)是負(fù)向的情感;comment2中有評(píng)論短語(yǔ)“風(fēng)扇、聲音”,“聲音”作為情感詞,和評(píng)價(jià)對(duì)象“風(fēng)扇”搭配時(shí)表現(xiàn)出負(fù)向的情感傾向;comment2中評(píng)論短語(yǔ)“屏幕、亮點(diǎn)”,“亮點(diǎn)”作為情感詞,和評(píng)價(jià)對(duì)象“屏幕”搭配時(shí)表現(xiàn)出負(fù)向的情感傾向,而在comment1中評(píng)論短語(yǔ)(音質(zhì),亮點(diǎn))中“亮點(diǎn)”作為情感詞,和評(píng)價(jià)對(duì)象“音質(zhì)”搭配時(shí)表現(xiàn)出正向的情感傾向.情感歧義詞的動(dòng)態(tài)情感極性確定依賴于上下文語(yǔ)境信息,根據(jù)所搭配的詞語(yǔ)不同,表現(xiàn)出不同的情感傾向性.
1.2 搭配詞典的構(gòu)建
本文采用Apriori算法挖掘文本中的情感歧義詞語(yǔ)搭配集,詞語(yǔ)的集合看成是兩個(gè)item,詞語(yǔ)搭配的集合看成是transaction,找出兩個(gè)item中的元素在transaction上的并發(fā)關(guān)系.設(shè)I={i1,i2,…,im}是一個(gè)項(xiàng)目集合代表文本輸入,T={t1,t2,…,tn)是一個(gè)數(shù)據(jù)庫(kù)事務(wù)(transaction),其中每個(gè)事務(wù)ti是一個(gè)項(xiàng)目集合.從不同語(yǔ)境的詞語(yǔ)搭配方面選取情感歧義種子詞,如“亮點(diǎn)、低、聲音、大、小、快、慢、效率、水平、看法、脾氣、道德、問(wèn)題、高…”,依據(jù)情感歧義詞大多是多義詞在不同語(yǔ)境表現(xiàn)動(dòng)態(tài)情感極性的,借助HowNet和哈爾濱工業(yè)大學(xué)的同義詞詞林對(duì)情感歧義詞進(jìn)行擴(kuò)展,擴(kuò)充多義詞和種子詞典的同義詞.給出搭配集和頻繁集[10],其中X,Y是item中兩個(gè)元素,最小支持度為α,最小置信度為β.本文針對(duì)評(píng)論短文本特點(diǎn),對(duì)語(yǔ)料集分詞后,以構(gòu)建的情感歧義詞種子詞典為中心詞,取前后6個(gè)詞與種子詞構(gòu)成一個(gè)item,采用關(guān)聯(lián)規(guī)則挖掘方法,在transaction中先發(fā)現(xiàn)滿足α的搭配集,然后在搭配集中識(shí)別滿足β的頻繁集,α和β的值設(shè)定太小,剪枝不明顯,設(shè)置太大,導(dǎo)致搭配集噪音過(guò)大,本文實(shí)驗(yàn)針對(duì)(αi,βi)取結(jié)果最好的一對(duì)參數(shù)α=0.01%,β=0.01%.
通過(guò)點(diǎn)互信息PMI(pointwise mutual information)來(lái)進(jìn)一步挖掘詞語(yǔ)間搭配關(guān)系強(qiáng)度.用公式(1)計(jì)算詞語(yǔ)word1與word2的搭配關(guān)系強(qiáng)度,其中,P(word1)與P(word2)表示詞語(yǔ)word1與word2的出現(xiàn)概率,PMI(word1,word2)表示詞語(yǔ)word1與word2共同出現(xiàn)的概率,P(word)用公式(2)計(jì)算詞語(yǔ)word的tfidf值替換.PMI的值越大表示詞語(yǔ)word1與word2間的搭配關(guān)系越強(qiáng).設(shè)定一個(gè)閾值δ,過(guò)濾掉詞語(yǔ)互信息滿足PMI(word1,word2)≤δ的弱關(guān)聯(lián)搭配對(duì).
(1)
(2)
公式(2)中,W(t,d)為詞語(yǔ)t在句子d中的權(quán)重,tf(t,d)表示詞語(yǔ)t在句子d中出現(xiàn)頻率,N為訓(xùn)練語(yǔ)料句子總數(shù),ni表示訓(xùn)練語(yǔ)料出現(xiàn)詞語(yǔ)t的句子數(shù)度,α取0.01,分母為歸一化因子.經(jīng)過(guò)PMI過(guò)濾后構(gòu)成情感歧義詞候選搭配集,利用情感詞典標(biāo)注搭配集中評(píng)價(jià)詞語(yǔ)的情感極性,進(jìn)而構(gòu)建成情感歧義詞搭配詞典,詞條存儲(chǔ)形式:<情感對(duì)象,情感詞,情感傾向性>.在情感傾向性分析時(shí),情感歧義詞動(dòng)態(tài)極性值的確定需同時(shí)滿足詞語(yǔ)配對(duì),解決同一情感詞修飾不同情感屬性時(shí)不同情感傾向的問(wèn)題.
2.1 條件隨機(jī)場(chǎng)模型(CRFs)
CRFs由 Lafferty 等人[11]在 2001 年的ICML會(huì)議(international conference on machine learning) 上提出,之后廣泛用于自然語(yǔ)言處理領(lǐng)域,特別是在分詞、詞性標(biāo)注、命名實(shí)體識(shí)別等任務(wù)中表現(xiàn)出優(yōu)良性能.CRFs是一種序列標(biāo)注模型,在序列標(biāo)注任務(wù)中,X={x1,x2,…,xn}為觀察序列,如中文分詞中對(duì)應(yīng)字序列及其他一些特征.Y={y1,y2,…,yn}為標(biāo)記序列,在中文分詞中對(duì)應(yīng)位置角色標(biāo)記序列.在命名實(shí)體識(shí)別任務(wù)中,X可以是一段文本,而Y則是相對(duì)應(yīng)的類(lèi)別標(biāo)記序列.條件隨機(jī)場(chǎng)使用一種概率圖模型,具有表達(dá)長(zhǎng)距離依賴性和交疊性特征的能力,能夠較好地解決分類(lèi)偏置等問(wèn)題,而且所有特征可以進(jìn)行全局歸一化,能夠求得全局的最優(yōu)解.評(píng)論語(yǔ)句可看成以字或詞為基本單位的序列,對(duì)情感詞和情感對(duì)象的抽取過(guò)程可看成一個(gè)序列標(biāo)注的過(guò)程,基于CRFs能同步抽取情感詞和情感對(duì)象.
2.2 情感要素抽取
需要標(biāo)注的情感要素包括情感對(duì)象,情感詞、情感修飾詞中否定修飾詞和程度級(jí)別修飾詞在詞性標(biāo)注后,基于相應(yīng)的否定詞典和程度級(jí)別詞典可判定得出.本文所選用的條件隨機(jī)場(chǎng)模型工具是綜合性能最好的CRF++.
2.2.1 抽取的特征
3) 情感歧義詞典特征DIC:將本文構(gòu)建的情感歧義搭配詞典作為一項(xiàng)特征,可反應(yīng)句中詞與詞之間的句法依賴關(guān)系,依賴特征包括詞語(yǔ)間和詞性直接的相互依賴.
2.2.2 構(gòu)建標(biāo)注集
為了實(shí)現(xiàn)對(duì)細(xì)粒度情感要素的有效識(shí)別,將標(biāo)注集設(shè)置的相對(duì)簡(jiǎn)單來(lái)防止特征稀疏,我們將標(biāo)注集設(shè)定為4種標(biāo)記.給定輸入序列W={wi},輸出標(biāo)注序列Y={yt},yt∈{FO,SO,ADV,P}.標(biāo)注集如表1所示.
表1 標(biāo)注集示例
2.3 傾向性分析
通過(guò)CRFs序列標(biāo)注出情感要素后,對(duì)抽取出的情感要素表達(dá)的觀點(diǎn)進(jìn)行細(xì)粒度的分析,傳統(tǒng)方法基于基礎(chǔ)情感詞典,基礎(chǔ)情感詞典有知網(wǎng)的Hownet、臺(tái)灣大學(xué)的NTUSD、大連理工大學(xué)信息檢索研究室的中文情感詞匯本體庫(kù).本文添加了網(wǎng)絡(luò)詞匯詞典、否定副詞詞典、程度副詞詞典和情感歧義詞搭配詞典進(jìn)行特征級(jí)別的情感分析.網(wǎng)絡(luò)詞匯詞典包括給力、稀飯等正向情感詞以及和杯具、坑爹等負(fù)向情感詞;否定副詞詞典包含對(duì)情感表達(dá)逆轉(zhuǎn)的否定詞47個(gè);程度副詞依據(jù)情感詞的情感強(qiáng)烈強(qiáng)度由低到高分為Ⅰ類(lèi)、Ⅱ類(lèi)、Ⅲ類(lèi)、Ⅳ類(lèi)、Ⅴ類(lèi)、Ⅵ類(lèi)共6個(gè)等級(jí),詞典規(guī)模236個(gè).
情感傾向計(jì)算算法的基本思想:利用情感詞和影響情感的情感修飾詞計(jì)算情感對(duì)象的情感.算法步驟如下:
1) 根據(jù)否定詞ni的情感值Negi和程度副詞di的情感值Modi,計(jì)算情感修飾詞的情感影響因子Qadvi,公式如下:
式中,存在否定詞時(shí)Negi取值-1,反之默認(rèn)為1;Modi的值根據(jù)程度副詞的情感強(qiáng)度等級(jí)依次取值為{-0.5,0.5,0.8,1.2,1.6,2.0}.
2) 結(jié)合情感詞的極性Pi,計(jì)算情感要素組成的屬性觀點(diǎn)對(duì)的情感極性值Score(fti),
其中:F={ft1,ft2,…,fti,…,ftn};fti為評(píng)論語(yǔ)料中的產(chǎn)品屬性;n為產(chǎn)品屬性總數(shù).
3) 計(jì)算產(chǎn)品屬性的正向情感強(qiáng)度Sentiment(fti)+和負(fù)向情感強(qiáng)度Sentiment(fti)-,
其中:cp和cn分別為產(chǎn)品屬性fti組成的觀點(diǎn)對(duì)情感傾向?yàn)檎蚝拓?fù)向的語(yǔ)句數(shù);wj與wk分別為正向和負(fù)向情感極性值的權(quán)重,主要依賴于產(chǎn)品屬性觀點(diǎn)對(duì)所在原評(píng)論的點(diǎn)贊數(shù)和用戶等級(jí);Score(ftj)+和Score(ftk)-分別為產(chǎn)品屬性fti組成觀點(diǎn)對(duì)的正向和負(fù)向情感極性值.至此得到各個(gè)產(chǎn)品屬性對(duì)應(yīng)的正負(fù)向情感強(qiáng)度值,情感傾向計(jì)算算法結(jié)束.
3.1 數(shù)據(jù)集預(yù)處理
在構(gòu)建的細(xì)粒度情感分析系統(tǒng)中進(jìn)行實(shí)驗(yàn),采用數(shù)據(jù)采集模塊編寫(xiě)的爬蟲(chóng)程序從京東商城上采集2016年的手機(jī)和電腦兩個(gè)領(lǐng)域的評(píng)論數(shù)據(jù),共采集手機(jī)評(píng)論60 681條,電腦評(píng)論41 561條,提取標(biāo)簽組成特征觀點(diǎn)對(duì)存儲(chǔ).實(shí)驗(yàn)前針對(duì)本文研究?jī)?nèi)容對(duì)原始數(shù)據(jù)集進(jìn)行預(yù)處理,處理過(guò)程包括原始語(yǔ)料集去重,過(guò)濾官方用戶回復(fù)評(píng)論,用戶的回復(fù)評(píng)論,只保留用戶原始評(píng)論數(shù)據(jù),過(guò)濾曬單等文本無(wú)關(guān)評(píng)論,過(guò)濾廣告類(lèi)虛假評(píng)論.中文分詞采用NLPIR漢語(yǔ)分詞系統(tǒng),因分詞準(zhǔn)確率直接影響后續(xù)情感要素抽取和情感分析的準(zhǔn)確性,本文將標(biāo)簽提取的屬性詞和評(píng)價(jià)詞、領(lǐng)域相關(guān)特征詞和未登錄網(wǎng)絡(luò)情感詞加入用戶詞典,如性價(jià)比、藍(lán)牙、坑爹、杯具、USB、藍(lán)屏等共82個(gè),提高分詞準(zhǔn)確率.采用評(píng)價(jià)標(biāo)準(zhǔn)是準(zhǔn)確率、召回率以及F1值,分別記作Precision、Recall、F1.
3.2 不同上下文窗口長(zhǎng)度下實(shí)驗(yàn)結(jié)果
詞語(yǔ)之間的上下文關(guān)系影響CRFs模型對(duì)情感要素的識(shí)別,本文設(shè)置不同上下文窗口長(zhǎng)度進(jìn)行實(shí)驗(yàn),結(jié)果如表2所示.當(dāng)上下文窗口長(zhǎng)度為7時(shí),識(shí)別效果最佳,也即詞語(yǔ)的上下文語(yǔ)境信息在詞語(yǔ)前后3個(gè)詞范圍內(nèi),區(qū)別于長(zhǎng)篇文本的語(yǔ)境范圍,評(píng)論文本自身帶有用戶典型的口語(yǔ)化表達(dá)習(xí)慣,情感表達(dá)簡(jiǎn)單直接.本文后續(xù)實(shí)驗(yàn)均選用窗口長(zhǎng)度為7的特征模板,避免窗口長(zhǎng)度過(guò)大造成特征冗余和窗口長(zhǎng)度過(guò)小造成上下文依賴不足.
3.3 訓(xùn)練語(yǔ)料規(guī)模的影響
本實(shí)驗(yàn)準(zhǔn)備了5組手機(jī)領(lǐng)域的數(shù)據(jù),依次增加訓(xùn)練集的大小,其余參數(shù)保持不變,訓(xùn)練集大小分別為200、500、1 000、2 000、4 000,實(shí)驗(yàn)結(jié)果如圖1所示.由實(shí)驗(yàn)結(jié)果可知,數(shù)據(jù)集越大,訓(xùn)練語(yǔ)料中包含的情感要素模式也就越多,口語(yǔ)化表達(dá)也越多,情感要素的抽取效果越好.隨著數(shù)據(jù)集增大一定程度后,準(zhǔn)確率和召回率的增長(zhǎng)速度減緩.
表2 上下文窗口長(zhǎng)度實(shí)驗(yàn)結(jié)果
圖1 訓(xùn)練集大小實(shí)驗(yàn)結(jié)果圖Fig.1 Influence of training corpus size
3.4 情感要素抽取實(shí)驗(yàn)結(jié)果
情感要素抽取結(jié)果如表3所示,本實(shí)驗(yàn)分別在手機(jī)和電腦兩個(gè)領(lǐng)域各4 000條訓(xùn)練集上進(jìn)行實(shí)驗(yàn).由實(shí)驗(yàn)結(jié)果可知,在手機(jī)和電腦兩個(gè)領(lǐng)域的情感要素抽取準(zhǔn)確率都比較高,召回率偏低,主要是因?yàn)樵u(píng)論語(yǔ)料中包含很多不規(guī)范的口語(yǔ)化表達(dá),情感詞語(yǔ)表達(dá)比較隨意,相對(duì)正規(guī)表達(dá)的情感要素來(lái)說(shuō)抽取困難;對(duì)比手機(jī)和電腦兩個(gè)領(lǐng)域的實(shí)驗(yàn)結(jié)果可看出,手機(jī)領(lǐng)域的抽取結(jié)果優(yōu)于電腦領(lǐng)域的抽取結(jié)果,這主要是因?yàn)殡娔X產(chǎn)品部件多,操作系統(tǒng)硬件軟件等包含更多配件縮寫(xiě)變形的口語(yǔ)表達(dá).
表3 情感要素抽取實(shí)驗(yàn)結(jié)果
3.5 傳統(tǒng)方法對(duì)比
由表4實(shí)驗(yàn)結(jié)果看出,本文方法在添加情感歧義詞搭配詞典后,實(shí)驗(yàn)結(jié)果在準(zhǔn)確率和召回率上都有一定提高,原因在于通過(guò)搭配詞典能夠根據(jù)上下文詞語(yǔ)搭配,確定情感歧義詞的動(dòng)態(tài)情感極性;召回率仍然較低,主要原因是評(píng)論文本中一部分隱式評(píng)價(jià)對(duì)象的情感流失,還有一部分不包含情感詞但包含表達(dá)情感傾向的句子,需要進(jìn)行語(yǔ)義理解分析情感.
表4 與傳統(tǒng)方法對(duì)比實(shí)驗(yàn)
情感詞動(dòng)態(tài)極性的確定對(duì)文本傾向性分析具有很大意義,本文基于上下文詞語(yǔ)搭配的語(yǔ)境信息角度,構(gòu)建不同類(lèi)型情感歧義詞的搭配詞典,在CRFs上監(jiān)督訓(xùn)練標(biāo)注情感要素,通過(guò)否定詞和程度副詞的依賴搭配計(jì)算情感影響因子,基于情感詞典計(jì)算各產(chǎn)品屬性對(duì)應(yīng)的正負(fù)向情感強(qiáng)度值,完成特征級(jí)別的細(xì)粒度情感分析.通過(guò)實(shí)驗(yàn)結(jié)果分析可得本文方法是可行的,具有一定的研究意義.下一步將研究各不同領(lǐng)域產(chǎn)品評(píng)論專有領(lǐng)域詞典和隱式評(píng)價(jià)對(duì)象抽取問(wèn)題,提高細(xì)粒度情感分析的準(zhǔn)確率.
[1] 趙妍妍,秦兵,劉挺. 文本情感分析[J].軟件學(xué)報(bào),2010,21(8):1834-1848.
[2] 郭沖,王振宇.面向細(xì)粒度意見(jiàn)挖掘的情感本體樹(shù)及自動(dòng)構(gòu)建[J].中文信息學(xué)報(bào),2013,27(5):75-83.
[3] HU M,LIU B.Mining and summarizing customer reviews [C] // Tenth Acm Sigkdd International Conference on Knowledge Discovery & Data Mining.New York,2004:168-177.
[4] QI L,CHEN L.A linear-chain CRF-based learning approach for web opinion mining[C].Proceedings of the 11th international conference on Web information systems engineering.Hong Kong,2010:128-141.
[5] 王素格,吳蘇紅.基于依存關(guān)系的旅游景點(diǎn)評(píng)論的特征-觀點(diǎn)對(duì)抽取[J].中文信息學(xué)報(bào),2012,26(3):116-121.
[6] 徐冰,趙鐵軍,王山雨,等.基于淺層句法特征的評(píng)價(jià)對(duì)象抽取研究[J].自動(dòng)化學(xué)報(bào),2011,37(10):1241-1247.
[7] 戴敏,王榮洋,李壽山,等.基于句法特征的評(píng)價(jià)對(duì)象抽取方法研究[J].中文信息學(xué)報(bào),2014,28(4):92-97.
[8] 姚天昉,聶青陽(yáng),李建超,等.一個(gè)用于漢語(yǔ)汽車(chē)評(píng)論的意見(jiàn)挖掘系統(tǒng)[C]//中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議.北京,2006:260-281.
[9] 劉麗珍,趙新蕾,王函石.基于產(chǎn)品特征的領(lǐng)域情感本體構(gòu)建[J].北京理工大學(xué)學(xué)報(bào),2015,35(5):538-544.
[10]宋艷雪,張紹武,林鴻飛.基于語(yǔ)境歧義詞的句子情感傾向性分析[J].中文信息學(xué)報(bào),2012,26(3):38-43.
[11]LAFFERTY J,MCCALLUM A,PEREIRA F.Conditional random fields: probabilistic models for segmenting and labeling sequence data [C]//Proceedings of the 18th International Conference on Machine Learning (ICML 2001).San Francisco,2001:282-289.
(責(zé)任編輯:王海科)
Sentiment Analysis of Comments Based on Contextual Emotional Disambiguation
CAI Xiaohong1,2, LIU Peiyu1,2, WANG Zhihao1,2
(1.SchoolofInformationScienceandEngineering,ShandongNormalUniversity,Ji′nan250014,China; 2.ShandongProvincialKeyLaboratoryforDistributedComputerSoftwareNovelTechnology,Ji′nan250014,China)
The problem of dynamic polarity change in sentiment analysis was studied. Apriori algorithm was used to expand the sentiment ambiguous words based on context, and constructed the sentiment ambiguous lexicon of triples (namely sentiment object, sentiment word, sentiment polarity). CRFs was used to extracted sentiment elements from comments. Finally, the completed fine-grained sentiment analysis based on the sentiment ambiguous lexicon was conducted. Multiple sets of experiments were performed on two domains of mobile phones and computers. Compared with the traditional method, the experimental results showed the feasibility of the proposed method and the improved accuracy of sentiment analysis.
sentiment ambiguous words; CRFs; context; fine-grained; sentiment elements
2016-10-28
國(guó)家自然科學(xué)基金項(xiàng)目(61373148);山東省科技發(fā)展計(jì)劃項(xiàng)目(2014GGX101004).
蔡肖紅(1989—),女,山東泰安人,碩士研究生,主要從事文本情感分析研究,E-mail:xhcai_nlp@126.com;通訊作者:劉培玉(1960—),男,山東濰坊人,教授,主要從事網(wǎng)絡(luò)信息安全、自然語(yǔ)言處理研究,E-mail:lpynlp@163.com.
TP391.1
A
1671-6841(2017)02-0048-06
10.13705/j.issn.1671-6841.2016305