顏明陽(yáng) 閆國(guó)梁 李明蘭
1(濟(jì)寧學(xué)院初等教育學(xué)院 山東 曲阜 273100) 2(中訊郵電咨詢?cè)O(shè)計(jì)院有限公司 北京 100000) 3(青島大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院 山東 青島 266071)
Relevant features
情感是一個(gè)會(huì)影響人的推理、決策制定和交互的重要因素,雖然情感具有主觀性,但會(huì)以可推斷的客觀方式出現(xiàn)在文本中。情感分析[1]涉及到自然語言表達(dá)的計(jì)算研究,以識(shí)別語言表達(dá)與不同情感(如憤怒、恐懼、悲傷和驚訝等)之間的關(guān)聯(lián)[2]。
情緒分析廣泛應(yīng)用于量化和分類用戶在文本中所表達(dá)的意見傾向[3]。如Vytal等[4]在心理學(xué)文章中提出了情感理論,同時(shí)還提出了兩種情感建模方法,及一些情感分類的特征表示。龔安等[5]提出一種針對(duì)評(píng)論文本的多特征融合的情感分類算法。該方法能讓機(jī)器學(xué)習(xí)算法更加充分地利用規(guī)則特征,獲得更好的分類性能、進(jìn)一步提高分類精度。Dash等[6]設(shè)計(jì)了例如n-gram位置特征和詞性(Part of Speech, POS)標(biāo)注特征,以擴(kuò)充用于微博情感分類的通用n-gram。對(duì)于微博的情感分類,Milani等[7]證明與基于GPEL的特征相比,基于DSED的特征利用逐點(diǎn)互信息(Point-by-point Mutual Information, PMI)能夠在n-grams上提供顯著收益,但是使用DSED的特征提取的研究被局限在二元分類計(jì)數(shù)的范圍內(nèi)。李向前等[8]對(duì)商品評(píng)論進(jìn)行情感分析,得到某件商品各個(gè)方面的優(yōu)劣情況,從而提出利用三層CRF模型進(jìn)行情感極性分類及強(qiáng)度分析,融合了詞、詞性、語氣詞、程度詞和評(píng)價(jià)詞的共現(xiàn)等特征。此外,監(jiān)督式LDA[9](sLDA)能提供更準(zhǔn)確的分類建模和詞典生成方式,該方法可以將情感分類作為主題進(jìn)行建模。
現(xiàn)有的通用情感詞典(General Purpose Emotion Lexicons, GPEL)通過人工操作將Ekman和Plutchik提出的情感類別與詞語關(guān)聯(lián)在一起,但是GPEL對(duì)傳達(dá)情感的詞語所在的上下文背景的建模較差。近期的情感分析研究關(guān)注于在特定領(lǐng)域上學(xué)習(xí)的詞典[10],以及利用此類詞典進(jìn)行特征提取。然而,情感特征提取[11]局限為使用詞典對(duì)文檔中的情感詞進(jìn)行簡(jiǎn)單計(jì)數(shù),這個(gè)方法很簡(jiǎn)單,但未能全面利用詞典知識(shí)。
本文擴(kuò)展了領(lǐng)域特定情感詞典(Domain Specific Emotion Dictionary, DSED)的生成方法,以進(jìn)行特征提取。所提方法在特征提取中使用了DSED提供的知識(shí),而非簡(jiǎn)單的詞語計(jì)數(shù)。提出的特征提取方法利用DSED捕捉到情感豐富的知識(shí),使用機(jī)器學(xué)習(xí)提取特征將文本分入不同的情感類別。在基準(zhǔn)情感分類數(shù)據(jù)集上,對(duì)本文方法提取出的情感特征的有效性進(jìn)行了比較分析和評(píng)價(jià)。
本文用于情感分類的特征提取過程如圖1所示。可以看出,所提方法利用在訓(xùn)練文檔上學(xué)習(xí)到的DSED知識(shí),提取出基于詞典的特征。詞性標(biāo)注、情緒詞典和GPEL作為提取情感分類相關(guān)特征的外部資源。
圖1 特征提取和情感分類器學(xué)習(xí)
一個(gè)GPEL可表示為L(zhǎng)ex(w,j),是每個(gè)情感類別的一個(gè)詞語列表:
(1)
式中:List(ej)表示與GPEL中第j個(gè)情感相對(duì)應(yīng)的詞語列表。與GPEL不同,DSED將詞匯表V中的詞語與一組預(yù)定義的情緒E間的關(guān)聯(lián)進(jìn)行量化。對(duì)于任何一個(gè)給定的詞w,通過詞典計(jì)算出該詞語所表達(dá)的主導(dǎo)情感e:
(2)
本文使用生成的一元混合模型(UMM)對(duì)詞語的情感性和中立性進(jìn)行聯(lián)合建模,從情感標(biāo)簽文件的語料庫(kù)中習(xí)得DSED。對(duì)包含情感的詞語和情感中立(背景)詞語混合在一起的真實(shí)情感數(shù)據(jù)進(jìn)行建模。所提生成模型通過式(3)的形式,來描述隱含著情感et的文檔生成:
(Zw)(1-λet)P(w|N)]c(w,di)
(3)
式中:θet為情感語言模型;N為背景語言模型;λet為混合參數(shù);Zw為二元隱藏變量,表示生成詞語w的語言模型(θet或N);c(w,di)表示詞w在文件di中的出現(xiàn)次數(shù)。
使用期望最大化(Expectation Maximization, EM)完成對(duì)參數(shù)θet和Z的估計(jì),EM通過在E-步驟和M-步驟之間交替迭代地對(duì)整個(gè)數(shù)據(jù)(Det,Z)進(jìn)行最大化。E-步驟和M-步驟分別如下:
E-步驟:
(4)
M-步驟:
(5)
式中:n表示EM迭代次數(shù)。EM用于估計(jì)與E中的情緒對(duì)應(yīng)的k個(gè)混合模型參數(shù)。通過使用k個(gè)情感語言模型和背景模型N,習(xí)得情感詞典UMMlex:
(6)
(7)
式中:k為語料庫(kù)中的情感數(shù)量;UMMlex是一個(gè)|V|×(k+1)矩陣。所提UMM詞典的一個(gè)樣例如表1所示??梢钥吹剑菢?biāo)準(zhǔn)的創(chuàng)造性表達(dá)在社交媒體上被廣泛用于傳達(dá)情感。此類表達(dá)常會(huì)加強(qiáng)文本的情感性。對(duì)這樣的表達(dá)進(jìn)行建模,對(duì)于社交媒體情感分析來說至關(guān)重要。因此,在文本預(yù)處理階段,情感符號(hào)(如“:)”)和序連表示(如“好的?。 ?被標(biāo)記為單個(gè)詞語,以捕捉其與不同情感之間的關(guān)聯(lián)。
表1 UMM詞語-情感詞典的樣例
本文所有基于詞典的特征向量長(zhǎng)度均為|E|,|E|表示一個(gè)數(shù)據(jù)集中情感類別的數(shù)量。本文考慮以下文檔表示的特征:
(1) 情緒總計(jì)數(shù)[7](TEC):該特征捕捉一個(gè)文檔中與某種情緒相關(guān)聯(lián)的詞語數(shù)量。給定一個(gè)文檔d,其對(duì)應(yīng)的特征向量表示為dTEC,則第j個(gè)情感的特征值計(jì)算如下:
(8)
式中:I(·)是一個(gè)指標(biāo)函數(shù),當(dāng)論證為真時(shí),值為1,為假時(shí),值為0;count(w,d)表示文檔d中詞語w的出現(xiàn)次數(shù)。TEC表示對(duì)詞典指示出的一個(gè)詞流行情感語境進(jìn)行捕捉。然而,并不是所有詞都只關(guān)聯(lián)到單個(gè)情感。因此,有必要開發(fā)出能夠體現(xiàn)一個(gè)詞語與多個(gè)情感間關(guān)系的特征。
(2) 情緒總強(qiáng)度(TEI):文檔中詞語的情感強(qiáng)度得分之和,本文使用DSED給出的詞語級(jí)情感強(qiáng)度得分,以捕捉沿著多個(gè)情感概念的文檔情感走向。假設(shè)dTEI是與文檔d相對(duì)應(yīng)的特征向量,第j個(gè)情感的特征值計(jì)算為:
(9)
(3) 最大情感強(qiáng)度(MEI):情緒分析研究表明,情緒色彩較強(qiáng)的術(shù)語可以明顯表明文檔的情緒分類。因此,本文考慮了給定文檔中情感色彩強(qiáng)烈的強(qiáng)度得分。具體如下:給定一個(gè)文檔d,及其相應(yīng)的特征向量dMEI,則第j個(gè)情感的特征強(qiáng)度值計(jì)算為:
(10)
(4) 分級(jí)情感計(jì)數(shù)[12](GEC):本文通過開發(fā)TEC和TEI的變體,對(duì)利用高強(qiáng)度情感詞語提取文檔表示特征的理念進(jìn)行了擴(kuò)展。由于本文的DSED對(duì)每個(gè)詞語和情緒集合間的關(guān)聯(lián)以概率分布的形式進(jìn)行了量化,因此強(qiáng)度得分將始終處于區(qū)間[0,1]中。本文將該區(qū)間分為4個(gè)分區(qū)間,分別為[0,0.25)、[0.25,0.5)、[0.5,0.75)和[0.75,1]。使用上述三個(gè)閾值從DSED中提取出GEC特征。給定一個(gè)文檔d,及其相應(yīng)的特征向量dTEC,則第j個(gè)情緒的特征值計(jì)算為:
(11)
(5) 分級(jí)情感強(qiáng)度(GEI):本文開發(fā)了TEI的變體即GEI,是一個(gè)文檔中超過了閾值δ的詞語強(qiáng)度得分之和。給定一個(gè)文檔d,及其相應(yīng)的特征向量dGEI,第j個(gè)情感的特征值計(jì)算為:
(12)
在提升情感分類性能時(shí)本文考慮以下特征:
1) n-grams(n=1):在不同的分類任務(wù),包括情緒分類中使用最標(biāo)準(zhǔn)的語料庫(kù)級(jí)特征[13]。本文使用二元加權(quán)(存在/不存在)以構(gòu)建特征向量,其有效性已經(jīng)在文獻(xiàn)[13]中得到了驗(yàn)證。
2) 詞性(POS)特征:利用該特征對(duì)動(dòng)詞、副詞、名詞和形容詞在文檔中的出現(xiàn)進(jìn)行建模,使用標(biāo)準(zhǔn)POS標(biāo)注器完成非社交媒體數(shù)據(jù)集上的詞性標(biāo)注,同時(shí)使用微博NPL工具進(jìn)行社交媒體數(shù)據(jù)集的詞性標(biāo)注。
3) 上下文特征(CF):雖然標(biāo)準(zhǔn)詞語能夠傳達(dá)作者的情感傾向,但額外的表達(dá),例如標(biāo)點(diǎn)符號(hào)和情感符號(hào)在社交媒體上經(jīng)常被用于表達(dá)情感[14]。此外,包含情緒的詞語可以表示文本中的情感,并將文本的情感走向從正面情感(例如快樂)轉(zhuǎn)變?yōu)樨?fù)面情感(例如悲傷),反之亦然。因此上下文特征也是一個(gè)非常重要的特征,具體涵蓋以下要素:
(1) 大寫單詞:該特征對(duì)文檔中所有帶大寫字符的詞語進(jìn)行計(jì)數(shù)。
(2) 拉長(zhǎng)詞:該特征對(duì)帶有兩次、三次或四次重復(fù)字符的詞語進(jìn)行計(jì)數(shù)。例如單詞“haaappy”。
(3) 標(biāo)點(diǎn):社交媒體上使用感嘆號(hào)或問號(hào)會(huì)增強(qiáng)情感。本文加入了對(duì)文檔中問號(hào)和感嘆號(hào)的出現(xiàn)進(jìn)行建模的兩個(gè)特征。
(4) 情感符號(hào):情感符號(hào)是捕捉到的面部表情的圖像形式,且在社交媒體上常被用于情感傳達(dá)。為此,本文設(shè)計(jì)了一個(gè)二元特征,對(duì)文檔中情感符號(hào)的存在/不存在進(jìn)行建模。
(5) 否定詞:雖然在情感分類中否定詞的作用尚未得到大量研究,但因?yàn)槠湓谇榫w分類中有一定作用,本文納入了一個(gè)特征,對(duì)文檔中否定詞的出現(xiàn)進(jìn)行建模。
所提方法利用在訓(xùn)練文檔上學(xué)習(xí)到的DSED知識(shí),提取出基于詞典的特征。詞性標(biāo)注、情緒詞典和GPEL作為提取情感分類相關(guān)特征的外部資源。實(shí)驗(yàn)中的“領(lǐng)域特定”指的是新聞標(biāo)題、微博、博客3個(gè)方向領(lǐng)域。
3.1.1新聞標(biāo)題數(shù)據(jù)集(SemEval-2007)
該數(shù)據(jù)集中包含1 250條具有情感類別的新聞標(biāo)題,用于評(píng)價(jià)情感和詞匯語義間的聯(lián)系。每個(gè)標(biāo)題均給出了Ekman基本情感的情感評(píng)分,得分區(qū)間是[-100,100]。將每個(gè)標(biāo)題得分最高的情感作為類標(biāo)簽,以此對(duì)該數(shù)據(jù)集進(jìn)行情感分類。訓(xùn)練集和測(cè)試集中不同情感類別的分布如表2所示。該數(shù)據(jù)集相對(duì)較小,類別分布較為不平衡。該數(shù)據(jù)集可適用于多種情感分類方法的研究,且數(shù)據(jù)集易于擴(kuò)展,貼近實(shí)時(shí)消息。
表2 新聞標(biāo)題的情感數(shù)據(jù)集
3.1.2微博數(shù)據(jù)集
本文使用文獻(xiàn)[15]所提的微博識(shí)別方法,從微博搜索API中采集了280 000條情感性微博作為微博數(shù)據(jù)集。本文使用該數(shù)據(jù)集進(jìn)行情感分類時(shí),進(jìn)行10次交叉驗(yàn)證。表3給出了不同情感類別在10次驗(yàn)證后的平均分布情況??梢钥闯?,該數(shù)據(jù)集相對(duì)較大,情感分布并不均衡。例如,與恐懼、驚訝相比,快樂、悲傷等情感的占比更多。不同文檔表征在這個(gè)分類不均衡的數(shù)據(jù)集上的性能表現(xiàn)是很有研究?jī)r(jià)值的。
表3 微博情感數(shù)據(jù)集
3.1.3博客數(shù)據(jù)集
博客數(shù)據(jù)集中包含3個(gè)注釋者以Ekman基本情感[16]進(jìn)行注釋后的5 500個(gè)博客語句。注釋者之間平均共識(shí)率約為0.76。表4給出了5次驗(yàn)證后不同情感類別的平均分布??梢钥闯?,“快樂”情感在該數(shù)據(jù)集中占比極高,數(shù)據(jù)集規(guī)模較小。因此對(duì)于占比較小的情感例如恐懼和驚訝等的建模是有挑戰(zhàn)性的。該數(shù)據(jù)集可用于研究占比較小的情感建模。
表4 博客情感數(shù)據(jù)集
在比較研究中,本文使用了以下文檔表征:
(1) 基準(zhǔn)情感特征;
(2) 使用基準(zhǔn)GPEL提取出的TEC特征;
(3) 使用PMI[7]、CRF[8]和sLDA[9]生成的基準(zhǔn)DSED中提取出的TEC、TEI、MEI、GEI和GEC特征;
(4) 使用本文所提的DSED提取出的TEC、TEI、GEI和GEC特征;
(5) 通過結(jié)合性能最優(yōu)的基線特征和基于詞典的特征得到混合特征。
本文在所有情感分類實(shí)驗(yàn)中均使用了一個(gè)多類別SVM分類器,采用的是線性SVM。不同于RBF核的SVM,線性SVM機(jī)只需要調(diào)節(jié)正則化參數(shù)C,起始范圍設(shè)為[0.1,10],根據(jù)模型表現(xiàn),細(xì)化搜索區(qū)間。對(duì)于本文,正則化參數(shù)C的值設(shè)為3.6較為合適。
在所有情感分類任務(wù)中,使用F1-得分度量和準(zhǔn)確率進(jìn)行性能評(píng)價(jià)。
3.3.1基線特征的性能
本文從n-grams開始并遞增式地加入特征組(例如POS)完成基線特征的情感分類實(shí)驗(yàn)。基線特征在4個(gè)基準(zhǔn)數(shù)據(jù)集上得到的結(jié)果如表5和表6所示??梢钥闯觯琻-grams與詞性(POS)特征的結(jié)合未能顯著提升分類性能;POS特征的低效性表明,情感以更隱性的方式表達(dá)。
表5 基線特征在不同數(shù)據(jù)集上的F1得分(%)
表6 基線特征在不同數(shù)據(jù)集上的準(zhǔn)確率(%)
n-grams與上下文特征結(jié)合時(shí),性能優(yōu)于n-grams與POS特征的結(jié)合。但這一結(jié)合的分類性能并非始終優(yōu)于只使用n-grams的情感分類性能。這表明,否定詞等實(shí)體的簡(jiǎn)單計(jì)數(shù)不能直接擴(kuò)展到情感分類任務(wù)中,這也證明了語料庫(kù)特征的局限性。
3.3.2基于詞典的特征性能
圖2-圖4分別給出了使用基于詞典的特征在SemEval-07、微博和博客數(shù)據(jù)集上的情感分類結(jié)果??梢钥闯?,從DSED提取出的特征顯著優(yōu)于使用GPEL提取出的特征。TEI和MEI特征始終優(yōu)于GEI和GEC特征。該結(jié)果符合預(yù)期,因?yàn)镚EI和GEC特征僅利用來自DSED的高強(qiáng)度情感詞語,導(dǎo)致覆蓋率下降。在使用GEI、GEC特征的所有數(shù)據(jù)集上,當(dāng)閾值從δ1至δ2再至δ3增加時(shí),得到性能退化的總體趨勢(shì)。使用sLDA[9]和CRF[8]的生成性模型不能有效對(duì)真實(shí)世界情感數(shù)據(jù)的特點(diǎn)進(jìn)行建模,影響了提取出的特征質(zhì)量。雖然在基線方法中PMI[7]性能最優(yōu),但所提的DSED能夠有效捕捉詞語和多個(gè)情感之間的關(guān)聯(lián),提升文本的特征提取的質(zhì)量,且能夠在情感詞語和中立詞語之間進(jìn)行區(qū)分,提升使用詞典知識(shí)提取特征的質(zhì)量。
圖2 在SemEval-07數(shù)據(jù)集上的總體性能
圖3 在微博數(shù)據(jù)集上的總體性能
圖4 在博客數(shù)據(jù)集上的總體性能
3.3.3混合特征性能
混合特征向量是通過結(jié)合K維基線特征向量和E維基于詞典的特征向量得到的K+E維特征向量。本文對(duì)基線特征和基于詞典的特征相結(jié)合的混合特征進(jìn)行實(shí)驗(yàn)。以博客數(shù)據(jù)集為例,表7和表8分別給出了使用混合特征情感分類結(jié)果的F1得分和準(zhǔn)確率。可以看出,本文所提的UMM詞典推導(dǎo)出的特征,在結(jié)合n-grams后,總體上性能優(yōu)于僅使用n-grams特征,以及其他的混合特征。此外,博客數(shù)據(jù)集上驚訝和悲傷情感的分類性能顯著優(yōu)于僅使用n-gram特征,總體F1得分和準(zhǔn)確率也較高。這說明了高質(zhì)量詞典能夠?yàn)闄C(jī)器學(xué)習(xí)分類器提供有效知識(shí),從而近距離捕捉該領(lǐng)域的情感上下文。
表7 混合式特征情感分類的F1得分(%)
表8 混合式特征情感分類的準(zhǔn)確率(%)
本文使用領(lǐng)域特定詞典和通用情感詞典對(duì)情感特征提取問題進(jìn)行了研究。所提方法在特征提取中使用了DSED提供的知識(shí),而非簡(jiǎn)單的詞語計(jì)數(shù)。應(yīng)用了一元語法混合模型,量化情感性詞語和中立性詞語,提取情感特征。實(shí)驗(yàn)結(jié)果表明所提DSED知識(shí)提取出的特征顯著優(yōu)于從GPEL提取出的特征。此外,所提的特征與現(xiàn)有特征的混合性能顯著優(yōu)于n-gram特征,以及n-gram與基于詞性信息等相結(jié)合的混合特征。
高質(zhì)量詞典能夠?yàn)闄C(jī)器學(xué)習(xí)的分類器提供有效知識(shí),從而更好地捕捉情感上下文。因此,未來本文將進(jìn)一步研究DSED的優(yōu)化形式。另外,本文還將利用所提DSED知識(shí),開發(fā)用于分析社交論壇(如校園BBS、豆瓣等)中用戶的情感簽名的分類系統(tǒng),預(yù)測(cè)用戶潛在情感。