李楓林,范雅嫻(武漢大學(xué)信息管理學(xué)院)
情感詞典一般是帶有情感色彩的詞或詞組及其相對應(yīng)情感極性或強(qiáng)度的集合,如,表示積極態(tài)度正向情感詞開心、幸福、漂亮等,表示否定或者消極態(tài)度的負(fù)向情感詞傷心、難看、害怕等。在文本情感分析中,情感詞典不僅可以取代人工對大規(guī)模文本進(jìn)行自動情感標(biāo)注,[1-2]提高分詞效率,還可以結(jié)合一系列語義規(guī)則或機(jī)器學(xué)習(xí)算法進(jìn)行文本情感分析,[3]領(lǐng)域情感詞典更是在其中發(fā)揮著極其重要的作用。
情感詞典按照應(yīng)用范圍可以劃分為通用情感詞典和領(lǐng)域情感詞典。通用情感詞典能夠涵蓋大部分語料中的情感詞,可以用來對任一領(lǐng)域的文本語料進(jìn)行分析,大多是根據(jù)詞間關(guān)系(如同、反義關(guān)系)依賴于已有的開源情感詞典進(jìn)行構(gòu)建。Hu等采用此方法對網(wǎng)上銷售產(chǎn)品的客戶評論的情感傾向進(jìn)行分析,他們先找到出現(xiàn)頻率較多的產(chǎn)品特征,圍繞產(chǎn)品特征找到用來表達(dá)意見的相關(guān)情感詞,再經(jīng)過人工構(gòu)建正、負(fù)向兩個情感種子集合,利用WordNet判斷新詞情感極性,通過循環(huán)迭代得到(最終完整的情感詞典。[4]Kamps等利用WordNet構(gòu)建了一個同義詞網(wǎng)絡(luò),針對某一形容詞,通過計算該詞與“good”和“bad”之間的語義距離即迭代次數(shù)判斷該詞的情感極性。[5]Andreevskaia等則將詞典中詞的釋義看做是已被標(biāo)注極性的語料庫,通過遍歷種子詞的釋義并識別其中的情感詞來擴(kuò)充正、負(fù)種子詞集,構(gòu)建通用情感詞典。[6]
在構(gòu)建方面,通用情感詞典通常僅根據(jù)詞義關(guān)系進(jìn)行擴(kuò)展,在一系列的迭代過程中,由于詞與詞之間的關(guān)系錯綜復(fù)雜,所構(gòu)建的詞典往往準(zhǔn)確率不高,需要人工進(jìn)行篩選審查,費(fèi)時費(fèi)力。在應(yīng)用方面,一方面,由于在不同領(lǐng)域中存在一詞多義的現(xiàn)象,導(dǎo)致通用情感詞典在某一特定領(lǐng)域中的情感分類準(zhǔn)確度不高;另一方面,在通用情感詞典中,并未收錄時下的一些新詞或流行詞匯,在用于社交網(wǎng)絡(luò)情感分析任務(wù)時,可能無法準(zhǔn)確判斷情感極性。因此,構(gòu)建一個全面的領(lǐng)域情感詞典以辨析特定領(lǐng)域情感的性能至關(guān)重要。
領(lǐng)域情感詞典是指利用某一特定領(lǐng)域的大量語料所構(gòu)建的情感詞典,用來對這一領(lǐng)域的文本語料進(jìn)行分析。目前,在文本分析方面的研究都是針對某一特定領(lǐng)域的語料如微博、商品評論等進(jìn)行情感分析,與通用情感詞典相比,領(lǐng)域情感詞典在用于特定領(lǐng)域的具體情感分析任務(wù)中精確度更高,總體更具實(shí)用性。本文對領(lǐng)域情感詞典構(gòu)建的實(shí)現(xiàn)技術(shù)或方法進(jìn)行分析,指出每種方法的優(yōu)缺點(diǎn),總結(jié)了所構(gòu)建情感詞典的性能評估方法,為領(lǐng)域情感詞典的構(gòu)建方法研究提供借鑒,為后續(xù)情感分析研究提供良好的基礎(chǔ)。
領(lǐng)域情感詞典大多依賴語料庫進(jìn)行構(gòu)建,針對某一領(lǐng)域更具實(shí)用性,本文將領(lǐng)域情感詞典的構(gòu)建方法歸納為基于統(tǒng)計的方法、基于關(guān)系圖傳播的方法、基于詞向量的方法等。
基于統(tǒng)計的方法主要是利用一些統(tǒng)計信息(如詞頻等),或者借助統(tǒng)計思想(假設(shè)檢驗(yàn))來構(gòu)建情感詞典。本文將基于統(tǒng)計的方法歸納為兩種:基于PMI情感傾向的情感傾向點(diǎn)互信息法和基于卡方統(tǒng)計量的方法。
2.1.1 基于PMI的情感傾向點(diǎn)互信息法
點(diǎn)間互信息(PMI)主要用于計算詞語間的語義相似度,基本思想是統(tǒng)計兩個詞語在文本中同時出現(xiàn)的概率,如果概率越大,其相關(guān)性就越緊密,關(guān)聯(lián)度越高。[7]兩個詞語word1與word2的PMI值計算公式如下式所示。
P(word1&word2)表示兩個詞語 word1與 word2共同出現(xiàn)的概率,P(word1)與P(word2)分別表示兩個詞語單獨(dú)出現(xiàn)的概率,若兩個詞語在數(shù)據(jù)集的某個小范圍內(nèi)共現(xiàn)概率越大,表明其關(guān)聯(lián)度越大;反之,關(guān)聯(lián)度越小。
情感傾向點(diǎn)互信息算法(SO-PMI)是將PMI方法引入計算詞語的情感傾向中,從而達(dá)到捕獲情感詞的目的,[8]其計算公式如下式所示。
其中,word1是未確定情感極性的情感詞,Pword和Nword為正負(fù)情感種子詞。最終差值大于某一閾值時,word1為正面情感詞;反之則為負(fù)面情感詞,從而據(jù)此判斷情感詞的情感極性,得到情感詞的情感強(qiáng)度。
在英文微博領(lǐng)域情感詞典的構(gòu)建中,Mohammad等提出將表情符號作為情感標(biāo)簽,通過在單詞和表情符號之間計算點(diǎn)相互信息(PMI)來收集情緒詞匯,計算SO-PMI值作為詞的情感值。[9]趙妍妍等基于海量的微博數(shù)據(jù),人工選取表情符作為情感種子,選取unigram、bigram、trigram作為候選情感詞語,同樣利用PMI計算候選詞與表情符間相關(guān)性,用SO-PMI計算候選詞情感傾向,構(gòu)建了一個十萬詞語/詞組的大規(guī)模情感詞典。[10]
基于PMI的情感傾向點(diǎn)互信息法主要是依據(jù)統(tǒng)計思想來度量詞與詞之間的相關(guān)性,進(jìn)而確定某個詞的情感極性及強(qiáng)度,方法對于大多數(shù)的語料是通用的。然而,這種方法只是統(tǒng)計詞語共同出現(xiàn)的頻率,并沒有考慮語句間的邏輯關(guān)系,如“這本書內(nèi)容挺好的,但是拿著太重了”,若未考慮句中的轉(zhuǎn)折關(guān)系,在判斷“好”和“重”的情感極性時就會出錯,認(rèn)為極性一致。還有“這本書內(nèi)容挺好的,而且一點(diǎn)都不重”,未考慮情感詞前的否定詞,反而會把“好”和“重”劃分為同一極性。另外,此種方法構(gòu)建情感詞典需事先指定情感種子詞集,并且只適用于正、負(fù)兩類情感類別詞典的構(gòu)建。
2.1.2 基于卡方統(tǒng)計量的方法
卡方統(tǒng)計量在構(gòu)建情感詞典時,與PMI作用有所不同,往往用來計算情感詞與某一特定情感類別之間的相關(guān)性??ǚ浇y(tǒng)計量越大,相關(guān)性越強(qiáng);卡方統(tǒng)計量越小,相關(guān)性越弱。檢驗(yàn)情感詞wi與某類情感cj的相關(guān)性計算公式如下式所示:
其中,N表示語料庫中句子的總數(shù)量;Aij表示情感類別cj中包含情感詞wi的句子數(shù)量;Bij表示包含情感詞wi但不屬于情感類別cj中的句子數(shù)量;Cij表示情感類別cj中不包含情感詞wi的句子數(shù)量;Dij表示不包含情感詞wi且不屬于情感類別cj中的句子數(shù)量。
在情感詞典的構(gòu)建中,卡方統(tǒng)計值可以計算出情感詞與特定情感類別之間的相關(guān)性,從而判斷情感詞的正負(fù)極性或情感類別。桂斌等通過識別微博表情符號,從微博平臺中抓取大量帶有表情符號的微博文本,并依據(jù)表情符號對微博文本進(jìn)行情感傾向標(biāo)注,生成情感語料庫。對語料庫分詞處理,得到候選情感詞,統(tǒng)計每個情感詞在正向和負(fù)向語料庫中出現(xiàn)的次數(shù),計算情感詞的卡方統(tǒng)計量,得到詞與正向微博個數(shù)的相關(guān)性,從而獲得情感強(qiáng)度,再根據(jù)情感詞在正負(fù)微博文本中出現(xiàn)的概率判定情感詞的傾向性,進(jìn)而生成情感詞典。[11]
卡方統(tǒng)計量不僅可以用于計算情感詞與正、負(fù)二元情感類別的相關(guān)性,也可以用于計算與多元情感類別之間的相關(guān)性。如王名揚(yáng)等以大連理工大學(xué)本題庫中的高興、喜好、憤怒、悲傷、恐懼、厭惡、驚訝作為七個情感類別。以表情符號作為情感標(biāo)簽,將微博語料中只包含一種表情符號的句子對應(yīng)到特定的情感類別中進(jìn)行預(yù)處理,分詞得到候選情感詞。通過計算候選情感詞與七個情感類別的卡方統(tǒng)計量、情感覆蓋度Qcij以及累積覆蓋度 Qcj,將累積覆蓋度Qcj達(dá)到90%的候選情感詞加入對應(yīng)情感類別中,最終構(gòu)建出一個含有七元情感類別的微博領(lǐng)域情感詞典。[12-13]
基于卡方統(tǒng)計量的方法依據(jù)統(tǒng)計思想來度量詞與類之間的相關(guān)性,從而確定詞的情感類別及情感強(qiáng)度。與基于PMI的情感傾向點(diǎn)互信息法相比,不僅可以用來構(gòu)建正、負(fù)二元情感詞典,也可以用來構(gòu)建含有多元情感類別的情感詞典,但使用基于卡方統(tǒng)計量的方法構(gòu)建情感詞典需事先標(biāo)注語料類別。
表 基于統(tǒng)計的兩種方法比較
基于關(guān)系圖傳播的方法通常是指依據(jù)現(xiàn)有的通用情感詞典構(gòu)建情感種子詞集,以情感詞作為圖的頂點(diǎn),利用現(xiàn)有詞典(WordNet)中的詞義關(guān)系,或者計算PMI獲得詞間的相似度,并以此作為連接節(jié)點(diǎn)的邊的權(quán)重,利用詞語之間的聯(lián)系來構(gòu)建圖,然后在圖上用某種圖傳播的算法從已知極性的情感詞開始,迭代推導(dǎo)出語料庫中未知極性情感詞的情感傾向,從而構(gòu)建出一個較為完善的領(lǐng)域情感詞典。目前常見的關(guān)系圖傳播算法有標(biāo)簽傳播算法、PageRank算法、隨機(jī)游走算法等。本文根據(jù)關(guān)系圖的頂點(diǎn)特征將基于關(guān)系圖傳播的方法分為單一頂點(diǎn)圖傳播的方法和多元頂點(diǎn)圖傳播的方法。
2.2.1 單一頂點(diǎn)圖傳播
單一頂點(diǎn)圖傳播的方法,僅將單一情感詞作為圖的頂點(diǎn),結(jié)合相似度和圖傳播算法進(jìn)行后續(xù)的情感傾向判斷。
Huang等借助現(xiàn)有通用詞典和句法依存關(guān)系提取語料中的情感詞作為情感種子詞集,利用PMI構(gòu)建相似性關(guān)系圖,通過定義和提取情感詞之間一些成對的約束關(guān)系,主要是上下文約束,即連詞and、but,以及反轉(zhuǎn)形態(tài)約束,如“practical”和“impractical”等對文本情感傾向造成的影響,并將它們合并到標(biāo)簽傳播算法中,用于判斷情感詞的傾向。[14]
由于WordNet中的詞義關(guān)系本身就具備完美的圖形分析特性,Montejo-Ráez等人在構(gòu)建Twitter領(lǐng)域情感詞典時,直接利用WordNet中的同義詞網(wǎng)絡(luò)圖結(jié)合SentiWordNet中的情感強(qiáng)度值以及隨機(jī)游走算法,以同義詞為節(jié)點(diǎn),以語義關(guān)系為邊進(jìn)行連接,通過反復(fù)迭代檢索得到術(shù)語中的相關(guān)情感詞列表,獲得對應(yīng)的情感極性。[15]
GlavaSǐ等構(gòu)建情感圖時,使用潛在語義分析衡量詞間的語義相似性,并設(shè)定閾值減少邊緣數(shù)量來優(yōu)化情感圖,同時使用PMI、隨機(jī)索引、隨機(jī)游走算法得到詞間相關(guān)性,并結(jié)合PageRank算法判斷位置情感詞的情感極性。[16]
另外,在構(gòu)建情感詞語義圖時,Xiong等提出通過控制窗口的大小來定義局部和全局信息,用于計算情感詞的相似度作為邊緣權(quán)重,能夠更加全面、準(zhǔn)確地反映語料庫中詞的相關(guān)性。[17]
2.2.2 多元頂點(diǎn)圖傳播
在利用基于關(guān)系圖傳播的方法構(gòu)建領(lǐng)域情感詞典時,還可以將表情符號、語義模式等作為輔助元素加入圖頂點(diǎn)中,構(gòu)成以情感詞和表情符號等作為圖頂點(diǎn)的多元頂點(diǎn)情感圖。
Song等根據(jù)出現(xiàn)頻率對微博數(shù)據(jù)集中的所有單詞進(jìn)行排名,結(jié)合大連理工大學(xué)構(gòu)建的情感詞本體庫,人工為每種情緒選擇五個高頻率的詞作為種子詞。將種子詞和表情符號作為圖頂點(diǎn)組合在一個三層異構(gòu)圖中,最后利用隨機(jī)游走算法確定候選情感詞的情感極性。[18]
為提高評價對象—情感詞對的提取精度,Xu等提出了一個二階段方法。在第一階段,構(gòu)建了一個情感圖游走算法,將語義模式與情感詞、評價對象一同作為圖頂點(diǎn),用隨機(jī)游走算法計算詞語的置信度,通過過濾一些低置信度的詞語來排除錯誤的情感詞、評價對象;在第二階段,采用自學(xué)習(xí)策略優(yōu)化第一階段的結(jié)果,濾除高頻噪聲,捕獲長尾詞,可以去除情感圖中錯誤的情感關(guān)系和評價對象—情感詞對。再結(jié)合圖傳播算法判斷情感詞的情感傾向,能夠大大提高情感詞典構(gòu)建的準(zhǔn)確度。[19-20]
基于關(guān)系圖傳播的方法將詞語間的聯(lián)系轉(zhuǎn)換為直觀的圖模型,將詞與詞的聯(lián)系以特征的形式融入圖中,同時考慮了句中連詞依存關(guān)系等的約束,使情感詞的極性判斷更加準(zhǔn)確。然而基于關(guān)系圖傳播的方法中,種子詞及準(zhǔn)確的詞語間特征的選取是非常重要的,并且圖傳播的算法過程中也可能會出現(xiàn)很多的噪音。如何進(jìn)一步優(yōu)化基于關(guān)系圖的算法,以及如何選取高質(zhì)量的種子詞和詞語間特征是該方法需要考慮的重要問題。
隨著神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的不斷發(fā)展和應(yīng)用,詞向量也成為了自然語言處理領(lǐng)域中的一個研究熱點(diǎn),并在情感詞典構(gòu)建中的文本表示及相似度計算上發(fā)揮著重要的作用。Mikolov等提出了利用深度遞歸神經(jīng)網(wǎng)絡(luò)的Skip-gram模型,他通過對詞或詞組進(jìn)行預(yù)測從而得到其上下文的詞或詞組的向量表示。[21-23]與Skip-gram不同的是CBOW模型,CBOW是利用當(dāng)前詞的上下文來預(yù)測當(dāng)前詞。
有學(xué)者認(rèn)為,情感詞典的構(gòu)建可以看作是詞語或詞組層級的情感分類任務(wù)。Tang等通過Urban詞典擴(kuò)展種子詞庫獲得訓(xùn)練集,構(gòu)建了一個神經(jīng)網(wǎng)絡(luò)架構(gòu),將Twitter文本的情感信息整合到Skip-gram模型詞組向量中,構(gòu)建了一個大規(guī)模的情感詞典。[24]
針對一些訓(xùn)練得到的向量出現(xiàn)的語義相似而極性相反的情況,Tang等擴(kuò)展了傳統(tǒng)的C&W模型,構(gòu)建了三個神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過在損失函數(shù)中加入情感信息得到情感詞的向量表示,使情感詞相似度的測量更加準(zhǔn)確。[25]
詞向量的最大特點(diǎn)便是將語義信息用向量的形式進(jìn)行分布式表示。在構(gòu)建情感詞典時往往通過計算詞向量間的余弦值得到詞與詞之間的相似度,進(jìn)而確定詞語的情感傾向或情感值。也可直接通過計算余弦值得到相似度來發(fā)現(xiàn)新詞或篩選情感候選詞,從而得到情感分值。Li等構(gòu)造了一個旅游評論特定領(lǐng)域情感詞典,他們先從現(xiàn)有通用詞典中選取一部分種子詞語,并人工標(biāo)注情感值,將語料用Word2vec進(jìn)行向量表示后,通過計算與種子詞之間的余弦距離來表示詞與種子詞之間的相似性,然后優(yōu)化函數(shù)得到候選詞的情感分值。[26]Wang等將微博語料庫中的表情符號提取出來并分類,以人工標(biāo)注情感強(qiáng)度作為種子,利用Word2vec構(gòu)建模型進(jìn)行文本向量表示,通過計算余弦距離迭代發(fā)現(xiàn)新詞,并初步得到詞語情感值,最后結(jié)合HowNet中的程度副詞確定情感極性和最終情感值。[27]
胡家珩等認(rèn)為僅僅根據(jù)詞向量的相似度來判斷情感詞傾向并不準(zhǔn)確,詞向量保留的僅是語義信息而不是情感信息,有時可能會存在語義相近而情感極性相反的情況,因此他在利用相似度篩選候選詞后,使用一個4層全連接神經(jīng)網(wǎng)絡(luò)構(gòu)建分類器,選擇ReLU作為前幾層的激勵函數(shù),Softmax作為輸出層的激勵函數(shù),交叉熵作為損失函數(shù),Adam作為優(yōu)化函數(shù),最后訓(xùn)練情感分類器得到每個候選詞的情感極性,與直接使用詞向量相似度判斷情感極性相比,其準(zhǔn)確度更高。[28]
深度學(xué)習(xí)是自然語言處理中的研究熱點(diǎn),通過深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練得到的詞向量具有很好的性質(zhì),可以直接利用向量的相似度度量詞語之間的相似關(guān)系。用詞向量表示的方法構(gòu)建情感詞典具有非常廣闊的應(yīng)用前景,但如何有效地在神經(jīng)網(wǎng)絡(luò)模型中加入文本的情感信息是未來值得關(guān)注的問題。
在領(lǐng)域情感詞典的構(gòu)建中,為了提高情感詞典構(gòu)建的準(zhǔn)確度,有時還會將上述幾種方法結(jié)合來構(gòu)建情感詞典。
在計算SO-PMI的基礎(chǔ)上,可以通過使用一個簡單的神經(jīng)網(wǎng)絡(luò),結(jié)合基于詞向量表示的方法,能夠使情感詞的極性判斷更加高效、準(zhǔn)確。[29]Wang等則提出了一種基于層次情感監(jiān)督表示學(xué)習(xí)的情感詞典構(gòu)建方法,計算PMI、SO-PMI作為詞匯級別的情緒注釋,使用Tweet中的標(biāo)簽作為文檔級別的情緒注釋,構(gòu)建一個神經(jīng)網(wǎng)絡(luò)框架,通過在詞語和文檔粒度上整合情感監(jiān)督來學(xué)習(xí)情感感知詞的表示作為等級情緒監(jiān)督,構(gòu)建分類器進(jìn)行詞匯學(xué)習(xí),通過計算詞語在正負(fù)之間的概率作為詞語的情感值。最終構(gòu)建的情感詞典既可以識別文檔中詞語的情感極性,也可以根據(jù)文檔中的詞語判斷文檔的情感極性。[30]
此外,Hatzivassiloglou等人認(rèn)為語句中連詞如and、but、either-or、neither-nor等所連接的情感詞具有一定的情感極性關(guān)系。他們從語料文檔中抽取由連詞連接的形容詞對,并證明了由and連接的形容詞對通常具有相同的情感極性,如“The girl is beautiful and cute”,而由but連接的形容詞對通常具有相反的情感極性,如“The girlisbeautifulbutstupid”。[31]當(dāng)確定部分情感詞時,可以依據(jù)這種連詞關(guān)系獲取情感詞,以判斷情感詞的極性。Kanayama等在此基礎(chǔ)上進(jìn)行擴(kuò)展,針對句子內(nèi)部和句子之間的情感進(jìn)行了一致性判別,認(rèn)為連續(xù)的句子往往具有相同的情感傾向,語句的情感傾向與句中含有情感詞的情感極性一致,他們首先建立了已知情感傾向的情感種子集合,然后通過分析領(lǐng)域相關(guān)語料中語句內(nèi)部和語句間內(nèi)部的文本和連接詞來確定情感詞間的極性關(guān)系。[32]因此,在構(gòu)建情感詞典時,可以利用連詞關(guān)系來擴(kuò)展情感詞以及補(bǔ)充判別情感詞的情感極性。
張璞等將基于詞向量表示的方法和基于關(guān)系圖傳播的方法相結(jié)合,從現(xiàn)有通用情感詞典中人工選取部分主觀性強(qiáng)的詞語作為種子詞,通過Word2Vec訓(xùn)練詞向量選取與種子詞相似度高的詞語做為部分情感候選詞,同時在語料上抽取與種子詞具備連詞依存關(guān)系的詞語擴(kuò)充情感候選詞,通過種子詞與候選情感詞之間的相似度構(gòu)建語義關(guān)聯(lián)圖,以種子詞與情感候選詞作為圖中的節(jié)點(diǎn),最后利用標(biāo)簽傳播算法判斷未知節(jié)點(diǎn)情感詞的情感傾向。[33]
多方法融合構(gòu)建情感詞典,可以利用基于PMI的情感傾向點(diǎn)互信息法來篩選情感候選詞,同時利用連詞關(guān)系、基于關(guān)系圖傳播的方法以及基于詞向量的方法來擴(kuò)展情感詞,并確定情感詞的極性,這種結(jié)合各種方法來構(gòu)建的情感詞典,可以使所構(gòu)建的情感詞典更加全面、準(zhǔn)確。
人們通常使用以下兩種方法來評估所構(gòu)建情感詞典的性能。① 將構(gòu)建的詞典直接與通用情感詞典或人工標(biāo)注的情感詞典進(jìn)行比較,計算精確率P、召回率R和F1值;② 將情感詞典應(yīng)用到情感分析任務(wù)中,通過衡量分類結(jié)果的準(zhǔn)確性—精確率P、召回率R和F1值來評估情感詞典的性能。計算公式如下。
由于領(lǐng)域情感詞典中的情感詞具有領(lǐng)域性,在特定領(lǐng)域中具有情感傾向的情感詞在通用情感詞典中可能被確認(rèn)為沒有情感傾向的中性詞,因此針對領(lǐng)域情感詞典,往往選取情感詞典中的部分詞語,采用人工判斷、人工標(biāo)注的方式進(jìn)行性能評估。如張璞等人分別用其自己提出和其他學(xué)者提出的幾種情感詞典構(gòu)建方法作為基線方法進(jìn)行實(shí)驗(yàn),選取所構(gòu)建情感詞典中的一定數(shù)量的詞語,人工判斷情感極性的正確率,從而判斷所構(gòu)建情感詞典的性能。[33]
或者將領(lǐng)域情感詞典應(yīng)用到文本情感分析任務(wù)中,通過與標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行對比,計算精確率P、召回率R和F1值來評估所構(gòu)建情感詞典的性能。朱軍等將采用了Word2Vec+SVM+情感詞典+樸素貝葉斯的集成學(xué)習(xí)方法進(jìn)行文本情感分類,對比未使用情感詞典方法的分類結(jié)果精確率、召回率和F1值,情感詞典的應(yīng)用明顯提高了文本極性分類的性能。[34]李勇敢等利用所構(gòu)建的領(lǐng)域情感詞庫參與情感要素抽取測評任務(wù)實(shí)驗(yàn),將實(shí)驗(yàn)結(jié)果的精確率、召回率和F1值與NLPCC(自然語言處理與中文計算會議)中文微博公開評測情感要素抽取評測結(jié)果平均值以及最佳結(jié)果等進(jìn)行對比,證明了所構(gòu)建情感詞庫在要素抽取上的優(yōu)越性能。[35]
本文對領(lǐng)域情感詞典構(gòu)建的實(shí)現(xiàn)方法和技術(shù)進(jìn)行了梳理和歸納,將領(lǐng)域情感詞典的構(gòu)建方法歸納為:基于統(tǒng)計的方法、基于關(guān)系圖傳播的方法、基于詞向量的方法等,分析了各種方法的優(yōu)缺點(diǎn),并對領(lǐng)域情感詞典的性能評估方法進(jìn)行了總結(jié)。目前,領(lǐng)域情感詞典的構(gòu)建已經(jīng)取得一定的進(jìn)展,但仍有許多問題值得我們思考和解決。