徐源音,柴玉梅,王黎明,劉 箴
1(鄭州大學(xué) 信息工程學(xué)院,鄭州 450001)2(寧波大學(xué) 信息科學(xué)與工程學(xué)院,浙江 寧波 315211)
伴隨社交媒體和電子商務(wù)平臺的快速發(fā)展,用戶已習(xí)慣于通過網(wǎng)絡(luò)平臺發(fā)表自己的觀點、評論商品的優(yōu)劣,這些網(wǎng)絡(luò)文本大多反應(yīng)用戶的真實情感.從這些文本信息中自動準確的識別用戶的情緒類別,可以為政府輿情監(jiān)控、企業(yè)管理與決策提供有效的支持[1],也成為學(xué)術(shù)界近來持續(xù)關(guān)注的研究熱點[2].
現(xiàn)有的文本情緒分析方法[3,4]大多針對單一語種的文本,但在當(dāng)下開放自由、文化交流日益頻繁的網(wǎng)絡(luò)壞境中,中英文混合的表達方式正逐漸受到人們的喜愛,例如“真心hold不住啊”,“就是這個feel,i like ~”,“下了班店里還分禮物,回到家就收到老姐的紅包happy new year!”.已有研究表明,在這種以中文為主體,混合少量英文的網(wǎng)絡(luò)文本中,英文表達對于文本情緒分析有著至關(guān)重要的影響[5],如“hold不住、like、happy”這些帶有顯著情感信息的單詞.然而,單語言文本的情緒分析方法通常分為基于詞典和規(guī)則的方法[6]、基于機器學(xué)習(xí)、深度學(xué)習(xí)的方法[7,8]等,對于上述例句而言,只針對中文文本的情緒分析方法,大多不能有效捕捉句中英文所表達的情感信息.為此,學(xué)術(shù)界將由多種語言構(gòu)成的文本命名為Code-switching text,并對此類語言現(xiàn)象展開了廣泛的研究[9].Ling和Wang等人[10]從微博中提取超過100萬條中英混合文本,從Twitter中抽取大量中英混合文本、英文阿拉伯語混合文本,表明多語言文本被廣泛應(yīng)用于社交網(wǎng)絡(luò)平臺,針對多語言文本的情感分析應(yīng)用研究也受到眾多學(xué)者關(guān)注.Lee和Wang[11]構(gòu)建多語言文本語料庫,通過分析此類文本中不同語種對于文本情感影響的占比,提出一種基于最大熵模型多分類器組合的情感分析方法,實驗結(jié)果表明同單語言模型相比,多語言混合模型的分類效果有所提升.
對含有情緒表達的中英文混合文本,合理使用情感詞典、詞向量、語言知識庫等資源學(xué)習(xí)文本特征對情緒分析任務(wù)十分重要.本文提出多語言文本情緒分析模型MF-CSEL(Cost Sensitive Ensemble Learning method based on Multi-Feature fusion),使用詞向量、雙語情感特征、TF-IDF權(quán)值矩陣做為基分類器的輸入特征,并通過代價敏感集成學(xué)習(xí)方法融合不同樣本空間下基分類器的分類結(jié)果.
多語言文本的相關(guān)任務(wù)是自然語言處理的難點之一,且相關(guān)探索較少,文本情緒分析的研究方法大多為單語言模型.Peng和Cambria等人[12]從單語和多語種的角度分析了中文情感分析的研究進展,首先總結(jié)了情感語料庫和詞匯的結(jié)構(gòu),然后通過三種不同的分類框架對漢語中的單語情感分類進行了闡述,最后介紹了多語種方法的情感分類研究.Vilares和Alonso等人[13]重點分析了Twitter上英語和西班牙混合文本的情感分類問題,在帶有情感標(biāo)簽的英語-西班牙語混合文本情感分類任務(wù)中,沒有語言檢測的多語言模型效果優(yōu)于單語模型.Giatsoglou和Vozalis等人[14]對使用不同語言表達觀點、意見的文本片段,提出了一種快速、靈活、通用的情感檢測方法.該方法研究了多種文檔的矢量表示方法,包括基于詞典的、基于詞嵌入的和基于混合特征的向量化方法,并在四個包含希臘語和英語的用戶在線評論數(shù)據(jù)集上進行實驗,評估了這些特征表示方法在情感分類任務(wù)的性能.由此作為出發(fā)點,文本使用向量表示文本信息,并使用現(xiàn)有情感詞典、語言知識庫等資源針對不同語種分別提取情感特征,結(jié)合TF-IDF權(quán)值矩陣作為模型的特征輸入,以更加完善地學(xué)習(xí)文本含有的情感信息.
栗雨晴[15]等人提出一種基于雙語詞典的微博情緒分析方法,該方法通過構(gòu)建雙語情緒詞典實現(xiàn)對中英文混合文本的情感傾向性分析,并同多數(shù)投票算法、支持向量機算法、K近鄰算法對比,實驗結(jié)果表明該方法在分類準確率和F1值上均有所提高.Mei Lee和Wang就多語言文本的情感分析提出了三種方法[16-18]:
1)多視角學(xué)習(xí)框架,該方法從單語文本中提取單語視圖,將單語文本和翻譯文本結(jié)合起來構(gòu)建雙語視圖,通過單語和雙語兩種視角來分析文本情感.實驗表明該方法在多語言文本情感分析中具有有效性.
2)基于聯(lián)合因子圖模型的多語言文本情感分析,該方法利用因子圖模型的屬性函數(shù)從每條文本中學(xué)習(xí)單語和雙語信息,用因子函數(shù)來探討不同情感之間的關(guān)系,并采用信念傳播算法來分析文本情感.
3)基于雙語和情感信息的多語言文本情感分析,該方法使用詞-文檔二分圖將雙語和情感信息結(jié)合起來,提出了一種基于標(biāo)簽傳播的二分圖學(xué)習(xí)方法.
不同于上述情緒分析方法,本文提出的MF-CSEL模型將基于CBOW(Continuous Bag-of-Words)模型訓(xùn)練得到的詞向量序列化組合為文本向量,將其同雙語情感特征、TF-IDF權(quán)值矩陣相結(jié)合,再使用代價敏感集成學(xué)習(xí)方法實現(xiàn)多語言文本情感分析.通過基于語義相似度的樣本空間重構(gòu)算法平衡數(shù)據(jù)集,選擇不同的樣本空間在基分類器支持向量機(Support Vector Machine,SVM)和高斯樸素貝葉斯(Gaussian Naive Bayes,GaussianNB)上進行情緒分類,使用代價敏感集成策略去融合基分類器的實驗結(jié)果,以提高情緒分類的精度.
多語言文本情緒分析模型MF-CSEL將文本情緒歸為五類,分別為happiness、sadness、anger、fear、surprise.MF-CSEL的模型框架如圖1所示,為使學(xué)習(xí)到的詞向量包含更豐富的語義信息,本文選擇擴展語料集,使用標(biāo)注數(shù)據(jù)集和從微博爬取的語料集共同訓(xùn)練CBOW模型得到詞向量表,序列化組合每條文本所含的詞向量構(gòu)建文本特征向量.不同于使用機器翻譯將文本變?yōu)橥Z種后再提取情感特征的方式,本文針對不同語種選用對應(yīng)的情感資源分別提取情感特征,避免機器翻譯帶來語義變化,通過TF-IDF權(quán)值矩陣表示關(guān)鍵情感詞在不同情緒文本中的權(quán)值.完成特征工作后,再使用代價敏感集成學(xué)習(xí)方法實現(xiàn)文本情緒分類.首先,本文使用二元關(guān)聯(lián)將多標(biāo)簽情緒分類問題轉(zhuǎn)換為單標(biāo)簽分類任務(wù),為避免不平衡數(shù)據(jù)集影響實驗結(jié)果,本文提出基于語義相似度的樣本空間重構(gòu)算法,依照情緒類別得到不同樣本空間;再使用代價敏感集成策略融合基分類器在不同樣本空間上的分類結(jié)果,得到模型輸出.
圖1 MF-CSEL模型圖Fig.1 MF-CSEL model diagram
CBOW模型是word2vec[19]中的一個神經(jīng)網(wǎng)絡(luò)模型,不同于Skip-gram模型,它通過上下文中詞的one-hot向量來預(yù)測當(dāng)前詞向量.為有效保留上下文含有的語義信息,本文選用CBOW模型訓(xùn)練文本的詞向量,并采用負采樣(Negative Sampling,NEG)的方法對模型進行求解以減少訓(xùn)練時長,提高算法的效率.NEG使用簡單的隨機負采樣替換哈夫曼樹可提高模型訓(xùn)練速度并改善所得詞向量的質(zhì)量.對每條文本,通過序列化融合所有的詞向量,構(gòu)建含有詞序信息的文本特征向量.
CBOW模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,它由輸入層、投影層和輸出層三部分構(gòu)成,輸入層中wk-c、wk-1、wk+1、wk+c表示當(dāng)前詞wk的上下文Context(w),輸出層為wk,表示在已知當(dāng)前詞上下文Context(w)的前提下,預(yù)測當(dāng)前詞wk.在雙語語料集中,類似“的”、“a”、“the”這種沒有太多語義信息的詞往往高頻出現(xiàn),為解決高頻詞與低頻詞的不平衡性,對詞匯表中的每個詞wi按公式(1)所得的概率舍去.
(1)
其中,λ是一個設(shè)定的閾值,本文設(shè)為10-5;f(wi)表示詞wi文本集中出現(xiàn)的頻次.
圖2 CBOW模型結(jié)構(gòu)圖Fig.2 CBOW model structure diagram
此時,給定樣本S=(w,Context(w)),當(dāng)前詞w為正樣本,通過負采樣方法從Context(w)中得到負樣本集NEG(w),對語料集C,模型的求解問題轉(zhuǎn)換為最大化
(2)
其中,p(u|Context(w))可表示為:
(3)
(4)
從公式(4)可看出,目標(biāo)函數(shù)表示在提高正樣本概率的情況下,減少負樣本的概率.采用梯度上升法對其求解得到各參數(shù)的更新公式[注]https://blog.csdn.net/itplus/article/details/37969979.使用詞向量直接構(gòu)建文本特征向量,常見做法為對每條文本所有詞向量累加后取其均值,如公式(5)所示:
(5)
(6)
(7)
為此,本文提出一種序列化融合詞向量的方法來構(gòu)建文本的特征向量,通過公式(8)計算得到單句的特征向量,并對文本中所有的句向量求平均作為該條文本的特征向量,具體過程如算法1所示.
(8)
算法1.文本向量構(gòu)建算法
輸入:分詞后的語料集C
1.初始化θ、η,詞向量v(u)
2.for eachckin C:
3. for eachwiinck:
4. while 不收斂:
5.e=0
7. for eachu∈{wi}∪NEG(wi)
9.g=η(Lwi(u)-q)
10.e=e+gθu
11.θu=θu+gxwi
12. end for
13. for eachu∈Context(wi)
14.v(u)=v(u)+e
15. end for
16. end for
17.end for
18.for eachckin C:
19. for eachsminck
21. end for
23.end for
其中,ck表示語料集的每條文本,sm表示文本中的每句話,wi表示文本中的每個詞,η為學(xué)習(xí)速率;e為詞向量變化值.
多語言文本中,人們經(jīng)常使用具有強烈情感意義的詞來表達自己的心情,例如“l(fā)ove”、“happy”、“悲催”等.文本中傳達的顯式情感信息在情感分析任務(wù)中變成不可缺失的特征資源,它大多直接決定文本的情緒類別.為提取多語言文本的情感特征,使用機器翻譯方法將文本轉(zhuǎn)換為同種語言的方式頗受學(xué)術(shù)界的喜愛.然而,中英文混合的表達方式風(fēng)格較為隨意,大多不受語法約束,翻譯后的文本可能發(fā)生語義變化,影響特征提取的精度.為更好的識別文本的情緒表達,提高情緒分析的準確性,本文基于現(xiàn)有的中英文情感詞典資源,分析雙語文本的語言表達特點,針對不同語種分別提取文本的情感特征.
現(xiàn)常用的中文情感詞典有四種,分別為:HowNet情感極性詞典、大連理工大學(xué)情感詞匯本體庫、清華大學(xué)極性詞典、臺灣大學(xué)情感詞典.歸納整理得到基礎(chǔ)情感極性詞典pos、neg和小規(guī)模細粒度情感詞典,詞典規(guī)模如表1所示.
基于上述情感詞典,本文從情感傾向詞和細粒度情感詞兩方面分別提取情感特征,特征類別如表2所示.基于情感詞典直接匹配情感詞的特征提取方式在文本含有否定形式的情況下可能會出現(xiàn)語義理解錯誤.例如“The meal看起來不是很美味”,句中表達的觀點是“不美味”,若直接匹配情感詞不考慮否定詞就會出現(xiàn)情感理解偏差.為此,本文基于上述情感詞典,在提取情感特征時通過否定詞表和句法分析識別文本中的否定形式.對于情感傾向詞,根據(jù)否定詞修飾的情感詞極性直接轉(zhuǎn)換情感類別,如“美味”前有否定修飾“不”,則情感類別由pos→neg.對于細粒度情感詞,否定修飾后的情緒類別變換難以準確判斷,如情緒happiness、sadness、anger之間并非完全對立關(guān)系,由此,本文針對每類情感詞添加對應(yīng)的否定特征,特征值表示該類情感詞前是否存在否定修飾.
表1 情感詞典具體描述
Table 1 A description of emotional dictionaries
類型示例規(guī)模pos加油、棒、哈哈23177neg可惡、糟糕、哭22717happiness幸福、滿足、開心13075sadness難過、哭、傷心2342anger生氣、怒、氣死我了10670fear害怕、恐怖、嚇?biāo)廊?537surprise竟然、驚人、哇230
表2 中文情感特征類別
Table 2 Chinese affective feature categories
特征類別描述維度Tend-e(pos、neg)是否存在情感傾向詞2Tend-f(pos、neg)每類情感傾向詞的數(shù)目2FgEmo-eemo是否存在細粒度情感詞5FgEmo-femo每類細粒度情感詞的數(shù)目5FgEmo-F否定修飾(細粒度情感詞)5
本文使用斯坦福詞性標(biāo)注工具(Part-Of-Speech Tagger)對中英混合文本進行詞性標(biāo)注,并基于SentiwordNet情感詞典提取英文情感特征.SentiwordNet情感詞典基于WordNet,由意大利信息科學(xué)研究所構(gòu)建[20].它將情感詞按詞性分為四類,分別為名詞(n)、形容詞(a)、動詞(v)和副詞(r),每個情感詞對應(yīng)有正向情感值(PosScore)、負向情感值(NegScore),打分區(qū)間為[0,1].詞典中含有大量兩個單詞或及其以上構(gòu)成的詞組記錄,但在以中文為主體的多語言文本中,英文詞組表達較少且難以準確識別,因此本文只考慮單個單詞.按照詞典所含四種詞性,合并NN、NNS、NNP、NNPS為n(名詞),合并VB、VBD、VBG、VBN、VBP、VBZ為v(動詞),將JJ、JJR、JJS轉(zhuǎn)為a(形容詞),將RB、RBR、RBS合并為r(代詞),同時將動詞的過去式、名詞的復(fù)數(shù)形式,形容詞的比較級形式等進行詞形還原[21].同SentiwordNet詞典按情感詞的詞性進行匹配,如公式(9)、公式(10)所示,情感打分為該詞性下所有語義的情感值的均值.同中文情感特征一樣,在計算情感值時考慮否定修飾對文本情感的影響,對有否定修飾的情感詞將其PosScore和NegScore打分互換.
(9)
(10)
其中,N表示文本中英文情感詞的數(shù)目,syn表示ewi所在詞性下的所有語義記錄,num(syn)表示syn的數(shù)目.
代價敏感分類方法是指為不同類型的錯誤分配不同的代價,以使在最終分類時,高代價錯誤產(chǎn)生的數(shù)量和錯誤分類的代價和最小[22].多語言文本情緒分析任務(wù)屬于多標(biāo)簽分類問題,情緒發(fā)生的比例不同,導(dǎo)致樣本類別存在較大的不均衡性,會影響最終的分類結(jié)果.為此,本文選擇代價敏感集成學(xué)習(xí)策略最大程度避免樣本不均衡對最終分類精度造成的影響.代價敏感常用的方法有調(diào)整樣本分布、元代價、代價敏感決策等,本文通過計算文本語義相似度來均衡樣本分布,并使用代價敏感決策方法按錯分代價制定集成策略,融合不同樣本空間下基分類器的分類結(jié)果得到最終實驗結(jié)果.
3.3.1 基于語義相似度的樣本空間重構(gòu)算法
在代價敏感學(xué)習(xí)中,常用的樣本空間重構(gòu)方法會依據(jù)數(shù)據(jù)類別所占比例調(diào)整樣本分布,對占比較大的類別進行欠采樣,對占比較小的類別進行過采樣.這種隨機采樣的方式可能會降低樣本的多樣性,造成數(shù)據(jù)損失.本文通過計算語義相似度,放棄相似度較高的樣本,在減少占比較大樣本類別的同時盡可能的保留樣本類型的多樣性.
對前文所得的文本特征向量wvc,依照余弦相似性的計算方法計算文本語義相似度,選擇相似度最高的文本按概率δ舍棄,實現(xiàn)樣本空間重構(gòu),具體過程如算法2所示.
算法2.基于語義相似度的樣本空間重構(gòu)算法
輸入:訓(xùn)練集C,文本向量wvc,迭代次數(shù)t,δ
輸出:新樣本集C′
1.time=0
2.while(time 3. fork=1 tom 6.k=k+1 7. if (m==k) break 8. end for 9.time=time+1 10.end while 11.output C′ 3.3.2 代價敏感集成學(xué)習(xí)策略 本文使用二元關(guān)聯(lián)(Binary Relevance)將多標(biāo)簽情緒分類問題轉(zhuǎn)換為單標(biāo)簽問題,從數(shù)據(jù)集大小、數(shù)據(jù)維度以及訓(xùn)練效率的角度分析,基分類器選擇SVM和NB. 由于樣本特征值大部分是連續(xù)值,根據(jù)數(shù)據(jù)類型選擇高斯樸素貝葉斯(GaussianNB)作為基分類器,GaussianNB是指先驗為高斯分布的樸素貝葉斯,它假設(shè)P(xi|emo)符合高斯分布,也就是: (11) 支持向量機SVM通過在樣本空間中找到一個劃分超平面,將不同類別的樣本分開以實現(xiàn)分類.它在小規(guī)模、高維度的數(shù)據(jù)集中有特有的優(yōu)勢,分類原理為: (12) S.t.yi(ωΤxi+b)≥1-ξi,i=1,2,…,n 其中,ξi為松弛變量,C表示懲罰因子,通過計算核函數(shù)k(xi,xj)替代特征向量的內(nèi)積(本文令k(xi,xj)=xiTxj),得到svm的決策函數(shù)為: (13) 對訓(xùn)練數(shù)據(jù)按情緒類別等比例分割為兩部分train、dev,dev為小規(guī)模的測試數(shù)據(jù),用于計算錯分代價制定模型融合策略.如圖3所示,對訓(xùn)練數(shù)據(jù)train調(diào)用樣本空間重構(gòu)算法,依照參數(shù)δ得到不同的樣本分布trainδ,將其分別放入基分類器訓(xùn)練后得到SVMT和NBT,輸入測試集dev得到不同樣本分布下的情緒分類結(jié)果.對每類情緒分別計算每個基分類器對應(yīng)的錯分代價errorCost,比照測試數(shù)據(jù)dev的樣本標(biāo)簽將錯誤分類歸為誤報和漏報兩種情況,分別設(shè)置權(quán)重α、β表示對該錯誤類型的容忍度,計算公式如公式(14)所示.根據(jù)錯分代價制定融合策略,對每類情緒舍棄其錯分代價最高的分類器中該情緒的分類結(jié)果,在錯分代價最小的分類結(jié)果選擇含有該情緒的數(shù)據(jù)記為T,其余的采用投票策略對上述結(jié)果進行補充,若超過一半則將其歸為正例T,未標(biāo)注的數(shù)據(jù)均記為不包含該情緒,具體表示如公式(15)所示.依照該融合策略根據(jù)各基分類器對應(yīng)的錯分代價對測試集test調(diào)用模型SVMT和NBT得到情緒分類結(jié)果進行選擇,得到最終的分類結(jié)果. 圖3 代價敏感集成模型Fig.3 Cost sensitive integrated model diagram 表3 情緒分類結(jié)果統(tǒng)計表 GemoTGemoFPemoTnum(PemoT,GemoT)num(PemoT,GemoF)PemoFnum(PemoF,GemoT)num(PemoF,GemoF) 以單類情緒emo為例,表3表示基分類器在測試集dev上的分類結(jié)果,Gemo表示樣本標(biāo)簽,Pemo表示模型預(yù)測樣本是否含有情緒emo,num(PemoT,GemoF)表示模型預(yù)測情緒emo為T而樣本標(biāo)簽情緒emo為F的數(shù)目,此類錯誤為模型誤報,num(PemoF,GemoT)表示模型預(yù)測情緒emo為F而樣本標(biāo)簽情緒emo為T的數(shù)目,此類錯誤屬于漏報.本文認為模型誤報的錯分代價高于漏報,且誤報的錯分代價與其在預(yù)測結(jié)果含有該情緒的樣本總數(shù)num(PemoT)中的占比相關(guān),錯分代價計算公式如公式(14)所示: (14) 其中α、β表示根據(jù)對不同錯誤的容忍度分別設(shè)置的代價指數(shù),本文令α為2、β為1. 依照錯分代價errorCost制定融合策略如公式(15)所示,即對不同樣本分布下基分類器的錯分代價進行排序,將代價最小的分類器用于測試數(shù)據(jù)test,并選擇標(biāo)簽為T的情緒,將代價最大的分類器直接舍棄,對其他分類器用于測試數(shù)據(jù)test的分類結(jié)果使用投票策略,合并其標(biāo)注的情緒類別得到MF-CSEL的最終實驗結(jié)果. (15) 為保證實驗結(jié)果的可靠性,本文選用nlpcc2018多語言文本情緒識別評測數(shù)據(jù)集作為實驗數(shù)據(jù),該數(shù)據(jù)包含6728條訓(xùn)練數(shù)據(jù)和1200條測試數(shù)據(jù),將文本情緒分為五類,分別為happiness、anger、fear、surprise、sadness,每類情緒分布情況如表4所示. 表4 實驗數(shù)據(jù)情緒分布表 happinesssadnessangerfearsurprisenone訓(xùn)練數(shù)據(jù)204412066547331532111測試數(shù)據(jù)5143531245291201 本文選用與nlpcc2018評測任務(wù)相同的評價標(biāo)準,用精確率P(Precesion)、召回率R(Recall)、F1值(F1-measure)以及宏平均的F1值(Macro_F1)來評估本文方法,宏平均的計算公式如下所示: (16) (17) (18) (19) 其中,i表示5類情緒之一,gold(emo=i)表示樣本標(biāo)注情緒為i的數(shù)目,sys_correct(emo=i)表示模型預(yù)測為情緒i與標(biāo)注結(jié)果一致,sys_proposed(emo=i)表示模型預(yù)測為情緒i的數(shù)目. 本文共提取3類特征:文本特征向量wvc,雙語情感特征bil-feature,TF-IDF權(quán)值矩陣.如圖4所示,縱軸表示各類的F1值,Baseline為評測主辦方以unigram為特征、svm為分類器得到的實驗結(jié)果. 對于基分類器NB而言,僅使用文本特征向量wvc所得的實驗結(jié)果就已優(yōu)于Baseline,說明本文基于CBOW模型所得詞向量的文本向量構(gòu)建方法具有有效性,在疊加雙語情感特征后,marco-F1值也有顯著提升.對基分類器SVM,本文以TF-IDF為特征得到的實驗結(jié)果,marco-F1值略低于基線模型,但在疊加文本特征向量wvc和雙語情感特征bil-feature后,分類效果得到顯著提升.因此,本文對不同的分類器分別選擇各自最優(yōu)的特征組合方式NB′和SVM′.另外,對比實驗數(shù)據(jù)分布情況,情緒anger、fear、surprise的F值相對較低的原因可能與樣本分布不均衡有關(guān). 圖4 不同特征組合的分類結(jié)果對比圖Fig.4 Comparison of classification results of different feature combinations 分析訓(xùn)練數(shù)據(jù)中各類情緒的分布情況,無情緒樣本none的數(shù)目高于全部數(shù)據(jù)的三分之一,而情緒surprise只有153條,數(shù)據(jù)的不平衡性可能造成分類器偏向于占比較高的類別.本文使用二元關(guān)聯(lián)實現(xiàn)多標(biāo)簽分類,即對于情緒fear而言,無情緒樣本none和其他4類情緒樣本組成負樣本,這樣分類器會更傾向于將情緒fear歸為無.為此,首先調(diào)整無情緒樣本none的比例,對此類樣本按t=2,δ=1調(diào)用算法2進行縮減,得到新的訓(xùn)練集sampleSet1,此時,調(diào)用基分類器得到實驗結(jié)果如圖5、圖6所示,二者的marco-F1均比使用原始數(shù)據(jù)分類有所提升.從圖中可明顯看到,NB的分類結(jié)果中除情緒sadness外其他各類的召回率均高于精確率,說明分類結(jié)果中誤報率較高,會導(dǎo)致錯分代價過高.SVM實驗結(jié)果的marco-F1值較原始數(shù)據(jù)提高了5個百分點,但除情緒happiness外其他各類的精確率均大幅高于召回率,表明在此數(shù)據(jù)分布下漏報率依舊較高.因此,后文主要針對SVM分析在樣本空間重構(gòu)算法中不同參數(shù)對實驗結(jié)果的影響. 圖5 NB基于sampleSet1的實驗結(jié)果Fig.5 Experimental results with NB in sampleSet1 圖6 SVM基于sampleSet1的實驗結(jié)果Fig.6 Experimental results with SVM in sampleSet1 圖7 樣本空間重構(gòu)算法參數(shù)的選擇Fig.7 Selection of parameters for sample space reconstruction algorithm 以情緒anger為例,介紹參數(shù)選擇的過程.如圖7所示,橫軸表示不同的樣本空間,1-0.8分別表示算法2的參數(shù)t和δ.將訓(xùn)練集sampleSet1中除情緒anger外的各類數(shù)據(jù)按t=1和δ=0.8調(diào)用算法2后的得到新的訓(xùn)練集,F1值和召回率均有提升,但精確率大幅下降.按同樣概率進行二次迭代,召回率有微小提升,再次縮減負樣本召回率顯著提高而精確率隨之降低,F1值也開始下降,說明樣本縮減過多.因此,以F1值為主要參考指標(biāo),對情緒anger的最優(yōu)樣本空間本文取t=2、δ=0.8.類比此過程,本文最終選出原始數(shù)據(jù)、sampleSet1以及分別對應(yīng)四類情緒的happiness(1-1)、sadness(1-0.5)、anger(2-0.8)、fear(1-1)共計六種樣本空間(情緒surprise在訓(xùn)練集sampleSet1的表現(xiàn)效果最好). 為驗證模型的有效性,本文共設(shè)計兩組對比實驗:MF-CSEL模型同未改進文本向量學(xué)習(xí)方法和簡單平衡數(shù)據(jù)集后的實驗分類結(jié)果對比,驗證含有序列信息的文本向量和代價敏感學(xué)習(xí)方法對實驗結(jié)果的影響;同nlpcc2018評測任務(wù)Emotion detection in code-switching text的結(jié)果做對比,驗證本文方法的有效性. 表5 MF-CSEL模型實驗結(jié)果 類別PRFHappiness0.6590.7960.726Sadness0.4900.5330.510Anger0.5440.4520.493Fear0.1720.3270.225Surprise0.4920.3260.392Macro-F10.469 MF-CSEL模型的實驗結(jié)果如表5所示.表6為文本向量wvc取詞向量的均值,以及簡單減少無情緒樣本平衡數(shù)據(jù)集后的實驗結(jié)果,對比可知,在改進文檔向量的學(xué)習(xí)方法和使用代價敏感學(xué)習(xí)方法后,分類結(jié)果得到了有效改善,各情緒的F值和整體Macro-F1值都有了大幅提升,表明本文多語言文本情緒分析模型的有效性,含有序列信息的文本向量和代價敏感學(xué)習(xí)方法在一定程度上提升了模型的分類效果,但情緒fear的精確率、F1值依然較低,一方面是由于樣本數(shù)目差別過大,另一方面說明對該類情緒文本,情感特征的學(xué)習(xí)仍有待提升. 表6 對比模型實驗結(jié)果 類別PRFHappiness0.6800.6950.687Sadness0.6900.3340.450Anger0.4770.3310.390Fear0.1650.3270.219Surprise0.3700.3260.347Macro-F10.419 將本文方法同NLPCC2018的評測結(jié)果對比,如圖8所示,橫軸表示類別,縱軸表示各類的F1值.其中,average-result為評測的平均成績,zzuhhjx為本文團隊在評測中提交的結(jié)果,DUTIR_938為評測第二名成績,DeepIntell為評測最優(yōu)成績.本文改進特征工作和使用代價敏感集成方法后,實驗結(jié)果較zzuhhjx在各類F1值上均有所提升,marco-F1值提升5.1個百分點,僅次于評測最優(yōu)成績,略高于評測第二名,各類情緒的F1值均明顯優(yōu)于評測中位成績,表明本文方法具有有效性. 圖8 對比實驗結(jié)果Fig.8 Contrast experimental restults 本文分析了多語言文本情緒分析的研究現(xiàn)狀,提出多語言文本情緒分析模型MF-CSEL,將基于多特征融合的代價敏感集成學(xué)習(xí)方法用于中英文混合文本情緒分類任務(wù).本文基于CBOW模型訓(xùn)練詞向量,將其序列化組合為帶有語序信息的文本向量,融合雙語情感特征、TF-IDF權(quán)值矩陣,使用基于語義相似度的樣本空間重構(gòu)算法平衡數(shù)據(jù)集,按照代價敏感集成策略融合基分類器的分類結(jié)果,實驗結(jié)果表明本文方法具有有效性. 本文在多語言文本情緒分析上的研究仍存在許多不足需要進一步改進.從文中的實驗結(jié)果可以看出,本文的marco-F1值雖略優(yōu)于評測第二名成績,但同評測最優(yōu)還有一定差距.后續(xù)將進一步優(yōu)化特征工作,在基分類器的選擇上也可以做更多嘗試,以達到提高情緒分類精度的效果.
Table 3 Emotion classification result statistics table4 實驗結(jié)果與分析
4.1 數(shù)據(jù)集與評價指標(biāo)
Table 4 Experimental data emotional distribution table4.2 特征組合
4.3 樣本空間重構(gòu)算法參數(shù)的選擇
4.4 對比實驗
Table 5 MF-CSEL model experiment results
Table 6 Contrast model experiment results5 結(jié) 論