龔 安,費 凡
(中國石油大學(華東) 計算機與通信工程學院,山東 青島 266580)
隨著互聯(lián)網(wǎng)的蓬勃發(fā)展,各類網(wǎng)絡評論也相應激增。大量用戶通過新聞網(wǎng)站、購物網(wǎng)站及微博等載體表達自己對時政、商品、電影及各類社會現(xiàn)象的觀點及看法,這其中隱含著大量的高價值信息,而合理地分析和利用這些評論文本能夠為個人消費決策、商家營銷策略規(guī)劃、政府輿情檢測等方面提供幫助,因此有效地挖掘評論文本中蘊含的情感具有重要的社會價值與商業(yè)價值[1]。
目前,文本情感分析[2-3]的主流方法一般分為兩種:一種是基于情感詞典的規(guī)則方法[4-5];另一種是基于機器學習的方法[6-8]?;谇楦性~典的方法主要是根據(jù)情感詞典的先驗信息進行計算來判斷文本所蘊含的情感,但情感詞典的大小是有限的,且因為忽視語義往往不能得到準確的分類。機器學習方法是以模式分類的思想來處理這個問題,通過人工設計特征,將文本進行特征向量化輸入到各種分類器中進行分類。從整體來看,機器學習方法的表現(xiàn)好于規(guī)則方法。然而對于復雜的漢語來說,傳統(tǒng)的機器學習的建模方法不能取得令人滿意的結果。對此,充分利用規(guī)則情感分析的結果,提出了一種機器學習與情感規(guī)則相融合的中文文本情感分析方法。
文中主要內容如下:
(1)對現(xiàn)有中文情感詞典進行了擴充整合,整理建立了網(wǎng)絡情感詞典庫,形成比較全面的情感詞典。
(2)針對評論文本特點,提出一種改進的基于詞典的情感規(guī)則分類方法,在處理指代問題和特殊語言結構時分類結果更加精確。
(3)充分利用情感規(guī)則方法分析的結果,將經過情感語義規(guī)則方法中提取出的有效信息與人工設計的多種特征進行融合映射到N維特征空間中,使模型可以學習到更多的情感知識。
(4)將建立的情感分類算法在酒店評論分析任務上進行實驗驗證。
對于NLP問題,由于漢語情感分析資源有限,且因其絕無僅有的復雜度,從而使得識別中文評論的情感成為一項具有挑戰(zhàn)性的任務。文中提出了一種機器學習與情感規(guī)則相結合的多特征融合的中文文本情感分析方法,目標是對現(xiàn)有評論文本進行情感分類,從而發(fā)現(xiàn)用戶對產品、主題的評價信息。將情緒結果映射到極性,并將其分為三類:正向情感、負向情感和中性情感。
情感詞典是構建的帶有情感極性色彩標記的一個集合,是文本情感分析任務中不可或缺的重要組成部分,通常情況下情感詞典越完備,得到的識別結果越精準。為了得到更好的識別結果,對目前使用廣泛的各大情感詞典(如HowNet、Ntusd、Tsing等)進行整合與擴展,建立了包含基礎情感詞、表情情感詞、程度副詞、否定詞及轉折連詞的綜合情感詞典。
除此之外,還建立了網(wǎng)絡情感詞詞典。對于網(wǎng)絡新詞的出現(xiàn),有很多文獻研究了基于機器學習的擴充情感詞典的方法,取得了一定的效果[9]。但是針對現(xiàn)在各種層出不窮的網(wǎng)絡用語,如“驚不驚喜”、“2333”等詞,由于分詞及候選詞抽選等問題不能用算法得到很好的處理效果。故以知乎爬取的網(wǎng)絡用語詞典為基礎,對其他網(wǎng)絡情感詞進行了整理和擴充,構建了情感詞數(shù)量為726的網(wǎng)絡情感詞典。
中文評論文本通常包含了極強的個人風格和個人感情色彩,表達內容豐富,除了具有不規(guī)范性、語法基本都是偏向生活化和口語化之外,還包含大量不規(guī)范用語、錯別字、鏈接以及表情符號等,所以在進行文本情感分析任務之前,需要對其進行預處理。
為了提高文本情感分析的效率,首先進行濾除網(wǎng)址、標簽、不規(guī)則用語以及去除停用詞的處理。在文本預處理階段,分詞是非常重要的組成部分之一。由于評論文本口語化特點明顯,且包含大量網(wǎng)絡新詞,使用一般的分詞工具效果不是非常理想,所以采用中科院開發(fā)的可加入用戶自定義詞典的中文分詞系統(tǒng)ICTCLAS[10]對評論文本進行分詞處理,以達到更好的分詞效果。
基于情感詞典的分類方法是以情感詞為中心,根據(jù)情感詞典的先驗知識來判斷文本的情感傾向,最經典的是對情感詞進行累加得到文本的情感傾向值,公式如下:
(1)
其中,Swi為第i個情感詞的極性;n為情感詞的總數(shù)。
根據(jù)式1將所有情感詞的極性進行疊加,根據(jù)最后得到的數(shù)值來判斷文本情感傾向值。但是在文本中決定情感極性的不僅只是情感詞,其他如否定詞、程度副詞以及語言結構等都會對情感傾向造成一定影響。
針對經典方法存在的缺陷,提出基于詞典的情感規(guī)則分類方法。由于評論文本一般較短,首先將文本中每個子句作為一個單元,通過以情感詞典為基礎設立的情感規(guī)則方法得到的情感計算公式2對每個單元進行情感傾向計算,最后將所有的單元得分值進行疊加,得到整個評論文本的情感傾向性。
(2)
其中,n表示文本中情感詞的總數(shù);Pwi表示第i個情感詞的極值;m表示修飾第i個情感詞的詞數(shù);modj表示其對應的修飾詞的權值;k表示強化削弱系數(shù),是為了避免主語混淆所導致的情感分析偏差。
在文本情感分析任務各種算法中,往往由于缺少指代判定,所得出的情感極性并不是對主語的判定,結果存在偏差。
情感規(guī)則如表1所示。
表1 情感規(guī)則
基于機器學習的分類方法是將情感分析看作一個模式分類問題,建立分類模型來判斷情感極性。首先,機器學習方法需要對文本進行標注工作,將其作為訓練集,然后提取特征對分類器進行訓練,最后對測試語料進行測試得到分類結果。
文本特征選擇是機器學習的關鍵步驟,決定著情感分類的精度。文中選擇三大類特征:一元詞(unigram)特征、句法特征以及依存詞語搭配特征。其中句法特征是研究組成部分和排列順序的特征,考慮到短語結構可以減少句子歧義,將二元詞(bigram)及其組合詞性標注作為其特征添加到特征集中;依存關系特征是從依存解析樹中得到的依存關系標識,它對情緒類別信息的標注有著重要的作用,可以保存情感詞與情感詞直接相關聯(lián)的信息及其他隱藏信息。
以”華為手機確實不錯,我很喜歡!”為例句進行特征提取。首先采用中科院ICTCLAS分詞工具進行處理,得到的詞性標注以及分詞結果如下所示:
華為/nz手機/n確實/ad不錯/a/,/wd我/rr很/d喜歡/vi! !/wd
其中,/nz代表專有名詞;/n代表名詞;/ad代表副形詞;/a代表形容詞;/wd代表標點符號;/rr代表代詞;/d代表副詞;/vi代表動詞。
從上述結果中可以得到例句的一元詞特征及句法特征。然后在分詞的基礎上,調用斯坦福大學的StanfordNlp工具包,獲得文本的依存關系及其詞語搭配特征。例句的依存關系及詞語搭配表如圖1所示。
依存關系assmod(手機-2,華為-1) punct(不錯-4,-5)nsubj(不錯-4,手機-2) nsubj(喜歡-8,我-6)advmod(不錯-4,確實-3) advmod(喜歡-8,很-7)root(ROOT-0,不錯-4) conj(不錯-4,喜歡-8)
圖1 例句依存關系及詞語搭配
從圖中可以發(fā)現(xiàn)文本的根節(jié)點及其蘊含的4種依存關系:關聯(lián)修飾(assmod)、名詞性主語修飾(nsubj)、副詞修飾(advmod)、并列詞連接(conj)。
由上述分析步驟可以得到機器學習方法的3種基本特征模板。為了避免由于原始特征空間維數(shù)較大導致的分類器效果下降的問題,采用信息增益(IG)[11]的特征選擇方法對原始特征空間進行維數(shù)約簡以選擇相應的特征,其公式如下所示:
(3)
機器學習方法和規(guī)則方法相融合的算法受到了很多研究者的關注,如Qiu等[12]將詞典分類結果作為分類模型的訓練語料,形成一個層級迭代的分類框架;Mohammad等[13]將情感詞累加和和收尾詞的極性作為特征。受前人的啟發(fā),文中提出一種機器學習與情感規(guī)則相結合的多特征融合的分類算法,其流程如圖2所示。
圖2 情感分類流程
作為機器學習和情感規(guī)則融合方法的必要步驟,在根據(jù)改進的情感規(guī)則方法計算出情感得分后,對其有效信息進行提取和擴展,用以與機器學習特征相融合。文中提取了情感詞得分、正/負向情感詞數(shù)量之比、加強次數(shù)與削弱次數(shù)之比、褒/貶情感句數(shù)量之比四種特征,對其歸一化處理后擴展到機器學習特征模板中,訓練SVM分類器,再用測試語料進行測試。通過上述流程,實現(xiàn)了機器學習方法與基于詞典的情感規(guī)則方法相結合的多特征融合的文本分類方法,將從規(guī)則算法中提取出的多個有效情感信息擴展到向量空間,使得機器學習算法能更充分地利用規(guī)則特征,學習到更多的情感知識。
實驗具體的配置如下:處理器為Intel(F) Core(TM)i5-6500 CPU @3.2 GHz;內存8 GB;編程平臺為Eclipse;開發(fā)語言為Java;數(shù)據(jù)庫為SqlSever2008。
實驗數(shù)據(jù)來自(學者譚松波)從攜程網(wǎng)上收集整理的酒店評論語料,隨機抽取正向類別和負向類別樣本各4 000條。其中70%的語料作為訓練數(shù)據(jù),其余30%的語料作為測試數(shù)據(jù)。
為對實驗效果進行評價,采用情感分類準確率(accuracy),即分類正確的樣本數(shù)占所有樣本數(shù)的比例,作為評價指標:
accuracy=num(correct)/num(all)
(4)
當前較為著名的分類器有支持向量機(SVM)、樸素貝葉斯(NB)、K近鄰分類器(KNN)等,文中選擇在文本分類領域中性能較好的SVM算法來測試分類效果[14]。目前應用最為廣泛的SVM分類器主要有LibSVM和SVMLight兩種,采用由臺灣大學林智仁教授開發(fā)的LibSVM[15]進行分類測試,將所獲得的文本特征矩陣轉化成LibSVM所對應的格式,最終獲得情感分類類別。
表2比較了兩種基于詞典的情感規(guī)則方法的效果,結果表明,經過改進的情感規(guī)則方法的準確率得到了有效提升,但由于設定的情感規(guī)則仍較為粗糙,需要繼續(xù)改進。
表2 基于詞典的情感規(guī)則方法分類性能
為了更好地驗證情感規(guī)則方法與機器學習方法融合的有效性,將機器學習的基本特征模板作為基準,加入情感規(guī)則方法提取的有效信息特征作對比。其中,F(xiàn)t1是一元詞特征,F(xiàn)t2是依存關系特則,F(xiàn)t3是句法特征。為了避免特征冗余現(xiàn)象造成的向量空間維數(shù)過大對分類器效果的影響,根據(jù)信息增益公式計算每個特征的信息增益分數(shù),選擇分數(shù)靠前的1 000、2 000、4 000項特征構成文本向量。SVM的核函數(shù)選取徑向核函數(shù)。結果如表3和表4所示。
表3 機器學習與情感規(guī)則融合的方法
表4 對比實驗
從表3可以得知,在不加入從情感規(guī)則方法提取轉化的有效特征情況下,最好的分類精度在一元詞特征與依存特征取信息增益值前2 000項時達到了最好的分類效果,識別率為82.33%。并且一元詞特征與依存特征相結合取得的識別率高于一元詞特征與句法特征相結合取得的識別率,說明在這種短文本的語料中,依存關系特征帶來的性能提升大于句法特征。在融合從情感規(guī)則方法提取的有效特征后,識別效果均有較大提升,并且在三種基本特征信息增益分值前2 000項時與情感規(guī)則特征相融合得到了最好的識別效果,識別率為83.66%。
從表4可以得知,文中提出的方法相比單一的情感詞典方法、機器學習方法在識別準確率上有較大提升,且高于Qiu[12]、Mohammad[13]提出的機器學習與規(guī)則方法相融合的算法,更加適合中文評論文本情感分類,證明了該算法的有效性。
從以上結果可知,在文本情感分析任務中,提出的改進情感規(guī)則方法的準確率得到了有效提升,在提取其有效信息進行多特征融合后達到了最好的分類正確率。
對基于詞典的情感規(guī)則方法進行改進,提出一種基于多特征融合的文本情感分類算法,將從改進的規(guī)則方法中提取有效信息進行轉化擴展,融合基本特征模板形成了更為有效的特征模板,實現(xiàn)了機器學習方法與情感規(guī)則方法的融合。通過酒店評論語料測試,實驗結果表明,該方法在文本情感分類任務中取得了較好的效果。