徐小龍
摘要:隨著互聯(lián)網(wǎng)技術(shù)的普及與應(yīng)用,微博類社交媒體吸引了大量的用戶,每天產(chǎn)生大量的文本信息,包括用戶身邊各類事件的報道、表達(dá)觀點、記錄個人心情等信息。對中文文本的分析研究具有重要的理論及應(yīng)用價值。其中,情感分析是中文文本分析的一項重要的研究方向。然而,目前英文的情感分析方法得到了較大發(fā)展,由于中文與英文在詞法、句法等方面存在較大差異,英文情感分析的方法應(yīng)用于中文情感分析取得的效果并不理想。該文意在研究目前中文文本情感分析的方法及研究現(xiàn)狀,總結(jié)中文情感分析的發(fā)展趨勢。
關(guān)鍵詞:主觀性判定;情感分析;機(jī)器學(xué)習(xí);情感字典
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)02-0149-03
A Review of Sentiment Analysis of Chinese Text
XU Xiao-long
(School of Software Engineering,Tongji University, Shanghai 201800, China)
Abstract: With the popularization and application of Internet technology, Weibo media social media has attracted a large number of users, generating a large amount of textual information every day, including the coverage of various types of events around users, expressing opinions and recording personal feelings and other information. The analysis of Chinese texts has important theoretical and practical value. Emotional analysis is an important research direction in Chinese text analysis. However, at present, the method of emotion analysis in English has been greatly developed. Due to the great differences between Chinese and English in lexical and syntactic aspects, the effect of the method of English emotional analysis applied to Chinese emotion analysis is not satisfactory. This article aims to study the current Chinese text emotion analysis methods and research status, summarizes the development trend of Chinese emotion analysis.
Key words: Subjectivity Identification; Sentiment Analysis; Machine Learning; Sentiment Lexica
1 背景
隨著互聯(lián)網(wǎng)技術(shù)在日常生活中多方面的滲透以及移動智能終端廣泛普及,新浪微博、電子商務(wù)平臺等熱門互聯(lián)網(wǎng)應(yīng)用吸引了大量的用戶,每天會有大量用戶在微博平臺產(chǎn)生海量的用戶數(shù)據(jù),包括個人發(fā)表的觀點、發(fā)布的身邊事件、記錄的用戶心情等各類數(shù)據(jù)信息,面對如此海量的數(shù)據(jù)采用人工處理的方式采集分析出有價值的數(shù)據(jù)是一件人員成本、時間成本很高的任務(wù),甚至是不可能通過人工方式完成的任務(wù)。通過機(jī)器自動獲取、并處理海量的文本數(shù)據(jù)能夠輔助數(shù)據(jù)分析人員研究例如影評,商品評價就是一類蘊(yùn)含巨大商業(yè)價值的用戶數(shù)據(jù)。情感分析是文本分析的一個重要研究方向。 情感分析是一個自然語言處理的集合研究,它包括很多子問題,例如“概念提取”、“主觀性提取”、“命名實體抽取”、“諷刺手法辨識”等。針對英文文本的情感分析進(jìn)行了大量的研究,并取得了一定程度的研究成果,值得注意的是近年來,越來越多的研究人員針對中文的情感分析問題進(jìn)行了大量的研究[1-5]。目前中文文本情感分析主要分為兩大類方法,一類是直接針對中文文本進(jìn)行處理分析,另一類是使用機(jī)器翻譯工具將中文翻譯成英文,然后采用針對英文的分析方法進(jìn)行分析。本文主要討論的方法是針對基于第一類方法的文本分析方法。
1.1 情感分析
“情感”在中文語境下,包括態(tài)度、意見、感覺和情緒等幾個方面的定義。情感分析目標(biāo)的不同分為單詞層次、句子層次及文檔層次,本文主要關(guān)注的文檔層次的情感分析問題。情感分析問題可以認(rèn)為是確定感情分類(積極情感或消極情感)、或者為文本標(biāo)注情感標(biāo)簽(憤怒、喜悅、悲傷等)的問題。
目前情感分析的重點還是在于情感極性的判斷。中文語言不同于英文的一些特性,導(dǎo)致中文文本的情感分類也有別于英文情感分類。中文不同于英文的最明顯的特征是字與字之間沒有空格分隔,一段中文文本就是又一批等距的單字組成;其次是許多中文單詞是由多個單字組成的,分開或者組合錯誤就會失去原有的意義,因此在分析中文文本之前需要進(jìn)行分詞處理。另一個重要的區(qū)別是中文的句法結(jié)構(gòu)跟英文存在較大的差異。在進(jìn)行文本情感極性分類時,無論采用那類情感極性判斷方法,都需要用依賴于中文情感語料庫或中文情感詞典。
1.2 語料庫與情感詞典endprint
情感標(biāo)注語料庫與情感詞典看似相似,實際上是兩種不同的語言表達(dá)結(jié)構(gòu)。在情感分析中的應(yīng)用對應(yīng)了兩類不同的分析方法,標(biāo)注情感的語料庫一般應(yīng)用于基于機(jī)器學(xué)習(xí)方法中,而情感詞典一般應(yīng)用于常識的情感分析方法依賴于情感詞典。
語料庫是文本的集合,其中不僅包含單詞或詞匯,還包含了其他可以表征目標(biāo)語言特性的表達(dá)形式,例如真實的篇章等,而且一般是機(jī)器可讀的形式保存在計算機(jī)中。在基于機(jī)器學(xué)習(xí)的情感分類中,包含了大量的情感表達(dá)的語料庫是訓(xùn)練情感分類器的重要保障。由于目前缺乏標(biāo)注良好龐大的中文語料庫,因而影響了中文情感分析的研究。因此,有大量語言學(xué)研究者從事了中文語料庫的研究相關(guān)工作,試圖擴(kuò)展及改進(jìn)現(xiàn)有的中文語料庫, Li C, Bo X,等人采用深度學(xué)習(xí)算法對13550條影評數(shù)據(jù)進(jìn)行了標(biāo)注[6]。
與基于語料庫的情感分析方法不同,基于情感詞典方法的情感分析方法更加直接。情感詞典是可以表達(dá)主觀感受、情感或者意見的詞匯或短語的集合。根據(jù)情感詞典的標(biāo)注信息的不同,可以分為三類。一類是只包含情感詞的詞典(NELL),第二類是包含情感詞和情感詞的情感極性信息的詞典(NTUSD、HowNet),第三類是包含情感詞和情感詞情感極性值的詞典(Senti Word Net)。然而,不同于英語語言,中文單詞多具有語義和語法歧義,因此不容易簡單地確定情感詞的極性,導(dǎo)致可用的中文情感詞典也是有限的,限制了中文的情感分析的研究。因此,構(gòu)建中文情感詞典在中文情感研究中占有重要意義。構(gòu)建中文情感詞典的方式大致可以歸納為三種,一種是通過手工方式構(gòu)建,但需要花費大量的人力物力;另一種是基于詞典的方式,從一個較小的情感詞集合,在詞典中尋找它們的近義詞和反義詞,然后逐漸擴(kuò)充情感詞典的包含的情感詞集合;第三種構(gòu)建情感詞典的方式是基于語料庫的方式,該方式又有兩種方法,一種是根據(jù)某個領(lǐng)域語料庫中部分詞匯的情感極性,可以通過語料庫計算出其他詞匯的情感極性,從而達(dá)到構(gòu)建情感詞典的目標(biāo);另一種方法是將一個普適的情感詞典利用特定領(lǐng)域的情感分類器調(diào)整為一個特定領(lǐng)域的情感詞典。
1.3 情感分析方法總結(jié)
中文情感分析的第一步是要對文本進(jìn)行分詞處理,然后根據(jù)后續(xù)采用方法不同可以將中文情感分析的方法總結(jié)為兩類,如圖1所示,一類是基于機(jī)器學(xué)習(xí)算法的分析方式;另一種是基于先驗知識的方式?;跈C(jī)器學(xué)習(xí)的方式,將中文情感分析的問題,轉(zhuǎn)化成判別文本情感類別的二或多分類問題(積極情緒、消極情緒);基于先驗知識的方式,采用情感詞典進(jìn)行分析,利用情感詞典中標(biāo)注的單詞或短語的清晰來標(biāo)注文本中出現(xiàn)的情感詞的極性,然后根據(jù)一定的計算公式(例如,代數(shù)求和)得到文本的最終情感極性。
2 基于機(jī)器學(xué)習(xí)的情感分類方法
基于機(jī)器學(xué)習(xí)算法的情感分析通常采用有監(jiān)督分類器算法進(jìn)行情感分析,該方法不需要預(yù)先定義語義規(guī)則,但需要用到良好標(biāo)注的情感語料庫用來訓(xùn)練分類模型。
2.1 基于監(jiān)督機(jī)器學(xué)習(xí)算法的流程
基于機(jī)器學(xué)習(xí)的情感分析方法的一般流程分成分類器模型訓(xùn)練階段和分類器驗證與應(yīng)用階段,如圖2所示,在模型訓(xùn)練階段,在完成文本預(yù)處理后,首先提取文本的詞匯特征、語法特征以及語義等征,例如否定詞提取、詞性標(biāo)注、n-gram特征(單元gram、二元Gram);接下來,運用語料庫文本數(shù)據(jù)訓(xùn)練分類器模型,常用的分類算法有樸素貝葉斯(NB)、支持向量(SVM)、多層神經(jīng)網(wǎng)絡(luò)等。訓(xùn)練模型完成后,在待分析文本上應(yīng)用訓(xùn)練好的分類器應(yīng),可以得到文本的情感分類信息。
2.2 基于機(jī)器學(xué)習(xí)的情感分析研究方向
機(jī)器學(xué)習(xí)算法在處理分類問題上具有優(yōu)異的處理能力,因此被普遍用來解決文本情感分類問題。以往的研究工作主要集中在三個研究方向。1)提取更加有效的特征,該研究方向解決兩類問題,一類是通過提取更復(fù)雜的特征來達(dá)到比簡單的特征更高的分類效果;另一個問題是判斷哪些特征對最終分類更有價值。Zhai等人在自己的研究中,指出除了一些簡單特征(ngarm),情感詞、子句以及一些子句組合也可以用來提取特征[7]。 蘇等人在自己的研究中考慮了語義特征,采用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)單詞的向量表示,最終應(yīng)用SVM進(jìn)行文本情感分類,最終情感分類準(zhǔn)確率達(dá)到90%。2)研究更加有效的模型,例如李等人提出一種新穎的遞歸神經(jīng)深度模型(RNDM),可以基于遞歸深度學(xué)習(xí)算法預(yù)測情感信息,該模型關(guān)注于用句子層次的情感二分類問題,性能比樸素貝葉斯(NB)、支持向量更加優(yōu)良[6]。3)第三個研究方向是研究者試圖采用新的適用于中文情感分類的機(jī)器學(xué)習(xí)方法,例如高等人[10],提出了一種基于聚類算法的中文情感分析方法。從微博等中文文本中提取出情感詞序列,利用最大公共情感序列長度計算兩兩情感序列間的距離,最后采用k-medoids聚類算法將不同的文本按照情感進(jìn)行聚類,該算法不需要標(biāo)記訓(xùn)練樣本并針對短文本具有較好的處理效果,但該方法對預(yù)處理的分詞準(zhǔn)確度比較敏感。
3基于情感詞的情感分析
除基于機(jī)器學(xué)習(xí)的情感分類方法外,另一類稱為基于情感詞的無監(jiān)督方法。針對預(yù)處理分詞后得到的單詞序列,有兩種不同的處理方式,
第一種方式是最簡單直接的代數(shù)運算分析方式,即將文檔分詞處理后的結(jié)果,逐個詞在情感詞典查找對應(yīng)的情感極性值,然后將所有的值進(jìn)行求和。如果最終結(jié)果大于零,則文檔情感極性為積極的,否則,為消極情感。第二種處理方式,會考慮語言的語法規(guī)格等,采用更復(fù)雜的分析模型。
為了獲得更好的分類效果,第二類分析方式是研究者關(guān)注的重點。例如,采用位置索引敏感的算法計算每個分詞的情感傾向,然后計算各位置情感傾向值的平均值作為最終的情感傾向。此外,Zagibalov等人提出一種不依賴任何標(biāo)注訓(xùn)練樣本僅僅需要輸入少量常用情感詞和副詞[8],該方法在識別語句級別情感的效果能達(dá)到監(jiān)督分類器的效果。該研究中將情感的情感分析和主客觀判斷作為連續(xù)的問題討論而非一個分類問題。由于中文詞匯具有歧義性,許多研究工作集中在判斷中文的隱喻。李等人提出中文情感的多意思及判別強(qiáng)度服從正態(tài)分布,因此提出基于正態(tài)分布的中文情感詞的語義判斷的量化分析方法。endprint
到目前為止,我們已經(jīng)看到了中文的情感分析研究將基本組件限制在單字或單詞級別。即使先進(jìn)的算法(基于機(jī)器學(xué)習(xí)的或基于情感詞典的)取得了較好的判別效果,然而字或詞級別的分析可能不能夠推理出真實的情感?;诟拍罴墑e的情感分析需要研究人員更多的關(guān)注,有研究證明概念層次的情感分析更能夠接近文本背后的真實情感,這跟我們的知識世界是由大量概念之間關(guān)聯(lián)組成的不無關(guān)系。圖3[9]表明,自然語言的研究正在逐漸從基于詞匯語義分析發(fā)展到基于詞組語義分析。目前位置,中文的情感分析研究工作中還沒有基于概念層次的工作。
4 結(jié)束語
隨著國內(nèi)電子商務(wù)、社交網(wǎng)絡(luò)的發(fā)展,每天產(chǎn)生海量的用戶數(shù)據(jù)。如此海量的數(shù)據(jù)靠手動的分析處理幾乎是一項不可能完成的工作。準(zhǔn)確高效地識別這些文本中蘊(yùn)含的用戶情感對于企業(yè)、政府部門都具有重大價值。基于英文的情感分析方法已經(jīng)取得了較大的發(fā)展,但是由于中文與英文在語言特性上的差異,針對英文的情感分析方法并不能直接遷移到針對中文的情感分析中。
通過本文對以往針對中文情感分析方法的總結(jié)發(fā)現(xiàn),目前針對中文的情感分析中沒有充分應(yīng)用文本中的包含的概念層次知識。
參考文獻(xiàn):
[1] Zhao Y, Qin B, Liu T. Creating a fine-grained corpus for chinesesentiment analysis[J]. IEEE Intell Syst., 2014, 30(5):36-43.
[2] Liu L, Lei M, Wang H. Combining domain-specific sentimentlexicon with hownet for chinese sentiment analysis[J]. J Comput.2013, 8(4):878-83.
[3] Zengcai S, Hua X, Zhang D, et al. Chinese sentimentclassification using a neural network tool - word2vec[C]// 2014.
International conference on multisensor fusion and informationintegration for intelligent systems (MFI). IEEE, 2014: 1-6.
[4] Li R, Shi S, Huang H, Chao S, et al. A method ofpolarity computation of chinese sentiment words Based on Gaussiandistribution[C]// Computational linguistics and intelligent textprocessing. Springer, 2014: 53-61.
[5] Zhuo S, Xing W, Luo X. Chinese text sentiment analysis basedon fuzzy semantic model[C]// 2014 IEEE 13th International conferenceon cognitive informatics & cognitive computing (ICCI*CC). IEEE, 2014: 535-540.
[6] Li C, Bo X, Gaowei W, He S, et al. Recursive deeplearning for sentiment analysis over social data[C]// Proceedings of the 2014 IEEE/WIC/ACM international joint conferences on web intelligence (WI) and intelligent agent technologies (IAT)-volume 02. IEEE Computer Society, 2014: 180-185.
[7] Zhai Z, Hua X, Kang B, et al. Exploiting effective featuresfor chinese sentiment classification[J]. Expert Syst Appl.2011, 38(8):9139-46.
[8] Zagibalov T, Carroll J. Unsupervised classification of sentimentand objectivity in chinese text[C]//Third international jointconference on natural language processing, p. 304. 2008.
[9] Cambria E, White B. Jumping nlp curves: a review of naturallanguage processing research[J]. IEEE Comput Intell Mag.,2014, 9(2):48-57.
[10] Wei G, An H, Dong T,et al. A novel micro-blog sentimentanalysis approach by longest common sequence and k-medoids[C].PACIS, 2014: 38. .endprint