姚海申
摘要:本文提出了一種基于敏感信息主題的情感分析技術(shù),以快速、有效地實(shí)現(xiàn)人們對某一輿情事件的情感傾向的判定。
關(guān)鍵詞:情感分析;輿情;神經(jīng)網(wǎng)絡(luò)
一、情感分析研究方法綜述
情緒分析(Sentiment analysis)或意見挖掘(opinion mining)[1]是對人們對產(chǎn)品、服務(wù)、組織、個(gè)人、問題、事件、主題及其屬性等實(shí)體的看法、情緒、評價(jià)和態(tài)度的計(jì)算研究,該領(lǐng)域開創(chuàng)和快速發(fā)展與網(wǎng)絡(luò)上出現(xiàn)的大量社交媒體密切相關(guān),例如,新聞評論、論壇討論、博客、微博、Twitter和社交網(wǎng)絡(luò)等。
目前,常用的文本情感分析方法大致可分為三類:基于情感詞典和規(guī)則的方法、基于機(jī)器學(xué)習(xí)的方法以及基于深度學(xué)習(xí)的方法。
基于情感詞典的文本情感分析方法首先識別文本中的情感詞,然后根據(jù)現(xiàn)有的情感詞典計(jì)算情感詞的情感傾向。最后,使用預(yù)先制定的計(jì)算規(guī)則計(jì)算文本的最終情感傾向,這類方法的關(guān)鍵在于構(gòu)建一個(gè)精確而全面的情感詞典?;谇楦性~典的方法太過于依賴人工構(gòu)建情感詞典,如何設(shè)計(jì)一種有效的自動(dòng)情感詞典構(gòu)建方法是該方法需要解決的問題之一。
基于機(jī)器學(xué)習(xí)的方法在文本情感分析研究中使用較為廣泛,其不依賴于情感詞典,且具有多種自動(dòng)特征提取方法?;跈C(jī)器學(xué)習(xí)的方法的分類性能在很大程度上取決于所選擇的特征提取方法,因此,在使用基于機(jī)器學(xué)習(xí)的方法時(shí),提取有效特征成為關(guān)鍵任務(wù)。
基于上述對情感分析技術(shù)的分析,本文將基于深度學(xué)習(xí)方法對情感分析技術(shù)進(jìn)行研究。
二、融合敏感信息主題的情感分析技術(shù)
(一)研究方法
對于敏感事件主題的提取,已在文獻(xiàn)[10]中進(jìn)行了詳細(xì)研究,本文將在敏感事件主題的基礎(chǔ)上進(jìn)行事件內(nèi)部文本的情感傾向性研究,提出了一種融合敏感信息主題的文本情感分析模型(Sensitive Information Topics-Based Sentiment Analysis Model,SITSAM)。
此模型將敏感事件主題詞融入到文本表示學(xué)習(xí)中,以進(jìn)行有效的情感描述主體的捕捉。此外,為了更好的挖掘帶有情感傾向的詞對句子情感傾向性的貢獻(xiàn)程度,本文將注意力機(jī)制引入到神經(jīng)網(wǎng)絡(luò)中,以計(jì)算在特定主題下的詞對句子的情感貢獻(xiàn)。
本模型以詞的詞向量作為輸入,輸入到BiLSTM(Bidirectional Long-Short Memory Network)句子編碼器中進(jìn)行學(xué)習(xí),以得到句子的向量化表示,然后使用softmax函數(shù)對句子情感進(jìn)行判別。為了將敏感事件主題信息融入到句子的表示中,本文以以下方式進(jìn)行融合:
在進(jìn)行某一敏感事件主題下的文本情感分析時(shí),將該主題的主題描述詞的詞向量作為BiLSTM神經(jīng)網(wǎng)絡(luò)的輸入,然后對隱層輸出使用Average-Pooling層來聚合主題詞所有隱層輸出以產(chǎn)生單個(gè)主題表示,的計(jì)算如下:
(1)最終將得到的主題描述與句子中每個(gè)詞的輸出進(jìn)行語義連接,得到每個(gè)詞的最終語義表示:
(2)然后對得到的詞的語義表示進(jìn)行注意力權(quán)重的計(jì)算,以提高情感詞對句子的情感貢獻(xiàn)。
最后將得到的文本表示s輸入到softmax層,該層通過sigmoid函數(shù)來計(jì)算出文本情感傾向概率。
(二)結(jié)果分析
為了驗(yàn)證本文所提出模型的有效性,本文以支持向量機(jī)(SVM)算法、FastText、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、長短期記憶網(wǎng)絡(luò)(LSTM)、雙向長短期記憶網(wǎng)絡(luò)(BiLSTM)及本文方法SITSAM進(jìn)行對比實(shí)驗(yàn)。本文采用在分類方法中使用廣泛的準(zhǔn)確率P、召回率R及F1值進(jìn)行結(jié)果的評價(jià)。結(jié)果顯示模型在準(zhǔn)確率、召回率及F1值上都較其他模型要好,對于正向類的識別準(zhǔn)確率達(dá)到了90.83%,對于負(fù)向類更是達(dá)到了91.27%的準(zhǔn)確率,其結(jié)果均比其他模型要好,可以看出情感詞語義的融入及注意力機(jī)制的加入對情感傾向性的判定效果具有明顯的提升,驗(yàn)證了本文方法的有效性。
三、結(jié)語
本文所提出的情感分析模型以長短期記憶(Long-Short Term Memory ,LSTM)網(wǎng)絡(luò)為基礎(chǔ)進(jìn)行改進(jìn)優(yōu)化,由于本文所進(jìn)行的情感分析任務(wù)是在特定敏感信息主題下進(jìn)行,所以本文將主題語義信息與文本語義通過神經(jīng)網(wǎng)絡(luò)進(jìn)行融合,以更好的識別描述主體。實(shí)驗(yàn)結(jié)果表明具有較好的情感分類效果,能夠有效的對公眾的態(tài)度和見解進(jìn)行情感分析,以幫助政府機(jī)構(gòu)了解公眾意向和社會輿情。
參考文獻(xiàn):
[1] Liu Bing. Sentiment analysis and opinion mining[J]. Synthesis lectures on human language technologies, 2012, 5(1): 1~167.
[2]Pang B,Lee L,Vaithyanathan S. Thumbs up? sentiment classification using machine learning techniques[C]. In: Proceedings of Cnference on Empirical methods in natural language processing. Philadelphia: [s.n.],2002: 79-86.
[3]Pang B,Lee L. Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales. In: Knight K, ed. Proc. of the Association for Computational Linguistics (ACL). Morristown: ACL,2005. 115-124.
[4]Goldberg A B,Zhu X. Seeing stars when there aren't many stars: graph-based semi-supervised learning for sentiment categorization[C]. In: The Workshop on Graph Based Methods for Natural Language Processing. Association for Computational Linguistics,2006:45-52.