摘 要:隨著社交網(wǎng)絡(luò)的飛速發(fā)展,互聯(lián)網(wǎng)平臺(tái)時(shí)刻涌現(xiàn)出大量的文本信息。這些文本信息的情感分析結(jié)果對于政府部門監(jiān)管、消費(fèi)者決策等具有重要的意義。文本情感分析的方法目前分為基于情感詞典方法、基于機(jī)器學(xué)習(xí)方法以及基于深度學(xué)習(xí)方法。本文主要介紹情感分析方法,并提出未來情感分析研究重點(diǎn)。
關(guān)鍵詞:社交網(wǎng)絡(luò);文本;情感分析
一、前言
情感分析與觀點(diǎn)挖掘是自然語言處理領(lǐng)域的一個(gè)基礎(chǔ)任務(wù),屬于文本分析范疇。其目的是從文本中判定識(shí)別觀點(diǎn),挖掘分析情感傾向,抽取得出主要的觀點(diǎn)要素。情感分析的處理對象是文本,而文本有大有小,既可以是一個(gè)完整的文檔,也可以是一個(gè)句子,還可以是一個(gè)單詞或短語。根據(jù)文本的這一特性,情感分析研究可以劃分為3個(gè)層次,即:文檔級情感分析、句子級情感分析、方面級情感分析[1]。情感分析的方法根據(jù)發(fā)展分為基于情感詞典方法、基于機(jī)器學(xué)習(xí)方法以及基于深度學(xué)習(xí)方法。
二、基于情感詞典的方法
傳統(tǒng)情感分析研究方法主要是基于情感詞典的研究方法,基本原理是根據(jù)經(jīng)驗(yàn)將廣泛使用的情感詞進(jìn)行歸納整理,當(dāng)文本輸入后就與詞典內(nèi)容進(jìn)行匹配,尋找文本中與情感詞典中重合的情感詞,從而判斷文本的情感極性?;谇楦性~典方法性能主要取決于情感詞典的構(gòu)建,這必將耗費(fèi)大量的資源進(jìn)行維護(hù)。
三、基于機(jī)器學(xué)習(xí)的方法
基于機(jī)器學(xué)習(xí)對文本進(jìn)行情感分析的原理是人工提取文本特征后由計(jì)算機(jī)根據(jù)某種特定的算法對文本進(jìn)行處理然后輸出情感分類。相較于完全依賴人工構(gòu)建情感詞典的方法,機(jī)器學(xué)習(xí)具有明顯的優(yōu)勢,一方面能有效地緩解勞動(dòng)力的負(fù)擔(dān)且減少非理性判斷,另一方面能構(gòu)建龐大的數(shù)據(jù)庫且能根據(jù)時(shí)代發(fā)展及時(shí)對詞庫進(jìn)行更新。根據(jù)機(jī)器學(xué)習(xí)的發(fā)展階段將機(jī)器學(xué)習(xí)分為有監(jiān)督的機(jī)器學(xué)習(xí)和弱監(jiān)督的深度學(xué)習(xí)。
有監(jiān)督的機(jī)器學(xué)習(xí)方法相較于構(gòu)建情感詞典的方法雖然有了一定的進(jìn)步,但是局限性也比較明顯。首先,有監(jiān)督的機(jī)器學(xué)習(xí)方法主要是依賴分類器,還是需要人工對文本特征進(jìn)行標(biāo)記。其次,有監(jiān)督的機(jī)器學(xué)習(xí)方法是計(jì)算機(jī)根據(jù)已有程序?qū)ξ谋具M(jìn)行重復(fù)機(jī)械操作,并沒有“學(xué)習(xí)”的過程,在進(jìn)行文本情感分析時(shí)不可避免地會(huì)產(chǎn)生無效作業(yè)。效率不高的有監(jiān)督學(xué)習(xí)模型無法適應(yīng)大數(shù)據(jù)時(shí)代的要求。
四、基于深度學(xué)習(xí)的方法
傳統(tǒng)的文本情感分析方法主要有人工構(gòu)建情感詞典的方法或基于監(jiān)督的機(jī)器學(xué)習(xí)模型,但是這2種方法不僅耗費(fèi)大量的人力,而且在大數(shù)據(jù)時(shí)代任務(wù)完成效率和任務(wù)完成質(zhì)量較低。深度學(xué)習(xí)可以通過構(gòu)建網(wǎng)絡(luò)模型模擬人腦神經(jīng)系統(tǒng)對文本進(jìn)行逐步分析、特征抽取且自動(dòng)學(xué)習(xí)優(yōu)化模型輸出,以提高文本分類的正確性。
神經(jīng)網(wǎng)絡(luò)模型的使用不可避免地要涉及詞向量嵌入技術(shù),例如Word2Vec,隨著深度學(xué)習(xí)的發(fā)展,基于時(shí)間序列的模型循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、長短期記憶網(wǎng)絡(luò)(LSTM)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)等被應(yīng)用于情感分析,并取得了較好的效果。RNN有個(gè)長依賴問題,在特征參數(shù)反向傳播的過程中會(huì)發(fā)生梯度消失或者梯度爆炸問題,為了解決這一問題,LSTM(長短時(shí)記憶網(wǎng)絡(luò))被提出,不僅解決了長依賴問題,而且還能捕捉到文本的實(shí)際上下文特征。目前普通的情感分析已經(jīng)研究得比較成熟,而方面級的情感分析正在探索研究階段,主要任務(wù)是提取句子中蘊(yùn)含的方面術(shù)語,并進(jìn)行分類任務(wù)。聯(lián)合方面術(shù)語和方面情感詞提取任務(wù)被制定為序列標(biāo)簽問題,但是由于在許多領(lǐng)域中缺乏有標(biāo)簽的數(shù)據(jù),這阻礙了監(jiān)督方法的有效性,并且先前的方法只能通過方面詞和觀點(diǎn)詞常見句法關(guān)系來彌補(bǔ)領(lǐng)域差距,這種方法高度依賴于外部語言資源,因此Li等[2]人探索了一種無監(jiān)督域自適應(yīng)的學(xué)習(xí)方式,并提出一種新穎的選擇對抗學(xué)習(xí)(SAL),以對齊自動(dòng)捕獲其潛在關(guān)系的推斷相關(guān)向量。SAL方法可以動(dòng)態(tài)學(xué)習(xí)每個(gè)單詞的對齊權(quán)重,以便更重要的單詞可以擁有更高的對齊權(quán)重,以實(shí)現(xiàn)細(xì)粒度(單詞級)的適應(yīng),大量實(shí)驗(yàn)證明了所提出的SAL方法的有效性。
五、總結(jié)
從上述研究中可以看出眾多學(xué)者已經(jīng)意識(shí)到了深度學(xué)習(xí)的優(yōu)越性,并著力于將深度學(xué)習(xí)方法應(yīng)用于文本情感分析任務(wù),從而達(dá)到優(yōu)化情感信息提取以及情感分類的目的。在普通情感分析的研究上已經(jīng)比較成熟。但是,目前深度學(xué)習(xí)在方面級情感分析這一領(lǐng)域還處于探索階段,對于方面術(shù)語和方面分類進(jìn)行端到端建模分析、聯(lián)合提取方面術(shù)語和方面分類是這一研究的重點(diǎn)任務(wù)。
參考文獻(xiàn)
[1]Y.Y.Zhao,B.Qin,and T.Liu,"Sentiment Analysis," Journal of Software,vol.21,no.8,pp.1834-1848,2010.
[2]Z.Li,X.Li,Y.Wei,L.Bing,Y.Zhang,and Q.Yang,“Transferable End-to-End Aspect-based Sentiment Analysis with Selective Adversarial Learning,” in Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing(EMNLP-IJCNLP),Hong Kong,China,2019:Association for Computational Linguistics,pp.4590-4600.
作者簡介:
丁利(1995-),男,漢族,四川瀘州人,學(xué)生,工學(xué)碩士,單位:西華大學(xué)計(jì)算機(jī)與軟件工程學(xué)院計(jì)算機(jī)技術(shù)專業(yè),研究方向:情感分析.