孫健 李超琪
摘要:詞語是文本中的情感表達的最小單位,而詞語語義的情感傾向性分析是文本情感分類的基礎(chǔ)。利用中文情感詞構(gòu)建出一個基礎(chǔ)情感詞典來判斷未知情感詞的情感極性。本文即是在HOWNET情感詞語集的基礎(chǔ)上,利用義原相似度算法,構(gòu)建了中文基礎(chǔ)情感詞典,并提出以信息融合方法,將此詞典與同濟大學的褒貶詞典進行整合,建立了特定情感詞與特定情感標注以及相應(yīng)的情感權(quán)值的映射關(guān)系,實驗結(jié)果表明,該方法取得不錯的分類效果。
關(guān)鍵詞:中文基礎(chǔ)情感詞典;信息融合;情感權(quán)值;情感標注
0引言
隨著互聯(lián)網(wǎng)的飛速發(fā)展,尤其Web2.0以及社交媒體的出現(xiàn),越來越多的互聯(lián)網(wǎng)用戶在博客、微博、論壇里發(fā)布主觀性文本。這些主觀性文本可能是用戶對于某個產(chǎn)品或服務(wù)的評價,能夠提供企業(yè)以決策參考。或者是公眾對于政府部門的新出臺的政策的看法,來幫助有關(guān)部門了解社會輿情,及時出臺相關(guān)調(diào)控政策。然而面對每天以指數(shù)級的速度增長的Web上的海量的評論信息,單純依靠人工進行收集分析必將是耗時費力的過程,因此,通過計算機來對這些主觀性文本的情感表達設(shè)計展開相關(guān)研究,即情感分析(亦稱意見挖掘),在近些年里逐漸成為自然語言處理研究領(lǐng)域里的一個熱點,并得到快速發(fā)展。
文本情感分析是指對包含用戶表示的觀點、喜好、情感等的主觀性文本的情感傾向進行數(shù)據(jù)提取、情感分類以及做出有效的挖掘和分析等過程。其中詞語情感傾向性的判別是文本情感分析的基礎(chǔ)工作,情感詞的極性判別的優(yōu)劣將直接影響情感分析的結(jié)果。常用的情感分析技術(shù)主要有基于詞典的方法和機器學習的方法。
近年來,研究人員為應(yīng)對不同的意見挖掘任務(wù),提出相應(yīng)的詞典,使之應(yīng)用范圍較小,格式、詞性互不兼容,例如,基于漢語情感詞極性表的產(chǎn)品情感分類,通過極值的正負來判斷客戶產(chǎn)品及其主要特征的喜好或者厭惡。但卻無法得知顧客對于產(chǎn)品具體的感受,例如,驚訝、生氣還是高興?而基于漢語情感標簽的產(chǎn)品情感分類,雖然能對情感詞進行分類,但缺少強度的定量。例如“生氣”與“冒犯”都是屬于憤怒的一類情感標簽,但是兩者的強度,卻明顯呈現(xiàn)出不同,“冒犯”[-0.990]要大于“生氣”[-0.303]。這對于句子級情感傾向性分析有重要意義。
在本文中,主要針對現(xiàn)在大部分的詞典都有的數(shù)據(jù)集不完整、數(shù)據(jù)或格式嘈雜等問題,提出以多源信息融合技術(shù)將多個詞典進行整合,建立了基于情感權(quán)值和情感標注為基礎(chǔ)的中文情感詞典(Sentiment lexicon based polarity scores and emotion labels,SLPE),以獲得單個或單類詞典源所無法獲得的有價值的綜合信息,并最終完成以提高詞典的極性的判斷和深化情感詞的具體情感標注來實現(xiàn)對于產(chǎn)品評論的研究。
1相關(guān)工作
目前關(guān)于詞典的文本情感分類的研究,國內(nèi)外已可見到諸多探討,具體論述如下。
中文情感詞典的構(gòu)建的思路主要分為基于語料統(tǒng)計以及語義詞典等方法,其中,語料統(tǒng)計主要是通過觀察大量語料的特性,找到一些語法模式、語法規(guī)則、語義特征和語言學特性,然后抽取出情感詞并判斷其極性。而語義詞典主要是基于HowNet和同義詞詞林等語義詞典展開。朱嫣嵐等人提出了2種詞匯語義傾向性計算的方法,即基于語義相似度的方法和基于語義相關(guān)場的方法。通過計算詞語間的相似程度,對基于HowNet的詞匯語義相似度及其計算方法,解析表述了2個詞語在詞語的褒貶傾向?qū)凑找欢ǖ挠嬎惴▌t進行賦值。根據(jù)所得的語義傾向度量值判別其褒貶傾向。柳位平等以HOWNET情感詞語集為基準,構(gòu)建了中文基礎(chǔ)情感詞典,并提出情感詞庫的權(quán)值計算方法。
國外方面,Esuli等人研究設(shè)計了基于WordNet中的同義詞集(svnset)來構(gòu)建語義情感詞典SENTIWORDNET:基于每一個同義詞集關(guān)聯(lián)的注釋(Gloss)的定量分析和向量化表示,通過8個不同的三元分類器組合,對同義詞集進行半監(jiān)督分類,計算同義詞集的正面、中立和負面情感傾向性的評分。3種情感傾向性的評分之和等于1。SENTIWORDNET 3.0是對SENTIWORDNET 1.0的提升.其基于WordNet 3.0版本,并采用隨機游走算法(RandomWalk)優(yōu)化同義詞集3個方面的情感評分。
Joshi等人基于4個基礎(chǔ)詞典開發(fā)了一個Twitter情感分類系統(tǒng),利用信息融合的加權(quán)平均法,進行情感值計算。
在已有的研究的基礎(chǔ)上,本文提出一種新的基于信息融合的情感詞典擴建方法,首先對相關(guān)語料庫文檔進行挖掘獲得特征值及其關(guān)系,綜合使用詞形模板和詞性模板,采用模糊匹配方法對情感詞和情感標注進行模糊建模,最后通過采用支持向量機(SVM)方法分類得出情感詞相應(yīng)的情感標注。