王海燕,陶皖,余玲艷,王鳴鵑
(1.安徽工程大學(xué)機械工程學(xué)院,安徽蕪湖241000;2.安徽工程大學(xué)計算機與信息學(xué)院,安徽蕪湖241000)
隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)密集型已成為科學(xué)發(fā)現(xiàn)的“第四范式”[1].受大數(shù)據(jù)的影響,當(dāng)今社會又被稱為信息社會,其最主要的一個特點就是信息量的持續(xù)增加.在社交媒體這一平臺上,用戶的身份正在從信息的接受者向生產(chǎn)者轉(zhuǎn)變,由用戶自身生成的社交媒體內(nèi)容正在呈指數(shù)性增加.人們幾乎每天都在互聯(lián)網(wǎng)上與他人分享他們的個人意見與偏好,這就導(dǎo)致了互聯(lián)網(wǎng)上如博客、BBS、電商網(wǎng)站等充斥著對產(chǎn)品、人物、事件的各種評論.這些海量的文本信息蘊含了用戶的各種情感或態(tài)度,如喜、怒、哀、樂、贊成、反對等,且極有可能對后續(xù)的關(guān)聯(lián)用戶產(chǎn)生了一定的引導(dǎo)和影響,故其包含了大量的有用信息和商業(yè)價值.而僅僅通過人工的方法來獲取和分析這些信息費時費力,故需要用計算機來幫助我們自動化的獲取和分析信息,由此產(chǎn)生了情感分析技術(shù)[2].
情感分析是信息檢索、自然語言處理、機器學(xué)習(xí)、語言學(xué)的交叉研究領(lǐng)域.其主要的研究對象是存在于互聯(lián)網(wǎng)中的海量文本,通過對這些文本信息進(jìn)行分析,可以為潛在用戶提供更好的購買決策信息.同時,企業(yè)也急于了解市場的偏好信息,來改善他們的產(chǎn)品.政府也渴望了解公眾對他們政策或者演講的后續(xù)反應(yīng).因此,情感分析是當(dāng)前科學(xué)研究最熱門的研究領(lǐng)域之一[3].從2000年開始,情感分析就得到了眾多領(lǐng)域?qū)W者的廣泛研究,不但是計算機學(xué)科內(nèi)最火的研究問題,也在管理學(xué)領(lǐng)域得到了廣泛地研究.在不同的研究領(lǐng)域中,學(xué)者對情感分析所關(guān)注的問題和目標(biāo)問題的研究角度可能有所不同.在管理學(xué)領(lǐng)域里面,研究者們往往更關(guān)注的是應(yīng)用領(lǐng)域的研究,比如通過挖掘消費者的評論信息來提升商品的銷售量.而在計算機領(lǐng)域里,學(xué)者的研究往往是設(shè)計更加有效的算法或者模型來自動化的從評論文本中抽取出觀點信息[4].
從處理文本的層次粒度來看,情感分析可以分為粗粒度的情感分析和細(xì)粒度的情感分析,其中粗粒度的情感分析又分為篇章級情感分析和句子級情感分析,細(xì)粒度的情感分析則是對目標(biāo)產(chǎn)品的屬性進(jìn)行情感分析,故又稱為屬性級情感分析[5].隨著研究的深入,粗粒度的情感分析無法滿足人們更加細(xì)粒度的情感分析要求,當(dāng)前的情感分析已逐步從粗粒度情感分析向細(xì)粒度情感分析轉(zhuǎn)變.本文依據(jù)近年的文獻(xiàn),對情感分析的理論研究進(jìn)行了回顧,對不同粒度層次的情感分析進(jìn)行概述,主要對細(xì)粒度情感分析的研究任務(wù)、方法、難點等進(jìn)行綜述.
《心理學(xué)大辭典》中對情感的定義是:“情感是人對客觀事物是否滿足自己的需要而產(chǎn)生的態(tài)度體驗”[6].情感是人們對于問題及其屬性所表達(dá)出來的觀點、情緒、意見和態(tài)度.在情感分析的任務(wù)中,情感一詞等同于觀點、情緒、意見和態(tài)度,計算機類的研究者并不太在意情感和觀點的差別,這是因為情感分析本身并不是從語言學(xué)領(lǐng)域誕生的,而是從計算機領(lǐng)域產(chǎn)生的,因此很少會有研究者去關(guān)注二者的區(qū)別,從字典中的定義來看,觀點一般指的是一個人對一件事物的看法.情感是客觀事物在人腦中的直觀性反應(yīng).因此,二者的相同之處非常多,從計算機科學(xué)角度來看,情感就等同于觀點.因此情感分析,又稱為觀點挖掘、意見抽取、情緒分析、主觀性分析[7].
情感分析已經(jīng)成為了自然語言處理中最火熱的細(xì)分研究領(lǐng)域之一.在當(dāng)前的大數(shù)據(jù)時代下,它已經(jīng)成為了計算機科學(xué)、管理科學(xué)和社會科學(xué)都廣泛研究的課題.
Yi等[8]認(rèn)為情感分析就是對文檔的主題進(jìn)行情感分類.Wilson等[9]認(rèn)為提高情感分析結(jié)果的最佳方法是如何提高系統(tǒng)去識別中性情感的能力.Saif等[10]認(rèn)為情感分析的任務(wù)是分析公眾對于產(chǎn)品和公共事件的感受.
篇章級情感分析是情感分析中的最簡單和淺顯的層次.它的前提假設(shè)是一篇文章里面只有一個實體或商品且其只包含一種情感,即正面的或負(fù)面的情感[11].它的目標(biāo)是對整篇文章進(jìn)行極性判斷,該研究公認(rèn)開始于Pang[12]和Turney[13].從歷史研究內(nèi)容來看,篇章級情感分析主要是用詞典法和機器學(xué)習(xí)的方法.
Pang使用了支持向量機(SVM)、樸素貝葉斯(Naive Bayes)、最大熵(ME)三種不同的有監(jiān)督學(xué)習(xí)方法來對電影的評論數(shù)據(jù)來進(jìn)行極性分類,實驗證明SVM要比ME和NB的效果要好,且在構(gòu)造特征上bnigram并不比unigram的效果好,詞的位置對最終分析的結(jié)果并沒有明顯的影響.
Turney提出了基于無監(jiān)督的學(xué)習(xí)方法來對篇章級文檔進(jìn)行分類,他首先將形容詞或者副詞的短語抽取出來作為候選情感詞,再計算候選情感詞和“excellent”的點互信息值(point mutual information,PMI)減去候選情感詞和“poor”的點互信息值來計算情感值傾向(sentiment orientation,SO),如式(1)、式(2)所示
PMI>0,word1和word2相關(guān),且PMI值越大則相關(guān)性越強.
PMI=0,word1和word2獨立.
PMI<0,word1和word2不相關(guān),是互斥的.
SO-PMI(word1)>0,為正面傾向,褒義詞.
SO-PMI(word1)=0,為中性傾向,中性詞.
SO-PMI(word1)<0,為負(fù)面傾向,貶義詞.
文獻(xiàn)[14]基于單層標(biāo)注級聯(lián)模型的篇章情感傾向分析,提出了一種級聯(lián)模型來對文檔進(jìn)行情感分析,通過將句子級的情感分析引入到篇章級情感分析并結(jié)合支持向量機來進(jìn)行篇章級情感分析,較基準(zhǔn)方法有了一定的提高,證明了細(xì)化到句子級的情感分析會有助于提高篇章級情感分析的準(zhǔn)確率.
篇章級的情感分析提供了一篇文章的整體傾向,然而對于新聞、產(chǎn)品評論等文本來說,由于其表達(dá)的情感一般都是多樣的,且評價對象也往往是多元的,此時篇章級情感分析從分析粒度上來說就顯得較為粗糙,不能更好的表達(dá)出情感傾向.因此,研究者開始聚焦于句子級情感分析.
句子級情感分析的層次粒度較篇章級來說有所提高,是將整個文檔以句子為情感單元進(jìn)行分割,其目標(biāo)是挖掘出觀點句中所表達(dá)出來的情感傾向,即判斷該句子屬于正面、負(fù)面或中性的情感.句子級情感分析和篇章級情感分析的情感分類的方法大致相同,因為在對句子級情感分析時就是將其當(dāng)成短文檔,但是在篇章級情感分析中大多忽略中性情感,但是在句子情感分析中是無法忽略的.句子級情感分析有如下潛在的假設(shè):①只有主觀句包含有情感.②一個句子里只有一種情感[15].因此,句子級情感分析的任務(wù)分為如下兩步:①句子主客觀分類,即判斷目標(biāo)句是否包含有情感信息.②識別句子中的情感傾向,即判斷句子是正面觀點還是負(fù)面觀點[16].Wiebe等[17]使用了無監(jiān)督的機器學(xué)習(xí)方法來對句子進(jìn)行主客觀分類,他們通過事先構(gòu)建的種子詞,然后結(jié)合相似度來尋找跟種子詞相似的詞,這樣的詞有可能就是包含主觀信息的詞.Yu等[18]通過將語句相似度和樸素貝葉斯結(jié)合起來對句子進(jìn)行主客觀分類.語句相似度的假設(shè)前提是主觀句與其他主觀句之間在語義上的相似度要大于主觀句和客觀句之間的相似度,他們用SIMFINDER系統(tǒng)來計算句子的主觀性,就是用短語和WordNet中的義項來計算句子相似性,在樸素貝葉斯分類時,他們用unigram、bigram、trigram、詞性、詞性級數(shù)等來構(gòu)建特征來進(jìn)行分類.Wiebe和Riloff[19]使用句法模板作為規(guī)則來進(jìn)行句子主客觀分類.Pang[20]提出了基于最小割的分類算法來對句子進(jìn)行主客觀分類,采用局部標(biāo)簽一致性結(jié)合傳統(tǒng)的分類器來計算句子主觀性的概率.Scheible等[21]采用了相似的技術(shù)來進(jìn)行觀點句和非觀點句的分類,因為并不是所有的主觀句都包含有情感,客觀句有時候也有可能含有情感傾向.對比傳統(tǒng)的句子級情感分析第一步任務(wù)有了很大的提高.王鴿[22]指出:區(qū)分出句子中的主觀從句和客觀從句并劃分主觀性強度將有助于對句子進(jìn)行主客觀分類.
主客觀分類之后的任務(wù)就是對句子進(jìn)行情感極性判斷,文獻(xiàn)[18]在Turney[13]的基礎(chǔ)上,擴大了種子詞集合并用修正之后的對數(shù)似然率替代PMI來確定詞語的情感傾向,再求得詞語的平均似然值來確定句子的情感傾向.石媛媛等[23]利用詞典法來對句子進(jìn)行情感傾向分類.Gamon等[24]基于EM算法,并用樸素貝葉斯分類器對句子進(jìn)行情感分類.Socher等[25]使用了基于遞歸神經(jīng)張量網(wǎng)絡(luò)的深度學(xué)習(xí)方法對句子進(jìn)行情感分類,因該方法可以處理觀點句中的否定現(xiàn)象,因此跟傳統(tǒng)的詞袋模型相比效果提升很多.
在句子級情感分析的背景下,它并不能識別觀點所評價的實體和其對應(yīng)的屬性,而這在實際應(yīng)用中是需要解決的關(guān)鍵問題.且在實際應(yīng)用中文本的復(fù)雜性較高,評價單元也較多,就一個句子整體來說可能是正面的,但是其內(nèi)部各個屬性的觀點卻不一定都是正面的.例如:“小米8屏幕像素很好,性價比高,拍照效果也不錯,就是電池不耐用,總體來說還是很好的,推薦購買!”.從整句話的情感分析來看,評論者對該手機的評價是贊揚的,但對于電池這一屬性的評價卻明顯是負(fù)面的.粗粒度的情感分析無法挖掘出句子中每個屬性及其對應(yīng)的觀點.因此,需要更加細(xì)粒度的情感分析才能挖掘出句子中真實全面的觀點.且在粗粒度情感分析的假設(shè)下,客觀句是沒有包含情感信息的句子,但由文獻(xiàn)[21]的研究可以發(fā)現(xiàn),客觀句有時候也是包含情感要素的.例如:“這個手機每天動不動就自動重啟.”這句話我們可以看到它明顯表達(dá)出了對手機的負(fù)面情緒,而在粗粒度情感分析的背景下,對于包含情感的客觀句就直接舍棄了,這就對情感分析造成了誤差,因此我們需要更加細(xì)粒度的情感分析.
細(xì)粒度情感分析又稱為基于屬性的情感分析.篇章級和句子級情感分析都無法確切知道用戶對于產(chǎn)品的某個屬性是喜歡的或者是不喜歡的.如我們僅僅知道“我喜歡華為P20.”這句話中包含有積極情感,但是這對于今天的實際應(yīng)用來說是遠(yuǎn)遠(yuǎn)不夠的.我們更需要知道的是用戶對華為P20手機各個屬性的情感信息,例如對“拍照效果”“電池”“運行速度”等不同屬性的觀點.而對于“手機拍照效果不錯,就是有時候會卡頓.”如果從句子級情感分析來看,你很難去判斷這句話的整體情感傾向,因為他贊揚了“拍照效果”,但是吐槽了“系統(tǒng)”.為了得到更加細(xì)粒度的分析結(jié)果,我們必須要基于屬性進(jìn)行情感分析.石媛媛等[23]將觀點定義為一個五元組(e,a,s,h,t),其中,e是評論句中的實體,a為實體e的某一個屬性,s為實體e中屬性a的情感,h是評論句發(fā)布者即觀點持有者,t是評論句的發(fā)布時間.以例句:“小米8屏幕像素很好,性價比高,拍照效果也不錯,就是電池不耐用,總體來說還是很好的,推薦購買!”e即為小米8手機,a為“屏幕”“拍照”“電池”這三個屬性,s為對這三個屬性的評價信息“很好”“不錯”“不耐用”.篇章級和句子級的情感分析在對含有多屬性的評論句時,不能滿足人們的日常需求.在這一情況下,如何抽取出句子中的屬性詞、情感詞極其相互之間的關(guān)系就顯得尤為必要,整體為積極情感的句子不代表評論者對于句子中包含的所有評價對象和屬性都是正面的評價,因此,我們需要對評論句的每一個屬性都進(jìn)行情感分析.劉麗等[26]在基于CRF模型的基礎(chǔ)上,通過剪枝的方法來去除掉句子中的無關(guān)評價和情感詞,提高了評價單元抽取的結(jié)果.李盛秋[27]將評價屬性和觀點詞的抽取看作是序列標(biāo)注的任務(wù),使用循環(huán)神經(jīng)網(wǎng)絡(luò)的序列標(biāo)注方法來確定評價屬性和觀點詞.李慧等[28]指出細(xì)粒度的情感分析可以對產(chǎn)品的評論文本進(jìn)行更加深入的分析,對評論文本進(jìn)行更加細(xì)粒度的情感分析可以提取出更加有價值更加細(xì)粒度的情感信息.
目前對基于屬性的情感分析已經(jīng)取得了一些成果,主要研究的內(nèi)容是特征抽取、情感傾向分析、主客觀性識別等.但是嚴(yán)重缺乏對隱式特征和隱式評論的挖掘.如評論句:“小米MAX真的傷不起,太重了!”這句話沒有出現(xiàn)“重量”這個屬性,但是我們明顯知道該句表達(dá)出了對小米MAX手機重量的負(fù)面情緒.文獻(xiàn)[29]通過對從互聯(lián)網(wǎng)爬取的評論句進(jìn)行統(tǒng)計后發(fā)現(xiàn),在全部的評論句中至少有30%的隱式評論句,且在每條隱式評論句中至少有一個隱式特征包含在內(nèi).由此可見,隱式屬性及情感在評論句中是不能被直接忽略的.在基于屬性的情感分析中,對隱式產(chǎn)品特征和情感的挖掘,可以獲得更加精準(zhǔn)的關(guān)于該產(chǎn)品的情感信息,為后續(xù)的決策提供更加全面和精準(zhǔn)的參考信息.此外,在評論句中可能還有客觀句表達(dá)情感信息的情況.如上文1.2所述,在細(xì)粒度情感分析的視角下,對于客觀句的情感信息我們不能直接舍棄.Benamara等[30]在進(jìn)行主客觀分類任務(wù)時,將句子分為了四類,即S、OO、O、SN.其中OO就表示客觀評論句中暗含了情感信息的一類.因此,對隱式情感和暗含情感信息的客觀評論句挖掘可以提高情感分析的準(zhǔn)確率,進(jìn)而提高后續(xù)應(yīng)用的效率.
Zhang等[31]認(rèn)為細(xì)粒度情感分析的任務(wù)包括6個.
(1)實體抽取,
(2)屬性抽取,
(3)觀點持有者抽取,
(4)時間抽取,
(5)屬性情感分類,
(6)生成觀點五元組.
其中屬性情感分析和屬性抽取這兩個任務(wù)近年來受到了極大的關(guān)注,成為了研究的熱點問題,因此本章主要介紹這兩個任務(wù)的研究現(xiàn)狀.
與篇章級和句子級的情感分類相似,屬性情感分類一般也是兩類方法:基于詞典的方法和基于監(jiān)督學(xué)習(xí)的方法.但是在基于屬性的情感分類時需要仔細(xì)研究評論句中的評價對象,因此與粗粒度情感分類相比,又有所不同.
2.2.1 基于詞典的分類方法 細(xì)粒度情感分析中基于詞典的方法與粗粒度情感分析中有很大的不同,主要的差異在于細(xì)粒度情感分類時需要考慮觀點句的評價對象,而在粗粒度情感分類時不需要考慮.一般有兩種方法來解決該問題:①用情感聚合函數(shù)來計算情感詞和實體或?qū)傩栽诰渥又械木嚯x.②計算情感詞的作用范圍來判斷某一情感詞是否作用于該實體或?qū)傩?Ding[32]基于詞典法采用了四個步驟來對屬性級情感進(jìn)行分類.
(1)標(biāo)記情感詞.這一步驟是在句子中尋找每一個情感詞,并判斷其情感傾向,每個積極的情感詞得分+1,消極得分-1.如評論:“華為P10手機的續(xù)航不是很好,但是電池很耐用”.由于“好”和“耐用”都是表達(dá)積極的情感詞,通過該步驟之后句子變?yōu)?“華為P10手機的續(xù)航不是很好[+1],但是電池很耐用.”
(2)處理情感反轉(zhuǎn)詞.情感反轉(zhuǎn)詞指的是那些可以改變情感傾向的詞語,常見的主要是否定詞:不、不要、不是、沒、沒有、無等.在上述例句中,由于含有否定詞語“不是”,在該步驟處理后,該句的情感分析結(jié)果變?yōu)椤叭A為P10手機的續(xù)航不是很好[-1],但是電池很耐用”.
(3)處理轉(zhuǎn)折詞.句子中的轉(zhuǎn)折詞往往會改變句子的情感傾向,中文中常用的是“但是”、“然而”等.包含轉(zhuǎn)折詞的句子在處理時有如下假設(shè):“轉(zhuǎn)折詞前與轉(zhuǎn)折詞后的情感傾向往往是相反的”.因此,若轉(zhuǎn)折詞一邊的情感傾向沒有確定時,而另一邊的情感傾向已經(jīng)確定了,則可以基于該假設(shè)來判定另一邊的情感傾向.經(jīng)該步驟處理后,例句變?yōu)椤叭A為P10手機的續(xù)航不是很好[-1],但是電池很耐用[+1]”.與此同時,我們可以很輕松的推斷出“耐用”是正面的情感詞.
(4)匯總情感得分.最后一步是使用情感聚合函數(shù)來計算情感得分.進(jìn)而得出評論句中對每個屬性的情感傾向程度.假設(shè)句子S含有M個屬性{a1...am},情感傾向集合{se1...sen}以及通過上述步驟計算得出的情感得分.則句子S中屬性ai的情感傾向計算公式為
式(3)中:sej是句子S中的一個情感傾向表達(dá),dist(sej,ai)表示句子S中屬性ai和情感傾向表達(dá)sej的距離,sej.SO是sej最終的語義情感得分,分母表示距離屬性ai越遠(yuǎn)的情感傾向表達(dá)對該屬性的貢獻(xiàn)越低.最終得分為正,則句子S中屬性ai的情感是正面的,最終得分為負(fù),則句子S中屬性ai的情感是負(fù)面的,否則就為中性.該方法較文獻(xiàn)[23]相比效果更好.
在使用詞典法進(jìn)行分類的時候,一個最重要的問題就是情感詞典的領(lǐng)域適用性往往很差.如“快”這個字,在描述操作系統(tǒng)的響應(yīng)速度的時候很明顯是褒義詞,但是在描述電池耗電速度的時候很明顯是貶義詞.所以,在不同的領(lǐng)域之中,同一個情感詞的情感傾向可能會有所不同,在日益復(fù)雜的應(yīng)用背景下,情感詞典不能很好的在多個領(lǐng)域適用.
2.2.2 基于監(jiān)督學(xué)習(xí)的方法 同粗粒度情感分類的方法相比,雖然都是使用了相同的機器學(xué)習(xí)方法(如SVM、貝葉斯、EM等),但是在粗粒度情感分類的任務(wù)中使用的特征在細(xì)粒度情感分類中不再適用.原因是這些特征并沒有考慮到觀點句中的評價對象及特征,無法指明當(dāng)前的觀點是屬于哪一個特征的.因此,在機器學(xué)習(xí)的過程時需要考慮到評論句的評價對象及特征.王立志等[33]通過將SVM和改進(jìn)的粒子群算法結(jié)合起來對影視劇的評論進(jìn)行情感分析.Zhu等[34]提出了一種基于特征的切分模型,將多特征語句分割成多個單特征語句來發(fā)現(xiàn)觀點特征.在真實的中餐館評論上進(jìn)行試驗,準(zhǔn)確率達(dá)到了75.5%.文獻(xiàn)[35]利用句法分析樹來生成關(guān)聯(lián)評價對象的特征集,該方法的假設(shè)前提是指示觀點句中評價對象的實體和屬性都是已知的,且這些特征可以表達(dá)這些實體、屬性和其他詞語的句法關(guān)系.
基于監(jiān)督學(xué)習(xí)的情感分類方法的優(yōu)勢是可以通過不斷學(xué)習(xí)和優(yōu)化的手段從各種特征中自動學(xué)習(xí)出一個有效的分類模型,缺點是基于機器學(xué)習(xí)的分類方法過于依賴訓(xùn)練集,針對不同的應(yīng)用領(lǐng)域,需要大量的人工去標(biāo)注訓(xùn)練數(shù)據(jù).基于詞典的分類方法具有魯棒性高、領(lǐng)域獨立性強的優(yōu)點.但是,基于詞典的方法去構(gòu)建詞典時需要消耗的大量的人力物力.綜上所述,目前僅僅依賴單一的監(jiān)督學(xué)習(xí)方法和詞典法很難獲得非常顯著的作用,面對日益復(fù)雜的情感分析現(xiàn)狀,可以將詞典法和監(jiān)督學(xué)習(xí)方法結(jié)合起來去進(jìn)行細(xì)粒度的情感分類.
細(xì)粒度情感分析的主要方法對比如表1所示.
表1 細(xì)粒度情感分析方法對比Tab.1 Comparison of fine-grained sentiment analysis method
2.3.1 基于頻率的屬性抽取 基于頻率的屬性抽取方法的出發(fā)點為:人們在評論不同的實體或者屬性時,往往是用固定的詞語.因此,那些常常出現(xiàn)的名詞或者名詞短語就是屬性詞.但是,在數(shù)據(jù)稀疏的情況下,該方法的效果就很差,因此,移除那些不是屬性的名詞或名詞短語就顯得尤為必要.Popescu[36]通過計算候選詞語和經(jīng)常用來表示產(chǎn)品部分-整體關(guān)系的詞語的互信息(PMI)來識別候選屬性詞,如公式(4)所示
式(4)中:a是利用頻率法識別出來的候選屬性詞,d是指示詞,通過搜索引擎來計算兩個詞之間共現(xiàn)的頻率.當(dāng)PMI值很小時,則說明a和d沒有頻繁共現(xiàn),則a就不是屬性詞.Ku等[37]利用TF-IDF的方法來計算詞的重要性.Chong等[38]通過信息距離來抽取屬性,例如對于屬性“價格”,可能會找到“元”“人民幣”等詞.
2.3.2 基于句法關(guān)系的屬性抽取 基于句法關(guān)系的屬性抽取的主要思想是:情感詞在句子中通常都是用來評價屬性的,若句子中沒有高頻屬性,則該情感詞附近的名詞和名詞短語則看作屬性.Qiu等[39]通過詞語間的依存關(guān)系來對情感詞和屬性進(jìn)行抽取,這一方法被稱為雙向傳播法(DP).DP方法一開始在英文評論中的屬性詞和情感詞抽取任務(wù)中得到了廣泛應(yīng)用,Zhai[40]將DP方法成功應(yīng)用于中文評論.Xu等[41]提出了一種改進(jìn)的DP方法,主要任務(wù)是:①過濾一些高頻、常識性的概念詞被錯抽取為屬性詞,如:“我們”“東西”;②挖掘出長尾、低頻的屬性詞;③檢驗非情感詞的形容詞.Zhang等[42]認(rèn)為情感詞、屬性詞、句法關(guān)系三者之間存在相互加強的關(guān)系.簡而言之,一個形容詞若修飾了許多屬性詞,那么它就有可能是情感詞.與此同時,若一個候選屬性詞可以通過多個情感詞和句法關(guān)系抽取出來,則它就很有可能是屬性詞.此外,在不同的領(lǐng)域,一些屬性詞是通用的.比如產(chǎn)品中都必然包含“價格”這一屬性,電子產(chǎn)品領(lǐng)域都會有“電池”這一屬性.從這一角度來看,屬性詞是可以通過人工手動的方式構(gòu)建成一個本體.然而,由于產(chǎn)品的更新?lián)Q代速度和人們需求變換的速度過快,一個陳舊的本體很難滿足需求.因此,自動化抽取屬性就顯得至關(guān)重要.
2.3.3 基于監(jiān)督學(xué)習(xí)的屬性抽取 屬性就是一種文本信息,因此屬性抽取從某種角度來看就是文本信息抽取問題.一些常用的監(jiān)督學(xué)習(xí)的文本信息抽取方法都可應(yīng)用于此.其中最主要的就是基于序列標(biāo)注的兩種方法:基于隱馬爾科夫模型方法和條件隨機場方法.Jin等[43]將單詞或詞組當(dāng)做一個目標(biāo)來觀察,屬性詞和情感詞作為潛在標(biāo)簽,他提出了一種詞匯化的隱馬爾科夫模型來抽取評論句中的屬性詞和情感詞,用(wordi,POS(wordi))對來表示一個觀察目標(biāo),POS(wordi)表示單詞wordi的詞性.薛福亮等[44]利用CRF模型來對評論句中的評價對象、情感表達(dá)單元、觀點持有者進(jìn)行聯(lián)合抽取.除了使用HMM和CRF方法之外,學(xué)者們也使用了別的監(jiān)督學(xué)習(xí)算法來對屬性進(jìn)行抽取,李成梁等[45]將依存關(guān)系嵌入到CRF中來抽取評論句中的屬性詞.馬慧芳等[46]提出了一種融合圖結(jié)構(gòu)來抽取語句中的屬性詞和觀點詞.
2.3.4 隱式屬性的抽取 我們通常將屬性詞為名詞和名詞短語的作為顯式屬性詞,比如“華為P10手機電池很耐用”中的“電池”.其余表示屬性的屬性詞則被稱為隱式屬性.表示隱式屬性詞的類型很多,其中最多的就是形容詞和副詞,因為通常來說,形容詞和副詞都是直接描述特定類型的屬性詞,例如“描述的是價格,“重”描述的是重量.價格和重量分別為貴和重的屬性詞.有時候動詞也有可能是屬性詞,例如“華為P10手機耗電很快”中的“耗電”為屬性詞.Su等[47]基于聚類的思想,利用評論句中的顯式-特征觀點對所構(gòu)成的語義關(guān)系來挖掘形容詞詞性的隱式屬性并映射到相對應(yīng)的顯示屬性上面.Hai等[48]提出了一種基于共現(xiàn)信息的關(guān)聯(lián)規(guī)則方法來將隱式屬性映射到顯式屬性中.但是,上述方法在抽取時當(dāng)語料庫較少時很難勝任,且由于語言的習(xí)慣,有時候會錯誤判斷情感詞與屬性詞的關(guān)聯(lián)關(guān)系,例如,人們往往不會說“華為P10手機的價格真貴”而有可能說“華為P10手機的價格真高”.按照上述方法就很容易將“價格”錯誤識別為“高”的屬性.為了彌補基于語料庫方法的不足,張強[49]提出了一種基于情感詞典結(jié)合樸素貝葉斯的方法來對手機評論句進(jìn)行隱式屬性抽取,并基于多種詞法規(guī)則來輔助,提高了隱式屬性抽取的效率.
2.3.5 屬性聚類 顯而易見,我們會經(jīng)常使用不同的詞來描述同一個屬性.例如“音效”和“音質(zhì)”描述的都是同一個屬性,在抽取出屬性之后需要重分類或聚類到特定屬性類別中.每個類別則代表著獨一無二的屬性.Carenini等[50]通過使用字符串相似度、同義詞和WordNet的詞匯之間的距離來進(jìn)行相似度計算,來獲取相似屬性詞之間的同義關(guān)系,這一方法需要事先先定義好分類的類別.Zhai等[51]提出了一種半監(jiān)督的學(xué)習(xí)方法來對屬性詞進(jìn)行聚類,該方法需要事先用人工的方法為每個屬性類別來標(biāo)注一些種子詞.然后在半監(jiān)督的學(xué)習(xí)方法中使用了期望最大化的算法.同時,在事先使用兩種先驗知識來對EM算法初始化:①包含了相同詞語的屬性詞更有可能屬于同一類別,例如,“拍照效果”和“拍照能力”;②在情感詞典中含有相同含義的屬性詞可能就屬于同一類別.例如,“電池”和“電量”.這兩種先驗知識可以幫助EM算法取得更加精準(zhǔn)的分類效果.文獻(xiàn)[52]利用主題聚類模型來抽取屬性詞,同時用詞頻放大方法來增大詞頻.Chen等[53]提出了一種更加有效的基于終身學(xué)習(xí)的主題模型(LTM)來對屬性詞進(jìn)行抽取和聚類.就主題模型的方法來說,它不但可以將屬性抽取和聚類同時完成,在一定程度上也可以處理隱式特征的抽取問題.在今后的工作中,可以將基于規(guī)則和基于主題模型的方法結(jié)合起來可進(jìn)一步提高顯式屬性和隱式屬性抽取的準(zhǔn)確率.
情感分析在技術(shù)上是十分復(fù)雜與艱難的,在大數(shù)據(jù)時代的今天,如何提升細(xì)粒度情感分析的效果是當(dāng)前細(xì)粒度情感分析研究亟待解決的問題.
當(dāng)前的情感分析,尤其是細(xì)粒度的情感分析的對象一般都是商品的評論文本.這些文本一般字?jǐn)?shù)較少且主題鮮明,事先的評價對象也是固定的.但是現(xiàn)在的商品評論中開始充斥著表情和圖片這些非文本信息,且因評論的隨意性,非結(jié)構(gòu)化的信息廣泛存在于評論中,今后如何精準(zhǔn)的對評論中的表情和圖片這些非結(jié)構(gòu)化的信息進(jìn)行抽取是一個難點.
在評論句中,除了有用情感詞來表達(dá)觀點信息之外,有時候?qū)τ诋a(chǎn)品的客觀表述也有可能包含了情感信息.如評論句“這臺電腦每天都要自動重啟十幾遍”,通過這個客觀句表達(dá)了觀點持有者對于這臺電腦的貶義評價.當(dāng)前對隱式情感分析的研究大多都停留在對主觀句中的隱式情感抽取,而對于客觀句中隱式情感分析的研究還很少.今后的研究可以將情感詞典和機器學(xué)習(xí)的方法結(jié)合起來去挖掘隱式情感.
目前大多數(shù)的情感分析研究都是針對英文的,盡管后來許多研究者也開始將視野轉(zhuǎn)到中文,但是許多研究或者方法也都是參考對英文處理的經(jīng)驗.英文具有嚴(yán)格的語法約束且單詞之間存在天然的空格,而中文因為其天生沒有時態(tài)、語態(tài)等語法信息,詞與詞之間也沒有空格.因此,對中文進(jìn)行情感分析時的挑戰(zhàn)要遠(yuǎn)高于英文.今后,對于中文的情感分析需要更加深入的研究.
當(dāng)前,很多社會科學(xué)家開始意識到將社會分析與情感分析結(jié)合起來是一件有趣也有價值的研究問題.但是,他們比較缺乏對大數(shù)據(jù)的處理與分析能力.今后計算機領(lǐng)域的研究者和社會學(xué)領(lǐng)域的研究者共同協(xié)作來推動情感分析領(lǐng)域的進(jìn)步顯得很有必要,這也有助于開拓雙方學(xué)科的視野.
本文首先對情感分析的起源與前期研究進(jìn)行了介紹,闡述了這一領(lǐng)域的基本概念,展示了情感分析由粗粒度向細(xì)粒度轉(zhuǎn)變的過程,重點介紹了細(xì)粒度情感分析的流程和關(guān)鍵問題及方法.通過對大量論文的研究,我們可以發(fā)現(xiàn)情感分析研究的本身充滿了機遇和挑戰(zhàn),同時這一領(lǐng)域具有極高的商業(yè)價值,因此情感分析近年來得到了計算機領(lǐng)域?qū)W者的廣泛研究.情感分析的相關(guān)方法技術(shù)如:情感詞典、機器學(xué)習(xí)、深度學(xué)習(xí)等已經(jīng)相當(dāng)成熟,今后的情感分析重點在于應(yīng)充分與其他學(xué)科領(lǐng)域做交叉性的研究,在管理學(xué)或情報學(xué)中,可以將細(xì)粒度的情感分析與引文分析結(jié)合以幫助他們揭示背后更加細(xì)粒度的數(shù)量特征與規(guī)律.在歷史學(xué)中,通過對古典文獻(xiàn)的細(xì)粒度情感分析,可以在時空維度上挖掘文本創(chuàng)作背后的歷史背景和原因.總之,如何跨領(lǐng)域的使用細(xì)粒度情感分析并將分析結(jié)果完美結(jié)合到所跨領(lǐng)域的實際應(yīng)用中是今后細(xì)粒度情感分析的重中之重.