張冬慧,程顯毅
(1.北京信息科技大學 計算中心,北京 100192; 2.南通大學 計算機科學與技術(shù)學院,江蘇 南通 226019)
認知視角下的輿論觀點句情感計算
張冬慧1,程顯毅2
(1.北京信息科技大學 計算中心,北京 100192; 2.南通大學 計算機科學與技術(shù)學院,江蘇 南通 226019)
針對目前觀點分析方法局限于傳統(tǒng)的文本分析技術(shù),只能將輿論觀點句分為肯定和否定兩極或確定每一極的程度(粗粒度),不能進一步給出輿論觀點句是積極的還是消極的程度的問題。本文從認知學角度研究細粒度語義情感計算框架。提出了一種輿情觀點句的定量分析方法,該方法將對于某話題的文本集合作為輸入,輸出一個實數(shù)表示文本中所表達觀點的能量。本文在NLPIR共享平臺上進行了相關(guān)實驗,給出了粗粒度情感和細粒度情感對觀點句識別的對比實驗,實驗表明,兩種方法對觀點句的識別性能相差不大;對非觀點句細粒度方法好于粗粒度方法。
認知;情感計算;輿論觀點句;觀點的能量;消極;積極;語義;粗粒度;細粒度
當前,計算文本情感主要采用情感詞加權(quán)、語義模式等技術(shù)[1]。語義模式技術(shù),首先提取句子情感特征,然后確定句子的情感色彩,但是語義模式方法對于沒有明顯情感詞的句子,無法判斷句子的情感傾向程度。
文獻[2]從認知學角度出發(fā),考慮到情緒和認知的關(guān)系,提出一種文本情感計算的認知模型,該模型核心是引入了情感圖式,但情感圖式的構(gòu)造主要以手工標注為主,缺少推理功能。任巨偉等[3]在文獻[2]的基礎(chǔ)上提出了一種新的情感圖式構(gòu)造方法,利用上下位關(guān)系并結(jié)合認知語境擴充圖式,增加圖式的推理功能。但文獻[3]沒有區(qū)分情感和情緒,不利于輿論觀點句的情感計算。
在觀點句的情感計算中,僅僅計算語句的肯定或否定還不夠,需要知道肯定或否定的趨勢,即是積極的還是消極的[4]。
本文首先依據(jù)認知學原理,將傳統(tǒng)的情感細分為:情感、情緒和感受3類。區(qū)分后的情感稱為細粒度情感,區(qū)分前的情感稱為粗粒度情感;然后再將細粒度情感細分為輿論觀點和意見評價兩個子類,最后關(guān)注輿論觀點的情感計算。該方法輸入的是某一話題的文本集合,輸出是[-1,1]的實數(shù),其中正數(shù)表示積極的態(tài)度,負數(shù)表示消極的態(tài)度,絕對值越大表示態(tài)度越強烈。研究的動機有兩個:1)觀點態(tài)度識別在輿情分析中需求迫切;2)從細粒度語義角度進行情感計算。
感覺指人腦對直接作用于感覺器官的客觀事物的某些屬性的反應(yīng)。感覺是認識活動的開端,是人認識客觀事物的第1步。其要點是:1)客觀事物直接作用于感覺器官;2)是對客觀事物個別屬性的反應(yīng)。如我的身高屬于我這個人的個別屬性。我衣服的顏色屬于衣服的個別屬性。顏色這個個別屬性直接作用于你的感覺器官,就是眼睛,具體說是視網(wǎng)膜上的視細胞,接收信息的器官叫做感受器。感受器接受信息后,經(jīng)傳入神經(jīng),傳輸?shù)酱竽X中樞,與大腦中樞已有的顏色的概念結(jié)合,得出這是紅色。這就是感覺[5]。
常用描述感覺的詞包括:冷、熱、亮、暗、臭、香、痛、癢等。
感覺產(chǎn)生的同時,還有一定的感受。你覺得我的衣服怎么樣?漂亮還是難看?這就是你產(chǎn)生的感受。所有的人產(chǎn)生一樣的感受嗎?有人就覺得這件衣服不好看不適合我,有人就覺得我穿紅顏色很好看。如果我們的感覺器官神經(jīng)系統(tǒng)沒有問題,所產(chǎn)生感覺的結(jié)果基本會相同,感受卻可能不同[6]。
在感覺的基礎(chǔ)上加上了主觀判斷而產(chǎn)生的心理現(xiàn)象稱為感受。對同樣的客觀事物,不同個體可能會產(chǎn)生不同的感受,即使是同一個體,在不同的時候?qū)ν皇挛镆矔a(chǎn)生不同的感受[7]。當客觀事物直接作用于個體的感覺器官時,首先產(chǎn)生的是感覺,之后才有了感受,一般情況下感覺大體是相同的,感受卻大不相同。比如春天看到田野到處是盛開的油菜花,有人覺得漂亮,想多看幾眼,有人沒覺得有什么特別,這就是感受。
常用描述感受的詞包括:尊重、敬仰、欣賞、鄙視、舒服、滿意、幸福、難過、安全、快樂等。
伴隨著感受又會出現(xiàn)高興或厭煩的體驗,這時又產(chǎn)生了另一種心理現(xiàn)象,就是情緒,是感受的外部表現(xiàn)。情緒沒有對錯,不同的感受就會有不同的情緒。感受是內(nèi)在的,通過情緒表現(xiàn)出來,讓人能夠覺察到。人的面部表情,說話的音調(diào)、節(jié)奏,肢體,還有走路的步伐等都滲透著情緒。如:當人憤怒的時候眉毛會立起來,恐懼時會大喊。于是通過人的外部的情緒表現(xiàn),可以推測人的內(nèi)在感受。面對客觀事物時,首先產(chǎn)生的是感覺,然后是感受,最后發(fā)生的是情緒。但通常情況下是很難區(qū)分的。如:我看到老公醉醺醺的回來,臉立即拉下來了,直接表達了情緒。其實是先看到他走路歪歪扭扭,然后聽到他說話結(jié)結(jié)巴巴,又聞到濃濃的酒味,這些都是感覺。心里想,又喝醉了,幾乎每天都是這樣,我非常不滿,這是感受。我很生氣,甚至憤怒,這是情緒。外部表現(xiàn)是拉著臉,瞪著他或不理他。往往直接暴露的就是情緒。三者是密切聯(lián)系在一起的,甚至有時感到同時發(fā)生。而情緒的發(fā)生又會影響到感官的工作狀態(tài)。如:面對突發(fā)事件時,有人呆若木雞,有人急中生智。因此說情緒是能量,當情緒為我們服務(wù),有助于我們達成目標時,情緒轉(zhuǎn)化的能量分為正能量和負能量。表1列舉了部分描述情緒的詞[8]。
表1 部分描述情緒的詞
1.4.1 情緒與情感的區(qū)別
從它們產(chǎn)生的基礎(chǔ)和特征表現(xiàn)上來看,情緒與情感有所區(qū)別[9]。
1)情緒。情緒出現(xiàn)較早,取決于人的生理需要,是人和動物共有的特征。其特征是:情境性、暫時性、沖動性、明顯的外部表現(xiàn)。
2)情感。情感出現(xiàn)晚些,取決于人的社會需要,是只有人才有的特征。情感的主要特征是:深刻性、穩(wěn)定性。情緒常隨著環(huán)境的變化而變化。情感多指內(nèi)心的體驗,不輕易表現(xiàn)流露出來。
3)情緒與情感的聯(lián)系。情緒和情感盡管有所不同,但卻是密不可分。情感是在多次情緒體驗的基礎(chǔ)上形成了的,并通過情緒表現(xiàn)出來;反過來,情緒的表現(xiàn)受到情感的制約。所以,情緒是情感的基礎(chǔ),情感是情緒的深化。
1.4.2 描述情感的詞
表2列出了部分描述情感的詞語[10]。
表2 部分描述情感的詞
情感是人的本性,但它是主觀和客觀對立統(tǒng)一的產(chǎn)物??陀^事物是情感產(chǎn)生的源泉,人的主觀需要是情感產(chǎn)生的內(nèi)在原因。情感作為信息加工、調(diào)節(jié)主體行為的一種方式,成為主體反映客體的特殊形式,對人的思維方式發(fā)生影響。它影響著思維的波動性、非邏輯性、選擇性和指向性。它可以轉(zhuǎn)化為個體的思維動機。所以,情感與“主觀性”有關(guān)也與“客觀性”有關(guān)。
所謂主觀性情感就是自己由自己的認識、理解、看法所引發(fā)的心理反應(yīng)。就是沒有什么道理可言,自然而然地就產(chǎn)生這種感情了,不受自我控制[11]。
被觀察事物的性質(zhì)和規(guī)律不隨觀察者的意愿而改變的情感稱為客觀情感。如“股票漲了”就是客觀情感句[12]。
網(wǎng)絡(luò)的匿名性、開放性、平等性、交互性等特點不可避免地會出現(xiàn)一些不和諧“雜音”。因為所有網(wǎng)民都可以自由發(fā)表自己的信息或觀點,為了使發(fā)布的信息得到跟帖或采納,就會突出感性色彩以產(chǎn)生感染力和影響力。因此,在網(wǎng)絡(luò)空間,不加證實隨意發(fā)布信息,或有意制造假消息是不可避免的,以至于造成網(wǎng)絡(luò)欺騙,一些網(wǎng)民嘩眾取寵、使得網(wǎng)上出現(xiàn)非理性的語言人身攻擊、謾罵等。所以研究輿論觀點句判別方法成為網(wǎng)絡(luò)信息安全迫切需要解決的問題。
由于我們對情感加以限制,排除了感覺、感受和情緒的詞語,所以輿論觀點句就是包含主觀情感詞語的句子。
人之所以比機器聰明,一個很重要的因素就是人有解決問題的領(lǐng)域常識或語境知識(本體),在解決問題中有著特殊的作用。
本文使用的領(lǐng)域本體包括:褒貶詞典[13-14]、Hownet情感詞典[15]、臺灣大學NTUSD情感詞典[9]等詞典資源。因為粗粒度情感詞大部分和輿論觀點的判別關(guān)系不大,首先去除感受詞和情緒詞,然后進行篩選和整理,最后確定426個靜態(tài)情感詞,其中正向情感詞287個,負向情感詞139個,在此基礎(chǔ)上,增加程度副詞、否定詞、連詞、動詞、代詞、嘆詞、疑問詞、敏感詞、網(wǎng)絡(luò)用語集,擴展后的主觀特征詞匯本體并不是封閉的,在系統(tǒng)工作時,用GATE[16-17]向本體中動態(tài)添加新的主觀特征詞。
主觀特征詞匯本體中概念層次關(guān)系如圖1所示(片段)。矩形框代表本體類別,圓框代表本體實例,每個實例附帶的數(shù)字是該特征在主觀性判別所起的作用,我們稱之為主觀性權(quán)重,取值在[-1,1]。取負表示有利于持反對觀點的主觀句判別,取正表示有利于持支持觀點的主觀句判別。本體共收錄18個否定詞、219個程度副詞、68個連詞、21個情感動詞、17個嘆詞、25個疑問詞、210個敏感詞、185個網(wǎng)絡(luò)流行詞。
1)對語料自動分詞和詞性標注算法[8];
2)對詞性標注后的句子,提取全部連續(xù)的2-gram模式;
3)根據(jù)2)提取出的2-gram模式計算2-gram模式主觀性權(quán)重Onto(t)。
4)根據(jù)式(1)計算句子的主觀性權(quán)重w(S):
式中:w(S)為句子S的主觀性權(quán)重;o為句子S的主觀性2-gram模式個數(shù),n為S的2-gram模式個數(shù),式(1)分子是句子主觀性系數(shù),分母是對在句子出現(xiàn)的本體實例權(quán)重之積的歸一化。
圖1 主觀特征詞匯本體片段Fig.1 The fragment of subjective feature words ontology
如果w(S)>α,則識別句子S為主觀性句子,閾值α是一個經(jīng)驗常數(shù)。
1)實驗數(shù)據(jù)
為了推動主觀性判別的研究,北京理工大學張華平博士曾在NLPIR共享平臺分享了微博語料[18],此外NLP&CC 2012評測集等[19],極大地方便了主觀性判別的研究分析。這些語料評價的力度較粗,不適合本文的實驗。所以,本文的實驗語料,來自采集2016年3月10日~6月10日期間新浪微博熱門話題數(shù)據(jù)集,共包含28個熱門話題,其中每個話題約有1 000條左右的微博。采用投票策略對訓練語料進行標注,首先由4人分別對同一個句子進行標注,然后由第5個人對標注結(jié)果進行核查,剔除意見分歧較大、主觀性不易確定的句子。為使訓練語料更加平衡,本文最終收集的訓練語料共包含非觀點句500條,觀點句480條,其中正能量觀點句250條,負能量觀點句230條。對語料2/3作訓練,1/3作測試。
2)觀點句分類性能分析
表3給出了粗粒度情感和細粒度情感對觀點句識別的對比實驗,粗粒度情感的觀點句識別采用文獻[20]抽取主觀模式的方法。
結(jié)果表明,兩種方法對觀點句的識別性能相差不大,并且準確率和召回率不盡人意,可能的原因是本體的構(gòu)造還有待改進,也可能是人為對語料的標注有問題。對非觀點句細粒度方法好于粗粒度方法,原因是有一些非觀點句包含了觀點句的模式。
表3粗粒度情感和細粒度情感對觀點句識別的對比實驗
Table3Experimentsofviewrecognitiontocomparecoarse-grainedaffectionwithfine-grainedaffection
方法準確率召回率非觀點句觀點句非觀點句觀點句粗粒度98.887.576.284.1細粒度10087.898.582.5
3)觀點能量值計算性能分析
根據(jù)式(1),每個句子都映射為[-1,1]的一個實數(shù)。實驗的目的驗證通過定量的方法來對文本分類,定量的準則不同可實現(xiàn)深層次語義分類。由于還沒有發(fā)現(xiàn)文本定量分類的報道,所以無法實現(xiàn)對比實驗,圖2的實驗結(jié)果也只是個實驗型的,希望能為文本分類提供一種新的途徑。
圖2 文本能量值分布圖Fig.2 Chart of text energy distribution
圖2橫軸為能量值,能量值為0表示該語句識別為非觀點句,能量值為負表示該語句識別為負能量觀點句,能量值為正表示該語句識別為正能量觀點句??v軸為對應(yīng)能量值語句個數(shù)。將其轉(zhuǎn)換為混合矩陣(表4)。
從表4可知,正能量識別準確率為32.3%,正能量識別召回率54.4%,負能量識別準確率為57.0%,負能量識別召回率73.9%,非觀點句識別準確率為68.3%,非觀點句識別召回率16.8%。
表4細粒度情感對觀點句識別的混合矩陣
Table4Themixedmatrixoffine-grainedemotiontoviewrecognition
正能量觀點句負能量觀點句非觀點句136882647170133764084
針對現(xiàn)有的主觀句判別多采用基于統(tǒng)計和關(guān)鍵詞的方法,導致結(jié)果不準確的問題,從認知角度出發(fā),將情感分為細粒度情感、感受和情緒,在此基礎(chǔ)上構(gòu)建了主觀特征詞匯本體,給出句子級深度語義情感分類方法,下一步的研究就是改進能量值計算模型,提高深度語義分類性能。
[1]MCKEOWN G, VALSTAR M F, COWIE R, et al. The SEMAINE corpus of emotionally colored character interactions[C]//Proceedings of IEEE International Conference on Multimedia and Expo, ICME 2010. IEEE Computer Society, 2010: 1079-1084.
[2]徐琳宏,林鴻飛.認知視角下的文本情感計算[J]. 計算機科學, 2010, 37(12): 182-185.
XU Linhong, LIN Hongfei. Text affective computing from cognitive perspective[J]. Computer science, 2010, 37(12): 182-185.
[3]任巨偉,楊亮,林鴻飛.情感圖式構(gòu)造及其在文本情感計算中的應(yīng)用[J].江西師范大學學報:自然科學版, 2013, 37(2): 130-136.
REN Juwei,YANG Liang, LIN Hongfei. The construc-tion of affective schemata and its application in text affective computing[J]. Journal of Jiangxi normal university: natural science, 2013, 37(2): 130-136.
[4]PETRANTONAKIS P C, HADJILEONTIADIS L J. A novel emotion elicitation index using frontal brain asymmetry for enhanced eeg-based emotion recognition[J]. IEEE transactions on information technology in biomedicine, 2011, 15(5): 737-746.
[5]宋靜靜. 中文短文本情感傾向性分析研究[D].重慶: 重慶理工大學, 2013.
SONG Jingjing. Research on Chinese short-text sentiment analysis[D]. Chongqing: Chongqing University of Technology, 2013.
[6]程顯毅,劉穎. 基于知識圖的觀點句識別算法研究[J].計算機科學, 2015, 2015. 42(6): 123-129.
CHENG Xianyi, LIU Ying. Research on algorithm of perspective sentence identification based on knowledge map[J]. Computer science, 2015, 42(6): 123-129.
[7]蔡艷婧,程曉紅,程顯毅. 網(wǎng)絡(luò)敏感信息動態(tài)特征的抽取方法[J]. 常州大學學報, 2014, 16(4): 80-86.
CAI Yanjing, CHENG Xiaohong, CHENG Xianyi. Research on algorithm of network sensitive inforamtion features extracting[J]. Journal of changzhou university: natural science edition, 2014, 16(4): 80-86.
[8]王志良.人工心理與人工情感[J].智能系統(tǒng)學報, 2006, 1(1): 38-44.
WANG Zhiliang. Artificial psychology and artificial emotion[J]. CAAI transactions on intelligent systems, 2006, 1(1): 38-44.
[9]齊鑫.網(wǎng)絡(luò)民意對我國政府決策的影響[D].沈陽:東北大學, 2010.
QI Xin. The influence of net citizen on government decision-making in China[D]. Shenyang: Northeastern University, 2010.
[10]史楊. 網(wǎng)絡(luò)輿情與公共政策議程的設(shè)置[J].云南電大學報, 2011, 13(3): 55-59.
SHI Yang. Setting of internet public opinion and public policy agenda[J]. Journal of Yunnan RTV university, 2011, 13(3): 55-59.
[11]孫浩博,侯軍岐. 論我國互聯(lián)網(wǎng)種業(yè)發(fā)展[J]. 價值工程, 2016, 37(9): 327-329.
SUN Haobo, HOU Junqi. On the development of China's seed industry based on internet[J]. Value engineering, 2016, 37(9): 327-329.
[12]高云棋. 基于主題模型的輿情分析子系統(tǒng)研究與設(shè)計[D]. 成都:電子科技大學, 2013.
GAO Yunqi. Research and development of opinion mining sub-system based on topic model[D]. Chengdu: University of Electronic Science and Technology of China, 2013.
[13]史繼林,朱英貴.褒義詞詞典[M].成都:四川辭書出版社, 2006: 23-28.
SHI Jilin, ZHU Yinggui. The commendatory word dictionary[M]. ChengDu: Sichuan publishers of Lexicogr-aphical, 2006: 23-28.
[14]楊玲,朱英貴. 貶義詞詞典[M]. 成都: 四川辭書出版社, 2006: 15-35.
YANG Ling, Zhu Yinggui. Derogatory term dictionary[M]. Sichuan publishers of Lexicogr-aphical, 2006: 15-35.
[15]董振東.知網(wǎng)的情感詞典[EB/OL]. (2007-10-22) [2013-12-20]. http://www.keenage.com/html/c_bulletin_ 2007.htm.
DONG Zhendong. Hownet dictionary [EB/OL]. (2007-10-22)[2013-12-20]. http://www.keenage.com/html/c_bulletin_2007.htm
[16]rongzhe. NTUSD[EB/OL].臺灣:臺北大學,(2013-8-2) [2014.11-21]. http://www. datatang. com/ data/11837.rongzhe. NTUSD[EB/OL]. Taiwan: Taipei university, (2013 -8-2)[2014.11-21].http://www. datatang. com/ data/11837.
[17]王曉東,王娟,張征. 基于情感詞匯本體的主觀性句子傾向性計算[J]. 計算機應(yīng)用, 2012, 32(6): 1678-1681.
WANG Xiaodong, WANG Juan, ZHANG Zheng. Computation on orientation for subjective sentence based on sentiment words ontology[J]. Journal of computer applications, 2012, 32(6): 1678-1681.
[18]張華平. NLPIR微博關(guān)注關(guān)系語料庫1000萬條[EB/OL]. (2013-10-23)[2014-11-2].http://www.datatang.com/data/14350.
ZHANG Huaping. NLPIR Weibo focused on relationship between corpus of 10 million, [EB/OL].(2013-10-23) [2014-11-2].http://www.datatang. com/data/14350.
[19]中國計算機學會.中文微博情感分析評測結(jié)果[EB/OL]. 北京:北京大學. (2012-11-2)[2014-9-22].http:// tcci.ccf.org. cn/conference/2012/pages/page04_evares. html.
CCF.Chinese microblog sentiment analysis evaluation results[EB/OL]. Peiking:Peiking university. (2012-11-2) [2014-9-22]. http://tcci.ccf.org. cn/conference/2012/pages/ page04_evares. html.
[20]林慧恩,林世平.中文情感傾向分析中主觀句子抽取方法的研究[C]//全國第20屆計算機技術(shù)與應(yīng)用學術(shù)會議(CACIS·2009)暨全國第1屆安全關(guān)鍵技術(shù)與應(yīng)用學術(shù)會議論文集(上冊). 上海, 2009: 379-383.
LIN Huien, Lin Shiping. Research on extracting subjective sentence in chinese sentiment orientation analysis[C]//Conference CACIS·2009. Shanhai, China, 2009: 379-383.
Researchoncomputationofaffectinpublicopinionsentencesfromthecognitionviewpoint
ZHANG Donghui1, CHENG Xianyi2
(1. Computing Center, Beijing Information Science & Technology University, Beijing 100192, China; 2. School of Computer Science and Technology, Nantong University, Nantong 226019, China )
The current viewpoint analysis method is limited to the traditional text analysis technology, whereby a public opinion sentence can only be divided into positive and negative poles and the extent of each pole (coarse-grained) determined. It is difficult to determine whether a public opinion sentence is active or passive. In this paper, we discuss a computation framework for fine-grained semantic sentiments from the cognitive science viewpoint and propose a quantitative analysis method for public opinion sentences. This method takes the text collection of some topic as input and uses a real number to represent the energy of a viewpoint in the text. We conducted an experiment using the Natural Language Processing and Information Retrieval (NLPIR) sharing platform and a contrasting experiment with respect to view recognition by comparing coarse-grained and fine-grained affects. The experimental results show that the two methods have the same recognition performance regarding sentence viewpoints. For no-opinion sentences, the fine-grained method performs better than the coarse-grained method.
cognitive; sentiment computer; public opinion sentence; energy of view;active; negative; semantic; coarse-grained; fine granularity
2016-07-23.網(wǎng)絡(luò)出版日期2017-04-05.
國家自然科學基金項目(61340037).
程顯毅. E-mail:xycheng@ntu.edu.cn.
10.11992/tis.201607023
http://kns.cnki.net/kcms/detail/23.1538.tp.20170405.1519.002.html
TP391.1
A
1673-4785(2017)04-0498-06
中文引用格式:張冬慧,程顯毅.認知視角下的輿論觀點句情感計算J.智能系統(tǒng)學報, 2017, 12(4): 498-503.
英文引用格式:ZHANGDonghui,CHENGXianyi.ResearchoncomputationofaffectinpublicopinionsentencesfromthecognitionviewpointJ.CAAItransactionsonintelligentsystems, 2017, 12(4): 498-503.
張冬慧,女,1969年生,博士,主要研究方向為自然語言處理、計算機網(wǎng)絡(luò)教育應(yīng)用、知識工程。參與出版教材2部,發(fā)表學術(shù)論文5篇。
程顯毅,男,1956年生,教授,博士,主要研究方向為知識工程、大數(shù)據(jù)應(yīng)用、自然語言處理。主持國家自然科學基金2項、江蘇省重點科技攻關(guān)項目1項、省部級項目6項。獲省優(yōu)秀教學成果一等獎1項,二等獎1項。出版專著5部,教材3部,發(fā)表學術(shù)論文100余篇。