姚源林,王樹偉,徐睿峰,劉 濱,桂 林,陸 勤,王曉龍
(1. 哈爾濱工業(yè)大學(xué) 深圳研究生院,廣東 深圳 518055;2.香港理工大學(xué) 電子計(jì)算學(xué)系, 香港 九龍)
文本情緒的識別與分類在文本傾向性分析、輿情分析、事件預(yù)測等領(lǐng)域都有著廣泛的應(yīng)用。其識別過程中涉及到了情緒心理學(xué)、認(rèn)知心理學(xué)、生活常識、輿論導(dǎo)向等諸多因素,加之機(jī)器學(xué)習(xí)、統(tǒng)計(jì)方法等不同的研究手段,正使得文本情緒計(jì)算成為自然語言處理領(lǐng)域的新熱點(diǎn)。作為相關(guān)研究的基礎(chǔ),遵循統(tǒng)一的標(biāo)注規(guī)范下標(biāo)注的情緒語料庫對具體的語言現(xiàn)象分析以及情緒分類算法的設(shè)計(jì)和評估都有重要意義。
目前,國內(nèi)外在情緒標(biāo)注語料庫的構(gòu)建上取得了一定的進(jìn)展。Mishne利用LiveJournal博客系統(tǒng)中作者自行標(biāo)注發(fā)布博客時的情緒信息,構(gòu)建了一個包含815 494篇博客的英文情緒標(biāo)注語料庫[1]。該語料庫標(biāo)注了132種情緒類別,例如,開心、生氣等。Ptaszynski等人對50億字的日語博客進(jìn)行了情緒標(biāo)注[2]。該語料庫采用了10種情緒類別標(biāo)注,此外還標(biāo)注了情緒符號、情感極性等。在中文情緒語料庫的構(gòu)建方面,Quan C.等人提出了一套細(xì)粒度的文本情緒標(biāo)注方案,該方案采用8種基本情緒類別,對1 487篇博客進(jìn)行文檔級、段落級以及句子級三個層次的情緒標(biāo)注[3]。徐琳宏等在小學(xué)教材(人教版) 、電影劇本、童話故事、文學(xué)期刊等語料上進(jìn)行了句子級別的情緒標(biāo)注,采用了7大類,22小類的情緒分類體系,完成近4萬句, 100萬字的語料標(biāo)注[4]。相對于情緒標(biāo)注語料庫,情感傾向性標(biāo)注語料庫的構(gòu)建則相對較為成熟。Xu R.F等人針對中文產(chǎn)品評價中傾向性表達(dá)特點(diǎn),設(shè)計(jì)了一套細(xì)粒度傾向性標(biāo)注方案,分別在詞語級、句子級和文檔級進(jìn)行標(biāo)注。對于每一個傾向性評價,分別標(biāo)注了觀點(diǎn)表達(dá)及其對應(yīng)的產(chǎn)品屬性。同時,引入領(lǐng)域本體對評價目標(biāo)屬性進(jìn)行了概念化規(guī)約[5]。Pak A.等人利用來源于推特(Twitter)的微博建立一個包含了正負(fù)面情感的主觀文本語料庫[6]。
目前情緒標(biāo)注語料庫構(gòu)建在國內(nèi)外取得了一定進(jìn)展,但中文微博文本情緒語料庫構(gòu)建仍處于初級階段。由于微博文本長度較短,表達(dá)較為口語化,網(wǎng)絡(luò)用語較多,與博客等長文本的情緒表達(dá)方式有著較大的差異,導(dǎo)致現(xiàn)有的面向長文本的情緒標(biāo)注規(guī)范不完全適應(yīng)微博情緒標(biāo)注的需要。因此,結(jié)合微博文本特點(diǎn)設(shè)計(jì)情緒標(biāo)注規(guī)范,并構(gòu)建面向微博短文本的情緒標(biāo)注語料庫是十分必要的。
本文選取新浪微博文本作為基礎(chǔ)語料進(jìn)行標(biāo)注。相較于其他語料庫,本語料在選取時充分考慮了中文微博文本的結(jié)構(gòu)、語法和表達(dá)特點(diǎn),諸如表達(dá)口語化、情緒多樣化、情緒轉(zhuǎn)移多、事件及領(lǐng)域覆蓋面廣等,從而以符合日常人們表達(dá)習(xí)慣的特點(diǎn)出發(fā)選取數(shù)據(jù)并建立標(biāo)注語料庫。標(biāo)注過程中,首先在微博級和句子級上對有無情緒進(jìn)行判別,然后對有情緒的微博和句子進(jìn)行7種情緒類別的標(biāo)注,包括快樂、喜好、憤怒、悲傷、恐懼、厭惡、驚訝。此外,在句子級別上增加了包含3個情緒強(qiáng)度等級的標(biāo)注。為保持標(biāo)注結(jié)果的準(zhǔn)確性及一致性,建立了相關(guān)的評價方法和標(biāo)注流程管理。目前,該語料庫已完成14 000條微博、45 431個句子的情緒標(biāo)注。其中,有情緒微博7 407條,無情緒微博6 593條,其中包含有情緒句子15 688條,無情緒句子29 733條。本語料庫為相關(guān)科研工作人員分析微博文本的情緒表達(dá)特點(diǎn)提供了支持。應(yīng)用該語料庫組織了NLP&CC2013中文微博情緒分析評測任務(wù),有效促進(jìn)了相關(guān)領(lǐng)域的研究。
本文組織結(jié)構(gòu)如下: 第2節(jié)介紹微博情緒語料庫標(biāo)注規(guī)范;第3節(jié)介紹語料庫構(gòu)建方法;第4節(jié)對已構(gòu)建情緒語料庫進(jìn)行了數(shù)據(jù)統(tǒng)計(jì)以及標(biāo)注一致性分析。第5節(jié)簡單介紹了應(yīng)用該語料庫組織NLP&CC2013的中文微博情緒識別任務(wù)評測的情況。第6節(jié)給出本文結(jié)論。
本文選取新浪微博文本作為原始標(biāo)注語料。相對于其他語料庫,本語料文本的選擇原則是領(lǐng)域無關(guān),事件分布面廣。在選取的過程中,從2011年至2012年共24個月的上億條數(shù)據(jù)中進(jìn)行隨機(jī)選取,同時每個月選取的微博數(shù)量大致相同。在對長度較短、含有不規(guī)則字符或純轉(zhuǎn)發(fā)的低質(zhì)量微博過濾后,最終留下格式較為規(guī)范的微博作為原始標(biāo)注語料。
微博作者要在簡短的文字中表達(dá)情緒或觀點(diǎn),往往會出現(xiàn)不規(guī)范的句子表達(dá)以及較為密集的情緒分布,所以相對細(xì)致的標(biāo)注粒度很有必要。為此,本文將情緒標(biāo)注的粒度劃分為微博級和句子級。微博級的標(biāo)注從微博整體角度出發(fā),標(biāo)注了微博作者所表達(dá)的情緒,而句子級的情緒標(biāo)注則從微博中每一個句子的角度出發(fā),對作者所表達(dá)的情緒進(jìn)行標(biāo)注。
目前現(xiàn)有的情緒分類體系存在著不一致的情況,這是由于心理學(xué)界對情緒的劃分還沒有一個公認(rèn)標(biāo)準(zhǔn)。較為常用且適合文本情緒分類研究的分類體系是大連理工大學(xué)林鴻飛教授提出的中文情感詞匯本體[7]。該分類體系是在Ekman的6大類情緒分類體系,在6種情緒類別(“憤怒”、“厭惡”、“恐懼”、“高興”、“悲傷”、“驚訝”)的基礎(chǔ)上,增加了情緒類別“喜好”,對正面情緒進(jìn)行了更細(xì)致的劃分。本文采用該方案提出的7類情緒體系。
現(xiàn)有的情緒標(biāo)注語料庫中大多采用單標(biāo)簽情緒標(biāo)注,也就是認(rèn)為每一個標(biāo)注文本對象只包含唯一的情緒類別。但是,在實(shí)際表達(dá)中,同一條文本作者往往會同時表達(dá)多重的情緒,如例1所示。
例1“清明節(jié)放三天假,但是老師布置了比平時還多的作業(yè),我真是悲喜交加啊?!?/p>
在例1中“悲喜交加”不僅表達(dá)了作者“高興”的情緒,同時也表達(dá)了“悲傷”的情緒。
經(jīng)過對500條抽樣微博進(jìn)行情緒表達(dá)統(tǒng)計(jì)發(fā)現(xiàn),在有情緒的微博中,僅包含一種情緒的微博占到近80%,有兩種情緒的占到17%,三種及以上情緒的則只有很小的比例。為此,在標(biāo)注方案中對微博文本進(jìn)行了多標(biāo)簽情緒標(biāo)注。具體的,對每一標(biāo)注文本標(biāo)注至多兩種情緒,其中一種為主要情緒,一種為次要情緒。主要情緒和次要情緒劃分主要遵循如下方法,即首先明確微博或句子所包含的所有種類的情緒,然后對這些情緒在該微博或句子中的強(qiáng)弱程度進(jìn)行排序,取最強(qiáng)的情緒作為主要情緒,若包含多個情緒,取次強(qiáng)的情緒作為次要情緒。
文本中包含的情緒往往在強(qiáng)度上有很大的差異。如下面兩個例子。
例2“這令我傷心欲絕。”
例3“這令我心情不悅?!?/p>
例2和例3都表達(dá)了“悲傷”的情緒在內(nèi),但是“傷心欲絕”要比“心情不悅”悲傷的強(qiáng)度更大。因此,有必要在情緒類別標(biāo)注的基礎(chǔ)上標(biāo)注情緒表達(dá)強(qiáng)度。
為了更好的體現(xiàn)句子中主次要情緒的縱向?qū)Ρ群臀⒉┲芯渥娱g情緒的橫向?qū)Ρ?,?biāo)注規(guī)范中要求對每個情緒句進(jìn)行了三個強(qiáng)度等級的標(biāo)注。分別由3、2、1代表強(qiáng)、中、弱。每個情緒最終的強(qiáng)度值通過對多人標(biāo)注的強(qiáng)度的平均值獲得。
由于微博的表達(dá)方式較為隨意,有一些微博不適宜作為最終使用語料,因此在標(biāo)注前要對微博進(jìn)行數(shù)據(jù)篩選。篩選過程分為兩個步驟: 首先對過短的微博進(jìn)行篩除,包括單純轉(zhuǎn)發(fā)或@、僅有“轉(zhuǎn)發(fā)微博”字樣、純表情符或者標(biāo)點(diǎn)符號、或字?jǐn)?shù)少于5個字的微博,原因在于這些微博對于情緒表達(dá)研究意義不大。此外還去除非普通話微博(粵語、英語、日語等)以及各種其他類型怪異微博,如字符畫等。
在對微博文本進(jìn)行情緒標(biāo)注之前,需要對微博進(jìn)行分句。分句時原則上按照如下規(guī)則:
1) 括號及其之內(nèi)的文本不單獨(dú)成句。
2) 對于較長的句子且僅用空格做分隔符的,用空格作為分句依據(jù)。
3) 純標(biāo)點(diǎn)符號不算做一句話,如全是嘆號,盡管表達(dá)了一定的情緒,但不作為獨(dú)立句。
4) 因?yàn)槭侵形恼Z料庫,所以英文不作為單獨(dú)的句子,但可以作為一句話中的子句。
在分句階段,由于微博文本不同于格式規(guī)整的新聞文本,很多情況下都是發(fā)布者隨意發(fā)布、格式不一,通過機(jī)器提取的規(guī)則不足以覆蓋所有的微博分句,故需要人工干預(yù)分句,以確保準(zhǔn)確度。
3.2.1 情緒有無及主客觀評價的區(qū)分
情緒按照持有者角色屬性來說,共分為4類,即發(fā)出評價者的情緒,所屬者或被描述者的情緒,動作、評價、事件、狀態(tài)受體的情緒,旁觀者或者讀者的情緒[8]。在本標(biāo)注體系中,僅考慮的是微博發(fā)出者的情緒狀態(tài),因而主要從第一類,即發(fā)出評價者或微博作者的情緒的角度進(jìn)行標(biāo)注。
對事物的評價分為客觀評價和主觀評價兩種??陀^評價對客觀存在的一種描述,而非表達(dá)自己的情緒,所以本研究認(rèn)為客觀評價類的微博是沒有情緒的。相反,主觀評價類微博是有情緒的,部分主觀評價與客觀評價比較難判別彼此,通過抽樣統(tǒng)計(jì)發(fā)現(xiàn),如果形容詞前面有程度詞或副詞修飾的話,則會具有較大的概率被認(rèn)為這是一種主觀評價,如下面三個例子。
例4“宮殿是帝王朝會和居住的地方,規(guī)模宏大,形象壯麗,格局嚴(yán)謹(jǐn)?!?/p>
例5“她的咸蛋酥,年糕椰蓉酥,叉燒酥都很不錯,超贊哦。”
例6“她看到了這里的風(fēng)景后,高興的大呼起來,非常激動?!?/p>
在例4中出現(xiàn)的形如“規(guī)模宏大、形象壯麗”等正面評價詞語都是對宮殿的客觀、嚴(yán)謹(jǐn)和正式的描述,沒有個人情緒蘊(yùn)含在內(nèi),所以不作為情緒句。在例5中則出現(xiàn)了“不錯”,“超贊”這類褒獎詞語,含有主觀評價的成分在內(nèi),則認(rèn)為是情緒句。而在例6中盡管有著非常明顯的情緒表達(dá),但是這個情緒不屬于微博作者,而屬于對于人物或事件的陳述,在本研究中視為無情緒。
3.2.2 微博整體情緒和句子情緒的關(guān)系
通常一條微博由若干句子組成,對應(yīng)的情緒分布往往有兩種情況。即集中分布在一個句子上或散列分布在若干句子上。由此我們也能發(fā)現(xiàn),如果微博整體有情緒的話,微博句子中至少有一個是有情緒。多個有情緒的句子之間可以極性相反,這也符合漢語日常表達(dá),但同樣要遵循一個為主要情緒一個為次要情緒??紤]到微博存在轉(zhuǎn)發(fā)以及非原創(chuàng)的情況,微博整體無情緒的情況下,允許作為轉(zhuǎn)發(fā)或者引用的句子有情緒。
在一條微博中,往往會出現(xiàn)情緒變化的情況,特別是情緒正負(fù)極性的變化。例如,
例7“不過真好聽,一水即興的solo,真比原版好聽??上Я?,可惜老天不作美”
例7中第一句有著明顯的“喜好”的情緒在內(nèi),在第二句則轉(zhuǎn)為了“悲傷”的情緒。對于此類情況,在標(biāo)注過程中按照其實(shí)際情緒進(jìn)行標(biāo)注,整體情緒按照微博最大的情緒傾向性標(biāo)注。確定最大的傾向性首先利用轉(zhuǎn)折關(guān)系、篇幅長度來明確微博所要講述的中心事件,然后確定中心事件的情緒及其強(qiáng)度并作為最終的最大傾向性。所以在標(biāo)注的過程中,由轉(zhuǎn)折關(guān)系可知例7中整體中心事件為“天公不作美”,主要情緒為“悲傷”,次要情緒為“喜好”。
3.2.3 反諷,反語情況的標(biāo)注
反語,反諷的微博文本無論在人工標(biāo)注還是在機(jī)器分類中都有著標(biāo)準(zhǔn)不統(tǒng)一的情況,本文中遵循以下的原則約定反諷的概念。
1) 言非所指。即實(shí)際內(nèi)涵與表面意義相互矛盾。
2) 鮮明性。要避免含糊,具有明確的反語,反諷的傾向性。
3) 按趙毅衡先生在《新批評》一書中的劃分,“反諷”分為“克制敘述”、“夸大敘述”、“正話反說”、“疑問式反諷”、“復(fù)義反諷”、“悖論反諷”、“浪漫反諷”和人物主題與語言風(fēng)格上的“宏觀反諷”等。
在語料的標(biāo)注過程中,對于符合上述反諷、反語的微博語句,按照其蘊(yùn)含的真正的內(nèi)在情緒并結(jié)合上下文語境、常識進(jìn)行標(biāo)注。如例8所示。
例8“結(jié)構(gòu)主義,我們中國太缺乏這樣的思想人士了。還有窮舉法,這方法,懂得使用的人太少了。我們國民都太聰明了。所以,各種法規(guī)政策總是顧頭未顧尾,漏洞百出,而且還死不悔改!”
在例8中,“太聰明了”實(shí)際上并不是一個贊揚(yáng)的語氣,作者在此使用了反諷,故而認(rèn)定為蘊(yùn)含“厭惡”的情緒在內(nèi)。
對于不能確定是否為反諷、反語的其他情況則按照文本表面含義進(jìn)行標(biāo)注。
3.2.4 表情符的處理
表情符在微博情緒的表達(dá)中占有著重要的作用,但在數(shù)據(jù)的抽樣考察中我們發(fā)現(xiàn)表情符的使用經(jīng)常出現(xiàn)字面含義與語境意義不同的情況,例如,在表達(dá)特別高興的情緒的時候,有的微博使用“[大哭]”,有的使用“[大笑]”等不同情緒極性的表情符。
例9“哈哈,我已笑哭…大家走過路過,千萬不要錯過??! 看看人家多斯文[大哭] [大哭]用語多文明[大哭] [大哭] [大哭]就是靠這樣來拉粉的?!?/p>
在例9中,微博自身主要情緒為喜好,次要情緒為高興,但是在表情的選擇時使用了大哭的表情符,借以表達(dá)一種強(qiáng)烈的喜好和高興的情緒,這是微博這一類文本中特有的語言現(xiàn)象,具有一定的情感增強(qiáng)的作用。故而在標(biāo)注的時候,不能直接使用表情符作為文本情緒的類別,而必須是作為情緒判斷的參考,通過上下文的理解確定最終標(biāo)注的情緒類別。
語料庫構(gòu)建中共有4名標(biāo)注人員,在標(biāo)注前進(jìn)行了統(tǒng)一的培訓(xùn),但是由于不同人對同一件事物的理解不同,標(biāo)注結(jié)果的差異性很難避免。為了盡量減少標(biāo)注的不一致,按照如下方式,在三個階段中進(jìn)行一致性控制。
1) 將未標(biāo)注文本分為4份,每人標(biāo)注一份。
2) 將標(biāo)注結(jié)果隨機(jī)轉(zhuǎn)至另一名標(biāo)注人員進(jìn)行復(fù)標(biāo),同時記錄標(biāo)注結(jié)果不同的文本數(shù)量。
3) 將四份文本合并后打亂順序,再分為兩份,每份交予兩名標(biāo)注人員同時討論復(fù)標(biāo)。
通過如上的方法,保證了每個微博均被標(biāo)注3次,同時最少被兩名不同人員標(biāo)注,且該情況下會在步驟3)雙人標(biāo)注結(jié)果比較中再次得到統(tǒng)一,由此可以使誤標(biāo)注數(shù)量盡量降到最低。出現(xiàn)3次標(biāo)注均不相同的情況概率很小,如果發(fā)現(xiàn)這種情況,則由4名標(biāo)注人員共同討論并確定最終結(jié)果。標(biāo)注結(jié)束后,利用Kappa值作為一致性指標(biāo)的度量。
標(biāo)注完成后,以XML格式存儲,圖1顯示了一條有情緒微博的標(biāo)注示例。
圖1 有情緒微博標(biāo)注示例及存儲格式
目前語料庫構(gòu)建已完成14 000條微博、45 431個句子的情緒標(biāo)注。在此基礎(chǔ)上,對微博情緒表達(dá)的語言現(xiàn)象和語言規(guī)律進(jìn)行了一系列的統(tǒng)計(jì)和分析。
表1和表2分別是對微博級和句子級有無情緒的數(shù)量統(tǒng)計(jì)。
表1 微博級有無情緒比例
表2 句子級有無情緒比例
從統(tǒng)計(jì)中可以看出,有情緒的微博和無情緒的微博在微博級上比例大致相同。而在句子級別上,在句子級上有情緒和無情緒的比例大致為1∶2,這與先期對微博原始語料進(jìn)行抽樣統(tǒng)計(jì)得到的情況基本符合。
本語料對于微博級和句子級都實(shí)現(xiàn)了多情緒標(biāo)注,表3及表4是對有情緒的微博及句子進(jìn)行的數(shù)量統(tǒng)計(jì)。
表3 有情緒微博中各情緒分布情況
從表3和表4中可以看出,無論是有情緒微博還是有情緒句子中,各類別情緒的分布都有所差異,其中,“喜好”類所占的比例最大,而“恐懼”、“驚訝”類所占的比例則較小。
表4 有情緒句子中各類情緒分布情況
通過對標(biāo)注數(shù)據(jù)的分析我們發(fā)現(xiàn),在同一條微博或句子中,當(dāng)一種情緒出現(xiàn)后,往往有些其他的情緒伴隨出現(xiàn)。例如,出現(xiàn)“喜好”的時候,“高興”也會有很大的概率隨之出現(xiàn)。同一個微博或句子中,每種可能出現(xiàn)的主要、次要情緒的組合,稱之為一種情緒的伴隨,取值范圍為7種基本情緒或無情緒的組合。同時情緒伴隨是一個有序的組合,即{高興,喜好}和{喜好,高興}是不同的情緒伴隨。理論上有情緒微博最多含有49種情緒伴隨可能。
我們對所有含有兩種情緒的情緒表達(dá)進(jìn)行統(tǒng)計(jì),利用條件概率公式計(jì)算伴隨情緒的出現(xiàn)概率。
(1)
式(1)中,Emotion1表示主要情緒,Emotion2表示次要情緒。
表5顯示了利用式(1)進(jìn)行的微博級情緒伴隨的統(tǒng)計(jì),表6顯示了句子級情緒伴隨的統(tǒng)計(jì)。
表5 微博級別伴隨情緒統(tǒng)計(jì)
表6 句子級別伴隨情緒統(tǒng)計(jì)
通過統(tǒng)計(jì)可以看出,無論在句子級別還是微博級別,“高興”和“喜好”經(jīng)常同時出現(xiàn),“憤怒”則經(jīng)常同“厭惡”伴隨出現(xiàn)。其他的情緒之間也有一定的關(guān)聯(lián)。
所謂情緒轉(zhuǎn)移指的是同一條微博中,相鄰的兩個句子之間的情緒變化。分析鄰接句間情緒的轉(zhuǎn)移規(guī)律往往也能夠更好地促進(jìn)句子的情緒分類。為此,我們對微博中句子間情緒的轉(zhuǎn)移進(jìn)行統(tǒng)計(jì)。情緒a向情緒b的轉(zhuǎn)移概率可以利用式(2)計(jì)算得出。
式(2)中,EmotionS表示句子S的情緒;EmotionSP表示句子S的前一句的情緒。
表7顯示了7種情緒以及無情緒之間的情緒轉(zhuǎn)移概率。
表7 句子間情緒轉(zhuǎn)移統(tǒng)計(jì)
通過上表可以看出,具有相同極性的情緒轉(zhuǎn)移概率往往大于不同極性的情緒之間的轉(zhuǎn)移概率。例如正面情緒“高興”到正面情緒“喜好”的轉(zhuǎn)移概率要遠(yuǎn)大于到負(fù)面情緒“憤怒”的轉(zhuǎn)移概率。通過分析情緒的轉(zhuǎn)移規(guī)律可以更好地指導(dǎo)結(jié)合上下文的情緒分類。
針對每個微博句子的情緒,我們設(shè)定了3個強(qiáng)度等級,分別使用3,2,1表示強(qiáng)中弱不同等級的強(qiáng)度。在實(shí)際標(biāo)注中,句子的第一情緒原則上要強(qiáng)于第二情緒的強(qiáng)度,個別情況下可以相等。
表8 情緒平均強(qiáng)度統(tǒng)計(jì)
可以看出,對于“憤怒”等情緒,情緒強(qiáng)度較為強(qiáng)烈。而對另一些情緒,例如“悲傷”,情緒強(qiáng)度則相對弱一些,這也是符合人們情緒的客觀情況的。
本研究使用Kappa值作為標(biāo)注一致性的檢驗(yàn)標(biāo)準(zhǔn),分別對微博級情緒有無、微博級情緒類別選擇、句子級情緒有無、句子級情緒類別選擇、句子級情緒強(qiáng)度進(jìn)行一致性檢驗(yàn)。表9顯示了以上6種情況下的Kappa值。
通過表9可以看出,在情緒有無方面,各標(biāo)注者的一致性較高,而在細(xì)粒度的情緒類別選擇方面,各標(biāo)注者的一致性相對較差一些。在句子級情緒強(qiáng)度標(biāo)注中得到的一致度約為0.646,主要原因是對于同一個情緒句,不同標(biāo)注者的情緒敏感性不同,但整體上一致性仍然達(dá)到了較高的水平。
表9 標(biāo)注一致性統(tǒng)計(jì)
應(yīng)用本文建立的微博情緒標(biāo)注語料庫,組織了NLP&CC2013中文微博情緒分析評測。其中,選擇4 000條微博作為訓(xùn)練數(shù)據(jù),10 000條微博作為測試數(shù)據(jù)。該評測任務(wù)中,共有19支隊(duì)伍提交了58組有效結(jié)果,在這些參賽隊(duì)伍中提出了很多的新的思想和方法。其中,賀飛燕等人結(jié)合TF-IDF方法與方差統(tǒng)計(jì)方法,提出了一種實(shí)現(xiàn)多分類特征抽取的計(jì)算方法[9]。采用先進(jìn)行極性判斷,后進(jìn)行細(xì)粒度情緒識別的處理方法,構(gòu)建細(xì)粒度情緒分析與判別流程, 并將其應(yīng)用于微博短文本的細(xì)粒度情緒識別。張晶等以情緒因子中的常用情緒詞和情緒短語為基礎(chǔ)構(gòu)建情緒詞典,并針對特殊的情緒表達(dá)式,結(jié)合標(biāo)點(diǎn)符號和表情符號在情緒分析中的功能,建立情緒規(guī)則庫,然后,通過對情緒詞典和情緒規(guī)則的匹配和計(jì)算,實(shí)現(xiàn)對中文微博情緒的識別和分類[10]。 歐陽純萍等人針對中文微博的用戶情緒分析問題,提出了一種基于多策略融合的細(xì)粒度情緒分析方法,首先采用貝葉斯算法對微博的有無情緒分類,然后構(gòu)建有情緒微博的21維特征向量,最后采用SVM和KNN算法對微博進(jìn)行細(xì)粒度情緒分類[11]。
本次評測分別進(jìn)行Close封閉資源測試和Open開放資源測試。其中Close封閉資源測試要求各參評單位只使用組織者提供的詞典、分詞工具等資源;Open測試則允許參評單位利用現(xiàn)有語言資源開發(fā)和訓(xùn)練系統(tǒng),并用于測試結(jié)果生成。評測分別評估了Close和Open測試所取得的系統(tǒng)性能。
表10和表11分別列出了NLP&CC2013微博級情緒有無斷任務(wù)Close和Open評測中性能較優(yōu)的部分結(jié)果。
表10 NLP&CC2013微博級情緒有無Close評測部分結(jié)果
表11 NLP&CC2013微博級情緒有無Open評測部分結(jié)果
通過表10和表11可以看出,在情緒有無判斷任務(wù)中,各隊(duì)伍都取得了較高的分類性能。同時,由于Open評測可以充分利用各種外部資源,分類性能相比Close評測略高。
表12和表13分別列出了NLP&CC2013微博級情緒類別識別任務(wù)Close和Open評測中性能較優(yōu)的部分結(jié)果。
表12NLP&CC2013微博級情緒類別識別任務(wù)Close評測部分結(jié)果
隊(duì)伍編號正確率召回率F值130.25720.23090.2434150.21600.28100.2442190.27040.30640.2873
表13NLP&CC2013微博級情緒類別識別任務(wù)Open評測部分結(jié)果
隊(duì)伍編號正確率召回率F值40.28420.34800.312980.25880.29660.2595140.24740.25280.2501
通過表12和表13可以看出,相比情緒有無判斷任務(wù),對微博級的情緒類別識別任務(wù)分類性能相對較弱。同樣,Open評測要比Close評測任務(wù)性能略高。
表14顯示了NLP&CC2013句子級情緒類別識別任務(wù)Close和Open評測中性能較優(yōu)的部分結(jié)果。
表14 NLP&CC2013句子級情緒識別任務(wù)部分結(jié)果
通過表14可以看出,句子級情緒分類性能相比微博級情緒分類性能有了一定的提高。同時,Open評測比Close評測性能也有一定的提升。
應(yīng)用面向微博文本的情緒標(biāo)注語料庫所組織的NLP&CC2013中文微博情緒分析評測有力地促進(jìn)了中文微博情緒分析相關(guān)研究。
本文在對微博情緒表達(dá)特點(diǎn)進(jìn)行觀察和分析的基礎(chǔ)上,設(shè)計(jì)了面向微博文本的情緒標(biāo)注規(guī)范。遵循這一規(guī)范,建立了微博文本情緒標(biāo)注規(guī)程以及標(biāo)注一致性控制方案。本文重點(diǎn)介紹了語料庫的構(gòu)建過程和構(gòu)建規(guī)則。在標(biāo)注過程中,對微博文本首先進(jìn)行了微博級情緒標(biāo)注,對微博是否包含情緒及有情緒微博所包含的情緒類別進(jìn)行多標(biāo)簽標(biāo)注。而后,對微博中的句子進(jìn)行情緒標(biāo)注,在有無情緒及情緒類別進(jìn)行標(biāo)注的基礎(chǔ)上,增加了情緒強(qiáng)度的標(biāo)注。經(jīng)過了對微博情緒標(biāo)注方案的不斷設(shè)計(jì)和完善,以及對微博語料的多輪標(biāo)注,該語料庫已完成14 000條微博,45 431句子的情緒標(biāo)注。在此基礎(chǔ)上,對語料庫進(jìn)行一系列的數(shù)據(jù)統(tǒng)計(jì)和分析,有助于發(fā)現(xiàn)微博情緒表達(dá)的語言現(xiàn)象和語言規(guī)律。應(yīng)用該語料庫作為NLP&CC2013中文微博情緒分析評測任務(wù)標(biāo)準(zhǔn)語料,促進(jìn)了中文微博情緒分析相關(guān)研究。
致謝
本文感謝先后參加語料采集、標(biāo)注和整理的丘橋云、袁麗、汪奕丁、周繼云、王趙煜、孔兵、曹宇慧、王帥等同學(xué)的辛勤努力。
[1] Mishne G. Experiments with mood classification in blog posts [C]//Proceedings of ACM SIGIR 2005 Workshop on Stylistic Analysis of Text for Information Access. 2005
[2] Ptaszynski M, Rzepka R, Araki K, et al. Automatically annotating a five-billion-word corpus of Japanese blogs for sentiment and affect analysis [J]. Computer Speech & Language, 2014, 28(1): 38-55.
[3] Quan C, Ren F. Construction of a blog emotion corpus for Chinese emotional expression analysis [C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing, 2009: 1446-1454.
[4] 徐琳宏, 林鴻飛, 趙晶. 情感語料庫的構(gòu)建和分析 [J]. 中文信息學(xué)報(bào), 2008, 22(1): 116-122.
[5] Xu R.F, Xia Y.Q.; Wong K. F. and Li W.J. Opinion Annotation in On-line Chinese Product Reviews [C]//Proceedings of Language Resource and Evaluation Conference 2008.
[6] Pak A. and Paroubek P. Twitter as a Corpus for Sentiment Analysis and Opinion Mining [C]//Proceedings of Language Resource and Evaluation Conference 2010: 1320-1326 .
[7] 徐琳宏, 林鴻飛, 潘宇,等. 情感詞匯本體的構(gòu)造[J]. 情報(bào)學(xué)報(bào), 2008, 27(2): 180-185.
[8] 徐睿峰, 鄒承天, 鄭燕珍,等. 一種基于情緒表達(dá)與情緒認(rèn)知分離的新型情緒詞典[J]. 中文信息學(xué)報(bào), 2013, 27(6): 82-90.
[9] 賀飛燕, 何炎祥, 劉楠,等.面向微博短文本的細(xì)粒度情感特征抽取方法 [J].北京大學(xué)學(xué)報(bào), 2014, 50(1): 48-54.
[10] 張晶, 朱波, 梁琳琳,等.基于情緒因子的中文微博情緒識別與分類 [J] .北京大學(xué)學(xué)報(bào), 2014, 50(1): 79-84.
[11] 歐陽純萍,陽小華,雷龍艷,多策略中文微博細(xì)粒度情緒分析研究 [J].北京大學(xué)學(xué)報(bào), 2014, 50(1): 67-72.