李永帥,王黎明,柴玉梅,劉 箴
1(鄭州大學(xué) 信息工程學(xué)院,鄭州 450001) 2(寧波大學(xué) 信息科學(xué)與工程學(xué)院,浙江 寧波 315211)
隨著社會(huì)媒體的快速發(fā)展,互聯(lián)網(wǎng)正改變著人們的生活方式,據(jù)官方統(tǒng)計(jì),大約新浪微博每日增加的數(shù)量是一億條,這些微博更多的是表現(xiàn)出某個(gè)事件或者人或者產(chǎn)品的情感及情感傾向性.因此利用情感分析技術(shù)幫助去分析文本的情感,這將是很重要且很實(shí)用的一個(gè)環(huán)節(jié),可以更好的快速的整理并分析這些信息,從而獲取輿論傾向性.為了能夠更好地研究情感分析[1],構(gòu)建一個(gè)高質(zhì)量的情感詞典往往是占據(jù)著很重要的地位,關(guān)系著情感分類(lèi)的質(zhì)量好壞,一個(gè)好的全的情感詞典能夠更好的提供比較全面的情感信息,可以有效的幫助提高情感分析的質(zhì)量.
在國(guó)外代表性的英文詞典有GI(General Inquirer),該詞典收錄1914個(gè)褒義詞和2293個(gè)貶義詞,并為每個(gè)詞語(yǔ)按照極性、強(qiáng)度、詞性等打上不同的標(biāo)簽;還有主觀詞詞典.該詞典主觀詞語(yǔ)來(lái)自O(shè)pinionFinder系統(tǒng),該詞典含有8211個(gè)主觀詞,并為每個(gè)詞語(yǔ)標(biāo)注了詞性、詞性還原以及情感極性;在國(guó)內(nèi)比較知名的中文情感詞典有HowNet情感詞典,包含9193個(gè)褒義詞和貶義詞;還有NTU評(píng)價(jià)詞詞典(繁體中文),該詞典由臺(tái)灣大學(xué)收錄,含有2812褒義詞與8276個(gè)貶義詞.本文把預(yù)先被標(biāo)記好了其詞情感極性信息的情感詞典稱作靜態(tài)詞典.但目前的靜態(tài)情感詞典在情感分析中存在以下幾點(diǎn)不足:
1)一些中性詞也能表達(dá)出情感色彩.比如現(xiàn)實(shí),噪音,浮云等也能表達(dá)出情感詞的效果.
2)對(duì)于本身沒(méi)有情感意義的詞匯,當(dāng)加入一些肯定詞或否定詞時(shí),會(huì)表現(xiàn)為具有情感意義的效果.比如:意義->有意義,問(wèn)題->有問(wèn)題.
3)對(duì)于動(dòng)態(tài)極性詞,不同的詞組其極性是不一樣的.動(dòng)態(tài)極性詞和不同的詞組搭配會(huì)出現(xiàn)不同的情感極性,比如,油耗高和效率高有著相反的極性.
4)沒(méi)有涵蓋流行詞匯.比如,你腦子“瓦特”了,“涼涼”等詞匯.
5)對(duì)于本來(lái)有情感意義的詞匯,有時(shí)未必表現(xiàn)出情感色彩.比如:好難受,其中“好”并未表現(xiàn)出褒義的色彩.
圖1 情感詞典構(gòu)建基本思路框架圖Fig.1 Basic frame diagram of the emotion dictionary construction
以上不足都是傳統(tǒng)的靜態(tài)詞典無(wú)法體現(xiàn)的,為了解決上述問(wèn)題,本文提出了動(dòng)態(tài)情感詞典構(gòu)建的方法,如圖1所示,主要包括三層神經(jīng)網(wǎng)絡(luò):1)第一層利用ECBOW模型對(duì)情感特征進(jìn)行提取,該模型是基于CBOW模型基礎(chǔ)之上的;2)第二層在本文構(gòu)建的二叉語(yǔ)義依存樹(shù)基礎(chǔ)上,利用語(yǔ)義依存分析模型通過(guò)雙向LSTM神經(jīng)網(wǎng)絡(luò)[10-12]對(duì)二叉語(yǔ)義依存路徑特征提取;3)在第三層,利用獲取到的情感特征和二叉語(yǔ)義依存路徑特征加上中心詞信息和相對(duì)位置特征一起組成當(dāng)前詞的特征作為另一個(gè)雙向LSTM神經(jīng)網(wǎng)絡(luò)的輸入,并通過(guò)標(biāo)簽框架標(biāo)注輸出情感詞信息,最終訓(xùn)練出情感詞分類(lèi)器即動(dòng)態(tài)情感詞典.
情感詞典的構(gòu)建在情感分析的過(guò)程中占據(jù)著重要的地位,目前情感詞典構(gòu)建的研究主要包括基于語(yǔ)料庫(kù)、基于圖模型以及基于詞對(duì)齊模型的方法.宋佳穎等人[2]以PolarityRank算法為基礎(chǔ),面向產(chǎn)品評(píng)價(jià)文本展開(kāi)漢語(yǔ)領(lǐng)域動(dòng)態(tài)極性詞典擴(kuò)展研究.杜偉夫等人[3]提出一個(gè)可擴(kuò)展的詞匯語(yǔ)義計(jì)算框架,把詞語(yǔ)語(yǔ)義傾向計(jì)算問(wèn)題看成對(duì)其優(yōu)化的問(wèn)題.Duyu Tang等人[8]利用改進(jìn)的Skip-Gram模型獲得情感詞向量,并借助Urban Dictionary來(lái)構(gòu)建情感詞典.郗亞輝[5]基于約束的標(biāo)簽傳播算法來(lái)計(jì)算情感詞的情感傾向從而構(gòu)建情感詞典.趙妍妍等人[6]利用微博上的表情符獲取情感詞,然后利用點(diǎn)互信息計(jì)算公式計(jì)算相應(yīng)情感值.Mohammad等人[7]利用每個(gè)詞和種子情感詞的點(diǎn)互信息來(lái)構(gòu)建情感詞典.尹文科等人[9]利用Wiki百科中的鏈接結(jié)構(gòu)通過(guò)有權(quán)無(wú)向圖的團(tuán)滲透方法CPMw進(jìn)行詞匯聚類(lèi)構(gòu)建出領(lǐng)域詞典.
以上方法構(gòu)建出來(lái)的情感詞典都有引言中所述的缺點(diǎn),在文本中不能很好的表現(xiàn)出詞匯情感信息,為了解決這些問(wèn)題,本文首先獲取情感特征,Zhiyang等人[4]已經(jīng)證明情感特征在雙向LSTM中可以有效的提升情感分類(lèi)準(zhǔn)確率;由于錢(qián)忠等人[14]利用句法結(jié)構(gòu)路徑特征等多種信息對(duì)詞匯序列化標(biāo)注任務(wù)獲得了很好的實(shí)驗(yàn)效果,本文提出了二叉語(yǔ)義依存分析模型來(lái)獲取二叉語(yǔ)義依存路徑特征;然后以情感特征、二叉語(yǔ)義依存路徑特征、中心詞信息和相對(duì)位置特征作為輸入,以雙向LSTM神經(jīng)網(wǎng)絡(luò)作為情感詞分類(lèi)器,訓(xùn)練得到動(dòng)態(tài)情感詞典.
本節(jié)將詳細(xì)介紹基于雙向LSTM動(dòng)態(tài)情感詞典的構(gòu)建方法,首先通過(guò)ECBOW神經(jīng)網(wǎng)絡(luò)對(duì)詞向量的情感特征進(jìn)行抽取,然后建立一個(gè)可以描述語(yǔ)義依存結(jié)構(gòu)分析的二叉樹(shù),本文規(guī)定二叉樹(shù)的根節(jié)點(diǎn)為整句的中心詞,通過(guò)把雙向LSTM神經(jīng)網(wǎng)絡(luò)應(yīng)用到二叉語(yǔ)義依存分析模型去學(xué)習(xí)二叉語(yǔ)義依存路徑特征;接下來(lái)依次獲取中心詞信息和相對(duì)位置特征;最后利用本文設(shè)計(jì)的標(biāo)簽框架作為雙向LSTM的輸出,把情感詞特征、二叉語(yǔ)義依存路徑特征、中心詞信息和相對(duì)位置特征結(jié)合起來(lái)作為輸入,最后將其訓(xùn)練成為一個(gè)情感詞分類(lèi)器,從而達(dá)到動(dòng)態(tài)情感詞典構(gòu)建的目的.
Google的開(kāi)源工具word2vec[15-17]中用到兩個(gè)神經(jīng)網(wǎng)絡(luò)模型,一個(gè)是Skip-Gram神經(jīng)網(wǎng)絡(luò)模型,另外一個(gè)是CBOW神經(jīng)網(wǎng)絡(luò)模型.本節(jié)選取CBOW神經(jīng)網(wǎng)絡(luò)模型作為改進(jìn)目標(biāo)對(duì)象并抽取詞匯的情感特征.
3.1.1 利用CBOW神經(jīng)網(wǎng)絡(luò)模型進(jìn)行詞向量學(xué)習(xí)
圖2 ECBOW模型圖Fig.2 ECBOW Model
CBOW神經(jīng)網(wǎng)絡(luò)模型的工作原理是根據(jù)上下文的詞語(yǔ)預(yù)測(cè)當(dāng)前詞語(yǔ)的出現(xiàn)概率的模型.如圖2左半部分所示,該模型分為輸入層、投影層和softmax層,語(yǔ)料C中每個(gè)詞匯w代表文本中的one-hot向量并作為輸入層,V代表是一個(gè)n×|V|詞向量表;在投影層經(jīng)過(guò)矩陣轉(zhuǎn)換為相同的n維向量的疊加,即:
(1)
在這里設(shè)置m=2.在輸出層輸出最可能的w,也就是最大似然化函數(shù):
(2)
3.1.2 通過(guò)ECBOW模型提取情感特征
ECBOW模型是對(duì)CBOW模型進(jìn)行的改進(jìn)模型,主要改進(jìn)如圖2右半部分所示,在原來(lái)的CBOW模型下增添了一部分網(wǎng)絡(luò)結(jié)構(gòu),其目的是提取有效的情感特征.其原理為:在原來(lái)的CBOW模型做一個(gè)基本的句法結(jié)構(gòu)約束,然后通過(guò)具有褒貶意義的文本,對(duì)其情感進(jìn)行約束.具體過(guò)程如下描述:
在新增的網(wǎng)絡(luò)結(jié)構(gòu)中,輸入層為褒貶意義的文本中所有詞w,投影層sj表示具有褒貶意義的文本中所有詞的one-hot向量經(jīng)過(guò)詞向量表V轉(zhuǎn)化為詞向量并求和而得到的,即:
(3)
對(duì)于輸出層來(lái)說(shuō),因?yàn)橹挥邪H二元分類(lèi),因此通過(guò)一個(gè)邏輯神經(jīng)元來(lái)計(jì)算輸出為褒義和貶義的概率,如公式(4)所示:
(4)
其中H為向量參數(shù),記p(sj)為文本褒貶性,如果投影層sj是由褒義文本所投影,那么p(sj)=[1,0];如果投影層sj是由褒義文本所投影,那么p(sj)=[0,1].從而最大化目標(biāo)函數(shù)為:
(5)
具體的ADDEMOTION算法如算法1所示.
算法1.基于ECBOW模型情感表示(ADDEMOTION算法)
1) 語(yǔ)料預(yù)處理
2) 收集詞語(yǔ),創(chuàng)建詞典
3) 初始化參數(shù):θ:(U,V,α,η)、e、H、w、xs
4)while不收斂do
5)forsjinSdo
6)forallwt-2,wt-1,wt,wt+1,wt+2do
8)end
9)p=σ(xs·H)
10)e=e+η(hj-p)·H
11)H=H+η(hj-p)·xs
12)forw∈sjdo
13)V(w)=V(w)+(1-α)e
14)end
15)end
16)end
其中S表示訓(xùn)練集的所有句子集合,θ參數(shù)包括U、V、α、η,U為圖2的左半部分投影層到softmax層向量參數(shù);α為權(quán)重參數(shù);η為學(xué)習(xí)速率;e為向量變化的大小;其中:
(6)
V(w)表示詞匯w的向量;
(7)
本節(jié)首先根據(jù)一個(gè)二叉樹(shù)來(lái)描述語(yǔ)義依存關(guān)系,并通過(guò)哈夫曼編碼記住二叉樹(shù)結(jié)構(gòu),然后通過(guò)二叉語(yǔ)義依存路徑信息,利用雙向LSTM神經(jīng)網(wǎng)絡(luò)模型對(duì)每個(gè)詞的二叉語(yǔ)義依存路徑信息特征學(xué)習(xí),為后面對(duì)情感詞標(biāo)簽識(shí)別提供有效的特征.本文記哈夫曼語(yǔ)義依存結(jié)構(gòu)二叉樹(shù)路徑為二叉語(yǔ)義依存路徑.
3.2.1 哈夫曼語(yǔ)義依存二叉樹(shù)
哈夫曼語(yǔ)義依存結(jié)構(gòu)二叉樹(shù)是由詞匯節(jié)點(diǎn)和詞匯依存關(guān)系以及哈夫曼編碼所描述的,在講哈夫曼語(yǔ)義依存結(jié)構(gòu)二叉樹(shù)分析之前首先解釋下該二叉樹(shù)構(gòu)建方法,如圖3所示,首先按照文本序列把相鄰具有依存關(guān)系的詞節(jié)點(diǎn)進(jìn)行合并,合并后生成的父節(jié)點(diǎn)為被依存的詞節(jié)點(diǎn),依次類(lèi)推直到把所有節(jié)點(diǎn)合并為一顆二叉樹(shù).其中詞匯之間的語(yǔ)義依存關(guān)系以及二叉樹(shù)部分結(jié)構(gòu)描述由二元組T=<“依存關(guān)系”,“哈夫曼編碼”>所描述,NULL表示依存關(guān)系為自己,哈夫曼編碼為0表示從該節(jié)點(diǎn)往左生成子節(jié)點(diǎn),哈夫曼編碼為1表示從該節(jié)點(diǎn)往右生成子節(jié)點(diǎn).被依存的詞匯作為生成的父節(jié)點(diǎn),其左子節(jié)點(diǎn)到父節(jié)點(diǎn)如果依存關(guān)系存在,那么兩節(jié)點(diǎn)之間路徑被描述為<“依存關(guān)系”,0>,如果不存在,那么兩節(jié)點(diǎn)之間路徑被描述為
圖3 語(yǔ)義依存結(jié)構(gòu)二叉樹(shù)圖Fig.3 Semantic dependent two forked tree structure
3.2.2 二叉語(yǔ)義依存路徑表示
由于中心詞通??梢源矶陶Z(yǔ)主要語(yǔ)法、語(yǔ)義特征,它被認(rèn)為具有較強(qiáng)的預(yù)測(cè)能力[18].因此選取整句話的中心詞為路徑終點(diǎn)即二叉樹(shù)根節(jié)點(diǎn),從每句話的詞葉子節(jié)點(diǎn)到中心詞的路徑被稱作每個(gè)詞的二叉語(yǔ)義依存路徑,如“美麗”對(duì)應(yīng)的路徑信息為“美麗
3.2.3 提取二叉語(yǔ)義依存路徑特征
LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)[10]中的一個(gè)特殊網(wǎng)絡(luò),它能夠很好的處理序列信息并從中學(xué)習(xí)有效特征[13],它把以往的神經(jīng)單元用一個(gè)記憶單元(memory cell)來(lái)代替,解決了以往循環(huán)神經(jīng)網(wǎng)絡(luò)在梯度反向傳播中遇到的爆炸和衰減問(wèn)題.一個(gè)記憶單元利用了輸入門(mén)it、一個(gè)記憶細(xì)胞ct、一個(gè)忘記門(mén)ft、一個(gè)輸出門(mén)ot來(lái)控制歷史信息的儲(chǔ)存記憶,在每次輸入后會(huì)有一個(gè)當(dāng)前狀態(tài)ht,ht計(jì)算如下:
it=σ(Wixt+Uiht-1+Vict-1+bi)
(8)
ft=1.0-it
(9)
gt=tanh(Wgxt+Ught-1+bg)
(10)
ct=ft?ct-1+it?gt
(11)
ot=σ(Woxt+Uoht-1+Voct+bo)
(12)
ht=ot?tanh(ct)
(13)
其中,xt為t時(shí)刻輸入的情感詞向量,σ為sigmoid函數(shù),?代表向量對(duì)應(yīng)元素依次相乘,其中水電費(fèi)Wi,Ui,Vi,bi,Wg,Ug,bg,Wo,Uo,Vo,bo為L(zhǎng)STM參數(shù).
(14)
二叉語(yǔ)義結(jié)構(gòu)模型可以定義為整句話詞節(jié)點(diǎn)路徑的概率的乘積:
(15)
其中,wi表示語(yǔ)義依存二叉樹(shù)中的葉子節(jié)點(diǎn).L表示wi的路徑信息.PL(wi)表示該節(jié)點(diǎn)wi的路徑發(fā)生概率.利用該模型借助雙向LSTM對(duì)該二叉語(yǔ)義依存路徑特征提取,如圖4所示,輸入層表示每個(gè)詞的詞向量,然后經(jīng)過(guò)雙向LSTM神經(jīng)網(wǎng)路輸出并進(jìn)入特征層,其向量表示為fp,它的維度大小為np,最后進(jìn)入softmax層表示該詞節(jié)點(diǎn)二叉語(yǔ)義依存路徑的概率,通過(guò)最大化目標(biāo)函數(shù)使該神經(jīng)網(wǎng)絡(luò)收斂.最后得到每個(gè)詞所對(duì)應(yīng)的二叉語(yǔ)義依存路徑特征.
圖4 利用雙向LSTM神經(jīng)網(wǎng)絡(luò)抽取二叉語(yǔ)義依存路徑特征圖Fig.4 Using bidirectional LSTM neural network to extract path characteristics of two fork semantic dependency
(16)
中心詞通??梢源矶陶Z(yǔ)的主要語(yǔ)法、語(yǔ)義特征,它被認(rèn)為具有較強(qiáng)的預(yù)測(cè)能力.因此決定把文本中每個(gè)詞匯到整個(gè)句子的中心詞的距離計(jì)算出來(lái),如“美麗”到中心詞“有”的距離dm=-3.相對(duì)位置特征被映射為一個(gè)nrp維的向量frp.
中心詞信息用以表示當(dāng)前詞是否為中心詞,如果當(dāng)前詞為中心詞,那么該特征的取值為一個(gè)特殊的詞語(yǔ)“cue”;如果當(dāng)前詞不為中心詞,那么該特征的取值為一另外一個(gè)特殊的詞語(yǔ)“not_cue”,線索詞信息被映射為一個(gè)nc維的向量fc.
本文將情感詞典分類(lèi)器(如圖5所示)構(gòu)建問(wèn)題看成是序列標(biāo)注問(wèn)題,對(duì)于每一個(gè)詞語(yǔ),本文考慮其四個(gè)特征:情感詞特征表示fe、二叉語(yǔ)義依存路徑特征fp、中心詞信息fc和相對(duì)位置特征frp.因此詞語(yǔ)的特征f0表示為:
(17)
(18)
3.4.1 文本標(biāo)簽框架
本文的情感詞性特征提取,采用文本標(biāo)簽框架來(lái)提取,本文采用的文本標(biāo)簽框架為本文定義的PNO框架,記框架標(biāo)簽Ti∈{P,N,O},其中標(biāo)簽集合解釋:如果在文本中一個(gè)詞表現(xiàn)出有褒義情感色彩的詞匯,那么這個(gè)詞被標(biāo)記為P;如果在文本中一個(gè)詞表現(xiàn)出貶義情感色彩的詞匯,那么這個(gè)詞標(biāo)記為N;如果在文本中既不表現(xiàn)褒義情感色彩又不表現(xiàn)貶義情感色彩,那么這個(gè)詞被標(biāo)記為O;例句1 顯示文本中每個(gè)詞匯的標(biāo)簽:
圖5 利用雙向LSTM神經(jīng)網(wǎng)絡(luò)構(gòu)建情感詞分類(lèi)器圖Fig.5 Using bidirectional LSTM neural network to construct emotional word classifier
例句1 這/O 場(chǎng)/O 比賽/O 打的/O 真/O 委屈/N,/O 隊(duì)員/O 的/O 整個(gè)/O 狀態(tài)/O 也/O 很/O 差/N !
本文把不同的標(biāo)簽映射為一個(gè)維度大小為3的詞向量的長(zhǎng)度.
3.4.2 輸出層表示
進(jìn)入輸出層,其計(jì)算公式為:
O=softmax(Wsh+bs)
(19)
在輸出層有每個(gè)輸出節(jié)點(diǎn)的維度大小為3,因此分別用[1,0,0]、[0,1,0]、[0,0,1]分別代表該詞匯的輸出結(jié)果為褒義(P)、貶義(N)、中性(O);在這一層的輸出做了一個(gè)softmax處理,通過(guò)這一步求取輸出屬于某一類(lèi)的概率,如公式(20):
(20)
本文采用損失函數(shù)交叉熵作為目標(biāo)函數(shù),如公式(21)所示:
(21)
其中:yti指代在t時(shí)刻實(shí)際的標(biāo)簽中第i個(gè)值,preti指代在t時(shí)刻預(yù)測(cè)的標(biāo)簽中第i個(gè)值.
經(jīng)過(guò)訓(xùn)練出來(lái)的雙向LSTM神經(jīng)網(wǎng)絡(luò)情感詞分類(lèi)器即動(dòng)態(tài)情感詞典,然后利用測(cè)試數(shù)據(jù)進(jìn)行初級(jí)擴(kuò)展得到動(dòng)態(tài)情感詞典,如果該詞匯所輸出的標(biāo)簽為P,那么該詞匯被判定為褒義情感詞,如果該詞匯所輸出的標(biāo)簽為N,那么該詞匯被判定為貶義情感詞,如果該詞匯所輸出的標(biāo)簽為O,那么該詞匯被判定為中性詞.
算法2.情感詞典初級(jí)擴(kuò)展算法
輸入:詞語(yǔ)的特征f0、訓(xùn)練文本集Stest、測(cè)試文本集Strain
輸出:輸出褒義詞典Dpos和貶義詞典Dneg
1)while不收斂do
2)forwinsj∈Straindo
3)optimizebiLSTM(e(w),Tag(w))
4)end
5)end
6)forwinsi∈Stestdo
7)pTag=biLSTM(e(w))
8)ifpTag=[1,0,0]do
9)Dpos.append(w)
10)end
11)ifpTag=[0,1,0]do
12)Dneg.append(w)
13)end
14)end
其中:e(w)∈Dp,對(duì)于上述算法首先先用本文構(gòu)造的雙向LSTM模型對(duì)訓(xùn)練文本集進(jìn)行訓(xùn)練,從而完成動(dòng)態(tài)情感詞典的構(gòu)建,然后對(duì)測(cè)試文本集進(jìn)行預(yù)測(cè),預(yù)測(cè)為P標(biāo)簽將被判斷其為褒義情感詞,并把褒義情感詞存入褒義詞典Dpos;預(yù)測(cè)為N標(biāo)簽的將被判斷其為貶義情感詞,并把貶義情感詞存入貶義詞典Dneg;預(yù)測(cè)為O標(biāo)簽的將被判斷其為中性詞,最后得到初級(jí)擴(kuò)展的靜態(tài)情感詞典.
在文本只有起到情感色彩的詞匯叫做情感詞,本文規(guī)定情感詞由情感詞主體和副體組成,其副體可為空.比如在“我們的做法是很有意義的.”一句話中“有意義”表現(xiàn)出褒義情感色彩,其中“有”為副體,“意義”為主體,然而有的中性詞卻能表達(dá)出情感色彩,比如:當(dāng)在“問(wèn)題”前加上“有”的時(shí)候,卻能表現(xiàn)出貶義的情感色彩,因此對(duì)某些中性詞在句子中卻能表達(dá)出情感色彩時(shí),本文規(guī)定這些詞為中性情感詞.因此規(guī)定情感詞分為褒義情感詞、貶義情感詞、中性情感詞.如圖6所示.
圖6 情感詞分類(lèi)圖Fig.6 Classification of emotional words
為了反映微博數(shù)據(jù)的真實(shí)性,隨機(jī)挑選微博語(yǔ)料9836條微博作為測(cè)試數(shù)據(jù)集,并將該數(shù)據(jù)集利用哈工大語(yǔ)言平臺(tái)中的分詞功能和語(yǔ)義依存分析功能將數(shù)據(jù)集進(jìn)行分詞和語(yǔ)義依存二叉樹(shù)的構(gòu)建.首先,對(duì)輸出標(biāo)簽進(jìn)行標(biāo)注,在標(biāo)注時(shí)請(qǐng)了五位標(biāo)注者同時(shí)對(duì)這些微博數(shù)據(jù)進(jìn)行人工標(biāo)注.標(biāo)注者根據(jù)微博文本中情感詞匯的情感傾向性將文本中具有情感的詞標(biāo)注出來(lái),若有標(biāo)注不一致的情況,則使用投票的方法決定詞匯的情感傾向性.利用哈工大語(yǔ)言云平臺(tái)的語(yǔ)義依存樹(shù)功能將該數(shù)據(jù)集進(jìn)行二叉樹(shù)構(gòu)建,并人工核查,對(duì)語(yǔ)義依存關(guān)系不正確的地方進(jìn)行修改,最終由五位標(biāo)注者協(xié)商決定.
最后統(tǒng)計(jì)這9836條微博中所有標(biāo)注的情感詞,這些微博數(shù)據(jù)的人工標(biāo)注結(jié)果統(tǒng)計(jì)如表1所示.
表1 人工標(biāo)注統(tǒng)計(jì)結(jié)果表
Table 1 Artificial selection result statistics
微博情感詞數(shù)據(jù)集標(biāo)注褒義情感詞貶義情感詞中性情感詞總和10395892139819714
鑒于語(yǔ)料規(guī)模有限,本文使用十折交叉驗(yàn)證的方法來(lái)進(jìn)行驗(yàn)證,對(duì)微博語(yǔ)料中情感詞進(jìn)行褒義情感詞、貶義情感詞、中性情感詞和中性詞的四元情感分類(lèi),其中,中性情感詞的分類(lèi)具體過(guò)程是,如果該詞匯在本句話中被確認(rèn)為具有情感傾向性,而單獨(dú)拿出來(lái)的時(shí)候沒(méi)有情感傾向性,那么該詞被認(rèn)為中性情感詞.
1)EWR(情感詞特征)+SR(二叉語(yǔ)義依存路徑特征)+TR(相對(duì)位置和中心詞信息)+TRAIN(訓(xùn)練集):表示在基于ECBOW模型情感特征的基礎(chǔ)上,進(jìn)行添加語(yǔ)義特征、相對(duì)位置特征和中心詞信息一起組成為該詞特征,并取出訓(xùn)練集1萬(wàn)句進(jìn)行各種指標(biāo)計(jì)算.
2)EWR+SR+TR+TEST(測(cè)試集):表示在基于情感特征的基礎(chǔ)上,進(jìn)行添加二叉語(yǔ)義依存路徑特征、相對(duì)位置特征和中心詞信息一起組成為該詞特征,并用測(cè)試集進(jìn)行各種指標(biāo)計(jì)算.
3)WR+SR+TR+TEST:表示在基于CBOW模型下特征向量基礎(chǔ)上,進(jìn)行添加二叉語(yǔ)義依存路徑特征、相對(duì)位置特征和中心詞信息一起組成為該詞特征,并用測(cè)試集進(jìn)行各種指標(biāo)計(jì)算.
4)EWR+SR+TEST:表示在基于情感特征的基礎(chǔ)上,只添加二叉語(yǔ)義依存路徑特征一起組成為該詞特征,并用測(cè)試集進(jìn)行各種指標(biāo)計(jì)算.
5)EWR+TR+TEST:表示在基于情感特征的基礎(chǔ)上,只添加相對(duì)位置特征和中心詞信息一起組成為該詞特征,并用測(cè)試集進(jìn)行各種指標(biāo)計(jì)算.
如表2所示,可知以上各種方法測(cè)試其精確率均達(dá)到97%以上,證明本文構(gòu)建的動(dòng)態(tài)情感詞典總體上對(duì)情感詞和中性詞識(shí)別度比較高.然而更為關(guān)心的是其識(shí)別出情感詞的精準(zhǔn)率,從上表數(shù)據(jù)可知實(shí)驗(yàn)1是基于ECBOW模型構(gòu)造的情感特征的基礎(chǔ),并同時(shí)添加二叉語(yǔ)義依存路徑特征、相對(duì)位置特征和中心詞信息,可以發(fā)現(xiàn)其訓(xùn)練數(shù)據(jù)集的精準(zhǔn)率略高于實(shí)驗(yàn)2測(cè)試數(shù)據(jù)集的精準(zhǔn)率,提高了1.68%,其召回率提高了2.7%;同時(shí)發(fā)現(xiàn)實(shí)驗(yàn)3在沒(méi)有加入情感特征的組合所得的測(cè)試數(shù)據(jù)集的精準(zhǔn)率明顯低于其加入情感特征的組合,其精準(zhǔn)率降低了10.76%,召回率降低了9.28%,這種現(xiàn)象說(shuō)明情感特征對(duì)判別詞匯是否存在情感傾向性所占權(quán)重比較大;實(shí)驗(yàn)4在基于ECBOW模型構(gòu)造的情感特征基礎(chǔ)上,只加入二叉語(yǔ)義依存路徑特征,不加入中心詞信息和相對(duì)位置特征,可以發(fā)現(xiàn)其精準(zhǔn)率相對(duì)實(shí)驗(yàn)2其精準(zhǔn)率下降了1.99%,召回率下降了1.56%,由此可以發(fā)現(xiàn)文本中心詞可以提供具有很好的預(yù)測(cè)能力;實(shí)驗(yàn)5是基于ECBOW模型構(gòu)造的情感特征的基礎(chǔ)上,只加有相對(duì)位置和中心詞信息而沒(méi)有二叉語(yǔ)義依存路徑特征,發(fā)現(xiàn)其精準(zhǔn)率相對(duì)實(shí)驗(yàn)2其精準(zhǔn)率下降了4.94%,召回率下降了5.18%,證明二叉語(yǔ)義依存路徑特征有一大部分影響到情感詞識(shí)別的能力,證明二叉語(yǔ)義依存路徑特征是一個(gè)很有用的信息特征.
表2 不同特征組合對(duì)比表
Table 2 Different feature combination contrast table
序號(hào) 系統(tǒng)精確率/%精準(zhǔn)率/%召回率/%1EWR+SR+TR+TRAIN97.7075.4674.932EWR+SR+TR+TEST97.3373.7872.233WR+SR+TR+TEST97.2163.0262.954EWR+SR+TEST97.2071.7970.675EWR+TR+TEST97.2768.8467.05
本文用另外13821條測(cè)試微博數(shù)據(jù)作為測(cè)試集來(lái)進(jìn)行驗(yàn)證動(dòng)態(tài)情感詞典擴(kuò)展效果,其中EWR+SR+TR+NUM表示:在基于情感詞特征并結(jié)合二叉語(yǔ)義路徑特征、中心詞信息和相對(duì)位置特征的雙向LSTM模型下,對(duì)NUM條測(cè)試微博數(shù)據(jù)進(jìn)行測(cè)試,從而來(lái)觀察其情感詞的擴(kuò)展效果;比如,EWR+SR+TR+2000表示用了2000條微博測(cè)試數(shù)據(jù),針對(duì)這2000條測(cè)試微博所產(chǎn)生出來(lái)的情感詞判斷其是否和原來(lái)標(biāo)注的情感詞一樣,還是這些情感詞并不在原來(lái)標(biāo)注的情感詞里面而是新增加擴(kuò)展出來(lái)的情感詞.通過(guò)表1人工標(biāo)注去除重復(fù)的情感詞后所得到的情感詞統(tǒng)計(jì)結(jié)果如表3所示.
表3 標(biāo)注統(tǒng)計(jì)情感詞典
Table 3 Annotation of statistical affective dictionary
褒義情感詞貶義情感詞中性情感詞總和379826352646697
在進(jìn)行每次依次遞增測(cè)試數(shù)據(jù)后都保留下分類(lèi)出來(lái)的情感詞,在情感詞去重后進(jìn)行人工挑選,不是情感詞的詞匯舍棄,然后統(tǒng)計(jì)出擴(kuò)展出來(lái)的新的情感詞匯,每次結(jié)果統(tǒng)計(jì)如圖7所示,表示是通過(guò)依次增加取微博的數(shù)量的基礎(chǔ)上統(tǒng)計(jì)出來(lái)新擴(kuò)展出來(lái)的情感詞的變化.
圖7 新增情感詞隨測(cè)試數(shù)據(jù)集變化Fig.7 New emotion words change with the test data set
由上圖可知,隨著測(cè)試數(shù)據(jù)集的增加新增情感詞在不斷增加,當(dāng)增加測(cè)試集到1萬(wàn)條微博數(shù)據(jù)時(shí),最終統(tǒng)計(jì)得到的擴(kuò)展出來(lái)的新詞匯數(shù)量為976個(gè),表明動(dòng)態(tài)情感詞典方法是有效的.最終得到如表4所示的較小規(guī)模情感詞典WB-Lex.
表4 較小規(guī)模靜態(tài)情感詞典WB-Lex
Table 4 Small scale static emotion dictionary WB-Lex
褒義情感詞貶義情感詞中性情感詞總和429930113657673
在得到動(dòng)態(tài)情感詞典后,為了驗(yàn)證詞典質(zhì)量,本文用情感分析的經(jīng)典任務(wù)-情感分析,具體做法為判斷一條微博的情感傾向?yàn)榘x、貶義還是中性.本文的做法是用所構(gòu)建的動(dòng)態(tài)情感詞典與其他詞典進(jìn)行對(duì)比,除了本文構(gòu)建的動(dòng)態(tài)詞典外還使用了其他四個(gè)開(kāi)源的情感詞典資源,他們分別來(lái)自清華、北大、大連理工及知網(wǎng),詳見(jiàn)表5.
表5 詞典規(guī)模統(tǒng)計(jì)
Table 5 Dictionary scale statistic
詞典褒義貶義總和清華(Tsinghua)5567446810035北大(Peking)95420515大連理工(DUT)110431064621689HowNet452843208848
為了對(duì)比本文構(gòu)建的情感詞典與其他的情感詞典資源的性能,本文將其用于情感分類(lèi)任務(wù)上,并選擇了簡(jiǎn)單有效的基于特征分類(lèi)的情感分類(lèi)模型SVM.具體的,針對(duì)一條微博,提取的特征除了正規(guī)化后的情感詞向量,還加入了兩維特征分別是該微博中包含詞典中的褒義詞的個(gè)數(shù)與貶義詞個(gè)數(shù).
1)ECBOW(情感詞特征)+ALL(all lexicon):表示在ECBOW模型下情感特征基礎(chǔ)上使用全部的情感詞典資源;
2)ECBOW+ALL-Our:表示在ECBOW模型下情感特征基礎(chǔ)上除去情感資源(動(dòng)態(tài)情感詞典)的全部的情感詞典資源;
3)ECBOW+ALL-HowNet:表示在ECBOW模型下情感特征基礎(chǔ)上除去知網(wǎng)的情感資源的全部的情感詞典資源;
4)ECBOW+ALL-DUT:表示在ECBOW模型下情感特征基礎(chǔ)上除去大連理工的情感資源的全部的情感詞典資源;
5)ECBOW+ALL-Peking:表示在ECBOW模型下情感特征基礎(chǔ)上除去北京大學(xué)的情感資源的全部的情感詞典資源;
6)ECBOW+ALL-Tsinghua:表示在ECBOW模型下情感特征基礎(chǔ)上除去清華大學(xué)的情感資源的全部的情感詞典資源.
各詞典的性能對(duì)比詳見(jiàn)表6.通過(guò)分析表6可知,本文的動(dòng)態(tài)構(gòu)建情感詞典的性能要顯著優(yōu)于其他四類(lèi)情感詞典.主要原因是由于大多中性情感詞的影響.比如對(duì)于一般情感微博語(yǔ)句“上場(chǎng) 對(duì) 澳大利亞 還 貌似 不錯(cuò) 來(lái)著,昨晚 看得 不是 一般 的 郁悶 啊!”各個(gè)情感詞典能判斷出“不錯(cuò)”為褒義情感詞,“郁悶”為貶義情感詞,但是當(dāng)面對(duì)這些語(yǔ)句的時(shí)候“參加 體育 運(yùn)動(dòng) 是 一件 有 意義 的 事情 !”,更多的情感詞典會(huì)把“意義”字識(shí)別為中性詞,從而失去了對(duì)這句話的真正理解,然而對(duì)于本文所構(gòu)建的動(dòng)態(tài)情感詞典來(lái)說(shuō)可以把“意義”標(biāo)記為褒義情感詞,從而進(jìn)一步理解語(yǔ)句想要表達(dá)的真正意思.但是從表6也可以發(fā)現(xiàn),本文的情感詞典并不能夠完全替代其他四類(lèi)情感詞典.在使用了本文構(gòu)建的情感詞典的基礎(chǔ)上再使用其他的情感詞典資源,對(duì)情感分類(lèi)的性能仍能有一定的提升.
表6 各情感詞典性能對(duì)比
Table 6 Performance comparison of various affective dictionaries
系統(tǒng)Accuracy/% ECBOW+ALL68.71 ECBOW+ALL-Our65.73 ECBOW+ALL-HowNet67.96 ECBOW+ALL-DUT68.21 ECBOW+ALL-Peking67.99 ECBOW+ALL-Tsinghua67.86
為了解決現(xiàn)有的中文情感詞典的一些存在的問(wèn)題,比如:對(duì)于一些中性詞雖然單獨(dú)使用時(shí)沒(méi)有什么情感色彩,但是放到整句話里卻能表達(dá)出情感色彩,以及當(dāng)有些詞匯之前加入肯定或否定的詞時(shí)卻突顯出情感色彩,還有平常的一些極性情感詞和一些流行的網(wǎng)絡(luò)詞匯“給力”,本研究的情感詞典擴(kuò)展方法很好的解決了這些問(wèn)題,該動(dòng)態(tài)情感詞典擴(kuò)展方法基于雙向LSTM神經(jīng)非網(wǎng)絡(luò)模型,不僅考慮到情感特征,還考慮了語(yǔ)義依存特征、中心詞信息、和相對(duì)位置特征,從而使動(dòng)態(tài)標(biāo)注情感詞及詞典擴(kuò)展時(shí)提供了很好的幫助.實(shí)驗(yàn)結(jié)果表明該方法對(duì)測(cè)試集情感詞識(shí)別的精準(zhǔn)率達(dá)到73.78%之高,然后對(duì)另外1萬(wàn)句測(cè)試微博,擴(kuò)展出新情感詞匯976個(gè),最后在文本情感分類(lèi)任務(wù)也表明本文所構(gòu)建的動(dòng)態(tài)情感詞典可以在情感分類(lèi)任務(wù)中起到重要的作用,能夠顯著的提高在情感分類(lèi)任務(wù)的性能.