宋艷雪,張紹武,林鴻飛
(大連理工大學(xué) 信息檢索研究室,遼寧 大連 116024)
目前,在分析文本情感傾向性時,出發(fā)點(diǎn)通常是情感詞。然而自然語言中的多數(shù)詞匯本身并不帶有明顯的感情色彩,在應(yīng)用到實(shí)際文本中時,一些詞匯會由于具體的語境或不同的搭配關(guān)系表達(dá)出褒義或者貶義色彩。本文中的“語境歧義詞”是指句子中的一些詞匯本身沒有明顯的情感傾向性,但是當(dāng)它們與上下文中的某些詞語搭配后,產(chǎn)生了明顯的情感傾向性。例如,下面的兩個句子。
句子1:女兒學(xué)習(xí)成績突出,被選為班長,我們很高興,決定給她買一個芭比娃娃。
句子2:長期用電腦工作,老李得了頸椎突出,郁悶的是現(xiàn)在不能正常工作和生活了。
“突出”本身并不能表達(dá)明顯的情感傾向性,但是當(dāng)出現(xiàn)“成績+突出”和“頸椎+突出”搭配后,“突出”表現(xiàn)出兩種不同的情感傾向性,我們把類似“突出”這樣的詞匯稱為語境歧義詞。語境歧義詞不能單純地通過添加到情感詞典中去分析,需要憑借其所處語境來判斷其傾向性。
當(dāng)前,國內(nèi)外對詞語搭配的研究,主要是從語言學(xué)角度出發(fā)去挖掘詞語搭配效果與認(rèn)知功能的研究。Igor A.Bolshakov[1]通過統(tǒng)計學(xué)方法從語料庫中抽取正確搭配,構(gòu)建一個搭配詞典,為搭配領(lǐng)域做出了貢獻(xiàn),該詞典還沒有考慮情感因素。車萬翔、劉挺[2]通過計算語料中出現(xiàn)的詞對的“搭配強(qiáng)度系數(shù)”值來衡量這種搭配關(guān)系的強(qiáng)弱。目前的研究,很少有從情感的角度出發(fā),去挖掘語境歧義詞搭配方面的情感傾向性問題。然而,搭配是語言修辭的核心,詞語搭配的發(fā)現(xiàn)對修辭表達(dá)以及從文本中挖掘信息等都有積極的意義,而語境歧義詞搭配的發(fā)現(xiàn)與提取對文本的情感傾向性分析有深刻意義。目前,帶有情感的語境歧義詞搭配的研究主要是針對某一領(lǐng)域,例如,Xiaowen Ding[3]在研究數(shù)碼產(chǎn)品評論傾向性時考慮了語境歧義詞,其主要是針對數(shù)碼產(chǎn)品的屬性、功能、外觀等。針對語境歧義詞給文本的情感分析所帶來的問題,我們提出了“基于語境歧義詞的句子情感傾向性分析”的方法,旨在為情感傾向性的判斷提供基礎(chǔ)和依據(jù)。
首先采用關(guān)聯(lián)規(guī)則方法發(fā)現(xiàn)種子詞的頻繁集,通過PMI過濾機(jī)制消除無效關(guān)聯(lián)項(xiàng),剩余即為搭配詞典候選集,對候選集進(jìn)行情感傾向性判斷,由有傾向性項(xiàng)構(gòu)建成語境歧義詞搭配詞典。在傾向性分析時,句型分為轉(zhuǎn)折句和非轉(zhuǎn)折句,利用語境歧義詞搭配詞典,用語義分析方法完成情感傾向性判斷。實(shí)驗(yàn)結(jié)果表明使用搭配詞典后,準(zhǔn)確率、召回率和F-Score都有一定的提高。
關(guān)聯(lián)規(guī)則是數(shù)據(jù)中蘊(yùn)涵的一類重要規(guī)律,對關(guān)聯(lián)規(guī)則進(jìn)行挖掘是數(shù)據(jù)挖掘中的一項(xiàng)根本任務(wù)。Agrawal等[4]首次給出了兩個項(xiàng)目集合(Item)中的元素在事務(wù)集合(Transaction)中存在的關(guān)聯(lián)規(guī)則、置信度、支持度的定義。關(guān)聯(lián)規(guī)則挖掘的經(jīng)典應(yīng)用是“購物籃”數(shù)據(jù)分析,目的是找出顧客在商場或者店鋪所選購的商品之間的關(guān)聯(lián)。下面給出一個關(guān)聯(lián)規(guī)則的例子:
花生→啤酒 [支持度=40%,置信度=80%]
以上表明40%的客戶同時購買花生和啤酒,在購買花生的人中80%的人也購買了啤酒。
本文中,將關(guān)聯(lián)規(guī)則應(yīng)用在“如何發(fā)現(xiàn)語境歧義詞搭配”問題上。詞語的集合看成是兩個Item,詞語搭配的集合看成是Transaction,找出兩個Item中的元素在Transaction上的并發(fā)關(guān)系。如下:
體重→暴漲 [支持度=20%,置信度=70%]
奪取→生命 [支持度=20%,置信度=70%]
這兩個規(guī)則表明20%的人同時使用“體重暴漲”和“奪取生命”,在分別使用“體重”和“奪取”的人中有70%的人也分別使用了“暴漲”和“生命”。在“花生→啤酒”例子中沒有考慮購買“花生”和“啤酒”的先后問題,在語境歧義詞搭配中也是不考慮詞語的先后問題,例如,“視覺→對抗”和“對抗→政府”,表達(dá)了明顯相反的兩種情感傾向性,對于“對抗”,和其搭配的“視覺”和“政府”也沒有先后的問題。下面給出兩個定義,其中X,Y是Item中的兩個元素:
定義1 搭配集:形如X→Y的規(guī)則如果滿足最小支持度[5](α),稱X→Y構(gòu)成的集合{X,Y}是搭配集。
定義2 頻繁集:搭配集中滿足最小置信度[5](β)的規(guī)則X→Y稱作頻繁集。
本文也采用類似關(guān)聯(lián)規(guī)則的方法,在Transaction中先發(fā)現(xiàn)搭配集,然后在搭配集中識別頻繁集,經(jīng)過PMI過濾后構(gòu)成語境歧義詞候選搭配集,進(jìn)而構(gòu)建語境歧義詞搭配詞典。
目前,對于句子情感傾向性的分析,主要包含機(jī)器學(xué)習(xí)[6-7]和語義分析兩類方法。
語義分析是用于知識的獲取和展示的理論和方法[8],它使用統(tǒng)計方法對語料集進(jìn)行分析,提取和表示出詞的語義,其是詞語的上下文信息的總和。這是因?yàn)樯舷挛膶ζ渲械氖挛锾峁┝艘唤M相互的聯(lián)系和制約,這在很大程度上決定了詞語之間語義上的相關(guān)性[8]。語義分析最初的應(yīng)用是在信息檢索中,解決關(guān)鍵字檢索時的同義詞和多義詞問題。語義分析假設(shè)詞語在文本中的使用模式存在某種語義結(jié)構(gòu),同義詞之間具有基本相同的語義結(jié)構(gòu),多義詞的使用具有多種不同的語義結(jié)構(gòu),語義分析的方法可以提取并量化這些語義結(jié)構(gòu),進(jìn)而消除語境歧義的影響,克服多義詞、同義詞和單詞依賴的現(xiàn)象,提高文本表示的準(zhǔn)確性。故使用語義分析方法進(jìn)行句子的傾向性分析,這種語義結(jié)構(gòu)蘊(yùn)涵在語料中詞語的上下文使用模式中。
在COAE2008評測后,分析結(jié)果發(fā)現(xiàn)判斷錯誤的句子多數(shù)為以下兩種情況:(1)句子中有語境歧義情感詞,無情感詞,例如,“最近,章子怡人氣暴漲,電影票房直線上升”。(2)句子中不存在情感詞也沒有語境歧義情感詞,但卻表達(dá)了情感,如“看著這個電影我就想睡覺!”。
為解決第一種類型的句子,我們選擇的種子詞是20個常見的語境歧義詞,通過觀察發(fā)現(xiàn)其他大部分的語境歧義詞可以用HowNet[9]和哈爾濱工業(yè)大學(xué)的同義詞詞林對這20個語境歧義詞進(jìn)行擴(kuò)展得到,這樣對以后語境歧義詞搭配詞典的擴(kuò)充將會帶來方便。
對語料中的句子分詞,以種子詞為中心詞,4為窗口,前后共取8個詞。根據(jù)漢語語言思維,修飾一個詞語的詞數(shù)在1~6個,人們不傾向用長句,長句會導(dǎo)致相互依存的兩個詞不再依存,或不再屬于同一個意群,出現(xiàn)歧義。窗口取得太小會導(dǎo)致一些搭配未被發(fā)現(xiàn),過大會導(dǎo)致噪音過大,故我們選擇4。把這9個詞看作是一個序列串,種子詞組成的集合構(gòu)成一個Item,里面的每一個元素為X,其他詞組成的集合構(gòu)成另一個Item,里面的每一個元素為Y。蘊(yùn)涵關(guān)系式X→Y構(gòu)成了搭配集。事務(wù)Transaction中的元素由每一個句子中的種子詞分別和上下共8個詞組合而成。采用如圖1所示的流程挖掘語料中的搭配對。
Step1:找出滿足最小支持度α的搭配集;
Step2:在產(chǎn)生的搭配集的基礎(chǔ)上,產(chǎn)生滿足最小置信度β的頻繁集。
設(shè)α=0.005%且以0.005%增長,β=0.1%且以0.1%增長,針對每一對參數(shù)(αi,βi)訓(xùn)練,取結(jié)果最好的一對。
初始值的確定是因?yàn)楫?dāng)α<0.005%,β<0.1%時剪枝過程不明顯, 搭配集的噪音過大。在參數(shù)最優(yōu)化時,取多褒義的“變革”、多貶義的“暴漲”和褒貶個數(shù)相當(dāng)?shù)摹皽p少”作為測試數(shù)據(jù),然后取三組實(shí)驗(yàn)的平均值。當(dāng)兩個參數(shù)增長時, 挖掘的搭配對逐漸減少,帶有情感傾向性的搭配對也隨之流失,用γ表示帶有情感傾向性的搭配未被發(fā)現(xiàn)的比例。具體結(jié)果如表1所示:當(dāng)α=0.000 1,β=0.000 1時,γ最小。
表1 γ的選取
實(shí)驗(yàn)中通過觀察生成的頻繁集,我們發(fā)現(xiàn)很多生成的規(guī)則也是無關(guān)緊要的。基于這種問題我們利用信息論中的互信息來進(jìn)一步挖掘搭配詞間的關(guān)系。設(shè)兩個詞x與y,出現(xiàn)的概率為P(x)與P(y),它們共同出現(xiàn)的概率為P(x,y),則互信息I(x,y)的定義如下(式1):
(1)
設(shè)定一個閾值δ,如果I(x,y)<δ,認(rèn)為該搭配無效。在式(1)中,通常采用計算詞的個數(shù)的方法計算概率。我們知道用詞的tf-idf值計算互信息更能表達(dá)詞與詞的關(guān)聯(lián)程度,所以把式(1)改寫成式(2)。其中tf-idfx為語料集中出現(xiàn)詞x的tf-idf值。
(2)
與α,β的確定方法類似,δ<0.02時,實(shí)驗(yàn)發(fā)現(xiàn)對頻繁集的剪枝不明顯,故初始δ=0.02且以0.02的速度增長,用三組實(shí)驗(yàn)的平均值尋找最優(yōu)參數(shù)。用μ表示帶有情感傾向性的搭配流失的比例,最優(yōu)化過程如表2所示,δ=0.06時實(shí)驗(yàn)結(jié)果最好。
表2 μ的選取
由目標(biāo)集中帶有情感傾向性的關(guān)聯(lián)項(xiàng)構(gòu)成語境歧義詞搭配詞典,采用如下的存儲形式:
<種子詞 描述對象 情感類別> 或者 <描述對象 種子詞 情感類別>
例如,<頸椎 突出 負(fù)>,<成績 突出 正>,<洪水 暴漲 負(fù)>,<人氣 暴漲 正>。
本文在判斷句子情感傾向性時采取語義分析方法。先對語料中能夠體現(xiàn)情感色彩的詞或者短語進(jìn)行抽取,然后對抽取出來的詞或者短語進(jìn)行傾向性判斷,并且賦予一個傾向值,最后將上述所有傾向值累加起來得到一個分值,根據(jù)這個分值來判斷句子的情感傾向性。
本文采用大連理工大學(xué)信息檢索實(shí)驗(yàn)室的情感詞匯本體[10]、情感常識庫[11]、基于第三部分建構(gòu)的語境歧義詞搭配詞典和從HowNet的評價詞表中抽取的評價詞,共四部分構(gòu)成本文的情感詞典——基于語境歧義詞的情感詞典,以下簡稱“情感詞典”。情感詞典中詞語的數(shù)目和正負(fù)項(xiàng)的分布如表3所示,其中O表示正、負(fù)項(xiàng),D表示情感詞典的組成。
表3 基于語境歧義詞的情感詞典
如果句子中有否定詞,則句子的傾向性可能發(fā)生變化。本文為抽取的待判斷詞設(shè)置一個檢測窗口winsize,在winsize內(nèi)出現(xiàn)否定詞,就對句子的情感傾向性取反。根據(jù)實(shí)驗(yàn)測試得到當(dāng)winsize為6時實(shí)驗(yàn)效果最好。相對于傳統(tǒng)的否定詞和轉(zhuǎn)折詞,在否定詞表中加入了毫不、沒法、難免、不怎么等重要的否定詞。在轉(zhuǎn)折詞表中加入了不料、偏偏、誰知、豈知等有漢語特色的轉(zhuǎn)折詞。
根據(jù)句法規(guī)則,本文將句子分為轉(zhuǎn)折句和非轉(zhuǎn)折句。分詞后判斷句子中是否有轉(zhuǎn)折詞,根據(jù)漢語思維習(xí)慣,如果有,認(rèn)為句子要表達(dá)的中心思想在轉(zhuǎn)折詞后。首先為情感詞匯表中情感詞賦權(quán)重,正項(xiàng)情感詞+1,負(fù)項(xiàng)情感詞-1。對句子分詞,判斷是否為情感詞典里面的詞,然后在winsize內(nèi)檢測是否有否定詞出現(xiàn),最后用式(3)計算句子的情感分值。
(3)
其中pi=1代表正項(xiàng)情感詞權(quán)重,nj=-1代表負(fù)向情感詞權(quán)重,當(dāng)正項(xiàng)詞或者負(fù)項(xiàng)詞的前面存在否定詞時,dj=-1。m和n分別代表句子中情感詞存在的個數(shù)。當(dāng)score大于0時句子的情感傾向性即為正項(xiàng),當(dāng)分值小于0時句子的情感傾向性即為負(fù)項(xiàng)。
首先我們用第四節(jié)中提到的方法對句子進(jìn)行情感傾向性分析,為了證明語境歧義詞搭配詞典的重要性,我們把情感詞典分成兩部分:一部分不含有語境歧義詞搭配詞典;另一部分含有語境歧義詞搭配詞典。
我們首先選擇的是COAE2008的語料。因?yàn)镃OAE2008語料涵蓋的內(nèi)容比較全面,其中包括科技、財經(jīng)、體育、電影影評、新聞等各個方面的內(nèi)容,較具有空間跨度,覆蓋面比較廣,不單一。為了驗(yàn)證所建立的情感歧義詞搭配詞典是否有通用性,即不只是對COAE語料有提高,我們又在大連理工大學(xué)信息檢索實(shí)驗(yàn)室的情感語料庫[12]上做了對比試驗(yàn),情感語料庫中包含250 021個句子,句子覆蓋小學(xué)教材、電影劇本、童話故事、文學(xué)期刊。從時間、空間、學(xué)科、風(fēng)格和構(gòu)成上看覆蓋面大。其中包含本文所選的種子詞但不包含情感詞匯本體中的詞的句子占5.8%。
首先將兩個語料中的短篇文章進(jìn)行分句,檢索出其中帶有種子詞的句子,每個種子詞取出其中的主觀句子500條作為實(shí)驗(yàn)語料。在選擇實(shí)驗(yàn)語料時要剔除存在以下三種情況的句子:
(1) 經(jīng)過分詞后不再包含種子詞的句子;
(2) 不成句,不能表達(dá)完整意思的句子;
(3) 與同一種子詞的已有句子表達(dá)意思相同的句子。
其中,條件(1)和(2)用來保證所選語料真正包含所選詞匯并且符合漢語語法的完整句子,這個問題的產(chǎn)生是由于在語料中存在大量的網(wǎng)絡(luò)上關(guān)于電影、體育的評論,而網(wǎng)評信息的一個特點(diǎn)就是語法不規(guī)范,存在較多的語病,這會影響本文對語境歧義詞的研究;條件(3)是為了排除語料中大量重復(fù)信息帶來的干擾。句子中存在部分相同的成分時,我們視為是該詞匯的不同句法或者正常的語用重現(xiàn),直接保留不予剔除。句子數(shù)500條是人工觀察選定的,因?yàn)槌?00后所獲取的重復(fù)句子明顯增加,很少能獲得新的實(shí)例。
語料收集完成后,人工對語料進(jìn)行標(biāo)注,若句子表達(dá)的是褒義則標(biāo)注為“正”項(xiàng),若句子表達(dá)的是貶義則標(biāo)注為“負(fù)”項(xiàng)。20個種子詞語在語料中的“正”項(xiàng)、“負(fù)”項(xiàng)以及每個種子詞中所包含的隱式情感句的個數(shù)分布情況如圖2所示,其中724個隱式情感句子中,正項(xiàng)隱式情感句有“289”個,負(fù)項(xiàng)隱式情感句有“435”個。
圖2 語料分布情況
在COAE2008中以20個種子詞為類別的實(shí)驗(yàn)結(jié)果總體上都有一定的提高,從表4中可以看到“暴漲”、“上升”、“涌現(xiàn)”的準(zhǔn)確率、召回率和F值相對提高的多,而“最新”、“縮短”、“升溫”、“巨大”的準(zhǔn)確率、召回率和F值相對提高的少。
表4 20個種子詞的實(shí)驗(yàn)結(jié)果
續(xù)表
通過觀察語料,發(fā)現(xiàn)提高得多的種子詞在語境歧義詞搭配詞典中所占的比例要比其他的種子詞所占的比例大,這類詞在語料中存在語境歧義的情況較明顯。兩個形容詞性的種子詞的百分率都提高的不多,這也正符合我們的漢語語言習(xí)慣。我們知道當(dāng)形容詞修飾名詞時,情感的傾向性或者體現(xiàn)在名詞上面或者體現(xiàn)在形容詞上面,看下面的兩個例子。(1)“美麗的女孩”和“悲傷的事情”的情感傾向性主要體現(xiàn)在形容詞“美麗”和“悲傷”上。(2)“巨大的災(zāi)難”、“最新疫情”的情感傾向性體現(xiàn)在名詞“災(zāi)難”和“疫情”上,而類似“災(zāi)難”和“疫情”這些帶有情感傾向性的名詞已經(jīng)收錄在我們的情感詞匯本體中,所以提高地不多。由此我們也得出,帶有情感傾向性的語境歧義詞主要是動詞。
我們又分別對COAE2008語料中的正、負(fù)例情感分別做了對比試驗(yàn),試驗(yàn)結(jié)果如表5所示。
表5 COAE2008語料中正、負(fù)例的實(shí)驗(yàn)結(jié)果
我們發(fā)現(xiàn)正類的分類效果優(yōu)于負(fù)類,仔細(xì)閱讀語料發(fā)現(xiàn),負(fù)類中隱性情感的比例要多于正類,并且負(fù)類中對于情感的表達(dá)方式比較復(fù)雜,結(jié)構(gòu)也比較多樣化。觀察正負(fù)例分類出錯的句子,出錯原因主要有以下幾點(diǎn):(1) 長句占據(jù)的比例比較多,并且這類句子一般含有多個情感主題,沒有一個主要的情感傾向性; (2)由于用支持度、置信度、PMI過濾導(dǎo)致一小部分的帶有情感傾向性的搭配對流失,使得判斷錯誤,但是由流失的搭配引起的分錯類別的句子占極少數(shù);(3) 對于句子中不存在情感詞也沒有語境歧義情感詞,但是卻表達(dá)了一定的情感的問題,如“看著這個電影我就想睡覺!”,這種句子我們還沒有很好的解決,而這也一直是句子情感傾向性判斷的一大難題。
為證明語境歧義詞搭配詞典的通用性,我們在COAE2008和情感語料庫上分別做了對比試驗(yàn),分別如圖3、4所示,從圖中看到兩者的實(shí)驗(yàn)結(jié)果都有一定提高。分析所有的實(shí)驗(yàn)結(jié)果,我們認(rèn)為,提高的原因在于:基于語境歧義詞搭配詞典的實(shí)驗(yàn)不僅考慮了句式,句法規(guī)則,而且還充分考慮了語境歧義詞、否定副詞和轉(zhuǎn)折詞對語言情感傾向性的影響。
圖3 COAE2008語料集的實(shí)驗(yàn)結(jié)果
圖4 情感語料庫的實(shí)驗(yàn)結(jié)果
本文給出了一種基于關(guān)聯(lián)規(guī)則挖掘語境歧義詞搭配頻繁集,構(gòu)建語境歧義詞搭配詞典的方法。從語義搭配的角度出發(fā),把句子分為兩大類,設(shè)計了兩種觀點(diǎn)傾向性分析策略。對語料的測試表明,基于語境歧義詞的句子傾向性分析有重要的意義,我們從漢語語義上的修飾關(guān)系入手,挖掘情感評價對象和評價詞之間的深層聯(lián)系。通過在COAE2008語料上和情感語料庫上的實(shí)驗(yàn),我們發(fā)現(xiàn)了語境歧義詞搭配詞典在文本傾向性分析中的重要性。
目前語境歧義搭配詞典的建設(shè)工作還在進(jìn)行中,其中只含有與種子詞和與種子詞意思相近或者相反的搭配。我們計劃加入更多的語義資源來豐富語境歧義詞搭配詞典,根據(jù)實(shí)際的需要增加語境歧義詞搭配詞典的規(guī)模,使語境歧義搭配詞典更加的全面和完善。
[1] Bolshakov IA,Gelbukh A. Heuristics-Based Replenishment of Collocation Databases[J]. E.M.Ranchhod and N.J.Mamede(Eds.),2002,2389:25-32.
[2] 車萬翔,劉挺,秦兵.面向依存文法分析的搭配抽取方法研究[C]//全國第六屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議論文集.太原:全國第六屆計算語言學(xué)聯(lián)合學(xué)術(shù)會議,2001:102-107.
[3] Ding XW,Liu B,Yu PS.A Holistic Lexicon-Based Approach To Opinion Mining[C]//Proceedings of The Conference on Web Search And Web Data Mining (WSDM).New York:ACM,2008:231-240.
[4] Agrawal R,Imielinski T,Swami AN.- Mining Association Rules Between Sets of Items In Large Data Bases[C]//Proceedings of The ACM SIGMOD Intl Conference on Management of Data. Washington:1993:207-216.
[5] Agrawal R,Srikant R.Fast Algorithms For Mining Association Rules[C]//The Proceedings of Intel Conference on Very Large Data Bases.Santiago:1994:487-499.
[6] Kim SM, Hovy E. Automatic Detection of Opinion Bearing Words And Sentences[C]//The Proceedings of IJCNLP-2005.JeJu Island:2005:61-66.
[7] Zhao J, Liu K. Adding redundant features for crfs-based sentence sentiment classification[C]//The Proceedings of The 2008 Conference on Empirical Methods In Natural Language Processing. Honolulu:2008:117-126.
[8] Landauer TK, Foltz PW,Laham D.Introduction to Latent Semantic Analysis Discourse Processes[M],1998,25:259-284.
[9] Zhen Dong. Dong.http://www.keenage.com/zhiwang/e_zhiwang.html[EB/OL].
[10] 徐琳宏,林鴻飛,潘宇.情感詞匯本體的構(gòu)造[J].情報學(xué)報,2008,27:180-185.
[11] 陳建美,林鴻飛,中文情感常識知識庫的構(gòu)建[J].情報學(xué)報,2009,28:492-498.
[12] 徐琳宏,林鴻飛,趙晶.情感語料庫的構(gòu)建和分析[J].中文信息學(xué)報,2008,22(1):116-122.