許歆藝,劉功申
(上海交通大學(xué) 信息安全工程學(xué)院, 上海 200240)
?
基于文本紋理特征的中文情感傾向性分類
許歆藝,劉功申
(上海交通大學(xué) 信息安全工程學(xué)院, 上海 200240)
隨著互聯(lián)網(wǎng)的發(fā)展,社交網(wǎng)絡(luò)、電子商務(wù)等已經(jīng)成為人們關(guān)注的焦點(diǎn),對社交網(wǎng)絡(luò)的文本進(jìn)行情感傾向性分析和挖掘變得越來越重要。該文針對網(wǎng)絡(luò)上的中文文本,提出一種基于文本紋理特征的情感傾向性分類方法。通過測試多種文本紋理特征對文本情感傾向性的影響,成功將文本紋理特征融入情感分類中。通過計(jì)算各類特征與文本的情感傾向性的相關(guān)度,對特征進(jìn)行降維。相對于基于詞頻的情感傾向性分類方法,查準(zhǔn)率平均提高了10%左右。
中文文本分類;情感傾向性;文本紋理;SVM
近年來,飛速發(fā)展的互聯(lián)網(wǎng)已經(jīng)逐步成為了人們生活的一部分,網(wǎng)絡(luò)上的信息隨之急劇增長,互聯(lián)網(wǎng)已經(jīng)成為人們發(fā)表觀點(diǎn)和評論的重要載體之一。網(wǎng)絡(luò)上的文章、評論直接地反映了網(wǎng)民的態(tài)度和見解,對大量文本的分析可以相當(dāng)真實(shí)地反映民眾對于某一事物的態(tài)度,因此對網(wǎng)絡(luò)上的文本進(jìn)行情感傾向性分析和挖掘正變得越來越重要。
在同一主題下,對這些網(wǎng)絡(luò)評論、文學(xué)作品進(jìn)行挖掘和分析,識(shí)別出其中的情感傾向,對于電子商務(wù)、輿情監(jiān)管等領(lǐng)域有著重要的意義和實(shí)用價(jià)值。文本傾向性分類正逐步成為自然語言研究領(lǐng)域的一個(gè)熱點(diǎn)方向。
上世紀(jì)90年代起,國外就開始了對詞匯傾向性的分析研究,Turney提出了一種通過一組基準(zhǔn)詞計(jì)算詞語的情感傾向性的方法,達(dá)到了95%的準(zhǔn)確率[1];Kim等人同樣將工作重點(diǎn)放在情感詞匯的傾向性分析上,在一對基準(zhǔn)詞集的基礎(chǔ)上使用WordNet計(jì)算未知詞匯的情感傾向性[2]。隨著研究工作和實(shí)際應(yīng)用領(lǐng)域的發(fā)展,對整篇文檔的觀點(diǎn)抽取和傾向性判斷成為研究工作的熱點(diǎn),情感詞的上下文信息和語義搭配關(guān)系也逐漸被應(yīng)用到語義傾向性計(jì)算當(dāng)中。Wiebe等利用詞語的搭配關(guān)系進(jìn)行文檔級別的觀點(diǎn)挖掘,將具有搭配關(guān)系的詞對作為特征,判斷整篇文檔的情感傾向性[3]。而在實(shí)際工作中,單詞的傾向性與短語的傾向性往往相反,Wilson和Wiebe等人在后期研究中著力研究了短語級情感傾向性,并對中立情感這一實(shí)際大量存在的文本進(jìn)行研究[4]。在有領(lǐng)域針對性的文本傾向性分類方面,Melville給出一個(gè)統(tǒng)一的框架,可以使用不同背景知識(shí)生成模型結(jié)合傳統(tǒng)的分類工作,達(dá)到更精準(zhǔn)的分類效果[5]。
在中文領(lǐng)域的研究中,文本情感傾向性主要的研究方法主要分為兩種,如朱嫣嵐等人利用HowNet提供的語義相似度和語義相關(guān)場計(jì)算功能對詞語的褒貶傾向度按一定計(jì)算法則進(jìn)行賦值,并根據(jù)該值判別該詞語義傾向,并在后續(xù)工作中利用詞語傾向性進(jìn)行計(jì)算文本傾向性[6];另一種方法把機(jī)器學(xué)習(xí)的文本分類方法應(yīng)用于中文文本傾向性分類領(lǐng)域。通過采用不同的停用詞表、特征選取方法、特征加權(quán)方法進(jìn)行比較實(shí)驗(yàn),并應(yīng)用不同的分類算法進(jìn)行分類尋取較好的分類效果。例如,代六玲[7]等人針對不同的特征選取方法的有效性,特別是組合的特征抽取方法進(jìn)行了研究,縮短了分類精度和訓(xùn)練時(shí)間。基于機(jī)器學(xué)習(xí)方法的情感自動(dòng)分類方面,徐軍[8]等人還提出了詞語成對共現(xiàn)對表現(xiàn)不同情感的影響。目前已有多種標(biāo)準(zhǔn)算法可用于文本的學(xué)習(xí)與分類,例如,K最近鄰算法、樸素貝葉斯算法、支持向量機(jī)算法[9]。徐琳宏等人進(jìn)一步考慮到語義理解,在處理詞語傾向性的基礎(chǔ)上添加了否定規(guī)則和程度副詞的識(shí)別,對褒貶的識(shí)別力度得到了進(jìn)一步加強(qiáng)[10]。
本文的研究工作采用機(jī)器學(xué)習(xí)的方法,識(shí)別包括句式、修辭、詞語間依賴關(guān)系等在內(nèi)的文本紋理,以情感詞匯、評價(jià)詞匯、語氣詞以及部分文本紋理為基礎(chǔ)特征,并根據(jù)所識(shí)別的文本紋理調(diào)整基礎(chǔ)特征的權(quán)重,并且通過對所有特征與褒貶文本的相關(guān)性檢測對特征進(jìn)行降維, 達(dá)到了更高的準(zhǔn)確度以及更快的分類速度。
現(xiàn)存的傳統(tǒng)的文本情感傾向性分類大多是基于情感詞匯的傾向性來進(jìn)行綜合判斷[11],而情感分類是要對文本的整體進(jìn)行情感傾向的判斷,當(dāng)受到分詞的影響時(shí),原本的句子紋理都被丟失了。
例如,“雖然總體算不錯(cuò),但是我并不喜歡?!苯?jīng)過分詞后變成“雖然”、“總體”“算”“不錯(cuò)”“,”“但是”“我”“并”“不”“喜歡”“。”如果直接將詞語作為特征項(xiàng),“不錯(cuò)”“喜歡”這樣的特征詞會(huì)將本句判定為一句正面感情的句子,然而當(dāng)考慮到否定詞的修飾、轉(zhuǎn)折句型,本句完全是一句負(fù)面感情的句子。
本文中提到的句子紋理主要包括詞語間依賴關(guān)系、句型、句子修辭手法等,本節(jié)將詳細(xì)介紹將句子紋理提取為文本特征的原理和步驟。而經(jīng)過實(shí)驗(yàn),單純將句子紋理本身作為特征效果并不很好。于是本文提出了一種基于句子紋理的文本特征的權(quán)重計(jì)算方法: 對于出現(xiàn)了句子紋理信息的句子,將其中的出現(xiàn)的特征的特征權(quán)重在原始權(quán)重的基礎(chǔ)上做相應(yīng)的浮動(dòng),同時(shí)對不同的特征權(quán)重計(jì)算方法進(jìn)行了對比分析。本文在實(shí)驗(yàn)中還考慮到特征維度較高,進(jìn)行降維工作[12],實(shí)際使用維度從1 206維降至260,同時(shí)能保持分類正確率不變。
圖1 基于句子紋理的文本情感傾向性分析總體流程圖
2.1 支持向量機(jī)算法
本文實(shí)驗(yàn)中使用的分類算法為支持向量機(jī)算法,又稱為SVM算法[13]和最大邊緣算法(Maximum Margin)。SVM可以用于監(jiān)督式或者半監(jiān)督式學(xué)習(xí)[14],依靠對有限的樣本的學(xué)習(xí)實(shí)現(xiàn)對非線性和高維度模式的識(shí)別。
SVM本質(zhì)上是一個(gè)二分類的分類器,目的是為了在一個(gè)支持平面上尋找一個(gè)將兩類類別區(qū)分開的超平面,因此經(jīng)典的SVM分類器非常適合用于本文實(shí)驗(yàn)中區(qū)分正反兩面情感的分類工作。在多分類,比如更細(xì)膩的情感傾向性劃分中,可以通過多個(gè)二類支持向量機(jī)的組合來解決。主要有一對多組合模式、一對一組合模式和SVM決策樹;再就是通過構(gòu)造多個(gè)分類器的組合來解決。
2.2 基于文章紋理的特征構(gòu)造方法
為了消除分詞給文本情感傾向性判斷帶來的不良效果,本文在實(shí)驗(yàn)中嘗試了各種幫助表現(xiàn)文意的元素,除了詞語本身之外還有詞語間的依賴關(guān)系、詞語順序、句型、文章修辭手法等等。本節(jié)將闡述的實(shí)驗(yàn)中用到的文本特征中包括了情感詞匯、評價(jià)詞匯、語氣詞、句型以及文本紋理,文本紋理中包括詞語間依賴關(guān)系和文本修辭手法。本節(jié)將首先給出實(shí)驗(yàn)中
采用的特征項(xiàng),隨后說明特征權(quán)重的兩種計(jì)算方法,然后給出將用以調(diào)整特征項(xiàng)權(quán)重的句子紋理,最后給出調(diào)整特征項(xiàng)權(quán)重的方案。
2.2.1 基礎(chǔ)特征項(xiàng)
在本文實(shí)驗(yàn)中,以情感詞匯、評價(jià)詞匯、語氣詞這三類詞匯作為特征向量的基礎(chǔ)組成部分。
? 情感詞匯
這里指表現(xiàn)對象正面或者負(fù)面的情緒的詞語,如: 暢快、大喜過望、感興趣、悲哀、委屈、哀怨等。
? 評價(jià)詞匯
這里指描述對象正面或者負(fù)面特征的詞語,例如,標(biāo)致、別具一格、雋永、礙眼、鄙俗、表里不一等。
? 語氣詞
語氣詞是表示語氣的虛詞,常用在句尾或句中停頓處表示種種語氣。常見的語氣詞有: 哈,嗎,啦,唉。
這三類詞匯都能表達(dá)文本中人物的情感、人和物的特征,進(jìn)而表現(xiàn)了文本的作者的情感傾向性。其中,情感詞匯也是傳統(tǒng)的文本傾向性分析的研究中最常用也是最重要的特征項(xiàng)。因此本文在構(gòu)造文章紋理特征時(shí),也采用了這三種詞匯作為待分析情感傾向性的文章的特征項(xiàng)。但是從實(shí)驗(yàn)數(shù)據(jù)中可以明顯看到,僅僅簡單采用這三種詞匯作為特征所得到的分析結(jié)果并不十分理想。
2.2.2 文本紋理特征項(xiàng)
在本文實(shí)驗(yàn)中,除基礎(chǔ)特征項(xiàng)之外,嘗試了以下幾種文本紋理作為特征的組成部分。
? 詞語間的依賴關(guān)系
詞語間存在著復(fù)雜的依賴關(guān)系,如果單純地以詞語作為特征項(xiàng)會(huì)丟失很大一部分文意。比如“總的來說,我并不贊同這一提議?!北旧磉@個(gè)句子表達(dá)了作者對這件事的一種否定,但是經(jīng)過單純以詞語作為特征項(xiàng)的特征化處理后,這些詞匯綜合的情感傾向性為褒義。顯然,單純以詞語來判別句子中表達(dá)的作者態(tài)度是有欠缺的。
本文在實(shí)驗(yàn)中先通過Stanford Parser獲取詞語依賴關(guān)系組,如: dvpmod(防止, 有效),并提取依賴關(guān)系,如: dvpmod,并將詞語依賴關(guān)系作為文本特征的一部分。
? 句型
文本中句子的句型是句子紋理的一個(gè)重要部分,本文選擇了轉(zhuǎn)折句作為研究的切入點(diǎn)。轉(zhuǎn)折句表示出作者表達(dá)的意向的著重點(diǎn)主要在句子的后半句,因此識(shí)別轉(zhuǎn)折句能夠體現(xiàn)出作者的表達(dá)意圖和表達(dá)重點(diǎn)。
漢語中,轉(zhuǎn)折句型主要有以下結(jié)構(gòu):
可是、但是、盡管……還、雖然(雖是、說、盡管、固然)……但是(但、可是、然而、卻) 、卻、不過、然而、只是 、盡管……可是……、雖然……但是……、……卻……
轉(zhuǎn)折句的識(shí)別方法為:
1) 對句子進(jìn)行分詞;
2) 在句子中查找是否出現(xiàn)上面提到的結(jié)構(gòu),如出現(xiàn)則判定為轉(zhuǎn)折句。
? 文章修辭手法
在中文中有一種特殊的句子紋理——修辭手法,是一種通過修飾、調(diào)整語句,運(yùn)用特定的表達(dá)形式以提高語言表達(dá)作用的方法。由于修辭手法能表現(xiàn)作者相對一般句子更為強(qiáng)烈的情感,尤其是排比句。排比句利用三個(gè)或三個(gè)以上意義相關(guān)或相近,結(jié)構(gòu)相同或相似和語氣相同的詞組或句子并排,達(dá)到了一種加強(qiáng)語勢的效果。所以本文擬從文中提取排比的修辭手法,并將其作為特征項(xiàng)的一部分。
修辭手法的識(shí)別方法為:
1) 先通過Stanford Parser獲取一個(gè)整句的句法結(jié)構(gòu);
2) 排比句中分句的句式結(jié)構(gòu)往往相近甚至相同,因此通過句子結(jié)構(gòu)提取和識(shí)別,把結(jié)構(gòu)相似度高的分句判定為排比句。
2.2.3 特征的權(quán)重
特征的權(quán)重[15]基本可以分為兩大類: 特征出現(xiàn)頻率、特征出現(xiàn)與否。本文分別試驗(yàn)了這兩種權(quán)重,并對以特征出現(xiàn)頻率作為權(quán)重的方法進(jìn)行了改進(jìn)。下面主要介紹以特征出現(xiàn)頻率為基礎(chǔ)的權(quán)重設(shè)定方法。
由于經(jīng)過實(shí)驗(yàn),數(shù)據(jù)顯示單純添加詞語的依賴關(guān)系、句式本身作為特征并且計(jì)算其頻率作為特征權(quán)重的效果并不好,這是因?yàn)榧y理特征本身與文章情感傾向性之間并無直接的聯(lián)系,紋理特征的直接引入反而給文章情感傾向性帶來了一定噪聲。因此文本在實(shí)驗(yàn)中根據(jù)詞語依賴關(guān)系、句式、修辭來改變核心詞的特征權(quán)重,表2給出的修改值為經(jīng)過實(shí)驗(yàn)(對比數(shù)據(jù)列于表4)所得到的最優(yōu)值。
1. 基于詞語依賴關(guān)系的特征權(quán)重
從Stanford Parser解析得到的詞語依賴關(guān)系中選擇了兩種依賴關(guān)系作為文章紋理特征研究的切入點(diǎn): 否定修飾(negative modifier)和副詞修飾(adverbial modifier)。
否定修飾如: neg(愉快, 不),“愉快”一詞出現(xiàn)一次,其特征權(quán)重原本應(yīng)當(dāng)采取“+1”操作,由于否定修飾的影響,取消該“+1”操作。
程度副詞修飾的作用是改變情感詞和評價(jià)詞匯原本的表現(xiàn)強(qiáng)烈程度,知網(wǎng)情感分析用詞語集中總結(jié)了219個(gè)程度副詞,并劃分為六個(gè)程度。
表1 知網(wǎng)程度副詞表
續(xù)表
特征權(quán)重修改幅度的參考值為:
表2 程度副詞對特征值修改幅度表
2. 基于轉(zhuǎn)折句句型的特征權(quán)重
轉(zhuǎn)折句中,作者通過轉(zhuǎn)折來強(qiáng)調(diào)突出轉(zhuǎn)折后的半句的句意,比一般的陳述句感情更為強(qiáng)烈。因此本文通過識(shí)別句子是否為轉(zhuǎn)折句,來調(diào)整句子情感傾向性: 減少前半句中出現(xiàn)的情感詞匯、評價(jià)詞匯的特征權(quán)重,修改后每個(gè)詞出現(xiàn)一次對特征值的增加幅度為+0.5(標(biāo)準(zhǔn)為+1);增加后半句中出現(xiàn)的情感詞匯、評價(jià)詞匯的特征權(quán)重,修改后每個(gè)詞出現(xiàn)一次對特征值的增加幅度為+1.8(標(biāo)準(zhǔn)為+1)。
3. 基于排比修辭手法的特征權(quán)重
排比句是把三個(gè)或以上意義相關(guān)或相近、結(jié)構(gòu)相同或相似、語氣相同的詞組或句子并排在一起組成的句子。排比比一般句子更能突出作者的感情思想,起到強(qiáng)調(diào)句意的作用。因此本文通過識(shí)別句子是否為排比句,來調(diào)整句子的情感傾向性: 增加該句中出現(xiàn)的情感詞匯和評價(jià)詞匯的特征權(quán)重,修改后每個(gè)詞出現(xiàn)一次對特征值的增加幅度為+1.3(標(biāo)準(zhǔn)為+1)。
2.3 基于互信息量MI的特征降維
互信息(Mutual Information)是一種有用的信息度量,它是指兩個(gè)事件集合之間的相關(guān)性。兩個(gè)事件X和Y的互信息定義為:
I(X;Y) =H(X)-H(X|Y)=H(Y)-H(Y|X)
=H(X)+H(Y)-H(X,Y)
=H(X,Y)-H(X|Y)-H(Y|X)
通過計(jì)算特征的出現(xiàn)以及正面(負(fù)面)文本的出現(xiàn)這兩個(gè)事件發(fā)生的相關(guān)性,可以得知每一個(gè)特征與文本傾向性的相關(guān)度。
在本文實(shí)驗(yàn)中預(yù)先定義的特征集合的維度為6 919維,其中包含了3 730個(gè)正面情感詞匯和評價(jià)詞匯,3 116個(gè)負(fù)面情感詞匯和評價(jià)詞匯,20個(gè)語氣詞,53個(gè)詞語間的依賴關(guān)系,而在實(shí)驗(yàn)中實(shí)際出現(xiàn)的特征共為1 206維,經(jīng)計(jì)算互信息量并對其進(jìn)行排序可以篩選出與正面(負(fù)面)文本相關(guān)度最高的那一部分特征,隨后為了消減噪聲的影響,剔除了出現(xiàn)在該類別文本中出現(xiàn)次數(shù)極少的部分特征,共得到260個(gè)分別與正面文本負(fù)面文本相關(guān)度最高的特征。通過實(shí)驗(yàn)發(fā)現(xiàn)降維之后分類的正確率能夠保持不變。
表3為實(shí)驗(yàn)所得部分相關(guān)度最高的情感詞匯、評價(jià)詞匯、語氣詞以及依賴關(guān)系
表3 部分MI值最高的情感詞匯、評價(jià)詞匯、語氣詞、依賴關(guān)系
類 別正面文本負(fù)面文本情感詞匯與評價(jià)詞匯便捷精彬彬有禮可笑大方強(qiáng)硬吉上上完備顯著細(xì)致像話一流應(yīng)有幽靜正面優(yōu)雅骯臟怡傲慢驕傲冰冷
續(xù)表
本文采用機(jī)器學(xué)習(xí)的方法對文本進(jìn)行傾向性研究,實(shí)驗(yàn)中的訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)都采用譚松波收集整理的攜程網(wǎng)酒店評論平衡語料庫,正面文本和負(fù)面文本各2 000條,分別分為10份數(shù)據(jù),輪流將其中九份即3 600條作為訓(xùn)練數(shù)據(jù),另外一份數(shù)據(jù)即400條作為測試數(shù)據(jù),根據(jù)10折交叉驗(yàn)證的平均值驗(yàn)證實(shí)驗(yàn)結(jié)果。分類算法采用的是SVM支持向量機(jī)算法。特征向量的構(gòu)造方法采用的是以情感詞匯、評價(jià)詞匯、語氣詞、詞語間依賴關(guān)系的作為特征項(xiàng)。特征權(quán)重的計(jì)算使用了兩種方法,一是采用特征出現(xiàn)頻率為基礎(chǔ)、依靠詞語間依賴關(guān)系和句式對特征出現(xiàn)頻率做修正的方法,二是采用特征出現(xiàn)與否記錄為0和1作為權(quán)重。實(shí)驗(yàn)還嘗試對特征維度進(jìn)行降維,使得實(shí)際使用的特征維度降到了原本的21.6%。
下面首先給出對同一批特征選取方案中的特征權(quán)重修正的實(shí)驗(yàn)結(jié)果,參見表4。
表4 根據(jù)文本紋理特征對特征權(quán)重修改方案實(shí)驗(yàn)結(jié)果
續(xù)表
從表4可以看出,在基礎(chǔ)特征相同情況下,紋理特征特別是詞語間依賴關(guān)系對于文意的表現(xiàn)存在很大的影響。通過實(shí)驗(yàn),不斷修改不同的修改參數(shù)更好地模擬文本紋理結(jié)構(gòu)對文意的影響程度。
本文在接下來的實(shí)驗(yàn)中都將采用修改組合四,即本文2.2.3“特征的權(quán)重”一節(jié)中提到的修改方案。在包括決定特征權(quán)重修改參數(shù)、壓縮維度的預(yù)備工作完成后,實(shí)驗(yàn)步驟如下:
1) 使用中科院漢語分詞系統(tǒng)ICTCLAS對文本進(jìn)行分詞
2) 使用Stanford自然語言處理工具Stanford Parser獲取詞語間依賴關(guān)系
3) 提取文本中的情感詞匯、評價(jià)詞匯、語氣詞、詞語間依賴關(guān)系作為特征項(xiàng)
4) 計(jì)算特征項(xiàng)出現(xiàn)頻率作為特征權(quán)重
表5 以特征出現(xiàn)與否(0/1)作為特征權(quán)重進(jìn)行分類
表6 以原始詞頻計(jì)算權(quán)重進(jìn)行分類
表7 以原始詞頻計(jì)算權(quán)重,以詞語間依賴關(guān)系、句式修正詞頻進(jìn)行分類
5) 識(shí)別文本中轉(zhuǎn)折句、排比句,對出現(xiàn)在該句中的特征頻率進(jìn)行修正
6) 對存在于副詞修飾、否定修飾的詞語間依賴關(guān)系中的詞語的特征頻率進(jìn)行修正
7) 使用SVM分類器對訓(xùn)練集進(jìn)行學(xué)習(xí)
8) 使用SVM分類器對測試集進(jìn)行分類,并評估結(jié)果的正確率和召回率
由實(shí)驗(yàn)結(jié)果表5~7可見,在相同特征組合情況下,權(quán)重的計(jì)算方法的選擇很大影響到結(jié)果的準(zhǔn)確率。傳統(tǒng)計(jì)算方法中以詞頻作為基礎(chǔ)計(jì)算權(quán)重的方法可以得到比較不錯(cuò)的計(jì)算結(jié)果(表6),但是本文提出的由詞語依賴關(guān)系與句式修正詞頻的計(jì)算方法明顯提升了計(jì)算的結(jié)果(表7)??梢妼τ谖谋局性~語間相互關(guān)系以及整體句子結(jié)構(gòu)的挖掘進(jìn)一步提升了文本傾向性判斷的準(zhǔn)確率。
通過比較表5~7的橫向數(shù)據(jù),可以看到語氣詞的引入提高了判斷的準(zhǔn)確性,就是說雖然語氣詞本身一般不含有任何正負(fù)面情感,但是我們在表達(dá)正面與負(fù)面情感時(shí)確實(shí)使用了不同的語氣詞。詞語間依賴關(guān)系本身作為特征是一種冗余,因?yàn)閹缀跛幸蕾囮P(guān)系本身不能夠表達(dá)任何正負(fù)面情感,必須與具體的詞語相結(jié)合才能表達(dá)出信息。
通過比較表5~7的最后兩列數(shù)據(jù),可以發(fā)現(xiàn)降維后,大大加快了特征抽取與計(jì)算過程的時(shí)間,在大規(guī)模的文本分類(比如數(shù)十萬條的微博情感分類)中節(jié)省了大量時(shí)間。另外在計(jì)算特征與文本相關(guān)度的結(jié)果中,發(fā)現(xiàn)不同的語料庫所對應(yīng)的高相關(guān)度特征中情感詞匯不盡相同,而語氣詞非常相似,因此后續(xù)工作中可以針對不同類別語料庫中相同部分進(jìn)行研究,找出更多共通的特征。而且由于排除了很多冗余的特征,所以在準(zhǔn)確率的評判中與前三種組合中結(jié)果最好的第二組相比,降維后的結(jié)果有的略低一些,有的不變,有的略高一些,綜合看來降維對準(zhǔn)確率沒有特別大的影響,但是能極大提高工作效率。
本文主要做了兩部分工作,其一是從文本中詞與詞之間的結(jié)構(gòu)、句子結(jié)構(gòu)中進(jìn)行挖掘文本紋理,修正了以詞頻為基礎(chǔ)的特征權(quán)重計(jì)算方法,有效提高了分類的準(zhǔn)確性。
因?yàn)檫@些文本紋理是一種用以幫助表達(dá)作者情感起伏強(qiáng)弱變化的結(jié)構(gòu),采取以情感詞語和評價(jià)詞語為基礎(chǔ),通過識(shí)別文本紋理修正特征權(quán)重可以更好擬合作者情感起伏。在將來的研究中,結(jié)合更多的詞語間依賴關(guān)系以及句式的研究,可以通過進(jìn)一步的尋找依賴關(guān)系、句式與情感傾向之間的關(guān)系來達(dá)到更高的準(zhǔn)確率。
其二是對繁多的特征進(jìn)行分析降維, 刪減了與不同情感傾向性相關(guān)度較低的特征,保留了有明顯相關(guān)度的特征。實(shí)驗(yàn)證明,降維的過程既能保證分類的準(zhǔn)確性,也大大提高了分類速度。
因?yàn)榭紤]到網(wǎng)絡(luò)文本的不標(biāo)準(zhǔn)、描述對象的不統(tǒng)一,在文本中有些詞匯的出現(xiàn)有很大的隨機(jī)性,而根據(jù)相關(guān)度降維這一工作恰恰刪除了這些隨機(jī)性和冗余度,但是在刪除過程中雖然刪除了一些不恰當(dāng)?shù)奶卣?,但是也排除了一部分出現(xiàn)次數(shù)過少或者被錯(cuò)誤信息干擾了的有用特征,所以查準(zhǔn)率并沒有能得到提升,但能與降維前保持一致。在將來工作中可以用更多算法來計(jì)算特征與不同文本間的相關(guān)度,更多更好保留有用特征。
[1] Peter D Turney, Michael L Littman. Measuring praise and criticism: Inference of semantic orientation from association[J].ACM Transactions on Information Systems (TOIS).2003, 21(4):315-346.
[2] Kim, S M, E Hovy. Automatic Detection of Opinion Bearing words and Sentences[A]. Companion Volume to the Proceedings of IJCNLP-05[C].Jeju Island, KR,2005: 61-66.
[3] Janyce wiebe, Theresa wilson, Matthew Bell. Identifying Collocations for Recognizing Opinions[A]. ACL-01 Workshop on Collocation: Computational Extraction, Analysis, and Exploitation[C]. Toulouse, France, 2001: 24-31.
[4] Theresa Wilson, Janyce Wiebe, Paul Hoffmann.Recognizing Contextual Polarity:An Exploration of Features for Phrase-Level Sentiment Analysis[J].Computational Linguistics,2009,35(3):399-433.
[5] Prem Melville, Wojciech Gryc, and Richard D. Lawrence.Sentiment analysis of blogs by combining lexical knowledge with text classification[A]. KDD ′09: Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining[C].New York, USA:ACM, 2009,1275-1284.
[6] 朱嫣嵐,閔錦,周雅倩等.基于HowNet的詞匯語義傾向計(jì)算[J].中文信息學(xué)報(bào),2006,20(1): 14-20.
[7] 代六玲,黃河燕,陳肇雄.中文文本分類中特征抽取方法的比較研究[J].中文信息學(xué)報(bào),2004,18(1): 26-32.
[8] 徐軍,丁宇新,王曉龍,使用機(jī)器學(xué)習(xí)方法進(jìn)行新聞的情感自動(dòng)分類[J].中文信息學(xué)報(bào),2004,18(1): 95-100.
[9] 劉依璐. 基于機(jī)器學(xué)習(xí)的中文文本分類方法研究 [D]. 西安:西安電子科技大學(xué),2009.
[10] 徐琳宏, 林鴻飛, 楊志豪.基于語義理解的文本傾向性識(shí)別機(jī)制[J].中文信息學(xué)報(bào),2007,21(6): 96-100.
[11] Bo Pang,Lillian Lee,Shivakumar Vaithyanathan.Thumbs up? Sentiment Classification using Machine Learning Techniques[A].EMNLP ′02 Proceedings of the ACL-02 conference on Empirical methods in natural language processing[C]Stroudsburg, PA, USA:Association for Computational Linguistics,2002: 79-86.
[12] 胡潔.高維數(shù)據(jù)特征降維研究綜述[J].計(jì)算機(jī)應(yīng)用研究.2008,25(9): 2601-2606.
[13] N. Cristianini, J. Shawe-Taylor.An introduction to support vector machines and other kernel-based learning methods[M].Cambridge:Cambridge University Press,2000.
[14] Nitin Namdeo Pise, Parag Kulkarn.Semi-Supervised Learning with SVM and K-Means Clustering Algorithm[A].Prasad, Bhanu.IICAI[C].IICAI,2010: 463-482.
[15] 張愛華,靖紅芳,王斌等.文本分類中特征權(quán)重因子的作用研究[J].中文信息學(xué)報(bào),2010,24(3): 97-104.
Texture Based Sentiment Orientation Identification for Chinese Texts
XU Xinyi, LIU Gongshen
(Shanghai Jiao Tong University, School of Information Security Engineering, Shanghai 200240, China)
With the development of Internet, the text orientation identification and text mining in social network is becoming a hot research issue. In this paper, a text sentiment orientation identification method using textures is proposed. The feature reduction is conducted by mutual information between the texture features and the text orientations. Compared to sentiment orientation classification method based on word frequency, the proposed method is proved about 10% increase for precision on average.
Chinese text categorization; sentiment orientation; textures of text; SVM
許歆藝(1989—),碩士,主要研究領(lǐng)域?yàn)樽匀徽Z言處理,文本情感傾向性分析等。E?mail:katrinaxxy@gmail.com劉功申(1974—),博士,副教授,主要研究領(lǐng)域?yàn)樾畔?nèi)容安全,自然語言處理等。E?mail:lgshen@sjtu.edu.cn
1003-0077(2015)03-0106-07
2013-04-08 定稿日期: 2013-10-30
國家自然科學(xué)基金(61272441, 61171173)
TP391
A