方溢君 何炎祥 劉 楠
(1.武漢大學計算機學院,武漢,430072;2.軍事經(jīng)濟學院軍需系,武漢,430035)
一種基于圖的情感基準詞選擇方法
方溢君1何炎祥1劉 楠2
(1.武漢大學計算機學院,武漢,430072;2.軍事經(jīng)濟學院軍需系,武漢,430035)
作為文本情感分析的前提和基礎(chǔ),詞語的情感極性判別顯得尤為重要?,F(xiàn)有利用情感基準詞進行詞語的情感傾向研究中,情感基準詞的選擇多數(shù)基于研究者的人工判別或詞語的使用頻率。以上方式存在著隨機性和主觀性的缺陷,并且難以保證對詞典中語義關(guān)系的全面覆蓋。本文提出以候選基準詞為頂點,兩詞間的知網(wǎng)相似度作為邊的權(quán)重設(shè)定參數(shù)來構(gòu)建情感詞的無向圖。將圖中結(jié)點的中介性值作為基準詞的選擇依據(jù),從而保證所選基準詞的可靠性。實驗證明,通過該方法選取出來的基準詞在詞的情感傾向分類中具有較高的準確率。
情感基準詞;知網(wǎng)相似度;情感詞無向圖;中介性值
隨著大數(shù)據(jù)時代的來臨,海量的網(wǎng)絡(luò)資源成為計算機領(lǐng)域工作者面臨的機遇和挑戰(zhàn)。這些網(wǎng)絡(luò)數(shù)據(jù)中蘊含著豐富的主觀情感。如何從中高效、準確地發(fā)掘出有用的信息成為人們研究的熱點。這一背景之下,文本的情感傾向性分析愈發(fā)受到研究者的關(guān)注。作為最小粒度的傾向性分析,詞匯的情感分析是對句子、段落和篇章等更大粒度的語義單元進行情感傾向性分析的基礎(chǔ)。為了表示詞匯的語義傾向,通常的做法是將[-1,1]之間的一個實數(shù)作為語義傾向值。通過設(shè)定的域值,將語義傾向值大于域值的詞作為褒義詞,反之則作為貶義詞?;谇楦性~典和基于大規(guī)模語料庫是目前常用的對詞匯進行情感極性分析的方法?;谡Z料庫的統(tǒng)計方法主要利用在大規(guī)模語料庫中挖掘出來的語言學規(guī)則或通過機器學習獲得的語言模型來對詞匯的情感傾向進行判別?;谠~典求語義相似度則主要利用語義相似度和語義相關(guān)場功能來計算給定詞和基準詞之間的相似度,從而得到該詞的語義傾向。基于企業(yè)事實主題診斷研究則在構(gòu)建情感本體的基礎(chǔ)上,利用條件隨機場(Conditional random field algorithm,CRF)挖掘文本中的情感詞,大大減輕了人工獲取方法的工作量。對于在不同語境中表達不同情感的詞匯,利用貝葉斯模型對之進行情感消岐,實驗結(jié)果顯示該方法有較好的實用性。 Turney等[1]以成對出現(xiàn)和不依賴于上下文為標準,挑選了7對基準詞來判定詞匯的情感傾向,實驗結(jié)果表明,基準詞的挑選對詞匯情感傾向性的判別有重大影響。朱嫣嵐等[2]在思路上同樣沿用Turney的方法,選擇強烈褒貶傾向并且具有代表性的詞語作為基準詞。選擇高頻詞語集合作為候選基準詞集合,再用從Google搜索返回的高頻詞語作為褒貶基準詞。實驗結(jié)果表明,基準詞對數(shù)目增加,判別效果隨之提高。王素格等[3]提出了基于類別區(qū)分能力與情感詞詞表相結(jié)合的方法,先計算得出語料庫中名詞、形容詞和動詞的類別區(qū)分能力,從中選出區(qū)分能力較強的詞,再將得到的詞和情感詞詞表作交集,計算各自在語料中出現(xiàn)的頻率,最后選擇出現(xiàn)頻率高的詞作為基準詞。陳岳峰等[4]以知網(wǎng)中的概念作為情感傾向分析的最小單元,通過人工的方法及聚類的方法選擇基準概念。彭學仕等[5]則提出應(yīng)用詞聚類的思想,從目標領(lǐng)域中選擇初始種子詞,經(jīng)過反復(fù)擴展、聚類,最終迭代得出最優(yōu)基準詞。
以往的實驗結(jié)果表明,基準詞的選擇對詞匯情感傾向性的判別及后續(xù)的情感傾向的研究有重大影響?,F(xiàn)有研究中,基準詞多數(shù)來自研究者的人工選擇,或簡單地根據(jù)詞性、詞頻等信息進行判斷,存在著隨機性和主觀性的缺陷且難以保證在詞典中對語義關(guān)系全面覆蓋。本文在現(xiàn)有知網(wǎng)語義傾向性計算方法的研究基礎(chǔ)上[2,6],提出了一種基于圖的情感基準詞選取方法,通過計算詞匯和正負情感基準詞的平均相似度的差值來確定其情感傾向。和已有方法采用相同的情感相似度計算方式,對比驗證得出本文方法提高了情感判別的效果,避免了人工選擇的主觀性,也確保了基準詞的準確性和全面性。
1.1 知網(wǎng)
1.1.1 知網(wǎng)相似度
(1)
式中:βi,1≤i≤4為可調(diào)節(jié)的參數(shù),且有β1+β2+β1+β4=1,β1≥β2≥β3≥β4;Sim1(Si,Sj),Sim2(Si,Sj),Sim3(Si,Sj),Sim4(Si,Sj)分別為第一獨立義原描述式、其他獨立義原描述式、關(guān)系義原描述式和符號義原描述式。
1.1.2 知網(wǎng)相似度應(yīng)用
在傳統(tǒng)的基于知網(wǎng)的詞語相似度的計算方法基礎(chǔ)上,相關(guān)研究人員也提出了一些改進的計算方法,并將之應(yīng)用在詞義消岐[7]、數(shù)據(jù)挖掘、文本分類和信息檢索等領(lǐng)域。在進行相似度計算方法改進的研究[8]中,作者詳細分析了傳統(tǒng)方法的不足之處,并將知網(wǎng)知識和信息量相結(jié)合來改善這類缺陷,提出了一種區(qū)分度較高的義原相似度計算方法,同時對集合相似度計算和概念相似度計算提出了優(yōu)化。為了構(gòu)建一致性的測度平臺,文獻[9]在進行主題判斷研究時先確定了活動事實的主題和特征詞,再利用知網(wǎng)語義相似度進行一致性的測量,此方法對于特定領(lǐng)域的一致性測度起到了很好的效果。
1.2 情感關(guān)系圖構(gòu)建
1.2.1 圖的應(yīng)用
以往的研究方法大多將重點放在單個詞語的詞性、情感屬性和所屬領(lǐng)域等方面。常見的基準詞選擇方法都是通過詞頻、互信息和交叉熵[6,10]等方式。而對于情感關(guān)系方面則少有體現(xiàn),這對于所選基準詞的準確性及情感覆蓋率均有一定的影響。當前對于大數(shù)據(jù)的處理以及社交網(wǎng)絡(luò)的研究[11]已經(jīng)成為自然語言處理領(lǐng)域的重要話題,同時社交網(wǎng)絡(luò)數(shù)據(jù)的復(fù)雜性給數(shù)據(jù)挖掘的應(yīng)用帶來了很大的困難。但在這種復(fù)雜的關(guān)系中,數(shù)據(jù)之間也有各種緊密的聯(lián)系,這讓圖的表達方式成為數(shù)據(jù)處理領(lǐng)域的重要數(shù)據(jù)結(jié)構(gòu)。圖的各種特點及優(yōu)勢,也使得它能夠比坐標向量表示更多的空間。例如在化學信息學研究領(lǐng)域[12]中,用應(yīng)用圖來表示物體,圖的頂點表示物體的各個組成部分,圖的邊表示物體各組成部分之間的關(guān)系。在基于圖數(shù)據(jù)挖掘的研究[13]中,作者針對有向圖提出了層級度和連結(jié)度的特征概念,并設(shè)計了一款可以直接并有效操作有向圖頻繁模式查詢的算法,將之應(yīng)用到頻繁子樹的識別方法中。同時在大數(shù)據(jù)環(huán)境下針對圖數(shù)據(jù)的高效處理[14-16]也已經(jīng)成為當前研究急需解決的問題?;趫D的以上特點及其在自然語言處理領(lǐng)域的應(yīng)用,本文選擇用圖結(jié)構(gòu)來對情感詞及其之間的關(guān)系進行表示,并通過將情感詞的重要性映射到圖的相關(guān)概念中來實現(xiàn)對情感基準詞的選取。
1.2.2 頂點選擇
本文旨在將情感詞作為圖中的頂點來進行情感基準詞的選擇。所需的基準詞來自正情感基準詞集和負情感基準詞集,因此本文選擇了知網(wǎng)義原描述中,屬性標注了“良”或“莠”的詞語分別作為候選正負情感基準詞。其中的詞語情感色彩分別如“好”、“稱贊”,“兇”、“沉悶”等。相對而言,這些詞有比較明確的正負情感含義,是作為候選情感基準詞的重要決定因素。候選正負基準詞集中詞匯的情感極性值分別為1和-1,將它們作為正負知網(wǎng)情感關(guān)系圖G=(V,E)的頂點。
1.2.3 邊的權(quán)重設(shè)定
在數(shù)據(jù)結(jié)構(gòu)圖的定義中,點與點之間邊的權(quán)重表示了兩點之間的距離,對應(yīng)到本文的情感關(guān)系圖中,詞與詞之間的邊的權(quán)重刻畫了其聯(lián)系的緊密程度,可通過知網(wǎng)相似度值的大小來進行具體化。通過描述知網(wǎng)詞匯間的相似度的概念來說明詞語間密切程度的計算方式,這是一種計算圖中對應(yīng)兩個頂點間距離的重要參數(shù)。為此,對于情感關(guān)系圖G中任意兩個頂點Wi,Wj結(jié)合可計算得到的知網(wǎng)相似度的值Sim(Wi,Wj),分別以下面的3種方法設(shè)定邊的權(quán)重,并結(jié)合實驗結(jié)果選擇最佳的權(quán)重計量方式:(1)令兩點間邊的權(quán)重Wij=Sim(Wi,Wj),則知網(wǎng)相似度越大的兩個詞語,對應(yīng)到圖中的兩點間的距離越遠。(2)令兩點間邊的權(quán)重Wij=1/Sim(Wi,Wj),則知網(wǎng)相似度值越大的兩個詞語,對應(yīng)到圖中的兩點間的距離越近,且Sim(Wi,Wj)值的改變會引起權(quán)重值Wij的加速變化。(3)令兩點間邊的權(quán)重Wij=1-Sim(Wi,Wj),則知網(wǎng)相似度值越大的兩個詞語,也使得對應(yīng)到圖中的兩點間的距離越近,且線性變化的Sim(Wi,Wj)值會引起權(quán)重值Wij的線性變化。
在本文的實驗1部分,分別通過以上3種方法設(shè)置邊的權(quán)重,通過實驗結(jié)果的準確率來確定Wij的最佳選擇方式。
1.2.4 關(guān)系圖構(gòu)造
根據(jù)頂點選擇的要求與邊的權(quán)重設(shè)定的定義,本文在選擇情感基準詞的實驗2部分從知網(wǎng)中各抽取了一定數(shù)量的正負情感詞分別作為正情感關(guān)系圖和負情感關(guān)系圖的頂點,任意兩個結(jié)點之間邊的權(quán)重由知網(wǎng)相似度得出。下面以A、B、C及集合S表示本文中的頂點集,具體說明如何構(gòu)造關(guān)系圖。圖1中的A、B、C分別表示正情感詞,S表示候選情感詞集中其他的正情感詞的集合。分別將這些詞語作為圖的頂點,并計算彼此之間的距離。通過語義相似度的計算方法可以計算出詞A,B,C之間的知網(wǎng)相似度Sim(A,B),Sim(A,C),Sim(B,C),并由1.2.3節(jié)中Wij的計算方法得出兩點間邊的權(quán)重WAB,WAC,WBC,亦即圖中頂點A、B,A、C及B、C之間邊的距離。同理可以算出頂點A,B,C與集合S中任意一點之間邊的權(quán)重,以及集合S之間任意兩點間的邊的權(quán)重,也就得到了整個圖中所有頂點兩兩之間的距離。
圖1 關(guān)系圖的構(gòu)造 Fig.1 Construction of the relation graph
2.1 圖中的中心性
在圖論和網(wǎng)絡(luò)分析中,邊代表著結(jié)點之間的關(guān)系及關(guān)系的緊密程度,結(jié)點的重要性可以通過結(jié)點的中心性[17]來衡量。在基于圖的研究中,主要有3種中心性的應(yīng)用范圍比較廣,分別是度中心性(Degree centrality)、接近中心性(Closeness centrality)以及中介中心性(Betweenness centrality)。在度中心性的概念中,中心結(jié)點指那些擁有與其他結(jié)點的鏈接數(shù)目最多、最活躍的結(jié)點。假設(shè)網(wǎng)絡(luò)中的結(jié)點總數(shù)為n,則在無向圖中,結(jié)點i的中心性的值就是該結(jié)點的度。在有向圖中,結(jié)點的重要性取決于它的出度,經(jīng)過歸一化處理之后可以表示為
(2)
式中:d0(i)表示結(jié)點i的出度。該項指標刻畫了結(jié)點的活動頻繁程度,某一結(jié)點的直接連接最多,則可以認為它在網(wǎng)絡(luò)群中的地位比較突出。一般情況下,某個結(jié)點和網(wǎng)絡(luò)中的其他結(jié)點有著更多的聯(lián)系,則可認為該結(jié)點在網(wǎng)絡(luò)中的地位比較重要,但從另一方面來說,關(guān)聯(lián)的結(jié)點越多并不意味著連接了更多的網(wǎng)絡(luò)范圍。所以度中心性還不能全部定義一個結(jié)點的重要性。在接近中心性的概念中,接近度或者距離是重要性的決定因素。如果一個結(jié)點到其他結(jié)點的距離越短,則該結(jié)點與其他結(jié)點的互動就更加容易,可以認為它在圖中的地位比較重要。通過計算最短距離可以得到接近中心性的值:假設(shè)在結(jié)點總數(shù)為n的網(wǎng)絡(luò)中,結(jié)點i和結(jié)點j之間的最短距離為d(i,j),則在無向圖中,參與者i的接近中心性被定義為
(3)
在有向圖中計算距離時,考慮鏈接和邊的方向即可得出計算公式。圖中的某個結(jié)點如果處于其他結(jié)點間相互聯(lián)系的路徑之中,則該結(jié)點可能對其他結(jié)點有一定的控制能力。中介中心性(簡稱中介性)用來度量圖中結(jié)點對于其他結(jié)點的控制能力。如果i處在非常多結(jié)點的交互路徑上,那么i就是一個重要的參與者。結(jié)合2.2.2節(jié)中的中介性計算公式可以看出,中介性CB和接近中心性CC之間的差異。CC只是做了總體距離的平均,仍然是一種距離;而CB則做了一種比率,比率刻畫成一種效率、一種性價比。也就是說CC選出來的重要性結(jié)點是由能傳播的小范圍的大小來刻畫的,而CB則考慮一種為了更遠地傳播到更遠更大的網(wǎng)絡(luò)中的性價比最高的重要性結(jié)點。中介性扮演著“橋”的作用,使原本無關(guān)系的結(jié)點產(chǎn)生聯(lián)結(jié)。在網(wǎng)絡(luò)和圖中,這樣的結(jié)點所處的位置十分特殊。對于本文而言,基于CB值選擇基準詞一方面保證了該類情感詞是對其他情感詞具有較強控制能力的關(guān)鍵結(jié)點,另一方面也可以在最短路徑的計算中盡可能多地利用任意兩個結(jié)點之間的相似度的值,避免個別誤差數(shù)據(jù)帶來的影響。
2.2 結(jié)點中介性
2.2.1 結(jié)點中介性應(yīng)用
結(jié)點中介性在復(fù)雜網(wǎng)絡(luò)及社會學領(lǐng)域進行社交網(wǎng)絡(luò)分析和路由選擇等方面都發(fā)揮著重要的作用。在提高復(fù)雜網(wǎng)絡(luò)容量的方法研究中[17],引入中介性對網(wǎng)絡(luò)拓撲進行優(yōu)化和擁塞預(yù)測,可以有效平衡中樞結(jié)點的負載、緩解擁塞狀況和提高網(wǎng)絡(luò)容量。將有向圖的邊的中介性分析引入道路網(wǎng)絡(luò)分析[18],通過對幾個典型城市道路網(wǎng)絡(luò)進行中介性分析,發(fā)現(xiàn)大部分高等級的道路具有高的CB值,研究證實了在城市道路網(wǎng)絡(luò)中,數(shù)學意義上CB值度量層級性與道路所屬等級社會意義層級性的相關(guān)性。在社會管理及市場營銷學中[19],利用中介性概念可以研究該網(wǎng)絡(luò)的組成結(jié)構(gòu),了解每個參與者的主要職責、所做貢獻以及影響力等。從而更加針對性地進行人員管理、個性化推送等服務(wù)。在對微博影響力個體發(fā)現(xiàn)[20]方面,研究者在傳統(tǒng)中介性的計算方法上提出一種基于隨機游走的中介性的算法,使得該算法不僅能有效地應(yīng)對海量的微博網(wǎng)絡(luò)數(shù)據(jù),且使得發(fā)現(xiàn)結(jié)果也明顯優(yōu)于相關(guān)的研究。
2.2.2 結(jié)點中介性計算
在圖G=(V,E)中,結(jié)點v∈V的中介性計算步驟如下:(1)對任一頂點對(s,v),s∈V,v∈V;計算兩點之間的最短路徑。(2)記錄頂點對(s,v)的最短路徑中,包含的其他頂點。(3)重復(fù)步驟(1)和(2),記錄所有頂點對之間的最短路徑和包含的其他頂點。(4)計算頂點中介性值為
(4)
圖2 中介性值的計算 Fig.2 Value of betwee-nness centrality
2.3 基準詞選擇
類似于社交網(wǎng)絡(luò)中的圖的定義,詞匯的中介性CB值越大,則表示該詞匯出現(xiàn)在越多的詞匯間最短路徑中,對網(wǎng)絡(luò)連接的關(guān)鍵作用越明顯,符合對基準詞的要求。在本文的實驗2部分,計算候選情感基準詞的CB值,選擇值大小排名靠前的情感詞作為情感基準詞。
3.1 實驗環(huán)境
本文實驗部分主要包括:(1)通過知網(wǎng)相似度的概念計算詞語間相似度的值,(2)在情感關(guān)系圖中,計算每個結(jié)點的中介性值CB。其中知網(wǎng)相似度的計算通過引入WordSimilarity數(shù)據(jù)包,在Eclipse中由Java語言完成。中介性值的計算通過引入復(fù)雜網(wǎng)絡(luò)編程包NetworkX,用Python語言完成。
3.2 實驗設(shè)置
實驗內(nèi)容包括3個部分,分別用來進行情感關(guān)系圖邊的權(quán)重設(shè)置、情感基準詞的選擇以及本文方法有效性的對比。在知網(wǎng)的概念描述中,屬性標明有“良”和“莠”的詞有比較明確的正負語義傾向性。同時,有些詞語擁有多個概念描述,不同的概念在不同的語境下可能表現(xiàn)出相反語義情感,例如詞語“好看”在語句“這件衣服真好看”和“要你好看”中,分別表示正面和負面的語義傾向。為使文章所提方法的效果更準確,將那些概念描述中同時包含“良”“莠”屬性的詞語從候選基準詞中去除,得到正、負候選情感基準詞集中的詞個數(shù)分別為3 132和3 260,并將這些詞作為實驗1和實驗2中的情感關(guān)系圖的頂點。
實驗1 邊的權(quán)重設(shè)置
圖3 邊的權(quán)重不同時的準確率 Fig.3 Accuracy by different edge weight
該實驗部分用于對1.2.3節(jié)提出的3種權(quán)重設(shè)置方法進行效果對比,從而選擇最佳的權(quán)重設(shè)置參數(shù)。這部分的實驗,在不同的權(quán)重設(shè)置方式下,各選擇了40對情感基準詞對測試集1中的情感詞進行情感極性判斷,其中基準詞的選擇依據(jù)及圖的構(gòu)建方式參考文中1.2.4節(jié)。實驗1結(jié)果如圖3所示。
實驗2 基準詞選擇方法的實驗對比
朱嫣嵐[2]提出的基準詞選擇方法是在人工挑選正負情感含義較明確的詞語基礎(chǔ)上,根據(jù)詞頻對詞語進行降序排列,分別從正負情感詞中挑選出現(xiàn)頻率最高的詞作為基準詞,本文的實驗部分將這種選擇基準詞的方法作為對比方法1。
實驗3 基準詞數(shù)量的實驗對比
本實驗中,分別設(shè)置基準詞對數(shù)為20,40,60和80,以此判斷基準詞數(shù)量對情感極性判斷的影響。
3.3 實驗結(jié)果
通過本文方法選擇出的40對正負情感基準詞分別如表1,2所示。對不同測試集的實驗結(jié)果分別如圖4~6所示。實驗3結(jié)果如圖7所示。
表1 本文方法選擇出的40個正情感基準詞
表2 本文方法選擇出的40個負情感基準詞
圖4 實驗2測試集1結(jié)果
Fig.4 Result of test set 1 in experiment 2
圖5 實驗2測試集2結(jié)果
Fig.5 Result of test set 2 in experiment 2
圖6 實驗2測試集3結(jié)果
Fig.6 Result of test set 3 in experiment 2
圖7 實驗3結(jié)果 Fig.7 Result of experiment 3
3.4 結(jié)果分析
由圖3可見,邊的權(quán)重參數(shù)對于情感詞情感傾向判斷的影響較大。將邊的權(quán)重參數(shù)Wij分別設(shè)置為Sim(Wi,Wj),1/Sim(Wi,Wj)和1-Sim(Wi,Wj)分別作為實驗1的參數(shù)1,參數(shù)2和參數(shù)3,對于所有情感詞整體判斷的準確率分別為21.3%,47.4%和96.2%。參數(shù)1中,兩個詞之間的知網(wǎng)相似度的值越大,則在圖中兩頂點的距離越遠。在計算CB值時,使得中介性越突出的點出現(xiàn)在最短路徑中的次數(shù)越少。這與所需選擇基準詞的要求不符合,因此選擇出的基準詞準確性差,對于基于基準詞計算情感詞極性的準確率也較低。參數(shù)2中,兩個詞之間的知網(wǎng)相似度值越大,則在圖中兩頂點的距離越近,且相似度值較小的變化也會使得頂點間距離產(chǎn)生較大的改變。頂點間的距離不能正確地表示信息流通的代價。因此參數(shù)2表達的有效性雖然較參數(shù)1有所改善,但仍是一種誤差較大的形式。參數(shù)3中兩個詞之間的知網(wǎng)相似度值越大,則在圖中兩頂點的距離越近。對應(yīng)到社交網(wǎng)絡(luò)的圖中,則可認為,Sim(Wi,Wj)值越大的兩個結(jié)點,其相互間的路徑長度越短,信息流動的代價越小?;谏鲜隼砟?,本文以Wij=1-Sim(Wi,Wj)作為圖G=(V,E)中結(jié)點Wi,Wj之間邊的權(quán)重。兩結(jié)點聯(lián)系越緊密,即越相似,則兩點間距離Wij越小。在求最短路徑時,能夠盡可能地保證該路徑上包含更多語義相似度更大的結(jié)點,這點也符合本文對基準詞的選擇標準。從圖4可以看出,對比方法1所選基準詞對正情感詞判斷有較高的準確率,但對負情感詞判斷的準確率很低,整體結(jié)果不理想。因此僅依靠詞頻作為基準詞的判斷依據(jù)缺乏完善的科學依據(jù),不能保證語義的覆蓋率,導致對不同極性情感詞的判斷失衡嚴重。從圖5可以看到,在經(jīng)過篩選的測試集2中,該方法對貶義詞的判斷效果有極小的提升,但仍不理想。圖4,5的結(jié)果顯示,本文方法對正負情感詞的判斷都有很高的準確率,在經(jīng)過篩選的測試集2上,實驗效果有了更近一步的提升,最高達到了99%的準確率。說明本文方法所選基準詞有較高的語義覆蓋率,克服了傳統(tǒng)方法主觀性和隨機性的缺陷。實驗2的測試集3,由于其中類似于“回頭”“重”之類的詞并沒有很明顯的正負情感傾向,給利用基準詞判斷正負傾向帶來一定的干擾,使得最終的準確率較測試集1和測試集2有所降低,但本文方法較之對比方法1仍有一定的改善。對測試集中有較明顯情感傾向的詞語,如“喜愛”、“尊重”和“責備”等,本文方法和對比方法1所計算最終情感值分別為0.056,0.078和-0.0192;-0.006,-0.007和0.029。由此可見,本文方法對知網(wǎng)中具有情感傾向的詞具有通用性,一定程度上顯示了方法的優(yōu)越性。實驗3中,分別設(shè)置基準詞對數(shù)為20,40,60和80,以此判斷基準詞數(shù)量對情感極性判斷的影響。從圖7可以看出,總體而言,本文方法對情感詞極性判斷的準確率隨著基準詞數(shù)量的增加而提升。基準詞數(shù)量為20時,由于覆蓋的語義范圍不夠全面,使得情感詞極性的判斷產(chǎn)生了一定的誤差,準確率較實驗2的測試集1有所降低。由于當基準詞數(shù)量為40時,已取得很高的準確率,設(shè)置其為60和80時,改善的空間有限,但整體維持在一個較高的水平。由此可以看出,當數(shù)據(jù)量較大時,使用文中方法選擇一定規(guī)模的基準詞即可達到較好的語義覆蓋率,對情感詞極性判斷取得較好的效果,這在一定程度上減輕了大數(shù)據(jù)環(huán)境下的計算量,有一定的使用價值。同樣在實驗3中,當隨著基準詞數(shù)目的增多,對比方法2情感極性判斷的準確性有著明顯的提升,基準詞的數(shù)量對極性判斷的準確率有較大的影響。準確率從基準詞數(shù)量為20時的64.94%提升到基準詞數(shù)量為80時的83.56%,情感基準詞對整個情感語義的覆蓋率會隨其數(shù)量的增加而顯著提高,并且個別誤差帶來的負面影響也會得到減弱。但當取相同數(shù)量的基準詞時,本文方法無論在整體的準確率還是在對褒貶義詞判斷的均衡性方面皆有較大的優(yōu)越性。文中方法對基準詞數(shù)量的敏感性較小,在實際應(yīng)用中更具實用性。
詞語的正負情感傾向性研究是文本情感分析的基礎(chǔ),本文嘗試通過改善選取方法來獲得更具代表性的情感基準詞。文章借鑒了前人有代表性的研究和創(chuàng)新點,結(jié)合完善的圖理論,提出了基于圖的情感基準詞選取方法。實驗結(jié)果證明,本文所提方法較之傳統(tǒng)方法有較明顯的優(yōu)勢,所選情感基準詞有較好的語義覆蓋率和普遍適應(yīng)性。
[1] Turney P D, Littman M L. Measuring praise and criticism: Inference of semantic orientation from association[J]. ACM Transactions on Information Systems(TOIS), 2003, 21(4): 315-346.
[2] 朱嫣嵐, 閔錦, 周雅倩, 等. 基于HowNet的詞匯語義傾向計算[J]. 中文信息學報, 2006, 20(1): 14-20.
Zhu Yanlan, Min Jin, Zhou Yaqian,et al. Semantic orientation computing based on HowNet[J]. Journal of Chinese Information Processing, 2006, 20(1): 14-20.
[3] 王素格,李德玉,魏英杰,等.基于同義詞的詞匯情感傾向判別方法[J].中文信息學報,2009,23(9):167-170.
Wang Suge,Li Deyu,Wei Yingjie. A synonyms based word sentiment orientation discriminating[J]. Journal of Chinese Information Processing, 2009, 23(9): 167-170.
[4] 陳岳峰,苗奪謙,李文,等.基于概念的詞匯情感傾向識別方法[J].智能系統(tǒng)學報, 2011,6(6):489-493.
Chen Yuefeng,Miao Duoqian,Li Wen,et al. Semantic orientation computing based on concepts[J]. CAAI Transactions on Intelligent Systems,2011, 6(6):489-493.
[5] 彭學仕, 孫春華. 面向傾向性分析的基于詞聚類的基準詞選擇方法[J]. 計算機應(yīng)用研究, 2011, 28(1):114-116.
Peng Xueshi,Sun Chunhua. Paradigm words selecting method based onword clustering for sentiments analysis[J]. Application Research of Computers, 2011, 28(1):114-116.
[6] 劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算[J]. 中文計算語言學,2002,7(2): 59-76.
Liu Qun,Li Sujian. Word similarity computing based on HowNet[J].Computational Linguistics & Chinese Language Processing ,2002, 7(2):59-76.
[7] 李輝, 張琦, 盧湖川,等. 基于知網(wǎng)的中文常問問答系統(tǒng)[J]. 計算機工程, 2008,34(23):62-64.
Li Hui, Zhang Qi, Lu Huchuan,et al. Chinese frequency asked questions based on HowNet[J]. Computer Engineering,2008,34(23):62-64.
[8] 郭勇. 基于《知網(wǎng)》的詞語相似度計算研究及應(yīng)用[D]. 長沙:湖南大學,2012.
Guo Yong. The research of HowNet based word similarity computation and its application[D]. Changsha:Hunan University,2012.
[9] 馬續(xù)補, 郭菊娥. 基于《知網(wǎng)》語義相似度的企業(yè)事實主題診斷研究[J]. 情報雜志, 2010, 29(5):54-57.
Ma Xubu, Guo Jue. Study of theme′s diagnosis based on HowNet word similarity computing[J]. Journal of Intelligence,2010,29(5):54-57.
[10]聞?chuàng)P, 苑春法, 黃昌寧. 基于搭配對的漢語形容詞-名詞聚類[J]. 中文信息學報, 2000, 14(6):45-50.
Wen Yang, Yuan Chuanfa, Huang Changning. Clustering of Chinese adjectives-nouns based on compositional pairs[J].Journal of Chinese Information Processing, 2000,14(6):45-50.
[10]李桃陶, 周斌, 王忠振. 基于社交網(wǎng)絡(luò)的圖數(shù)據(jù)挖掘應(yīng)用研究[J]. 計算機技術(shù)與發(fā)展, 2014(10):6-11.
Li Taotao, Zhou Bin, Wang Zhongzhen. Research on graph data mining application based on social network[J].Computer Technology and Development, 2014(10):6-11.
[11]趙海峰. 基于圖的模式識別及其在計算機視覺中的應(yīng)用[D]. 南京:南京理工大學,2011.
Zhao Haifeng. Graph-based pattern recognition and its applications in computer vision[D].Nanjing:Nanjing University of Science & Technology,2011.
[12]周溜溜. 基于圖結(jié)構(gòu)的數(shù)據(jù)挖掘研究及應(yīng)用[D]. 南京:南京林業(yè)大學, 2013.
Zhou Liuliu. Research and application of data mining based on graph structure[D].Nanjing:Nanjing Forestry University, 2013.
[13]羅征, 王賽, 張帆,等. 面向大數(shù)據(jù)的圖數(shù)據(jù)處理技術(shù)[J]. 情報工程, 2015, 1(6):120-125.
Luo Zheng, Wang Sai, Zhang Fan,et al. Graph data processing on big data[J]. Technology Intelligence Engineering, 2015,1(6):120-125.
[14]丁悅, 張陽, 李戰(zhàn)懷,等. 圖數(shù)據(jù)挖掘技術(shù)的研究與進展[J]. 計算機應(yīng)用, 2012, 32(1):182-190.
Ding Yue, Zhang Yang, Li Zhanhuai,et al. Research and advances on graph data mining[J]. Journal of Computer Applications, 2012,32(1):182-190.
[15]閆朋, 高建瓴. 圖數(shù)據(jù)挖掘在社交網(wǎng)絡(luò)的應(yīng)用研究[J]. 電子世界,2016(8):53-55.
Yan Peng, Gao Jianling. Research on application of graph data mining in social networks[J]. Electronics World, 2016(8):53-55.
[16]Opsahl T, Agneessens F, Skvoretz J. Node centrality in weighted networks: Generalizing degree and shortest paths [J]. Social Networks,2010,32(3): 245-251.
[17]范晶, 秦卓瓊, 張國清. 基于中介中心性提高復(fù)雜網(wǎng)絡(luò)容量的方法[J]. 計算機仿真,2008,25(3):167-170.
Fan Jing, Qin Zhuoqiong, Zhang Guoqing. A method for improving complex network capacity based on betweenness centrality[J]. Computer Simulation, 2008,25(3):167-170.
[18]李清泉, 曾喆, 楊必勝,等. 城市道路網(wǎng)絡(luò)的中介中心性分析[J]. 武漢大學學報(信息科學版), 2010, 35(1):37-41.
Li Qingquan, Zeng Zhe, Yang Bisheng,et al. Betweenness centrality analysis for urban road networks[J]. Geomatics and Information Science of Wuhan University, 2010,35(1):37-41.
[19]楊學成, 張曉航, 等. 社會網(wǎng)絡(luò)分析在市場營銷學中的應(yīng)用[J]. 當代經(jīng)濟管理, 2009, 31(6):25-29.
Yang Xuecheng, Zhang Xiaohang. The application of social network analysis to marketing research[J]. Contemporary Economy & Management, 2009,31(6):25-29.
[20]朱靜宜. 基于中介中心度的微博影響力個體發(fā)現(xiàn)[J]. 計算機應(yīng)用研究,2014,31(1):131-133.
Zhu Jingyi. Centrality based micro-blog influence entity discovery[J]. Application Research of Computers,2014,31(1):131-133.
Graph-Based Selection Method for Basic Sentimental Lexicons
Fang Yijun1, He Yanxiang1, Liu Nan2
(1. Computer School, Wuhan University, Wuhan, 430072; China;2. Department of Quartermaster, Military Economic Academy, Wuhan, 430035, China)
As the premise and basis of text sentimental analysis, the emotion polarity discrimination of lexicons is particularly important. Existing methods of select basic sentimental lexicons in the study of semantic tendency are mostly based on artificial discrimination and lexicons frequency. Those ways suffer the defects of randomness and subjectivity. And it is difficult to ensure the full coverage of the semantic relations in the dictionary. In the paper, we present a method that treats the candidate basic sentimental lexicons as the vertex and the HowNet acquaintance as edge weight to build sentimental lexicons undirected graph. The betweeness-centrality value of nodes in the graph is used as the reference of basic lexicons selecting. Thus we can ensure the reliability of the selected basic lexicons. Experiments show our method has a high accuracy in the classification of emotional tendencies.
basic sentimental lexicons; Hownet acquaintance; sentimental lexicons undirected graph; betweeness-centrality value
國家自然科學基金(61070083,61303115)資助項目。
2014-09-19;
2017-04-09
TP391.1
A
方溢君(1990-),男,碩士研究生,研究方向:自然語言處理,E-mail: 1025759496@qq.com。
何炎祥(1952-),通信作者,男,教授,研究方向:自然語言處理,可信編譯,E-mail:1025759496@qq.com。
劉楠(1983-),男,博士,研究方向:自然語言處理。