趙天奇,姚海鵬,方 超,張俊東,張培穎
(北京郵電大學 網(wǎng)絡與交換國家重點實驗室,北京 100876)
?
語義規(guī)則與表情加權融合的微博情感分析方法
趙天奇,姚海鵬,方超,張俊東,張培穎
(北京郵電大學 網(wǎng)絡與交換國家重點實驗室,北京 100876)
摘要:當前中文微博情感分析的主流做法是將情感極性分類結(jié)果的好壞作為評判的標準。從提高微博情感判別準確度的目的出發(fā),盡量多考慮影響微博情感的元素。在統(tǒng)計微博中情感詞的基礎上,加入了微博表情這一重要元素,采用與文本情感值加權的方式參與微博情感計算,使得對含有表情的微博情感判定結(jié)果有了一定程度的提高;在語義規(guī)則部分,基本涵蓋了漢語中最常用的幾種句型規(guī)則和句間關系規(guī)則,使得對復雜語句的情感分析更加準確。同時,還對每條微博的情感給出了具體的數(shù)值,并在正確率、召回率、F值的基礎上,提出合格率這一指標,對微博情感判別方法得到的數(shù)值準確性進行評價。通過搭建Hadoop平臺對測試集的1萬條數(shù)據(jù)進行測試,驗證了融合算法的有效性。
關鍵詞:微博;情感分析;語義規(guī)則;微博表情
0引言
21世紀是數(shù)據(jù)信息爆炸的時代,伴隨移動互聯(lián)網(wǎng)、社交網(wǎng)絡等發(fā)展和普及,數(shù)據(jù)信息正在瘋狂地增長。社交媒體時代,人們更多地通過微博、微信等互聯(lián)網(wǎng)平臺表情達意,“人人都有了自己的麥克風”。而從古代開始就有的“防民之口甚于防川”的說法,甚至今日仍然有著一定的借鑒意義。
數(shù)據(jù)意味著信息,海量數(shù)據(jù)意味著巨大的信息。對這些數(shù)據(jù)加以利用可以獲得巨大的潛在價值:對消費者來說,將其他用戶對某類產(chǎn)品評價進行匯總和分析可以為其是否購買提供參考;對商業(yè)公司來說,分析消費者對產(chǎn)品的評價可以作為其后續(xù)改進的基礎;對政府部門來說,掌握輿情的發(fā)展與走勢可以更好地維護社會的穩(wěn)定。而這些海量信息的獲取與分析如果都靠人工來完成,那么是很難應付的,因而如何快速準確地處理和使用信息已經(jīng)成為當前研究的熱點。
本文就是從這樣的目的出發(fā),以微博數(shù)據(jù)作為研究對象,選取1萬條用戶微博,采用融合語義規(guī)則和表情加權的算法對微博情感值進行評判,通過Hadoop平臺對數(shù)據(jù)進行分布式處理。
1相關工作
現(xiàn)階段,在情感分析領域,英文微博的研究較為成熟,而中文微博相對來說才剛剛起步。因此,用于英文的情感分析資源比較豐富。常用的情感詞典包括SentiWordNet和Inquirer等,這些詞典的突出特點是能夠提供詞語在不同語境下的情感傾向,是情感分析準確率的重要保障。另外,英文的標注語料也初具規(guī)模,從人工標注到Pak等[1]利用Twitter表情符自動標注,英文標注語料一直在不斷擴充和完善,為測試工作提供豐富的原材料。
相比之下,中文的情感分析資源還比較匱乏。常用的情感詞典主要有知網(wǎng)情感詞典、同義詞詞林以及包括臺灣大學和大連理工大學類似的一些高校提供的情感詞匯庫,但質(zhì)量良莠不齊。標注語料方面,雖然近兩年出現(xiàn)了一些包括中國中文信息學會信息檢索專業(yè)委員會舉辦中文傾向性分析評測(chinese opinion analysis evaluation,COAE)提供的中文情感標注語料在內(nèi)的標注文本,但總體而言,權威的情感分析語料仍舊不多。
在研究方法方面,目前主流的方法主要是基于語義和機器學習這2種[1]。所謂基于語義,就是通過統(tǒng)計微博文本中情感詞的情感值,并通過求平均或者其他運算方式給出語句和文本的情感值;而機器學習就是通過構造分類器,使用標注好的訓練集訓練分類器,并區(qū)分訓練集中的正例和反例,常用的方法有樸素貝葉斯法(Naive Bayes)[2-3]、K 最近鄰法、中心向量法和支持向量機法(support vector machine,SVM)等。
國外的研究主要針對Twitter的數(shù)據(jù)進行展開。2005年Pak在進行標注Twitter文本情感極性數(shù)據(jù)集的基礎上實現(xiàn)了基于樸素貝葉斯、支持向量機和條件隨機場的情感分類器。2009年Go等[4]采用無監(jiān)督指導的樸素貝葉斯、最大熵和支持向量機3種機器學習方法,并加入表情符號這一特征,大大提高了情感傾向判別的準確率。2011年Jiang等[5]運用五折交叉驗證的方法驗證了情感詞典和主題相關特征可以提高分離效果的準確性。
國內(nèi)的研究主要針對新浪微博、騰訊微博等進行展開。徐琳宏等[6]考慮句子的詞匯和結(jié)構2個層面,根據(jù)影響語句情感的9個語義特征構建了情感詞匯庫,進行了情感分析的初步嘗試。李鈍等[7]結(jié)合語言學知識,在獲得詞語語義傾向時采用了“情感傾向定義”權重優(yōu)先的方式,為粗粒度的文本情感分析奠定基礎。劉志明等[8]通過對比3種機器學習算法、3種特征項權重計算方法和3種特征選取算法,發(fā)現(xiàn)使用SVM、詞頻-逆文本頻率(term frequency-inverse document frequency,TF-IDF)及信息增益(information gain,IG)選擇特征項權重時效果最佳。謝麗星等[9]在對新浪微博數(shù)據(jù)進行情感分析研究時提出了基于層次結(jié)構的多策略方法,并采用主題相關特征進行特征提取,提高了準確率。
但總體來說,目前的情感分析效果并不十分理想。在目前常用的2種方式中,基于語義詞匯的情感分析算法實現(xiàn)的粒度更細,但把詞語從句子中孤立出來,忽略詞語的上下文關系及句法規(guī)則,反映微博消息的情感傾向時不夠完善;而基于機器學習的方法在處理新聞、論壇等長文本情況時效果較好,對微博短文本的分析不夠理想。因此,本文利用現(xiàn)有的研究成果及分析方法,采用情感詞典加語義規(guī)則的計算模型進行微博情感計算,并利用表情詞典對最終的結(jié)果加以修正。
2情感分析算法的設計
2.1情感分析流程
圖1是本文提出的微博情感分析算法流程,輸入為整條微博。文本預處理實現(xiàn)的功能之一是正則匹配“[]”內(nèi)的字符,從而提取表情符號的文字表示,構建表情的集合,通過在表情數(shù)據(jù)庫中查詢其對應的情感值并求和,得到微博表情部分的情感分數(shù)。文本預處理的另一個作用是對微博純文本按照“。” “;”“!”“?”進行分句操作,得到多個復句。通過對句號、分號、嘆號和問號的識別判斷各個復句的句型,并給予相應的權值。對復句按照“,”進行分句操作,得到復句中每個分句,通過識別轉(zhuǎn)折、遞進、假設3種句間關系的關鍵詞來判斷各分句間的關系,并對相應的分句賦予一定的權值。在分句中通過查找情感詞典庫確定情感詞的極性和數(shù)值,并根據(jù)情感詞前出現(xiàn)的程度副詞和否定副詞進行相應的數(shù)值修正。最后,根據(jù)各部分得到的數(shù)值加權求和得到最終的微博情感結(jié)果。
圖1 微博情感分析流程圖Fig.1 Microblog sentimental analysis flow chart
2.2情感詞典的構建
情感詞典是情感分析的基礎,情感詞典的質(zhì)量直接決定了情感分析的效果。目前使用最多的中文情感詞典主要是知網(wǎng)的中英文情感詞典、大連理工情感詞匯本體庫、臺灣大學中文情感詞典等。知網(wǎng)的情感詞典包括正面情感詞語、正面評價詞語等6個詞表的中英文版本,分類細致,詞語全面,但只有詞語本身,缺少對應的詞性標注及情感強度等標簽,在情感數(shù)值的計算上存在難度;臺灣大學的情感詞庫也是如此,將正向情感詞和負向情感詞分別放在2張表中,但沒有詞性標注和情感強度;大連理工情感詞典相比較而言,詞語的指標更為全面,詞性、情感強度、情感極性都進行了標注,方便用于情感值的計算。
因此,本文采用大連理工情感詞匯本體庫作為基礎,并對其進行了簡化處理,只保留了詞語名稱、詞性、情感強度和極性4個基本屬性。情感分類按照論文《情感詞匯本體的構造》所述,情感分為7個大類21個小類。情感強度分為5檔,用1,3,5,7,9來表示,1為強度最??;9為強度最大。每個詞在每一類情感下都對應了一個極性,其中,0代表中性,1代表褒義,2代表貶義,3代表兼有褒貶兩性。同時,作為補充,還選取了褒義基準詞和貶義基準詞各40個并手動將其情感傾向值設為9,即最大強度[10]。因為微博中的句子并不是簡單情感詞的疊加,所以,只有情感詞詞典對于文本的情感分析肯定是不夠用的。我們考慮到語義規(guī)則對文本情感分析的影響,引入了程度副詞詞典和否定副詞詞典。其中,程度副詞詞典采用知網(wǎng)提供的程度級別詞語(中文)共219個,沿用藺璜等[11]提出將這些詞分為4個等級的做法,即極量、高量、中量和低量。否定詞典由整理出的19個否定副詞構成,權值為-1。程度副詞和否定副詞詞分別如表1和表2所示。
表1 程度副詞示例表
表2 否定副詞示例表
除此之外,我們還將新浪微博中常用的共計77個表情在[-1,1]進行人工標注,作為表情數(shù)據(jù)集使用,如圖2所示。圖2中的“笑哭了”表情,在數(shù)值上體現(xiàn)為1,“怒”在數(shù)值上體現(xiàn)為-1,“擠眼”為0.7等。
至此,情感詞典的構建工作已經(jīng)完成,由大連理工情感詞典本體庫、褒義基準詞典、貶義基準詞典、程度副詞詞典、否定副詞詞典及表情詞典共6部分構成。
2.3語義規(guī)則
由于漢語的博大精深,人們在表達的時候往往不是靠堆疊情感詞來表達自己的情感,也就是說我們在分析微博情感時不能只采用統(tǒng)計情感詞的方式,而是應該更多地考慮人們在表達時的一些特殊方法,如句式、句型和修辭上的不同。本文從這一目的出發(fā),在微博情感分析時加入了句型規(guī)則和句間關系規(guī)則[11],下面就這2個規(guī)則進行闡述。
圖2 微博表情Fig.2 Microblog emoticons
2.3.1句型規(guī)則
經(jīng)過分詞以后的文本由各簡短子句組成,用集合表示為{S1,S2,…,Si,…,Sn}。我們這里所講的句型規(guī)則是定義在一個完整句子上的,即以句號、分號、問號或嘆號結(jié)尾的句子,可以簡單地理解為一個復句。一個復句可以用Si來表示,其中包括s1到sn共n個子句??紤]4種常見的句型:感嘆句、反問句、疑問句和陳述句,定義Ti表示句型規(guī)則下的權值,Ti的數(shù)值由以下4條規(guī)則決定。
④如果復句為陳述句,即Si以其他標點結(jié)尾,則Ti=1。
2.3.2句間關系規(guī)則
在語句級別的分析上,除了句型的判斷外,在一個復句中,多個子句間的關系也會對情感分析有一定的影響。本節(jié)將一個復句中的各個子句作為研究對象,考慮句間的3種常見關系:轉(zhuǎn)折關系、假設關系、遞進關系,定義ri表示句間關系權值,其數(shù)值由以下規(guī)則決定。
1)轉(zhuǎn)折關系規(guī)則。一般情況,轉(zhuǎn)折復句前面分句提出某種事實或情況,后面分句轉(zhuǎn)而述說與前面分句相反或相對的意思,即后面分句才是說話人所要表達的真正意圖。故定義規(guī)則如下。
①如果復句Si中有單一轉(zhuǎn)折后接詞(如:“但是”“但”“卻”“可是”)且出現(xiàn)在分句sj上,則r1,r2,…,rj-1=0;rj,rj+1,…,rn=1。
②如果復句Si中有成對轉(zhuǎn)折標志詞(如,“雖然…但是”)且在分句sj中出現(xiàn)轉(zhuǎn)折后接詞,則r1,r2,…,rj-1=0;rj,rj+1,…,rn=1。
③如果復句Si中有單一轉(zhuǎn)折前接詞(如:“雖然”)且出現(xiàn)在分句sj上,則r1,r2,…,rj-1=1;rj,rj+1,…,rn=0。
2)假設關系規(guī)則。假設關系在實際的表達中更傾向于強調(diào)前提條件,而弱化后半部分,故有如下定義。
①若復句Si中存在假設關系后接詞(如“那么”)且出現(xiàn)在分句sj中,則r1,r2,…,rj-1=1;rj,rj+1,…,rn=0.5。
②若復句Si中存在否定假設關系前接詞(如:“如果不”),且否定關系后接詞(如“那么”)出現(xiàn)在分句sj中,則r1,r2,…,rj-1=-1;rj,rj+1,…,rn=-0.5。
3)遞進關系規(guī)則。遞進關系是指能夠表示在意義上進一層關系的,且有一定邏輯的詞語?,F(xiàn)定義規(guī)則如下。
如果復句Si中存在遞進關系標志詞(如:“更加”“更有甚者”)且出現(xiàn)在分句sj中,則r1,r2,…,rj-1=1,rj,rj+1,…,rn=1.5。
除了這3類常見的句間關系外,還有因果關系、并列關系以及其他一般關系,這些關系的前后分句在情感上變化不大,所以,不做區(qū)分,分句情感的權值設為1。
2.4表情加權
在對存在表情的微博進行分析時,如果只考慮文本的情感值而忽略表情對整條微博情感值的影響,那么將是對數(shù)據(jù)信息的一種浪費。在現(xiàn)有的微博情感研究工作中主要采用2種方式對表情符號進行處理:①將表情符號并入情感詞典中,即將表情的情感極性按照情感詞的方式進行統(tǒng)計,這種方式對于表情符號信息的利用并不十分充分;②王文[13]提出的將表情情感值與文本情感值加權處理作為最后的結(jié)果,這樣可以為細粒度的情感數(shù)值計算提供方便且充分利用了表情符號的信息。故本文采用這一方法對表情加以利用。
表情與文本情感值的比例選擇問題也會對最終的結(jié)果產(chǎn)生影響。在文獻[13]中,通過對數(shù)據(jù)集的測試發(fā)現(xiàn),當表情與文本的比例為0.4和0.6時,加權后正負面情感傾向的判斷準確率有明顯提升,在其測試集中判斷準確率從78.6%提升到83.4%。因此,本文算法也沿用0.4和0.6這一加權比例,對微博最終情感進行計算。
2.5微博綜合情感計算
通過前面的準備工作,我們得到了一條微博在表情、復句、分句、詞語4個層面上的參數(shù),本節(jié)將給出如何利用這些參數(shù)進行最終的情感值計算。現(xiàn)從詞語到復句的順序進行分析,即顆粒度由小到大,用Emotion的首字母E來表示情感值。
1)詞語情感值E(Wi)表示為
E(Wi)=Neg×ad×seni
(1)
(1)式中:Neg表示情感詞對應的否定副詞;ad表示情感詞對應的程度副詞;seni表示句中情感詞與情感詞庫匹配后得到的情感值。
詞語級的情感值是情感詞語本身及其對應的程度副詞和否定副詞修正后的結(jié)果。由于代碼實現(xiàn)上的原因,當匹配到情感詞后,向前至多取2個詞,如果存在程度副詞和否定副詞,則按程度副詞詞典和否定副詞詞典對應的權值進行修正;如果在2個詞的范圍內(nèi)沒有找到程度副詞和否定副詞,則按權值為1對待,即不對情感詞本身的極性和情感值產(chǎn)生影響。
2)分句情感值E(si)表示為
(2)
(2)式中:∑E(Wi)表示分句內(nèi)所有詞語情感值的和;ri表示當前分句的句間關系系數(shù)。
分句情感值由分句內(nèi)所有詞語情感值之和乘以分句的句間關系權值確定。由2.3.2節(jié)提出的規(guī)則確定。
3)復句情感值E(Si)為
(3)
復句情感值由復句內(nèi)各分句情感值求和乘以復句的句型系數(shù)得到。
4)文本情感值Etext為
(4)
微博文本的情感值由各復句的情感值求和得到。
5)表情情感值Eemotion為
(5)
表情的情感值由微博中出現(xiàn)的所有表情的情感值求和取平均確定。
6)微博情感值為
(6)
由于本文的目的是對微博的情感給出具體的數(shù)值表示,而不是正負傾向性分析,所以情感詞匯和表情的情感值都取值[-1,1],但由于句間關系和句型關系的修正,結(jié)果的絕對值可能會超出[-1,1]的限制,因此,這里我們規(guī)定,如果最終的情感值的E絕對值超過1,則E取1;不超過1時,不進行修正和取舍。
3情感分析實驗
3.1實驗數(shù)據(jù)
由于目前中文微博的分析起步不久,暫時還沒有標準的微博情感分析語料可供分析,所以,本文通過爬蟲的方式爬取新浪微博的原始數(shù)據(jù)40余萬條,從中篩選原創(chuàng)微博1萬條。由于本文實現(xiàn)的微博情感分析算法會給出一個[-1,1]的數(shù)值作為微博的情感值,因而選取5名志愿者對篩選出的1萬條微博情感值進行討論式的人工判定,在[-1,1]給出每條微博的情感值。
在這個過程中,由于無法避免主觀因素對情感判定的影響,以及算法對非情感句進行的情感相似度處理造成的誤差,所以,本文在實驗分析中對3種情感分類的標準做了一定的調(diào)整,[-0.2,0.2]為中性微博,(0.2,1)為正向微博,[-1,-0.2]為負向微博。
(7)
在這1萬條原創(chuàng)微博的分類結(jié)果中,正向微博有2 683條,中性微博有5 065條,負向微博2 252條。從這一分類結(jié)果中可以看到,中性微博占據(jù)較大的比例,正向微博和負向微博比例相對較小且正向微博稍多。
3.2實驗性能評估指標
本文采用第2節(jié)提出的算法對每條微博進行情感分析,將分析的結(jié)果與人工標注的結(jié)果進行比對,采用正確率 (Precision)和召回率 (Recall)及F值(F)[14]作為微博情感極性判別的標準。同時,還需對微博情感分數(shù)判別的準確率進行評判,如果算法判定的結(jié)果與人工標注結(jié)果的誤差在±0.1內(nèi),則認為合格,用合格率表示微博情感分數(shù)判定的準確程度。
下面給出正確率、召回率、F值及合格率的計算公式
(8)
(9)
(10)
(11)
3.3實驗設計與結(jié)果分析
根據(jù)3.1節(jié)提出的情感分類判別方法以及3.2節(jié)提出的合格率判斷標準,對爬取到的微博數(shù)據(jù)通過Hadoop進行離線處理,如圖3所示。然后對結(jié)果進行指標評價。
圖3 數(shù)據(jù)測試流程圖Fig.3 Data test flow chart
實驗測試了本文提出的算法及支撐本文的2篇文章中提出的算法[11,13],并對測試結(jié)果進行了比較。由于本文只采取了這2篇文章中的主要思想進行融合,并沒有融合其全部工作,因而在比較的時候只選擇了語義規(guī)則+情感詞典和表情加權+情感詞典2種方式,即2篇論文中的主體思想,所以在測試的指標上可能與2篇論文給出的結(jié)果有所偏差。測試結(jié)果如表3,表4所示。
表3 正確率、召回率、F值
表4 合格率
表3和表4中的“語義規(guī)則+情感詞典”是指通過查找微博中的情感詞并結(jié)合語義規(guī)則對微博情感進行判定,“表情加權+情感詞典”是指將微博中的情感詞數(shù)值求和取平均并結(jié)合表情符號的加權對微博情感進行判定,2種方法中的情感詞典、語義規(guī)則和表情加權與本文2.2節(jié)、2.3節(jié)和2.4節(jié)是一致的,沒有差別?,F(xiàn)對表3和表4的統(tǒng)計數(shù)據(jù)進行分析如下。
1)表3的準確率一列,3種方法均表現(xiàn)出正向、負向數(shù)值高,中性數(shù)值低的特點。造成這種現(xiàn)象的原因是中性區(qū)間為(-0.2,0.2),相比于中性區(qū)間為0的情況擴大了范圍,導致有一部分正向和負向的微博被判斷為中性微博,使得準確率計算公式中的分母增大,數(shù)值減小。
2)表3的召回率一列,3種方法都表現(xiàn)出正向、中性數(shù)值高,負向數(shù)值偏低的特點。造成這一現(xiàn)象的原因主要是情感詞庫中負向情感詞不夠完善,導致部分負向情感的微博不能準確識別。還有一部分原因是因為特殊的修辭手法或非常規(guī)的表達方式,如“不!對!是!被!蚊!子!咬!了!三!個!包!”。
3)表3的F值一列,3種方法的平均F值分別為0.637,0.658和0.691。在對比中我們發(fā)現(xiàn),由于表3是對極性判別準確度的一種考量,所以,當文本情感值判定有偏差時,表情加權可以對其進行修正,所以其結(jié)果準確程度相對于語義規(guī)則來說更高。當本文算法將語義規(guī)則和表情加權結(jié)合到一起的時候,F(xiàn)值有了較為明顯的提升,平均F值達到0.691,正向情感微博的F值達到0.740,效果已屬于良好。
4)在合格率方面,可以看到在加入規(guī)則和表情加權后平均合格率已經(jīng)達到0.619,即經(jīng)過程序計算后有61.9%的微博情感值與人工標注的情感值在±0.1的誤差之內(nèi),已經(jīng)屬于比較不錯的結(jié)果。另外,正向和中性的微博在合格率上提升幅度相對較大,負向微博的合格率提升幅度較小。其中的原因除了情感詞的識別存在誤差以外,還跟人們在使用文字表達情感上的習慣有關:人們在表達負向情感的時候較少使用復雜的句式,一般簡潔明了,而在表達正向和中性情感時對復雜句式的使用相對較多,所以,語義規(guī)則在分析復雜句式上的優(yōu)勢就體現(xiàn)不出來了。
5)在對合格率的誤差進行分析時,我們發(fā)現(xiàn)大部分誤差產(chǎn)生的原因主要有2方面:①分詞結(jié)果存在誤差;②情感詞典不完善。如“嚴格規(guī)范執(zhí)法隊伍人員行為”中的“嚴格”,在句中是作為副詞出現(xiàn)的,但在分詞時被當作形容詞。還有一些不可避免的情況是因為很多詞語有一詞多義的現(xiàn)象,在不同的語境下可能表現(xiàn)為相反的詞性,在情感詞典庫中被標注為中性,這種詞在處理的時候很難準確識別其詞性及強度,造成對結(jié)果的干擾。
6)本文提出的融合算法將語義規(guī)則與表情加權結(jié)合在一起,融合了2種方法在進行情感分析時的優(yōu)點:融合算法與語義規(guī)則+情感詞典的方法相比,加入了表情的修正,在對情感極性判別的準確度方面有所提升;與表情加權+情感詞典的方法相比,加入了語義規(guī)則,不僅對極性判別有修正作用,也對復雜句式的處理提供幫助,主要體現(xiàn)在合格率這一參數(shù)上。
4結(jié)束語
中文微博的情感研究起步較晚,受限于目前并不完善的情感詞典及測試集,本文提出的融合算法對情感分類的判別結(jié)果有所提升,但提升幅度有限。其中,表情加權規(guī)則的加入對微博極性的判斷有一定的修正作用,語義規(guī)則的加入對含有復雜句式較多的正向微博和中性微博的情感數(shù)值判定有一定的提升作用,但總體效果仍舊難以達到理想的程度。
后續(xù)的改進可以著手于添加更多的語義規(guī)則以及對句子主題的提取,也可以融合機器學習或深度學習,使得在分析微博情感的時候能夠有更多的特征可供使用,結(jié)果自然也更準確。
參考文獻:
[1]PAK A, PAROUBEK P. Twitter as a corpus for sentiment analysis and opinion mining[C]∥Proceedings of the Seventh Conference on International Language Resources and Evaluation. Valletta, Malta: LREC,2010:1320-1326.
[2]周勝臣,瞿文婷,石英子,等. 中文微博情感分析研究綜述[J]. 計算機應用與軟件,2013,30 (3):161-164,181.
ZHOU Shengchen, QU Wenting, SHI Yingzi, et al. Overview on sentiment analysis of Chinese microblog[J]. Computer Applications and Software, 2013,30 (3):161-164,181.
[3]ZHANG H. The optimality of naive bayes[C]∥Proceedings of the Seventeenth International Florida Artificial Intelligence Research Society Conference. Miami Beach, Florida, USA: DBLP, 2004:562-567.
[4]GO A, BHAYANI R, HUANG L. Twitter sentiment classification using distant supervision[J]. CS224N Project Report, Stanford, 2009, 44(1):1-12.
[5]JIANG Long,YU Mo,ZHOU Ming,et al. Target-dependent twitter sentiment classification[J]. Meeting of Association for Computational Linguistica, 2011, 26(3): 151-160.
[6]徐琳宏,林鴻飛. 基于語義特征和本體的語篇情感計算[J].計算機研究與發(fā)展,2007,44(3):356-360.
XU Linhon, LIN Hongfei. Discourse affective computing based on semantic features and ontology[J]. Journal of Computer Research and Development, 2007,44(3):356-360.
[7]李鈍,曹付元,曹元大,等. 基于短語模式的文本情感分類研究[J].計算機科學,2008,35(4):132-134.
LI Dun, CAO Fuyuan, CAO Yuanda, et al. Text Sentiment Classification Based on Phrase Patterns[J]. Computer Science, 2008,35(4):132-134
[8]劉志明,劉魯. 基于機器學習的中文微博情感分類實證研究[J]. 計算機工程與應用, 2012,48(1):1-4.
LIU Zhiming, LIU Lu. Empirical study of sentiment classification for Chinese microblog based on machine learning[J]. Computer Engineering and Applications, 2012,48(1):1-4.
[9]謝麗星,周明,孫茂松. 基于層次結(jié)構的多策略中文微博情感分析和特征抽取[J].中文信息學報, 2012,26(1):73-83.
XIE Lixing, ZHOU Ming, SUN Maosong. Hierarchical structure based hybrid approach to sentiment analysis of Chinese mico blog and its feature extraction[J]. Journal of Chinese Information Processing, 2012,26(1):73-83.
[10] 朱嫣嵐,閔錦,周雅倩,等. 基于HowNet的詞匯語義傾向計算[J]. 中文信息學報, 2006(01):14-20.
ZHU Yanlan, MIN Jin, ZHOU Yaqian, et al. Semantic Orientation Computing Based on HowNet[J]. Journal of Chinese Information Processing, 2006(01):14-20.
[11] 藺璜,郭姝慧. 程度副詞的特點范圍與分類[J]. 山西大學學報:哲學社會科學版,2003(02):71-74.
LIN Huang, GUO Shuhui. The feature scope and classification of adverb of degree[J]. Journal of Shanxi University: Philosophy & Social Science, 2003(02):71-74.
[12] 王志濤,於志文,郭斌,等. 基于詞典和規(guī)則集的中文微博情感分析[J]. 計算機工程與應用,2015,51(8):218-225.
WANG Zhitao, YU Zhiwen, GUO Bin, et al. Sentiment analysis of Chinese micro blog based on lexicon and ruleset[J]. Computer Engineering and Applications, 2015,51(8): 218-225.
[13] 王文,王樹鋒,李洪華. 基于文本語義和表情傾向的微博情感分析方法[J]. 南京理工大學學報,2014(06):733-738,749.
WANG Wen, WANG Shufeng, LI Honghua. Microblogging sentiment analysis method based on text semantics and expression tendentiousness[J]. Journal of NanJing University of Science and Technology. 2014(06):733-738,749.
[14] LI Guangxia,HOI S C H,CHANG Kuiyu,et al. Micro-blogging sentiment detection by collaborative online learning[C]//Proceedings of the 2010 IEEE International Conference on Data Mining. Sydney,Australia: IEEE, 2010:893-898.
DOI:10.3979/j.issn.1673-825X.2016.04.010
收稿日期:2016-02-14
修訂日期:2016-04-15通訊作者:趙天奇 zhaotianqi@bupt.edu.cn
基金項目:國家自然科學基金(61471056);江蘇省科技計劃項目(BY2013095-3-1,BY2013095-3-03)
Foundation Items:The National Natural Science Foundation of China (61471056);The Science and Technology Program of Jiangsu Province(BY2013095-3-1,BY2013095-3-03)
中圖分類號:TP391
文獻標志碼:A
文章編號:1673-825X(2016)04-0503-08
作者簡介:
趙天奇(1992-),男,內(nèi)蒙古赤峰人,碩士研究生,主要研究方向為大數(shù)據(jù)技術、自然語言處理。E-mail:zhaotianqi@bupt.edu.cn。
姚海鵬(1983-),男,河北張家口人,講師,碩士生導師,主要研究方向為未來網(wǎng)絡體系架構、網(wǎng)絡大數(shù)據(jù)、新一代移動通信體系架構及關鍵技術、物聯(lián)網(wǎng)體系架構等。
方超(1985-),男,湖北武漢人,博士,主要研究方向為未來網(wǎng)絡體系架構設計、內(nèi)容中心網(wǎng)絡緩存、能效、移動性管理技術,網(wǎng)絡大數(shù)據(jù)架構設計及關鍵技術。
張俊東(1992-),男,北京人,碩士研究生,主要研究方向為大數(shù)據(jù)技術,自然語言處理等。
張培穎(1981-),男,遼寧盤錦人,博士研究生,主要研究方向為網(wǎng)絡大數(shù)據(jù)架構及關鍵技術,信息中心網(wǎng)絡關鍵技術等。
(編輯:劉勇)
Microblogging sentiment analysis method with the combination of semantic rules and emoticon weighting
ZHAO Tianqi, YAO Haipeng, FANG Chao, ZHANG Jundong, ZHANG Peiying
(State Key Laboratory of Networking and Switching Technology, Beijing University of Posts and Telecommunications, Beijing 100876, P.R. China)
Abstract:Current Chinese microblog sentiment analyses usually use emotional polarity classification result as evaluation standard. To improve the accuracy of the result, this paper considers the elements which may have influence on micro-blog sentiment as much as possible. On the basis of microblogging emotional words, emoticon information is additionally considered for weighted processing, improving the emotional polarity classification result of microblogs which contain emoticons. Then semantic rules, including several common sentence rules and sentence relationship rules, are covered to make a better result of sentimental analyses of complex statements. Meanwhile, we calculate the score of each blog, which is judged by qualification rate. Finally, through Hadoop platform, 10 000 sets of data were tested and verified the validity of the fusion algorithm.
Keywords:microblog; sentiment analysis; semantic rules; emoticon