• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多種情感特征的網(wǎng)絡(luò)文本傾向性判別方法研究

      2015-11-14 11:41:01樊康新
      電腦知識(shí)與技術(shù) 2015年22期

      樊康新

      摘要:網(wǎng)絡(luò)文本的情感傾向性分析對(duì)于電子商務(wù)、網(wǎng)絡(luò)信息安全、網(wǎng)絡(luò)輿情等方面具有非常重要的意義。本文在對(duì)文本傾向性分析的常用方法作了分析和研究的基礎(chǔ)上,提出了一種綜合情感詞語、否定詞、程度副詞、關(guān)聯(lián)詞和詞句類型等多種特征計(jì)算詞句的極性值,進(jìn)而判別文本情感傾向性的方法。實(shí)驗(yàn)結(jié)果表明,與ku提出的算法相比,該方法更能有效地判定文本情感傾向性。

      關(guān)鍵詞:情感詞典;情感特征;網(wǎng)絡(luò)文本;文本傾向性;傾向性分析

      中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)22-0018-04

      Abstract: The analysis of the sentiment orientation of the network text is very important for the electronic commerce, the network information security, the network public opinion and so on. In this paper, the general method of text orientation analysis is studied. We propose a new method to calculate the polarity value of the words and to judge the sentiment orientation of text, which comprehensives a variety of characteristics, such as the emotional words, negative words, adverbs of degree, related words, and so on. The experimental results show that the proposed method is more effective than the Ku algorithm for judging sentiment orientation.

      Key words: sentiment lexicon; sentiment feature; network text; text orientation; orientation analysis

      隨著互聯(lián)網(wǎng)的飛速發(fā)展以及網(wǎng)絡(luò)信息交流的便捷性和信息傳播的迅速性,使得越來越多的人使用網(wǎng)絡(luò)作為信息交流的平臺(tái),發(fā)表自己的意見和觀點(diǎn)。由此產(chǎn)生了大量帶有個(gè)人主觀情感色彩的在線文本,如個(gè)人博客、產(chǎn)品評(píng)論、新聞評(píng)論等。在這些浩如煙海的大量文本中,大多數(shù)都帶有作者對(duì)人、事、物的觀點(diǎn)和態(tài)度。提取這些反映著網(wǎng)民真實(shí)觀點(diǎn)和態(tài)度的情感信息,對(duì)于電子商務(wù)、網(wǎng)絡(luò)信息安全、網(wǎng)絡(luò)輿情等方面具有非常重要的意義。

      網(wǎng)絡(luò)文本傾向性分析是指通過采集、組織和分析這些網(wǎng)絡(luò)文本中的立場(chǎng)、觀點(diǎn)、看法、態(tài)度、情緒等主觀信息,從而對(duì)文本的情感傾向性做出正負(fù)褒貶的判斷。目前,這一技術(shù)已成為信息處理領(lǐng)域的一個(gè)研究熱點(diǎn),已被廣泛應(yīng)用在信息檢索、信息過濾、信息安全、自動(dòng)文摘等多個(gè)方面。

      1相關(guān)研究

      文本情感分析可以分為基于機(jī)器學(xué)習(xí)的情感分類方法和基于語義理解的情感分析方法兩大類。

      基于機(jī)器學(xué)習(xí)的情感分類方法利用訓(xùn)練語料對(duì)分類器進(jìn)行訓(xùn)練,然后將測(cè)試語料用已訓(xùn)練好的分類器進(jìn)行分類測(cè)試,得到文本的情感傾向性。例如,Pang等[1]運(yùn)用樸素貝葉斯網(wǎng)絡(luò)、最大熵模型和支持向量機(jī)三種分類器對(duì)于影評(píng)進(jìn)行了分類研究;李素科等[2]針對(duì)監(jiān)督學(xué)習(xí)分類的不足之處,對(duì)情感特征進(jìn)行聚類,并提出了一種半監(jiān)督式的情感分析算法。

      基于語義理解的情感分析又可以分為兩類:基于情感詞的傾向性分析方法和基于語義規(guī)則的傾向性分析方法?;谇楦性~的傾向性分析首先抽取出文本中的情感詞,然后對(duì)情感詞逐一進(jìn)行情感傾向判斷,得到各自的情感傾向值,最后通過累加這些傾向值獲得文本最終的情感傾向和強(qiáng)度。例如,徐琳宏等[3]采用HowNet作為基準(zhǔn)詞,并在實(shí)驗(yàn)中考慮否定詞和程度副詞的影響,計(jì)算待測(cè)詞與關(guān)聯(lián)度確定語義傾向,對(duì)電影評(píng)論進(jìn)行了傾向性識(shí)別研究?;谡Z義規(guī)則的傾向性分析首先建立一個(gè)情感傾向語義模式庫(kù),然后將文本按照這個(gè)語義模式庫(kù)進(jìn)行模式匹配,計(jì)算得到一系列情感傾向值,最后將這些傾向值進(jìn)行累加,得到整個(gè)文本的情感傾向和強(qiáng)度。例如,Ku等[4]對(duì)新聞和博客文本從詞級(jí)、句子級(jí)和文檔級(jí)進(jìn)行了意見抽取,得出觀點(diǎn)摘要,進(jìn)而對(duì)文本進(jìn)行情感傾向和強(qiáng)度分析。

      對(duì)上述幾種文本傾向性分析的常用方法進(jìn)行深入的分析和研究后發(fā)現(xiàn),許多方法只是片面地進(jìn)行文本傾向性的判定,其準(zhǔn)確性和有效性得不到保證。本文在精心構(gòu)建基礎(chǔ)情感詞典和網(wǎng)絡(luò)情感詞典的基礎(chǔ)上,根據(jù)網(wǎng)絡(luò)文本的組成特點(diǎn),綜合利用情感詞語、否定詞、程度副詞、關(guān)聯(lián)詞和詞句類型等多種特征計(jì)算詞句的情感極性值,據(jù)此判別文本情感傾向性。實(shí)驗(yàn)結(jié)果表明,該方法提高了網(wǎng)絡(luò)文本傾向性判別的準(zhǔn)確性。

      2情感資源的構(gòu)建

      2.1基礎(chǔ)情感詞典

      目前關(guān)于中文情感詞匯方面的資源較少,基本采用人工的方法獲取。本文以HowNet發(fā)布的“情感分析用詞語集”[5]為基礎(chǔ),構(gòu)建網(wǎng)絡(luò)文本傾向性分析的基礎(chǔ)情感詞典。該詞語集共包含中文情感分析用詞語集和英文情感分析用詞語集兩個(gè)部分,一共包含詞語17887個(gè)。該詞語集最大的特點(diǎn)在于作者已經(jīng)根據(jù)詞語情感傾向?qū)⑵浞殖闪肆?,分別為“正面評(píng)價(jià)”詞語、“負(fù)面評(píng)價(jià)”詞語、“正面情感”詞語、“負(fù)面情感”詞語、“主張?jiān)~語”以及“程度級(jí)別”詞語。由于網(wǎng)絡(luò)文本是互聯(lián)網(wǎng)的產(chǎn)物,其文本信息表達(dá)多元化,表現(xiàn)形式常常是消息發(fā)布、商品評(píng)價(jià)、話題討論、情感宣泄等,故本文選用HowNet“情感分析用詞語集”中的前四類,即正、負(fù)面情感詞語與正、負(fù)面評(píng)價(jià)詞語。通過人工挑選,去掉一些不太常用以及情感傾向不明顯的詞語,得到7156個(gè)情感詞作為本文的基礎(chǔ)情感詞典。

      2.2網(wǎng)絡(luò)情感詞典

      隨著互聯(lián)網(wǎng)日益廣泛的使用,出現(xiàn)了許多網(wǎng)絡(luò)用語。這些網(wǎng)絡(luò)上的非正式語言跟傳統(tǒng)詞語有著很大區(qū)別,它們往往具有強(qiáng)烈的感情色彩。有的是過去已經(jīng)存在的詞語,因?yàn)槟硞€(gè)事件或某些熱門話題而演變成了帶有感情色彩的詞語。比如:“神馬、小強(qiáng)、寶馬女、奇葩、……”。有的則是過去不存在,新出現(xiàn)的網(wǎng)絡(luò)詞語,大多為諧音、錯(cuò)別字改成、字母縮寫、也有象形字詞等。比如:“木有(沒有)、稀飯(喜歡)、JJWW(唧唧歪歪)、SP(support)、3Q(Thank you)、7456(氣死我了)、弓雖、……”。這些詞語在已有情感詞典中是不存在的,但在文本情感傾向判別過程中卻有著十分重要的作用。

      網(wǎng)絡(luò)情感詞的收集是一個(gè)漫長(zhǎng)的過程,目前還沒有現(xiàn)成的情感詞典可用,因此只有通過社交網(wǎng)絡(luò)、BBS、博客、評(píng)論、微博等,收集并標(biāo)注具有感情色彩的詞語加入網(wǎng)絡(luò)情感詞典之中。本文收集篩選了75個(gè)網(wǎng)絡(luò)常用詞語組成情感傾向分析的網(wǎng)絡(luò)情感詞典。

      2.3否定詞和程度副詞詞典

      在進(jìn)行情感分類時(shí),僅考慮情感詞語往往不足以支持文本情感傾向的準(zhǔn)確判別[3]。例如,“不漂亮”和“非常漂亮”,其中的情感詞“漂亮”本來是褒義詞,但是由于否定副詞“不”和程度副詞“非?!钡某霈F(xiàn),整個(gè)句子的語義在不同程度上都有所改變。因此,副詞的出現(xiàn)對(duì)句子的傾向性起到加強(qiáng)、減弱甚至逆轉(zhuǎn)的作用。由此可見,除了構(gòu)建基礎(chǔ)情感詞典和網(wǎng)絡(luò)情感詞典外,還需要構(gòu)建否定詞詞典和程度副詞詞典。

      本文從HowNet中抽取如“不、并非、不再、不曾、從不、毫不、毫無、絕非、沒、沒有、未、尚未、未必、未嘗、未曾、不大、不太、不很”等的36個(gè)否定詞作為本文的否定詞詞典。

      程度副詞詞典則根據(jù)每個(gè)程度副詞的表達(dá)程度不同,為程度副詞定義不同的強(qiáng)度值。本文選取了如“最、最為、極、極為、極其、過于、分外、很、非常、特別、十分、甚為、異常、深為、多么、尤其、無比、尤為、不甚、不勝、頗為、大、大為、稍微、稍許、略微、較、比較、較為、有點(diǎn)、有些”等76個(gè)程度副詞,將其劃分為7個(gè)級(jí)別,分別賦予不同的強(qiáng)度,其值從1.6到0.7不等。

      3網(wǎng)絡(luò)文本的情感傾向性判別

      根據(jù)已建立的情感詞典、程度副詞詞典和否定副詞詞典,能夠快速地計(jì)算出詞語的傾向性,從而可以計(jì)算出各句子和整個(gè)文本的情感傾向性。

      3.1詞語的情感傾向性計(jì)算

      基于HowNet的語義相似度的方法反映的是詞語語義的相似程度。劉群等[6]提出了計(jì)算詞語語義相似度的方法,因此本文利用詞語的語義相似度概念來計(jì)算詞語的情感值。

      詞語的情感傾向值由該詞與種子詞的語義關(guān)聯(lián)的緊密程度有關(guān),這里的種子詞是指褒貶態(tài)度非常明顯、強(qiáng)烈,具有代表性的詞語。與褒義種子詞聯(lián)系越緊密,則詞語的褒義傾向越強(qiáng)烈;與貶義種子詞聯(lián)系越緊密,則詞語貶義傾向越明顯[7]。本文從HowNet中人工挑選出若干個(gè)褒貶種子詞,組成褒貶基準(zhǔn)詞集合P和N。利用式(1)計(jì)算詞語w的情感值。

      3.2句子的情感傾向性識(shí)別

      根據(jù)句子的組成特點(diǎn),將句子的情感傾向性分為單句和復(fù)句兩類分別處理。這里,單句是指只具有主語和謂語的句子以及短語;復(fù)句是指具有連詞連接的句子,或雖沒有連詞連接但至少有兩個(gè)或兩個(gè)以上的分句構(gòu)成的句子。

      3.2.1單句的情感傾向性

      句子的情感傾向性不僅取決于句子中情感詞的褒貶傾向,而且還與修飾情感詞的程度副詞和否定詞有著密切聯(lián)系。因此,對(duì)于單句,本文根據(jù)句子中情感詞、程度副詞和否定詞等特征計(jì)算句子的情感傾向值。

      3.3網(wǎng)絡(luò)文本的情感傾向性判別

      文本傾向性計(jì)算以句子為單位。首先根據(jù)對(duì)情感傾向性影響的重要程度確定文本中各句子的權(quán)重,然后對(duì)文本進(jìn)行情感傾向計(jì)算,并最終由計(jì)算結(jié)果和區(qū)間閾值判別文本的正負(fù)褒貶傾向性。

      4實(shí)驗(yàn)結(jié)果與分析

      本文實(shí)驗(yàn)采用的語料為淘寶網(wǎng)買家購(gòu)物評(píng)論文檔。從淘寶網(wǎng)眾多買家對(duì)多種商品的評(píng)價(jià)中搜集整理評(píng)論文本,對(duì)所有評(píng)論文本逐一檢查,去掉語言不規(guī)范的文本。隨機(jī)選擇2000篇文本作為本實(shí)驗(yàn)的數(shù)據(jù)集,對(duì)這些文本進(jìn)行人工褒貶傾向性判定,確定978篇為褒義(正面評(píng)價(jià))文檔,935篇為貶義(負(fù)面評(píng)價(jià))文檔,另有87篇為中性文檔。

      從表2可以看出,本文方法在準(zhǔn)確率、召回率和F1值三項(xiàng)指標(biāo)方面,相對(duì)于Ku算法,正面文本的判別分別提高了13.04%、15.43%和14.23%;負(fù)面文本的判別分別提高了19.26%、21.90%和20.64%;中性文本的判別分別提高了19.15%、18.67%和18.91%。實(shí)驗(yàn)結(jié)果表明本文方法與Ku算法相比,較大幅度地提高了文本情感傾向性判別的精度。之所以如此,是因?yàn)镵u 算法在句子情感傾向計(jì)算時(shí)只對(duì)情感詞語統(tǒng)計(jì)計(jì)算或僅考慮否定副詞的修飾作用,并沒有如本文方法那樣,還對(duì)文本中的程度副詞、復(fù)句關(guān)聯(lián)詞、句子類型及標(biāo)點(diǎn)符號(hào)等可能對(duì)文本的傾向性產(chǎn)生重要影響的多種特征進(jìn)行更深入的剖析。從表2還可以看出,本文方法的準(zhǔn)確率和召回率均已達(dá)到80%以上,可以對(duì)網(wǎng)絡(luò)文本的情感傾向性作出有效的判斷。

      5結(jié)束語

      本文對(duì)情感詞典的建立和情感詞句極性的計(jì)算方法進(jìn)行了研究,充分考慮了程度副詞、否定副詞對(duì)句子情感傾向判別的作用;區(qū)別不同復(fù)句類型,對(duì)各分句情感極性加權(quán)累加,使得句子的傾向性計(jì)算更加合理;通過對(duì)具有明顯情感傾向特征的句子(如首尾句、感嘆句、反問句等)的重點(diǎn)處理,提高了文本傾向性計(jì)算的準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,本文方法對(duì)網(wǎng)絡(luò)文本情感傾向性的判別已達(dá)到了較為理想的效果。下一步的工作將繼續(xù)豐富完善情感資源,并在本文方法的基礎(chǔ)上融入淺層句法分析,從句法結(jié)構(gòu)方面分析網(wǎng)絡(luò)文本的情感傾向性。

      參考文獻(xiàn):

      [1] Pang B,Lee L,Vaithyanathan S.Thumbs up? Sentiment classification using machine learning techniques[C]. Proceedings of the Conference on Empirical Methods in Natural Language Processing(EMNLP).USA Philadelphia:2002:79-86.

      [2] 李素科,蔣嚴(yán)冰.基于情感特征聚類的半監(jiān)督情感分類[J].計(jì)算機(jī)研究與發(fā)展,2013,50( 12):2070-2577.

      [3] 徐琳宏,林鴻飛,楊志豪,等.基于語義理解的文本傾向性識(shí)別機(jī)制[J].中文信息學(xué)報(bào),2007,21(1):96-100.

      [4] Ku Lun-Wei, Liang Yu-Ting, Chen Hsin-His. Opinion extraction,summarization and tracking in news and blog corpora[C]//Proceedings of the 2006 AAAI Symposium on Computational Approaches to Analyzing Weblogs.Menlo Park:AAAI Press, 2006:100-107.

      [5] 董振東.HowNet[EB/OL].[2015-07-26]http: / /www.keenage.com.

      [6] 劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計(jì)算[J].計(jì)算機(jī)語言學(xué)與中文信息處理, 2007,31(7):59-76.

      [7] 朱嫣嵐,閔錦, 周雅倩, 等.基于HowNet的詞匯語義傾向計(jì)算[J].中文信息學(xué)報(bào), 2006,20(1):14-20.

      潼南县| 永春县| 肃宁县| 江源县| 同德县| 余姚市| 日土县| 石渠县| 德江县| 姚安县| 渝中区| 珠海市| 呈贡县| 双桥区| 桐城市| 景宁| 龙里县| 沙洋县| 南乐县| 建湖县| 泸定县| 宣化县| 绥阳县| 达拉特旗| 曲松县| 星子县| 城口县| 景洪市| 行唐县| 当涂县| 永泰县| 仪征市| 大连市| 新密市| 乐昌市| 隆林| 青海省| 蒙城县| 灵璧县| 天长市| 台北县|