• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于K-近鄰算法的文本情感分析方法研究

      2012-07-25 11:05:28安毅生李慧賢
      計算機工程與設(shè)計 2012年3期
      關(guān)鍵詞:查全率查準率全局

      樊 娜,安毅生,李慧賢

      (1.長安大學(xué) 信息工程學(xué)院,陜西 西安710064;2.西北工業(yè)大學(xué) 計算機學(xué)院,陜西 西安710072)

      0 引 言

      面對互聯(lián)網(wǎng)中海量信息,如何快捷而準確地鑒別人們對某政策、事件或產(chǎn)品等所持的觀點是褒義還是貶義,必須借助于文本情感分析 (sentiment analysis)技術(shù)[1-6]。本文充分考慮網(wǎng)絡(luò)文本內(nèi)部結(jié)構(gòu)以及情感表達特點,提出一種基于K-近鄰算法的情感分析方法,建立情感分析層次化模型,多層次、細粒度的分析文本情感。

      1 文本情感模型

      為了對文本中復(fù)雜的情感進行準確的分析,首先引入全局情感和局部情感的概念。全局與局部,是反映事物及其過程包含與組合的相互關(guān)系的一對哲學(xué)范疇,是揭示客觀事物的整體和部分的相互作用和關(guān)系的一種普遍聯(lián)系。全局就是整體,就是事物的各個部分、各個方面的總和,它對于各個部分、各個方面具有領(lǐng)導(dǎo)的、決定的、主要的作用。我們通過分析發(fā)現(xiàn),文本中的情感也符合全局和局部這樣的哲學(xué)規(guī)律,通過對大量語料信息的分析,將文本中的情感分為兩種:全局情感和局部情感。全局情感是指整個文本所表達出的情感;而局部情感是指文本中某個特定部分表達出的情感,這個特定部分可以是詞、短語、句子或者段落等。文本中各個局部感情相互作用,相互影響,最終確定文本的全局情感。因此,可以通過確定文本的局部情感最終識別全局情感。根據(jù)上述分析,建立文本情感層次化模型,如圖1所示。

      圖1 文本情感層次模型

      依據(jù)文本的語義結(jié)構(gòu)特點,層次化模型分為3個層次:T為文本的褒貶傾向,節(jié)點C1,C2…,Cl為各個自然段的褒貶傾向,節(jié)點P1,P2…,Pm是段中各個句子的褒貶傾向。句子的情感信息傳遞給自然段,自然段的情感信息對文本的全局情感產(chǎn)生影響。

      這個層次化情感模型清晰的顯示了文本內(nèi)部的情感脈絡(luò),通過該模型可以對文本的情感進行多角度、細粒度、分層次的分析。

      2 情感分析

      根據(jù)建立的層次化分析模型,文本情感計算方法可以分為兩個步驟進行:①計算并獲取文本中的各個段落的情感傾向值,即局部情感;②根據(jù)局部情感計算獲得文本全局情感。

      下面將針對這兩個步驟進行詳細闡述。

      2.1 局部情感分析

      首先,確定每個段的情感傾向。段落的情感識別看作段中句子的情感標注問題,因此可以采用條件隨機場模型(conditional random field models CRF)[7-9]。由 于 段 中 主 觀內(nèi)容和客觀內(nèi)容是同時存在的,如果先剔除客觀內(nèi)容的,直接對主觀內(nèi)容進行情感分析,必然能有效的避免客觀內(nèi)容對情感判斷的影響?;诖耍覀兲岢隽艘环N兩層式CRF模型對段進行分析,該模型如圖2所示。

      圖2 兩層式CRF標注模型

      該模型具體包括以下兩個步驟:

      (1)在第一層CRF模型中,首先標注段中包含的句子的主客觀性。這樣通過第一層的標注,將客觀句子過濾,只保留主觀句子待處理,避免了客觀句子影響下一層的褒貶標注。

      (2)將標注為主觀性的句子作為第二層CRF模型的輸入,在第二層完成對句子的褒貶性標注。

      根據(jù)各層任務(wù)的不同,位于不同層次的CRF模型分別采用不同的模型特征。第一層的模型特征為主觀特征。我們將包含情感詞語的句子定義為主觀句子,反之則為客觀句。因此主觀特征即是情感詞。依靠知網(wǎng)資源建立一個包括知網(wǎng)詞語以及褒貶兩個種子集合的綜合情感詞庫,主觀特征就是應(yīng)用這個情感詞庫。對于包含情感詞庫中情感詞的句子,將其標注為主觀句子,否則標注為客觀句子。第二層的模型特征為褒貶特征。我們建立的綜合情感詞庫中的情感詞包括兩個屬性,一個是情感詞的褒貶,一個是其褒貶值 (褒傾向賦值為1,貶傾向賦值為-1)。對于句子中包含的情感詞,取其褒貶值作為模型的褒貶特征。

      通過上述步驟,完成了對段落中句子情感的標注,可以確定每個段落的情感。

      2.2 基于K-近鄰的文本情感分析

      式中:如果y值大于給定的閾值0.5,X屬于類1;當其小于0.5時,X則屬于類0。其中,Lk(X)表示與給定實例X距離最近的K個實例的值。

      在實際應(yīng)用中,為提高K-近鄰法的精度,經(jīng)常使用一種改進的K-近鄰法算法-加權(quán)K-近鄰法。在該算法中,對每個實例引入了決策權(quán)重的計算。對于實例X,分別定義X與K個最近鄰 (X1,y1),…, (XK,yK)之間的距離為d1,…,dK。決策權(quán)重βi的計算如下

      基于權(quán)重的近鄰決策規(guī)則可以描述為

      情感傾向包括兩類:褒義類和貶義類,因此情感識別可以看作是兩類分類問題,即褒義類和貶義類的識別?;诖耍捎肒-近鄰算法[10-13]識別文本的情感。該算法是一種簡單、有效、非參數(shù)的方法,其本質(zhì)是一種預(yù)測性的監(jiān)督算法,它的規(guī)則本身就是數(shù)據(jù)樣本。

      在下文中以兩類分類問題為例,給出K-近鄰法的形式化描述:基于向量空間模型 (VSM),將每個實例視為Rn空間中的一個點 (向量)。假設(shè)n個帶類標識的實例數(shù)據(jù)為(X1,y1),(X2,y2),… (Xn,yn),其中Xi為實例的向量表示,yi為實例對應(yīng)的類別。類別的取值為0和1,表示兩類。對于給定的實例X,可以通過式 (1)判斷其類別

      在確定實例X的K-近鄰后,計算每個實例的決策權(quán)重,根據(jù)決策權(quán)重的大小,判斷其在預(yù)測X的類別歸屬時發(fā)揮作用的大小14。

      這種算法是一種非常有效的方法,它對訓(xùn)練數(shù)據(jù)中的噪聲有很好的健壯性,當給定足夠大的訓(xùn)練集合時也非常有效,通過K個近鄰的加權(quán)平均,可以消除孤立的噪聲樣例的影響。

      對于一個文本的全局情感而言,我們對文本中的所有局部情感采用加權(quán)K-近鄰方法,從而獲取文本的全局情感。由于文本中的各個段具有不同的權(quán)重,因此,各個局部情感在影響全局情感時發(fā)揮的作用也是不同的。相對重要的段的情感發(fā)揮的影響作用大,而相對不重要的段的情感發(fā)揮的作用較小。加權(quán)K-近鄰法通常是根據(jù)距離目標點的遠近來確定權(quán)重的大小,但是在全局情感預(yù)測中,各個段的權(quán)重并不是根據(jù)傳統(tǒng)意義的距離來確定的,而是根據(jù)段自身體現(xiàn)的重要性確定的。因此權(quán)重的計算也與加權(quán)K-近鄰算法中權(quán)重的計算有所不同。

      根據(jù)上述分析,獲取全局情感的計算如下

      式中:P(T,sj)——文 本 T 的 全 局 情 感,PT(Ci,sj)——文本T中段Ci的情感,即文本的局部情感,當PT(Ci,sj)為褒義傾向時,取值為1,當其為貶義傾向時,取值為-1。Wi表示段Ci的權(quán)值。

      段權(quán)重的計算是確定全局情感的關(guān)鍵步驟。一個文本中的各個段,對文本的貢獻大小是不同,在本文中我們將段的權(quán)重更具體化的定義為段的貢獻率,所謂貢獻率指的是段對文本主題以及內(nèi)容的貢獻程度。通過對語料分析發(fā)現(xiàn),以下幾個因素會對貢獻率產(chǎn)生影響:

      (1)段中包含主題句的多少。主題句是包含主題概念的句子。如果一個段包含的主題句相對較多,說明該段對文本主題表達發(fā)揮的作用更大。

      (2)是否是文本首段或者尾段。按照網(wǎng)絡(luò)文本通常的語義結(jié)構(gòu)和作者的寫作習(xí)慣,首段和尾段相對其它段落對文本表達更為重要。包含文本首段或者尾段的段因而具有較大的貢獻率。

      (3)是否包含與文本標題相似度較高的句子。文本的標題是對文本主要內(nèi)容的總結(jié),如果段包含了與標題相似度高的句子,就具有較大的貢獻率。

      將標題與句子分別表示為特征項的向量,向量間的夾角越小,標題與句子的相似度越高。句子與標題相似度的計算公式如下

      式中:T——標題的向量,Si——句子的向量。相似度閾值δ根據(jù)實驗確定,在本文中通過多次的實驗,最終確定δ=0.75,當一個句子與標題的相似度大于該閾值時,認為該句子與標題相似,同時認為包含該句子的段相對比較重要。

      全面考慮上述各個因素,一個段的貢獻率定義如下

      式中:VCi——第i個段的貢獻率,NCi——段Ci中包含的所有句子的數(shù)目,S(Ci)——段Ci中包含的主題句子的數(shù)目,α——當段包含首段或者尾段時賦予的值,n——段Ci中所包含的與標題相似的所有句子的數(shù)目。α的值必須通過實驗統(tǒng)計分析確定。

      通過上述計算步驟,就能確定一個段的貢獻率,即段的權(quán)重。獲取段的情感和段的權(quán)重,采用加權(quán)求和的方式完成對文本全局情感的預(yù)測。

      3 實驗結(jié)果和分析

      實驗中采用的語料為中文手機產(chǎn)品網(wǎng)絡(luò)評論文本。首先 從 手 機 產(chǎn) 品 評 論 (http://product.it168.com/newpinglun/cSpace_pl.asp?cType_code=0302)搜集整理手機評論文本,并對所有評論認真審查,去除語言不規(guī)范及內(nèi)容重復(fù)的文本,最終選取文本1200篇,將選取的文本轉(zhuǎn)換為統(tǒng)一的文本格式,手工對語料中的文本標注褒貶傾向。同時將所有語料分為兩部分,其中600篇作為訓(xùn)練語料集合,其余的600篇作為測試語料集合T。

      對本文方法評估分為兩個部分,首先評估提出的段權(quán)值計算方法;然后評估基于K-近鄰方法的全局情感獲取方法。

      在實驗中,采用傳統(tǒng)性能評價指標查全率 (R)、查準率 (P)以及F1值刻畫性能的優(yōu)劣。

      第一部分實驗是評估段權(quán)值計算方法。

      一種是常用的方法,僅僅考慮到包含首段或者尾段的段有較大權(quán)值,其它情況不作考慮;另一種方法是段貢獻率計算,該方法充分考慮了標題、主題句子等多種因素對段權(quán)值的影響。在實驗中,我們主要比較這兩種權(quán)值確定方法的優(yōu)劣。為了便于比較,我們將第一種方法稱為Q值方法,將第二種方法稱為貢獻率方法。

      在實驗前,首先必須確定Q值方法中對首尾段的加權(quán)值Q。設(shè)置Q=1.1,1.2,…1.9,分別在600篇語料樣本上進行試驗,其中褒義傾向文本350篇,貶義傾向文本250篇,采用兩層CRF模型進行段情感分析識別,隨著Q選取不同的值,判斷情感褒貶的準確率也隨之發(fā)生相應(yīng)的變化。實驗結(jié)果顯示Q值與判斷準確率之間的關(guān)系如圖3所示。

      從圖3可以看出,當Q=1.6時,情感判斷的準確率最高,因此后繼實驗中Q取值為1.6。

      在確定了Q值之后,進行Q值方法和貢獻率方法的比較實驗。

      分別選取測試集文本數(shù)的30%、50%、70%、80%、95%形成5個測試集,分別記作T1、T2、T3、T4和T5。采用本文提出的基于兩層CRF模型方法識別段的情感,應(yīng)用Q值方法和貢獻率方法分別計算文本的全局情感。表1是采用這兩種方法的實驗結(jié)果比較。

      圖3 Q值與準確率關(guān)系

      表1 不同權(quán)值計算方法的比較

      表1中的實驗結(jié)果顯示,貢獻率方法平均查全率達到83.9%,平均查準率達到85.2%,平均F1達到84.5%;Q值方法的平均查全率達到82.5%,平均查準率達到82.4%,平均F1達到82.3%。貢獻率方法的各項評價指標明顯優(yōu)于Q值方法。這是因為貢獻率方法不僅考慮了包含首、尾段落對段權(quán)值的影響,同時將包含主題句的數(shù)量以及是否包含文本標題等因素也考慮在內(nèi),在權(quán)值計算中充分考慮了多種因素的綜合影響,能更細致的區(qū)分不同段的不同權(quán)值。因此,在實際應(yīng)用中比簡單的Q值方法效果更好,能有效提高情感識別的準確率。

      第二部分實驗是評估基于加權(quán)K-最近鄰算法的全局情感識別方法。

      目前,機器學(xué)習(xí)方法中的SVM方法[15]和貝葉斯分類器[16]在文本情感二值分類中有較好的分類效果。貝葉斯分類器是一種概率分類器,它利用類別的先驗概率和特征分布相對于類別的條件概率來計算未知文本屬于某一類別的概率。

      因此在實驗中,將比較基于加權(quán)K-近鄰算法與SVM方法以及貝葉斯方法獲取文本全局情感的性能。實驗中同樣采用查全率 (R)、查準率 (P)以及F1值來刻畫性能的優(yōu)劣。

      實驗測試數(shù)據(jù)選取實驗1中的5個測試集T1、T2、T3、T4和T5。表2是3種方法的查全率和查準率的比較。

      表2 獲取全局情感的查全率和查準率比較

      表2的實驗結(jié)果說明,基于加權(quán)K-近鄰算法獲取全局情感的查全率和查準率顯著高于其它兩種方法。SVM方法的平均查全率為81.9%,Bayes方法的平均查全率為80.1%,基于加權(quán)K-近鄰算法的平均查全率達到了87.5%;SVM方法的平均查準率為81.8%,Bayes方法的平均查準率為81.0%,而基于加權(quán)K-近鄰算法的平均查準率達到了89.3%。上述比較說明,SVM方法與Bayes方法相比,性能稍好,但是本文提出的基于加權(quán)K-近鄰算法則明顯優(yōu)于SVM方法,與SVM方法相比,平均查全率超出近7%,平均查準率超出近8%。表3是3種方法的F1值比較。

      表3 獲取全局情感的F1值比較

      表3中的實驗結(jié)果顯示,3種方法的綜合評價指標F1值相比,同樣是基于加權(quán)K-近鄰算法明顯高于其它兩種方法。

      上述實驗結(jié)果說明,基于加權(quán)K-近鄰算法在提取文本全局情感方面與表現(xiàn)較好的傳統(tǒng)機器學(xué)習(xí)算法相比,各項性能指標都有明顯提高。本文提出的層次化情感分析模型對文本情感進行細致劃分,同時充分考慮了文本內(nèi)部各個部分對文本內(nèi)容以及主題表達的不同貢獻;而傳統(tǒng)方法僅僅就文本整篇進行分析,忽略了文本內(nèi)部的語義關(guān)聯(lián)。因此,本方法有助于細粒度地分析文本的情感,并具有較高的準確率。

      4 結(jié)束語

      本文在分析文本結(jié)構(gòu)和情感表達特點的基礎(chǔ)上,提出了建立局部-全局的文本情感分析模型,對文本情感進行分層次分析。首先通過兩層CRF模型,獲取文本中各個段的情感,即文本的局部情感,然后采用加權(quán)K-近鄰算法獲得文本的全局情感。實驗結(jié)果顯示,本文提出的這種情感分析方法,與傳統(tǒng)機器學(xué)習(xí)分析方法相比,明顯提高了情感識別的準確率。在后繼的研究中,將探討提取文本中的句法語義信息,以進一步提高模型分析的準確率。

      [1]KIM SM,HOVY E.Identifying and analyzing judgment opinions[C].PA,USA:Proceedings of the Main Conference on Human Language Technology Conference of the North A-merican Chapter of the Association of Computational Linguistics,2006:200-207.

      [2]Devitt A,Ahmad K.Sentiment polarity identification in financial news:A cohesion based approach [C].Prague,CZ:Association for Computational Linguistics,2007:984-991.

      [3]PANG B,LEE L.Opinion mining and sentiment analysis[J].Foundations and Trends in Information Retrieval,2008,2 (1-2):1-135.

      [4]Titov I,McDonald R.Modeling online reviews with multigrain topic models[C].New York,NY,USA:Proceedings of the 17th International Conference on World Wide Web,2008:1-120.

      [5]Stoyanov V,Cardie C.Topic identification for fine-grained opinion analysis[C].PA,USA:Proceedings of the 22nd International Conference on Computational Linguistics,2008:817-824.

      [6]XU Linhong,LIN Hongfei,ZHAO Jing.Construction and analysis of emotional corpus[J].Journal of Chinese Information Processing,2008,22 (1):116-122 (in Chinese). [徐琳宏,林鴻飛,趙晶.情感語料庫的構(gòu)建和分析 [J].中文信息學(xué)報,2008,22 (1):116-122.]

      [7]CHOI Y,CARDIE C,RILOF E.Identifying sources of opinions with conditional random fields and extraction patterns[C].PA,USA:Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing,2009:355-362.

      [8]ZHAO J,LIU K,WANG G.Adding redundant features for CRFs-based sentence sentiment classification [C].PA,USA:Proceedings of the Conference on Empirical Methods in Natural Language Processing,2008:117-126.

      [9]ZHAO J,XU H B,HUANG X J.Overview of Chinese opinion analysis evaluation [EB/OL ]. http://nlprweb.ia.a.c/2008papers/gnhy/nh1 0.pdf,2008.

      [10]Kristof Coussenment, Dirk Vanden.Improving customer complaint management by automatic email classification using linguistic style features as predictors [EB/OL].http://www.elsevier.com/locate/dss,2007.

      [11]FANG Yuan,LIU Yang.A new density-based method for reducing the amount of training data in kNN text classification[C].Hong Kong:International Conference on Machine Learning and Cybernetics,2007:3372-3376.

      [12]Branavan S,CHEN H,Eisenstein J.Learning documentlevel semantic properties from free-text annotations [C].Proceedings of the Association for Computational Linguistics,2008:263-271.

      [13]DU H,CHEN Y Q.Rectified nearest feature line segment for pattern classification [J].Pattern Recognition,2007,40(5):1486-1497.

      [14]YU H,Hatzivassilog1ou V.Towards answering opinion questions:Separating facts from opinions and identifying the polarity of opinion sentences[C].PA,USA:Proceedings of the Conference on Empirical Methods in Natural Language Processing,2006:129-136.

      [15]ZHANG M,YE X Y.A generation model to unify topic relevance and lexicon-based sentiment for opinion retrieva1 [C].New York,NY,USA:Proceedings of the 31st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,2008:411-418.

      [16]CUI H,Mittal VO,Datar M.Comparative experiments on sentiment classification for online product reviews [C].Proceedings of the 21st National Conference on Artificial Intelligence,2006:1265-1270.

      猜你喜歡
      查全率查準率全局
      Cahn-Hilliard-Brinkman系統(tǒng)的全局吸引子
      量子Navier-Stokes方程弱解的全局存在性
      海量圖書館檔案信息的快速檢索方法
      落子山東,意在全局
      金橋(2018年4期)2018-09-26 02:24:54
      基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)絡(luò)信息過濾系統(tǒng)設(shè)計
      基于詞嵌入語義的精準檢索式構(gòu)建方法
      大數(shù)據(jù)環(huán)境下的文本信息挖掘方法
      基于深度特征分析的雙線性圖像相似度匹配算法
      新思路:牽一發(fā)動全局
      中文分詞技術(shù)對中文搜索引擎的查準率及查全率的影響
      巴中市| 温州市| 南岸区| 永仁县| 建平县| 石门县| 绥棱县| 安顺市| 关岭| 林芝县| 津南区| 巴林左旗| 富裕县| 兴安县| 田东县| 屯昌县| 凌云县| 卢氏县| 福安市| 凤台县| 平陆县| 九龙城区| 安西县| 自贡市| 茂名市| 芦溪县| 卓资县| 延边| 德格县| 乐平市| 汉寿县| 镇安县| 临朐县| 大埔区| 辽中县| 德阳市| 扶余县| 罗定市| 鸡泽县| 南雄市| 康乐县|