• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于迭代兩步CRF模型的評(píng)價(jià)對(duì)象與極性抽取研究

      2015-04-25 08:24:08盛,李
      中文信息學(xué)報(bào) 2015年1期
      關(guān)鍵詞:極性語(yǔ)料對(duì)象

      張 盛,李 芳

      (上海交通大學(xué) 計(jì)算機(jī)科學(xué)與工程系,上海 200240)

      ?

      基于迭代兩步CRF模型的評(píng)價(jià)對(duì)象與極性抽取研究

      張 盛,李 芳

      (上海交通大學(xué) 計(jì)算機(jī)科學(xué)與工程系,上海 200240)

      微博作為一種新興媒體,已經(jīng)在人們生活中扮演了一種不可或缺的角色。如何從大量微博中抽取出有意義的評(píng)價(jià)對(duì)象并識(shí)別出正確的情感傾向顯得越來(lái)越重要。本文在傳統(tǒng)的CRF模型基礎(chǔ)上,提出了兩步CRF模型及迭代兩步CRF模型,對(duì)評(píng)價(jià)對(duì)象和極性進(jìn)行抽取。兩步CRF模型在COAE2014評(píng)測(cè)語(yǔ)料上取得了0.505的F值,迭代兩步CRF模型通過(guò)不斷增加訓(xùn)練語(yǔ)料,提高了召回率,使得F值達(dá)到了0.513,同時(shí)提高了模型的穩(wěn)定性。實(shí)驗(yàn)對(duì)比了當(dāng)前主流的幾種方法,結(jié)果證明了本文提出的方法是行之有效的。

      迭代;兩步CRF;評(píng)價(jià)對(duì)象

      1 引言

      隨著時(shí)代的發(fā)展,互聯(lián)網(wǎng)慢慢地融入了人們的生活,發(fā)揮著不可替代的作用。作為新型社交平臺(tái)的代表,微博被人們所認(rèn)識(shí)、熟悉和廣泛使用。CNNIC的統(tǒng)計(jì)報(bào)告顯示[1],截至2013年12月底,我國(guó)網(wǎng)民規(guī)模達(dá)到6.08億, 微博用戶規(guī)模為2.81億,網(wǎng)民中的微博用戶比例達(dá)到45.5%。手機(jī)微博用戶規(guī)模1.96億,接近總體人數(shù)三分之二。如此大規(guī)模的用戶群體加上方便快捷的移動(dòng)通信設(shè)備,必然會(huì)導(dǎo)致微博上海量信息的日益膨脹。同時(shí),相對(duì)于傳統(tǒng)的社交平臺(tái),微博信息的傳播更加迅速。總的來(lái)說(shuō),微博已經(jīng)遠(yuǎn)非一個(gè)單純的社交平臺(tái),它同時(shí)也是一個(gè)有著巨大潛力的信息源。

      曾經(jīng)稀缺的評(píng)論信息在互聯(lián)網(wǎng)上唾手可得。無(wú)論對(duì)于政府、企業(yè)還是個(gè)人來(lái)說(shuō),對(duì)這些評(píng)論信息的研究都具有重大的意義,可以輔助其進(jìn)行某些重要的決策。而微博作為一種新媒體也給評(píng)價(jià)對(duì)象抽取帶來(lái)了新的挑戰(zhàn)。相比具有正規(guī)語(yǔ)法和措辭的新聞文本,微博文本更加口語(yǔ)化,里面充斥著大量的錯(cuò)別字和不規(guī)則語(yǔ)法,此外還包含著大量的廣告信息和垃圾信息,這些都給我們的研究工作帶來(lái)了很大的困擾,如何行之有效地在給定的微博文本中抽取出重要而有用的信息也變得越來(lái)越重要。

      本文主要研究以下兩個(gè)問(wèn)題:

      1) 對(duì)于給定的微博,如何正確有效地抽取出用戶所評(píng)價(jià)的對(duì)象?

      2) 對(duì)于抽取出的評(píng)價(jià)對(duì)象,如何判斷用戶所表達(dá)的情感傾向?

      在傳統(tǒng)CRF模型的基礎(chǔ)上,本文提出了一種兩步CRF模型,將極性判斷的過(guò)程與評(píng)價(jià)對(duì)象的抽取結(jié)果相結(jié)合,使得評(píng)價(jià)對(duì)象抽取達(dá)到了0.623的F值,評(píng)價(jià)對(duì)象抽取與極性判斷的結(jié)果達(dá)到了0.505的F值,然后使用迭代的方法提高了1%的召回率,同時(shí)增加了模型的穩(wěn)定性。

      本文的主要結(jié)構(gòu)如下: 第2節(jié)介紹相關(guān)工作,第3節(jié)是研究方法的描述,第4節(jié)是實(shí)驗(yàn)的數(shù)據(jù)和結(jié)果分析,第5節(jié)是結(jié)論和展望。

      2 相關(guān)工作

      早期的觀點(diǎn)挖掘工作主要出現(xiàn)在產(chǎn)品的評(píng)價(jià)領(lǐng)域,主要目的是為了獲取用戶評(píng)價(jià)中正向評(píng)價(jià)與負(fù)向評(píng)價(jià)的比例,從而幫助購(gòu)買者進(jìn)行決策。隨著產(chǎn)品評(píng)價(jià)領(lǐng)域的日趨完善和微博的興起,觀點(diǎn)挖掘工作也開始逐步向微博平臺(tái)轉(zhuǎn)移,與產(chǎn)品領(lǐng)域不同的是,微博上的信息較為駁雜,用戶的用詞也較為多樣化,不像產(chǎn)品領(lǐng)域里的評(píng)價(jià),所有評(píng)價(jià)都可以找到一個(gè)明確的評(píng)價(jià)對(duì)象。

      在早期的評(píng)價(jià)對(duì)象抽取研究工作中,Hu和Liu兩人提出了一種基于Apriori算法來(lái)挖掘產(chǎn)品評(píng)論中頻繁出現(xiàn)的評(píng)價(jià)對(duì)象的方法[2]。同樣,倪茂樹也通過(guò)統(tǒng)計(jì)詞頻的方法來(lái)抽取商品評(píng)論中的產(chǎn)品屬性[3]。文獻(xiàn)[4]中,劉鴻宇提出了基于句法分析的評(píng)價(jià)對(duì)象抽取技術(shù)。對(duì)于給定語(yǔ)料,首先對(duì)其進(jìn)行分詞、詞性標(biāo)注以及句法分析等處理,然后提取其中的名詞(NN)和名詞短語(yǔ)(NP)得到候選評(píng)價(jià)對(duì)象;繼而對(duì)候選評(píng)價(jià)對(duì)象使用頻率過(guò)濾、PMI(point-wise mutual information) 算法和名詞剪枝等算法進(jìn)行篩選得到最終的評(píng)價(jià)對(duì)象集合。Qiu等人[5]使用了依存規(guī)則,從一些初始的種子詞匯開始,通過(guò)使用依存關(guān)系進(jìn)行不斷迭代,從而抽取出文檔中的評(píng)價(jià)對(duì)象和評(píng)論詞。這些方法都屬于非監(jiān)督學(xué)習(xí)的方法,本文同樣采用了一種基于規(guī)則的方法作為對(duì)比實(shí)驗(yàn),該方法在COAE2013評(píng)測(cè)中在評(píng)價(jià)對(duì)象的抽取工作中取得了最好的結(jié)果。借鑒于這些方法,本文采用了詞性、句法屬性和依存關(guān)系作為CRF模型的特征,而最終實(shí)驗(yàn)結(jié)果也證明了本文的方法相對(duì)基于規(guī)則的方法在準(zhǔn)確率和召回率方面均有所提高。

      條件隨機(jī)域模型[6](Conditional Random Fields,CRFs) 是一種建立切分和標(biāo)注序列數(shù)據(jù)概率模型的框架,它用特征函數(shù)的方式綜合使用各種互相影響的語(yǔ)言特征,集合了最大熵模型和HMM模型的特點(diǎn),回避了傳統(tǒng)HMM方法處理長(zhǎng)距離關(guān)聯(lián)的不足和MEMM等模型中的標(biāo)注偏置問(wèn)題。在語(yǔ)義角色標(biāo)注任務(wù)中,CRF模型表現(xiàn)非常良好,所以在近年的研究中屢次被使用到。Jakob等人[7]使用CRF模型在單領(lǐng)域和交叉領(lǐng)域的評(píng)價(jià)對(duì)象抽取工作中均取得了較為不錯(cuò)的結(jié)果,但是該方法只是對(duì)評(píng)價(jià)對(duì)象進(jìn)行了抽取,并沒有判斷用戶對(duì)于評(píng)價(jià)對(duì)象的情感傾向。曾冠明[8]使用了單個(gè)CRF模型,在命名實(shí)體識(shí)別任務(wù)上系統(tǒng)F值達(dá)到了93.49。Yang等人[9]首先使用CRF模型對(duì)評(píng)價(jià)對(duì)象和評(píng)價(jià)詞進(jìn)行了標(biāo)注,然后提出了一種聯(lián)合推理的方法來(lái)判斷評(píng)價(jià)對(duì)象和評(píng)價(jià)詞之間的關(guān)系。王智強(qiáng)等人[10]根據(jù)漢語(yǔ)的依存關(guān)系,提出了框架的概念,將評(píng)價(jià)對(duì)象的抽取任務(wù)轉(zhuǎn)化為框架語(yǔ)義角色的標(biāo)注任務(wù),然后使用了TCRF(Tree Conditional Random Field)模型進(jìn)行評(píng)價(jià)對(duì)象的抽取工作。 鄭敏潔等人[11]提出了一種層疊CRF模型,分別對(duì)評(píng)價(jià)對(duì)象和屬性進(jìn)行了抽取。郭劍毅[12]和胡文博[13]分別使用了多層CRF模型對(duì)評(píng)價(jià)對(duì)象進(jìn)行抽取,先在第一步中抽取出基礎(chǔ)的評(píng)價(jià)對(duì)象,然后在之后的CRF模型中對(duì)這些評(píng)價(jià)對(duì)象進(jìn)行拓展。而本文中同樣使用了多層CRF模型,只是將第二步的CRF模型從評(píng)價(jià)對(duì)象的拓展轉(zhuǎn)變?yōu)榱嗽u(píng)價(jià)極性的判斷。

      關(guān)于極性的判斷,傳統(tǒng)的方法使用了情感詞典的方法。而Pang B[14]和Liu B[15]都直接使用文本分類的方法,對(duì)整個(gè)句子判斷極性,文本分類使用機(jī)器學(xué)習(xí)的方法,并將情感詞作為其中的一個(gè)特征。本文同樣將情感詞作為其中的一個(gè)特征,然后結(jié)合評(píng)價(jià)對(duì)象的抽取結(jié)果對(duì)其極性進(jìn)行判斷,從而提高了最終的實(shí)驗(yàn)結(jié)果。

      3 方法介紹

      本文方法包括兩步CRF模型和迭代部分。兩步CRF模型中先后訓(xùn)練兩個(gè)CRF模型分別對(duì)評(píng)價(jià)對(duì)象進(jìn)行抽取和對(duì)評(píng)價(jià)對(duì)象的極性進(jìn)行判斷,而迭代部分則對(duì)整個(gè)兩步CRF模型進(jìn)行迭代,下面將分別介紹這兩個(gè)部分。

      3.1 預(yù)處理

      微博預(yù)處理包含微博文本中URL的過(guò)濾,這些URL會(huì)對(duì)分詞器進(jìn)行干擾,所以需要預(yù)先對(duì)其進(jìn)行處理。在微博中會(huì)出現(xiàn)“@”符號(hào)表示引用“@”符號(hào)后的對(duì)象或通知該對(duì)象,但是這種用法同樣可以用來(lái)表示對(duì)該對(duì)象進(jìn)行評(píng)價(jià),所以需要對(duì)這種符號(hào)進(jìn)行處理,在這里直接使用空格對(duì)“@”進(jìn)行替換。然后對(duì)微博進(jìn)行分詞和語(yǔ)法分析。分詞采用中科院的分詞工具ICTCLAS*ICTCLAS: http://www.ictclas.org/,語(yǔ)法分析采用Stanford parser*Stanford Parser: http://nlp.stanford.edu/software/lex-parser.shtml,對(duì)分詞得到的詞語(yǔ)序列建立語(yǔ)法樹,同樣使用Stanford parser對(duì)語(yǔ)法樹進(jìn)行依存句法分析,從而得到句中的依存關(guān)系,將語(yǔ)法樹和依存關(guān)系保存到文件,并對(duì)這些文件建立索引,索引的建立采用Lucene工具*Lucene: http://lucene.apache.org/。

      3.2 兩步CRF模型

      3.2.1 兩步CRF模型

      對(duì)于給定的輸入序列W={wt},本文會(huì)輸出兩個(gè)標(biāo)注序列: 評(píng)價(jià)對(duì)象標(biāo)注序列Y={yt},yt∈{B,I,L,O,U},分別表示評(píng)價(jià)對(duì)象開始(B)、評(píng)價(jià)對(duì)象內(nèi)部(I)、評(píng)價(jià)對(duì)象結(jié)束(L)、非評(píng)價(jià)對(duì)象(O)、單個(gè)評(píng)價(jià)對(duì)象(U),和評(píng)價(jià)極性序列Z={zt},zt∈{1,-1,0},分別表示正向、負(fù)向和中性。如圖1所示。

      圖1 兩步CRF模型串標(biāo)注序列

      對(duì)于評(píng)價(jià)對(duì)象標(biāo)注序列Y的求解公式如式(1)所示:

      其中,mk(yi-1,yi,W,i)和nk(yi,W,i)是特征函數(shù),λk和μk是其對(duì)應(yīng)的權(quán)重,由訓(xùn)練樣本學(xué)習(xí)得到,Z(W)為歸一化因子,i為相應(yīng)特征的下標(biāo)。

      對(duì)于評(píng)價(jià)極性標(biāo)注序列Z的求解公式如式(2)所示:

      兩步CRF模型的流程圖如圖2所示。首先從訓(xùn)練語(yǔ)料中抽取出評(píng)價(jià)對(duì)象特征集與評(píng)價(jià)極性特征集,分別進(jìn)行CRF模型的訓(xùn)練,得到兩個(gè)CRF模型: 評(píng)價(jià)對(duì)象模型與評(píng)價(jià)極性模型。對(duì)于測(cè)試數(shù)據(jù),首先抽取出其評(píng)價(jià)對(duì)象特征集和評(píng)價(jià)極性特征集,再根據(jù)評(píng)價(jià)對(duì)象模型進(jìn)行評(píng)價(jià)對(duì)象的抽取,然后將得到的評(píng)價(jià)對(duì)象標(biāo)注序列加入評(píng)價(jià)極性特征集,再使用評(píng)價(jià)極性模型進(jìn)行評(píng)價(jià)極性的判斷,從而得到最終的結(jié)果。

      圖2 兩步CRF模型流程圖

      3.2.2 評(píng)價(jià)對(duì)象特征選擇

      評(píng)價(jià)對(duì)象模型訓(xùn)練采用的特征如表1所示。對(duì)于給定的語(yǔ)料,評(píng)價(jià)對(duì)象通常不會(huì)只出現(xiàn)一次,特別是對(duì)于給定領(lǐng)域的語(yǔ)料,評(píng)價(jià)對(duì)象出現(xiàn)頻率較高,倪茂樹[3]等人采用了基于詞頻的方法作為抽取評(píng)價(jià)對(duì)象的標(biāo)準(zhǔn),所以本文將詞語(yǔ)本身作為一個(gè)特征。從詞性來(lái)看,大部分評(píng)價(jià)對(duì)象是名詞或名詞短語(yǔ),有些評(píng)價(jià)對(duì)象前還有修飾短語(yǔ),因此本文加入了詞性特征。單字或雙字的詞更容易和其他詞語(yǔ)組合成評(píng)價(jià)對(duì)象,故加入詞長(zhǎng)這一特征。

      表1 評(píng)價(jià)對(duì)象抽取特征選擇

      從語(yǔ)法方面來(lái)看,評(píng)價(jià)對(duì)象出現(xiàn)的位置更傾向于主語(yǔ)或者賓語(yǔ),在語(yǔ)法樹上節(jié)點(diǎn)多為NN或者NP,與此同時(shí),依存關(guān)系也顯得尤其重要,當(dāng)評(píng)價(jià)對(duì)象是由兩個(gè)或多個(gè)名詞組成時(shí),這多個(gè)名詞之間會(huì)存在NN的依存關(guān)系,而且評(píng)價(jià)對(duì)象多被形容詞所修飾,故常出現(xiàn)在NSUBJ(名詞性主語(yǔ))關(guān)系中。因此本文在加入了語(yǔ)法特征的基礎(chǔ)上,加入了NN和NSUBJ兩個(gè)依存關(guān)系作為特征的一部分。

      評(píng)價(jià)對(duì)象多與評(píng)價(jià)詞距離較近,而評(píng)價(jià)詞多為情感詞,所以評(píng)價(jià)對(duì)象抽取模型中加入情感特征。

      3.2.3 評(píng)價(jià)極性特征選擇

      評(píng)價(jià)極性模型所采用的特征如表2所示。與評(píng)價(jià)對(duì)象模型相同的考慮,本模型加入詞特征和情感特征。為確保極性判斷只針對(duì)評(píng)價(jià)對(duì)象,因此引入評(píng)價(jià)對(duì)象抽取模型的標(biāo)注結(jié)果作為一組特征。在一個(gè)充滿褒義詞的句子中,一個(gè)否定詞往往會(huì)令句子的極性反轉(zhuǎn)。微博語(yǔ)料中的標(biāo)點(diǎn)符號(hào)通常帶有一定的情感傾向,例如常用多個(gè)感嘆號(hào)“?。。?!”表示驚訝,或省略號(hào)“……”表示無(wú)奈或者無(wú)語(yǔ)。因此在評(píng)價(jià)極性判斷模型中加入否定詞和標(biāo)點(diǎn)符號(hào)的特征。

      表2 評(píng)價(jià)對(duì)象極性判斷特征選擇

      3.3 迭代模型

      訓(xùn)練語(yǔ)料的選取始終是機(jī)器學(xué)習(xí)方法所關(guān)注的一個(gè)重點(diǎn)。為提高本文方法的召回率,在兩步CRF模型的基礎(chǔ)上加入了迭代的方法,對(duì)每次實(shí)驗(yàn)結(jié)果進(jìn)行篩選,選取其中置信度大于閾值的結(jié)果加入訓(xùn)練語(yǔ)料,剩余的繼續(xù)作為測(cè)試語(yǔ)料,進(jìn)行重新訓(xùn)練和測(cè)試,如此迭代反復(fù),來(lái)提高兩步CRF模型的召回率。迭代流程圖如圖3所示。

      圖3 迭代模型流程圖

      在迭代模型中,對(duì)于每條微博的抽取結(jié)果計(jì)算置信度C,計(jì)算方法如式(3)所示,其中c1表示評(píng)價(jià)對(duì)象抽取時(shí)CRF工具給出的句子置信度,c2表示極性判斷時(shí)CRF工具給出的句子置信度。

      選擇置信度大于M的微博加入訓(xùn)練集,剩余的繼續(xù)作為測(cè)試數(shù)據(jù),然后重新訓(xùn)練模型,并對(duì)結(jié)果進(jìn)行抽取,如此循環(huán)N次,從而得到最終的結(jié)果。

      4 實(shí)驗(yàn)與結(jié)果

      4.1 實(shí)驗(yàn)數(shù)據(jù)與實(shí)驗(yàn)設(shè)置

      實(shí)驗(yàn)數(shù)據(jù)采用COAE2014評(píng)測(cè)數(shù)據(jù)*COAE2014: http://www.liip.cn/CCIR2014/pc.html,采用最終評(píng)測(cè)結(jié)果的5 000條微博作為實(shí)驗(yàn)數(shù)據(jù)。評(píng)價(jià)對(duì)象正負(fù)向極性分布如表3所示。

      表3 微博評(píng)價(jià)對(duì)象及正負(fù)向統(tǒng)計(jì)

      實(shí)驗(yàn)中采用的情感詞典主要來(lái)自NTUSD(臺(tái)灣大學(xué))情感詞集合*NTUSD: http://nlg18.csie.ntu.edu.tw:8080/opinion/#和Hownet(知網(wǎng))情感詞集合*Hownet: http://www.keenage.com/,同時(shí)加入了一些手工標(biāo)注的網(wǎng)絡(luò)新詞,例如,“坑爹”、“傷不起”等等。

      在實(shí)驗(yàn)中特征窗口設(shè)置為3,即在CRF模板中,將左右三個(gè)詞的特征同時(shí)加入進(jìn)來(lái)作為一個(gè)詞的特征,同時(shí)將這些特征進(jìn)行組合作為新的特征,實(shí)驗(yàn)采用的CRF工具為CRF++*CRF++:http://crfpp.googlecode.com/svn/trunk/doc/index.html。迭代模型選定閾值M=0.8,迭代次數(shù)N選取為4。

      4.2 對(duì)比實(shí)驗(yàn)

      本文對(duì)當(dāng)前抽取評(píng)價(jià)對(duì)象比較常用的幾種方法進(jìn)行了對(duì)比試驗(yàn)。對(duì)于非機(jī)器學(xué)習(xí)的方法,本文選取了基于規(guī)則的方法。機(jī)器學(xué)習(xí)的方法,本文選取了一種傳統(tǒng)的方法,即先進(jìn)行CRF訓(xùn)練,然后使用情感詞典的方法進(jìn)行極性判斷,另一種是聯(lián)合的方法,collapsed方法。同時(shí)本文對(duì)于是否進(jìn)行迭代進(jìn)行了對(duì)比,具體方法說(shuō)明如下:

      1) 基于規(guī)則的方法。作者使用該方法在COAE2014評(píng)測(cè)中評(píng)價(jià)對(duì)象的抽取與極性判斷任務(wù)中宏觀F值達(dá)到了0.339,取得了第一名的成績(jī)。該方法對(duì)不同領(lǐng)域的評(píng)價(jià)對(duì)象建立不同的規(guī)則,進(jìn)行了評(píng)價(jià)對(duì)象的抽取。

      2) Collapsed方法。Mitchell M等人[16]提出的一種方法,通過(guò)在CRF模型中將評(píng)價(jià)對(duì)象標(biāo)簽與極性標(biāo)簽相結(jié)合的方法從而對(duì)評(píng)價(jià)對(duì)象和極性進(jìn)行同步抽取。采用特征為評(píng)價(jià)對(duì)象抽取特征和極性判斷特征的結(jié)合。

      3) CRF+情感詞典的方法。先使用CRF對(duì)評(píng)價(jià)對(duì)象進(jìn)行抽取,然后使用情感詞典的方法對(duì)評(píng)價(jià)對(duì)象進(jìn)行極性的判斷。

      4) 兩步CRF模型的方法。僅使用兩步CRF模型對(duì)評(píng)價(jià)對(duì)象和極性進(jìn)行抽取。如圖2所示。

      5) 迭代兩步CRF模型的方法。在兩步CRF模型的基礎(chǔ)上進(jìn)行迭代,如圖3所示。

      4.3 實(shí)驗(yàn)結(jié)果

      實(shí)驗(yàn)每次隨機(jī)選取數(shù)據(jù)中的2 000條進(jìn)行訓(xùn)練,剩余3 000條進(jìn)行測(cè)試,循環(huán)多次取平均值進(jìn)行對(duì)比。

      4.3.1 迭代模型參數(shù)實(shí)驗(yàn)

      實(shí)驗(yàn)首先對(duì)于迭代兩步CRF模型中的參數(shù)進(jìn)行了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖4所示。本文對(duì)于置信度M和迭代次數(shù)N進(jìn)行了對(duì)比實(shí)驗(yàn),由實(shí)驗(yàn)得知,當(dāng)M取0.9和0.95時(shí),由于加回的數(shù)據(jù)太少,所以導(dǎo)致F值提升較小。M取0.8時(shí),加回語(yǔ)料有所增加,所以最終的結(jié)果也是最好的,但是隨著迭代次數(shù)的增加,實(shí)驗(yàn)中必然會(huì)引入一些噪聲,所以實(shí)驗(yàn)結(jié)果反而有所下降。四種M值隨著迭代次數(shù)的增加,都慢慢趨向于穩(wěn)定,原因是大于該M值的微博已全部被加入訓(xùn)練語(yǔ)料,訓(xùn)練語(yǔ)料不再增加,所以模型也趨于穩(wěn)定狀態(tài)。

      圖4 迭代兩步CRF模型中迭代次數(shù)與置信度對(duì)比實(shí)驗(yàn)

      4.3.2 評(píng)價(jià)對(duì)象以及極性抽取實(shí)驗(yàn)

      評(píng)價(jià)對(duì)象的抽取結(jié)果如表4所示。評(píng)價(jià)對(duì)象與極性的抽取結(jié)果如表5所示。通過(guò)對(duì)比可得,CRF+情感詞典的方法與兩步CRF模型的第一步,即評(píng)價(jià)對(duì)象的抽取表現(xiàn)相同,但是都相對(duì)于基于規(guī)則的方法有了大幅度提高。Collapsed方法雖然相對(duì)于基于規(guī)則的方法在實(shí)驗(yàn)結(jié)果上有所提高,而且在準(zhǔn)確率上要稍高于兩步CRF模型,但是在召回率方面明顯低于兩步CRF模型,從而導(dǎo)致F值也比兩步CRF模型要低。迭代兩步CRF模型的方法在保持兩步CRF模型的準(zhǔn)確率的前提下提高了召回率,從而提高了F值。

      表4 評(píng)價(jià)對(duì)象抽取結(jié)果對(duì)比

      表5 評(píng)價(jià)對(duì)象+極性抽取結(jié)果對(duì)比

      4.3.3 不同訓(xùn)練集實(shí)驗(yàn)結(jié)果

      本文對(duì)于訓(xùn)練語(yǔ)料大小進(jìn)行了對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖5和圖6所示。由于兩步CRF模型的第一步實(shí)驗(yàn)結(jié)果與CRF+情感詞典法相同,所以在圖5 中僅對(duì)基于規(guī)則的方法、collapsed方法、兩步CRF模型和迭代兩步CRF模型進(jìn)行了評(píng)價(jià)對(duì)象抽取的對(duì)比實(shí)驗(yàn),而在圖6中則對(duì)基于規(guī)則的方法,CRF+情感詞典的方法、collapsed方法、兩步CRF模型和迭代兩步CRF模型進(jìn)行了對(duì)比。

      圖5 不同訓(xùn)練集大小下迭代兩步CRF,兩步CRF,collapsed,基于規(guī)則的方法關(guān)于評(píng)價(jià)對(duì)象抽取的對(duì)比實(shí)驗(yàn)

      圖6 不同訓(xùn)練集大小下迭代兩步CRF,兩步CRF,collapsed,CRF+詞典,基于規(guī)則的方法關(guān)于評(píng)價(jià)對(duì)象抽取與極性判斷的對(duì)比實(shí)驗(yàn)

      由圖中可知,由于基于規(guī)則的方法并不依賴于訓(xùn)練集,所以隨著訓(xùn)練集大小的變化并無(wú)相應(yīng)變化,而collapsed模型和兩步CRF模型隨著訓(xùn)練集的增加,結(jié)果有了明顯的提升,說(shuō)明訓(xùn)練集的大小有助于實(shí)驗(yàn)結(jié)果的提升,在此前提下,本文加入了迭代的方法,將測(cè)試語(yǔ)料中得到的置信度較高的結(jié)果加入訓(xùn)練數(shù)據(jù),進(jìn)行迭代,從而提升了實(shí)驗(yàn)的F值。此外,在實(shí)驗(yàn)中還可看出,隨著語(yǔ)料的增加,兩步CRF模型始終要比collapsed模型結(jié)果偏高一些,證明了兩步CRF模型是行之有效的。同時(shí)可以看到訓(xùn)練集為3 000時(shí),迭代模型對(duì)于實(shí)驗(yàn)結(jié)果的提升明顯不如訓(xùn)練集為2 000時(shí)的效果,說(shuō)明訓(xùn)練模型已經(jīng)趨向于穩(wěn)定。

      4.4 錯(cuò)誤分析

      在實(shí)驗(yàn)中,選取其中一次實(shí)驗(yàn)結(jié)果進(jìn)行分析,分析得知當(dāng)前模型存在三種問(wèn)題。

      1. 對(duì)于給定微博,抽取評(píng)價(jià)對(duì)象為空。一種原因是因?yàn)榻o定微博中的評(píng)價(jià)對(duì)象在訓(xùn)練語(yǔ)料中大部分情況下為非評(píng)價(jià)對(duì)象,因此在抽取時(shí)也未能成功抽取。例如微博“春江水暖,乳燕南飛,晚霞映碧波。好一幅詩(shī)情畫意的江南美景。這只福壽祿的鐲子翠的陽(yáng)俏,翡的光艷,白的綿柔,三種顏色交融一體,讓人觀之心生喜愛。三種顏色代表福壽祿,出現(xiàn)在同一塊翡翠上的幾率不多,具有很高的收藏價(jià)值?!敝性u(píng)價(jià)對(duì)象應(yīng)為“福壽祿的鐲子”,但是由于“鐲子”一詞在訓(xùn)練語(yǔ)料中大部分情況下為非評(píng)價(jià)對(duì)象,因此未能成功抽取。另一種原因是由于評(píng)價(jià)對(duì)象缺少成分。例如微博“北京前三季保險(xiǎn)投訴平安居首。”中評(píng)價(jià)對(duì)象為“平安”,但是在訓(xùn)練語(yǔ)料中“平安”一詞多與“保險(xiǎn)”一詞組成“平安保險(xiǎn)”被一并抽取出來(lái),而單個(gè)的平安由于詞性被劃分為形容詞,所以未能成功抽取。

      2. 抽取結(jié)果與答案不匹配。在本次實(shí)驗(yàn)中,不匹配有以下幾種情況: 第一種情況是經(jīng)常會(huì)抽取出一些非評(píng)價(jià)對(duì)象的答案,這些將在下一步的工作中進(jìn)行過(guò)濾;第二種情況則是會(huì)將評(píng)價(jià)對(duì)象及其屬性一并抽取出來(lái),例如微博“是義診,該不是議診吧?這么多的人,充分說(shuō)明了國(guó)家的醫(yī)療保險(xiǎn)體系純粹是扯淡?!敝性u(píng)價(jià)對(duì)象應(yīng)為“醫(yī)療保險(xiǎn)”,而“體系”則是“醫(yī)療保險(xiǎn)”的一個(gè)屬性,但是本文提出的方法卻將“醫(yī)療保險(xiǎn)體系”一并抽取了出來(lái),說(shuō)明本文方法中仍存在著一定的特征沖突,從而不能進(jìn)行完好的抽??;第三種情況則是由于某個(gè)詞在訓(xùn)練語(yǔ)料中經(jīng)常被當(dāng)做評(píng)價(jià)對(duì)象,從而導(dǎo)致與該詞一起的評(píng)價(jià)對(duì)象不能完整抽取,例如微博“在本命年店買的一個(gè)翡翠的雞貴人吊墜,今天讓一個(gè)懂行的人瞧了,說(shuō)最多值一百多塊?!敝性u(píng)價(jià)對(duì)象應(yīng)為“翡翠的雞貴人吊墜”但是實(shí)際抽取結(jié)果則是“翡翠”,原因是訓(xùn)練語(yǔ)料中“翡翠”一詞作為評(píng)價(jià)對(duì)象的概率非常高,從而導(dǎo)致的抽取錯(cuò)誤。

      3. 極性判斷錯(cuò)誤。對(duì)于句中存在多個(gè)評(píng)價(jià)對(duì)象的情況,評(píng)價(jià)極性的判斷會(huì)很容易出現(xiàn)錯(cuò)誤。此外,若評(píng)價(jià)對(duì)象附近沒有相關(guān)情感詞,或者距離情感詞過(guò)遠(yuǎn),或附近情感詞過(guò)多,都會(huì)對(duì)評(píng)價(jià)對(duì)象極性的判斷造成干擾。

      5 總結(jié)

      本文在傳統(tǒng)的CRF模型上進(jìn)行了改進(jìn),提出了兩步CRF模型及迭代兩步CRF模型,有效地使用了詞特征、語(yǔ)法特征、依存特征以及情感特征,實(shí)驗(yàn)結(jié)果也證明了我們的方法是行之有效的,在本文中,將我們的方法和基于規(guī)則的方法,傳統(tǒng)的CRF加情感詞典的方法及collapsed的方法等三種方法進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果證明了我們的方法相對(duì)這些方法取得了一定的優(yōu)勢(shì)。但是在和collapsed方法對(duì)比時(shí),我們的準(zhǔn)確率還有待進(jìn)一步提高。

      與此同時(shí),本文提出的方法還存在著一些問(wèn)題。例如,部分評(píng)價(jià)對(duì)象不能有效抽取,一些微博的抽取結(jié)果仍然為空,特征中存在著一些沖突,這些都是我們下一步研究的重點(diǎn)。目前,我們的模型對(duì)于訓(xùn)練語(yǔ)料存在著很大的依賴性,如何將模型進(jìn)行泛化,將之推廣到不同的領(lǐng)域,也是我們以后要努力的方向。

      [1] 張紫. 第 33 次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[J]. 計(jì)算機(jī)與網(wǎng)絡(luò), 2014, 40(2): 5-5.

      [2] Hu M, Liu B. Mining and summarizing customer reviews[C]//Proceedings of the tenth ACM SIGKDD international Conference on Knowledge Discovery and Data mining. ACM, 2004: 168-177.

      [3] 倪茂樹.基于語(yǔ)義理解的觀點(diǎn)評(píng)論挖掘研究[D].大連理工大學(xué),2007.

      [4] 劉鴻宇,趙妍妍,秦兵,劉挺.評(píng)價(jià)對(duì)象抽取及其傾向性分析[J].中文信息學(xué)報(bào),2010,24(01):84-88,122.

      [5] Qiu G, Liu B, Bu J, et al. Opinion word expansion and target extraction through double propagation[J]. Computational linguistics, 2011, 37(1): 9-27.

      [6] Lafferty J, McCallum A, Pereira F C N. Conditional random fields: Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the Eighteenth International Conference on Machine Learning, 2001: 282-289.

      [7] Jakob N, Gurevych I. Extracting opinion targets in a single-and cross-domain setting with conditional random fields[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2010: 1035-1045.

      [8] 曾冠明. 基于條件隨機(jī)場(chǎng)的中文命名實(shí)體識(shí)別研究[D].北京郵電大學(xué),2009.

      [9] Yang B, Cardie C. Joint inference for fine-grained opinion extraction[C]//Proceedings of ACL. 2013: 1640-1649.

      [10] 王智強(qiáng), 李茹, 陰志洲, 等. 基于依存特征的漢語(yǔ)框架語(yǔ)義角色自動(dòng)標(biāo)注[J]. 中文信息學(xué)報(bào), 2013, 27(2): 34-40.

      [11] 鄭敏潔, 雷志城, 廖祥文, 等. 基于層疊 CRFs 的中文句子評(píng)價(jià)對(duì)象抽取[J]. 中文信息學(xué)報(bào), 2013, 27(3): 69-76.

      [12] 郭劍毅, 薛征山, 余正濤, 等. 基于層疊條件隨機(jī)場(chǎng)的旅游領(lǐng)域命名實(shí)體識(shí)別[J]. 中文信息學(xué)報(bào), 2009, 23(5): 47-52.

      [13] 胡文博, 都云程, 呂學(xué)強(qiáng), 等. 基于多層條件隨機(jī)場(chǎng)的中文命名實(shí)體識(shí)別[J]. 計(jì)算機(jī)工程與應(yīng)用, 2009, 45(1): 163-165.

      [14] Pang B, Lee L. Opinion mining and sentiment analysis[J]. Foundations and trends in information retrieval, 2008, 2(1-2): 1-135.

      [15] Liu B, Zhang L. A survey of opinion mining and sentiment analysis[M]. Mining Text Data. Springer US, 2012: 415-463.

      [16] Mitchell M, Aguilar J, Wilson T, et al. Open domain targeted sentiment[C]//Proceedings of the 2013 Conference on Empirical Methods in Natural Language Processing, 2013: 1643-1654.

      Opinion Target and Polarity Extraction Based on Iterative Two-Stage CRF Model

      ZHANG Sheng, LI Fang

      (Dept.of Computer Science and Engineering, Shanghai Jiao Tong University, Shanghai 200240, China)

      As a new media, Microblogging has been playing an indispensable role in people’s life. To extract sentimental information from the Microblogs, this paper introduces a two-stage CRF model and an iterative two-stage CRF model. The two-stage CRF model reaches an F-score of 0.505 on the COAE2014 evaluation data, and the iterative two-stage CRF model reaches an F-score up to 0.513 by an improvement in the recall.

      iteration; two-stage CRF; opinion target

      張盛(1992—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理。E?mail:cmy_zs@163.com李芳(1963—)通訊作者,博士,副教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、信息檢索與抽取。E?mail:fli@sjtu.edu.cn

      1003-0077(2015)01-0163-07

      2014-08-11 定稿日期: 2014-10-24

      國(guó)家自然科學(xué)基金(61375053,60873134)

      TP391

      A

      猜你喜歡
      極性語(yǔ)料對(duì)象
      神秘來(lái)電
      睿士(2023年2期)2023-03-02 02:01:09
      跟蹤導(dǎo)練(四)
      攻略對(duì)象的心思好難猜
      意林(2018年3期)2018-03-02 15:17:24
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      基于熵的快速掃描法的FNEA初始對(duì)象的生成方法
      表用無(wú)極性RS485應(yīng)用技術(shù)探討
      區(qū)間對(duì)象族的可鎮(zhèn)定性分析
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      一種新型的雙極性脈沖電流源
      《苗防備覽》中的湘西語(yǔ)料
      莒南县| 泉州市| 上林县| 肇东市| 三明市| 高州市| 石家庄市| 永昌县| 隆化县| 丽水市| 垦利县| 天门市| 孝义市| 富锦市| 浮梁县| 崇义县| 武夷山市| 乐清市| 兰西县| 长治县| 西盟| 石阡县| 赤壁市| 阳山县| 榕江县| 莒南县| 南投市| 宁乡县| 廉江市| 广丰县| 根河市| 息烽县| 天长市| 通州区| 商丘市| 阿城市| 马关县| 黄浦区| 北碚区| 娱乐| 固始县|