• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于句法特征的評(píng)價(jià)對(duì)象抽取方法研究

      2014-02-28 04:51:38王榮洋李壽山周國(guó)棟
      中文信息學(xué)報(bào) 2014年4期
      關(guān)鍵詞:句法語(yǔ)料對(duì)象

      戴 敏,王榮洋,李壽山,朱 珠,周國(guó)棟

      (蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院自然語(yǔ)言處理實(shí)驗(yàn)室, 江蘇 蘇州 215006)

      1 引言

      進(jìn)入21世紀(jì)后,網(wǎng)絡(luò)在人們的日常生活中扮演著越來(lái)越重要的角色。在網(wǎng)絡(luò)里,人們廣泛進(jìn)行購(gòu)物、交友等活動(dòng),相應(yīng)產(chǎn)生了大量用戶參與的對(duì)于人和事、電影、產(chǎn)品等的評(píng)論文本。這些評(píng)論文本往往以商品評(píng)論、論壇評(píng)論和博客等多種形式存在。用戶會(huì)通過(guò)網(wǎng)絡(luò)上已有的評(píng)論文本來(lái)掌握某產(chǎn)品或電影的評(píng)價(jià),但同時(shí)用戶會(huì)飽受迅速膨脹的評(píng)論信息量的困擾,僅靠人工方法很難對(duì)網(wǎng)上海量的帶有豐富意見(jiàn)的資源進(jìn)行收集和處理,因此給自動(dòng)化、智能化評(píng)論信息處理提出了新的要求和挑戰(zhàn)。情感分析(Sentiment Analysis)正是在這種背景下產(chǎn)生的[1-3]。目前,越來(lái)越多的研究者開(kāi)始把目光轉(zhuǎn)向細(xì)粒度的[4](Fine-grained)情感分析任務(wù)。例如,評(píng)價(jià)對(duì)象抽取(Opinion Target Extraction)即是目前應(yīng)用最受關(guān)注的情感分析子任務(wù)之一。

      評(píng)價(jià)對(duì)象是指某篇評(píng)論中表現(xiàn)的主題,即評(píng)論文本中評(píng)價(jià)詞語(yǔ)所修飾的對(duì)象。例如,在產(chǎn)品評(píng)論中關(guān)于一款手機(jī)屏幕、電池、按鍵、應(yīng)用軟件等,都可以作為評(píng)價(jià)手機(jī)的某一具體對(duì)象。評(píng)價(jià)對(duì)象抽取是細(xì)粒度的情感分析任務(wù),評(píng)價(jià)對(duì)象是情感信息的一部分。這項(xiàng)研究的開(kāi)展有助于為上層情感分析任務(wù)提供服務(wù)。本文的目標(biāo)就是提出新的方法或模型抽取評(píng)論文本中的評(píng)價(jià)對(duì)象。例如,

      例句1Capella University has incredible faculty in the Harold Abel School of Psychology.

      通過(guò)例句1可知,“faculty”被情感詞“incredible”所修飾,因此,“faculty”可以做為本句的評(píng)價(jià)對(duì)象。它們共同組成一個(gè)二元組(“faculty”,“incredible”)。我們通過(guò)情感詞“incredible”的極性可以很容易的判別出該主觀句對(duì)評(píng)價(jià)對(duì)象“faculty”的褒貶。

      目前,主流的情感信息抽取方法分為兩個(gè)類型: 基于非監(jiān)督學(xué)習(xí)的抽取方法和基于監(jiān)督學(xué)習(xí)的抽取方法。前一種方法一般采用一些啟發(fā)式規(guī)則識(shí)別可能的評(píng)價(jià)對(duì)象[5];后一種方法則使用機(jī)器學(xué)習(xí)方法學(xué)習(xí)已標(biāo)注樣本構(gòu)建自動(dòng)識(shí)別系統(tǒng)[6]。雖然基于非監(jiān)督學(xué)習(xí)的抽取方法在該方向的研究初期占有主導(dǎo)地位,但是這種方法構(gòu)建啟發(fā)式規(guī)則比較復(fù)雜,而且由于很難控制多個(gè)規(guī)則之間的全局優(yōu)化,非監(jiān)督學(xué)習(xí)方法所獲得的抽取性能往往并不能滿足實(shí)際需要。相對(duì)而言,基于監(jiān)督學(xué)習(xí)方法的抽取性能會(huì)得到很好的改善?;诒O(jiān)督學(xué)習(xí)方法的關(guān)鍵問(wèn)題是如何選擇有效的特征。雖然Jakob 和Gurevych[6]中提出的詞形、詞性及依存路徑已經(jīng)取得了一定的效果,但對(duì)于能夠很好描述情感詞和評(píng)價(jià)對(duì)象關(guān)系的結(jié)構(gòu)句法特征并沒(méi)有涉及。

      本文基于監(jiān)督學(xué)習(xí)的抽取方法,使用Jakob和Gurevych[6]提出的序列標(biāo)注學(xué)習(xí)的模型。重點(diǎn)考察句法特征在監(jiān)督學(xué)習(xí)方法上面的表現(xiàn)。我們發(fā)現(xiàn)評(píng)價(jià)對(duì)象和情感詞之間的關(guān)系可以通過(guò)句法樹(shù)獲得,例如,評(píng)價(jià)對(duì)象和情感詞之間往往存在主謂關(guān)系。對(duì)于路徑“NNADJP>JJ”一般表示當(dāng)前詞為情感表達(dá)的主語(yǔ),則當(dāng)前詞有可能是評(píng)價(jià)對(duì)象。因此,句法信息對(duì)評(píng)價(jià)對(duì)象的抽取有一定的指示作用。本文在條件隨機(jī)場(chǎng)模型的基礎(chǔ)上,引入句法特征用以提高評(píng)價(jià)對(duì)象抽取性能。

      本文的其他內(nèi)容組織如下: 第二部分介紹相關(guān)工作;第三部分介紹系統(tǒng)構(gòu)建、特征描述;第四部分介紹實(shí)驗(yàn)結(jié)果及分析;最后總結(jié)全文。

      2 相關(guān)工作

      評(píng)價(jià)對(duì)象抽取是抽取評(píng)論文本中情感表達(dá)所面向的對(duì)象。該任務(wù)是情感信息抽取任務(wù)中研究最為廣泛的一項(xiàng)任務(wù),相繼出現(xiàn)了大量的抽取方法[6-8],這些方法大致可以分為兩類: 基于非監(jiān)督學(xué)習(xí)的抽取方法和監(jiān)督學(xué)習(xí)的抽取方法。

      2.1 基于非監(jiān)督學(xué)習(xí)的評(píng)價(jià)對(duì)象抽取方法

      Hu和Liu[5]最新提出評(píng)價(jià)對(duì)象抽取問(wèn)題,認(rèn)為出現(xiàn)頻率較高的名詞往往是評(píng)價(jià)對(duì)象候選,相繼利用關(guān)聯(lián)規(guī)則挖掘評(píng)價(jià)對(duì)象。Li和Zhou[7]使用情感詞典和主題詞典抽取<情感詞,評(píng)價(jià)對(duì)象>二元組,與傳統(tǒng)的方法相比,他們通過(guò)抽取二元組可以捕獲情感詞和評(píng)價(jià)對(duì)象之間的關(guān)系。與以往的方法不一樣的是,該方法充分考慮了上下文信息,利用情感詞和評(píng)價(jià)對(duì)象的關(guān)系提高了抽取性能。Popescu和Nguyen[9]利用點(diǎn)互信息抽取產(chǎn)品的特征。同時(shí),他們還根據(jù)情感詞將顯性特征進(jìn)行聚類,然后對(duì)每類標(biāo)明一個(gè)標(biāo)簽,用于省略評(píng)價(jià)對(duì)象的抽取。

      2.2 基于監(jiān)督學(xué)習(xí)的評(píng)價(jià)對(duì)象抽取方法

      相對(duì)于非監(jiān)督學(xué)習(xí)抽取方法,基于監(jiān)督學(xué)習(xí)的方法起步較晚。Zhuang等[10]針對(duì)意見(jiàn)描述—評(píng)價(jià)對(duì)象序偶的抽取提出了一種監(jiān)督學(xué)習(xí)的算法。該算法從一個(gè)標(biāo)注了的數(shù)據(jù)集中學(xué)習(xí)評(píng)價(jià)對(duì)象的候選結(jié)點(diǎn),和與這些序偶相關(guān)的依存和詞類路徑的結(jié)合信息。文中的實(shí)驗(yàn)結(jié)果表明,基于監(jiān)督學(xué)習(xí)的這種方法在抽取效果方面遠(yuǎn)遠(yuǎn)優(yōu)于Hu和Liu[5]提出的基于規(guī)則的方法。Kessler和Nicolov[11]提出了基于機(jī)器學(xué)習(xí)分類方法的監(jiān)督學(xué)習(xí)方法,用于實(shí)現(xiàn)意見(jiàn)描述和評(píng)價(jià)對(duì)象的識(shí)別,得到了類似的結(jié)論。Jakob和Gurevych[6]將評(píng)價(jià)對(duì)象抽取問(wèn)題建模成序列標(biāo)注問(wèn)題,進(jìn)而使用條件隨機(jī)場(chǎng)模型(CRF)進(jìn)行學(xué)習(xí),在同一領(lǐng)域里面獲得了比Zhuang[10]方法更佳的抽取效果。同時(shí),實(shí)驗(yàn)結(jié)果還驗(yàn)證了基于序列標(biāo)注的模型同樣適合評(píng)價(jià)對(duì)象抽取的領(lǐng)域適應(yīng)問(wèn)題。本文主要研究基于監(jiān)督學(xué)習(xí)的評(píng)價(jià)對(duì)象抽取方法,并采用條件隨機(jī)場(chǎng)模型進(jìn)行訓(xùn)練。Putthividhya和Hu[12]采用命名實(shí)體識(shí)別抽取產(chǎn)品屬性。

      3 系統(tǒng)構(gòu)建

      本節(jié)主要介紹系統(tǒng)架構(gòu),特征概述等問(wèn)題。

      3.1 系統(tǒng)架構(gòu)圖

      本文將評(píng)價(jià)對(duì)象抽取任務(wù)建模為序列標(biāo)注問(wèn)題,實(shí)現(xiàn)基于CRFs的評(píng)價(jià)對(duì)象抽取系統(tǒng)。該系統(tǒng)可以分為兩部分,即訓(xùn)練和識(shí)別,如圖1所示。

      原始語(yǔ)料經(jīng)過(guò)主觀性檢測(cè)、詞性標(biāo)注、依存分析等預(yù)處理后得到可用語(yǔ)料。其中主觀性檢測(cè)即識(shí)別出語(yǔ)料中的主觀句,這是由于我們的系統(tǒng)是在主觀句中進(jìn)行評(píng)價(jià)對(duì)象抽取的。訓(xùn)練部分利用特征模板,從可用語(yǔ)料中抽取特征,進(jìn)行訓(xùn)練得到識(shí)別模型。

      圖1 基于CRF模型的評(píng)價(jià)對(duì)象抽取系統(tǒng)框架結(jié)構(gòu)

      識(shí)別過(guò)程則是用訓(xùn)練得到的模型進(jìn)行評(píng)價(jià)對(duì)象識(shí)別,得到標(biāo)注結(jié)果。該過(guò)程是一個(gè)典型的有指導(dǎo)機(jī)器學(xué)習(xí)(Supervised Machine Learning)的過(guò)程。

      3.2 特征概述

      Jakob和Gurevych[6]采用了條件隨機(jī)場(chǎng)模型進(jìn)行評(píng)價(jià)對(duì)象的抽取,并抽取詞形、詞性、依存關(guān)系、詞距離等特征,取得了不錯(cuò)的效果。然而對(duì)于<評(píng)價(jià)對(duì)象,情感詞>二元組,僅靠這幾個(gè)特征并不能充分捕獲到它們之間的關(guān)系。我們通過(guò)語(yǔ)料發(fā)現(xiàn),它們之間的關(guān)系可以通過(guò)句法樹(shù)獲得,例如,評(píng)價(jià)對(duì)象和情感詞之間往往存在主謂關(guān)系。路徑“NNADJP>JJ”一般表示當(dāng)前詞為情感表達(dá)的主語(yǔ),則當(dāng)前詞有可能是評(píng)價(jià)對(duì)象。對(duì)于這樣的路徑“NNADJP>JJ”,當(dāng)前詞通常不作為評(píng)價(jià)對(duì)象,因此句法分析提供的路徑特征在評(píng)價(jià)對(duì)象的識(shí)別過(guò)程中起著非常重要的作用,它通常能夠決定某個(gè)詞是否可以作為評(píng)價(jià)對(duì)象。但是這種特征同時(shí)也存在著數(shù)據(jù)稀疏的問(wèn)題,因此我們引入了精簡(jiǎn)路徑,它將多個(gè)相鄰且類型一致的成分只保留一個(gè),可以一定程度上解決數(shù)據(jù)稀疏的問(wèn)題。

      因此,本文引入句法分析結(jié)果提供的句法特征,主要是指句法的路徑特征,用于基于CRF模型的評(píng)價(jià)對(duì)象抽取任務(wù)。表1列出了本文中所用到的句法特征。(例句2對(duì)應(yīng)的句法樹(shù)如圖2所示,當(dāng)前待識(shí)別單詞為“film”)除了全局路徑外,特征P5和P6是從路徑特征衍生而來(lái),它們能夠在一定程度上反映同情感詞之間的關(guān)系。

      表1 各種句法特征概述

      例句2This film made in the 1930’s is almost incomprehensible to me.

      4 實(shí)驗(yàn)結(jié)果與分析

      本節(jié)主要介紹實(shí)驗(yàn)語(yǔ)料,實(shí)驗(yàn)設(shè)置,給出實(shí)驗(yàn)結(jié)果,并做相應(yīng)的結(jié)果分析。

      4.1 語(yǔ)料概述

      本文用到的語(yǔ)料來(lái)源于DSRC*http://www.ukp.tu-darmstadt.de/data/sentiment-analysis/。DSRC語(yǔ)料包含Services和Universities兩個(gè)領(lǐng)域,文獻(xiàn)[13]給出了DSRC詳細(xì)的標(biāo)注規(guī)范及說(shuō)明。各領(lǐng)域的原始語(yǔ)料規(guī)模統(tǒng)計(jì)如表2所示。

      表2 語(yǔ)料相關(guān)統(tǒng)計(jì)說(shuō)明

      4.2 實(shí)驗(yàn)設(shè)置

      在本實(shí)驗(yàn)中,條件隨機(jī)場(chǎng)模型的實(shí)現(xiàn)采用CRF++*http://crfpp.sourceforge.net/,使用默認(rèn)參數(shù),詞與詞性的窗口大小為3,其余特征用當(dāng)前窗口,使用標(biāo)記的Bigram特征。

      對(duì)于這些句法特征,我們采用貪婪式的特征選擇算法[12]進(jìn)行特征選擇。

      我們首先將數(shù)據(jù)集按9∶1分成訓(xùn)練集和開(kāi)發(fā)集進(jìn)行特征選擇,最后使用選擇出的最優(yōu)特征組合按10倍交叉驗(yàn)證的方法進(jìn)行測(cè)試,最終結(jié)果使用10次運(yùn)行的平均值。

      我們采用的評(píng)價(jià)標(biāo)準(zhǔn)是平均準(zhǔn)確率、平均召回率、平均F1,分別記作P、R、F1。

      4.3 實(shí)驗(yàn)結(jié)果與分析

      本文中,我們以詞特征(Token)和詞性(POS)特征為基礎(chǔ)特征,然后加入其他的句法特征。表3顯示了分別加入單個(gè)句法特征的效果。

      表3 加入單個(gè)句法特征的效果

      從表3可以看出,加入單個(gè)句法特征之后,評(píng)價(jià)對(duì)象的抽取效果有非常明顯的提高,在加入路徑特征后,F(xiàn)1可以提高5—8個(gè)百分點(diǎn)。該結(jié)果驗(yàn)證了句法信息對(duì)評(píng)價(jià)對(duì)象抽取的重要性。對(duì)于路徑特征,某條路徑能夠直接反映當(dāng)前詞同情感詞之間的關(guān)系,例如,主謂關(guān)系等,因此路徑特征對(duì)評(píng)價(jià)對(duì)象的抽取起著非常關(guān)鍵的作用,而精簡(jiǎn)路徑和部分路徑作為路徑特征的衍生,同樣起著比較重要的作用。當(dāng)情感詞作為動(dòng)詞時(shí),評(píng)價(jià)對(duì)象通常位于情感詞的右側(cè);當(dāng)情感詞作為形容詞時(shí),評(píng)價(jià)對(duì)象通常位于情感詞的左側(cè)。因此位置特征對(duì)評(píng)價(jià)對(duì)象的抽取同樣起著非常重要的作用。在一句話中,評(píng)價(jià)對(duì)象同情感詞通常位于同一子句中,因此特征P7對(duì)評(píng)價(jià)對(duì)象的抽取能夠提供一定的信息量。

      表4顯示了我們利用貪婪式的特征選擇算法所選擇的特征組合,由于采用的是貪婪式特征算法,即每次選擇貢獻(xiàn)度最大的特征,因此特征選擇是有先后順序的。通過(guò)此表可以看出,特征組合{P5,P3,P6,P7}可以達(dá)到最好的效果,我們并沒(méi)有采用其他的句法特征,因?yàn)榧由掀渌卣髦髮?duì)最后的抽取效果并無(wú)幫助。

      表4 特征選擇的結(jié)果

      圖3 Universities領(lǐng)域?qū)嶒?yàn)結(jié)果

      圖4 Services領(lǐng)域?qū)嶒?yàn)結(jié)果

      圖3和圖4分別顯示了在兩個(gè)領(lǐng)域中我們的方法同Jakob和Gurevych[6]的方法比較,在此實(shí)驗(yàn)中,我們采用了十倍交叉驗(yàn)證的方法。其中基準(zhǔn)系統(tǒng)代表只用詞形(Token)和詞性特征(POS)的結(jié)果,J和G(2010)代表Jakob和Gurevych[6]中使用的詞性、詞性、依存路徑和離情感詞距離為特征的抽取方法的結(jié)果。從圖3和圖4可以看出,當(dāng)采用句法特征之后, 抽取結(jié)果的召回率有顯著提高。在Universities領(lǐng)域的R中,我們的方法比Jakob和Gurevych[6]的方法提高大約4.4個(gè)百分點(diǎn),Services領(lǐng)域的R比Jakob和Gurevych[6]的方法提高大約7.5個(gè)百分點(diǎn)。整體性能方面,其中Universities領(lǐng)域的F比Jakob和Gurevych[6]的方法提高3.5個(gè)百分點(diǎn),Services領(lǐng)域的F比Jakob和Gurevych[6]的方法提高大約6.4個(gè)百分點(diǎn)。說(shuō)明句法結(jié)構(gòu)信息能夠充分反映評(píng)價(jià)對(duì)象和情感詞之間的關(guān)系。

      5 結(jié)論

      本文主要介紹了句法特征在評(píng)價(jià)對(duì)象抽取中的應(yīng)用,實(shí)驗(yàn)結(jié)果表明,句法特征對(duì)評(píng)價(jià)對(duì)象的抽取起著非常關(guān)鍵的作用,句法信息能夠充分捕捉情感詞和評(píng)價(jià)對(duì)象之間的關(guān)系?;诰浞ㄌ卣鞯腃RF模型遠(yuǎn)遠(yuǎn)優(yōu)于僅使用詞形和詞性特征的抽取方法,而且明顯優(yōu)于目前最好的基于依存句法的抽取方法,即Jakob和Gurevych[6]的方法。

      在下一步的工作中,我們將繼續(xù)尋找其他的句法特征,進(jìn)一步提高和完善句法特征在評(píng)價(jià)對(duì)象抽取任務(wù)中的應(yīng)用。同時(shí),將句法特征應(yīng)用到評(píng)價(jià)對(duì)象抽取的領(lǐng)域適應(yīng)問(wèn)題中,考察句法特征在評(píng)價(jià)對(duì)象抽取領(lǐng)域適應(yīng)問(wèn)題中的表現(xiàn)。

      [1] Pang B, Lee L. Opinion Mining and Sentiment Analysis[J]. Foundations and Trends in Information Retrieval, 2008, 2(1-2) :1-135.

      [2] Pang B, Lee L, Vaithyanathan S. Thumbs up? Sentiment Classification using Machine Learning Techniques[C]//Proceedings of the EMNLP 2002. 2002: 79-86.

      [3] 趙妍妍,秦兵,劉挺.文本情感分析[J]. 軟件學(xué)報(bào), 2010, 21(8):1834-1848.

      [4] Kim S,Hovy E. Extracting Opinions, Opinion Holders, and Topics Expressed in Online News Media Text[C]//Proceedings of the ACL Workshop on Sentiment and Subjectivity in Text. 2006: 1-8.

      [5] Hu M, Liu B. Mining Opinion Features in Customer Reviews[C]//Proceedings of the AAAI-2004. 2004: 755-760.

      [6] Jakob N, Gurevych I. Extracting Opinion Targets in a Single and Cross-Domain Setting with Conditional Random Fields[C]//Proceedings of the EMNLP-2010. 2010: 1035-1045.

      [7] Li B, Zhou L, Feng S, et al. A Unified Graph Model for Sentence-based Opinion Retrieval[C]//Proceedings of the ACL-2010. 2010:1367-1375.

      [8] 王榮洋,鞠久鵬,李壽山,等. 基于CRFs的評(píng)價(jià)對(duì)象抽取特征研究[J]. 中文信息學(xué)報(bào),2012,26(2): 56-61.

      [9] Popescu A, Nguyen B, Etzioni O. OPINE: Extracting Product Features and Opinions from Reviews[C]//Proceedings of HLT/EMNLP-2005. 2005:32-33.

      [10] Zhuang L, Jing F, Zhu X. Movie review mining and summarization[C]//Proceedings of the CIKM-2006. 2006: 43-50.

      [11] Kessler J, Nicolov N. Targeting Sentiment Expressions through Supervised Ranking of Linguistic Configurations[C]//Proceedings of the Third International AAAI Conference on Weblogs and Social Media, San Jose, California, USA, May.2009: 90-97.

      [12] Putthividhya D, Hu J. Bootstrapped Named Entity Recognition for Product Attribute Extraction[C]//Proceedings of the EMNLP-2011. 2011: 1557-1567.

      [13] Toprak C, Jakob N, Gurevych I. Sentence and Expression Level Annotation of Opinions in User-Generated Discourse[C]//Proceedings of the ACL-2010. 2010: 575-584.

      [14] Jiang Z, Ng H. Semantic Role Labeling of NomBank: A Maximum Entropy Approach[C]//Proceedings of the EMNLP-2006.2006:138-145.

      [15] 宗成慶. 統(tǒng)計(jì)自然語(yǔ)言處理[M]. 北京: 清華大學(xué)出版社,2008:1-475.

      猜你喜歡
      句法語(yǔ)料對(duì)象
      神秘來(lái)電
      睿士(2023年2期)2023-03-02 02:01:09
      句法與句意(外一篇)
      述謂結(jié)構(gòu)與英語(yǔ)句法配置
      句法二題
      詩(shī)詞聯(lián)句句法梳理
      攻略對(duì)象的心思好難猜
      意林(2018年3期)2018-03-02 15:17:24
      基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
      基于熵的快速掃描法的FNEA初始對(duì)象的生成方法
      區(qū)間對(duì)象族的可鎮(zhèn)定性分析
      華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
      佛学| 化德县| 泽州县| 卢氏县| 福州市| 邢台市| 五台县| 广水市| 乐亭县| 武穴市| 乐东| 凭祥市| 乡宁县| 叶城县| 宝兴县| 福建省| 双流县| 读书| 襄城县| 淳安县| 同德县| 陕西省| 鄂托克前旗| 大化| 濉溪县| 台中市| 聊城市| 克东县| 罗定市| 辛集市| 崇义县| 朔州市| 富锦市| 阆中市| 肇庆市| 北安市| 台安县| 东安县| 乌鲁木齐县| 盘山县| 金秀|