• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于級(jí)聯(lián)模型的中文情感要素抽取

      2016-12-08 05:45:11王亞珅黃河燕劉全超
      電子學(xué)報(bào) 2016年10期
      關(guān)鍵詞:持有者級(jí)聯(lián)介詞

      王亞珅,黃河燕,馮 沖,劉全超

      (北京理工大學(xué)計(jì)算機(jī)學(xué)院北京市海量語(yǔ)言信息處理與云計(jì)算應(yīng)用工程技術(shù)研究中心,北京 100081)

      ?

      基于級(jí)聯(lián)模型的中文情感要素抽取

      王亞珅,黃河燕,馮 沖,劉全超

      (北京理工大學(xué)計(jì)算機(jī)學(xué)院北京市海量語(yǔ)言信息處理與云計(jì)算應(yīng)用工程技術(shù)研究中心,北京 100081)

      隨著社交媒體的發(fā)展及成熟,每天在互聯(lián)網(wǎng)環(huán)境中都會(huì)產(chǎn)生大量的用戶評(píng)論信息.抽取評(píng)價(jià)短語(yǔ)、評(píng)價(jià)對(duì)象和觀點(diǎn)持有者等情感要素,已經(jīng)成為了中文觀點(diǎn)挖掘和情感分析的重要先決任務(wù).針對(duì)中文情感要素抽取任務(wù),本文提出了一個(gè)統(tǒng)計(jì)和規(guī)則相結(jié)合的級(jí)聯(lián)模型,主要貢獻(xiàn)包括:(1)針對(duì)汽車領(lǐng)域評(píng)論信息,構(gòu)建情感要素標(biāo)注語(yǔ)料庫(kù)和相關(guān)詞典;(2)對(duì)于以往研究較少關(guān)注的中文評(píng)價(jià)短語(yǔ),本文詳細(xì)分析闡述其定義和分類;(3)結(jié)合統(tǒng)計(jì)和規(guī)則,分別針對(duì)評(píng)價(jià)短語(yǔ)和情感要素提出級(jí)聯(lián)抽取策略.實(shí)驗(yàn)結(jié)果充分證明了該級(jí)聯(lián)模型的有效性,相比較于其它基于規(guī)則的情感要素抽取算法有效提升了召回率,同時(shí)為后續(xù)社交媒體情感分析任務(wù)提供了有力的支持.

      信息抽取;情感要素;評(píng)價(jià)短語(yǔ);評(píng)價(jià)對(duì)象;觀點(diǎn)持有者

      1 引言

      情感分析(Sentiment Analysis)和觀點(diǎn)挖掘(Opinion Mining)[1,2]旨在根據(jù)文本的話題或者情感極性來(lái)判斷產(chǎn)生該內(nèi)容的用戶的觀點(diǎn)和態(tài)度;而情感要素(Evaluation Element)抽取則是其一項(xiàng)重要的先決任務(wù),不僅直接決定了后續(xù)任務(wù)的效果,而且在實(shí)際應(yīng)用中有著巨大的需求.借鑒文獻(xiàn)[3]中提出的“評(píng)價(jià)表達(dá)式(Appraisal Expression)”概念,本文所研究的中文“情感要素”包括評(píng)價(jià)短語(yǔ)(Evaluation Phrase,EP)、評(píng)價(jià)對(duì)象(Comment Target,CT)和觀點(diǎn)持有者(Opinion Holder)等三部分(三元組如下所示),并設(shè)計(jì)級(jí)聯(lián)模型完成對(duì)上述三者的抽取.

      情感要素=〈評(píng)價(jià)短語(yǔ),評(píng)價(jià)對(duì)象,觀點(diǎn)持有者〉

      目前學(xué)界尚無(wú)對(duì)“評(píng)價(jià)短語(yǔ)”的權(quán)威定義,文獻(xiàn)[4]曾將其粗略定義為“連續(xù)出現(xiàn)的一組評(píng)價(jià)詞語(yǔ)”,文獻(xiàn)[5]和文獻(xiàn)[6]分別提出過(guò)類似的概念“Appraisal Groups”和“Evaluative Expression”.在上述研究基礎(chǔ)之上,本文將“評(píng)價(jià)短語(yǔ)”定義為:針對(duì)某特定評(píng)價(jià)對(duì)象,表達(dá)一種觀點(diǎn)態(tài)度和情感傾向的連續(xù)的詞語(yǔ)組合.評(píng)價(jià)短語(yǔ)富含情感信息,能夠提供有價(jià)值的特征以服務(wù)于后續(xù)的情感分析任務(wù),而且可以作為結(jié)果直接提供給用戶,為用戶展示豐富的“全景式”信息,進(jìn)而幫助用戶全面理解相關(guān)產(chǎn)品(服務(wù))或者事件.

      協(xié)同利用基于統(tǒng)計(jì)抽取策略和基于規(guī)則抽取策略的各自優(yōu)勢(shì),并綜合考慮語(yǔ)料標(biāo)注的難易程度,我們將“評(píng)價(jià)短語(yǔ)”分成“簡(jiǎn)單結(jié)構(gòu)評(píng)價(jià)短語(yǔ)”和“復(fù)雜結(jié)構(gòu)評(píng)價(jià)短語(yǔ)”兩類,并實(shí)施“先易后難”的級(jí)聯(lián)抽取策略:先抽取“簡(jiǎn)單結(jié)構(gòu)評(píng)價(jià)短語(yǔ)”,在此基礎(chǔ)之上抽取“復(fù)雜結(jié)構(gòu)評(píng)價(jià)短語(yǔ)”,而最終的“評(píng)價(jià)短語(yǔ)”由這兩部分抽取結(jié)果共同組成.其中,“簡(jiǎn)單結(jié)構(gòu)評(píng)價(jià)短語(yǔ)”主要是指程度副詞和情感詞語(yǔ)(主要是形容詞和名詞)的詞語(yǔ)組合(包含使用連詞或者頓號(hào)連接的情況),該類評(píng)價(jià)短語(yǔ)一般結(jié)構(gòu)簡(jiǎn)單而且在文本中出現(xiàn)的位置比較固定(主要集中在定語(yǔ)、狀語(yǔ)和補(bǔ)語(yǔ)等位置),例如“非常方便”和“及其無(wú)聊”等.

      先前大量的相關(guān)工作只關(guān)注形如“簡(jiǎn)單結(jié)構(gòu)評(píng)價(jià)短語(yǔ)”的短語(yǔ)甚至只關(guān)注單個(gè)情感詞語(yǔ),而很少關(guān)注結(jié)構(gòu)復(fù)雜的短語(yǔ)[3,5,7].但是此類結(jié)構(gòu)復(fù)雜的評(píng)價(jià)短語(yǔ)往往富含情感信息(例如介詞短語(yǔ)能夠表達(dá)比較關(guān)系).本文主要研究括號(hào)短語(yǔ)、介詞短語(yǔ)和副詞短語(yǔ)等三類“復(fù)雜結(jié)構(gòu)評(píng)價(jià)短語(yǔ)”,并分別制定了抽取規(guī)則.

      真正對(duì)文本情感分析有幫助的不是單獨(dú)的評(píng)價(jià)短語(yǔ),而是評(píng)價(jià)短語(yǔ)和評(píng)價(jià)對(duì)象的組合[3,7](即“評(píng)價(jià)搭配”[8]);此外,增加觀點(diǎn)持有者信息,有助于對(duì)進(jìn)行觀點(diǎn)歸類和摘要[9].因此,本文以抽取得到的評(píng)價(jià)短語(yǔ)為核心,采用級(jí)聯(lián)模型抽取情感要素三元組:〈評(píng)價(jià)短語(yǔ),評(píng)價(jià)對(duì)象,觀點(diǎn)持有者〉.例如下述示例中,抽取的情感要素三元組為〈出色的,外形設(shè)計(jì),專家〉.

      本研究所提出的級(jí)聯(lián)模型主要關(guān)注產(chǎn)品評(píng)論信息中的情感要素抽取,但是也同樣適用于其他類型文本的分析.該級(jí)聯(lián)模型的流程如圖1所示:(1)對(duì)輸入文本進(jìn)行分句、分詞和詞性標(biāo)注等預(yù)處理;(2)基于條件隨機(jī)場(chǎng)模型抽取簡(jiǎn)單結(jié)構(gòu)評(píng)價(jià)短語(yǔ);(3)基于簡(jiǎn)單結(jié)構(gòu)評(píng)價(jià)短語(yǔ)抽取結(jié)果,應(yīng)用規(guī)則抽取復(fù)雜結(jié)構(gòu)評(píng)價(jià)短語(yǔ),進(jìn)而得到最終的評(píng)價(jià)短語(yǔ)抽取結(jié)果;(4)對(duì)于抽取得到的“評(píng)價(jià)短語(yǔ)”,基于規(guī)則定位和抽取其對(duì)應(yīng)的評(píng)價(jià)對(duì)象(評(píng)價(jià)對(duì)象詞典和情感詞典等資源可以根據(jù)應(yīng)用需求輔助使用[10]),構(gòu)成“評(píng)價(jià)搭配”<評(píng)價(jià)短語(yǔ),評(píng)價(jià)對(duì)象>;(5)對(duì)于抽取得到的“評(píng)價(jià)搭配”,通過(guò)識(shí)別觀點(diǎn)指示動(dòng)詞,完成對(duì)觀點(diǎn)持有者的抽取,構(gòu)成最終抽取結(jié)果:情感要素三元組<評(píng)價(jià)短語(yǔ),評(píng)價(jià)對(duì)象,觀點(diǎn)持有者>.(圖1中實(shí)線箭頭指向?yàn)閿?shù)據(jù)流動(dòng)方向)

      2 相關(guān)工作

      文獻(xiàn)[5]認(rèn)為情感分析的基本單元應(yīng)該是評(píng)價(jià)短語(yǔ)而非單個(gè)詞語(yǔ);在這種思路的啟發(fā)下,一系列算法和模型被提出[6,11,12].但是上述研究所涉及的評(píng)價(jià)短語(yǔ)只屬于本文提及的“簡(jiǎn)單結(jié)構(gòu)評(píng)價(jià)短語(yǔ)”范疇而不涉及復(fù)雜結(jié)構(gòu).目前主流的評(píng)價(jià)對(duì)象抽取方法分為非監(jiān)督學(xué)習(xí)方法和基于機(jī)器學(xué)習(xí)的有監(jiān)督抽取方法[7,12],圍繞特征選擇問(wèn)題,條件隨機(jī)場(chǎng)模型在評(píng)價(jià)對(duì)象抽取中廣受青睞[13].對(duì)于“評(píng)價(jià)搭配”抽取任務(wù)[8],早期研究一般將這項(xiàng)任務(wù)分為兩個(gè)步驟:首先獲取情感句中的評(píng)價(jià)對(duì)象,然后評(píng)價(jià)對(duì)象附近窗口為k的范圍內(nèi)定位評(píng)價(jià)詞語(yǔ)[14].隨后,部分研究者將對(duì)評(píng)價(jià)對(duì)象和評(píng)價(jià)詞語(yǔ)的識(shí)別合并為一個(gè)獨(dú)立的任務(wù),提出了基于規(guī)則(或模板)的方法來(lái)識(shí)別評(píng)價(jià)搭配,其中句法分析結(jié)果被廣泛用于構(gòu)造規(guī)則[4,7,15].雖然此類方法使得識(shí)別準(zhǔn)確率得到提高,但是由于模板或者規(guī)則需要手工制定,召回率受限.

      3 數(shù)據(jù)描述

      雖然本文提出的級(jí)聯(lián)模型可以被應(yīng)用于處理不同種類的觀點(diǎn)信息文本,但是本文研究重點(diǎn)關(guān)注產(chǎn)品評(píng)論信息,并應(yīng)用該模型抽取汽車領(lǐng)域用戶評(píng)論信息中的情感要素.目前尚無(wú)公開(kāi)的中文汽車評(píng)論信息標(biāo)注語(yǔ)料庫(kù),因此我們從2012年至2013年的騰訊汽車*http://auto.qq.com/、網(wǎng)易汽車*http://auto.163.com/和鳳凰汽車*http://auto.ifeng.com/等汽車門(mén)戶網(wǎng)站爬取和標(biāo)注專家測(cè)評(píng)文章和用戶評(píng)論信息來(lái)構(gòu)建中文汽車評(píng)論信息語(yǔ)料庫(kù).該語(yǔ)料庫(kù)目前已部分公開(kāi)*http://hlipca.org/index.php/2014-12-09-02-55-58/2014-12-09-02-56-24/49-chineseevaluationphrase,詳情如表1所示(其中,#×表示×的數(shù)量).

      表1 中文汽車情感要素語(yǔ)料庫(kù)

      為了方便表述,本文作如下概念定義:

      分句 一個(gè)完整的句子(以句號(hào)、問(wèn)號(hào)等終止符號(hào)作為結(jié)尾)被所包含的所有標(biāo)點(diǎn)符號(hào)成多個(gè)“分句”.本文以分句為基本單位抽取評(píng)價(jià)短語(yǔ);而構(gòu)建情感要素三元組的時(shí)候,則在整個(gè)句子中進(jìn)行掃描和匹配相關(guān)要素.

      詞性序列 分詞后,一個(gè)或者連續(xù)幾個(gè)(可包含連詞)具有相同詞性的詞語(yǔ)構(gòu)成“詞性序列”.例如,分句“將內(nèi)飾打造得更加典雅奢華”中下劃線部分即為一個(gè)“形容詞序列”.

      窗口-R 分詞后,包含當(dāng)前詞語(yǔ)、當(dāng)前詞語(yǔ)前面R個(gè)詞語(yǔ)和當(dāng)前詞語(yǔ)后面R個(gè)詞語(yǔ)的詞語(yǔ)序列.本文使用中科院計(jì)算所漢語(yǔ)詞性標(biāo)注集,本文章節(jié)4和章節(jié)5中規(guī)則表達(dá)式中的符號(hào)說(shuō)明如表2.

      表2 規(guī)則表達(dá)式中相關(guān)符號(hào)說(shuō)明

      此外,為了提升抽取準(zhǔn)確率以及充分支持本文模型的跨領(lǐng)域應(yīng)用,我們構(gòu)造了評(píng)價(jià)對(duì)象詞典和觀點(diǎn)指示動(dòng)詞(Opinion-Bearing Verb)詞典*http://hlipca.org/index.php/2014-12-09-02-55-58/2014-12-09-02-56-24/49-chineseevaluationphrase.

      4 基于級(jí)聯(lián)模型的情感要素抽取

      本章節(jié)基于級(jí)聯(lián)模型[16,17],抽取中文情感要素:評(píng)價(jià)短語(yǔ),評(píng)價(jià)對(duì)象以及評(píng)價(jià)短語(yǔ).“級(jí)聯(lián)模型”的優(yōu)勢(shì)在于:(1)各模塊的輸出相互作用關(guān)聯(lián),模型最終輸出結(jié)果是各模塊輸出結(jié)果的有機(jī)融合,反映了各模塊特征,因此級(jí)聯(lián)模型比較適用于元組抽取(Tuple Extraction);(2)一個(gè)模塊的變化(如信息更新)會(huì)直接影響下一模塊,所以模塊之間的數(shù)據(jù)流是“一體化”動(dòng)態(tài)更新,因此級(jí)聯(lián)模型能夠確保最終輸出結(jié)果反映局部的信息更新.

      4.1 基于條件隨機(jī)場(chǎng)模型的簡(jiǎn)單結(jié)構(gòu)評(píng)價(jià)短語(yǔ)抽取

      條件隨機(jī)場(chǎng)模型[18]能夠高效捕獲輸入文本的關(guān)聯(lián)特征和識(shí)別序列邊界,并最大程度地降低標(biāo)記偏執(zhí)問(wèn)題,被廣泛應(yīng)用于序列標(biāo)注任務(wù);而簡(jiǎn)單結(jié)構(gòu)評(píng)價(jià)短語(yǔ)具有構(gòu)成簡(jiǎn)單、位置固定等特點(diǎn),因此本文將簡(jiǎn)單結(jié)構(gòu)評(píng)價(jià)短語(yǔ)的抽取問(wèn)題轉(zhuǎn)換成為序列標(biāo)注問(wèn)題,并使用條件隨機(jī)場(chǎng)模型完成該任務(wù).條件隨機(jī)場(chǎng)模型所用特征模板主要包含3條特征(如表3所示),其中wi和pi分別表示當(dāng)前詞語(yǔ)(第i個(gè)詞語(yǔ))及其詞性.

      表3 用于識(shí)別簡(jiǎn)單結(jié)構(gòu)評(píng)價(jià)短語(yǔ)的條件隨機(jī)場(chǎng)模型的特征模板

      4.2 基于規(guī)則的復(fù)雜結(jié)構(gòu)評(píng)價(jià)短語(yǔ)抽取

      本章節(jié)基于有限狀態(tài)機(jī)(Finite State Automaton,FSA)思想,設(shè)計(jì)三種復(fù)雜結(jié)構(gòu)評(píng)價(jià)短語(yǔ)規(guī)則:括號(hào)短語(yǔ)(Parenthesis Phrase)規(guī)則、介詞短語(yǔ)(Preposition Phrase)規(guī)則和副詞短語(yǔ)(Adverb Phrase)規(guī)則.同時(shí),本文賦予這三種規(guī)則很強(qiáng)的可擴(kuò)展性,以便根據(jù)應(yīng)用需求靈活改變規(guī)則.

      4.2.1 括號(hào)短語(yǔ)規(guī)則

      考慮到括號(hào)中的內(nèi)容一般起到解釋說(shuō)明的作用,并且往往包含有價(jià)值的評(píng)論信息,我們抽取這部分內(nèi)容作為評(píng)價(jià)短語(yǔ).括號(hào)內(nèi)容緊鄰所修飾內(nèi)容(位于修飾內(nèi)容的右側(cè)),所以其所對(duì)應(yīng)的評(píng)價(jià)對(duì)象一般是其左側(cè)的名詞序列.

      4.2.2 介詞短語(yǔ)規(guī)則

      簡(jiǎn)單結(jié)構(gòu)介詞短語(yǔ)往往表示處所或者狀態(tài),一般不會(huì)表達(dá)情感傾向;但是,如果與其后的補(bǔ)語(yǔ)相結(jié)合構(gòu)成復(fù)雜結(jié)構(gòu)介詞短語(yǔ)(特別是在評(píng)論信息中常見(jiàn)的表示“比較”意義的復(fù)雜結(jié)構(gòu)介詞短語(yǔ))之后,便可以傳遞一定情感信息.

      對(duì)于每個(gè)分句,我們從右至左搜索介詞:每搜索到一個(gè)介詞,分析其右側(cè)文本是否匹配下述規(guī)則,如果匹配,則合并該介詞連同其右側(cè)符合規(guī)則的內(nèi)容,并抽取為評(píng)價(jià)短語(yǔ);繼續(xù)向左進(jìn)行搜索并重復(fù)上述過(guò)程,直至分句搜索完畢.本文共總結(jié)了8個(gè)基本的介詞短語(yǔ)規(guī)則:

      規(guī)則1 p+n+EP

      規(guī)則描述 如果介詞右側(cè)順序出現(xiàn)名詞序列和標(biāo)注為EP的短語(yǔ),則合并該介詞和這些詞語(yǔ)成為一個(gè)短語(yǔ),并將詞性重新標(biāo)注為EP.

      規(guī)則示例 外觀/n上/f將/d會(huì)/v比/p傳祺/nz轎車/n硬朗/EP從該分句中抽取的復(fù)雜結(jié)構(gòu)評(píng)價(jià)短語(yǔ)為“比傳祺轎車硬朗”.

      其它基本介詞短語(yǔ)規(guī)則見(jiàn)表4.

      表4 其它基本介詞短語(yǔ)規(guī)則

      上述基本規(guī)則可以通過(guò)如下方法進(jìn)行擴(kuò)展:

      (1)上述規(guī)則中的名詞序列可以被代詞序列所替換(或者附加),規(guī)則依然成立.

      (2)上述規(guī)則可以通過(guò)加入形容詞序列或者標(biāo)注為EP的短語(yǔ)來(lái)構(gòu)造更加復(fù)雜的規(guī)則.例如,對(duì)于規(guī)則3,在名詞序列前加入標(biāo)注為EP的短語(yǔ),規(guī)則依然成立:p+n+v → p+EP+n+v.

      (3)某些中文詞語(yǔ),例如“相比”“對(duì)比”等,能夠表達(dá)“比較(對(duì)比)”關(guān)系,因此介詞短語(yǔ)規(guī)則中的“介詞(標(biāo)記為p)”可以替換成為這些詞語(yǔ),規(guī)則依然成立.

      4.2.3 副詞短語(yǔ)規(guī)則

      實(shí)際應(yīng)用中,副詞可以修飾動(dòng)詞、形容詞,甚至整個(gè)句子.其中,情態(tài)副詞(例如“究竟”“簡(jiǎn)直”等)和程度副詞(例如“非?!薄昂堋钡?,往往引導(dǎo)富含情感信息的短語(yǔ),所以能夠指示觀點(diǎn)持有者的態(tài)度.

      本文主要關(guān)注上述副詞做謂語(yǔ)和補(bǔ)語(yǔ)的情況.類似于上述介詞短語(yǔ)的構(gòu)造方式,我們通過(guò)從右至左搜索分句,判斷所出現(xiàn)的每一個(gè)副詞右側(cè)的文本是否匹配相關(guān)副詞短語(yǔ)規(guī)則.本文共總結(jié)了6個(gè)基本的副詞短語(yǔ)規(guī)則:

      規(guī)則2 d+v+EP

      規(guī)則描述 如果副詞右側(cè)順序出現(xiàn)動(dòng)詞序列和標(biāo)注為EP的短語(yǔ),則合并該副詞和這些詞語(yǔ)成為一個(gè)短語(yǔ),并將詞性重新標(biāo)注為EP.

      規(guī)則示例 內(nèi)飾/nz還/d算/v樸素大方/EP

      從該分句中抽取的復(fù)雜結(jié)構(gòu)評(píng)價(jià)短語(yǔ)為“還算樸素大方”.

      其它基本副詞短語(yǔ)規(guī)則見(jiàn)表5,同樣可以參照上一章節(jié)的擴(kuò)展方法對(duì)基本副詞短語(yǔ)規(guī)則進(jìn)行擴(kuò)展.

      表5 其它基本副詞短語(yǔ)規(guī)則

      4.3 基于規(guī)則的評(píng)價(jià)對(duì)象抽取

      在前述“評(píng)價(jià)短語(yǔ)”抽取結(jié)果的基礎(chǔ)上,本章節(jié)抽取其所對(duì)應(yīng)的“評(píng)價(jià)對(duì)象”,構(gòu)成“評(píng)價(jià)搭配”〈評(píng)價(jià)短語(yǔ),評(píng)價(jià)對(duì)象〉.以每個(gè)被抽取的評(píng)價(jià)短語(yǔ)為中心,我們使用“評(píng)價(jià)對(duì)象構(gòu)建規(guī)則”來(lái)定位和構(gòu)建名詞序列作為評(píng)價(jià)對(duì)象候選;然后使用“評(píng)價(jià)對(duì)象抽取規(guī)則”從這些候選中挑選出真正與該評(píng)價(jià)短語(yǔ)配對(duì)的對(duì)象作為最終的評(píng)價(jià)對(duì)象.此外,也可以根據(jù)應(yīng)用需求引入評(píng)價(jià)對(duì)象詞典篩選環(huán)節(jié)[10].

      評(píng)價(jià)對(duì)象構(gòu)建規(guī)則 文獻(xiàn)[3]曾選取距離評(píng)價(jià)對(duì)象最近的形容詞作為其對(duì)應(yīng)的評(píng)價(jià)詞語(yǔ),我們通過(guò)考察大規(guī)模產(chǎn)品服務(wù)類評(píng)論信息語(yǔ)料也發(fā)現(xiàn):與某個(gè)評(píng)價(jià)短語(yǔ)配對(duì)的評(píng)價(jià)對(duì)象往往是其左側(cè)(或者右側(cè))最近的名詞序列.因此,對(duì)于某個(gè)評(píng)價(jià)短語(yǔ),我們分別向左和向右掃描文本并構(gòu)建距離其最近的名詞序列,作為評(píng)價(jià)對(duì)象候選.例如“專家/d認(rèn)為/vo,/wd飛思/nz擁有/v了/ule出色的/EP外形/n設(shè)計(jì)/vn.”中,以評(píng)價(jià)短語(yǔ)“出色的”為中心,向左和向右分別定位和構(gòu)建了名詞序列“飛思”和“外形設(shè)計(jì)”作為評(píng)價(jià)對(duì)象候選:

      評(píng)價(jià)對(duì)象抽取規(guī)則 我們使用下述規(guī)則(表6)來(lái)從評(píng)價(jià)對(duì)象候選中挑選出最終的評(píng)價(jià)對(duì)象.

      表6 其他評(píng)價(jià)對(duì)象抽取規(guī)則

      所以,上述示例中的兩個(gè)評(píng)價(jià)對(duì)象候選中,只有“外形設(shè)計(jì)”符合規(guī)則,被保留.至此,我們得到了該示例中的“評(píng)價(jià)搭配”〈出色的,外形設(shè)計(jì)〉.

      4.4 基于規(guī)則的觀點(diǎn)持有者抽取

      在前述“評(píng)價(jià)搭配”抽取結(jié)果的基礎(chǔ)上,本章節(jié)抽取其所對(duì)應(yīng)的“觀點(diǎn)持有者”,構(gòu)成最終抽取結(jié)果:“情感要素”三元組〈評(píng)價(jià)短語(yǔ),評(píng)價(jià)對(duì)象,觀點(diǎn)持有者〉.通過(guò)對(duì)大量評(píng)論語(yǔ)料進(jìn)行調(diào)研,我們發(fā)現(xiàn):人名和機(jī)構(gòu)名等命名實(shí)體經(jīng)常出現(xiàn)在觀點(diǎn)持有者的位置上,而且觀點(diǎn)持有者往往與觀點(diǎn)指示動(dòng)詞共現(xiàn).因此,本文對(duì)于觀點(diǎn)持有者的抽取策略是基于觀點(diǎn)指示動(dòng)詞的位置的,而且我們更多關(guān)注的是連續(xù)分句之間的觀點(diǎn)持有者是否發(fā)生變化.

      首先,如果分句中出現(xiàn)觀點(diǎn)指示動(dòng)詞,則說(shuō)明觀點(diǎn)持有者可能發(fā)生變化,否則認(rèn)為跟前一分句的觀點(diǎn)持有者相同;然后,固定該觀點(diǎn)指示動(dòng)詞并向前文進(jìn)行文本掃描,定位和構(gòu)建距離最近的命名實(shí)體(或名詞序列),作為觀點(diǎn)持有者候選;最后,我們利用相關(guān)規(guī)則來(lái)判斷觀點(diǎn)持有者候選是否正確(例如,如果介詞“據(jù)”出現(xiàn)潛在觀點(diǎn)持有者的左側(cè),則表示抽取成功).上文示例中,“認(rèn)為”是觀點(diǎn)指示動(dòng)詞,其左鄰的名詞序列“專家”即為觀點(diǎn)持有者.至此,我們通過(guò)級(jí)聯(lián)模型得到了該示例中的“情感要素”三元組〈出色的,外形設(shè)計(jì),專家〉.

      5 實(shí)驗(yàn)和結(jié)果分析

      本章節(jié)中,我們使用章節(jié)3所描述的語(yǔ)料來(lái)驗(yàn)證本文提出的級(jí)聯(lián)模型的性能.采用10-折交叉驗(yàn)證的方式分配訓(xùn)練集和測(cè)試集,記錄10次實(shí)驗(yàn)結(jié)果的均值于相關(guān)圖表中.實(shí)驗(yàn)中,我們使用NLPIR漢語(yǔ)分詞系統(tǒng)2014*http://ictclas.nlpir.org/newsdownloads?DocId=389完成中文分詞和詞性標(biāo)注任務(wù),使用CRF++version 0.53*http://crfpp.googlecode.com/svn/trunk/doc/index.html完成針對(duì)簡(jiǎn)單結(jié)構(gòu)評(píng)價(jià)短語(yǔ)抽取的條件隨機(jī)場(chǎng)模型的訓(xùn)練和測(cè)試任務(wù).

      5.1 評(píng)價(jià)指標(biāo)

      本文使用準(zhǔn)確率(Precision,P)、召回率(Recall,R)和F-值(F-measure,F)作為評(píng)價(jià)指標(biāo)對(duì)簡(jiǎn)單結(jié)構(gòu)評(píng)價(jià)短語(yǔ)、復(fù)雜結(jié)構(gòu)評(píng)價(jià)短語(yǔ)、評(píng)價(jià)短語(yǔ)和情感要素三元組等測(cè)評(píng)對(duì)象的抽取結(jié)果進(jìn)行測(cè)評(píng).

      (1)

      (2)

      (3)

      其中,N1表示測(cè)試集所含測(cè)評(píng)對(duì)象的個(gè)數(shù),N2表示本文算法抽取的測(cè)評(píng)對(duì)象的個(gè)數(shù),N3表示抽取結(jié)果中抽取正確的對(duì)象的個(gè)數(shù),β取值為1.此外,考慮到短語(yǔ)覆蓋文本范圍較大的問(wèn)題,在評(píng)價(jià)短語(yǔ)抽取測(cè)評(píng)中,我們引入下述三種不同的測(cè)評(píng)粒度[11](其中后兩種統(tǒng)稱“松弛匹配”):

      精確匹配(又稱“嚴(yán)格匹配”) 只有抽取結(jié)果嚴(yán)格匹配標(biāo)準(zhǔn)結(jié)果,該抽取結(jié)果才被認(rèn)為是正確的.

      部分匹配 如果抽取結(jié)果包含標(biāo)準(zhǔn)結(jié)果,該抽取結(jié)果即可被認(rèn)為是正確的.

      范圍部分匹配 如果抽取結(jié)果和標(biāo)準(zhǔn)結(jié)果有重合部分,則將重合部分所占比重加入到N3

      5.2 實(shí)驗(yàn)結(jié)果

      中文評(píng)價(jià)短語(yǔ)抽取實(shí)驗(yàn)的結(jié)果如表7所示.正如前文分析,簡(jiǎn)單結(jié)構(gòu)評(píng)價(jià)短語(yǔ)的構(gòu)成規(guī)律性強(qiáng)、邊界明確,因此即使是在“精確匹配”這種嚴(yán)苛的測(cè)評(píng)標(biāo)準(zhǔn)下,簡(jiǎn)單結(jié)構(gòu)評(píng)價(jià)短語(yǔ)的抽取也擁有很高的準(zhǔn)確率和召回率.

      表7 中文評(píng)價(jià)短語(yǔ)抽取結(jié)果

      表7同時(shí)也反應(yīng)出,復(fù)雜結(jié)構(gòu)評(píng)價(jià)短語(yǔ)和評(píng)價(jià)短語(yǔ)在“精確匹配”測(cè)評(píng)策略下的性能并不理想,這是因?yàn)槠鋸?fù)雜且多變的內(nèi)部結(jié)構(gòu)導(dǎo)致很難準(zhǔn)確識(shí)別其所轄文本的范圍和邊界.所以,本文使用“部分匹配”策略作為“評(píng)價(jià)短語(yǔ)”的主要的測(cè)評(píng)標(biāo)準(zhǔn),并且與相關(guān)工作文獻(xiàn)[6]和文獻(xiàn)[11]進(jìn)行對(duì)比(如表8所示).

      表8 本文模型與其他算法對(duì)于“評(píng)價(jià)短語(yǔ)”抽取的實(shí)驗(yàn)結(jié)果對(duì)比

      本文提出的級(jí)聯(lián)模型對(duì)情感要素抽取結(jié)果(采用“部分匹配”策略)如表9所示.實(shí)驗(yàn)結(jié)果顯示,本文模型對(duì)于觀點(diǎn)持有者抽取的準(zhǔn)確率較高,而對(duì)于情感要素抽取的F-值也突破了70%.此外,文獻(xiàn)[15]中針對(duì)“具有修飾關(guān)系的詞對(duì)”的任務(wù)與本文情感要素抽取任務(wù)十分相似,因此我們復(fù)現(xiàn)了該工作.對(duì)比實(shí)驗(yàn)顯示,作為以往基于規(guī)則抽取算法的典型代表,文獻(xiàn)[15]雖然取得了較高的準(zhǔn)確率,但是召回率存在欠缺;而本文模型將召回率提升了20.12%,而且在時(shí)間消耗方面遠(yuǎn)優(yōu)于文獻(xiàn)[15].此外,考慮到本文算法所抽取的評(píng)價(jià)短語(yǔ)更加復(fù)雜,而且有助于產(chǎn)品(服務(wù))信息的直觀展示,因此本文模型在海量信息處理領(lǐng)域還是具有很大的應(yīng)用價(jià)值.

      表9 中文情感要素抽取結(jié)果及對(duì)比

      5.3 實(shí)驗(yàn)結(jié)果分析

      本文方法的召回率和F值相比較于基線算法(包括傳統(tǒng)基于規(guī)則的方法)有了一定提升,主要原因有如下幾點(diǎn):

      (1)本研究針對(duì)“評(píng)論信息中情感要素抽取”,目的明確、應(yīng)用性強(qiáng),而且級(jí)聯(lián)模型中相關(guān)規(guī)則的設(shè)計(jì)均基于對(duì)中文評(píng)論信息扎實(shí)的語(yǔ)法、句法分析(特別是各要素之間關(guān)系),所以,在平衡規(guī)則復(fù)雜度和計(jì)算復(fù)雜度前提下,本研究設(shè)計(jì)的規(guī)則比傳統(tǒng)規(guī)則更有針對(duì)性、更加精確.

      (2)傳統(tǒng)基于規(guī)則的抽取算法,在匹配規(guī)則時(shí)往往采用“字符連續(xù)出現(xiàn)”的匹配模式,導(dǎo)致以往方法的召回率較低;而本研究在匹配規(guī)則時(shí),基于有限狀態(tài)機(jī)思想,采取“詞性序列順序出現(xiàn)”的匹配模式,進(jìn)而有效提升召回率.

      (3)借力于級(jí)聯(lián)模型的“聯(lián)動(dòng)機(jī)制”,本研究所抽取的評(píng)價(jià)短語(yǔ)、評(píng)價(jià)對(duì)象和觀點(diǎn)持有者分別處于級(jí)聯(lián)模型中相連通的不同模塊中(圖1),因此本文模型能夠?qū)θ哧P(guān)系以及句子結(jié)構(gòu)進(jìn)行更加清晰的刻畫(huà).

      (4)多策略平衡.通過(guò)減少特征種類和數(shù)量,實(shí)現(xiàn)“質(zhì)量策略”和“速度策略”的平衡,進(jìn)而保證系統(tǒng)整體效率;充分發(fā)揮“統(tǒng)計(jì)策略”和“規(guī)則策略”各自優(yōu)勢(shì),實(shí)現(xiàn)統(tǒng)計(jì)和規(guī)則互補(bǔ).

      6 總結(jié)

      本文著重對(duì)中文情感要素中的“評(píng)價(jià)短語(yǔ)”概念進(jìn)行了詳細(xì)的定義和闡述,并且構(gòu)建了相關(guān)的語(yǔ)料庫(kù).面向海量中文信息處理需求,通過(guò)研究不同情感要素的語(yǔ)法和結(jié)構(gòu)特征,本文設(shè)計(jì)了統(tǒng)計(jì)和規(guī)則相結(jié)合的級(jí)聯(lián)模型來(lái)抽取用戶評(píng)論語(yǔ)料中的評(píng)價(jià)短語(yǔ)、評(píng)價(jià)對(duì)象和觀點(diǎn)持有者.實(shí)驗(yàn)結(jié)果充分證明了該級(jí)聯(lián)模型的有效性,相比較于其它基于規(guī)則的情感要素抽取算法有效提升了召回率;此外,本研究相關(guān)內(nèi)容已經(jīng)在部署在實(shí)際應(yīng)用中,并取得了良好的實(shí)踐效果.

      [1]Pang B,Lee L.Opinion mining and sentiment analysis Foundations and trends in information retrieval[J].Foundations & Trends in Information Retrieval,2008,2(1-2):459-526.

      [2]Liu B.Sentiment analysis and opinion mining[J].Synthesis Lectures on Human Language Technologies,2012,5(1):1-167.

      [3]Bloom K,Garg N,Argamon S.Extracting appraisal expressions[A].Proceedings of Human Language Technologies:2007 Annual Conference of the North American Chapter of the Association for Computational Linguistics[C].New York:ACL Press,2007.308-315.

      [4]趙妍妍,秦兵,車萬(wàn)翔,劉挺.基于句法路徑的情感評(píng)價(jià)單元識(shí)別[J].軟件學(xué)報(bào),2011,22(5):887-898.

      ZHAO Yan-yan,QIN Bing,CHE Wan-xiang,LIU Ting.Appraisal expression recognition based on syntactic path[J].Journal of Software,2011,22(5):887-898.(in Chinese)

      [5]Whitelaw C,Garg N,Argamon S.Using appraisal groups for sentiment analysis[A].Proceedings of 14thACM International Conference on Information and Knowledge Management[C].New York,USA:ACM Press,2005.625-631.

      [6]Nakagawa T,Kawada T,Inui K,Kurohashi S.Extracting subjective and objective evaluative expressions from the Web[A].Proceedings of 2nd International Symposium on Universal Communication[C].Osaka,Japan:IEEE Press,2008.251-258.

      [7]Popescu A M,Etzioni O.Extracting product features and opinions from reviews[A].Proceedings of Human Language Technology:2005 Conference on Empirical Methods in Natural Language Processing[C].Vancouver,Canada:ACL Press,2005.339-346.

      [8]趙妍妍,秦兵,劉挺.文本情感分析[J].軟件學(xué)報(bào),2010,21(8):1834-1848.

      ZHAO Yan-yan,QIN Bing,LIU Ting.Sentiment analysis[J].Journal of Software,2010,21(8):1834-1848.(in Chinese)

      [9]宋銳,洪莉,林鴻飛.基于ChunkCRF的觀點(diǎn)持有者識(shí)別及其在觀點(diǎn)摘要中的應(yīng)用[J].小型微型計(jì)算機(jī)系統(tǒng),2009,30(7):1462-1466.

      SONG Rui,HONG Li,LIN Hong-fei.Chunk-CRF-based opinion holder identification and application to opinion summarization[J].Journal of Chinese Computer Systems,2009,30(7):1462-1466.(in Chinese)

      [10]Nakagawa T,Inui K,Kurohashi S.Dependency tree-based sentiment classification using CRFs with hidden variables[A].Proceedings of Human Language Technologies:2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics[C].Los Angeles,USA:ACL Press,2010.786-794.

      [11]Wang Y,Kazama J,Kawada T,Torisawa K.Chinese evaluative information analysis[A].Proceedings of 24thInternational Conference on Computational Linguistics[C].Mumbai,India:ACM Press,2012.2773-2788.

      [12]侯敏,滕永林,陳毓麒.評(píng)價(jià)短語(yǔ)的傾向性分析研究[J].中文信息學(xué)報(bào),2013,27(6):103-109.

      HOU Min,TENG Yong-Lin,CHEN Yu-qi.Research on orientation analysis of opinion phrases[J].Journal of Chinese Information Processing,2013,27(6):103-109.(in Chinese)

      [13]王榮洋,鞠久朋,李壽山,周國(guó)棟.基于CRFs的評(píng)價(jià)對(duì)象抽取特征研究[J].中文信息學(xué)報(bào),2012,26(2):56-61.

      WANG Rong-yang,JU Jiu-ming,LI Shou-shan,ZHOU Guo-dong.Feature engineering for CRFs based opinion target extraction[J].Journal of Chinese Information Processing,2012,26(2):56-61.(in Chinese)

      [14]Hu M Q,Liu B.Mining and summarizing customer reviews[A].Proceedings of 2004 ACM SIGKDD International Conference on Knowledge Discovery & Data Mining[C].New York:ACM Press,2004.168-177.

      [15]姚天昉,等.一個(gè)用于漢語(yǔ)汽車評(píng)論的意見(jiàn)挖掘系統(tǒng)[A].中國(guó)中文信息學(xué)會(huì).中文信息處理前沿進(jìn)展——中國(guó)中文信息學(xué)會(huì)二十五周年學(xué)術(shù)會(huì)議論文集[C].北京:中國(guó)中文信息學(xué)會(huì),2006.260-281.

      YAO Tian-fang,et al.An opinion mining system for chinese automobile reviews[A].Proceedings of the 25thAnnual Conference of CIPS[C].Beijing:Chinese Information Processing Society of China,2006.260-281.(in Chinese)

      [16]趙巍,等.連續(xù)字符識(shí)別的級(jí)聯(lián)HMM訓(xùn)練算法[J].計(jì)算機(jī)學(xué)報(bào),2007,30(12):2142-2150.

      ZHAO Wei,et al.Cascaded HMM training algorithm for continuous character recognition[J].Chinese Journal of Computers,2007,30(12):2142-2150.(in Chinese)

      [17]李本陽(yáng),等.基于單層標(biāo)注級(jí)聯(lián)模型的篇章情感傾向分析[J].中文信息學(xué)報(bào),2012,26(4):3-8+20.

      LI Ben-yang,et al.Single-label cascaded model for document sentiment analysis[J].Journal of Chinese Information Processing,2012,26(4):3-8+20.(in Chinese)

      [18]Lafferty J,McCallum A,Pereira F.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[A].Proceedings of 18thInternational Conference on Machine Learning[C].Williamstown,MA,USA:ACM Press,2001.282-289.

      王亞珅 男,1989年出生,北京理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)專業(yè)博士研究生,主要研究領(lǐng)域?yàn)樯缃痪W(wǎng)絡(luò)分析和信息檢索.

      E-mail:yswang@bit.edu.cn

      黃河燕(通訊作者) 女,1963年出生,北京理工大學(xué)計(jì)算機(jī)學(xué)院教授、博士生導(dǎo)師,主要研究領(lǐng)域?yàn)檎Z(yǔ)言信息智能處理、社交網(wǎng)絡(luò)、文本大數(shù)據(jù)分析處理及云計(jì)算.

      E-mail:hhy63@bit.edu.cn

      Chinese Evaluation Element Extraction Based on Cascaded Model

      WANG Ya-shen,HUANG He-yan,FENG-Chong,LIU Quan-chao

      (BeijingEngineeringResearchCenterofHighVolumeLanguageInformationProcessingandCloudComputingApplications,SchoolofComputer,BeijingInstituteofTechnology,Beijing100081,China)

      With the development of social media,massive reviews are generated by users every day.The extraction of evaluation elements,including evaluation phrase,comment target and opinion holder,is an important pre-task of Chinese opinion mining and sentiment analysis.This paper proposes an efficient method for extracting Chinese evaluation elements based on cascaded model and mainly makes three contributions:(i) to implement and evaluate the method,we construct an original annotated corpus for Chinese evaluation elements of automobile;(ii) we provide specific definition and classification of Chines evaluation phrase;(iii) combing statistic method and rule-based method,we present cascaded strategy for extraction of evaluation phrase and evaluation elements,respectively.According to the experiment results,the proposed method performs well,and effectively improve the recall compared with other rule-based algorithm.Meanwhile it contributes greatly to our subsequent tasks,such as sentiment analysis of social media.

      information extraction;evaluation element;evaluation phrase;comment target;opinion holder

      2015-02-11;

      2015-06-26;責(zé)任編輯:馬蘭英

      國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展計(jì)劃(973計(jì)劃)資助項(xiàng)目(No.2013CB329605,No.2013CB329303);國(guó)家自然科學(xué)基金(No.61132009,No.61201351)

      TP391.1

      A

      0372-2112 (2016)10-2459-07

      ??學(xué)報(bào)URL:http://www.ejournal.org.cn

      10.3969/j.issn.0372-2112.2016.10.025

      猜你喜歡
      持有者級(jí)聯(lián)介詞
      介詞和介詞短語(yǔ)
      介詞不能這樣用
      級(jí)聯(lián)LDPC碼的STBC-OFDM系統(tǒng)
      電子制作(2016年15期)2017-01-15 13:39:09
      最低密度冰:水的第18種晶形
      新天地(2016年3期)2016-05-30 10:48:04
      基于級(jí)聯(lián)MUSIC的面陣中的二維DOA估計(jì)算法
      財(cái)政部:央企紅利轉(zhuǎn)社??删徑怵B(yǎng)老金繳費(fèi)壓力
      LCL濾波器在6kV級(jí)聯(lián)STATCOM中的應(yīng)用
      H橋級(jí)聯(lián)型STATCOM的控制策略研究
      看圖填寫(xiě)介詞
      高邮市| 江津市| 阳原县| 宜良县| 洛阳市| 大港区| 杭锦后旗| 吴桥县| 得荣县| 久治县| 景宁| 合川市| 赞皇县| 伊春市| 广州市| 雅安市| 吴旗县| 都兰县| 鄂州市| 许昌县| 都昌县| 福清市| 东乡| 饶阳县| 福鼎市| 昌黎县| 突泉县| 万全县| 德化县| 潮安县| 天津市| 蓝山县| 潼南县| 法库县| 开远市| 天长市| 哈尔滨市| 万载县| 盐池县| 永清县| 上蔡县|