• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于最大熵與Bootstrapping的關(guān)聯(lián)三元組識(shí)別方法

      2012-09-11 13:58:34趙乃剛鄧景順
      關(guān)鍵詞:否定性三元組副詞

      趙乃剛,鄧景順

      (山西大同大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,山西大同 037009)

      基于最大熵與Bootstrapping的關(guān)聯(lián)三元組識(shí)別方法

      趙乃剛,鄧景順

      (山西大同大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,山西大同 037009)

      基于<產(chǎn)品特征,情感詞>關(guān)聯(lián)對(duì)的缺點(diǎn),討論了情感詞與否定性副詞搭配的必要性,提出了<Pfeature,F(xiàn)lag,Sword>關(guān)聯(lián)三元組,能夠更準(zhǔn)確地表達(dá)文本中相關(guān)評(píng)論句對(duì)產(chǎn)品特征的情感傾向。采用兩個(gè)步驟來提取關(guān)聯(lián)三元組:首先,利用已訓(xùn)練好的最大熵模型作為分類器,結(jié)合Bootstrapping方法完成了產(chǎn)品特征與情感詞語(yǔ)關(guān)聯(lián)對(duì)的抽??;其次,將情感詞前的否定性副詞抽取出來,合成關(guān)聯(lián)三元組。

      最大熵;Bootstrapping;關(guān)聯(lián)三元組;情感傾向

      汽車產(chǎn)品評(píng)論通常涉及多個(gè)對(duì)象(如可能涉及多個(gè)品牌、同一品牌的多種車型等),評(píng)論者經(jīng)常就某個(gè)或某些屬性(如汽車的性能、部件等)進(jìn)行比較,以區(qū)分優(yōu)劣。比如:“發(fā)動(dòng)機(jī)強(qiáng)勁”、“車身平穩(wěn)”、“性價(jià)比高”等。在相關(guān)英文的評(píng)論中,Nozomi等[1]利用文本挖掘技術(shù),采用對(duì)象描述模式<Subject,Attribute,Value>,提出了一種從產(chǎn)品評(píng)論中抽取帶有主觀傾向性的對(duì)象描述語(yǔ)句的半自動(dòng)方法。柴玉梅等[2]對(duì)Web文本的褒貶傾向性進(jìn)行了研究。該文介紹了Web文本褒貶傾向性分類的原理和實(shí)現(xiàn)方法,特征選用已有的特征選擇方法與褒貶特征提取技術(shù)進(jìn)行選擇,使用幾種分類算法實(shí)現(xiàn)了名人網(wǎng)頁(yè)的褒貶傾向性分類。

      文獻(xiàn)[3]提出采用關(guān)聯(lián)對(duì)<產(chǎn)品特征,情感詞匯>的方式來描述產(chǎn)品特性和其評(píng)價(jià)詞匯間的修飾關(guān)系。關(guān)聯(lián)對(duì)的情感傾向直接影響到產(chǎn)品評(píng)論文本的情感傾向。在實(shí)際應(yīng)用中,它也是產(chǎn)品評(píng)價(jià)的重要依據(jù)。然而,該方法有一定的局限性,當(dāng)評(píng)論句中出現(xiàn)了否定性副詞時(shí),該關(guān)聯(lián)對(duì)就不能從客觀上正確地表達(dá)評(píng)論句中對(duì)產(chǎn)品的情感傾向,因而,提出了關(guān)聯(lián)三元組<Pfeature,F(xiàn)lag,Sword>。

      1 關(guān)聯(lián)三元組

      1.1 考察情感詞與否定性副詞搭配的必要性

      在眾多網(wǎng)上發(fā)布的汽車評(píng)論中,評(píng)論者經(jīng)常就某個(gè)或某些屬性,如汽車的部件、性能等進(jìn)行比較,以區(qū)分優(yōu)劣。比如:“車身平穩(wěn)”、“發(fā)動(dòng)機(jī)有力”等。文獻(xiàn)[3]將這些評(píng)價(jià)的對(duì)象(汽車的某些特征)獨(dú)立出來,稱其為產(chǎn)品特征。將能夠反映產(chǎn)品特征情感傾向的詞匯稱為情感詞匯。將產(chǎn)品特征和與之關(guān)聯(lián)的情感詞匯組合起來,稱為關(guān)聯(lián)對(duì)。這樣,便可以抽象地將<產(chǎn)品特征,情感詞匯>關(guān)聯(lián)對(duì)理解為句子的一個(gè)最基本的情感描述成分。通過對(duì)關(guān)聯(lián)對(duì)情感傾向的分析,得到文本中評(píng)論句子對(duì)產(chǎn)品特征的客觀情感傾向判別。

      例句1:方向盤偏重,燈光偏暗。

      從句子中抽取出來的關(guān)聯(lián)對(duì)以及關(guān)聯(lián)對(duì)情感傾向值:<方向盤,重>-1、<燈光,暗>-1。

      由上例可以看出,兩個(gè)關(guān)聯(lián)對(duì)所體現(xiàn)出來的情感傾向均為負(fù)面,與文本中評(píng)論句子對(duì)產(chǎn)品性能的評(píng)價(jià)傾向是一致的。再看下面一個(gè)例句。

      例句2:這車的空間不大。

      從句子中抽取出來的關(guān)聯(lián)對(duì)以及關(guān)聯(lián)對(duì)情感傾向值:<空間,大>+1。

      在這個(gè)例子中,評(píng)論句子對(duì)產(chǎn)品性能的評(píng)價(jià)傾向?yàn)樨?fù)面,僅從關(guān)聯(lián)對(duì)判斷,對(duì)產(chǎn)品特征的評(píng)價(jià)傾向?yàn)檎?,二者不統(tǒng)一。究其原因,主要是沒有考慮評(píng)論句子中的否定性副詞“不”,所以出現(xiàn)了關(guān)聯(lián)對(duì)與句子中產(chǎn)品特征情感傾向的不一致情況。綜上所述,否定性副詞會(huì)影響關(guān)聯(lián)對(duì)中情感詞的情感極性,所以有必要對(duì)這類副詞與情感詞的搭配進(jìn)行深入研究。

      1.2 關(guān)聯(lián)三元組的定義

      基于上面的分析,為了保證關(guān)聯(lián)對(duì)與文本評(píng)論句中體現(xiàn)出來的產(chǎn)品特征情感傾向的一致性,我們有必要將是否含有否定性副詞這一特征嵌入到關(guān)聯(lián)對(duì)中,這樣便形成了<Pfeature,F(xiàn)lag,Sword>關(guān)聯(lián)三元組。其中,Pfeature表示產(chǎn)品特征;Sword表示情感詞匯;Flag是一個(gè)判別標(biāo)志,若情感詞匯前未出現(xiàn)否定性副詞時(shí),F(xiàn)lag值為+1,否則其值為-1。這樣,對(duì)于一個(gè)產(chǎn)品評(píng)論句子,核心的部分就是評(píng)論涉及的產(chǎn)品特征、評(píng)價(jià)產(chǎn)品特征所使用的情感詞匯、以及否定性副詞判別標(biāo)志。以后就可以使用這三個(gè)核心部分代表一個(gè)句子。下面是典型的一個(gè)汽車產(chǎn)品評(píng)論句子。

      “速騰的動(dòng)力和外型雖好,但安全系數(shù)不高?!?/p>

      在上面句子中,可以提取以下關(guān)聯(lián)三元組,作為句子的核心部分。<動(dòng)力,+1,好>、<外型,+1,好>、<安全系數(shù),-1,高>。

      顯然,上面句子完全可以用這三個(gè)關(guān)聯(lián)三元組代替,而且很好得反映了評(píng)論句子當(dāng)中對(duì)三個(gè)產(chǎn)品特征的正確評(píng)價(jià)。對(duì)動(dòng)力的評(píng)價(jià)為正面,對(duì)外形的評(píng)價(jià)為正面,對(duì)安全系數(shù)的評(píng)價(jià)為負(fù)面。

      2 最大熵模型及其特征設(shè)計(jì)

      2.1 最大熵模型

      最大熵模型是用來進(jìn)行概率估計(jì)的。假設(shè)y是某個(gè)事件,e是事件y發(fā)生的環(huán)境,那么y和e的聯(lián)合概率,記為p(y,e)。若用Y={y1,y2,…,yk}表示所有事件的集合,E={e1,e2,…,el}表示所有的上下文環(huán)境集合,那么正確的p應(yīng)滿足熵最大原則:

      同時(shí),p要服從樣本數(shù)據(jù)中已知的統(tǒng)計(jì)證據(jù)。在最大熵模型中,通常采用特征來表示證據(jù)。如果限制在訓(xùn)練集中,我們將訓(xùn)練語(yǔ)料中體現(xiàn)的隨機(jī)向量(y,e)的經(jīng)驗(yàn)知識(shí)設(shè)為特征函數(shù)fi,它相對(duì)于經(jīng)驗(yàn)概率分布(y,e)的期望值與相對(duì)于模型p(y|e)的期望值應(yīng)相同,即:

      式(2~3)稱為約束。這樣,可以定義很多這樣相關(guān)的或不相關(guān)的特征函數(shù),從而可以很靈活地將許多分散、零碎的知識(shí)組合起來完成同一個(gè)任務(wù)。給定z個(gè)特征函數(shù)f1,f2,…,fz,我們可以得到所求概率分布的z組約束為:

      其中,zλ(e)是歸一化因子。

      λi是關(guān)聯(lián)于特征函數(shù)fi的一個(gè)參數(shù),可以表示特征函數(shù)fi的重要程度。如果通過在訓(xùn)練集上進(jìn)行學(xué)習(xí),知道了λi的值,就得到了概率分布函數(shù),完成了最大熵模型的構(gòu)造,就可以對(duì)未知事件進(jìn)行分類。

      對(duì)于本文研究的問題來說,事件y可以是產(chǎn)品特征和情感詞匯具有關(guān)聯(lián)關(guān)系,也可以是產(chǎn)品特征和情感詞匯無關(guān)聯(lián)關(guān)系。因此,特征函數(shù)可定義成二值函數(shù)為f∶e={0,1},fi=1表示環(huán)境ei下的產(chǎn)品特征與情感詞語(yǔ)組合是關(guān)聯(lián)對(duì),反之fi=0表示環(huán)境ei下的產(chǎn)品特征與情感詞語(yǔ)組合不是關(guān)聯(lián)對(duì)。

      2.2 最大熵模型的特征設(shè)計(jì)

      特征設(shè)計(jì)是基于最大熵原理建模成功的關(guān)鍵,這些特征來源于訓(xùn)練數(shù)據(jù)中的證據(jù)。就尋求產(chǎn)品特征與情感詞搭配而言,可以從不同角度進(jìn)行特征設(shè)計(jì),但是需要遵循一條原則——設(shè)計(jì)的特征樣本期望盡量接近總體期望。在文獻(xiàn)[3]中,列出了多種最大熵模板的特征選擇方法,經(jīng)過實(shí)驗(yàn)驗(yàn)證,其中復(fù)合模板7的所有評(píng)價(jià)指標(biāo)在所有模板之中是最好的。該模板主要是基于詞性與詞間距信息的。考慮兩個(gè)目標(biāo)詞語(yǔ)環(huán)境中的幾類信息:一是環(huán)境中兩個(gè)目標(biāo)詞前后兩個(gè)詞位的詞性信息,二是兩個(gè)目標(biāo)詞間的距離,距離越小,兩個(gè)目標(biāo)詞成為關(guān)聯(lián)對(duì)的可能性越大,反之越小。當(dāng)然,該模板還包括另外兩個(gè)附加信息。否定性副詞起到使情感傾向取反的作用,在評(píng)論文本中,否定性副詞往往會(huì)與情感詞同時(shí)出現(xiàn),因此,對(duì)此附加信息的提取有利于最大熵模板對(duì)情感詞的識(shí)別?!暗摹弊纸Y(jié)構(gòu)表明產(chǎn)品特征是名詞性短語(yǔ)的中心詞,比如,“別克車的發(fā)動(dòng)機(jī)”,其中心詞為“發(fā)動(dòng)機(jī)”,這樣,使得在提取產(chǎn)品特征時(shí)更加方便。復(fù)合模板設(shè)計(jì)為:候選產(chǎn)品特征和情感詞語(yǔ)前后各兩個(gè)詞的詞性+候選產(chǎn)品特征與情感詞語(yǔ)間的距離+候選情感詞語(yǔ)之前第一個(gè)標(biāo)點(diǎn)符號(hào)和情感詞語(yǔ)之間是否有否定性副詞+候選產(chǎn)品特征前面的第一個(gè)詞為“的”字。共十一個(gè)特征,具體如下:

      AposTag-2,AposTag-1,AposTag+1,AposTag+2,SposTag-2,SposTag-1,SposTag+1,SposTag+2,Distance,F(xiàn)d,De1

      其中模板中各符號(hào)分別表示:

      AposTag-2表示產(chǎn)品特征前第二個(gè)詞的詞性;AposTag-1表示產(chǎn)品特征前第一個(gè)詞的詞性;

      AposTag+1表示產(chǎn)品特征后第一個(gè)詞的詞性;AposTag+2表示產(chǎn)品特征后第二個(gè)詞的詞性;

      SposTag-2表示情感詞前第二個(gè)詞的詞性;SposTag-1表示情感詞前第一個(gè)詞的詞性;

      SposTag+1表示情感詞后第一個(gè)詞的詞性;SposTag+2表示情感詞后第二個(gè)詞的詞性;

      Distance表示產(chǎn)品特征與情感詞的距離;

      Fd 表示情感詞前第一個(gè)標(biāo)點(diǎn)符號(hào)和情感詞語(yǔ)之間是否有否定性副詞,其值為“1”或“0”;

      De1 表示產(chǎn)品特征詞前第一個(gè)詞是否為“的”,其值為“1”或“0”。

      例如,訓(xùn)練數(shù)據(jù)中有句子“速騰/n的/u安全系數(shù)/n讓/v人們/r感到/v失望/a。/w”,且對(duì)詞語(yǔ)“安全系數(shù)”和“失望”的組合認(rèn)定是關(guān)聯(lián)對(duì)。

      通過復(fù)合模板可以構(gòu)造如下特征函數(shù):

      3 Bootstrapping方法及其算法設(shè)計(jì)

      3.1 Bootstrapping方法

      Bootstrapping[4]是一種被廣泛應(yīng)用于知識(shí)獲取的機(jī)器學(xué)習(xí)技術(shù)。復(fù)旦大學(xué)王秉卿,張姝等人對(duì)中文語(yǔ)料不進(jìn)行分詞的情況下,使用該技術(shù)從語(yǔ)料中抽取情感詞,通過詞和模板之間的關(guān)系計(jì)算詞的情感傾向性。這種機(jī)器學(xué)習(xí)技術(shù)首先給定種子集合,通過學(xué)習(xí)器采用自舉的方式來學(xué)習(xí)新的種子樣本。這樣用少量的標(biāo)注訓(xùn)練樣本就可以達(dá)到傳統(tǒng)方法的大標(biāo)注訓(xùn)練集訓(xùn)練效果。

      3.2 基于Bootstrapping和最大熵方法獲取關(guān)聯(lián)三元組的算法設(shè)計(jì)

      采用基于Bootstrapping的學(xué)習(xí)方法,利用文獻(xiàn)[3]中已經(jīng)訓(xùn)練好的最大熵分類器,擬采取兩個(gè)步驟來獲取關(guān)聯(lián)三元組。步驟1:利用最大熵分類器結(jié)合Bootstrapping方法取得文本評(píng)論句中產(chǎn)品特征與情感詞匯關(guān)聯(lián)對(duì);步驟2:根據(jù)最大熵模板特征Fd的值來獲取否定性副詞與情感詞的搭配,得到關(guān)聯(lián)三元組。其中步驟1的執(zhí)行流程可以細(xì)化如下:(1)輸入初始情感詞集;(2)根據(jù)情感詞提取關(guān)聯(lián)對(duì)的最大熵模型特征;(3)執(zhí)行張樂博士的Maxent包,得到關(guān)聯(lián)對(duì)判斷結(jié)果;(4)根據(jù)判斷結(jié)果并進(jìn)行適當(dāng)人工校準(zhǔn)提取關(guān)聯(lián)對(duì);(5)提取校準(zhǔn)后關(guān)聯(lián)對(duì)中的特征;(6)根據(jù)特征詞提取關(guān)聯(lián)對(duì)的最大熵模型特征;(7)執(zhí)行Maxent包,得到關(guān)聯(lián)對(duì)判斷結(jié)果;(8)根據(jù)判斷結(jié)果并進(jìn)行適當(dāng)人工校準(zhǔn)提取關(guān)聯(lián)對(duì);(9)提取校準(zhǔn)后關(guān)聯(lián)對(duì)中的情感詞;(10)判斷該情感詞集是否與上次相同,若不相同則重復(fù)執(zhí)行步驟(2)到步驟(9),若相同則算法結(jié)束。

      4 實(shí)驗(yàn)結(jié)果與分析

      在實(shí)驗(yàn)之前,我們進(jìn)行必要的數(shù)據(jù)準(zhǔn)備。

      (1)文本準(zhǔn)備;在網(wǎng)上的汽車評(píng)論文本中,往往可以從評(píng)論者的立場(chǎng)、觀點(diǎn)出發(fā)判斷出該篇文本對(duì)汽車的總體評(píng)價(jià)。評(píng)價(jià)結(jié)果分成兩類,即正面和負(fù)面。我們從汽車評(píng)論網(wǎng)上下載了對(duì)某款汽車的評(píng)論文本。用人工方式判斷其情感傾向,最后抽取傾向?yàn)檎婧拓?fù)面的文本各100篇,共200篇文本。把這200篇文本作為研究對(duì)象。

      (2)情感詞表的準(zhǔn)備;在文本的情感分類研究工作中,出現(xiàn)于文本中且?guī)в星楦袃A向的詞匯是文本重要的組成部分,對(duì)這些詞匯的褒貶義判別也是相當(dāng)重要的環(huán)節(jié)之一。文獻(xiàn)[5]中的情感詞詞表SWT對(duì)常用情感詞匯的傾向作了較明確的標(biāo)注,將該情感詞詞表作為后續(xù)工作的詞匯資源。

      (3)情感詞種子集的準(zhǔn)備;將前面提到的情感詞詞表中的詞匯與經(jīng)過分詞處理的200篇文本通過算法進(jìn)行詞匯對(duì)照。選取出現(xiàn)頻次最高的20個(gè)詞作為情感詞種子集。這20個(gè)詞為:好、不錯(cuò)、高、大、差、出色、問題、小、提供、提高、強(qiáng)、達(dá)到、新、喜歡舒適、全新、優(yōu)勢(shì)、增加、滿意、不好。

      這樣,在前面工作的基礎(chǔ)上,利用3.2節(jié)中設(shè)計(jì)的算法首先進(jìn)行文本中特征與情感詞關(guān)聯(lián)對(duì)的提取,然后再根據(jù)最大熵模板特征Fd的值來獲取否定性副詞與情感詞的搭配,得到關(guān)聯(lián)三元組。實(shí)驗(yàn)結(jié)果見表1。

      表1 關(guān)聯(lián)對(duì)提取及否定性副詞與情感詞搭配的實(shí)驗(yàn)結(jié)果

      結(jié)果表明,基于最大熵與Bootstrapping的關(guān)聯(lián)對(duì)獲取實(shí)驗(yàn)中,F(xiàn)值較低。否定性副詞與情感詞的搭配實(shí)驗(yàn)中,F(xiàn)值較高,關(guān)于前者,本文只作了初步研究,還有待進(jìn)一步深入。

      5 結(jié)束語(yǔ)

      本文首先論述了否定性副詞與情感詞搭配的必要性,解釋了什么是關(guān)聯(lián)三元組;利用已訓(xùn)練好的最大熵分類器,從情感詞的種子集開始應(yīng)用Bootstrapping方法來獲得文本中的關(guān)聯(lián)對(duì);利用最大熵模板中特征Fd的信息來判斷否定性副詞與情感詞的搭配,獲得了關(guān)聯(lián)三元組。這樣,利用關(guān)聯(lián)三元組,可將一個(gè)文本集表示成非完備信息系統(tǒng),后續(xù)的工作便可以在非完備信息系統(tǒng)的基礎(chǔ)上繼續(xù)深入研究。

      [1]Nozomi Kobayashi,Kentaro Inui,Yuji Matsumoto.Collecting evaluative expressions for opinion extraction[A].IJCNLP 2004.Lecture Notes in Artificial Intelligence[C].Sanya city,China.2004:584-589.

      [2]柴玉梅,熊德蘭,紅英.Web文本的褒貶華傾向性分類研究[J].計(jì)算機(jī)工程,2006(17):89-91.

      [3]李偉.關(guān)聯(lián)對(duì)識(shí)別方法及其在句子情感分類中的應(yīng)用[D].太原:山西大學(xué),2008.

      [4]陳文亮.基于Bootstrapping的文本分類模型[J].中文信息學(xué)報(bào),2004,19(2):86-92.

      [5]王素格.基于Web的評(píng)論文本情感分類問題研究[D].上海:上海大學(xué),2008.

      〔責(zé)任編輯 高?!?/p>

      Correlative Triple Recognition based on Maximum Entropy and Bootstrapping

      ZHAO Nai-gang,DENG Jing-shun
      (School of Mathematics&Computer Science,Shanxi Datong University,Datong Shanxi,037009)

      Based on the shortcoming of“Product feature,Sentimental word”,the new concept of“Pfeature,F(xiàn)lag,Sword”are proposed after discussing the necessary to match the sentimental words with denying adverbial words,which can precisely show the objective sentimental tendency of the text sentence.Two steps are adopted to acquire the Correlative Triple.First,the pair<Pfeature,Sword>is gained by combining Bootstrapping and the Maximum Entropy model trained well as a classifier.Second,the negative adverbs before sentimental words are picked up by using an algorithm,they consist of Correlative Triple.

      maximum entropy;bootstrapping;correlative triple;sentimental tendency

      O177.1

      A

      1674-0874(2012)06-0003-04

      2012-09-15

      山西大同大學(xué)教研重點(diǎn)項(xiàng)目[XJY2012105]

      趙乃剛(1975-),男,山西應(yīng)縣人,碩士,講師,研究方向:數(shù)據(jù)挖掘。

      猜你喜歡
      否定性三元組副詞
      基于語(yǔ)義增強(qiáng)雙編碼器的方面情感三元組提取
      軟件工程(2024年12期)2024-12-28 00:00:00
      基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
      The Wheels on the Bus
      副詞“好容易”及其詞匯化成因
      關(guān)于余撓三元組的periodic-模
      黑格爾哲學(xué)之于馬克思主義哲學(xué)的意義
      談數(shù)學(xué)中的反證法
      副詞和副詞詞組
      三元組輻射場(chǎng)的建模與仿真
      論羅素和迪莫斯關(guān)于“否定性事實(shí)”的觀點(diǎn)差異
      古交市| 金沙县| 苏州市| 鹿邑县| 紫阳县| 虎林市| 临武县| 万州区| 西峡县| 丁青县| 柳州市| 高雄县| 万源市| 剑阁县| 西林县| 财经| 正宁县| 宝鸡市| 拉孜县| 阳山县| 宁河县| 青龙| 金昌市| 楚雄市| 崇左市| 弥勒县| 星子县| 武清区| 岳西县| 石河子市| 华亭县| 万盛区| 盐城市| 宜黄县| 盘锦市| 格尔木市| 河池市| 汉川市| 缙云县| 锡林郭勒盟| 东港市|