• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融合用戶信息和評(píng)價(jià)對(duì)象信息的文本情感分類

    2018-12-06 03:37:34李俊杰宗成慶
    關(guān)鍵詞:注意力向量對(duì)象

    李俊杰,宗成慶,3*

    (1.中國(guó)科學(xué)院自動(dòng)化研究所,模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室 北京 100190;2.中國(guó)科學(xué)院大學(xué)計(jì)算機(jī)與控制學(xué)院,北京 100190;3.中國(guó)科學(xué)院腦科學(xué)與智能技術(shù)卓越創(chuàng)新中心,北京 100190)

    高速發(fā)展的互聯(lián)網(wǎng)給用戶提供了眾多的服務(wù)和產(chǎn)品評(píng)論平臺(tái),例如餐飲領(lǐng)域的大眾點(diǎn)評(píng)和Yelp、電影領(lǐng)域的豆瓣電影和互聯(lián)網(wǎng)電影資料庫(kù)(IMDb)等.這些平臺(tái)包含了大量的用戶評(píng)論,對(duì)這些評(píng)論文本進(jìn)行情感分類是自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn)之一.本研究關(guān)注的任務(wù)是文檔級(jí)別的情感分類,目的是根據(jù)文本所表達(dá)的含義和情感信息將文本劃分成兩種(褒義的或貶義的)或幾種類型[1].傳統(tǒng)方法[2-5]主要是從文本中抽取特征,用機(jī)器學(xué)習(xí)的方法訓(xùn)練分類器,分類效果取決于特征的手動(dòng)設(shè)計(jì)和選擇.

    繼深度學(xué)習(xí)方法在計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別等領(lǐng)域取得成功之后,越來(lái)越多的學(xué)者關(guān)注如何用這項(xiàng)技術(shù)來(lái)提高情感分類的效果[6-9].基于深度學(xué)習(xí)的文本情感分類較傳統(tǒng)方法在準(zhǔn)確率上有了大幅提升,但現(xiàn)有模型仍然存在著一個(gè)缺點(diǎn):這些模型只考慮文本信息而忽略了評(píng)論發(fā)布者以及評(píng)論中評(píng)價(jià)對(duì)象的信息,然而這兩類信息對(duì)情感分類是非常有用的,主要體現(xiàn)在三個(gè)方面:1) 用戶的用詞差異.不同的用戶有著各自的用詞習(xí)慣和特點(diǎn).假設(shè)評(píng)論的得分范圍為1~3分(其中1,2和3分分別表示貶義、中性和褒義),一個(gè)苛刻的用戶可能在評(píng)論中屢次出現(xiàn)“好”,“不錯(cuò)”等這樣表現(xiàn)強(qiáng)烈褒義的詞匯,但是最后的整體得分可能是2分.而在一個(gè)較為隨意的用戶發(fā)表的評(píng)論中,可能會(huì)出現(xiàn)“一般”“還行”等,最后的得分卻是3分.充分考慮不同用戶的用詞習(xí)慣,對(duì)情感分類是有幫助的.2) 用 戶對(duì)不同評(píng)價(jià)對(duì)象的不同偏好.面對(duì)同一個(gè)產(chǎn)品,不同的用戶可能會(huì)關(guān)注它的不同屬性,這些屬性也常被稱為評(píng)價(jià)對(duì)象.例如在酒店領(lǐng)域,評(píng)價(jià)對(duì)象包括“服務(wù)”、“價(jià)格”、“地理位置”等,在選擇酒店時(shí),一些用戶可能會(huì)比較在意“價(jià)格”,而另外一部分用戶可能會(huì)更關(guān)注于“地理位置”.針對(duì)不同的用戶,區(qū)別對(duì)待這些評(píng)價(jià)對(duì)象對(duì)情感極性判別會(huì)有幫助.3) 評(píng)價(jià)對(duì)象的修飾詞差異.同樣的詞匯修飾不同的評(píng)價(jià)對(duì)象可能表達(dá)不同的情感極性.比如“長(zhǎng)”這個(gè)評(píng)價(jià)詞,修飾“手機(jī)的待機(jī)時(shí)間”時(shí),表示的是褒義,修飾“酒店的服務(wù)等待時(shí)間”時(shí),表示的是貶義.因此需要根據(jù)不同的評(píng)價(jià)對(duì)象區(qū)分對(duì)待詞匯.

    針對(duì)用戶的用詞差異,文獻(xiàn)[10-12]在傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)的模型中融入了用戶信息,使得該模型可以捕捉用戶在選詞上的差異性,然而上述工作沒(méi)有考慮用戶對(duì)不同評(píng)價(jià)對(duì)象的不同偏好以及評(píng)價(jià)對(duì)象的修飾詞差異.為了能將這兩類信息充分考慮,本研究提出了一個(gè)基于用戶和評(píng)價(jià)對(duì)象的層次化注意力網(wǎng)絡(luò)(hierarchical user aspect attention networks,HUAAN)模型,該模型首先利用一個(gè)層次化的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)編碼不同層級(jí)的信息,包括詞匯層、句子層、評(píng)價(jià)對(duì)象層以及文檔層;然后為了同時(shí)考慮用戶在用詞上的差異和對(duì)評(píng)價(jià)對(duì)象的不同偏好,在得到詞匯層和評(píng)價(jià)對(duì)象層的表示之后,引入了基于用戶的注意力機(jī)制來(lái)區(qū)分對(duì)待不同的詞匯和不同的評(píng)價(jià)對(duì)象;最后為了考慮評(píng)價(jià)對(duì)象的修飾詞差異,還引入了基于評(píng)價(jià)對(duì)象的詞匯層注意力機(jī)制來(lái)區(qū)分對(duì)待不同的評(píng)價(jià)對(duì)象對(duì)上下文詞匯的影響.

    1 HUAAN模型

    HUAAN模型的整體結(jié)構(gòu)如圖1所示,一共包含了5個(gè)部分:詞匯層編碼、詞匯層注意力機(jī)制、句子層編碼、句子層注意力機(jī)制和評(píng)價(jià)對(duì)象層注意力機(jī)制.表1給出了本研究使用的一些數(shù)學(xué)符號(hào)及其物理意義.

    圖1 HUAAN的結(jié)構(gòu)

    符號(hào)物理意義D數(shù)據(jù)集d,d一篇評(píng)論文本及其向量表示mD中所有評(píng)價(jià)對(duì)象的數(shù)目nd中句子的數(shù)目ai,ai第i個(gè)評(píng)價(jià)對(duì)象及其向量表示u,ud的發(fā)布者及其向量表示si,sid中的第i個(gè)句子及其向量表示lisi中的所有詞匯數(shù)目wij,wijsi中的第j個(gè)詞及其向量表示AijAij=1表示句子si里面包含評(píng)價(jià)對(duì)象ajAij=0表示句子si里面沒(méi)有包含評(píng)價(jià)對(duì)象ajhijd中wij的隱層向量表示hid中si的隱層向量表示xid中評(píng)價(jià)對(duì)象ai的向量表示αij,βij,γi詞匯層、句子層和評(píng)價(jià)對(duì)象層的注意力權(quán)重p評(píng)論文本d被賦予各個(gè)類別的概率分布pk評(píng)論文本d被賦予類別k的概率gd評(píng)論文本d對(duì)應(yīng)的情感類別C總類別數(shù)目

    假設(shè)有一個(gè)關(guān)于某個(gè)領(lǐng)域(例如酒店)的評(píng)論文本的數(shù)據(jù)集D,該領(lǐng)域有m個(gè)評(píng)價(jià)對(duì)象a1,a2,…,am, 它們分別表示“服務(wù)”、“位置”和“食物”等.d是D中的一篇評(píng)論文本,它的發(fā)布者為u.為了獲取評(píng)論文本描述的評(píng)價(jià)對(duì)象,本研究采用文獻(xiàn)[13-14]提出的關(guān)聯(lián)規(guī)則挖掘算法為每個(gè)句子賦予一個(gè)評(píng)價(jià)對(duì)象集合,這部分內(nèi)容將在2.1節(jié)詳細(xì)介紹.下面將介紹HUAAN基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory network,LSTM)[15]的序列編碼模塊及HUAAN的其它各個(gè)組成部分.

    1.1 基于LSTM的序列編碼

    由于HUAAN的建模過(guò)程是從詞匯到句子,再?gòu)木渥拥轿臋n,并且句子是一個(gè)詞匯的序列,文檔是句子的序列,因此序列模型是HUAAN的一個(gè)基本模塊.該模塊使用的模型是LSTM模型.LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種特殊形式,它通常被用于處理序列數(shù)據(jù)并且可以避免傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)出現(xiàn)的梯度爆炸或者是梯度消失的問(wèn)題.LSTM通過(guò)引入記憶單元和門的機(jī)制來(lái)捕捉序列中長(zhǎng)距離的依賴關(guān)系.LSTM的計(jì)算公式如下:

    it=σ(Wixt+Uiht-1),

    (1)

    ft=σ(Wfxt+Ufht -1),

    (2)

    ot=σ(Woxt+Uoht -1),

    (3)

    (4)

    (5)

    ht=tanh(ot⊙ct),

    (6)

    其中:σ表示logistic sigmoid函數(shù);⊙表示點(diǎn)乘的操作符;it、ft、ot和ct分別表示t時(shí)刻的輸入門、遺忘門、輸出門和記憶單元的激活向量,這些向量和隱層向量ht擁有相同的維度;Wi、Wf、Wo、Wc和Ui、Uf、Uo、Uc分別表示LSTM模型輸入門、遺忘門、輸出門和記憶單元的關(guān)于輸入向量和隱層向量的模型參數(shù).

    1.2 HUAAN模型基本部分介紹

    詞匯層編碼:HUAAN首先將句子si中的每個(gè)詞wij編碼成向量wij,然后使用雙向LSTM來(lái)編碼wij的上下文信息,從而得到它的隱層表示.具體計(jì)算方法如下:

    (7)

    (8)

    (9)

    詞匯層注意力機(jī)制:句子中所有的詞匯在組成句子的表示時(shí)具有不同的重要性,并且不同的用戶有著不同的用詞習(xí)慣以及同一個(gè)詞匯修飾不同的評(píng)價(jià)對(duì)象時(shí)體現(xiàn)的情感極性可能會(huì)有差異.于是,本研究引入基于用戶和評(píng)價(jià)對(duì)象的注意力機(jī)制來(lái)區(qū)別對(duì)待句子中不同的詞匯,計(jì)算方式如下:

    si=∑jαijhij,

    (10)

    其中,αij度量的是在考慮用戶信息和評(píng)價(jià)對(duì)象信息后,句子中第j個(gè)詞在構(gòu)建整個(gè)句子si的表示時(shí)的重要程度.用戶u和評(píng)價(jià)對(duì)象ai被編碼成向量u和ai. 由于句子si可能會(huì)包含多個(gè)評(píng)價(jià)對(duì)象,這些評(píng)價(jià)對(duì)象向量的平均向量ti被用來(lái)表示這個(gè)句子中評(píng)價(jià)對(duì)象的編碼向量:

    (11)

    然后用式(12)和(13)計(jì)算αij:

    (12)

    (13)

    其中,mij為未歸一化的注意力權(quán)重αij對(duì)應(yīng)的值,vw、Ww h、Ww u、Ww a和bw分別表示計(jì)算mij時(shí)的前饋神經(jīng)網(wǎng)絡(luò)中對(duì)應(yīng)的點(diǎn)積權(quán)重、隱層向量權(quán)重、用戶向量權(quán)重、評(píng)價(jià)對(duì)象向量權(quán)重和偏置.

    句子層編碼:在得到句子向量si之后,本研究使用雙向LSTM編碼句子并得到隱層表示hi:

    (14)

    (15)

    (16)

    句子層注意力機(jī)制:這里介紹的是如何從句子層的表示得到評(píng)價(jià)對(duì)象層的表示.由于一篇評(píng)論中可能會(huì)有幾個(gè)句子同時(shí)描述同一個(gè)評(píng)價(jià)對(duì)象,然而這些句子對(duì)形成該評(píng)價(jià)對(duì)象的表示時(shí)所起的作用是有差異的.句子的前后順序以及句子之間的關(guān)系可能都會(huì)影響該句子在構(gòu)成某評(píng)價(jià)對(duì)象表示時(shí)的重要性.于是本研究采用句子層注意力機(jī)制對(duì)這類差異進(jìn)行建模,其計(jì)算公式如下:

    (17)

    (18)

    xk=∑iβi khi,

    (19)

    其中,li k為未歸一化的注意力權(quán)重βi k對(duì)應(yīng)的值,vs、Ws h、Ws a和bs分別指的是計(jì)算li k時(shí)的前饋神經(jīng)網(wǎng)絡(luò)中對(duì)應(yīng)的點(diǎn)積權(quán)重、隱層向量權(quán)重、評(píng)價(jià)對(duì)象向量權(quán)重和偏置.

    評(píng)價(jià)對(duì)象層注意力機(jī)制:對(duì)于同樣的產(chǎn)品或者是服務(wù),不同用戶關(guān)注的東西會(huì)有差異.這種差異會(huì)導(dǎo)致最后的文檔表示的不同,進(jìn)而影響情感分類的結(jié)果.因此HUAAN在評(píng)價(jià)對(duì)象層時(shí)使用基于用戶的注意力機(jī)制來(lái)區(qū)分對(duì)待不同的評(píng)價(jià)對(duì)象,并最終得到整個(gè)評(píng)論文本的向量表示d[16-17]:

    (20)

    (21)

    d=∑iγixi,

    (22)

    其中,ri為未歸一化的注意力權(quán)重γi對(duì)應(yīng)的值,va、Wa h、Wa u和ba分別表示計(jì)算ri時(shí)的前饋神經(jīng)網(wǎng)絡(luò)中對(duì)應(yīng)的點(diǎn)積權(quán)重、隱層向量權(quán)重、用戶向量權(quán)重和偏置.

    1.3 文檔級(jí)別情感分類

    計(jì)算得到評(píng)論文本向量d后,可通過(guò)式(23)計(jì)算出評(píng)論文本d屬于各個(gè)類別的概率分布P,

    P=softmax(Wlhd+b),

    (23)

    其中Wlh和b分別表示計(jì)算概率時(shí)的softmax層對(duì)應(yīng)的權(quán)重參數(shù)和偏置.

    最后采用最小化負(fù)對(duì)數(shù)似然為訓(xùn)練目標(biāo):

    (24)

    其中,1{·}是一個(gè)示性函數(shù),當(dāng)函數(shù)內(nèi)部值為真時(shí),返回1,否則返回0.

    2 實(shí)驗(yàn)與分析

    2.1 實(shí)驗(yàn)設(shè)置

    為了驗(yàn)證HUAAN的有效性,在數(shù)據(jù)集IMDb和 Yelp2014中進(jìn)行測(cè)試,這2個(gè)數(shù)據(jù)集為Tang等[10]構(gòu)建的公開數(shù)據(jù)集.在進(jìn)行測(cè)試之前,需對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,本研究采用 Stanford CoreNLP[18]對(duì)數(shù)據(jù)進(jìn)行預(yù)處理:詞語(yǔ)切分、句子切分和詞性標(biāo)注.文獻(xiàn)[13-14]提出的關(guān)聯(lián)規(guī)則挖掘算法可以從評(píng)論文本中的每個(gè)句子挖掘評(píng)價(jià)對(duì)象.該算法從評(píng)論語(yǔ)料里抽取頻繁出現(xiàn)的名詞組成評(píng)價(jià)對(duì)象集合.之后,通過(guò)簡(jiǎn)單匹配句子里面的詞匯和評(píng)價(jià)對(duì)象集合里面的詞匯,為每個(gè)句子得到該句子描述的評(píng)價(jià)對(duì)象.假如一個(gè)句子里面的詞匯都沒(méi)有出現(xiàn)在評(píng)價(jià)對(duì)象集合中,這個(gè)句子會(huì)被賦予一個(gè)特殊的評(píng)價(jià)對(duì)象標(biāo)簽 “others(其他)”.這里設(shè)定評(píng)價(jià)對(duì)象的數(shù)目是100,其中包括這個(gè)特殊評(píng)價(jià)對(duì)象(others)的符號(hào).為了提高詞性標(biāo)注的準(zhǔn)確率和獲取評(píng)價(jià)對(duì)象集合的質(zhì)量,本研究刪除了包含超過(guò)100個(gè)詞的句子的評(píng)論文本.表2給出了預(yù)處理后數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù).

    表2 IMDb和Yelp2014數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)

    數(shù)據(jù)集按照8∶1∶1的比例劃分為訓(xùn)練集、開發(fā)集和測(cè)試集,使用準(zhǔn)確率A來(lái)度量整體情感分類的性能并使用均方根誤差RMSE來(lái)度量預(yù)測(cè)的標(biāo)簽與標(biāo)準(zhǔn)答案標(biāo)簽的差異性.

    采用文獻(xiàn)[11]中訓(xùn)練好的詞向量來(lái)初始化HUAAN中的詞向量,詞向量的維度取200.用戶和評(píng)價(jià)對(duì)象的編碼向量維度均設(shè)定為200,并且隨機(jī)初始化.LSTM隱層參數(shù)和記憶單元的維度均設(shè)定為200維.訓(xùn)練時(shí)使用adadelta算法更新參數(shù),并使用開發(fā)集來(lái)調(diào)整超參數(shù).

    2.2 基線系統(tǒng)

    HUAAN將與下面的基線系統(tǒng)進(jìn)行比較.

    1) Majority是一種啟發(fā)式的方法.首先統(tǒng)計(jì)得到訓(xùn)練集出現(xiàn)最多的標(biāo)簽,然后用這個(gè)標(biāo)簽作為所有測(cè)試集樣本的標(biāo)簽.

    2) Trigram+支持向量機(jī)(SVM)是一種傳統(tǒng)方法.以評(píng)論文本的一元語(yǔ)法、二元語(yǔ)法和三元語(yǔ)法作為特征來(lái)訓(xùn)練SVM分類器.

    3) AvgWordVec+SVM是一種很簡(jiǎn)單的基于詞向量的方法.通過(guò)平均評(píng)論中所有詞匯的詞向量得到評(píng)論向量,然后將這個(gè)評(píng)論向量作為特征來(lái)訓(xùn)練SVM分類器.

    4) HAN[19]用一個(gè)層次化的模型對(duì)評(píng)論進(jìn)行建模,并且使用注意力機(jī)制來(lái)區(qū)分對(duì)待不同的詞匯.該方法僅僅依賴文本信息,并取得了在僅僅考慮文本信息的情況下目前的最好結(jié)果.

    5) NSC+UPA[11]是目前最好的模型.通過(guò)考慮用戶信息和產(chǎn)品信息來(lái)提高文檔級(jí)別情感分類的效果.

    2.3 模型對(duì)比

    表3給出了HUAAN及基線系統(tǒng)的情感分類結(jié)果,這些結(jié)果可以分為2組:1) 僅僅考慮文本信息的,2) 同時(shí)考慮文本和用戶信息.

    表3 IMDb和Yelp2014數(shù)據(jù)集上的情感分類結(jié)果

    注:HUAAN-user為HUAAN的變體,刪減了用戶信息;NSC+UPA-pro為NSC+UPA的變體,刪減了產(chǎn)品信息.

    第1組的實(shí)驗(yàn)結(jié)果表明Majority效果非常差,因?yàn)樗鼪](méi)有包含任何的文本信息.基于一元語(yǔ)法、二元語(yǔ)法和三元語(yǔ)法的Trigram+SVM模型在文檔級(jí)別情感分類表現(xiàn)較好,遠(yuǎn)好于基于平均詞向量的AvgWordVec SVM模型.HAN通過(guò)用一個(gè)層次化的模型對(duì)文本進(jìn)行建模,取得了更好的結(jié)果.最后,HUAAN-user比HAN、AvgWordVec+SVM和Trigram+SVM在IMDb數(shù)據(jù)集上的情感分類準(zhǔn)確率分別高出1.7,12.3和2.1個(gè)百分點(diǎn),在Yelp2014數(shù)據(jù)集上分別高出了1.4,11.3和12.0個(gè)百分點(diǎn).

    第2組的實(shí)驗(yàn)結(jié)果表明,用戶信息確實(shí)對(duì)文檔的情感分類效果有幫助.當(dāng)考慮了用戶信息之后,HUAAN比HUAAN-user在IMDb和Yelp2014的準(zhǔn)確率分別高出4.9和1.5個(gè)百分點(diǎn).與當(dāng)前最先進(jìn)系統(tǒng)NSC+UPA相比,HUAAN也取得了接近的實(shí)驗(yàn)結(jié)果.值得一提的是NSC+UPA不僅考慮了用戶信息,還用同樣的方式考慮了產(chǎn)品信息,然而HUAAN卻只考慮了用戶信息.為了公平比較HUAAN和NSC+UPA,本研究測(cè)試了NSC+UPA去掉產(chǎn)品信息后的模型NSC+UPA-pro的結(jié)果.與NSC+UPA-pro相比,HUAAN在數(shù)據(jù)集IMDB和Yelp2014上的準(zhǔn)確率分別高出了0.4和1.2個(gè)百分點(diǎn).這表明在同等的條件下HUAAN模型要優(yōu)于NSC+UPA.

    2.4 詞匯層、句子層和評(píng)價(jià)對(duì)象層的不同注意力模型的作用

    本研究測(cè)試了幾種注意力機(jī)制模型在HUAAN不同層的作用,當(dāng)測(cè)試某一層時(shí),只改變當(dāng)前層的注意力機(jī)制,其他層的注意力機(jī)制與HUAAN相同,結(jié)果如表4所示:

    1) 與AVG相比,詞匯層、句子層和評(píng)價(jià)對(duì)象層的ATT模型都能提升情感分類的效果.

    2) 與ATT相比,UsrATT和AspATT在各層都對(duì)情感分類效果有提升,表明本研究提出的這兩種機(jī)制可以很好地捕捉到用戶和評(píng)價(jià)對(duì)象在不同層的特點(diǎn).

    3) HUAAN在詞匯層的變體實(shí)驗(yàn)結(jié)果表明,引入U(xiǎn)srATT會(huì)比引入AspATT效果要好.這個(gè)現(xiàn)象說(shuō)明詞匯層面用戶的差異性會(huì)比評(píng)價(jià)對(duì)象的差異性對(duì)情感分類的影響更大.當(dāng)這兩者被同時(shí)考慮時(shí),模型可以取得最好的結(jié)果.

    2.5 基于詞匯層注意力權(quán)重展示的樣例分析

    為了展示HUAAN可以很好地捕捉不同的用戶用詞偏好,給出如表5所示(詞匯底色越深表示該詞匯的注意力權(quán)重越大)的例子.這個(gè)例子包含的兩句話,分別是“The hotel is really good with nothing.”和“The food is very good and the hotel is well located.”.前句由用戶A所寫,后句由用戶B發(fā)布.這兩句話都含有詞匯“good”,但是兩句話出現(xiàn)在不同的評(píng)論中:第一句話出現(xiàn)在一個(gè)評(píng)分為2星的評(píng)論里而第二句話出現(xiàn)在一個(gè)評(píng)分為5星的評(píng)論里,因此在預(yù)測(cè)這兩篇評(píng)論時(shí),詞匯“good”的作用是不同的.HAN使用局部注意力機(jī)制來(lái)獲取詞匯權(quán)重?zé)o法區(qū)分這兩句話中“good”的差異,均賦予了很高的注意力權(quán)重;但是HUAAN基于用戶的模型區(qū)分對(duì)待這個(gè)詞匯,進(jìn)而獲得更高的準(zhǔn)確率.

    表4 不同的注意力機(jī)制模型的情感分類效果

    注:AVG為平均池化層注意力機(jī)制;ATT是局部語(yǔ)義注意力模型[13];UsrATT為本研究提出的基于用戶的注意力機(jī)制;AspATT為本研究提出的基于評(píng)價(jià)對(duì)象的注意力機(jī)制;Usr+Asp ATT為將基于用戶的注意力機(jī)制和基于評(píng)價(jià)對(duì)象的注意力機(jī)制融合.HUAAN在詞匯層、句子層和評(píng)價(jià)對(duì)象層分別采用的是Usr+Asp ATT,AspATT和UsrAtt.

    3 相關(guān)工作

    情感分類是情感分析[20-21]中的一個(gè)很典型的問(wèn)題.繼深度學(xué)習(xí)方法在計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別等領(lǐng)域取得成功之后,越來(lái)越多的學(xué)者關(guān)注如何用這項(xiàng)技術(shù)來(lái)提高情感分類的效果.它最大的優(yōu)勢(shì)就是不依賴人工定義特征,自動(dòng)從文本中抽取有用的特征來(lái)做分類.Socher等[6-7,22]構(gòu)建了一系列的遞歸神經(jīng)網(wǎng)絡(luò)的模型來(lái)學(xué)習(xí)句子的表示,取得了很好的效果.Kim[23]采用卷積神經(jīng)網(wǎng)絡(luò)做情感分類也取得了不錯(cuò)的結(jié)果.

    表5 詞匯層注意力權(quán)重展示

    很多工作[19,24]使用層次化的模型對(duì)文檔建模,通過(guò)得到詞匯層和句子層的語(yǔ)義表示得到整個(gè)文檔的語(yǔ)義表示,這類方法在文檔級(jí)別情感分類中取得了非常好的效果.盡管如此,這些工作都只關(guān)注于文本內(nèi)容本身而忽視了發(fā)布文本的用戶,然而這些用戶卻對(duì)確定文本的傾向性有著至關(guān)重要的作用.目前已有一些工作[10-12,25-28]將用戶信息引入到情感分類中:Tang等[10]在卷積網(wǎng)絡(luò)的模型中添加用戶偏好的矩陣和向量;Chen等[11]將用戶表示成一個(gè)向量,然后將其融合到一個(gè)層次化的模型來(lái)考慮用戶信息對(duì)情感分類的作用;Amplayo等[27]研究了針對(duì)冷啟動(dòng)的用戶,如何融入用戶信息來(lái)提升情感分類的效果.盡管這些方法都取得了較好的效果,但是它們對(duì)用戶信息的考慮還不夠充分,僅考慮了用戶對(duì)不同詞匯的偏好,而忽略了用戶對(duì)不同評(píng)價(jià)對(duì)象的喜好差異.本研究提出的HUAAN模型可以充分考慮用戶信息并同時(shí)考慮了這兩類信息,且在相同條件下優(yōu)于NSC+UPA系統(tǒng).

    4 結(jié) 論

    本研究提出了HUAAN模型來(lái)對(duì)評(píng)論文本進(jìn)行情感分類,該模型用一個(gè)層次化的結(jié)構(gòu)對(duì)詞匯信息、句子信息、評(píng)價(jià)對(duì)象信息和用戶信息進(jìn)行編碼,并且引入基于用戶的注意力機(jī)制來(lái)充分考慮詞匯層面的用戶偏好和評(píng)價(jià)對(duì)象層面的用戶偏好.通過(guò)在兩個(gè)公開的數(shù)據(jù)集中做的實(shí)驗(yàn)表明,融入了用戶信息和評(píng)價(jià)對(duì)象信息之后,HUAAN能在同等條件下超過(guò)NSC+UPA系統(tǒng)的情感分類準(zhǔn)確率.

    進(jìn)一步的研究工作將著重從以下兩個(gè)方面入手:

    1) 本研究?jī)H使用了最簡(jiǎn)單的評(píng)價(jià)對(duì)象抽取算法來(lái)抽取文本中的評(píng)價(jià)對(duì)象,下一步可以嘗試更加復(fù)雜的評(píng)價(jià)對(duì)象抽取的方法,對(duì)比不同評(píng)價(jià)對(duì)象抽取算法對(duì)模型的影響.

    2) 本研究?jī)H使用了用戶本身信息,還可以拓展為用戶的屬性,如年齡、地域等,下一步可以嘗試考慮如何引入這類信息到本研究的模型中,用來(lái)更好地提升情感分類的效果.

    猜你喜歡
    注意力向量對(duì)象
    神秘來(lái)電
    睿士(2023年2期)2023-03-02 02:01:09
    向量的分解
    讓注意力“飛”回來(lái)
    聚焦“向量與三角”創(chuàng)新題
    攻略對(duì)象的心思好難猜
    意林(2018年3期)2018-03-02 15:17:24
    “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
    基于熵的快速掃描法的FNEA初始對(duì)象的生成方法
    A Beautiful Way Of Looking At Things
    向量垂直在解析幾何中的應(yīng)用
    區(qū)間對(duì)象族的可鎮(zhèn)定性分析
    文山县| 扎赉特旗| 周至县| 巩义市| 宝丰县| 连山| 文山县| 鹤庆县| 博野县| 庐江县| 东港市| 永善县| 漾濞| 青海省| 桓台县| 怀集县| 达孜县| 教育| 长白| 措美县| 横山县| 甘德县| 西乡县| 防城港市| 沙坪坝区| 将乐县| 靖宇县| 霍林郭勒市| 德清县| 观塘区| 天柱县| 贺州市| 蓬莱市| 阿尔山市| 云梦县| 绩溪县| 综艺| 湖北省| 道真| 瑞丽市| 穆棱市|