陳 愷董修崗周祥生
(1.南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 南京 210094)(2.中興通訊股份有限公司 南京 210012)
細(xì)粒度情感分析是情感分析領(lǐng)域中的一項(xiàng)重要的子任務(wù),它的目標(biāo)是確定句子中每個(gè)觀點(diǎn)實(shí)體的情感傾向[1],在近年來成為了一個(gè)研究熱點(diǎn)[2]。相關(guān)的研究工作包括基于傳統(tǒng)的特征工程的方法[3],和基于深度學(xué)習(xí)的方法[4]等。隨著近年來預(yù)訓(xùn)練語言模型在眾多自然語言處理任務(wù)中開始流行,文獻(xiàn)[5]提出了基于BERT[6]的模型來解決細(xì)粒度情感分析任務(wù),該模型在多個(gè)數(shù)據(jù)集上獲得了目前最好的實(shí)驗(yàn)結(jié)果。
然而,隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,在線社交媒體成為了人們生活中的重要部分[7~8],人們?cè)谄渲邪l(fā)布的內(nèi)容也從單一的文本信息轉(zhuǎn)變?yōu)閳D文并茂、視音頻結(jié)合的多模態(tài)信息。盡管之前工作提出的方法在基于純文本信息的細(xì)粒度情感分析任務(wù)上取得了較好的結(jié)果,對(duì)于這些多模態(tài)信息這些方法仍然存在一定的局限性,尤其是無法對(duì)模態(tài)間的信息交互進(jìn)行建模,影響最終情感分析的效果。
基于以上的研究現(xiàn)狀,一種新興的多模態(tài)細(xì)粒度情感分析任務(wù)被提出[9],該任務(wù)針對(duì)多模態(tài)的社交媒體數(shù)據(jù),根據(jù)數(shù)據(jù)中的文本和圖片信息,綜合判斷文本中每個(gè)觀點(diǎn)實(shí)體的情感傾向。本文針對(duì)該任務(wù),提出了一種層次化的跨模態(tài)Transformer神經(jīng)網(wǎng)絡(luò)模型(Hierarchical Cross-modal Transformer,HCT),通過調(diào)整跨模態(tài)Transformer的輸入來建模文本與圖片模態(tài)之間的信息交互,以解決目前基于純文本數(shù)據(jù)的細(xì)粒度情感分析模型無法有效建模多模態(tài)數(shù)據(jù)的問題。本文在兩個(gè)真實(shí)的多模態(tài)社交媒體數(shù)據(jù)集上開展了實(shí)驗(yàn),并與一些經(jīng)典的細(xì)粒度情感分析方法進(jìn)行對(duì)比,證明了提出的模型能夠有效提高多模態(tài)細(xì)粒度情感分析任務(wù)中情感傾向判斷的準(zhǔn)確性。
細(xì)粒度情感分析任務(wù)是情感分析領(lǐng)域中的一個(gè)經(jīng)典任務(wù),本文將近年來的相關(guān)工作分為如下兩類分別進(jìn)行介紹。
一類是基于特征工程的方法。這些方法主要利用一些外部語義信息,例如Part-of-Speech標(biāo)簽、句法解析標(biāo)簽以及情感詞典等,來人工構(gòu)建針對(duì)細(xì)粒度情感分析任務(wù)的特征模板,并使用傳統(tǒng)的機(jī)器學(xué)習(xí)模型基于特征模版進(jìn)行情感分類[10]。雖然這些方法在當(dāng)時(shí)都取得了較好的結(jié)果,但是它們都比較依賴人工構(gòu)建的特征,人力資源消耗較大。
另一類是基于深度神經(jīng)網(wǎng)絡(luò)的方法。文獻(xiàn)[11]基于句法解析樹構(gòu)建了一種針對(duì)細(xì)粒度觀點(diǎn)實(shí)體的遞歸神經(jīng)網(wǎng)絡(luò)。文獻(xiàn)[12]設(shè)計(jì)了一種基于門控機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)來動(dòng)態(tài)地控制與觀點(diǎn)實(shí)體詞情感傾向有關(guān)的信息流入。另外,文獻(xiàn)[13~14]等設(shè)計(jì)了基于注意力機(jī)制的方法,以有效建模文本中的長(zhǎng)距離依賴問題。
多模態(tài)情感分析任務(wù)是情感分析領(lǐng)域中一個(gè)新興任務(wù),該任務(wù)提出的目的是為了利用其他模態(tài)(圖片、音頻)的信息來對(duì)文本模態(tài)進(jìn)行補(bǔ)充,從而提升情感分析的準(zhǔn)確性。
目前多模態(tài)情感分析任務(wù)的相關(guān)工作主要針對(duì)多模態(tài)對(duì)話數(shù)據(jù)展開,主要為粗粒度的句子級(jí)情感分析模型。文獻(xiàn)[15]提出了一種基于層次化卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法,該方法針對(duì)多輪對(duì)話數(shù)據(jù),首先進(jìn)行語音識(shí)別,然后將識(shí)別后的語義特征與文本特征拼接后再進(jìn)行分類。文獻(xiàn)[16]提出的方法首先通過預(yù)訓(xùn)練的CNN網(wǎng)絡(luò)抽取文本特征,然后采用了多核學(xué)習(xí)(multiple kernel learning)的方式來融合文本、語音和視頻三種模態(tài)的信息。文獻(xiàn)[17]分別設(shè)計(jì)了張量融合網(wǎng)絡(luò)(tensor fusion network)和記憶融合網(wǎng)絡(luò)來建模多輪對(duì)話中的多模態(tài)信息融合。
然而,它們都是粗粒度的句子級(jí)情感分析方法,不能直接利用來解決細(xì)粒度的情感分析任務(wù)。因此,十分有必要提出一種方法來解決多模態(tài)細(xì)粒度情感分析問題。
HCT模型的結(jié)構(gòu)如圖1所示。在本節(jié)中,首先對(duì)多模態(tài)細(xì)粒度情感分析任務(wù)進(jìn)行定義,然后詳細(xì)介紹本文提出的HCT模型中包含的三個(gè)模塊以及模型的優(yōu)化方法。
圖1 HCT模型結(jié)構(gòu)圖
任務(wù)定義:多模態(tài)細(xì)粒度情感分析任務(wù)中的每一個(gè)樣例都包含一條由n個(gè)詞組成的文本,記為S=(w1,w2,…,wn);以及一張圖片,記為V。其中文本中包含r個(gè)不同的觀點(diǎn)實(shí)體,記為(t1,t2,…,tn)。該任務(wù)以文本、圖片對(duì)(S,V)作為輸入,判斷文本中r個(gè)不同的觀點(diǎn)實(shí)體的情感傾向y∈Y,其中Y是該任務(wù)的標(biāo)簽體系,包含正類、中立以及負(fù)類三種不同的情感標(biāo)簽。
該模塊分為文本信息抽取和圖片信息抽取兩部分,本節(jié)將對(duì)這兩部分分別進(jìn)行介紹。
3.1.1 文本信息抽取
由于預(yù)訓(xùn)練語言模型在多種NLP任務(wù)中表現(xiàn)出了較好的效果,本文采用BERT作為文本編碼器來對(duì)文本進(jìn)行編碼。
首先,受文獻(xiàn)[9]的設(shè)置啟發(fā),本文將輸入的文本信息S分為兩部分,分別為觀點(diǎn)實(shí)體詞以及對(duì)應(yīng)的上下文,其中上下文中的觀點(diǎn)實(shí)體詞使用$T$來替代。然后利用BERT中的[SEP]標(biāo)簽將這兩部分拼接起來記為S',構(gòu)成BERT的輸入。我們將S'送入BERT編碼后,獲得輸入文本的隱層表示:,其中n是輸入文本中包含的單詞的個(gè)數(shù),d為每個(gè)單詞的向量維度。
3.1.2 圖像信息抽取
本文使用了Faster RCNN[18]這種具有較好性能的目標(biāo)檢測(cè)模型來對(duì)圖片進(jìn)行編碼。該模型對(duì)圖片中物體的檢測(cè)過程主要包含兩部分:1)首先通過區(qū)域候選網(wǎng)絡(luò)(Region Proposal Network,RPN)來檢測(cè)圖片中如人、汽車等具有語義特征的物體;2)判斷這些被檢測(cè)出的物體的類別。
具體地,對(duì)于給定的圖片V,本文使用在Visual Genome數(shù)據(jù)集[19]上預(yù)訓(xùn)練的Faster RCNN網(wǎng)絡(luò)來抽取圖片中所有的物體特征,然后根據(jù)Faster RCNN檢測(cè)過程中每個(gè)物體的置信度,選擇k個(gè)置信度最高的物體作為圖片的表示:
其中?vi∈R2048是經(jīng)過Faster RCNN檢測(cè)得到、平均卷積池化后的第i個(gè)物體的隱層表示。
最后,將經(jīng)過Faster RCNN得到的物體隱層表示進(jìn)行拼接,并通過線性變換將圖片表示的維度映射到和文本表示同一維度,從而得到最終的圖片表示:
其中W∈R2048×d是線性變換的參數(shù),HV∈Rd×k是最終的圖片表示。
在獲得了文本表示和圖片表示后,本文設(shè)計(jì)了一種基于跨模態(tài)Transformer的多模態(tài)交互模塊,該模塊的作用是為了建模文本與圖片之間的交互來獲得文本相關(guān)的圖片表示以及圖片相關(guān)的文本表示,以促進(jìn)模態(tài)之間的信息融合。
多模態(tài)交互模塊的核心由跨模態(tài)Transformer構(gòu)成,該結(jié)構(gòu)如圖2所示。以文本相關(guān)的圖片表示為例,首先,本文引入多頭跨模態(tài)注意力機(jī)制(MCA),通過設(shè)置文本表示HS為查詢(Query)向量,圖片表示HV為鍵(Key)和值(Value)向量,以獲得用圖片特征表示的文本信息。具體來說,對(duì)于MCA的第i個(gè)頭,計(jì)算方式如下:
圖2 跨模態(tài)Transformer結(jié)構(gòu)圖
其中,m表示注意力頭的數(shù)量表示第i個(gè)頭中的參數(shù)。將m個(gè)頭的輸出結(jié)果進(jìn)行拼接和線性變換,從而獲得MCA的輸出:
其中,Wm是多頭跨模態(tài)注意力機(jī)制中線性變換的參數(shù)。接下來,和標(biāo)準(zhǔn)Transformer類似,將MCA的輸出送入層歸一化(Layer Normalization,LN)層以及前饋神經(jīng)網(wǎng)絡(luò)中,并且添加殘差連接,以提升深度神經(jīng)網(wǎng)絡(luò)的穩(wěn)定性以及非線性能力:
其中,HS→V即為經(jīng)過跨模態(tài)Transformer后獲得的經(jīng)過模態(tài)融合后的文本相關(guān)的圖片表示。
為了使得網(wǎng)絡(luò)能夠獲得更好的信息抽取以及抽象能力,本文通過疊加跨模態(tài)Transformer層,讓下層的輸出作為上層的輸入,從而構(gòu)建出更加深層的網(wǎng)絡(luò):
圖片相關(guān)的文本表示也同理,通過將圖片設(shè)置成查詢向量,文本設(shè)置成鍵向量以及值向量,送入與式(3)~式(7)結(jié)構(gòu)相同但是參數(shù)不同的跨模態(tài)Transformer結(jié)構(gòu)中,從而獲得圖片相關(guān)的文本表示,其中l(wèi)是該部分跨模態(tài)Transformer的疊加層數(shù)。
在獲得文本相關(guān)的圖片表示以及圖片相關(guān)的文本表示后,將這兩部分表示拼接送入標(biāo)準(zhǔn)的Transformer結(jié)構(gòu)中以建模這兩部分表示的交互:
其中H∈Rd×(k+n)是最終的多模態(tài)融合表示。
在獲得多模態(tài)融合表示H后,我們將H的第一列向量送入softmax層進(jìn)行情感分類,從而得到最終的觀點(diǎn)實(shí)體詞的情感傾向概率分布:
為了優(yōu)化模型中的參數(shù),本文設(shè)置了如下的交叉熵?fù)p失函數(shù)作為目標(biāo)函數(shù),通過使得目標(biāo)函數(shù)最小化來讓模型中的參數(shù)達(dá)到最優(yōu):
本文基于兩個(gè)真實(shí)的多模態(tài)細(xì)粒度情感分析任務(wù)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),并且與若干種具有代表性的方法進(jìn)行對(duì)比,以證明提出的方法的有效性。
如表1所示,本文采用了兩個(gè)真實(shí)的多模態(tài)細(xì)粒度情感分析數(shù)據(jù)集來展開實(shí)驗(yàn),這兩個(gè)數(shù)據(jù)集被命名為Twitter-15和Twitter-17,分別從2014年-2015年和2016年-2017年的Twitter平臺(tái)中進(jìn)行采樣。這兩個(gè)數(shù)據(jù)集中觀點(diǎn)實(shí)體的情感傾向由文獻(xiàn)[9]進(jìn)行標(biāo)注,相關(guān)的簡(jiǎn)單統(tǒng)計(jì)如表1所示。本文用正確率(ACC)、準(zhǔn)確率(P)、召回率(R)和宏平均(F1)來衡量模型的性能。
表1 數(shù)據(jù)集相關(guān)統(tǒng)計(jì)
本文使用經(jīng)過預(yù)訓(xùn)練的uncased BERT base模型[6]對(duì)文本信息進(jìn)行編碼,使用以ResNet-101作為骨架網(wǎng)絡(luò)的Faster RCNN模型對(duì)圖片信息進(jìn)行編碼[18],根據(jù)Faster RCNN中目標(biāo)檢測(cè)的置信度來對(duì)抽取的特征進(jìn)行排序,選擇置信度最高的36個(gè)特征作為圖片表示。
本文設(shè)置了如下方法進(jìn)行比較:1)Faster RCNN-Target通過直接對(duì)觀點(diǎn)實(shí)體詞和圖片進(jìn)行編碼,然后送入跨模態(tài)Transformer結(jié)構(gòu)進(jìn)行交互。2)AE-LSTM[19]是一種將觀點(diǎn)實(shí)體詞的表示加入輸入的LSTM網(wǎng)絡(luò)結(jié)構(gòu)。3)MemNet[20]是一個(gè)包含局部以及全局位置信息的多跳記憶化網(wǎng)絡(luò)。4)RAM[21]是一種使用多重attention機(jī)制的RNN網(wǎng)絡(luò)。5)MGAN[22]是一種多重粒度的深度網(wǎng)絡(luò)模型。6)BERT[6]是一種基于Transformer的預(yù)訓(xùn)練語言模型,該模型的預(yù)訓(xùn)練任務(wù)包括完型填空任務(wù)以及下文匹配任務(wù)。7)MIMN[23]是一種基于LSTM的多模態(tài)神經(jīng)網(wǎng)絡(luò)模型。8)ViLBERT[24]是一種基于Transformer的多模態(tài)預(yù)訓(xùn)練模型。9)ESAFN[25]是一種與觀點(diǎn)實(shí)體詞相關(guān)的注意力融合神經(jīng)網(wǎng)絡(luò)模型。
實(shí)驗(yàn)結(jié)果如表2所示,實(shí)驗(yàn)顯示本文提出的方法在Twitter-15和Twitter-17數(shù)據(jù)集上均獲得了最好的結(jié)果?;谒械膶?shí)驗(yàn)結(jié)果,本文能夠做出如下總結(jié):1)只采用圖片信息的方法表現(xiàn)最差(Faster RCNN-Target)。這可能由于對(duì)于多模態(tài)細(xì)粒度情感分析任務(wù)而言,圖片信息雖然能夠?qū)ξ谋拘畔a(chǎn)生補(bǔ)充,但是仍然無法起主導(dǎo)的作用。2)添加了圖片信息后的方法比大多數(shù)未添加圖片信息的方法的表現(xiàn)要好。這點(diǎn)說明圖片能夠?yàn)槲谋咎峁┬畔⒀a(bǔ)充,從而提升模型情感分類的準(zhǔn)確性。3)ViLBERT模型的結(jié)果表明,它能夠比大多數(shù)只利用文本信息的模型表現(xiàn)要好,但是比BERT要差,說明對(duì)于多模態(tài)細(xì)粒度情感分析任務(wù)而言,需要有針對(duì)性地設(shè)計(jì)模型。4)本文提出的方法在兩個(gè)數(shù)據(jù)集上的表現(xiàn)均為最優(yōu),說明本文提出的模型結(jié)構(gòu)能夠有效建模圖片和文本模態(tài)間的信息交互,從而提升多模態(tài)細(xì)粒度情感分析的性能。
表2 主要實(shí)驗(yàn)結(jié)果以及對(duì)比
另外,如表3所示,本文觀察了實(shí)驗(yàn)中各個(gè)模型的情感預(yù)測(cè)結(jié)果,并對(duì)具有代表性的樣例進(jìn)行分析。表3(a)中的例子表明,我們的模型在綜合考慮圖片中的臉部表情等元素后,能夠有效預(yù)測(cè)出觀點(diǎn)實(shí)體詞的情感傾向,而僅僅利用文本信息的BERT模型無法有效判斷;表3(b)中的例子表明,本文提出的方法能夠根據(jù)圖片中的中立元素以及人的表情等來輔助文本進(jìn)行情感分類,而BERT模型容易被純文本信息所誤導(dǎo)。
表3 樣例分析
最后,本文探究了跨模態(tài)Transformer的疊加層數(shù)對(duì)于情感分類結(jié)果的影響。如圖3所示,我們將跨模態(tài)Transformer的疊加層數(shù)分別設(shè)置為1~4,實(shí)驗(yàn)結(jié)果表明,跨模態(tài)Transformer的疊加層數(shù)對(duì)情感分類的影響并不顯著,但是當(dāng)疊加層數(shù)為1時(shí)模型取得了最好的結(jié)果。
圖3 跨模態(tài)Transformer疊加層數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響
本文針對(duì)多模態(tài)細(xì)粒度情感分析任務(wù)提出了一種層次化跨模態(tài)Transformer神經(jīng)網(wǎng)絡(luò)模型(HCT)。該模型首先抽取圖片中具有高級(jí)語義信息的特征,進(jìn)而通過跨模態(tài)Transformer結(jié)構(gòu)建模文本與圖片間的信息交互以融合多模態(tài)特征,最終完成多模態(tài)細(xì)粒度的情感分析任務(wù)。
本文通過實(shí)驗(yàn)與現(xiàn)有的情感分析模型進(jìn)行對(duì)比,驗(yàn)證了本文提出的模型在兩個(gè)真實(shí)的多模態(tài)細(xì)粒度情感分析數(shù)據(jù)集上的有效性。未來我們將探索如何減小圖片噪聲的引入帶來的影響,從而進(jìn)一步在多模態(tài)細(xì)粒度情感分析任務(wù)上獲得提升。