林敏鴻 蒙祖強(qiáng)
摘要:文本與圖片相結(jié)合的多模態(tài)內(nèi)容在社交媒體上變得越來越常見。多模態(tài)數(shù)據(jù)包含了更為全面的信息,能更好地理解用戶的真正想表達(dá)的意圖。對(duì)多模態(tài)數(shù)據(jù)的反諷識(shí)別研究也受到了越來越多的關(guān)注。本文提出了一種基于深層語義融合的多模態(tài)反諷識(shí)別方法。通過實(shí)驗(yàn)證明了,本文的模型在各項(xiàng)指標(biāo)上都要優(yōu)于傳統(tǒng)的單模態(tài)的反諷識(shí)別模型。
關(guān)鍵詞:社交媒體;反諷識(shí)別;多模態(tài)融合
中圖分類號(hào):TP393 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)24-0185-02
1引言
在社交媒體上,人們喜歡采用多種多樣的修辭方法來豐富自己的語言表達(dá)。反諷就是最常見的修辭方法之一。這種方式真正要表達(dá)的信息往往與字面理解的意涵的相反,通常需要更多的語境信息來輔助理解。反諷識(shí)別是一種隱式情感分析,對(duì)觀點(diǎn)挖掘,輿情分析等任務(wù)中都有著重要的意義。反諷識(shí)別最初是針對(duì)文本數(shù)據(jù)的研究。而隨著信息技術(shù)的發(fā)展,人們可以很方便地在社交媒體上運(yùn)用圖片、音頻以及視頻等多種多樣的方式進(jìn)行表達(dá)。文本與圖片相結(jié)合的多模態(tài)內(nèi)容在社交媒體上變得越來越常見。對(duì)多模態(tài)數(shù)據(jù)的反諷識(shí)別研究也受到了越來越多的關(guān)注。為了更好地對(duì)多模態(tài)數(shù)據(jù)進(jìn)行反諷識(shí)別,本文提出了一種基于深層語義融合的多模態(tài)反諷識(shí)別方法(Multimodal irony recognition method based on deep semantic fusion, MIRM)。該方法構(gòu)造了兩個(gè)神經(jīng)網(wǎng)絡(luò)模型來提取圖像特征和文本特征,然后采用雙線性融合的方法來獲取圖像和文本的聯(lián)合特征表示,并對(duì)其進(jìn)行是否含有反諷表達(dá)的判斷。最后實(shí)驗(yàn)表明,該方法在各項(xiàng)指標(biāo)中都優(yōu)于傳統(tǒng)的對(duì)單一文本數(shù)據(jù)的反諷識(shí)別。
2基于圖文融合的反諷識(shí)別
2.1特征表示
本文方法采用雙向門控單元(Bi-directional Gated Recurrent Unit, BiGRU)網(wǎng)絡(luò)來獲取文本特征表示。在BiGRU網(wǎng)絡(luò)中,t時(shí)刻的隱藏層輸出狀態(tài)為[ht],由前向隱藏層輸出狀態(tài)[ht,]和后向[ht]隱藏層狀態(tài)輸出拼接得來,將其作為第i個(gè)文本中第t個(gè)單詞的向量表示。然后對(duì)每個(gè)詞向量進(jìn)行注意力加權(quán)計(jì)算來獲取文本的特征表示。具體的計(jì)算過程如公式1和公式2所示。
最后,需要對(duì)模型進(jìn)行文本情感分類的預(yù)訓(xùn)練,讓參數(shù)[W1]和向量[b1]在訓(xùn)練過程中不斷優(yōu)化更新,得到有效的注意力權(quán)重參數(shù)和能夠有效提取文本情感特征表示的文本特征提取網(wǎng)絡(luò)。
另外,在本模型中,采取卷積網(wǎng)絡(luò)提取圖像特征表示。該網(wǎng)絡(luò)的卷積部分的選擇VGGNet16的預(yù)訓(xùn)練模型的卷積層。我們將第i個(gè)圖像數(shù)據(jù)的最后一層的卷積輸出經(jīng)過了平均池化之后的特征圖集合記為[Fi={F1i,F(xiàn)2i,…,F(xiàn)Ni}]。每個(gè)[Fli]都是圖像[Ii]的一個(gè)局部特征圖,但每個(gè)特征圖對(duì)當(dāng)前網(wǎng)絡(luò)的圖像情感表征學(xué)習(xí)并不是同等重要的。因此,需要學(xué)習(xí)重要性度量來區(qū)別各個(gè)特征圖的重要程度。在本章中,特征圖的注意力的權(quán)重計(jì)算如下:
權(quán)重矩陣W與偏置b都是可隨網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)的參數(shù)。[tanh (?)]是一個(gè)非線性函數(shù)。[Fli]通過一個(gè)全連接層計(jì)算得到對(duì)應(yīng)的注意力分?jǐn)?shù)[sli]。[sli]經(jīng)過歸一化計(jì)算得到對(duì)應(yīng)的注意力權(quán)重[αli]。然后對(duì)每個(gè)特征圖進(jìn)行加權(quán)計(jì)算得到加權(quán)特征圖[Flai],經(jīng)過一層全連接層后得到最終的圖像特征表示[Vi]。與文本特征提取網(wǎng)絡(luò)一樣,沒有經(jīng)過訓(xùn)練的注意力模塊是沒有意義的,因此我們同樣需要對(duì)網(wǎng)絡(luò)進(jìn)行圖像情感分類的預(yù)訓(xùn)練以獲得真正有效的圖像情感特征提取模型。
2.2特征融合
本文將圖像特征和文本特征采用雙線性融合[2]策略來獲取圖像和文本的聯(lián)合特征表達(dá)。第i個(gè)圖片的特征表示為[Vi],第i個(gè)文本的特征向量為[Ti],則文本和圖像的聯(lián)合特征表示[Zi]為
2.3分類器
本文構(gòu)建了一個(gè)包含了兩層全連接網(wǎng)絡(luò)和一個(gè)softmax層的分類器,以獲取分類的概率分布。分類器的輸入是聯(lián)合特征向量[Zi],而輸出是該圖文數(shù)據(jù)類別的概率分布向量。向量的第0位表示該數(shù)據(jù)被判斷為0類(無反諷表達(dá))的概率,第1位表示被判斷為1類(有反諷表達(dá))的概率。
3實(shí)驗(yàn)與討論
本文采用的實(shí)驗(yàn)數(shù)據(jù)集是一個(gè)公開的多模態(tài)反諷識(shí)別數(shù)據(jù)集,將其記作TwittersSarcasm數(shù)據(jù)集[1]。數(shù)據(jù)集中包含了10560個(gè)正例數(shù)據(jù),14075個(gè)反例數(shù)據(jù)。另外還采用了圖像情感分類數(shù)據(jù)集和文本情感分類數(shù)據(jù)集作為圖像特征提取和文本特征提取網(wǎng)絡(luò)的預(yù)訓(xùn)練數(shù)據(jù)集。一個(gè)是Twitter_img圖像情感數(shù)據(jù)集??偣舶?443張情緒積極的圖片和2256張情緒消極的圖片。另一個(gè)是Analytics Vidhya機(jī)構(gòu)提供的Twitter文本情感分析數(shù)據(jù)集Twitter_text,其中包含了73221條情緒消極的文本與58659條情緒積極的文本。
本模型需要對(duì)特征提取網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練。在圖像特征提取網(wǎng)絡(luò)和文本特征提取網(wǎng)絡(luò)之后各添加一個(gè)分類器,構(gòu)成圖像分類模型和文本分類模型。然后讓該圖像分類模型在Twitter_
img情感數(shù)據(jù)集上進(jìn)行圖像情感分類訓(xùn)練,以對(duì)網(wǎng)絡(luò)中注意力計(jì)算層的參數(shù)進(jìn)行微調(diào),使得網(wǎng)絡(luò)能自覺關(guān)注情感語義相關(guān)圖像區(qū)域。同時(shí),讓文本分類模型在Twitter_text數(shù)據(jù)集上進(jìn)行文本情感分類訓(xùn)練,使得網(wǎng)絡(luò)能有效提取情感語義信息。由此得到圖像特征提取網(wǎng)絡(luò)和文本特征提取網(wǎng)絡(luò)的預(yù)訓(xùn)練模型。
為了驗(yàn)證模型的有效性,本文構(gòu)造了多個(gè)文本分類模型,同時(shí)對(duì)多模態(tài)圖文反諷數(shù)據(jù)集TwittersSarcasm進(jìn)行了實(shí)驗(yàn)。比較模型如下:
BiGRU模型是處理文本分類問題最常用的模型之一,在此用于對(duì)文本數(shù)據(jù)的反諷識(shí)別。
BiGRU-ATT模型是在BiGRU模型基礎(chǔ)上增加注意力加權(quán)的文本反諷識(shí)別模型。
TextCNN模型是用卷積神經(jīng)網(wǎng)絡(luò)對(duì)文本進(jìn)行分類的經(jīng)典卷積結(jié)構(gòu)。
本文采用精確率(Precision)、召回率(Recall)、F1值(F1 score)和準(zhǔn)確率(Accuracy)作為模型的評(píng)價(jià)標(biāo)準(zhǔn)。各模型在反諷數(shù)據(jù)集TwittersSarcasm的實(shí)驗(yàn)結(jié)果如表1所示。結(jié)合圖文數(shù)據(jù)進(jìn)行反諷識(shí)別的模型MIRM相較于僅對(duì)文本數(shù)據(jù)進(jìn)行反諷識(shí)別的TextCNN模型、BiGRU模型和BiGRU-ATT模型效果都要好。本文所提出的模型相比于文本分類模型BiGRU和TextCNN,準(zhǔn)確率提高了4%和3.5%。這也證實(shí)了相比單一的文本數(shù)據(jù),結(jié)合圖文信息能更好地理解反諷表達(dá)。
在原來模型框架的基礎(chǔ)上,選擇拼接(concatenation)、按位乘(element-wise product)、按位加(element-wise sum)以及雙線性融合等方法進(jìn)行特征融合然后反諷識(shí)別實(shí)驗(yàn)。從表2中可知,簡(jiǎn)單的特征融合方式的反諷識(shí)別效果相對(duì)于單模態(tài)模型并沒有較大的提升。說明了簡(jiǎn)單的交互并不能很好地利用多模態(tài)之間的潛在語義信息。采用了雙線性融合的MIRM模型相對(duì)于其他融合方法在各項(xiàng)評(píng)價(jià)指標(biāo)上都有較大的提升,說明了雙線性融合能夠使得模態(tài)間的交互更全面,提高了融合特征的信息表示能力。
5總結(jié)
本文提出了一種基于深層語義融合的多模態(tài)反諷識(shí)別方法。通過實(shí)驗(yàn)發(fā)現(xiàn),與單一的文本數(shù)據(jù)相比結(jié)合圖文信息能更好地理解反諷表達(dá),運(yùn)用雙線性融合獲取模態(tài)間交互信息能獲取模態(tài)間更深層的關(guān)聯(lián)信息從而提高了反諷識(shí)別的準(zhǔn)確率。
參考文獻(xiàn):
[1] Cai Y T,CaiHY,WanXJ.Multi-modal sarcasm detection in twitter with hierarchical fusion model[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.Florence,Italy.Stroudsburg,PA,USA:Association for Computational Linguistics,2019:2506-2515.
[2] Fukui A,ParkDH,YangD,et al.Multimodal compact bilinear pooling for visual question answering and visual grounding[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing.Austin,Texas.Stroudsburg,PA,USA:Associationfor Computational Linguistics,2016:457-468.
【通聯(lián)編輯:光文玲】