魏金龍 邵新慧
摘 要:針對各模態(tài)之間信息密度存在差距和融合過程中可能會(huì)丟失部分情感信息等問題,提出一種基于非文本模態(tài)強(qiáng)化和門控融合方法的多模態(tài)情感分析模型。該模型通過設(shè)計(jì)一個(gè)音頻-視覺強(qiáng)化模塊來實(shí)現(xiàn)音頻和視覺模態(tài)的信息增強(qiáng),從而減小與文本模態(tài)的信息差距。之后,通過跨模態(tài)注意力和門控融合方法,使得模型充分學(xué)習(xí)到多模態(tài)情感信息和原始情感信息,從而增強(qiáng)模型的表達(dá)能力。在對齊和非對齊的CMU-MOSEI數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提模型是有效的,相比現(xiàn)有的一些模型取得了更好的性能。
關(guān)鍵詞:多模態(tài)情感分析; 多模態(tài)融合; 模態(tài)強(qiáng)化; 門控機(jī)制
中圖分類號:TP391?? 文獻(xiàn)標(biāo)志碼:A?? 文章編號:1001-3695(2024)01-006-0039-06
doi:10.19734/j.issn.1001-3695.2023.04.0213
Multimodal sentiment analysis based on non-text modality reinforcement and gating fusion method
Abstract:To address the problems of information density gaps between modalities and the possibility of losing some sentiment information in the fusion process, this paper proposed a multimodal sentiment analysis model based on non-text modality reinforcement and gating fusion method. The model reduced the gap with text modality by designing an audio-visual reinforcement module to achieve information enhancement of audio and visual modalities. Then, the cross-modal attention and gating fusion method allowed the model to fully learn the multimodal sentiment information and the original sentiment information to enhance the representation of the model. Experimental results on the aligned and unaligned CMU-MOSEI datasets show that the proposed model is effective and achieves better performances than some existing models.
Key words:multimodal sentiment analysis; multimodal fusion; modality reinforcement; gating mechanism
0 引言
情感分析一直是自然語言處理領(lǐng)域的重要研究方向之一,在輿情監(jiān)控、產(chǎn)品推薦、金融風(fēng)控等領(lǐng)域有著廣泛應(yīng)用[1]。近年來,隨著多媒體技術(shù)的發(fā)展和短視頻的興起,包含了文本、音頻和視覺信息的多模態(tài)情感分析受到了越來越廣泛的關(guān)注,相比于單模態(tài)情感分析,多模態(tài)情感分析可以融合來自不同模態(tài)的信息,從而作出更加準(zhǔn)確的情感判斷。而多模態(tài)情感分析的關(guān)鍵任務(wù)之一是如何設(shè)計(jì)高效的融合網(wǎng)絡(luò),使得模型可以充分學(xué)習(xí)到不同模態(tài)的情感信息,從而進(jìn)行準(zhǔn)確的情感預(yù)測。早期的多模態(tài)融合策略主要包括早期融合[2]和晚期融合[3]。早期融合的主要做法是將來自不同模態(tài)的特征進(jìn)行拼接,送入情感分類器中進(jìn)行情感預(yù)測。而晚期融合主要利用每個(gè)單模態(tài)特征進(jìn)行情感預(yù)測,通過對單模態(tài)預(yù)測結(jié)果采取加權(quán)平均或者投票機(jī)制得到最終的預(yù)測結(jié)果。雖然上述兩種策略均可以完成多模態(tài)情感分析任務(wù),但是不能充分挖掘各模態(tài)的內(nèi)部信息和模態(tài)間的交互作用。隨著Transformer模型的出現(xiàn)[4],文獻(xiàn)[5,6]基于Transformer的注意力機(jī)制實(shí)現(xiàn)多模態(tài)融合,使得多模態(tài)情感表達(dá)更加充分。但是,上述方法通常將各個(gè)模態(tài)看作同等重要,忽視了不同模態(tài)之間的信息密度存在差異,而部分研究表明[7,8],在多模態(tài)情感分析中,文本模態(tài)的重要性通常最高,而音頻、視覺模態(tài)的重要性較低。因此,在多模態(tài)情感分析中要充分關(guān)注不同模態(tài)之間的信息差異,從而提高融合效率。
此外,目前的多模態(tài)情感分析往往只關(guān)注于融合特征,而忽視了原始的情感信息表示,在多模態(tài)的融合過程中可能會(huì)丟失部分原始情感特征,使得模型的表達(dá)不夠充分。部分研究表明[9],結(jié)合不同層次的特征進(jìn)行情感分析可以有效提高模型的性能。因此,如何充分學(xué)習(xí)多模態(tài)情感表示和原始情感特征也是多模態(tài)情感分析面臨的關(guān)鍵問題之一。
針對上述問題,本文提出了一個(gè)基于非文本模態(tài)強(qiáng)化和門控融合方法的多模態(tài)情感分析模型(multimodal sentiment ana-lysis based on non-text modality reinforcement and gating fusion method,NMRGF),主要貢獻(xiàn)如下:
a)提出一個(gè)音頻-視覺強(qiáng)化模塊,通過對音頻和視覺兩個(gè)低級模態(tài)進(jìn)行強(qiáng)化,減少冗余信息的出現(xiàn),從而減小兩者與文本模態(tài)的差距,提高融合效率。
b)提出一種門控融合方法,使得模型能夠充分學(xué)習(xí)多模態(tài)情感特征和原始情感特征,增強(qiáng)模型的表達(dá)能力。
c)在對齊和非對齊下的CMU-MOSEI數(shù)據(jù)集上進(jìn)行了充分實(shí)驗(yàn),結(jié)果表明該模型相比于一些現(xiàn)有模型達(dá)到了最佳性能。
1 相關(guān)工作
多模態(tài)情感分析的重點(diǎn)任務(wù)是融合來自不同模態(tài)的信息,目前主要的融合方法包括基于張量融合[10,11]、基于圖融合[12]、基于翻譯策略的融合[13,14]、基于注意力的方法[15~18]等,上述方法在多模態(tài)情感分析任務(wù)中都取得了較好的效果。其中,基于注意力的方法通常表現(xiàn)更好。
近年來多模態(tài)情感分析更多關(guān)注于和其他領(lǐng)域前沿方法的結(jié)合。Rahman 等人[19]充分發(fā)揮預(yù)訓(xùn)練模型的優(yōu)勢,將非文本模態(tài)的信息融入到BERT模型的微調(diào)階段,使得文本模態(tài)可以學(xué)習(xí)到其他兩個(gè)模態(tài)的信息。Yu等人[20]通過自監(jiān)督的方式生成單模態(tài)情感強(qiáng)度標(biāo)簽,隨后使用多任務(wù)學(xué)習(xí)聯(lián)合訓(xùn)練多模態(tài)和單模態(tài)情感分析任務(wù)。Sun等人[21]基于特征混合的思想,提出一種基于多個(gè)MLP單元組成的多模態(tài)特征處理方法,可以對多模態(tài)數(shù)據(jù)在不同軸上進(jìn)行展開,并且降低了計(jì)算成本。Han等人[22]將互信息的概念引入多模態(tài)情感分析中,提出了一種分層次最大化互信息學(xué)習(xí)框架,有效減少了各個(gè)模態(tài)中的冗余信息,提高預(yù)測準(zhǔn)確率。Hazarika 等人[23]將模態(tài)向量投影至兩個(gè)不同的空間中,同時(shí)進(jìn)行模態(tài)不變和模態(tài)特定的表示學(xué)習(xí)。Wu等人[24]則利用圖神經(jīng)網(wǎng)絡(luò)和膠囊網(wǎng)絡(luò)實(shí)現(xiàn)多模態(tài)融合,大大提高了計(jì)算效率。文獻(xiàn)[25]通過深度典型相關(guān)分析方法學(xué)習(xí)不同模態(tài)之間的相關(guān)性,從而完成情感預(yù)測。
受到上述研究的啟發(fā),本文在完成各個(gè)模態(tài)的特征提取之后,首先利用Self-Transformer模塊增強(qiáng)單模態(tài)特征的表達(dá);之后設(shè)計(jì)一個(gè)音頻-視覺強(qiáng)化模塊完成兩種低級模態(tài)特征的強(qiáng)化,減小和文本模態(tài)的信息差距;最后利用跨模態(tài)注意力完成多模態(tài)融合過程,并通過門控融合機(jī)制使得模型充分學(xué)習(xí)多模態(tài)情感信息和原始情感信息,增強(qiáng)模型的表達(dá)能力和泛化能力。
2 多模態(tài)情感分析模型
2.1 模型概述
本文提出的基于非文本模態(tài)強(qiáng)化和門控融合方法的多模態(tài)情感分析網(wǎng)絡(luò)NMRGF如圖1所示。該模型主要由特征提取和單模態(tài)特征表征模塊、音頻-視覺強(qiáng)化模塊、多模態(tài)融合和情感信息門控模塊三部分組成。特征提取和單模態(tài)特征表征模塊對單模態(tài)特征進(jìn)行提取并通過Self-Transformer增強(qiáng)其表達(dá)。音頻-視覺強(qiáng)化模塊實(shí)現(xiàn)音頻和視覺這兩個(gè)低級模態(tài)的強(qiáng)化,多模態(tài)融合和情感信息門控模塊使模型通過跨模態(tài)注意力操作完成多模態(tài)融合,并充分學(xué)習(xí)多模態(tài)情感信息和原始情感信息。
2.2 特征提取和單模態(tài)特征表征模塊
2.2.1 特征提取和一維卷積
給定一個(gè)視頻片段X,分別利用不同的工具提取其文本模態(tài)T、音頻模態(tài)A和視覺模態(tài)V的原始特征,三個(gè)模態(tài)的初始特征可以表示為Im∈RApTm×dm,其中Tm代表序列長度,dm代表特征維度,m∈{T,A,V}。對于文本模態(tài),使用BERT預(yù)訓(xùn)練模型進(jìn)行特征提取[26],將BERT模型最后一層的輸出作為文本模態(tài)的表示IT。對于音頻模態(tài),使用COVAREP[27]提取音頻特征IA,對于視覺模態(tài),使用Facet工具[28]提取視覺模態(tài)特征IV。
將得到的原始特征輸入到一維卷積層,一方面可以捕捉各模態(tài)內(nèi)部的局部特征,另一方面統(tǒng)一各模態(tài)的特征維度方便后續(xù)計(jì)算,計(jì)算公式如下:
Xm=Conv1D(IM,kernel) M∈{A,V,T}(1)
2.2.2 Self-Transformer模塊
得到各模態(tài)初始特征Xm后,通過Self-Transformer 模塊進(jìn)一步增強(qiáng)模態(tài)特征的表示,該模塊主要利用了原始Transformer模型的編碼器部分,該部分主要由多頭注意力(MHA)、層歸一化(LN)以及帶有殘差連接的前饋神經(jīng)網(wǎng)絡(luò)(FFN)組成,該模塊通過多頭注意力機(jī)制可以學(xué)習(xí)到序列全文的信息,從而增強(qiáng)建模能力。Self-Transformer中第l層的表達(dá)如下所示。
yl=MHA(LN(Xl-1m))+ LN(Xl-1m)(2)
Xlm=FFN(LN(yl))+ LN(yl)(3)
其中:Xlm代表第l層的輸出;多頭注意力MHA通過多頭處理,分別捕捉不同子空間的特征,最后再拼接起來作為最終的表示,其計(jì)算公式如下。
其中:Q、K、V是同一個(gè)模態(tài)的特征通過線性變換得到的;m是注意力的頭數(shù);WQi、WKi、WVi、WO代表訓(xùn)練參數(shù);concat代表拼接操作。原始特征Xm通過多層Self-Transformer模塊的堆疊,使得三個(gè)模態(tài)特征不斷增強(qiáng)自身信息的表達(dá),得到各模態(tài)的原始情感特征hT、hV、hA。
2.3 音頻-視覺強(qiáng)化模塊
由于文本模態(tài)常常在多模態(tài)情感分析工作中占據(jù)主導(dǎo)地位,音頻和視覺模態(tài)的信息對于多模態(tài)情感分析的貢獻(xiàn)相對較低,即這兩種模態(tài)與文本模態(tài)的信息密度差異較大。受到文獻(xiàn)[29]的啟發(fā),本文設(shè)計(jì)了一個(gè)音頻-視覺強(qiáng)化模塊來實(shí)現(xiàn)音頻和視覺模態(tài)的強(qiáng)化,從而減小與文本模態(tài)之間的信息差距,使得后續(xù)的多模態(tài)融合過程更加高效。具體而言,本文提出一個(gè)聚合塊來實(shí)現(xiàn)音頻和視覺特征的強(qiáng)化,該聚合塊的序列長度為B(BTm),特征維度為d,利用該聚合塊和Self-Transformer模塊不斷增強(qiáng)音頻和視覺兩種模態(tài)特征的信息。首先將該聚合塊和音頻特征拼接,經(jīng)過多層的Self-Transformer模塊,使得該聚合塊學(xué)習(xí)到音頻模態(tài)的信息;之后將已經(jīng)學(xué)習(xí)到音頻信息的聚合塊和視覺特征拼接,再經(jīng)過多層的Self-Transformer模塊,使得該聚合塊學(xué)習(xí)到視覺模態(tài)的特征,利用該聚合塊實(shí)現(xiàn)音頻和視覺模態(tài)特征的強(qiáng)化,使得模型充分學(xué)習(xí)來自這兩個(gè)模態(tài)的特征,從而減小與文本模態(tài)的信息差距。將該模塊最后一層的輸出作為強(qiáng)化后的音頻-視覺模態(tài)表示hVA,該表示融合了音頻和視覺模態(tài)的情感信息。其計(jì)算公式如下:
2.4 多模態(tài)融合和情感信息門控模塊
2.4.1 多模態(tài)融合模塊
將增強(qiáng)后的音頻-視覺模態(tài)特征hVA,同文本特征hT進(jìn)行多模態(tài)融合,利用文獻(xiàn)[5]提出的Crossmodal-Transformer模塊進(jìn)行融合,該模塊借鑒了Transformer模型編碼器的主要思想,通過源模態(tài)的特征不斷增強(qiáng)目標(biāo)模態(tài)的特征,使得目標(biāo)模態(tài)可以學(xué)習(xí)到源模態(tài)的信息,從而實(shí)現(xiàn)多模態(tài)的融合,具體過程如圖2所示。該模塊的核心是跨模態(tài)注意力的計(jì)算,給定目標(biāo)模態(tài)特征hT,源模態(tài)特征hVA,跨模態(tài)注意力的(crossmodal attention,CM)計(jì)算方式如式(9)所示。
其中:向量Q由目標(biāo)模態(tài)提供;向量K和V由源模態(tài)提供。通過這種跨模態(tài)注意力的計(jì)算,使得文本模態(tài)可以學(xué)習(xí)到來自音頻和視覺模態(tài)的信息。同樣,音頻和視覺模態(tài)特征也可以通過這種方式學(xué)習(xí)到來自文本模態(tài)的信息,通過這種方式實(shí)現(xiàn)多模態(tài)融合過程。經(jīng)過多層的Cross-Transformer堆疊之后,對得到的兩個(gè)融合向量再經(jīng)過多層的Self-Transformer不斷增強(qiáng)跨模態(tài)特征表示,最終得到多模態(tài)情感信息表示hT-VA和hVA-T。
2.4.2 情感信息門控模塊
為了避免在多模態(tài)融合過程中丟失部分原始情感信息,在得到hT-VA和hVA-T兩個(gè)融合表示之后,本文利用這兩個(gè)融合了三種模態(tài)信息的特征表示生成一個(gè)情感信息門控單元gate,該單元將控制多模態(tài)情感信息和原始情感信息在最終的情感表示中的比重,具體過程如下:
2.5 情感預(yù)測
練樣本的數(shù)量,yi代表該樣本的真實(shí)標(biāo)簽。
3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析
3.1 數(shù)據(jù)集
實(shí)驗(yàn)數(shù)據(jù)集選擇CMU-MOSEI數(shù)據(jù)集[12],這是目前最大的多模態(tài)情感分析數(shù)據(jù)集,該數(shù)據(jù)集包括22 856個(gè)帶有情感注釋的視頻片段,每個(gè)片段標(biāo)注的情感值在[-3,3],數(shù)值越小代表負(fù)面情緒越明顯,數(shù)值越大則表示正面情緒越明顯。根據(jù)各個(gè)模態(tài)是否對齊,即各模態(tài)的序列長度是否相同,可以分為對齊數(shù)據(jù)和非對齊數(shù)據(jù)。該數(shù)據(jù)集的訓(xùn)練集、驗(yàn)證集和測試集的數(shù)量分別是16 326、1 871和4 659。
3.2 實(shí)驗(yàn)設(shè)置及評價(jià)指標(biāo)
通過特征提取之后,文本模態(tài)的特征維度是768,音頻模態(tài)的特征維度是74,視覺模態(tài)的特征維度是35。
本文模型搭建和訓(xùn)練在Python 3.8和深度學(xué)習(xí)框架PyTroch 1.10下進(jìn)行,訓(xùn)練環(huán)境是Ubuntu 20.04,GPU為顯存24? GB的RTX3090。初始學(xué)習(xí)率設(shè)置為2E-3,BERT學(xué)習(xí)率設(shè)置為5E-5,優(yōu)化器使用AdamW并設(shè)置學(xué)習(xí)率衰減策略,訓(xùn)練批次大小為32,迭代次數(shù)為10。
模型涉及的主要超參數(shù)設(shè)計(jì)如下:三種模態(tài)下一維卷積的卷積核大小為1,公共維度d為60,Self-Transformer和Cross-Transformer模塊的層數(shù)為5,多頭注意力的頭數(shù)為5。
本文選取的評價(jià)指標(biāo)包括平均絕對誤差(MAE)、皮爾森相關(guān)系數(shù)(Corr)、二分類準(zhǔn)確率(Acc-2)、F1值和七分類準(zhǔn)確率(Acc-7)五個(gè)指標(biāo)以全面衡量模型的性能。其中,除平均絕對誤差MAE外,其他的指標(biāo)數(shù)值越高越好。
3.3 對比實(shí)驗(yàn)
本文分別在對齊數(shù)據(jù)下和非對齊數(shù)據(jù)下進(jìn)行實(shí)驗(yàn),并與不同的基準(zhǔn)模型進(jìn)行比較。對齊數(shù)據(jù)下選取的基準(zhǔn)模型有:
a)MFN[30]。利用LSTM網(wǎng)絡(luò)對三個(gè)模態(tài)進(jìn)行建模,并設(shè)計(jì)一個(gè)DMAN模塊實(shí)現(xiàn)不同模態(tài)之間的交互作用從而完成多模態(tài)融合。
b)Graph-MFN[12]。在MFN模型的基礎(chǔ)上,設(shè)計(jì)一種動(dòng)態(tài)融合圖方法實(shí)現(xiàn)不同模態(tài)之間的交互作用。
c)ICCN[25]。采用深度典型相關(guān)分析的方法探索三種模態(tài)之間的相關(guān)性,從而完成多模態(tài)融合。
d)MISA[23]。將不同模態(tài)的特征向量投影至兩個(gè)不同的空間中,同時(shí)進(jìn)行模態(tài)不變和模態(tài)特定的表示學(xué)習(xí)。
e)MAG-BERT[19]。把非文本模態(tài)的特征融合到BERT微調(diào)階段,使得詞向量表示可以學(xué)習(xí)其他模態(tài)的信息。
f)BIMHA[31]。設(shè)計(jì)一種新的多頭注意力方式去捕捉兩兩模態(tài)之間的潛在聯(lián)系以完成多模態(tài)融合。
非對齊數(shù)據(jù)下選取的基準(zhǔn)模型:
a)TFN[10]。采用張量外積的方式對單模態(tài)、雙模態(tài)和三模態(tài)信息進(jìn)行建模,并將最終的融合向量用于情感分析。
b)LMF[11]。在TFN的基礎(chǔ)上,采用張量低秩分解的方法降低模型的復(fù)雜度和計(jì)算成本。
c)MulT[5]。利用跨模態(tài)注意力實(shí)現(xiàn)兩兩模態(tài)的交互作用,從而完成多模態(tài)融合。
d)GraphCAGE[24]。利用圖神經(jīng)網(wǎng)絡(luò)和膠囊網(wǎng)絡(luò)更好地捕捉不同模型之間的交互作用,從而完成多模態(tài)融合過程。
e)Self-MM[20]。采用自監(jiān)督的方式生成單模態(tài)情感標(biāo)簽,隨后使用多任務(wù)學(xué)習(xí)聯(lián)合訓(xùn)練多模態(tài)和單模態(tài)情感分析任務(wù)。
f)MMIM[22]。首次將互信息引入多模態(tài)情感分析,提出一種分層次最大化互信息學(xué)習(xí)框架,有效減少了各個(gè)模態(tài)中的冗余信息。
g)NHFNET[29]。通過增強(qiáng)音頻和視覺模態(tài)的信息來降低跨模態(tài)注意力的計(jì)算復(fù)雜度,提高多模態(tài)融合效率。
在不同數(shù)據(jù)集下的實(shí)驗(yàn)結(jié)果如表1、2所示。實(shí)驗(yàn)結(jié)果表明,無論是在對齊數(shù)據(jù)下還是非對齊數(shù)據(jù)下,本文NMRGF模型在各項(xiàng)指標(biāo)上都表現(xiàn)出了最佳性能。進(jìn)一步,同MFN、TFN、LMF、ICCN、GraphCAGE等非基于注意力方法進(jìn)行多模態(tài)融合的模型相比,模型的各項(xiàng)指標(biāo)都有顯著提高,其中二分類準(zhǔn)確率約提升3%,充分說明注意力融合策略相較于其他的融合方式可以更加準(zhǔn)確地捕捉到不同模態(tài)之間的交互作用。相比于MulT、NHFNET、MISA、BIMHA等模型,NMRGF也表現(xiàn)出了明顯優(yōu)勢,說明加入原始情感信息并使模型充分學(xué)習(xí)到多模態(tài)情感表示和原始情感表示可以提高預(yù)測準(zhǔn)確率。
與MAG-BERT、MMIM、Self-MM等先進(jìn)模型相比,本文模型在各項(xiàng)指標(biāo)上也略優(yōu)于它們,其中七分類準(zhǔn)確率提升約1.2%,進(jìn)一步說明將先進(jìn)的注意力融合策略和情感信息門控融合機(jī)制相結(jié)合,可以使得模型學(xué)習(xí)到更加完整的情感表示,從而豐富模型的情感表達(dá)能力,進(jìn)而作出更加精準(zhǔn)的情感判斷。
3.4 消融實(shí)驗(yàn)
為了進(jìn)一步驗(yàn)證本文模塊的合理性,在非對齊下的CMU-MOSEI數(shù)據(jù)集上設(shè)計(jì)如下七組消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示。
NMRGF表示原模型;A表示去掉情感信息門控模塊,直接將多模態(tài)融合特征和原始情感特征相加得到最終的表示向量用于情感預(yù)測;B表示去掉文本模態(tài)的情感信息門控模塊,保留音頻和視覺模態(tài)的情感信息門控模塊;C表示去掉音頻和視覺模態(tài)的情感信息門控模塊,保留文本模態(tài)的情感信息門控模塊;D表示去掉情感信息門控模塊和原始情感信息特征,將多模態(tài)融合之后的兩個(gè)情感表示相加作為最終的情感特征用于情感預(yù)測;E表示保留情感信息門控模塊,原始情感信息特征替換為經(jīng)過一維卷積之后的三個(gè)模態(tài)的特征;F表示保留情感信息門控模塊,不使用音頻-視覺強(qiáng)化模塊,僅使用文本和音頻模態(tài)完成多模態(tài)情感分析;G表示保留情感信息門控模塊,不使用音頻-視覺強(qiáng)化模塊,僅使用文本和視覺模態(tài)完成多模態(tài)情感分析。由表3可知,本文設(shè)計(jì)的七組消融實(shí)驗(yàn)結(jié)果相比原模型在各個(gè)指標(biāo)上都有不同程度的下降,說明本文所設(shè)計(jì)的不同模塊可以有效提高多模態(tài)情感分析的準(zhǔn)確率。具體而言,當(dāng)去掉情感信息門控模塊之后,直接使用多模態(tài)特征和原始的情感特征相加作為最終的輸出表示,模型的各項(xiàng)指標(biāo)都有所下降,由于模型不能有選擇地學(xué)習(xí)多模態(tài)情感信息和原始情感信息,導(dǎo)致部分冗余信息的產(chǎn)生,降低了模型的性能。而如果去掉原始情感信息表示和情感信息門控模塊,只使用多模態(tài)融合之后的特征作為最終表示,模型的整體表現(xiàn)也有所下降,說明加入原始情感信息增強(qiáng)模型的情感表達(dá)能力是非常有必要的。針對不同的模態(tài),分別去掉對應(yīng)的情感信息門控模塊進(jìn)行情感預(yù)測,可以看到模型的表現(xiàn)進(jìn)一步變差,其中只去掉文本模態(tài)的門控機(jī)制后模型效果下降得最少,本文認(rèn)為一方面是因?yàn)槿藗兦楦械谋磉_(dá)一般主要依賴于文本模態(tài),另一方面是由于BERT預(yù)訓(xùn)練模型的天然優(yōu)勢,使得文本模態(tài)本身含有豐富的情感信息,門控機(jī)制在文本模態(tài)中發(fā)揮的作用相對較弱。此外,本文將原始情感信息特征替換為經(jīng)過一維卷積之后三個(gè)模態(tài)的特征表示,而不是經(jīng)過Self-Transformer增強(qiáng)后的模態(tài)特征,可以看到模型性能也有所下降,說明通過堆疊多層的Self-Transformer之后,三個(gè)模態(tài)的原始情感特征得到了增強(qiáng),更能代表原始的情感信息。最后,當(dāng)去掉音頻-視覺強(qiáng)化模塊后,只使用文本和音頻或者文本和視覺模態(tài)完成多模態(tài)情感分析時(shí),模型的預(yù)測能力有所下降,說明通過增強(qiáng)兩個(gè)低級模態(tài)的語義信息可以減小和文本模態(tài)的信息差距,從而提高融合效率,幫助模型作出更準(zhǔn)確的判斷。
3.5 音頻-視覺強(qiáng)化模塊的對比實(shí)驗(yàn)
為了進(jìn)一步驗(yàn)證音頻-視覺強(qiáng)化模塊在多模態(tài)情感分析中的預(yù)測效果,針對該模塊設(shè)計(jì)如下四組對比實(shí)驗(yàn):
T表示只有文本模態(tài)進(jìn)行多模態(tài)情感分析,即只將原始的文本情感表示hT傳入情感分類器中進(jìn)行情感預(yù)測;A表示只有音頻模態(tài)進(jìn)行多模態(tài)情感分析,即只將原始的音頻情感表示hA傳入情感分類器中進(jìn)行情感預(yù)測;V表示只有視覺模態(tài)進(jìn)行多模態(tài)情感分析,即只將原始的視覺情感表示hV傳入情感分類器中進(jìn)行情感預(yù)測;A+V表示只將通過音頻-視覺強(qiáng)化模塊增強(qiáng)后的音頻-視覺表示hVA傳入情感分類器中進(jìn)行情感預(yù)測。
實(shí)驗(yàn)結(jié)果如圖4所示。由圖4不難發(fā)現(xiàn),在僅使用單模態(tài)信息進(jìn)行情感預(yù)測時(shí),文本模態(tài)表現(xiàn)出了絕對優(yōu)勢,進(jìn)一步驗(yàn)證了文本模態(tài)是多模態(tài)情感分析的主導(dǎo)模態(tài),其自身蘊(yùn)涵豐富的情感信息。而單獨(dú)使用音頻或者視覺模態(tài)進(jìn)行情感分析時(shí),相比于單獨(dú)使用文本模態(tài)時(shí),F(xiàn)1值下降了接近20%,說明這兩個(gè)模態(tài)中存在較多的冗余信息,情感表達(dá)能力較弱,相比而言視覺模態(tài)的預(yù)測表現(xiàn)略好于音頻模態(tài),但兩者都與文本模態(tài)的預(yù)測表現(xiàn)存在較大的差距,所以直接使用這兩個(gè)模態(tài)的原始特征進(jìn)行融合可能會(huì)導(dǎo)致多模態(tài)融合效率降低,由此說明對這兩個(gè)低級模態(tài)進(jìn)行強(qiáng)化是非常有必要的。而只使用本文提出的音頻-視覺強(qiáng)化模塊增強(qiáng)后的特征進(jìn)行情感分析時(shí),相比于只使用音頻或視覺特征,該特征的預(yù)測表現(xiàn)在多個(gè)指標(biāo)上都有明顯提升,說明通過音頻-視覺強(qiáng)化模塊的作用,可以有效減少這兩個(gè)低級模態(tài)中存在的冗余信息,增強(qiáng)兩個(gè)模態(tài)的情感表示,從而達(dá)到非文本模態(tài)強(qiáng)化,減小與文本模態(tài)的信息差距、提高多模態(tài)融合效率的目的。
3.6 案例分析
為了更加直觀地說明本文模型在實(shí)際樣本中的預(yù)測效果以及該模型的先進(jìn)性,本文從CMU-MOSEI數(shù)據(jù)集中選擇部分樣本和不同模型的預(yù)測值進(jìn)行對比,如表4所示。其中:“文本”一列表示該片段文本模態(tài)的信息;“音頻”一列代表該片段的音頻模態(tài)信息;“視覺”一列代表該片段的視覺模態(tài)信息;“真實(shí)值”一列代表該片段的真實(shí)情感值;“NMRGF”一列代表
本文模型的預(yù)測結(jié)果;“Self-MM” 一列代表使用Self-MM模型進(jìn)行預(yù)測的結(jié)果;“MMIM”一列代表使用MMIM模型進(jìn)行預(yù)測的結(jié)果。具體而言,在案例1中,文本模態(tài)沒有傳達(dá)明顯的情感信息,音頻和視覺模態(tài)也沒有提供較多的情感特征,因此模型作出了中性情感的判斷,與真實(shí)值差距極小。在案例2中,說話者的文本內(nèi)容表達(dá)出了明顯的正面情感,音頻和視覺模態(tài)也蘊(yùn)涵著積極的情感信息,盡管Self-MM和MMIM這兩個(gè)模型也作出了正確的情感傾向判斷,但是NMRGF模型通過非文本模態(tài)信息的增強(qiáng),給出的預(yù)測值更加接近真實(shí)值,預(yù)測效果明顯更好。而對于案例3,文本模態(tài)和音頻模態(tài)并沒有非常明顯的情感傾向,但是視覺模態(tài)包含了明顯的負(fù)面情感信息(皺眉),NMRGF通過音頻-視覺強(qiáng)化模塊學(xué)習(xí)到了該情感信息并作出了較為準(zhǔn)確的判斷,而Self-MM模型的預(yù)測值和真實(shí)值差距較大,MMIM模型則作出了完全相反的判斷。通過上述案例分析,進(jìn)一步說明了本文模型在實(shí)際樣本中的預(yù)測效果,相比于一些現(xiàn)有模型,該模型可以更加準(zhǔn)確地完成多模態(tài)情感分析任務(wù)。
4 結(jié)束語
針對多模態(tài)情感分析中模態(tài)之間信息存在差異以及部分情感特征丟失的問題,本文提出了一種基于非文本模態(tài)強(qiáng)化和情感信息門控融合方法的多模態(tài)情感分析模型(NMRGF)。該模型在完成特征提取和單模態(tài)特征表征之后,首先通過音頻-視覺強(qiáng)化模塊完成對兩個(gè)低級模態(tài)的強(qiáng)化,從而減小與文本模態(tài)之間的信息差距,提高融合效率。在多模態(tài)融合階段,通過Cross-Transformer結(jié)構(gòu)和情感信息門控模塊,使得模型可以充分完成多模態(tài)融合并利用不同層次的情感特征,從而增強(qiáng)模型的預(yù)測能力。為了驗(yàn)證該模型的性能,本文在對齊和非對齊的CMU-MOSEI數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,該模型的整體性能優(yōu)于一些現(xiàn)有模型。此外,通過消融實(shí)驗(yàn),進(jìn)一步說明了本文所設(shè)計(jì)模塊的合理性和有效性,案例分析則直觀地給出了模型在實(shí)際樣本中的預(yù)測效果。但是,本文方法計(jì)算開銷較大,模型的訓(xùn)練效率較低,而且在實(shí)際視頻數(shù)據(jù)中的預(yù)測效果還需要進(jìn)一步地探索。接下來的主要研究工作應(yīng)關(guān)注于簡化多模態(tài)融合的過程并提高模型的魯棒性。
參考文獻(xiàn):
[1]Chaturvedi I, Cambria E, Welsch R E, et al. Distinguishing between facts and opinions for sentiment analysis: survey and challenges[J].Information Fusion,2018,44:65-77.
[2]Poria S, Cambria E, Hazarika D, et al. Multi-level multiple attentions for contextual multimodal sentiment analysis[C]//Proc of IEEE International Conference on Data Mining.Piscataway,NY:IEEE Press,2017:1033-1038.
[3]Nojavanasghari B, Gopinath D, Koushik J, et al. Deep multimodal fusion for persuasiveness prediction[C]//Proc of the 18th ACM International Conference on Multimodal Interaction.New York:ACM Press,2016:284-288.
[4]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J].Advances in Neural Information Processing Systems, 2017,30:5998-6008.
[5]Tsai Y H H, Bai Shaojie, Liang P P, et al. Multimodal transformer for unaligned multimodal language sequences[C]//Proc of the 57th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:ACL,2019:6558-6569.
[6]Sahay S, Okur E, Kumar S H, et al. Low rank fusion based transformers for multimodal sequences[C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:ACL,2020:29-34.
[7]Wang Yansen, Shen Ying, Liu Zhun, et al. Words can shift:dynamically adjusting word representations using nonverbal behaviors[C]//Proc of the 33rd AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI,Press,2019:7216-7223.
[8]Chen Minping, Li Xia. SWAFN: sentimental words aware fusion network for multimodal sentiment analysis[C]//Proc of the 28th International Conference on Computational Linguistics.New York:International Committee on Computational Linguistics,2020:1067-1077.
[9]Rao Tianrong, Li Xiaoxu, Xu Min. Learning multi-level deep representations for image emotion classification[J].Neural Processing Letters,2020,51(3):2043-2061.
[10]Zadeh A, Chen Minghai, Poria S, et al. Tensor fusion network for multimodal sentiment analysis[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:ACL,2017:1103-1114.
[11]Liu Zhun, Shen Ying, Lakshminarasimhan V B, et al. Efficient low-rank multimodal fusion with modality-specific factors[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:ACL,2018:2247-2256.
[12]Zadeh A B, Liang P P, Poria S, et al. Multimodal language analysis in the wild:CMU-MOSEI dataset and interpretable dynamic fusion graph[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:ACL,2018:2236-2246.
[13]Pham H, Liang P P, Manzini T, et al. Found in translation: learning robust joint representations by cyclic translations between modalities[C]//Proc of the 33rd AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2019:6892-6899.
[14]Tang Jiajia, Li Kang, Jin Xuanyu, et al. CTFN: hierarchical lear-ning for multimodal sentiment analysis using coupled-translation fusion network[C]//Proc of the 59th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:ACL,2021:5301-5311.
[15]Chauhan D S, Akhtar M S, Ekbal A, et al. Context-aware interactive attention for multimodal sentiment and emotion analysis[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Proces-sing.Stroudsburg,PA:ACL,2019:5647-5657.
[16]Han Wei, Chen Hui, Gelbukh A, et al. Bi-bimodal modality fusion for correlation-controlled multimodal sentiment analysis[C]//Proc of the 29th ACM International Conference on Multimodal Interaction.New York:ACM Press,2021:6-15.
[17]包廣斌,李港樂,王國雄.面向多模態(tài)情感分析的雙模態(tài)交互注意力[J].計(jì)算機(jī)科學(xué)與探索,2022,16(4):909-916.(Bao Guangbin, Li Gangle, Wang Guoxiong. Bimodal interactive attention for multimodal sentiment analysis[J].Journal of Frontiers of Compu-ter Science and Technology,2022,16(4):909-916.)
[18]宋云峰,任鴿,楊勇,等.基于注意力的多層次混合融合的多任務(wù)多模態(tài)情感分析[J].計(jì)算機(jī)應(yīng)用研究,2022,39(3):716-720.(Song Yunfeng, Ren Ge, Yang Yong, et al. Multimodal sentiment analysis based on hybrid feature fusion of multi-level attention mechanism and multitask learning[J].Application Research of Compu-ters,2022,39(3):716-720.)
[19]Rahman W, Hasan M K, Lee S, et al. Integrating multimodal information in large pretrained transformers[C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:ACL,2020:2359-2369.
[20]Yu Wenmeng, Xu Hua, Yuan Ziqi, et al. Learning modality-specific representations with self-supervised multi-task learning for multimodal sentiment analysis[C]//Proc of the 35th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2021:10790-10797.
[21]Sun Hao, Wang Hongyi, Liu Jiaqing, et al. CubeMLP: an MLP-based model for multimodal sentiment analysis and depression estimation[C]//Proc of the 30th ACM International Conference on Multimedia.New York:ACM Press,2022:3722-3729.
[22]Han Wei, Chen Hui, Poria S. Improving multimodal fusion with hie-rarchical mutual information maximization for multimodal sentiment analysis[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:ACL,2021:9180-9192.
[23]Hazarika D, Zimmermann R, Poria S. MISA: modality-invariant and specific representations for multimodal sentiment analysis[C]//Proc of the 28th ACM International Conference on Multimedia.New York:ACM Press,2020:1122-1131.
[24]Wu Jianfeng, Mai Sijie, Hu Haifeng. Graph capsule aggregation for unaligned multimodal sequences[C]//Proc of the 23rd ACM International Conference on Multimodal Interaction.New York:ACM Press,2021:521-529.
[25]Sun Zhongkai, Sarma P, Sethares W, et al. Learning relationships between text, audio, and video via deep canonical correlation for multimodal language analysis[C]//Proc of the 34th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2020: 8992-8999.
[26]Devlin J, Chang Mingwei, Lee K, et al. BERT:pre-training of deep bidirectional transformers for language understanding[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.Stroudsburg,PA:ACL,2019:4171-4186.
[27]Degottex G, Kane J, Drugman T, et al. COVAREP:a collaborative voice analysis repository for speech technologies[C]//Proc of the 39th International Conference on Acoustics,Speech and Signal Processing.New York:IEEE Press,2014:960-964.
[28]Baltruaitis T, Robinson P, Morency L P. OpenFace: an open source facial behavior analysis toolkit[C]//Proc of IEEE Winter Conference on Applications of Computer Vision.Piscataway,NJ:IEEE Press,2016:1-10.
[29]Fu Ziwang, Liu Feng, Xu Qing, et al. NHFNET:a non-homogeneous fusion network for multimodal sentiment analysis[C]//Proc of IEEE International Conference on Multimedia and Expo.Piscataway,NJ:IEEE Press,2022:1-6.
[30]Zadeh A, Liang P P, Poria S, et al. Memory fusion network for multi-view sequential learning[C]//Proc of the 32nd AAAI Confe-rence on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:5634-5641.
[31]Wu Ting, Peng Junjie, Zhang Wenqiang, et al. Video sentiment analysis with bimodal information-augmentedmulti-head attention[J].Knowledge-Based Systems,2021,235(10):article ID 107676.