陳詩漢, 馬洪江, 王 婷, 何松澤
(成都信息工程大學(xué)計(jì)算機(jī)學(xué)院,四川 成都 610200)
近年來隨著社交媒體的快速發(fā)展以及智能手機(jī)的普及,多模態(tài)數(shù)據(jù)呈爆炸式增長,如圖像、視頻等。多模態(tài)數(shù)據(jù)是用戶交流和記錄生活的媒介,通常蘊(yùn)涵著豐富的個(gè)人情感。從多模態(tài)數(shù)據(jù)中挖掘和理解情感信息,即多模態(tài)情感分析(multimodal sentiment analysis,MSA),已經(jīng)成為一個(gè)熱門的研究課題。相較于傳統(tǒng)的文本情感信息提取,對(duì)于視頻這類的多模態(tài)數(shù)據(jù)提取會(huì)存在很多困難,因?yàn)槠浒苏Z音、文本以及圖像信息。而且傳統(tǒng)的基于單模態(tài)情感分析的機(jī)器學(xué)習(xí)方法在多模態(tài)情感分析這類任務(wù)上存在較大的局限性[1]。
鑒于人可以用不同的方式表達(dá)情感,包括使用不同的聲調(diào)或面部表情,對(duì)于這些多模態(tài)數(shù)據(jù),同一數(shù)據(jù)段中的不同模態(tài)會(huì)相互補(bǔ)充[2],為語義和情感消歧提供額外幫助。因此可以使用多模態(tài)融合相關(guān)技術(shù)來識(shí)別人類的情感[3]。多模態(tài)融合技術(shù)是一種從海量多模態(tài)數(shù)據(jù)中提取整合信息并可用于提高信息處理效率的技術(shù)[4],現(xiàn)已被廣泛用于處理結(jié)構(gòu)化數(shù)據(jù)和文本數(shù)據(jù)[5]。目前該領(lǐng)域的大部分工作都集中在早期或晚期融合上。早期的融合模型采用簡單的網(wǎng)絡(luò)架構(gòu),Zadeh等[6]提出了一個(gè)張量融合網(wǎng)絡(luò),在更深層融合了不同的模態(tài)表征。薛其威等[7]通過多模態(tài)特征融合對(duì)無人駕駛系統(tǒng)車輛進(jìn)行檢測,在KITTI數(shù)據(jù)集上其平均檢測精度為84.71%。另外,Sun等[8]優(yōu)化了模態(tài)表征之間的相關(guān)性以進(jìn)行融合,然后將融合結(jié)果傳遞給下游任務(wù)。
受深度學(xué)習(xí)的影響,各類相關(guān)研究層出不窮,其中注意力機(jī)制獲得廣泛關(guān)注,LSTM(long short-term memory)被用于隨時(shí)間捕獲模態(tài)之間的交互。顏增顯等[9]利用多模態(tài)通道注意力網(wǎng)絡(luò)來融合不同模態(tài)的特征進(jìn)行人臉反欺騙算法研究,在CASIA-SURF數(shù)據(jù)集上獲得良好的效果。王旭陽等[10]利用注意力機(jī)制與時(shí)域卷積網(wǎng)絡(luò)建立多模態(tài)融合的模型,在CMU-MOSI數(shù)據(jù)集上相較于基線有了較大的提升。Tsai等[11]提出一種可以動(dòng)態(tài)調(diào)整模態(tài)之間的權(quán)重,為多模態(tài)融合提供可解釋性的方案。受模態(tài)分離領(lǐng)域進(jìn)步的推動(dòng),Hazarika等[12]將模態(tài)特征投影到專有和公共特征空間中,以捕捉不同模態(tài)的獨(dú)有和共享特征以方便后期進(jìn)行融合。雖然這些研究中能達(dá)到的效果比較有限,但也為后續(xù)相關(guān)研究做好了相應(yīng)的鋪墊。Makiuchi等[13]提出了一種基于Transformer的模型將語音和文本數(shù)據(jù)進(jìn)行融合,在IEMOCAP數(shù)據(jù)集上得到73.0%的準(zhǔn)確率。Byun等[14]也提出了一種利用深度學(xué)習(xí)融合語音和文本數(shù)據(jù)進(jìn)行情感識(shí)別的模型,在自行構(gòu)建的韓語數(shù)據(jù)集上達(dá)到了95.97%的準(zhǔn)確率。還有黃歡等[15]設(shè)計(jì)了一個(gè)AV-MSA模型,利用交叉投票機(jī)制將視覺與音頻信息融合進(jìn)行情感分析,在IEMOCAP和WB-AV數(shù)據(jù)集上取得了較好的效果,這些研究表明情感識(shí)別任務(wù)可以從多模態(tài)中受益。
在MSA任務(wù)中進(jìn)行信息抽取以及信息融合的時(shí)候可能會(huì)丟失實(shí)際信息并額外引入每種模態(tài)攜帶的噪聲。為減少這個(gè)問題帶來的影響,一種互信息(mutual information,MI)方法被用于評(píng)估成對(duì)的多維變量(即各個(gè)模態(tài))之間的依賴關(guān)系,并且可有效去除與下游任務(wù)無關(guān)的冗余信息[16]。由于互信息在處理時(shí),會(huì)存在信息丟失的問題[17]。本文基本互信息方法提出了一種多模態(tài)融合最大化模型(multi-modal fusion max,MMFM),其核心是在多模態(tài)融合中分層最大化互信息。
本文提出一種基于多模態(tài)融合的分層MI最大化模型,用于多模態(tài)情感分析。其中多模態(tài)融合最大化發(fā)生在輸入和融合模塊,可以減少有價(jià)值任務(wù)相關(guān)信息的丟失。在公開的情感數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn),獲得較好的效果。
在多模態(tài)情感分析任務(wù)中,模型的輸入是從視頻片段中提取的單模態(tài)原始序列Xm,其中m表示向量維數(shù)。文中,m∈{t,v,a},其中t,v,a分別表示3種不同類型的模態(tài)——文本、視覺和聲音。目標(biāo)是從這些輸入向量中提取和整合關(guān)于任務(wù)相關(guān)的情感信息,形成統(tǒng)一的表示,并將其用于對(duì)反映情感強(qiáng)度的真值y進(jìn)行準(zhǔn)確預(yù)測。
整體框架結(jié)構(gòu)如圖1所示,輸入的信息包括視頻、文本和語音3種。首先,模型使用特征提取器和編碼器分別將3種原始輸入處理為數(shù)字序列向量Xv,Xa,Xt。然后,編碼后的數(shù)據(jù)主要經(jīng)過融合網(wǎng)絡(luò)和MI最大化兩部分進(jìn)行處理,分別對(duì)應(yīng)著圖1中的實(shí)線和虛線標(biāo)記。其中,在融合部分融合網(wǎng)絡(luò)將不同模態(tài)信息兩兩交互,將單模表示轉(zhuǎn)換為融合結(jié)果K,再通過回歸多層感知器(multi-layer perception,MLP)進(jìn)行最終的預(yù)測。在互信息部分,MI最大化是為了估計(jì)和提升輸入層和融合層的MI下界。這兩個(gè)部分同時(shí)工作用于產(chǎn)生后續(xù)識(shí)別任務(wù)以及互信息相關(guān)的損失,通過模型學(xué)習(xí)將任務(wù)相關(guān)信息融入融合結(jié)果,并提高主任務(wù)中預(yù)測的準(zhǔn)確性。
圖1 模型總體結(jié)構(gòu)
模態(tài)編碼負(fù)責(zé)將多模態(tài)順序輸入Xm編碼為單位長度表示為 Hm具體來說,對(duì)于文本信息,使用BERT[18](bidirectional encoder representation from transformers)對(duì)輸入句子進(jìn)行編碼,并從最后一層的輸出中提取頭部嵌入作為Ht。對(duì)于視覺和聲學(xué)的內(nèi)容,采用兩種特定于模態(tài)的單向LSTM[19]捕捉這些模態(tài)的時(shí)間特征。
互信息是信息論中的一個(gè)概念,用于估計(jì)變量對(duì)之間的關(guān)系[20],定義為
其中x與y為不同的隨機(jī)變量。
Alemi等[21]首先將與MI相關(guān)的優(yōu)化結(jié)合到深度學(xué)習(xí)模型中。另外在其他研究中也有證明MI最大化的優(yōu)勢[22]。然而,由于在高維空間中直接進(jìn)行MI幾乎是不可能的,所以很多工作都是直接優(yōu)化MI的下界。文中,是在輸入級(jí)別和融合級(jí)別應(yīng)用MI下界,并根據(jù)要估計(jì)的項(xiàng)的數(shù)據(jù)特征和數(shù)學(xué)屬性制定這些界限的估計(jì)方法。
MI可以評(píng)估視頻中不同模態(tài)間的依賴程度,通過將MI最大化可以實(shí)現(xiàn)多模態(tài)間更好的融合。對(duì)于視頻V,將來自單個(gè)視頻剪輯的模態(tài)表示對(duì)標(biāo)記為X和Y(它們之間通常存在相關(guān)性),在先驗(yàn)分布已知時(shí),可以將X和Y的先驗(yàn)分布化為P(X)=∫VP(X,Y|V)P(V),P(Y)=∫VP(Y|V)P(V),聯(lián)合分布為P(X,Y)=∫VP(X,Y|V)P(V)。因存在相關(guān)性,可以利用MI過濾掉與任務(wù)無關(guān)的噪聲來提高性能?;谝陨戏治?為實(shí)現(xiàn)多模態(tài)更大程度的融合并且保持模態(tài)內(nèi)容不變,本文利用一個(gè)易于處理的MI下限,而不是直接計(jì)算MI,并參照Baber等[23]采用的較為準(zhǔn)確且直接的MI下限,其近似于真值條件分布p(y|x),如式(2)所示。
其中q(y|x)是預(yù)測的概率分布,KL是用于度量兩個(gè)概率分布相似度的指標(biāo),H(Y)是Y的微分熵,IB為Baber等使用的MI下界。當(dāng)q(y|x)=p(y|x)時(shí),界值和真值之間沒有差距。在每一對(duì)模態(tài)(X,Y)中,其中一個(gè)模態(tài)視為X,則另外一個(gè)模態(tài)視為Y。然后訓(xùn)練一個(gè)預(yù)測器q(y|x)來逼近p(y|x)。本文在實(shí)驗(yàn)過程中優(yōu)化了不同模態(tài)對(duì)的邊界—文本與視覺、文本與聲學(xué)、視覺與聲學(xué)。另外,在消融研究部分檢查了設(shè)計(jì)的有效性。將q(y|x)公式化為多元高斯分布qθ(y|x)=N(y|μθ1(x),(x)I),兩個(gè)神經(jīng)網(wǎng)絡(luò)由 θ1和 θ2參數(shù)化為分別預(yù)測均值和方差。損失函數(shù)為:
其中n是訓(xùn)練中的批量大小,tv,ta,va表示3個(gè)預(yù)測變量的可能性之和。
本文采用情感極性(非負(fù)/負(fù))作為分類標(biāo)準(zhǔn),它是數(shù)據(jù)集中的一個(gè)自然屬性,可以平衡估計(jì)精度和計(jì)算成本。對(duì)于熵項(xiàng)H(Y),使用高斯混合模型(Gaussian mixed model,GMM)來求解計(jì)算,這是一種常用的未知分布近似方法。GMM為不同的屬性類別建立了多個(gè)高斯分布。多元正態(tài)分布的熵為:
式中k是GMM中向量的維數(shù),det(∑)是協(xié)方差矩陣∑的行列式。基于數(shù)據(jù)集中兩個(gè)極性類別的頻率幾乎相等,本文采用來自Huber等[24]使用的GMM熵的下界和上界,公式如下:
其中hc是c類的子分布的熵,wc為c類子分布的先驗(yàn)概率。取下界作為近似值,得到MI下界的熵項(xiàng):
另外,在訓(xùn)練時(shí),根據(jù)統(tǒng)計(jì)理論,應(yīng)該增加批量大小以減少估計(jì)誤差,可以通過包含最近歷史的數(shù)據(jù)來間接擴(kuò)大采樣批次。在實(shí)驗(yàn)過程中將這些數(shù)據(jù)存儲(chǔ)在歷史數(shù)據(jù)存儲(chǔ)器中,MI下限最大化的損失函數(shù)由式(7)給出:
為捕獲模態(tài)之間的模態(tài)不變線索,在融合結(jié)果和輸入模態(tài)之間重復(fù)MI最大化。目標(biāo)是產(chǎn)生融合結(jié)果K=F(Xt,Xv,Xa)的融合網(wǎng)絡(luò)F。由于已經(jīng)有了從Xm到K的生成路徑,考慮一條相反的路徑,即從K構(gòu)造Xm,m∈{t,v,a}??梢允褂梅?jǐn)?shù)函數(shù)作用于歸一化的預(yù)測和真值向量來衡量它們的相關(guān)性:
其中Gφ是參數(shù)φ的神經(jīng)網(wǎng)絡(luò),它從K生成Hm的預(yù)測,通過將同一批次中該模態(tài)的所有其他表示視為負(fù)樣本,將這個(gè)分?jǐn)?shù)函數(shù)合并到噪聲對(duì)比估計(jì)框架[25]中,即
等式(9)實(shí)際上視為二分類交叉熵?fù)p失,H是一組樣本,公式中分?jǐn)?shù)上下兩部分可以視為正負(fù)樣本對(duì),當(dāng)正樣本對(duì)之間的互信息更大,負(fù)樣本對(duì)之間的互信息更小時(shí),符合互信息最大化要求,因此通過優(yōu)化該損失,可以讓互信息最大化。由于對(duì)比預(yù)測編碼(contrastive predictive coding,CPC)可以學(xué)習(xí)更多的全局結(jié)構(gòu),在模型中,融合結(jié)果K反向預(yù)測跨模態(tài)的表示,以便可以將更多模態(tài)固有信息傳遞給K。此外,通過將每個(gè)模態(tài)的預(yù)測對(duì)齊,使模型能夠決定它應(yīng)該從每種模態(tài)中接收到多少信息。損失函數(shù)為
訓(xùn)練過程包括兩個(gè)階段:在第一階段,近似p(y|x)與q(y|x)通過最小化多模態(tài)預(yù)測變量的負(fù)對(duì)數(shù)似然。在第二階段,將之前的MI下界作為輔助損失添加到主要損失中。在獲得最終預(yù)測及真值y后得到任務(wù)損失:
其中MAE(mean absolute error)代表平均絕對(duì)誤差損失。最后來計(jì)算所有這些損失的加權(quán)和以獲得該階段的主要損失:
其中α、β是控制 MI最大化影響的超參數(shù)。
采用數(shù)據(jù)集為關(guān)于多模態(tài)情感分析研究的公開數(shù)據(jù)集,即 CMU-MOSEI[26],它包含來自 YouTube的23454個(gè)電影視頻剪輯。
本文分別采用P2FA[27]和COVAREP[28]工具包對(duì)于圖像和音頻內(nèi)容進(jìn)行特征提取。而對(duì)于文本內(nèi)容,使用預(yù)訓(xùn)練好的BERT模型來獲得詞向量,最后在GPU上訓(xùn)練模型。評(píng)測指標(biāo)如下:平均絕對(duì)誤差(MAE),它是預(yù)測值和真值之間的平均絕對(duì)差值,衡量預(yù)測偏斜程度的皮爾遜相關(guān)性(pearson correlation,Corr),七分類準(zhǔn)確度(seven-classclassification accuracy,Acc-7),二分類準(zhǔn)確度(binary classification accuracy,Acc-2)和F1分?jǐn)?shù)。
為了解本文模型的相對(duì)性能,將模型與許多具有較好效果的基線進(jìn)行比較,如 TFN[14]、LMF[29]、MFM[16]、MULT[11]、ICCN[30]和 MISA[13]。
實(shí)驗(yàn)結(jié)果見表1所示,對(duì)于Acc-2和F1值有兩組評(píng)估結(jié)果,左邊值為積極情緒結(jié)果,右邊值為消極情緒結(jié)果,可以發(fā)現(xiàn)MMFM與許多基線方法相比具有更優(yōu)的結(jié)果。具體來說,本文模型在 CMU-MOSEI上的Acc-7、Acc2、F1得分都優(yōu)于其他模型。對(duì)于其他指標(biāo),MMFM的性能也非常好。這些結(jié)果初步證明了本文的方法在多模態(tài)情感分析任務(wù)中的有效性。
表1 CMU-MOSEI數(shù)據(jù)集上的運(yùn)行結(jié)果
為體現(xiàn)模型中提出的損失函數(shù)和相應(yīng)估計(jì)方法的優(yōu)勢,本文在CMU-MOSEI上進(jìn)行了一系列消融實(shí)驗(yàn),表2為不同消融設(shè)置下的結(jié)果。首先,消除了一個(gè)或幾個(gè)MI損失項(xiàng),包括模態(tài)間的MI下限(IB)和CPC損失。從表2中可以注意到去除部分MI損失后明顯的性能下降,它顯示了多模態(tài)融合最大化模型的效果。此外,通過將多模態(tài)MI中的當(dāng)前優(yōu)化目標(biāo)對(duì)替換為單個(gè)對(duì)或其他對(duì)組合,無法獲得更好的結(jié)果,也驗(yàn)證設(shè)計(jì)的合理性。然后測試熵估計(jì),當(dāng)停用歷史記憶并僅使用當(dāng)前批次評(píng)估中的μ和∑時(shí),出現(xiàn)“NaN”值,表示訓(xùn)練過程崩潰。因此,基于歷史的估計(jì)具有保證訓(xùn)練穩(wěn)定性的優(yōu)點(diǎn)。最后,將GMM替換為統(tǒng)一的高斯分布,其中μ和∑在所有樣本上進(jìn)行估計(jì),不管它們的極性類別如何,結(jié)果發(fā)現(xiàn)所有指標(biāo)都有明顯下降,這意味著基于自然分類的GMM可以更準(zhǔn)確地估計(jì)熵項(xiàng)。
表2 模型消融研究結(jié)果
從模型在數(shù)據(jù)集上的表現(xiàn)來看,本文提出的多模態(tài)最大化融合框架在針對(duì)多模態(tài)情感識(shí)別的問題上取得一定的效果。且進(jìn)一步的消融研究結(jié)果驗(yàn)證了模型的有效性。在未來,將多模態(tài)應(yīng)用于情感分析會(huì)有較好的發(fā)展?jié)摿σ约拜^高的應(yīng)用價(jià)值,相信這項(xiàng)工作可以更多激發(fā)多模態(tài)情感分析的創(chuàng)造力。