佟德超
(沈陽化工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 遼寧省沈陽市 110000)
之前的情感分析大多集中在對文本數(shù)據(jù)的分析上,但如今人們表達(dá)情感的方式早已不僅僅局限于單模態(tài)的文字,而是同時(shí)包含音頻信息、視頻信息、和文本信息的多媒體數(shù)據(jù),因此多媒體數(shù)據(jù)情感分析的研究正在變成一個(gè)越來越受重視的研究方向[1]。單模態(tài)的數(shù)據(jù)只需處理好模態(tài)的內(nèi)部信息,但對于多模態(tài)的數(shù)據(jù)來說還需處理好模態(tài)間的交互信息,這也是多模態(tài)情感分析的關(guān)鍵和優(yōu)勢所在[2-3]。
與單模態(tài)相比,多模態(tài)的情感分析在處理好單模態(tài)信息的基礎(chǔ)上還需要處理好不同模態(tài)之間的信息交互問題。單模態(tài)的特征信息通常使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、門控制循環(huán)單元(Gated Recurrent Unit,GRU)、或者長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)來獲取。多模態(tài)的信息主要有早融合和晚融合兩大類方式,早融合是把各個(gè)模態(tài)的信息拼接之后輸入到模型中訓(xùn)練,早融合的一種方式是使用LSTM。晚融合是先單獨(dú)訓(xùn)練,然后進(jìn)行決策投票。情感分析任務(wù)中句子的語境也會影響句子的情感傾向[4],但傳統(tǒng)的方法大都忽略了這一點(diǎn)。之前的研究中不乏對文本和音頻的研究,You 等人提出了一種跨模態(tài)一致回歸模型(CCR)。Porias 等利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)分別提取文本和音頻數(shù)據(jù)的特征之后進(jìn)行多核學(xué)習(xí)來進(jìn)行特征融合。Zadeh等提出了圖記憶融合網(wǎng)絡(luò)和張量融合網(wǎng)絡(luò)來進(jìn)行信息的融合。以上方法較傳統(tǒng)的方式相比有了一定的提升,但是沒能做到單模態(tài)內(nèi)部信息和各個(gè)模態(tài)之間交互信息的聯(lián)合學(xué)習(xí),而且無論是單個(gè)模態(tài)的信息還是多個(gè)模態(tài)之間的交互信息都只關(guān)注了局部的特征,沒有結(jié)合全局的信息,導(dǎo)致多模態(tài)的信息融合也不夠充分。
為解決上述問題,本文提出了一種基于Multi-attention 的多媒體情感分析方法。該方法使用Multi-attention 進(jìn)行多媒體數(shù)據(jù)的信息交互,讓多媒體特征進(jìn)行更充分的交融。最后使用softmax 對情感進(jìn)行分類。
圖1 中展現(xiàn)了基于LSTM 和Multi-attention 的多模態(tài)情感分析的模型框架圖,簡稱為MAM 模型。
模型主要分為以下幾個(gè)部分:
(1)文本和語音的嵌入方式。
(2)文本和語音的單獨(dú)的信息交融。
(3)文本和語音之間的信息交互。
圖1:基于注意力機(jī)制的多模態(tài)情感分析模型框架圖
圖2:模態(tài)交互注意力機(jī)制計(jì)算流程圖
初始的嵌入我們使用由卡內(nèi)基梅隆大學(xué)提供的多模態(tài)數(shù)據(jù)工具包(CMU-Multimodal SDK)。我們使用MOSI 語料庫,該語料庫中的特征是句子級別的,其中文本特征由基于詞語共現(xiàn)矩陣的GloVe 模型獲取,語音特征由Cova-Rep 語音分析框架獲取。由于多個(gè)模態(tài)的數(shù)據(jù)在表達(dá)同一含義時(shí)所需的特征長度是不同的,所以需要對各個(gè)模態(tài)進(jìn)行對齊。使用工具包中的P2FA 將單詞和對應(yīng)的音頻視頻數(shù)據(jù)對齊,這種對齊方式也是被應(yīng)用較為廣泛的,同時(shí)也是更容易被理解的一種多模態(tài)數(shù)據(jù)的對齊方式。經(jīng)過以上方式對原始數(shù)據(jù)進(jìn)行嵌入之后,假設(shè)該視頻片段中有n 個(gè)句子,則本文的初始特征T∈Rn*100,音頻特征A∈Rn*73。
單模態(tài)的信息抽取主要依靠的是Bi-LSTM,該模型可以從前后兩個(gè)方向來獲取句子間的關(guān)系。單向的LSTM 模型是當(dāng)前隱層狀態(tài)攜帶了前面隱層狀態(tài)的信息,但有時(shí)當(dāng)前隱層狀態(tài)與后面的隱層狀態(tài)的信息也有很大的關(guān)聯(lián),所以需要同時(shí)考慮前后兩個(gè)方向的隱層信息。Bi-LSTM 的計(jì)算公式如下:
在2.2 節(jié)中我們分別得到了文本和聲音的經(jīng)過了Bi-LSTM 層和Dense 層的特征表示,在本節(jié)中我們的任務(wù)是把多個(gè)模態(tài)的信息進(jìn)行交互融合,發(fā)掘出模態(tài)與模態(tài)之間的交互信息。也就是圖1 中的Multi-Attention 部分,該模塊實(shí)現(xiàn)了對兩種模態(tài)的信息交互的目的,其結(jié)構(gòu)如下:
表1:不同模型實(shí)驗(yàn)結(jié)果
圖2 中的x 表示dot 運(yùn)算(矩陣乘法運(yùn)算),*表示multiply運(yùn)算(元素乘法運(yùn)算),首先用經(jīng)過了Bi-LSTM 和Dence 層的特征Dense-A 和Dense-T 進(jìn)行dot 運(yùn)算計(jì)算出Dense-T 特征對Dense-A 特征的相似度矩陣D。
矩陣D 經(jīng)過softmax 之后得到的代表著Dense-T 特征對Dense-A 特征注意力權(quán)重的矩陣N。用Dense-A 與矩陣N 進(jìn)行dot運(yùn)算可以得出融合了Dense-T 信息的Att-At 特征,公式如下:
最后,在每個(gè)經(jīng)過了Multi-Attention 特征融合表示之后的單獨(dú)模態(tài)的特征與其他模態(tài)之間計(jì)算了一個(gè)乘法門控函數(shù),這種元素矩陣乘法有助于處理多種模態(tài)和句子的重要組成部分。
式(3)中Att-At 為語音信息融合了文本信息的特征。用同樣的方式可以求出文本融合了語音的信息Att-aT,公式如下:
同時(shí)為了更好的考慮單個(gè)模態(tài)特征對自身特征的注意力分布,特征融合層還將兩種模態(tài)分別做了自注意力機(jī)制(self-attention)操作,其計(jì)算方式與多模態(tài)attention 基本一致??梢缘玫教卣鰽tt-AA 與Att-TT:
最終的融合特征merged 表示為:
3.1.1 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)中Bi-LSTM 的單元個(gè)數(shù)bi_lstm_units 為300,正則化參數(shù)drop_bilstm 為0.8,Dense 層的單元個(gè)數(shù)dense_units 為100,正則化參數(shù)drop_dense 為0.8。本實(shí)驗(yàn)選擇Accuracy 和F1-score 作為評價(jià)指標(biāo)。
3.1.2 對比實(shí)驗(yàn)
為驗(yàn)證本實(shí)驗(yàn)?zāi)P偷挠行?,將本?shí)驗(yàn)的模型與如下模型進(jìn)行對比實(shí)驗(yàn):SVM-MD,TFN,MMMU_BA,MAM,本文提出的方法,其中MAM(only text)為單文本模態(tài),MAM(only audio)為單語音模態(tài)。
表1 中的P(A)和P(F1)分別表示論文方法BLAM(2 attention)與對比方法在ACC 和F1 指標(biāo)上的差值。
通過表1 中的對比實(shí)驗(yàn)數(shù)據(jù)結(jié)果可以看出,總體來說本文提出的多模態(tài)情感分析模型的表現(xiàn)優(yōu)于其他的對比模型。所提方法與SVM 等傳統(tǒng)機(jī)器學(xué)習(xí)方法對比在accuracy 指標(biāo)和f1-score 指標(biāo)上都有較高的提升,與近期先進(jìn)的深度學(xué)習(xí)方法TFN 和MMMU-BA等對比,在兩個(gè)指標(biāo)上也有一定的提升,突出了充分考慮上下文語境以及attention 機(jī)制融合信息的重要性。
本文提出了一種基于雙向長短期記憶網(wǎng)絡(luò)和注意力機(jī)制的多模態(tài)情感分析方法。通過Bi-LSTM 和self-attention 從全局語境上更加充分的獲取單個(gè)模態(tài)信息,再通過multi-attention 進(jìn)行模態(tài)間的信息交互和融合,使單模態(tài)更加關(guān)注其他模態(tài)的重要組成部分,最后通過分類器完成多模態(tài)情感分析的任務(wù)。本文以MOSI 作為實(shí)驗(yàn)的數(shù)據(jù)集,在對比實(shí)驗(yàn)中本文所提的方法表現(xiàn)優(yōu)異。但是由于現(xiàn)有的資源有限,只在相對小的數(shù)據(jù)集完成了實(shí)驗(yàn),未來會嘗試在更大的數(shù)據(jù)集去完善我們的方法。