馮 廣, 江家懿, 羅時(shí)強(qiáng), 伍文燕
1(廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院, 廣州 510006)
2(廣東工業(yè)大學(xué) 自動(dòng)化學(xué)院, 廣州 510006)
3(廣東工業(yè)大學(xué) 網(wǎng)絡(luò)信息與現(xiàn)代教育技術(shù)中心, 廣州 510006)
目前隨著互聯(lián)網(wǎng)的發(fā)展, 網(wǎng)絡(luò)視頻和社交平臺(tái)日漸火熱, 諸如國(guó)內(nèi)的嗶哩嗶哩、抖音、快手, 國(guó)外的YouTube、Twitter、TikTok 等, 這些平臺(tái)上的網(wǎng)絡(luò)視頻包含了大量用戶對(duì)某個(gè)事物所發(fā)表的觀點(diǎn)和評(píng)價(jià),這些點(diǎn)評(píng)數(shù)據(jù)蘊(yùn)含著用戶的情緒信息, 挖掘這些用戶的情緒信息不僅有利于平臺(tái)商家對(duì)用戶進(jìn)行有針對(duì)性的產(chǎn)品推送, 對(duì)一些需要獲得用戶情緒狀態(tài)的互聯(lián)網(wǎng)服務(wù)型行業(yè)有所幫助, 而且在面對(duì)某些社會(huì)突發(fā)事件時(shí), 也能夠協(xié)助相關(guān)部門掌握社會(huì)輿論的走向[1].
目前大多數(shù)的情感分析方法存在以下兩個(gè)問(wèn)題:(1)基于單模態(tài)數(shù)據(jù)的分析方法角度單一, 無(wú)法全面地反映人類復(fù)雜的情感表達(dá). (2)目前大部分基于多模態(tài)數(shù)據(jù)的情緒分析方法沒(méi)有充分考慮并融合時(shí)序數(shù)據(jù)的模態(tài)內(nèi)和跨模態(tài)的話語(yǔ)間時(shí)序信息關(guān)聯(lián), 導(dǎo)致情緒分析的準(zhǔn)確率較低. 為解決以上問(wèn)題, 本文使用時(shí)序多模態(tài)數(shù)據(jù), 在前人的研究基礎(chǔ)上, 改進(jìn)了多模態(tài)情緒分析模型, 提出一種基于話語(yǔ)間時(shí)序多模態(tài)數(shù)據(jù)的情緒分析方法.
情緒分析是一個(gè)涉及人工智能、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理等多個(gè)多學(xué)科交叉的研究領(lǐng)域[2]. 早期的情緒分析大多是基于單一模態(tài)數(shù)據(jù)的, 目前主流方法是針對(duì)人臉表情和文本的情緒分析. Connie 等人[3]使用由3 個(gè)子網(wǎng)絡(luò)構(gòu)成的卷積神經(jīng)網(wǎng)絡(luò)在CK+和FER2013數(shù)據(jù)集上進(jìn)行人臉表情情感識(shí)別, 在6 類的情感分類中得到良好的識(shí)別效果. 李婷婷等人[4]針對(duì)微博短文本數(shù)據(jù), 使用傳統(tǒng)的SVM 和CRF 組合方法進(jìn)行情感分析, 并選用不同的特征組合得到了最優(yōu)的分析效果.由于深度學(xué)習(xí)方法的興起, 研究人員也開始在文本情感分析上使用深度學(xué)習(xí)模型. Chen 等人[5]基于TF-IDF特征, 使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行文本情感分類, 相比傳統(tǒng)的機(jī)器學(xué)習(xí)方法準(zhǔn)確率得到了顯著的提升. 曹宇等人[6]使用BGRU 對(duì)文本的上下文信息進(jìn)行提取分析, 實(shí)驗(yàn)表明加入上下文信息后能夠有效提高情緒分析的準(zhǔn)確性.
由于單模態(tài)數(shù)據(jù)分析方法存在一定的局限性, 無(wú)法應(yīng)對(duì)某些真實(shí)的場(chǎng)景, 因此研究者們開始探索使用兩種或以上模態(tài)數(shù)據(jù)的研究方法, 同時(shí)因?yàn)榫W(wǎng)絡(luò)視頻這種多模態(tài)數(shù)據(jù)載體的興起, 近年來(lái)針對(duì)視頻數(shù)據(jù)集的多模態(tài)情感分析成為了一個(gè)研究熱點(diǎn).
在多模態(tài)情緒分析研究領(lǐng)域, 目前大多數(shù)研究是基于文本、語(yǔ)音和視覺(jué)3 種模態(tài)信息. Baltru?aitis 等人[7]將多模態(tài)機(jī)器學(xué)習(xí)分為模態(tài)表示、模態(tài)傳譯、模態(tài)對(duì)齊、模態(tài)融合和合作學(xué)習(xí)5 個(gè)方面[8], 其中模態(tài)融合的效果對(duì)分析結(jié)果的準(zhǔn)確性有很大的影響[9]. 模態(tài)融合主要分為特征級(jí)融合(早期融合)和決策級(jí)融合(晚期融合), 二者的區(qū)別在于前者是將單模態(tài)特征直接進(jìn)行融合后分析, 后者則是單獨(dú)分析單模態(tài)特征后再對(duì)結(jié)果進(jìn)行融合分析, 現(xiàn)在有研究者將這兩種方式相結(jié)合并稱之為混合融合. Pérez-Rosas 等人[10]使用OpenEAR和CERT 在MOUD 多模態(tài)數(shù)據(jù)集中提取語(yǔ)音和面部的情感特征, 并且將單詞與每個(gè)話語(yǔ)轉(zhuǎn)錄內(nèi)的頻率對(duì)應(yīng)的值相關(guān)聯(lián), 得到加權(quán)特征圖作為文本的情感特征,最后將3 種模態(tài)特征進(jìn)行特征級(jí)融合后使用SVM 分析, 在該數(shù)據(jù)集上得到良好的識(shí)別效果. Yu 等人[11]針對(duì)中文微博數(shù)據(jù), 使用CNN 和DNN 分別分析文本和視覺(jué)情感, 最后通過(guò)決策級(jí)融合的方法對(duì)分析結(jié)果進(jìn)行融合, 在中文微博數(shù)據(jù)集上獲得了最優(yōu)的結(jié)果. Zadeh等人[12]提出一種張量融合方法(TFN), 使用張量乘法將3 種單模態(tài)特征數(shù)據(jù)融合在一起, 最后使用MLP 神經(jīng)網(wǎng)絡(luò)進(jìn)行分析預(yù)測(cè), 在MOSI 數(shù)據(jù)集上獲得較好的準(zhǔn)確率, 但這種方法沒(méi)有利用話語(yǔ)級(jí)別的上下文時(shí)序信息特征, 而且時(shí)間復(fù)雜度和空間復(fù)雜度極高. 后來(lái)他們又提出了一種分層的動(dòng)態(tài)融合圖方法[13], 將三種模態(tài)信息兩兩組合, 首次在MOSEI 數(shù)據(jù)集上獲得較高的識(shí)別準(zhǔn)確率且具有一定的可解釋性. Poria 等人[14]提出一種非端到端的方法, 使用兩層LSTM 網(wǎng)絡(luò)分別對(duì)單模態(tài)和組合模態(tài)進(jìn)行訓(xùn)練, 這種方法雖然利用了模態(tài)內(nèi)的話語(yǔ)上下文信息, 但非端到端的方法增加了分析的復(fù)雜性, 不利于應(yīng)用到實(shí)際.
近年來(lái), 研究者們希望模型能夠像人類在觀察事物的時(shí)候, 能夠把注意力集中在特征明顯的部分, 因此原本被用于機(jī)器翻譯領(lǐng)域的注意力機(jī)制被情緒分析領(lǐng)域的研究者們廣泛關(guān)注, 并嘗試在自己的模型中加入注意力機(jī)制, 使得模型能夠關(guān)注數(shù)據(jù)中對(duì)情緒影響較大的特征. 朱燁等人[15]融合了卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制對(duì)評(píng)論文本進(jìn)行情緒分析, 實(shí)驗(yàn)表明使用注意力加權(quán)的方式識(shí)別準(zhǔn)確率高于單一的CNN 模型. Poria 等人[16]對(duì)其原模型進(jìn)行了改進(jìn), 先在單模態(tài)內(nèi)部加入注意力機(jī)制,隨后在話語(yǔ)層面使用LSTM 網(wǎng)絡(luò)提取上下文信息, 然后再對(duì)擁有上下文信息的序列使用注意力模塊, 相比他們?cè)瓉?lái)的模型, 準(zhǔn)確率有了較大的提升. Ghosal 等人[17]提出了MMMU-BA 模型, 對(duì)雙模態(tài)使用注意力機(jī)制, 挖掘兩個(gè)模態(tài)之間的上下文交互作用, 但該方法沒(méi)有考慮增強(qiáng)單模態(tài)的上下文關(guān)聯(lián), 因此仍然存在改進(jìn)的空間.
時(shí)序多模態(tài)數(shù)據(jù)有兩個(gè)特征: 一是每個(gè)數(shù)據(jù)樣本都存在3 種模態(tài)可以分析, 二是句子上下文存在時(shí)序關(guān)聯(lián). 如圖1 所示, 以圖中上文語(yǔ)句為例, 從文本模態(tài)“I did not like”來(lái)看, 該視頻段說(shuō)話者的情緒是消極的, 但結(jié)合語(yǔ)音模態(tài)和視覺(jué)模態(tài)分析可知文本模態(tài)信息相對(duì)冗余, 因此說(shuō)話者所表達(dá)的真實(shí)情緒其實(shí)是積極的. 與單模態(tài)情感分析不同, 在同一個(gè)話語(yǔ)中, 不是所有模態(tài)都能發(fā)揮同等的作用, 所以多模態(tài)情感分析的難點(diǎn)在于如何有效整合不同模態(tài)的數(shù)據(jù), 使模型既能發(fā)揮所有模態(tài)的作用, 也不會(huì)因?yàn)槟硞€(gè)模態(tài)的冗余特征而影響到預(yù)測(cè)的結(jié)果. 同時(shí), 以圖1 中的目標(biāo)語(yǔ)句為例, 若只分析目標(biāo)語(yǔ)句實(shí)際上難以準(zhǔn)確判斷此時(shí)說(shuō)話者的情緒傾向, 但視頻是由一系列的話語(yǔ)組成的, 每句話都具有特定的時(shí)間順序, 與非時(shí)序數(shù)據(jù)不同, 視頻中的每一段話語(yǔ)可能具有一定的關(guān)聯(lián)性而且會(huì)彼此影響情感傾向[14]. 由此可見(jiàn), 利用時(shí)序多模態(tài)數(shù)據(jù)進(jìn)行情緒分析能夠挖掘數(shù)據(jù)中不同模態(tài)、不同話語(yǔ)之間的內(nèi)在關(guān)聯(lián). 因此本研究利用MOSEI 和MOSI視頻數(shù)據(jù)集的3 種模態(tài)信息(文本、聲音、視覺(jué))進(jìn)行多模態(tài)情緒分析研究, 并且利用卡內(nèi)基梅隆大學(xué)開源的多模態(tài)數(shù)據(jù)處理SDK, 在提取模態(tài)特征的同時(shí)保留視頻上下文話語(yǔ)之間的時(shí)序特征, 通過(guò)注意力機(jī)制增強(qiáng)模態(tài)內(nèi)和跨模態(tài)的上下文聯(lián)系, 最后進(jìn)行情緒分析, 形成一種基于話語(yǔ)間時(shí)序多模態(tài)數(shù)據(jù)的情緒分析模型.
圖1 時(shí)序多模態(tài)數(shù)據(jù)上下文影響情感分析的例子
本文基于話語(yǔ)間時(shí)序多模態(tài)數(shù)據(jù)的情緒分析模型框架如圖2 所示, 模型主要由以下4 個(gè)部分組成.
圖2 基于時(shí)序多模態(tài)數(shù)據(jù)的情緒分析模型框架圖
(1)單模態(tài)時(shí)序特征表示. 該部分主要是獲取話語(yǔ)之間的上下文關(guān)聯(lián), 同時(shí)將各模態(tài)特征數(shù)統(tǒng)一到相同的維度.
(2)模態(tài)內(nèi)時(shí)序信息增強(qiáng). 這部分的任務(wù)是增強(qiáng)上一層所得到的各模態(tài)內(nèi)部的上下文信息關(guān)聯(lián).
(3)雙模態(tài)時(shí)序信息交互. 該層主要是對(duì)單模態(tài)時(shí)序信息特征進(jìn)行跨模態(tài)融合, 不同模態(tài)兩兩組合, 并且挖掘跨模態(tài)的上下文關(guān)聯(lián).
(4)情緒分類. 將各層輸出的特征矩陣進(jìn)行拼接后獲得多模態(tài)融合信息, 進(jìn)行情緒分類.
一個(gè)視頻是由若干個(gè)視頻片段組成的, 每個(gè)視頻片段都具有時(shí)間順序和特征. 在這一部分, 我們使用雙向門控循環(huán)網(wǎng)絡(luò)(Bi-GRU)來(lái)捕獲視頻片段的上下文語(yǔ)義信息. GRU 單元是LSTM 單元的變體, 它將LSTM中的遺忘門和輸入門合并成了一個(gè)更新門, 減少了參數(shù)的同時(shí)也能達(dá)到和LSTM 相近的效果. 這里采用Bi-GRU 則是為了更加充分地挖掘上文和下文對(duì)目標(biāo)語(yǔ)句的影響. 假設(shè)一個(gè)視頻有u個(gè)話語(yǔ)片段, 每個(gè)片段特征維度為dm, 則某個(gè)模態(tài)下一個(gè)視頻可以表示為M∈Ru×dm,其中M,m∈{T,A,V}分別為文本、語(yǔ)音和視覺(jué)模態(tài). 以u(píng)t表示視頻中的一個(gè)話語(yǔ)片段, 設(shè)xt=[u1,u2,···,ut]作為Bi-GRUm的輸入, 獲得正向和反向輸出序列的每個(gè)隱藏狀態(tài), 并將其拼接為一個(gè)隱藏狀態(tài)ht, 如下:
圖3 單模態(tài)內(nèi)上下文交互增強(qiáng)方法
本文使用卡內(nèi)基梅隆大學(xué)的研究者提供的MOSI數(shù)據(jù)集和MOSEI 數(shù)據(jù)集對(duì)模型進(jìn)行驗(yàn)證.
(1) MOSI 數(shù)據(jù)集
該數(shù)據(jù)集包含了YouTube 上的93 個(gè)關(guān)于電影評(píng)論的視頻, 每個(gè)視頻都被切分為若干個(gè)視頻片段并且打上情緒標(biāo)簽, 單個(gè)視頻最多有63 個(gè)話語(yǔ)片段, 總計(jì)2 199個(gè)片段. 本文使用Poria 等人[14]提供的處理過(guò)的MOSI數(shù)據(jù)集, 文本模態(tài)、聲音模態(tài)和視覺(jué)模態(tài)的話語(yǔ)特征維度分別為100、73 和100, 由于只提供了訓(xùn)練集和測(cè)試集, 因此本文從訓(xùn)練集中抽取了一部分作為驗(yàn)證集,得到訓(xùn)練集、驗(yàn)證集和測(cè)試集的視頻數(shù)量為52、10、31, 由于每個(gè)視頻的話語(yǔ)片段數(shù)量不一, 因此對(duì)不足63 片段數(shù)的樣本進(jìn)行補(bǔ)0.
(2) MOSEI 數(shù)據(jù)集
該數(shù)據(jù)集包含了3 228 個(gè)視頻, 單個(gè)視頻的話語(yǔ)片段數(shù)最多為98, 總計(jì)22 677 個(gè)視頻片段. 本文使用卡內(nèi)基梅隆大學(xué)提供的多模態(tài)數(shù)據(jù)SDK 進(jìn)行處理, 從原始數(shù)據(jù)集中提取包含話語(yǔ)間上下文時(shí)序信息的特征,最終得到文本、聲音和視覺(jué)3 個(gè)模態(tài)的話語(yǔ)特征維度分別為300、74 和35, 訓(xùn)練集、驗(yàn)證集和測(cè)試集的視頻數(shù)量為2 250、300 和678, 同樣的, 對(duì)不足98 個(gè)片段數(shù)的樣本進(jìn)行補(bǔ)0.
本實(shí)驗(yàn)在Ubuntu 16.04 操作系統(tǒng)上完成, 內(nèi)存大小為32 GB, GPU 型號(hào)為GTX3070, CPU 型號(hào)為3.7 GHz主頻的i5-9600k, 深度學(xué)習(xí)框架使用TensorFlow 2.4 的GPU 加速版本. 模型中提到的Bi-GRU 網(wǎng)絡(luò)的隱藏層單元數(shù)為300, 后續(xù)全連接層神經(jīng)元數(shù)量為100,訓(xùn)練批次(batch_size)大小為64, 共迭代(epoch) 50 次.使用Adam 優(yōu)化器更新模型參數(shù), 學(xué)習(xí)率為0.001. 同時(shí)在訓(xùn)練過(guò)程中, 使用dropout 降低過(guò)擬合, 對(duì)于MOSI和MOSEI 數(shù)據(jù)集, 模型設(shè)置dropout 值分別為0.3 和0.5. 最后使用準(zhǔn)確率和F1 值作為模型的評(píng)價(jià)指標(biāo).
本文將選擇以下模型作為本方法的基線模型進(jìn)行比較.
(1) TFN[12]: 該模型由Zadeh 等人在2017 年提出,直接將3 種模態(tài)的特征數(shù)據(jù)統(tǒng)一到同一維度后, 進(jìn)行張量乘法操作, 形成一個(gè)張量后輸入到分析網(wǎng)絡(luò)中, 沒(méi)有考慮時(shí)序信息特征, 而且時(shí)間復(fù)雜度和空間復(fù)雜度都很高.
(2) MFN[18]: 該模型由Zadeh 等人在2018 年提出,使用一種多視圖順序?qū)W習(xí)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu), 使用LSTM網(wǎng)絡(luò)挖掘一個(gè)話語(yǔ)中的前后文關(guān)聯(lián)與跨模態(tài)交互.
(3) BC-LSTM[14]: 該方法是由Poria 等人在2017年提出的一種非端到端學(xué)習(xí)方法, 使用雙向LSTM 網(wǎng)絡(luò)先對(duì)單模態(tài)數(shù)據(jù)進(jìn)行訓(xùn)練, 再將訓(xùn)練特征拼接起來(lái)作為多模態(tài)融合數(shù)據(jù)進(jìn)行訓(xùn)練.
(4) GMFN[13]: 該模型由Zadeh 等人在2018 年提出, 它以分層的方式動(dòng)態(tài)融合模態(tài), 首次在MOSEI 數(shù)據(jù)集上取得較好的結(jié)果.
(5) MMMU-BA[17]: 該模型由Ghosal 等人在2018年提出, 它使用一種跨模態(tài)注意力機(jī)制充分融合了雙模態(tài)的時(shí)序特征信息, 但并沒(méi)有充分考慮到單模態(tài)內(nèi)的時(shí)序信息的交互作用.
為驗(yàn)證多模態(tài)時(shí)序信息在情緒分析中的重要性,本文首先是將模型中的每一個(gè)單一結(jié)構(gòu)進(jìn)行測(cè)試, 結(jié)果如表1 所示.
表1 模型中單一結(jié)構(gòu)的效果對(duì)比(%)
從表1 中單一結(jié)構(gòu)T、A、V 來(lái)看, 在3 種模態(tài)中文本模態(tài)提供了最多的信息, 準(zhǔn)確率和F1 值都是最高的, 因此一般情況下通過(guò)文本模態(tài)可以大致確定說(shuō)話者的情緒傾向. 當(dāng)使用自注意力機(jī)制加強(qiáng)了模態(tài)內(nèi)的上下文信息后(表中單一結(jié)構(gòu)TT、AA、VV), 對(duì)MOSEI數(shù)據(jù)集而言, 3 種模態(tài)的準(zhǔn)確率和F1 值都有所提高,但對(duì)于MOSI 數(shù)據(jù)集而言, 聲音模態(tài)存在較多的冗余數(shù)據(jù), 加強(qiáng)了模態(tài)內(nèi)上下文信息后準(zhǔn)確率和F1 值反而下降了. 單一結(jié)構(gòu)TA、TV、VA 則是雙模態(tài)的上下文信息交互層, 可以看出跨模態(tài)的上下文信息交互能提供更好的識(shí)別效果, 但由于視覺(jué)模態(tài)和聲音模態(tài)本身提供的信息較弱, 因此這二者的融合效果會(huì)比有文本模態(tài)的融合效果要差, 由此可見(jiàn)不是所有模態(tài)都能提供相同的分析效果, 甚至存在冗余的模態(tài)信息會(huì)對(duì)分析效果產(chǎn)生負(fù)面的影響. 最后則是將模態(tài)內(nèi)的時(shí)序信息交互特征和雙模態(tài)的時(shí)序信息交互特征拼接后進(jìn)行分析, 得到的準(zhǔn)確率和F1 值都比前面所述的單一結(jié)構(gòu)高.
本文模型與其他模型的對(duì)比如表2 所示. 從表中可以看到, 前3 個(gè)模型都沒(méi)有利用到多模態(tài)數(shù)據(jù)的時(shí)序特征, 僅僅是針對(duì)單個(gè)話語(yǔ)進(jìn)行訓(xùn)練與識(shí)別, 而BCLSTM 和MMMU-BA 模型利用到了數(shù)據(jù)的時(shí)序特征,準(zhǔn)確率與F1 值都有明顯的提高, 證明了話語(yǔ)級(jí)的時(shí)序信息特征確實(shí)能夠提高情緒分析的識(shí)別. 本文的方法對(duì)前人的模型進(jìn)行了改進(jìn), 同時(shí)融合模態(tài)內(nèi)的時(shí)序信息特征和雙模態(tài)的時(shí)序信息特征, 在MOSEI 數(shù)據(jù)集上準(zhǔn)確率比基準(zhǔn)模型最高值提高了0.32%, 而F1 值提高了1.96%, 在MOSI 數(shù)據(jù)集上, 準(zhǔn)確率提高了0.15%,而F1 值雖然比最高值低, 但仍然比非話語(yǔ)級(jí)時(shí)序的分析高. 由此可見(jiàn), 本文提出的方法是能夠提高情緒分析的識(shí)別準(zhǔn)確率, 同時(shí)模型的穩(wěn)健性更高.
表2 不同模型的效果對(duì)比(%)
本文提出了一種基于話語(yǔ)間時(shí)序多模態(tài)數(shù)據(jù)的情緒分析方法, 有效提取了模態(tài)內(nèi)的時(shí)序信息交互特征和雙模態(tài)的時(shí)序信息交互特征. 首先通過(guò)對(duì)模型中每一個(gè)結(jié)構(gòu)進(jìn)行單獨(dú)的實(shí)驗(yàn), 可以看出單模態(tài)數(shù)據(jù)提供的分析角度較為單一, 時(shí)序多模態(tài)數(shù)據(jù)的分析方法通過(guò)利用多模態(tài)特征和時(shí)序特征, 有效提高模型分析角度的全面性, 同時(shí), 在加入了時(shí)序信息增強(qiáng)特征和雙模態(tài)時(shí)序交互特征后, 更是明顯提高了情緒分析任務(wù)的準(zhǔn)確率. 最后與現(xiàn)有的模型進(jìn)行比較, 證明了本文提出的方法在MOSEI 和MOSI 數(shù)據(jù)集上能夠不僅有效提升了情緒分析任務(wù)的識(shí)別準(zhǔn)確率, 還得到了更好的模型穩(wěn)健性. 由此可見(jiàn), 話語(yǔ)間的時(shí)序多模態(tài)數(shù)據(jù)蘊(yùn)含了更多的情緒信息, 其特征的提取、模態(tài)的融合等會(huì)對(duì)識(shí)別效果產(chǎn)生顯著的影響. 因此后續(xù)的工作將繼續(xù)在多模態(tài)情緒分析這一領(lǐng)域, 在特征提取與模態(tài)融合的方向進(jìn)行更深入的研究.