沈旭東 黃賢英 鄒世豪
摘 要:針對現(xiàn)有對話情緒識別方法中對時序信息、話語者信息、多模態(tài)信息利用不充分的問題,提出了一個時序信息感知的多模態(tài)有向無環(huán)圖模型(MTDAG)。其中所設(shè)計的時序感知單元能按照時間順序優(yōu)化話語權(quán)重設(shè)置,并收集歷史情緒線索,實現(xiàn)基于近因效應(yīng)下對時序信息和歷史信息更有效的利用;設(shè)計的上下文和話語者信息融合模塊,通過提取上下文語境和話語者自語境的深度聯(lián)合信息實現(xiàn)對話語者信息的充分利用;通過設(shè)置DAG(directed acyclic graph)子圖捕獲多模態(tài)信息并約束交互方向的方式,在減少噪聲引入的基礎(chǔ)上充分利用多模態(tài)信息。在兩個基準數(shù)據(jù)集IEMOCAP和MELD的大量實驗表明該模型具有較好的情緒識別效果。
關(guān)鍵詞:對話情緒識別; 有向無環(huán)圖; 近因效應(yīng); 特征提??; 多模態(tài)交互
中圖分類號:TP391?? 文獻標志碼:A?? 文章編號:1001-3695(2024)01-008-0051-08
doi:10.19734/j.issn.1001-3695.2023.04.0183
Multi-modal temporal-aware DAG for emotion recognition in conversation
Abstract:Aiming at the issue of insufficient utilization of temporal information, speaker information, and multi-modal information in existing conversational emotion recognition methods, this paper proposed a multi-modal temporal-aware DAG model (MTDAG). The designed temporal-aware unit optimized the discourse weight setting in chronological order and collected historical emotional cues to achieve more effective utilization of temporal and historical information based on recency effect. The context and speaker information fusion module achieved the full utilization of discourse information by extracting the deep joint information of contextual context and speaker self-context. By setting the DAG subgraphs to capture multi-modal information and constrain the interaction direction, the model achieved full utilization of multi-modal information while reducing the introduction of noise. Extensive experiments conducted on two benchmark datasets, IEMOCAP and MELD, demonstrate that the model exhibits excellent performance in emotion recognition.
Key words:emotion recognition in conversation(ERC); directed acyclic graph; recency effect; feature extraction; multi-modal interaction
0 引言
對話情緒識別(ERC)的主要目標是正確識別每個話語者在對話過程中的話語所表達的情緒。在對話過程中,存在著文本、語音和圖像三種模態(tài)的信息,多模態(tài)ERC就是基于這三種模態(tài)的信息,通過模型對話語進行情緒識別,對話實例如圖1所示。由于話語者情緒傾向的研究在消費購物、社交媒體中的意見挖掘[1]和人機對話交互等領(lǐng)域有著巨大的應(yīng)用價值,所以該任務(wù)越來越受到研究者的關(guān)注。由于ERC中可用的信息只有三種模態(tài)的信息以及話語者和話語的對應(yīng)關(guān)系,所以研究者們不得不從上下文時序關(guān)系、話語者自身特點、模態(tài)交互融合等方面獲得更有用的信息。盡管現(xiàn)有研究使用了多種方法挖掘這些信息,如以時間序列的形式建模對話[2~4]、對話語者單獨建模[5,6]、構(gòu)建模態(tài)融合圖[6,7]等,但依舊存在一些問題:a)利用時序信息時沒有考慮到對話中的近因效應(yīng)(新近獲得的信息比原來獲得的信息影響更大);b)話語者細粒度信息的挖掘還不夠充分;c)多模態(tài)信息的利用還不充分。
對于問題a)來說,基于心理學(xué)[8,9]的研究,由于近因效應(yīng)的存在,對話開始時的話語有效信息較少,對于每個話語的情緒識別,更具有價值的是其臨近的話語信息,所以需要對話語進行權(quán)重約束以限制先前話語中的冗余信息過多流向當前。歷史話語為當前話語的情緒識別提供了重要的情緒線索,但這些情緒線索的重要性同樣會根據(jù)時序而有所差別,因此可以采用基于近因效應(yīng)的方法提取歷史話語中的情緒線索,從而更有效地利用時序信息。
針對問題b),研究[6,7]表明,話語者信息中含有大量情緒線索,對話語者信息進行更細粒度的利用可以提高情緒識別的效果。通過分析數(shù)據(jù)注意到,同一個話語者的情緒具有一定的慣性,也就是說,話語者傾向于保持自己的情緒狀態(tài),但當被其他話語者所影響時,其情緒才可能會產(chǎn)生變化,例如,一個對話開始時處于愉快狀態(tài)的話語者可能會在接下來的對話中保持愉快,而一個開始時憤怒的話語者可能會繼續(xù)表達憤怒。這種情緒慣性在話語者自語境中體現(xiàn),并且會受上下文語境中的情緒線索影響,因此可以分別提取話語者自語境和上下文語境中的情緒線索并加以融合,從而實現(xiàn)更細致的話語者信息挖掘利用。
對于問題c),則需要考慮在ERC中多模態(tài)特征的特點。Zou等人[10]認為不同模態(tài)具有不同的表征能力,在三種模態(tài)的信息中,文本模態(tài)的表征能力最強,其他兩個模態(tài)的表征能力則較弱,此外用強表征能力的模態(tài)去增強弱表征能力的模態(tài)可以彌補語義鴻溝,從而有效緩解模態(tài)融合時發(fā)生表征衰減的問題。Shen等人[11]使用有向無環(huán)圖(directed acyclic graph,DAG)的結(jié)構(gòu)去建模對話上下文,這使得模型較好地利用了對話的特點,既能獲取對話中的時序信息,又能同時收集當前話語附近的信息,在當時取得了最好的實驗效果,這種優(yōu)點使得DAG同樣可以用來建模多模態(tài)信息。因此,可以在用DAG捕獲多模態(tài)信息的基礎(chǔ)上對模態(tài)交互的方向進行約束以充分利用多模態(tài)信息。
針對上述問題,提出了一個時序信息感知的多模態(tài)DAG模型(multi-modal temporal-aware DAG,MTDAG),其包括如下的改進:設(shè)計的時序感知單元通過時間順序優(yōu)化權(quán)重設(shè)置,并收集歷史情感線索,實現(xiàn)基于近因效應(yīng)下對時序信息和歷史信息更有效的利用;設(shè)計的上下文和話語者信息融合模塊,提取了上下文語境的情緒線索和話語者自語境的情緒慣性線索,并將兩部分線索深度融合以增強文本特征,實現(xiàn)了對話語者細粒度信息更充分地挖掘利用;通過設(shè)置DAG子圖的方式將多模態(tài)信息引入模型,同時在模態(tài)交互過程中對信息的流向進行約束,以減少交互產(chǎn)生的噪聲,從而充分利用多模態(tài)信息。
總的來說,本文的貢獻如下:
a)提出了一種基于近因效應(yīng),以時間為監(jiān)督信號的話語特征優(yōu)化方法和歷史情緒線索收集方法,以充分利用對話時序信息。
b)注意到話語者的情緒慣性,并在文本模態(tài)中提出多粒度特征融合的上下文和話語者信息融合模塊,通過提取上下文語境級別和話語者自語境級別的深層次聯(lián)合信息來利用這種情緒慣性,以充分利用話語者信息。
c)在多模態(tài)ERC任務(wù)中使用DAG對三種模態(tài)的信息建模進行情緒識別,并在其中設(shè)置模態(tài)交互約束條件以減少交互產(chǎn)生的噪聲,實現(xiàn)多模態(tài)特征更有效的利用。
d)提出模型在IEMOCAP和MELD兩個數(shù)據(jù)集上都取得了優(yōu)于其他模型的效果,證明了其優(yōu)越性和有效性。
1 相關(guān)工作
1.1 基于文本的ERC
近幾年來,ERC受到了許多關(guān)注。DialogueRNN[4]使用多個RNN對對話進行動態(tài)建模。DialogueGCN[12]構(gòu)建了同時考慮說話者和對話順序信息的圖,使用圖網(wǎng)絡(luò)進行話語者的self-和inter-之間依賴關(guān)系的建模。COSMIC[13]在DialogueRNN的基礎(chǔ)上,通過從ATOMIC引入外部的常識信息來提高模型的表現(xiàn)。 DialogueCRN[14]通過構(gòu)建推理模塊模擬人類推理的過程,從而判斷情緒標簽。HCL-ERC[15]首次將課程學(xué)習(xí)引入對話情緒識別領(lǐng)域,通過設(shè)置兩個級別的課程來劃分數(shù)據(jù),進而在上述提及的部分模型基礎(chǔ)上,性能都得到了提升。文獻[16]將對話主題信息和行為信息融入對話文本并通過圖神經(jīng)網(wǎng)絡(luò)建模對話上下文。HSGCF[17]利用層次結(jié)構(gòu)來提取情感判別特征,并使用五個圖卷積層分層連接來建立一個特征提取器。但上述基于文本的方法并未充分使用其他模態(tài)可供利用的信息,導(dǎo)致效果不夠理想。
1.2 基于多模態(tài)的ERC
之前的大多研究工作僅將文本信息建模進行情緒判別,但音頻和視頻信息也能對情緒判別提供幫助。Poria等人[2]用基于LSTM的模型將提取到的三個模態(tài)的特征進行融合。ICON[3]和CMN[18]利用GRU和記憶網(wǎng)絡(luò)進行情緒判別。Chen等人[19]提出了一種在單詞層面進行多模態(tài)融合的方法。Sahay等人[20]提出用關(guān)系張量網(wǎng)絡(luò)體系結(jié)構(gòu)融合模態(tài)信息來預(yù)測情緒。Zaheh等人[21]提出記憶融合網(wǎng)絡(luò)來融合多視圖的信息。MMGCN[6]按模態(tài)內(nèi)和模態(tài)間對話語的多模態(tài)信息構(gòu)建圖。MM-DFN[7]在此基礎(chǔ)上設(shè)計了一種動態(tài)融合模塊來融合多模態(tài)上下文信息。文獻[22]構(gòu)建了多模態(tài)特征學(xué)習(xí)和融合的圖卷積網(wǎng)絡(luò),并以說話人在完整對話中的平均特征為一致性約束,使模型學(xué)習(xí)到更合理的話語特征。DIMMN[23]在注意力網(wǎng)絡(luò)中設(shè)計了多視圖層,使模型能夠在動態(tài)的模態(tài)互動過程中挖掘不同群體之間的跨模態(tài)動態(tài)依賴關(guān)系。上述研究工作表明,使用多模態(tài)數(shù)據(jù)特征比使用單模態(tài)數(shù)據(jù)特征具有更好的性能和魯棒性,這種優(yōu)勢在情緒識別任務(wù)中更為明顯。
1.3 有向無環(huán)圖
DAG因為獨特的拓撲結(jié)構(gòu)所帶來的優(yōu)異特性,經(jīng)常被用于處理動態(tài)規(guī)劃、導(dǎo)航中尋求最短路徑、數(shù)據(jù)壓縮等多種場景。大量基于DAG的深度學(xué)習(xí)模型此前也被相繼提出,例如:Tree-LSTM[24]、DAG-RNN[25]、D-VAE[26]和DAGNN[27]。DAG-ERC[11]受到DAGNN的啟發(fā),將DAG模型用于對話情緒識別任務(wù)中,取得了較好的成果。然而,這些方法沒有考慮到不同的話語按時間順序?qū)Ξ斍霸捳Z的情感識別有不同的貢獻。
2 問題定義
給定一段對話U={u1,u2,…,uN},其中N表示對話中語句的數(shù)量。每個話語分別包含三個模態(tài)的信息,可以表示如下:
ui={uti,uai,uvi}(1)
其中:uti、uai、uvi分別表示第i個話語的文本模態(tài)信息、語音模態(tài)信息、圖像模態(tài)信息。有話語者S={s1,s2,…,sM},其中M為話語者的數(shù)量,并且M≥2。在該任務(wù)中,話語ui由話語者sφ(ui)說出,其中φ表示話語者和話語之間的映射關(guān)系。另外有情緒標簽Y={y1,y2,…,yk},其中k為情緒標簽的數(shù)量。對話情緒識別的目標就是基于以上可用信息,正確預(yù)測每個話語的情緒標簽。
3 MTDAG模型
提出的模型MTDAG被建模如下:首先將對話原始數(shù)據(jù)輸入三個模態(tài)編碼器以獲得特征向量,對于文本特征將其輸入上下文和話語者信息融合模塊,獲得具有上下文和話語者聯(lián)合信息的增強文本特征,其他兩個模態(tài)的特征通過雙向LSTM進行特征提取,然后用三個模態(tài)的特征分別構(gòu)建DAG子圖進行交互,最后將得到的結(jié)果進行融合來預(yù)測情緒標簽。模型的框架如圖2所示。它包含模態(tài)編碼層、特征提取層、帶有時序感知單元的DAG交互層和情緒分類層四個關(guān)鍵部分,其中FC表示全連接層,CSFM表示所提出的上下文和話語者信息融合模塊。值得注意的是,在DAG子圖中設(shè)置了時序感知單元用于優(yōu)化特征并收集歷史情緒線索。
3.1 模態(tài)編碼層
3.1.1 文本模態(tài)編碼
為了獲得更好的文本模態(tài)特征表示,使用大規(guī)模預(yù)訓(xùn)練語言模型RoBERTa-Large[28]來進行話語文本信息uti的編碼提取。該模型的架構(gòu)與BERT-Large[29]相同,RoBERTa在BERT的基礎(chǔ)上,通過動態(tài)掩碼修改預(yù)訓(xùn)練任務(wù),在更多數(shù)據(jù)上使用更大的批次,對模型進行更長時間的訓(xùn)練等方面進行優(yōu)化,從而實現(xiàn)了更強大的表征能力。除此以外,使用ERC數(shù)據(jù)集對預(yù)訓(xùn)練模型進行微調(diào),以此獲得更好的文本表征效果。最后獲得每個話語都為1 024維的句子向量eti。
3.1.2 語音模態(tài)編碼
根據(jù)Hazarika等人[3]的配置,使用OpenSmile[30]進行語音特征提取。使用IS13比較配置文件,該文件為每個話語視頻提取了總共6 373個特征,通過使用全連接層將IEMOCAP的維度降低到1 582,MELD數(shù)據(jù)集的維度降到300。通過上述操作將語音信息uai轉(zhuǎn)換為了特征向量eai。
3.1.3 圖像模態(tài)編碼
圖像面部特征是通過使用DenseNet[31]在面部表情識別Plus(FER+)[32]語料庫上預(yù)先訓(xùn)練提取得到的,通過DenseNet捕獲話語者表情的變化,這對ERC來說是非常重要的信息。最終將圖像信息uvi轉(zhuǎn)換為342維的特征表示evi。
3.2 特征提取層
3.2.1 上下文和話語者信息融合模塊
其中:Uλ指話語者sλ的所有話語集合;hpλ,j是話語者sλ的第j個話語者級別LSTM的隱藏層狀態(tài)。
hti=attention(pti,cti,cti)(4)
3.2.2 語音和圖像特征處理
對于語音和圖像模態(tài),采用上下文語境級別的LSTM進行線索的提取,計算如下:
3.3 帶有時序感知單元的DAG交互層
根據(jù)Shen等人[11]的工作,建立了一個DAG網(wǎng)絡(luò),其中對于每個模態(tài)分別建立子圖,用于捕獲多模態(tài)信息,可以描述為Gδ=(Vδ,Eδ,Rδ),δ∈{t,a,v} 。在子圖中,把對話中的語句所對應(yīng)的特征作為節(jié)點。邊(i,j,rij)∈Eδ表示句子ui到uj的某種關(guān)系rij。規(guī)定句子之間存在兩種關(guān)系rij=(0,1)∈Rδ:值為0時說明兩個句子是由不同的話語者說的,在模型圖中為單向?qū)嵕€;1則為同一個人,體現(xiàn)為單向虛線。在所建立的DAG網(wǎng)絡(luò)中,信息流動是單向的,即先前的話語信息可以傳遞到未來,但是未來的話語不能反向傳遞回從前,這也符合現(xiàn)實話語情境中過去說過的話不會受未來所影響這一實際情況。如果同一話語者在對話中所說相鄰前后兩個話語為ufront和urear,就定義其間的所有話語為后一個話語urear的局部信息,其間的所有節(jié)點稱為urear的局部信息節(jié)點Adjδrear。除此以外,為了實現(xiàn)對話語時序信息和歷史情緒線索利用得更有效,在三個子圖中分別設(shè)置了時序感知單元。
3.3.1 DAG層
在DAG的每一層,從第一個話語到最后一個話語根據(jù)時序計算話語的隱藏狀態(tài)。本文使用{hti}Ni=1、{hai}Ni=1、{hvi}Ni=1來初始化各子圖第(0)層的節(jié)點。對于話語ui在第(l)層的節(jié)點特征,需要經(jīng)過DAG層中同模態(tài)特征的聚合以及跨模態(tài)交互層中不同模態(tài)特征的交互后得到。
針對話語ui在第(l)層的節(jié)點特征hδli,先計算其在上一層的隱藏向量hδ(l-1)i和局部信息節(jié)點hδlj,j∈Adjδi的關(guān)系分數(shù)βδlij,然后根據(jù)關(guān)系分數(shù)聚合這些信息得到Xδli。
獲取到聚合信息之后,使用能控制信息流向的GRU細胞來獲得該節(jié)點在當前層的融合特征:
其中:GRUδlh和GRUδlX中輸入的特征相同,輸入的位置相反。
3.3.2 多模態(tài)交互
引入多模態(tài)信息可以增加模型識別情緒所需要的重要線索,但是由于不同模態(tài)語義鴻溝的存在,需要在引入信息的同時進行多模態(tài)交互以減少噪聲。根據(jù)Zou等人[10]的研究,相比語音和圖像模態(tài),文本模態(tài)具有更強的特征表示能力,由此設(shè)置了模態(tài)交互約束條件,保證模態(tài)交互只存在于強表征能力模態(tài)(文本)與弱表征能力模態(tài)(語音、圖像)之間,避免弱模態(tài)之間低效交互產(chǎn)生過多噪聲。
對語音和圖像子圖中每個話語節(jié)點的特征,使用同一層文本子圖中的特征進行交互增強。首先計算圖像特征和語音特征與文本特征各自的相關(guān)分數(shù),計算公式如下:
其中:Wil(·)為可訓(xùn)練參數(shù);f(·)代表Leaky_ReLU函數(shù);α(t→a)li和α(t→v)li分別代表第l層DAG子圖中第i個文本節(jié)點特征與語音節(jié)點特征和圖像節(jié)點特征的相關(guān)分數(shù)。
此時獲得了三種模態(tài)的語義交互相關(guān)性,然后利用該相關(guān)分數(shù)計算交互后的語音和圖像增強特征:
3.3.3 時序感知單元
上述的各模態(tài)特征表示仍舊是基于每個話語的權(quán)重是相等的,但事實上每個話語隨時序應(yīng)有不同的重要性。由此設(shè)計了時序感知單元,該模塊主要有兩個作用:a)以時間信息作為監(jiān)督信號來進行差異化的話語權(quán)重設(shè)置;b)根據(jù)時序為每個話語提供歷史情緒線索。如圖4所示,其中∑R代表式(12)中提出的聚合函數(shù),∑G代表門控機制。
具體來說,先為模態(tài)特征賦予初始權(quán)重ωi:
ωi=ω+(1-ω)×i/N(15)
δli=ωi×Zδli(16)
其中:權(quán)重衰減系數(shù)ω為設(shè)置的超參數(shù);i為該話語在當前對話中的位置;N為當前對話中話語的個數(shù)。
為了收集時序歷史情緒線索,設(shè)計了如下的聚合函數(shù):
其中:μ為近因效應(yīng)影響因子;i為話語的位置。μ小于1時體現(xiàn)出首因效應(yīng),這不符合進行對話時的直覺,因此μ通常大于1。當該話語為對話中的第一句時,其不存在歷史信息,因此將該值置為0。
在結(jié)合這兩部分信息時,使用了參數(shù)可學(xué)習(xí)的門控機制:
ε=σ(Wgate[Mδli‖Qδli])(19)
hδli=ε×Mδli+(1-ε)×Qδli(20)
其中:Wgate為可訓(xùn)練參數(shù)矩陣,σ為sigmoid函數(shù)。
3.4 情緒分類層
在情緒分類階段先將單個模態(tài)各DAG層的特征表示進行拼接:
Hi=Hti‖Hai‖Hvi‖hti‖hai‖hvi(22)
然后將Hi輸入全連接層進行情緒標簽的預(yù)測:
使用標準交叉熵和L2正則化作為訓(xùn)練過程中的損失函數(shù):
其中:N是對話的個數(shù);c(i)是對話i中的話語數(shù)量;Pi,j是對話i中話語j的預(yù)測情緒標簽的概率分布;yi,j是對話i中話語j的預(yù)測類別標簽;η是L2正則化權(quán)重;θ是所有可訓(xùn)練參數(shù)的集合。使用隨機梯度下降的Adam[33]優(yōu)化器來訓(xùn)練網(wǎng)絡(luò)模型。
4 實驗設(shè)置
4.1 實施細節(jié)
超參數(shù)設(shè)置如下:在IEMOCAP中,權(quán)重衰減系數(shù)ω為0.7,近因效應(yīng)影響因子μ設(shè)置為1.5,在MELD中ω設(shè)為0.85,μ為1.4。學(xué)習(xí)率為5E-4,L2正則化參數(shù)設(shè)置為5E-5,batch size設(shè)置為64,dropout設(shè)置為0.3,隱藏狀態(tài)維度dh設(shè)置為300維,DAG層數(shù)n為3。每個訓(xùn)練和測試過程都在單個RTX 3090 GPU上完成。每個數(shù)據(jù)集都訓(xùn)練30個epoch,單個epoch平均耗時約10 s。實驗結(jié)果數(shù)據(jù)都是基于測試集上5次隨機運行的平均分數(shù)。所有的超參數(shù)都是通過基于測試性能的網(wǎng)格搜索來確定的。
4.2 數(shù)據(jù)集
在IEMOCAP[34]和MELD[35]兩個基準數(shù)據(jù)集上對所提模型的有效性進行了評估。這兩個數(shù)據(jù)集都是包含文本、語音、圖像的多模態(tài)ERC數(shù)據(jù)集。對于數(shù)據(jù)集的劃分是根據(jù)Hu等人[6]的配置所確定的。表1顯示了兩個數(shù)據(jù)集的數(shù)據(jù)劃分情況。
IEMOCAP:每段對話都是來自兩位演員根據(jù)劇本所作出的表演。IEMOCAP中一共有7 433個話語和151個對話。對話中的每個話語都帶有六個類別的情緒標簽,分別是happy、sad、neutral、angry、excited和frustrated。
MELD:包含從電視劇Friends中收集的多方對話視頻數(shù)據(jù),其中一共包括13 708個話語和1 433個對話。與IEMOCAP中只有兩個話語者不同,MELD在一次對話中有三個或三個以上的話語者,對話中的每個話語都帶有七個類別的情緒標簽,分別是neutral、surprise、fear、sadness、joy、disgust和angry。
4.3 對照方法
a)BC-LSTM[2]:其通過雙向LSTM網(wǎng)絡(luò)對上下文語義信息進行編碼,但是沒有考慮話語者信息。
b)ICON[3]:利用兩個GRU來建模話語者信息,使用額外全局的GRU跟蹤整個對話中情緒狀態(tài)的變化,利用多層記憶網(wǎng)絡(luò)對全局情緒狀態(tài)進行建模,但是ICON仍不能適應(yīng)多個話語者的情景。
c)DialogueRNN[4]:其通過三種不同的GRU(全局GRU、話語者GRU和情緒GRU)對對話中的話語者和順序信息進行建模,但是DialogueRNN在多模態(tài)領(lǐng)域并沒有多大的改進。
d)DialogueGCN[12]:其將GCN應(yīng)用于ERC,生成的特征可以集成豐富的信息。RGCN和GCN都是非譜域GCN模型,用于對圖進行編碼。
e)DialogueCRN[14]:其引入認知階段,從感知階段檢索的上下文中提取和整合情緒線索。
f)MMGCN[6]:使用GCN來獲取上下文信息,可以有效地彌補DialogueGCN中不能利用多模態(tài)依賴關(guān)系的缺點,還有效地利用話語者的信息進行對話情緒識別,但其存在較多冗余信息。
g)DAG-ERC[11]:利用DAG的結(jié)構(gòu)進行建模,將話語都看成節(jié)點,依時序向后建圖,但沒有設(shè)置差異化的話語權(quán)重。
h)MM-DFN[7]:通過設(shè)計了新的基于圖的動態(tài)融合模塊來融合多模態(tài)上下文信息,以此充分理解多模態(tài)對話上下文來識別話語中的情緒。
i)HSGCF[17]:使用五個圖卷積層分層連接,以此建立了一個情感特征提取器。
j)DIMMN[23]:在注意力網(wǎng)絡(luò)中設(shè)計了多視圖層,在動態(tài)的模態(tài)互動過程中挖掘不同群體之間的跨模態(tài)動態(tài)依賴關(guān)系。
5 結(jié)果與分析
5.1 與其他對照方法的比較
所提模型在IEMOCAP和MELD數(shù)據(jù)集上與其他基線模型進行了比較,實驗結(jié)果如表2和圖5所示。在帶有“*”的基線結(jié)果使用開源代碼重新運行。為了公平對比,使用本實驗中處理的數(shù)據(jù),在所有能夠被重構(gòu)的基線模型上進行實驗,用于后面對比文本特征的效果,在表中如“+RoBERTa”所示??杖碧幨且驗樵摶€未開源,或是并未使用某評估指標。其他帶有結(jié)果的基線從文獻[7]中復(fù)制而來。由于發(fā)表于2023年的兩篇工作未能開源,所以選擇了MM-DFN來進行更細致的實驗結(jié)果對比。
分析表2可以發(fā)現(xiàn):
a)本文MTDAG在weighted accuracy和F1-score評分方面均優(yōu)于所有的基線模型,證明了提出模型在多模態(tài)ERC上的有效性。
b)MTDAG在weighted accuracy和F1-score上均優(yōu)于MM-DFN,這表明本文模型對對話中話語者信息的提取,比使用話語者信息的最先進基線模型有著更好的效果。
c)在單獨情緒類別的比較中,MTDAG在IEMOCAP和MELD數(shù)據(jù)集都獲得了所有類別的最佳性能,如圖5所示。在MELD中的情緒類別中,除了樣本數(shù)量最多的neutral類別外,其余的情緒類別中都取得遠比MM-DFN更好的效果。特別說明:MM-DFN報告了每個類別的F1得分,除了MELD上的兩個情緒類別(即fear和disgust),由于訓(xùn)練樣本的數(shù)量較少,其結(jié)果沒有統(tǒng)計學(xué)意義,所以被合并到近似的情緒類別中。
5.2 消融實驗
為了研究MTDAG中不同模塊和模態(tài)選擇的影響,對兩個數(shù)據(jù)集進行了消融實驗,考慮了以下設(shè)置。
a)w/o TaU:移除所使用的時序感知單元。
b)w/o CSFM:移除上下文和話語者信息融合模塊。
c)A&V with MLP:針對語音和圖像模態(tài)使用多層感知機(multi-layer perceptron,MLP)建模而非設(shè)置DAG子圖的方式。
d)w/o interaction:移除模態(tài)間的交互過程。
e)T:只使用文本模態(tài)進行對話中的情緒預(yù)測。
f)A:只使用語音模態(tài)進行對話中的情緒預(yù)測。
g)V:只使用圖像模態(tài)進行對話中的情緒預(yù)測。
表3顯示了消融實驗的結(jié)果,通過其中的數(shù)據(jù)可以得到:
a)移除時序感知單元會在兩個數(shù)據(jù)集上降低較多的F1分數(shù),并且在IEMOCAP中更明顯,證明了對DAG進行時序權(quán)重約束和情緒線索收集的合理性。雖然對話開始階段的話語中有效信息較少,但其中仍然包含有一定的情緒線索,所以需要以合適的方法利用這些信息,而提出模型較好地解決了這一問題。而該模塊在IEMOCAP數(shù)據(jù)集中影響更大的原因在于 IEMOCAP數(shù)據(jù)集中對話更長,雖然較長的對話長度會包含更多的信息,但是同樣會產(chǎn)生較多的冗余信息,通過降低先前話語的權(quán)重并合理收集歷史情緒線索可以幫助模型專注于附近的信息,從而獲得更好的表現(xiàn)。
b)移除上下文和話語者信息融合模塊同樣會在兩個數(shù)據(jù)集上降低精度,但在兩個數(shù)據(jù)集中表現(xiàn)不同,同樣證明了對于話語者細粒度的信息挖掘策略是有效的,合理利用話語者信息可以提高情緒識別的精度。因為從心理學(xué)的角度來看,話語者傾向于保持當前的情緒狀態(tài),所以話語者自語境中必然蘊涵著導(dǎo)致情緒變化的線索,將這部分線索與上下文語境級別的情緒線索進行融合,將更好地實現(xiàn)情緒識別。而造成該模塊在兩個數(shù)據(jù)集中的效果有差異的原因在于MELD數(shù)據(jù)集中對話長度短,且話語者人數(shù)多,情緒的連續(xù)性并不明顯,導(dǎo)致話語者自語境的信息較少,性能較IEMOCAP差一些。
c)為了探究設(shè)置DAG子圖捕獲多模態(tài)特征的合理性,針對語音和圖像模態(tài)使用MLP建模進行情緒預(yù)測,結(jié)果表明通過DAG子圖的方式建模多模態(tài)特征的效果優(yōu)于僅使用MLP,證明DAG子圖捕獲多模態(tài)特征的建模方式降低了數(shù)據(jù)中的噪聲,更充分地利用了多模態(tài)信息,以此緩解話語長度較短場景中情緒線索不足的問題。
d)移除模態(tài)間的交互過程會降低模型效果,證明所設(shè)計的交互操作能夠有效增強多模態(tài)交互效果,提高模型表現(xiàn)。這也同樣表明經(jīng)過改進的DAG結(jié)構(gòu)能夠有效建模多模態(tài)信息,實現(xiàn)多模態(tài)場景下的情緒識別。
e)多模態(tài)數(shù)據(jù)的輸入性能要優(yōu)于單模態(tài)數(shù)據(jù)的輸入。分析發(fā)現(xiàn)在給文本特征加入另外兩種模態(tài)信息時,效果比單一文本模態(tài)時更好,這點在IEMOCAP上表現(xiàn)更為明顯,因為語音和圖像在一定程度上會對文本起到一定的輔助作用,尤其是在文本的情緒表達不明顯的話語中。此外文本模態(tài)的性能表現(xiàn)遠比另外兩種模態(tài)的效果好。
f)僅保留文本特征時,實驗得到的評價指標要比表2中僅基于文本的對照方法更高,證明了所提模型表現(xiàn)同樣要優(yōu)于僅基于文本的對照模型,同時保證了與基于文本的方法進行對比的公平性。
5.3 文本特征編碼的影響
表2記錄了使用不同文本特征編碼器獲取到的文本特征的實驗結(jié)果。在所有能夠被重構(gòu)的基線模型上使用本實驗中處理的數(shù)據(jù)進行實驗,用于對比文本特征的效果。觀察表2可以發(fā)現(xiàn),在兩個數(shù)據(jù)集上,無論是基線模型還是MTDAG,使用RoBERTa嵌入的性能都優(yōu)于使用TextCNN嵌入的性能。這表明高質(zhì)量的深度語境化詞匯表示可以進一步提高模型的有效性。因此選擇RoBERTa作為文本嵌入獲得的性能增益是可取的,也是必要的。而在全部使用RoBERTa嵌入的基線模型比較中,MTDAG的表現(xiàn)依然要優(yōu)于它們,證明了提出模型的有效性。
5.4 參數(shù)敏感性實驗
對于權(quán)重衰減系數(shù)ω和近因效應(yīng)影響因子μ在兩個數(shù)據(jù)集上的選取,是通過基于測試性能的網(wǎng)格搜索來確定的,結(jié)果如圖6所示。
從圖6可以看出:
a)適合兩個數(shù)據(jù)集的ω并不相同。數(shù)據(jù)集中對話長度以及單個話語的長度可以解釋這一現(xiàn)象:在IEMOCAP中,對話長度和話語長度都普遍較長,說明先前的歷史信息較多,冗余信息也同樣較多,因此先前信息的重要程度較低,表現(xiàn)為ω取值相對較小;然而在MELD中對話的長度和話語長度都相對較短,先前話語仍舊會對末尾話語產(chǎn)生著較大影響,因此先前話語的重要性比較高,表現(xiàn)為ω取值相對較大。
b)適合兩個數(shù)據(jù)集的μ也并不相同。原因同樣是對話和話語的長度,MELD數(shù)據(jù)集的情緒預(yù)測需要更多的歷史信息,表現(xiàn)為μ取值相對較小,從先前收集到的情緒線索更多;IEMOCAP則更依靠附近的話語信息,無須太多歷史情緒線索,表現(xiàn)為μ取值較大,近因效應(yīng)更明顯。
5.5 誤差分析
通過對兩個數(shù)據(jù)集進行詳細研究以便對實驗結(jié)果進行誤差分析。通過對圖7的分析發(fā)現(xiàn):
a)IEMOCAP中相似情緒之間的轉(zhuǎn)換比例很高,推測模型在相似的情緒類別之間出現(xiàn)了混淆。比如happy和excited,有較多的happy類都被模型預(yù)測為了excited。分析了數(shù)據(jù)集以后發(fā)現(xiàn)部分原因是訓(xùn)練樣本分布不均衡,happy類在整個IEMOCAP中所占的比例最低,導(dǎo)致模型從全局最優(yōu)的角度降低了少數(shù)類樣本的訓(xùn)練優(yōu)先級。
b)結(jié)合圖5可以看到MELD數(shù)據(jù)集中sadness、disgust、fear類情緒樣本的預(yù)測F1分數(shù)較差,在分析了整個數(shù)據(jù)集的樣本分布后發(fā)現(xiàn)該數(shù)據(jù)集的樣本標簽不均衡問題更加嚴重,sadness、disgust、fear為樣本數(shù)量最少的三類情緒,并且F1分數(shù)和樣本數(shù)量均逐個遞減。由此發(fā)現(xiàn)這同樣是樣本標簽不均衡問題所導(dǎo)致的。
此外,從表3可以看到,圖像和語音模態(tài)特征在模型中表現(xiàn)較差。對于語音來說,對話中人的語音語調(diào)只能反映話語者的情緒強度,與其情緒種類沒有必然聯(lián)系,比如開心和生氣時的聲音都會較其他的情緒語調(diào)更高。因此當某些情緒具有相似的頻率和幅度時,僅通過語音數(shù)據(jù)很難正確區(qū)分當前話語者的情緒。對于圖像特征,可以通過面部特征來判斷話語者的情緒,但當話語者故意掩飾自己的面部表情,圖像特征就很難進行正確的情緒判斷。因此,仍舊需要更好的圖像和語音模態(tài)特征提取方法或更適合的特征處理方式。
5.6 實例分析
為了更加直觀地表現(xiàn)MTDAG模型的準確性和有效性,選取了MELD數(shù)據(jù)集中的一段對話進行實例分析。所選對話包含11個話語,參與者為話語者A和B。此處選擇了MM-DFN和DAG-ERC模型作為MTDAG的實例對比模型,因為MM-DFN是使用了話語者信息的最先進模型,而DAG-ERC是第一個運用DAG建模對話的模型。對比實驗的結(jié)果如圖8所示。
從圖8可以看出,與MM-DFN和DAG-ERC相比,MTDAG在進行情緒預(yù)測時更加準確,分析原因如下: DAG-ERC在話語輪次1、2和6中,由于沒有利用數(shù)據(jù)集中的語音和圖像信息,所以出現(xiàn)了短文本情況下的情緒線索不足問題,同時關(guān)于對話時序信息利用不充分的問題導(dǎo)致了它在話語輪次5中接收到對話早期話語中過多的冗余信息,導(dǎo)致情緒預(yù)測錯誤; MM-DFN在話語輪次6中的表現(xiàn)說明了雖然有語音和圖像信息提供參考,但其無向圖的對話建模方式弱化了對話的時序特點,過多關(guān)注了先前的話語信息而一定程度上忽略了關(guān)鍵的臨近話語信息,同樣會造成預(yù)測錯誤,而對于話語輪次11,由于MM-DFN沒有細粒度地挖掘話語者自語境的情緒線索,忽視了話語者自身的情緒慣性,最終預(yù)測錯誤。提出的MTDAG模型首先挖掘了兩個級別的情緒線索并加以融合,其次強化并利用了對話的時序特點,同時以合適的方式建模了多模態(tài)信息,因此在整個情緒預(yù)測過程中都表現(xiàn)出了良好的準確性和有效性。
6 結(jié)束語
本文在基于不同話語按照時序?qū)Ξ斍霸捳Z的情感識別有不同的貢獻基礎(chǔ)上,提出了一個多模態(tài)的時序信息感知的DAG網(wǎng)絡(luò),其使用DAG對三種模態(tài)的信息建模進行情緒識別,并在其中設(shè)置模態(tài)交互約束條件以減少交互產(chǎn)生的噪聲,實現(xiàn)多模態(tài)特征更有效的交互利用,通過使用多粒度特征融合來提取上下文和話語者的深度聯(lián)合信息,并按時序優(yōu)化權(quán)重設(shè)置,收集歷史情感線索來提高模型性能。通過在兩個基準數(shù)據(jù)集上的大量實驗驗證了本文模型的有效性和優(yōu)越性。
然而,MTDAG仍有一些不足之處,必須在未來加以改進。例如,所使用的上下文和話語者信息融合模塊在多人對話中無法很好地提取情感線索。因此,后續(xù)的工作將設(shè)法通過提取每個說話者的對應(yīng)特征來改進該方法,以適應(yīng)多人對話場景。此外,目前只對文本模態(tài)采用先進的特征提取器,而對語音和圖像模態(tài),還未得到很好的特征表示,因此,下一步需要提取出更有效的其他模態(tài)的特征信息。在分析數(shù)據(jù)集時發(fā)現(xiàn)了樣本標簽不均衡問題,該問題造成了較大的影響但尚未解決,因此也值得進行更深入的研究。
參考文獻:
[1]Chatterjee A, Narahari K N, Joshi M, et al. SemEval-2019 task 3: EmoContext contextual emotion detection in text[C]//Proc of the 13th International Workshop on Semantic Evaluation.2019:39-48.
[2]Poria S, Cambria E, Hazarika D, et al. Context-dependent sentiment analysis in user-generated videos[C]//Proc of the 55th Annual Mee-ting of the Association for Computational Linguistics.2017:873-883.
[3]Hazarika D, Poria S, Mihalcea R, et al. Icon: interactive conversational memory network for multimodal emotion detection[C]//Proc of Conference on Empirical Methods in Natural Language Processing.2018:2594-2604.
[4]Majumder N, Poria S, Hazarika D, et al. DialogueRNN: an attentive RNN for emotion detection in conversations[C]//Proc of AAAI Conference on Artificial Intelligence.2019:6818-6825.
[5]Li Jiwei, Galley M, Brockett C, et al. A persona-based neural conversation model[C]//Proc of the 54th Annual Meeting of the Association for Computational Linguistics.2016:994-1003.
[6]Hu Jingwen, Liu Yuchen, Zhao Jinming, et al. MMGCN:multimodal fusion via deep graph convolution network for emotion recognition in conversation[C]//Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Confe-rence on Natural Language Processing.2021:5666-5675.
[7]Hu Dou, Hou Xiaolong, Wei Lingwei, et al. MM-DFN:multimodal dynamic fusion network for emotion recognition in conversations[C]//Proc of International Conference on Acoustics,Speech and Signal Processing.2022:7037-7041.
[8]Kahneman D, Tversky A. Subjective probability:a judgment of representativeness[J].Cognitive Psychology,1972,3(3):430-454.
[9]Tversky A, Kahneman D. Belief in the law of small numbers[J].Psychological Bulletin,1971,76(2):105.
[10]Zou Shihao, Huang Xianying, Shen Xudong, et al. Improving multimodal fusion with main modal transformer for emotion recognition in conversation[J].Knowledge-Based Systems,2022,258:109978.
[11]Shen Weizhou, Wu Siyue, Yang Yunyi, et al. Directed acyclic graph network for conversational emotion recognition[C]//Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Proces-sing.2021:1551-1560.
[12]Ghosal D, Majumder N, Poria S, et al. DialogueGCN:a graph convolutional neural network for emotion recognition in conversation[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing.2019:154-164.
[13]Ghosal D, Majumder N, Gelbukh A, et al. COSMIC:commonsense knowledge for emotion identification in conversations[C]//Findings of the Association for Computational Linguistics:EMNLP.2020:2470-2481.
[14]Hu Dou, Wei Lingwei, Huai Xiaoyong. DialogueCRN:contextual reasoning networks for emotion recognition in conversations[C]//Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing.2021:7042-7052.
[15]Yang Ling, Shen Yi, Mao Yue, et al. Hybrid curriculum learning for emotion recognition in conversation[C]//Proc of AAAI Conference on Artificial Intelligence.2022:11595-11603.
[16]王雨,袁玉波,過弋,等.情感增強的對話文本情緒識別模型[J].計算機應(yīng)用,2023,43(3):706-712.(Wang Yu, Yuan Yubo, Guo Yi, et al. Sentiment boosting model for emotion recognition in conversation text[J].Journal of Computer Applications,2023,43(3):706-712.)
[17]Wang Binqiang, Dong Gang, Zhao Yaqian, et al. Hierarchically stacked graph convolution for emotion recognition in conversation[J].Knowledge-Based Systems,2023,263(C):110285.
[18]Hazarika D, Poria S, Zadeh A, et al. Conversational memory network for emotion recognition in dyadic dialogue videos[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies.2018:2122.
[19]Chen Minhai, Wang Sen, Liang P P, et al. Multimodal sentiment analysis with word-level fusion and reinforcement learning[C]//Proc of the 19th ACM International Conference on Multimodal Interaction.2017:163-171.
[20]Sahay S, Kumar S H, Xia Rui, et al. Multimodal relational tensor network for sentiment and emotion classification[C]//Proc of Grand Challenge and Workshop on Human Multimodal Language.2018:20-27.
[21]Zadeh A, Liang P P, Mazumder N, et al. Memory fusion network for multi-view sequential learning[C]//Proc of AAAI Conference on Artificial Intelligence.2018.
[22]譚曉聰,郭軍軍,線巖團,等.基于一致性圖卷積模型的多模態(tài)對話情緒識別[J].計算機應(yīng)用研究,2023,40(10):3100-3106.(Tan Xiaocong, Guo Junjun, Xian Yantuan, et al. Consistency based graph convolution network for multimodal emotion recognition in conversation[J].Application Research of Computers,2023,40(10):3100-3106.)
[23]Wen Jintao, Jiang Dazhi, Tu Geng, et al. Dynamic interactive multiview memory network for emotion recognition in conversation[J].Information Fusion,2023,91:123-133.
[24]Tai Kaisheng, Socher R, Manning C D. Improved semantic representations from tree-structured long short-term memory networks[C]//Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing.2015:1556-1566.
[25]Shuai Bing, Zuo Zhen, Wang Bing, et al. Scene segmentation with DAG-recurrent neural networks[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2017,40(6):1480-1493.
[26]Zhang Muhan, Jiang Shali, Cui Zhicheng, et al. D-VAE:a variatio-nal autoencoder for directed acyclic graphs[C]//Advances in Neural Information Processing Systems.2019.
[27]Thost V, Chen Jie. Directed acyclic graph neural networks[C]//Proc of International Conference on Learning Representations.2021.
[28]Liu Yinhan, Ott M, Goyal N, et al. RoBERTa: a robustly optimized BERT pretraining approach[EB/OL].(2019-06-26).https://arxiv.org/abs/1907.1 1692.
[29]Kenton J D M W C, Toutanova L K. BERT: pre-training of deep bidirectional transformers for language understanding[C]//Proc of NAACL-HLT.2019:4171-4186.
[30]Eyben F, Wllmer M, Schuller B. Opensmile: the Munich versatile and fast open-source audio feature extractor[C]//Proc of the 18th ACM International Conference on Multimedia.2010:1459-1462.
[31]Huang Gao, Liu Zhuang, Van Der Maaten L, et al. Densely connec-ted convolutional networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.2017:4700-4708.
[32]Barsoum E, Zhang Cha, Ferrer C C, et al. Training deep networks for facial expression recognition with crowd-sourced label distribution[C]//Proc of the 18th ACM International Conference on Multimodal Interaction.2016:279-283.
[33]Kingma D P, Ba J. Adam: a method for stochastic optimization[EB/OL].(2017-01-30).https://arxiv.org/abs/1412.6980.
[34]Busso C, Bulut M, Lee C C, et al. IEMOCAP: interactive emotional dyadic motion capture database[J].Language Resources and Evaluation,2008,42:335-359.
[35]Poria S, Hazarika D, Majumder N, et al. MELD:a multimodal multi-party dataset for emotion recognition in conversations[C]//Proc of the 57th Annual Meeting of the Association for Computational Linguistics.2019:527-536.