何俊 饒方喜 周志豪 徐秋
摘 要:人工智能驅(qū)動的對話是當(dāng)前研究熱點,有著廣泛的應(yīng)用前景。但目前這類對話系統(tǒng)普遍缺乏情感交互能力,限制了其在心理關(guān)愛、抑郁癥等精神障礙疾病方面的應(yīng)用。如何讓對話系統(tǒng)充分理解用戶情緒并生成帶有共情的回復(fù)是目前對話系統(tǒng)面臨的主要挑戰(zhàn)之一。首先介紹了共情對話研究中情感感知和共情對話生成兩大挑戰(zhàn),并分別調(diào)研歸納了相關(guān)研究方法。情感感知任務(wù)大致可分為基于規(guī)則、基于機器學(xué)習(xí)和基于深度學(xué)習(xí)三類方法,共情對話生成大致可分為基于檢索和基于動態(tài)生成兩類方法。接著介紹了共情對話的最新發(fā)展動向,并總結(jié)了共情對話數(shù)據(jù)集、通用對話數(shù)據(jù)集和多模態(tài)數(shù)據(jù)集的特點和鏈接,歸納了當(dāng)前共情對話研究中不同的評估方法便于后續(xù)研究。最后對共情對話的研究工作進行了總結(jié)和展望。
關(guān)鍵詞:共情對話; 情感感知; 對話生成
中圖分類號:TP391.1?? 文獻標(biāo)志碼:A?? 文章編號:1001-3695(2024)01-001-0001-09
doi:10.19734/j.issn.1001-3695.2023.05.0206
Research progress of empathetic dialogue system
Abstract:Artificial intelligence-driven dialogue is a current research hotspot with a wide range of promising applications. However, such dialogue systems currently generally lack emotional interaction capabilities, limiting their application in psychological care, depression and other mental disorders. How to make dialogue systems fully understand users emotions and generate responses with empathy is one of the main challenges facing dialogue systems today. This paper first introduced two major challenges in empathic dialogue research: emotion perception and empathic dialogue generation, and summarised the relevant research methods in separate studies. Emotion perception tasks could be broadly classified into rule-based, machine-learning and deep-learning approaches, while empathic dialogue generation could be broadly classified into retrieval-based and dynamic generation-based approaches. Then this paper introduced the latest developments in empathic dialogue, and summarised the features and links of empathic dialogue datasets, generic dialogue datasets and multimodal datasets, and summarised different evaluation methods in current empathic dialogue research to facilitate subsequent research. Finally, this paper presented a summary and outlook of the research work on empathic dialogue.
Key words:empathetic dialogue; emotional perception; dialogue generation
0 引言
隨著人工智能驅(qū)動的移動社交網(wǎng)絡(luò)的發(fā)展,智能對話系統(tǒng)已經(jīng)進入人們的日常生活,人們也已經(jīng)習(xí)慣與機器進行交流[1]。人工智能的發(fā)展促進了對話系統(tǒng)語音識別和語義理解的準(zhǔn)確性,極大地提高了人機對話的體驗,不只在日常生活,還涉及商業(yè)、業(yè)務(wù)支持、教育和醫(yī)療保健等多個應(yīng)用領(lǐng)域[2]。早期的對話系統(tǒng)起源于20世紀(jì)60年代,對話系統(tǒng)被設(shè)計為執(zhí)行特定任務(wù),如機票預(yù)訂[3]、醫(yī)療保?。?]、政治辯論[5],因此被稱為任務(wù)特定對話系統(tǒng),或者被設(shè)計為與用戶進行閑聊,被稱為聊天機器人[6],故對話系統(tǒng)也被分為任務(wù)型對話系統(tǒng)和非任務(wù)型對話系統(tǒng)[7]。由人工智能實驗室OpenAI發(fā)布的對話式大型語言模型ChatGPT[8]最近在各大媒體平臺受到極大關(guān)注,短短兩個月其用戶量過億。它不只能夠?qū)W習(xí)和理解人類的語言,還能夠根據(jù)用戶對話的上下文進行交流。目前國內(nèi)市場上也有大量的聊天機器人,如圖靈、小微、思知、小冰等機器人[9],它們通常也會具備一定的任務(wù)型對話能力,同時,也有著一定的閑聊能力。但這些語言模型普遍缺乏情感交互能力,限制了其在老年人心理關(guān)愛服務(wù)、抑郁癥、焦慮等精神障礙疾病方面的應(yīng)用。與此同時,人們對對話系統(tǒng)提出了越來越高的要求,其中一個關(guān)鍵目標(biāo)就是使系統(tǒng)人性化[10],即對話系統(tǒng)能夠理解用戶對話中的情感,并生成帶有共情的回復(fù),以促進與人類進行更好、更有意義的情感交互。清華大學(xué)CoAI課題組在2018年提出了情感聊天機器人(emotional chatting machine,ECM)系統(tǒng)[11],旨在構(gòu)建一個能夠表達情緒反應(yīng)的對話系統(tǒng),但卻并沒有實現(xiàn)共情。情感對話系統(tǒng)是為了在用戶中產(chǎn)生情感反應(yīng)而設(shè)計的[12],它更加側(cè)重識別情緒和產(chǎn)生情緒對應(yīng)的反應(yīng)。而共情對話系統(tǒng)側(cè)重于設(shè)身處地為用戶著想,理解他們的感受、情緒和精神狀態(tài),模仿用戶的思維模式,它的目標(biāo)是創(chuàng)造一個更像人類的互動。
共情最早是由人本主義創(chuàng)始人羅杰斯提出,也被稱為同感、同理心、投情等,指的是能夠想象自己置身于對方處境,并體會對方感受的能力[13],情感狀態(tài)與對方一致。共情是一個寬泛的概念,包括情感共情、認知共情和同情同理心[14]三方面。情感共情涉及對用戶體驗的情感模擬,當(dāng)看到別人傷心難過,自己也跟著傷心難過,情感共情是一種能夠真正感受到他人的感受或至少感受到與他人相似的情緒的能力。認知共情旨在理解用戶的處境和隱性的情感,當(dāng)身邊的人情緒低落時,通常還會對在腦海中猜想和理解對方的感受:為什么會哭?是因為難過嗎?還是因為受了什么委屈?這些推理和理解,更多是認知共情在起作用。同情同理心是指雙方有過共同的經(jīng)歷,能夠理解對方目前的感受。共情對話系統(tǒng)要求具備情緒疏導(dǎo)或心理疏導(dǎo)的能力,有助于更好地理解人際關(guān)系,以完成復(fù)雜的情感交流任務(wù)[15~17]。一個完整的共情對話系統(tǒng)不只是包括情感,還必須要包含個性和知識[18]。個性化可以使系統(tǒng)根據(jù)用戶的喜好量身定制回答,增加對話系統(tǒng)的連貫性和一致性。如Zhong等人[19]提出了一個基于個性的共情對話系統(tǒng),研究人物個性對共情反應(yīng)生成的影響。而外部知識補充了對話背景,使得生成回復(fù)更加豐富。近年,小米人工智能實驗室在這方面做了一些探索并取得了初步成果,如小愛同學(xué)[20]創(chuàng)建了首個融合了社會常識知識和對話流信息的中文常識性對話知識圖譜,來與用戶進行合理的溝通,提高用戶的滿意度[21,22]。
近年來,不斷有學(xué)者嘗試將共情融入對話系統(tǒng)中,但關(guān)于共情對話的綜述較少。如Pamungkas等人[23]只是介紹了加入情感的對話系統(tǒng)研究方法。Wardhana等人[24]對共情對話特征、對話系統(tǒng)模型和統(tǒng)計推斷技術(shù)進行了回顧。Spring等人[25]只介紹了一個包括情緒表達、情緒檢測分類、反應(yīng)生成和反應(yīng)表達四個階段的框架,并沒有對其中的算法進行介紹。本文以共情對話為研究對象,首先概述了共情的概念,詳細說明了情感感知和共情對話生成的技術(shù),以及共情對話的發(fā)展動向,接著總結(jié)了共情對話研究所需要的數(shù)據(jù)集和評價指標(biāo),最后總結(jié)了共情對話系統(tǒng)目前所存在的問題,以及未來的研究方向。
1 共情對話系統(tǒng)
共情對話系統(tǒng)是由多種技術(shù)共同構(gòu)建的系統(tǒng)[18],包括自然語言預(yù)處理(nature language processing,NLP)、自然語言理解(natural language understanding,NLU)、對話管理(dialog ma-nagement,DM)和響應(yīng)生成等多個模塊[26]。原始的語料無法直接進行訓(xùn)練,需要進行前期預(yù)處理,NLP能夠?qū)υ嘉谋具M行預(yù)處理,使之標(biāo)準(zhǔn)化,而NLU就是讓機器能夠準(zhǔn)確地理解人類生成自然語言的技術(shù)。DM可以通過理解對話上下文信息,生成對用戶的反應(yīng)。最常見的對話一般都是任務(wù)驅(qū)動型的多輪對話,如用戶有著明確目的的訂餐或者訂票等,由于用戶需求復(fù)雜,限制條件較多,需要分為多輪進行陳述。這類對話不但可以使用戶在對話過程中完善自己的需求,也可以使對話系統(tǒng)在與用戶交流中不斷明確用戶的目的,輸出正確的結(jié)果。響應(yīng)生成則是對話系統(tǒng)能夠自動生成響應(yīng)的過程或技術(shù),一般也稱做文本生成。共情對話系統(tǒng)的兩大挑戰(zhàn)分別為情感感知和共情對話生成,情感感知是指對話系統(tǒng)能夠檢測到用戶當(dāng)前的情緒狀態(tài);共情對話生成是指對話系統(tǒng)理解用戶情感后,以人類的思維方式站在用戶角度回應(yīng)用戶的情感需求。以下將對這兩類任務(wù)所用的技術(shù)進行概述。
1.1 情感感知技術(shù)
對話系統(tǒng)與用戶的對話中蘊涵著豐富的情感,獲得對話語句的情感信息是更好地與用戶溝通的關(guān)鍵[27]。目前的情感感知技術(shù)大致可以分為基于規(guī)則的、基于機器學(xué)習(xí)的和基于深度學(xué)習(xí)的三種方法[25]。
1.1.1 基于規(guī)則的方法
基于規(guī)則的方法是通過人工制定一套規(guī)則,根據(jù)對話中的一些單詞或者短語來識別情緒,主要包括情感詞典或詞嵌入。
a)情感詞典。情感詞典是一種對文本進行情感分析的工具,它列出了包含情感的單詞,并將它們分為單個或多個情感類別?;谇楦性~典,可以通過統(tǒng)計文本中出現(xiàn)的積極和消極情感詞匯數(shù)量來計算文本的情感傾向。情感詞典可以從頭構(gòu)建,如使用電影對話[28]或者故事讀物[29]來構(gòu)建情感詞典,也可以使用現(xiàn)成的方案,如WordNet-Affect[30]。這些現(xiàn)成的解決方案在數(shù)量方面差別很大:WordNet-Affect包含近5 000個單詞,而另一個流行詞匯DepecheMood[31]則包含超過3.5萬個單詞。然而,詞匯的質(zhì)量并不僅僅取決于它的大小,詞匯的使用也會影響詞匯的質(zhì)量。Bandhakavi等人[32]認為,WordNet-Affect等通用詞匯的表現(xiàn)不如特定領(lǐng)域的情感詞匯。因此,較小領(lǐng)域的特定詞匯表可能比較大的通用詞匯表產(chǎn)生更好的結(jié)果。而Wang等人[33]為了提高語音情感感知的能力,提出了一種原生詞情感詞典,該方法從不同情緒類別的原生詞對情感信息進行建模,選擇每個情緒中的頂級單詞以生成向量;然后通過將話語級聲學(xué)特征與特征相結(jié)合來構(gòu)建模型。情感詞典的構(gòu)建可以分為人工和自動兩種方式。人工構(gòu)建獲得數(shù)據(jù)之后進行人工標(biāo)注,根據(jù)情感表達將詞語進行正負向和強弱程度的區(qū)分。人工構(gòu)建詞典的方法在擴充詞條方面比較方便,但需要耗費大量人工成本,且研究范圍有限。自動構(gòu)建包括基于知識庫、基于語料庫或者兩者結(jié)合的方法?;谥R庫就是對人工構(gòu)建的詞典進行拓展,加入動詞、名詞等,使情感詞更加全面?;谡Z料庫的方法就是利用相關(guān)領(lǐng)域的大量語料和相關(guān)度的計算規(guī)則,結(jié)合機器學(xué)習(xí)的相關(guān)方法,自動統(tǒng)計情感詞的情感極性,自動構(gòu)建情感詞典。
b)詞嵌入。詞嵌入是將詞轉(zhuǎn)換為向量的方法。每個單詞都表示為向量空間中的一個向量。因此,經(jīng)常同時出現(xiàn)的單詞被認為語義相似,在向量空間中接近。其中最流行的詞嵌入方法是Mikolov提出的word2vec[34]和Pennington提出的GloVe[35]。word2vec有兩種訓(xùn)練方式,即通過上下文來預(yù)測當(dāng)前詞或者通過當(dāng)前詞來預(yù)測上下文。但由于其訓(xùn)練出來的向量與單詞是一對一的關(guān)系,沒有考慮單詞在不同上下文具有不同含義,無法解決一詞多義的問題。GloVe是對word2vec的改進,它將全局詞頻統(tǒng)計和后者的基于局部信息的學(xué)習(xí)結(jié)合起來,有效解決了word2vec的部分缺點。
1.1.2 基于機器學(xué)習(xí)的方法
基于機器學(xué)習(xí)是一種使用給定數(shù)據(jù)訓(xùn)練模型,再通過模型得出結(jié)果的方法。機器學(xué)習(xí)方法大致可以分為無監(jiān)督學(xué)習(xí)和監(jiān)督學(xué)習(xí)。
a)無監(jiān)督學(xué)習(xí)。無監(jiān)督學(xué)習(xí)是指在沒有標(biāo)注情感數(shù)據(jù)的情況下,從數(shù)據(jù)本身中發(fā)現(xiàn)規(guī)律的一類機器學(xué)習(xí)方法,通??梢允∪ゴ罅咳斯?biāo)注所耗費的成本。如文獻[36]使用一種無監(jiān)督的方法來自動檢測文本中的情緒,如憤怒、恐懼、快樂和悲傷等。Barros等人[37]提出了一個無監(jiān)督學(xué)習(xí)的神經(jīng)框架,該框架通過學(xué)習(xí)如何描述個人的連續(xù)情感行為來提高情感感知能力。
b)監(jiān)督學(xué)習(xí)。監(jiān)督學(xué)習(xí)是指使用帶有情緒標(biāo)簽的數(shù)據(jù)集來對模型進行訓(xùn)練,使模型能夠根據(jù)給定輸入得到一個預(yù)期輸出。即在監(jiān)督學(xué)習(xí)過程中,訓(xùn)練數(shù)據(jù)既要有特征,又要有標(biāo)簽,通過訓(xùn)練可以讓機器找到特征和標(biāo)簽之間的關(guān)聯(lián),這樣在給定沒有標(biāo)簽的輸入時就能根據(jù)其特征判斷其標(biāo)簽。所以Seyeditabari等人[38]認為監(jiān)督方法的主要挑戰(zhàn)之一就是要有高質(zhì)量的情感訓(xùn)練數(shù)據(jù),比較著名的數(shù)據(jù)集有EmotiNet[39]和Sem-Eval2007[40]。除此之外,Banchs[28]分析了大量電影的對話,得到了數(shù)據(jù)集MovieDiC。Vijayaraghavan等人[41]就通過人們對藥物評價的分析收集數(shù)據(jù)。而Wang等人[42]使用情感相關(guān)的標(biāo)簽創(chuàng)建了一個大型數(shù)據(jù)集,并通過兩種機器學(xué)習(xí)方法進行情感感知。此外,由于傳統(tǒng)基于監(jiān)督的方法可能會在有限的標(biāo)記數(shù)據(jù)下存在過度擬合的問題。為了解決上述問題,Wu等人[43]提出了一種新的監(jiān)督學(xué)習(xí)框架,通過五個信號變換自動為大量未標(biāo)記數(shù)據(jù)分配標(biāo)簽,并以信號變換識別對所提模型進行預(yù)訓(xùn)練。Pan等人[44]也提出了一種用于語音情感感知的模型,首先利用各種基于監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練模型,構(gòu)建了一個有效的情緒模型,然后將語音信號的情感和性別信息進行整合,提高了模型的情感感知能力。
1.1.3 基于深度學(xué)習(xí)的方法
目前,在情感感知領(lǐng)域最先進的方法就是深度學(xué)習(xí)?;谏疃葘W(xué)習(xí)的情感感知方法主要是通過神經(jīng)網(wǎng)絡(luò)來進行的,故本文討論的算法包括:卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)、注意力機制、深度強化學(xué)習(xí)、seq2seq和Transformer等。
a)卷積神經(jīng)網(wǎng)絡(luò)。CNN是一種用于特征提取的神經(jīng)網(wǎng)絡(luò)。CNN由卷積、池化和全連接層三種結(jié)構(gòu)組成。卷積層應(yīng)用卷積核來進行卷積計算,滑動窗口特性使卷積層減少模型的計算參量,捕獲局部特征。池化層主要用于特征降維,壓縮數(shù)據(jù)和參數(shù)的數(shù)量,減小過擬合,同時提高模型的容錯性。目前主要有最大池化和平均池化兩類池化操作,最大池化指采取輸入?yún)^(qū)域的最大數(shù)量,平均池化指采取輸入?yún)^(qū)域的平均數(shù)量。全連接層的主要作用就是將前面計算得到的特征空間映射樣本標(biāo)記空間。換句話說,就是將特征表示整合成一個值,減少特征位置給分類帶來的影響。
b)循環(huán)神經(jīng)網(wǎng)絡(luò)。RNN是一種用于處理序列的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),它是基于“人的認知是基于過往的經(jīng)驗和記憶”這一觀點提出的[45],即當(dāng)前的輸出與前一個時刻的輸出有關(guān)。普通的神經(jīng)網(wǎng)絡(luò)只能單獨處理一個輸入,前一個輸入和后一個輸入是完全沒有關(guān)系的,這樣的神經(jīng)網(wǎng)絡(luò)是無法解決一些問題的,比如預(yù)測句子的下一個單詞是什么,一般需要用到前面的單詞,因為一個句子中前后單詞并不是獨立的。而RNN對于處理此類問題非常有效。在RNN中,每個輸出都是由當(dāng)前輸入和之前的信息共同決定,即隱藏層的輸入不只包括當(dāng)前的輸入,還包括上一個隱藏層的輸入。RNN的一些變體在對話系統(tǒng)中取得不錯的結(jié)果,如LSTM、seq2seq(sequence to sequence)、GRU(gate recurrent unit)和BRNN(bidirectional recurrent neural network)等。Madasu等人[46]融合了CNN和RNN的優(yōu)點,提出了順序卷積關(guān)注循環(huán)網(wǎng)絡(luò)(SCARN),與傳統(tǒng)的RNN相比,在處理情感感知問題上有著更好的效果。
c)注意力機制。注意力機制是一種用來計算輸入數(shù)據(jù)對輸出數(shù)據(jù)的貢獻大小的結(jié)構(gòu)。當(dāng)輸入語句較長,信息較多的時候,傳統(tǒng)的序列到序列模型有一定局限性,注意力機制則能夠在很多的信息中注意到對當(dāng)前任務(wù)更關(guān)鍵的信息,而對于其他的非關(guān)鍵信息就不需要太多的注意力側(cè)重。即對于模型的輸入,給每一個部分分配一個權(quán)重,這個權(quán)重的大小就代表模型對這一部分的重視程度。這樣既提高了模型的性能,也在一定程度上降低了計算量。深度學(xué)習(xí)中的注意力機制大概可以分為軟注意、硬注意和自注意機制三類。軟注意機制是指對大部分信息都進行考慮,但有的部分關(guān)注多一點,有的部分關(guān)注少一點,關(guān)注程度是不一樣的。硬注意機制是指只考慮需要關(guān)注的部分,對于那些不需要關(guān)注的部分直接舍棄,這樣能夠減少一定的時間和計算成本,但可能丟失一些本該需要關(guān)注的信息。自注意機制是指輸入項分配的權(quán)重取決于輸入項的相互作用,即通過輸入項的相關(guān)性來決定應(yīng)該關(guān)注哪些輸入項。
d)深度強化學(xué)習(xí)。深度強化學(xué)習(xí)是一種結(jié)合深度學(xué)習(xí)和強化學(xué)習(xí)的方法,它的目的是讓機器能夠自行決策和行動。強化學(xué)習(xí)是指在與環(huán)境的交互過程中通過學(xué)習(xí)策略來達成回報最大化,而深度神經(jīng)網(wǎng)絡(luò)則有助于提取特征并增強模型的表達能力。因此,深度強化學(xué)習(xí)可以通過不斷地在環(huán)境中嘗試,并使用神經(jīng)網(wǎng)絡(luò)優(yōu)化策略以最大限度地獲得期望獎勵。深度強化學(xué)習(xí)的算法比較多,常見的有:DQN(deep Q-network)、DDPG(deep deterministic policy gradient)、PPO(proximal policy optimization)等。
e)seq2seq。seq2seq模型是動態(tài)生成常用的模型,是一種能夠根據(jù)給定的序列,通過特定的方法生成另一個序列的方法。它的實質(zhì)是利用兩個RNN組成encoder-decoder模型,一個RNN作為encoder,另一個RNN作為decoder。encoder將輸入序列轉(zhuǎn)換為固定維度的隱藏狀態(tài)向量,該向量包含輸入序列中的所有信息。而decoder則接收這個隱藏狀態(tài)向量,并生成目標(biāo)序列。
f)Transformer。Transformer是利用注意力機制來提高模型訓(xùn)練速度的模型。Vaswani等人[47]在2017年提出了Transformer,它完全利用了注意機制,沒有任何循環(huán)單元,完全消除了遞歸和卷積,并部署了更多的并行化來加速訓(xùn)練。Transformer的結(jié)構(gòu)由六個encoder和六個decoder組成。模型的第一步就是得到輸入句子的每一個單詞的表示向量,將得到的單詞表示向量矩陣輸入encoder中,經(jīng)過六個encoder block后就可以得到句子所有單詞的編碼信息矩陣,然后再將編碼矩陣傳遞到decoder中去,decoder會依次根據(jù)當(dāng)前翻譯過的單詞翻譯下一個單詞。
目前情感對話研究主要基于文本數(shù)據(jù)庫開展。Chen等人[48]提出了一個基于多層次的CNN模型,首先,使用CNN對每條獨立的語句進行信息的提取,然后用另一個CNN 來處理對話中連續(xù)的句子表示,與單CNN模型相比,在Friends數(shù)據(jù)集上的加權(quán)準(zhǔn)確率從59.2%提高到63.9%,在EmotionPush數(shù)據(jù)集上的加權(quán)準(zhǔn)確率從71.5%提高到77.4%。Cheng等人[49]提出了一種交互式卷積神經(jīng)網(wǎng)絡(luò)(ICNN),將輸入特征圖分解為許多不同的頻率尺度以獲得交互式卷積。對ICNN的性能進行了大量實驗評估,當(dāng)卷積層數(shù)相同時,ICNN的情感感知準(zhǔn)確率比CNN提高了17.5%。
近年,越來越多的情感對話研究基于語音數(shù)據(jù)庫開展。Lyu等人[50]提出了一種基于BiLSTM和CNN的特征融合方法,用于識別語音情感特征,該方法結(jié)合了空間特征和上下文特征。利用BiLSTM提取語音信號的上下文特征,并利用頻譜圖提取語音信號的空間特征作為CNN的輸入,以便一起學(xué)習(xí)特征,從而獲得更好的情感識別率,在IEMOCAP數(shù)據(jù)集上的加權(quán)準(zhǔn)確率和未加權(quán)準(zhǔn)確率分別為74.14%和65.62%。Zhang等人[51]提出了一種用于語音情感識別的多尺度LSTM框架。首先,采用深度LSTM模型捕捉話語中所有分割片段之間的時間依賴關(guān)系,實現(xiàn)對話級情感識別。然后采用分?jǐn)?shù)級融合策略,將CNN與LSTM結(jié)合在多個片段級頻譜圖上實現(xiàn)情感識別,在AFEW5.0數(shù)據(jù)集上的準(zhǔn)確率達到了40.73%,在BAUM-1s數(shù)據(jù)集上的準(zhǔn)確率達到了50.22%。對于標(biāo)注數(shù)據(jù)較少的問題,Yi等人[52]提出了一種基于Transformer的模型來實現(xiàn)情感識別。首先,使用wav2vec 2.0來提取語音特征。然后,采用微調(diào)策略和基于自注意力的特征融合策略。最后,使用RoBERTa通過改進的加權(quán)策略進行情感識別,在IEMOCAP數(shù)據(jù)集上的加權(quán)準(zhǔn)確率和未加權(quán)準(zhǔn)確率分別為72.28%和74.01%,在CASIA數(shù)據(jù)集上的加權(quán)準(zhǔn)確率和未加權(quán)準(zhǔn)確率分別為99.17%和99.17%。
對以上情感感知模型的對比如表1所示。
1.2 共情對話生成
共情對話生成是一個生成任務(wù),旨在使對話系統(tǒng)以人類的思維方式站在用戶角度回應(yīng)用戶的情感需求。目前的共情對話生成技術(shù)大致可以分為基于檢索和動態(tài)生成[25]兩類。
1.2.1 基于檢索的方法
基于檢索的方法就是指從預(yù)定義響應(yīng)的數(shù)據(jù)庫中檢索出最相關(guān)的響應(yīng),就是把一個對話問題等價成為一個搜索問題,然后從數(shù)據(jù)集中搜索答案。Henderson等人[53]就是在Reddit數(shù)據(jù)集上預(yù)訓(xùn)練了一個通用的回復(fù)選擇模型,然后針對不同的對話領(lǐng)域?qū)ζ溥M行微調(diào),并通過實驗證明了這種方法的有效性。在此基礎(chǔ)上,Henderson等人[54]又提出了一個更輕量級的預(yù)訓(xùn)練回復(fù)選擇模型ConveRT(conversational representations from Transformers),模型引入了更多對話歷史信息。但是基于檢索的方法從對話數(shù)據(jù)集中查找與用戶話語有關(guān)的常見反應(yīng),為了得到一個較好的結(jié)果,往往需要大量的情感對話數(shù)據(jù)集。所以,基于檢索的方法并不是共情對話生成研究中主要的響應(yīng)生成方法。
1.2.2 基于動態(tài)生成的方法
基于動態(tài)生成的方法與情感感知的深度學(xué)習(xí)模型算法密切相關(guān),不只涉及神經(jīng)網(wǎng)絡(luò)算法,還包括使用深度學(xué)習(xí)的encoder-decoder架構(gòu)。生成的回復(fù)不依賴于特定的模板或者數(shù)據(jù)庫,而是通過在大量語料中學(xué)習(xí)來進行對話。encoder的作用是將詞序列轉(zhuǎn)換成詞向量,然后通過decoder將該向量轉(zhuǎn)換成目標(biāo)序列。換句話說,首先對句子進行編碼,然后再將編碼后的句子進行解碼。Miao等人[55]提出了一種基于seq2seq的對話生成模型,并在解碼器中添加了情感嵌入,以達到產(chǎn)生共情對話的目的。但是只使用基于RNN的seq2seq模型來實現(xiàn)生成式對話的結(jié)果往往是不盡如人意的。Zhou等人[11]首次將情感因素引入了基于深度學(xué)習(xí)的生成式對話系統(tǒng),提出了基于記憶網(wǎng)絡(luò)的對話系統(tǒng)。在傳統(tǒng)的seq2seq模型的基礎(chǔ)上,使用了靜態(tài)的情感向量嵌入表示,使得模型可以根據(jù)用戶的輸入以及指定情感分類生成適當(dāng)?shù)幕貜?fù)。Sordoni等人[56]提出在encoder部分采用多層前向神經(jīng)網(wǎng)絡(luò)代替RNN模型,這樣就能夠把上下文的信息引入模型,使得模型能夠處理長序列問題。注意力機制通常用于解決長期依賴的問題。利用注意力,解碼器可以直接訪問每個編碼詞的隱藏狀態(tài),并相應(yīng)地對每個詞進行加權(quán)。這使得解碼器在生成輸出時可以關(guān)注輸入句子的重要部分。該機制也應(yīng)用于神經(jīng)機器翻譯。Bahdanau等人[57]提出了加入注意力機制的seq2seq,可以最大限度地提高翻譯性能。Serban等人[58]介紹了一種新的分層隨機潛變量神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(VHRED)來解決序列之間的復(fù)雜依賴關(guān)系。VHRED在HRED的基礎(chǔ)上,將潛變量結(jié)合到解碼器中,將解碼過程轉(zhuǎn)換為對潛變量進行采樣和有條件地生成響應(yīng)兩步生成過程。
Transformer是共情對話系統(tǒng)研究中響應(yīng)生成模塊中比較常用的模型。還包括其他基于Transformer改進的模型:GPT(generative pre-training)、GPT-2(generative pre-training-2)和text-to-text transfer Transformer。除此之外,BERT(bidirectional encoder representation from Transformers)模型及其不同的變體,如CoBERT(code BERT)、RoBERTa(a robustly optimized BERT pretraining approach)和ALBERT(a lite BERT for self-supervised learning of language representations)也被用于創(chuàng)建響應(yīng)生成模型。DialoGPT(dialogue generative pre-trained Transformer)模型[59]在預(yù)訓(xùn)練的反應(yīng)生成模型中被認為是較先進的。Zhao等人[60]以綜合的方式構(gòu)建了基于知識的對話系統(tǒng)。使用BERT和GPT-2共同進行知識選擇和響應(yīng)生成,其中BERT用于知識選擇,GPT-2基于對話上下文和選擇的知識生成響應(yīng)。與此同時,RoBERTa-GPT2[61]被提出用于共情對話生成,其中預(yù)訓(xùn)練的自動編碼RoBERTa用作編碼器,預(yù)訓(xùn)練的自動回歸GPT-2用作解碼器。但是,其過于專注知識而忽視情感,只能片面理解用戶的意思,無法使模型更好地表達情感。Chen等人[62]針對這個問題,提出了一種新的情感特征知識交互模型,用來增強響應(yīng)生成性能。首先利用情感特征和常識知識來豐富對話歷史以獲得情感交互上下文。然后,利用情感互動上下文編碼器來學(xué)習(xí)更高層次的情感互動信息,最后,提煉情緒狀態(tài)特征以指導(dǎo)共情反應(yīng)的產(chǎn)生。
共情是理解和關(guān)注他人感受和體驗的能力,為了完整地生成共情對話,還需了解用戶情緒背后的原因。為此,Li等人[20]開發(fā)了一個基于用戶情感原因的共情對話系統(tǒng),以GPT對文本進行預(yù)處理,根據(jù)對話歷史、檢測到的情緒類別以及情緒原因產(chǎn)生共情反應(yīng)。而Qian等人[63]認為這些方法側(cè)重于理解和復(fù)制上下文中的情緒原因,并沒有真正過渡到以情緒為中心,理解情緒原因的邏輯性,為了解決這個問題,其提出了一個情感原因過渡圖,以明確地模擬共情對話中兩個相鄰回合之間情感原因的自然過渡,而且下一個回合中的情感原因的概念詞可以被預(yù)測,并專門設(shè)計一個概念感知解碼器產(chǎn)生共情反應(yīng)。對共情對話生成模型的對比如表2所示。
1.3 共情對話的發(fā)展動向
1.3.1 基于多模態(tài)的共情對話
目前較為常見的共情對話基本上是基于文本或者基于語音的這樣單一模態(tài)的形式,但是這種單一模態(tài)的形式往往很難準(zhǔn)確判斷出情感狀態(tài)。就比如,反諷往往結(jié)合中性或者積極的文本內(nèi)容和與內(nèi)容不匹配的音頻表達來完成一個消極的情感表達,這種情形僅靠單模態(tài)很難從根本上解決。其次,單模態(tài)模型容易受噪聲影響而導(dǎo)致效果問題,例如由自動語音識別轉(zhuǎn)寫的文本,上游出現(xiàn)的錯誤很多時候會對下游分類任務(wù)產(chǎn)生較大影響。因此,多模態(tài)模型策略在共情對話任務(wù)中是十分必要的,多模態(tài)情感感知旨在從不同的視覺、音頻和文本模式中識別人類的各種情感。
Cai等人[64]則提出了一種將語音和面部表情的情感數(shù)據(jù)融合的方法。首先利用CNN和LSTM學(xué)習(xí)語音情緒特征;同時,設(shè)計了多個小規(guī)模核卷積塊進行面部表情特征提取;最后融合語音特征和面部表情特征實現(xiàn)情感識別,與語音和面部表情的單一模態(tài)相比,模型的整體識別準(zhǔn)確率分別提高了10.05%和11.27%。Dong等人[65]提出一種基于BiLSTM的多模態(tài)情緒識別方法,在視頻序列中引入ResNeXt50網(wǎng)絡(luò)和協(xié)調(diào)注意力機制,以獲取視頻圖像的位置和空間的長期依賴信息,利用具有自我注意力機制的CNN來捕捉音頻序列的語義特征。與此同時,為了消除冗余,采用了嵌入自我注意機制的雙序列LSTM跨模態(tài)網(wǎng)絡(luò)進行情感特征融合,最終實現(xiàn)情感感知,在eNTERFACE05數(shù)據(jù)集[66]上的準(zhǔn)確率達到了81.04%。
在多模態(tài)融合模型中,特征來源單一容易導(dǎo)致模型過擬合,為了解決這個問題,Liu等人[67]提出了一種特征融合模型。首先,使用一維卷積將不同長度和維度大小的特征作為輸入;然后,使用注意力機制捕獲兩個特征之間的相應(yīng)關(guān)系;最后,使用雙向時間序列模塊來增強融合特征的上下文信息。實驗結(jié)果證明,該模型有效地將不同長度和維度的聲學(xué)特征與預(yù)訓(xùn)練特征融合在一起,在EMO-DB數(shù)據(jù)集上的識別準(zhǔn)確率和F1得分分別達到了64.9%和84.1%。
近年也有研究將視覺、語音、文本三個模態(tài)融合識別情感,F(xiàn)irdaus等人[68]提出了一個Affect-GCN(affect-graph convolutional network)框架,該框架利用RNN-GCN作為話語編碼器,然后使用多模態(tài)分解雙線性池(MFB)來增強不同模態(tài)的表示,以便捕獲上下文信息以及多模態(tài)知識,從而更好地進行情感感知。模型使用ResNet(deep residual network)來捕獲視覺特征,VGG(visual geometry group)用于捕獲音頻特征,文本特征由RNN-GCN框架捕獲,所有特征都作為MFB塊的輸入,輸出作為任務(wù)特定層的輸入進行分類,同時預(yù)測情感。如圖1所示,與現(xiàn)有的多模態(tài)方法分析,準(zhǔn)確率提高到了69.73%。
1.3.2 基于外部知識的共情對話
早期基于深度學(xué)習(xí)的共情對話生成大多是純數(shù)據(jù)驅(qū)動的基于seq2seq框架的模型,生成的對話看上去很接近自然語言,但是往往缺乏實質(zhì)信息的內(nèi)容。比如,當(dāng)人們在日常生活中與別人對話時,為了更好地理解對話中的情感,肯定會在對話的過程中加入個人的經(jīng)驗、常識等超出上下文內(nèi)容的信息。因此,如果想要構(gòu)建一個類似人類交流的共情對話模型,將外界知識引入是必不可少的。如小米人工智能實驗室[20]為了更好地利用外部知識,構(gòu)建了一個知識圖譜。這個知識圖譜的數(shù)據(jù)來源是一個大規(guī)模的常識知識庫,涵蓋了以事件為中心的社會方面有關(guān)的推理知識元組。但由于這個數(shù)據(jù)庫中的知識元組存在多個尾實體,且每個知識元組也是孤立的,在構(gòu)建知識圖譜后可能會存在無法推測情感狀態(tài)或者難以產(chǎn)生連貫回答的情況出現(xiàn)。為此,小米收集了日常場景中的大規(guī)模多輪對話,并手動注釋對話的情感信息,根據(jù)標(biāo)注信息提取與數(shù)據(jù)庫中與對話相關(guān)的事件,可以讓對話系統(tǒng)明白當(dāng)前的狀態(tài),又定義了新的四種對話流關(guān)系,即事件流、概念流、情感原因流和情感意圖流,把知識庫中的事件歸為事件流,把知識庫的實體歸為概念流,事件產(chǎn)生的原因歸為情感原因流,事件發(fā)生后怎么做歸為情感意圖流,可以讓對話系統(tǒng)明白下一步怎么樣回復(fù)。如圖2所示,這個知識圖譜是以常識知識元組為基礎(chǔ),而且添加了小米人工構(gòu)建的對話語料庫的漢語常識對話知識圖譜,圖譜可以通過識別對話中的情感分類來定位知識庫中對應(yīng)的答案,舉一個例子,知識庫中有{x收養(yǎng)了一只貓,x effect,感到開心}和{x收養(yǎng)了一只貓,x effect,x對貓過敏}這樣兩個知識元組,當(dāng)說出:我最近收養(yǎng)了一只貓,感到很煩惱。知識圖譜就能夠根據(jù)人工制定的語料庫識別出對話的情感是悲傷的,就能夠在知識庫中精確定位到“x對貓過敏”,然后根據(jù)情感意圖來選擇合適的對話流,如當(dāng)描述對話中的壓力時,知識圖譜可能會輸出“減輕壓力”之類的對話。實驗結(jié)果表明引入外部知識后,情感感知和意圖識別的準(zhǔn)確率分別達到了93.6%和71.3%,與其他算法相比實現(xiàn)了更高的準(zhǔn)確率。
2 共情對話系統(tǒng)的性能評價
2.1 數(shù)據(jù)集
隨著深度學(xué)習(xí)技術(shù)水平的提高,共情對話系統(tǒng)也得到了越來越多的關(guān)注。本節(jié)總結(jié)了與共情對話系統(tǒng)相關(guān)的數(shù)據(jù)集,有助于接下來的研究。關(guān)于對話數(shù)據(jù)集大致可以分為共情對話數(shù)據(jù)集、通用數(shù)據(jù)集和多模態(tài)數(shù)據(jù)集,相關(guān)數(shù)據(jù)集的介紹和下載地址如表3所示。
適用于共情對話系統(tǒng)的數(shù)據(jù)集包括:EMPATHETICDIALOGUES[69]、CPED(Chinese personalized and emotional dialogue)[70]、XiaoAI empathetic conversation[71]和ESConv (emotional-support-conversation)[72]。EMPATHETICDIALOGUES包含24 850個對話,這個數(shù)據(jù)集是通過眾包方法準(zhǔn)備的,即公司或者機構(gòu)把過去由員工執(zhí)行的工作任務(wù),以自由自愿的方式外包給大眾志愿者處理。每個參與者講述與所分配的情緒類別相對應(yīng)的對話,并限制在4~8個話語中。CPED由與情感和個性相關(guān)的多源知識組成。這些知識包括性別、五大人格特征、13種情緒、19種對話行為和10個場景,包含超過1.2萬段對話。XiaoAI empathetic conversation包含16 873個對話,它是通過對小愛在線日志的基礎(chǔ)數(shù)據(jù)提取而成。基礎(chǔ)數(shù)據(jù)被注釋為四種情緒類別(悲傷、憤怒、快樂和其他)。ESConv包括了1 053個對話、31 410個語句,提供了7種負向情緒、5個負向情緒問題以及8種情感支持策略。
通用的對話數(shù)據(jù)集包括DailyDialog[73]、BookCorpus[74]、PersonaChat[75]和豆瓣conversation corpus[76]。DailyDialog數(shù)據(jù)集由13 118個關(guān)于日常生活的多輪對話組成,源數(shù)據(jù)提取自各個網(wǎng)站。這些對話有交換信息和加強社會聯(lián)系兩個目的,并且還有四個對話行為(通知、問題、指示和慰問詞)。BookCorpus由11 038本書構(gòu)建,包含大約7 400萬句話。這些書分為不同的內(nèi)容,如愛情小說、奇幻小說和科幻小說。PersonaChat數(shù)據(jù)集包括隨機配對的眾包參與者之間的162 064次對話,總共考慮了1 155個角色,每個角色都由至少五個句子來表示,這些句子給出了關(guān)于特定角色的描述。豆瓣conversation corpus是由國內(nèi)流行的社交網(wǎng)站豆瓣群構(gòu)建的開放領(lǐng)域數(shù)據(jù)集,包括110萬段超過兩回合的雙人對話。
多模態(tài)情感數(shù)據(jù)集包括MELD(multimodal multi-party dataset)[77]、CMU-MOSEI[78]、PhotoChat[79]和IEMOCAP(interactive emotional dyadic motion capture)[80]。MELD數(shù)據(jù)集由電視劇《老友記》中的超過1 400個對話和13 000個句子組成,其中的對話是多模態(tài)的,包括音頻和視覺模態(tài)以及文本。CMU-MOSEI數(shù)據(jù)集由1 000個不同說話者的22 856個視頻片段組成。每個視頻本身包含視覺、音頻和文本三種形式,同時注釋了憤怒、厭惡、恐懼、快樂、悲傷和驚喜六種離散的情緒。Photo-Chat數(shù)據(jù)集由10 917張圖像和12 286個對話組成,每個圖像都與對話過程中共享的用戶圖像配對,每個圖像與其文本描述配對。數(shù)據(jù)集被分成10 286個訓(xùn)練實例、1 000個開發(fā)實例和1 000個測試實例。IEMOCAP包含了大約12 h的多模態(tài)情感分類數(shù)據(jù),通過對10名男演員和女演員基于劇本的即興演出進行錄制得到,每個場景包含兩個說話人。
2.2 共情對話系統(tǒng)常用評價指標(biāo)
根據(jù)共情對話生成語句的質(zhì)量來判斷共情對話系統(tǒng)模型的性能。當(dāng)前的評價指標(biāo)可以分為自動評價指標(biāo)或人工評價指標(biāo)兩類。
a)自動評價指標(biāo)。目前主流的自動評價指標(biāo)包括詞重疊評價指標(biāo)和詞向量評價指標(biāo)。詞重疊評價指標(biāo)主要有BLEU(bilingual evaluation understudy)[81]和METEOR(metric for eva-luation of translation with explicit ordering)[82]。BLEU常用于衡量機器翻譯的性能,通過機器翻譯的結(jié)果和標(biāo)準(zhǔn)人工翻譯的結(jié)果比較是否相似,若相似,則機器翻譯性能好。而METEOR解決了BLEU標(biāo)準(zhǔn)中的一些固有缺陷,擴展了BLEU有關(guān)“共現(xiàn)”的概念,同時將詞序納入評估范疇,設(shè)立基于詞序變化的罰分機制。最終通過計算共現(xiàn)次數(shù)的準(zhǔn)確率、召回率與F值,并考慮罰分,得到待測譯文的METEOR值。詞向量評價指標(biāo)則是通過word2vec等方法將句子轉(zhuǎn)換為向量表示,向量在一定程度上表達了句子的含義,在通過余弦相似度等方法就可以計算兩個句子之間的相似程度。詞向量評價包括greedy ma-tching[83]、embedding average[84]和perplexity困惑度[85]。greedy matching是在生成的句子和真實句子中尋找最相似的一對單詞,把這對單詞的相似度近似為句子的距離;embedding average是將每個單詞的詞向量取平均來作為句子的特征,計算生成語句和真實語句之間相似度;perplexity困惑度就是通過估算句子出現(xiàn)的概率或者語句是否通順來評價模型的性能,模性能型越好,困惑度越小。
b)人工評價指標(biāo)。人工評價的人力成本高,但準(zhǔn)確率是最高的。最早期的對話系統(tǒng)是在實驗室進行評價的,如文獻[86]通過招募36名受試者,受試者被要求使用語音對話系統(tǒng)解決一項任務(wù),并根據(jù)任務(wù)的完成度進行打分。此外,由于實驗室環(huán)境是非常受控制的,這并不一定能與現(xiàn)實世界的實驗環(huán)境一致,這導(dǎo)致結(jié)果有一定的局限性?,F(xiàn)在主流的人工評估主要為眾包的方式,平臺通過大量招募員工,員工根據(jù)質(zhì)量、流暢性或適當(dāng)性對系統(tǒng)進行評分。如文獻[87]評估了使用眾包來評估對話系統(tǒng)的有效性,其實驗表明,使用足夠多的眾包用戶,評估的質(zhì)量與實驗室條件相當(dāng)。共情對話系統(tǒng)評價指標(biāo)的對比如表4所示。
3 共情對話系統(tǒng)存在的問題及未來研究方向
a)建立共情對話系統(tǒng)的目的是為了讓用戶與對話系統(tǒng)的交流更加流暢、準(zhǔn)確。然而,目前大多數(shù)系統(tǒng)僅僅圍繞文本數(shù)據(jù)構(gòu)建,單一模態(tài)的數(shù)據(jù)是有限的,無法覆蓋到大多數(shù)情況的情緒狀態(tài)。因此,下一步可以從多模態(tài)數(shù)據(jù)入手,把對話系統(tǒng)的輸出擴展到圖像、視頻、語音和文本等多種模式,以使其更具共情能力?,F(xiàn)有的研究表明,多模態(tài)有助于提高對話中情感檢測的能力,增強共情對話系統(tǒng)的共情回復(fù)生成能力。
b)由于數(shù)據(jù)集的來源不同,當(dāng)前的共情對話系統(tǒng)可能不適應(yīng)所有場景。如通過眾包獲得的數(shù)據(jù)集、注釋媒體數(shù)據(jù)獲得的數(shù)據(jù)集和注釋公開可用的相關(guān)數(shù)據(jù)集,這些數(shù)據(jù)集來源不同,內(nèi)容不同,復(fù)雜程度也不同。因此,下一步可以從跨領(lǐng)域的數(shù)據(jù)集入手,提高共情對話系統(tǒng)在不同數(shù)據(jù)集中的性能。
c)目前大多數(shù)共情對話都集中于顯式的文本情感研究,采用的數(shù)據(jù)集也是帶有明顯的情感詞匯,而對于一些情感傾向不是特別明顯的文本識別率不佳。因此,下一步可以通過構(gòu)建隱式情感詞詞典,或者通過使用更好的深度學(xué)習(xí)方法來更深層次識別文本中的隱式情感。
d)由于大多數(shù)對話語料庫中存在個性化稀疏性問題,這使得對話系統(tǒng)在與人類交流時難以體現(xiàn)出人物的個性,而擁有個性化的共情對話系統(tǒng)是能夠理解用戶的個性化信息是精確感知用戶的意圖和內(nèi)在狀態(tài)并因此產(chǎn)生適當(dāng)回復(fù)的關(guān)鍵,因此,下一步可以從融合個性化知識的共情對話出發(fā),讓對話系統(tǒng)以不同方式與用戶進行互動。
4 結(jié)束語
本文回顧了近年來共情對話系統(tǒng)的研究進展。首先,本文介紹了共情對話系統(tǒng)的情感感知和共情對話生成兩大挑戰(zhàn),并且分別使用不同的方法來解決這兩個問題。隨著對話系統(tǒng)的不斷發(fā)展,共情功能給這個研究領(lǐng)域帶來了更多挑戰(zhàn)。近年共情對話系統(tǒng)索日益受到關(guān)注,并取得了相當(dāng)不錯的成果,越來越多相關(guān)研究成果出現(xiàn)在人工智能頂會上。但總體來說該領(lǐng)域研究仍處于初級階段,有待進一步研究和探索。
參考文獻:
[1]Cai Zhipeng, Xu Zheng. A private and efficient mechanism for data uploading in smart cyber-physical systems[J].IEEE Trans on Network Science and Engineering,2018,7(2):766-775.
[2]Motger Q, Franch X, Marco J. Conversational agents in software engineering: survey, taxonomy and challenges[EB/OL].(2021-06-21)[2023-06-26].https://doi.org/10.48550/arxiv.2106.10901.
[3]朱映波,趙陽洋,王佩,等.融合馬爾科夫決策過程與信息熵的對話策略[J].計算機工程,2021,47(3):284-290.(Zhu Yingbo, Zhao Yangyang, Wang Pei, et al. A dialogue strategy incorporating Markovian decision processes and information entropy[J].Computer Engineering,2021,47(3):284-290.)
[4]王雨,袁玉波,過弋,等.情感增強的對話文本情緒識別模型[J].計算機應(yīng)用,2023,43(3):706-712.(Wang Yu, Yuan Yubo, Guo Yi, et al. An emotionally enhanced model of conversational text emotion recognition[J].Journal of Computer Applications,2023,43 (3):706-712.)
[5]Khatua A, Cambria E, Khatua A, et al. Lets chat about Brexit! A politically-sensitive dialog system based on Twitter data[C]//Proc of IEEE International Conference on Data Mining Workshops.Pisca-taway,NJ:IEEE Press,2017:393-398.
[6]Adamopoulou E, Moussiades L. Chatbots: history, technology, and applications[J].Machine Learning with Applications,2020,2:100006.
[7]曹亞如,張麗萍,趙樂樂.多輪任務(wù)型對話系統(tǒng)研究進展[J].計算機應(yīng)用研究,2022,39(2):331-341.(Cao Yaru, Zhang Liping, Zhao Lele. Progress in research on multi-tasking dialogue systems[J].Application Research of Computers,2022,39(2):331-341.)
[8]Guo Chao, Lu Yue, Dou Yong, et al. Can ChatGPT boost artistic creation: the need of imaginative intelligence for parallel art[J].IEEE/CAA Journal of Automatica Sinica,2023,10(4):835-838.
[9]Zhou Li, Gao Jianfeng, Li Di, et al. The design and implementation of Xiaoice, an empathetic social chatbot[J].Computational Linguistics,2020,46(1):53-93.
[10]徐暉,王中卿,李壽山,等.結(jié)合情感信息的個性化對話生成[J].計算機科學(xué),2022,49(S2):99-104.(Xu Hui, Wang Zhongqin, Li Shoushan, et al. Personalised conversation generation combined with emotional information[J].Computer Science,2022,49(S2):99-104.)
[11]Zhou Hao, Huang Minlie, Zhang Tianyang, et al. Emotional chatting machine: emotional conversation generation with internal and external memory[C]//Proc of AAAI Conference on Artificial Intelligence.2018:730-738.
[12]Madasu A, Firdaus M, Eqbal A. A unified framework for emotion identification and generation in dialogues[EB/OL].(2022-05-31)[2023-06-26].https://doi.org/10.48550/arxiv.2205.15513.
[13]楊建華,彭楊,楊茜.同理心地圖聯(lián)合情景教學(xué)在護患溝通技巧教學(xué)的應(yīng)用[J].護理學(xué)雜志,2022,37(24):47-50.(Yang Jianhua, Peng Yang, Yang Qian. The use of empathy maps combined with scenario-based teaching in teaching nurse-patient communication skills[J].Journal of Nursing,2022,37(24):47-50.)
[14]Powell P A, Roberts J. Situational determinants of cognitive, affective, and compassionate empathy in naturalistic digital interactions[J].Computers in Human Behavior,2017,68:137-148.
[15]YalcinN, DiPaola S. A computational model of empathy for inte-ractive agents[J].Biologically Inspired Cognitive Architectures,2018,26:20-25.
[16]Yang Cai. Ambient intelligence in everyday life[M].Berlin:Springer-Verlag,2006:67-85.
[17]Aziz A, Jemili M F. Conceptual design of a socially intelligent agent with triadic empathy and theory of mind for mental health support[J].Journal of Human Centered Technology,2022,1(1):23-33.
[18]Ma Yukun, Nguyen K L, Xing F Z, et al. A survey on empathetic dialogue systems[J].Information Fusion,2020,64:50-70.
[19]Zhong Peixiang, Zhang Chen, Wang Hao, et al. Towards persona-based empathetic conversational models[EB/OL].(2020-04-26)[2023-06-26].https://doi.org/10.48550/arxiv.2004.12316.
[20]Li Dawei, Li Yanran, Zhang Jiayi, et al. C3KG: a Chinese commonsense conversation knowledge graph[EB/OL].(2022-04-06)[2023-06-26].https://doi.org/10.48550/arxiv.2204.02549.
[21]張雄濤,祝娜,郭玉慧.基于圖神經(jīng)網(wǎng)絡(luò)的會話推薦方法綜述[J/OL].數(shù)據(jù)分析與知識發(fā)現(xiàn).(2023-06-25).http://kns.cnki.net/kcms/detail/10.1478.g2.20230623.1003.002.html.(Zhang Xiongtao, Zhu Na, Guo Yuhui. A review of session recommendation me-thods based on graph neural networks[J/OL].Data Analysis and Knowledge Discovery.(2023-06-25).http://kns.cnki.net/kcms/detail/10.1478.g2.20230623.1003.002.html.)
[22]Brave S, Nass C, Hutchinson K. Computers that care: investigating the effects of orientation of emotion exhibited by an embodied compu-ter agent[J].International Journal of Human-Computer Studies,2005,62(2):161-178.
[23]Pamungkas E W. Emotionally-aware chatbots:a survey[J/OL].(2019-06-24)[2023-06-26].https://doi.org/10.48550/arxiv.1906.09774.
[24]Wardhana A K, Ferdiana R, Hidayah I. Empathetic chatbot enhancement and development:a literature review[C]//Proc of International Conference on Artificial Intelligence and Mechatronics Systems.Piscataway,NJ:IEEE Press,2021:1-6.
[25]Spring T, Casas J, Daher K, et al. Empathic response generation in chatbots[C/OL]//Proc of the 4th Swiss Text Analytics Conference.(2019-06-18)[2023-06-26].http://arodes.hes-so.ch/record/4525.
[26]McTear M F, Callejas Z, Griol D. The conversational interface[M].Cham:Springer,2016.
[27]Wong M Y. Emotion as a language of universal dialogue[J].Dialogue and Universalism,2019,29(3):41-56.
[28]Banchs R E. On the construction of more human-like chatbots: affect and emotion analysis of movie dialogue data[C]//Proc of Asia-Pacific Signal and Information Processing Association Annual Summit and Conference.Piscataway,NJ:IEEE Press,2017:1364-1367.
[29]Inkpen D, Strapparava C. Proceedings of the NAACL HLT 2010 workshop on computational approaches to analysis and generation of emotion in text[M].Stroudsburg,PA:Association for Computational Linguistics,2010.
[30]Strapparava C, Valitutti A. WordNet-Affect:an affective extension of WordNet[C]//Proc of the 4th international conference on language resources and evaluation.[S.l.]:European Language Resources Association,2004:1083-1086.
[31]Liu Bin, Zhang Lei. A survey of opinion mining and sentiment analysis[M]//Aggarwal C, Zhai C. Mining Text Data. Boston:Springer,2012:415-463.
[32]Bandhakavi A, Wiratunga N, Massie S, et al. Lexicon generation for emotion detection from text[J].IEEE Intelligent Systems,2017,32(1):102-108.
[33]Wang Wei, Cao Xinyi, Li He, et al. Improving speech emotion re-cognition based on acoustic words emotion dictionary[J].Natural Language Engineering,2021,27(6):747-761.
[34]Mikolov T, Chen Kai, Corrado G, et al. Efficient estimation of word representations in vector space[EB/OL].(2013-01-16)[2023-06-26].https://doi.org/10.48550/arxiv.1301.3781.
[35]Pennington J, Socher R, Manning C D. GloVe: global vectors for word representation[C]//Proc of Conference on Empirical Methods in Natural Language Processing.Stroudsburg,PA:Association for Computational Linguistics,2014:1532-1543.
[36]Mac Kim S, Valitutti A, Calvo R A. Evaluation of unsupervised emotion models to textual affect recognition[C]//Proc of NAACL HLT Workshop on Computational Approaches to Analysis and Generation of Emotion in Text.Stroudsburg,PA:Association for Computational Linguistics,2010:62-70.
[37]Barros P, Barakova E, Wermter S. Adapting the interplay between personalized and generalized affect recognition based on an unsupervised neural framework[J].IEEE Trans on Affective Computing,2020,13(3):1349-1365.
[38]Seyeditabari A, Tabari N, Zadrozny W. Emotion detection in text:a review[EB/OL].(2018-06-02)[2023-06-26].https://doi.org/10.48550/arxiv.1806.00674.
[39]Balahur A, Hermida J M, Montoyo A, et al. EmotiNet: a knowledge base for emotion detection in text built on the appraisal theories[C]//Proc of the 6th International Conference on Applications of Natural Language to Information Systems.Berlin:Springer-Verlag,2011: 27-39.
[40]Strapparava C, Mihalcea R. Semeval-2007 task 14: affective text[C]//Proc of the 4th International Workshop on Semantic Evaluations.Stroudsburg,PA:Association for Computational Linguistics,2007:70-74.
[41]Vijayaraghavan S, Basu D. Sentiment analysis in drug reviews using supervised machine learning algorithms[EB/OL].(2020-03-21)[2023-06-26].https://doi.org/10.48550/arxiv.2003.11643.
[42]Wang Wenbo, Chen Lu, Thirunarayan K, et al. Harnessing Twitter “big data” for automatic emotion identification[C]//Proc of International Conference on Privacy,Security,Risk and Trust and Internatio-nal Conference on Social Computing.Piscataway,NJ:IEEE Press,2012:587-592.
[43]Wu Yujin, Daoudi M, Amad A, et al. Transformer-based self-supervised multimodal representation learning for wearable emotion recognition[J/OL].IEEE Trans on Affective Computing.(2023-04-03).https://doi.org/10.1109/TAFFC.2023.3263907.
[44]Pan Yu, Hu Yanni, Yang Yuguang, et al. Gemo-clap: gender-attribute-enhanced contrastive language-audio pretraining for accurate speech emotion recognition[EB/OL].(2023-09-13).https://arxiv.org/abs/2306.07848.
[45]Lipton Z C, Berkowitz J, Elkan C. A critical review of recurrent neural networks for sequence learning[EB/OL].(2015-10-17).https://arxiv.org/abs/1506.00019.
[46]Madasu A, Rao V A. Sequential learning of convolutional features for effective text classification[EB/OL].(2019-09-12).https://arxiv.org/abs/1909.00080.
[47]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:6000-6010.
[48]Chen S Y, Hsu C C, Kuo C C, et al. Emotionlines: an emotion corpus of multi-party conversations[EB/OL].(2018-05-30).https://arxiv.org/abs/1802.08379.
[49]Cheng Huihui, Tang Xiaoyu. Speech emotion recognition based on interactive convolutional neural network[C]//Proc of the 3rd International Conference on Information Communication and Signal Proces-sing.Piscataway,NJ:IEEE Press,2020:163-167.
[50]Lyu Huilian, Hu Weiping, Wang Yan. Speech emotion recognition based on BLSTM and CNN feature fusion[C]//Proc of the 4th International Conference on Digital Signal Processing.New York:ACM Press,2020:169-172.
[51]Zhang Shiqing, Zhao Xiaoming, Tian Qi, et al. Spontaneous speech emotion recognition using multiscale deep convolutional LSTM[J].IEEE Trans on Affective Computing,2019,13(2):680-688.
[52]Yi Yufan, Tian Yan, He Cong, et al. DBT: multimodal emotion re-cognition based on dual-branch transformer[J].The Journal of Supercomputing,2023,79(8):8611-8633.
[53]Henderson M, Casanueva I, Mrkic' N, et al. Convert: efficient and accurate conversational representations from transformers[EB/OL].(2020-04-29).https://arxiv.org/abs/1911.03688.
[54]Henderson M, Vulic' I, Gerz D, et al. Training neural response selection for task-oriented dialogue systems[EB/OL].(2019-06-07).https://arxiv.org/abs/1906.01543.
[55]Miao Yisheng, Zhang Liu. Emotional dialogue generation with emotion embedding[C]//Proc of the 5th International Conference on Advanced Electronic Materials,Computers and Software Engineering.Piscataway,NJ:IEEE Press,2022:201-205.
[56]Sordoni A, Galley M, Auli M, et al. A neural network approach to context-sensitive generation of conversational responses[EB/OL].(2015-06-22).https://arxiv.org/abs/1506.06714.
[57]Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate[EB/OL].(2016-05-19).https://ar-xiv.org/abs/1409.0473.
[58]Serban I, Sordoni A, Lowe R, et al. A hierarchical latent variable encoder-decoder model for generating dialogues[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2017:3295-3301.
[59]Zhang Yizhe, Sun Siqi, Galley M, et al. DialoGPT: large-scale ge-nerative pre-training for conversational response generation[EB/OL].(2020-05-02).https://arxiv.org/abs/1911.00536.
[60]Zhao Xueliang, Wu Wei, Xu Can, et al. Knowledge-grounded dialogue generation with pre-trained language models[EB/OL].(2020-10-17).https://arxiv.org/abs/2010.08824.
[61]Liu Ye, Maier W, Minker W, et al. Empathetic dialogue generation with pre-trained RobERTa-GPT2 and external knowledge[M]//Sto-yanchev S, Ultes S, Li H. Conversational AI for Natural Human-Centric Interaction.Singapore:Springer,2022:67-81.
[62]Chen Ensi, Zhao Huan, Li Bo, et al. Affective feature knowledge interaction for empathetic conversation generation[J].Connection Science,2022,34(1):2559-2576.
[63]Qian Yushan, Wang Bo, Lin T E, et al. Empathetic response generation via emotion cause transition graph[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Pisca-taway,NJ:IEEE Press,2023:1-5.
[64]Cai Linqin, Dong J, Wei Min. Multi-modal emotion recognition from speech and facial expression based on deep learning[C]//Proc of Chinese Automation Congress.Piscataway,NJ:IEEE Press,2020:5726-5729.
[65]Dong Danyang, Ji Ruirui, Mei Yuan. Dual-sequence LSTM multimodal emotion recognition based on attention mechanism[C]//Proc of China Intelligent Robotics Annual Conference.Berlin:Springer,2022:145-157.
[66]Martin O, Kotsia I, Macq B, et al. The enterface05 audio-visual emotion database[C]//Proc of the 22nd International Conference on Data Engineering Workshops.Piscataway,NJ:IEEE Press,2006:8.
[67]Liu Zheng, Kang Xin, Ren Fuji. Dual-TBNet: improving the robustness of speech features via dual-transformer-BiLSTM for speech emotion recognition[J].IEEE/ACM Trans on Audio, Speech, and Language Processing,2023,31:2193-2203.
[68]Firdaus M, Singh G V, Ekbal A, et al. Affect-GCN:a multimodal graph convolutional network for multi-emotion with intensity recognition and sentiment analysis in dialogues[J/OL].Multimedia Tools and Applications.(2023-04-27)[2023-06-26].https://doi.org/10.1007/s11042-023-14885-1.
[69]Rashkin H, Smith E M, Li M, et al. Towards empathetic open-domain conversation models: a new benchmark and dataset[EB/OL].(2019-08-28).https://arxiv.org/abs/1811.00207.
[70]Chen Yirong, Fan Weiquan, Xing Xiaofen, et al. CPED:a large-scale Chinese personalized and emotional dialogue dataset for conversational AI[EB/OL].(2022-05-29).https://arxiv.org/abs/2205.14727.
[71]Li Yanran, Li Ke, Ning Hongke, et al. Towards an online empathetic chatbot with emotion causes[C]//Proc of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM Press,2021:2041-2045.
[72]Liu Siyang, Zheng Chujie, Demasi O, et al. Towards emotional support dialog systems[EB/OL].(2021-06-02).https://arxiv.org/abs/2106.01144.
[73]Li Yanran, Su Hui, Shen Xiaoyu, et al. Dailydialog: a manually labelled multi-turn dialogue dataset[EB/OL].(2017-10-11).https://arxiv.org/abs/1710.03957.
[74]Zhu Yukun, Kiros R, Zemel R, et al. Aligning books and movies: towards story-like visual explanations by watching movies and reading books[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2015:19-27.
[75]Zhang Saizheng, Dinan E, Urbanek J, et al. Personalizing dialogue agents: I have a dog, do you have pets too?[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2018:2204-2213.
[76]Wu Yu, Wu Wei, Xing Chen, et al. Sequential matching network:a new architecture for multi-turn response selection in retrieval-based chatbots[EB/OL].(2017-05-15).https://arxiv.org/abs/1612.01627.
[77]Poria S, Hazarika D, Majumder N, et al. MELD:a multimodal multi-party dataset for emotion recognition in conversations[EB/OL].(2019-06-04).https://arxiv.org/abs/1810.02508.
[78]Zadeh A A B, Liang P P, Poria S, et al. Multimodal language analysis in the wild:Cmu-mosei dataset and interpretable dynamic fusion graph[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics,2018:2236-2246.
[79]Zang Xiaoxue, Liu Lijuan, Wang Maria, et al. PhotoChat:a human-human dialogue dataset with photo sharing behavior for joint image-text modeling[EB/OL].(2021-07-06).https://arxiv.org/abs/2108.01453.
[80]Busso C, Bulut M, Lee C C, et al. IEMOCAP:interactive emotional dyadic motion capture database[J].Language Resources and Evaluation,2008,42:335-359.
[81]Lin C Y. ROUGE: a package for automatic evaluation of summaries[M]//Text Summarization Branches Out.Stroudsburg,PA:Association for Computational Linguistics,2004:74-81.
[82]Banerjee S, Lavie A. METEOR: an automatic metric for MT evaluation with improved correlation with human judgments[C]//Proc of ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and/or Summarization. Stroudsburg, PA: Association for Computational Linguistics,2005:65-72.
[83]Tang Zhihao, Wu Xiaowei, Zhang Yuhao, et al. Towards a better understanding of randomized greedy matching[C]//Proc of the 52nd Annual ACM SIGACT Symposium on Theory of Computing.New York:ACM Press,2020:1097-1110.
[84]Wieting J, Bansal M, Gimpel K, et al. Towards universal paraphrastic sentence embeddings[EB/OL].(2016-03-04).https://arxiv.org/abs/1511.08198.
[85]Bengio Y, Ducharme R, Vincent P. A neural probabilistic language model[J].The Journal of Machine Learning Research,2000,3:1137-1155.
[86]Zen H, Tokuda K, Kitamura T. Reformulating the HMM as a trajectory model by imposing explicit relationships between static and dynamic feature vector sequences[J].Computer Speech & Language,2007,21(1):153-173.
[87]Jurccek F, Keizer S, Gaic M, et al. Real user evaluation of spoken dialogue systems using Amazon Mechanical Turk[C]//Proc of the 12th Annual Conference of the International Speech Communication Association.2011:3061-3604.