• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多模態(tài)情感分析綜述

      2022-07-23 10:34:42陳國(guó)偉張鵬洲王婷葉前坤
      關(guān)鍵詞:模態(tài)文獻(xiàn)特征

      陳國(guó)偉,張鵬洲,王婷,葉前坤

      (中國(guó)傳媒大學(xué)媒體融合與傳播國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100024)

      1 引言

      情感是一種心理狀態(tài),通常會(huì)導(dǎo)致人們的行為方式和計(jì)算理性相沖突,是人類等高等生物區(qū)分于計(jì)算機(jī)的顯著屬性[1],人類的大腦具有意識(shí)的維度,著名的情感學(xué)家Scherer[2]將情感定義為組成過(guò)程,Scherer指出,情緒在適應(yīng)生物體生命中頻繁發(fā)生和典型模式的重大事件方面發(fā)揮著重要作用,情緒范圍很難界定,而憤怒、喜悅、恐懼、悲傷等功利主義情緒相對(duì)頻繁出現(xiàn)。情感在人工智能領(lǐng)域有著重要的研究?jī)r(jià)值。情感分析,又稱情感計(jì)算、意見(jiàn)挖掘,最早起源于Picard提出的“情感計(jì)算”概念[3],Picard指出,情緒在人類的思維、推斷和決策中發(fā)揮著重要作用,情感計(jì)算機(jī)可以通過(guò)識(shí)別人類情感來(lái)提高決策能力。目前對(duì)基本情感暫未有嚴(yán)格的定義,在情感分析的研究中,大部分學(xué)者使用六種基本情感:悲傷、高興、恐懼、厭惡、驚訝、憤怒。

      情感分析的研究對(duì)象主要是情感交互時(shí)發(fā)生變化的外部行為,如文本、語(yǔ)音參數(shù)、人臉表情、肢體動(dòng)作、生理參數(shù)。模態(tài)是某件事發(fā)生或經(jīng)歷的方式,許多人將模態(tài)和感官模態(tài)相聯(lián)系,感官模態(tài)代表我們主要的交流和感覺(jué)渠道,如視覺(jué)或觸覺(jué)。[4]傳統(tǒng)的情感分析主要根據(jù)文本、語(yǔ)音、面部表情等模態(tài)中的一種模態(tài)進(jìn)行分析。在情感分析的發(fā)展過(guò)程中,早期會(huì)對(duì)文本進(jìn)行基于情感詞典的情感分析,根據(jù)情感詞的強(qiáng)度對(duì)文本進(jìn)行分?jǐn)?shù)統(tǒng)計(jì),國(guó)內(nèi)外都有著豐富的情感詞典,如SetiWordNet[5]、知網(wǎng)Hownet情感詞典、臺(tái)灣大學(xué)NTUSD情感詞典,早期對(duì)語(yǔ)音進(jìn)行情感分析最常用的方法是HMM模型,如Lin等人在2005年結(jié)合HMM和SVM模型對(duì)語(yǔ)音情感進(jìn)行分類[6]。早期的表情識(shí)別通常是基于幾何特征和紋理特征的,如李悅等人采用多種表情特征分類進(jìn)行人臉表情識(shí)別[7]。在機(jī)器學(xué)習(xí)的發(fā)展下,一些常見(jiàn)的機(jī)器學(xué)習(xí)算法如SVM、貝葉斯分類器、KNN等都被廣泛運(yùn)用于各個(gè)模態(tài)的情感分析中,如Bhakre等人使用樸素貝葉斯實(shí)現(xiàn)音頻的四種情緒狀態(tài)分類[8],Mehmood等人使用SVM和KNN對(duì)腦電信號(hào)進(jìn)行情感分類[9]。在神經(jīng)網(wǎng)絡(luò)開(kāi)始興起后,卷積神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短期記憶網(wǎng)絡(luò)等神經(jīng)網(wǎng)絡(luò)在各個(gè)模態(tài)的情感分析中也得到良好運(yùn)用,如Wang等人使用CNN-LSTM對(duì)文本進(jìn)行維度情感分析[10]。近年興起的Attention機(jī)制、遷移學(xué)習(xí)、預(yù)訓(xùn)練模型也被廣泛運(yùn)用于單模態(tài)情感分析中,如Munikar等人使用預(yù)訓(xùn)練的Bert模型對(duì)其進(jìn)行微調(diào),實(shí)現(xiàn)細(xì)粒度的情感分類[11]。利用單模態(tài)進(jìn)行情感分析具有一定的局限性,人類表達(dá)情感時(shí)會(huì)通過(guò)聲音、內(nèi)容、表情、肢體語(yǔ)言等多種方式聯(lián)合表達(dá)情感。多模態(tài)來(lái)自多個(gè)異構(gòu)源,如圖1所示,相對(duì)于單模態(tài)情感分析,利用多種模態(tài)可以更加準(zhǔn)確的捕捉情感信息,部分研究者致力于結(jié)合多個(gè)模態(tài)進(jìn)行情感分析,利用表征學(xué)習(xí)、模態(tài)對(duì)齊、模態(tài)融合等方法,有效改善了利用單模態(tài)進(jìn)行情感分析的局限性。

      圖1 不同模態(tài)的互補(bǔ)性

      在多模態(tài)情感分析的研究歷程中,許多會(huì)議和競(jìng)賽推動(dòng)著多模態(tài)情感分析的進(jìn)步,如2011年起在德國(guó)慕尼黑工業(yè)大學(xué)開(kāi)始舉辦的多模態(tài)情感識(shí)別的競(jìng)賽(AVEC);2016和2017年的多模態(tài)情感識(shí)別挑戰(zhàn)(MEC2016、MEC2017),使用中文自然音頻-視覺(jué)數(shù)據(jù)庫(kù)(CHEAVD)作為挑戰(zhàn)數(shù)據(jù)集,促進(jìn)了漢語(yǔ)多模態(tài)情感分析的研究;科大訊飛在2020年的IFLYTEKA.I.開(kāi)發(fā)者大賽中的多模態(tài)情感分析賽道。在情感分析的研究歷程中,多模態(tài)情感分析起步較晚,但仍有許多研究學(xué)者和機(jī)構(gòu)致力于多模態(tài)情感分析的研究,國(guó)內(nèi)外許多頂級(jí)會(huì)議如NLPCC(CCF International Conference on Natural Language Processing and Chinese Computing)、ACL(The Association for Computational Linguistics)、INTERSPPECH(Conference of the International Speech Communication Association)、ICASSP(IEEE International Conference on Acoustics,Speech and SP)、EMNLP(Conference on Empirical Methods in Natural Language Processing)、NAACL(The North American chapter of the association for computational linguistics)、AAAI(Association for the Advance of Artificial Intelligence)上收錄了許多圍繞多模態(tài)對(duì)齊、融合、情感識(shí)別模型展開(kāi)研究的論文。

      2 情感表達(dá)模型描述

      人類的情感是復(fù)雜繁瑣的認(rèn)知過(guò)程,很難對(duì)人類情感進(jìn)行簡(jiǎn)單的概括,現(xiàn)階段的情感模型大多分為兩種,分別是離散情感模型和維度情感模型。

      2.1 離散情感模型

      離散情感模型將情感分為獨(dú)立的類別,著名的心理學(xué)家Ekman[12]等人總結(jié)了六種基本情緒:快樂(lè)、悲傷、憤怒、恐懼、驚訝、厭惡。且這六種基本情感可以組合派生出其他復(fù)合情緒。Roseman[13]等人通過(guò)評(píng)價(jià)因素對(duì)情感進(jìn)行評(píng)估,給出17種基本情緒。由于情緒的復(fù)雜性,很難精確的對(duì)其進(jìn)行模擬,在實(shí)際使用場(chǎng)景中,針對(duì)離散情感模型的分類模型比較常見(jiàn)。

      2.2 維度情感模型

      相較于離散情感模型,維度情感模型更加具有普適性,可以有效的對(duì)情緒強(qiáng)度進(jìn)行描述。Russell[14]等人提出了基于愉悅度和激勵(lì)度兩個(gè)維度進(jìn)行情感模擬的二維情感模型,采用環(huán)狀結(jié)構(gòu)對(duì)情感進(jìn)行描述(見(jiàn)圖2)。在維度情感模型中,認(rèn)同度最高的PAD模型是基于愉悅度(Pleasure)、喚醒度(Arousal)、支配度(Dominance)三個(gè)維度的模型[15],PAD三維情感模型可以有效解釋人類的情感,模擬情緒的相似和對(duì)立性(見(jiàn)圖3)。

      圖2 二維情感模型

      圖3 PAD情感模型

      3 基于多模態(tài)的情感分析方法論

      如圖4所示,多模態(tài)情感識(shí)別對(duì)所采用的數(shù)據(jù)集中的不同模態(tài)進(jìn)行預(yù)處理,提取特征后采用不同的模態(tài)融合方式,輸入模型對(duì)融合的模態(tài)信息進(jìn)行情感識(shí)別,分為對(duì)句子級(jí)別和對(duì)話級(jí)別進(jìn)行多模態(tài)情感分析,訓(xùn)練模型后為測(cè)試樣本匹配情感標(biāo)簽,從而評(píng)估預(yù)測(cè)結(jié)果。

      圖4 多模態(tài)情感分析方法論

      3.1 單模態(tài)數(shù)據(jù)表示

      (1)文本特征表示

      對(duì)于文本的特征表示,主要是將文本轉(zhuǎn)化為可供機(jī)器識(shí)別的語(yǔ)言,通常有兩種表示方法,分別是One-hot Representation(離散表示)和Distribution Representation(分布式表示)。常用的文本特征工具是詞向量模型,詞向量將文本進(jìn)行向量表示,維度是自己事先定義的,相似的詞會(huì)有相似的向量表示。常用的詞向量模型如Google發(fā)布的Word2vec模型[16],主要依賴Skip-grams或CBOW兩個(gè)模型,分別通過(guò)中心詞預(yù)測(cè)附近詞,以及通過(guò)附近詞預(yù)測(cè)中心詞,如文獻(xiàn)[17]中使用Word2vec模型進(jìn)行文本模態(tài)的特征提取。GloVe[18]詞向量使用共現(xiàn)矩陣考慮了全局信息,ELMo詞向量[19]能夠隨著語(yǔ)言環(huán)境的變化捕捉詞語(yǔ)中和語(yǔ)境相關(guān)的含義。2018年Google提出Bert預(yù)訓(xùn)練模型[20],許多學(xué)者使用大規(guī)模語(yǔ)料進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)語(yǔ)義關(guān)系后進(jìn)行下游任務(wù)詞向量的輸入,如文獻(xiàn)[21]分別使用GloVe詞向量和Bert模型來(lái)進(jìn)行文本特征的表示并比較其性能。

      (2)語(yǔ)音特征表示

      聲學(xué)特征涵蓋豐富的信息,通過(guò)對(duì)聲學(xué)特征進(jìn)行分析可以獲取其傳遞的情感信息,對(duì)分類器進(jìn)行情感識(shí)別有著顯著影響。最常使用的聲學(xué)特征有梅爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficient,簡(jiǎn)稱MFCC)、能量/幅度特征、線性預(yù)測(cè)倒譜系數(shù)(Linear Predictor Cepstral Coeffcients,簡(jiǎn)稱 LPCC)等?;赑ython的Librosa工具可以對(duì)語(yǔ)音進(jìn)行時(shí)頻處理、提取多種語(yǔ)音特征、繪制聲音各類相關(guān)圖像(如頻譜圖),Schuller團(tuán)隊(duì)在2015年開(kāi)發(fā)了OpenSmile工具[22],可以對(duì)語(yǔ)音進(jìn)行預(yù)處理和特征提取,對(duì)幀能量、幀強(qiáng)度、自相關(guān)函數(shù)、幅度譜加權(quán)等多種特征進(jìn)行提取。如文獻(xiàn)[23]中使用OpenSmile提取MFCC和LPCC等特征作為語(yǔ)言的情感識(shí)別特征。

      (3)圖像/視頻特征表示

      人臉信息是根據(jù)五官等不斷變化的,含有豐富的情感信息。人臉圖像/視頻特征提取主要基于幾何特征和紋理特征。幾何特征根據(jù)五官的位置、大小、比例關(guān)系等使用一組矢量對(duì)人臉進(jìn)行表示。紋理特征主要有SIFT、局部二值模型(Local Binary Patterns,簡(jiǎn)稱LBP)、Gabor小波系數(shù)、HOG等,如文獻(xiàn)[24]中提取LBP和Gabor特征作為人臉信息特征;文獻(xiàn)[25]使用SIFT作為表情識(shí)別的特征。對(duì)于動(dòng)態(tài)圖像序列,光流法反映了動(dòng)態(tài)幀中灰度的變化,可以反映基于人臉肌肉的運(yùn)動(dòng)。Python的OpenCV和Dlib庫(kù)常用于人臉特征關(guān)鍵點(diǎn)識(shí)別。如文獻(xiàn)[26]中使用OpenCV來(lái)檢測(cè)人臉。Brandon等人在2016年提出的Open-Face[27]工具也可以提取面部特征,獲取低維表示,用于表情分析。如文獻(xiàn)[28]中使用OpenFace工具來(lái)進(jìn)行視頻模態(tài)的處理,用于過(guò)濾無(wú)關(guān)信息,提取面部特征。

      除此之外,神經(jīng)網(wǎng)絡(luò)也被廣泛運(yùn)用于特征提取中,如Cambria等人使用深度卷積神經(jīng)網(wǎng)絡(luò)提取文本和視覺(jué)特征[29],Wang等人使用神經(jīng)網(wǎng)絡(luò)進(jìn)行人臉面部特征提?。?0]。

      3.2 多模態(tài)融合方法

      多模態(tài)數(shù)據(jù)從不同角度(文本、語(yǔ)音、視頻等)對(duì)對(duì)象進(jìn)行描述,涵蓋比單模態(tài)信息更加豐富的信息量,不同的模態(tài)信息在內(nèi)容上可以互補(bǔ)。在進(jìn)行多模態(tài)情感分析任務(wù)時(shí),要明確如何融合不同模態(tài)的特征信息,保證模態(tài)的語(yǔ)義完整性,實(shí)現(xiàn)不同模態(tài)之間的良好融合,不同的融合方式也會(huì)影響任務(wù)結(jié)果。根據(jù)模態(tài)融合的方式的不同,可以分為早期基于特征的融合,中期基于模型的融合,晚期基于決策的融合。

      (1)早期特征融合

      如圖5所示,特征級(jí)融合是早期在特征提取后的淺層融合,將多個(gè)模態(tài)進(jìn)行特征的直接連接,即淺層的拼接、相加、加權(quán)求和。在進(jìn)行深度學(xué)習(xí)之前,往往會(huì)使用特征工程來(lái)提取模態(tài)特征。特征融合要將不同模態(tài)的多種特征整合到一個(gè)公共空間,由于各個(gè)模態(tài)的差異性,往往涵蓋大量的冗余信息,會(huì)采取降維方法來(lái)消除冗余信息,通常采用主成分分析(Principal Component Analysis,簡(jiǎn)稱PCA)等方式。

      圖5 早期特征融合

      文獻(xiàn)[31]認(rèn)為基于特征的模型學(xué)習(xí)低等級(jí)語(yǔ)音信號(hào)情緒特征的能力有限,提出了一種多模態(tài)雙重遞歸編碼模型,對(duì)文本和音頻序列的雙模態(tài)信息進(jìn)行編碼,將文本和音頻進(jìn)行特征融合后分類,將準(zhǔn)確率提高到了71.8%,有效解決了錯(cuò)誤預(yù)測(cè)為中立的情況。文獻(xiàn)[32]采用卷積神經(jīng)網(wǎng)絡(luò)提取文本的淺層特征,最后使用包含100個(gè)神經(jīng)元的全連接層連接文本表征,采用OpenSMILE工具中的is13compare1config文件,提取共計(jì)6373個(gè)語(yǔ)音特征,進(jìn)行標(biāo)準(zhǔn)化后采用全連接層降維至100層,采取3D-CNN提取面部表情和視覺(jué)特征,利用含有100個(gè)神經(jīng)元的全連接層提取視頻特征。在經(jīng)過(guò)上述處理后,各個(gè)模態(tài)具有相同的維度,文獻(xiàn)中將單個(gè)模態(tài)通過(guò)簡(jiǎn)單的線性連接形成維度為300的多模態(tài)映射。文獻(xiàn)[33]提出一種分層的多模態(tài)情感分析層次融合網(wǎng)絡(luò)(Hierarchical Feature Fusion Network,簡(jiǎn)稱HFFN),涵蓋了局部融合模塊和全局融合模塊,通過(guò)滑動(dòng)窗口探索局部的跨模態(tài)融合,有效降低了計(jì)算復(fù)雜度,通過(guò)ABS-LSTM網(wǎng)絡(luò)探索全局多模態(tài)向量,引入記憶細(xì)胞的雙向殘差連接和隱藏狀態(tài),使用注意力機(jī)制整合兩個(gè)層次下的融合機(jī)制。實(shí)驗(yàn)結(jié)果證明,HFFN能夠有效提高準(zhǔn)確率,三模態(tài)下的融合機(jī)制表現(xiàn)最好。

      (2)中期模型融合

      如圖6所示,基于模型的融合是將不同的模態(tài)數(shù)據(jù)共同輸入網(wǎng)絡(luò),基于模型的中間層進(jìn)行融合,模型融合的好處是可以選擇融合的位置,也可以實(shí)現(xiàn)模態(tài)間的交互性,基于模型的融合通常使用多核學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、圖像模型等方法。

      圖6 中期模型融合

      文獻(xiàn)[34]介紹了Multiple Kernel Learning(MKL)算法,多核學(xué)習(xí)可以更好的融合異構(gòu)數(shù)據(jù),將多模態(tài)特征輸入到核空間,能夠獲得比單核更好的性能。圖像模型也是常見(jiàn)的模型融合方法,可以很好的利用不同模態(tài)的時(shí)間信息,但多核學(xué)習(xí)和圖像模型在多模態(tài)情感分析中的使用較少,神經(jīng)網(wǎng)絡(luò)是多模態(tài)情感分析中最常使用的模型融合算法。文獻(xiàn)[35]使用Bert和VQ-Wav2Vec預(yù)訓(xùn)練模型提取特征,使用淺層的特征融合將提取出的特征向量直接連接起來(lái);使用CoAttention機(jī)制,進(jìn)行語(yǔ)音和文本間的模態(tài)交換,具體的方法是,一個(gè)模態(tài)的Key-Value是通過(guò)另一個(gè)模態(tài)的Query來(lái)進(jìn)行計(jì)算的。文獻(xiàn)比較了不同的融合機(jī)制如何影響模型的性能,結(jié)果顯示,純文本的效果比純語(yǔ)音要好,淺層的特征融合比單模態(tài)效果要好,而在網(wǎng)絡(luò)固定的情況下,Co-Attentional模型的表現(xiàn)更好,更多的交互使得Co-Attentional機(jī)制的適應(yīng)性更好。文獻(xiàn)[36]使用BiGRU學(xué)習(xí)文本,使用VGG網(wǎng)絡(luò)學(xué)習(xí)圖片,提出了使用視覺(jué)信息對(duì)齊文檔的VistaNet網(wǎng)絡(luò),將視覺(jué)模態(tài)整合到文本信息。文獻(xiàn)[37]提出了基于耦合平移的融合網(wǎng)絡(luò),使用Transformer的解碼部分,使用并行融合策略,在公共數(shù)據(jù)集上達(dá)到了先進(jìn)的性能。

      (3)后期決策融合

      如圖7所示,決策級(jí)融合是在后期各個(gè)單模態(tài)分別訓(xùn)練完后,將各個(gè)模態(tài)的結(jié)果進(jìn)行決策打分,即對(duì)每個(gè)模態(tài)的預(yù)測(cè)結(jié)果進(jìn)行集成。在某些模態(tài)數(shù)據(jù)缺失時(shí),決策級(jí)融合也能具有良好表現(xiàn),且來(lái)自不同模態(tài)的數(shù)據(jù)可以分別運(yùn)用合適的分類器進(jìn)行訓(xùn)練,不同模態(tài)間的錯(cuò)誤不會(huì)互相影響。決策級(jí)融合常見(jiàn)的融合機(jī)制有加權(quán)、投票、集成學(xué)習(xí)、規(guī)則融合等。

      圖7 后期決策融合

      文獻(xiàn)[38]認(rèn)為組合多個(gè)模態(tài)信息有助于解決模糊信息,開(kāi)發(fā)并比較了特征融合和決策融合,具體的方法是使用PCA進(jìn)行降維,去除冗余特征后,進(jìn)行簡(jiǎn)單的未加權(quán)拼接和使用訓(xùn)練單獨(dú)模態(tài)所學(xué)習(xí)到的權(quán)值實(shí)現(xiàn)特征融合,使用分類器利用權(quán)重進(jìn)行決策融合。結(jié)果表明,特征融合、決策融合兩種融合方式都能取得比單模態(tài)更好的性能;PCA可以改善直接連接的特征融合性能;不使用PCA進(jìn)行降維的視頻、文本雙模態(tài)在決策融合中表現(xiàn)更好;而在三種融合方式中,學(xué)習(xí)模態(tài)權(quán)重,不使用PCA的視頻、文本雙模態(tài)在所有實(shí)驗(yàn)中表現(xiàn)最佳,可以達(dá)到76%的準(zhǔn)確率。文獻(xiàn)[39]提出了一種量子認(rèn)知來(lái)驅(qū)動(dòng)決策的多模態(tài)決策級(jí)融合策略。具體的方法是,通過(guò)將話語(yǔ)分為積極與消極情緒判斷的量子疊加狀態(tài)在一個(gè)具有正算子值測(cè)度的復(fù)值希爾伯特空間上,將單模態(tài)分類器建模為復(fù)值空間上的互不相容的可觀察量,從訓(xùn)練數(shù)據(jù)中估計(jì)復(fù)值希爾伯特空間和單模態(tài)可觀察量,然后從學(xué)習(xí)到的單模態(tài)可觀察量中建立測(cè)試話語(yǔ)的最終多模態(tài)情感狀態(tài)。文獻(xiàn)[40]指出,在微表情識(shí)別中運(yùn)用語(yǔ)音作為輔助信息,可以有效提高模型準(zhǔn)確率,其提出了包含數(shù)據(jù)級(jí)和決策級(jí)融合的T1MF方法,使用張量融合網(wǎng)絡(luò)生成文本、音頻和文本、視頻的嵌入,在決策融合層面,根據(jù)后驗(yàn)概率輸出單個(gè)分類器的得分矩陣,引入軟融合進(jìn)行決策從而獲得新的預(yù)測(cè)標(biāo)簽。

      3.3 多模態(tài)對(duì)齊方法

      多模態(tài)對(duì)齊是尋找兩個(gè)或兩個(gè)以上模態(tài)之間的對(duì)應(yīng)關(guān)系,在多模態(tài)融合的過(guò)程中,存在文本、音頻、視頻不同步的現(xiàn)象,采用多模態(tài)對(duì)齊方法可以有效解決這種問(wèn)題,現(xiàn)在的主流做法是基于時(shí)間序列的。文獻(xiàn)[41]指出,語(yǔ)音和文本在時(shí)間上存在固有的共存關(guān)系,對(duì)齊對(duì)多模態(tài)學(xué)習(xí)是有益的,文獻(xiàn)將語(yǔ)音經(jīng)過(guò)語(yǔ)音識(shí)別(ASR)識(shí)別成文字,利用注意力網(wǎng)絡(luò)學(xué)習(xí)語(yǔ)音和文本在時(shí)間域上的一致性,計(jì)算語(yǔ)音編碼器和文本編碼器隱藏狀態(tài)間的權(quán)重,將語(yǔ)音特征和文本特征在詞的層次上結(jié)合,實(shí)現(xiàn)語(yǔ)音模態(tài)和文本模態(tài)的對(duì)齊,實(shí)驗(yàn)結(jié)果證明,該方法優(yōu)于直接連接的方法,體現(xiàn)了文本和語(yǔ)音學(xué)習(xí)對(duì)齊的優(yōu)勢(shì)。

      3.4 多模態(tài)訓(xùn)練模型

      在多模態(tài)情感分析的研究歷程中,對(duì)模型的改進(jìn)也是研究重點(diǎn),目前已經(jīng)有許多優(yōu)秀的成果,主要可以分為句子級(jí)多模態(tài)情感分析和對(duì)話級(jí)多模態(tài)情感分析。

      (1)基于句子級(jí)的多模態(tài)情感分析

      由于對(duì)話間交互過(guò)程建模難度大,多模態(tài)情感分析的研究大部分都是基于獨(dú)立的話語(yǔ),許多學(xué)者致力于判斷孤立句子的情感極性,基于句子級(jí)別使用先進(jìn)的方法如注意力機(jī)制、遷移學(xué)習(xí)、預(yù)訓(xùn)練模型等對(duì)模型進(jìn)行改進(jìn)。文獻(xiàn)[42]采用并行的交叉和自注意力機(jī)制來(lái)模擬模態(tài)之間的交互關(guān)系。文獻(xiàn)[43]指出,不是所有單模態(tài)的貢獻(xiàn)度都相同,文獻(xiàn)提出了一個(gè)輕量級(jí)掩碼層M3,在訓(xùn)練過(guò)程中對(duì)主模態(tài)文本進(jìn)行掩蓋,提高弱模態(tài)的貢獻(xiàn),結(jié)果證明,多模態(tài)掩碼能有效提高模型準(zhǔn)確率。

      (2)基于對(duì)話級(jí)的多模態(tài)情感分析

      情感分析的適用場(chǎng)景多半是基于真實(shí)對(duì)話場(chǎng)景下的,對(duì)話之間會(huì)產(chǎn)生交互關(guān)系,而當(dāng)說(shuō)話人進(jìn)行交談時(shí),說(shuō)話人自身和說(shuō)話人之間的情感也存在著依賴關(guān)系,捕捉這種交互性也可以有效提高情感識(shí)別的準(zhǔn)確率。在多模態(tài)情感分析的研究歷程中,許多學(xué)者開(kāi)始著眼于對(duì)話間的交互關(guān)系,如文獻(xiàn)[32]指出,說(shuō)話人的自我影響與情緒慣性有關(guān),情緒可以在一個(gè)時(shí)刻延續(xù)到另一個(gè)時(shí)刻,文獻(xiàn)中使用GRUs對(duì)說(shuō)話人的歷史語(yǔ)句進(jìn)行建模,基于改進(jìn)記憶網(wǎng)絡(luò)的協(xié)同記憶網(wǎng)絡(luò)(CMN)模型,通過(guò)注意力的跳躍捕獲說(shuō)話者之間的依賴關(guān)系。文獻(xiàn)[44]提出了DialogueRNN模型,對(duì)雙方說(shuō)話者和全局進(jìn)行三方建模,使用三個(gè)GRU進(jìn)行存儲(chǔ),采用注意力機(jī)制,實(shí)現(xiàn)了更好的上下文表征。而文獻(xiàn)[45]提出了DialogueGCN模型,通過(guò)圖神經(jīng)網(wǎng)絡(luò)為對(duì)話者之間的依存關(guān)系建模上下文,有效改善了上下文理解和依存關(guān)系。

      4 多模態(tài)情感分析相關(guān)數(shù)據(jù)集

      如表1所示,在多模態(tài)情感分析的研究中,科研人員們創(chuàng)建了許多不同模態(tài)和類型的數(shù)據(jù)集以供研究。在雙模態(tài)數(shù)據(jù)集中,較常使用的有從Yelp.com評(píng)論網(wǎng)站收集評(píng)論構(gòu)建的Yelp數(shù)據(jù)集[46]、手機(jī)評(píng)論相關(guān)信息的Multi-ZOL數(shù)據(jù)集、YouTube上電影評(píng)論視頻為主的CMU-MOSI數(shù)據(jù)集[47];在三模態(tài)數(shù)據(jù)集中,使用較多的有從YouTube搜集構(gòu)建的YouTube數(shù)據(jù)集、由10位演員情感互動(dòng)交流12h視聽(tīng)數(shù)據(jù)的IEMOCAP數(shù)據(jù)集[48]、從美劇《老友記》中剪輯出的聊天對(duì)話片段等MELD數(shù)據(jù)集。

      表1 多模態(tài)相關(guān)數(shù)據(jù)集

      雙模態(tài)數(shù)據(jù)集中的模態(tài)并不總是相同的,一般是文本、圖像和語(yǔ)音的兩兩組合。其中Yelp數(shù)據(jù)集是由233569張圖像和44305條文本組成的;Multi-ZOL數(shù)據(jù)也是由圖像和文本組成,共有5288條數(shù)據(jù),每條數(shù)據(jù)至少有一條文本和一個(gè)圖像;CMU-MOSI數(shù)據(jù)集是從YouTube上收集的93個(gè)有關(guān)電影評(píng)論的視頻,共89人2~5 min的電影評(píng)論;CHEAVD2.0[49]則由視頻和音頻數(shù)據(jù)組成;SEMAINE[50]由 150人參與錄制的959段對(duì)話數(shù)據(jù)組成,包含視頻和音頻數(shù)據(jù);DEAP數(shù)據(jù)集則由32名受試者觀看視頻的腦電信號(hào)和面部表情的視頻數(shù)據(jù)組成。

      三模態(tài)數(shù)據(jù)集中的模態(tài)多是由文本、圖像、音頻和視頻組合而成。其中較為出名的數(shù)據(jù)集IEMOCAP由10位演員情感互動(dòng)交流的大約12個(gè)小時(shí)視聽(tīng)數(shù)據(jù)組成,有音頻、文本和視頻數(shù)據(jù);YouTube數(shù)據(jù)集評(píng)論視頻數(shù)據(jù)由47人對(duì)產(chǎn)品的評(píng)論視頻組成,有文本、視頻、音頻數(shù)據(jù);CH-SIMS數(shù)據(jù)集[51]由2281個(gè)視頻片段組成,且視頻片段中只有說(shuō)話者的面部,有文本、圖像、音頻數(shù)據(jù);ICT-MMMO數(shù)據(jù)集由370個(gè)影評(píng)視頻組成,有文本、圖像、音頻數(shù)據(jù);MELD 數(shù)據(jù)集[52]由1433個(gè)聊天片段組成,有文本、視頻、音頻數(shù)據(jù)。

      5 結(jié)束語(yǔ)

      本文對(duì)多模態(tài)情感分析的研究進(jìn)展和主要研究過(guò)程進(jìn)行了梳理,闡述了多模態(tài)的特征提取、融合方式和模型改進(jìn)等方面的現(xiàn)狀,介紹了多模態(tài)的相關(guān)數(shù)據(jù)集資源。在多模態(tài)情感分析領(lǐng)域仍有許多待解決的問(wèn)題,其面臨的挑戰(zhàn)如下:

      1)不同模態(tài)之間的特征可靠性不完全一樣,目前大部分研究表明文本模態(tài)的可靠性較強(qiáng),且不同模態(tài)之間存在著依賴關(guān)系。

      2)模態(tài)連接后容易產(chǎn)生高維災(zāi)難,增加了計(jì)算復(fù)雜度。且融合模型的時(shí)候很難利用模態(tài)間的互補(bǔ)性,由于模態(tài)采樣率、噪音類型、強(qiáng)度等因素的不同,在同一時(shí)刻模態(tài)的密集程度不同,不同模態(tài)信息很難做到完全對(duì)齊。

      3)目前大部分多模態(tài)情感分析都采用了文本、視頻和音頻,腦電、生理信號(hào)等模態(tài)的數(shù)據(jù)集缺少,考慮其他更多的模態(tài),可以給多模態(tài)情感分析領(lǐng)域帶來(lái)更多可能性。

      4)情感是復(fù)雜的決策過(guò)程,人類的決策在某些情況下是高度非理性的,大部分研究多半考慮了不同模態(tài)之間融合,如何搭配不同的模態(tài)模擬復(fù)雜決策過(guò)程也尤為重要。

      5)在對(duì)話時(shí)通常存在許多個(gè)談話者,考慮到在真實(shí)世界的對(duì)話場(chǎng)景中,人的情感中通常存在著交互,時(shí)序信息顯得尤為重要,在不同的對(duì)話場(chǎng)景中相同的話語(yǔ)也會(huì)存在不同的含義,對(duì)情感交互性進(jìn)行研究,可以有效提高模型在實(shí)際場(chǎng)景中的泛化能力。

      猜你喜歡
      模態(tài)文獻(xiàn)特征
      Hostile takeovers in China and Japan
      速讀·下旬(2021年11期)2021-10-12 01:10:43
      如何表達(dá)“特征”
      Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
      大東方(2019年12期)2019-10-20 13:12:49
      不忠誠(chéng)的四個(gè)特征
      抓住特征巧觀察
      The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
      The Role and Significant of Professional Ethics in Accounting and Auditing
      商情(2017年1期)2017-03-22 16:56:36
      國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
      基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
      由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
      嘉荫县| 武平县| 和平区| 温泉县| 神池县| 信丰县| 循化| 云浮市| 灌南县| 中江县| 东乌珠穆沁旗| 吉木乃县| 玉门市| 岳池县| 双流县| 综艺| 于田县| 贞丰县| 云南省| 中江县| 通榆县| 余姚市| 华容县| 沽源县| 合水县| 陆丰市| 两当县| 水城县| 湖口县| 盐山县| 平果县| 上杭县| 金山区| 灵宝市| 凤山市| 宁远县| 余庆县| 淳化县| 青川县| 香河县| 福清市|