• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      多模態(tài)在情感識別中的研究與應用

      2024-02-25 14:11:56文培煜聶國豪王興梅吳沛然
      應用科技 2024年1期
      關鍵詞:精確度注意力模態(tài)

      文培煜,聶國豪,王興梅,2,吳沛然

      1. 哈爾濱工程大學 計算機科學與技術(shù)學院,黑龍江 哈爾濱 150001

      2. 哈爾濱工程大學 水聲技術(shù)全國重點實驗室,黑龍江 哈爾濱 150001

      情感識別技術(shù)的研究開始于20 世紀80 年代,但直到近年來才得到廣泛關注和應用。情感識別技術(shù)對于了解社會輿情、預測用戶需求、改善服務質(zhì)量等方面具有重要意義。目前,情感識別已經(jīng)應用到社交網(wǎng)絡、輿情分析等領域中,并取得了顯著的成果。例如,在輿情分析方面,情感識別技術(shù)可以幫助政府和媒體準確了解公眾對某一事件或政策的態(tài)度和情緒,為輿論引導和政策制定提供參考。

      情感識別存在不同粒度級別,包括篇章、詞、句子。本文著重于句子級別的情感識別。張悅[1]基于時延神經(jīng)網(wǎng)絡和雙向編碼器表示提出ECAPA-TDNN-LSTM(emphasized-channel-attention,propagation and aggregation in TDNN,LSTM),并將其應用于語音情感識別;鄭艷等[2]提出了一種結(jié)合一維卷積以及門控循環(huán)單元模型(convolution gated recurrent unit, CGRU),緩解了模型過擬合問題;Wang 等[3]提出了一種斷開的遞歸神經(jīng)網(wǎng)絡(recursive neural network,RNN),將信息流限制在固定的步長;Lin 等[4]在句子建模過程中運用了自注意機制;Wang 等[5]采用了基于膠囊網(wǎng)絡的方法,利用一個積極和一個消極的膠囊來捕捉相應的情感特征,許多外部資源,包括詞性標注工具、情感詞典、句法等,通??梢詾榍楦蟹诸愄峁┭a充信息。由于情感詞匯包含情感詞的一般和準確的情感得分,Teng 等[6]將它們與上下文敏感權(quán)重相結(jié)合,以確定最終的情感得分。與此不同的是,Tay 等[7]將情感詞匯作為詞級先驗,利用對積極詞匯和消極詞匯的注意機制來改進情感特征提??;Socher 等[8]在解析樹上應用遞歸自編碼器和遞歸神經(jīng)張量網(wǎng)絡;Tai 等[9]和Zhu 等[10]用樹形拓撲對基本長短期記憶網(wǎng)絡(long short-term memory,LSTM)進行了擴展。

      然而,越來越多的網(wǎng)絡網(wǎng)站允許用戶上傳視頻和圖片來表達自己,這使得只關注文本的方法是不夠的。因此,人們提出和進行了大量的研究工作來理解多模態(tài)數(shù)據(jù)中的情感。這些工作不僅為使用多模態(tài)數(shù)據(jù)可以獲得更好的性能提供了證據(jù),而且還探索了如何有效地利用多模態(tài)數(shù)據(jù),這仍然是多模態(tài)情感分析中需要解決的關鍵問題。

      如何有效地融合多模態(tài)特征以充分利用多模態(tài)數(shù)據(jù)是目前研究的熱點。Chen 等[11]提出了帶時間注意的門控多模態(tài)嵌入長短期記憶網(wǎng)絡(gated multimodal embedded long and short-term memory networks with temporal attention, GMELSTM(A)),解決了話語級特征的融合會使詞級特征中包含的大量局部信息丟失這個問題。GMELSTM(A)采用門機制對多模態(tài)特征進行細化,并在詞級上進行融合。Zadeh 等[12]設計了記憶融合網(wǎng)絡(memory fusion network, MFN),該網(wǎng)絡捕獲了跨越不同模式和時間的相互作用。范習健等[13]提出一種融合聽覺模態(tài)和視覺模態(tài)信息的兩模態(tài)情感識別方法。 Xu 等[14]提出了包含2 個交互記憶網(wǎng)絡的多交互記憶網(wǎng)絡(multi-interaction memory network containing 2 interaction memory networks, MIMN)來監(jiān)督給定目標的文本和視覺信息。這些工作都表明有效地融合圖像信息可以幫助模型獲得更好的性能。林子杰等[15]為了通過輔助任務學習更多情感傾向的視頻和語音表征,提高多模態(tài)融合的效果,提出了一種基于多任務學習的多模態(tài)情感識別方法。

      上述方法存在計算量較大、僅限于時序數(shù)據(jù)的問題以及沒有考慮使用更多的模態(tài)數(shù)據(jù),為了解決以上問題且同時利用文本、視頻、音頻3 種模態(tài)解決噪聲干擾,提升情感識別的精確度與魯棒性,本文提出一種基于模態(tài)融合的情感識別方法,融合文本、視頻、音頻3 種模態(tài)數(shù)據(jù)并挖掘其中的互補信息,然后利用雙向循環(huán)神經(jīng)網(wǎng)絡以及注意力機制捕捉融合特征的上下文信息得到豐富的新的特征表示,解決單模態(tài)情感識別信息不全面、容易受噪聲干擾等問題,從而提高情感識別的精確度。

      1 基于模態(tài)融合的情感識別網(wǎng)絡模型

      本文提出了基于模態(tài)融合的情感識別網(wǎng)絡,其網(wǎng)絡結(jié)構(gòu)分為特征提取模塊、特征融合模塊、特征增強模塊和下游任務模塊4 個部分。特征提取模塊用于提取模態(tài)特征;特征融合模塊可以得到多模態(tài)融合特征;隨后,搭建了特征增強模塊獲得信息更加豐富的新的特征表示;最后,搭建了下游任務模塊,接受新的特征表示并輸出情感分類結(jié)果。

      基于模態(tài)融合的情感識別網(wǎng)絡結(jié)構(gòu)如圖1所示。

      圖1 基于模態(tài)融合的情感識別網(wǎng)絡結(jié)構(gòu)

      1.1 特征提取模塊

      特征提取模塊分為3 個部分,分別是提取文本、視頻、音頻3 個不同模態(tài)的單模態(tài)特征。提取特征時,分別將單一模態(tài)數(shù)據(jù)輸入模型進行提取。因為文本、音頻與視頻均是連續(xù)不斷的序列模態(tài),所以本實驗中采取的是雙向門控網(wǎng)絡(bidirectional gated recurrent unit, BiGRU)來分別提取單模態(tài)特征。BiGRU 和LSTM 或雙向長短期記憶網(wǎng)絡(bi-directiona long short-term memory, BiLSTM)是常見的深度學習模型。BiGRU 和LSTM/BiLSTM在情感識別方面的共同之處是它們能夠處理序列數(shù)據(jù)并捕捉上下文信息。它們具備記憶能力,能夠在輸入序列中保留并利用先前的信息。LSTM 是一種經(jīng)典的循環(huán)神經(jīng)網(wǎng)絡,通過遺忘門、輸入門和輸出門的機制來控制信息的傳播和遺忘,從而更好地處理長期依賴關系。在情感識別任務中,LSTM 能夠捕捉文本中的上下文信息,有助于對情感進行分類。BiLSTM 是LSTM 的變種,它通過在模型中引入反向傳播來獲取更全面的上下文信息。BiLSTM 能夠同時利用過去和未來的信息,對文本語境進行更好的建模。BiGRU 是另一種循環(huán)神經(jīng)網(wǎng)絡結(jié)構(gòu),與BiLSTM類似,能夠在模型中同時利用過去和未來的信息。與LSTM/BiLSTM 相比,BiGRU 具有更簡化的門控機制,使其計算效率更高,BiGRU 通常能夠提供更全面的上下文信息,有助于提高情感識別的性能。

      由于文本、音頻與視頻均可看作是序列模態(tài),所以模型主體仍采用BiGRU 網(wǎng)絡。BiGRU 是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(recurrent neural network,RNN)。具體來說,BiGRU 解決了傳統(tǒng)RNN 的梯度消失問題,同時對遠程依賴關系進行建模。目前的研究表明,在分類過程中使用這種網(wǎng)絡來整合上下文信息是有好處的。BiGRU 的優(yōu)點在于其具有較強的建模能力,能夠捕捉到長距離依賴關系,同時也比傳統(tǒng)的RNN 模型有更快的訓練速度和更好的魯棒性。BiGRU 是由2 個方向不同的門控循環(huán)單元(gated recurrent unit, GRU)層組成的神經(jīng)網(wǎng)絡,其中一個從前向后讀取輸入序列,另一個從后向前讀取輸入序列。每個GRU 層包含了1 個重置門、1 個更新門和1 個隱藏狀態(tài)。重置門為網(wǎng)絡提供了從歷史信息中遺忘不重要信息的能力,而更新門則提供了從新信息中選擇需要保留的信息的能力。BiGRU 將正向和反向的輸出拼接在一起,形成最終的輸出向量表示,該表示捕獲了整個序列的上下文信息。BiGRU 中的每個時間步可以用如下公式計算:

      前向GRU 單元:

      后向GRU 單元計算公式與前向一致。

      式中: σ為sigmoid函數(shù),tanh為雙曲正切激活函數(shù), ⊙為對應位置相乘,xt為輸入序列的第t個時間步的向量表示,W和b為輸入的權(quán)重矩陣和偏置向量,U為隱藏狀態(tài)的權(quán)重矩陣。在BiGRU 中,前向和后向GRU 單元的參數(shù)是獨立的,所以它們各自擁有一組W、U和b。

      進行單模態(tài)特征提取時,首先分別將文本、音頻、視頻3 種單模態(tài)可訓練數(shù)據(jù)輸入BiGRU 網(wǎng)絡;然后將BiGRU 網(wǎng)絡最終輸出的向量表示經(jīng)過一個大小為100 的全連接層;之后經(jīng)過tanh激活層,再乘以一個掩碼矩陣;最后將所得結(jié)果以一定概率進行選擇性丟棄(dropout),得到的結(jié)果作為文本、音頻、視頻的單模態(tài)特征。

      經(jīng)過特征提取的3 種單模態(tài)特征的維度全部被調(diào)整一致。

      1.2 特征融合模塊

      特征融合模塊的作用是將特征提取模塊所提取的3 種單模態(tài)特征進行多模態(tài)融合操作,將3 種單一模態(tài)特征轉(zhuǎn)換為一種比任何單一模態(tài)具有更加豐富信息的多模態(tài)融合特征。文中為了體現(xiàn)注意力融合的效果,采取2 種融合方法,分別是直接拼接與基于注意力的多模態(tài)融合。

      對于輸入的3 種模態(tài)的特征數(shù)據(jù),若采用直接拼接的融合方式,則是直接將3 種模態(tài)特征數(shù)據(jù)按列拼接在一起;若采用基于注意力的多模態(tài)融合方式,則是利用注意力機制進行融合。首先將3 種模態(tài)按列拼接在一起,然后循環(huán)處理每一句話語的3 種模態(tài)特征(此時每句話語的3 種模態(tài)特征已被拼接在一起),將每句話語的拼接特征經(jīng)過一個大小為100 的全連接層,然后經(jīng)過一個tanh層激活,將激活值與一個服從標準差為0.01、正態(tài)分布的維度為(100,1)的矩陣進行矩陣相乘,將相乘結(jié)果經(jīng)過softmax層得到注意力權(quán)重向量,將注意力權(quán)重向量與拼接特征進行矩陣相乘得到的就是每句話語的多模態(tài)融合特征。

      注意權(quán)重向量 α和融合后的多模態(tài)特征向量F的計算方法如下:

      式中:B為3 種單模態(tài)特征按列拼接在一起得到的多模態(tài)特征,WF∈Rd×d為全連接層的權(quán)重矩陣,ωF∈Rd為服從正態(tài)分布的矩陣,α ∈R3,F(xiàn)∈Rd。

      1.3 特征增強模塊

      所有周圍的話語在目標話語的情感分類中并不是具有相同相關性的。為了放大上下文豐富話語的貢獻,本模塊使用了注意力機制與雙向循環(huán)神經(jīng)網(wǎng)絡BiGRU。

      本文將M個話語級特征序列(由上一模塊得到的融合特征F或單模態(tài)特征)輸入BiGRU。設x∈Rd×M輸入到BiGRU 網(wǎng)絡,其中M為視頻中的話語數(shù)。矩陣x可以表示為x=[x1,x2,···,xM],其中xt∈Rd,t∈[1,M],xt是每條話語的多模態(tài)融合特征。

      該BiGRU 網(wǎng)絡的輸出表示為H∈R2d×M,即根據(jù)多模態(tài)融合特征得到語境感知的話語表示特征H,其中H=[h1,h2,···,hM],ht∈R2d,ht是每條話語的融合特征經(jīng)過BiGRU 網(wǎng)絡得到的新的特征表示。

      圖2 中第2、5 行的圓圈表示經(jīng)由BiGRU 網(wǎng)絡得到的話語表示特征ht,第4 行的圓圈表示注意權(quán)重向量 αt,第3 行的圓圈表示加權(quán)隱藏表示rt。rt是由話語表示特征H與注意權(quán)重向量 αt進行對應位置相乘操作所得到的,其目的是將計算得到的注意力權(quán)重賦予話語表示ht,得到的rt是結(jié)合了經(jīng)過注意力機制放大后的上下文信息的表示特征,上下文的相關性在rt上得到充分體現(xiàn)。為了不損失原本話語表示特征ht中包含的話語特征信息,將ht與rt分別乘以權(quán)重矩陣后進行矩陣相加得到網(wǎng)絡最終的輸出h?t,h?t包含了原本話語的特征信息,同時又綜合了整個視頻中所有M條話語的上下文信息。具體網(wǎng)絡結(jié)構(gòu)如圖2 所示。

      圖2 基于注意力的雙向網(wǎng)絡結(jié)構(gòu)

      設At表示以ht表示的話語的注意力網(wǎng)絡。At的注意力機制產(chǎn)生一個注意權(quán)重向量 αt和一個加權(quán)隱藏表示rt,其表達式如下:

      式中:Pt∈R2d×M,αt∈RM,rt∈R2d。其中,Wh∈RM×2d×2d、ω ∈RM×2d是權(quán)重矩陣,Wh[t]和ω[t]被第t個注意力模型使用,t∈[1,M]。

      最后,將該話語的BiGRU 表示ht修改為

      式中:∈R2d和Wp,Wx∈RM×2d×2d為訓練時需要學習的權(quán)重矩陣;t∈[1,M]。

      1.4 下游任務模塊

      下游任務模塊接收特征增強模塊中的每個輸出,進行情感分類。分類網(wǎng)絡主體由3 個大小為200 的全連接層和1 個大小與數(shù)據(jù)集情感種類數(shù)相同的全連接層構(gòu)成,最后連接1 個Softmax層進行分類,輸出預測結(jié)果。

      1.5 損失函數(shù)

      本文損失函數(shù)設計分為2 步。Softmax Cross Entropy 是一種常用的損失函數(shù),用于多類別分類任務,Softmax Cross Entropy 損失函數(shù)適用于具有多個類別的分類問題。它通過將模型輸出的原始分數(shù)轉(zhuǎn)換為概率分布,并計算模型預測值與真實標簽之間的差異,從而對分類任務進行優(yōu)化和訓練。它對于模型參數(shù)的優(yōu)化提供了可導的梯度信息,這使得可以使用基于梯度的優(yōu)化算法(例如梯度下降)來迭代地調(diào)整參數(shù)值,逐漸減小損失函數(shù)的值,從而提高模型的性能。Softmax Cross Entropy 損失函數(shù)在優(yōu)化的過程中,通過最小化不同類別的預測概率與真實標簽之間的差異,鼓勵模型在概率輸出上更好地區(qū)分不同的類別。這幫助模型更好地學習到類別之間的邊界和特征差異,提高分類的準確度。此外,在計算損失時,Softmax Cross Entropy 損失函數(shù)自動考慮了多個類別之間的關系。通過Softmax 函數(shù)將原始分數(shù)轉(zhuǎn)換為概率分布,確保所有類別的概率之和為1。這有助于解決分類問題中的多義性和不確定性,使模型輸出更加合理和可解釋。因此本實驗采用Softmax Cross Entropy 方法為主體,計算損失。

      將網(wǎng)絡最后一個全連接層的softmax 操作單獨提取出來,可得到針對一個batch 的預測值 (而非預測概率值)的Softmax Loss 為

      式中 |C|為標簽數(shù)量。

      其次,利用L2范數(shù)計算每個可訓練參數(shù)的誤差,防止過擬合,計算公式如下:

      式中:t為張量,sum為求和函數(shù),Aoutput為結(jié)果。

      總的損失函數(shù)公式為

      式中: λ為超參數(shù),M為一個batch 內(nèi)的話語總數(shù),K為可訓練參數(shù)(張量)的總數(shù)。可以通過調(diào)整λ來防止過擬合。

      2 實驗結(jié)果分析

      2.1 情感識別實驗設置

      2.1.1 實驗數(shù)據(jù)集

      本文所用到的數(shù)據(jù)集是3 個多模態(tài)公開數(shù)據(jù)集,分別是CMU-MOSI、CMU-MOSEI、IEMOCAP。

      3 個數(shù)據(jù)集劃分如表1。

      表1 實驗數(shù)據(jù)集劃分

      2.1.2 實驗性能評價指標

      本文使用了3 個評估指標,分別是分類精確度(accuracy)、F1 得分和損失收斂速度,從這3 個方面衡量實驗效果的指標。由于精確度僅取決于分類結(jié)果是否與標簽一致,因此如果樣本分布不均衡,正確率不能很好地反映分類效果以及網(wǎng)絡的性能。

      在樣本不均衡的情形下,精確度過高的意義是不大的,因此精確度指標的參考意義可能會下降,因此,本文采用平均類型為macro 的F1 分數(shù),這是一種用于多分類問題的性能評價指標,它綜合了對每個類別的預測準確率和召回率,計算出一個在各個類別上的平均得分且更注重各個類別之間的平衡性。

      2.2 情感識別實驗結(jié)果與分析

      2.2.1 消融實驗

      本文對文本、音頻、視頻3 個不同的單模態(tài)以及不同的多個模態(tài)組合在3 個數(shù)據(jù)集上進行實驗。首先分別在3 個數(shù)據(jù)集的測試集上對3 個不同單模態(tài)和多模態(tài)組合進行實驗并記錄50 輪次的精確度,本文繪制了3 個單模態(tài)和多模態(tài)組合的每次實驗的精確度曲線圖,如圖3 所示。

      圖3 CMU-MOSI 數(shù)據(jù)集上精確度曲線

      圖3 中,文本模態(tài)特征的精確度最終收斂約為75%,在各種模態(tài)之間,文本模態(tài)的表現(xiàn)優(yōu)于其他2 種模態(tài),文本加其他模態(tài)的表現(xiàn)也較為突出,因此可以認為文本模態(tài)為主要模態(tài),同時視頻加音頻模態(tài)的表現(xiàn)不如文本模態(tài),可能是特征提取的方式出現(xiàn)問題,需要改進音頻和視頻模態(tài)的特征提取方法。多模態(tài)組合的精確度均優(yōu)于3 個單一模態(tài)的精確度。其中3 種模態(tài)的組合精確度最高,精確度最終收斂約為80%。

      圖4 為IEMOCAP 數(shù)據(jù)集上精確度曲線圖,多模態(tài)組合的精確度均優(yōu)于3 個單一模態(tài)的精確度。文本模態(tài)特征的精確度約62.8%,音頻模態(tài)的精確度約55%,視頻模態(tài)的精確度約36.0%,而2 種多模態(tài)組合均可達到約63%的精確度,其中3 種模態(tài)的組合精確度最終收斂約為65%。

      圖4 IEMOCAP 數(shù)據(jù)集上精確度曲線

      圖5 中,多模態(tài)組合的精確度均優(yōu)于3 個單一模態(tài)的精確度。文本模態(tài)特征的精確度約69.0%,音頻模態(tài)的精確度約66.9%,視頻模態(tài)的精確度約65.3%,而多模態(tài)組合平均可達到約70%的精確度,其中3 種模態(tài)的組合精確度最終收斂約為76%。

      圖5 CMU-MOSEI 數(shù)據(jù)集上精確度曲線

      本文還以F1 得分為判斷標準,對比每組實驗結(jié)果,來證明在本文的情感分析任務中使用多模態(tài)的效果優(yōu)于單模態(tài)(T 為文本、A 為音頻、V 為視頻)。表2~4 為3 個數(shù)據(jù)集上的F1 得分。

      表2 CMU-MOSI 上拼接融合的F1 得分 %

      表3 IEMOCAP 上拼接融合的F1 得分 %

      由表2~4 可知,多個模態(tài)組合的F1 得分均優(yōu)于單一模態(tài),其中3 種模態(tài)組合的得分最高。

      綜上,結(jié)合精確度與F1 得分,本文利用實驗證明了多個模態(tài)的表現(xiàn)比單一模態(tài)表現(xiàn)更好,識別的效果更高。同時也注意到采用了3 種模態(tài)融合方法后比采用單一文本模態(tài)識別的F1 得分高了約2 個百分點,在此給出分析。首先,模型的訓練數(shù)據(jù)量和質(zhì)量對于融合模態(tài)的效果影響很大。如果融合模態(tài)的數(shù)據(jù)集規(guī)模較小,或者其中某些模態(tài)的數(shù)據(jù)質(zhì)量不高,可能限制了整體的效能提升。其次,3 種模態(tài)的信息是否互補也是影響融合效果的關鍵因素。如果音頻、視頻和文本中的信息存在大量冗余或相似性較高,那么融合的效果可能會受到限制。此外,文本模態(tài)更易于處理和分析、更具有可解釋性、更易于獲取和標注,可能導致文本模態(tài)表現(xiàn)較好,成為主導模態(tài)。最后,融合多種模態(tài)的模型相對于單一文本模式的模型更為復雜。對于這個任務,參數(shù)配置對于效果提升較為重要,后續(xù)繼續(xù)調(diào)整參數(shù)可能對性能有一定提升。

      2.2.2 融合方法對比實驗

      由于在上面的實驗中的多個模態(tài)的融合方式都是直接拼接,因此本文將注意力機制加入模態(tài)融合,利用注意力機制的優(yōu)勢放大3 個模態(tài)中重要的信息,獲取具有更加豐富信息的融合特征,提升識別效果。

      首先分別在3 個數(shù)據(jù)集的測試集上對3 個模態(tài)的不同融合方式進行實驗并記錄50 輪次的精確度,本文繪制了3 個模態(tài)2 種融合方式的每次實驗的精確度曲線圖,如圖6~8 所示。

      圖6 CMU-MOSI 數(shù)據(jù)集上拼接與注意力融合精確度曲線

      圖7 IEMOCAP 數(shù)據(jù)集上拼接與注意力融合精確度曲線

      圖8 CMU-MOSEI 數(shù)據(jù)集上拼接與注意力融合精確度曲線

      由圖6~8 可以看出,將注意力機制應用于融合,在一定程度上可以提高識別精確度,并且能夠縮短收斂時間。計算二者的F1 得分指標,比較識別性能。表5~7 為模型在3 個數(shù)據(jù)集上的F1 得分。

      表5 CMU-MOSI 上的F1 得分%

      表6 IEMOCAP 上的F1 得分%

      表7 CMU-MOSEI 上的F1 得分%

      如表5~7 所示,通過計算得到的F1 得分也可以看出基于注意力融合相較拼接融合而言F1 得分指標在3 個數(shù)據(jù)集上分別提升了0.9%、0.4%和0.8%,即情感識別效果優(yōu)于拼接融合特征。

      本文繼續(xù)對2 種融合方式進行實驗,以loss 收斂速度作為評價指標。當訓練模型的損失曲線收斂的越快,代表模型學習到了數(shù)據(jù)中更多的信息,從而在相同數(shù)量的迭代次數(shù)下,使模型的訓練誤差更小。這也意味著模型可以更好地泛化到未見過的數(shù)據(jù)上,因為模型已經(jīng)學會了數(shù)據(jù)中的共性特征,而不是只學習了數(shù)據(jù)集本身的特定屬性。實驗繪制了在拼接融合和基于注意力融合在訓練學習時的loss 損失函數(shù)的前50 輪的損失函數(shù)曲線。圖9~11 為訓練損失曲線。

      圖9 CMU-MOSI 數(shù)據(jù)集上訓練損失曲線

      圖10 IEMOCAP 數(shù)據(jù)集上訓練損失曲線

      圖11 CMU-MOSEI 數(shù)據(jù)集上訓練損失曲線

      由圖9~11 可見,訓練學習時本文所使用的方法都可以使模型收斂,然而,基于注意力融合的特征進行訓練的損失更小,且其收斂點出現(xiàn)的更早,說明對于同一個模型而言,基于注意力融合特征比直接拼接的特征有著更快的收斂速度,效果更好。

      2.2.3 模型對比實驗

      本文還在CMU-MOSI 數(shù)據(jù)集上與支持向量機(support vector machines, SVM)、LSTM 進行了對比實驗。F1 得分結(jié)果如表8 所示。

      LSTM 在對比實驗中的表現(xiàn)均優(yōu)于SVM 的表現(xiàn),這是因為SVM 在對話語進行分類時無法掌握話語的上下文信息,無法感知話語存在的語境信息。從表8 可以看出,基于注意力的BiGRU 在單模態(tài)與拼接模態(tài)的實驗中總體優(yōu)于LSTM。這再次證實,盡管2 個網(wǎng)絡都可以訪問上下文信息,但基于注意力的BiGRU 較LSTM 能力更強,能夠捕獲上下文中的關鍵信息。表8 中還證明了不同融合方式對結(jié)果也存在影響,在同一模型下,基于注意力融合的表現(xiàn)強于拼接融合,可以得到更有效的融合特征。

      表8 的數(shù)據(jù)還體現(xiàn)了多模態(tài)的表現(xiàn)是優(yōu)于單一模態(tài)的,不同模態(tài)通過互補信息,能夠得到效果更好的融合特征。

      3 結(jié)論

      本文對多模態(tài)在情感識別中的應用進行了研究,提出了一個基于模態(tài)融合的情感識別網(wǎng)絡模型,通過多模態(tài)融合構(gòu)建融合特征,從而獲得更好的分類效果。對模型進行實驗并得出結(jié)論如下:

      1)將多模態(tài)學習應用在情感識別鄰域,多模態(tài)效果均好于單一模態(tài),其中同時利用3 個模態(tài)的效果最優(yōu)。

      2)本文提出了一種基于模態(tài)融合的情感識別網(wǎng)絡框架。特征融合模塊中基于注意力融合能夠得到表現(xiàn)良好的多模態(tài)融合特征。在特征增強模塊中,將注意力機制與雙向循環(huán)網(wǎng)絡BiGRU 結(jié)合,充分地捕捉多模態(tài)融合特征的上下文信息,得到信息更加豐富且全面的新表示。

      3)本文提出的網(wǎng)絡模型的F1 得分均高于SVM 和LSTM,達到了81.0%。

      本文提出的基于模態(tài)融合的情感識別網(wǎng)絡在識別性能上有較好的表現(xiàn),有一定的應用價值。

      猜你喜歡
      精確度注意力模態(tài)
      讓注意力“飛”回來
      研究核心素養(yǎng)呈現(xiàn)特征提高復習教學精確度
      “硬核”定位系統(tǒng)入駐兗礦集團,精確度以厘米計算
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      國內(nèi)多模態(tài)教學研究回顧與展望
      基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識別
      由單個模態(tài)構(gòu)造對稱簡支梁的抗彎剛度
      計算物理(2014年2期)2014-03-11 17:01:39
      多模態(tài)話語模態(tài)的協(xié)同及在外語教學中的體現(xiàn)
      外語學刊(2010年2期)2010-01-22 03:31:03
      近似數(shù)1.8和1.80相同嗎
      嘉荫县| 泰和县| 武义县| 大邑县| 佛山市| 旅游| 修文县| 江达县| 司法| 龙江县| 万安县| 吕梁市| 寿阳县| 长垣县| 武山县| 长寿区| 陕西省| 榕江县| 宣汉县| 苍溪县| 乐业县| 威信县| 南郑县| 嘉黎县| 台江县| 湖北省| 九龙县| 广昌县| 察雅县| 哈尔滨市| 农安县| 波密县| 隆回县| 青阳县| 星座| 日照市| 泽州县| 原阳县| 黄冈市| 五常市| 石门县|