基于音視頻特征融合的情感識別方法研究

2022-02-18 08:30:00程慧杰李小兵

重慶理工大學學報(自然科學) 2022年1期

帖云，程慧杰，靳聰，李小兵，齊林

(1.鄭州大學信息工程學院, 鄭州 450001；2.中國傳媒大學信息與通信工程學院, 北京 100024；3.中央音樂學院, 北京 100031)

情感計算的概念最早由Picard教授在《情感計算》[1]一書中提出，其被定義為一切和情感有關的計算。視頻情感識別作為情感計算的一個重要分支，吸引了越來越多研究者的關注。目前，大多數視頻情感識別研究主要集中于分析視頻中人臉的面部表情所表達的情感[2-3]，而不以人為中心的視頻情感計算的研究[4-7]的共同點是直接處理整幅視頻幀，忽略了視頻中復雜的視覺關系，這就會造成缺乏足夠的視覺特征表示，也會導致信息冗余。另外，現有的多模態(tài)情感分析中的融合方法多采用簡單神經網絡[8]和拼接[4]，這容易造成模態(tài)間的隱藏信息丟失，從而導致較差的模型性能。

因此，本文提出了一種基于對象交互和跨模態(tài)交互融合的多模態(tài)情感識別方法，僅考慮包含對象的視頻幀區(qū)域之間的情感關聯，利用跨模態(tài)交互模塊學習模態(tài)間的隱藏信息，實現情感預測的任務。具體地，對于視覺信息流，首先采用Mask R-CNN提取出視頻幀中包含對象的區(qū)域及對應的特征序列；然后通過在特征空間衡量節(jié)點特征的相似性構造情感關系圖，去探索視頻幀中不同對象之間的情感關聯；最后采用圖注意力網絡對視頻幀中復雜的視覺關系進行推理，與傳統的圖卷積神經網絡不同，引入注意力機制為不同的節(jié)點特征分配不同的權重系數，找到對視頻情感貢獻較大的區(qū)域。對于音頻流，先利用多頭自注意力機制學習不同頻譜特征空間的聲學信息，然后利用雙向長短時記憶網絡(Bi-LSTM)提取對數梅爾頻譜片段的上下文信息，提取的聲學特征用于跨模態(tài)信息學習，對視覺信息進行補充；對于音視頻特征融合，利用跨模態(tài)注意力機制學習模態(tài)之間的關聯，該模塊將標準的Transformer層與跨模態(tài)注意力機制結合起來，通過學習音頻/視頻信息得到最終的視覺/聲學特征表示。

本文的貢獻主要包括3個方面：

1) 對象間的情感關系推理：通過在特征空間衡量節(jié)點特征的相似性，構建由對象和視覺關系組成的場景圖，利用圖注意力網絡對包含對象的不同區(qū)域之間的情感關系進行推理，找到視頻的關鍵區(qū)域;

2) 聲學特征提?。豪枚囝^自注意力機制和雙向長短時記憶網絡捕獲序列中的長期依賴關系，利用幀級上下文信息對視覺信息進行補充;

3) 模態(tài)融合：跨模態(tài)注意力機制被應用到特征融合網絡中來學習音視頻之間的隱藏信息，并得到具有音/視頻感知的視/音頻特征表示，然后利用自適應門控融合將更新后的音視頻特征進行融合。

1 相關工作

傳統的情感識別主要集中在語音[9]、文本[10]等單一模態(tài)，雖然這些研究在各自領域已經取得了很大的進展，但是由于人腦接收信息的多樣性使得單模態(tài)情感識別的準確率得不到保證，而多模態(tài)情感識別是通過學習不同模態(tài)數據之間的關聯，捕獲數據之間的互補信息[4,7]，而提高情感識別的精確率，多模態(tài)情感計算逐漸成為研究趨勢。

隨著深度學習的快速發(fā)展，長短時記憶網絡[5]、卷積神經網絡[11]等深度學習模型逐漸應用到視頻情感識別研究當中。Poria等[5]提出了一個基于雙向長短時記憶網絡(Bi-LSTM)的模型，捕獲視頻中的上下文信息，從而幫助分類過程。Gao等[11]提出了一個FT-EC-net網絡用于緩解視頻情感表達的稀疏性。但是情感通常由特定場景下多個對象執(zhí)行特定事件而觸發(fā)，這就需要對對象間的關系進行推理，而這些方法通常直接處理整幅視頻幀而忽略了對象間的情感關聯，導致模型性能沒有顯著提升。近年來，圖推理已成功應用于計算機視覺領域[12-14]，其核心思想是使視頻幀的不同區(qū)域之間能夠交互，生成這些區(qū)域的上下文表示。在本文中，我們將圖推理擴展到視頻情感識別領域，利用GCN網絡對視覺場景圖進行推理。

在多模態(tài)情感計算中，如何將多模態(tài)信息進行有效融合是提升多模態(tài)情感識別精度的關鍵。傳統的多模態(tài)融合主要分為數據層融合、特征層融合和決策層融合。就具體方法而言，主要分為基于簡單操作[4]、基于普通神經網絡[8]和基于注意力機制[6-7,15]的模態(tài)融合策略。Zhao等[4]提出了一個基于音視頻特征融合的端到端的視頻情感識別網絡，提升了情感識別的精度，但是他們在特征融合階段將音視頻特征進行簡單地concatenate，這會導致模態(tài)間的信息不能充分利用；Lian等[7]提出了基于注意力機制的多模態(tài)情感識別模型，為不同模態(tài)的信息分配不同的權重，雖然基于注意力機制的融合相比concatenate而言，模型性能有所提升，但是這種方法忽略了模態(tài)間信息的學習。因此，提出采用跨模態(tài)注意力機制進行跨模態(tài)隱藏信息的學習，更好地將音視頻特征進行融合。其中，Yu等[15]提出的模型與本文方法相關，他們提出了一個跨模態(tài)交互模塊用于為每個詞生成圖像感知的詞表示和文字感知的視覺表示，與其不同的是本文將跨模態(tài)交互模塊用于音視頻之間的跨模態(tài)信息學習。

2 方法模型

提出一個基于音頻和視頻2種模態(tài)數據進行跨模態(tài)信息學習的情感識別模型，該模型通過視覺關系推理的方式探索視頻場景和對象中包含的情感線索，找到視頻的關鍵幀；同時提取梅爾頻譜片段的上下文信息作為聲學特征對視覺信息進行補充，然后利用跨模態(tài)交互模塊學習不同模態(tài)數據間的隱藏信息，從而實現對用戶生成視頻的情感預測任務，模型框架如圖1所示。

圖1 模型的總體框架

2.1 視覺關系推理

視頻中的場景和對象包含大量的情感線索，比如畫面的鮮血通常代表恐懼，而鮮花和陽光通常傳遞著開心，因此我們提出了一個基于對象交互的視覺關系編碼網絡對視覺信息進行編碼，找到對視頻情感貢獻較多的區(qū)域即視頻關鍵幀。直接將視頻幀表示成場景圖會導致圖推理過程復雜，因此應用Mask R-CNN[16]網絡提取出視頻幀中包含物體的區(qū)域以及對應的特征序列。為了更好地對時空特征進行建模，通過在特征空間衡量不同區(qū)域特征之間的相似性構造了一個similarity graph，該similarity graph不僅可以學習同一幀中不同區(qū)域之間的情感關聯，還可以捕獲同一區(qū)域在不同幀中的情感關聯。

具體地，把包含物體的特征序列看作情感關系圖中的節(jié)點，鄰接矩陣A的非零元素表示節(jié)點i(i∈[1,N])的所有相鄰節(jié)點，它用來衡量2個節(jié)點表達相同情感的概率。但是并非所有的節(jié)點對情感分析的貢獻都是相同的，因此引入注意力機制為連接到節(jié)點i每條邊分配一個權重系數，權重系數是利用單層的前饋神經網絡(FNN)得到。2個節(jié)點的特征相似性可以表示為：

Sij=φ(vi)Tφ′(vj)

(1)

式中：φ(v)=W1v和φ′(v)=W2v表示節(jié)點特征的變換；W1和W2是通過反向傳播學習得到的權重系數。

利用Softmax函數對矩陣的每一行進行歸一化，使連接到同一個節(jié)點的所有邊的權重系數和為1：

(2)

G=A⊙Gij

(3)

式中：⊙表示Hadamard product矩陣上相應位置元素相乘；G表示加權后的鄰接矩陣。

為了對視覺場景圖進行推理，引入GCN網絡[7]，圖卷積層可以定義為：

V=GvW

(4)

式中：v為節(jié)點特征；W為權重系數。

如圖2所示，圖卷積神經網絡由多層圖卷積層堆疊而成。

圖2 圖注意力網絡框架

2.2 聲學特征提取

為使一維的語音信號能夠像圖像一樣方便地被卷積神經網絡處理，使用64個Mel濾波器提取語音信號的靜態(tài)頻譜片段特征及它的第一次求導系數和第二次求導系數，將它們進行拼接之后就可得到類似于RGB圖像的梅爾頻譜片段。然后利用ResNet-18網絡作為特征提取器提取頻譜的特征a=(a1,a2,…,an)。為了捕獲語音信號長期的語義相關性，采用多頭自注意力機制[17]聚集來自不同子空間的信息。多頭注意力由H層平行的縮放點積注意力層堆疊而成，其可通過下式計算得到：

(5)

式中：Q、K、V是計算多頭注意力機制的查詢、鍵、值矩陣。

為計算多頭注意力機制，需要先把Q、K、V映射到不同的子空間中：

(6)

多頭注意力計算公式如下：

MultiHead(Q,K,V)=WConcat(head1,…,headH)

(7)

(8)

式中的Q、K、V被設置成相同的聲學特征矩陣a=(a1,a2,…,an)，此時多頭注意力機制就變成了自注意機制?；诖?，得到基于自注意力機制的聲學特征表示A=[A1,A2,…,An]。

但是時間建模對于音頻信號語義理解至關重要，不能只依賴于自注意力機制去學習不同子空間的信息而忽略了上下文學習，因此采用雙向長短時記憶網絡整合聲學特征的上下文信息。然后將得到的聲學特征序列輸入到Bi-LSTM網絡中，得到聲學特征的上下文表示h=[h1,h2,…,hn]。

3 跨模態(tài)交互融合

將不同模態(tài)特征進行concatenate會導致模態(tài)間信息丟失，為了更好地將音視頻特征進行融合，引入跨模態(tài)交互融合模塊[14]學習模態(tài)之間的隱藏關聯，該模塊分為兩部分：跨模態(tài)交互模塊和自適應門控融合模塊。

跨模態(tài)交互模塊如圖3所示，以生成具有音頻感知的視覺特征表示為例，首先采用了一個p頭的跨模態(tài)注意力機制，使視覺模態(tài)可以接收音頻信息，其計算過程如下：

(9)

MH-CMA(V,h)=W′[CMA1(V,h),…,CMAp(V,h)]T

(10)

式中：Wqi、Wki、Wvi、W′分別表示Q、K、V和多頭注意力機制的權重矩陣。

圖3 跨模態(tài)交互模塊

跨模態(tài)交互模塊的最終輸出計算如下：

O=LayerNorm(V+MH-CMA(V,h))

(11)

S=LayerNorm(O+FNN(O))

(12)

式中：LayerNorm是指Layer Normalization層，FNN是前饋神經網絡。

所以最終的具有音頻信息感知的視覺特征表示為S=[S1,S2,…,Sm],同理可得，具有視覺感知的聲學特征表示為Z=[Z1,Z2,…,Zn]。

為更好地融合音視頻特征，采用基于門控神經網絡的融合模型[18]用于特征融合，該模型可以很容易地與其他神經網絡體系結構結合，其目標是為不同模態(tài)的數據找到中間表示。

使用以下公式來計算音視頻特征的中間表示，即用于情感預測的最終表示：

tS=tanh(WS·S+bS)

(13)

tZ=tanh(WZ·Z+bZ)

(14)

G=σ(W3[S,Z]+b)

(15)

x=G*tS+(1-G)*tZ

(16)

式中：WS、WZ、W3是可學習的參數；bS、bZ、b為偏置向量。

4 實驗結果

4.1 數據集

Video Emotion-8[19]：該數據庫共包括1 101個視頻片段，這些視頻是從Youtube和 Flickr網站下載得到，所有視頻的平均持續(xù)時間為107 s。根據 Plutchik的情感劃分標準，將視頻類型人工標注為8種基本情感類型：生氣、期待、厭惡、恐懼、悲傷、高興、吃驚、信任。表1 顯示了每個情感標簽中的視頻數量。

Ekman-6 Dataset：該數據集也是從Youtube和Flickr網站收集的，總的視頻數量是1 637，每個視頻的持續(xù)時間約為112 s，這些情感被分為6類：生氣、厭惡、恐懼、悲傷、高興、吃驚。

4.2 相關參數及設置

實驗平臺：在Amax服務器上進行消融研究和對比實驗，顯卡是8塊Titan V顯卡，每塊顯存為12 GB；CPU型號是40核的Intel(R) Xeon(R) CPU E5-2640 v4，主頻為2.40 GHz；開發(fā)環(huán)境為Python 3.6。

參數設置：為評估所提出的模型，在數據集Video Emotion-8和Ekman-6數據集上進行訓練和測試。對于Video Emotion-8數據集，任意選擇2/3的數據進行訓練，其余的視頻用于測試。而對于Ekman-6數據集，選擇819個視頻作為訓練集，選擇818個視頻作為測試集。每一模塊的超參數設置如下：

1) 對于視頻流中包含物體區(qū)域的選取：發(fā)現在每幀中選取10個proposals足夠用于情感識別任務；

2) 在利用圖卷積神經網絡進行推理時，將GCN的層數設置為3，卷積運算的參數用標準差為0.01的高斯分布初始化；

3) 實驗結果表明：當LSTM隱藏層維度為200～300時，模型表現良好，因此本文將隱藏層的維度被設置為256；

4) 跨模態(tài)注意頭的數量m=12。最后，訓練采用Adam優(yōu)化算法自動調整學習率，初始的學習率為0.000 1，訓練最大迭代次數為200次。

4.3 消融研究

為了探究不同模態(tài)的信息對模型結果的影響，在基準數據集Video Emotion-8和Ekman-6上進行了消融研究，實驗結果如表1-3所示，其中CMI是跨模態(tài)交互模塊(cross modal interaction module)的縮寫。

表1 Video Emotion-8數據集中每個情感類別的數量

表2 所提模型在Video Emotion-8數據集上的實驗結果

表3 所提模型在Ekman-6數據集上的實驗結果

由表2和表3可知：

1)當單獨使用音頻或者視頻模態(tài)的特征進行視頻情感預測時，提取的局部對象特征在本文模型上的性能表現較好，這是因為提出的視覺關系推理網絡考慮了不同對象之間的交互，提取到豐富的視覺特征；

2)雖然單一模態(tài)的分類精度不高，但是當加入跨模態(tài)注意力機制學習不同模態(tài)間的信息后，模型性能有較為明顯地提升，這是因為模態(tài)間的信息是互補的，基于幀級上下文的聲學特征對視覺信息進行了很好地補充；

3)不論是利用單一模態(tài)進行情感分析還是融合多種模態(tài)對視頻情感進行預測，模型在數據集Ekman-6上的分類精度普遍高于數據集Video Emotion-8，因為Video Emotion-8的另外2種情感Anticipation和Trust較難判別。

4.4 對比實驗

所提出的模型與以下基準模型進行了對比實驗：

1) SentiBank:Borth等[20]構建了一個大型的視覺情感本體,該本體由1 200個概念和成為SentiBank的相關分類器組成；

2) E-MDBM[8]：以DBM為基礎提出了一個多模態(tài)輸入空間的聯合密度模型；

3) Image Transfer Encoding(ITE)[21]:提出借用以情感為中心的字典和輔助圖像對視頻進行編碼；

4) Context Fusion Network(CFN)：利用預先訓練好的CNNs模型檢測視頻中的事件、場景和對象，并利用CFN網絡將提取到的深層語義特征融合到一起。

為了評估所提模型，在數據集Video Emotion-8和Ekman-6上比較了本文模型與基線模型的性能。實驗結果如表4和表5所示，發(fā)現所有的方法都考慮了視覺特征，這是合理且可行的，因為結構化的視頻對象中包含著豐富的情感線索。而以前的方法大多直接提取整幅視頻幀的特征，忽略了對象之間的情感關聯。與SentiBank和E-MDBM相比，本文所提模型的分類準確率分別提高了17.6%和12.7%，這是因為SentiBank和E-MDBM方法直接處理整幅視頻幀的特征，忽略了對象之間的交互。另外，雖然ITE模型分類精度有所提升，但是這種方法需要額外的輔助數據訓練分類器，導致了模型的復雜度增加。這里CFN利用簡單的神經網絡去檢測視頻中的場景、事件所包含的情感線索，但是它并未挖掘場景和對象中的深層語義信息。與之相比，本文的模型采用了圖注意力網絡對視覺關系進行推理，分類精確度提升了2.5%。圖4展示了本文模型的一些分類結果。

表4 不同模型在數據集Video Emotion-8上的實驗結果

表5 不同模型在數據集Ekman-6上的實驗結果

圖4 視頻情感預測的定性結果

5 結論

提出了一種有效的基于音視頻特征融合的情感識別框架，實現了對視頻情感進行預測的任務。與現有方法不同，通過對視頻幀的不同區(qū)域之間的視覺關系進行推理找到視頻幀中對情感貢獻比較大的區(qū)域，在推理過程中不僅可以捕獲不同視頻幀之間的聯系，而且可以學習同一幀中不同區(qū)域之間的情感關系。另外，使用跨模態(tài)交互模塊學習音視頻模態(tài)之間的聯合嵌入空間，將音視頻特征進行有效融合。實驗結果表明：本文模型具有較高的精度。