朱應(yīng)俊 周文君 朱 川 馬建敏
(復(fù)旦大學(xué)航空航天系 上海 200433)
語聲情感識別(Speech emotion recognition,SER)已在娛樂產(chǎn)品的情感交互、遠程教育的情感反饋、智能座艙的情緒監(jiān)測中得到廣泛應(yīng)用。在應(yīng)用中,通過建立語聲信號的聲學(xué)特征與情感的映射關(guān)系,對語聲的情感進行分類?;趩我惶卣鞯腟ER 模型因受到特征信息量不足的制約而影響識別準(zhǔn)確率。隨著對語聲情感特征研究的逐步深入,通過對多種語聲特征進行融合以消除特征中的冗余信息并提升識別準(zhǔn)確率的方法受到越來越多的關(guān)注,已形成了特征級、中間層級、決策級等融合方式。
對語聲情感特征進行特征級的融合可以在增加信息量并提高識別準(zhǔn)確率的同時有效減小特征維度。Liu等[1]使用基于相關(guān)性分析和Fisher 準(zhǔn)則的特征選擇方法,去除來自同一聲源且具有較高相關(guān)性的冗余特征。Cao等[2]也提出了基于Spearman 相關(guān)性分析和隨機森林特征選擇的方法提取相關(guān)性最弱的特征以進行融合?;诰W(wǎng)絡(luò)中間層進行的融合則利用神經(jīng)網(wǎng)絡(luò)將原始特征轉(zhuǎn)化為高維特征表達,以獲取不同模態(tài)數(shù)據(jù)在高維空間的融合表示。Cao等[3]在話語級別的情感識別中使用門控記憶單元(Gated memory unit,GMU)來獲取語聲信號的靜態(tài)與動態(tài)特征融合后的情感中間表示。Zhang等[4]提出了基于塊的時間池化策略用于融合多個預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)模型學(xué)習(xí)到的片段級情感特征,得到固定長度的話語級情感特征。語聲特征的融合還可基于多個模型在其輸出階段進行決策級融合以集成其情感分類結(jié)果[5]。Noh等[6]使用基于驗證準(zhǔn)確度的指數(shù)加權(quán)平均法則組成了分級投票決策器對多個CNN 模型的決策結(jié)果進行融合。Yao等[7]使用基于置信度的決策級融合整合了在多任務(wù)學(xué)習(xí)中獲得的循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent neural network,RNN)、CNN 和深度神經(jīng)網(wǎng)絡(luò)(Deep neural network,DNN)。
注意力機制可用于自動計算輸入數(shù)據(jù)對輸出數(shù)據(jù)的貢獻大小,近年來也在語聲識別相關(guān)領(lǐng)域得到了較多運用。Bahdanau等[8]將注意力機制應(yīng)用于RNN 和n-gram 語言模型,建立了端到端的序列模型。Mirsamadi等[9]將基于局部注意力機制的加權(quán)時間池化策略用于RNN 模型,以學(xué)習(xí)與情感相關(guān)的短時幀級特征。Kwon[10]使用特殊的擴張CNN 從輸入的過渡語聲情感特征中提取空間信息并生成空間注意力圖以對特征進行加權(quán)。
在已有對語聲特征融合及注意力機制在SER任務(wù)中應(yīng)用研究的基礎(chǔ)上,通過對語聲信號進行預(yù)加重和分幀加窗等處理,得到基于譜特征和時序特征的前端網(wǎng)絡(luò),利用壓縮-激勵(Squeeze-andexcitation,SE)通道注意力機制對前端網(wǎng)絡(luò)中間層進行融合,有效利用不同前端網(wǎng)絡(luò)在SER 任務(wù)中的優(yōu)勢提高情感識別準(zhǔn)確率。通過在漢語情感數(shù)據(jù)集中的對比實驗,對前端網(wǎng)絡(luò)選擇的合理性和SE 通道注意力機制用于對前端網(wǎng)絡(luò)中間層進行融合的有效性進行驗證。
本文判斷語聲信號情感類別的SER 模型如圖1所示,該模型由3個模塊組成:前端網(wǎng)絡(luò)模塊、注意力機制融合模塊和后端網(wǎng)絡(luò)分類模塊。前端網(wǎng)絡(luò)模塊對輸入的語聲信號進行預(yù)加重和分幀加窗等處理后,提取梅爾倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCC)和逆梅爾倒譜系數(shù)(Inverted MFCC,IMFCC)作為譜特征,把譜特征輸入到二維卷積神經(jīng)網(wǎng)絡(luò)(Two dimensional CNN,2D-CNN)得到MFCC 2D-CNN 和IMFCC 2D-CNN;提取散射卷積網(wǎng)絡(luò)系數(shù)(Scattering convolution network coefficients,SCNC)作為時序特征,把時序特征輸入到長短期記憶網(wǎng)絡(luò)(Long-short term memory,LSTM)中得到SCNC LSTM。注意力機制融合模塊引入SE 通道注意力機制,將MFCC 2D-CNN、IMFCC 2D-CNN 和SCNC LSTM 前端網(wǎng)絡(luò)中提取的中間層進行加權(quán)融合得到融合深度特征(Fusion deep feature,FDF)。后端分類模塊基于DNN構(gòu)建分類器,依據(jù)輸入的FDF映射輸出情感分類結(jié)果。
圖1 SER 模型結(jié)構(gòu)Fig.1 Structure of SER model
MFCC 和IMFCC譜特征中不同頻譜區(qū)間的頻譜能量分布體現(xiàn)著不同情感狀態(tài)下的聲道形狀和發(fā)聲狀態(tài)[11],其中計算MFCC 特征時使用的Mel三角濾波器模擬了人耳聽覺的非線性機制,更加關(guān)注于語聲信號的低頻部分而對中高頻的變化不夠敏感[12];IMFCC特征則通過IMel 濾波器在高頻區(qū)域分布更加密集來獲取更多高頻信息[13]。Hz 頻率與Mel 頻率及IMel 頻率之間的定量關(guān)系可分別表示為[14]
其中,f表示Hz 頻率,fMel和fIMel分別為Mel 頻率及IMel頻率。
將語聲信號的功率譜通過Mel 及IMel 三角濾波器,并將對數(shù)能量帶入離散余弦變換(Discrete cosine transform,DCT)以消除相關(guān)性,可計算得到語聲信號的MFCC 系數(shù)及IMFCC 系數(shù)。還引入其一階二階差分項作為動態(tài)特征以體現(xiàn)語聲情感的時域連續(xù)性[15]。特征差分項dt的實現(xiàn)如下:
其中,ct表示MFCC或IMFCC倒譜系數(shù),st表示一階導(dǎo)數(shù)的時間差。將一階差分結(jié)果重復(fù)帶入即可得到二階差分,最終可計算得到帶有差分項的MFCC及IMFCC特征。
為了利用CNN 在提取特征矩陣的局部空間相關(guān)性信息方面的優(yōu)勢[16],本文搭建了改進Alexnet的2D-CNN,網(wǎng)絡(luò)結(jié)構(gòu)簡圖如圖2 所示,網(wǎng)絡(luò)卷積部分的結(jié)構(gòu)參數(shù)如表1 所示。卷積層使用了ReLU 激活函數(shù),并進行了L2 正則化,正則化參數(shù)為0.02。在完成卷積運算后,使用扁平化層(Flatten)對卷積特征進行降維,輸入到節(jié)點數(shù)分別為2048 和512的兩層全連接層對特征進行整合,并由6 個節(jié)點的Softmax 分類層得到情感分類結(jié)果。將MFCC和IMFCC特征分別輸入2D-CNN 訓(xùn)練得到MFCC 2D-CNN前端網(wǎng)絡(luò)和IMFCC 2D-CNN前端網(wǎng)絡(luò)。
表1 2D-CNN 前端網(wǎng)絡(luò)卷積層參數(shù)Table 1 Parameters of convolutional layers in 2D-CNN front-end network
圖2 基于MFCC 與IMFCC 的2D-CNN 前端網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 2D-CNN front-end network structure based on MFCC and IMFCC
在反向傳播過程中,為了應(yīng)對由樣本量過少及訓(xùn)練數(shù)據(jù)分布不均衡導(dǎo)致的網(wǎng)絡(luò)性能下降的問題,本文引入了Focal loss損失函數(shù)[17],通過給難分類樣本(Hard example)較大的權(quán)重,給易分類樣本(Easy example)較小的權(quán)重,來放大難分類樣本的損失并抑制易分類樣本的損失,從而使網(wǎng)絡(luò)聚焦于難分類樣本的學(xué)習(xí),提高分類準(zhǔn)確率。Focal loss 損失函數(shù)Lfl的計算如下:
其中,pt表示分類器預(yù)測的概率值,γ為權(quán)重放大因子,αt是類別權(quán)重。為了增大2D-CNN 前端網(wǎng)絡(luò)對難分類樣本的權(quán)重,將γ取為4,因為數(shù)據(jù)集中各類情感樣本數(shù)目相同,將αt設(shè)置為1。
本文引入了由不變散射卷積網(wǎng)絡(luò)(Invariant scattering convolution network,ISCN)自動提取的SCNC 特征[18]作為時序特征。將語聲幀視作短時平穩(wěn)信號,輸入由多層小波散射變換與取模算子級聯(lián)得到的ISCN 中,提取其散射系數(shù)作為SCNC 特征,該特征能夠最小化信號的平移和形變的影響,具有較強的變形穩(wěn)定性,且保留用于分類的高頻信息,故在網(wǎng)絡(luò)中間層對特征進行融合時能夠維持分類魯棒性[19]。
對語聲信號進行的小波變換可表示為{x ?ψλ}λ,其中指數(shù)λ=2-jr給出了帶通濾波器ψλ的頻率位置,?表示卷積運算,對于語聲信號僅計算λ在r ∈[0,π)范圍內(nèi)所對應(yīng)的路徑。沿路徑p=(λ1,λ2,···,λm) 迭代進行小波變換和取模運算可求得小波變換系數(shù):
其中,對于每條路徑p,S[p]x(u)是窗口位置u的函數(shù),將式(5)代入其中即可得到計算m階加窗散射系數(shù)的公式如下:
為了提高特征的高頻分辨率,將分幀加窗后的語聲片段輸入由5 層小波變換和取模算子級聯(lián)得到的ISCN 中,以提取網(wǎng)絡(luò)的加窗散射系數(shù)作為SCNC特征。
LSTM 相較于CNN 可以更好地處理時間序列的任務(wù),同時LSTM 解決了RNN 的長時依賴問題[20],并避免了反向傳播過程中的梯度消失[21]。本文搭建了基于SCNC 特征的LSTM 前端網(wǎng)絡(luò),網(wǎng)絡(luò)由LSTM 層和3 層全連接層組成,為對應(yīng)每幀語聲提取到的32維的SCNC特征,LSTM層設(shè)置了32個節(jié)點,每個節(jié)點通過126 個時間步進行更新[22]。單個節(jié)點的結(jié)構(gòu)如圖3所示。
圖3 單個LSTM 節(jié)點的內(nèi)部結(jié)構(gòu)Fig.3 Internal structure of LSTM node
在LSTM 節(jié)點中,Xt表示SCNC 特征沿時間軸的輸入,Ct表示由當(dāng)前輸入產(chǎn)生的細胞待更新的狀態(tài),由輸入門it和遺忘門ft決定當(dāng)前細胞狀態(tài)要如何更新,細胞狀態(tài)的迭代公式為
ht表示當(dāng)前節(jié)點輸出的隱藏狀態(tài),由輸出門ot和當(dāng)前細胞狀態(tài)計算得到,使用tanh 函數(shù)作為激活函數(shù),其計算如下:
將LSTM 網(wǎng)絡(luò)層輸出的全部隱藏狀態(tài)H使用Flatten 層降維后輸入到節(jié)點數(shù)分別為1024 和256的全連接層進行特征整合,激活函數(shù)為ReLU 函數(shù),全連接層后使用了Dropout 函數(shù)以抑制過擬合,Dropout 率為0.3,并由6 個節(jié)點的Softmax 分類層得到情感分類結(jié)果。將SCNC特征輸入LSTM以訓(xùn)練得到SCNC LSTM 前端網(wǎng)絡(luò)。
在SER 任 務(wù) 中,MFCC 2D-CNN 和IMFCC 2D-CNN 前端網(wǎng)絡(luò)更加關(guān)注譜特征中的語聲能量信息,而SCNC LSTM 前端網(wǎng)絡(luò)則側(cè)重于語聲的時序性信息。為了發(fā)揮兩類網(wǎng)絡(luò)的優(yōu)勢,本文將前端網(wǎng)絡(luò)模型視作特征提取器,分別提取了MFCC 2D-CNN 與IMFCC 2D-CNN 前端網(wǎng)絡(luò)最后一層卷積層的輸出,提取了SCNC LSTM 前端網(wǎng)絡(luò)的隱藏狀態(tài)H。前端網(wǎng)絡(luò)的中間層深度特征作為話語級的特征表示,由于不同網(wǎng)絡(luò)中的深度特征對情感分類的貢獻程度不同,本文引入SE 通道注意力機制,利用SE Block對各前端網(wǎng)絡(luò)中間層權(quán)重進行調(diào)整[23],融合過程如圖4所示。
圖4 SE 通道注意力機制融合過程Fig.4 SE channel attention mechanism workflow
SE 通道注意力機制的實現(xiàn)通過兩步完成。第一步為Squeeze 操作,對應(yīng)于圖4 中的全局平均池化,其實現(xiàn)如下:
其中,壓縮函數(shù)Fsq在特征維度上對中間層矩陣uc進行壓縮降維,將H ×W ×C的多通道特征降為1×1×C的C維向量,以表征網(wǎng)絡(luò)中間層的全局信息。第二步的Excitation 操作對全局平均池化后生成的zc依次進行了全連接、ReLU 激活、全連接、Sigmoid 激活,得到代表各通道重要性的權(quán)重矩陣,其表達式為
其中,δ為線性激活函數(shù),W1與W2為兩個全連接層,σ為Sigmoid激活函數(shù)。
將Excitation 操作后求得的權(quán)重矩陣s與前端網(wǎng)絡(luò)中間層矩陣相乘可得到FDF矩陣,從而實現(xiàn)由多通道的聯(lián)合深度特征(Joint deep feature,JDF)向FDF的轉(zhuǎn)變。
利用SE 通道注意力機制融合前端網(wǎng)絡(luò)中間層得到了FDF矩陣作為話語級的情感特征,輸入基于DNN的后端網(wǎng)絡(luò)分類器進行SER,網(wǎng)絡(luò)共有5 層全連接層,節(jié)點數(shù)分別為2048、512、256、64,激活函數(shù)均為ReLU 函數(shù),最后由Softmax 分類層輸出得到多分類預(yù)測矩陣,取概率最大的一類作為最終的情感預(yù)測結(jié)果。在網(wǎng)絡(luò)中使用了Dropout 來抑制過擬合,其中Dropout 率為0.2。為了研究基于SE 通道注意力機制的網(wǎng)絡(luò)中間層融合方式對每一類情感的識別效果,將DNN 后端網(wǎng)絡(luò)的分類結(jié)果基于混淆矩陣進行輸出表示。
實驗部分首先通過消融實驗對語聲特征的維度選擇及前端網(wǎng)絡(luò)設(shè)計的合理性進行了驗證,其次通過與前端融合和中間層非計權(quán)融合的對比實驗驗證了SE 通道注意力機制用于網(wǎng)絡(luò)中間層融合的有效性,最后通過與參考文獻中融合方式的對比實驗對基于SE 通道注意力機制的網(wǎng)絡(luò)融合方式在SER任務(wù)中的準(zhǔn)確率與時間復(fù)雜度進行了分析。
實驗選用的CPU 型號為11th Gen Intel Core i5-11400,搭配4666 MHz 頻率的雙通道DDR4 內(nèi)存,容量共32 GB,用于深度學(xué)習(xí)加速的GPU 型號為NVIDIA GeForce RTX3060,顯存容量為12 GB,開發(fā)使用的語言版本為Python 3.8.3,使用的深度學(xué)習(xí)框架為Tensorflow 2.4.0。
本文實驗基于中國科學(xué)院自動化研究所錄制的漢語情感語料庫的部分數(shù)據(jù)進行,該數(shù)據(jù)子集包含了來自4 位說話者的1200 條語聲,其情感傾向包括生氣(Anger)、悲傷(Sad)、害怕(Fear)、開心(Happy)、中性(Neutral)、驚訝(Surprise),語聲的采樣率為16000 Hz。實驗中,將語聲片段的時長統(tǒng)一為2 s 共32000個采樣點,對其進行加窗分幀操作后可得到126 個語聲幀。求得各語聲特征維度如表2所示。
表2 語聲特征及維度Table 2 Speech features and its dimension
為消除數(shù)據(jù)集劃分方式對網(wǎng)絡(luò)性能的影響,將中國科學(xué)院自動化研究所語聲情感數(shù)據(jù)集進行隨機排序,并按照80%、10%、10%的比例劃分為訓(xùn)練集、驗證集和測試集。取五折交叉驗證后的各情感平均分類準(zhǔn)確率(Average ACC)和宏F1 得分(Macro-F1 Score)作為網(wǎng)絡(luò)性能的評價指標(biāo)。
為驗證前端網(wǎng)絡(luò)設(shè)置及對應(yīng)特征維度選擇的合理性,實驗分別對比了:(1) 基于一維譜特征1D-MFCC 與1D-IMFCC 的1D CNN前端網(wǎng)絡(luò)。(2) 基于三維譜特征3D-MFCC 與3D-IMFCC 的3D-CNN前端網(wǎng)絡(luò)。(3)使用平均池化(Ave-pool)層的2D-CNN前端網(wǎng)絡(luò)。(4) 基于16維與64維SCNC特征的LSTM 前端網(wǎng)絡(luò)。(5) 基于32維SCNC特征的2D-CNN前端網(wǎng)絡(luò)。為驗證在網(wǎng)絡(luò)中間層進行融合相較于特征級融合的優(yōu)勢,實驗對比了兩類前端融合方式:(1) 前端特征級注意力機制融合。(2) 前端特征級非計權(quán)融合。除此之外,還比較了對網(wǎng)絡(luò)中間層進行非計權(quán)融合后的網(wǎng)絡(luò)性能。
為了進一步驗證SE 通道注意力機制用于網(wǎng)絡(luò)中間層融合的適用性,還和文獻[2]中基于隨機森林特征選擇算法的前端融合、文獻[3]中基于GMU 的分層網(wǎng)絡(luò)中間層融合和文獻[7]中基于置信度的后端融合方式進行了比較分析,并取預(yù)測測試集的總耗時作為時間復(fù)雜度指標(biāo)進行討論。
不同維度語聲特征在對應(yīng)前端網(wǎng)絡(luò)中的分類結(jié)果如表3 中所示。由表3 可知基于二維MFCC特征的2D-CNN 前端網(wǎng)絡(luò)相較于基于一維及三維MFCC 特征的前端網(wǎng)絡(luò)取得了更高的平均準(zhǔn)確率和宏F1 得分;基于二維IMFCC 特征的2D-CNN 前端網(wǎng)絡(luò)亦優(yōu)于基于一維與三維IMFCC 特征的前端網(wǎng)絡(luò);且最大池化在2D-CNN 前端網(wǎng)絡(luò)中的效果好于平均池化。對比16 維與64 維的SCNC 特征可知,基于32 維SCNC 特征的LSTM 前端網(wǎng)絡(luò)性能更好,且優(yōu)于基于SCNC特征的2D-CNN前端網(wǎng)絡(luò)。
表3 三類語聲特征在不同前端網(wǎng)絡(luò)中的分類結(jié)果Table 3 Classification results of three SER features in different front-end networks
分析可知,對于二維MFCC 和IMFCC 特征,2D-CNN 前端網(wǎng)絡(luò)可有效利用特征矩陣中的頻譜能量信息進行分類。而最大池化相較于平均池化,對特征矩陣中的紋理信息更加敏感,更有利于對區(qū)分性信息的提取。對于SCNC 特征,LSTM 前端網(wǎng)絡(luò)能夠更好地學(xué)習(xí)序列中的時間相關(guān)性,由5 層ISCN提取的32維SCNC 特征則可較好地保留用于分類的高頻信息。
將本文所選的3 類前端網(wǎng)絡(luò)的分類結(jié)果表示為混淆矩陣,如圖5 所示,其中對角線數(shù)據(jù)表示網(wǎng)絡(luò)對每類情感的識別準(zhǔn)確率。觀察混淆矩陣可知,3 類前端網(wǎng)絡(luò)對“中性(Neutral)”與“憤怒(Angry)”兩類情感的識別準(zhǔn)確率顯著高于其余情感類別。
圖5 三類前端網(wǎng)絡(luò)的分類混淆矩陣Fig.5 Confusion matrix for three front-end networks
基于SE 通道注意力機制的網(wǎng)絡(luò)中間層融合方式對比前端融合方式與中間層非計權(quán)融合方式的情感分類結(jié)果如表4 所示,觀察可知,前端特征級的拼接融合或注意力機制融合相較于單一特征僅能使情感分類的平均準(zhǔn)確率小幅提升,這證明了前端融合特征泛化能力有限,無法充分利用多種語聲特征的優(yōu)勢。而基于網(wǎng)絡(luò)中間層進行非計權(quán)拼接融合后的準(zhǔn)確率相較于特征級融合有了顯著提高,但其表現(xiàn)依舊差于采用SE 通道注意力機制的融合方式。這證明了基于網(wǎng)絡(luò)中間層進行的融合優(yōu)于特征級的融合,也進一步驗證了基于SE 通道注意力機制進行融合的有效性。不同融合方式取得的分類混淆矩陣分別如圖6 所示,觀察可知后端分類網(wǎng)絡(luò)均在“中性”情感上取得了最高的識別準(zhǔn)確率,這也證明了前端網(wǎng)絡(luò)在某一類情感識別中的優(yōu)勢在融合后可以得到保留。
表4 不同網(wǎng)絡(luò)融合方式的對比實驗結(jié)果Table 4 Comparative test results of different network fusion methods
圖6 不同網(wǎng)絡(luò)融合方式的分類混淆矩陣Fig.6 Confusion matrix for different network fusion methods
文獻[2–3,7]中不同階段的融合方式在測試集上的平均準(zhǔn)確率和預(yù)測耗時如表5 所示。觀察數(shù)據(jù)可知,基于隨機森林特征選擇算法的特征融合方式[2]所用預(yù)測時間最短,這也體現(xiàn)了傳統(tǒng)機器學(xué)習(xí)方法在預(yù)測效率上的優(yōu)勢?;谥眯哦鹊暮蠖藳Q策級融合方式[7]在使用多類語聲特征獲得較高的準(zhǔn)確率的同時耗費了最長的預(yù)測時間。而基于GMU的網(wǎng)絡(luò)中間層融合方式[3]對動靜態(tài)譜特征進行融合則可兼顧識別效率與準(zhǔn)確率。本文相較于融合方式[3]在譜特征的基礎(chǔ)上增加了時序特征,使用SE通道注意力機制用于網(wǎng)絡(luò)中間層融合,平均準(zhǔn)確率提高了5.39%,預(yù)測耗時則僅增加0.015 s。對比實驗證明了本文基于通道注意力機制的融合網(wǎng)絡(luò)用于SER 任務(wù)時,通過對多種語聲特征和分類網(wǎng)絡(luò)的有效利用,可以實現(xiàn)更高的平均識別準(zhǔn)確率。
表5 融合方式的準(zhǔn)確率與復(fù)雜度對比Table 5 Accuracy and complexity comparison
本文把SE 通道注意力機制用于對基于譜特征的和時序特征的前端網(wǎng)絡(luò)的中間層融合,并進行了實驗驗證。實驗結(jié)果表明,多特征分類相較于單一特征分類在情感識別準(zhǔn)確率上具有明顯的優(yōu)勢;中間層融合的多特征融合方式優(yōu)于前端特征級的融合方式;利用SE 通道注意力機制對前端網(wǎng)絡(luò)中間層進行融合,能有效利用不同前端網(wǎng)絡(luò)在SER 任務(wù)中的優(yōu)勢提高情感識別準(zhǔn)確率。