王瑋蔚 張秀再
(1 南京信息工程大學(xué)電子與信息工程學(xué)院 南京 210044)
(2 江蘇省大氣環(huán)境與裝備技術(shù)協(xié)同創(chuàng)新中心 南京 210044)
在多種通信方式中,語(yǔ)音信號(hào)是人與人、人與機(jī)器通信最快的自然方法。人類甚至可以從語(yǔ)音交流中感覺(jué)到說(shuō)話人的情緒狀態(tài)。語(yǔ)音情感是分析聲音行為的一種方法,是指各種影響(如情緒、情緒和壓力)的指針,側(cè)重于語(yǔ)音的非言語(yǔ)方面。在這種情況下,語(yǔ)音情感識(shí)別的主要挑戰(zhàn)是提取一些客觀的、可測(cè)量的語(yǔ)音特征參數(shù),這些參數(shù)可以反映說(shuō)話人的情緒狀態(tài)。近年來(lái),語(yǔ)音情感識(shí)別在人機(jī)通信、機(jī)器人通信、多媒體檢索等領(lǐng)域得到了廣泛關(guān)注。語(yǔ)音情感識(shí)別研究主要是利用語(yǔ)音中的情感和語(yǔ)音特征的統(tǒng)計(jì)特性,進(jìn)行一般定性的聲學(xué)關(guān)聯(lián)[1?2]。
語(yǔ)音情感識(shí)別的主要工作為語(yǔ)音情感特征提取和分類網(wǎng)絡(luò)模型選擇。當(dāng)前國(guó)內(nèi)外的研究方向多為分類網(wǎng)絡(luò)模型選擇,而情感特征提取方向研究?jī)?nèi)容較為匱乏,因此,提取有效的語(yǔ)音情感特征也是當(dāng)前語(yǔ)音情感識(shí)別的關(guān)鍵任務(wù)。2004年,Ververidis等[3]從能量、基音和語(yǔ)音頻譜的動(dòng)態(tài)行為中提取出87個(gè)靜態(tài)特征,并提出了譜平坦度測(cè)度與譜中心的比值作為說(shuō)話人獨(dú)立的特征,利用幀級(jí)特征、基音周期、能量和Mel倒譜系數(shù)(Mel frequency cepstral coefficents, MFCC)對(duì)性別和情感進(jìn)行了層次分類。2011年,Sun 等[4]將Teager 能量中提取的小波系數(shù)引入到語(yǔ)音情感識(shí)別中。2008年,韓一等[5]將MFCC 參數(shù)作為特征對(duì)語(yǔ)音情感進(jìn)行識(shí)別,也取得了較好的結(jié)果。
2011年,He 等[6]首先將經(jīng)驗(yàn)?zāi)B(tài)分解(Empirical mode decomposition, EMD)引入到語(yǔ)音情感識(shí)別中。2015年,Sethu等[7]利用EMD將語(yǔ)音進(jìn)行分解,以分解得到的固有模態(tài)函數(shù)(Intrinsic mode functions, IMF)分量進(jìn)行語(yǔ)音分類。Shahnaz 等[8]將EMD 和小波分析相結(jié)合,通過(guò)選取主導(dǎo)IMF 分量,不僅減少了計(jì)算負(fù)擔(dān),而且避免包含冗余或信息量較少的數(shù)據(jù),得到了80.55% 的語(yǔ)音情感識(shí)別準(zhǔn)確率。向磊[9]將集合固有模態(tài)函數(shù)(Ensemble empirical mode decomposition, EEMD)和希爾伯特(Hilbert)邊際譜相結(jié)合,有效地解決了傳統(tǒng)EMD分解帶來(lái)的模態(tài)混疊問(wèn)題。
為了提高語(yǔ)音情感特征識(shí)別性能,解決基于EMD 和EEMD算法的語(yǔ)音情感特征模態(tài)混疊和計(jì)算量過(guò)大的缺點(diǎn),本文將變分模態(tài)分解(Variational modal decomposition, VMD)方法引入到語(yǔ)音情感特征提取中[10],提出基于VMD 分解的語(yǔ)音情感特征,采用極限學(xué)習(xí)機(jī)(Extreme learning machine,ELM)將本文特征與語(yǔ)音基音特征、譜特征作為分類特征進(jìn)行實(shí)驗(yàn)。結(jié)果表明,相較于傳統(tǒng)語(yǔ)音特征以及基于EMD、EEMD的語(yǔ)音情感特征,本文提出的特征能更好地表示語(yǔ)音的情感特征,提高了語(yǔ)音情感的識(shí)別準(zhǔn)確率。
VMD 方法與反復(fù)循環(huán)剝離進(jìn)行模態(tài)函數(shù)分解的EMD 方法不同,VMD 通過(guò)對(duì)變分模型的最優(yōu)極值求解,實(shí)現(xiàn)自適應(yīng)地獲取IMF,在迭代過(guò)程中不斷更新每個(gè)IMF分量的中心頻率和帶寬[10?11]。
IMF分量表達(dá)式為
其中,uk(t)為第k個(gè)IMF分量,0 約束條件為 式(2)中,{uk}:={u1,··· ,uK},uk(t)記為uk,{uk}為分解到的K個(gè)有限帶寬的IMF 分量的集合,uk表示分解到的第k個(gè)有限帶寬的IMF 分量,?t為微分算子,δ(t)為狄利克來(lái)函數(shù),j為虛數(shù)符號(hào),e 為自然常數(shù),f(t)為約束函數(shù),{ωk}:={ω1,··· ,ωK},{ωk}為K個(gè)IMF 分量所對(duì)應(yīng)的中心頻率的集合,ωk表示第k個(gè)IMF 分量所對(duì)應(yīng)的中心頻率,∥·∥22表示范數(shù);通過(guò)拉格朗日函數(shù)求該約束條件下的最優(yōu)解,生成的拉格朗日表達(dá)式為 式(3)中,L({uk},{ωk},λ)為拉格朗日函數(shù),α為懲罰系數(shù),λ(t)為拉格朗日乘子,表示內(nèi)積。 采用乘法算子交替的方法求式(3)的鞍點(diǎn),就得到IMF 分量,求解過(guò)程中unk+1的值會(huì)不斷更新。公式(4)取得最小值時(shí),unk+1與unk的誤差小于預(yù)設(shè)值,unk+1為第n+1次迭代的第k個(gè)IMF分量,其表達(dá)式為 式(4)中,X為uk的集合,wn+1k為第n+1次迭代的第k個(gè)IMF分量的中心頻率,表示將第n+1次迭代的除了第k個(gè)IMF 分量之外的分量進(jìn)行求和。 利用Parseval/Plancherel 傅里葉等距變換可將式(4)轉(zhuǎn)換到頻域進(jìn)行計(jì)算,可得到各模態(tài)的頻域更新,就可將中心頻率的取值問(wèn)題轉(zhuǎn)換到頻域,得到中心頻率的更新方法;同時(shí)更新λ,表達(dá)式如下: 1)因指導(dǎo)教師精力有限,在講解和示范過(guò)程中,認(rèn)真聽(tīng)講的學(xué)生少,圍觀的學(xué)生多,而且不同教師的授課效果也有差異; 每個(gè)IMF 分量的頻率中心及帶寬在模型求解過(guò)程中,隨著迭代次數(shù)不斷更新,直到滿足迭代條件即可根據(jù)相應(yīng)的頻域特征得到K個(gè)IMF 分量。該分解模式可以自適應(yīng)地對(duì)信號(hào)頻帶進(jìn)行切割,有效避免模態(tài)混疊,且IMF 分量被固定劃分為K個(gè),消除了EMD 算法大量的無(wú)效分解分量,使得計(jì)算量大幅下降[10]。 對(duì)語(yǔ)音信號(hào)進(jìn)行VMD 分解得到IMF 分量后,為了得到能對(duì)語(yǔ)音情感分析的特征,利用IMF 分量為平穩(wěn)信號(hào)的特點(diǎn)[6],對(duì)VMD 各分量進(jìn)行Hilbert變換,得到IMF 的瞬時(shí)頻率和幅值[12],特征提取流程如圖1所示。 式(8)中,Hk(t)為IMF 分量的Hilbert 變換函數(shù),uk(t′)為基于時(shí)間常數(shù)t′的第k個(gè)IMF分量。 圖1 VMD-HT 特征提取流程圖Fig.1 VMD-HT feature extraction flow chart 式(9)中,Zk(t)為解析函數(shù)為第k個(gè)IMF 分量的瞬時(shí)幅值為相位,uk(t)為第k個(gè)IMF分量,Hk(t)為第k個(gè)分量的Hilbert變換。 式(9)中,Zk(t)的相位表達(dá)方式突出了Hilbert變換的物理意義,是基于時(shí)間序列形成的一個(gè)振幅和相位調(diào)制的三角函數(shù)。則Hilbert 譜的瞬時(shí)頻率定義為[8] 其中,θk表示第k個(gè)IMF分量的相位。 然后,對(duì)于語(yǔ)音信號(hào)第k個(gè)IMF 分量uk(t)的幅值ak(t)和瞬時(shí)頻率Wk(t),計(jì)算uk(t) 的平均瞬時(shí)頻率(Mean instantaneous frequency, MIF)。根據(jù)獲得的各IMF分量的MIF及幅值,計(jì)算原始信號(hào)的MIF表示為[10] 將各IMF 分量的平均瞬時(shí)頻率、幅值以及原始信號(hào)的瞬時(shí)頻率作為該語(yǔ)音信號(hào)的VMD-HT特征。 圖2 各IMF 信號(hào)的邊際譜圖Fig.2 The marginal spectrum of each IMF signal MFCC由Stevens在1937年提出[11],MFCC參數(shù)是基于人耳對(duì)不同頻率聲音有不同敏感度的特點(diǎn)提出的,揭示了人耳對(duì)高頻信號(hào)的敏感度低于低頻信號(hào)的特點(diǎn)。語(yǔ)音信號(hào)由頻率f轉(zhuǎn)換到Mel 尺度的表達(dá)式為[12?13] 語(yǔ)音信號(hào)通過(guò)VMD 分解后,剔除余波分量,再重新聚合,對(duì)聚合信號(hào)提取MFCC 參數(shù),即得到VMD-MFCC 特征。在將信號(hào)進(jìn)行VMD 分解之后,提取MFCC參數(shù)的過(guò)程分為數(shù)步,流程如圖3所示。 MFCC 參數(shù)提取采用一組基于Mel 尺度的三角帶通濾波器,將語(yǔ)音信號(hào)轉(zhuǎn)換到頻域后,對(duì)語(yǔ)音信號(hào)進(jìn)行濾波處理,使語(yǔ)音信號(hào)遵循Mel 尺度的衰減特性。濾波器組對(duì)頻域信號(hào)進(jìn)行切分,每個(gè)頻段產(chǎn)生一個(gè)對(duì)應(yīng)的能量值。本實(shí)驗(yàn)中濾波器個(gè)數(shù)取24,因此可得到24個(gè)能量值。 圖3 MFCC 參數(shù)提取流程圖Fig.3 MFCC parameter extraction flow chart 由于人耳對(duì)聲音的感知程度具有非線性特性,用對(duì)數(shù)形式描述更好。因此,對(duì)能量值進(jìn)行對(duì)數(shù)處理,再倒譜分析。 根據(jù)MFCC定義,對(duì)對(duì)數(shù)能量進(jìn)行反傅里葉變換,再通過(guò)低通濾波器獲得低頻信號(hào)。使用離散余弦變換(Discrete cosine transform, DCT)可以直接獲取低頻信息,DCT 與離散傅里葉變換相似,但只有實(shí)數(shù)部分,該過(guò)程可表示為 式(13)中,Ek為第k個(gè)濾波器的對(duì)數(shù)能量值;Q為三角濾波器個(gè)數(shù),一般取22~26;m為當(dāng)前計(jì)算的MFCC 特征參數(shù)的維數(shù),L取12,12 維MFCC 特征參數(shù)足以代表一幀語(yǔ)音特征[14]。 以EMODB 中害怕情感語(yǔ)句為例,以256 個(gè)點(diǎn)為一幀,幀移為64,Mel 倒譜濾波器取24個(gè),預(yù)加重系數(shù)為0.95,計(jì)算12 階MFCC 參數(shù)如圖4所示。采用本文方法對(duì)語(yǔ)音進(jìn)行分解后提取的MFCC 參數(shù)如圖5所示。由圖4可知,直接提取的MFCC 特征參數(shù)每一幀之間差別較大,經(jīng)過(guò)處理后的語(yǔ)音信號(hào)的MFCC特征參數(shù)每幀之間差別明顯降低,可以使MFCC特征更易于通過(guò)分類器進(jìn)行識(shí)別。 圖4 FEAR 語(yǔ)句12 階MFCC 參數(shù)Fig.4 FEAR statement 12th order MFCC parameters 圖5 FEAR 語(yǔ)句12 階VMD-MFCC 參數(shù)Fig.5 FEAR statement 12th order VMD-MFCC parameters 語(yǔ)音情感識(shí)別中最常用的分類器是支持向量機(jī)[15?16](Support vector machine, SVM)、人工神經(jīng)網(wǎng)絡(luò)[11,17?18](Artificial neural network, ANN)、K 最近鄰算法[12](K-nearest neighbor, KNN)、Elman 神經(jīng)網(wǎng)絡(luò)[12]、高斯混合模型[19](Gaussian mixture model, GMM)長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò)[20]( Long short-term memory, LSTM)和隱馬爾可夫模型[10](Hidden Markov model, HMM)。在眾多人工神經(jīng)網(wǎng)絡(luò)中,將快速模型學(xué)習(xí)與準(zhǔn)確預(yù)測(cè)能力相結(jié)合的極限學(xué)習(xí)機(jī),應(yīng)用于多模式情感識(shí)別和計(jì)算語(yǔ)言學(xué),以適度的計(jì)算資源獲得了最好的結(jié)果[21?23]。 最初,ELM作為單隱層前饋網(wǎng)絡(luò)的一種快速學(xué)習(xí)方法——反向傳播的另一種方法提出[21]。與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)算法相比,ELM 方法學(xué)習(xí)速度快、泛化性能好。因此,本實(shí)驗(yàn)采用ELM 方法進(jìn)行情感特征分類,基本ELM的體系結(jié)構(gòu)如圖6所示。 圖6 ELM 基本結(jié)構(gòu)圖Fig.6 ELM basic structure 式(14)為ELM 神經(jīng)網(wǎng)絡(luò)處理輸入數(shù)據(jù)的公式,式中g(shù)(x)為激活函數(shù),Wi= [wi,1,wi,2,··· ,wi,n]T為輸入權(quán)重,βi為輸出權(quán)重,bi為第i個(gè)隱藏單元的偏置,Xj是輸入的數(shù)據(jù),·表示內(nèi)積。 單隱層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)是使輸出誤差最小,表示為 即存在βi、Wi和bi,使得 以矩陣的形式表示為 式(17)中,N為隱含層節(jié)點(diǎn)輸出,β為隱含層到輸出層的權(quán)重系數(shù),T為訓(xùn)練所需要得到的期望結(jié)果。為了對(duì)隱含層神經(jīng)元進(jìn)行訓(xùn)練,得到βi、Wi和bi的解為 式(18)中,i= 1,··· ,L,該式用最小化損失函數(shù)表示為 傳統(tǒng)的一些基于梯度下降法算法(如反向傳播(Back propagation, BP)、多層感知器(Multi-layer perception, MLP))可以用來(lái)求解這樣的問(wèn)題,但這些學(xué)習(xí)算法需要在迭代過(guò)程中調(diào)整所有參數(shù)。而ELM 算法的輸入層權(quán)重Wi和隱含層bi在初始化時(shí)已被隨機(jī)產(chǎn)生且唯一,因此隱含層的輸出矩陣N就被確定,只需要調(diào)整隱含層到輸出層的權(quán)重系數(shù)βi,對(duì)該系數(shù)的訓(xùn)練可轉(zhuǎn)化為求解一個(gè)線性系統(tǒng)Nβ=T。輸出權(quán)重可由式(20) 確定, 式(20)中,N?是矩陣的Moore-Penrose廣義逆??勺C明求得解的范數(shù)最小且唯一,且ELM 的計(jì)算速度較基本梯度下降算法快數(shù)倍[21]。 本實(shí)驗(yàn)基于德國(guó)BerlinEMODB語(yǔ)音情感數(shù)據(jù)庫(kù)和美國(guó)RAVDESS 視聽(tīng)情感數(shù)據(jù)庫(kù),下面對(duì)兩種數(shù)據(jù)庫(kù)進(jìn)行簡(jiǎn)單的介紹。 德國(guó)BerlinEMODB 語(yǔ)音情感數(shù)據(jù)庫(kù)是最為常用的公開(kāi)語(yǔ)音情感數(shù)據(jù)庫(kù)之一,它是由德國(guó)柏林工業(yè)大學(xué)錄制的德語(yǔ)情感數(shù)據(jù)庫(kù),由10位專業(yè)演員(5男5女)參與錄制,得到包含生氣、無(wú)聊、厭惡、害怕、高興、中性和悲傷等7類基本情感的800條語(yǔ)句。對(duì)于文本語(yǔ)料的選擇遵從選擇語(yǔ)義中性、無(wú)明顯情感傾向的日常語(yǔ)句,且語(yǔ)音在專業(yè)錄音室中錄制而成。經(jīng)過(guò)20 個(gè)說(shuō)話人的聽(tīng)辨測(cè)試,最終得到494 條情感語(yǔ)句用于實(shí)驗(yàn)評(píng)價(jià)[11]。 美國(guó)RAVDESS 視聽(tīng)情感數(shù)據(jù)庫(kù)是為北美英語(yǔ)的科學(xué)家和治療師提供一個(gè)可自由使用的動(dòng)態(tài)視聽(tīng)語(yǔ)音錄音庫(kù),由24名演員(12 男,12女)參與錄制,他們用北美英文口音說(shuō)話和唱歌,語(yǔ)音中包含各種情緒。包含7356 個(gè)情感中性陳述的高品質(zhì)視頻錄音,用一系列情緒說(shuō)出和唱出。演講集包括8 個(gè)情緒表達(dá):中性、冷靜、快樂(lè)、悲傷、憤怒、恐懼、驚訝和厭惡。歌曲集包括6 種情緒表達(dá):中性、冷靜、快樂(lè)、悲傷、憤怒和恐懼。除了中性以外的所有情緒都表現(xiàn)為兩種情緒強(qiáng)度:正常和強(qiáng)烈。有2452 個(gè)獨(dú)特的發(fā)聲,所有這些都有三種模式格式:完整的音頻-視頻(720p,H.264)、純視頻和純音頻(波形)。該數(shù)據(jù)庫(kù)已經(jīng)在涉及297名參與者的感知實(shí)驗(yàn)中得到驗(yàn)證[24]。 傳統(tǒng)語(yǔ)音情感特征為基頻特征、韻律譜特征以及部分非線性特征[10],本文將VMD-MFCC、VMD-HT 和傳統(tǒng)語(yǔ)音情感特征相結(jié)合作為實(shí)驗(yàn)選取的特征,稱為底層特征,底層特征描述見(jiàn)表1。 表1 底層特征描述Table1 Description of the underlying features 為了驗(yàn)證VMD-HT 和VMD-MFCC 特征在語(yǔ)音情感識(shí)別中的應(yīng)用效果,取兩種語(yǔ)音情感數(shù)據(jù)集中共有的生氣、傷心、害怕、開(kāi)心、中性五種情感,取10名說(shuō)話人的情感語(yǔ)句各50句。其中,隨機(jī)抽取40句用來(lái)做訓(xùn)練,10句用來(lái)測(cè)試,進(jìn)行10次實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果以10次實(shí)驗(yàn)識(shí)別率的平均值作為評(píng)估指標(biāo),整個(gè)實(shí)驗(yàn)與說(shuō)話人無(wú)關(guān)。采用KNN(K=5)、SVM(核函數(shù)設(shè)置為sigmoid)、ELM 作為分類方法,輸入為91 維底層情感特征,并采用Sethu V 的EMD 特征和向磊的EEMD 特征進(jìn)行對(duì)比實(shí)驗(yàn),對(duì)比實(shí)驗(yàn)中的輸入特征中25~76 和80~91 維分別替換為基于EMD和EEMD的特征。實(shí)驗(yàn)結(jié)果見(jiàn)表2、表3。 由表2、表3可知,ELM 分類準(zhǔn)確度要高于KNN 和SVM;在兩個(gè)數(shù)據(jù)集中,加入VMD 特征的ELM 方法分別在中性和害怕情緒的識(shí)別率達(dá)到最高,而開(kāi)心情感識(shí)別率在兩個(gè)數(shù)據(jù)集中都為最低。相較于傳統(tǒng)語(yǔ)音情感特征,基于EMD 的特征通過(guò)選取主導(dǎo)IMF 分量,不僅減少了計(jì)算負(fù)擔(dān),而且避免包含冗余或信息量較少的數(shù)據(jù),有效地提升了語(yǔ)音情感識(shí)別性能;基于EEMD 的特征,由于避免了EMD分量的模態(tài)混疊問(wèn)題,識(shí)別率在EMD 特征的基礎(chǔ)上有所提升;在加入VMD 特征之后,由于VMD 分解方法不僅解決了EMD 方法模態(tài)混疊的問(wèn)題,還提升了IMF 信號(hào)的分解完整性,因此,基于VMD 的特征在三種分類方式上的識(shí)別度都高于基于EMD 和EEMD 的特征。以EMODB 為例,害怕的識(shí)別率提高了2%,中性的識(shí)別率提高了5%,生氣的識(shí)別率提高了2%。因此,將VMD 特征用于語(yǔ)音情感識(shí)別,可以有效提高識(shí)別準(zhǔn)確率,且將VMD 特征和ELM分類器結(jié)合,有更好的識(shí)別效果。 表2 EMODB 數(shù)據(jù)集分類實(shí)驗(yàn)結(jié)果(識(shí)別率)Table2 EMODB data set classification experiment results 表3 RAVDESS 數(shù)據(jù)集分類實(shí)驗(yàn)結(jié)果(識(shí)別率)Table3 RAVDESS data set classification experiment results 根據(jù)語(yǔ)音信號(hào)非平穩(wěn)、非線性特點(diǎn),本文將變分模態(tài)分解(VMD)引入到語(yǔ)音情感特征識(shí)別中,通過(guò)Hilbert 變換和提取MFCC 參數(shù),組成新的語(yǔ)音情感非線性聯(lián)合特征。將該特征應(yīng)用于語(yǔ)音情感識(shí)別,實(shí)驗(yàn)將基于VMD 提取的VMD-MFCC 特征和VMD-HT特征與傳統(tǒng)語(yǔ)音情感特征相結(jié)合,采用極限學(xué)習(xí)機(jī)進(jìn)行語(yǔ)音情感分類。實(shí)驗(yàn)結(jié)果表明,相較于基于EMD 和EEMD 的情感特征,基于VMD 的語(yǔ)音特征結(jié)合極限學(xué)習(xí)機(jī)進(jìn)行語(yǔ)音情感分類的方法,具有更高的識(shí)別率。1.2 基于VMD-HT的語(yǔ)音情感特征
1.3 基于VMD-MFCC的語(yǔ)音情感特征
2 分類算法
2.1 分類算法簡(jiǎn)介
2.2 ELM簡(jiǎn)介
3 實(shí)驗(yàn)驗(yàn)證
3.1 數(shù)據(jù)集選取
3.2 特征選取
3.3 仿真結(jié)果
4 結(jié)論