• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于注意力機(jī)制的多任務(wù)3D CNN-BLSTM 情感語(yǔ)音識(shí)別

      2022-08-29 10:52:30陳志剛萬(wàn)永菁
      關(guān)鍵詞:聲紋多任務(wù)注意力

      姜 特, 陳志剛, 萬(wàn)永菁

      (華東理工大學(xué)信息科學(xué)與工程學(xué)院,上海 200237)

      語(yǔ)音交互是人與人之間最直接、高效的溝通方式之一。語(yǔ)音中包含著豐富的情感信息,而情感在語(yǔ)音交互中起著至關(guān)重要的作用。語(yǔ)音情感識(shí)別是指計(jì)算機(jī)對(duì)人類情感語(yǔ)音的感知和理解過(guò)程的模擬,即自動(dòng)識(shí)別出語(yǔ)音信號(hào)的情感狀態(tài)[1]。語(yǔ)音情感識(shí)別在教育、醫(yī)療、服務(wù)產(chǎn)業(yè)、車載駕駛系統(tǒng)等各個(gè)領(lǐng)域已得到了廣泛的應(yīng)用。

      語(yǔ)音情感識(shí)別系統(tǒng)主要包括以下幾個(gè)要素:聲學(xué)特征參數(shù)、情感分類模型和情感語(yǔ)料庫(kù)。其中常用的聲學(xué)特征有梅爾倒譜系數(shù)(Mel-scale Frequency Cepstral Coefficients,MFCC )、振幅、過(guò)零率、基音頻率、共振峰、短時(shí)能量等[2]。此外,基于短時(shí)傅里葉方法的語(yǔ)音頻譜圖可以表征信號(hào)的時(shí)頻變化信息,已成為當(dāng)前語(yǔ)音情感識(shí)別研究的一種趨勢(shì)。

      傳統(tǒng)的機(jī)器學(xué)習(xí)方法,例如高斯混合模型、隱馬爾科夫模型和支持向量機(jī),在之前的研究中被廣泛地用于對(duì)提取出的特征進(jìn)行分類[3-5]。目前,深度神經(jīng)網(wǎng)絡(luò)技術(shù)在語(yǔ)音情感識(shí)別方面也取得了一定的進(jìn)展,例如卷積神經(jīng)網(wǎng)絡(luò)(CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)[6-7]。2015 年, Lee 等[7]提出了一種具有雙向長(zhǎng)短期記憶(BLSTM)模型的學(xué)習(xí)方法,考慮到遠(yuǎn)距離上下文效應(yīng)和情感標(biāo)簽表達(dá)的不確定性,該系統(tǒng)對(duì)語(yǔ)音情感識(shí)別的準(zhǔn)確率達(dá)到了63.89%。2017 年,Satt 等[8]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)-長(zhǎng)短期記憶網(wǎng)絡(luò)(CNN-LSTM)組合的高復(fù)雜度模型,直接應(yīng)用于頻譜圖,獲得了較高的識(shí)別精度,同時(shí)也限制了延遲。2019 年,胡婷婷等[9]提出通過(guò)加入注意力機(jī)制來(lái)改進(jìn)LSTM 模型,相比于單LSTM模型,準(zhǔn)確率達(dá)到57%。2021 年,薛艷飛等[10]提出了一種基于多任務(wù)學(xué)習(xí)的語(yǔ)音情感識(shí)別方法,引入語(yǔ)言語(yǔ)種識(shí)別作為輔助任務(wù),將在離散情感語(yǔ)料庫(kù)上的準(zhǔn)確率提高到75.38%。目前,這些方法在語(yǔ)音情感識(shí)別中的準(zhǔn)確率較低且參數(shù)提取時(shí)存在損失和失真的情況。

      本文在前人研究的基礎(chǔ)上提出了一種基于注意力機(jī)制的多任務(wù)三維卷積神經(jīng)網(wǎng)絡(luò)和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)相結(jié)合的情感語(yǔ)音識(shí)別方法(3D CNN-BLSTM)。該模型基于Mel 譜圖、SPC 聲紋圖和LPC 聲紋圖構(gòu)建具有三維時(shí)空特征的多譜特征融合組圖作為輸入信號(hào),將專注語(yǔ)音情感突出時(shí)段的注意力機(jī)制融入3D卷積網(wǎng)絡(luò)建模中,并采用集說(shuō)話人情感識(shí)別與說(shuō)話人性別于一體的多任務(wù)模式進(jìn)行訓(xùn)練,通過(guò)共享網(wǎng)絡(luò)參數(shù)學(xué)習(xí)共享特征,從而得到更高的分類準(zhǔn)確率。

      1 基于3D CNN-BLSTM 的語(yǔ)音情感識(shí)別模型

      1.1 基于語(yǔ)音聲紋圖的譜特征提取

      在語(yǔ)音情感識(shí)別領(lǐng)域的研究中,特征參數(shù)的提取尤為重要。Mel 譜圖可以有效地結(jié)合語(yǔ)音的時(shí)域和頻域特性,將語(yǔ)音信號(hào)在時(shí)域上頻譜的變化情況直觀地表現(xiàn)出來(lái),并且符合人耳的聽覺(jué)特性,相對(duì)于傳統(tǒng)特征作為輸入的模型來(lái)說(shuō)具有天然的優(yōu)勢(shì)[11]。SPC 特征可以提取出語(yǔ)音中的譜包絡(luò)信息,使其不受基頻的影響[12]。LPC 特征可以通過(guò)過(guò)去若干個(gè)采樣點(diǎn)的線性組合來(lái)逼近原始或未來(lái)的語(yǔ)音波形,預(yù)測(cè)語(yǔ)音信號(hào),能夠很好地表征出語(yǔ)音的共振峰頻率和帶寬信息[13]。為了更加有效地提取出語(yǔ)音中的情感信息,將以上3 種特征聲紋圖沿通道方向堆疊,豐富了語(yǔ)音信號(hào)中的特征,而且可以利用其對(duì)應(yīng)位置之間的關(guān)系,提取其時(shí)空特性。本文使用Mel 譜圖、SPC 聲紋圖和LPC 聲紋圖構(gòu)建具有三維時(shí)空特征的多譜特征融合組圖作為語(yǔ)音情感識(shí)別模型的輸入。

      將語(yǔ)音的最大長(zhǎng)度設(shè)置為3.5 s(所有語(yǔ)音的平均時(shí)長(zhǎng)加上標(biāo)準(zhǔn)差),即將較長(zhǎng)的語(yǔ)音在3.5 s 處剪切,較短的語(yǔ)音填充零。接下來(lái),將長(zhǎng)度為800 的漢寧窗應(yīng)用于語(yǔ)音信號(hào)。采樣率設(shè)置為16 000 Hz。語(yǔ)音信號(hào)的時(shí)域波形圖和其Mel 譜圖、SPC 聲紋圖和LPC 聲紋圖如圖1 所示(圖中顏色尺寸(振幅)轉(zhuǎn)換為分貝,見右側(cè)數(shù)據(jù)條)。其中幀數(shù)fn=800 ,幀移inc=400 ,Mel 譜圖、SPC 和LPC 的大小分別為128×300 、 5 12×300 、 2 0×300 ,再通過(guò)重采樣的方式將大小統(tǒng)一為 1 28×300 ,組成三維聲紋圖。

      圖1 時(shí)域波形圖和Mel 譜圖、SPC 聲紋圖、LPC 聲紋圖對(duì)比Fig. 1 Comparison of time domain waveform with Mel spectrogram, SPC voice print and LPC voice print

      將同一句語(yǔ)音“小時(shí)候聽祖母講過(guò)一個(gè)故事”分別用生氣(Anger)、害怕(Fear)、開心(Happy)、中性(Neutral)、悲傷(Sad)、驚訝(Surprise)6 種情緒的Mel 譜圖、SPC 聲紋圖和LPC 聲紋圖進(jìn)行對(duì)比,結(jié)果如圖2 所示(圖中顏色尺寸(振幅)轉(zhuǎn)換為分貝,見下方數(shù)據(jù)條)。

      由圖2 可以看出,由于Angry、Happy、Surprise屬于高亢情感,體現(xiàn)在Mel 譜圖上的變化比較明顯,所以聲紋比較清晰;Fear、Neutral、Sad 屬于低迷情感,語(yǔ)音波形平緩,起伏較低,體現(xiàn)在Mel 譜圖上聲紋比較模糊。LPC 聲紋圖可以很好地表征出語(yǔ)音的共振峰頻率和帶寬信息,不同情感語(yǔ)音發(fā)音的共振峰位置不同,相對(duì)于Fear、Neutral、Sad 這些低迷情感,Angry、Happy、Surprise 的共振峰頻率略微升高且動(dòng)態(tài)范圍更大。SPC 聲紋圖可以提取出語(yǔ)音中的譜包絡(luò)信息,譜包絡(luò)能夠反映出語(yǔ)音的音質(zhì)和發(fā)聲器官的各種相關(guān)參數(shù)從而表現(xiàn)出不同的情感,Happy、Fear、Sad 情感中譜包絡(luò)信息更明顯,而Angry、Neutral、Surprise 情感中譜包絡(luò)信息比較模糊。由于Mel 譜圖、LPC 聲紋圖和SPC 聲紋圖在這6 種情感中的表現(xiàn)不同,因此提取這3 種特征能夠更好地將語(yǔ)音中的情感信息提取出來(lái)。

      圖2 6 種情感的時(shí)域波形圖(a)、Mel 譜圖(b)、SPC 聲紋圖(c)和LPC 聲紋圖(d)對(duì)比Fig. 2 Comparison of time domain waveform (a), Mel (b), SPC voice print (c) and LPC voice print (d) of six emotions

      1.2 自注意力3D CNN-BLSTM

      將多譜特征融合組圖特征表示為X={x1,x2,···,xL} ,作為3D CNN 的輸入,其中xi∈Rf×c;L為時(shí)間(幀)長(zhǎng)度;f為重采樣統(tǒng)一后的大??;c為通道數(shù)。為了有效地對(duì)輸入特征X進(jìn)行訓(xùn)練,使用基于注意力機(jī)制的多任務(wù)3D CNN-BLSTM 網(wǎng)絡(luò)。如圖3 所示,該網(wǎng)絡(luò)主要由四部分組成,包括兩層CNN 網(wǎng)絡(luò)(一層為3D CNN,一層為2D CNN 網(wǎng)絡(luò))、兩層BLSTM 網(wǎng)絡(luò)、自注意力網(wǎng)絡(luò)和多任務(wù)層。

      1.2.1 改進(jìn)的三維卷積與二維卷積結(jié)合的神經(jīng)網(wǎng)絡(luò)

      為了更好地學(xué)習(xí)到多譜特征融合組圖中3 個(gè)通道對(duì)應(yīng)位置之間的關(guān)系,將二維卷積拓展到三維卷積。卷積層包括64 個(gè) 3 ×5×2 的卷積核,步長(zhǎng)為1,Dropout 層速率設(shè)置為0.5。

      由于輸入的多譜特征融合組圖的通道數(shù)是3,經(jīng)過(guò)一次三維卷積后沿通道方向的維度變成2,再經(jīng)過(guò)一次最大池化操作,沿通道方向的維度變成1,然后將其輸出的 6 3×148×1 維的特征重塑為 6 3×148 維的特征輸入到二維卷積中,再進(jìn)行最大池化操作,池化大小為2×2。

      1.2.2 BLSTM 循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的自連接特性使其對(duì)序列數(shù)據(jù)上下文的依賴關(guān)系具有天然的描述能力[14],但傳統(tǒng)的RNN 在訓(xùn)練時(shí)間跨度較長(zhǎng)時(shí)會(huì)出現(xiàn)長(zhǎng)期依賴問(wèn)題,導(dǎo)致梯度消失。而LSTM 引入了細(xì)胞結(jié)構(gòu)這一概念,對(duì)參數(shù)求偏導(dǎo)后的連乘操作改成連加的操作,通過(guò)遺忘門使梯度一直存在,克服了RNN 梯度消失的問(wèn)題,在深層網(wǎng)絡(luò)的情況下也可以記住之前的信息,因此可以處理和預(yù)測(cè)較長(zhǎng)一段時(shí)間的有用信息[15]。

      圖3 語(yǔ)音情感識(shí)別系統(tǒng)流程圖Fig. 3 Flowchart of speech emotion recognition system

      在對(duì)語(yǔ)音情感識(shí)別問(wèn)題的處理上,當(dāng)前時(shí)刻的輸出不僅和之前時(shí)刻的狀態(tài)有關(guān),還和未來(lái)的狀態(tài)有關(guān)。BLSTM 由兩個(gè)LSTM 上下疊加在一起組成,第1 層是從左邊作為序列的起始輸入,而第2 層是從右邊作為序列的起始輸入,輸出由這兩個(gè)LSTM 的狀態(tài)共同決定。BLSTM 中前向LSTM 和后向LSTM在時(shí)刻t的表示如下:

      在三維的CNN 操作后,將序列特征輸入到雙向的LSTM 中,每個(gè)方向包含60 個(gè)節(jié)點(diǎn),可以得到一個(gè)120 維的序列。

      1.2.3 注意力機(jī)制 注意力機(jī)制是根據(jù)某一種事物不同部分的重要程度來(lái)計(jì)算的一種算法,即為事物的關(guān)鍵部分分配更多的注意力,通過(guò)注意力概率分布的計(jì)算,對(duì)某一關(guān)鍵部分分配更大的權(quán)重[16]。本文對(duì)從情感語(yǔ)音中提取的特征加入注意力機(jī)制,使模型對(duì)BLSTM 網(wǎng)絡(luò)輸出的特征給予不同的關(guān)注度。

      將BLSTM 層輸出的隱藏層特征H={h1,h2,···,hL} 作為注意力層的輸入,其中H∈RL×d,d為BLSTM隱藏層的大小。注意力機(jī)制的具體實(shí)現(xiàn)如下:

      1.3 多任務(wù)學(xué)習(xí)

      現(xiàn)實(shí)中的很多問(wèn)題之間都存在著某些聯(lián)系,為了尋找其中很多問(wèn)題之間的關(guān)聯(lián)信息,多任務(wù)學(xué)習(xí)的方法應(yīng)運(yùn)而生。多任務(wù)學(xué)習(xí)是遷移學(xué)習(xí)算法的一種,本質(zhì)上是利用隱含在多個(gè)相關(guān)任務(wù)中的特定信息來(lái)提高泛化能力[17]。多任務(wù)學(xué)習(xí)通過(guò)結(jié)合共享層和屬性依賴層從輔助任務(wù)中學(xué)習(xí),從而提高語(yǔ)音情感識(shí)別的準(zhǔn)確率。文獻(xiàn)[18]已證明性別分類和情感分類具有音調(diào)和MFCC 等共同特征。本文通過(guò)多任務(wù)學(xué)習(xí)與情感分類任務(wù)共享有用信息,將性別分類作為輔助任務(wù)??紤]到男性和女性語(yǔ)音信號(hào)模式之間的差異,性別分類有助于識(shí)別其中的差異來(lái)提高語(yǔ)音情感識(shí)別的準(zhǔn)確性。

      考慮性別分類與情感分類之間的關(guān)系,將這兩個(gè)任務(wù)融合在一個(gè)模型中完成,并行學(xué)習(xí),結(jié)果相互影響。兩個(gè)任務(wù)共享輸入層和隱層的全部參數(shù),同時(shí)通過(guò)兩個(gè)輸出層分別生成情感和性別分類準(zhǔn)確率,并通過(guò)以下目標(biāo)函數(shù)對(duì)模型進(jìn)行優(yōu)化:

      其中:Lemotion和Lgender分別是情感分類和性別分類的損失,直接將這兩個(gè)任務(wù)的損失相加,通過(guò)對(duì)兩個(gè)任務(wù)的損失配置不同的權(quán)重參數(shù)來(lái)調(diào)整每個(gè)任務(wù)的重要程度; α 為情感識(shí)別任務(wù)的權(quán)重。最后通過(guò)最小化目標(biāo)函數(shù)來(lái)達(dá)到優(yōu)化模型的目的。

      2 實(shí)驗(yàn)及結(jié)果分析

      2.1 實(shí)驗(yàn)環(huán)境

      情感語(yǔ)音數(shù)據(jù)庫(kù)的質(zhì)量直接關(guān)系到語(yǔ)音情感識(shí)別的準(zhǔn)確率。本文選用中國(guó)科學(xué)院自動(dòng)化研究所錄制的CASIA 漢語(yǔ)情感語(yǔ)料庫(kù)進(jìn)行實(shí)驗(yàn)。該語(yǔ)料庫(kù)是由4 名專業(yè)人員(兩男兩女)在純凈錄音環(huán)境下(信噪比約為35 dB)錄制而成,涵蓋了424 個(gè)漢語(yǔ)常用字音節(jié),包括6 種情感,分別為生氣(Anger)、害怕(Fear)、開心(Happy)、中性(Neutral)、悲傷(Sad)、驚訝(Surprise)。每個(gè)說(shuō)話人每種情感有300 條相同文本的語(yǔ)句,共7 200 條語(yǔ)句[19]。

      實(shí)驗(yàn)的硬件環(huán)境為Intel Core i7-7700K 的CPU和NVIDIA GeForce GTX 1 080 8G 的顯卡,開發(fā)語(yǔ)言為Python,深度學(xué)習(xí)框架為PyTorch。

      2.2 參數(shù)設(shè)置

      本實(shí)驗(yàn)優(yōu)化器采用Adam,學(xué)習(xí)率設(shè)置為0.001,batchsize 設(shè)置為100,epoch 設(shè)置為100,訓(xùn)練集和測(cè)試集的比例為5∶1。

      在特征提取階段,使用librosa[20]工具包對(duì)Mel譜圖、LPC 參數(shù)進(jìn)行提取,梅爾濾波器的個(gè)數(shù)設(shè)置為128,LPC 階數(shù)選取20 階,使用自適應(yīng)加權(quán)譜內(nèi)插STRAIGHT 模型對(duì)SPC 進(jìn)行提取。將從語(yǔ)音信號(hào)中提取的 1 28×300×3 的多譜特征融合組圖作為模型的輸入。

      將卷積層得到的 6 4×30×72 維的輸出沿時(shí)間維度平鋪并轉(zhuǎn)置得到LSTM 網(wǎng)絡(luò)的輸入,維度為72×1 920,通過(guò)兩層隱藏層節(jié)點(diǎn)數(shù)為60 的雙向LSTM網(wǎng)絡(luò),然后通過(guò)自注意力頭數(shù)為8 的注意力層和全連接層,最后得到情感和性別分類的準(zhǔn)確率。

      2.3 性能評(píng)估

      為了驗(yàn)證本文模型的有效性,采用準(zhǔn)確率(Accuracy)、召回率(Recall)、精確率(Precision)和F1值作為評(píng)價(jià)指標(biāo),對(duì)不同模型的實(shí)驗(yàn)效果進(jìn)行評(píng)估。

      2.3.1 數(shù)據(jù)準(zhǔn)備 由于CASIA 漢語(yǔ)情感語(yǔ)料庫(kù)是在純凈錄音環(huán)境下進(jìn)行錄制的,所以模型在有噪音的環(huán)境下的判斷結(jié)果并不準(zhǔn)確。進(jìn)行適當(dāng)?shù)臄?shù)據(jù)增強(qiáng),增加訓(xùn)練的數(shù)據(jù)量和噪聲數(shù)據(jù),提高模型的泛化能力和魯棒性。使用audiomentations 工具包對(duì)語(yǔ)音信號(hào)進(jìn)行增強(qiáng),有以下4 種方式:

      (1)AddGaussianNoise:隨機(jī)添加高斯噪聲。

      (2)TimeStretch:對(duì)時(shí)間維度調(diào)整,拉伸音頻信號(hào)而不改變音調(diào)。

      (3)PitchShift:在不改變速度的情況下對(duì)音調(diào)進(jìn)行調(diào)整。

      (4)Shift:在時(shí)間軸的滾動(dòng),時(shí)移變換。

      在數(shù)據(jù)增強(qiáng)階段,具體的參數(shù)設(shè)置如表1 所示。其中times 為倍數(shù);semitones 為半音程。

      表1 數(shù)據(jù)增強(qiáng)方法參數(shù)設(shè)置Table 1 Data augmentation method parameter setting

      在相同條件下,使用本文模型通過(guò)不同的方式對(duì)語(yǔ)音進(jìn)行數(shù)據(jù)增強(qiáng),比較情感識(shí)別準(zhǔn)確率的大小。共進(jìn)行5 組對(duì)比實(shí)驗(yàn),其中實(shí)驗(yàn)1 使用原始數(shù)據(jù)集在本文模型中進(jìn)行訓(xùn)練,實(shí)驗(yàn)2~實(shí)驗(yàn)5 分別采用AddGaussianNoise、 TimeStretch、 PitchShift、 Shift 對(duì)語(yǔ)音信號(hào)進(jìn)行數(shù)據(jù)增強(qiáng)。實(shí)驗(yàn)結(jié)果如表2 所示。

      表2 數(shù)據(jù)增強(qiáng)對(duì)語(yǔ)音情感識(shí)別準(zhǔn)確率的影響Table 2 Influence of the data augmentation on speech emotion recognition accuracy

      由表2 可知,實(shí)驗(yàn)1 采用不進(jìn)行數(shù)據(jù)增強(qiáng)的方式訓(xùn)練模型,識(shí)別準(zhǔn)確率為84.10%;實(shí)驗(yàn)2 使用添加高斯噪聲的方法與不進(jìn)行數(shù)據(jù)增強(qiáng)的情感識(shí)別準(zhǔn)確率相差不大,這是因?yàn)橛?xùn)練集與測(cè)試集同時(shí)添加噪聲,只是提高了模型的泛化能力;實(shí)驗(yàn)3~實(shí)驗(yàn)5 所使用的數(shù)據(jù)增強(qiáng)的方法使得情感識(shí)別準(zhǔn)確率有所提高,這是因?yàn)橐纛l變速、音頻變調(diào)和時(shí)間偏移的方法保持了語(yǔ)譜圖中時(shí)域與頻域的對(duì)應(yīng)關(guān)系并且豐富了樣本的多樣性。

      2.3.2 語(yǔ)音聲紋圖譜特征參數(shù)選擇 在相同條件下,使用本文模型,通過(guò)輸入不同的特征組合比較情感識(shí)別準(zhǔn)確率的大小。將Mel 譜圖、LPC 聲紋圖和SPC 聲紋圖3 種特征中的每一種特征及兩兩組合的特征輸入到模型中,對(duì)比不同特征及組合特征對(duì)模型分類準(zhǔn)確率產(chǎn)生的影響。其準(zhǔn)確率、召回率、精確率和F1 值如表3 所示。

      表3 輸入不同聲紋圖的對(duì)比結(jié)果Table 3 Comparison results of different voiceprints

      由表3 可知,輸入3 種特征的組合能夠更優(yōu)秀地提取出語(yǔ)音信號(hào)中的情感信息,提高了算法的有效性。

      2.3.3 評(píng)估方法 本文中多任務(wù)學(xué)習(xí)的兩個(gè)任務(wù)分別為情感分類和性別分類,其目標(biāo)函數(shù)如式(8)所示。通過(guò)嘗試設(shè)置不同的權(quán)重值,可以得到不同的準(zhǔn)確率,其結(jié)果如表4 所示。

      表4 不同α 值的情感分類準(zhǔn)確率Table 4 Speech emotion recognition accuracy of different α values

      由于本文的主要任務(wù)是對(duì)語(yǔ)音情感進(jìn)行識(shí)別,因此對(duì)性別分類的準(zhǔn)確率就不做贅述。表4 結(jié)果表明,當(dāng) α 設(shè)置過(guò)大時(shí),性別分類對(duì)情感分類結(jié)果未起到輔助作用,情感分類準(zhǔn)確率不是很高;當(dāng) α 設(shè)置過(guò)小時(shí),模型更偏重于性別分類,因此語(yǔ)音情感識(shí)別準(zhǔn)確率也不高;當(dāng) α 設(shè)置為0.5 時(shí)情感分類的準(zhǔn)確性最高,這時(shí)語(yǔ)音情感分類和性別分類任務(wù)的權(quán)重比為1∶1。

      2.3.4 實(shí)驗(yàn)結(jié)果分析 將文獻(xiàn)[8]、文獻(xiàn)[21]、文獻(xiàn)[22]、文獻(xiàn)[23]模型在CASIA 漢語(yǔ)情感語(yǔ)料庫(kù)上的準(zhǔn)確率進(jìn)行對(duì)比,對(duì)比結(jié)果如表5 所示。

      表5 在CASIA 漢語(yǔ)情感語(yǔ)料庫(kù)上不同模型方法的準(zhǔn)確率對(duì)比Table 5 Accuracy comparison of different models in CASIA Chinese sentiment corpus

      本文的基線模型采用文獻(xiàn)[8]提出的CNNBLSTM 模型,該模型是目前主流的語(yǔ)音情感模型。在該模型的基礎(chǔ)上,對(duì)卷積層層數(shù)和卷積核的大小進(jìn)行調(diào)整,并添加不同的方法,設(shè)計(jì)出5 種不同的模型:

      (1)改進(jìn)CNN-BLSTM 模型。將CNN-BLSTM模型進(jìn)行改進(jìn),CNN 的層數(shù)設(shè)置為兩層,卷積核的大小設(shè)置為 3 ×5 ,BLSTM 隱藏層節(jié)點(diǎn)數(shù)設(shè)置為60,并結(jié)合自注意力機(jī)制,對(duì)每幀情感特征給予不同的關(guān)注程度。

      (2)3D CNN-BLSTM 模型。在CNN-BLSTM 模型的基礎(chǔ)上,使用Mel 譜圖、LPC 聲紋圖和SPC 聲紋圖特征,組成3 個(gè)通道的多譜特征融合組圖代替原輸入,并進(jìn)行一次三維的卷積運(yùn)算。

      (3)CNN-BLSTM+multi-tasking 模型。在CNNBLSTM 模型的基礎(chǔ)上,加入多任務(wù)學(xué)習(xí),將情感分類和性別分類相結(jié)合。將說(shuō)話人的情感識(shí)別作為主任務(wù),說(shuō)話人性別分類作為輔助任務(wù),兩個(gè)任務(wù)同時(shí)進(jìn)行訓(xùn)練,通過(guò)共享網(wǎng)絡(luò)參數(shù)學(xué)習(xí)共享特征。

      (4)CNN-BLSTM+augmentaion 模型。在CNNBLSTM 模型的基礎(chǔ)上,進(jìn)行適當(dāng)?shù)臄?shù)據(jù)增強(qiáng),增加語(yǔ)音數(shù)據(jù)的多樣性。

      (5)3D CNN-BLSTM+ multi-tasking+ augmentaion模型。在CNN-BLSTM 模型的基礎(chǔ)上,將模型(2)、(3)、(4)中的方法相結(jié)合,即為本文提出的基于注意力機(jī)制的多任務(wù)3D CNN-BLSTM 語(yǔ)音情感識(shí)別模型。

      采用5 種模型進(jìn)行實(shí)驗(yàn)的準(zhǔn)確率、召回率、精確率和F1 值如表6 所示。5 種模型的混淆矩陣如圖4所示,其中右側(cè)數(shù)據(jù)條表示識(shí)別概率的大小,顏色越深識(shí)別概率越大。

      圖4 不同模型的混淆矩陣比較Fig. 4 Confusion matrix comparison of different models

      表6 5 種模型的對(duì)比結(jié)果Table 6 Comparison of five models

      由圖4(e)的混淆矩陣可知,本文模型對(duì)各個(gè)情感的識(shí)別率都較高,其中識(shí)別率最高的是中性語(yǔ)音,達(dá)到95%,最低的是悲傷語(yǔ)音,為87%。由表6 中的數(shù)據(jù)可以看出,相比于CNN-BLSTM 模型,這5 種模型的實(shí)驗(yàn)結(jié)果都要優(yōu)于文獻(xiàn)[8]中的模型。3D CNNBLSTM 模型因?yàn)槟軌驅(qū)W習(xí)到Mel 譜圖、LPC 特征和SPC 特征的3 個(gè)通道對(duì)應(yīng)位置之間的關(guān)系,準(zhǔn)確率提高了1.00%。CNN-BLSTM+multi-tasking 模型考慮了男性和女性語(yǔ)音信號(hào)模式之間的差異,性別分類有助于識(shí)別到其中的不同來(lái)提高語(yǔ)音情感識(shí)別的準(zhǔn)確性,準(zhǔn)確率提升了2.67%。CNN-BLSTM+augmentation模型考慮了本實(shí)驗(yàn)數(shù)據(jù)庫(kù)是在純凈錄音環(huán)境下進(jìn)行錄制的,所以模型在有噪音的環(huán)境下的判斷結(jié)果并不準(zhǔn)確。進(jìn)行適當(dāng)?shù)臄?shù)據(jù)增強(qiáng),增加數(shù)據(jù)的多樣性,提高模型的泛化能力和魯棒性,準(zhǔn)確率提升了5.42%。最后由于上述實(shí)驗(yàn)在語(yǔ)音情感識(shí)別上的準(zhǔn)確率都較基線模型有一定的提高,因此結(jié)合了以上3 種方法,使用3D CNN-BLSTM+ multi-tasking+ augmentation 方法,得到的準(zhǔn)確率為91.08%,比基線模型提升了8.58%,召回率、精確率和F1 值也得到了很大的提升。由此可見,本文提出的基于注意力機(jī)制的多任務(wù)3D CNN-BLSTM 情感識(shí)別方法具有更好的泛化能力。

      3 結(jié) 論

      本文提出了一種基于注意力機(jī)制的多任務(wù)3D CNN-BLSTM 情感語(yǔ)音識(shí)別方法,沿通道方向?qū)el 譜圖、LPC 特征和SPC 特征堆疊,得到多譜特征融合組圖作為CNN 的輸入,提取更深的情感語(yǔ)音特征。連接雙向LSTM 網(wǎng)絡(luò),充分提取了語(yǔ)音信號(hào)的上下文信息,將BLSTM 層的輸出作為自注意力層的輸入,計(jì)算權(quán)重后結(jié)合性別分類的多任務(wù)學(xué)習(xí)機(jī)制,兩個(gè)輸出層分別生成情感和性別分類準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,在CASIA 漢語(yǔ)情感語(yǔ)料庫(kù)下,本文模型相比同類其他方法在語(yǔ)音情感識(shí)別上的效果更好,能夠有效地提升情感語(yǔ)音識(shí)別的準(zhǔn)確率。

      猜你喜歡
      聲紋多任務(wù)注意力
      讓注意力“飛”回來(lái)
      基于中心化自動(dòng)加權(quán)多任務(wù)學(xué)習(xí)的早期輕度認(rèn)知障礙診斷
      屏幕即指紋識(shí)別
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      A Beautiful Way Of Looking At Things
      基于判別性局部聯(lián)合稀疏模型的多任務(wù)跟蹤
      電測(cè)與儀表(2016年5期)2016-04-22 01:13:46
      基于數(shù)字水印的人臉與聲紋融合識(shí)別算法
      未知環(huán)境下基于粒子群優(yōu)化的多任務(wù)聯(lián)盟生成
      聲紋
      祝您健康(2009年4期)2009-04-08 09:36:06
      巴东县| 措美县| 施甸县| 通道| 五常市| 沅陵县| 景宁| 天峨县| 山丹县| 东港市| 乐至县| 辽中县| 察隅县| 静海县| 赤壁市| 武城县| 嵊州市| 黄石市| 海林市| 上饶市| 南雄市| 安阳市| 濉溪县| 铜鼓县| 庆云县| 固原市| 抚远县| 通化市| 德清县| 张掖市| 若羌县| 广河县| 尚志市| 响水县| 富民县| 三门县| 鹤壁市| 定边县| 延津县| 远安县| 稻城县|