• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      兩級(jí)特征聯(lián)合學(xué)習(xí)的情感說(shuō)話人識(shí)別

      2023-01-13 11:57:54劉金琳李冬冬蔡立志
      關(guān)鍵詞:級(jí)別語(yǔ)音狀態(tài)

      劉金琳,李冬冬,王 喆,蔡立志

      1.華東理工大學(xué) 信息科學(xué)與工程學(xué)院,上海 200237

      2.蘇州大學(xué) 江蘇省計(jì)算機(jī)信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215006

      聲音是代表人類身份的重要特征之一,較指紋和人臉等特征而言,聲音特征難以偽造,相關(guān)應(yīng)用都是以不接觸的方式得以實(shí)現(xiàn),因此,基于聲音特征的說(shuō)話人識(shí)別已經(jīng)成為當(dāng)下研究的熱點(diǎn)?,F(xiàn)如今,這幾個(gè)研究分支在醫(yī)學(xué)和司法領(lǐng)域都發(fā)揮著重要作用[1]。常見(jiàn)的應(yīng)用主要是基于語(yǔ)音的身份認(rèn)證、移動(dòng)設(shè)備中的語(yǔ)音助手以及智能家居等領(lǐng)域。

      說(shuō)話人識(shí)別(speaker identification,SI)是指判斷測(cè)試語(yǔ)音的說(shuō)話人標(biāo)簽,目前的說(shuō)話人識(shí)別方法主要由三部分組成:語(yǔ)音信號(hào)采集、說(shuō)話人特征提取、說(shuō)話人識(shí)別[2]。在語(yǔ)音信號(hào)采集的過(guò)程中通常會(huì)選擇相對(duì)安靜的環(huán)境,并且說(shuō)話人會(huì)保持更加平和的語(yǔ)態(tài)進(jìn)行錄制,以保證采集到的語(yǔ)音信號(hào)期望更加穩(wěn)定;在特征提取方面,目前的主流方法是通過(guò)深度神經(jīng)網(wǎng)絡(luò)提取能夠更具說(shuō)話人特性的高維特征;最后再通過(guò)判別器進(jìn)行說(shuō)話人標(biāo)簽的判定。

      然而,現(xiàn)實(shí)生活中說(shuō)話人識(shí)別的應(yīng)用場(chǎng)景下,信號(hào)采集階段可能無(wú)法達(dá)到理想狀態(tài)。人的發(fā)聲過(guò)程是非常復(fù)雜的生理過(guò)程,語(yǔ)音信號(hào)中包含的情感狀態(tài)、年齡、地域以及種族等信息非常豐富[3]。情感狀態(tài)相較其他的內(nèi)在影響因素而言更加易變,是當(dāng)下人機(jī)交互中語(yǔ)音特征的關(guān)鍵因素之一[4]。在進(jìn)行說(shuō)話人識(shí)別的過(guò)程中考慮情感的變化是非常有價(jià)值的。

      在真實(shí)場(chǎng)景中,訓(xùn)練階段的語(yǔ)音數(shù)據(jù)是在說(shuō)話人保持一個(gè)穩(wěn)定的狀態(tài)下進(jìn)行錄制的,而對(duì)測(cè)試語(yǔ)音進(jìn)行說(shuō)話人的判別的過(guò)程中,采集到的測(cè)試語(yǔ)音則可能具有不同的情感,這樣的差異會(huì)對(duì)說(shuō)話人識(shí)別的效果產(chǎn)生非常大的影響。

      因此本文提出利用片段級(jí)別特征指導(dǎo)幀級(jí)別特征學(xué)習(xí)的方法,利用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM)來(lái)對(duì)片段級(jí)特征中的情感信息進(jìn)行增強(qiáng),將得到的片段特征進(jìn)行拆分,送入由全連接層構(gòu)成的深度神經(jīng)網(wǎng)絡(luò)(deep neutral network,DNN)中對(duì)單幀的特征進(jìn)行學(xué)習(xí),使得模型能夠更好表征情感語(yǔ)音的特點(diǎn)。同時(shí),本文探究了不同幀數(shù)的特征在情感說(shuō)話人識(shí)別中的性能效果,以及不同情感狀態(tài)對(duì)說(shuō)話人特征表示的影響。

      1 相關(guān)工作

      在說(shuō)話人識(shí)別方面的主流方法包括包括高斯混合模型通用背景模型(Gaussian mixture model-universal background model,GMM-UBM)[5],i-vector[6]和x-vector[7]等方法。盡管GMM-UBM早在二十年前就提出了,但是通過(guò)通用模型進(jìn)行自適應(yīng)訓(xùn)練每個(gè)說(shuō)話人的模型的思想至今仍在使用。i-vector定義了一個(gè)總的可變性空間來(lái)模擬說(shuō)話人和信道的可變性。隨著深度學(xué)習(xí)的迅速發(fā)展,在提取DNN最后一個(gè)隱層的輸出作為說(shuō)話人的特征表示的基礎(chǔ)之上,使用時(shí)延神經(jīng)網(wǎng)絡(luò)(time delay neural network,TDNN)提取特征的x-vector方法來(lái)提取句子級(jí)別的說(shuō)話人特征表示。迄今為止,x-vector是應(yīng)用最廣泛的方法,許多最新的方法都是基于x-vector的改進(jìn)[8]。

      在帶有情感狀態(tài)的語(yǔ)音說(shuō)話人識(shí)別領(lǐng)域,很多優(yōu)秀的算法都是在說(shuō)話人識(shí)別的算法上進(jìn)行的改進(jìn)。Bao等人[9]通過(guò)分析通道效應(yīng)和情緒效應(yīng)的相似性,提出了情緒投影方法(emotion attribute projection,EAP)來(lái)減輕說(shuō)話人內(nèi)部的情緒可變性。Kenny等人[10]提出基于規(guī)則對(duì)數(shù)據(jù)進(jìn)行歸一,可以實(shí)現(xiàn)以小成本處理大量的會(huì)話可變性因素影響,以此來(lái)解決情感語(yǔ)音問(wèn)題。Mackova等人[11]利用i-vector比較了說(shuō)話人識(shí)別中梅爾頻率倒譜系數(shù)(Mel-frequency cepstral coefficients,MFCC)不同維度的混合和非混合情感模型。實(shí)驗(yàn)結(jié)果表明,采用較多維度的MFCC特征和非混合模型的識(shí)別效果較好。隨后,通過(guò)比較MFCC、線性預(yù)測(cè)系數(shù)(linear prediction coefficients,LPC)、線性預(yù)測(cè)倒譜系數(shù)(linear prediction cepstral coefficients,LPCC)等不同種類的前端特征,證明了能量、增量、加速度和三階回歸系數(shù)的MFCC特征(22 MFCC_E_D_A_T)在情感說(shuō)話人識(shí)別中具有最好的識(shí)別率[12]。Mansour等人[13]提出了一種利用MFCC特征提取i-vector的方法提取說(shuō)話人特征,結(jié)合支持向量機(jī)(support vector machines,SVM)分類器來(lái)構(gòu)建一個(gè)魯棒有效的情感說(shuō)話人識(shí)別系統(tǒng)。隨后,他們進(jìn)一步將i-vector建模技術(shù)與使用MFCC移位增量倒譜(MFCC-SDC)系數(shù)的SVM分類器相結(jié)合,改善了真實(shí)條件下的情感說(shuō)話人識(shí)別[14]。文獻(xiàn)[15]利用帶有MFCC的高斯混合模型(GMM)開(kāi)發(fā)了情感說(shuō)話人識(shí)別模型,并取得不錯(cuò)的結(jié)果。

      無(wú)論是否考慮情感因素,目前主流的說(shuō)話人識(shí)別方法主要是利用神經(jīng)網(wǎng)絡(luò)將說(shuō)話人的語(yǔ)音特征映射到更加復(fù)雜的特征空間,再進(jìn)行說(shuō)話人識(shí)別[16]。x-vector以及相關(guān)的改進(jìn)方法主要由三個(gè)部分組成:幀級(jí)別特征處理、統(tǒng)計(jì)池化以及片段級(jí)別特征處理[17]。其中幀級(jí)別特征處理是利用深度神經(jīng)網(wǎng)絡(luò)結(jié)合前后語(yǔ)音幀的信息來(lái)獲取長(zhǎng)時(shí)的說(shuō)話人特征,然后通過(guò)統(tǒng)計(jì)池化層對(duì)幀級(jí)別特征進(jìn)行信息的整合獲得片段級(jí)別的特征最后通過(guò)全連接層學(xué)習(xí)說(shuō)話人的特征[7]。目前很多的研究都是在此基礎(chǔ)之上改進(jìn)幀級(jí)別特征的處理方式,使得統(tǒng)計(jì)池化之前的特征能夠更加具有表達(dá)說(shuō)話人特征的能力[18]。同時(shí)也有方法提出使用幀級(jí)別的特征進(jìn)行端到端的說(shuō)話人識(shí)別[19],使用幀級(jí)別的特征在模型擬合的過(guò)程中降低了輸入維度,也就在一定程度上降低了模型的復(fù)雜度,減小訓(xùn)練樣本量的同時(shí)達(dá)到足夠好的性能。

      由此可見(jiàn),對(duì)片段級(jí)別特征和幀級(jí)別特征的改進(jìn)都能夠提升說(shuō)話人識(shí)別的性能,因此,本文提出利用片段級(jí)別特征對(duì)幀級(jí)別特征的學(xué)習(xí)進(jìn)行引導(dǎo),首先使用LSTM網(wǎng)絡(luò)對(duì)片段級(jí)別特征進(jìn)行學(xué)習(xí),得到帶有情感的說(shuō)話人特征后再對(duì)其中的特征幀進(jìn)行學(xué)習(xí),加強(qiáng)特征幀的表達(dá)能力,最后拼接幀級(jí)別特征和片段級(jí)別特征得到最終的說(shuō)話人特征表示來(lái)進(jìn)行標(biāo)簽預(yù)測(cè)。

      2 提出的方法

      情感信息是影響說(shuō)話人識(shí)別性能的重要因素之一,為了能夠更好地學(xué)習(xí)到語(yǔ)音特征中的情感信息,本文提出的幀級(jí)片段級(jí)聯(lián)合學(xué)習(xí),在模型擬合的過(guò)程中,利用片段特征學(xué)習(xí)到的信息指導(dǎo)幀級(jí)別特征學(xué)習(xí),從而使得網(wǎng)絡(luò)能夠在擬合時(shí)候進(jìn)一步對(duì)特征中的信息進(jìn)行整合。完整的情感說(shuō)話人識(shí)別框架如圖1所示,首先是將提取到的語(yǔ)音特征送入LSTM網(wǎng)絡(luò),通過(guò)對(duì)片段信息的提取,再將每一幀進(jìn)行拆分,送入DNN網(wǎng)絡(luò)中進(jìn)行幀級(jí)別特征的學(xué)習(xí),最后將片段級(jí)別和幀級(jí)別提取到的特征進(jìn)行拼接,送入softmax層進(jìn)行說(shuō)話人的分類。

      圖1 片段幀級(jí)聯(lián)合學(xué)習(xí)框架圖Fig.1 Structure of segment level and frame level feature joint learning

      2.1 特征提取

      由于每一條語(yǔ)音的長(zhǎng)度不一樣,因此在提取語(yǔ)音特征的時(shí)候會(huì)對(duì)語(yǔ)音進(jìn)行分幀處理。分幀將語(yǔ)音劃分成相同大小的幀級(jí)別特征,但每一個(gè)句子的幀級(jí)別特征的數(shù)量也還是會(huì)不一樣,因此許多現(xiàn)有的工作會(huì)設(shè)置句子中語(yǔ)音幀的數(shù)量,當(dāng)句子較長(zhǎng)時(shí),將多余的語(yǔ)音幀刪除,當(dāng)句子較短時(shí)則會(huì)通過(guò)補(bǔ)零或者重復(fù)補(bǔ)充。但當(dāng)模型訓(xùn)練以句子級(jí)別特征作為輸入時(shí),這樣的特征處理會(huì)對(duì)訓(xùn)練樣本量進(jìn)行刪減,因此目前大多工作會(huì)選擇片段級(jí)別特征作為輸入,以豐富樣本數(shù)量。

      F-bank特征作為一種用于深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練的聲學(xué)特征目前已經(jīng)受到越來(lái)越多研究者的使用。F-bank特征較MFCC特征而言具有更多原始的語(yǔ)音信息,且由于本文使用了LSTM網(wǎng)絡(luò),在網(wǎng)絡(luò)中就會(huì)對(duì)語(yǔ)音特征的時(shí)間依賴性進(jìn)行學(xué)習(xí),從而不需要在特征提取部分進(jìn)行一階或二階求導(dǎo)。

      2.2 片段級(jí)特征指導(dǎo)幀級(jí)特征的學(xué)習(xí)

      語(yǔ)音信號(hào)對(duì)于時(shí)間的依賴性很強(qiáng),尤其是帶有情感狀態(tài)的語(yǔ)音。語(yǔ)音中如果包含某種情感,這種情感狀態(tài)會(huì)持續(xù)存在于某一段語(yǔ)音中,因此如果網(wǎng)絡(luò)可以結(jié)合利用歷史信息進(jìn)行進(jìn)一步的特征凝練就可以使得特征中的情感信息更加準(zhǔn)確,從而提高說(shuō)話人識(shí)別的準(zhǔn)確率。但是人的情感不會(huì)持續(xù)很長(zhǎng)的時(shí)間,并且是在時(shí)刻轉(zhuǎn)變的,因此有時(shí)候網(wǎng)絡(luò)只需要結(jié)合最近的幾幀或者幾十幀的信息,而不是利用所有的歷史信息。

      LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN),解決了RNN將之前所有的歷史信息結(jié)合到當(dāng)前任務(wù)在處理情感語(yǔ)音上的問(wèn)題。LSTM在網(wǎng)絡(luò)單元中增加了3個(gè)門控結(jié)構(gòu),以實(shí)現(xiàn)對(duì)長(zhǎng)時(shí)信息的依賴問(wèn)題,因此取LSTM網(wǎng)絡(luò)的時(shí)序輸出作為片段級(jí)別特征,其中的情感信息會(huì)得到加強(qiáng),還會(huì)保留相應(yīng)的說(shuō)話人特征。通過(guò)對(duì)加強(qiáng)后的片段特征進(jìn)行單幀的訓(xùn)練對(duì)語(yǔ)音中的信息進(jìn)一步增強(qiáng),從而實(shí)現(xiàn)對(duì)最終說(shuō)話人識(shí)別的性能提升。

      設(shè)U=[x1,x2,…,xN]T為輸入的f-bank特征,形狀為N×d0,其中N是片段級(jí)別特征中語(yǔ)音幀的數(shù)量,d0是輸入特征的維度。如圖2所示,特征送入LSTM網(wǎng)絡(luò)后經(jīng)過(guò)每個(gè)網(wǎng)絡(luò)單元后取其序列輸出以得到具有更多信息的特征S∈RN×d1,其中d1表示經(jīng)過(guò)LSTM網(wǎng)絡(luò)后的特征維度。

      圖2 LSTM網(wǎng)絡(luò)提取片段級(jí)特征Fig.2 Segment level feature extraction from LSTM network

      LSTM網(wǎng)絡(luò)中的每一個(gè)單元如圖3所示,3個(gè)門控結(jié)構(gòu)對(duì)輸入數(shù)據(jù)進(jìn)行歷史信息的遺忘和選擇,其中1<t<N表示當(dāng)前特征幀,如公式(1)所示,ht是隱藏層輸出,也就是時(shí)序輸出的一部分,ct是記錄了歷史信息的控制細(xì)胞狀態(tài)。

      圖3 LSTM網(wǎng)絡(luò)單元內(nèi)部門控結(jié)構(gòu)Fig.3 Internal gating structure of LSTM network unit

      其中,?表示哈達(dá)瑪積(Hadamard product)即矩陣中對(duì)應(yīng)元素相乘,⊕表示矩陣加法。如公式(2)所示,通過(guò)Sigmoid函數(shù)可以將輸入的數(shù)據(jù)控制在(0,1)之間以達(dá)到對(duì)數(shù)據(jù)的選擇。

      通過(guò)對(duì)數(shù)據(jù)進(jìn)行對(duì)應(yīng)元素相乘的操作就可以保證遺忘門的輸出zf是網(wǎng)絡(luò)要遺忘的內(nèi)容,輸入門的輸出zi是網(wǎng)絡(luò)要保留在歷史信息中的內(nèi)容,輸出門的輸出z0是網(wǎng)絡(luò)最后要輸出的內(nèi)容。

      在計(jì)算zc和ht時(shí)使用的tanh激活函數(shù)如公式(3)所示,是對(duì)數(shù)據(jù)的非線性變換,將數(shù)據(jù)映射到( )-1,1空間,加速模型的收斂。

      取時(shí)序輸出結(jié)果S∈RN×d1,進(jìn)行拆分,如圖4所示,將拆分得到的N個(gè)幀級(jí)別特征ft∈R1×d1依次送入DNN網(wǎng)絡(luò)中,對(duì)經(jīng)過(guò)了長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)增強(qiáng)信息的特征進(jìn)行進(jìn)一步的學(xué)習(xí)。

      圖4 對(duì)片段級(jí)特征進(jìn)行拆分送入DNN進(jìn)一步學(xué)習(xí)Fig.4 Split and sent segment level features to DNN for further learning

      拆分得出來(lái)的每一幀送入一個(gè)6層的DNN中擬合模型以進(jìn)一步增強(qiáng)模型對(duì)特征的情感信息的表達(dá)。對(duì)DNN輸出的特征∈R1×d1進(jìn)行拼接,如公式(4):

      得到幀級(jí)別的特征片段F∈RN×d1,再將之前的到的片段級(jí)別特征S和幀級(jí)別特征片段F進(jìn)行拼接得到最終的特征,再將最后的特征送入softmax中進(jìn)行說(shuō)話人識(shí)別。

      3 實(shí)驗(yàn)設(shè)置和結(jié)果分析

      本章主要是對(duì)實(shí)驗(yàn)使用的數(shù)據(jù)集和實(shí)驗(yàn)過(guò)程中細(xì)節(jié)部分的描述,最后實(shí)驗(yàn)結(jié)果分析則是針對(duì)不同實(shí)驗(yàn)策略的實(shí)驗(yàn)結(jié)果進(jìn)行分析。

      3.1 數(shù)據(jù)集介紹

      為了驗(yàn)證所提出方法的有效性,本文選用了普通話情感語(yǔ)音語(yǔ)料庫(kù)(MASC)[20]和多種情感的多模態(tài)演員語(yǔ)料庫(kù)(Crame-D)[21]來(lái)進(jìn)行驗(yàn)證。

      MASC數(shù)據(jù)集是一個(gè)較大的中文情感說(shuō)話人數(shù)據(jù)集,包含了68名說(shuō)話人(男性45名、女性23名),5種情感狀態(tài)(中立、憤怒、興奮、傷心和驚恐)。每個(gè)說(shuō)話人下有3種狀態(tài)的語(yǔ)音數(shù)據(jù)(段落、語(yǔ)句和短語(yǔ)),段落狀態(tài)只有中立情感的一段較長(zhǎng)語(yǔ)音,語(yǔ)句狀態(tài)的語(yǔ)音每種情感狀態(tài)有60句,短語(yǔ)狀態(tài)的語(yǔ)音每種情感狀態(tài)有15句??紤]到情感狀態(tài)的豐富和語(yǔ)音長(zhǎng)短,實(shí)驗(yàn)中僅使用語(yǔ)句狀態(tài)的語(yǔ)音,總共68×60×5=20 400句。

      Crame-D是一個(gè)包含了91個(gè)專業(yè)演員(48名男性、48名女性)和6中情感(快樂(lè)、悲傷、害怕、失望、中心和憤怒)的情感數(shù)據(jù)庫(kù)。對(duì)于每一個(gè)說(shuō)話人的每種情感,都有12個(gè)預(yù)定的句子,其中第一個(gè)句子有3種情感強(qiáng)度。由于技術(shù)原因,部分?jǐn)?shù)據(jù)丟失,目前數(shù)據(jù)庫(kù)中保留了7 442條語(yǔ)音數(shù)據(jù)。

      3.2 實(shí)驗(yàn)設(shè)置

      實(shí)驗(yàn)中使用的F-bank特征的特征維度為26,為了盡可能表現(xiàn)方法的有效性,本次實(shí)驗(yàn)對(duì)N分別取10、20、40、60和70進(jìn)行多次實(shí)驗(yàn)選取最優(yōu)值。LSTM層單元數(shù)設(shè)置為128,6層DNN的網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)設(shè)置分別為128、256、512、1 024、512和128。模型中LSTM層和Dense層都是用了ReLU激活函數(shù),為了防止過(guò)擬合添加了批量標(biāo)準(zhǔn)化層(batch normalization)和丟失層(dropout),且丟失層設(shè)置參數(shù)為0.3。訓(xùn)練過(guò)程中反向傳播的損失函數(shù)為交叉熵,并使用Adam優(yōu)化器進(jìn)行優(yōu)化,批大?。╞atch size)為64。

      在實(shí)驗(yàn)過(guò)程中,在數(shù)據(jù)劃分方面,本文采用了兩種實(shí)驗(yàn)策略:為了證明方法的有效性,對(duì)于兩個(gè)數(shù)據(jù)集,每種情感的前70%用于訓(xùn)練,后30%用于測(cè)試。為了能夠進(jìn)一步證明所提出方法在情感信息提取中的有效性,由于Crame-D數(shù)據(jù)集的數(shù)據(jù)量較小,且每種情感的數(shù)據(jù)量不一致,而MASC數(shù)據(jù)集中每種情感的數(shù)據(jù)非常均勻且數(shù)量較多,故本文選擇在MASC數(shù)據(jù)集中進(jìn)行進(jìn)一步的實(shí)驗(yàn)驗(yàn)證,將MASC中單種情感的前70%用于訓(xùn)練,所有情感后30%進(jìn)行測(cè)試。

      文中的方法驗(yàn)證實(shí)驗(yàn)都基于Python3.7,用于實(shí)驗(yàn)數(shù)據(jù)運(yùn)行的服務(wù)器系統(tǒng)為Windows Server 2012R2,CPU為E5-2620v4 2.10 GHz,內(nèi)存大小為128 GB,GPU為Tesla K80,顯存大小為24 GB,CUDA版本為10.0。

      3.3 實(shí)驗(yàn)結(jié)果分析

      實(shí)驗(yàn)結(jié)果分析從三方面進(jìn)行展開(kāi),首先是通過(guò)在所有情感數(shù)據(jù)共同訓(xùn)練的情況下將所提出方法和其他工作進(jìn)行比較驗(yàn)證方法的有效性;然后是針對(duì)所提出的方法進(jìn)行不同情感下的測(cè)試,以探究不同情感的識(shí)別效果;最后通過(guò)單種情感數(shù)據(jù)的訓(xùn)練驗(yàn)證所提出方法在情感說(shuō)話人識(shí)別下的效果。

      所有實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)均為識(shí)別準(zhǔn)確率(identification rate,IR),指測(cè)試樣本中預(yù)測(cè)準(zhǔn)確的類別占所有測(cè)試樣本的比例。

      3.3.1 方法的有效性

      為了能夠驗(yàn)證方法的有效性,本文將所提出的方法與LSTM、BLSTM、x-vector以及CNN進(jìn)行了對(duì)比。對(duì)比算法中,LSTM方法使用單獨(dú)一層LSTM網(wǎng)絡(luò)將其時(shí)序輸出當(dāng)成送入一個(gè)全連接層,激活函數(shù)為“ReLU”最后通過(guò)softmax層進(jìn)行說(shuō)話人識(shí)別;BLSTM與LSTM方法相對(duì)應(yīng),將數(shù)據(jù)的正向的時(shí)序信息和反向的時(shí)序信息結(jié)合,使用一個(gè)BLSTM層進(jìn)行時(shí)序特征的提取;xvector使用了相同的TDNN網(wǎng)絡(luò)結(jié)構(gòu),對(duì)提取出來(lái)的特征向量直接通過(guò)softmax層進(jìn)行說(shuō)話人的分類;CNN使用了兩層CNN堆疊的網(wǎng)絡(luò)結(jié)構(gòu),每層CNN的節(jié)點(diǎn)數(shù)為32和64,激活函數(shù)為“ReLU”。

      從表1的結(jié)果中可以看出,當(dāng)N取20時(shí)各種方法的結(jié)果都達(dá)到峰值,這可能是因?yàn)閷?duì)于MASC數(shù)據(jù)集而言,20幀的語(yǔ)音片段能夠更好地在帶有情感狀態(tài)的語(yǔ)音中表現(xiàn)說(shuō)話人的特點(diǎn)。10幀的語(yǔ)音片段教短以至于特征中信息不足,導(dǎo)致性能下降;而當(dāng)N取40、60和70時(shí)反而性能下降的原因可能是因?yàn)閷?duì)于帶有情緒的語(yǔ)音而言,情感的狀態(tài)一直在發(fā)生細(xì)微的變化,即使是同一種情感也有強(qiáng)度的區(qū)分,當(dāng)語(yǔ)音片段較長(zhǎng)時(shí)可能導(dǎo)致片段中的情感狀態(tài)不一致,導(dǎo)致網(wǎng)絡(luò)在對(duì)說(shuō)話人的特征進(jìn)行擬合時(shí)受到情感因素的影響,使得性能降低。

      表1 所提方法在MASC和Crema-D上與其他方法的比較Table 1 Comparison of proposed method with other methods on MASC and Crema-D 單位:%

      根據(jù)兩個(gè)數(shù)據(jù)集的結(jié)果從整體上來(lái)說(shuō),與其他算法進(jìn)行比較,所提出的方法在N取10、20、40、60和70時(shí),都達(dá)到了最優(yōu)的結(jié)果。CNN的效果最差是因?yàn)镃NN在訓(xùn)練過(guò)程中,同時(shí)結(jié)合時(shí)域和頻域的信息,導(dǎo)致信息的不完整,在情感說(shuō)話人識(shí)別中效果不如其他算法。BLSTM效果比LSTM效果更好的原因是因?yàn)锽LSTM進(jìn)行了雙向的歷史信息選擇,對(duì)于情感說(shuō)話人識(shí)別來(lái)說(shuō),可以更好地加強(qiáng)語(yǔ)音片段中情感信息的影響力。x-vector是目前非常主流的說(shuō)話人識(shí)別方法,通過(guò)TDNN網(wǎng)絡(luò)結(jié)合當(dāng)前幀的前后多幀信息,最后通過(guò)池化層得到句子級(jí)別的表征,在情感說(shuō)話人識(shí)別上也有一定的優(yōu)秀表現(xiàn)。x-vector方法和BLSTM方法的性能相當(dāng),原因是因?yàn)閷?duì)于情感語(yǔ)音來(lái)說(shuō),情感信息可能不僅存在于固定的幾幀,而是有一定的范圍,因此雙向的長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)對(duì)情感的把控能力可能更強(qiáng)一些。本文所提的方法較之前的幾種方法都表現(xiàn)出了更加優(yōu)秀的性能,是因?yàn)橥ㄟ^(guò)LSTM對(duì)情感進(jìn)行了增強(qiáng)之后,對(duì)單幀的特征也進(jìn)行了學(xué)習(xí),從樣本數(shù)量和模型擬合的信息量?jī)蓚€(gè)部分都進(jìn)行了豐富。

      整體上進(jìn)行比較,MASC的結(jié)果普遍比Crema-D好,是因?yàn)镃rema-D數(shù)據(jù)集中的數(shù)據(jù)量只有MASC的1/3,且人數(shù)比較多,情感類型比較豐富,單種情感的數(shù)據(jù)較少導(dǎo)致。

      3.3.2 不同情感下的測(cè)試結(jié)果

      為了分析情感因素對(duì)說(shuō)話人識(shí)別的影響,在MASC數(shù)據(jù)集上對(duì)所提出來(lái)的方法將每種情感下的說(shuō)話人識(shí)別性能單獨(dú)羅列進(jìn)行分析。

      當(dāng)N取不同結(jié)果時(shí),5種情感狀態(tài)下的實(shí)驗(yàn)結(jié)果如圖5所示。從圖中可以看出,當(dāng)測(cè)試語(yǔ)音為中立和悲傷時(shí),模型的性能較好,這可能是因?yàn)橹辛⒄Z(yǔ)音中,說(shuō)話人的特征受到情感因素的影響幾乎不計(jì),而悲傷語(yǔ)音中,說(shuō)話人特征受到的影響相對(duì)其他情緒狀態(tài)下的語(yǔ)音小一些。從圖中可以非常明顯看出,憤怒和驚恐兩種情感對(duì)于說(shuō)話人特征的影響相對(duì)較大,這可能是因?yàn)楫?dāng)說(shuō)話人憤怒和驚恐時(shí),聲音會(huì)發(fā)生一定的變化比如聲音變尖銳,這在一定程度上會(huì)對(duì)說(shuō)話人的特征提取產(chǎn)生影響,從而降低說(shuō)話人識(shí)別的性能。

      圖5 不同情感下的模型評(píng)估雷達(dá)圖Fig.5 Radar map of model evaluation under different emotions

      3.3.3 單種情感數(shù)據(jù)訓(xùn)練下的結(jié)果分析

      為了進(jìn)一步證明所提出方法對(duì)情感語(yǔ)音中的說(shuō)話人特征擬合效果,在MASC數(shù)據(jù)集上,本文使用每種情感的前70%進(jìn)行訓(xùn)練,所有情感的后30%進(jìn)行測(cè)試。

      如圖6所示,圖(a)更貼合目前的實(shí)際應(yīng)用場(chǎng)景,在使用聲音進(jìn)行說(shuō)話人身份的驗(yàn)證時(shí),訓(xùn)練語(yǔ)句往往是說(shuō)話人情緒狀態(tài)處于中立且保持穩(wěn)定的時(shí)候錄制的,而說(shuō)話人在進(jìn)行身份認(rèn)證時(shí)的語(yǔ)音中包含的情感狀態(tài)和情感信息則根據(jù)當(dāng)時(shí)說(shuō)話人所處的現(xiàn)實(shí)場(chǎng)景決定,因此使用中立語(yǔ)音訓(xùn)練,多種情感測(cè)試的策略是非常有討論價(jià)值的。從圖中可以明顯看出,所提出的方法從總體上來(lái)說(shuō)表現(xiàn)比其他方法都好,在驚恐和憤怒兩種情緒上比起其他方法的優(yōu)越性更加明顯,這也在一定程度上減輕了驚恐和憤怒兩種情緒對(duì)說(shuō)話人特征提取的影響。

      圖6 單種情感訓(xùn)練下的結(jié)果Fig.6 Results of single emotion training

      從其他幾種情感數(shù)據(jù)單獨(dú)訓(xùn)練的結(jié)果來(lái)看,提出的方法都表現(xiàn)出了優(yōu)秀的性能,同時(shí)可以看出,中立與悲傷情感對(duì)說(shuō)話人特征的影響較為相近,和其他3種情緒狀態(tài)差距則較大。從綜合結(jié)果來(lái)看,以憤怒、驚恐和興奮語(yǔ)音來(lái)訓(xùn)練的結(jié)果較另外中立和悲傷語(yǔ)音訓(xùn)練的結(jié)果更好一些,這是因?yàn)檫@3種語(yǔ)音對(duì)說(shuō)話人特征的影響較為相似,而測(cè)試語(yǔ)音中這3種情感的語(yǔ)音數(shù)量比中立和悲傷語(yǔ)音的數(shù)量多一些,因此綜合結(jié)果更好。

      4 結(jié)束語(yǔ)

      本文提出了一種使用片段特征指導(dǎo)幀級(jí)別特征學(xué)習(xí)的方法,通過(guò)LSTM網(wǎng)絡(luò)對(duì)F-bank特征進(jìn)行片段級(jí)別的特征增強(qiáng),再將特征進(jìn)行拆分,依次送入DNN網(wǎng)絡(luò)中對(duì)單幀特征進(jìn)行增強(qiáng),最后在說(shuō)話人預(yù)測(cè)之前,將LSTM網(wǎng)絡(luò)得到的特征和進(jìn)行了幀級(jí)別信息增強(qiáng)的特征進(jìn)行了拼接,使得最終的說(shuō)話人表示更具具有代表性。通過(guò)在情感說(shuō)話人數(shù)據(jù)集MASC上進(jìn)行實(shí)驗(yàn)分析與討論,驗(yàn)證了所提出方法對(duì)情感狀態(tài)的語(yǔ)音中說(shuō)話人特征擬合的有效性。在實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn),當(dāng)片段特征取20幀時(shí),實(shí)驗(yàn)結(jié)果達(dá)到最佳。同時(shí)實(shí)驗(yàn)結(jié)果證明,傷心和中立情感對(duì)說(shuō)話人特征的影響較為接近,驚恐、憤怒和興奮的情感說(shuō)話人特征也較為接近。在未來(lái)的工作中,會(huì)進(jìn)一步考慮如何優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),使得網(wǎng)絡(luò)能夠進(jìn)一步減輕憤怒和驚恐情感對(duì)說(shuō)話人特征的影響。

      猜你喜歡
      級(jí)別語(yǔ)音狀態(tài)
      痘痘分級(jí)別,輕重不一樣
      魔力語(yǔ)音
      基于MATLAB的語(yǔ)音信號(hào)處理
      電子制作(2019年14期)2019-08-20 05:43:38
      狀態(tài)聯(lián)想
      基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對(duì)方正在輸入……
      邁向UHD HDR的“水晶” 十萬(wàn)元級(jí)別的SIM2 CRYSTAL4 UHD
      新年導(dǎo)購(gòu)手冊(cè)之兩萬(wàn)元以下級(jí)別好物推薦
      生命的另一種狀態(tài)
      你是什么級(jí)別的
      南和县| 宿州市| 台前县| 若羌县| 双柏县| 阜康市| 保定市| 博白县| 景宁| 蕲春县| 惠来县| 高淳县| 大兴区| 勐海县| 徐闻县| 荆门市| 胶州市| 开江县| 临洮县| 任丘市| 华容县| 榆树市| 金昌市| 东乡族自治县| 佛学| 昔阳县| 浑源县| 邳州市| 张家川| 宾川县| 义乌市| 浦城县| 文安县| 鹤壁市| 张家川| 延庆县| 廊坊市| 寿宁县| 平安县| 将乐县| 太湖县|