劉鵬
摘要:針對(duì)基于混合深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法展開(kāi)研究,闡述了該方法提出的背景、模型原理和實(shí)施過(guò)程。搭建了基于混合深度神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)語(yǔ)音增強(qiáng)模型,并與僅基于DNN的語(yǔ)音增強(qiáng)模型進(jìn)行了對(duì)比實(shí)驗(yàn),驗(yàn)證了基于混合深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法,進(jìn)一步提高了增強(qiáng)語(yǔ)音的質(zhì)量。
關(guān)鍵詞:混合深度神經(jīng)網(wǎng)絡(luò);語(yǔ)音增強(qiáng);深度學(xué)習(xí);語(yǔ)音質(zhì)量
0引言
近幾十年來(lái),語(yǔ)音增強(qiáng)(speech enhancement)由于其在移動(dòng)電話、語(yǔ)音識(shí)別、助聽(tīng)器設(shè)計(jì)等實(shí)時(shí)應(yīng)用方面的重要性而受到研究者的關(guān)注。語(yǔ)音增強(qiáng)方法的主要目的是在不失真的情況下提高退化語(yǔ)音(deteriorated speech)信號(hào)的語(yǔ)音質(zhì)量。為此,各國(guó)學(xué)者設(shè)計(jì)了許多算法。比如,譜減法是帶噪語(yǔ)音減去短期噪聲頻譜的估計(jì)值,從而產(chǎn)生純凈語(yǔ)音的估計(jì)值頻譜。信號(hào)子空間法是將帶噪語(yǔ)音信號(hào)通過(guò)矩陣分解的方法分解為信號(hào)子空間和噪聲子空間,進(jìn)而獲得純凈語(yǔ)音信號(hào)的頻譜估值。但是,在這些傳統(tǒng)方法中經(jīng)常遇到的問(wèn)題是:由此產(chǎn)生的增強(qiáng)語(yǔ)音經(jīng)常受到一種人為因素的影響,即“音樂(lè)噪聲”。而且,由于傳統(tǒng)的語(yǔ)音增強(qiáng)方法往往假設(shè)噪聲信號(hào)是平穩(wěn)的并且噪聲信號(hào)與語(yǔ)音信號(hào)不存在相關(guān)關(guān)系,這使得傳統(tǒng)語(yǔ)音增強(qiáng)算法無(wú)法適用于非平穩(wěn)噪聲的現(xiàn)實(shí)情況。
上世紀(jì)90年代,考慮到噪聲對(duì)語(yǔ)音干擾的復(fù)雜過(guò)程,部分學(xué)者開(kāi)始采用神經(jīng)網(wǎng)絡(luò)等非線性模型來(lái)建立帶噪語(yǔ)音與純凈語(yǔ)音信號(hào)之間的映射關(guān)系。文獻(xiàn)[4]和文獻(xiàn)[5]利用淺層神經(jīng)網(wǎng)絡(luò)(shallow neuralnetworks)作為非線性濾波器來(lái)預(yù)測(cè)時(shí)域或頻域內(nèi)的純凈信號(hào)。然而,淺層神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)規(guī)模小,不能充分學(xué)習(xí)帶噪語(yǔ)音特征與目標(biāo)信噪比之間的關(guān)系。不僅如此,淺層神經(jīng)網(wǎng)絡(luò)的隨機(jī)初始化常常會(huì)出現(xiàn)明顯的局部極小值或停滯,對(duì)于包含更多隱藏層的體系結(jié)構(gòu),問(wèn)題會(huì)更為明顯。2006年Hinton等學(xué)者在其論文“A fast learning algorithm for deepbelief nets”和“Reducing the dimensionality of datawith neural networks”中提出了一種貪婪的分層學(xué)習(xí)算法,為訓(xùn)練深度架構(gòu)帶來(lái)了突破,同時(shí)也迎來(lái)深度學(xué)習(xí)技術(shù)的大繁榮。深度學(xué)習(xí)模型的每一層都進(jìn)行預(yù)訓(xùn)練,以學(xué)習(xí)其輸入(或前一層的輸出)的高級(jí)表示。對(duì)于回歸任務(wù),深度學(xué)習(xí)已被應(yīng)用于多個(gè)語(yǔ)音合成任務(wù)中。在文獻(xiàn)[11]和[12]中,堆疊降噪自編碼器(stacked denoising autoencoders)作為一種深度模型來(lái)建立帶噪語(yǔ)音和純凈語(yǔ)音信號(hào)特性之間的關(guān)系,為了捕捉語(yǔ)音信號(hào)的時(shí)間特性,部分學(xué)者還引入了循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neuralnetworks),從而消除了多層感知器(muhilayerperceptrons)中對(duì)上下文窗口的顯式選擇,文獻(xiàn)[13]和[14]采用深度循環(huán)神經(jīng)網(wǎng)絡(luò)(deep recurrentneural networks)為魯棒語(yǔ)音識(shí)別(robust speechrecognition)進(jìn)行特征增強(qiáng)。但在有限噪聲類(lèi)型下訓(xùn)練的深度循環(huán)神經(jīng)網(wǎng)絡(luò)泛化能力較弱。此外,近年來(lái)基于對(duì)帶噪語(yǔ)音頻譜圖(spectrograms)處理的語(yǔ)音增強(qiáng)算法也不斷被提出。Fu等學(xué)者使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks)直接從帶噪語(yǔ)音的頻譜圖中估計(jì)出了純凈語(yǔ)音的頻譜圖,該方法較基于深度神經(jīng)網(wǎng)絡(luò)(deep neural networks)的幅度處理方法相比性能有了很大提高。
隨著學(xué)者對(duì)深度學(xué)習(xí)模型研究的不斷深入,人們開(kāi)始嘗試將深度學(xué)習(xí)模型與原有機(jī)器學(xué)習(xí)模型(如SVM或GMM)或者不同深度學(xué)習(xí)模型之間進(jìn)行聯(lián)合,構(gòu)建出混合的深度學(xué)習(xí)模型結(jié)構(gòu),比如:DNN-HMM結(jié)構(gòu)、DNN-GMM結(jié)構(gòu)、CNN-RNN結(jié)構(gòu)、CNN-HMM結(jié)構(gòu)以及RNN-HMM結(jié)構(gòu)等。研究發(fā)現(xiàn),使用這些混合網(wǎng)絡(luò)相較于單一網(wǎng)絡(luò)結(jié)構(gòu)能夠獲得更好的性能和實(shí)驗(yàn)效果。
1 基本方法概述
1.1 語(yǔ)音增強(qiáng)的概念
語(yǔ)音增強(qiáng)是指通過(guò)抑制噪聲來(lái)改善聽(tīng)眾對(duì)帶噪語(yǔ)音某方面的感知體驗(yàn)。在實(shí)際應(yīng)用中,語(yǔ)音增強(qiáng)對(duì)帶噪語(yǔ)音感知體驗(yàn)的改善主要有質(zhì)量(quality)和可懂度(intelligibility)兩個(gè)方面。針對(duì)帶噪語(yǔ)音質(zhì)量的改善是非常必要的,特別是在其長(zhǎng)時(shí)間暴露于諸如工廠生產(chǎn)車(chē)間或航空飛機(jī)場(chǎng)等高分貝噪音環(huán)境下,語(yǔ)音質(zhì)量的改善可以減少聽(tīng)眾的聽(tīng)覺(jué)疲勞。使用語(yǔ)音增強(qiáng)算法可以在一定程度上降低或抑制背景噪聲,因此有時(shí)也稱(chēng)其為噪聲抑制算法(noisesuppression algorithms)。
1.2 深度學(xué)習(xí)模型
深度學(xué)習(xí)指的是廣泛的機(jī)器學(xué)習(xí)技術(shù)以及基于多層非線性信息處理的體系結(jié)構(gòu),這些信息處理本質(zhì)上被認(rèn)為是分層的,深度學(xué)習(xí)的模型結(jié)構(gòu)可以分為單一獨(dú)立(Standalone)結(jié)構(gòu)(通常包括DNNs、CNNs和RNNs等)和混合(hybrid)結(jié)構(gòu)(包括DNN-HMM、DNN-GMM、CNN-RNN、CNN-HMM和RNN-HMM等)。
卷積神經(jīng)網(wǎng)絡(luò)(CNNs)被認(rèn)為是一個(gè)由多個(gè)特征提取階段所構(gòu)成的深層體系結(jié)構(gòu),其中每個(gè)階段都包含一個(gè)卷積層和一個(gè)池化層以及非線性激活函數(shù)(ReLU),通過(guò)這樣的組合方式力求接近復(fù)雜的非線性模型函數(shù)。卷積層共享了權(quán)值,而池化層對(duì)來(lái)自卷積層的輸出進(jìn)行采樣,降低了數(shù)據(jù)維度。CNNs假設(shè)特征具有不同層次結(jié)構(gòu)并可以通過(guò)卷積內(nèi)核提取。在監(jiān)督訓(xùn)練過(guò)程中,通過(guò)學(xué)習(xí)層次特征來(lái)完成既定的任務(wù)。
循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)是一類(lèi)允許通過(guò)網(wǎng)絡(luò)的不同層共享參數(shù)的深度神經(jīng)網(wǎng)絡(luò)。RNNs是基于類(lèi)似樹(shù)的結(jié)構(gòu)上循環(huán)地使用相同的權(quán)值集來(lái)開(kāi)發(fā)的,該樹(shù)按拓?fù)漤樞虮闅v。RNNs主要用于利用已有的數(shù)據(jù)樣本預(yù)測(cè)未來(lái)的數(shù)據(jù)序列。當(dāng)涉及到語(yǔ)音或文本等序列數(shù)據(jù)的建模時(shí),RNNs是非常流行的。
將卷積神經(jīng)網(wǎng)絡(luò)(CNNs)與循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)相結(jié)合,用于對(duì)音頻信號(hào)或單詞序列等序列數(shù)據(jù)進(jìn)行建模,這種混合模型稱(chēng)為卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(CRNNs)。通過(guò)用RNNs替換最后一層卷積,可以將CRNNs描述為一個(gè)經(jīng)過(guò)修改的CNNs。在CRNNs中,CNNs和RNNs分別扮演著特征提取器和時(shí)間歸納器的角色。采用RNNs對(duì)特征進(jìn)行聚類(lèi),使得網(wǎng)絡(luò)能夠考慮全局結(jié)構(gòu),而局部特征由卷積層提取。這種結(jié)構(gòu)最初是在文獻(xiàn)[17]中提出用于文檔分類(lèi),文獻(xiàn)[18]采用該結(jié)構(gòu)進(jìn)行了音樂(lè)標(biāo)注。
2 基于混合深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法
2.1模型概述
基于混合深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)模型由三個(gè)部分組成:首先,將帶噪語(yǔ)音頻譜圖與若干個(gè)卷積核(kemel)進(jìn)行卷積,形成特征圖(feature maps),并將所有特征圖拼接成一個(gè)二維特征圖:然后,利用雙向RNNs在時(shí)間維度對(duì)二維特征圖進(jìn)行進(jìn)一步的變換,建立連續(xù)幀之間的動(dòng)態(tài)關(guān)聯(lián);最后,建立預(yù)測(cè)頻譜圖和純凈語(yǔ)音頻譜圖之間的成本函數(shù)(costfunction),利用全連接層(Fully Connected Layer)對(duì)純凈語(yǔ)音頻譜圖逐幀進(jìn)行預(yù)測(cè)。與已有的DNNs和RNNs模型相比,由于卷積內(nèi)核的稀疏性,該混合網(wǎng)絡(luò)具有更高的數(shù)據(jù)效率和處理效率。此外,雙向循環(huán)網(wǎng)絡(luò)使得模型能夠自適應(yīng)地對(duì)連續(xù)幀之間的動(dòng)態(tài)關(guān)聯(lián)進(jìn)行建模。
2.2 模型建立
假定y和x分別為帶噪語(yǔ)音和其所對(duì)應(yīng)的純凈語(yǔ)音頻譜圖,其維度均為d×t。其中,d表示頻譜圖的頻帶數(shù)目,t表示頻譜圖的長(zhǎng)度。假定Z為卷積核,其維度為b×w。將帶噪語(yǔ)音頻譜圖y與內(nèi)核z進(jìn)行卷積,所形成的特征圖如公式(1)所示。
3 基于混合深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)實(shí)驗(yàn)
將基于混合深度神經(jīng)網(wǎng)絡(luò)所建立的語(yǔ)音增強(qiáng)模型與僅基于DNN的語(yǔ)音增強(qiáng)模型在語(yǔ)音增強(qiáng)的質(zhì)量效果進(jìn)行了實(shí)驗(yàn)對(duì)比。
3.1實(shí)驗(yàn)過(guò)程
3.1.1 數(shù)據(jù)準(zhǔn)備
分別搭建基于混合深度神經(jīng)網(wǎng)絡(luò)和僅基于DNN的語(yǔ)音增強(qiáng)模型。純凈語(yǔ)音選自TIMIT數(shù)據(jù)庫(kù),噪聲信號(hào)選取NOISEX-92中的babble、ca、street和train四種噪聲,按照-5dB、0dB和5dB分別加噪。
兩種模型的訓(xùn)練數(shù)據(jù)集均由TIMI了數(shù)據(jù)庫(kù)中的全部訓(xùn)練集4620個(gè)句子,按照不同噪聲類(lèi)型(4種)結(jié)合不同信噪比(3種)所產(chǎn)生的不同加噪條件(12種)的帶噪語(yǔ)音和與之對(duì)應(yīng)的純凈語(yǔ)音組成。所以,采用了55440個(gè)語(yǔ)音對(duì)來(lái)構(gòu)成兩種模型的訓(xùn)練數(shù)據(jù)集。
兩種模型的測(cè)試數(shù)據(jù)集均由TIMIT數(shù)據(jù)庫(kù)中的全部測(cè)試集1680個(gè)句子,按照不同噪聲類(lèi)型(4種)結(jié)合不同信噪比(3種)所產(chǎn)生的不同加噪條件(12種)的帶噪語(yǔ)音和與之對(duì)應(yīng)的純凈語(yǔ)音組成。所以,采用了20160個(gè)語(yǔ)音對(duì)來(lái)構(gòu)成兩種模型的測(cè)試數(shù)據(jù)集,
3.1.2模型參數(shù)配置
基于混合深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)模型實(shí)驗(yàn)中,作為預(yù)處理步驟,首先使用短時(shí)傅里葉變換(STFT)從每個(gè)話語(yǔ)中提取頻譜圖。每個(gè)頻譜圖中有256個(gè)頻帶(d=256)和500幀(t=500)。模型卷積層中有256個(gè)維度為32×11的卷積核,滑動(dòng)步長(zhǎng)(stride)頻率維度為16.時(shí)間維度為1.邊緣外自動(dòng)補(bǔ)0。在卷積層之后使用了兩層雙向LSTMs.每層都有1024個(gè)隱藏單元。
僅基于DNN的語(yǔ)音增強(qiáng)模型實(shí)驗(yàn)中,DNN模型包含3個(gè)隱藏層,每個(gè)層都有2048個(gè)隱藏單元。
3.2 實(shí)驗(yàn)結(jié)果及分析
實(shí)驗(yàn)中語(yǔ)音質(zhì)量的評(píng)價(jià)選用PESQ方法,語(yǔ)音質(zhì)量的PESQ評(píng)價(jià)結(jié)果見(jiàn)表1-表3所示。
語(yǔ)音質(zhì)量的PESQ值越高說(shuō)明對(duì)應(yīng)的語(yǔ)音主觀聽(tīng)覺(jué)質(zhì)量越好,從表1-表3語(yǔ)音PESQ測(cè)試值可以看出:相較于僅基于DNN的語(yǔ)音增強(qiáng)模型,基于混合深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)模型進(jìn)一步提高了增強(qiáng)語(yǔ)音的質(zhì)量,
由于在所構(gòu)建的混合深度神經(jīng)網(wǎng)絡(luò)中,CNNs和RNNs分別扮演了特征提取器和時(shí)間歸納器的角色。采用雙向LSTMs對(duì)特征進(jìn)行聚類(lèi),使得網(wǎng)絡(luò)能夠考慮語(yǔ)音的全局結(jié)構(gòu),而局部特征可以由卷積層提取。因此,基于混合深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法較僅基于DNN的語(yǔ)音增強(qiáng)方法能夠?qū)W習(xí)到語(yǔ)音中更多的上下文全局信息,表現(xiàn)出更好的語(yǔ)音質(zhì)量增強(qiáng)效果,
4 結(jié)束語(yǔ)
本文針對(duì)基于混合深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法展開(kāi)了研究,闡述了該方法提出的背景、模型原理和實(shí)施過(guò)程,搭建了基于混合深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)模型和僅基于DNN的語(yǔ)音增強(qiáng)模型,進(jìn)行了對(duì)比實(shí)驗(yàn),驗(yàn)證了基于混合深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法,進(jìn)一步提高了增強(qiáng)語(yǔ)音的質(zhì)量。