• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      漸進學習語音增強方法在語音識別中的應用

      2018-03-28 06:33:12文仕學
      小型微型計算機系統(tǒng) 2018年1期
      關鍵詞:深層信噪比語音

      文仕學,孫 磊,杜 俊

      (中國科學技術大學 語音及語言信息處理國家工程實驗室,合肥 230027)

      1 引 言

      隨著移動互聯(lián)網的發(fā)展,自動語音識別(Automatic Speech Recognition,ASR)在智能終端上得到了越來越廣泛的應用.伴隨著語音識別技術的不斷發(fā)展,語音識別系統(tǒng)的性能不斷提高,高信噪比條件下的語音識別系統(tǒng)取得了較高的識別率.然而,語音識別系統(tǒng)在復雜的應用環(huán)境中,由于測試環(huán)境和訓練環(huán)境不匹配,導致傳統(tǒng)的語音識別系統(tǒng)的性能會出現(xiàn)明顯的下降[1].這是因為對基于統(tǒng)計模型的語音識別系統(tǒng),訓練的數(shù)據(jù)必須具有充分的代表性.然而,當識別系統(tǒng)應用于噪聲環(huán)境時,測試語音中的噪聲和訓練語音中的噪聲之間存在不匹配,識別系統(tǒng)在噪聲環(huán)境下的性能下降主要歸因于這種不匹配.而對于馬路、餐館、商場、汽車、飛機等信噪比惡劣環(huán)境中的語音信號來說,現(xiàn)有語音識別系統(tǒng)的魯棒性還有待提升.因此噪聲魯棒性問題一直是限制語音識別系統(tǒng)在現(xiàn)實生活中得到大規(guī)模應用的一個主要問題[2].其中語音識別的噪聲魯棒性是指:當輸入語音質量退化,語音的音素特性、分割特性或聲學特性在訓練和測試環(huán)境中不同時,語音識別系統(tǒng)仍然保持較高識別率的性質[3].

      近年來,提高語音識別的抗噪聲能力有很多比較成功的技術和算法,語音增強技術就是其中一種.語音增強的目的是從含噪語音中提取盡可能純凈的原始語音信號,以提高語音的質量和可懂度[4].語音增強在語音識別模型的前端進行降噪預處理,能有效的抑制背景噪聲,提升測試語音信噪比,從而提高語音識別系統(tǒng)的性能[5].但帶來的頻譜失真和音樂噪聲卻是對識別的不利因素[6].

      2 傳統(tǒng)語音增強算法回顧

      假設帶噪語音在時域上符合下面這個顯式的失真模型:

      y[t]=x[t]+n[t]

      (1)

      x[t],n[t]和y[t]分別表示干凈語音,加性噪聲和帶噪語音.從目前的發(fā)展上看,語音增強最常用的方法是基于短時譜估計的方法,即先作短時傅里葉變換,將失真模型變換到頻域表示如下:

      Y[l,k]=X[l,k]+N[l,k]l=1,2,…,N;k=1,2,…,M

      (2)

      其中X[l,k],N[l,k]和Y[l,k]分別表示干凈語音,加性噪聲和帶噪語音在第l幀和第k頻帶的頻域信號的復數(shù)表示,M為總頻帶數(shù),N為總幀數(shù).然后基于頻域模型利用Y[l,k]來估計X[l,k],譜估計方法主要包括:

      1.譜減法[7].譜減法(Spectral Subtraction,SS)假設噪聲是平穩(wěn)的加性噪聲且與語音信號不相關,從帶噪語音的功率譜中減去噪聲功率譜,得到語音頻譜.譜減法及其改進算法運算量較小,易于實時實現(xiàn),增強效果也較好.但是增強后的語音容易留下類似音樂的噪聲,對主觀聽感的影響較大.

      2.維納濾波[8].維納濾波方法可以看作對時域波形的最小均方誤差估計.該算法的優(yōu)點是殘余噪聲較小,且信號各幀之間有較好的連續(xù)性,且?guī)缀鯖]有音樂噪聲,但是會殘留類似高斯白噪聲的殘差噪聲.

      3.最小均方誤差估計[9].最小均方誤差(Minimum Mean Square Error,MMSE)估計及其改進算法對非平穩(wěn)的噪聲具有良好的抑制作用,但是較難估計語音信號的概率密度函數(shù).

      以上三種無監(jiān)督學習方法,都無法對非平穩(wěn)噪聲進行有效抑制,這是因為非平穩(wěn)噪聲具有突發(fā)性,如果僅僅通過前面的非語音幀來估計噪聲的方差,很難有效跟蹤非平穩(wěn)噪聲.

      圖1 基于深層神經網絡的語音增強流程圖Fig.1 Flowchart of speech enhancement based on DNN

      4.基于深層神經網絡的語音增強方法[10].在近些年來,隨著深度學習的發(fā)展,深層神經網絡的深層非線性結構可以被設計成一個精細的降噪濾波器,以很好地抑制非平穩(wěn)噪聲.其原理是利用深層神經網絡作為學習帶噪語音和干凈語音之間非線性映射關系的回歸模型,該方法流程如圖1所示.

      3 漸進學習語音增強及識別方法

      從前面的傳統(tǒng)語音增強算法我們可以看出,這些方法都是從帶噪語音對語音進行直接估計.以前面的深層神經網絡方法為例,為了提高深層神經網絡模型對噪聲的魯棒性,通常需要使用大量的帶噪語音來訓練深層神經網絡,這一方面將導致深層神經網絡模型的參數(shù)增加,另一方面也會導致計算量的增加,以及系統(tǒng)處理速度的降低.此外,在低信噪比環(huán)境下,深層神經網絡增強后的語音會存在較大失真[11].在保持深層神經網絡模型對噪聲魯棒性的前提下,為了減少深層神經網絡的參數(shù),近年一種漸進學習[11](Progressive Learning,PL)語音增強方法被提出.不同于參考文獻11僅使用該方法做語音增強,本文與參考文獻的區(qū)別在于將該方法作為識別模型的前端部分,應用到語音識別領域.漸進學習語音增強及識別方法的流程圖如圖2所示.其中,在前端增強模塊,漸進學習語音增強方法在傳統(tǒng)的深層神經網絡的語音增強方法基礎上,可以進一步提高語音的聽感和可懂度等指標.而在后端識別模塊,通過該方法訓練的PL-DNN對帶噪語音進行前端降噪,然后提取Filter-bank特征,再送給后端識別ASR-DNN聲學模型和語言模型進行解碼搜索,最后輸出識別結果.

      圖2 漸進學習語音增強及識別方法流程圖Fig.2 Flowchart of PL speech enhancement and ASR method

      從漸進學習語音增強及識別方法可以看出,其與傳統(tǒng)深層神經網絡最大的區(qū)別在于訓練深層神經網絡模型階段,該方法通過逐漸提升信噪比,將從帶噪語音到干凈語音的映射過程分為3個階段,深層神經網絡的中間隱層直接對應到學習一定的信噪比(如每次10dB),這可以有效減少深層神經網絡模型的參數(shù),同時可以更好地減少語音的失真,尤其是低信噪比環(huán)境下的失真.同時,每個階段的學習過程,可以促進下一階段的學習.此外,3個階段的學習結果,可以提供豐富的信息量,這樣通過后處理可以進一步提高性能.漸進學習的語音增強及識別方法的直觀解釋如圖3所示.

      圖3 漸進學習語音增強及識別方法的圖解Fig.3 Illustration of PL speech enhancement and ASR method

      漸進學習語音增強方法訓練的PL-DNN模型結構如下頁圖4所示.對于目標層(如目標1、目標2和目標3),采用的激勵函數(shù)為線性激勵;而對于其他隱層,則采用Sigmoid激勵函數(shù).這些目標層的設計,是為了逐步提高語音中心幀的信噪比,直到學習到干凈語音.

      3.1 語音增強訓練階段

      在漸進學習語音增強方法的訓練階段,可以按以下步驟進行:

      步驟1.加噪:通過對干凈語音加噪,生成大量的帶噪語音作為輸入信號(如信噪比為0dB);與輸入信號一一對應,生成指定信噪比的帶噪語音作為目標1(如信噪比為10dB);相應地,生成指定信噪比的帶噪語音作為目標2(如信噪比為20dB);同時,將加噪前的干凈語音作為目標3.

      步驟2.特征提?。豪谜Z音信號的短時平穩(wěn)性,通過在時域進行漢明窗加窗,對語音信號作分幀處理.選用對數(shù)功率譜(Log-power Spectrum,LPS)作為增強特征,通過對當前幀的時域采樣點作離散傅里葉變換,將語音信號從時域變換到頻域,并取當前幀及前后N幀(本文中選取N=3)的對數(shù)功率譜,作為訓練PL-DNN的輸入特征.

      圖4 漸進學習深層神經網絡結構圖Fig.4 Architecture of progressive learning DNN

      步驟3.PL-DNN訓練:漸進學習語音增強方法訓練的PL-DNN模型結構如圖4所示.在前向階段,當前目標層增強后的對數(shù)功率譜特征作為下一目標層的輸入;而在后向傳播階段,采用MMSE準則,作為K個(本文中選取K=3)目標層優(yōu)化的目標函數(shù),如式(3)所示.

      (3)

      (4)

      其中,ε是指全部目標函數(shù)的梯度,Wl和bl分別是指第l層的待學習的權重和偏置,L1、L2和L3是指3個目標層,分別對應目標1、目標2和目標3.值得注意的是,每個目標層的梯度,只影響該目標層前面層的參數(shù)更新.為了平衡多個目標層,采用α1和α2作為目標1和目標2的加權權重.在這里可以發(fā)現(xiàn),如果將α1和α2設為0,則該情況下PL-DNN與傳統(tǒng)深層神經網絡模型相同.在本文中,將α1和α2設為0.1.

      步驟4.訓練結束:訓練多次迭代收斂后,保存PL-DNN.

      3.2 語音增強階段

      在漸進學習語音增強方法的增強階段,可以按以下步驟進行:

      步驟1.數(shù)據(jù)準備:準備好需要增強的語音信號.

      步驟2.特征提取:與訓練階段3.1中步驟2相同,選用當前幀及前后N幀的對數(shù)功率譜特征作為輸入.

      步驟3.網絡解碼:將輸入特征通過3.1中訓練的PL-DNN網絡,解碼得到3個目標層的輸出,本文將目標1、目標2和目標3的輸出分別定義為輸出1、輸出2和輸出3.

      步驟4.波形重建:在利用已經訓練好的深層神經網絡估計到干凈語音的對數(shù)功率譜特征之后,就需要對語音的波形進行重建,以獲得一個可以主觀測聽的波形文件,具體步驟如下:將3個輸出的對數(shù)功率譜特征,使用增強前的語音信號的相位信息,通過傅里葉反變換,并在時域上通過經典的重疊相加法,對各幀進行重組,會分別得到3個增強后的整個句子的波形文件.可以分別采用這3個結果作為增強結果輸出,也可以將這3個增強后的波形文件進行后處理(如加權平均),最終得到1個語音作為增強結果并輸出.該步驟中,使用增強前語音的相位作為增強后語音的相位,是基于人耳對語音相位不敏感這一前提[12].

      3.3 語音識別訓練階段

      由于本文對比的是兩種語音增強方法對語音識別性能的影響,因此在語音識別的訓練階段,漸進學習語音增強方法和傳統(tǒng)深層神經網絡的語音增強方法,使用完全相同的語音識別模型,都是按以下步驟進行:

      步驟1.數(shù)據(jù)準備:將語音識別的語音訓練數(shù)據(jù),按照3.2中的步驟,通過3.1中訓練的PL-DNN網絡,得到增強后的語音訓練數(shù)據(jù).

      步驟2.特征提?。号c語音增強的訓練階段類似,將增強后語音訓練數(shù)據(jù),進行特征提取.不同于語音增強選取的對數(shù)功率譜特征,語音識別將選取Filter-bank特征,作為ASR-DNN聲學建模訓練過程的輸入特征.其中,F(xiàn)ilter-bank特征是指用Mel濾波器組濾波之后得到的聲學特征.

      圖5 DNN-HMM聲學模型的流程圖Fig.5 Flowchart of DNN-HMM based acoustic model

      步驟3.ASR-DNN聲學建模:這一步使用深層神經網絡-隱馬爾科夫模型(Hidden Markov Model,HMM)混合系統(tǒng)作為聲學模型[13],對Filter-bank特征進行聲學統(tǒng)計建模.聲學模型將聲學和發(fā)音學的相關知識進行整合,以3.3中的步驟2提取的特征作為輸入,隱馬爾科夫模型對語音信號的序列特性進行建模,深層神經網絡對所有聚類后的三因素狀態(tài)的似然度進行建模,并為可變長特征序列生成聲學模型分數(shù)[14].使用隱馬爾科夫模型和深層神經網絡建立聲學模型的流程如圖5所示,在圖5中,上半部分描述的是的隱馬爾科夫模型結構,隱馬爾科夫模型的結構和轉移概率是使用訓練數(shù)據(jù)訓練一個隱馬爾科夫模型-高斯混合模型(Gaussian Mixture Model,GMM)得到.圖5中間部分描述的是一個深層神經網絡,用來決定隱馬爾科夫模型的發(fā)射概率.本文選用的深層神經網絡聲學模型的隱層數(shù)為6層,即包括輸入、輸出層的總層數(shù)為8層,6個隱層都選用2048個神經元.圖5中的下半部分是深層神經網絡模型的輸入,需要注意的是,和語音增強使用的深層神經網絡一樣,語音識別使用的深層神經網絡模型的輸入同樣是多幀特征,本文選取的是11幀輸入.在語音識別過程中,一小段語音按照圖5中的流程被處理,然后與不同的發(fā)音比較相似度,計算隱馬爾科夫模型中的狀態(tài)發(fā)射概率.

      步驟4.訓練結束:訓練多次迭代收斂后,保存ASR-DNN.

      3.4 語音識別測試階段

      在漸進學習的語音增強及識別的測試階段,可以按以下步驟進行:

      步驟1.數(shù)據(jù)準備:與訓練階段3.3中的步驟1相同,將語音識別的語音測試數(shù)據(jù),按照3.2中的步驟,通過3.1中訓練的PL-DNN網絡,得到增強后的語音測試數(shù)據(jù).

      步驟2.特征提?。号c訓練階段3.3中的步驟2相同,將增強后語音測試數(shù)據(jù),進行特征提取.提取Filter-bank特征,作為ASR-DNN解碼的輸入特征.

      步驟3.計算聲學模型和語言模型得分:將3.4中的步驟2得到的語音測試數(shù)據(jù)的Filter-bank特征作為3.3中訓練的ASR-DNN聲學模型輸入,生成聲學模型分數(shù).使用語言模型通過詞與詞、詞與句子的映射,生成語言模型分數(shù).語言模型表示某一詞序列發(fā)生的概率,通過鏈式法則,把一個句子的概率拆解成句子中的每個詞的概率之積.

      步驟4.解碼搜索:解碼搜索是指對給定的特征向量序列和若干假設詞序列,按3.4中的步驟3分別計算聲學模型分數(shù)和語言模型分數(shù),并將總體輸出分數(shù)最高的詞序列作為最終識別結果輸出.這是因為在給定了根據(jù)語法、字典對馬爾科夫模型進行連接后的搜索的網絡后,通過在所有可能的搜索路徑中選擇一條或多條最優(yōu)(如選用最大后驗概率)路徑作為識別結果,這樣可以根據(jù)當前幀的前后幀,對時序的語音幀進行有效約束.

      4 實驗結果及分析

      4.1 實驗配置

      為了驗證漸進學習語音增強方法在語音識別中的有效性,我們在實際錄制的真實語音數(shù)據(jù)庫上進行了一系列的實驗,實驗配置介紹如下.

      對于語音增強的訓練數(shù)據(jù),我們使用800小時真實場景下錄制的干凈語音數(shù)據(jù)(共約100萬句,內容主要是在安靜近場環(huán)境下錄制的訪談和講話)以及真實場景下錄制的噪聲數(shù)據(jù),語音和噪聲的采樣率都是16kHz.

      對傳統(tǒng)深層神經網絡,通過人工加噪,為輸入層生成5種信噪比的帶噪語音,5種信噪比分別是0dB、5dB、10dB、15dB和20dB,各信噪比的比例為1:1:1:1:1,即分別為160小時.具體加噪方式是從噪聲數(shù)據(jù)中隨機抽取一段,按已定信噪比加入到干凈語音段,輸出層為未加噪的干凈語音,即表中的clean.以上數(shù)據(jù)構成傳統(tǒng)深層神經網絡的訓練數(shù)據(jù),具體如表1所示.

      表1 傳統(tǒng)深層神經網絡語音增強訓練數(shù)據(jù)Table 1 Training data for traditional DNN speech enhancement

      對PL-DNN,通過人工加噪,為輸入層、目標1和目標2各分別生成5種信噪比的帶噪語音.其中輸入層使用的5種信噪比分別是0dB、5dB、10dB、15dB和20dB,各信噪比的比例為1:1:1:1:1,即分別為160小時.目標1和目標2分別在輸入層的對應信噪比上增加10dB和20dB,即分別為10dB、15dB、20dB、25dB和30dB,以及20dB、25dB、30dB、35dB和40dB,目標3為未加噪的干凈語音.以上數(shù)據(jù)構成PL-DNN的訓練數(shù)據(jù),具體如表2所示.

      表2 PL-DNN語音增強訓練數(shù)據(jù)Table 2 Training data for PL-DNN speech enhancement

      在語音增強訓練階段,對于一段語音,先進行漢明窗加窗,幀長為512個采樣點(對應32ms),幀移為256個采樣點(對應16ms),這樣相鄰幀的重合率就是百分之五十,這種將相鄰幀相互重疊的方法可以保證恢復的信號比較平滑,聽感相對比較舒服.然后對每一幀作離散傅里葉變換,提取對數(shù)功率譜作為特征參數(shù),離散傅里葉變換的結果總計為512維,除去重復的255維,對應最終選取的對數(shù)功率譜特征為257維.深層神經網絡使用隨機初始化,且對數(shù)功率譜特征在輸入深層神經網絡之前和深層神經網絡輸出之后,都使用全局均值方差規(guī)整(Global Mean and Variance Normalization,GMVN).漸進學習語音增強深層神經網絡使用的配置是輸入層擴7幀,中間3隱層采用Sigmoid激活且每個隱層為2048個單元,3個輸出層都不擴幀.因此,PL-DNN的結構是1799-2048-257-2048-257-2048-257.而與PL-DNN對比的傳統(tǒng)深層神經網絡的配置是輸入層擴7幀,中間3隱層采用Sigmoid激活且每個隱層為2048個單元,1個輸出層不擴幀.因此,傳統(tǒng)深層神經網絡的結構是1799-2048-2048-2048-257.

      對于語音識別的訓練數(shù)據(jù),我們仍然使用前面的800小時真實場景下錄制的干凈語音及噪聲數(shù)據(jù),及干凈語音經過強對齊(Force Alignment,F(xiàn)A)的標注.為了讓ASR-DNN達到更好的識別性能,我們同樣對800小時干凈數(shù)據(jù)進行人工加噪,生成800小時帶噪語音數(shù)據(jù),即ASR-DNN一共使用1600小時語音數(shù)據(jù),并經過語音增強后用作ASR-DNN的訓練.這里和語音增強階段不同的是,語音增強中,PL-DNN的輸入數(shù)據(jù)一共只有800小時,按各種信噪比生成的加噪數(shù)據(jù)對應著PL-DNN待學習的不同目標;而語音識別中,ASR-DNN的輸入數(shù)據(jù)一共有1600小時,即800小時干凈語音和800小時帶噪語音經過增強都作為ASR-DNN的輸入數(shù)據(jù).這是因為區(qū)別于語音增強的目標是學習干凈語音,語音識別的目標是學習語音經過強對齊的狀態(tài)序列.

      在語音識別訓練階段,同樣地,對于一段增強后的語音,先進行漢明窗加窗,不同于語音增強階段的是,識別中選取幀長為20ms,幀移為10ms,然后對每一幀提取對Filter-bank特征參數(shù),F(xiàn)ilter-bank特征總計為24維,計算一階差分、二階差分總計構成72維.為了達到更好的性能,本文還使用了表達基音變化規(guī)律的pitch特征參數(shù),pitch特征對應3維,因此最終使用的特征是75維.ASR-DNN輸出狀態(tài)數(shù)選用的是9004種狀態(tài).ASR-DNN使用隨機初始化,且Filter-bank和pitch特征在輸入深層神經網絡之前,使用全局均值方差規(guī)整.語音識別ASR-DNN使用的配置是輸入層擴11幀,中間6隱層采用Sigmoid激活且每個隱層2048個單元,輸出層9004個單元,對應9004個狀態(tài).因此,兩種語音增強方法的語音識別模型相同,結構都是825-2048-2048-2048-2048-2048-2048-9004.語音識別ASR-DNN使用最小交叉熵作為訓練的目標函數(shù).

      4.2 數(shù)據(jù)庫介紹

      實驗中使用的干凈數(shù)據(jù)為800小時,共約100萬句.內容主要是在安靜近場環(huán)境下錄制的訪談和講話,對生活中常見的語音應用場景擁有較廣的覆蓋率.加噪用的噪聲數(shù)據(jù)是在不同噪聲環(huán)境下錄制的,包括ktv、會議室、室外以及一個包含100種真實噪聲的噪聲數(shù)據(jù)庫,可以通過腳注的網址下載*http://web.cse.ohio-state.edu/pnl/corpus/HuNonspeech/HuCorpus.html.噪聲數(shù)據(jù)既包括平穩(wěn)噪聲,也包括非平穩(wěn)噪聲,且包含了多個頻段分量,對生活中常見的噪聲擁有較廣的覆蓋率.

      測試集共有3個,為在不同環(huán)境下錄制的真實數(shù)據(jù),分別為:

      1)在近場環(huán)境下錄制的日常對話,共3431個條目,信噪比較低,在后面的總結中定義為測試集1.

      2)在多種噪聲環(huán)境下錄制的日常對話,有電視背景噪聲等遠場干擾,共6407個條目,在后面的總結中定義為測試集2.

      3)在會議室環(huán)境下錄制的會議語音,存在說話人干擾,共2274個條目,在后面的總結中定義為測試集3.

      4.3 實驗結果及分析

      為了驗證漸進學習語音增強方法在語音識別中的有效性,在實驗測試時,共比較了5種方法,分別定義如下:

      1)方法1.使用傳統(tǒng)深層神經網絡的語音增強及識別方法作為基線系統(tǒng),定義為方法1.

      2)方法2.使用漸進學習語音增強及識別方法,其中語音增強模塊使用目標1的輸出,作為增強結果送到語音識別模塊.

      3)方法3.使用漸進學習語音增強及識別方法,其中語音增強模塊使用目標2的輸出,作為增強結果送到語音識別模塊.

      4)方法4.使用漸進學習語音增強及識別方法,其中語音增強模塊使用目標3的輸出,作為增強結果送到語音識別模塊.

      5)方法5.使用漸進學習語音增強及識別方法,其中語音增強模塊使用目標1、2和3的加權平均,作為增強結果送到語音識別模塊.

      值得注意的是,前面定義的5種方法中,方法1作為基線,為使用傳統(tǒng)深層神經網絡的語音增強及識別方法的結果.方法2-5均為漸進學習語音增強及識別方法的結果,其中方法2-4分別對應使用3個目標輸出結果,方法5為使用3個目標進行后處理的結果.

      在表3中比較了5種方法的性能(評價指標為字正確識別率).這5種方法使用相同的聲學模型訓練算法,均是用一遍解碼,且使用同一個語言模型,各方法識別率如表3所示.

      表3 漸進學習和傳統(tǒng)深層神經網絡識別率比較Table 3 Compare of results of different models

      從結果可以看出,在3個測試集上,使用漸進學習的語音增強及識別方法(方法4),比傳統(tǒng)深層神經網絡的語音增強及識別方法(方法1)的性能均有較大提升,以3個測試集的平均識別率作為性能指標,使用漸進學習的語音增強及識別方法相對于傳統(tǒng)深層神經網絡的語音增強及識別方法,在識別準確率上有10.28%的相對提升.同時可以看到,漸進學習方法即便是層數(shù)比較淺的目標層(如方法2只有1個隱層,方法3只有2個隱層)也優(yōu)于層數(shù)較深的傳統(tǒng)深層神經網絡(方法1有3個隱層),原因正是因為漸進學習的語音增強及識別方法能比傳統(tǒng)深層神經網絡的語音增強及識別方法能更好地在前端進行降噪、提升信噪比,進而提高識別系統(tǒng)對噪聲的魯棒性.此外使用漸進學習的語音增強結果,經過后處理再作識別(方法5)能在不作后處理(方法4)的基礎上,進一步提高性能,這是因為漸進學習的語音增強及識別方法能提供多個輸出,提供了豐富的信息量,可以通過選擇合適的后處理方法,進一步提高性能.最后我們考察該算法在降低網絡模型參數(shù)方面的有效性,統(tǒng)計兩種網絡的參數(shù)量如表4所示.

      表4 漸進學習和傳統(tǒng)深層神經網絡參數(shù)量比較Table 4 Compare of number of parameters of different models

      從結果可以看出,在網絡參數(shù)量方面,傳統(tǒng)深層神經網絡的參數(shù)量是漸進學習網絡參數(shù)量的2.65倍,而性能卻低于漸進學習方法.這說明在保證漸進學習的性能不低于傳統(tǒng)深層神經網絡的條件下,漸進學習方法可以大大降低網絡參數(shù),減少計算量,這也證明了漸進學習方法的有效性.

      5 總結和展望

      在本文中,主要討論了漸進學習的語音增強方法在語音識別中的應用.通過以上實驗,我們已經證明了該方法在識別中的有效性.它的主要優(yōu)點在于:比起傳統(tǒng)深層神經網絡的語音增強方法,它大大減少了模型參數(shù),減少了計算量,提高了系統(tǒng)的運行效率,同時可以輸出包含豐富信息量的多個目標,這便于通過后處理進一步提高性能.但本文在訓練過程中只使用了近場噪聲,如果在訓練過程中加入混響環(huán)境,那么在遠場測試集上應該能夠取得更好的結果,這也是下一步的研究工作.

      [1] Li J,Deng L,Gong Y,et al.An overview of noise-robust automatic speech recognition[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2014,22(4):745-777.

      [2] Seltzer M L,Yu D,Wang Y.An investigation of deep neural networks for noise robust speech recognition[C].2013 IEEE International Conference on Acoustics,Speech and Signal Processing,Vancouver,Canada,2013:7398-7402.

      [3] Acero A.Acoustical and environmental robustness in automatic speech recognition[M].Springer Science & Business Media,2012.

      [4] Loizou P C.Speech enhancement:theory and practice[M].CRC Press,2013.

      [5] Du J,Wang Q,Gao T,et al.Robust speech recognition with speech enhanced deep neural networks[C].Proceedings of the 15th Annual Conference of the International Speech Communication Association,Singapore:2014:616-620.

      [6] Benesty J,Makino S,Chen J.Speech enhancement[M].Springer Science & Business Media,2005.

      [7] Boll S.Suppression of acoustic noise in speech using spectral subtraction[J].IEEE Transactions on Acoustics,Speech,and Signal Processing,1979,27(2):113-120.

      [8] Chen J,Benesty J,Huang Y,et al.New insights into the noise reduction Wiener filter[J].IEEE Transactions on Audio,Speech,and Language Processing,2006,14(4):1218-1234.

      [9] Ephraim Y,Malah D.Speech enhancement using a minimum mean-square error log-spectral amplitude estimator[J].IEEE Transactions on Acoustics,Speech,and Signal Processing,1985,33(2):443-445.

      [10] Xu Y,Du J,Dai L R,et al.An experimental study on speech enhancement based on deep neural networks[J].IEEE Signal Processing Letters,2014,21(1):65-68.

      [11] Gao T,Du J,Dai L R,et al.SNR-based progressive learning of deep neural network for Speech Enhancement[C].Proceedings of the 17th Annual Conference of the International Speech Communication Association,San Francisco,USA:2016:3713-3717.

      [12] Gerkmann T,Krawczyk-Becker M,Le Roux J.Phase processing for single-channel speech enhancement:history and recent advances[J].IEEE Signal Processing Magazine,2015,32(2):55-66.

      [13] Hinton G,Deng L,Yu D,et al.Deep neural networks for acoustic modeling in speech recognition:the shared views of four research groups[J].IEEE Signal Processing Magazine,2012,29(6):82-97.

      [14] Mohamed A,Dahl G E,Hinton G.Acoustic modeling using deep belief networks[J].IEEE Transactions on Audio,Speech,and Language Processing,2012,20(1):14-22.

      猜你喜歡
      深層信噪比語音
      考慮各向異性滲流的重力壩深層抗滑穩(wěn)定分析
      基于深度學習的無人機數(shù)據(jù)鏈信噪比估計算法
      魔力語音
      基于MATLAB的語音信號處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      低信噪比下LFMCW信號調頻參數(shù)估計
      電子測試(2018年11期)2018-06-26 05:56:02
      SAM系統(tǒng)對TDCS數(shù)據(jù)的優(yōu)化處理與深層應用
      低信噪比下基于Hough變換的前視陣列SAR稀疏三維成像
      雷達學報(2017年3期)2018-01-19 02:01:27
      對“醫(yī)患失去信任”的深層憂慮
      石泉县| 宜州市| 丰宁| 嘉鱼县| 赤壁市| 维西| 永兴县| 扶沟县| 龙游县| 罗甸县| 仪陇县| 东兴市| 阆中市| 灌南县| 台东县| 眉山市| 哈密市| 南溪县| 内黄县| 屏南县| 布尔津县| 德兴市| 雅安市| 时尚| 蓝田县| 佛教| 乌兰察布市| 九龙县| 洛扎县| 通化市| 永康市| 蒙城县| 上饶县| 昌图县| 通江县| 洞口县| 察雅县| 化州市| 惠州市| 长宁县| 贺州市|