• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于自編碼特征的語音增強聲學特征提取*

      2019-08-12 02:11:00任相贏耿彥章
      計算機與生活 2019年8期
      關(guān)鍵詞:伯努利信噪比語音

      張 濤,任相贏,劉 陽,耿彥章

      天津大學 電氣自動化與信息工程學院,天津 300072

      1 引言

      在現(xiàn)實環(huán)境中,感興趣的語音通常會被背景噪聲干擾,嚴重損害了語音的可懂度和質(zhì)量,多種語音增強算法已被用于噪聲抑制,主要分為基于信號處理的方法、基于統(tǒng)計模型的方法和基于深度學習的方法等[1]。語音增強已成為語音通話、電話會議、助聽器設(shè)備和語音識別等領(lǐng)域的前端處理核心模塊,語音增強可以很自然地表達為一個監(jiān)督性學習問題,因此本文研究的重點是基于深度學習的語音增強。

      典型的監(jiān)督性語音增強系統(tǒng)通常通過監(jiān)督性學習算法,例如深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN),學習一個從帶噪語音特征到分離目標(例如理想掩蔽或者增強語音的幅度譜)的映射函數(shù),從監(jiān)督性學習的角度來看,監(jiān)督性語音增強主要涉及特征、模型和目標三方面的內(nèi)容。模型主要分為淺層模型和深層模型,以DNN為代表的深度學習是深層模型的典型代表[2-5],目前已被廣泛用于語音增強中;理想掩蔽、目標語音的幅度譜或?qū)?shù)幅度譜是監(jiān)督性語音增強的常用目標[6-7]。本文以DNN作為學習模型,以理想浮值掩蔽(ideal ratio mask,IRM)作為訓練目標,主要研究聲學特征對于語音增強性能的影響。Wang和Chen等在文獻[8-9]中系統(tǒng)地總結(jié)和分析了Gammatone濾波變換域特征,提出了一系列組合特征和多分辨率特征,語音增強后可懂度得到了較大提升,但是語音質(zhì)量仍然較低,信噪比(signal noise ratio,SNR)取值仍然較小。SNR是一種衡量增強算法對噪聲抑制能力的指標,SNR取值較小,意味著增強語音中仍然混合大量噪聲。在保證增強語音可懂度基本不變的條件下,為了提高增強語音質(zhì)量(用信噪比衡量),本文提出了一種聲學自編碼特征(auto-encoder feature,AEF),利用Group Lasso算法將AEF與聽覺特征進行互補性和冗余性驗證,進而將特征重新組合得到新的特征集,本文將該新的特征集稱為綜合特征(integrated features,IF)。將本文的綜合特征與Wang的組合特征以及Chen的多分辨率特征分別作為DNN輸入特征,比較語音增強性能。實驗結(jié)果表明本文提出的基于AEF特征的綜合特征在語音增強中取得了較好的性能。

      本文在第2章介紹了幾種常用聽覺特征;第3章主要介紹了本文提出的自編碼特征,以及利用Group Lasso算法進行特征選取得到的綜合特征;第4章對本文提出的特征進行了性能評估;第5章對全文進行總結(jié)。

      2 組合特征及多分辨率特征

      語音增強被表達為一個學習問題,特征提取是至關(guān)重要的步驟,提取好的特征能夠極大地提高語音增強性能。近年來,隨著語音增強研究的發(fā)展,已有多種聽覺特征被用于語音增強中,取得了較好的性能,下面是常用的幾種聽覺特征。

      (1)AMS(amplitude modulation spectrogram)

      為了計算AMS特征,首先對輸入信號的包絡(luò)進行半波整流,然后進行1/4抽樣,抽樣后得到的信號以128點幀長和40點的幀移進行分幀,漢明窗平滑預處理,256點的短時傅里葉變換(short-time Fourier transform,STFT)將預處理后的時域信號變換到頻域,得到的幅度譜通過15個中心頻率在15.6~400 Hz均勻分布的三角窗,得到15維的AMS特征。

      (2)RASTA-PLP(relative spectral transform PLP)

      RASTA-PLP特征是在 PLP(perceptual linear prediction)特征基礎(chǔ)上引入RASTA濾波,PLP能夠盡可能地消除說話人的差異而保留重要的共振峰結(jié)構(gòu),一般認為是與語音內(nèi)容相關(guān)的特征。相對于PLP特征,RASTA-PLP對噪聲更有魯棒性,通常計算13維的RASTA-PLP特征。

      (3)MFCC(Mel-frequency cepstral coefficient)

      梅爾頻率倒譜系數(shù)將頻譜轉(zhuǎn)化為基于Mel域的非線性頻譜,充分考慮了人耳的聽覺特性,沒有前提假設(shè),因此具有良好的識別性能和降噪性能。語音信號首先分幀加窗預處理,利用快速傅里葉變換(fast Fourier transformation,F(xiàn)FT)計算能量譜,將能量譜轉(zhuǎn)換到梅爾域,在梅爾域內(nèi)能量譜經(jīng)三角帶通濾波器后得到濾波輸出,濾波輸出經(jīng)過離散余弦變換得到31維MFCC特征。

      (4)GF(Gammatone feature)

      GF特征是語音信號通過Gammatone聽覺濾波器得到的,對每一個Gammatone濾波輸出按照100 Hz的采樣頻率進行采樣,最后對采樣進行立方根幅度壓縮得到GF特征,一般提取64維的GF特征。

      (5)MRCG(multi-resolution cochleagram)

      GF特征只考慮了語音的局部信息,忽視了全局信息。為了補償這一缺點,把握語音信息的整體性和時空結(jié)構(gòu),Chen等提出MRCG特征,具體計算過程如下:

      ①給定輸入信號,經(jīng)64通道的Gammatone濾波器組獲取子帶信號,每一子帶信號以20 ms幀長10 ms幀移進行分幀,逐幀計算聽覺譜(Cochleagram)[9],對每個時頻單元取對數(shù)運算得到CG1;

      ②同樣的,每一子帶信號以200 ms幀長10 ms幀移進行分幀,計算CG2;

      ③使用11×11的方形窗對CG1進行平滑處理,得到CG3,其中方形窗的長11代表時間幀,方形窗的寬11代表頻率通帶;

      ④類似CG3,方形窗尺寸取23×23對CG1進行平滑得到CG4;

      ⑤組合CG1、CG2、CG3、CG4即得到MRCG特征,對于每一特定時間幀,MRCG特征是64×4維的向量。

      針對上述各個特征之間的不同特性,Wang等利用Group Lasso的特征選擇方法得到AMS+RASTAPLP+MFCC的最優(yōu)組合特征[8],這個組合特征在多種測試條件下取得了穩(wěn)定的語音增強性能,而且顯著優(yōu)于單個的特征。在低信噪比條件下,相對于Wang的組合特征,Chen等提出的MRCG特征[9]也表現(xiàn)出了很好的性能,逐漸取代AMS+RASTA-PLP+MFCC的組合特征成為語音增強常用的特征之一。

      3AEF特征及Group Lasso算法

      3.1 AEF特征

      自編碼器(auto-encoder,AE)是一種無監(jiān)督學習算法,主要用于數(shù)據(jù)降維和特征提取。文獻[10]中將AE成功地應用于圖像像素數(shù)據(jù)降維,文獻[11]中將AE用于語音頻譜二進制編碼進行特征提取。因為AE輸出層與輸入層特征數(shù)據(jù)相同,不需要人為計算目標標簽,同時能直接把大量的語音數(shù)據(jù)放到AE輸入層,讓數(shù)據(jù)自己說話,AE自動從數(shù)據(jù)中學習語音聲學特征,因此本文利用AE對帶噪語音時域PCM(pulse code modulation)數(shù)據(jù)進行特征提取,獲取編碼(code)層數(shù)據(jù),code層數(shù)據(jù)即為自編碼特征,簡寫為AEF。

      3.1.1 AE的結(jié)構(gòu)

      AE自編碼器的架構(gòu)如圖1所示,主要由五部分組成:輸入層(Input)、神經(jīng)網(wǎng)絡(luò)編碼器(NN encoder)、編碼(Code)、神經(jīng)網(wǎng)絡(luò)解碼器(NN decoder)和輸出層(Output)。

      Fig.1 Architecture diagram ofAE圖1 AE架構(gòu)圖

      輸入層用來輸入高維的帶噪語音時域PCM數(shù)據(jù),NN encoder通過非線性變換提取輸入層數(shù)據(jù)特征,得到code層數(shù)據(jù),即AEF特征。同樣,NN decoder通過非線性變換將code層數(shù)據(jù)重構(gòu)得到輸出層數(shù)據(jù)。AE輸入層和輸出層具有相同的節(jié)點數(shù),在訓練時AE輸入層與輸出層特征均為帶噪語音時域PCM數(shù)據(jù)。AE訓練的目標是最小化網(wǎng)絡(luò)輸出的重構(gòu)語音PCM數(shù)據(jù)與網(wǎng)絡(luò)輸入帶噪語音PCM數(shù)據(jù)之間的誤差。

      3.1.2 AE的訓練

      在對AE進行訓練時,如果Encoder和Decoder兩個網(wǎng)絡(luò)內(nèi)部的權(quán)重隨機初始化,當初始化權(quán)重較大時,AE的訓練常常陷入局部最優(yōu);當初始化的權(quán)重較小時,在前面的隱藏層的梯度就非常小,很難訓練具有很多隱藏層的AE[12]。為了有效地訓練AE,學習帶噪語音PCM數(shù)據(jù)的一個深度生成模型,分為預訓練(pre-training)和微調(diào)(fine-tuning)兩個過程[10,13]。

      在進行pre-training時,首先學習一個稱為高斯-伯努利受限玻爾茲曼機(restricted Boltzmann machine,RBM)的無向圖模型。該高斯-伯努利RBM是層間全連接,層內(nèi)無連接的,由帶獨立高斯噪聲的實值變量構(gòu)成的顯元和二值隱元組成,顯元服從高斯分布,隱元服從二值分布也就是伯努利分布,即:

      式中,vi和hj分別表示顯元和隱元的取值,N(μ,σ2)為均值μ,方差σ2的高斯分布。1表示神經(jīng)元激活狀態(tài);0表示神經(jīng)元抑制狀態(tài)。高斯-伯努利RBM能量函數(shù)(energy function)為:

      式中,v和h分別代表顯元與隱元的狀態(tài),ai、bj表示其偏置,σi為顯元的標準差,wij是vi、hj間的權(quán)重。此時,全概率分布為:

      式中,Z被稱為配分函數(shù)(partition function),表達式為:

      根據(jù)表達式(3)可得到高斯-伯努利RBM關(guān)于v的分布p(v),即p(v,h)的邊緣分布,定義RBM的似然函數(shù)為p(v),表達式為:

      由于RBM中隱元之間的激活條件是獨立的,則第j個隱元的激活函數(shù)為:

      式中,σ(x)=sigmoid(x)=[1+exp(-x)]-1為羅杰斯特函數(shù)。同理,第i個顯元的激活函數(shù)為:

      訓練一個RBM的任務就是求出RBM的參數(shù)值,即θ={wij,ai,bj},通過最大化RBM在含有T樣本的訓練集上的對數(shù)似然函數(shù),學習可以得到參數(shù)θ,即:

      為了獲得最優(yōu)的參數(shù)θ*,通常使用隨機梯度上升法通過計算lgp(vt|θ)對模型各個參數(shù)的偏導數(shù),從而求出L(θ)的最大值。假設(shè)給定一個輸入數(shù)據(jù)樣本v0,則對于RBM模型的θ中的某一參數(shù)計算偏導數(shù)可得:

      式中,<?>p表示關(guān)于概率p的數(shù)學期望。第一項中p(h|v0,θ)是顯元為v0時隱層的概率分布,容易計算得到,由式(3)可知第二項中p(v,h|θ)由于Z的存在而難以計算,通常利用對比散度算法(contrastive divergence,CD)[12]來獲取近似值。最終可得RBM的各個參數(shù)增量為:

      式中,ε表示學習率,根據(jù)上述算法求得RBM的每個參數(shù)增量后,更新各個參數(shù),即可得到一個訓練好的RBM。

      充分訓練完第1個高斯-伯努利RBM后,固定高斯-伯努利RBM的參數(shù)大小,根據(jù)其顯元輸入數(shù)據(jù)計算隱元狀態(tài),并將隱元狀態(tài)作為第2個伯努利-伯努利RBM的顯元輸入數(shù)據(jù)。伯努利-伯努利RBM與高斯-伯努利RBM相比,區(qū)別是顯元與隱元均為隨機二值神經(jīng)元,并且式(2)和式(7)將分別變?yōu)槭剑?3)和式(14),兩種類型的RBM有著相同的CD算法進行參數(shù)更新。

      當所有RBM完成pre-training后組合形成深信度網(wǎng)絡(luò)(deep belief net,DBN),如圖2(a)所示,在分開的方框中展示了這兩個RBM,RBM2的隱元二值狀態(tài)就是AEF特征,經(jīng)過進一步的fine-tuning可以實現(xiàn)提取特征時更小的失真。

      Fig.2 Diagram of pre-training and fine-tuning aboutAE圖2 AE預訓練和微調(diào)示意圖

      在進行fine-tuning時,首先展開(unroll)DBN,利用它的權(quán)重矩陣來創(chuàng)建一個AE深度網(wǎng)絡(luò),如圖2(b)所示。AE底層(lower layers)的encoder使用權(quán)重矩陣編碼輸入層數(shù)據(jù)得到AEF特征,AE上層(upper layers)的decoder使用轉(zhuǎn)置權(quán)重矩陣解碼AEF特征得到輸出層數(shù)據(jù),這個AE利用誤差反向傳播更新參數(shù),使得輸出數(shù)據(jù)盡可能等于輸入數(shù)據(jù)。因此,AEF特征可以看作輸入層數(shù)據(jù)的一種良好特征表示。

      3.2 特征組合:Group Lasso算法

      不同的聲學特征描述了語音信號的不同性質(zhì),研究表明多個特征的恰當組合可能導致基于監(jiān)督學習的語音增強具有更好的性能[8]。常用的特征組合方式主要有三種:(1)從已有的特征中直接排列組合選出最優(yōu)的組合特征,但是該種方式的復雜度與特征的數(shù)量成指數(shù)函數(shù)關(guān)系,因此當特征數(shù)量較大時,很難實現(xiàn)最優(yōu)特征的選??;(2)進行無監(jiān)督的特征變換,例如主成分分析(principal components analysis,PCA)[14];(3)進行有監(jiān)督的特征變換,例如線性判別分析(linear discriminant analysis,LDA)。但是無論是無監(jiān)督的特征變換還是有監(jiān)督的特征變換,變換之后很難確切知道具體哪些特征類型對語音增強效果起到了互補(complementary)作用。此處互補作用是指每種特征類型提供了互補信息來提高語音增強性能,并且比任一單獨的特征效果更好。因為Group Lasso算法能快速地選取特征,同時確切地知道具體哪些特征類型對語音增強起到了重要的互補作用,所以正如文獻[8],本文采用Group Lasso算法來選取互補特征。Group Lasso解決了下面的優(yōu)化問題:

      式中,最小化的第一項表示分類誤差,第二項是正則項,xi是以語音幀為基本單元的輸入特征向量;yi是對應輸入xi的標簽,取值為{-1,1};α表示截距;β是用來明確互補特征群組的響應參數(shù);Ig表示第g個特征群組的索引;G表示輸入特征類型的數(shù)量;‖?‖2表示二范數(shù);λ是正則化參數(shù),控制群組的稀疏性。為了驗證不同特征的互補性和冗余性進而得到綜合特征,語音幀的多個特征被串聯(lián)在一起形成一個長的特征向量,該長的特征向量作為Group Lasso算法邏輯回歸的輸入數(shù)據(jù),訓練標簽yi通過理想二值掩蔽(ideal binary mask,IBM)計算得到,IBM計算如式(16)所示。當某特征的邏輯回歸參數(shù)的模為0時,該特征與其他的特征之間互補性小,冗余性大,因此不被選取作為綜合特征;當某特征的邏輯回歸參數(shù)的模大于0時,該特征與其他的特征之間互補性大,冗余性小,因此被選取作為綜合特征之一。

      式中,t表示時間;f表示頻率;RSN(t,f)表示在時刻t、頻率f處的局部信噪比;Lc表示局部標準(local criterion,LC),通常取值比帶噪信號混合信噪比小5 dB。

      3.3 基于AEF特征的綜合特征語音增強流程

      利用綜合特征進行語音增強主要分為訓練和增強兩個階段,具體的流程如圖3所示。

      Fig.3 Framework of speech enhancement based on IF圖3 基于綜合特征的語音增強框圖

      在訓練階段,首先對純凈語音和噪聲信號分別進行短時傅里葉變換(short-time Fourier transform,STFT)得到幅度譜,根據(jù)式(17)計算得到理想浮值掩蔽(ideal ratio mask,IRM),IRM作為DNN語音增強系統(tǒng)的目標標簽。將帶噪語音時域PCM數(shù)據(jù)訓練集分幀、加窗后輸入到AE,得到AEF特征,將AEF與聽覺特征串聯(lián)得到邏輯回歸的輸入特征向量。利用Group Lasso算法提取綜合特征,隨后將綜合特征作為DNN語音增強系統(tǒng)的輸入特征,對DNN通過梯度下降法進行有監(jiān)督訓練。

      式中,|S(ω)|2和|N(ω)|2分別表示純凈語音和噪聲的能量。

      在增強階段,將測試的帶噪語音時域PCM數(shù)據(jù)分幀、加窗后輸入到AE,提取得到AEF特征,同樣利用Group Lasso算法提取得到綜合特征,將從測試集提取得到的綜合特征作為訓練好的DNN語音增強系統(tǒng)的輸入特征,經(jīng)DNN網(wǎng)絡(luò)的前饋傳播,得到輸出目標標簽估計。帶噪語音信號經(jīng)Gammatone濾波器組后得濾波輸出,在每個子帶內(nèi)帶噪信號的能量利用估計的目標標簽加權(quán),將所有通帶的加權(quán)響應求和來合成語音波形[15],得到最終增強語音。

      4 方法性能評估

      4.1 實驗數(shù)據(jù)

      從TIMIT標準語料庫[16]中隨機選取600條語句作為訓練純凈語音,實驗中噪聲來自Noisex-92標準噪聲庫,F(xiàn)actory、F16、White和Pink四種噪聲作為訓練噪聲,所有的純凈語音和噪聲都利用Matlab的Resample函數(shù)采樣到16 kHz,每類噪聲時長大約為4 min,從噪聲序列的前2 min內(nèi)隨機裁剪與純凈語音信號等長的噪聲序列,分別以混合信噪比-5 dB,-2 dB,0 dB和2 dB將純凈語音與噪聲混合得到訓練集帶噪信號。語音信號分幀時幀長為320點,幀移為160點,窗函數(shù)為漢明窗。AE中的encoder隱藏層數(shù)設(shè)為4層,即設(shè)encoder中含有4個RBM,第1個RBM為高斯-伯努利RBM,后面的RBM為伯努利-伯努利RBM,每個RBM隱元數(shù)量分別為700、400、300和200,RBM的預訓練迭代次數(shù)為20次,預訓練學習率為0.005,微調(diào)的學習率設(shè)為0.01。DNN語音增強系統(tǒng)隱藏層數(shù)設(shè)為4層,每層1 024個節(jié)點,學習率設(shè)為0.01。

      從TIMIT標準語料庫剩余語句中隨機選取120條語句作為測試純凈語音,實驗中噪聲仍然選用Noisex-92標準庫中的Factory、F16、White和Pink四種噪聲。但是為了測試算法的泛化能力,從噪聲序列的后2 min內(nèi)隨機裁剪與純凈語音信號等長的噪聲序列,仍以-5 dB,-2 dB,0 dB和2 dB混合信噪比與純凈語音進行混合,將混合好的帶噪信號作為網(wǎng)絡(luò)的測試集。

      4.2 對比方法及評價指標

      本文主要研究聲學特征對語音增強性能的影響,因此固定DNN作為學習模型,IRM作為訓練目標,將不同的聲學特征作為DNN語音增強系統(tǒng)的輸入特征進行實驗。對比實驗中采用語音對數(shù)幅度譜作為DNN語音增強系統(tǒng)的輸入特征的方法,簡寫為Logabs-DNN;Wang等[8]提出的組合互補特征(complementary features,CF)作為DNN語音增強系統(tǒng)的輸入特征的方法,簡寫為CF-DNN;Chen等[9]提出的多分辨率特征MRCG作為DNN語音增強系統(tǒng)的輸入特征的方法,簡寫為MRCG-DNN;以及本文提出的綜合特征作為DNN語音增強系統(tǒng)的輸入特征的方法,簡寫為IF-DNN;本文提出的綜合特征是基于時域的自編碼特征獲取的,為了驗證算法的有效性,本文同時將基于頻域自編碼特征的綜合特征作為DNN語音增強系統(tǒng)的輸入特征作為對比,簡寫為IF_F-DNN。為了驗證算法的可行性,同時與譜減法(spectral subtraction,SS)、維納濾波法(Wiener filtering,WF)、基于對數(shù)最小均方誤差(LogMMSE)的統(tǒng)計模型法等傳統(tǒng)方法[1],以及文獻[7]中提出的深度降噪自動編碼器(deep denoising AutoEncoder,DDAE)語音增強方法進行對比實驗,其中DDAE模型有5個隱藏層,每個隱藏層500個神經(jīng)元,預訓練和微調(diào)的學習率都設(shè)為0.01。

      關(guān)于評價指標,采用短時目標可懂度(short-time objective intelligibility,STOI)[17]、語音質(zhì)量感知評估(perceptual evaluation of speech quality,PESQ)以及信噪比SNR來分別評估增強語音的可懂度、感知效果和語音質(zhì)量[18-19]。其中,STOI主要用來測量語音可懂度,度量純凈語音與增強語音短時時間包絡(luò)之間的相關(guān)性,這一參數(shù)指標與人主觀對語音可懂度評分高度相關(guān),其取值范圍為0~1,取值越大,可懂度越高。PESQ是一種能夠評價語音主觀試聽效果的客觀計算方法,PESQ的取值范圍為-0.5~4.5,得分越高說明語音感知效果更好。SNR是衡量增強算法對噪聲抑制能力的指標,一般來說,SNR值越大,混在信號里的噪聲越少,語音質(zhì)量越高。

      4.3 實驗結(jié)果及分析

      將帶噪語音信號的AMS、RASTA-PLP、MFCC、GF和AEF特征串聯(lián)組成一個長的向量,Group Lasso算法對該長向量邏輯回歸處理后,每種特征類型對應的邏輯回歸響應參數(shù)如圖4所示,橫坐標表示多個不同類型特征向量,縱坐標表示邏輯回歸響應參數(shù)的值。由圖可知每種特征的響應參數(shù)模值都大于0,因此不同特征之間互補性大,冗余性小,將最終的綜合特征設(shè)定為AMS+RASTA-PLP+MFCC+GF+AEF,即為本文提出的IF綜合特征。

      Fig.4 Logical regression response parameter values of Group Lasso圖4 Group Lasso邏輯回歸響應參數(shù)值

      表1列舉了在-2 dB混合信噪比Factory噪聲環(huán)境下,9種聲學特征分別作為DNN語音增強系統(tǒng)輸入特征時,120條測試集語音增強后STOI、PESQ和SNR的平均取值,表格中加粗數(shù)字表示每列的最大取值。由此可知,在上述測試情況下,利用相同的學習模型和訓練目標,與其他的聲學特征相比,本文提出的IF特征在語音增強中3個評價指標都取得了更好的效果。

      Table 1 Evaluation indexes scores of 9 acoustic features after enhancement of speech表1 9種聲學特征語音增強后評價指標值

      表2列舉了在4種不同信噪比下,9種語音增強算法對于Factory噪聲環(huán)境下,120條測試集語音增強后STOI、PESQ和SNR測量均值,其中表格中加粗數(shù)字表示每列的最大取值。由此可知,本文提出的IF-DNN方法,在不同的混合信噪比情況下,與譜減法、維納濾波、LogMMSE等傳統(tǒng)方法以及Logabs-DNN和基于DDAE的深度學習方法相比,3個評價指標性能都得到了較大提升?;贒DAE的方法,主要目的是提高語音的可懂度,雖然SNR的取值較小,但是增強語音的可懂度明顯優(yōu)于傳統(tǒng)的方法。IF_F-DNN方法在高信噪比的情況下效果較好,但是在低信噪比情況下,尤其在-5 dB極低信噪比下,性能非常差,然而本文的IF-DNN方法在4種不同信噪比下評價指標值都要優(yōu)于IF_F-DNN。CF組合特征、MRCG多分辨率特征和IF綜合特征分別作為DNN語音增強系統(tǒng)輸入特征時,在相同混合信噪比情況下,STOI和PESQ兩個指標各自的得分相差不大;在4種不同混合信噪比下,CF-DNN、MRCG-DNN和IF-DNN的STOI平均得分分別為0.770 0、0.768 1和0.770 8,PESQ平均得分分別為2.073 1、2.080 8和2.092 0,就平均而言,IF特征表現(xiàn)得更好。對于SNR評價指標來說,本文提出的IF綜合特征作為DNN語音增強系統(tǒng)輸入特征的方法,在不同信噪比情況下,語音增強后SNR取值明顯大于CF組合特征和MRCG多分辨率特征的方法,其中與CF組合特征相比,SNR平均提高了0.115 dB;與MRCG多分辨率特征相比,SNR平均提高了0.135 dB,因此利用IF綜合特征作為DNN語音增強系統(tǒng)的輸入特征時,噪聲抑制效果更好,增強語音中殘留噪聲更少,語音質(zhì)量更高。

      Table 2 Evaluation indexes scores of 9 enhancement methods for different SNR表2 9種增強方法在不同信噪比下評價指標值

      表3列舉了在4種不同噪聲類型下,8種語音增強算法對于-2 dB混合信噪比環(huán)境下帶噪測試集語音增強后的SNR測量均值,單位為dB,表格中加粗數(shù)字仍然表示每列的最大取值。在不同的噪聲類型情況下,與其他的7種方法相比,本文提出的IF綜合特征作為DNN語音增強系統(tǒng)輸入層特征時,增強語音的SNR指標最好,與CF組合特征相比,SNR平均提高了0.149 dB;與MRCG多分辨率特征相比,SNR平均提高了0.141 dB。同時也可以發(fā)現(xiàn),上述提到的8種方法,對White噪聲類型降噪效果最好,就IF-DNN語音增強系統(tǒng)來說,測試集帶噪語音信號的混合信噪比為-2 dB,語音增強后信噪比變?yōu)?.990 5 dB,信噪比提高了10.990 5 dB,這主要是因為White是平穩(wěn)高斯白噪聲,分布律不隨時間或者位置變化,模型經(jīng)過訓練集的訓練,非常好地學習到了White的特性,因此在利用測試集測試時,效果比在其他非平穩(wěn)噪聲情況下更好。

      Table 3 SNR scores of 8 enhancement methods for different noise表3 8種增強方法在不同噪聲下信噪比取值 dB

      5 結(jié)束語

      本文提出了一種新的聲學特征用于語音增強任務,利用AE提取帶噪信號的AEF自編碼特征,通過Group Lasso特征選取方法將特征重新組合得到綜合特征,隨后將綜合特征作為DNN語音增強系統(tǒng)的輸入進行語音增強,通過對不同混合信噪比和不同噪聲類型進行的仿真實驗表明,與組合特征、MRCG多分辨率特征相比,本文提出的綜合特征用于語音增強后語音質(zhì)量得到了較大提升,SNR指標取得了更好的性能。雖然本文主要研究的語音質(zhì)量得到了提升,但是可懂度并沒有得到明顯提高,未來需要對現(xiàn)有的算法進一步改進,盡量做到增強語音的可懂度、感知效果和語音質(zhì)量都得到較大提升。

      猜你喜歡
      伯努利信噪比語音
      基于深度學習的無人機數(shù)據(jù)鏈信噪比估計算法
      魔力語音
      基于MATLAB的語音信號處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      低信噪比下LFMCW信號調(diào)頻參數(shù)估計
      電子測試(2018年11期)2018-06-26 05:56:02
      低信噪比下基于Hough變換的前視陣列SAR稀疏三維成像
      雷達學報(2017年3期)2018-01-19 02:01:27
      一種伯努利原理研究的實驗裝置
      淺談關(guān)于n重伯努利試驗概率計算問題
      保持信噪比的相位分解反褶積方法研究
      莫力| 扬州市| 沧州市| 山阳县| 安阳县| 东辽县| 华阴市| 宿松县| 湾仔区| 马鞍山市| 北京市| 衡水市| 黄平县| 都兰县| 澄城县| 威宁| 偃师市| 犍为县| 石门县| 临猗县| 包头市| 盐亭县| 新兴县| 盐津县| 兴山县| 永登县| 九龙城区| 连南| 大田县| 都昌县| 永安市| 高青县| 晴隆县| 蛟河市| 新干县| 迁安市| 龙岩市| 响水县| 延边| 铜川市| 绥中县|