• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于RefineNet 的端到端語音增強方法

      2022-03-10 11:04:34錢宇欣
      自動化學報 2022年2期
      關鍵詞:時域損失語音

      藍 天 彭 川 李 森 錢宇欣 陳 聰 劉 嶠

      基于端到端的語音增強方法不依賴于頻域表示,可以有效地利用時域信號的相位信息,避免了信號在時域和時頻域之間來回切換,簡化處理流程.Qian 等[9]考慮到WaveNet[10]對語音波形的強大建模能力,提出將語音先驗分布引入到WaveNet框架進行語音增強;Rethage 等[11]也在WaveNet的基礎上開展語音增強研究,通過非因果的(Noncausal)擴張卷積來預測目標,在主觀評價指標上取得了比維納濾波更好的效果.Pascual 等[12]將生成對抗網絡[13-14](Generative adversarial nets,GAN)引入語音增強領域并提出SEGAN (Speech enhancement generative adversarial network),并用其對時域波形信號直接處理,取得了一定的增強效果,但是在客觀評價指標語音質量感知評價(Perceptual evaluation of speech quality,PESQ)上略低于維納濾波.Fu 等[15-16]提出全卷積神經網絡并將其作用于整句語音波形信號,提升了語音增強的性能.這些基于端到端的方法都是直接將一維時域波形映射到目標語音,然而時域波形信號本身并不能表現(xiàn)出明顯的特征結構信息,直接對時域信號建模比較困難,而且低信噪比環(huán)境下信號更復雜,建模難度會進一步提高.有學者考慮將神經網絡作為前端短時傅立葉變換(Short-time Fourier transform,STFT)替代方案[17-19],我們在其基礎上修改擴展,提出了一個時頻分析網絡來模擬STFT變換過程的基函數(shù),將一維時域信息映射到一個類似于時頻表示的高維空間中以獲取更多的信息;相比于常見的神經網絡方法中使用時頻域幅度譜或功率譜值的方式,時頻分析網絡能更充分地利用輸入信號中的相位信息.

      語音和噪聲信號在時域相鄰幀以及頻域相鄰頻帶間具有很強的相關性,這種時頻域的局部相關性與圖像中的相鄰像素間的相關性非常相似.由于在語音增強領域使用卷積神經網絡可以獲得與深度神經網絡和循環(huán)神經網絡(Recurrent neural network,RNN)相當或更好的增強效果[8,20-22],為進一步提高語音增強的性能,本文考慮使用卷積神經網絡中的一種重要網絡 — RefineNet[23]來進行端到端的語音增強.它是一個通用的多路徑優(yōu)化網絡,通過顯式利用下采樣過程中的所有可用信息,并使用較長范圍的殘差連接來實現(xiàn)高分辨率預測.通過這種方式,可以利用前期卷積的細粒度特性捕獲更深層的高級特征;RefineNet 的各個組件使用了帶有Identity mappings[24]的殘差連接,這樣梯度就可以通過不同跨度的殘差連接直接傳播,從而實現(xiàn)高效的端到端訓練.

      在語音增強領域的神經網絡訓練過程中,通常將均方誤差(Mean square error,MSE)作為損失函數(shù),而在客觀評價中往往使用PESQ 或STOI 等評價指標,這種損失函數(shù)與評價指標之間的差異性并不能保證訓練后的模型在應用中能夠提供最優(yōu)的性能;Fu 等[16]和Zhao 等[25]將STOI 評價指標融入到了損失函數(shù)中,一定程度上提高了語音增強性能.受此啟發(fā),我們提出將STOI和SDR 同時融入到損失函數(shù)中,并且采用多目標聯(lián)合優(yōu)化策略,利用神經網絡根據(jù)不同目標之間的共性和差異性建模.

      本文提出了基于RefineNet 的端到端語音增強模型(RefineNet-based speech enhancement,RNSE),首先利用時頻分析網絡模仿STFT,學習時域波形在模擬的二維時頻空間表示;然后利用RefineNet 整合不同大小特征圖的能力,對不同粒度的模擬時頻空間特征進行綜合分析;最后通過時頻分析網絡逆處理得到增強語音的估計.在訓練階段,我們將STOI 與SDR 評價指標融入到損失函數(shù)中進行聯(lián)合優(yōu)化,從而得到更好的增強效果.

      1 基于RefineNet 的端到端語音增強模型

      RNSE 模型的網絡結構由時頻分析網絡TFANet (Time-frequence analysis network)和RefineNet 兩部分構成,其結構如圖1 所示.TFANet是一個用于模擬短時傅里葉變換及其逆變換過程的時頻分析神經網絡,在RNSE 前端,TFANet 將一維時域語音信號映射為二維特征表示;在RNSE 后端,TFANet 將神經網絡輸出的增強后特征圖重構成一維時域語音信號.RefineNet 是RNSE 的主體部分,用于對特征圖進行精煉分析,并與TFANet結合,實現(xiàn)從時域的含噪語音信號到時域的純凈語音信號的直接映射.

      圖1 RNSE 模型結構圖Fig.1 The diagram for RNSE architecture

      1.1 時頻分析神經網絡

      Venkataramani 等在語音分離任務中提出了實值轉換方法[19],通過卷積和平滑操作對原始時域波形進行預處理,然后輸入到后續(xù)神經網絡中進行增強.為了充分保留卷積結果中的原始信息,我們去除了平滑操作,提出了時頻分析網絡TFANet.該網絡包含編碼分析階段和解碼生成階段,在編碼分析階段將時域信號處理為二維特征圖表示并輸入到RefineNet 中,在解碼生成階段將RefineNet 輸出的增強語音的特征圖重構成一維語音信號.假設含噪語音信號為s[n],那么STFT 計算可表示為:

      鄉(xiāng)土正義代表村莊社會關系網絡和生存結構中各種特定利益的集合,人情法則、臉面機制、鄉(xiāng)土權威構成了配置、平衡這些特定利益的社會控制機制。這里的特定利益并非與司法正義中所主張的法律權利相互抵牾,只是在村莊社會語境中,這些利益具有鄉(xiāng)土特點,利益的獲取、主張都不是按照現(xiàn)代規(guī)則來運作;相反,有時吃虧也并非現(xiàn)代法律意義上的遭受侵害。此外,即便涉及村莊利益沖突,由于社會交往密度較高,利益早已模糊化,只要不觸犯底線,利益相關者都能夠以容忍的方式來確保鄉(xiāng)村秩序。

      式(1)中,xt[f]是語音在第t幀第f頻點的STFT 結果,最終組成一個T幀F(xiàn)個頻點的矩陣,N是每幀的采樣點個數(shù),H是相鄰幀間的位移,w是窗函數(shù)系數(shù),bf[i]是對應的STFT 變換系數(shù).令k=w·b,可以將式(1)變換成卷積形式:

      TFANet 通過一個卷積層來模擬實現(xiàn)上式的計算過程,其中包含F(xiàn)個大小為N且系數(shù)為kf的卷積核,我們將卷積步長設為H,輸出設為x.通過試驗參數(shù),本文將H設置為64,T、F、N均為512,這層卷積的輸出為512×512 的2 維矩陣.在非端到端的方法中,通常將時域語音信號通過STFT 處理為幅度譜表示,經由模型增強后,再結合原始含噪語音的相位譜合成增強后的時域語音波形.如圖1 所示,類比這種語音增強過程,我們通過對x取絕對值|x|來模擬STFT 的幅度譜,然后將|x|作為特征圖輸入到RefineNet 中學習含噪語音到純凈語音的復雜映射關系.這里RNSE 模型保留了x的正負號表示p是對原始信號相位的模擬,用于增強語音的重構.

      由于RefineNet 的輸出特征圖的長和寬是其輸入的1/4,在解碼生成階段,我們使用步長為4 的解卷積層將特征圖恢復為原大小,同時微調特征圖.接著將特征圖與編碼分析階段保留的p相乘,輸入到解卷積層,模擬語音重構過程的短時傅里葉逆變換,最終得到對時域純凈語音的估計.

      1.2 RefineNet 神經網絡

      RefineNet 是在ResNet[26]框架上的改進,為了在增加神經網絡深度的同時不影響模型訓練,Res-Net 采用了殘差連接,將一層或多層疊加的隱含層輸出F(x)與輸入x相加,作為最終輸出:

      本文通過實驗最終確定的ResNet 結構如圖2所示.ResNet 的輸入依次經過卷積核大小為7×7步長為2 的卷積層,步長為2 的池化層,進入4 個疊加的網絡塊(ResBlock).每個ResBlock 包含7個結構相似的卷積層,以ResBlock 1 為例,它是一個輸出通道為256 的堆疊卷積層,每個卷積層步長均為1;在ResBlock 1 中包含2 個三層堆疊卷積層,每個三層堆疊的卷積層與ResBlock 的輸出通道相同,且除了第二層卷積核大小為3×3 且步長與ResBlock 相同外,其他層卷積核大小均為1×1 且步長為1;在ResBlock 中通過殘差連接的方式將輸入輸出連接起來,提升網絡的表征能力.其余3 個ResBlock 的結構與ResBlock 1 的結構相似,不再贅述.

      圖2 ResNet 模型結構圖(Conv 后用,分隔的分別是卷積層的輸出通道數(shù)、步長,若未指明步長,默認為1)Fig.2 The diagram for ResNet architecture

      4 個ResBlock 輸出的特征圖逐塊縮小,感受野變大,特征更加抽象,從而能捕獲更高層次的全局和上下文信息,并且計算量隨之減少,但是精細特征也會逐漸丟失.RefineBlock 是一種神經網絡塊,可以把不同大小的特征圖融合,從而利用高層的抽象特征和底層的精細特征,其結構如圖3 所示,包含殘差卷積單元RCU (Residual convolution unit)、自適應卷積(Adaptive convolution)模塊、多分辨率融合(Multi-resolution fusion)模塊、鏈式殘差池化(Chained residual pooling)模塊、RefineBlock輸出卷積(RefineBlock output convolution)模塊等.自適應卷積模塊用于在融合前微調特征圖,由2 個RCU 構成,每個RCU 包含2 層帶ReLU 激活的卷積,每個特征圖輸入與第2 層卷積輸出相加構成殘差連接.RefineBlock 4 只有1 個特征圖輸入,而其他RefineBlock 有2 個輸入.

      圖3 RefineBlock 結構圖Fig.3 The diagram for RefineBlock architecture

      多分辨率融合模塊用于將不同分辨率的特征圖合成一張圖.首先,特征圖通過一層卷積做融合前的微調,然后以分辨率最高的特征圖為基準,對所有分辨率較低的新特征圖通過雙線性插值上采樣,最后直接相加,得到一張高分辨率的特征圖.鏈式殘差池化模塊使用更大的感受野從輸入特征圖中提取抽象特征.特征圖首先經過ReLU 激活函數(shù),池化壓縮圖大小,提取主要特征,再通過卷積層微調,得到的新特征圖在進行下一次的池化和卷積的同時,通過殘差連接與原特征圖融合,形成鏈式的殘差池化結構.RefineBlock 輸出卷積模塊由1 個RCU 組成.

      RefineNet 的總體結構如圖1 所示,ResBlock 4 的特征圖輸入到RefineBlock 4 中,經過微調輸入RefineBlock 3,與ResBlock 3 的特征圖融合,再依次通過RefineBlock 2、1 與ResBlock 2、1 的特征圖融合,最后經過輸出卷積模塊做最后的微調.輸出卷積模塊包含2 個RCU,以及1 個卷積核大小為1×1 的卷積層.

      2 評價指標與損失函數(shù)融合

      基于深度學習的語音增強模型常用均方誤差MSE 作為優(yōu)化目標,在時域可表示為:

      其中α、β、λ是各優(yōu)化目標的權重系數(shù),Cstoi、Csdr表示計算STOI、SDR 的函數(shù),下面是對兩優(yōu)化目標的詳細介紹.

      1) SDR 優(yōu)化目標

      SDR 是增強語音信號中純凈語音分量與其他分量的能量比值.計算公式如下:

      2) STOI 優(yōu)化目標

      STOI 用于評估語音的可理解性,輸入是純凈語音y和增強語音.首先去除對語音可懂度無貢獻的無聲區(qū)域,然后對信號做STFT,對兩個信號進行時頻分解,通過將兩個信號分割為50 %重疊的帶漢寧窗的幀,得到與聽覺系統(tǒng)中語音表征性質相似的特征.接著進行1/3 倍頻帶分析,劃分共15個1/3 倍頻帶,其中頻帶中心頻率范圍為150 Hz至4.3 kHz.純凈語音的短時時間包絡zj,m可表示如下:

      其中Y∈R15×M是由劃分得到的15 個1/3 倍頻帶,M代表該段語音的總幀數(shù),j∈{1,2,···,15}是15個1/3 倍頻帶的索引,m為幀的索引,L=30,其代表分析語音段長度為384 ms.

      3 實驗和結果分析

      3.1 實驗數(shù)據(jù)及設置

      實驗中使用的語音數(shù)據(jù)來自于TIMIT 數(shù)據(jù)集,噪聲數(shù)據(jù)集采用ESC-50 作為訓練集,為了驗證本文提出模型的泛化性能,我們也將Noisex92 噪聲數(shù)據(jù)集用于測試.TIMIT 數(shù)據(jù)集總共包含6 300 條語音,由630 人每人錄制10 個句子得到,男女比率為7:3.其中,每人錄制的句子中有7 個是重復的,為了去除重復句子對模型訓練與測試的影響,本實驗只取句子均不相同的1 890 條語音.將其中約80 %的語音作為訓練集,另外20 %作為測試語音,且男女比例與TIMIT 總體分布相同.ESC-50 數(shù)據(jù)集包含2 000 條帶標簽的環(huán)境錄音集合,共分為5 個主要類別:動物、自然音景與水聲、非語音人聲、室內聲音、城區(qū)聲音.Noisex92 是常用于語音增強測試的數(shù)據(jù)集,本文使用Babble、Factory1、White、HFChannel 四種常見噪聲進行不同噪聲環(huán)境的測試,用所有15 種Noisex92 噪聲做不可見噪聲測試,用所有ESC-50 噪聲做可見噪聲測試.

      3.2 對比方法及評價指標

      本文選擇4 個經典算法對比:a) Log-MMSE,是一種常用的基于統(tǒng)計模型的語音增強方法[28];b)CNN-SE[29],采用CNN 對語音進行增強,并且通過添加跳連接的方式融合神經網絡低層和高層的信息;c) WaveUnet[30],基于Unet 模型結構所提出的一種應用于時域語音波形信號的神經網絡模型[31];d) AET[19],通過神經網絡模仿STFT 前端變換過程,直接在時域語音波形上建模,其中b)、c)、d)均為基于端到端的語音增強方法.

      本文采用的評估指標為STOI、PESQ 及SDR,其中STOI 是短時客觀可懂度,用于衡量語音可懂度,得分范圍為0~ 1,分值越高表明可懂度越高;PESQ 用于語音質量感知評估,它是ITU-T (國際電信聯(lián)盟電信標準化部)推薦的語音質量評估指標,其得分范圍為-0.5~ 4.5,值越大表明質量越好.SDR 測試增強語音中純凈語音的分量與其他分量的參量比值,范圍理論上為整個實數(shù)域,值越大表明增強效果越好.

      3.3 實驗結果與分析

      本文評估了RNSE 與其他非端到端方法的性能差異.圖4 展示了在幾種常見噪聲條件下各模型的指標對比,我們可以看出在不同噪聲環(huán)境和不同信噪比條件下,RNSE 方法相比于時頻域方法有顯著的性能提升,在每種評估指標下幾乎均取得了最佳結果.我們還注意到,即使在 -10 dB 的極限信噪比下,RNSE 方法仍然可以取得比部分基線方法在-5 dB 下相當或更好的性能,這意味著RNSE 更適合于在低信噪條件下的復雜環(huán)境中挖掘語音信號的信息.我們通過在可見和不可見噪聲下做測試,進一步驗證RNSE 模型的泛化性,表1和表2 分別給出了已知噪聲和未知噪聲下的客觀評價指標;由表1和表2 可以看出,RNSE 在已知噪聲環(huán)境和未知噪聲環(huán)境下均取得了最佳的結果,而且遠優(yōu)于其他端到端對比方法;同時,我們注意到相比于其他基線方法,WaveUnet 方法在STOI 上,取得了相對更高的客觀評估指標.為了更加直觀的比較各種算法的增強效果,我們對各個網絡增強后的語音的語譜圖進行了比較分析,圖5 為在0 dB 的Babble 噪聲下使用不同算法得到的增強語音的語譜圖,橫軸表示時間T,縱軸表示語音信號頻率F.從語譜圖中可以看出,各種算法都在一定程度上對含噪語音進行了有效的處理,CNN-SE 與WaveUnet 方法在增強含噪語音的過程中,存在相對較多的噪聲殘留;AET 方法在增強過程中,對噪聲的抑制能力更強,但在去除大量噪聲的過程中也去除了一些語音成分信息.由于時域波形信號的復雜性,通過神經網絡直接挖掘時域特征時,無法較為準確地辨識語音和噪聲,導致在增強過程中,會引入一些噪聲或增強過度.RNSE 方法利用TFANet 將時域信號映射到二維表達空間,保留其正負號特征并用于后期波形重構.通過這種方式引導神經網絡在訓練過程中對原始信息的利用,可以緩解模型在增強過程中的增強不足或增強過度的問題.

      圖4 不同噪聲不同信噪比下實驗結果圖(從第一行到第三行評價指標分別為PESQ、STOI 與SDR,圖(a)~ (c)、圖(d)~ (f)、圖(g)~ (i)、圖(j)~ (l)分別為Babble,Factory1,White,HFChannel 噪聲下的結果;每簇信噪比中的柱狀圖從左至右依次對應Log-MMSE,CNN-SE,WaveUNet,AET 以及RNSE)Fig.4 Experimental results under different noise and SNR

      表1 可見噪聲的測試結果Table 1 The performance of baseline systems compared to the proposed RNSE approach in seen noise condition

      表2 不可見噪聲的測試結果Table 2 The performance of baseline systems compared to the proposed RNSE approach in unseen noise condition

      圖5 0 dB 的Babble 噪聲下的語音增強語譜圖示例Fig.5 An example of spectrogram of enhanced speech under Babble noise at 0 dB SNR

      通過在各種噪聲和信噪比環(huán)境下的測試表明RNSE 模型在復雜環(huán)境下具有較強的魯棒性.在RNSE 模型訓練階段,我們把評估指標融入到損失函數(shù)中,為了比較融入的評價指標對語音增強性能的影響,我們比較了在不同組合的損失函數(shù)下RNSE 模型的增強性能,圖6 展示了不同信噪比下的增強效果對比.從圖中可以看出,在使用單一目標作為損失函數(shù)時,基于SDR 的損失函數(shù)在PESQ和SDR 評價指標上均取得了相對更好的性能,基于STOI 的損失函數(shù)在STOI 指標上也取得了更好的性能;但是不同的損失函數(shù)存在與其他評估指標不兼容的情況,比如基于STOI 的損失函數(shù)在PESQ 與SDR 指標上的性能較低,這是由于STOI 的計算是基于增強語音的時間包絡,其作為訓練的損失函數(shù)時會引導神經網絡模型過多關注增強語音與純凈語音之間的時間包絡關系,導致在PESQ和SDR 方面的性能不佳.同時我們注意到兩兩組合的損失函數(shù)相比于單一目標損失函數(shù)可以取得相對更好的性能,基于STOI 與SDR 融合的損失函數(shù)取得了比其他組合或單一目標損失函數(shù)更好的評估結果.進一步地,沿著這個思路,我們將STOI和SDR 與RMSE 按照一定的權重組合起來聯(lián)合訓練優(yōu)化調參.

      圖6 基于不同損失函數(shù)的測試結果Fig.6 Results based on different objective functions

      在調參的過程中,先單獨使用STOI、SDR 以及RMSE 作為損失函數(shù)進行訓練,觀察他們分別訓練的損失函數(shù)值,當其收斂到某一個數(shù)量級時,再通過調節(jié)超參數(shù)α、β以及λ對相應的損失函數(shù)值進行收縮,將他們的范圍都限制到 -1~ +1 的范圍內,然后在此基礎上微調,從而得到模型各超參數(shù)的最佳匹配.圖中STOI+SDR+MSE 組合對應于式(5)中的超參數(shù)α=10、β=1、λ=5×103.由此,我們從實驗直觀地證明了損失函數(shù)與評價指標的不匹配會導致語音增強性能無法達到最佳,我們通過將評估指標與損失函數(shù)按照一定的權重比例組合并輸入到神經網絡中聯(lián)合訓練,顯著提高了語音增強的性能,表明損失函數(shù)與評估指標的結合可以有效地提高語音增強的性能,而且本文提出的將評估指標融合到損失函數(shù)中聯(lián)合訓練的思想并不是只適用于語音增強領域,還可以普適性地應用到其他各領域.

      4 結論

      本文提出了一個端到端的語音增強算法.首先構建一個時頻分析網絡對語音信號編碼分析,然后利用RefineNet 網絡學習含噪語音到純凈語音的特征映射,最后解碼生成增強的語音信號.在此基礎上,我們提出將評價指標與訓練損失函數(shù)相融合的改進方法以及將STOI 與SDR 同時作為優(yōu)化目標的多目標學習策略.在不同噪聲環(huán)境和不同信噪比下的測試中,本文提出的方法在STOI、PESQ 以及SDR 方面的指標顯著優(yōu)于具有代表性的傳統(tǒng)方法和端到端的深度學習方法,證明它能更好地提高語音的清晰度和可懂度;通過對不同損失函數(shù)的對比實驗,本文驗證了將評價指標與損失函數(shù)融合的策略在深度學習模型上的有效性.

      猜你喜歡
      時域損失語音
      少問一句,損失千金
      胖胖損失了多少元
      魔力語音
      基于MATLAB的語音信號處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      玉米抽穗前倒伏怎么辦?怎么減少損失?
      基于時域信號的三電平逆變器復合故障診斷
      測控技術(2018年11期)2018-12-07 05:49:02
      對方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      基于極大似然準則與滾動時域估計的自適應UKF算法
      基于時域逆濾波的寬帶脈沖聲生成技術
      临海市| 新竹市| 图木舒克市| 平果县| 盐池县| 迁西县| 林甸县| 南漳县| 民县| 石城县| 泉州市| 余江县| 淅川县| 白水县| 治多县| 梨树县| 个旧市| 榕江县| 云安县| 迭部县| 云南省| 大厂| 绥化市| 平山县| 徐州市| 嘉善县| 青河县| 文化| 景德镇市| 大埔区| 崇左市| 长葛市| 平定县| 中阳县| 大新县| 武山县| 尚义县| 潍坊市| 政和县| 南丰县| 江永县|