• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于拋物面焦點(diǎn)麥克風(fēng)預(yù)處理和遷移學(xué)習(xí)的語音增強(qiáng)方法

      2022-07-04 07:18:16王澤宇胡夢(mèng)雪劉贛俊耿彥章
      關(guān)鍵詞:拋物面麥克風(fēng)信噪比

      張 濤,王澤宇,胡夢(mèng)雪,趙 鑫,劉贛俊,耿彥章

      基于拋物面焦點(diǎn)麥克風(fēng)預(yù)處理和遷移學(xué)習(xí)的語音增強(qiáng)方法

      張 濤1,王澤宇2,胡夢(mèng)雪2,趙 鑫1,劉贛俊1,耿彥章1

      (1. 天津大學(xué)電氣自動(dòng)化與信息工程學(xué)院,天津 300072;2. 天津大學(xué)國(guó)際工程師學(xué)院,天津 300072)

      背景噪聲會(huì)嚴(yán)重影響語音的質(zhì)量和可懂度,從一段帶噪語音中分離出目標(biāo)語音,盡可能地降低背景噪聲對(duì)目標(biāo)語音的影響,是語音增強(qiáng)技術(shù)的目標(biāo).語音增強(qiáng)技術(shù)在自動(dòng)語音識(shí)別、電話通信等領(lǐng)域有著廣泛的應(yīng)用,近年來,該技術(shù)也受到了學(xué)者的關(guān)注.在真實(shí)噪聲環(huán)境中,帶噪語音的背景噪聲往往十分復(fù)雜,傳統(tǒng)的語音增強(qiáng)方式無法很好地適應(yīng)各類噪聲場(chǎng)景.針對(duì)復(fù)雜的非線性問題,基于深度學(xué)習(xí)的語音增強(qiáng)方法具有很強(qiáng)的適應(yīng)能力.然而,對(duì)于真實(shí)噪聲環(huán)境,模型的增強(qiáng)性能往往因?yàn)榉夯圆蛔愣陆担疄榱诉M(jìn)一步提升語音增強(qiáng)模型在真實(shí)噪聲環(huán)境下的增強(qiáng)性能,提出了一種基于拋物面焦點(diǎn)麥克風(fēng)預(yù)處理和遷移學(xué)習(xí)的語音增強(qiáng)方法.該方法利用拋物面焦點(diǎn)麥克風(fēng)采集帶噪語音和噪聲,通過物理匯聚增強(qiáng)的方式,對(duì)帶噪語音進(jìn)行預(yù)處理.再利用遷移學(xué)習(xí)方法,小樣本微調(diào)訓(xùn)練LSTM-convolutional-BLSTM編解碼(LSTM-convolutional-BLSTM encoder-decoder,LCLED)網(wǎng)絡(luò)的編碼器和輸出層,凍結(jié)解碼器,通過算法模型,適應(yīng)真實(shí)噪聲環(huán)境特性,進(jìn)一步增強(qiáng)語音.所提出的方法通過物理途徑和算法途徑兩個(gè)方面,構(gòu)建了一整套端到端的語音增強(qiáng)系統(tǒng),提升了整個(gè)系統(tǒng)的語音增強(qiáng)性能,降低了深度神經(jīng)網(wǎng)絡(luò)算法模型的復(fù)雜度.實(shí)驗(yàn)結(jié)果表明,所提出的方法可以有效地增強(qiáng)真實(shí)噪聲環(huán)境下的帶噪語音.

      遷移學(xué)習(xí);神經(jīng)網(wǎng)絡(luò);語音增強(qiáng);真實(shí)噪聲場(chǎng)景;拋物面焦點(diǎn)麥克風(fēng)

      在語音信號(hào)處理系統(tǒng)中,背景噪聲會(huì)嚴(yán)重影響語音的質(zhì)量和可懂度.語音增強(qiáng)技術(shù)是指從帶噪語音中分離出目標(biāo)語音,是語音信號(hào)處理中重要的前端處理模塊.對(duì)帶噪語音的噪聲進(jìn)行抑制并對(duì)干凈語音進(jìn)行增強(qiáng),是語音增強(qiáng)任務(wù)的核心目標(biāo).同時(shí)語音增強(qiáng)技術(shù)也具有廣泛的應(yīng)用領(lǐng)域,如助聽器的設(shè)計(jì)、自動(dòng)語音識(shí)別、電話通信等.因此,語音增強(qiáng)技術(shù)具有較高的研究?jī)r(jià)值.

      目前,許多語音增強(qiáng)技術(shù)已經(jīng)被提出,包括基于信號(hào)處理的方法和基于模型訓(xùn)練的方法.在基于語音信號(hào)處理的方法中,譜減法[1]和維納濾波法[2]是兩種經(jīng)典的語音增強(qiáng)方法.當(dāng)背景噪聲可以被計(jì)算估計(jì)時(shí),這兩種方法表現(xiàn)出較好的增強(qiáng)性能.然而,因?yàn)樵诂F(xiàn)實(shí)環(huán)境中的噪聲是更加復(fù)雜的、非線性的,所以很難去準(zhǔn)確估計(jì)預(yù)測(cè)背景噪聲.為解決該問題,近年來深度學(xué)習(xí)的方法被運(yùn)用到語音增強(qiáng)任務(wù)中.

      深度學(xué)習(xí)方法是典型的基于模型訓(xùn)練的方法,針對(duì)復(fù)雜的非線性問題,其具有很強(qiáng)的特征建模能力.文獻(xiàn)[3]首次提出將深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)運(yùn)用到語音分離任務(wù)中,將DNN視為二值分類器去預(yù)測(cè)理想二值掩蔽(ideal binary mask,IBM)目標(biāo).文獻(xiàn)[4]中提出了理想比值掩蔽(ideal ratio mask,IRM)目標(biāo),并且取得了更好的語音質(zhì)量.文獻(xiàn)[5]提出基于受限玻耳茲曼機(jī)(restricted Boltzmann machine,RBM)預(yù)訓(xùn)練的DNN模型,預(yù)測(cè)干凈語音的對(duì)數(shù)功率譜(log power spectra,LPS)特征,該方法通過混合語音的對(duì)數(shù)功率譜特征去映射(mapping)干凈語音的對(duì)數(shù)功率譜特征.除此之外,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)也是一種典型的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),其在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用取得了較大的成果,包括目標(biāo)檢測(cè)、樂譜識(shí)別[6]等場(chǎng)景.最近,CNN結(jié)構(gòu)也被運(yùn)用到了語音增強(qiáng)任務(wù)中.文獻(xiàn)[7]中提出了基于全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional neural network,F(xiàn)CN)和復(fù)數(shù)譜的語音增強(qiáng),其中,F(xiàn)CN由一維(1-D)卷積和二維(2-D)卷積構(gòu)成,二維卷積采用了空洞卷積來增大接受域.文獻(xiàn)[8]中提出了基于最大輸出卷積神經(jīng)網(wǎng)絡(luò)(convolu-tional maxout neural network,CMNN)的IRM目標(biāo)估計(jì),結(jié)果表明,CMNN取得了比DNN更高的語音質(zhì)量感知評(píng)價(jià)(perceptual evaluation of speech quality,PESQ)指標(biāo).另外一些研究中[9-10]同樣也提出了基于卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的語音增強(qiáng),均取得了優(yōu)于DNN結(jié)構(gòu)的增強(qiáng)性能.在上述提到的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,通常使用2-D卷積或1-D卷積來提取輸入特征的頻率維度信息,并使用1-D卷積提取輸入特征的時(shí)間維度信息(上下文信息);但是,卷積結(jié)構(gòu)往往會(huì)分離語音的上下文信息,這會(huì)丟失部分語音的時(shí)間維度信息.

      為了更好地提取語音的上下文信息,長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)作為典型的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)被運(yùn)用到了語音增強(qiáng)任務(wù)中.文獻(xiàn)[11]提出了基于LSTM的IRM目標(biāo)估計(jì)來進(jìn)行語音增強(qiáng).文獻(xiàn)[12]中提出了基于LSTM的多目標(biāo)聯(lián)合學(xué)習(xí)準(zhǔn)則框架.文獻(xiàn)[13]提出了基于雙向LSTM (bi-directional LSTM,BLSTM)的抑制風(fēng)噪模型.文獻(xiàn)[14]提出了基于殘差LSTM(residual LSTM,ResLSTM)的聲學(xué)模型.盡管LSTM在語音增強(qiáng)任務(wù)中展現(xiàn)了很好的增強(qiáng)性能,但是,全LSTM神經(jīng)網(wǎng)絡(luò)模型的負(fù)載消耗(模型空間復(fù)雜度)非常大.

      作為基于有監(jiān)督模型訓(xùn)練的語音增強(qiáng)方法,除了神經(jīng)網(wǎng)絡(luò)模型本身結(jié)構(gòu)的差異,選擇一個(gè)合適的訓(xùn)練目標(biāo)對(duì)模型的訓(xùn)練和泛化性有重要意義.最近許多研究采用以IRM[15]為訓(xùn)練目標(biāo),或直接采用以語音的功率譜或幅值譜為映射目標(biāo).2019年,Nicolson 等[16]證明基于ResBLSTM估計(jì)先驗(yàn)信噪比(a priori SNR)的最小均方誤差(minimum mean-square error,MMSE)的語音增強(qiáng)方法,相比最近提出的基于深度學(xué)習(xí)的掩蔽目標(biāo)估計(jì)和映射目標(biāo)估計(jì),可以獲得更好的語音質(zhì)量和可懂度,除此之外,文中也證明了在基于ResBLSTM神經(jīng)網(wǎng)絡(luò)訓(xùn)練下,先驗(yàn)信噪比的訓(xùn)練目標(biāo)比IRM訓(xùn)練目標(biāo)可以獲得更好的語音質(zhì)量.在文獻(xiàn)[17]中,筆者提出了一種基于LSTM-convolu-tional-BLSTM編解碼(LSTM-convolutional-BLSTM encoder-decoder,LCLED)網(wǎng)絡(luò),采用語音的先驗(yàn)信噪比作為訓(xùn)練目標(biāo)并用最小均方誤差做后處理的語音增強(qiáng)方法,實(shí)驗(yàn)結(jié)果表明,相比于全LSTM結(jié)構(gòu),提出的LCLED不僅降低了模型復(fù)雜度,并且增強(qiáng)后的語音具有更好的語音質(zhì)量和語音可懂度.

      然而,因?yàn)樯窠?jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)規(guī)模較小、訓(xùn)練數(shù)據(jù)泛化性不足等原因,在真實(shí)場(chǎng)景下的語音增強(qiáng)性能往往不如人意.文獻(xiàn)[18]中提出了一種基于特征注意力多核最大均值差異(feature-attention multi-kernel maximum mean discrepancy,F(xiàn)A-MK-MMD)的遷移學(xué)習(xí)語音增強(qiáng)方法,提升模型在未標(biāo)記噪聲情況下的泛化性.文獻(xiàn)[19]提出了一種引入注意力機(jī)制的生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)語音增強(qiáng)遷移學(xué)習(xí)模型,其實(shí)驗(yàn)結(jié)果表明,對(duì)訓(xùn)練集外噪聲可以進(jìn)行有效的降噪.

      除此之外,如何高效采集真實(shí)場(chǎng)景下的帶噪語音也十分重要.在文獻(xiàn)[20]中,筆者采用拋物面模型對(duì)帶噪語音進(jìn)行采集,其本身對(duì)帶噪語音已經(jīng)進(jìn)行了部分增強(qiáng).通過拋物面模型預(yù)處理模塊,在真實(shí)環(huán)境下可以得到更好的語音增強(qiáng)效果.

      為了進(jìn)一步提升在真實(shí)環(huán)境下即未標(biāo)記噪聲的語音增強(qiáng)性能,本文提出了一種基于拋物面焦點(diǎn)麥克風(fēng)模型預(yù)處理和遷移學(xué)習(xí)的語音增強(qiáng)方法.首先,筆者采用拋物面焦點(diǎn)麥克風(fēng)模型[20],采集真實(shí)環(huán)境中空調(diào)風(fēng)機(jī)的帶噪語音和噪聲;然后,采用文獻(xiàn)[16]中的方法搭建并訓(xùn)練LCLED網(wǎng)絡(luò);最后,通過遷移學(xué)習(xí)方法對(duì)該真實(shí)場(chǎng)景進(jìn)行模型微調(diào)遷移,獲得更好的語音質(zhì)量.

      1 拋物面焦點(diǎn)麥克風(fēng)模型預(yù)處理

      在真實(shí)環(huán)境中,利用深度學(xué)習(xí)模型去解決語音增強(qiáng)任務(wù),首先要利用某種采集裝置對(duì)帶噪語音進(jìn)行采集.為了使神經(jīng)網(wǎng)絡(luò)的輸入語音盡可能不受硬件設(shè)備的采集而受損,進(jìn)一步地還能在采集過程中對(duì)語音進(jìn)行部分增強(qiáng)預(yù)處理,本文引入了拋物面焦點(diǎn)麥克風(fēng)模型,該預(yù)處理模塊通過拋物線旋轉(zhuǎn)面的幾何聚焦原理,利用拋物面能在焦點(diǎn)處放大聲壓的特性,進(jìn)行語音信號(hào)的預(yù)處理.

      1.1 拋物面模型原理

      圖1 拋物面反射器的側(cè)截面

      Fig.1 Sectional view of a parabolic reflector

      圖2 不同下的拋物面反射器示意

      1.2 拋物面模型分析和參數(shù)設(shè)置

      根據(jù)文獻(xiàn)[21]可知,聲波沿中軸線進(jìn)入拋物面時(shí)焦點(diǎn)處的放大系數(shù)為

      圖3 焦點(diǎn)聲壓放大圖

      Fig.3 Amplification factor of sound pressure

      由以上分析可知,拋物面焦點(diǎn)麥克風(fēng)模型具有增強(qiáng)語音的效果,但拋物面模型在放大語音的同時(shí)也將噪聲放大.針對(duì)這個(gè)問題,筆者利用拋物面焦點(diǎn)麥克風(fēng)作為前端模塊,對(duì)語音進(jìn)行預(yù)處理,然后再利用遷移學(xué)習(xí)算法模型進(jìn)一步增強(qiáng)語音,從信號(hào)采集的物理增強(qiáng)和遷移學(xué)習(xí)的算法增強(qiáng)兩個(gè)維度,進(jìn)一步提升整個(gè)語音增強(qiáng)系統(tǒng)的性能.

      圖4 拋物面反射器實(shí)物圖

      2 LCLED遷移學(xué)習(xí)模型

      遷移學(xué)習(xí)是指把在先前任務(wù)中模型學(xué)習(xí)到的知識(shí),遷移應(yīng)用到新的任務(wù)中.遷移學(xué)習(xí)從一個(gè)或多個(gè)源任務(wù)中提取經(jīng)驗(yàn),并把學(xué)習(xí)經(jīng)驗(yàn)應(yīng)用到目標(biāo)任務(wù)中.目前,遷移學(xué)習(xí)在數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等領(lǐng)域均有應(yīng)用[22].本文采用基于LCLED遷移學(xué)習(xí)的語音增強(qiáng)算法,進(jìn)一步提高語音增強(qiáng)系統(tǒng)的整體 性能.

      2.1 語音特征和訓(xùn)練目標(biāo)

      文獻(xiàn)[16]中提出把語音信號(hào)先驗(yàn)信噪比的累積分布函數(shù)作為訓(xùn)練目標(biāo),并用MMSE-LSA估計(jì)器做后處理,可以獲得更高的語音質(zhì)量.需要注意的是,計(jì)算先驗(yàn)信噪比的方法已被改變[23].筆者在文獻(xiàn)[17]中給出了詳細(xì)的計(jì)算方式.將經(jīng)過深度神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)的語音先驗(yàn)信噪比與MMSE-LSA增益函數(shù)相乘可以得到增強(qiáng)后語音的對(duì)數(shù)功率譜.

      2.2 基于LCLED遷移學(xué)習(xí)模型的語音增強(qiáng)

      LSTM-convolutional-BLSTM編解碼(LSTM-convolutional-BLSTM encoder-decoder,LCLED)網(wǎng)絡(luò)利用LSTM部分提取語音信號(hào)的時(shí)域信息(上下文信息),利用CNN部分提取語音信號(hào)的頻域信息.LCLED由兩大模塊組成,編碼模塊通過LSTM對(duì)輸入特征的時(shí)域信息進(jìn)行學(xué)習(xí),利用反卷積層將頻域信息編碼為更高的維度和更大的面積;解碼模塊利用卷積層和BLSTM對(duì)編碼后的信息進(jìn)行解碼.其中跳躍連接(skip connection)用來解決隨著網(wǎng)絡(luò)深度加深、導(dǎo)致較淺層特征信息丟失的問題.除此之外,模型利用eLU激活單元代替常見ReLU激活單元,以適應(yīng)具有負(fù)數(shù)部分的對(duì)數(shù)功率譜特征[17].如圖5所示,本文對(duì)訓(xùn)練好的LCLED的解碼部分進(jìn)行凍結(jié),利用真實(shí)風(fēng)機(jī)噪聲場(chǎng)景下的噪聲進(jìn)行小樣本訓(xùn)練,微調(diào)模型的編碼部分.

      圖6為基于拋物面模型預(yù)處理和遷移學(xué)習(xí)的語音增強(qiáng)系統(tǒng).在第1階段使用TIMIT和NOISEX-92數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練;在遷移訓(xùn)練階段利用采集到的噪聲以及干凈語音對(duì)模型進(jìn)行微調(diào),得到最終的LCLED模型;在增強(qiáng)階段,利用拋物面焦點(diǎn)麥克風(fēng)模型采集并預(yù)處理帶噪語音,利用LCLED遷移學(xué)習(xí)模型和MMSE-LSA估計(jì)器增強(qiáng)語音.

      本文在遷移學(xué)習(xí)階段對(duì)LCLED模型的編碼器和輸出層進(jìn)行訓(xùn)練微調(diào),針對(duì)真實(shí)環(huán)境下的噪聲場(chǎng)景進(jìn)行適應(yīng),使系統(tǒng)獲得更好的語音增強(qiáng)效果.同時(shí),編碼器的訓(xùn)練參數(shù)也遠(yuǎn)遠(yuǎn)小于解碼器的訓(xùn)練參數(shù),在小樣本的條件下,更適合于遷移學(xué)習(xí)模型.

      圖5 基于LCLED的遷移學(xué)習(xí)模型

      圖6 基于拋物面焦點(diǎn)麥克風(fēng)預(yù)處理和遷移學(xué)習(xí)的語音增強(qiáng)系統(tǒng)框圖

      3 實(shí)驗(yàn)與結(jié)果

      本文設(shè)計(jì)了一系列實(shí)驗(yàn)來評(píng)價(jià)語音增強(qiáng)系統(tǒng)的性能.首先介紹了數(shù)據(jù)的處理方法和訓(xùn)練超參數(shù);接著對(duì)模型的性能進(jìn)行了評(píng)價(jià),包括語音質(zhì)量、模型復(fù)雜度和語譜圖的直觀對(duì)比.

      3.1 數(shù)據(jù)準(zhǔn)備和訓(xùn)練超參數(shù)

      1) 初始訓(xùn)練階段

      2) 遷移訓(xùn)練階段

      在遷移訓(xùn)練階段,訓(xùn)練集的純凈語音選自TIMIT語音庫(kù)訓(xùn)練集中的500段語音,噪聲利用拋物面焦點(diǎn)麥克風(fēng)模型進(jìn)行現(xiàn)場(chǎng)真實(shí)采集.本文中,干凈語音被重采樣為16Hz,噪聲的采樣頻率為16Hz,混合帶噪語音的方式與初始訓(xùn)練階段相同.在語音的預(yù)處理階段,以32ms進(jìn)行分幀,幀移為16ms,并對(duì)其利用漢明窗函數(shù)進(jìn)行加窗處理.

      微調(diào)訓(xùn)練采用交叉熵?fù)p失函數(shù)和Adam優(yōu)化器,批大小設(shè)置為32,訓(xùn)練25代.學(xué)習(xí)率每10代乘0.1動(dòng)態(tài)下降.

      3) 增強(qiáng)階段

      在增強(qiáng)階段,本文利用拋物面焦點(diǎn)麥克風(fēng)模型,在距離噪聲源(空調(diào)鼓風(fēng)機(jī))和干凈語音1.5m處現(xiàn)場(chǎng)采集100段帶噪語音,然后利用遷移學(xué)習(xí)模型增強(qiáng)語音.

      3.2 實(shí)驗(yàn)結(jié)果和分析

      語音質(zhì)量感知評(píng)價(jià)(perceptual evaluation of speech quality,PESQ)是廣泛使用的客觀評(píng)價(jià)方法,可以評(píng)估增強(qiáng)語音的整體質(zhì)量,其得分位于-0.5~4.5之間,得分越高表示語音質(zhì)量越好[24-25].文獻(xiàn)[16]中驗(yàn)證了基于先驗(yàn)信噪比目標(biāo)的語音增強(qiáng)算法可以獲得更高PESQ分?jǐn)?shù).文獻(xiàn)[16]中的實(shí)驗(yàn)結(jié)果也表明,增強(qiáng)后語音的PESQ分?jǐn)?shù)有更明顯的提升.除此之外,相比于仿真情況下,利用已知信噪比混合語音和噪聲進(jìn)行測(cè)試,本文直接采集真實(shí)環(huán)境下的帶噪語音進(jìn)行測(cè)試,帶噪語音的信噪比是未知的.故本文采用PESQ分?jǐn)?shù)和信噪比作為評(píng)價(jià)增強(qiáng)后語音質(zhì)量好壞的指標(biāo).實(shí)驗(yàn)結(jié)果如表1所示,訓(xùn)練好的LCLED模型在真實(shí)環(huán)境下即未標(biāo)記噪聲的場(chǎng)景中,也可以取得較好的增強(qiáng)性能,增強(qiáng)后語音PESQ分?jǐn)?shù)提高24%;經(jīng)過遷移學(xué)習(xí)模型微調(diào)增強(qiáng)后,PESQ分?jǐn)?shù)進(jìn)一步提升接近5%.而信噪比的提升則更加明顯.

      表1 不同模型下PESQ分?jǐn)?shù)比較

      為了進(jìn)一步分析本文提出的語音增強(qiáng)系統(tǒng),對(duì)100段語音增強(qiáng)前與增強(qiáng)后的PESQ分?jǐn)?shù)和信噪比進(jìn)行比較.如圖7所示,相比直接用拋物面焦點(diǎn)麥克風(fēng)模型采集并物理預(yù)處理增強(qiáng)的方式,遷移學(xué)習(xí)模型能進(jìn)一步對(duì)采集的語音進(jìn)行算法角度的增強(qiáng),尤其在采集語音質(zhì)量很低的情況下.圖中在采集語音質(zhì)量較高的情況下出現(xiàn)了經(jīng)過遷移學(xué)習(xí)模型增強(qiáng)后PESQ反而降低的情況,是因?yàn)樯窠?jīng)網(wǎng)絡(luò)模型在預(yù)測(cè)干凈語音時(shí),會(huì)在某些情況下存在對(duì)語音破壞的情況,但是,從整體的增強(qiáng)效果來看,增強(qiáng)語音的PESQ分?jǐn)?shù)在大部分情況下得到了提升.由圖8可以明顯看出,增強(qiáng)后語音的信噪比得到了明顯提升.

      圖7 100段語音的PESQ比較

      圖8 100段語音的信噪比比較

      模型復(fù)雜度是評(píng)價(jià)深度神經(jīng)網(wǎng)絡(luò)算法的重要一環(huán).模型復(fù)雜度可以通過訓(xùn)練參數(shù)量和訓(xùn)練時(shí)間來進(jìn)行評(píng)價(jià).表2為不同模型下的參數(shù)量和運(yùn)行時(shí)間對(duì)比,不難看出,遷移學(xué)習(xí)模型需要微調(diào)訓(xùn)練的參數(shù)量遠(yuǎn)遠(yuǎn)少于整個(gè)LCLED模型的參數(shù)量.所以,針對(duì)真實(shí)環(huán)境下即未標(biāo)記噪聲的場(chǎng)景中,可以更容易得到對(duì)應(yīng)的語音增強(qiáng)模型.

      表2 兩個(gè)模型的訓(xùn)練參數(shù)量和運(yùn)行時(shí)間

      語譜圖可以直觀反映語音增強(qiáng)的效果.本文隨機(jī)從100段語音中抽取1段作為樣本分析.圖9和圖10為干凈語音和帶噪語音的時(shí)域波形和語譜圖,圖11和圖12分別為兩種不同模型增強(qiáng)后的時(shí)域波形和語譜圖.如圖10所示,噪聲對(duì)低于4000Hz部分的語音造成明顯破壞.相比與拋物面焦點(diǎn)麥克風(fēng)和LCLED模型的語音增強(qiáng)系統(tǒng)(圖11),基于拋物面焦點(diǎn)麥克風(fēng)采集和遷移學(xué)習(xí)模型的語音增強(qiáng)系統(tǒng)(圖12)在中頻部分更好地還原了語音細(xì)節(jié),在低頻部分抑制了噪聲.

      圖10 采集帶噪語音的時(shí)域波形和語譜圖

      圖11 基于拋物面焦點(diǎn)麥克風(fēng)和LCLED模型增強(qiáng)后語音的時(shí)域波形和語譜圖

      圖12 基于拋物面焦點(diǎn)麥克風(fēng)和遷移學(xué)習(xí)模型增強(qiáng)后語音的時(shí)域波形和語譜圖

      4 結(jié) 語

      針對(duì)語音增強(qiáng)性能在真實(shí)噪聲環(huán)境中下降的問題,本文提出了一種基于拋物面焦點(diǎn)麥克風(fēng)預(yù)處理和遷移學(xué)習(xí)的語音增強(qiáng)方法,搭建了一套從語音采集到算法增強(qiáng)的系統(tǒng).拋物面焦點(diǎn)麥克風(fēng)模型采集語音,可以在采集的同時(shí)對(duì)帶噪語音做增強(qiáng)預(yù)處理.遷移學(xué)習(xí)方法利用小樣本微調(diào)訓(xùn)練網(wǎng)絡(luò),在真實(shí)噪聲環(huán)境下更容易得到對(duì)應(yīng)的算法模型,且進(jìn)一步提升了深度神經(jīng)網(wǎng)絡(luò)模型的增強(qiáng)性能.實(shí)驗(yàn)結(jié)果表明,本文提出的語音增強(qiáng)方法可以適應(yīng)真實(shí)噪聲環(huán)境,有效地增強(qiáng)真實(shí)噪聲環(huán)境下的帶噪語音,但本方法對(duì)語音質(zhì)量的提升更加明顯,如何在先驗(yàn)信噪比作為訓(xùn)練目標(biāo)的情況下,進(jìn)一步提升語音可懂度,這也是下一步研究重點(diǎn)要解決的問題.

      [1] Boll S F. Suppression of acoustic noise in speech using spectral subtraction[J]. IEEE Transactions on Acous-tics,Speech,and Signal Processing,1979,27(2):113-120.

      [2] Loizou P C. Speech Enhancement:Theory and Prac-tice[M]. Boca Raton:CRC Press,2013.

      [3] Wang Yuxuan,Wang Deliang. Towards scaling up classification-based speech separation[J]. IEEE Transac-tions on Audio,Speech,and Language Processing,2013,21(7):1381-1390.

      [4] Wang Yuxuan,Narayanan A,Wang Deliang. On train-ing targets for supervised speech separation[J]. IEEE/ACM Transactions on Audio,Speech,and Lan-guage Processing,2014,22(12):1849-1858.

      [5] Xu Yong,Du Jun,Dai Lirong,et al. An experimental study on speech enhancement based on deep neural networks[J]. IEEE Signal Processing Letters,2014,21(1):65-68.

      [6] 黃志清,賈 翔,郭一帆,等. 基于深度學(xué)習(xí)的端到端樂譜音符識(shí)別[J]. 天津大學(xué)學(xué)報(bào)(自然科學(xué)與工程技術(shù)版),2020,53(6):653-660.

      Huang Zhiqing,Jia Xiang,Guo Yifan,et al. End-to-end music note recognition based on deep learning[J]. Journal of Tianjin University(Science and Technol-ogy),2020,53(6):653-660(in Chinese).

      [7] Ouyang Zhiheng,Yu Hongjiang,Zhu Weiping,et al. A fully convolutional neural network for complex spec-trogram processing in speech enhancement[C]// IEEE International Conference on Acoustics,Speech and Sig-nal Processing(ICASSP). Brighton,UK,2019:5756-5760.

      [8] Hui Like,Cai Meng,Guo Cong,et al. Convolutional maxout neural networks for speech separation[C]// IEEE International Symposium on Signal Processing and Information Technology(ISSPIT). Abu Dhabi,UAE,2015:24-27.

      [9] Kounovsky T,Malek J. Single channel speech enhancement using convolutional neural network[C]// IEEE International Workshop of Electronics,Control,Measurement,Signals and their Application to Mecha-tronics(ECMSM). Donostia,Spain,2017:1-5.

      [10] Chandna P,Miron M,Janer J,et al. Monoaural audio source separation using deep convolutional neural networks[C]//13th International Conference on Latent Variable Analysis and Signal Separation(LVA/ICA). Grenoble,F(xiàn)rance,2017:258-266.

      [11] Chen Jitong,Wang Deliang. Long short-term memory for speaker generalization in supervised speech separa-tion[J]. The Journal of the Acoustical Society of America,2017,141(6):4705-4714.

      [12] Sun Lei,Du Jun,Dai Lirong,et al. Multiple-target deep learning for LSTM-RNN based speech enhancement [C]//Hands-free Speech Communications and Micro-phone Arrays(HSCMA). San Francisco,USA,2017:136-140.

      [13] Lee J,Kim K,Shabestary T,et al. Deep bi-directional long short-term memory based speech enhancement for wind noise reduction[C]// Handsfree Speech Communi-cations and Microphone Arrays(HSCMA). San Fran-cisco,USA,2017:41-45.

      [14] Kim J,EL-Khamy M,Lee J. Residual LSTM:Design of a deep recurrent architecture for distant speech recognition[C]//Annual Conference of the International Speech Communication Association. Stockholm,Swe-den,2017:1591-1595.

      [15] Luo Yi,Mesgarani N. TaSNet:Time-domain audio separation network for real-time,single-channel speech separation[C]//IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP). Calgary,Canada,2018:696-700.

      [16] Nicolson A,Paliwal K K. Deep learning for minimum mean-square error approaches to speech enhancement[J]. Speech Communication,2019,111:44-45.

      [17] Wang Zeyu,Zhang Tao,Shao Yangyang,et al. LSTM-convolutional-BLSTM encoder-decoder network for minimum mean-square error approach to speech enhancement[J]. Applied Acoustics,2021,172:107647.

      [18] Liang Ruiyu,Liang Zhenlin,Cheng Jiaming,et al. Transfer learning algorithm for enhancing the unlabeled speech[J]. IEEE Access,2020,8:13833-13844.

      [19] 曹中輝,黃志華,葛文萍,等. 注意力機(jī)制對(duì)生成對(duì)抗網(wǎng)絡(luò)語音增強(qiáng)遷移學(xué)習(xí)模型的影響[J]. 聲學(xué)技術(shù),2021,40(1):77-81.

      Cao Zhonghui,Huang Zhihua,Ge Wenping,et al. In-fluence of attention mechanism on generative adversarial network speech enhancement transfer learning model[J]. Technical Acoustics,2021,40(1):77-81 (in Chi-nese).

      [20] Zhang Tao,Geng Yanzhang,Sun Jianhong,et al. A unified speech enhancement system based on neural beamforming with parabolic reflector[J]. Applied Sci-ence,2020,10(7):1-13.

      [21] Sten Wahlstrom. The parabolic reflector as an acoustical amplifier[J]. Journal of the Audio Engineering Society,1985,33(6):418-429.

      [22] Pan S J,Yang Qiang. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering,2010,22(10):1345-1359.

      [23] Plapous C,Marro C,Scalart P. Improved signal-to-noise ratio estimation for speech enhancement[J]. IEEE Transactions on Audio,Speech,and Language Processing,2006,14(6):2098-2108.

      [24] ITU-T,Rec.P.862. Perceptual Evaluation of Speech Quality(PESQ). An Objective Method for End-to-End Speech Quality Assessment of Narrow-Band Telephone Networks and Speech Codecs[S]. International Telecommunication Union-Telecommunication Standardiza-tion Sector,2001.

      [25] 張衛(wèi)強(qiáng),張 喬,Johnson Michael T,等. 一種基于計(jì)算聽覺場(chǎng)景分析的語音增強(qiáng)算法[J]. 天津大學(xué)學(xué)報(bào)(自然科學(xué)與工程技術(shù)版),2015,48(8):663-669.

      Zhang Weiqiang,Zhang Qiao,Johnson Michael T,et al. A speech enhancement algorithm based on computational auditory scene analysis[J]. Journal of Tianjin University(Science and Technology),2015,48(8):663-669(in Chinese).

      A Speech Enhancement Method Based on a Parabolic Center-Microphone Preprocessing and Transfer Learning

      Zhang Tao1,Wang Zeyu2,Hu Mengxue2,Zhao Xin1,Liu Ganjun1,Geng Yanzhang1

      (1. School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China;2. Tianjin International Engineering Institute,Tianjin University,Tianjin 300072,China)

      Background noise damages the quality and intelligibility of speech. The goal of speech enhancement is to separate the target speech from noisy speech,reducing the influence of background noise on the target speech. Speech enhancement has a wide range of applications,such as automatic speech recognition and telecommunication. It attracts frequent attention from scholars.In a real noise environment,the background noise of speech is complex. The traditional speech enhancement method cannot adapt well to all types of noise scenes. A deep learning model improves the enhanced performance because of its excellent abstracting ability. However,the enhanced performance will be degraded because of the generalization in a real noise environment. To improve the enhanced performance in this environment,we proposed a speech enhancement method based on a parabolic reflector center-microphone and transfer learning. The key idea was to use a parabolic reflector center-microphone to collect noisy speech and noise,and the speech was preprocessed by a parabolic reflector. Furthermore,to improve the generalization of the model,the transfer learning method was applied to train the LSTM-convolutional-BLSTM encoder decoder neural network with few samples. The proposed method builds a speech enhancement system through equipment and an algorithm. The enhanced performance of the system is improved,and the model complexity is reduced. The results indicate that the proposed approach improves the quality of enhanced speech in a real noise environment.

      transfer learning;neural network;speech enhancement;real noise environment;parabolic center-microphone

      TK448.21

      A

      0493-2137(2022)10-1053-08

      10.11784/tdxbz202107021

      2021-07-11;

      2021-12-07.

      張?濤(1975— ),男,博士,副教授,zhangtao@tju.edu.cn.

      耿彥章,824803007@qq.com.

      國(guó)家自然科學(xué)基金資助項(xiàng)目(62001323);天津市研究生科研創(chuàng)新項(xiàng)目(人工智能專項(xiàng))資助項(xiàng)目(2020YJSZXB10).

      the National Natural Science Foundation of China(No. 62001323),the Research and Innovation Project for Postgraduates in Tianjin(Artificial Intelligence)(No. 2020YJSZXB10).

      (責(zé)任編輯:孫立華)

      猜你喜歡
      拋物面麥克風(fēng)信噪比
      薯片為什么是這個(gè)形狀
      FAST照明口徑分析*
      基于深度學(xué)習(xí)的無人機(jī)數(shù)據(jù)鏈信噪比估計(jì)算法
      Binaural Rendering based on Linear Differential Microphone Array and Ambisonic Reproduction
      基于數(shù)字麥克風(fēng)的WIFI語音發(fā)射機(jī)
      低信噪比下LFMCW信號(hào)調(diào)頻參數(shù)估計(jì)
      低信噪比下基于Hough變換的前視陣列SAR稀疏三維成像
      麥克風(fēng)的藝術(shù)
      復(fù)合拋物面-漸開線聚光的悶曬式太陽能熱水器
      旋轉(zhuǎn)拋物面型銑刀切削刃曲線建模
      新泰市| 松溪县| 盱眙县| 富顺县| 高青县| 眉山市| 麻阳| 阳朔县| 广平县| 大埔区| 黔西| 中西区| 肇源县| 台州市| 珠海市| 寻甸| 西宁市| 洛川县| 临汾市| 岳西县| 寿宁县| 集贤县| 武义县| 依安县| 建阳市| 叶城县| 雷山县| 城口县| 垦利县| 图们市| 探索| 荣昌县| 乌兰察布市| 江山市| 绵阳市| 通榆县| 始兴县| 四子王旗| 琼中| 宜黄县| 长春市|