高志強(qiáng),戴琳琳,景 輝,王心雨
(1. 北京勤實信息技術(shù)有限公司,北京 100008;2. 中國鐵道科學(xué)研究院集團(tuán)有限公司 電子計算技術(shù)研究所,北京 100081)
語音降噪是通過語音信號處理技術(shù)及相關(guān)算法,提高伴有背景噪聲語音信號的可懂度或整體感知評價的一種技術(shù),是語音識別、通信系統(tǒng)等語音交互領(lǐng)域的重要研究內(nèi)容。早期主要通過數(shù)字信號分析的方法來實現(xiàn)語音降噪,如譜減法、濾波法等,以時域、頻域或時頻結(jié)合[1]的方式對語音信號進(jìn)行分解,找到干凈語音或噪聲的特征,從而將二者分離,屬于無監(jiān)督方法;隨著技術(shù)的演進(jìn),以深度學(xué)習(xí)為基礎(chǔ)的有監(jiān)督語音降噪方法倍受好評,深度學(xué)習(xí)算法以大量合成的實驗語音為樣本,通過時頻掩蔽或頻譜映射的方法,對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并得到干凈語音的掩碼或估測幅值,從而實現(xiàn)語音降噪[2-3]。
目前,應(yīng)用于語音降噪的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)甚多,例如,多層感知機(jī)、卷積神經(jīng)網(wǎng)絡(luò)(CNN,Convolutional Neural Network)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN ,Recurrent Neural Network)、生成對抗網(wǎng)絡(luò)(GAN ,Generative Adversarial Network)等。多層感知機(jī)是最基本也最簡單的語音降噪網(wǎng)絡(luò),其網(wǎng)絡(luò)中的所有節(jié)點都是完全連接的[4]。Xu等人[5]于2014年提出包含3個隱藏層的多層感知機(jī)網(wǎng)絡(luò),使用對數(shù)功率譜作為輸入、輸出特征進(jìn)行語音降噪,但由于模型結(jié)構(gòu)過于復(fù)雜,導(dǎo)致計算量較大,使得處理時間和計算成本增加;CNN最初被廣泛應(yīng)用于圖像相關(guān)任務(wù)[6],后有研究表明[7]CNN在語音處理中同樣具有顯著的效果;RNN擅長處理帶有時序特征的任務(wù)[8],充分利用之前時刻與當(dāng)前時刻語音幀之間的聯(lián)系,但RNN在頻率維度特征提取方面能力較弱,會導(dǎo)致降噪語音感知度較低;GAN可看作是生成器與鑒別器的博弈[9],在語音降噪中常用的目標(biāo)函數(shù)僅是估計譜圖和目標(biāo)譜圖之間的L1或L2正則化距離,然而,較短的正則化距離不代表更高的語音質(zhì)量。為解決該問題,MetricGAN[10]采用直接優(yōu)化評價指標(biāo)分?jǐn)?shù)的生成器,該分?jǐn)?shù)是由鑒別器學(xué)習(xí)得到的;除此以外,許多降噪方法利用Transformer[11]來捕捉波形或頻譜圖中的長距離依賴性;最近,Conformer[12-13]被引入,作為Transformer的替代方案,發(fā)揮同時捕獲局部特征和全局特征的能力。
受上述研究工作啟發(fā),在研究面向鐵路客運(yùn)站場景的語音降噪模型時,要選擇合適的語音降噪模型進(jìn)行優(yōu)化改進(jìn),使其達(dá)到一個較好的降噪效果,并融入鐵路客運(yùn)站場景相關(guān)噪聲,以增強(qiáng)模型的鐵路領(lǐng)域特征。因此,本文研究基于Conformer關(guān)聯(lián)度量(Metrics)的生成對抗網(wǎng)絡(luò)ConformerGAN,改進(jìn)語音降噪模型,完成鐵路客運(yùn)站等嘈雜交互場景下的語音降噪任務(wù)。
MetricGAN+[14]是一種用于優(yōu)化語音質(zhì)量的語音降噪模型。由于語音降噪模型的損失函數(shù)與人類聽覺感知之間有差異,直接使用模型的損失函數(shù)去評估語音優(yōu)化質(zhì)量效果欠佳。MetricGAN+的訓(xùn)練流程類似于GAN,其目的是用神經(jīng)網(wǎng)絡(luò)模擬目標(biāo)評估函數(shù)(例如客觀語音質(zhì)量評估(PESQ,Perceptual Evaluation of Speech Quality)函數(shù))的行為。代理估計函數(shù)從原始分?jǐn)?shù)中學(xué)習(xí)。該模型將目標(biāo)評估函數(shù)視為黑盒,將代理估計函數(shù)用作語音增強(qiáng)模型的損失函數(shù),訓(xùn)練模型時,交替更新代理估計部分的損失和神經(jīng)網(wǎng)絡(luò)部分的損失。
MetricGAN+模型將幅度譜圖作為輸入,生成器部分采用前向長短時記憶(LSTM,Long Short-term Memory)網(wǎng)絡(luò)與后向LSTM相結(jié)合成的雙向長短時記憶(BiLSTM[15])網(wǎng)絡(luò)結(jié)構(gòu),之后是2個全連接層,第1層全連接層包含用于掩碼估計的激活函數(shù)(LeakyReLU)節(jié)點,第2層全連接層包含可學(xué)習(xí)的激活函數(shù)(Sigmoid)節(jié)點。當(dāng)掩碼與輸入的噪聲幅度譜圖相乘時,噪聲分量被去除。鑒別器網(wǎng)絡(luò)采用4個二維CNN,為處理可變長度的輸入,添加了二維全局平均池化層,隨后連接3個全連接層。
MetricGAN+模型的訓(xùn)練流程,如圖1所示,上半部分為生成器、下半部分為鑒別器,在訓(xùn)練過程中兩部分交替更新。語音降噪模型采用神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);音頻質(zhì)量評估表示與神經(jīng)網(wǎng)絡(luò)關(guān)聯(lián)得到的目標(biāo)評估函數(shù),如PESQ函數(shù);掩碼用于去除噪聲分量。
圖1 MetircGAN+模型訓(xùn)練流程
Conformer模型被稱作基于卷積增強(qiáng)的Trans former模型,是CNN和Transformer結(jié)合構(gòu)成的模型,由前饋神經(jīng)網(wǎng)絡(luò)、多頭注意力機(jī)制和CNN組成,Conformer 結(jié)構(gòu),如圖2所示。
圖2 Conformer結(jié)構(gòu)示意
其中,2個前饋神經(jīng)網(wǎng)絡(luò)模塊輸出結(jié)果都乘以了1/2。實驗驗證表明[12],與只取單個前饋神經(jīng)網(wǎng)絡(luò)模塊結(jié)構(gòu)的全部輸出相比,各取2個前饋神經(jīng)網(wǎng)絡(luò)模塊一半的輸出,可使模型整體上表現(xiàn)出更為優(yōu)異的性能。Conformer 計算流程如公式(1)~(4)所示。
其中,F(xiàn)FN、MHSA、Conv、Layernorm分別為前饋神經(jīng)網(wǎng)絡(luò)、多頭注意力機(jī)制、卷積神經(jīng)網(wǎng)絡(luò)、歸一化。xi表示Conformer的輸入;表示前饋網(wǎng)絡(luò)的輸出;表示多頭注意力機(jī)制的輸出;表示卷積模塊的輸出;yi表示Conformer的輸出結(jié)果。
深度學(xué)習(xí)語音降噪大致分為2個方向:(1)時域端到端方法,可從噪聲中直接估計除去噪聲的語音波形;(2)用短時傅里葉變換計算基于時頻的算法,基于時頻算法進(jìn)一步可分為基于掩碼的估計和基于映射的估計,基于掩碼估計的方法從噪聲的聲學(xué)特征中估計出掩蓋噪聲值,將掩蓋噪聲值與噪聲幅度譜相乘,得到除去噪聲的語音信號,基于映射的估計從噪聲中直接估計干凈的幅度譜。
MetricGAN+模型采用基于掩碼估計的方法,在構(gòu)建的領(lǐng)域數(shù)據(jù)集上可取得較好效果,PESQ分?jǐn)?shù)為3.10。受相關(guān)模型結(jié)構(gòu)的啟發(fā),本文提出一種基于Conformer的語音降噪模型ConformerGAN,其訓(xùn)練流程與MetricGAN+模型相同,類似于GAN。
在鐵路客運(yùn)站服務(wù)場景下,存在背景噪聲過大、多噪聲類型混合的情況,同時需要考慮幀與幀之間的關(guān)聯(lián)性,因而在生成器中引入語音特征提取能力更好的Conformer編碼器結(jié)構(gòu)。ConformerGAN生成器由CNN、Conformer、子像素卷積(Sub-pixel Convolution)、激活函數(shù)Relu和門控線性單元構(gòu)成。鑒別器由CNN、平均池化(Avg.Pooling)、線性層(Linear Layer)和激活函數(shù)Sigmod構(gòu)成。Conformer GAN的模型結(jié)構(gòu),如圖3所示。
圖3 ConformerGAN模型結(jié)構(gòu)
輸入一條嘈雜的語音后,由于語音信號具有短時平穩(wěn)特性,不利于進(jìn)行傅里葉分析,需要對語音進(jìn)行加窗分幀,然后再進(jìn)行傅里葉變換,轉(zhuǎn)換為語音復(fù)數(shù)向量Y0,將復(fù)數(shù)向量Y0進(jìn)行冪律壓縮得到頻譜圖Y,頻譜圖表示信號頻率與能量的關(guān)系。Ym表示幅度;c表示壓縮系數(shù),取值在0到1之間;j表示虛數(shù);Yp表示相位。語音信號處理過程如公式(5)所示。
生成器流程:(1)將幅度Ym作為生成器的輸入,經(jīng)過2個二維卷積神經(jīng)網(wǎng)絡(luò),降低特征維度的同時還可學(xué)習(xí)到潛在的特征表示;(2)將提取到的潛在特征表示放入Conformer模塊,并使用激活函數(shù)Sigmod平滑Conformer模塊的輸出;(3)獲取到輸出后,使用子像素卷積層來提升特征維度;(4)使用卷積層加激活函數(shù)Relu來預(yù)測掩碼,將噪聲幅度譜圖與掩碼相乘,理論上會得到降噪后的語音。生成器的訓(xùn)練目的是生成與干凈語音相似的降噪語音。
鑒別器流程:(1)經(jīng)過4個相同的卷積模塊,每個卷積模塊包括卷積神經(jīng)網(wǎng)絡(luò)、歸一化、LeakyReLU激活。CNN利用時間和空間上的平移不變性,克服語音信號本身的多樣性;歸一化保證訓(xùn)練過程中數(shù)據(jù)的有效性;LeakyReLU激活函數(shù)可使網(wǎng)絡(luò)引入非線性因素。(2)在卷積模塊后連接一個平均池化層、一個線性層和一個Sigmoid激活函數(shù)。當(dāng)輸入是一對干凈的語音和降噪語音及這對語音對應(yīng)的PESQ標(biāo)簽時,可用來估計降噪后的PESQ得分。
ConformerGAN的損失優(yōu)化過程與GAN相同,即訓(xùn)練是對生成器損失LG和相應(yīng)的鑒別器損失LD的最小優(yōu)化任務(wù)。損失計算公式為
其中,G表示生成器;D表示鑒別器;x表示干凈語音;y表示經(jīng)過降噪的語音;QPESQ表示歸一化的PESQ得分;Ex表示對干凈語音做極大似然估計;Ex,y表示對干凈和降噪后的語音做極大似然估計。
在數(shù)據(jù)集構(gòu)造方面,相比于使用相同的噪聲片段,從每類噪聲中隨機(jī)選取疊加所需的噪聲片段,可增強(qiáng)模型的泛化能力,提高模型對未知噪聲的降噪能力。
為加強(qiáng)語音降噪模型的鐵路客運(yùn)站場景領(lǐng)域特征,需構(gòu)建適用于鐵路客運(yùn)站場景的語音服務(wù)數(shù)據(jù)集。干凈語音數(shù)據(jù)集一部分來源于鐵路12306互聯(lián)網(wǎng)售票系統(tǒng)人工客服對話語音數(shù)據(jù),對人工客服語音數(shù)據(jù)進(jìn)行拆分和人工校驗;另一部分是組織專人錄制的旅客常見問題的語音數(shù)據(jù)。干凈語音平均時長5~7 s,共12000條有效語音片段。噪聲數(shù)據(jù)集引入鐵路客運(yùn)站廣播錄音、鐵路客運(yùn)站大廳環(huán)境錄音、檢票口人工播報錄音、人工服務(wù)臺環(huán)境錄音等,每條錄音選取約5 min作為背景噪聲。在訓(xùn)練集中,隨機(jī)從干凈語音片段中選擇11000條,并與鐵路客運(yùn)站錄音噪聲隨機(jī)生成的與干凈語音等長的噪聲片段進(jìn)行疊加,混合信噪比分別為0、5 dB、10 dB、15 dB。在測試集中,將剩余的1000條干凈語音與未見噪聲以同樣隨機(jī)生成噪聲片段的方式進(jìn)行疊加,混合信噪比分別為2.5 dB、7.5 dB、12.5 dB、17.5 dB。
語音特征提取需要對語音進(jìn)行加窗分幀并進(jìn)行傅里葉變換,實驗所有語音均為單聲道,采樣率設(shè)為16 kHz,語音幀長設(shè)為16 ms,幀移設(shè)為8 ms。冪律壓縮系數(shù)c設(shè)為0.7,Conformer模塊數(shù)量N分別設(shè)為2、4、12,訓(xùn)練的batch size設(shè)為16。模型的生成器和鑒別器均采用Adam優(yōu)化器,訓(xùn)練最大迭代設(shè)為100。
為保證實驗環(huán)境配置的處理能力滿足算法模型訓(xùn)練需要,本文采用的配置如表1所示。
表1 實驗環(huán)境配置
實驗選用4種評價指標(biāo)來評估降噪后的語音質(zhì)量,分別是PESQ、CSIG、CBAK、COVL。其中,PESQ量化語音信號的感知質(zhì)量,CSIG、CBAK和COVL分別代表相同尺度下語音信號的信號失真、背景干擾和整體質(zhì)量的平均主觀意見評分。平均主觀意見評分的范圍在1~ 5之間,值越高表示性能越好。
以MetricGAN+模型作為基線模型,在數(shù)據(jù)集上對改進(jìn)前后的模型進(jìn)行對比測試,基線模型和改進(jìn)后模型的測評結(jié)果,如表2所示。
表2 模型測評結(jié)果
從實驗結(jié)果可看出,本文提出的模型在所有的評價指標(biāo)上都優(yōu)于基線模型??紤]到網(wǎng)絡(luò)層數(shù)(參數(shù)規(guī)模)會對模型的評價標(biāo)準(zhǔn)有影響,在實驗中將網(wǎng)絡(luò)層數(shù)N分別設(shè)置為2層、4層、12層進(jìn)行對比。結(jié)果表明,與基線模型相比,ConformerGAN(N=2)模型的PESQ提升0.11、CSIG提升0.28、CBAK提升0.25、COVL提升0.28;ConformerGAN(N=4)模型的PESQ提升0.19、CSIG提升0.53、CBAK提升0.46、COVL提升0.38。當(dāng)嘗試進(jìn)一步提高網(wǎng)絡(luò)層數(shù)時,各項指標(biāo)并未如期增長,結(jié)果與ConformerGAN(N=4)模型基本相當(dāng),甚至略微下降,這可能是因為隨著模型深度的增加導(dǎo)致某些淺層的學(xué)習(xí)能力有所下降。另外,文獻(xiàn)[14]表明基線模型在公開數(shù)據(jù)集VoiceBank-DEMAND上指標(biāo)PESQ、CSIG、CBAK、COVL分 別為3.15、4.14、3.16、3.64。可看出各項指標(biāo)均優(yōu)于在鐵路客運(yùn)站語音服務(wù)數(shù)據(jù)集上的結(jié)果,這可能是因為相比公開數(shù)據(jù)集,自建數(shù)據(jù)集場景噪聲的影響因素更加復(fù)雜多變。
在鐵路客運(yùn)站應(yīng)用場景下,由于站內(nèi)廣播聲音過大,會在旅客與車站智能服務(wù)機(jī)器人交互過程中產(chǎn)生負(fù)面影響。為解決該問題,將本文提出的語音降噪模型ConformerGAN與語音識別服務(wù)相結(jié)合,應(yīng)用到車站智能服務(wù)機(jī)器人中。在鐵路客運(yùn)站內(nèi)多個子場景下,分別對比200條語音數(shù)據(jù),平均音頻時長3 s。語音質(zhì)量及對語音識別字錯率(CER ,Character Error Rate)的影響,如表3所示。
表3 車站智能服務(wù)機(jī)器人語音降噪效果
結(jié)果顯示,在鐵路客運(yùn)站多個子場景下,使用本文的語音降噪模型均能夠提升語音質(zhì)量,圖4為降噪前的音頻語圖,圖5為降噪后的音頻語圖。音頻語圖的上、下分別表示語音波形圖和語譜圖。音頻語圖橫坐標(biāo)表示時間(單位:ms),語音波形圖部分縱向表示幅度,語譜圖部分縱向表示頻率(單位:Hz)。將本文研究的降噪模型與車站智能服務(wù)機(jī)器人結(jié)合后,能夠有效降低車站嘈雜背景對語音識別準(zhǔn)確率的影響,提升用戶的交互體驗。
圖4 降噪前音頻語圖
圖5 降噪后音頻語圖
本文提出一種鐵路客運(yùn)站場景下的語音降噪模型ConformerGAN,考慮到Conformer更加適用于序列建模的特性,同時在鑒別器中使用代理評估函數(shù),解決評估度量不匹配問題。實驗和模型落地應(yīng)用的結(jié)果均表明,所提出的模型在鐵路客運(yùn)站場景下能夠取得較好的降噪效果,并提升客運(yùn)站場景下語音識別的準(zhǔn)確率。下一步,本文的語音降噪服務(wù)將逐漸擴(kuò)展到鐵路出行服務(wù)的多個應(yīng)用場景。因此,如何使語音降噪模型在更多的應(yīng)用場景下達(dá)到較好的降噪效果,將是下一階段的研究重點。