田斌鵬,董文方,張 昆,周良辰,文 飛
(1.航空工業(yè)一飛院,西安 710089;2.上海交通大學(xué) 電子信息與電氣工程學(xué)院,上海 200240)
旋翼飛機平臺的語音通信過程中,飛機螺旋槳與機艙發(fā)動機等設(shè)備會對幅度調(diào)制(Amplitude Modulation,AM)語音信號產(chǎn)生復(fù)雜干擾。語音信號不僅會混雜著強烈的機艙噪聲,并且信號傳輸也受到調(diào)制干擾,其語音整體感知質(zhì)量和可懂度很低。語音增強利用音頻信號處理相關(guān)技術(shù),抑制音頻信號中的噪聲成分,提取純凈語音信號,以提高通信語音的整體感知質(zhì)量和可懂度,達到改善語音通信的效果。因此,語音增強可作為語音通信系統(tǒng)的前端處理模塊,用于提升系統(tǒng)的整體抗干擾能力,實現(xiàn)穩(wěn)定魯棒的語音通信。
語音與干擾噪聲在信號特征方面有著明顯差異,是實現(xiàn)語音增強的重要依據(jù)。語音信號一般為具有明顯的多結(jié)構(gòu)化特征的非平穩(wěn)信號,而噪聲根據(jù)具體情況可為平穩(wěn)或非平穩(wěn)信號,并不一定有特定的結(jié)構(gòu)化特征。傳統(tǒng)的語音增強主要采取無監(jiān)督的數(shù)字信號分析方法,如譜減法、維納濾波法等,一般都依賴于背景噪聲的估計,噪聲估計的精度直接影響語音增強效果[1]。常見的噪聲估計算法,如最小值跟蹤算法[2]和時間遞歸平均算法[3],可以有效估計具有平穩(wěn)性的慢變噪聲,但無法快速跟蹤瞬變的非平穩(wěn)噪聲。然而,在真實的環(huán)境中噪聲一般是非平穩(wěn)的并且信噪比可能較低,傳統(tǒng)算法增強后的語音質(zhì)量甚至可能不如原始帶噪語音,如噪聲過估計引起的語音包絡(luò)丟失,其實際應(yīng)用效果不佳。
近年來,隨著機器學(xué)習(xí)技術(shù)的發(fā)展,基于監(jiān)督學(xué)習(xí)的語音增強算法不斷被提出,各種機器學(xué)習(xí)模型[4-5]被用于挖掘帶噪語音與純凈語音信號之間的關(guān)系,以達到抑制噪聲、增強目標(biāo)語音信號的目的。其中,基于深度學(xué)習(xí)的語音增強算法[6-8]受到了學(xué)者們的主要關(guān)注。相比于傳統(tǒng)方法,深度學(xué)習(xí)具有優(yōu)異的非線性建模能力,可更好地分析語音信號特征?;谏疃葘W(xué)習(xí)的語音增強算法在降噪效果方面實現(xiàn)了極大的提升,同時具有更好的魯棒性。在實際的非平穩(wěn)噪聲與低信噪比條件下,深度學(xué)習(xí)的語音增強仍可表現(xiàn)出較好的降噪效果。
針對旋翼飛機空地語音通信中復(fù)雜干擾與強噪聲,本文采取基于深度學(xué)習(xí)的語音增強算法,充分利用深度神經(jīng)網(wǎng)絡(luò)挖掘語音信號特征,使用長短時記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)聯(lián)系語音序列的上下文信息,并通過大量帶噪音頻與純凈語音數(shù)據(jù)對,充分訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,最終實現(xiàn)高效魯棒的語音增強。
搭載于旋翼飛機的語音通信設(shè)備在通信過程中將受到復(fù)雜干擾。一方面,旋翼飛機機艙由于發(fā)動機、旋翼等存在強烈的噪聲,其直接混雜在語音通信信號中;另一方面,飛機螺旋槳在轉(zhuǎn)動過程中,會周期性地越過天線面,螺旋槳對語音通信的射頻信號波束產(chǎn)生遮擋、反射效應(yīng),干擾語音通信,體現(xiàn)為在語音通信信號中產(chǎn)生一系列噪聲分量。
以螺旋槳與發(fā)動機為主的機艙噪聲以加性噪聲的形式混合在通信語音信號中,可表示為
m(t)=x(t)+n(t) 。
(1)
式中:m(t)為調(diào)制信號,x(t)為通信語音信號,n(t)為機艙噪聲信號。
幅度調(diào)制信號可表示為
s(t)=A[1+m(t)]cosωt。
(2)
式中:A為載波幅度,m(t)為調(diào)制信號,ω為載波角頻率。螺旋槳對AM信號的影響,相當(dāng)于引入了一個時變的幅度調(diào)制。受螺旋槳干擾后的AM信號可表示為
s′(t)=α(t)A[1+m(t)]cosωt。
(3)
式中:α(t)為螺旋槳引起的載波幅度調(diào)制系數(shù),滿足α(t)≥0且為周期信號。結(jié)合式(1),式(3)表示為
s′(t)=A[α(t)+α(t)x(t)+α(t)n(t)]cosωt。
(4)
螺旋槳引起的幅度調(diào)制α(t),其頻率由螺旋槳轉(zhuǎn)速和槳葉數(shù)決定,即
F=V×N。
(5)
式中:F為調(diào)制頻率,V為螺旋槳轉(zhuǎn)速,N為槳葉數(shù)。螺旋槳的周期性轉(zhuǎn)動會引起輻射信號以角速率ω=2πF周期性變化。對應(yīng)到頻率,由于旋轉(zhuǎn)槳葉的存在,輻射場產(chǎn)生了頻譜擴展,在ω0±nω處產(chǎn)生了一系列噪聲分量,這些噪聲分量將選加在正常的通信信號上,可能會干擾正常通信。由于存在調(diào)制效應(yīng),當(dāng)螺旋槳正常運轉(zhuǎn)時產(chǎn)生的調(diào)制頻率在有用載波頻率周圍產(chǎn)生一系列噪聲分量。當(dāng)通信信號解調(diào)之后,將在語音信號上疊加噪聲分量。
本文采取基于時頻掩膜的深度學(xué)習(xí)語音增強算法,估計各個時頻點的語音成分,并對噪聲成分進行有效抑制,提高語音的整體感知質(zhì)量或可懂度。典型的時頻掩膜包括理想二值掩膜(Ideal Binary Mask,IBM)[9]、理想比值掩膜(Ideal Ratio Mask,IRM)[10]、譜幅度掩膜(Spectral Magnitude Mask,SMM)[11]等。本文測試了多種不同的時頻掩膜,最終采用IRM作為目標(biāo)掩膜。相比于IBM,IRM可更好地改善語音整體感知質(zhì)量,并減少降噪帶來的語音失真。相對比于SMM,IRM的掩膜值在0~1之間,更適合網(wǎng)絡(luò)訓(xùn)練,加快模型收斂。另外,為了減小模型計算量,時頻掩膜中不考慮相位信息[12],僅估計實數(shù)域的掩膜。
假定接收的帶噪信號y具有T個采樣點,即y∈RT,其可視為純凈語音信號x和噪聲信號n混合而來,可表示為
y=x+n。
(6)
語音增強的目的在于從帶噪信號y中提取語音信號x。由于時域信號特征難以直接利用,語音增強一般通過短時傅里葉變換(Short-time Fourier Transform,STFT)將時域觀測信號變換到時頻域,在時頻域增強語音后通過逆短時傅里葉變換(Inverse-STFT,ISTFT)得到時域信號。
基于時頻掩膜的深度學(xué)習(xí)語音增強可表示為
(7)
基于時頻掩膜的深度學(xué)習(xí)語音增強的系統(tǒng)結(jié)構(gòu)如圖1所示。帶噪的語音信號在分幀與加窗后,通過STFT將時域信號變換到時頻域。然后,將帶噪語音的幅度譜將作為深度神經(jīng)網(wǎng)絡(luò)的輸入,對各個時頻點的語音掩膜值進行估計。網(wǎng)絡(luò)輸出的時頻掩膜可理解為語音的存在概率或成分占比,其通過點乘原始帶噪頻譜,可獲得增強后的幅度譜。由于語音相位信息對降噪效果影響較小,同時引入相位估計會極大增加計算量,本文直接采用原始帶噪相位作為增強音頻的相位,并結(jié)合增強的幅度譜,經(jīng)過ISTFT得到增強后的時域語音信號。
圖1 深度學(xué)習(xí)語音增強框架
上述過程中,語音增強的關(guān)鍵在于對時頻掩膜估計,掩膜的性能直接影響到增強效果。深度學(xué)習(xí)語音增強通過深度神經(jīng)網(wǎng)絡(luò)優(yōu)異的非線性建模能力,更加準(zhǔn)確地估計時頻掩膜,從而實現(xiàn)降噪性能明顯優(yōu)于傳統(tǒng)算法。
典型的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)主要包括共享層和特定任務(wù)層。共享層主要完成低層次數(shù)據(jù)特征的提取,特定任務(wù)層主要完成高層次的特定任務(wù),如分類(classification)或回歸(regression)。本文利用深度神經(jīng)網(wǎng)絡(luò)來訓(xùn)練帶噪語音的時頻掩膜,估計目標(biāo)語音的理想比例值掩膜;使用語音掩膜增強原始帶噪語音,增強后的信號頻譜作為神經(jīng)網(wǎng)絡(luò)的預(yù)期輸出。從語義的多層次結(jié)構(gòu)角度看,共享網(wǎng)絡(luò)層通過訓(xùn)練得到低層次的語義特征(如音節(jié)、音素等),而特定任務(wù)層通過訓(xùn)練得到高層次的語義特征(如字、詞等)。
如圖2所示,該深度神經(jīng)網(wǎng)絡(luò)采用多層感知器的結(jié)構(gòu):共享層由激活函數(shù)為ReLU的全連接層與LSTM層疊加而成,特定任務(wù)層由獨立的激活函數(shù)為Sigmoid函數(shù)的全連接層構(gòu)成。ReLU激活函數(shù)由于具有良好的稀疏性及梯度計算簡單的優(yōu)點,使得使用該激活函數(shù)的隨機梯度下降算法收斂速度更快,從而成為隱藏層激活函數(shù)的首選。輸出層的激活函數(shù)必須與訓(xùn)練目標(biāo)匹配,掩膜的數(shù)值范圍為0~1,因而選擇Sigmoid函數(shù)。
圖2 語音增強網(wǎng)絡(luò)框架
共享網(wǎng)絡(luò)層包含LSTM網(wǎng)絡(luò)層,可以更有效地利用語音信號時間軸上的上下文信息。另外,選擇使用時間軸上相鄰c幀組成超級幀向量,每個超級幀中總共有(2c+1)幀(左邊c幀,當(dāng)前幀,右邊c幀)。每個時刻的網(wǎng)絡(luò)輸入層的特征維度總共為
D=F×(2c+1) 。
(8)
式中:D代表網(wǎng)絡(luò)輸入,F(xiàn)是輸入特征的頻點個數(shù),c是相鄰幀數(shù)。由此可見,該深度神經(jīng)網(wǎng)絡(luò)輸入特征的構(gòu)造過程中,融合了音頻信號在時間、頻率兩個維度上的信息,使得該DNN具備時頻二維特征學(xué)習(xí)能力。
具體網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)如圖3所示,輸入層的特征維度為257×5,其中輸入特征的頻點個數(shù)為257,相鄰幀數(shù)為2;而后連接兩層LSTM,其輸出維度均為200;并連接一層全連接層與ReLU層,其輸出維度為300;最后連接輸出層與Sigmoid層,輸出維度與輸入維度保持一致。
圖3 語音增強網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)
深度神經(jīng)網(wǎng)絡(luò)的模型訓(xùn)練與損失函數(shù)設(shè)計對性能有著重要影響。本文的語音增強網(wǎng)絡(luò)訓(xùn)練結(jié)構(gòu)如圖4所示。
圖4 語音增強網(wǎng)絡(luò)訓(xùn)練
結(jié)合網(wǎng)絡(luò)估計的語音掩膜與帶噪幅度譜,獲取增強后的語音幅度譜,通過將其與干凈幅度譜對比,計算對應(yīng)的均方誤差(Mean Square Error,MSE),將其作為網(wǎng)絡(luò)的損失函數(shù)用于訓(xùn)練。該損失函數(shù)具體可表示為
(9)
由于網(wǎng)絡(luò)訓(xùn)練過程中需要使用對應(yīng)的干凈語音頻譜與帶噪語音頻譜,而真實場景下采集的音頻一般為帶噪音頻,且無法提取對應(yīng)的干凈語音,因而網(wǎng)絡(luò)訓(xùn)練集采用了仿真數(shù)據(jù),利用已有的干凈語音與純噪聲,通過混合生成帶噪音頻。
另外,為了保證訓(xùn)練得到的模型具有更好的魯棒性與泛化性,訓(xùn)練數(shù)據(jù)的帶噪音頻采取了多種噪聲與多種說話人進行混合,使得訓(xùn)練數(shù)據(jù)的多樣性大大增加,增強了模型對實際未知噪聲與說話人語音的魯棒性。
本文設(shè)計了語音增強仿真實驗來初步證實神經(jīng)網(wǎng)絡(luò)模型的降噪性能。利用大量純凈語音與純噪聲的人工混合,獲取帶噪語音信號。通過語音增強網(wǎng)絡(luò)處理人工混合的帶噪語音信號,并將增強后的語音信號與對應(yīng)的純凈信號進行比較,分析和評估語音增強網(wǎng)絡(luò)的降噪性能。本文從語音質(zhì)量的感知評估(Perceptual Evaluation of Speech Quality,PESQ)和短時客觀可懂度(Short-time Objective Intelligibility,STOI)兩個指標(biāo)來驗證該模型的性能。
PESQ可對客觀語音質(zhì)量評估提供一個主觀MOS的預(yù)測值,并可映射到MOS刻度范圍,但其計算過程較為復(fù)雜,且同時需要帶噪語音信號和純凈參考信號。PESQ的得分范圍在-0.5~4.5,其分?jǐn)?shù)越高表示音頻質(zhì)量越好。STOI作為另外一種語音客觀評價方法,可用于衡量語音可懂度,其得分范圍在0~1,分?jǐn)?shù)越高表示可懂度越高,但其計算同樣較為復(fù)雜,且需要帶噪語音和純凈語音。
人工混合的帶噪語音、增強語音以及純凈語音的幅度譜如圖5所示。原始帶噪語音中存在強烈的噪聲干擾,噪聲布滿整個頻譜,尤其在低頻部分噪聲更加惡劣,如圖5(a)所示。通過本文提出的語音增強系統(tǒng)處理原始帶噪信號,可得到明顯增強的語音信號,其中噪聲成分已經(jīng)得到明顯抑制,如圖5(b)所示。盡管相比于純凈語音,增強語音還存在部分殘留噪聲,但其整體的語音質(zhì)量已得到明顯改善。本文為了更好地驗證模型的降噪效果與魯棒性,針對四種不同場景(公交車站、咖啡廳、步行街、街道)下的噪聲,分別與語音信號混合,并進行了語音增強仿真實驗,通過主流的語音評價指標(biāo)PESQ和STOI來驗證語音增強的效果。
(a)仿真帶噪語音
另外,為對比不同深度神經(jīng)網(wǎng)絡(luò)的語音增強效果,本文分別以全連接網(wǎng)絡(luò)(Fully Connected Network,F(xiàn)CN)與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)為主構(gòu)造了不同的網(wǎng)絡(luò)模型,進一步驗證了本文方法的優(yōu)越性。不同場景和增強網(wǎng)絡(luò)下帶噪語音增強后的PESQ和STOI得分如表1和表2所示,其中第一行表示原始音頻以及不同神經(jīng)網(wǎng)絡(luò)增強后的音頻,第一列表示用于混合的不同場景噪聲,即BUS表示公共交通噪聲,CAF表示咖啡館噪聲,PED表示步行街噪聲,STR表示街道口噪聲。
表1 測試音頻PESQ
表2 測試音頻STOI
從表1和表2的結(jié)果可看出,增強后音頻的PESQ和STOI得分均有明顯上升,表明經(jīng)過語音增強后語音整體感知質(zhì)量和可懂度得到明顯改善,而本文采取的基于LSTM的語音增強網(wǎng)絡(luò)取得了最大的提升。相比于基于FCN的增強網(wǎng)絡(luò),LSTM可以更好地挖掘音頻上下文信息,獲取更準(zhǔn)確的掩膜估計,從而實現(xiàn)更優(yōu)的降噪效果。相比于基于CNN的增強網(wǎng)絡(luò),由于CNN同樣可以建模音頻上下文信息,LSTM帶來的提升不大,但CNN需要同時輸入整段音頻,難以實現(xiàn)實時語音增強,而LSTM可以通過調(diào)整未來幀數(shù)目逐幀輸入音頻,實現(xiàn)實時的語音增強。
本文語音增強系統(tǒng)時延主要由輸入時延與運算時延兩部分組成,輸入時延為語音產(chǎn)生到輸入網(wǎng)絡(luò)的時間,運算時延為網(wǎng)絡(luò)處理與輸出增強語音的時間,其中輸入時延占主要部分。相比于其他因素,系統(tǒng)中STFT與ISTFT造成的時延微乎其微,可不作考慮。因此,輸入時延主要由輸入幀的時長決定,在不使用未來幀的情況下其時延為單幀時長,但在使用未來幀的情況下其時延將對應(yīng)增加。本系統(tǒng)的幀長為32 ms,幀移為16 ms,不使用未來幀情況下時延即為32 ms,但實際使用了兩個未來幀,因而輸入時延為64 ms。運算時延主要由網(wǎng)絡(luò)參數(shù)大小以及設(shè)備狀況決定,本系統(tǒng)的參數(shù)大致為2×106,在主流GPU機器上時延不超過20 ms。因此,本系統(tǒng)的語音增強系統(tǒng)時延在84 ms以內(nèi),可滿足實時語音增強要求。
前文通過仿真實驗初步驗證了本文實現(xiàn)的語音增強系統(tǒng)的有效性,為了更好地測試系統(tǒng)對實際旋翼干擾的降噪性能,本文使用某型旋翼飛機采集的真實帶干擾和帶噪語音信號,進一步測試系統(tǒng)對復(fù)雜噪聲干擾的抑制效果。
真實采集的通信語音信號中存在多種干擾與噪聲。在低頻部分,如300 Hz以下,頻譜顯示存在強烈而穩(wěn)定的干擾信號;在高頻部分,一些結(jié)構(gòu)性干擾會隨機分布。除此之外,類白噪聲干擾存在于整個頻帶,如圖6(a)所示。綜合來看,通信語音信號干擾復(fù)雜,對語音增強帶來巨大挑戰(zhàn)。圖6(b)展示了增強后的語音幅度譜。通過提出的通信語音智能增強系統(tǒng)處理后,增強后的語音幅度譜結(jié)果表明噪聲明顯減少,多種干擾噪聲均得到有效抑制,而語音信號得到了有效保留,其語音質(zhì)量得到了極大改善。
圖6 某型旋翼飛機AM語音信號增強測試結(jié)果
針對旋翼飛機螺旋槳對空地語音通信造成的復(fù)雜多頻干擾以及惡劣機艙噪聲,本文提出了一種通信語音智能增強方法,利用LSTM的網(wǎng)絡(luò)結(jié)構(gòu)挖掘語音上下文信息,采用深度神經(jīng)網(wǎng)絡(luò)估計語音的理想比值掩膜,并將掩膜信息用于增強語音信號。仿真實驗與某型旋翼飛機實測數(shù)據(jù)測試處理驗證了本文語音增強系統(tǒng),能夠有效抑制旋翼飛機的復(fù)雜干擾與噪聲,改善語音通信質(zhì)量。