面向旋翼飛機螺旋槳干擾的AM通信語音信號智能增強方法*

2022-07-30 02:32:04田斌鵬董文方周良辰

電訊技術(shù) 2022年7期

田斌鵬，董文方，張昆，周良辰，文飛

(1.航空工業(yè)一飛院，西安 710089；2.上海交通大學(xué) 電子信息與電氣工程學(xué)院，上海 200240)

0 引言

旋翼飛機平臺的語音通信過程中，飛機螺旋槳與機艙發(fā)動機等設(shè)備會對幅度調(diào)制(Amplitude Modulation,AM)語音信號產(chǎn)生復(fù)雜干擾。語音信號不僅會混雜著強烈的機艙噪聲，并且信號傳輸也受到調(diào)制干擾，其語音整體感知質(zhì)量和可懂度很低。語音增強利用音頻信號處理相關(guān)技術(shù)，抑制音頻信號中的噪聲成分，提取純凈語音信號，以提高通信語音的整體感知質(zhì)量和可懂度，達到改善語音通信的效果。因此，語音增強可作為語音通信系統(tǒng)的前端處理模塊，用于提升系統(tǒng)的整體抗干擾能力，實現(xiàn)穩(wěn)定魯棒的語音通信。

語音與干擾噪聲在信號特征方面有著明顯差異，是實現(xiàn)語音增強的重要依據(jù)。語音信號一般為具有明顯的多結(jié)構(gòu)化特征的非平穩(wěn)信號，而噪聲根據(jù)具體情況可為平穩(wěn)或非平穩(wěn)信號，并不一定有特定的結(jié)構(gòu)化特征。傳統(tǒng)的語音增強主要采取無監(jiān)督的數(shù)字信號分析方法，如譜減法、維納濾波法等，一般都依賴于背景噪聲的估計，噪聲估計的精度直接影響語音增強效果[1]。常見的噪聲估計算法，如最小值跟蹤算法[2]和時間遞歸平均算法[3]，可以有效估計具有平穩(wěn)性的慢變噪聲，但無法快速跟蹤瞬變的非平穩(wěn)噪聲。然而，在真實的環(huán)境中噪聲一般是非平穩(wěn)的并且信噪比可能較低，傳統(tǒng)算法增強后的語音質(zhì)量甚至可能不如原始帶噪語音，如噪聲過估計引起的語音包絡(luò)丟失，其實際應(yīng)用效果不佳。

近年來，隨著機器學(xué)習(xí)技術(shù)的發(fā)展，基于監(jiān)督學(xué)習(xí)的語音增強算法不斷被提出，各種機器學(xué)習(xí)模型[4-5]被用于挖掘帶噪語音與純凈語音信號之間的關(guān)系，以達到抑制噪聲、增強目標(biāo)語音信號的目的。其中，基于深度學(xué)習(xí)的語音增強算法[6-8]受到了學(xué)者們的主要關(guān)注。相比于傳統(tǒng)方法，深度學(xué)習(xí)具有優(yōu)異的非線性建模能力，可更好地分析語音信號特征?；谏疃葘W(xué)習(xí)的語音增強算法在降噪效果方面實現(xiàn)了極大的提升，同時具有更好的魯棒性。在實際的非平穩(wěn)噪聲與低信噪比條件下，深度學(xué)習(xí)的語音增強仍可表現(xiàn)出較好的降噪效果。

針對旋翼飛機空地語音通信中復(fù)雜干擾與強噪聲，本文采取基于深度學(xué)習(xí)的語音增強算法，充分利用深度神經(jīng)網(wǎng)絡(luò)挖掘語音信號特征，使用長短時記憶(Long Short-Term Memory，LSTM)網(wǎng)絡(luò)聯(lián)系語音序列的上下文信息，并通過大量帶噪音頻與純凈語音數(shù)據(jù)對，充分訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型，最終實現(xiàn)高效魯棒的語音增強。

1 旋翼飛機干擾與噪聲分析

搭載于旋翼飛機的語音通信設(shè)備在通信過程中將受到復(fù)雜干擾。一方面，旋翼飛機機艙由于發(fā)動機、旋翼等存在強烈的噪聲，其直接混雜在語音通信信號中；另一方面，飛機螺旋槳在轉(zhuǎn)動過程中，會周期性地越過天線面，螺旋槳對語音通信的射頻信號波束產(chǎn)生遮擋、反射效應(yīng)，干擾語音通信，體現(xiàn)為在語音通信信號中產(chǎn)生一系列噪聲分量。

以螺旋槳與發(fā)動機為主的機艙噪聲以加性噪聲的形式混合在通信語音信號中，可表示為

m(t)=x(t)+n(t) 。

(1)

式中：m(t)為調(diào)制信號，x(t)為通信語音信號，n(t)為機艙噪聲信號。

幅度調(diào)制信號可表示為

s(t)=A[1+m(t)]cosωt。

(2)

式中：A為載波幅度，m(t)為調(diào)制信號，ω為載波角頻率。螺旋槳對AM信號的影響,相當(dāng)于引入了一個時變的幅度調(diào)制。受螺旋槳干擾后的AM信號可表示為

s′(t)=α(t)A[1+m(t)]cosωt。

(3)

式中：α(t)為螺旋槳引起的載波幅度調(diào)制系數(shù)，滿足α(t)≥0且為周期信號。結(jié)合式(1)，式(3)表示為

s′(t)=A[α(t)+α(t)x(t)+α(t)n(t)]cosωt。

(4)

螺旋槳引起的幅度調(diào)制α(t)，其頻率由螺旋槳轉(zhuǎn)速和槳葉數(shù)決定，即

F=V×N。

(5)

式中：F為調(diào)制頻率，V為螺旋槳轉(zhuǎn)速，N為槳葉數(shù)。螺旋槳的周期性轉(zhuǎn)動會引起輻射信號以角速率ω=2πF周期性變化。對應(yīng)到頻率，由于旋轉(zhuǎn)槳葉的存在,輻射場產(chǎn)生了頻譜擴展，在ω0±nω處產(chǎn)生了一系列噪聲分量，這些噪聲分量將選加在正常的通信信號上，可能會干擾正常通信。由于存在調(diào)制效應(yīng)，當(dāng)螺旋槳正常運轉(zhuǎn)時產(chǎn)生的調(diào)制頻率在有用載波頻率周圍產(chǎn)生一系列噪聲分量。當(dāng)通信信號解調(diào)之后，將在語音信號上疊加噪聲分量。

2 深度學(xué)習(xí)語音增強

本文采取基于時頻掩膜的深度學(xué)習(xí)語音增強算法，估計各個時頻點的語音成分，并對噪聲成分進行有效抑制，提高語音的整體感知質(zhì)量或可懂度。典型的時頻掩膜包括理想二值掩膜(Ideal Binary Mask，IBM)[9]、理想比值掩膜(Ideal Ratio Mask，IRM)[10]、譜幅度掩膜(Spectral Magnitude Mask，SMM)[11]等。本文測試了多種不同的時頻掩膜，最終采用IRM作為目標(biāo)掩膜。相比于IBM，IRM可更好地改善語音整體感知質(zhì)量，并減少降噪帶來的語音失真。相對比于SMM，IRM的掩膜值在0～1之間，更適合網(wǎng)絡(luò)訓(xùn)練，加快模型收斂。另外，為了減小模型計算量，時頻掩膜中不考慮相位信息[12]，僅估計實數(shù)域的掩膜。

3 語音增強系統(tǒng)

3.1 模型描述

假定接收的帶噪信號y具有T個采樣點，即y∈RT，其可視為純凈語音信號x和噪聲信號n混合而來，可表示為

y=x+n。

(6)

語音增強的目的在于從帶噪信號y中提取語音信號x。由于時域信號特征難以直接利用，語音增強一般通過短時傅里葉變換(Short-time Fourier Transform，STFT)將時域觀測信號變換到時頻域，在時頻域增強語音后通過逆短時傅里葉變換(Inverse-STFT，ISTFT)得到時域信號。

基于時頻掩膜的深度學(xué)習(xí)語音增強可表示為

(7)

3.2 系統(tǒng)結(jié)構(gòu)

基于時頻掩膜的深度學(xué)習(xí)語音增強的系統(tǒng)結(jié)構(gòu)如圖1所示。帶噪的語音信號在分幀與加窗后，通過STFT將時域信號變換到時頻域。然后，將帶噪語音的幅度譜將作為深度神經(jīng)網(wǎng)絡(luò)的輸入，對各個時頻點的語音掩膜值進行估計。網(wǎng)絡(luò)輸出的時頻掩膜可理解為語音的存在概率或成分占比，其通過點乘原始帶噪頻譜，可獲得增強后的幅度譜。由于語音相位信息對降噪效果影響較小，同時引入相位估計會極大增加計算量，本文直接采用原始帶噪相位作為增強音頻的相位，并結(jié)合增強的幅度譜，經(jīng)過ISTFT得到增強后的時域語音信號。

圖1 深度學(xué)習(xí)語音增強框架

上述過程中，語音增強的關(guān)鍵在于對時頻掩膜估計，掩膜的性能直接影響到增強效果。深度學(xué)習(xí)語音增強通過深度神經(jīng)網(wǎng)絡(luò)優(yōu)異的非線性建模能力，更加準(zhǔn)確地估計時頻掩膜，從而實現(xiàn)降噪性能明顯優(yōu)于傳統(tǒng)算法。

3.3 網(wǎng)絡(luò)結(jié)構(gòu)

典型的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)主要包括共享層和特定任務(wù)層。共享層主要完成低層次數(shù)據(jù)特征的提取，特定任務(wù)層主要完成高層次的特定任務(wù)，如分類(classification)或回歸(regression)。本文利用深度神經(jīng)網(wǎng)絡(luò)來訓(xùn)練帶噪語音的時頻掩膜，估計目標(biāo)語音的理想比例值掩膜；使用語音掩膜增強原始帶噪語音，增強后的信號頻譜作為神經(jīng)網(wǎng)絡(luò)的預(yù)期輸出。從語義的多層次結(jié)構(gòu)角度看，共享網(wǎng)絡(luò)層通過訓(xùn)練得到低層次的語義特征(如音節(jié)、音素等)，而特定任務(wù)層通過訓(xùn)練得到高層次的語義特征(如字、詞等)。

如圖2所示，該深度神經(jīng)網(wǎng)絡(luò)采用多層感知器的結(jié)構(gòu)：共享層由激活函數(shù)為ReLU的全連接層與LSTM層疊加而成，特定任務(wù)層由獨立的激活函數(shù)為Sigmoid函數(shù)的全連接層構(gòu)成。ReLU激活函數(shù)由于具有良好的稀疏性及梯度計算簡單的優(yōu)點，使得使用該激活函數(shù)的隨機梯度下降算法收斂速度更快，從而成為隱藏層激活函數(shù)的首選。輸出層的激活函數(shù)必須與訓(xùn)練目標(biāo)匹配，掩膜的數(shù)值范圍為0～1，因而選擇Sigmoid函數(shù)。

圖2 語音增強網(wǎng)絡(luò)框架

共享網(wǎng)絡(luò)層包含LSTM網(wǎng)絡(luò)層，可以更有效地利用語音信號時間軸上的上下文信息。另外，選擇使用時間軸上相鄰c幀組成超級幀向量，每個超級幀中總共有(2c+1)幀(左邊c幀，當(dāng)前幀,右邊c幀)。每個時刻的網(wǎng)絡(luò)輸入層的特征維度總共為

D=F×(2c+1) 。

(8)

式中：D代表網(wǎng)絡(luò)輸入，F(xiàn)是輸入特征的頻點個數(shù)，c是相鄰幀數(shù)。由此可見，該深度神經(jīng)網(wǎng)絡(luò)輸入特征的構(gòu)造過程中，融合了音頻信號在時間、頻率兩個維度上的信息，使得該DNN具備時頻二維特征學(xué)習(xí)能力。

具體網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)如圖3所示，輸入層的特征維度為257×5，其中輸入特征的頻點個數(shù)為257，相鄰幀數(shù)為2；而后連接兩層LSTM，其輸出維度均為200；并連接一層全連接層與ReLU層，其輸出維度為300；最后連接輸出層與Sigmoid層，輸出維度與輸入維度保持一致。

圖3 語音增強網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)

3.4 網(wǎng)絡(luò)訓(xùn)練

深度神經(jīng)網(wǎng)絡(luò)的模型訓(xùn)練與損失函數(shù)設(shè)計對性能有著重要影響。本文的語音增強網(wǎng)絡(luò)訓(xùn)練結(jié)構(gòu)如圖4所示。

圖4 語音增強網(wǎng)絡(luò)訓(xùn)練

結(jié)合網(wǎng)絡(luò)估計的語音掩膜與帶噪幅度譜，獲取增強后的語音幅度譜，通過將其與干凈幅度譜對比，計算對應(yīng)的均方誤差(Mean Square Error，MSE)，將其作為網(wǎng)絡(luò)的損失函數(shù)用于訓(xùn)練。該損失函數(shù)具體可表示為

(9)

由于網(wǎng)絡(luò)訓(xùn)練過程中需要使用對應(yīng)的干凈語音頻譜與帶噪語音頻譜，而真實場景下采集的音頻一般為帶噪音頻，且無法提取對應(yīng)的干凈語音，因而網(wǎng)絡(luò)訓(xùn)練集采用了仿真數(shù)據(jù)，利用已有的干凈語音與純噪聲，通過混合生成帶噪音頻。

另外，為了保證訓(xùn)練得到的模型具有更好的魯棒性與泛化性，訓(xùn)練數(shù)據(jù)的帶噪音頻采取了多種噪聲與多種說話人進行混合，使得訓(xùn)練數(shù)據(jù)的多樣性大大增加，增強了模型對實際未知噪聲與說話人語音的魯棒性。

4 實驗結(jié)果

4.1 仿真實驗

本文設(shè)計了語音增強仿真實驗來初步證實神經(jīng)網(wǎng)絡(luò)模型的降噪性能。利用大量純凈語音與純噪聲的人工混合，獲取帶噪語音信號。通過語音增強網(wǎng)絡(luò)處理人工混合的帶噪語音信號，并將增強后的語音信號與對應(yīng)的純凈信號進行比較，分析和評估語音增強網(wǎng)絡(luò)的降噪性能。本文從語音質(zhì)量的感知評估(Perceptual Evaluation of Speech Quality，PESQ)和短時客觀可懂度(Short-time Objective Intelligibility，STOI)兩個指標(biāo)來驗證該模型的性能。

PESQ可對客觀語音質(zhì)量評估提供一個主觀MOS的預(yù)測值，并可映射到MOS刻度范圍，但其計算過程較為復(fù)雜，且同時需要帶噪語音信號和純凈參考信號。PESQ的得分范圍在-0.5～4.5，其分?jǐn)?shù)越高表示音頻質(zhì)量越好。STOI作為另外一種語音客觀評價方法，可用于衡量語音可懂度，其得分范圍在0～1，分?jǐn)?shù)越高表示可懂度越高，但其計算同樣較為復(fù)雜，且需要帶噪語音和純凈語音。

人工混合的帶噪語音、增強語音以及純凈語音的幅度譜如圖5所示。原始帶噪語音中存在強烈的噪聲干擾，噪聲布滿整個頻譜，尤其在低頻部分噪聲更加惡劣，如圖5(a)所示。通過本文提出的語音增強系統(tǒng)處理原始帶噪信號，可得到明顯增強的語音信號，其中噪聲成分已經(jīng)得到明顯抑制，如圖5(b)所示。盡管相比于純凈語音，增強語音還存在部分殘留噪聲，但其整體的語音質(zhì)量已得到明顯改善。本文為了更好地驗證模型的降噪效果與魯棒性，針對四種不同場景(公交車站、咖啡廳、步行街、街道)下的噪聲，分別與語音信號混合，并進行了語音增強仿真實驗，通過主流的語音評價指標(biāo)PESQ和STOI來驗證語音增強的效果。

(a)仿真帶噪語音

另外,為對比不同深度神經(jīng)網(wǎng)絡(luò)的語音增強效果，本文分別以全連接網(wǎng)絡(luò)(Fully Connected Network，F(xiàn)CN)與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network，CNN)為主構(gòu)造了不同的網(wǎng)絡(luò)模型，進一步驗證了本文方法的優(yōu)越性。不同場景和增強網(wǎng)絡(luò)下帶噪語音增強后的PESQ和STOI得分如表1和表2所示，其中第一行表示原始音頻以及不同神經(jīng)網(wǎng)絡(luò)增強后的音頻，第一列表示用于混合的不同場景噪聲，即BUS表示公共交通噪聲，CAF表示咖啡館噪聲，PED表示步行街噪聲，STR表示街道口噪聲。

表1 測試音頻PESQ

表2 測試音頻STOI

從表1和表2的結(jié)果可看出，增強后音頻的PESQ和STOI得分均有明顯上升，表明經(jīng)過語音增強后語音整體感知質(zhì)量和可懂度得到明顯改善，而本文采取的基于LSTM的語音增強網(wǎng)絡(luò)取得了最大的提升。相比于基于FCN的增強網(wǎng)絡(luò)，LSTM可以更好地挖掘音頻上下文信息，獲取更準(zhǔn)確的掩膜估計，從而實現(xiàn)更優(yōu)的降噪效果。相比于基于CNN的增強網(wǎng)絡(luò)，由于CNN同樣可以建模音頻上下文信息，LSTM帶來的提升不大，但CNN需要同時輸入整段音頻，難以實現(xiàn)實時語音增強，而LSTM可以通過調(diào)整未來幀數(shù)目逐幀輸入音頻，實現(xiàn)實時的語音增強。

本文語音增強系統(tǒng)時延主要由輸入時延與運算時延兩部分組成，輸入時延為語音產(chǎn)生到輸入網(wǎng)絡(luò)的時間，運算時延為網(wǎng)絡(luò)處理與輸出增強語音的時間，其中輸入時延占主要部分。相比于其他因素，系統(tǒng)中STFT與ISTFT造成的時延微乎其微，可不作考慮。因此，輸入時延主要由輸入幀的時長決定，在不使用未來幀的情況下其時延為單幀時長，但在使用未來幀的情況下其時延將對應(yīng)增加。本系統(tǒng)的幀長為32 ms，幀移為16 ms，不使用未來幀情況下時延即為32 ms，但實際使用了兩個未來幀，因而輸入時延為64 ms。運算時延主要由網(wǎng)絡(luò)參數(shù)大小以及設(shè)備狀況決定，本系統(tǒng)的參數(shù)大致為2×106，在主流GPU機器上時延不超過20 ms。因此，本系統(tǒng)的語音增強系統(tǒng)時延在84 ms以內(nèi)，可滿足實時語音增強要求。

4.2 實測數(shù)據(jù)驗證

前文通過仿真實驗初步驗證了本文實現(xiàn)的語音增強系統(tǒng)的有效性，為了更好地測試系統(tǒng)對實際旋翼干擾的降噪性能，本文使用某型旋翼飛機采集的真實帶干擾和帶噪語音信號，進一步測試系統(tǒng)對復(fù)雜噪聲干擾的抑制效果。

真實采集的通信語音信號中存在多種干擾與噪聲。在低頻部分，如300 Hz以下，頻譜顯示存在強烈而穩(wěn)定的干擾信號；在高頻部分，一些結(jié)構(gòu)性干擾會隨機分布。除此之外，類白噪聲干擾存在于整個頻帶，如圖6(a)所示。綜合來看，通信語音信號干擾復(fù)雜，對語音增強帶來巨大挑戰(zhàn)。圖6(b)展示了增強后的語音幅度譜。通過提出的通信語音智能增強系統(tǒng)處理后，增強后的語音幅度譜結(jié)果表明噪聲明顯減少，多種干擾噪聲均得到有效抑制，而語音信號得到了有效保留，其語音質(zhì)量得到了極大改善。

圖6 某型旋翼飛機AM語音信號增強測試結(jié)果

5 結(jié) 論

針對旋翼飛機螺旋槳對空地語音通信造成的復(fù)雜多頻干擾以及惡劣機艙噪聲，本文提出了一種通信語音智能增強方法，利用LSTM的網(wǎng)絡(luò)結(jié)構(gòu)挖掘語音上下文信息，采用深度神經(jīng)網(wǎng)絡(luò)估計語音的理想比值掩膜，并將掩膜信息用于增強語音信號。仿真實驗與某型旋翼飛機實測數(shù)據(jù)測試處理驗證了本文語音增強系統(tǒng)，能夠有效抑制旋翼飛機的復(fù)雜干擾與噪聲，改善語音通信質(zhì)量。