• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      面向旋翼飛機螺旋槳干擾的AM通信語音信號智能增強方法*

      2022-07-30 02:32:04田斌鵬董文方周良辰
      電訊技術(shù) 2022年7期
      關(guān)鍵詞:掩膜旋翼時延

      田斌鵬,董文方,張 昆,周良辰,文 飛

      (1.航空工業(yè)一飛院,西安 710089;2.上海交通大學(xué) 電子信息與電氣工程學(xué)院,上海 200240)

      0 引 言

      旋翼飛機平臺的語音通信過程中,飛機螺旋槳與機艙發(fā)動機等設(shè)備會對幅度調(diào)制(Amplitude Modulation,AM)語音信號產(chǎn)生復(fù)雜干擾。語音信號不僅會混雜著強烈的機艙噪聲,并且信號傳輸也受到調(diào)制干擾,其語音整體感知質(zhì)量和可懂度很低。語音增強利用音頻信號處理相關(guān)技術(shù),抑制音頻信號中的噪聲成分,提取純凈語音信號,以提高通信語音的整體感知質(zhì)量和可懂度,達到改善語音通信的效果。因此,語音增強可作為語音通信系統(tǒng)的前端處理模塊,用于提升系統(tǒng)的整體抗干擾能力,實現(xiàn)穩(wěn)定魯棒的語音通信。

      語音與干擾噪聲在信號特征方面有著明顯差異,是實現(xiàn)語音增強的重要依據(jù)。語音信號一般為具有明顯的多結(jié)構(gòu)化特征的非平穩(wěn)信號,而噪聲根據(jù)具體情況可為平穩(wěn)或非平穩(wěn)信號,并不一定有特定的結(jié)構(gòu)化特征。傳統(tǒng)的語音增強主要采取無監(jiān)督的數(shù)字信號分析方法,如譜減法、維納濾波法等,一般都依賴于背景噪聲的估計,噪聲估計的精度直接影響語音增強效果[1]。常見的噪聲估計算法,如最小值跟蹤算法[2]和時間遞歸平均算法[3],可以有效估計具有平穩(wěn)性的慢變噪聲,但無法快速跟蹤瞬變的非平穩(wěn)噪聲。然而,在真實的環(huán)境中噪聲一般是非平穩(wěn)的并且信噪比可能較低,傳統(tǒng)算法增強后的語音質(zhì)量甚至可能不如原始帶噪語音,如噪聲過估計引起的語音包絡(luò)丟失,其實際應(yīng)用效果不佳。

      近年來,隨著機器學(xué)習(xí)技術(shù)的發(fā)展,基于監(jiān)督學(xué)習(xí)的語音增強算法不斷被提出,各種機器學(xué)習(xí)模型[4-5]被用于挖掘帶噪語音與純凈語音信號之間的關(guān)系,以達到抑制噪聲、增強目標(biāo)語音信號的目的。其中,基于深度學(xué)習(xí)的語音增強算法[6-8]受到了學(xué)者們的主要關(guān)注。相比于傳統(tǒng)方法,深度學(xué)習(xí)具有優(yōu)異的非線性建模能力,可更好地分析語音信號特征?;谏疃葘W(xué)習(xí)的語音增強算法在降噪效果方面實現(xiàn)了極大的提升,同時具有更好的魯棒性。在實際的非平穩(wěn)噪聲與低信噪比條件下,深度學(xué)習(xí)的語音增強仍可表現(xiàn)出較好的降噪效果。

      針對旋翼飛機空地語音通信中復(fù)雜干擾與強噪聲,本文采取基于深度學(xué)習(xí)的語音增強算法,充分利用深度神經(jīng)網(wǎng)絡(luò)挖掘語音信號特征,使用長短時記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)聯(lián)系語音序列的上下文信息,并通過大量帶噪音頻與純凈語音數(shù)據(jù)對,充分訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,最終實現(xiàn)高效魯棒的語音增強。

      1 旋翼飛機干擾與噪聲分析

      搭載于旋翼飛機的語音通信設(shè)備在通信過程中將受到復(fù)雜干擾。一方面,旋翼飛機機艙由于發(fā)動機、旋翼等存在強烈的噪聲,其直接混雜在語音通信信號中;另一方面,飛機螺旋槳在轉(zhuǎn)動過程中,會周期性地越過天線面,螺旋槳對語音通信的射頻信號波束產(chǎn)生遮擋、反射效應(yīng),干擾語音通信,體現(xiàn)為在語音通信信號中產(chǎn)生一系列噪聲分量。

      以螺旋槳與發(fā)動機為主的機艙噪聲以加性噪聲的形式混合在通信語音信號中,可表示為

      m(t)=x(t)+n(t) 。

      (1)

      式中:m(t)為調(diào)制信號,x(t)為通信語音信號,n(t)為機艙噪聲信號。

      幅度調(diào)制信號可表示為

      s(t)=A[1+m(t)]cosωt。

      (2)

      式中:A為載波幅度,m(t)為調(diào)制信號,ω為載波角頻率。螺旋槳對AM信號的影響,相當(dāng)于引入了一個時變的幅度調(diào)制。受螺旋槳干擾后的AM信號可表示為

      s′(t)=α(t)A[1+m(t)]cosωt。

      (3)

      式中:α(t)為螺旋槳引起的載波幅度調(diào)制系數(shù),滿足α(t)≥0且為周期信號。結(jié)合式(1),式(3)表示為

      s′(t)=A[α(t)+α(t)x(t)+α(t)n(t)]cosωt。

      (4)

      螺旋槳引起的幅度調(diào)制α(t),其頻率由螺旋槳轉(zhuǎn)速和槳葉數(shù)決定,即

      F=V×N。

      (5)

      式中:F為調(diào)制頻率,V為螺旋槳轉(zhuǎn)速,N為槳葉數(shù)。螺旋槳的周期性轉(zhuǎn)動會引起輻射信號以角速率ω=2πF周期性變化。對應(yīng)到頻率,由于旋轉(zhuǎn)槳葉的存在,輻射場產(chǎn)生了頻譜擴展,在ω0±nω處產(chǎn)生了一系列噪聲分量,這些噪聲分量將選加在正常的通信信號上,可能會干擾正常通信。由于存在調(diào)制效應(yīng),當(dāng)螺旋槳正常運轉(zhuǎn)時產(chǎn)生的調(diào)制頻率在有用載波頻率周圍產(chǎn)生一系列噪聲分量。當(dāng)通信信號解調(diào)之后,將在語音信號上疊加噪聲分量。

      2 深度學(xué)習(xí)語音增強

      本文采取基于時頻掩膜的深度學(xué)習(xí)語音增強算法,估計各個時頻點的語音成分,并對噪聲成分進行有效抑制,提高語音的整體感知質(zhì)量或可懂度。典型的時頻掩膜包括理想二值掩膜(Ideal Binary Mask,IBM)[9]、理想比值掩膜(Ideal Ratio Mask,IRM)[10]、譜幅度掩膜(Spectral Magnitude Mask,SMM)[11]等。本文測試了多種不同的時頻掩膜,最終采用IRM作為目標(biāo)掩膜。相比于IBM,IRM可更好地改善語音整體感知質(zhì)量,并減少降噪帶來的語音失真。相對比于SMM,IRM的掩膜值在0~1之間,更適合網(wǎng)絡(luò)訓(xùn)練,加快模型收斂。另外,為了減小模型計算量,時頻掩膜中不考慮相位信息[12],僅估計實數(shù)域的掩膜。

      3 語音增強系統(tǒng)

      3.1 模型描述

      假定接收的帶噪信號y具有T個采樣點,即y∈RT,其可視為純凈語音信號x和噪聲信號n混合而來,可表示為

      y=x+n。

      (6)

      語音增強的目的在于從帶噪信號y中提取語音信號x。由于時域信號特征難以直接利用,語音增強一般通過短時傅里葉變換(Short-time Fourier Transform,STFT)將時域觀測信號變換到時頻域,在時頻域增強語音后通過逆短時傅里葉變換(Inverse-STFT,ISTFT)得到時域信號。

      基于時頻掩膜的深度學(xué)習(xí)語音增強可表示為

      (7)

      3.2 系統(tǒng)結(jié)構(gòu)

      基于時頻掩膜的深度學(xué)習(xí)語音增強的系統(tǒng)結(jié)構(gòu)如圖1所示。帶噪的語音信號在分幀與加窗后,通過STFT將時域信號變換到時頻域。然后,將帶噪語音的幅度譜將作為深度神經(jīng)網(wǎng)絡(luò)的輸入,對各個時頻點的語音掩膜值進行估計。網(wǎng)絡(luò)輸出的時頻掩膜可理解為語音的存在概率或成分占比,其通過點乘原始帶噪頻譜,可獲得增強后的幅度譜。由于語音相位信息對降噪效果影響較小,同時引入相位估計會極大增加計算量,本文直接采用原始帶噪相位作為增強音頻的相位,并結(jié)合增強的幅度譜,經(jīng)過ISTFT得到增強后的時域語音信號。

      圖1 深度學(xué)習(xí)語音增強框架

      上述過程中,語音增強的關(guān)鍵在于對時頻掩膜估計,掩膜的性能直接影響到增強效果。深度學(xué)習(xí)語音增強通過深度神經(jīng)網(wǎng)絡(luò)優(yōu)異的非線性建模能力,更加準(zhǔn)確地估計時頻掩膜,從而實現(xiàn)降噪性能明顯優(yōu)于傳統(tǒng)算法。

      3.3 網(wǎng)絡(luò)結(jié)構(gòu)

      典型的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)主要包括共享層和特定任務(wù)層。共享層主要完成低層次數(shù)據(jù)特征的提取,特定任務(wù)層主要完成高層次的特定任務(wù),如分類(classification)或回歸(regression)。本文利用深度神經(jīng)網(wǎng)絡(luò)來訓(xùn)練帶噪語音的時頻掩膜,估計目標(biāo)語音的理想比例值掩膜;使用語音掩膜增強原始帶噪語音,增強后的信號頻譜作為神經(jīng)網(wǎng)絡(luò)的預(yù)期輸出。從語義的多層次結(jié)構(gòu)角度看,共享網(wǎng)絡(luò)層通過訓(xùn)練得到低層次的語義特征(如音節(jié)、音素等),而特定任務(wù)層通過訓(xùn)練得到高層次的語義特征(如字、詞等)。

      如圖2所示,該深度神經(jīng)網(wǎng)絡(luò)采用多層感知器的結(jié)構(gòu):共享層由激活函數(shù)為ReLU的全連接層與LSTM層疊加而成,特定任務(wù)層由獨立的激活函數(shù)為Sigmoid函數(shù)的全連接層構(gòu)成。ReLU激活函數(shù)由于具有良好的稀疏性及梯度計算簡單的優(yōu)點,使得使用該激活函數(shù)的隨機梯度下降算法收斂速度更快,從而成為隱藏層激活函數(shù)的首選。輸出層的激活函數(shù)必須與訓(xùn)練目標(biāo)匹配,掩膜的數(shù)值范圍為0~1,因而選擇Sigmoid函數(shù)。

      圖2 語音增強網(wǎng)絡(luò)框架

      共享網(wǎng)絡(luò)層包含LSTM網(wǎng)絡(luò)層,可以更有效地利用語音信號時間軸上的上下文信息。另外,選擇使用時間軸上相鄰c幀組成超級幀向量,每個超級幀中總共有(2c+1)幀(左邊c幀,當(dāng)前幀,右邊c幀)。每個時刻的網(wǎng)絡(luò)輸入層的特征維度總共為

      D=F×(2c+1) 。

      (8)

      式中:D代表網(wǎng)絡(luò)輸入,F(xiàn)是輸入特征的頻點個數(shù),c是相鄰幀數(shù)。由此可見,該深度神經(jīng)網(wǎng)絡(luò)輸入特征的構(gòu)造過程中,融合了音頻信號在時間、頻率兩個維度上的信息,使得該DNN具備時頻二維特征學(xué)習(xí)能力。

      具體網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)如圖3所示,輸入層的特征維度為257×5,其中輸入特征的頻點個數(shù)為257,相鄰幀數(shù)為2;而后連接兩層LSTM,其輸出維度均為200;并連接一層全連接層與ReLU層,其輸出維度為300;最后連接輸出層與Sigmoid層,輸出維度與輸入維度保持一致。

      圖3 語音增強網(wǎng)絡(luò)結(jié)構(gòu)與參數(shù)

      3.4 網(wǎng)絡(luò)訓(xùn)練

      深度神經(jīng)網(wǎng)絡(luò)的模型訓(xùn)練與損失函數(shù)設(shè)計對性能有著重要影響。本文的語音增強網(wǎng)絡(luò)訓(xùn)練結(jié)構(gòu)如圖4所示。

      圖4 語音增強網(wǎng)絡(luò)訓(xùn)練

      結(jié)合網(wǎng)絡(luò)估計的語音掩膜與帶噪幅度譜,獲取增強后的語音幅度譜,通過將其與干凈幅度譜對比,計算對應(yīng)的均方誤差(Mean Square Error,MSE),將其作為網(wǎng)絡(luò)的損失函數(shù)用于訓(xùn)練。該損失函數(shù)具體可表示為

      (9)

      由于網(wǎng)絡(luò)訓(xùn)練過程中需要使用對應(yīng)的干凈語音頻譜與帶噪語音頻譜,而真實場景下采集的音頻一般為帶噪音頻,且無法提取對應(yīng)的干凈語音,因而網(wǎng)絡(luò)訓(xùn)練集采用了仿真數(shù)據(jù),利用已有的干凈語音與純噪聲,通過混合生成帶噪音頻。

      另外,為了保證訓(xùn)練得到的模型具有更好的魯棒性與泛化性,訓(xùn)練數(shù)據(jù)的帶噪音頻采取了多種噪聲與多種說話人進行混合,使得訓(xùn)練數(shù)據(jù)的多樣性大大增加,增強了模型對實際未知噪聲與說話人語音的魯棒性。

      4 實驗結(jié)果

      4.1 仿真實驗

      本文設(shè)計了語音增強仿真實驗來初步證實神經(jīng)網(wǎng)絡(luò)模型的降噪性能。利用大量純凈語音與純噪聲的人工混合,獲取帶噪語音信號。通過語音增強網(wǎng)絡(luò)處理人工混合的帶噪語音信號,并將增強后的語音信號與對應(yīng)的純凈信號進行比較,分析和評估語音增強網(wǎng)絡(luò)的降噪性能。本文從語音質(zhì)量的感知評估(Perceptual Evaluation of Speech Quality,PESQ)和短時客觀可懂度(Short-time Objective Intelligibility,STOI)兩個指標(biāo)來驗證該模型的性能。

      PESQ可對客觀語音質(zhì)量評估提供一個主觀MOS的預(yù)測值,并可映射到MOS刻度范圍,但其計算過程較為復(fù)雜,且同時需要帶噪語音信號和純凈參考信號。PESQ的得分范圍在-0.5~4.5,其分?jǐn)?shù)越高表示音頻質(zhì)量越好。STOI作為另外一種語音客觀評價方法,可用于衡量語音可懂度,其得分范圍在0~1,分?jǐn)?shù)越高表示可懂度越高,但其計算同樣較為復(fù)雜,且需要帶噪語音和純凈語音。

      人工混合的帶噪語音、增強語音以及純凈語音的幅度譜如圖5所示。原始帶噪語音中存在強烈的噪聲干擾,噪聲布滿整個頻譜,尤其在低頻部分噪聲更加惡劣,如圖5(a)所示。通過本文提出的語音增強系統(tǒng)處理原始帶噪信號,可得到明顯增強的語音信號,其中噪聲成分已經(jīng)得到明顯抑制,如圖5(b)所示。盡管相比于純凈語音,增強語音還存在部分殘留噪聲,但其整體的語音質(zhì)量已得到明顯改善。本文為了更好地驗證模型的降噪效果與魯棒性,針對四種不同場景(公交車站、咖啡廳、步行街、街道)下的噪聲,分別與語音信號混合,并進行了語音增強仿真實驗,通過主流的語音評價指標(biāo)PESQ和STOI來驗證語音增強的效果。

      (a)仿真帶噪語音

      另外,為對比不同深度神經(jīng)網(wǎng)絡(luò)的語音增強效果,本文分別以全連接網(wǎng)絡(luò)(Fully Connected Network,F(xiàn)CN)與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)為主構(gòu)造了不同的網(wǎng)絡(luò)模型,進一步驗證了本文方法的優(yōu)越性。不同場景和增強網(wǎng)絡(luò)下帶噪語音增強后的PESQ和STOI得分如表1和表2所示,其中第一行表示原始音頻以及不同神經(jīng)網(wǎng)絡(luò)增強后的音頻,第一列表示用于混合的不同場景噪聲,即BUS表示公共交通噪聲,CAF表示咖啡館噪聲,PED表示步行街噪聲,STR表示街道口噪聲。

      表1 測試音頻PESQ

      表2 測試音頻STOI

      從表1和表2的結(jié)果可看出,增強后音頻的PESQ和STOI得分均有明顯上升,表明經(jīng)過語音增強后語音整體感知質(zhì)量和可懂度得到明顯改善,而本文采取的基于LSTM的語音增強網(wǎng)絡(luò)取得了最大的提升。相比于基于FCN的增強網(wǎng)絡(luò),LSTM可以更好地挖掘音頻上下文信息,獲取更準(zhǔn)確的掩膜估計,從而實現(xiàn)更優(yōu)的降噪效果。相比于基于CNN的增強網(wǎng)絡(luò),由于CNN同樣可以建模音頻上下文信息,LSTM帶來的提升不大,但CNN需要同時輸入整段音頻,難以實現(xiàn)實時語音增強,而LSTM可以通過調(diào)整未來幀數(shù)目逐幀輸入音頻,實現(xiàn)實時的語音增強。

      本文語音增強系統(tǒng)時延主要由輸入時延與運算時延兩部分組成,輸入時延為語音產(chǎn)生到輸入網(wǎng)絡(luò)的時間,運算時延為網(wǎng)絡(luò)處理與輸出增強語音的時間,其中輸入時延占主要部分。相比于其他因素,系統(tǒng)中STFT與ISTFT造成的時延微乎其微,可不作考慮。因此,輸入時延主要由輸入幀的時長決定,在不使用未來幀的情況下其時延為單幀時長,但在使用未來幀的情況下其時延將對應(yīng)增加。本系統(tǒng)的幀長為32 ms,幀移為16 ms,不使用未來幀情況下時延即為32 ms,但實際使用了兩個未來幀,因而輸入時延為64 ms。運算時延主要由網(wǎng)絡(luò)參數(shù)大小以及設(shè)備狀況決定,本系統(tǒng)的參數(shù)大致為2×106,在主流GPU機器上時延不超過20 ms。因此,本系統(tǒng)的語音增強系統(tǒng)時延在84 ms以內(nèi),可滿足實時語音增強要求。

      4.2 實測數(shù)據(jù)驗證

      前文通過仿真實驗初步驗證了本文實現(xiàn)的語音增強系統(tǒng)的有效性,為了更好地測試系統(tǒng)對實際旋翼干擾的降噪性能,本文使用某型旋翼飛機采集的真實帶干擾和帶噪語音信號,進一步測試系統(tǒng)對復(fù)雜噪聲干擾的抑制效果。

      真實采集的通信語音信號中存在多種干擾與噪聲。在低頻部分,如300 Hz以下,頻譜顯示存在強烈而穩(wěn)定的干擾信號;在高頻部分,一些結(jié)構(gòu)性干擾會隨機分布。除此之外,類白噪聲干擾存在于整個頻帶,如圖6(a)所示。綜合來看,通信語音信號干擾復(fù)雜,對語音增強帶來巨大挑戰(zhàn)。圖6(b)展示了增強后的語音幅度譜。通過提出的通信語音智能增強系統(tǒng)處理后,增強后的語音幅度譜結(jié)果表明噪聲明顯減少,多種干擾噪聲均得到有效抑制,而語音信號得到了有效保留,其語音質(zhì)量得到了極大改善。

      圖6 某型旋翼飛機AM語音信號增強測試結(jié)果

      5 結(jié) 論

      針對旋翼飛機螺旋槳對空地語音通信造成的復(fù)雜多頻干擾以及惡劣機艙噪聲,本文提出了一種通信語音智能增強方法,利用LSTM的網(wǎng)絡(luò)結(jié)構(gòu)挖掘語音上下文信息,采用深度神經(jīng)網(wǎng)絡(luò)估計語音的理想比值掩膜,并將掩膜信息用于增強語音信號。仿真實驗與某型旋翼飛機實測數(shù)據(jù)測試處理驗證了本文語音增強系統(tǒng),能夠有效抑制旋翼飛機的復(fù)雜干擾與噪聲,改善語音通信質(zhì)量。

      猜你喜歡
      掩膜旋翼時延
      利用掩膜和單應(yīng)矩陣提高LK光流追蹤效果
      一種結(jié)合圖像分割掩膜邊緣優(yōu)化的B-PointRend網(wǎng)絡(luò)方法
      改進型自抗擾四旋翼無人機控制系統(tǒng)設(shè)計與實現(xiàn)
      大載重長航時油動多旋翼無人機
      基于STM32的四旋翼飛行器的設(shè)計
      電子制作(2019年9期)2019-05-30 09:41:48
      基于GCC-nearest時延估計的室內(nèi)聲源定位
      電子制作(2019年23期)2019-02-23 13:21:12
      基于改進二次相關(guān)算法的TDOA時延估計
      光纖激光掩膜微細電解復(fù)合加工裝置研發(fā)
      四旋翼無人機動態(tài)面控制
      FRFT在水聲信道時延頻移聯(lián)合估計中的應(yīng)用
      宣城市| 青神县| 金沙县| 轮台县| 永顺县| 新绛县| 大余县| 柳州市| 长武县| 广州市| 安国市| 克什克腾旗| 宜黄县| 马尔康县| 太保市| 来安县| 开平市| 大方县| 南陵县| 元朗区| 闸北区| 胶南市| 宁都县| 大关县| 云浮市| 喀什市| 青冈县| 神池县| 东安县| 江都市| 新宾| 嵊泗县| 盐源县| 洛阳市| 格尔木市| 崇义县| 隆回县| 浦东新区| 商南县| 巴彦县| 武汉市|