• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    面向船載遠程會議的麥克風陣列高精度DOA 估計*

    2022-04-19 11:52:46劉雨佶陳東升盧榮富馮萬健
    電子技術(shù)應用 2022年3期
    關(guān)鍵詞:混響艙室信噪比

    劉雨佶 ,童 峰 ,陳東升 ,盧榮富 ,馮萬健

    (1.廈門大學 水聲通信與海洋信息技術(shù)教育部重點實驗室,福建 廈門 361002;2.廈門大學 海洋與地球?qū)W院,福建 廈門 361002;3.廈門大學深圳研究院,廣東 深圳 518000;4.廈門億聯(lián)網(wǎng)絡技術(shù)股份有限公司,福建 廈門 361000)

    0 引言

    船載遠程會議系統(tǒng)在船舶智能化方面發(fā)揮著顯著作用,特別是可提高應急處理能力,推進船岸一體化網(wǎng)絡建設(shè)。近些年來,船載遠程會議監(jiān)測系統(tǒng)發(fā)展迅速[1-3]。麥克風陣列通過提供準確波達方向(Direction Of Arrival,DOA)估計可實現(xiàn)語音增強處理,同時還可以為遠程會議系統(tǒng)攝像機提供說話人方位信息,實現(xiàn)多模態(tài)交互,已成為遠程會議系統(tǒng)的重要語音前端[4-5]。

    一般遠程會議場所較為理想,因此往往采用較大的麥克風陣列以保證DOA 估計,提高語音增強性能和多模態(tài)交互效果。但是,船載遠程會議所在船舶艙室屬于非常典型復雜聲學場景。一方面,艙室尺寸狹小,既造成嚴重混響,也導致無法方便容納尺寸較大的遠程會議麥克風陣列;另一方面,受嚴重船舶艙室噪聲干擾[6],包括由各個艙室有限的空間里集中了非常多的電氣設(shè)備與發(fā)動機等設(shè)備造成嚴重的內(nèi)部噪聲,以及其他艦船噪聲、海浪等導致的外部噪聲。這些都將使得船舶艙室聲學特性變得復雜,對麥陣DOA 估計提出了更高的挑戰(zhàn)。

    近些年,隨著人工智能的發(fā)展,Xiao 等人提出利用多層感知機(Multilayer Perceptron,MLP)來進行DOA 估計[7],利用深層網(wǎng)絡與大數(shù)據(jù)來提高DOA 估計準確率,遠遠超過傳統(tǒng)DOA 估計算法。Diaz-Guerra 等人利用帶相位變換導向響應功率特征作為特征,建立神經(jīng)網(wǎng)絡模將DOA 估計任務轉(zhuǎn)化為回歸問題[8]。Nguyen 等人使用具有多任務學習功能的2D 卷積神經(jīng)網(wǎng)絡從短時空間偽譜魯棒地估計聲源的數(shù)量和到達方法[9],這種方法減少了神經(jīng)網(wǎng)絡學習聲音類別和方向信息之間不必要的關(guān)聯(lián),加速模型的收斂。

    Varzandeh 等人使用GCC-PHAT 和聽覺啟發(fā)特征周期度(Periodicity Degree,PD)作為特征,使用多輸入單輸出的卷積神經(jīng)網(wǎng)絡(CNN)進行訓練,利用PD 功能,CNN能夠進行語音活動檢測(Voice Activity Detection,VAD),從而大大降低混響與噪聲對DOA 估計的影響[10]。這些智能算法更多地利用了復雜網(wǎng)絡的強大非線性能力與輸入特征信息的冗余來提高DOA 估計的準確率,且對于陣列的尺寸也沒有嚴格的限制。因此,通常特征維度大,網(wǎng)絡結(jié)構(gòu)復雜,計算量大,雖然DOA 效果好,但受限于計算量無法真正在移動端實現(xiàn)。

    基于上述考慮,本文提出一種輕量級Mask-DOA 估計神經(jīng)網(wǎng)絡模型,該方法在DOA 估計神經(jīng)網(wǎng)絡的基礎(chǔ)上引入Mask 算法降低噪聲和混響的干擾,提取增強后的GCC-PHAT 作為網(wǎng)絡特征,從而在小尺寸陣列上實現(xiàn)高精度DOA 估計。該方法不僅對環(huán)境的魯棒性更高,且計算復雜度較低,適合在船舶艙室內(nèi)實用。輕量級Mask-DOA 估計神經(jīng)網(wǎng)絡模型分為3 個步驟,如圖1 所示,分別是Mask 網(wǎng)絡降噪、DOA 特征提取以及DOA 估計網(wǎng)絡。

    圖1 輕量級Mask-DOA 估計神經(jīng)網(wǎng)絡

    1 輕量級Mask-DOA 估計神經(jīng)網(wǎng)絡模型

    1.1 淺層Mask-NN

    理想二值掩蔽(Ideal Binary Mask,IBM)[11-12]可以充分利用語音在時頻域中的稀疏性。對于每一個時頻單元,語音與噪聲能量差異性一般很大,即大部分的時頻單元上信噪比是極大或極小的。IBM 將所有的時頻點分為兩種極端情況,即將連續(xù)的時頻單元信噪比離散化為1 和0 兩種狀態(tài):若該時頻單元信噪比大(語音占主導),則標記為1;若信噪比低(噪聲占主導),則標記為0。如此,計算每一個時頻單元得到Mask 譜。通過式(1)得到降噪信號的時頻域。

    每一個時頻單元上信噪比計算公式為:

    其中,S(t,f)為信號,N(t,f)為噪聲。

    Mask 譜是通過每一個時頻單元的信噪比與所設(shè)置的閾值決定的,公式如下:

    其中,LC 是信噪比判斷閾值,通常情況下取0。

    Mask-NN 降噪部分目標是以IBM 準則來訓練神經(jīng)網(wǎng)絡使得其擁有生成Mask 譜的能力。由于語音具有短時相關(guān)性,通常采用擴幀技術(shù)來使神經(jīng)網(wǎng)絡學習語音幀之間的相關(guān)性,一定程度上也有抑制混響的作用。取陣列接收信號時頻域的第i 幀和前后k 幀作為神經(jīng)網(wǎng)絡的輸入特征,取求到的Mask 譜第i 幀作為訓練目標。由于采用了擴幀處理,最終降噪后信號幀數(shù)會減少2k。若對信號短時傅里葉變換的點數(shù)為NFFT,則Mask-NN 輸入特征大小為(2k+1,NFFT+1),其輸出大小為(1,NFFT+1)。

    TF-Mask 的方法將語音降噪問題轉(zhuǎn)化為每一個時頻點的二分類問題,因此搭建的Mask-NN 實際是一個多目標二分類的模型。神經(jīng)網(wǎng)絡隱藏層的層數(shù)、每層的個數(shù)應該根據(jù)NFFT 值、擴幀的k 值而選擇。隱藏層每一層激活函數(shù)推薦使用ReLU:

    其中,x 是輸入。由于ReLU 計算簡單,收斂速度快,有效避免梯度消失,對于小于0 的值直接清0,大于0 的值直接輸出本身,與IBM 形成Mask 的方法是類似的。

    Mask-NN 的輸出層的神經(jīng)元個數(shù)與空間分類的個數(shù)相同,激活函數(shù)采用sigmoid 函數(shù):

    1.2 GCC-PHAT 特征提取

    廣義互相關(guān)函數(shù)時延估計算法根據(jù)兩個麥克風信號的互相關(guān)函數(shù)峰值來估計時延值。在聲源定位系統(tǒng)中,麥克風陣列的每個陣元接收到的目標信號都來自于同一個聲源。因此,各通道信號之間具有較強的相關(guān)性。理想情況下,通過計算每兩路信號之間的相關(guān)函數(shù),就可以確定兩個麥克風觀測信號之間的時延。

    互相關(guān)函數(shù)可以表示為:

    式中,x1和x2分別是兩個通道接收信號。根據(jù)維納辛欽定理可得:

    其中,φ12(ω)表示頻域加權(quán)函數(shù)。本文采用的是PHAT 加權(quán),其形式如下:

    相位變換加權(quán)函數(shù)實質(zhì)上是一個白化濾波器,使得信號間的互功率譜更加平滑,從而銳化廣義互相關(guān)函數(shù)。經(jīng)過PHAT 加權(quán)的互功率譜近似于單位沖激響應,突出了時延的峰值,能夠有效抑制混響噪聲,提高時延估計的精度和準確度。特別是針對艦船噪聲,通過PHAT加權(quán)的GCC 特征抗噪抗混響能力更強。

    1.3 淺層DOA-NN

    使用神經(jīng)網(wǎng)絡來進行DOA 估計其實就是將空間進行等間隔劃分成N 份,將DOA 估計問題轉(zhuǎn)換成一個N任務的二分類問題。因此,DOA 估計的精度與劃分的空間數(shù)量直接相關(guān),將空間劃分越細,精度越高,但分類的難度也就越大,對DOA 估計的準確性提出了挑戰(zhàn);反之,精度越低,但是DOA 估計的準確率越高。

    由于本文提取的GCC-PHAT 特征在不同入射角度陣列接收信號上體現(xiàn)出較大的差異性,這是使用神經(jīng)網(wǎng)絡模型進行DOA 估計的關(guān)鍵所在。由于前期有Mask 網(wǎng)絡進行降噪處理,以及GCC-PHAT 本身對混響噪聲抑制性,使得利用淺層神經(jīng)網(wǎng)絡實現(xiàn)DOA 估計成為可能,僅需少量的非線性神經(jīng)元即可實現(xiàn)特征到角度的映射關(guān)系。在DOA-NN 網(wǎng)絡結(jié)構(gòu)中推薦使用單隱藏層的全連接神經(jīng)網(wǎng)絡。唯一需要注意的是DOA-NN 的輸出層神經(jīng)元的數(shù)量應該等于空間分割數(shù),輸出層的激活函數(shù)應該使用sigmoid 函數(shù)。

    2 仿真和分析

    2.1 仿真環(huán)境設(shè)置

    本文采用IMAGE 算法對船舶艙室聲學特性進行建模,為了更加真實地模擬船舶艙室,仿真中建立一個空間大小合適的艙室模型,規(guī)格為6.5 m×6.5 m×2.7 m。由于船舶艙室內(nèi)的布局是無法確定的,仿真在同一房間內(nèi)通過調(diào)整墻壁的反射系數(shù)來得到不同混響程度以適配更廣泛多樣的真實多樣的艙室模型。本文設(shè)置了混響時間分別為0.2 s、0.4 s、0.6 s、0.8 s 的4 種不同混響環(huán)境,信噪比分別為10 dB、5 dB、0 dB、-5 dB 的4 種信噪比環(huán)境。

    在仿真中設(shè)置的DOA 估計的精度為5°,因此需要將空間劃分為72 等份。將一個直徑為7 cm 的6 麥均勻圓陣置于房間中間,周圍等間隔72 個角度放置揚聲器,揚聲器到麥克風陣列圓心距離為0~3 m 均勻分布,來模擬不同角度人聲的入射。語音采用THCHS-30 數(shù)據(jù)集,添加的噪聲信號采用實測的艦船各種噪聲,包括船舶沉悶轟鳴聲、船舶發(fā)電機引擎噪聲、船舶鳴喇叭聲。每一種不同混響不同信噪比的船舶艙室中對每一個角度不同距離進行30 次入射實驗。每一個不同混響的船舶艙室內(nèi)樣本數(shù)為8 640 條,最終樣本總數(shù)為34 560 條。

    2.2 仿真設(shè)計與結(jié)果

    基于上文對輕量級Mask-DOA 估計神經(jīng)網(wǎng)絡模型的描述,在仿真中實例化該網(wǎng)絡,網(wǎng)絡結(jié)構(gòu)以及具體流程如圖2 所示。

    圖2 Mask-DOA 具體網(wǎng)絡結(jié)構(gòu)與流程圖

    面對船舶艙室復雜的聲學環(huán)境,本文使用麥克風陣列DOA 估計的常規(guī)波束形成法(CBF)作為基線,主要對比目前主流的MLP 算法[2]。DOA 估計效果用準確率和均方誤差(RMSE)來衡量,公式如式(9)和式(10)所示:

    式中,Lacc為正確的樣本數(shù),Lall為所有樣本數(shù)表示第i 個實驗正確方向,表示第i 個實驗預測方向。表1 是CBF 算法在不同混響等級下多個信噪比的平均結(jié)果。

    表1 CBF 作為基線的船舶艙室內(nèi)DOA 估計效果

    為了對比本文算法與MLP 算法的準確率、均方誤差以及魯棒性,本文采用了相同的數(shù)據(jù)集進行對照實驗。采用單個混響程度船舶艙室的80%進行模型的訓練,剩余20%的數(shù)據(jù)進行該艙室的測試,用其余各個房間所有的數(shù)據(jù)對訓練好的模型進行測試,準確率對比結(jié)果如圖3和圖4 所示,均方誤差的對比結(jié)果如圖5 和圖6 所示。

    圖3 Mask-DOA 訓練模型準確率

    圖4 MLP 訓練模型準確率

    對比圖3 和圖4 以及圖5 和圖6,無論是從準確率還是均方誤差的角度來看,本文提出的Mask-DOA 算法的效果要明顯優(yōu)于MLP 算法,更是遠遠超過基線算法。具體表現(xiàn)在,Mask-DOA 算法訓練的模型無論在環(huán)境是否與訓練集匹配的條件下都有較高的DOA 估計效果,即模型的泛化能力強。而MLP 算法在環(huán)境匹配的條件下可以達到較高的準確率,但是一旦環(huán)境失配,其準確率下降明顯,模型泛化能力較差,抗混響能力較差。

    圖5 Mask-DOA 訓練模型均方誤差

    圖6 MLP 訓練模型均方誤差

    3 實驗和分析

    3.1 實驗環(huán)境設(shè)置

    實驗場地選擇某公司的可調(diào)混響室作為艦船模擬的場景,其混響室尺寸為6.5 m×5.7 m×2.7 m,其混響可調(diào)范圍為0.2~0.6 s。將一個直徑為7 cm 的六麥圓形陣列放置在旋轉(zhuǎn)臺上,將一個揚聲器與麥陣等高放置,播放THCHS-30 語音,將其他多個揚聲器放置在房間的任意位置并播放艦船噪聲來模擬船舶環(huán)境。通過不斷地調(diào)節(jié)室內(nèi)的混響環(huán)境,每一個方向不同距離進行10 次,對72 個方向進行實驗。

    3.2 實驗結(jié)果與分析

    挑選0.2 s 混響調(diào)節(jié)下采集到的數(shù)據(jù)作為訓練集,對0.4 s 采集到的數(shù)據(jù)進行測試。分別采用所提Mask-DOA 方法和MLP 算法與CBF 算法進行對比實驗,結(jié)果如表2 所示。通過表2 中3 種算法的對比,傳統(tǒng)的CBF算法在小信噪比、混響復雜的情況下效果非常差,因此在真實的船舶艙室調(diào)節(jié)下效果只會更差。Mask-DOA算法的效果要優(yōu)于MLP 算法,體現(xiàn)出其較強的泛化能力,比較適用于低信噪比、聲學特性復雜的艦船艙室場景。

    表2 3 種算法實驗結(jié)果對比

    4 結(jié)論

    面向船載遠程會議系統(tǒng)語音前端需求,本文提出一種適用于船舶艙室環(huán)境的小陣列高精度DOA 估計算法,該方法在DOA 估計神經(jīng)網(wǎng)絡的基礎(chǔ)上引入Mask 算法降低噪聲和混響干擾,從而用較為純凈的語音信號提高DOA估計性能。在直徑為7 cm 的六元圓陣上進行的仿真與實驗表明,DOA 估計精度達到5°,且算法模型有著較強的泛化能力,證明了本文算法在船舶艙室內(nèi)使用的有效性。

    同時,需要指出:本文采用深度學習方式構(gòu)建了信號預處理與DOA 估計模型系統(tǒng),雖通過模擬艙室環(huán)境實驗驗證了性能改善,但是考慮到深度學習類算法的效果與魯棒性受到數(shù)據(jù)集大小與數(shù)據(jù)類型適配的影響,算法的評估驗證尚不夠充分。特別是,由于船舶艙室屬于帶行業(yè)背景的特殊類型場景,噪聲及混響特性復雜、差異性大,無法直接利用通用語音領(lǐng)域的豐富開源數(shù)據(jù)集、混響特性資源,本文方法訓練出的模型不可避免存在數(shù)據(jù)失配條件下性能下降的不足。

    因此,面向智能船舶、智慧海洋發(fā)展的大趨勢,下一步計劃結(jié)合實際場景下多樣化的船舶艙室特性、背景噪聲進一步開展所提方法的性能評估、驗證。

    猜你喜歡
    混響艙室信噪比
    板式混響在錄音鼓組中產(chǎn)生的作用
    三角洲(2024年15期)2024-12-31 00:00:00
    船舶艙室通風控制策略研究
    基于深度學習的無人機數(shù)據(jù)鏈信噪比估計算法
    海洋混響特性分析與建模仿真研究?
    低信噪比下LFMCW信號調(diào)頻參數(shù)估計
    電子測試(2018年11期)2018-06-26 05:56:02
    低信噪比下基于Hough變換的前視陣列SAR稀疏三維成像
    雷達學報(2017年3期)2018-01-19 02:01:27
    用于室內(nèi)環(huán)境說話人識別的混響補償方法
    保持信噪比的相位分解反褶積方法研究
    艦載導彈意外點火時艙室內(nèi)噴灑抑制的影響研究
    魚雷淺海海底混響建模與仿真
    盱眙县| 昭通市| 洛川县| 大宁县| 湖州市| 湖口县| 金溪县| 益阳市| 克山县| 祥云县| 政和县| 扶风县| 泰兴市| 米林县| 卢龙县| 娱乐| 齐河县| 泰安市| 甘孜县| 南陵县| 获嘉县| 峨山| 友谊县| 孝义市| 九江县| 克什克腾旗| 临潭县| 宜宾县| 延长县| 曲阜市| 喀喇沁旗| 勃利县| 托里县| 嘉兴市| 贡觉县| 饶平县| 长沙县| 建始县| 迁安市| 巩留县| 民勤县|