摘要:水聲目標(biāo)識(shí)別在國(guó)防和海洋環(huán)境監(jiān)測(cè)等領(lǐng)域具有重要應(yīng)用。然而,傳統(tǒng)的時(shí)頻域特征提取方法由于信息損失和環(huán)境適應(yīng)性不足,限制了識(shí)別性能的提升。為克服這些局限性,文章提出了一種基于一維卷積神經(jīng)網(wǎng)絡(luò)(One-dimensional Convolutional Neural Network,1D CNN)與長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-term Memory Network,LSTM)相結(jié)合的端到端水聲目標(biāo)識(shí)別模型(One-dimensional Long Short-term Memory,1DLSTM)。該模型直接以原始時(shí)域信號(hào)為輸入,利用1D CNN提取局部特征,通過(guò)LSTM捕捉長(zhǎng)程依賴關(guān)系,有效保留了信號(hào)的全局信息。在ShipsEar數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該模型的識(shí)別準(zhǔn)確率高達(dá)93.91%,為水聲目標(biāo)端到端識(shí)別領(lǐng)域提供了一種新思路。
關(guān)鍵詞:深度學(xué)習(xí);水聲目標(biāo)識(shí)別;端到端
中圖分類號(hào):TB566;TP183""文獻(xiàn)標(biāo)志碼:A
0"引言
水聲目標(biāo)識(shí)別作為水下探測(cè)技術(shù)的核心,在國(guó)防、海洋環(huán)境監(jiān)測(cè)、水下資源勘探和導(dǎo)航等領(lǐng)域具有重要應(yīng)用價(jià)值。然而,水下環(huán)境的復(fù)雜性給水聲目標(biāo)識(shí)別帶來(lái)了巨大挑戰(zhàn)。多徑效應(yīng)、海洋環(huán)境噪聲、水溫變化引起的聲速剖面變化等因素都會(huì)嚴(yán)重影響聲波傳播,導(dǎo)致接收信號(hào)的失真和干擾。
傳統(tǒng)的水聲目標(biāo)識(shí)別方法通過(guò)先提取可區(qū)分的特征,然后通過(guò)分類器或模板匹配來(lái)進(jìn)行目標(biāo)識(shí)別。這些方法包括基于頻譜分析的方法(如短時(shí)傅里葉變換、小波變換)、基于統(tǒng)計(jì)特征的方法(如梅爾頻率倒譜系數(shù)MFCC)等[1-2]。然而,這些方法往往依賴于人工設(shè)計(jì)的特征,難以適應(yīng)復(fù)雜多變的水下環(huán)境,導(dǎo)致識(shí)別性能不穩(wěn)定。
近年來(lái),深度學(xué)習(xí)技術(shù)在水聲目標(biāo)識(shí)別領(lǐng)域取得了顯著進(jìn)展?;诰矸e神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的方法,如Cao等[3]提出的多尺度CNN模型,通過(guò)學(xué)習(xí)聲吶信號(hào)的頻譜特征提高了識(shí)別性能。張旺等[4]提出的結(jié)合注意力機(jī)制的殘差網(wǎng)絡(luò)(Residual Network,ResNet)進(jìn)一步增強(qiáng)了模型對(duì)關(guān)鍵特征的感知能力。然而,這些方法大多依賴于時(shí)頻域表征,如頻譜圖或梅爾頻譜圖等[5-6],這些表征受限于固定的分辨率參數(shù),可能導(dǎo)致原始波形中細(xì)微信息的丟失,從而限制了識(shí)別率的進(jìn)一步提升。
相比之下,直接利用時(shí)域信號(hào)進(jìn)行端到端識(shí)別能夠保留全面的信息,減少人為偏差,簡(jiǎn)化處理流程。因此,該研究提出了一種新型的端到端水聲目標(biāo)識(shí)別模型(1DLSTM),該模型直接使用原始波形作為輸入,結(jié)合了一維卷積神經(jīng)網(wǎng)絡(luò)的局部特征提取能力與長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的長(zhǎng)程依賴建模能力,以全面捕捉水聲信號(hào)的特征和全局結(jié)構(gòu)。
1"相關(guān)原理和所提方法
1.1"一維卷積神經(jīng)網(wǎng)絡(luò)
經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)通常使用二維卷積來(lái)處理圖像數(shù)據(jù),通過(guò)二維卷積能夠有效地捕捉圖像的空間特征。然而,當(dāng)處理時(shí)序數(shù)據(jù)時(shí),一維卷積更為合適。一維卷積操作能夠有效地從時(shí)序數(shù)據(jù)中提取局部特征,這對(duì)于識(shí)別序列中的短期和長(zhǎng)期依賴特征至關(guān)重要。此外,與二維卷積的矩陣卷積運(yùn)算相比,一維卷積具有較低的計(jì)算復(fù)雜度和較少的模型參數(shù)。
一維卷積本質(zhì)是通過(guò)一個(gè)或多個(gè)一維卷積核沿著時(shí)間軸滑動(dòng),對(duì)輸入信號(hào)進(jìn)行局部特征提取。一維卷積操作可以表示為:
X(l)j=f(∑Mi=1ω(l)ij*X(l-1)i+b(l)j)(1)
其中,Xl-1i表示第l-1層輸入特征圖,*表示一維卷積運(yùn)算,f(·)為激活函數(shù),ω(l)ij和b(l)j分別表示一維卷積核中的權(quán)值和參數(shù)偏置。
1.2"長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)
長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)是一種專門為解決傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)在處理長(zhǎng)序列數(shù)據(jù)時(shí)遇到的梯度消失和梯度爆炸問(wèn)題而設(shè)計(jì)的特殊網(wǎng)絡(luò)結(jié)構(gòu)。LSTM的核心在于其獨(dú)特的記憶單元結(jié)構(gòu)。每個(gè)LSTM單元包含3個(gè)關(guān)鍵的門控機(jī)制:輸入門、遺忘門和輸出門。這些門控機(jī)制通過(guò)控制信息的流動(dòng),選擇性地保留或丟棄信息,從而解決了傳統(tǒng)RNN在處理長(zhǎng)時(shí)間依賴時(shí)無(wú)法有效記憶的重要信息的問(wèn)題。
遺忘門通過(guò)一個(gè)sigmoid函數(shù)計(jì)算輸入值的權(quán)重,將其壓縮至0到1之間的范圍,從而通過(guò)權(quán)重控制哪些信息需要被遺忘。其計(jì)算公式如下:
ft=σ(Wf·[ht-1,xt]+bf)(2)
其中,ft是遺忘門的輸出,Wf是權(quán)重矩陣,ht-1是前一個(gè)時(shí)間步的隱狀態(tài),xt是當(dāng)前時(shí)間步的輸入,bf是偏置,σ是sigmoid激活函數(shù)。
輸入門決定哪些新的信息將被加入記憶單元中。輸入門包含2個(gè)步驟:首先,使用一個(gè)sigmoid函數(shù)選擇哪些值將被更新。其次,使用tanh函數(shù)生成新的候選值,決定哪些信息將更新到記憶單元中。計(jì)算公式如下:
it=σ(Wi·[ht-1,xt]+bi)(3)
Ct=tanh(WC·[ht-1,xt]+bC)(4)
其中,it是輸入門輸入,Ct是新的候選記憶單元狀態(tài)。
輸出門決定記憶單元的哪些部分將輸出,影響下一個(gè)時(shí)間步的隱狀態(tài)。輸出門同樣通過(guò)sigmoid函數(shù)控制信息流動(dòng),通過(guò)tanh函數(shù)將記憶單元狀態(tài)轉(zhuǎn)化為輸出隱狀態(tài)。公式如下:
ot=σ(Wo·[ht-1,xt]+bo)(5)
ht=ot·tanh(Ct)(6)
其中,ot是輸出門的輸出,ht是當(dāng)前時(shí)間步的隱狀態(tài)。
LSTM單元的最終更新公式如下:
Ct=ft·Ct-1+it·Ct(7)
其中,Ct是當(dāng)前時(shí)間步的記憶單元狀態(tài),Ct-1是前一個(gè)時(shí)間步的記憶單元狀態(tài)。
1.3"提出的1DLSTM模型
1DLSTM模型的核心思想是在深度學(xué)習(xí)的架構(gòu)下,構(gòu)建一個(gè)端到端的模型,直接以原始波形作為輸入,通過(guò)多層次的特征提取和序列建模,最終實(shí)現(xiàn)高精度的水聲目標(biāo)識(shí)別。為了達(dá)到這一目標(biāo),網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,具體參數(shù)如表1所列。首先,輸入層直接接收原始的時(shí)域信號(hào),保留了所有的原始信息,避免了在傳統(tǒng)預(yù)處理過(guò)程中可能導(dǎo)致的信息損失。在一維卷積層部分,網(wǎng)絡(luò)采用了3層1D CNN結(jié)構(gòu),每層卷積層后都緊接著一個(gè)最大池化層。這種設(shè)計(jì)允許網(wǎng)絡(luò)逐層提取更高級(jí)的特征,其中第一層使用32個(gè)濾波器捕捉基本的時(shí)域特征,第二層使用64個(gè)濾波器以提取更復(fù)雜的模式,而第三層則使用128個(gè)濾波器進(jìn)一步提取抽象特征。整個(gè)卷積過(guò)程中卷積核的大小設(shè)置為5。
卷積層輸出的結(jié)果在進(jìn)入LSTM層之前,首先經(jīng)過(guò)重塑層的處理,將其重塑為適合LSTM處理的序列形式,從而保持特征的時(shí)間順序。接著,模型采用雙層LSTM結(jié)構(gòu),每層包含128個(gè)隱藏單元。這種設(shè)計(jì)能夠有效建模信號(hào)中的長(zhǎng)期時(shí)間依賴關(guān)系,捕捉水聲信號(hào)的全局結(jié)構(gòu)特征。此外,還通過(guò)引入dropout機(jī)制來(lái)防止過(guò)擬合的發(fā)生。最后,模型通過(guò)全連接層(Multilayer Perceptron,MLP)作為分類器,將LSTM的輸出映射到目標(biāo)類別的概率分布上,從而實(shí)現(xiàn)高精度的分類結(jié)果。
2"實(shí)驗(yàn)
2.1"實(shí)驗(yàn)數(shù)據(jù)和評(píng)估指標(biāo)
實(shí)驗(yàn)采用ShipsEar數(shù)據(jù)集作為水聲目標(biāo)信號(hào)源。根據(jù)原始數(shù)據(jù)集的標(biāo)注,目標(biāo)類別劃分為A、B、C、D和E 5個(gè)類別(4類船舶和1類背景噪聲)。為了擴(kuò)充原始數(shù)據(jù),實(shí)驗(yàn)將信號(hào)按1 s長(zhǎng)度進(jìn)行等間隔分割,最終獲得9600個(gè)獨(dú)立樣本。為確保模型的魯棒性和泛化能力,采用分層隨機(jī)抽樣方法,按8∶1∶1的比例將數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
分類結(jié)果的評(píng)估中,采用識(shí)別準(zhǔn)確率、召回率、精確率和F1-score來(lái)全面衡量網(wǎng)絡(luò)的識(shí)別性能。每個(gè)指標(biāo)的計(jì)算公式如下:
Accuracy=TP+TNTP+TN+FP+FN(8)
Precision=TPTP+FP(9)
Recall=TPTP+FN(10)
F1-score=2×Precision×RecallPrecision+Recall(11)
其中,TP、TN、FP、FN分別為真陽(yáng)性、真陰性、假陽(yáng)性和假陰性。
2.2"實(shí)驗(yàn)結(jié)果
圖2展示了1DLSTM模型在訓(xùn)練過(guò)程中訓(xùn)練集和驗(yàn)證集的損失曲線和準(zhǔn)確率變化曲線。從圖6中可以觀察到,模型的學(xué)習(xí)過(guò)程呈現(xiàn)出典型的收斂特征。在完成訓(xùn)練后,實(shí)驗(yàn)中使用獨(dú)立的測(cè)試集對(duì)模型進(jìn)行了最終評(píng)估。1DLSTM模型在測(cè)試集上達(dá)到了93.91%的總體準(zhǔn)確率,這一結(jié)果驗(yàn)證了模型的優(yōu)秀泛化能力。
為了更深入地分析模型的識(shí)別性能,實(shí)驗(yàn)中進(jìn)一步計(jì)算了測(cè)試集上模型的精確率、召回率和F1-score,其值分別為93.88%,93.93%和93.89%。結(jié)果表明,1DLSTM模型在評(píng)價(jià)指標(biāo)上均表現(xiàn)出較高的識(shí)別準(zhǔn)確率。
此外,圖3所示的混淆矩陣進(jìn)一步驗(yàn)證了模型在不同類別上的識(shí)別效果?;煜仃囷@示,1DLSTM模型在各類別的識(shí)別中均具有較高的準(zhǔn)確性,只有極少數(shù)的混淆錯(cuò)誤發(fā)生在船舶類之間。這表明,1DLSTM模型不僅能夠有效區(qū)分不同種類的船舶,還能夠較好地分辨背景噪聲,展現(xiàn)了其在多類別水聲目標(biāo)識(shí)別任務(wù)中的廣泛適用性。
3"結(jié)語(yǔ)
文章提出了一種新型的端到端水聲目標(biāo)識(shí)別模型(1DLSTM),成功融合了一維卷積神經(jīng)網(wǎng)絡(luò)與長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的優(yōu)勢(shì),實(shí)現(xiàn)了對(duì)原始時(shí)域信號(hào)的高效處理與識(shí)別。與傳統(tǒng)基于時(shí)頻域特征提取的方法相比,該模型具有明顯優(yōu)勢(shì),能夠直接利用原始信號(hào),避免了特征工程中的信息損失風(fēng)險(xiǎn)。通過(guò)1D CNN與LSTM的協(xié)同作用,模型不僅能夠提取局部時(shí)間特征,還能有效捕捉信號(hào)的全局結(jié)構(gòu)特征。實(shí)驗(yàn)結(jié)果表明,1DLSTM模型在ShipsEar數(shù)據(jù)集上達(dá)到了93.91%的識(shí)別準(zhǔn)確率,表現(xiàn)出優(yōu)異的泛化能力與魯棒性。在多個(gè)評(píng)估指標(biāo)(包括精確率、召回率和F1-score)上,該模型均表現(xiàn)出卓越的性能,尤其在復(fù)雜的水聲環(huán)境中,1DLSTM能夠有效區(qū)分目標(biāo)類別。
未來(lái)的研究可以進(jìn)一步優(yōu)化1DLSTM模型的結(jié)構(gòu)和參數(shù),以適應(yīng)更為復(fù)雜的水下環(huán)境,同時(shí)探索該模型在其他領(lǐng)域如水下通信和海洋資源探測(cè)中的應(yīng)""用潛力。
參考文獻(xiàn)
[1]李昊鑫,肖長(zhǎng)詩(shī),元海文,等.特征降維與融合的水聲目標(biāo)識(shí)別方法[J].哈爾濱工程大學(xué)學(xué)報(bào),2025(1):1-9.
[2]葛軼洲,姚澤,張歆,等.水聲目標(biāo)的MFCC特征提取與分類識(shí)別[J].計(jì)算機(jī)仿真,2024(2):13-16.
[3]CAO X,ZHANG X M,YU Y,et al.Proceedings of the IEEE International Conference on Digital Signal Processing,October 16-18,2016[C].Beijing:Piscataway,2016.
[4]張旺,楊乘,羅婭婭.融合注意力機(jī)制的ResNeXt語(yǔ)音欺騙檢測(cè)模型[J].計(jì)算機(jī)應(yīng)用與軟件,2024(8):298-302.
[5]雷禹,冷祥光,周曉艷,等.基于改進(jìn)ResNet網(wǎng)絡(luò)的復(fù)數(shù)SAR圖像艦船目標(biāo)識(shí)別方法[J].系統(tǒng)工程與電子技術(shù),2022(12):3652-3660.
[6]任晨曦.基于聯(lián)合神經(jīng)網(wǎng)絡(luò)的水聲目標(biāo)識(shí)別技術(shù)研究[D].太原:中北大學(xué),2022.
(編輯"王永超)
End-to-end acoustic target recognition based on 1D convolutional and LSTM networks
YANG "Kang1,2
(1.Zhenjiang College of Technology, Zhenjiang 212003, China;
2.Jiangsu University of Science and Technology, Zhenjiang 212003, China)
Abstract: "Acoustic target recognition plays a crucial role in defense and marine environment monitoring. However, traditional time-frequency domain feature extraction methods often suffer from information loss and inadequate adaptability to varying environments, limiting their recognition performance. To address these limitations, this paper presents an end-to-end acoustic target recognition model (1DLSTM) that combines a one-dimensional convolutional neural network (1D CNN) with a long short-term memory network (LSTM).This model directly processes raw time-domain signals, using the 1D CNN to extract local features and the LSTM to capture long-term dependencies, thereby effectively preserving the global information of the signal. Experimental results on the ShipsEar dataset demonstrate that this model achieves a recognition accuracy of 93.91%, offering a novel approach to end-to-end acoustic target recognition.
Key words: deep learning; acoustic target recognition; end-to-end