逄 巖 許 楓 劉 佳
(1 中國科學(xué)院聲學(xué)研究所 北京 100190)
(2 中國科學(xué)院大學(xué) 北京 100049)
利用采樣工具進行站點式取樣底質(zhì)數(shù)據(jù)完成海底底質(zhì)的探測與分類雖然準確直觀,卻存在著效率低以及不適合大規(guī)模調(diào)查等缺點[1]。底質(zhì)數(shù)據(jù)的獲取是完成底質(zhì)分類的基礎(chǔ),通過側(cè)掃聲吶獲取底質(zhì)數(shù)據(jù)具有操作簡單、覆蓋面積廣以及分辨率高等優(yōu)點。目前利用側(cè)掃聲吶獲取底質(zhì)數(shù)據(jù)進行底質(zhì)分類主要有兩種研究思路:一是提取海底底質(zhì)的側(cè)掃聲吶圖像紋理等特征完成底質(zhì)分類[2?3];二是校正獲取的側(cè)掃聲吶數(shù)據(jù)得到只與底質(zhì)類型有關(guān)的散射強度數(shù)據(jù),提取有效分類特征實現(xiàn)底質(zhì)分類[4?5]。
模擬耳蝸聽覺模型的Gammatone 濾波器組(Gammatone filter banks,GFB)具有較高語聲識別準確率和抗噪能力,能夠有效分析非平穩(wěn)信號,描述信號的瞬間變化[6?7]。由于底質(zhì)存在凹凸不平等非均勻性特征,聲波會在底質(zhì)表面發(fā)生隨機散射,從而導(dǎo)致底質(zhì)反向散射的聲波信號具有非平穩(wěn)性以及瞬變特性,因此Gammatone 濾波器組可以用于分析底質(zhì)反向散射信號。近年來,以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN)為主的深度學(xué)習(xí)方法在目標檢測[8]、人臉識別[9]以及文本分類[10]等領(lǐng)域得到廣泛應(yīng)用,將CNN 方法應(yīng)用到海底底質(zhì)分類逐步成為一種研究趨勢。Berthold等[11]通過GoogLeNet 對礫石、泥、沙和混合底質(zhì)4 種底質(zhì)進行初步分類;Luo 等[12]利用深層和淺層CNN 模型對石、泥和沙3 種底質(zhì)進行分類比較,在取得優(yōu)秀的分類表現(xiàn)的同時發(fā)現(xiàn)淺層CNN 模型的分類性能優(yōu)于深層CNN 模型。上述研究驗證了CNN 方法在底質(zhì)分類中的可行性以及有效性,為CNN方法在底質(zhì)分類中的深入研究奠定了基礎(chǔ)。
本文將CNN 方法與底質(zhì)信號分析相結(jié)合,利用構(gòu)造的CNN 模型學(xué)習(xí)Gammatone 濾波器組分析計算的底質(zhì)信號時頻譜進行底質(zhì)的分類識別,最終取得良好的分類效果。
Gammatone濾波器(Gammatone filter,GTF)是一種近似于Revcor函數(shù)的解析數(shù)學(xué)函數(shù),在保留完整的幅度信息的同時還兼?zhèn)渫暾南辔恍畔13]。
Gammatone 濾波器組[14]最早用于描述聽覺系統(tǒng)脈沖響應(yīng),是一個標準的耳蝸聽覺線性濾波器組,其時域表達式為
其中,c為濾波器增益,m為濾波器階數(shù),fi為第i個濾波器的中心頻率;?i為第i個濾波器的初始相位,由于初始相位對聽覺系統(tǒng)影響較小,同時為簡化濾波器組模型,所有?i取為0;N為Gammatone 濾波器的個數(shù);bi為第i個濾波器的衰減因子,與對應(yīng)濾波器等效矩形帶寬ERB(fi)有關(guān),同時決定脈沖響應(yīng)的衰減速度,其中,bi= 1.019ERB(fi),ERB(fi)如式(2)所示:
各個濾波器的中心頻率在ERB 域上等間隔分布。濾波器個數(shù)為64,中心頻率范圍為50~128 Hz 時Gammatone 濾波器組的幅頻響應(yīng)如圖1(a)所示,不同通道數(shù)時各通道中心頻率在ERB 域的變化如圖1(b)所示,不同中心頻率時Gammatone 濾波器時域波形如圖1(c)所示。
圖1 GFB 不同通道數(shù)和中心頻率時的波形變化Fig.1 GFB waveforms in different channel numbers and center frequencies
時頻分析是將信號時域和頻域相結(jié)合分析信號的時頻聯(lián)合特征,克服只能在時域或頻域分析信號的缺點。傳統(tǒng)的時頻分析方法包含短時傅里葉變換(Short time Fourier transform,STFT)、小波變換以及Wigner-Ville 分布等。但STFT 的分析結(jié)果易受窗函數(shù)的影響,同時窗口大小的設(shè)置難以確定;小波變換存在小波基選擇的難點;Wigner-Ville 分布雖然具有良好的時頻聚焦特性,但同時容易產(chǎn)生交叉項的干擾[15?16]。由于底質(zhì)信號的非平穩(wěn)性和瞬變特性以及GFB 在分析上述特性具有顯著優(yōu)勢,同時GFB很好地模擬了耳蝸基底膜,兼具良好的頻率選擇特性和頻譜分析特性,能夠?qū)Φ踪|(zhì)信號低頻部分保持較高頻率分辨率,同時對底質(zhì)信號高頻部分信號保持較高的時間分辨率。因此利用GFB 在能夠?qū)Φ踪|(zhì)信號實現(xiàn)更為精細化時頻分析的同時,在分析過程中也避免產(chǎn)生交叉項的干擾。
由圖2所示,本文設(shè)計的底質(zhì)信號GFB 時頻譜計算步驟如下:
圖2 GFB 時頻譜計算流程Fig.2 GFB time-frequency spectrum calculation processs
(1)利用GFB 對原始底質(zhì)信號進行濾波后得到一組數(shù)目與GFB通道數(shù)目相同的子帶信號;
(2)取長度為M的窗口在每一條子帶信號上以步長為K(K (3)對步驟(2)中計算所得到的所有子帶信號能量集E進行對數(shù)運算,得到原始底質(zhì)信號的GFB時頻譜。 CNN[17]是一種主要包含卷積層(含激勵操作)、池化層和全連接層的深度學(xué)習(xí)結(jié)構(gòu),通過卷積、激活和池化操作自動學(xué)習(xí)提取圖像特征后利用全連接層輸出分類結(jié)果達到最終的分類目的。 卷積層主要是由若干個卷積核組成,通過卷積操作能夠提取輸入信息的不同層次特征,隨著卷積層深度的增加,CNN 越注重提取更深層次的特征,最后卷積結(jié)果通過激勵層得到特征圖。所有卷積層通過BP 算法進行權(quán)重更新進而實現(xiàn)整個CNN 模型的優(yōu)化,卷積層操作表達式如下: 其中,xln為卷積層l第n個通道的輸出,Pn為卷積層l的輸入特征圖集(卷積層l?1的輸出特征圖集),為第l ?1 卷積層的輸出特征圖,為卷積核權(quán)重矩陣,bln為偏置。f(·)為激勵函數(shù),本質(zhì)上是對卷積層輸出進行一次非線性映射[18],增加整個CNN 模型的非線性特性,常用的激勵函數(shù)有ReLU函數(shù)、sigmoid 函數(shù)、tanh 函數(shù)以及softplus 函數(shù),4種激勵函數(shù)圖像如圖3所示。 圖3 4 種激勵函數(shù)Fig.3 Four kinds of activation function 相對于利用分類器分類人工提取的底質(zhì)分類特征實現(xiàn)底質(zhì)的分類,CNN方法將底質(zhì)數(shù)據(jù)特征提取與分類兩個過程融為整體,利用自身網(wǎng)絡(luò)結(jié)構(gòu)中的多個卷積核自下而上、由淺入深提取學(xué)習(xí)底質(zhì)數(shù)據(jù)的特征,獨立得到底質(zhì)數(shù)據(jù)全面綜合的特征信息后利用全連接層完成底質(zhì)分類。在解決人工選取有效分類特征難點的同時通過自身模型的訓(xùn)練優(yōu)化自動得到最有效的分類特征,進而達到底質(zhì)識別分類的目的。 LeNet-5[19]卷積神經(jīng)網(wǎng)絡(luò)是Yann LeCun 于1998年提出用于手寫體數(shù)字識別的CNN,其網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。該CNN 模型包含2 個卷積層、2 個池化層、2 個全連接層以及1 個softmax 輸出層,通過卷積、參數(shù)共享以及池化等操作對手寫體數(shù)字取得了優(yōu)秀的識別率。 圖4 LeNet-5 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖[19]Fig.4 The schematic diagram of LeNet-5 CNN[19] 在本文中,以LeNet-5卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),構(gòu)造包含2 個卷積層、2 個池化層和3 個全連接層共7層網(wǎng)絡(luò)層的CNN 模型。第一個卷積層的卷積核數(shù)量為6,核大小設(shè)置為5×5,進行卷積操作時的步長為1;第二個卷積層的卷積核數(shù)量增加到20,同時核大小減小為2×2,但卷積操作的卷積步長仍然保持不變?yōu)?。同時在2 個卷積層各帶有1 個池化層,池化核的大小均為2×2,統(tǒng)一設(shè)置池化步長為2,同時2 個池化層的池化方式均采用最大采樣。最后的3 個全連接層將輸入特征進行特征映射實現(xiàn)最后的底質(zhì)分類目的。最終的CNN模型結(jié)構(gòu)如表1所示。 表1 本文所采用的CNN 模型結(jié)構(gòu)Table 1 The CNN model structure used in this paper 在本次實驗中,采用了美國加州州立大學(xué)海底測繪實驗室(SFML)在加利福尼亞州Scott Creek近海所采集的側(cè)掃聲吶圖像數(shù)據(jù),采集記錄底質(zhì)類型主要為沙、石和泥。由于底質(zhì)的側(cè)掃聲吶圖像在成圖前已經(jīng)經(jīng)過系統(tǒng)誤差校正以及Lambert 校正,因此可以從圖像中提取一維數(shù)據(jù)作為底質(zhì)信號。從沙、石和泥3 種底質(zhì)圖像中分別提取300 條長度為256點的一維數(shù)據(jù)作為底質(zhì)信號數(shù)據(jù),3組底質(zhì)數(shù)據(jù)中各隨機抽取250 條數(shù)據(jù)作為訓(xùn)練樣本,剩余數(shù)據(jù)作為測試樣本,訓(xùn)練樣本與測試樣本的比例為5:1。 由于實驗數(shù)據(jù)是從底質(zhì)圖像中提取,假設(shè)每段數(shù)據(jù)是在1 s 的時間內(nèi)采集,數(shù)據(jù)采樣率為256 Hz,最終前文所述的Gammatone 濾波器參數(shù)中增益c設(shè)為1,階數(shù)m設(shè)為4,濾波器個數(shù)設(shè)為64,中心頻率范圍為50~128 Hz。同時根據(jù)GFB 實際輸入數(shù)據(jù)長度將M設(shè)為6,K設(shè)為2。沙、石和泥經(jīng)過GFB時頻分析得到的時頻譜(大小為64×84)如圖5所示,其中圖5(a)、圖5(b)、圖5(c)分別為沙、石和泥信號GFB時頻譜。 圖5 沙、石和泥的GFB 時頻譜Fig.5 The GFB time-frequency sperctrum of sand,rock and mud 在本文中,樣本訓(xùn)練采用批次訓(xùn)練,批次大小為50,每當全部數(shù)據(jù)訓(xùn)練30 次后,學(xué)習(xí)率會以0.1倍數(shù)下降,損失函數(shù)采用交叉熵損失函數(shù)(Crossentropy error function),具體實驗流程如圖6所示。 圖6 實驗流程Fig.6 Experiment process 為了充分驗證利用構(gòu)建的CNN 模型分類底質(zhì)圖像信號GFB 時頻譜所達到的底質(zhì)分類效果,在實驗中分別利用隨機梯度下降(Stochastic gradient descent,SGD)優(yōu)化器和Adam優(yōu)化器對CNN 模型進行優(yōu)化,同時對分類結(jié)果進行比較分析。此外,通過設(shè)置初始學(xué)習(xí)率為0.01 和0.001 驗證上述優(yōu)化器在不同學(xué)習(xí)率條件下的學(xué)習(xí)和分類能力。兩種優(yōu)化器在不同初始學(xué)習(xí)率下訓(xùn)練損失與測試準確率變化過程和測試準確率隨訓(xùn)練次數(shù)變化結(jié)果分別如圖7和圖8所示。 圖7 兩種優(yōu)化器不同初始學(xué)習(xí)率下訓(xùn)練損失與測試準確率對比Fig.7 Comparison of training loss and test accuracy of two optimizers with different initial learning rates 圖8 兩種優(yōu)化器不同初始學(xué)習(xí)率在不同訓(xùn)練次數(shù)時的測試準確率Fig.8 The accuracy of the two optimizers with different initial learning rates at different training times 通過實驗結(jié)果可知,采用Adam優(yōu)化器,初始學(xué)習(xí)率為0.01 時,訓(xùn)練損失和測試準確率雖然在訓(xùn)練過程中發(fā)生明顯起伏,但在訓(xùn)練樣本訓(xùn)練10次以后達到收斂;初始學(xué)習(xí)率為0.001 時,訓(xùn)練損失和測試準確率在全部樣本訓(xùn)練10次后同樣達到收斂,同時二者變化相對理想平穩(wěn);兩種初始學(xué)習(xí)率條件下的測試準確率最終逐步穩(wěn)定在99%左右。采用SGD優(yōu)化器,初始學(xué)習(xí)率0.01 時,訓(xùn)練損失和測試準確率變化情況與Adam 優(yōu)化器時的變化情況類似;而初始學(xué)習(xí)率為0.001 時,訓(xùn)練損失和測試準確率收斂速度相對較慢,但在訓(xùn)練過程中訓(xùn)練損失和測試準確率變化平穩(wěn),兩種初始學(xué)習(xí)率條件下的測試準確率最終也逐步穩(wěn)定在99%左右??傮w而言,本文提出的方法取得了較高的分類準確率,整體分類結(jié)果如表2所示。 表2 本文方法在不同初始學(xué)習(xí)率下的分類結(jié)果Table 2 Classification results of this method under different initial learning rates 為了驗證本文方法有效性,選取底質(zhì)信號分類領(lǐng)域一些較為常見的方法進行比較,進行分類準確率對比。本文所采用方法的平均分類準確率達到99.15%,均高于其他方法(表3)。 表3 本文方法與其他方法比較Table 3 Comparison of the method in this paper with other methods 相同底質(zhì)的信號時頻分析結(jié)果在局部細節(jié)和全局分布上具有較大的相似性,同時通過底質(zhì)時頻分析數(shù)據(jù)訓(xùn)練后的CNN 模型獲得了對數(shù)據(jù)局部細節(jié)和全局分布關(guān)注力度不同的卷積權(quán)重。當CNN模型對訓(xùn)練集和測試集以外的數(shù)據(jù)進行分類識別時,會利用卷積權(quán)重著重聚焦新輸入數(shù)據(jù)的區(qū)域重點和全局趨勢,利用新輸入數(shù)據(jù)提取的綜合特征信息完成分類,因此本文方法會具有一定的泛化能力。為了驗證本文所提出方法的泛化能力,利用青島某海域和三亞某海域采集到的底質(zhì)側(cè)掃聲吶圖像數(shù)據(jù)。其中,青島底質(zhì)主要為泥,三亞底質(zhì)主要為沙,分別從底質(zhì)圖像中各提取1000 段長度為256 點的數(shù)據(jù)進行測試,最終的測試結(jié)果如表4所示。 表4 本文方法泛化能力驗證結(jié)果Table 4 Test results of generalization ability of this method 表4實驗結(jié)果表明,本文方法對于泥底質(zhì)已經(jīng)取得優(yōu)異的分類效果,能夠達到分類目的;而對于沙底質(zhì)和石底質(zhì),由于該兩種底質(zhì)在物理特性上具有較大的相似性,分類效果并不是很理想。針對這一問題,可以增加CNN模型層數(shù),進一步提高CNN模型對底質(zhì)數(shù)據(jù)更深層次特征的學(xué)習(xí)能力,或者在訓(xùn)練數(shù)據(jù)增加其他地方的沙底質(zhì)和石底質(zhì)數(shù)據(jù)樣本,提高本文方法對沙底質(zhì)和石底質(zhì)的泛化能力。最后,為了驗證上述方法對本文方法泛化能力的改進情況,采用增加數(shù)據(jù)樣本的方式,對3類底質(zhì)計算得到的GFB時頻譜進行水平、垂直和水平垂直鏡像操作后,將訓(xùn)練集合測試集擴充為原始數(shù)據(jù)的4 倍。利用擴充后數(shù)據(jù)對搭建的模型進行訓(xùn)練后,再次利用上述青島沙和三亞泥數(shù)據(jù)集進行測試,改進結(jié)果如表5所示。 表5 改進后泛化能力驗證結(jié)果Table 5 The verification results of generalization ability after improvement 表5的改進結(jié)果證明通過增加訓(xùn)練數(shù)據(jù)的數(shù)量可以提升本文方法的泛化能力,也為進一步提高泛化能力的深入研究提供了思路方向,最終實現(xiàn)在提高本文方法泛化能力的同時達到準確分類底質(zhì)的目的。 本文將深度學(xué)習(xí)的思想應(yīng)用到海底底質(zhì)分類當中,將底質(zhì)圖像信號的Gammatone 濾波器組時頻譜作為CNN 模型的輸入,進行底質(zhì)的分類識別,取得了較高的分類準確率,分類準確率均優(yōu)于其他常用底質(zhì)分類的方法。同時,本文進一步驗證了所提出的方法對于泥底質(zhì)具有很好的泛化能力,但對于沙底質(zhì)和泥底質(zhì),泛化能力不強,需要通過增加CNN 模型層數(shù)或者增加沙和石底質(zhì)訓(xùn)練樣本數(shù)量來進一步完善本文提出的方法。此外,本文采用的底質(zhì)信號數(shù)據(jù)集均提取于底質(zhì)的側(cè)掃聲吶圖像,未來有待進一步使用原始的底質(zhì)側(cè)掃數(shù)據(jù)進行研究論證,以實現(xiàn)在實際中的應(yīng)用。2 CNN
2.1 CNN介紹
2.2 本文所構(gòu)建的CNN模型
3 實驗過程及分析
3.1 實驗數(shù)據(jù)與實驗過程
3.2 實驗結(jié)果與分析
4 結(jié)論