劉洪達(dá),左敦穩(wěn),王勇,靳萌萌
(南京航空航天大學(xué) 機(jī)電學(xué)院,江蘇 南京 210016)
安全帶卷收器在以往的質(zhì)量檢測過程中,通過總成檢驗(yàn)工的手感來判斷卷收器功能是否合格,檢測效率低、成本高[1]。
由于檢測過程中卷收器會(huì)產(chǎn)生各種聲音信息,這些聲音信息可以通過非接觸測量安全、快速并方便地采集與獲取。近年來國內(nèi)外學(xué)者在聲音信號(hào)的分類研究方面展開了一些研究[2]。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò) (convolutional neural network,CNN)受到了廣泛的關(guān)注,它在聲音信號(hào)分類方面得到許多應(yīng)用。TRAN等[3]利用卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)從聲音信號(hào)的圖像中提取豐富特征對鉆機(jī)故障聲音進(jìn)行分類。鄭思宇[4]將采集故障噪聲信號(hào)特征優(yōu)化后輸入到卷積神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行故障類型判斷。
為了解決 CNN 網(wǎng)絡(luò)過深導(dǎo)致的梯度彌散以及網(wǎng)絡(luò)退化問題,HE等[5]將殘差神經(jīng)網(wǎng)絡(luò)(residual neural network,ResNet)引入到 CNN中。SHETHWALA[6]利用ResNet和肺音信號(hào)的Mel譜圖對肺音進(jìn)行分類。LOEY[7]用ResNet對不同咳嗽聲進(jìn)行分類用于COVID-19領(lǐng)域。
對于聲音信號(hào)特征差異不明顯的分類,引入注意力機(jī)制能夠取得更好的分類效果。目前結(jié)合殘差網(wǎng)絡(luò)與注意力機(jī)制對聲音信號(hào)分類的研究還不夠深入,但是在圖像和視頻領(lǐng)域已經(jīng)取得了一些成果。ZHAO等[8]將改進(jìn)的注意力機(jī)制嵌入到ResNet中,用于區(qū)分植物病害之間的微小變化。ULLAH等[9]利用注意力機(jī)制CBAM和ResNet在視頻識(shí)別中識(shí)別馬來西亞手語(MSL)。
殘差網(wǎng)絡(luò)ResNet-18中的殘差塊有4個(gè)卷積層的深度?!癢ithin Blocks”是指在網(wǎng)絡(luò)架構(gòu)的每個(gè)殘差塊第2、第4卷積層的后面嵌入CBAM的方法。這種結(jié)構(gòu)推斷“Within Blocks”方法使得CBAM模塊在這些殘差塊之間被應(yīng)用8次。這種CBAM殘差網(wǎng)絡(luò)可以將中間特征映射細(xì)化到更能代表輸入的重要信息。圖1為CBAM-ResNet-18“Within Blocks”(以下簡稱為CBAM-ResNet-WB)中的單個(gè)殘差塊結(jié)構(gòu)。
圖1 “Within Blocks”方法單個(gè)殘差結(jié)構(gòu)
(1)
CBAM是結(jié)合了通道注意力(channel attention)模塊和空間注意力(spatial attention)模塊的卷積注意力機(jī)制,每個(gè)子模塊有自己的功能。具體結(jié)構(gòu)如圖2所示。
圖2 “Before Blocks”方法部分網(wǎng)絡(luò)結(jié)構(gòu)
通道注意力模塊將輸入的特征矩陣分別經(jīng)過平均池化以及最大池化來篩選其空間信息,然后將結(jié)果輸入到共享全連接層(shared MLP)中,再將共享全連接層輸出的特征進(jìn)行相加合并操作,經(jīng)過sigmoid函數(shù)激活,最終即可獲得通道注意力模塊的特征權(quán)重矩陣Mc(F)。計(jì)算公式如下:
Mc(F)=σ[MLP(PAvgPool(F))+MLP(PMaxPool(F))]
(2)
式中:F為輸入的特征矩陣;σ為應(yīng)用的Sigmoid激活函數(shù);MLP為多層感知機(jī)函數(shù);PAvgPool和PMaxPool分別表示平均池化和最大池化。
空間注意力模塊首先將輸入的特征矩陣做平均池化和最大池化,得到兩個(gè)通道數(shù)為1個(gè)特征向量,然后將兩個(gè)向量沿通道方向進(jìn)行拼接操作,之后通過卷積操作映射為通道數(shù)為1的特征向量,最后經(jīng)Sigmoid激活函數(shù)獲得空間注意力特征權(quán)重矩陣Ms(F)。計(jì)算公式如下:
Ms(F)=σ[f(PAvgPool(F),PMaxPool(F) )]
(3)
式中f為卷積計(jì)算。
本文使用的CBAM注意力機(jī)制首先使用通道注意力對輸入特征F進(jìn)行加權(quán)得到F1,然后再針對加權(quán)后的特征F1使用空間注意力進(jìn)行再次加權(quán)得到最終的輸出F2,其計(jì)算過程如下:
(4)
式中⊙表示逐元素相乘。
殘差塊中包含下采樣(downsample)模塊,其輸出被添加到塊的輸入中,計(jì)算如下:
H(x)=F′+x
(5)
式中:x為結(jié)構(gòu)的輸入;F′為CBAM的輸出。
與之前的方法不同,本文采用的“Before Blocks”方法將CBAM模塊嵌入到第一個(gè)殘差塊之前。與“Within Blocks”方法相比,它具有更低的網(wǎng)絡(luò)復(fù)雜性和更少的計(jì)算成本。圖2展示了CBAM模塊的具體位置。
本文基于實(shí)際工況環(huán)境下對信號(hào)進(jìn)行采集,背景噪聲復(fù)雜,噪聲信號(hào)、安靜環(huán)境下和實(shí)際工況中的卷收器信號(hào)圖像如圖3所示。
圖3 噪聲信號(hào)、安靜環(huán)境下和實(shí)際工況中的卷收器信號(hào)
根據(jù)《QC/T987—2014 汽車安全帶卷收器性能要求和試驗(yàn)方法》,本文搭建實(shí)驗(yàn)平臺(tái)如圖4所示,實(shí)驗(yàn)平臺(tái)主要包括1個(gè)型材架、1個(gè)滑輪、1條導(dǎo)向帶和1個(gè)重物。
圖4 采集卷收器聲音數(shù)據(jù)實(shí)驗(yàn)平臺(tái)
該實(shí)驗(yàn)平臺(tái)將卷收器固定于型材架上,安全帶繞過滑輪連接重物。重物為5kg,在其重力的帶動(dòng)和導(dǎo)向帶的牽引下,安全帶卷收器進(jìn)行往復(fù)工作。錄制過程中人工手持手機(jī)在卷收器旁,采集其工作聲音,每次錄制時(shí)間3~5s,每一個(gè)單獨(dú)保存為WAV文件,其中包括150個(gè)合格品和150個(gè)次品,共計(jì)300個(gè)音頻文件。
對所有音頻文件提取Log-Mel Spectrogram特征,經(jīng)過裁剪調(diào)整為128×256,加載到分類模型中,隨機(jī)選擇70%用于訓(xùn)練,30%用于測試。分類模型初始學(xué)習(xí)率為0.000 5,批量大小為128。在訓(xùn)練過程中采用RMSprop優(yōu)化器,進(jìn)行20輪訓(xùn)練。
1)訓(xùn)練與測試過程比較
本文采用ResNet-18、ResNet-34、CBAM-ResNet-WB、CBAM-ResNet-BB模型進(jìn)行比較,比較結(jié)果如圖5所示。
圖5 ResNet-18、ResNet-34、CBAM-ResNet-WB、CBAM-ResNet-BB模型的各輪次訓(xùn)練集與測試集的交叉熵和準(zhǔn)確率對比圖
ResNet-18模型訓(xùn)練集的交叉熵從開始時(shí)的1.34,最后逐漸減小到5×10-5。測試集交叉熵前12輪在2.98~33.91之間波動(dòng),第13輪到20輪持續(xù)減小,在20輪達(dá)到最小值0.79。訓(xùn)練集準(zhǔn)確率在前3輪從55.71%提升到98.1%后始終保持較高水平,在第13輪達(dá)到100%后一直穩(wěn)定。測試集準(zhǔn)確率前10輪波動(dòng)較大,第9輪提升到76.67%,第10輪降到53.33%,第11輪到20輪持續(xù)升高,最終在18輪達(dá)到最大值88.89%。模型訓(xùn)練準(zhǔn)確率和測試準(zhǔn)確率最終相差11.11%,存在過擬合問題。
ResNet-34模型訓(xùn)練集的交叉熵從開始時(shí)的1.93,最后逐漸減小到6×10-6。測試集交叉熵前12輪在2.13~168.35之間波動(dòng),第13輪到16輪從10.17持續(xù)升高到51.73,之后逐漸減小,在20輪達(dá)到最小值0.67。訓(xùn)練集準(zhǔn)確率呈持續(xù)升高趨勢在第13輪達(dá)到100%后一直穩(wěn)定。測試集準(zhǔn)確率前13輪波動(dòng)較大,第11輪提升到81.11%,第13輪降到46.67%,第14輪到20輪持續(xù)升高,最終在20輪達(dá)到最大值85.56%。模型訓(xùn)練準(zhǔn)確率和測試準(zhǔn)確率最終相差14.44%,模型深度增加后導(dǎo)致過擬合更加嚴(yán)重。
CBAM-ResNet-WB模型訓(xùn)練集的交叉熵從開始時(shí)的3.92最后逐漸減小到0.93。測試集交叉熵前8輪在2.77~55.89之間波動(dòng),第9輪到20輪持續(xù)減小,在20輪達(dá)到最小值1.32。訓(xùn)練集準(zhǔn)確率在前3輪從58.1%提升到97.14%后始終保持較高水平,在第10輪達(dá)到100%后一直穩(wěn)定。測試集準(zhǔn)確率前8輪處于較低水平,第9輪開始從60%提升到第14輪的92.22%,第18輪提升到93.33%。模型訓(xùn)練準(zhǔn)確率和測試準(zhǔn)確率最終相差6.67%,存在一定的過擬合問題。加入注意力機(jī)制的模型使特征更加符合分類要求,過擬合問題減小。
CBAM-ResNet-BB模型訓(xùn)練集的交叉熵從開始時(shí)的1.59,最后逐漸減小到0.06。測試集交叉熵前8輪在1.78~93.29之間波動(dòng),第9輪到20輪持續(xù)減小,在20輪達(dá)到最小值0.12。訓(xùn)練集準(zhǔn)確率在前3輪從58.57%提升到96.19%后始終保持較高水平,在第9輪達(dá)到100%后一直穩(wěn)定。測試集準(zhǔn)確率前11輪處于較低水平,第12輪開始從65.56%提升到第20輪的97.78%。模型訓(xùn)練準(zhǔn)確率和測試準(zhǔn)確率最終相差2.22%,說明還是存在一些過擬合問題。本文模型過擬合問題更小,準(zhǔn)確率更高,收斂速度僅次于參數(shù)更多的CBAM-ResNet-WB模型,但計(jì)算量相對較小。說明該模型能夠加快收斂速度且獲得更好的分類效果。
2)驗(yàn)證分類結(jié)果和混淆矩陣
圖6為ResNet-18模型、ResNet-34模型、CBAM-ResNet-WB模型和CBAM-ResNet-BB模型的分類結(jié)果混淆矩陣,其中“0”代表合格品,“1”代表次品。左上角和右下角單元格顯示每個(gè)類別分類正確的數(shù)量,其他單元格顯示分類錯(cuò)誤的數(shù)量。
圖6 模型分類混淆矩陣
圖6可知,ResNet-18模型分類結(jié)果較差,其中有10個(gè)合格品被檢測成為次品;ResNet-34模型分類結(jié)果差,其中有13個(gè)次品被檢測成為合格品;CBAM-ResNet-WB模型分類效果稍好一些,其中有6個(gè)合格品被檢測成為次品,2個(gè)次品被檢測成為合格品;CBAM-ResNet-BB模型分類效果最好,只有2個(gè)正品被檢測為次品。
表1列出了ResNet-18模型、ResNet-34模型、CBAM-ResNet-WB模型和CBAM-ResNet-BB模型分類結(jié)果的精確率、召回率和F1值。ResNet-18和CBAM-ResNet-BB模型合格品的精確率都為1,所有被檢測為合格品的卷收器均為合格品;同時(shí),兩個(gè)模型次品召回率都為1,能夠檢測出所有次品,確保出廠的卷收器質(zhì)量,保障安全性;CBAM-ResNet-WB模型精確度和召回率相對較為平均,合格品和次品的分類均有錯(cuò)誤。CBAM-ResNet-BB模型的F1值最高,合格品和次品F1值均為0.98,說明該模型分類效果最好。
表1 ResNet-18、ResNet-34、CBAM-ResNet-WB和CBAM-ResNet-BB模型的分類性能對比
表2列出了CBAM-ResNet-BB模型與傳統(tǒng)分類模型支持向量機(jī)、隨機(jī)森林分類結(jié)果的準(zhǔn)確率、精確率、召回率和F1值。實(shí)際工況下采集到的信號(hào)噪聲較大,傳統(tǒng)分類效果較好的支持向量機(jī)和隨機(jī)森林模型在本次分類任務(wù)中結(jié)果較差,CBAM-ResNet-BB模型分類結(jié)果的準(zhǔn)確率、精確率、召回率和F1值均優(yōu)于支持向量機(jī)和隨機(jī)森林,模型具有實(shí)際應(yīng)用價(jià)值。
表2 支持向量機(jī)、隨機(jī)森林和CBAM-ResNet-BB模型的分類性能對比
本文提出一種CBAM-ResNet-BB模型,將注意力機(jī)制融入殘差網(wǎng)絡(luò),能夠基于聲音信號(hào)對汽車安全帶卷收器的質(zhì)量進(jìn)行分類檢測,分類準(zhǔn)確率達(dá)98%。
ResNet-18模型的檢測準(zhǔn)確率為88.89%,ResNet-34模型的檢測準(zhǔn)確率為85.56%。對于本文來說,ResNet-34模型網(wǎng)絡(luò)深度相對較深,但是過擬合問題更加嚴(yán)重,導(dǎo)致準(zhǔn)確率更低,因此選用ResNet-18模型進(jìn)行改進(jìn)。
CBAM-ResNet-BB模型的訓(xùn)練集和測試集最終準(zhǔn)確率相差2.22%,對比ResNet-18模型的11.11%和ResNet-18 Within Blocks模型的6.67%,過擬合問題明顯改善,準(zhǔn)確率提高8.89%。
CBAM-ResNet-BB模型的分類準(zhǔn)確率為98%,傳統(tǒng)分類模型支持向量機(jī)的分類準(zhǔn)確率為79%,隨機(jī)森林的分類準(zhǔn)確率為77%,進(jìn)一步驗(yàn)證了該模型的優(yōu)勢,能夠完成噪聲較大的分類任務(wù)。