張文濤 瑩瑩 黎恒
摘 要: 針對(duì)公路交通聲音事件識(shí)別中傳統(tǒng)語(yǔ)音算法識(shí)別效率低、魯棒性差的問(wèn)題,提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的交通聲音事件識(shí)別方法。首先通過(guò)Gammatone濾波器對(duì)聲音數(shù)字信號(hào)進(jìn)行子帶濾波,得到音頻信號(hào)耳蝸?zhàn)V圖,然后將其代入卷積神經(jīng)網(wǎng)絡(luò)模型對(duì)聲音事件類(lèi)型進(jìn)行識(shí)別。利用上述方法對(duì)公路交通環(huán)境下的四種音頻事件做了檢測(cè)處理,并與經(jīng)典的隱馬爾科夫模型和目前廣泛使用的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,使用卷積神經(jīng)網(wǎng)絡(luò)模型能夠更加準(zhǔn)確地對(duì)交通聲音事件進(jìn)行識(shí)別,且在噪聲環(huán)境下具有更好的魯棒性。
關(guān)鍵詞: Gammatone濾波器; 卷積神經(jīng)網(wǎng)絡(luò); 音頻事件識(shí)別; 公路交通環(huán)境; 聲音數(shù)字信號(hào); 子帶濾波
中圖分類(lèi)號(hào): TN912.3?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2018)14?0070?04
Traffic sound event recognition method based on convolutional neural network
ZHANG Wentao1,2, HAN Yingying1,2,3, LI Heng3
(1. School of Electronic Engineering and Automation, Guilin University of Electronic Technology, Guilin 541004, China;
2. Key Laboratory of Optoelectronic Information Processing, Guilin 541004, China; 3. Guangxi Transportation Research Institute, Nanning 530000, China)
Abstract: In allusion to the problems of low recognition rate and poor robustness of the traditional acoustic algorithm in road traffic sound event recognition, a traffic sound event recognition method based on convolutional neural network is proposed. The sub?band filtering of sound digital signals is performed by using the Gammatone filter, so as to obtain the cochleogram of audio signals, which is then substituted into the convolutional neural network model for recognition of the sound event type. Four audio events in road traffic environment are detected by using the above method, and the results are compared with those of the classic hidden Markov model and deep neural network widely used at present. The experimental results show that the convolutional neural network model can recognize the traffic sound event more accurately, and has better robustness in noisy environment.
Keywords: Gammatone filter; convolutional neural network; audio event recognition; road traffic environment; sound digital signal; sub?band filtering
0 引 言
隨著我國(guó)交通事業(yè)高速發(fā)展,對(duì)道路監(jiān)控和信息處理分析提出了更高的要求。目前,國(guó)內(nèi)外道路交通事件檢測(cè)技術(shù)主要以視頻為手段,依賴(lài)于視頻采集的質(zhì)量,技術(shù)難度大,生產(chǎn)成本高且受環(huán)境因素影響大。聲音是人類(lèi)信息的重要來(lái)源,而且其方便采集,檢測(cè)范圍廣。聲音事件識(shí)別已應(yīng)用于環(huán)境安全監(jiān)控、場(chǎng)景分析、證據(jù)提取、聲源定位和突發(fā)事件檢測(cè)等領(lǐng)域,且發(fā)揮著重要作用。
目前,對(duì)于聲音事件識(shí)別一些學(xué)者已經(jīng)做出一些研究[1?3]。McLoughlin等提出基于聲譜圖的前端特征并結(jié)合支持向量機(jī)(Support Vector Machine,SVM)[1]和深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)對(duì)聲音事件進(jìn)行分類(lèi)。Kucukbay等提出使用梅爾頻率倒譜系數(shù)(Mel?Frequency Cepstral Coefficients,MFCC)[2]和SVM分類(lèi)器結(jié)合5?折交叉驗(yàn)證方法識(shí)別辦公環(huán)境中的16種聲音。Diment等提出基于隱馬爾科夫模型(Hidden Markov Model,HMM)的聲音事件檢測(cè)系統(tǒng)[3],對(duì)辦公環(huán)境下的聲學(xué)場(chǎng)景和事件進(jìn)行分類(lèi)檢測(cè)。
以上研究在聲音事件識(shí)別中都取得了一定成效。但傳統(tǒng)的SVM算法在大規(guī)模訓(xùn)練樣本和多分類(lèi)問(wèn)題上難以實(shí)現(xiàn)。DNN模型又存在參數(shù)數(shù)量膨脹、學(xué)習(xí)時(shí)間過(guò)長(zhǎng)等問(wèn)題。且在真實(shí)的公路交通環(huán)境中存在復(fù)雜多變的噪聲,公路隧道中甚至出現(xiàn)聲音反射和回響,對(duì)聲音事件識(shí)別產(chǎn)生較大干擾。因此針對(duì)公路交通環(huán)境需要找出一種新的識(shí)別方法。Ossama等人首次將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)應(yīng)用于語(yǔ)音識(shí)別中[4],與DNN模型相比識(shí)別率取得明顯改善。本文將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于公路交通聲音事件識(shí)別。針對(duì)擁堵、事故等公路事件,利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)車(chē)輛碰撞聲、汽車(chē)?guó)Q笛、人員呼救和車(chē)門(mén)關(guān)閉四種聲音進(jìn)行分類(lèi),從而判斷發(fā)生的對(duì)應(yīng)事件。
1 基于Gammatone濾波器的耳蝸?zhàn)V圖提取
人耳可以準(zhǔn)確地對(duì)公路交通環(huán)境聲音事件進(jìn)行判斷。在人類(lèi)聽(tīng)覺(jué)系統(tǒng)中,聲音信號(hào)經(jīng)過(guò)耳蝸基底膜的頻帶分解作用后,沿聽(tīng)覺(jué)通路進(jìn)入大腦聽(tīng)覺(jué)中樞神經(jīng)系統(tǒng)。耳蝸?zhàn)V圖特征仿照人耳感知聲音的過(guò)程,是常用的時(shí)頻二維圖像特征表示方法。本文使用Gammatone濾波器組來(lái)模擬耳蝸模型,實(shí)現(xiàn)子帶濾波,最終得到耳蝸?zhàn)V圖。Gammatone濾波器是一個(gè)標(biāo)準(zhǔn)的耳蝸聽(tīng)覺(jué)濾波器,其時(shí)域脈沖響應(yīng)為[5]:
[g(f,t)=Atn-1e-2πbtcos(2πft+φ)U(t), t≥0] (1)
式中:[A]為濾波器增益;[i]表示第[i]個(gè)濾波器;[f]為中心頻率;[φ]為相位,本文取[φi=0];[n]為濾波器階數(shù);[b]是衰減因子,該因子決定相應(yīng)的濾波器的帶寬[b=1.019ERB(f)],[ERB(f)]是等效矩形帶寬,它與中心頻率[f]的關(guān)系為:
[ERB(f)=24.7(4.37f100+1)] (2)
本文采用一組64個(gè)4階Gammatone濾波器,其中心頻率在350~4 000 Hz之間。Gammatone濾波器會(huì)保留原有的采樣率,因此在時(shí)間維度上設(shè)置響應(yīng)頻率為 100 Hz,將產(chǎn)生10 ms的幀移,可用于短時(shí)聲音特征提取。當(dāng)聲音信號(hào)通過(guò)Gammatone濾波器時(shí),輸出信號(hào)的響應(yīng)[Gm(i)]的表達(dá)式如下:
[Gm(i)= g(i,m)]12,i=0,1,2,…,N;m=0,1,2,…,M-1] (3)
式中:[N]為通道數(shù);[M]為采樣后的幀數(shù)。
[Gm(i)]構(gòu)成代表輸入聲音信號(hào)頻域上分布變化的矩陣,本文采用耳蝸?zhàn)V圖來(lái)描述信號(hào)頻域分布變化。與語(yǔ)譜圖相比,耳蝸?zhàn)V圖的物理意義更明確,具有更高的低頻分辨率,因此在聲音識(shí)別領(lǐng)域更具應(yīng)用價(jià)值[6]。綜上所述,本文采用耳蝸?zhàn)V作為樣本進(jìn)行神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練與測(cè)試。
2 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)[7]最初由Yann LeCun等人提出,應(yīng)用于簡(jiǎn)單的手寫(xiě)字符識(shí)別,逐漸擴(kuò)展到人臉檢測(cè)[8]、動(dòng)作識(shí)別[9]和標(biāo)志識(shí)別[10]等領(lǐng)域。近幾年,卷積神經(jīng)網(wǎng)絡(luò)作為具有優(yōu)秀深度學(xué)習(xí)能力的深層網(wǎng)絡(luò)結(jié)構(gòu),被應(yīng)用于聲音識(shí)別領(lǐng)域。
卷積神經(jīng)網(wǎng)絡(luò)是一種多層神經(jīng)網(wǎng)絡(luò),數(shù)據(jù)以特征圖的形式輸入網(wǎng)絡(luò),然后依次進(jìn)行卷積與池化處理,具體過(guò)程在相應(yīng)的卷積層與池化層完成,層與層之間采用局部連接和權(quán)值共享的方式。
在卷積層中,輸入的特征圖被一個(gè)可學(xué)習(xí)的卷積核進(jìn)行卷積。卷積操作公式如下:
[xlk=fi∈Wkxl-1i?Hli,k+blk] (4)
式中:[xlk]代表[l]層的第[k]個(gè)特征圖;[Wk]代表[l-1]層的第[k]個(gè)特征圖;[Hli,k]表示第[l]層第[i]個(gè)特征圖的第[k]個(gè)卷積核;[blk]為偏置項(xiàng);[f]是激活函數(shù);“[?]”代表卷積符號(hào)。激活函數(shù)一般采用 relu,tanh等飽和非線性函數(shù)。所有的輸入特征圖經(jīng)卷積操作后輸出一定數(shù)量的新特征圖。新特征圖的數(shù)量由卷積層中卷積濾波器數(shù)目決定。
經(jīng)卷積層后得到的新特征圖進(jìn)入池化層進(jìn)行池化操作。一方面使特征圖變小,簡(jiǎn)化網(wǎng)絡(luò)計(jì)算復(fù)雜度;另一方面進(jìn)行特征壓縮,提取主要特征。池化層的一般形式如下:
[xlk=f(βlkdown(xl-1k)+blk)] (5)
式中:[down(·)]代表池化層;[xlk]代表[l]層的第[k]個(gè)特征圖;[βlk]與[blk]為偏置項(xiàng)。如果分割成若干個(gè)a×a的區(qū)域,那輸出圖片的尺寸在不同維度上都是輸入圖片的[1n]。
3 實(shí)驗(yàn)與分析
3.1 實(shí)驗(yàn)性能評(píng)價(jià)指標(biāo)
根據(jù)CLEAR 2007測(cè)評(píng)[11],本文使用三個(gè)指標(biāo)評(píng)估所提出的方法:準(zhǔn)確率(Precision Rate,P)、召回率(Recall Rate,R)和F?值(F?Measure,F(xiàn))。準(zhǔn)確率表明方法的查準(zhǔn)率,召回率表明方法的查全率,F(xiàn)?值為準(zhǔn)確率和召回率的調(diào)和平均值,計(jì)算公式分別為:
[P=te, R=tg, F=2PRP+R] (6)
式中:t表示正確檢測(cè)的聲音事件數(shù);e表示輸出的聲音事件總數(shù);g表示標(biāo)注的聲音事件總數(shù)。
3.2 實(shí)驗(yàn)數(shù)據(jù)采集
本實(shí)驗(yàn)在真實(shí)公路交通環(huán)境下,使用模擬聲級(jí)計(jì)配合麥克風(fēng)陣列,分別在20 dB,10 dB,0 dB三種信噪比下對(duì)音頻數(shù)據(jù)進(jìn)行采集,采樣頻率為8 kHz。表1中總結(jié)了每種事件類(lèi)別的統(tǒng)計(jì)數(shù)據(jù),共有86 400段,每種聲音片段長(zhǎng)度為1~3 s。
按照第1節(jié)中提到的方法提取耳蝸?zhàn)V。抽取每種聲音耳蝸?zhàn)V中的[34]作為訓(xùn)練集,剩下的[14]為測(cè)試集。并對(duì)每種聲音的種類(lèi)進(jìn)行標(biāo)注。本文將撞車(chē)聲、汽車(chē)?guó)Q笛、人員呼救和車(chē)門(mén)關(guān)閉四種音頻信號(hào)作為目標(biāo)聲音事件,因?yàn)檫@些聲音事件的出現(xiàn)一般意味著發(fā)生交通事故或擁堵。其余兩種聲音事件作為干擾聲。
3.3 卷積神經(jīng)網(wǎng)絡(luò)模型建立
為了研究基于卷積神經(jīng)的交通聲音事件識(shí)別模型性能,首先需要建立卷積神經(jīng)網(wǎng)絡(luò)。卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)確定的過(guò)程包括建立模型、訓(xùn)練模型和測(cè)試模型三部分。實(shí)驗(yàn)使用Matlab的Parallel Computing Toolbox工具箱和 Neural Network Toolbox工具箱創(chuàng)建和訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)?;赑ascal GP104核心的NVIDIA GTX1080搭建訓(xùn)練平臺(tái),使用GPU陣列進(jìn)行計(jì)算。
圖1所示為基于卷積神經(jīng)網(wǎng)絡(luò)的聲音事件識(shí)別流程圖,包括訓(xùn)練過(guò)程與測(cè)試過(guò)程。訓(xùn)練過(guò)程中,利用隨機(jī)分布函數(shù)對(duì)卷積核和權(quán)重進(jìn)行隨機(jī)初始化,而對(duì)偏置進(jìn)行全0初始化。為了加快訓(xùn)練過(guò)程則使用標(biāo)準(zhǔn)的梯度下降算法調(diào)整權(quán)值與閾值。
通過(guò)網(wǎng)絡(luò)前向傳播和反向傳播反復(fù)交叉處理的方式來(lái)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),直到代價(jià)函數(shù)小于0.01為止。
3.4 基于CNN的交通聲音事件識(shí)別方法
本文針對(duì)公路交通環(huán)境下聲音信號(hào)的特殊性,選取網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,包含2個(gè)卷積層、2個(gè)池化層、2個(gè)歸一化層和3個(gè)全連接層。
1) 輸入層。本文將耳蝸?zhàn)V圖作為特征圖輸入。輸入之前先對(duì)耳蝸?zhàn)V圖進(jìn)行預(yù)處理,預(yù)處理過(guò)程包括平滑和裁剪,把耳蝸?zhàn)V圖處理成32×32的圖像。
2) 卷積層。卷積層為特征提取層。均使用3×3的卷積核對(duì)輸入圖像進(jìn)行卷積,C1卷積核個(gè)數(shù)為10,卷積移動(dòng)步長(zhǎng)為1,為保證充分提取耳蝸?zhàn)V圖的特征,激活函數(shù)使用tanh函數(shù)。
3) 池化層。卷積層后加入池化層可降低體征維數(shù),避免過(guò)擬合。本文采用最大池化方式,池化域大小均為2×2。
4) 歸一化層。在下一個(gè)卷積層前加入歸一化層,對(duì)局部做減和除歸一化,迫使相鄰特征進(jìn)行局部競(jìng)爭(zhēng)。保證性能的穩(wěn)定性,并提取耳蝸?zhàn)V的低階和高階統(tǒng)計(jì)特征。
5) 輸出層。通過(guò)Softmax回歸算法將特征映射到目標(biāo)的四個(gè)分類(lèi)。Softmax是Logistic回歸在多分類(lèi)問(wèn)題上的推廣。在Softmax回歸函數(shù)中[y=j]的概率為:
[p(y=jx;θ)=eθTjxl=1keθTjx] (7)
式中:[θ]表示全部的模型參數(shù);[x]為輸入;[y]為輸出;[j]代表類(lèi)別。
3.5 實(shí)驗(yàn)結(jié)果對(duì)比與分析
將20 dB,10 dB,0 dB三種不同信噪比下的實(shí)驗(yàn)樣本分別代入第3.4節(jié)確定CNN模型進(jìn)行訓(xùn)練與測(cè)試實(shí)驗(yàn),并與經(jīng)典HMM模型[12]和目前得到廣泛應(yīng)用的DNN模型進(jìn)行對(duì)比。實(shí)驗(yàn)結(jié)果如表2~表4所示。
從3個(gè)表中可以看出,在3種不同信噪比情況下,對(duì)于車(chē)輛碰撞聲、汽車(chē)?guó)Q笛、人員呼救和車(chē)門(mén)關(guān)閉四種聲音識(shí)別,CNN模型與DNN模型的指標(biāo)均明顯高于HMM模型,且CNN模型的識(shí)別率可達(dá)到99.3%,召回率可達(dá)100%。信噪比發(fā)生變化時(shí),CNN模型的平均F?值相比其他兩種模型所受影響最小。在0 dB的情況下,識(shí)別率突破90%。由此可以得出,相比于其他兩種模型,卷積神經(jīng)網(wǎng)絡(luò)模型可以更加準(zhǔn)確地對(duì)公路交通環(huán)境下的聲音事件進(jìn)行識(shí)別且魯棒性更好。
4 結(jié) 論
本文將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到公路交通環(huán)境聲音識(shí)別中。先將聲音信號(hào)經(jīng)Gammatone濾波器轉(zhuǎn)化為耳蝸?zhàn)V圖,后把耳蝸?zhàn)V圖輸入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類(lèi)識(shí)別。并與經(jīng)典隱馬爾科夫模型和廣泛使用的深層神經(jīng)網(wǎng)絡(luò)進(jìn)行了對(duì)比,基于卷積神經(jīng)網(wǎng)絡(luò)的方法在識(shí)別性與魯棒性上有明顯提高。在后續(xù)研究中,將繼續(xù)優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)一步對(duì)混合聲音事件進(jìn)行識(shí)別。
參考文獻(xiàn)
[1] MCLOUGHLIN I, ZHANG H, XIE Z, et al. Robust sound event classification using deep neural networks [J]. IEEE/ACM transactions on audio, speech, and language processing, 2015, 23(3): 540?552.
[2] KUCUKBAY S E, SERT M. Audio?based event detection in office live environments using optimized MFCC?SVM approach [C]// Proceedings of IEEE International Conference on Semantic Computing. Anaheim: IEEE, 2015: 475?480.
[3] DIMENT A, HEITTOLA T, VIRTANEN T. Sound event detection for office live and office synthetic AASP challenge [J/OL]. [2013?12?01]. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.706.807&rep;=rep1&type;=pdf.
[4] ABDEL?HAMID O, MOHAMED A, JIANG H, et al. Applying convolutional neural networks concepts to hybrid NN?HMM model for speech recognition [C]// Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Kyoto: IEEE, 2012: 4277?4280.
[5] LU B, DIBAZAR A, BERGER T W. Noise?robust acoustic signature recognition using nonlinear Hebbian learning [J]. Neural networks, 2010, 23(10): 1252?1263.
[6] TJANDRA A, SAKTI S, NEUBIG G, et al. Combination of two?dimensional cochleogram and spectrogram features for deep learning?based ASR [C]// Proceedings of IEEE International Conference on Acoustics, Speech and Signal Processing. Brisbane: IEEE, 2015: 4525?4529.
[7] LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition [J]. Neural computation, 1989, 1(4): 541?551.
[8] 汪濟(jì)民,陸建峰.基于卷積神經(jīng)網(wǎng)絡(luò)的人臉性別識(shí)別[J].現(xiàn)代電子技術(shù),2015,38(7):81?84.
WANG Jimin, LU Jianfeng. Face gender recognition based on convolutional neural network [J]. Modern electronics technique, 2015, 38(7): 81?84.
[9] JI S, XU W, YANG M, et al. 3D convolutional neural networks for human action recognition [J]. IEEE transactions on pattern analysis and machine intelligence, 2013, 35(1): 221?231.
[10] 黃琳,張尤賽.應(yīng)用深層卷積神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志識(shí)別[J].現(xiàn)代電子技術(shù),2015,38(13):101?106.
HUANG Lin,ZHANG Yousai. Traffic signs recognition applying with deep?layer convolution neural network [J]. Modern electronics technique,2015, 38(13): 101?106.
[11] TEMKO A, NADEU C, MACHO D, et al. Acoustic event detection and classification [M]// WAIBEL A, STIEFELHAGEN R. Computers in the human interaction loop. Berlin: Springer, 2009: 61?73.
[12] TEMKO A, MALKIN R, ZIEGER C, et al. CLEAR evaluation of acoustic event detection and classification systems [C]// Proceedings of the 1st international evaluation conference on classification of events, activities and relationships. Berlin: Springer, 2006: 311?322.