陳秋菊,徐建國(guó)
1.茅臺(tái)學(xué)院 釀酒工程自動(dòng)化系,貴州 仁懷564500
2.國(guó)防科學(xué)技術(shù)大學(xué) 系統(tǒng)工程學(xué)院,長(zhǎng)沙410073
隨著網(wǎng)絡(luò)多媒體數(shù)據(jù)的快速增長(zhǎng),音頻數(shù)據(jù)的搜索具有極大的應(yīng)用價(jià)值。聲音事件的檢測(cè)和識(shí)別作為分析環(huán)境聲音信息的關(guān)鍵環(huán)節(jié),其目的在于檢測(cè)和識(shí)別在各種噪聲和混合音頻信號(hào)中存在的聲音對(duì)象,在音頻取證、生物聲音監(jiān)控、聲場(chǎng)景分析、實(shí)時(shí)軍事關(guān)注點(diǎn)的檢測(cè)、定位跟蹤和生源分類、病人監(jiān)護(hù)、非正常事件監(jiān)測(cè)及故障診斷、遞交早期維護(hù)的關(guān)鍵信息、場(chǎng)景聲音識(shí)別、前景、背景聲音識(shí)別和分離等方面都具有重要意義。
近年來(lái),有相關(guān)研究用聲音事件識(shí)別來(lái)提升終端對(duì)情景的自主感知能力[1-2]。Farahat 等[3]提出利用深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)提取語(yǔ)音幀的判決信息,然后采用非線性變換增加特征的抗噪性能;Phetcharat等[4]提出采用概率最優(yōu)L1稀疏度合成非負(fù)矩陣分解方法對(duì)聲音進(jìn)行分離,并用多類平均超支持向量機(jī)(Supported Vector Machine,SVM)對(duì)提取的特征進(jìn)行識(shí)別;文獻(xiàn)[5]提出將聲譜圖特征、倒譜特征和人類聽(tīng)覺(jué)接受域模型組合成聲音接受域二進(jìn)制模式,并采用分層DBN 來(lái)學(xué)習(xí)和識(shí)別該特征,在噪聲環(huán)境下提升了聲音識(shí)別精度。文獻(xiàn)[6]提出將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)結(jié)合成卷積遞歸神經(jīng)網(wǎng)絡(luò)(CRNN)用于多音律事件識(shí)別,識(shí)別性能得到大幅提升。
這些方法從特征提取及分類角度對(duì)聲音事件的識(shí)別取得一定效果。然而,真實(shí)環(huán)境中噪聲是非平穩(wěn)的,且復(fù)雜多變,尤其是在低信噪比情況下,噪聲對(duì)聲音事件識(shí)別產(chǎn)生較大干擾。而常見(jiàn)的維納濾波、卡爾曼濾波、小波增強(qiáng)、多頻帶譜減法等傳統(tǒng)噪聲估計(jì)方法需要先驗(yàn)地獲得待檢測(cè)信號(hào)或者噪聲信號(hào)的統(tǒng)計(jì)知識(shí)。在真實(shí)環(huán)境中,這些先驗(yàn)知識(shí)很難獲取,針對(duì)該問(wèn)題,本文提出一種基于優(yōu)化正交匹配追蹤(Orthogonal Matching Pursuit,OMP)和短時(shí)譜估計(jì)的聲音事件識(shí)別方法,采用信號(hào)稀疏性,將信號(hào)稀疏分解重構(gòu)進(jìn)行自適應(yīng)表示,無(wú)需預(yù)先獲得其先驗(yàn)知識(shí),且能有效地重構(gòu)和保留聲音信號(hào)的主體部分,去除與聲音信號(hào)相關(guān)度較低的噪聲成分,自適應(yīng)性更強(qiáng)。而采用的短時(shí)譜估計(jì)方法能實(shí)時(shí)動(dòng)態(tài)地估計(jì)環(huán)境聲中的噪聲功率譜,從而有效地保留聲音信號(hào)的有效成分。該方法首先對(duì)聲音信號(hào)進(jìn)行優(yōu)化OMP 稀疏分解和短時(shí)譜估計(jì)二次重構(gòu),然后分別從時(shí)域、頻域和時(shí)頻域提取復(fù)合抗噪特征OOMP,最后采用DBN進(jìn)行分類。具體流程如圖1所示。
OMP算法[7-11]是在匹配跟蹤(Matching Pursuit,MP)算法的基礎(chǔ)上,將每次稀疏分解迭代挑選出的最優(yōu)原子利用Gram-Schmidt 方法與已選擇的原子集合進(jìn)行正交化處理,在保證相同精度的前提下,加快收斂速度。
假設(shè)長(zhǎng)度為N 的聲音信號(hào)f,首先構(gòu)造一個(gè)過(guò)完備字典D=(gγ)γ∈Γ,Γ 為γ 的集合。本文選擇的Gabor字典[12]是由一個(gè)調(diào)制的高斯窗函數(shù)構(gòu)成,
其中,平移因子u 是原子的中心位置;伸縮因子s,頻率因子v 和相位因子w 定義原子gγ的波形。實(shí)際應(yīng)用中需要對(duì)時(shí)-頻參數(shù)γ=(s,u,v,w)進(jìn)行離散化[12]:
其中,0 <j ≤lb N,0 ≤p ≤N2-j+1,0 ≤k <2j+1,0 ≤i ≤12,a=2,Δu=1/2,Δv=π,Δw=π/6。對(duì)于長(zhǎng)度為256的聲音信號(hào),過(guò)完備字典中包含Num=52(N lb N+N-1)=119 756個(gè)原子。
OMP稀疏分解步驟如下:
(1)初始化信號(hào)殘差R0=f,迭代次數(shù)k=1,最大迭代次數(shù)kmax,已選原子集合p1=gr1,歸一化后得到u1。
(2)從過(guò)完備原子字典D 中選出第k 次迭代與信號(hào)殘差最為相關(guān)的原子gγk:
(3)利用Gram-Schmidt方法將gγk關(guān)于已選原子集{gγk}(0 <p ≤k)正交化得到投影pk:
(4)將殘差投影到uk上得到新的殘差Rk+1。
圖1 基于優(yōu)化OMP和短時(shí)譜估計(jì)的聲音事件識(shí)別流程圖
(5)若未達(dá)到最大迭代次數(shù)kmax,設(shè)置k=k+1,返回(2);否則轉(zhuǎn)至(6)。
(6)經(jīng)過(guò)逐次迭代稀疏分解得到一系列原子,輸出第kmax次的近似原子展開(kāi)式:
即對(duì)聲音信息進(jìn)行OMP稀疏分解重構(gòu)。
由于OMP 稀疏分解步驟(2)從過(guò)完備字典D 中選擇最優(yōu)原子時(shí)計(jì)算復(fù)雜度高,采用粒子群算法(Particle Swarm Optimization,PSO)復(fù)雜空間最優(yōu)解搜索的優(yōu)點(diǎn)[13-14]對(duì)最優(yōu)原子搜索過(guò)程進(jìn)行優(yōu)化。具體的流程如圖2所示。
圖2 PSO優(yōu)化OMP最優(yōu)原子搜索過(guò)程
在該優(yōu)化算法中,將時(shí)-頻參數(shù)組γ=(s,u,v,w)作為待優(yōu)化的參數(shù),對(duì)應(yīng)第k 次分解時(shí)粒子i 在字典空間中所處的位置:
將時(shí)-頻原子與第k 次分解時(shí)信號(hào)的殘差的內(nèi)積|<Rk,gγk>|作為適應(yīng)值函數(shù)f[ xi(k )],用來(lái)衡量粒子所處位置的質(zhì)量。根據(jù)粒子群的移動(dòng)和聚集,得到一個(gè)具有最大適應(yīng)值的位置,即最優(yōu)原子參數(shù)。
PSO優(yōu)化搜索詳細(xì)過(guò)程如下:
(1)初始化PSO種群規(guī)模n,迭代次數(shù)k=1,最大迭代次數(shù)kmax,搜索范圍[xmin,xmax],速度范圍[vmin,vmax],隨機(jī)生成每個(gè)粒子i 的初始速度和位置,計(jì)算其初始適應(yīng)值f[ xi(k )],并設(shè)置為粒子i 的當(dāng)前個(gè)體最優(yōu)解pbest(i),將最大的pbest(i)設(shè)置為種群最優(yōu)解gbest。
(2)更新每個(gè)粒子的速度與位置。判斷粒子的速度是否超出界限,如果出界更新;判斷粒子的位置是否在過(guò)完備原子字典中,如果不在,則取邊界值代替粒子的位置。
其中α 為收斂因子,α 越大收斂速度越快;c1和c2為學(xué)習(xí)因子;r 為(0,1)之間均勻分布的隨機(jī)數(shù);w 為慣性權(quán)重因子,w 較大則具有較強(qiáng)的全局搜索能力,較小則傾向于局部搜索。
但是,w 取值太大,可能導(dǎo)致粒子速度過(guò)大從而跳過(guò)最優(yōu)解,w 取值太小則可能導(dǎo)致粒子搜索前期收斂速度太慢。本文采用線性慣性權(quán)重遞減策略,w 值隨迭代次數(shù)線性遞減。
(3)為了避免局部最優(yōu)現(xiàn)象,設(shè)置變異概率p,對(duì)粒子進(jìn)行位置變異。
(4)計(jì)算粒子的適應(yīng)值f[ xi( k+1) ],如果該值優(yōu)于當(dāng)前的個(gè)體極值點(diǎn)pbest(i),則用當(dāng)前粒子所處位置更新pbest(i);如果所有粒子中pbest(i)優(yōu)于當(dāng)前的種群最優(yōu)解gbest,則更新gbest。
(5)如果k>kmax,則終止迭代,輸出gbest對(duì)應(yīng)的時(shí)-頻參數(shù)組,即最優(yōu)原子;否則,令k=k+1,轉(zhuǎn)至(2),并更新信號(hào)或者信號(hào)殘差。
重復(fù)多次上述過(guò)程,實(shí)現(xiàn)優(yōu)化的OMP 信號(hào)稀疏分解,保存分解結(jié)果并重構(gòu)信號(hào)。
如果以重構(gòu)信號(hào)和原始信號(hào)的均方誤差(Mean Squared Error,MSE):
為衡量重構(gòu)信號(hào)的質(zhì)量的標(biāo)準(zhǔn),其中N 為信號(hào)長(zhǎng)度,n為采樣點(diǎn)索引值,f′(n)為重構(gòu)后的信號(hào),f(n)為原始信號(hào)。那么,MSE值越大,重構(gòu)質(zhì)量越差,MSE值越小,重構(gòu)質(zhì)量越好。
優(yōu)化OMP稀疏分解的過(guò)程是按照能量大小和相關(guān)度高低依次在每輪迭代中選擇最優(yōu)原子組成重構(gòu)信號(hào)的支撐集,而噪聲是對(duì)帶噪聲音信號(hào)進(jìn)行低維投影,當(dāng)觀測(cè)維數(shù)足夠包含有用信息時(shí),噪聲不具有稀疏性[15],從而保留聲音信號(hào)的主體部分。
由于優(yōu)化OMP稀疏分解得到的是聲音信號(hào)的主體部分,進(jìn)一步提高聲音信號(hào)的精度將導(dǎo)致優(yōu)化OMP 稀疏分解的計(jì)算量不斷增加。因此,采用短時(shí)譜估計(jì)算法[16]對(duì)殘余聲音信號(hào)做增強(qiáng)處理,補(bǔ)償優(yōu)化OMP 稀疏分解時(shí)缺失嚴(yán)重的聲音信號(hào),完成聲音信號(hào)的二次重構(gòu),提高重構(gòu)聲音信號(hào)的精度。
短時(shí)譜估計(jì)聲音增強(qiáng)算法步驟如下:
(1)對(duì)優(yōu)化OMP 稀疏分解后殘余聲音信號(hào)進(jìn)行短時(shí)傅里葉變換,得到短時(shí)幅度譜Y( )λ,k ,對(duì)其做一階平滑處理得到功率譜:
其中,λ 為幀索引,k 為頻率索引,α 為平滑因子,根據(jù)實(shí)際情況,本文α=0.7,|Y ( λ ,k)|2為殘余信號(hào)的功率譜。
(2)采用雙向搜索算法計(jì)算P(λ,k)的最小值Pmin(λ,k):
其中,Pf(λ,k)為前向搜索的最小值,Pb(λ,k)為后向搜索的最小值。
(3)計(jì)算有效信號(hào)存在的概率:
其中,c 為一個(gè)常量,通常設(shè)置為0.2。
H(λ,k)是有效信號(hào)存在的判別準(zhǔn)則,當(dāng)H(λ,k)值為0時(shí),表示該幀不存在有效信號(hào),當(dāng)H(λ,k)值為1時(shí),表示該幀存在有效信號(hào)。δ(k)是判決是否存在有效信號(hào)的閾值,當(dāng)k 小于1 kHz或界于1至3 kHz時(shí),取δ(k)=2,當(dāng)k 界于3 kHz 到信號(hào)采樣頻率的一半時(shí),取δ(k)=5,其他取1.5。
(4)計(jì)算時(shí)頻平滑因子:
其中,α1為常量平滑因子,設(shè)置為0.85。
(5)根據(jù)步驟(4)得到的時(shí)頻平滑因子σ(λ,k)去估計(jì)噪聲的功率譜:
(6)根據(jù)步驟(5)得到的噪聲功率譜去計(jì)算頻譜的增益因子:
(7)計(jì)算增強(qiáng)后的聲音信號(hào)功率譜:
最后,將優(yōu)化OMP 稀疏分解信號(hào)的功率譜Y1( )λ,k與經(jīng)過(guò)短時(shí)譜估計(jì)增強(qiáng)后的聲音功率譜作加權(quán)求和,得到二次重構(gòu)的聲音信號(hào)功率譜,對(duì)其進(jìn)行短時(shí)傅里葉逆變換成重構(gòu)信號(hào)。
為了更好地刻畫(huà)聲音信號(hào),本文從時(shí)域、頻域、時(shí)頻域分別提取了基頻特征(Pitch)、MFCC特征、優(yōu)化OMP特征,組成一個(gè)復(fù)合抗噪特征OOMP:
其中,Pitch 特征采用循環(huán)平均幅度差(CAMDF)函數(shù)提取,k 是計(jì)算第λ 幀聲音信號(hào)的采樣點(diǎn)偏移,m=0,1,…,N-1。
MFCC特征是對(duì)聲音信號(hào)分幀加窗,采用24階Mel濾波器組濾波后作離散余弦變換而得。
優(yōu)化OMP 特征是對(duì)重構(gòu)聲音信號(hào)提取時(shí)-頻參數(shù)組γ=(s,u,v,w)中s 和v 的均值和標(biāo)準(zhǔn)差構(gòu)成。
其中,λ 表示每幀聲音信號(hào)對(duì)應(yīng)的幀索引。
DBN[17-19]是由多層受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)組成的概率生成模型,首先采用貪心逐層無(wú)監(jiān)督學(xué)習(xí)算法自底向上的對(duì)輸入數(shù)據(jù)進(jìn)行提取和抽象,然后采用有監(jiān)督的方法對(duì)網(wǎng)絡(luò)權(quán)重值進(jìn)行調(diào)整和優(yōu)化深層結(jié)構(gòu),實(shí)現(xiàn)訓(xùn)練的整體最優(yōu),可以有效地表示和訓(xùn)練非線性數(shù)據(jù),克服傳統(tǒng)分類器數(shù)據(jù)過(guò)擬合的問(wèn)題。通過(guò)對(duì)多層RBM的學(xué)習(xí),前一層RBM隱層的輸出作為下一層RBM 可視層的輸入,并在最后一層采用BP 網(wǎng)絡(luò)進(jìn)行微調(diào),調(diào)整DBN 網(wǎng)絡(luò)模型參數(shù),優(yōu)化模型的分類性能。
實(shí)驗(yàn)采用的40類聲音均來(lái)自Freesound[20]聲音數(shù)據(jù)庫(kù)。分為哺乳動(dòng)物叫聲、鳥(niǎo)叫聲和昆蟲(chóng)叫聲3 大類,每類聲音有30個(gè)樣本,具體如表1所示。每個(gè)樣本是單聲道“.wav”格式,采樣率為44.1 kHz,聲音長(zhǎng)度為2 s,量化精度為16 位的聲音片段。實(shí)驗(yàn)中隨機(jī)選取20 個(gè)純凈聲音樣本作為訓(xùn)練樣本,剩余10 個(gè)樣本混合不同的環(huán)境噪聲組成多組測(cè)試樣本。實(shí)驗(yàn)用到的3 種噪聲為SONY ICD-UX512F 錄音棒以44.1 kHz 的采樣頻率錄取的真實(shí)環(huán)境噪聲,分別為風(fēng)聲、雷雨聲和雨天湖邊聲,按信噪比-5 dB、0 dB、10 dB、20 dB、30 dB 混入純凈聲音用于測(cè)試。
(1)PSO 優(yōu)化OMP 稀疏分解時(shí)根據(jù)文獻(xiàn)[13-14]及多次實(shí)驗(yàn)經(jīng)驗(yàn)設(shè)定n=20,kmax=20,xmax=N,vmax=2 π,α=0.729,c1=c2=2,wmax=0.95,wmin=0.4,p=0.2。
表1 聲音樣本集
(2)DBN 網(wǎng)絡(luò)中的相關(guān)參數(shù)根據(jù)文獻(xiàn)[17-19]以及多次實(shí)驗(yàn)做如下設(shè)定:第一層服從高斯分布的RBM 的學(xué)習(xí)率為0.001,迭代次數(shù)為200,剩余的二值型RBM的學(xué)習(xí)率為0.025,迭代次數(shù)為100次,動(dòng)量為0.5。經(jīng)多次實(shí)驗(yàn)經(jīng)驗(yàn),本文采用隱層數(shù)為4層,隱層單元數(shù)為512的DBN網(wǎng)絡(luò)。
(3)對(duì)比實(shí)驗(yàn)中SVM直接利用LIBSVM[21]工具箱進(jìn)行訓(xùn)練和測(cè)試建模,核函數(shù)為徑向基函數(shù),懲罰因子c=2,核參數(shù)g=2.8。綜合考慮本文實(shí)驗(yàn)樣本數(shù)量和特征維度以及文獻(xiàn)[22]建議,RF中決策樹(shù)的個(gè)數(shù)和分類屬性個(gè)數(shù),分別為500和5。
(1)優(yōu)化OMP稀疏分解和基于優(yōu)化OMP和短時(shí)譜估計(jì)二次重構(gòu)的增強(qiáng)效果及識(shí)別效果對(duì)比,初步驗(yàn)證基于優(yōu)化OMP和短時(shí)譜估計(jì)二次重構(gòu)精度高。
(2)在不同環(huán)境、不同信噪比中,采用小波增強(qiáng)[23]、多頻帶譜減法[24]和本文方法提取MFCC特征,驗(yàn)證不同聲音增強(qiáng)算法的抗噪性。
(3)各種環(huán)境下GLCM特征[19]、HOG特征[25]、LBP特征和本文的抗噪復(fù)合特征OOMP 識(shí)別率對(duì)比,驗(yàn)證OOMP特征能更好的表征聲音。
(4)本文與MP 結(jié)合SVM 的方法[26]和APNCC 結(jié)合SVM 的方法[27]的識(shí)別性能進(jìn)行對(duì)比,進(jìn)一步證實(shí)本文所提方法,在不同環(huán)境不同信噪比下,對(duì)聲音事件識(shí)別的有效性。
5.4.1 基于優(yōu)化OMP和短時(shí)譜估計(jì)二次重構(gòu)對(duì)比
為驗(yàn)證本文提出的基于優(yōu)化OMP和短時(shí)譜估計(jì)二次重構(gòu)的效果,采用一段包含兩個(gè)有效音節(jié)的山斑鳩聲音信號(hào)為例。圖3 表示優(yōu)化OMP 稀疏分解和基于優(yōu)化OMP 和短時(shí)譜估計(jì)二次重構(gòu)頻譜圖。其中,圖3(a)和(b)是原始山斑鳩聲音信號(hào)和添加10 dB流水噪聲的頻譜圖,圖3(c)和(d)是采用優(yōu)化OMP 稀疏分解首次重構(gòu)和殘余聲音信號(hào)的頻譜圖,圖3(e)是采用短時(shí)譜估計(jì)對(duì)殘余聲音信號(hào)進(jìn)行增強(qiáng)處理的頻譜圖,圖3(f)是對(duì)(b)進(jìn)行優(yōu)化OMP 稀疏分解和短時(shí)譜估計(jì)二次重構(gòu)的頻譜圖。
圖3 優(yōu)化OMP稀疏分解和基于優(yōu)化OMP和短時(shí)譜估計(jì)二次重構(gòu)頻譜圖
從圖3 可以看出,經(jīng)過(guò)優(yōu)化OMP 稀疏分解后聲音信號(hào)的主體部分得到保留,與聲音信號(hào)相關(guān)度低的噪聲被去除,但是聲音信號(hào)也有部分失真。采用短時(shí)譜估計(jì)作二次重構(gòu)后,聲音信號(hào)和原始聲音相似度更高,說(shuō)明優(yōu)化OMP系數(shù)分級(jí)和短時(shí)譜估計(jì)二次重構(gòu)能有效地重構(gòu)噪聲環(huán)境下的聲音信號(hào)。
圖4 表示優(yōu)化OMP 稀疏分解首次重構(gòu)和基于優(yōu)化OMP 和短時(shí)譜估計(jì)二次重構(gòu)的均方誤差圖。其中,MSE1 表示優(yōu)化OMP 稀疏分解聲音信號(hào)和帶噪聲信號(hào)之間的均方誤差,MSE2表示基于優(yōu)化OMP和短時(shí)譜估計(jì)二次重構(gòu)聲音信號(hào)和帶噪聲信號(hào)之間的均方誤差。MSE1 的曲線在MSE2 的曲線的上方,說(shuō)明本文方法能更加有效的重構(gòu)聲音信號(hào),重構(gòu)精度更高。
圖4 首次重構(gòu)與二次重構(gòu)質(zhì)量圖
表2 基于優(yōu)化OMP和短時(shí)譜估計(jì)二次重構(gòu)識(shí)別性能%
圖5 3種噪聲環(huán)境下不同聲音增強(qiáng)方法的識(shí)別率
為進(jìn)一步地驗(yàn)證本文二次重構(gòu)性能,模擬真實(shí)的環(huán)境聲,對(duì)測(cè)試樣本分別添加信噪比為-5 dB、0 dB、5 dB、10 dB、20 dB和30 dB的風(fēng)聲、雷雨聲和雨天湖邊聲3種自然噪聲,提取MFCC特征,采用SVM分類器中進(jìn)行分類,識(shí)別性能如表2所示。
從表2 中看出,經(jīng)優(yōu)化OMP 稀疏分解后,在3 種噪聲環(huán)境6 種信噪比下,其平均識(shí)別率分別為41.63%、42.48%和36.68%,而優(yōu)化OMP 和短時(shí)譜估計(jì)二次重構(gòu)后,其平均識(shí)別率分別為49.34%、51.82%和44.77%,比優(yōu)化OMP 稀疏分解高7.71%、9.34%和8.09%。從而可以看出本文方法可以提高重構(gòu)精度,在低信噪比時(shí),識(shí)別率有大幅的提升,能有效地重構(gòu)聲音信號(hào)。
5.4.2 不同聲音增強(qiáng)算法在不同環(huán)境及信噪比下對(duì)比
對(duì)測(cè)試樣本添加信噪比為-5 dB、0 dB、5 dB、10 dB、20 dB 和30 dB 的3 種環(huán)境聲,分別采用小波增強(qiáng)[23]、多頻帶譜減法[24]和優(yōu)化OMP和短時(shí)譜估計(jì)二次重構(gòu)方法提取MFCC 特征,采用上述實(shí)驗(yàn)選取的DBN 分類器進(jìn)行分類識(shí)別。圖5給出不同聲音增強(qiáng)算法在3種噪聲下的識(shí)別情況。
從圖5 可以看出,3 種聲音增強(qiáng)方法在不同信噪比下,小波增強(qiáng)的識(shí)別效果較差,多頻帶譜減法的識(shí)別性能適中,優(yōu)化OMP 和短時(shí)譜估計(jì)二次重構(gòu)的識(shí)別性能最好,說(shuō)明本文提出的方法在噪聲環(huán)境下識(shí)別性能較好。
5.4.3 不同特征在無(wú)環(huán)境聲和不同環(huán)境及信噪比下識(shí)別率對(duì)比
為了驗(yàn)證OOMP 特征的抗噪性,將OOMP 特征與GLCM 特征[9]、HOG 特征[23]和LBP 特征對(duì)比。表3 給出在無(wú)環(huán)境聲下,對(duì)重構(gòu)聲音信號(hào)提取OOMP特征、GLCM特征、HOG特征和LBP特征在DBN中的識(shí)別率。
表3 無(wú)噪聲條件下不同特征的比較
從表3可以看出,在無(wú)環(huán)境聲時(shí),4種特征的識(shí)別率都高,除了LBP 特征為87.56%以外,其余的都超過(guò)了90%,說(shuō)明這幾個(gè)特征在無(wú)噪聲情況下都能較好地刻畫(huà)聲音信號(hào)。
為驗(yàn)證在有環(huán)境噪聲時(shí)各種特征的識(shí)別性能,圖6給出4 種特征在信噪比為-5 dB、0 dB、5 dB、10 dB、20 dB和30 dB的風(fēng)聲噪聲中的識(shí)別性能。
從圖6 看出,在風(fēng)聲噪聲環(huán)境中,OOMP 特征,無(wú)論是在低信噪比還是高信噪比下,其識(shí)別率都是最高的,在高信噪比時(shí)甚至達(dá)到90%以上。在低信噪比,如-5 dB,依然能達(dá)到識(shí)別率為50.34%,說(shuō)明OOMP 特征是一個(gè)適合在噪聲環(huán)境下的抗噪性特征,能夠有效地刻畫(huà)聲音信號(hào)。
圖6 風(fēng)聲噪聲下不同特征的識(shí)別性能
5.4.4 與其他方法對(duì)比
這一步中,采用本文提出的方法與MP結(jié)合SVM的方法[26]和APNCC 特征結(jié)合SVM 的方法[27]對(duì)比,在3 種噪聲環(huán)境不同信噪比下的識(shí)別率,如圖7所示。
圖7 本文方法與其他方法在3種噪聲環(huán)境下的識(shí)別率
從圖7可以看出,MP特征結(jié)合SVM的方法的平均識(shí)別率最低,為48.94%。尤其在0 dB以下,都無(wú)法正常識(shí)別聲音事件。APNCC 特征結(jié)合SVM 的方法的平均識(shí)別率為57.30%,識(shí)別性能優(yōu)于MP 特征結(jié)合SVM 的方法,但是差于本文優(yōu)化OMP 和短時(shí)譜估計(jì)結(jié)合DBN的方法。本文提出的方法,在3 種噪聲環(huán)境下,無(wú)論是高信噪比還是低信噪比,識(shí)別性能都優(yōu)于其他方法,平均識(shí)別率為70.44%,識(shí)別率分別比前兩種高21.50%和13.14%。
實(shí)驗(yàn)表明,本文提出的基于優(yōu)化OMP 和短時(shí)譜估計(jì)結(jié)合DBN 的聲音事件識(shí)別方法,能有識(shí)別各種環(huán)境下不同信噪比的聲音事件;而且在不同環(huán)境不同信噪比下,本文方法與現(xiàn)有的APNCC 結(jié)合SVM 的方法和MP結(jié)合SVM 方法進(jìn)行比較,識(shí)別性能有一定優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果說(shuō)明本文提出的方法對(duì)于各種環(huán)境下聲音事件識(shí)別具有一定效果。下一階段,將研究分析聲音信號(hào)更為微弱、環(huán)境更為復(fù)雜和信噪比更低的聲音事件識(shí)。