• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于優(yōu)化正交匹配追蹤和深度置信網(wǎng)的聲音識(shí)別

      2017-04-20 03:38:32陳秋菊
      計(jì)算機(jī)應(yīng)用 2017年2期
      關(guān)鍵詞:隱層識(shí)別率信噪比

      陳秋菊,李 應(yīng)

      (福州大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福州 350116)

      (*通信作者電子郵箱fj_liying@fzu.edu.cn)

      基于優(yōu)化正交匹配追蹤和深度置信網(wǎng)的聲音識(shí)別

      陳秋菊,李 應(yīng)*

      (福州大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福州 350116)

      (*通信作者電子郵箱fj_liying@fzu.edu.cn)

      針對(duì)各種環(huán)境聲音對(duì)聲音事件識(shí)別的影響,提出一種基于優(yōu)化的正交匹配追蹤(OOMP)和深度置信網(wǎng)(DBN)的聲音事件識(shí)別方法。首先,利用粒子群優(yōu)化(PSO)算法優(yōu)化OMP稀疏分解,在實(shí)現(xiàn)正交匹配追蹤(OMP)的快速稀疏分解的同時(shí),保留聲音信號(hào)的主體部分,抑制噪聲對(duì)聲音信號(hào)的影響;接著,對(duì)重構(gòu)聲音信號(hào)提取Mel頻率倒譜系數(shù)(MFCC)、OMP時(shí)-頻特征和基音頻率(Pitch)特征,組成OOMP的復(fù)合特征;最后,使用DBN對(duì)提取的OOMP特征進(jìn)行特征學(xué)習(xí),并對(duì)40種聲音事件在不同環(huán)境不同信噪比下進(jìn)行識(shí)別。實(shí)驗(yàn)結(jié)果表明,OOMP特征結(jié)合DBN的方法適用于各種環(huán)境聲下的聲音事件識(shí)別,而且能有效地識(shí)別各種環(huán)境下的聲音事件,即使在信噪比(SNR)為0 dB的情況下,仍然能保持平均60%的識(shí)別率。

      聲音事件識(shí)別;正交匹配追蹤;稀疏分解;粒子群優(yōu)化;深度置信網(wǎng)

      0 引言

      近年來(lái),深度學(xué)習(xí)引起許多研究者的關(guān)注,主要原因在于深度學(xué)習(xí)擁有從未知目標(biāo)上自動(dòng)學(xué)習(xí)特征的能力,而且其分類性能比傳統(tǒng)的分類器更好。深度學(xué)習(xí)的這種優(yōu)點(diǎn)被用來(lái)處理高維數(shù)據(jù)以及復(fù)雜的音頻數(shù)據(jù),因此,深度學(xué)習(xí)在聲音識(shí)別[1-4]、音頻信息檢索[5-6]和多媒體分類[7-8]等研究領(lǐng)域具有重要意義。

      目前,基于深度學(xué)習(xí)的方法在聲音事件識(shí)別方面已有一定的研究。其中,Yu等[9]利用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)提取聲音信號(hào)的判決內(nèi)部表示用于聲音的分類;Dahl等[10]使用DNN建立了一個(gè)上下文相關(guān)的模型用于大量詞匯的語(yǔ)音識(shí)別;McLoughlin等[11]提出基于聲譜圖的前端特征并結(jié)合支持向量機(jī)(Support Vector Machine, SVM)和DNN分類聲音事件。

      但是,訓(xùn)練含有許多隱層的DNN時(shí)會(huì)產(chǎn)生向更深層傳播訓(xùn)練錯(cuò)誤的問(wèn)題。為了解決這個(gè)問(wèn)題,Hinton等[12]提出采用一種無(wú)監(jiān)督學(xué)習(xí)的貪心逐層訓(xùn)練方式訓(xùn)練神經(jīng)網(wǎng)絡(luò),即深度置信網(wǎng)絡(luò)(Deep Belief Network, DBN)。該網(wǎng)絡(luò)訓(xùn)練層采用受限玻爾茲曼機(jī)(Restricted Boltzmann Machine, RBM)[13-16]進(jìn)行無(wú)監(jiān)督學(xué)習(xí),然后在網(wǎng)絡(luò)的頂層采用有監(jiān)督的反向傳播(Back Propagation, BP)網(wǎng)絡(luò)進(jìn)行網(wǎng)絡(luò)參數(shù)的微調(diào),更有利于處理高維數(shù)據(jù)以及復(fù)雜的音頻數(shù)據(jù)的識(shí)別。關(guān)于DBN的研究有:Farahat等[17]提出利用DBN提取語(yǔ)音幀的判決信息,并且采用非線性變換增強(qiáng)特征的抗噪性能;Mohamed等[18]提出利用DBN建立一個(gè)聲音模型用于語(yǔ)音識(shí)別;Guo等[19]提出使用DBN捕獲聲音事件的時(shí)域信息用于音頻分類。

      然而,真實(shí)環(huán)境中存在著復(fù)雜多變的噪聲,尤其是低信噪比(Signal-to-Noise Ratio, SNR),對(duì)聲音事件識(shí)別產(chǎn)生較大的干擾。常用的降低噪聲影響的方法有卡爾曼濾波[20]、小波增強(qiáng)[21]、多頻帶譜減法[22]等。這些方法需要先驗(yàn)地獲得待檢測(cè)信號(hào)或噪聲信號(hào)的統(tǒng)計(jì)特性。基于匹配追蹤(Matching Pursuit, MP)的方法利用信號(hào)的稀疏性,將信號(hào)稀疏分解重構(gòu)進(jìn)行自適應(yīng)表示,不需要先驗(yàn)地獲得待檢測(cè)信號(hào)和噪聲信號(hào)的統(tǒng)計(jì)特性,適合于各種環(huán)境下聲音事件的識(shí)別。

      關(guān)于MP的研究主要有:Chu等[23]將MP特征結(jié)合Mel頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient, MFCC)特征,用k-最近鄰(k-Nearest Neighbor,kNN)和高斯混合模型(Gaussian Mixture Model, GMM)分類器對(duì)聲音事件進(jìn)行分類識(shí)別;Wang等[24]利用主成分分析(Principal Component Analysis, PCA)和線性判別分析(Linear Discriminant Analysis, LDA)對(duì)MP稀疏分解的原子進(jìn)行降維處理作為聲音事件的特征,并用SVM分類器對(duì)聲音事件進(jìn)行分類識(shí)別;Mallat等[25]提出利用過(guò)完備原子字典將原信號(hào)進(jìn)行稀疏分解,通過(guò)稀疏逼近重構(gòu)信號(hào)。由于MP在稀疏分解時(shí)需要迭代次數(shù)較多,收斂較慢,文獻(xiàn)[26]在MP的基礎(chǔ)上提出正交匹配追蹤(Orthogonal Matching Pursuit, OMP)算法,該算法可以在較少的迭代中完成信號(hào)的收斂。

      OMP稀疏分解在搜索最優(yōu)原子時(shí)存在計(jì)算復(fù)雜度高的問(wèn)題。為了實(shí)現(xiàn)OMP快速稀疏分解,本文提出基于優(yōu)化的OMP和DBN聲音事件識(shí)別方法。首先,從聲音事件樣本庫(kù)中選擇聲音事件,將其分為訓(xùn)練樣本集和測(cè)試樣本集;然后,在保證收斂精度的前提下,采用粒子群優(yōu)化(Particle Swarm Optimization, PSO)算法對(duì)選擇的樣本進(jìn)行OMP稀疏分解;接著,對(duì)重構(gòu)信號(hào)提取優(yōu)化的正交匹配追蹤(Optimized Orthogonal Matching Pursuit, OOMP)復(fù)合特征;最后,使用DBN對(duì)OOMP特征進(jìn)行分類識(shí)別。

      1 OMP信號(hào)稀疏分解

      OMP算法在MP算法的基礎(chǔ)上利用Gram-Schmidt方法將選擇的最優(yōu)原子與已選擇原子集合進(jìn)行正交化處理,以保證在相同精度的前提下,收斂速度更快。

      假設(shè)待分解信號(hào)f,長(zhǎng)度為N,在進(jìn)行OMP稀疏分解前,首先要構(gòu)造一個(gè)過(guò)完備字典D=(gγ)γ ∈ Г,Г為γ的集合。本文選擇的Gabor字典[25]由一個(gè)調(diào)制的高斯窗函數(shù)g(t)=e-πt2構(gòu)成,

      (1)

      其中:平移因子μ是原子的中心位置;伸縮因子s、頻率因子v和相位因子ω定義原子gγ的波形。實(shí)際應(yīng)用中需要對(duì)時(shí)-頻參數(shù)γ=(s,μ,v,ω)進(jìn)行離散化[25]:

      γ=(s,μ,v,ω)=(aj,dajΔμ,k1a-jΔv,iΔω)

      (2)

      其中:0

      OMP稀疏分解如圖1點(diǎn)劃線框部分所示,過(guò)程如下:

      1) 初始化信號(hào)殘差R0=f,迭代次數(shù)k=1,最大迭代次數(shù)kmax,已選原子集合p1=gγ1,歸一化后得到u1。

      2) 從過(guò)完備原子字典D中選出第k次迭代與信號(hào)殘差最為相關(guān)的原子gγk,即內(nèi)積|〈Rk-1,gγ〉|最大:

      (3)

      其中0<α≤1,表示最優(yōu)因子。

      3) 利用Gram-Schmidt方法將gγk關(guān)于已選原子集{gγi}(0

      (4)

      4) 將殘差投影到uk上得到新的殘差Rk+1:

      Rk+1=Rk-〈Rk,uk〉uk

      (5)

      5) 若未達(dá)到最大迭代次數(shù)kmax,設(shè)置k=k+1,返回2),否則轉(zhuǎn)至6)。

      6) 經(jīng)過(guò)逐次迭代稀疏分解得到一系列原子,輸出第kmax次的近似原子展開(kāi)式:

      (6)

      即對(duì)聲音信號(hào)進(jìn)行OMP稀疏分解重構(gòu)。

      圖1 PSO優(yōu)化的OMP最優(yōu)原子搜索過(guò)程

      2 優(yōu)化的OMP聲音事件識(shí)別架構(gòu)

      2.1 PSO最優(yōu)原子搜索策略

      PSO的基本思想是利用粒子之間的協(xié)作與競(jìng)爭(zhēng),實(shí)現(xiàn)對(duì)復(fù)雜空間最優(yōu)解的搜索[27-28]。在每一次的搜索中,粒子通過(guò)跟蹤兩個(gè)“極值”來(lái)更新自己的信息,一個(gè)是當(dāng)前粒子的極值點(diǎn);另一個(gè)是當(dāng)前整個(gè)粒子種群找到的最優(yōu)解,即全局極值點(diǎn)。

      對(duì)OMP稀疏分解,瓶頸主要集中在式(3)的最優(yōu)原子搜索過(guò)程。為此,利用PSO對(duì)最優(yōu)原子搜索過(guò)程進(jìn)行優(yōu)化,其流程如圖1虛線框部分所示。

      在該優(yōu)化算法中,將時(shí)-頻參數(shù)組γk=(s,μ,v,ω)作為待優(yōu)化的參數(shù),對(duì)應(yīng)第k次分解時(shí)粒子i在字典空間中所處的位置:

      xi(k)=[si(k),μi(k),vi(k),ωi(k)]

      (7)

      將時(shí)-頻原子與第k次分解時(shí)信號(hào)的殘差的內(nèi)積|〈Rk,gγk〉|作為適應(yīng)值函數(shù)f[xi(k)],用來(lái)衡量粒子所處位置的質(zhì)量。根據(jù)粒子群的移動(dòng)和聚集,得到一個(gè)具有最大適應(yīng)值的位置,即最優(yōu)原子參數(shù)。

      PSO優(yōu)化搜索詳細(xì)過(guò)程如下:

      1) 初始化PSO種群規(guī)模m,迭代次數(shù)k=1,最大迭代次數(shù)kmax,搜索范圍[xmin,xmax],速度范圍[vmin,vmax],隨機(jī)生成每個(gè)粒子i的初始速度和位置,計(jì)算初始適應(yīng)值f[xi(k)],并設(shè)置為粒子i的當(dāng)前個(gè)體最優(yōu)解pbest(i),將最大的pbest(i)設(shè)置為種群最優(yōu)解gbest。

      2) 更新每個(gè)粒子的速度與位置。判斷粒子的速度是否超出界限,如果出界則更新;判斷粒子的位置是否在過(guò)完備原子字典中,如果不在,則取邊界值代替粒子的位置:

      vi(k+1)=α1{wvi(k)+c1r[pbest(i)-xi(k)]+c2r[gbest-xi(k)]}

      (8)

      xi(k+1)=xi(k)+vi(k+1)

      (9)

      其中:α1為收斂因子,α1越大收斂速度越快;c1和c2為學(xué)習(xí)因子;r為(0,1)內(nèi)均勻分布的隨機(jī)數(shù);w為慣性權(quán)重因子,w較大則具有較強(qiáng)的全局搜索能力,較小則傾向于局部搜索。

      但是,若w取值太大,可能導(dǎo)致粒子速度過(guò)大從而跳過(guò)最優(yōu)解;若w取值太小則可能導(dǎo)致粒子搜索前期收斂速度太慢。本文采用線性慣性權(quán)重遞減策略,w值隨迭代次數(shù)線性遞減:

      w=wmax-k×(wmax-wmin)/kmax

      (10)

      3) 為了避免出現(xiàn)局部最優(yōu)現(xiàn)象,設(shè)置變異概率P,對(duì)粒子進(jìn)行位置變異。

      4) 計(jì)算粒子的適應(yīng)值f[xi(k+1)],如果該值優(yōu)于當(dāng)前的個(gè)體極值點(diǎn)pbest(i),則用當(dāng)前粒子所處位置更新pbest(i);如果所有粒子中有pbest(i)優(yōu)于當(dāng)前的種群最優(yōu)解gbest,則更新gbest。

      5) 如果k>kmax,則終止迭代,輸出gbest對(duì)應(yīng)的時(shí)-頻參數(shù)組,即最優(yōu)原子;否則,令k=k+1,轉(zhuǎn)至2),并更新信號(hào)或者信號(hào)殘差。

      Rk+1=Rk-〈Rk,uk〉uk

      (11)

      重復(fù)多次上述過(guò)程,實(shí)現(xiàn)優(yōu)化的OMP信號(hào)稀疏分解,保存分解結(jié)果并重構(gòu)信號(hào)。

      以重構(gòu)信號(hào)和原始信號(hào)的均方誤差(Mean Squared Error, MSE)作為衡量重構(gòu)信號(hào)的質(zhì)量的標(biāo)準(zhǔn)。

      (12)

      其中:N為信號(hào)長(zhǎng)度;y為采樣點(diǎn)索引值;f′(y)為重構(gòu)后的信號(hào);f(y)為原始信號(hào)。MSE值越大,重構(gòu)質(zhì)量越差;MSE值越小,重構(gòu)質(zhì)量越好。

      對(duì)于長(zhǎng)度為256的聲音信號(hào),表1給出了采用原始OMP和優(yōu)化OMP在稀疏度為20時(shí)的稀疏分解計(jì)算量。表1中,原OMP方法的參數(shù)設(shè)置見(jiàn)文獻(xiàn)[25];優(yōu)化OMP方法中的粒子種群大小為30,最大迭代次數(shù)為15。從表1中可以看出,兩種方法之間的MSE相差不大,但是優(yōu)化OMP在搜索次數(shù)和內(nèi)積計(jì)算次數(shù)上分別減少了119 306次和2 386 120次,時(shí)間上優(yōu)化OMP僅為原始OMP的1.58%,說(shuō)明采用PSO優(yōu)化OMP的方法在保證聲音信號(hào)重構(gòu)質(zhì)量的同時(shí),實(shí)現(xiàn)了OMP的快速稀疏分解。

      表1 稀疏分解計(jì)算比較

      2.2 OOMP特征提取

      OMP稀疏分解采用的Gabor原子由調(diào)制的高斯窗函數(shù)構(gòu)成,而高斯型函數(shù)在時(shí)域和頻域都是局部化的,其局部特性保證了原子時(shí)-頻參數(shù)能夠較好地刻畫信號(hào)的非平穩(wěn)時(shí)變特性。OMP稀疏分解將待提取的有用信息作為稀疏成分,將噪聲作為殘差成分,對(duì)噪聲進(jìn)行低維投影后,噪聲不具有稀疏性[29]。在重構(gòu)信號(hào)時(shí),殘差部分的噪聲很難恢復(fù),從而達(dá)到消除噪聲成分、增強(qiáng)聲音事件信號(hào)的目的。

      通過(guò)優(yōu)化OMP稀疏分解聲音信號(hào),獲得表示該信號(hào)的時(shí)-頻參數(shù)組γk=(s,μ,v,ω)中伸縮因子s和頻率因子v的均值和標(biāo)準(zhǔn)差,構(gòu)成OMP特征。

      OMP(λ)=[mean(s,v),std(s,v)]

      (13)

      其中λ表示每幀聲音信號(hào)對(duì)應(yīng)的幀索引。

      對(duì)于聲音信號(hào),重構(gòu)精度隨著稀疏度的增加而不斷提升。但是,稀疏度過(guò)高,在重構(gòu)聲音信號(hào)主體時(shí),噪聲信號(hào)的重構(gòu)比例也會(huì)相應(yīng)地提升。所以,在保證重構(gòu)精度的前提下,筆者經(jīng)過(guò)實(shí)驗(yàn)確定OMP稀疏分解在稀疏度為20時(shí)重構(gòu)效果最好。

      由于OMP特征維數(shù)較少,單獨(dú)使用OMP特征的識(shí)別效果不理想;而MFCC將線性頻譜映射到基于聽(tīng)覺(jué)感知的Mel非線性頻譜中再轉(zhuǎn)換到倒譜上,能夠較好地刻畫聲音特征,但是在噪聲環(huán)境下,MFCC的性能大幅下降;此外,真實(shí)環(huán)境中不同聲音存在不同的基音頻率(Pitch)范圍,而Pitch作為特征描述聲音具有很好的區(qū)分性。針對(duì)這些問(wèn)題,本文除了提取OMP特征外,還提取重構(gòu)聲音信號(hào)的MFCC特征和Pitch特征,來(lái)補(bǔ)充OMP特征,組成一個(gè)OOMP復(fù)合特征。

      2.3 DBN

      DBN是由多層受限玻爾茲曼機(jī)(RBM)[13-16]組成的概率生成模型,采用貪心逐層無(wú)監(jiān)督學(xué)習(xí)算法,自底向上地對(duì)輸入的數(shù)據(jù)進(jìn)行提取和抽象,并通過(guò)對(duì)網(wǎng)絡(luò)權(quán)重值的調(diào)整和深層結(jié)構(gòu)的優(yōu)化實(shí)現(xiàn)訓(xùn)練的整體最優(yōu),可以有效地表示和訓(xùn)練非線性數(shù)據(jù)。

      2.3.1 受限玻爾茲曼機(jī)

      RBM是由可視層和隱層組成的無(wú)向圖模型,可視層表示輸入數(shù)據(jù),隱層是學(xué)習(xí)可視層輸入數(shù)據(jù)的內(nèi)在特征的二值表示,可視層和隱層之間通過(guò)權(quán)值進(jìn)行連接,而層內(nèi)是無(wú)連接的。根據(jù)輸入數(shù)據(jù)類型不同,RBM的能量函數(shù)E為:

      (14)

      (15)

      式(14)和式(15)分別表示可視層輸入數(shù)據(jù)類型為二值型和連續(xù)型。其中:θ={w,ɑ,b}表示RBM模型的參數(shù);wij表示可視單元i和隱層單元j之間的權(quán)重;bi和aj是其偏置項(xiàng);NV和NH分別是可視單元和隱層單元的數(shù)目。

      根據(jù)能量函數(shù)E可以得到可視單元和隱層單元狀態(tài)的聯(lián)合概率:

      (16)

      (17)

      (18)

      其中σ(x)=1/(1+exp(-x))。

      當(dāng)輸入數(shù)據(jù)類型為連續(xù)型時(shí),式 (18)更新為:

      (19)

      其中N(·)是均值為0、方差為1的高斯分布。

      RBM按照梯度下降法[12]進(jìn)行極大似然學(xué)習(xí),即最大化輸入的重構(gòu)概率。為了提高訓(xùn)練速度和減少訓(xùn)練時(shí)間,本文采用單步對(duì)比散度CD1(Contrastive Divergence)算法[12-13,17]來(lái)逼近梯度。因此,RBM參數(shù)按照如下公式進(jìn)行更新:

      Δwij=ε(Ed(vihj)-Er(vihj))

      (20)

      Δbi=ε(Ed(vi)-Er(vi))

      (21)

      Δaj=ε(Ed(hj)-Er(hj))

      (22)

      其中:ε表示學(xué)習(xí)率;Ed(vihj)表示訓(xùn)練數(shù)據(jù)集的期望;Er(vihj)表示采用CD1算法計(jì)算出的樣本分布的期望。

      2.3.2DBN構(gòu)建

      通過(guò)對(duì)多層RBM的學(xué)習(xí),前一層RBM隱層的輸出作為下一層RBM可視層的輸入,并在最后一層采用BP網(wǎng)絡(luò)進(jìn)行微調(diào),微調(diào)的目的是調(diào)整DBN模型參數(shù),從而優(yōu)化模型的分類性能。因此,本文構(gòu)建一個(gè)經(jīng)過(guò)RBM無(wú)監(jiān)督學(xué)習(xí)和BP有監(jiān)督微調(diào)的DBN模型架構(gòu),具體如圖2所示。

      圖2 DBN模型

      DBN訓(xùn)練過(guò)程主要有兩個(gè)步驟:

      1)根據(jù)輸入的OOMP特征自底向上地訓(xùn)練RBM;

      2)根據(jù)1)的訓(xùn)練結(jié)果,采用BP算法對(duì)整個(gè)DBN結(jié)構(gòu)進(jìn)行參數(shù)的微調(diào),使其更有利于分類。

      由于聲音特征的聲學(xué)特性,采用二值型RBM進(jìn)行特征學(xué)習(xí)將會(huì)丟失特征的屬性。因此,本文DBN中第一層RBM的可視層采用服從高斯分布的RBM,其余仍為二值RBM。

      3 實(shí)驗(yàn)與分析

      3.1 聲音樣本

      實(shí)驗(yàn)采用的40類聲音均來(lái)自Freesound[30]聲音數(shù)據(jù)庫(kù),分為哺乳動(dòng)物叫聲、鳥叫聲和昆蟲叫聲3大類,每類聲音有30個(gè)樣本,具體如表2所示。

      表2 聲音事件樣本集

      每個(gè)樣本是單聲道“.wav”格式、采樣率為44.1kHz、聲音長(zhǎng)度為2s、量化精度為16位的聲音片段。為了保持實(shí)驗(yàn)數(shù)據(jù)的相對(duì)獨(dú)立性,訓(xùn)練聲音樣本和測(cè)試聲音樣本沒(méi)有重復(fù)數(shù)據(jù)。從每一類樣本中隨機(jī)選取20個(gè)純凈聲音樣本作為訓(xùn)練樣本,剩余的10個(gè)樣本混合不同的環(huán)境噪聲組成多組測(cè)試樣本,共有1 200個(gè)樣本,其中訓(xùn)練樣本集800個(gè),測(cè)試樣本集400個(gè)。實(shí)驗(yàn)用到的3種噪聲為SONYICD-UX512F錄音棒以44.1kHz的采樣頻率錄取的真實(shí)環(huán)境噪聲,分別為風(fēng)聲、雷雨聲和雨天湖邊聲,按信噪比0、10、20、30dB混入純凈聲音用于測(cè)試。

      3.2 參數(shù)設(shè)定

      1)提取MFCC特征中,采用24階Mel三角帶通濾波器組,提取12維離散余弦變換系數(shù),加上對(duì)數(shù)能量作為第13維特征;采用循環(huán)平均幅度差函數(shù)(CircleAverageMagnitudeDifferenceFunction,CAMDF)提取每幀聲音信號(hào)的1維Pitch特征。此外,本文對(duì)聲音信號(hào)以幀為單位提取特征,根據(jù)上面訓(xùn)練和測(cè)試集樣本大小,OOMP訓(xùn)練特征大小為132 800×18,測(cè)試特征大小為66 400×18。對(duì)于抗噪冪歸一化倒譜系數(shù)(Anti-noisePowerNormalizedCepstralCofficient,APNCC)特征,采用32階的Gammatone濾波器,提取12維離散余弦變換系數(shù)。

      2)PSO算法中的參數(shù)根據(jù)文獻(xiàn)[27-28]以及多次實(shí)驗(yàn)作如下設(shè)定:種群大小為20,最大迭代次數(shù)為20,粒子搜索最大值為聲音長(zhǎng)度,速度最大值為2π,收斂因子為0.729,學(xué)習(xí)因子為2,權(quán)重最大值為0.95,最小值為0.4,變異概率為0.2。

      3)DBN中的相關(guān)參數(shù)根據(jù)文獻(xiàn)[12-13]以及多次實(shí)驗(yàn)作如下設(shè)定:第一層服從高斯分布的RBM的學(xué)習(xí)率為0.001,迭代次數(shù)為200,其余的二值型RBM的學(xué)習(xí)率為0.025,迭代次數(shù)為100,動(dòng)量為0.5。

      4)本文實(shí)驗(yàn)中用到SVM和隨機(jī)森林(RandomForests,RF)分類器。其中:SVM是直接利用LIBSVM[31]工具箱進(jìn)行SVM的訓(xùn)練和測(cè)試建模,核函數(shù)為徑向基核函數(shù),懲罰因子c=2,核參數(shù)g=2.8;而RF分類器中的決策樹的個(gè)數(shù)和分類屬性個(gè)數(shù),則綜合考慮本文實(shí)驗(yàn)樣本數(shù)量和特征維度以及文獻(xiàn)[32]建議,分別設(shè)置為500和5。

      3.3 實(shí)驗(yàn)結(jié)果與分析

      3.3.1 OOMP稀疏分解對(duì)聲音信號(hào)的增強(qiáng)

      圖3中:圖(a)是一段包含2個(gè)有效音節(jié)的山斑鳩聲音信號(hào)的聲譜圖;圖(b)是對(duì)該聲音信號(hào)添加10 dB的流水噪聲的聲譜圖;圖(c)是采用小波增強(qiáng)法對(duì)圖(b)進(jìn)行重構(gòu)后的聲譜;圖(d)是采用多頻帶譜減法對(duì)圖(b)進(jìn)行重構(gòu)后的聲譜圖;而圖(e)是經(jīng)過(guò)OOMP稀疏分解后對(duì)圖(b)進(jìn)行重構(gòu)的聲譜圖。

      從圖3中可以看出,采用小波增強(qiáng)和多頻帶譜減法對(duì)帶噪聲音信號(hào)增強(qiáng)后,噪聲殘留成分較多。經(jīng)過(guò)OOMP稀疏分解重構(gòu)后,聲音信號(hào)的主體部分得到保留,而與信號(hào)相關(guān)度低的噪聲信號(hào)被去除,聲音增強(qiáng)效果較好。圖3(e)初步說(shuō)明,OOMP稀疏分解在聲音增強(qiáng)性能上優(yōu)于小波增強(qiáng)和多頻帶譜減法。

      3.3.2 不同深度結(jié)構(gòu)的DBN識(shí)別性能

      由于DBN的深度不同,其識(shí)別效果也不同。為了選取出較好的DBN結(jié)構(gòu),分別構(gòu)建不同隱層數(shù)和不同隱層單元數(shù)[17]的DBN,對(duì)重構(gòu)聲音信號(hào)提取MFCC特征,將該特征放入DBN中進(jìn)行訓(xùn)練識(shí)別。表3表示不同深度結(jié)構(gòu)的DBN識(shí)別性能。從表3中可以看出,隨著DBN隱層數(shù)的增加,識(shí)別性能越來(lái)越好,最好的訓(xùn)練正確率和測(cè)試正確率分別達(dá)到98.21%和96.41%,但是當(dāng)隱層數(shù)增加到第5層和第7層時(shí),識(shí)別性能反而開(kāi)始逐漸減少。在層數(shù)相同時(shí),DBN的識(shí)別性能隨著隱層單元數(shù)的增加而增加,直至隱層單元個(gè)數(shù)為512。當(dāng)隱層單元個(gè)數(shù)大于512,其識(shí)別性能逐漸開(kāi)始下降,這是因?yàn)殡S著DBN結(jié)構(gòu)越來(lái)越復(fù)雜,可能出現(xiàn)過(guò)擬合現(xiàn)象,從而導(dǎo)致識(shí)別性能降低。因此,綜合考慮隱層數(shù)和隱層單元數(shù)的識(shí)別性能,本文采用包含隱層數(shù)為4、隱層單元數(shù)為512的DBN。

      圖3 山斑鳩聲音信號(hào)的聲譜

      表3 不同深度結(jié)構(gòu)的DBN識(shí)別性能

      Tab.3 Recognition performance of DBN with different depth structures

      隱層數(shù)各隱層單元數(shù)訓(xùn)練正確率/%測(cè)試正確率/%23457[100?50]95.8087.26[256?100]96.1289.83[512?250]96.8490.05[1024?500]96.0087.58[100?80?50]96.2988.24[256?170?90]96.8892.57[512?280?120]97.2593.98[1024?500?250]96.2588.25[256?140?80?50]97.5892.83[300?180?90?50]97.8393.58[512?300?150?100]98.2196.41[1050?520?250?125]96.5390.81[300?170?90?70?50]97.5590.76[340?280?160?80?50]97.6291.34[600?320?180?120?90]97.8795.84[1100?570?280?140?70]96.3489.75[350?250?190?150?90?70?50]97.3989.41[400?250?180?120?90?70?50]97.4190.42[620?350?200?150?90?70?50]97.5492.67[1200?650?330?180?90?70?50]95.8785.64

      3.3.3 不同特征在無(wú)環(huán)境聲和不同壞境不同信噪比下比較

      選取OMP特征、MFCC特征、OMP+MFCC特征和OOMP特征,放入3.3.2節(jié)選定的DBN中訓(xùn)練,在無(wú)噪聲條件下進(jìn)行識(shí)別率對(duì)比實(shí)驗(yàn),結(jié)果如表4所示。由表4可知,在無(wú)噪聲條件下,除了OMP特征外,其他三個(gè)特征對(duì)聲音事件的識(shí)別率都較高。單獨(dú)使用OMP特征,由于特征維數(shù)過(guò)低,識(shí)別效果不理想;而采用OMP特征和MFCC特征結(jié)合后,識(shí)別效果得到大幅提升;再用Pitch特征補(bǔ)充后,OOMP特征識(shí)別效果達(dá)到最佳。

      表4 無(wú)噪聲條件下不同特征的識(shí)別率比較

      對(duì)測(cè)試樣本分別添加信噪比為0、10、20和30 dB的三種環(huán)境聲,測(cè)試四種特征在三種噪聲環(huán)境下不同信噪比的識(shí)別性能,結(jié)果如表5所示。

      表5 四種特征在三種噪聲環(huán)境下不同信噪比的識(shí)別率 %

      從表5可以看出,不同的噪聲環(huán)境對(duì)識(shí)別性能的影響不一樣。其中,MFCC特征在三種噪聲不同信噪比下的識(shí)別率均最低,說(shuō)明MFCC特征不適合噪聲環(huán)境下的聲音事件識(shí)別;OMP特征的識(shí)別率稍好于MFCC特征,但效果也不理想;而OOMP特征的識(shí)別率比OMP特征和OMP+MFCC特征均要好,說(shuō)明經(jīng)過(guò)OMP特征、MFCC特征和Pitch特征的結(jié)合形成的OOMP特征能有效地提高識(shí)別性能,具有較好的抑制環(huán)境聲音的特性。表5還顯示出,雨天湖邊噪聲環(huán)境對(duì)識(shí)別率的影響最大,風(fēng)聲和雷雨聲噪聲對(duì)識(shí)別率的影響相對(duì)較小。OOMP特征識(shí)別率遠(yuǎn)高于單獨(dú)的OMP特征和MFCC特征,也優(yōu)于OMP+MFCC特征,從而說(shuō)明OOMP特征是一個(gè)較好的特征,適合用于各種環(huán)境下的聲音事件識(shí)別。

      3.3.4 不同聲音增強(qiáng)方法在不同環(huán)境和信噪比下比較

      利用風(fēng)聲、雷雨聲和雨天湖邊聲來(lái)模擬真實(shí)的環(huán)境聲音,分別對(duì)測(cè)試樣本添加信噪比為0、10、20和30 dB的三種環(huán)境聲,提取它們的OOMP特征,以及經(jīng)小波和多頻帶譜減法增強(qiáng)后的兩組MFCC特征,并采用DBN分別對(duì)三組特征進(jìn)行識(shí)別,結(jié)果如圖4。從圖4可以看出,三種聲音增強(qiáng)方法中,在各種環(huán)境及各種信噪比下,小波增強(qiáng)的性能相對(duì)來(lái)說(shuō)較差,多頻帶譜減法性能稍微優(yōu)于小波增強(qiáng),而OOMP特征的識(shí)別性能最好,從而說(shuō)明了在各種環(huán)境及各種信噪比下,OOMP特征仍然能保持最好的識(shí)別效果。

      3.3.5 不同分類器比較

      將OOMP復(fù)合特征分別放入SVM、RF和DBN分類器訓(xùn)練,對(duì)其識(shí)別性能進(jìn)行比較,結(jié)果如圖5所示。從圖5中可以看出,在三種噪聲環(huán)境下,信噪比為0 dB和10 dB時(shí),OOMP特征結(jié)合DBN的平均識(shí)別率比OOMP特征結(jié)合SVM或RF的平均識(shí)別率要高;在風(fēng)聲和雷雨聲的情況下,OOMP特征結(jié)合RF的識(shí)別性能在20 dB和30 dB時(shí)稍微優(yōu)于DBN分類器;在雨天湖邊噪聲的所有信噪比下,OOMP特征的識(shí)別性能都是最好的。在三種噪聲環(huán)境下,尤其是低信噪比時(shí),本文方法識(shí)別率都高于OOMP特征結(jié)合SVM和RF的方法,從而也說(shuō)明了DBN分類器的分類性能優(yōu)于傳統(tǒng)的分類器。

      3.3.6 與其他方法的比較

      把OOMP特征結(jié)合DBN的方法與APNCC結(jié)合SVM的方法[33]和MP結(jié)合SVM的方法[24]分別進(jìn)行比較,在同上所述的三種噪聲環(huán)境下的識(shí)別率對(duì)比如圖6所示??梢钥闯?,MP結(jié)合SVM的方法的平均識(shí)別率最低,而APNCC結(jié)合SVM的方法的平均識(shí)別率優(yōu)于MP結(jié)合SVM的方法;本文提出的OOMP特征結(jié)合DBN的方法的平均識(shí)別率最高。即在三種噪聲環(huán)境下,無(wú)論是高信噪比還是低信噪比,本文方法的識(shí)別率都高于APNCC結(jié)合SVM和MP結(jié)合SVM的方法。

      圖4 三種聲音增強(qiáng)方法在不同環(huán)境及信噪比下的識(shí)別率比較

      圖5 OOMP特征結(jié)合不同分類器在不同環(huán)境及信噪比下的識(shí)別率比較

      圖6 本文方法與對(duì)比方法在不同環(huán)境及信噪比下的識(shí)別率比較

      4 結(jié)語(yǔ)

      針對(duì)各種環(huán)境聲音對(duì)聲音事件識(shí)別的影響,本文提出一種基于優(yōu)化OMP結(jié)合DBN的聲音事件識(shí)別方法。該方法采用PSO對(duì)OMP進(jìn)行優(yōu)化,對(duì)其提取OOMP特征放入DBN中進(jìn)行分類識(shí)別。通過(guò)與傳統(tǒng)的聲音增強(qiáng)方法以及現(xiàn)有的APNCC結(jié)合SVM的方法和MP結(jié)合SVM方法進(jìn)行比較,可以得出本文的方法除了具有較好的抑制噪聲的效果外,還能有效地提高各種環(huán)境下不同信噪比的聲音事件識(shí)別。但是在聲音信號(hào)更為微弱、環(huán)境更為惡劣的情況下,本文方法仍有改進(jìn)的空間,下一階段將結(jié)合聲譜圖等方法,研究分析聲音信號(hào)更為微弱、環(huán)境更為復(fù)雜和信噪比更低的聲音事件識(shí)別。

      References)

      [1] DENG L, LI J Y, HUANG J T, et al.Recent advances in deep learning for speech research at Microsoft [C]// ICASSP’13: Proceedings of the 2013 IEEE International Conference on Acoustics, Speech and Signal Processing.Piscataway, NJ: IEEE, 2013: 8604-8608.

      [2] LEE H, PHAM P, LARGMAN Y, et al.Unsupervised feature learning for audio classification using convolutional deep belief networks [C]// NIPS’09: Proceedings of the 2009 Conference Advances in Neural Information Processing Systems 22.Cambridge, CA: MIT Press, 2009: 1096-1104.

      [3] HINTON G, DENG L, YU D, et al.Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups [J].IEEE Signal Processing Magazine, 2012, 29(6): 82-97.

      [4] SAINATH T N, MOHAMED A, KINGSBURY B, et al.Deep convolutional neural networks for LVCSR [C]// ICASSP’13: Proceedings of the 2013 IEEE International Conference on Acoustics, Speech and Signal Processing.Piscataway, NJ: IEEE, 2013: 8614-8618.

      [5] HAMEL P, ECK D.Learning features from music audio with deep belief networks [C]// ISMIR’10: Proceedings of the 2010 11th International Society for Music Information Retrieval Conference.Piscataway, NJ: IEEE, 2010: 339-344.

      [6] KAGAYA H, AIZAWA K, OGAWA M.Food detection and recognition using convolutional neural network [C]// MM’14: Proceedings of the 2014 22nd ACM International Conference on Multimedia.New York: ACM, 2014: 1085-1088.

      [7] RAVANELLI M, ELIZALDE B, NI K, et al.Audio concept classification with hierarchical deep neural networks [C]// EUSIPCO’14: Proceedings of the 2014 22nd European Signal Processing Conference.Piscataway, NJ: IEEE, 2014: 606-610.

      [8] SZEGEDY C, LIU W, JIA Y, et al.Going deeper with convolutions [C]// CVPR’15: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition.Piscataway, NJ: IEEE, 2015: 1-9.

      [9] YU D, SELTZER M L, LI J Y, et al.Feature learning in deep neural networks — studies on speech recognition tasks [EB/OL].[2016- 03- 26].https://arxiv.org/pdf/1301.3605v3.pdf.

      [10] DAHL G E, YU D, DENG L, et al.Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition [J].IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1): 30-42.

      [11] MCLOUGHLIN I, ZHANG H M, XIE Z P, et al.Robust sound event classification using deep neural networks [J].IEEE Transactions on Audio, Speech, and Language Processing, 2015, 23(3): 540-552.

      [12] HINTON G E, OSINDERO S, TEH Y-W.A fast learning algorithm for deep belief nets [J].Neural Computation, 2006, 18(7): 1527-1554.

      [13] HINTON G E.A practical guide to training restricted Boltzmann machines [M]// Neural Networks: Tricks of the Trade, LNCS 7700.2nd ed.Berlin: Springer, 2012: 599-619.

      [14] ACKLEY D H, HINTON G E, SEJNOWSKI T J.A learning algorithm for Boltzmann machines [J].Cognitive Science, 1985, 9(1): 147-169.

      [15] LAROCHELLE H, MANDEL M, PASCANU R, et al.Learning algorithms for the classification restricted Boltzmann machine [J].Journal of Machine Learning Research, 2012, 13(1): 643-669.

      [16] LE ROUX N, BENGIO Y.Representational power of restricted Boltzmann machines and deep belief networks [J].Neural Computation, 2008, 20(6): 1631-1649.

      [17] FARAHAT M, HALAVATI R.Noise robust speech recognition using deep belief networks [J].International Journal of Computational Intelligence and Applications, 2016, 15(1): 1650005.

      [18] MOHAMED A, DAHL G E, HINTON G.Acoustic modeling using deep belief networks [J].IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1): 14-22.

      [19] GUO F, YANG D S, CHEN X O.Using deep belief network to capture temporal information for audio event classification [C]// IIH-MSP ’15: Proceedings of the 2015 International Conference on Intelligent Information Hiding and Multimedia Signal Processing.Piscataway, NJ: IEEE, 2015: 421-424.

      [20] LEE Y K, JUNG G W, KWON O W.Speech enhancement by Kalman filtering with a particle filter-based preprocessor [C]// ICCE’13: Proceedings of the 2013 IEEE International Conference on Consumer Electronics, Piscataway, NJ: IEEE, 2013: 340-341.

      [21] VERMA N, VERMA A K.Real time adaptive denoising of musical signals in wavelet domain [C]// NUiCONE’12: Proceedings of the 2012 Nirma University International Conference on Engineering, Piscataway, NJ: IEEE, 2012: 1-5.

      [22] 周曉敏,李應(yīng).基于 Radon 和平移不變性小波變換的鳥類聲音識(shí)別[J].計(jì)算機(jī)應(yīng)用,2014,34(5):1391-1396,1417.(ZHOU X M, LI Y.Bird sounds recognition based on Radon and translation invariant discrete wavelet transform [J].Journal of Computer Applications, 2014, 34(5):1391-1396, 1417.)

      [23] CHU S, NARAYANAN S, KUO C C J.Environmental sound recognition with time-frequency audio features [J].IEEE Transactions on Audio, Speech, and Language Processing, 2009, 17(6): 1142-1158.

      [24] WANG J C, LIN C H, CHEN B W, et al.Gabor-based nonuniform scale-frequency map for environmental sound classification in home automation [J].IEEE Transactions on Automation Science and Engineering, 2014, 11(2): 607-613.

      [25] MALLAT S G, ZHANG Z F.Matching pursuits with time-frequency dictionaries [J].IEEE Transactions on Signal Processing, 1993, 41(12): 3397-3415.

      [26] SOUSSEN C, GRIBONVAL R, IDIER J, et al.Jointk-step analysis of orthogonal matching pursuit and orthogonal least squares [J].IEEE Transactions on Information Theory, 2013, 59(5): 3158-3174.

      [27] KENNEDY J, EBERHART R.Particle swarm optimization [C]// ICNN’95: Proceedings of the1995 IEEE International Conference on Neural Networks.Piscataway, NJ: IEEE, 1995:1942-1948.

      [28] 馬超,鄧超,熊堯,等.一種基于混合遺傳和粒子群的智能優(yōu)化算法[J].計(jì)算機(jī)研究與發(fā)展,2013,50(11):2278-2286.(MA C, DENG C, XIONG Y, et al.An intelligent optimization algorithm based on hybrid of GA and PSO [J].Journal of Computer Research and Development, 2013, 50(11): 2278-2286.)

      [29] LI S T, FANG L Y.Signal denoising with random refined orthogonal matching pursuit [J].IEEE Transactions on Instrumentation and Measurement, 2012, 61(1): 26-34.

      [30] Universitat Pompeu Fabra.Repository of sound under the creative commons license [DB/OL].[2016- 03- 14].http://www.freesound.org.

      [31] CHANG C C, LIN C J.LIBSVM: a library for support vector machines [J].ACM Transactions on Intelligent Systems and Technology, 2011, 2(3): Article No.27.

      [32] BREIMAN L.Random forests [J].Machine Learning, 2001, 45(1): 5-32.

      [33] 顏鑫,李應(yīng).利用抗噪冪歸一化倒譜系數(shù)的鳥類聲音識(shí)別[J].電子學(xué)報(bào),2013,41(2):295-300.(YAN X, LI Y.Anti-noise power normalized cepstral coefficients in bird sounds recognition [J].Acta Electronic Sinica, 2013, 41(2): 295-300.)

      This work is partially supported by the National Natural Science Foundation of China (61075022).

      CHEN Qiuju, born in 1989, M.S.candidate.Her research interests include multimedia data retrieval, sound event detection.

      LI Ying, born in 1964, Ph.D., professor.His research interests include multimedia data retrieval, sound event detection, information security.

      Sound recognition based on optimized orthogonal matching pursuit and deep belief network

      CHEN Qiuju, LI Ying*

      (CollegeofMathematicsandComputerScience,FuzhouUniversity,FuzhouFujian350116,China)

      Concerning the influence of various environmental ambiances on sound event recognition, a sound event recognition method based on Optimized Orthogonal Matching Pursuit (OOMP) and Deep Belief Network (DBN) was proposed.Firstly, Particle Swarm Optimization (PSO) algorithm was used to optimize Orthogonal Matching Pursuit (OMP) sparse decomposition of sound signal, which realized fast sparse decomposition of OMP and reserved the main body of sound signal and reduced the influence of noise.Then, an optimized composited feature was composed by Mel-Frequency Cepstral Coefficient (MFCC), time-frequency OMP feature and Pitch feature extracted from the reconstructed sound signal, which was called OOMP feature.Finally, the DBN was employed to learn the OOMP feature and recognize 40 classes of sound events in different environments and Signal-to-Noise Ratio (SNR).The experimental results show that the proposed method which combined OOMP and BDN is suitable for sound event recognition in various environments, and can effectively recognize sound events in various environments; it can still maitain an average accuracy rate of 60% even when the SNR is 0 dB.

      sound event recognition; Orthogonal Matching Pursuit (OMP); sparse decomposition; Particle Swarm Optimization (PSO); Deep Belief Network (DBN)

      2016- 06- 12;

      2016- 08- 04。 基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61075022)。

      陳秋菊(1989—),女,貴州遵義人,碩士研究生,主要研究方向:多媒體數(shù)據(jù)檢索、聲音事件檢測(cè); 李應(yīng)(1964—),男,福建閩清人,教授,博士,主要研究方向:多媒體數(shù)據(jù)檢索、聲音事件檢測(cè)、信息安全。

      1001- 9081(2017)02- 0505- 07

      10.11772/j.issn.1001- 9081.2017.02.0505

      TP391.42

      A

      猜你喜歡
      隱層識(shí)別率信噪比
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測(cè)
      基于深度學(xué)習(xí)的無(wú)人機(jī)數(shù)據(jù)鏈信噪比估計(jì)算法
      基于真耳分析的助聽(tīng)器配戴者言語(yǔ)可懂度指數(shù)與言語(yǔ)識(shí)別率的關(guān)系
      基于RDPSO結(jié)構(gòu)優(yōu)化的三隱層BP神經(jīng)網(wǎng)絡(luò)水質(zhì)預(yù)測(cè)模型及應(yīng)用
      人民珠江(2019年4期)2019-04-20 02:32:00
      低信噪比下LFMCW信號(hào)調(diào)頻參數(shù)估計(jì)
      提升高速公路MTC二次抓拍車牌識(shí)別率方案研究
      低信噪比下基于Hough變換的前視陣列SAR稀疏三維成像
      高速公路機(jī)電日常維護(hù)中車牌識(shí)別率分析系統(tǒng)的應(yīng)用
      保持信噪比的相位分解反褶積方法研究
      基于近似結(jié)構(gòu)風(fēng)險(xiǎn)的ELM隱層節(jié)點(diǎn)數(shù)優(yōu)化
      永仁县| 沅陵县| 濮阳县| 八宿县| 泸西县| 城步| 炉霍县| 玛纳斯县| 金山区| 玛多县| 成安县| 湄潭县| 雷山县| 雅安市| 岳西县| 本溪市| 探索| 荣昌县| 兴山县| 霍邱县| 涞源县| 南华县| 绥滨县| 贡山| 莆田市| 唐河县| 西乡县| 珠海市| 连城县| 安多县| 利辛县| 广州市| 噶尔县| 淄博市| 陇南市| 南安市| 富民县| 崇礼县| 鄱阳县| 洛扎县| 盘山县|