• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于自注意力路由膠囊網(wǎng)絡(luò)的多音事件檢測(cè)

    2022-10-21 02:57:56李海濤楊樹(shù)國(guó)
    關(guān)鍵詞:多路徑路由音頻

    李海濤,楊樹(shù)國(guó)

    (青島科技大學(xué) 數(shù)理學(xué)院,山東 青島 266061)

    日常生活中,人們每天都會(huì)接觸到很多不同的聲音,如汽車(chē)的鳴笛聲、孩子的叫喊聲等等,這些聲音中包含了豐富的信息,識(shí)別生活環(huán)境中發(fā)生的不同聲音事件從而進(jìn)行不同的處理是非常重要的。聲音事件檢測(cè)(sound events detection,SED)就是檢測(cè)音頻信號(hào)中不同的聲音事件及其起止時(shí)間,為進(jìn)一步分析和處理聲音事件奠定基礎(chǔ)。SED在音頻監(jiān)控[1]、城市聲音分析[2]、設(shè)備監(jiān)控[3]等諸多領(lǐng)域都有著廣泛的應(yīng)用。

    一般來(lái)說(shuō),SED的任務(wù)大致分為兩類(lèi):單音SED和多音SED。單音SED在任一時(shí)刻至多檢測(cè)出一種聲音事件,而多音SED系統(tǒng)可以檢測(cè)出多個(gè)聲音事件[4]。從用途上看,因?yàn)楝F(xiàn)實(shí)環(huán)境中包含多個(gè)聲源的情況更加多見(jiàn),所以多音SED應(yīng)用更為廣泛;不同的聲音事件往往相互重疊,而從混疊的聲音中提取出的特征可能與從單個(gè)聲音中提取的任何特征都不匹配,導(dǎo)致無(wú)法提取出能夠有效代表單個(gè)聲音事件的特征[5],所以多音SED更加困難和復(fù)雜,也更具挑戰(zhàn)性。

    傳統(tǒng)的多音事件檢測(cè)的模型有隱馬爾可夫模型[6]和高斯混合模型[7]等。近年來(lái),數(shù)據(jù)集和計(jì)算資源可用性的提高推動(dòng)了深度學(xué)習(xí)模型在聲音事件檢測(cè)和分類(lèi)任務(wù)中的應(yīng)用,包括前饋神經(jīng)網(wǎng)絡(luò)(FNN)[8]、卷積神經(jīng)網(wǎng)絡(luò)(CNNs)[9]和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)[10]等?;贑NN和RNN的方法在SED任務(wù)中取得了良好的性能,這得益于它們能夠?qū)W習(xí)提取出的音頻特征與目標(biāo)向量之間的非線性關(guān)系。特別是在多音SED的情況下,CNN與RNN的結(jié)合(CRNN)具有CNN提供的局部位移不變性,并具有RNN層提供的短期和長(zhǎng)期時(shí)間依賴進(jìn)行建模的能力,兩種體系結(jié)構(gòu)的結(jié)合提高了檢測(cè)性能和效果[4]。

    2017年底,HINTON等[11]提出了膠囊網(wǎng)絡(luò)的概念,它的引入是為了克服CNN的一些局限性,特別是最大池化造成的信息丟失。膠囊可以被認(rèn)為是一組神經(jīng)元,它們的輸出代表同一實(shí)體的不同屬性[11]。一層(低層)的膠囊通過(guò)變換矩陣對(duì)下一層(高層)的膠囊進(jìn)行姿態(tài)預(yù)測(cè),然后使用動(dòng)態(tài)路由機(jī)制,通過(guò)迭代聚類(lèi)的方法獲得耦合系數(shù),并將相關(guān)膠囊的信息傳遞給下一層。

    基于膠囊的計(jì)算結(jié)構(gòu)與路由機(jī)制相結(jié)合,膠囊網(wǎng)絡(luò)可以識(shí)別數(shù)據(jù)特征之間的部分和整體關(guān)系,從而能夠有效提高網(wǎng)絡(luò)在重疊目標(biāo)的檢測(cè)任務(wù)上的表現(xiàn)[11]。從理論上講,動(dòng)態(tài)路由的引入可在不需要大量數(shù)據(jù)增強(qiáng)或?qū)S糜蜻m應(yīng)程序的情況下充分訓(xùn)練模型,能夠極大地提高模型的泛化能力。文獻(xiàn)[12]提出了用于多音事件檢測(cè)任務(wù)的Caps Net,在網(wǎng)絡(luò)的初始層應(yīng)用了門(mén)控卷積層,并在最后的膠囊層中添加了并行的注意層。該算法在DCASE 2017任務(wù)4的弱標(biāo)注數(shù)據(jù)集上進(jìn)行了使用,取得了良好的性能。文獻(xiàn)[13]將膠囊網(wǎng)絡(luò)應(yīng)用于多音事件檢測(cè)中,并在三個(gè)公開(kāi)的數(shù)據(jù)集上進(jìn)行了評(píng)估,結(jié)果顯示,基于CapsNet的算法不但優(yōu)于CNN,而且也取得了良好的效果。

    然而膠囊網(wǎng)絡(luò)中的動(dòng)態(tài)路由機(jī)制是通過(guò)迭代聚類(lèi)的方法獲得耦合系數(shù),這使得網(wǎng)絡(luò)的訓(xùn)練和推理過(guò)程變得緩慢。文獻(xiàn)[14]用一種新的非迭代的、高度并行化的路由算法來(lái)代替動(dòng)態(tài)路由,稱(chēng)為自注意力路由。本研究以文獻(xiàn)[12]提出的CapsNet為基線系統(tǒng),研究了自注意力路由算法以及多路徑基礎(chǔ)膠囊層結(jié)構(gòu)對(duì)多音事件檢測(cè)的影響,提出了自注意力路由和多路徑基礎(chǔ)膠囊層相結(jié)合的膠囊網(wǎng)絡(luò),并在DCASE 2017 task4數(shù)據(jù)集上對(duì)該模型進(jìn)行評(píng)估。

    1 模型與算法

    1.1 膠囊網(wǎng)絡(luò)

    膠囊網(wǎng)絡(luò)的概念是HINTON等[11]在2017年提出的,其主要思想是用向量神經(jīng)元替代傳統(tǒng)的標(biāo)量神經(jīng)元。膠囊是一種向量,它的維數(shù)與目標(biāo)的各種性質(zhì)有關(guān),如位置、大小、方向等,其長(zhǎng)度代表了目標(biāo)的活動(dòng)概率。膠囊網(wǎng)絡(luò)主要包含了卷積層、基礎(chǔ)膠囊層和數(shù)字膠囊層。其結(jié)構(gòu)如圖1所示。

    圖1 膠囊網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Capsule network structure

    卷積層主要用來(lái)從輸入中提取特征,其作用與卷積神經(jīng)網(wǎng)絡(luò)中的卷積層類(lèi)似。低層膠囊通過(guò)動(dòng)態(tài)路由機(jī)制來(lái)確定連接到高層膠囊的權(quán)重。動(dòng)態(tài)路由算法的過(guò)程如圖2所示。

    圖2 動(dòng)態(tài)路由算法Fig.2 Dynamic routing algorithm

    假設(shè)低層膠囊為i,高層膠囊為j,則高層膠囊的輸出v j可由公式(1)~(3)計(jì)算得出:

    其中u i表示低層膠囊的輸出,表示低層膠囊i對(duì)高層膠囊j的預(yù)測(cè)向量,W ij為相應(yīng)的權(quán)重矩陣。將v j的所有預(yù)測(cè)向量用一組耦合系數(shù)c ij進(jìn)行加權(quán)求和,并用一個(gè)非線性壓縮函數(shù)(3)把向量的長(zhǎng)度壓縮在0到1之間,以表示目標(biāo)存在的概率。耦合系數(shù)c ij由動(dòng)態(tài)路由算法確定:

    其中:和v j之間的相似度越高(用內(nèi)積表示),c ij就會(huì)越大。在每次正向傳播中,b ij被初始化為0,由方程(4)計(jì)算耦合系數(shù)c ij的初始值,然后由網(wǎng)絡(luò)的正向傳播計(jì)算v j。b ij的值根據(jù)公式(5)進(jìn)行更新,用于更新c ij的值,并通過(guò)正向傳播修正s j的值,從而改變輸出向量v j的值,最后得到一組最優(yōu)的耦合系數(shù)。

    1.2 基于自注意力路由的多聲音事件檢測(cè)模型

    為了提高膠囊網(wǎng)絡(luò)的訓(xùn)練速度和推理速度,以及使模型充分利用原始特征中所包含的信息(尤其是時(shí)間信息),以進(jìn)一步提高多聲音事件檢測(cè)的精度,本研究提出了基于自注意力路由的多聲音事件檢測(cè)模型(Mp Caps-att)。該方法使用一種最近提出的非迭代且高度并行的自注意力路由算法和多路徑基礎(chǔ)膠囊層。

    1.2.1 自注意力路由

    自注意力路由是文獻(xiàn)[14]提出的新型路由方法,具有非迭代且高度并行的特點(diǎn),因此能大大加快網(wǎng)絡(luò)的訓(xùn)練速度。自注意力路由過(guò)程如下:

    首先,對(duì)于l層的膠囊u ln∈Rd l(d l代表l層膠囊的維度),通過(guò)與權(quán)重矩陣相乘,獲得對(duì)高層膠囊的預(yù)測(cè)向量,如公式(6)所示:

    其中,n l表示l層膠 囊的數(shù)量,W ln l,n l+1,d l,d l+1包 含所有的權(quán)重矩陣,,n l+1,d l+1包含所有l(wèi)層膠囊的預(yù)測(cè)向量,則l+1層膠囊s l+1n由公式(7)計(jì)算得出:

    其中,B ln l,n l+1是包含所有權(quán)重的對(duì)數(shù)先驗(yàn)矩陣,C ln l,n l+1是包含自注意力算法產(chǎn)生的所有耦合系數(shù)的矩陣。耦合系數(shù)通過(guò)自注意力張量A ln l,n l,n l+1計(jì)算,自注意力張量的計(jì)算公式:

    對(duì)于上層的每個(gè)膠囊n l+1,都含有一個(gè)對(duì)稱(chēng)矩陣A l:,:,n l+1。耦合系數(shù)可通過(guò)公式(9)計(jì)算得出:

    最后將l+1層膠囊的輸出s l+1n代入到壓縮函數(shù)中,將向量的長(zhǎng)度壓縮到0到1之間,以表示特定目標(biāo)存在的概率,文獻(xiàn)[14]中使用的壓縮函數(shù)為

    1.2.2 多路徑基礎(chǔ)膠囊層

    在聲音事件檢測(cè)任務(wù)中,時(shí)域信息的重要性比頻域信息要高,所以應(yīng)盡可能多的保留時(shí)間信息[4-5,15-16]。因此本研究提出了一種多路徑基礎(chǔ)膠囊層,如圖3所示。

    圖3 多路徑基礎(chǔ)膠囊層Fig.3 Multipath primary capsule layer

    該結(jié)構(gòu)由三層基礎(chǔ)膠囊層組成,且三層基礎(chǔ)膠囊層具有不同大小的卷積核。其中兩層的卷積核尺寸為非對(duì)稱(chēng)的,且在時(shí)域上具有更大的卷積尺寸。其中,三層基礎(chǔ)膠囊層的卷積核大小分別為(3,3),(5,3),(7,3)。之后將三層基礎(chǔ)膠囊層的輸出進(jìn)行拼接,送入高級(jí)膠囊層。一般來(lái)說(shuō),卷積核越大,獲得的信息就越多,提取的特征就會(huì)更好。因此,在其中的兩層基礎(chǔ)膠囊層中,使用時(shí)域上尺寸更大的非對(duì)稱(chēng)卷積核,來(lái)獲取更多的時(shí)間信息。不同的卷積核大小會(huì)提取出不同的特征,所以選擇不同的卷積核大小就能獲得不同分辨率的信息,使得模型能夠充分利用特征信息。

    1.2.3 基于自注意力路由的膠囊網(wǎng)絡(luò)模型

    本節(jié)提出了基于自注意力路由的膠囊網(wǎng)絡(luò)模型,并用其進(jìn)行多音事件檢測(cè),該模型包括卷積層、膠囊層和全連接層,如圖4所示。

    圖4 基于自注意力路由的膠囊網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Capsule network structure based on self-attention routing

    圖4中,模型的輸入是對(duì)數(shù)Mel語(yǔ)譜圖,是通過(guò)將每段音頻進(jìn)行重采樣并進(jìn)行短時(shí)傅里葉變換,然后和Mel濾波器組相乘并進(jìn)行對(duì)數(shù)運(yùn)算得出。3層卷積層用來(lái)從輸入中提取局部特征,并使用最大池化來(lái)縮減時(shí)域和頻域的維度。假設(shè)輸入的特征向量的形狀為T(mén)×F,其中,T是樣本中所含的幀數(shù),F為輸入特征的頻點(diǎn)數(shù);卷積層的輸出為T(mén)′×F′×Q的張量,其中,Q為特征圖的數(shù)量,T′和F′為經(jīng)過(guò)一系列池化操作后的幀數(shù)和頻帶數(shù)。

    本研究中使用的膠囊層由多路徑基礎(chǔ)膠囊層和高級(jí)膠囊層組成。多路徑基礎(chǔ)膠囊層的每個(gè)膠囊層是一個(gè)含有16通道的卷積層,每個(gè)通道由4維膠囊組成。特征被送入基礎(chǔ)膠囊層中,經(jīng)過(guò)卷積和squashin g函數(shù)壓縮后,將三層的輸出進(jìn)行拼接,然后特征壓縮成形狀為T(mén)′×V×U的3維張量,其中,V是從其它維度推斷出的,U是膠囊的維度,大小為4;然后將每一幀的膠囊送入高級(jí)膠囊層,來(lái)計(jì)算K個(gè)代表聲音事件類(lèi)別的8維高級(jí)膠囊,兩層膠囊之間使用自注意力路由算法進(jìn)行計(jì)算;最后,將得到形狀為T(mén)′×K×8的張量。

    膠囊層之后是兩層全連接層,用來(lái)獲取聲音事件活動(dòng)的概率。首先將膠囊層的輸出重塑成形狀為T(mén)′×(K×8)的張量,在經(jīng)過(guò)兩層全連接層后,張量的形狀為T(mén)′×K,即T′個(gè)幀的每個(gè)聲音事件的活動(dòng)概率。由于使用的是弱標(biāo)注的數(shù)據(jù),訓(xùn)練集沒(méi)有幀級(jí)別的標(biāo)簽可用,所以使用聚合函數(shù)將輸出聚合成音頻級(jí)的概率,即最后的輸出形狀為1×K。使用的聚合函數(shù)公式如式(11):

    其中y i∈[0 ,1]是某個(gè)事件類(lèi)型的幀級(jí)預(yù)測(cè)概率,y l∈[0 ,1]音頻級(jí)的聚合概率。

    2 實(shí)驗(yàn)部分

    2.1 數(shù)據(jù)集

    本研究提出的方法是基于弱標(biāo)注數(shù)據(jù)集的,其中弱標(biāo)注數(shù)據(jù)是指只提供音頻中的事件類(lèi)型,而不包含任何的時(shí)間信息。本研究使用DCASE 2017任務(wù)4提供的弱標(biāo)記數(shù)據(jù)集進(jìn)行評(píng)估,此數(shù)據(jù)集是AudioSet[17]的一個(gè)子集,由17個(gè)聲音事件組成,分為“警告”和“車(chē)輛”兩類(lèi)。每段音頻的最長(zhǎng)持續(xù)時(shí)間為10 s,并且可能對(duì)應(yīng)于多個(gè)可能重疊的聲音事件。本工作在這個(gè)數(shù)據(jù)集上評(píng)估了2個(gè)任務(wù):音頻標(biāo)注和聲音事件檢測(cè)。其中,音頻標(biāo)注旨在預(yù)測(cè)音頻剪輯中包含的聲音事件類(lèi)型,聲音事件檢測(cè)還預(yù)測(cè)事件的開(kāi)始時(shí)間和結(jié)束時(shí)間。對(duì)于音頻標(biāo)注子任務(wù),使用精確率、召回率和F分?jǐn)?shù)的微平均值來(lái)評(píng)估模型的性能。對(duì)于SED,計(jì)算了一個(gè)1 s分辨率的基于分段的錯(cuò)誤率。

    2.2 實(shí)驗(yàn)設(shè)置

    本研究使用對(duì)數(shù)Mel語(yǔ)譜圖作為輸入特征。在提取特征之前,將每個(gè)音頻片段重新采樣到16 k Hz。使用64 ms幀長(zhǎng)度、20 ms重疊和每幀64個(gè)Mel頻率單元計(jì)算對(duì)數(shù)Mel特征。對(duì)于每個(gè)10 s的音頻片段,將產(chǎn)生一個(gè)240×64的特征向量。

    為減少過(guò)擬合的發(fā)生以及加快收斂的速度,本研究在每個(gè)卷積層和初級(jí)膠囊層之后使用批標(biāo)準(zhǔn)化。使用Adam優(yōu)化器進(jìn)行訓(xùn)練,固定學(xué)習(xí)率為0.001并且每?jī)蓚€(gè)epoch下降為原來(lái)的0.9倍。使用二元交叉熵作為損失函數(shù),梯度通過(guò)大小為44的mini-batch進(jìn)行計(jì)算。共訓(xùn)練30個(gè)epoch。

    驗(yàn)證集和評(píng)估集具有均衡的事件數(shù),但訓(xùn)練集是不平衡的,這會(huì)導(dǎo)致分類(lèi)的偏差。為了減輕這個(gè)問(wèn)題帶來(lái)的影響,本研究使用了文獻(xiàn)[18]中提出的數(shù)據(jù)平衡技術(shù),以確保每一個(gè)小批量中包含來(lái)自每個(gè)類(lèi)的樣本數(shù)量是相當(dāng)?shù)?。?duì)于本研究提出的系統(tǒng),音頻標(biāo)注和聲音事件檢測(cè)的閾值分別設(shè)置為τ1=0.3和τ2=0.6。

    2.3 實(shí)驗(yàn)結(jié)果

    基于上述的弱標(biāo)注數(shù)據(jù)集,下面檢驗(yàn)前文提出的基于自注意力路由的膠囊網(wǎng)絡(luò)模型的聲音事件檢測(cè)效果。本研究以文獻(xiàn)[12]提出的GCCaps為基線系統(tǒng),方案一將GCCaps中的動(dòng)態(tài)路由算法更換為自注意力路由(記為GCCaps-att);方案二在GCCaps的基礎(chǔ)上使用多路徑基礎(chǔ)膠囊層(記為GCCaps-mp);對(duì)本研究提出的方法進(jìn)行對(duì)比性實(shí)驗(yàn),具體結(jié)果見(jiàn)表1和表2。

    從表1的結(jié)果可以看出,自注意力路由和多路徑基礎(chǔ)膠囊層的加入能夠提高音頻標(biāo)注任務(wù)的性能表現(xiàn),分別比基線系統(tǒng)提高了0.4%和0.9%,而本研究提出的模型的F分?jǐn)?shù)最高,相較于基線系統(tǒng),提高了1.4%。由表2可知,在聲音事件檢測(cè)子任務(wù)中,自注意力路由對(duì)于性能的提升更加明顯。本研究提出的模型獲得了最佳的表現(xiàn),錯(cuò)誤率為0.72。

    表1 音頻標(biāo)注子任務(wù)的性能結(jié)果Table 1 Performance results of audio tagging subtask %

    表2 聲音事件檢測(cè)子任務(wù)的性能結(jié)果Table 2 Performance results of sound event detection subtask

    表1和表2表明,本研究提出的自注意力路由和多路徑基礎(chǔ)膠囊層能夠顯著提高模型的性能,并且自注意力路由可以加快模型的訓(xùn)練過(guò)程,而多路徑非對(duì)稱(chēng)的卷積結(jié)構(gòu)能夠使模型更充分地利用特征信息。

    3 結(jié) 語(yǔ)

    本研究提出了基于自注意力路由的膠囊網(wǎng)絡(luò)模型,以實(shí)現(xiàn)弱標(biāo)注數(shù)據(jù)下的多音事件檢測(cè)。針對(duì)傳統(tǒng)動(dòng)態(tài)路由算法減緩網(wǎng)絡(luò)運(yùn)行速度的問(wèn)題,采用了一種非迭代的自注意力路由算法,并且提出了一種多路徑基礎(chǔ)膠囊層結(jié)構(gòu),其中采用非對(duì)稱(chēng)的卷積核用來(lái)保留更多的時(shí)間信息,同時(shí)多路徑的結(jié)構(gòu)能夠使模型獲得不同分辨率的特征,從而使模型能夠充分利用特征信息。實(shí)驗(yàn)結(jié)果也表明,本研究提出的模型具備更好的性能,模型在音頻標(biāo)注子任務(wù)上取得了59.5%的F分?jǐn)?shù),在聲音事件檢測(cè)子任務(wù)中錯(cuò)誤率僅為0.72。未來(lái)的研究需要尋找更加高效的特征提取方法,為模型提取更全面的特征,以及研究最近提出的基于期望最大化算法(EM)的路由變體。

    猜你喜歡
    多路徑路由音頻
    多路徑效應(yīng)對(duì)GPS多普勒測(cè)速的影響
    基于5.8G射頻的多路徑識(shí)別技術(shù)應(yīng)用探討
    必須了解的音頻基礎(chǔ)知識(shí) 家庭影院入門(mén)攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
    基于Daubechies(dbN)的飛行器音頻特征提取
    電子制作(2018年19期)2018-11-14 02:37:08
    探究路由與環(huán)路的問(wèn)題
    音頻分析儀中低失真音頻信號(hào)的發(fā)生方法
    電子制作(2017年9期)2017-04-17 03:00:46
    Pro Tools音頻剪輯及修正
    人間(2015年8期)2016-01-09 13:12:42
    基于5.8GHz多路徑精確識(shí)別方案研究
    PRIME和G3-PLC路由機(jī)制對(duì)比
    WSN中基于等高度路由的源位置隱私保護(hù)
    门头沟区| 乐清市| 嵊州市| 富裕县| 雅安市| 瑞金市| 濮阳市| 岳普湖县| 浙江省| 泰安市| 台山市| 瑞金市| 体育| 揭阳市| 分宜县| 涿州市| 定边县| 潼南县| 平陆县| 西峡县| 鸡西市| 武城县| 庆安县| 合水县| 潢川县| 陵川县| 双鸭山市| 措勤县| 武安市| 西青区| 湖口县| 麟游县| 永登县| 大兴区| 丹阳市| 绥德县| 肇东市| 洪泽县| 松原市| 巢湖市| 华池县|