楊利平 郝峻永 辜小花 侯振威
①(重慶大學光電技術(shù)及系統(tǒng)教育部重點實驗室 重慶 400044)
②(重慶科技學院電氣工程學院 重慶 401331)
聲音事件檢測(Sound Event Detection, SED)旨在識別出音頻序列中的聲音事件類別并確定該事件發(fā)生的時間起止點,在諸如異常聲音事件檢測[1]、安全監(jiān)控[2]和聲音場景感知[3]等各方面都有極大的潛在應(yīng)用價值。與聲音事件檢測類似,音頻標記(Audio Tagging, AT)則僅對音頻序列中的聲音事件進行分類,即僅判別音頻序列中包含的聲音事件類別,而無需確定聲音事件的起止位置。
近年來,基于深度學習的聲音事件檢測已經(jīng)成為計算聲學領(lǐng)域的研究熱點。通常是先將聲音信號轉(zhuǎn)化為2維時頻譜圖,然后利用深度神經(jīng)網(wǎng)絡(luò)模型進行特征表征和分類。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)是常用的神經(jīng)網(wǎng)絡(luò)模型[4,5]。在聲音事件檢測中,CNN通過卷積核的權(quán)值共享在時頻譜圖上進行局部運算來提取樣本的局部特征,有效地克服了不同聲場或聲源造成的音高移位、頻帶移位等聲學特性對聲音事件檢測的影響[6]。然而,由于感受野的固定,CNN在處理時頻譜圖時只能利用固定范圍的音頻上下文信息,不利于處理不同時間長度的聲音事件。循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)[7]將時頻譜圖的各幀作為序列處理,能夠有效地對樣本幀間關(guān)系進行建模,但其對時頻譜圖的頻域信息提取能力較差。卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(Convolutional Recurrent Neural Network, CRNN)[6]結(jié)合CNN和RNN的優(yōu)點,先通過CNN提取時頻譜圖的幀級特征,然后使用RNN進行幀間關(guān)系建模,是當前主流的聲音事件檢測模型[8–10]。盡管級聯(lián)CNN和RNN使CRNN網(wǎng)絡(luò)獲得了音頻樣本的上下文信息,但最新的研究發(fā)現(xiàn):CNN對音頻樣本特征表征能力的不足仍然是限制CRNN網(wǎng)絡(luò)聲音事件檢測性能的重要原因[11–13]。
為提升CRNN網(wǎng)絡(luò)的聲音事件檢測性能,當前主要有兩方面研究工作:一是增大CNN的感受野,使CNN在提取音頻樣本幀級特征時能在更長的時間尺度內(nèi)表征音頻特征;二是引入門控機制或者注意力機制對CNN的特征圖進行選擇和加權(quán),提升CNN的特征表征能力。文獻[11]在CRNN網(wǎng)絡(luò)中使用空洞卷積來增大CNN的感受野,使得CNN能夠?qū)ΩL的音頻時序上下文進行建模。文獻[12]在CRNN網(wǎng)絡(luò)中引入線性門控單元(Gated Linear Unit, GLU)作為激活函數(shù)實現(xiàn)了CNN對音頻特征的門控選擇。文獻[13]則引入SENet[14]提出的SE(Squeeze-and-Excitation)通道注意力機制,使CNN在提取幀級特征時能對不同通道特征進行加權(quán)。這些對CRNN網(wǎng)絡(luò)結(jié)構(gòu)的改進或者注意力機制的引入均表現(xiàn)出比基本CRNN更有效的聲音事件檢測性能。由此可見,改善CNN的特征表征能力是提升CRNN網(wǎng)絡(luò)聲音事件檢測性能的有效手段。
當前對CRNN聲音事件檢測網(wǎng)絡(luò)的改進主要集中在改變CNN的結(jié)構(gòu)上。將空洞卷積或注意力機制等加入CNN后,應(yīng)用交叉熵損失以端到端的學習方式訓(xùn)練獲得聲音事件檢測的CRNN模型。然而,這種端到端的學習方式無法從功能上區(qū)別CRNN網(wǎng)絡(luò)中CNN和RNN結(jié)構(gòu)的作用。作者認為:具有明顯功能結(jié)構(gòu)的CRNN網(wǎng)絡(luò)可能更適合聲音事件檢測。為驗證這一想法,本文以經(jīng)典的CRNN網(wǎng)絡(luò)為基礎(chǔ),提出音頻標記一致性約束CRNN聲音事件檢測方法(Audio Tagging Consistency Constraint CRNN, ATCC-CRNN)。該方法將CRNN聲音事件檢測網(wǎng)絡(luò)的CNN結(jié)構(gòu)和RNN結(jié)構(gòu)從功能上區(qū)別看待,CNN結(jié)構(gòu)主要完成樣本的音頻標記功能,RNN結(jié)構(gòu)主要完成樣本的幀間關(guān)系建模和事件定位功能。為實現(xiàn)CRNN網(wǎng)絡(luò)功能劃分的目標,本文設(shè)計了CNN音頻標記網(wǎng)絡(luò)對骨干CRNN網(wǎng)絡(luò)CNN結(jié)構(gòu)輸出的特征圖進行音頻標記,并在模型訓(xùn)練階段限定CNN和CRNN的音頻標記結(jié)果保持一致。通過音頻標記一致性約束,使得CNN結(jié)構(gòu)在提取音頻局部特征的同時獲取更多的上下文信息,提升CRNN的音頻特征表征能力。需特別說明的是:與單純的音頻標記任務(wù)不同,為了保證聲音事件定位的準確性,本文CRNN網(wǎng)絡(luò)中的CNN結(jié)構(gòu)并未在時間維度進行大尺度下采樣以獲得音頻的低維特征。此外,為了更好地表征音頻樣本特征,本文對CRNN網(wǎng)絡(luò)的CNN結(jié)構(gòu)進行了微調(diào)。在CNN結(jié)構(gòu)的前端使用層歸一化(Layer Normalization, LN)[15]取代批歸一化(Batch Normalization,BN)[16]實現(xiàn)了單樣本的規(guī)范化操作;在CNN結(jié)構(gòu)的后端使用殘差結(jié)構(gòu)取代普通卷積結(jié)構(gòu),確保梯度信息的有效傳播,減輕了訓(xùn)練過程的梯度消失現(xiàn)象。作者在IEEE DCASE 2019任務(wù)4(家庭環(huán)境聲音事件檢測競賽)數(shù)據(jù)集上評估了音頻標記一致性約束聲音事件檢測方法的性能。實驗結(jié)果表明:音頻標記一致性約束調(diào)整了CNN結(jié)構(gòu)和RNN結(jié)構(gòu)的功能,顯著提升了CRNN聲音事件檢測模型的泛化能力。
在以往的CRNN聲音事件檢測方法中,研究者期望通過結(jié)合CNN和RNN各自在描述樣本局部特征和序列特征上的優(yōu)勢,改善聲音事件檢測的性能[8,10]。然而,以端到端的方式通過最小化分類交叉熵損失訓(xùn)練得到的CRNN聲音事件檢測模型并未從功能上區(qū)別CNN和RNN的作用,這對于發(fā)揮兩者的優(yōu)勢是不利的。為了克服CRNN聲音事件檢測方法的這一不足,本文提出了音頻標記一致性約束CRNN聲音事件檢測方法。
ATCC-CRNN方法的目的是通過增加音頻標記一致性約束使訓(xùn)練后的CRNN網(wǎng)絡(luò)中CNN和RNN結(jié)構(gòu)具有不同的功能。如圖1所示為音頻標記一致性約束聲音事件檢測方法的網(wǎng)絡(luò)架構(gòu),包括特征提取網(wǎng)絡(luò)、聲音事件分類網(wǎng)絡(luò)和CNN音頻標記網(wǎng)絡(luò)3部分。特征提取網(wǎng)絡(luò)用于表征輸入樣本時頻譜圖的特征;聲音事件分類網(wǎng)絡(luò)對輸入樣本各幀的特征進行分類實現(xiàn)聲音事件檢測;CNN音頻標記網(wǎng)絡(luò)以特征提取網(wǎng)絡(luò)CNN結(jié)構(gòu)的特征圖為輸入完成音頻標記功能。
如圖1所示為由CNN結(jié)構(gòu)和RNN結(jié)構(gòu)級聯(lián)形成的音頻標記一致性約束方法特征提取網(wǎng)絡(luò)。該網(wǎng)絡(luò)是典型的C R N N 網(wǎng)絡(luò),由包含1 3 層卷積層的CNN結(jié)構(gòu)和2層雙向門控循環(huán)單元(Bidirectional-Gated Recurrent Unit, Bi-GRU)的RNN結(jié)構(gòu)組成。為了改善CNN對音頻樣本時頻譜圖的特征表征性能,本文CNN結(jié)構(gòu)的前端和后端采用了兩種不同的卷積模塊:低層CNN模塊和高層CNN模塊。
圖1 音頻標記一致性約束聲音事件檢測方法網(wǎng)絡(luò)架構(gòu)
在CNN結(jié)構(gòu)前端,網(wǎng)絡(luò)由兩個低層CNN模塊組成。每個低層CNN模塊包含了一個5×5卷積層和一個3×3卷積層,主要學習樣本時頻譜圖的紋理、邊緣、角度等低級特征。為了克服音頻樣本間差異對卷積網(wǎng)絡(luò)的影響,低層CNN模塊采用LN+Tanh的單樣本規(guī)范化和激活函數(shù)對特征圖進行規(guī)范化和非線性處理。在CNN結(jié)構(gòu)后端,網(wǎng)絡(luò)由3個高層CNN模塊組成。每個高層CNN模塊由3個3×3卷積層和批歸一化層堆疊形成,并在ReLU中利用殘差連接使梯度信息得以有效傳遞。此外,為了獲得足夠的時間分辨率以提高聲音事件的定位精度,本文CNN結(jié)構(gòu)僅在兩個低層CNN模塊中進行了時間維度的下采樣(采樣步長為2),高層CNN模塊則僅在頻率維度通過最大池化降低樣本的特征維度。
最后,CNN結(jié)構(gòu)的特征圖通過兩層Bi-GRU組成的RNN結(jié)構(gòu)實現(xiàn)樣本幀間關(guān)系建模,形成音頻樣本的CRNN特征。為了防止過擬合,在CRNN的高層CNN模塊和RNN結(jié)構(gòu)中均采用了Dropout操作。
為了使CRNN網(wǎng)絡(luò)的CNN結(jié)構(gòu)和RNN結(jié)構(gòu)具備不同功能,本文通過整合聲音事件分類網(wǎng)絡(luò)的預(yù)測輸出產(chǎn)生CRNN網(wǎng)絡(luò)的音頻標記預(yù)測;通過CNN音頻標記網(wǎng)絡(luò)產(chǎn)生CNN結(jié)構(gòu)的音頻標記預(yù)測。然后,在訓(xùn)練過程中增加CRNN音頻標記和CNN音頻標記的一致性約束,使兩者的音頻標記預(yù)測保持一致。
設(shè)X? =[x?1,x?2,...,x?T]為聲音樣本時頻譜圖經(jīng)CRNN網(wǎng)絡(luò)產(chǎn)生的輸出特征圖,其中x?i(i=1,2,...,T)表示聲音樣本每一幀的特征向量,T為樣本的幀數(shù)。如圖1所示,聲音事件分類網(wǎng)絡(luò)利用全連接層和sigmoid函數(shù)計算聲音樣本每一幀的預(yù)測概率pi ∈?C×1(i=1,2,...,T),并基于該幀級預(yù)測概率實現(xiàn)樣本中的聲音事件檢測,其中C為待檢測的聲音事件類別數(shù)。對于一個給定的音頻樣本,通過特征提取網(wǎng)絡(luò)、聲音事件分類網(wǎng)絡(luò)和CNN音頻標記網(wǎng)絡(luò)后,可以獲得該樣本的兩個不同的音頻標記預(yù)測—CRNN音頻標記預(yù)測概率p和CNN音頻標記預(yù)測概率pCNN。為了使聲音事件檢測CRNN特征提取網(wǎng)絡(luò)的CNN結(jié)構(gòu)和RNN結(jié)構(gòu)具備不同的功能,ATCCCRNN方法在模型訓(xùn)練時增加了音頻標記一致性約束,要求對于同一音頻樣本,CRNN音頻標記預(yù)測概率p和CNN音頻標記預(yù)測概率pCNN盡可能相同。該一致性約束可使CRNN網(wǎng)絡(luò)的CNN結(jié)構(gòu)更關(guān)注音頻標記任務(wù);而RNN結(jié)構(gòu)更關(guān)注建立音頻樣本的幀間關(guān)系,實現(xiàn)聲音事件定位。
音頻標記一致性約束聲音事件檢測模型的訓(xùn)練可以由兩個過程交替迭代實現(xiàn)。第1個過程與現(xiàn)有CRNN聲音事件檢測一樣,利用訓(xùn)練數(shù)據(jù)學習特征提取網(wǎng)絡(luò)參數(shù)θCNN,θRNN以及聲音事件分類網(wǎng)絡(luò)參數(shù)θSED;其中θCNN,θRNN分別為特征提取網(wǎng)絡(luò)CNN結(jié)構(gòu)和RNN結(jié)構(gòu)的參數(shù)。本文稱該過程為骨干CRNN網(wǎng)絡(luò)訓(xùn)練過程。第2個過程在固定θRNN和θSED的基礎(chǔ)上,根據(jù)音頻標記一致性約束更新θCNN和CNN音頻標記網(wǎng)絡(luò)參數(shù)θAT。本文稱該過程為音頻標記一致訓(xùn)練過程。如圖2所示為模型訓(xùn)練過程示意圖。CNN音頻標記網(wǎng)絡(luò)僅在模型訓(xùn)練時輔助卷積神經(jīng)網(wǎng)絡(luò)完成音頻標記;在測試應(yīng)用時,聲音事件檢測結(jié)果直接由聲音事件分類網(wǎng)絡(luò)獲得,不需要對輸入信號進行音頻標記,運算量與典型的CRNN模型一致。
圖2 音頻標記一致性約束聲音事件檢測模型訓(xùn)練過程示意圖
2.3.1 骨干CRNN網(wǎng)絡(luò)訓(xùn)練過程
為了充分使用3種訓(xùn)練數(shù)據(jù)集,本文采用半監(jiān)督方式訓(xùn)練骨干CRNN網(wǎng)絡(luò)參數(shù)。強標簽和弱標簽數(shù)據(jù)集上采用監(jiān)督方式學習,無標簽數(shù)據(jù)集上采用無監(jiān)督方式學習。
2.3.2 音頻標記一致訓(xùn)練過程
其中,λ3為調(diào)節(jié)音頻標記一致和骨干CRNN兩個訓(xùn)練過程的超參數(shù)。鑒于Lc和Lu均為一致性約束損失且收斂趨勢相同,本文設(shè)置λ3=2。通過最小化Lt獲得音頻標記一致性約束的最優(yōu)CRNN聲音事件檢測模型。
本文使用DCASE 2019 task4 家庭環(huán)境聲音事件數(shù)據(jù)集1)https://project.inria.fr/desed/(DESED)[18]進行實驗驗證。數(shù)據(jù)集共有alarm/bell/ringing, blender, cat, dishes, dog, electric_shaver/toothbrush, frying, running water,speech和vacuum_cleaner等10個聲音事件類別。本文按照DCASE 2019官方劃定的數(shù)據(jù)集使用方案開展實驗。數(shù)據(jù)集被劃分為訓(xùn)練集、驗證集和評估集3個部分;其中,訓(xùn)練集包含具有強標簽的合成音頻2045個、具有弱標簽的真實音頻1578個以及無標簽的真實音頻11412個,驗證集包含1168個真實音頻,評估集包含692個真實音頻。所有數(shù)據(jù)中,合成音頻為使用Scaper軟件生成的10s時長音頻片段;弱標簽和無標簽真實音頻數(shù)據(jù)均來自Audioset[19],音頻樣本持續(xù)時間不超過10s。驗證集和評估集音頻樣本均由人工標注了聲音事件類別和起止時間點,便于評估聲音事件檢測方法的性能。
為了與現(xiàn)有聲音事件檢測方法比較,本文采用音頻樣本的對數(shù)梅爾時頻譜圖作為模型的輸入。對每個音頻樣本,本文以22050Hz對其進行重采樣并使用2048點的漢明窗分幀后進行傅里葉變換(幀移設(shè)置為1617點),然后經(jīng)過64個通道的梅爾濾波器組并取對數(shù)得到大小為512 × 64的對數(shù)梅爾時頻譜圖。
訓(xùn)練過程中,本文采用Adam優(yōu)化器優(yōu)化網(wǎng)絡(luò)參數(shù),學習率設(shè)置為0.002。訓(xùn)練共進行200次迭代,每個迭代批次的訓(xùn)練數(shù)據(jù)數(shù)量設(shè)置為24。為了確保有標簽樣本和無標簽樣本的數(shù)據(jù)量平衡,每個批次中包含6個合成的強標簽音頻樣本,6個弱標簽音頻樣本和12個無標簽音頻樣本。獲得最優(yōu)模型參數(shù)后,本文在驗證集和評估集上采用基于事件的F1得分和錯誤率(Error Rate, ER)來評價聲音事件檢測方法的性能。為便于和已有方法比較,F(xiàn)1得分和錯誤率的計算方法均與DCASE2019 task4官方保持一致[18]。
為驗證音頻標記一致性約束聲音事件檢測方法的有效性,本文首先通過消融實驗驗證音頻標記一致性約束的作用,然后比較了音頻標記一致性約束聲音事件檢測方法與當前主流聲音事件檢測方法的性能。
在音頻標記一致性約束的消融實驗中,本文以DCASE 2019競賽聲音事件檢測任務(wù)(任務(wù)4)的基線模型2)http://dcase.community/challenge2019/task-sound-event-detection-in-domestic-environments-results(Baseline)和本文建立的CRNN特征提取網(wǎng)絡(luò)為基礎(chǔ),分別在兩個模型上增加音頻標記一致性約束并對比了增加一致性約束前后兩個模型的聲音事件檢測結(jié)果。需要說明的是,DCASE 2019任務(wù)4的基線模型也是CRNN網(wǎng)絡(luò),該網(wǎng)絡(luò)由3層CNN結(jié)構(gòu)和2層雙向GRU構(gòu)成。表1給出了驗證集和評估集上增加一致性約束前后Baseline模型和本文建立的CRNN模型的聲音事件檢測F1得分以及相應(yīng)的錯誤刪除率(Deletion Rate, DR)和錯誤插入率(Insertion Rate, IR)指標,其中,ATCCBaseline和ATCC-CRNN分別表示在原基線模型以及本文建立的CRNN模型上增加了音頻標記一致性約束的聲音事件檢測方法。
表1結(jié)果顯示:增加音頻標記一致性約束前后相比,在驗證集和評估集上,DCASE 2019基線模型的聲音事件檢測F1得分分別提高了5.3%和6.0%,本文建立的CRNN模型的聲音事件檢測F1得分分別提高了4.1%和3.7%。這說明音頻標記一致性約束可以顯著提升CRNN聲音事件檢測模型的性能。進一步對比錯誤刪除率(DR)和錯誤插入率(IR)的變化可以發(fā)現(xiàn):增加一致性約束前后,模型的錯誤刪除率稍有下降,而錯誤插入率顯著降低了。這說明音頻標記一致性約束的加入可以顯著降低聲音事件檢測系統(tǒng)的虛警率,對聲音事件檢測技術(shù)推廣到實際應(yīng)用具有積極作用。
表1 不同CRNN模型的聲音事件檢測F1得分及DR, IR
為了具體分析音頻標記一致性約束對各種聲音事件檢測性能的影響,我們給出了本文建立的CRNN模型在增加音頻標記一致性約束前后的聲音事件檢測結(jié)果,如表2所示。從各種聲音事件檢測的F1得分看:增加音頻標記一致性約束可以顯著提升CRNN模型對大多數(shù)聲音事件的檢測能力,尤其是對攪拌機聲(blender)、洗碗聲(dishes)、流水聲(running water)和吸塵器(vacuum clearner)等長時聲音事件的檢測能力。這表明音頻標記一致性約束不僅改善了CRNN模型中CNN結(jié)構(gòu)的功能,也提升了RNN結(jié)構(gòu)對音頻樣本幀間關(guān)系的建模能力。但是,從實驗結(jié)果看,增加了音頻標記一致性約束后,警報聲(alarm)和貓叫聲(cat)等短時聲音事件的檢測能力有所降低。產(chǎn)生這一現(xiàn)象的原因可能是由于短時聲音事件在整個音頻樣本中的能量占比低,導(dǎo)致音頻標記不準確。
表2 CRNN網(wǎng)絡(luò)在驗證集和評估集中對每種聲音事件檢測的F1得分和錯誤率結(jié)果
最后,本文比較了所提ATCC-CRNN方法與當前性能最佳的幾種CRNN模型的聲音事件檢測性能。我們選擇了DCASE 2019任務(wù)4競賽中性能最佳的兩種CRNN聲音事件檢測模型[20,21]。與DCASE-2019基線模型相比,文獻[20]的CRNN模型堆疊了更深的卷積層并引入時移、頻移和添加高斯噪聲擾動等數(shù)據(jù)增廣方法;文獻[21]的CRNN模型則引入了Mixup, MixMatch等數(shù)據(jù)增廣策略,并通過模型融合的方式提升了網(wǎng)絡(luò)的泛化性能。表3給出了ATCC-CRNN與文獻[20,21]兩種模型在DCASE 2019任務(wù)4上的聲音事件檢測F1得分。需要說明的是,表3中ATCC-CRNN并未進行數(shù)據(jù)增廣。從表3可以看出,即使不做數(shù)據(jù)增廣,ATCC-CRNN的聲音事件檢測性能仍與主流CRNN方法的性能相當。說明音頻標記一致性約束可以顯著改善CRNN模型的泛化能力。此外,最新的DCASE 2020任務(wù)4競賽中3)http://dcase.community/challenge2020/task-soundevent-detection-and-separation-in-domestic-environmentsresults,文獻[20]的CRNN模型被用作官方的基線模型(Baseline2020)。在無數(shù)據(jù)增廣的情況下,該基線模型在驗證集和評估集上的F1得分分別為36.5%和39.8%[22]。文獻[23]為DCASE 2020競賽中典型的基于CRNN聲音事件檢測方法。該方法在CRNN網(wǎng)絡(luò)中引入通道注意力和上下文門控機制等網(wǎng)絡(luò)結(jié)構(gòu)提升了CNN對音頻特征的表征能力。與DCASE2020競賽中的CRNN聲音事件檢測方法相比,ATCC-CRNN方法的性能依然具有優(yōu)勢,表明音頻標記一致性約束的加入可以顯著提升CRNN網(wǎng)絡(luò)的特征表征能力。
表3 ATCC-CRNN與幾種代表性CRNN網(wǎng)絡(luò)在DCASE競賽任務(wù)4上的聲音事件檢測F1得分比較(%)
為了分析模型的復(fù)雜度,表4給出了ATCCCRNN方法中各結(jié)構(gòu)的參數(shù)量以及處理一個音頻樣本的計算復(fù)雜度(Flops)統(tǒng)計,由ptflops4)https://github.com/sovrasov/flops-counter.pytorch工具包計算得到。與CRNN相比,增加了音頻標記一致性約束后,模型參數(shù)增加了17802個,僅約占CRNN模型大小的1.0%。從計算復(fù)雜度來看,與CRNN相同,ATCC-CRNN方法的絕大部分運算為CNN結(jié)構(gòu)運算。與之相比,音頻標記一致性約束的運算量可忽略不計。
表4 CRNN網(wǎng)絡(luò)的各模型結(jié)構(gòu)的參數(shù)量與計算復(fù)雜度(Flops)
最后,我們對訓(xùn)練模型的損失函數(shù)的收斂性進行分析。依據(jù)2.3節(jié)介紹的模型訓(xùn)練過程,本文使用的4個損失函數(shù)在訓(xùn)練過程中的變化情況如圖3所示。從中可以發(fā)現(xiàn):(1)與分類相關(guān)的損失Lf和Lcp自模型訓(xùn)練開始便逐漸減小,這表明通過監(jiān)督學習迭代更新網(wǎng)絡(luò)參數(shù)能夠逐步提高模型的分類能力。(2)與特征表征相關(guān)的一致性約束損失Lu和Lc在訓(xùn)練過程中先逐漸增大后又逐漸減小直至收斂。這表明訓(xùn)練初期由于模型的特征表征能力不足,對無標簽數(shù)據(jù)的音頻標記預(yù)測錯誤較多,一致性較差;通過一定時間的學習,隨著模型的特征表征能力增強,一致性約束損失呈下降趨勢并逐漸收斂。
圖3 訓(xùn)練過程各項損失的變化趨勢圖
本文提出了一種基于CRNN的音頻標記一致性約束聲音事件檢測方法。該方法的網(wǎng)絡(luò)框架包含了CRNN特征提取網(wǎng)絡(luò)、聲音事件分類網(wǎng)絡(luò)和CNN音頻標記網(wǎng)絡(luò)3部分。在模型訓(xùn)練階段,通過約束CNN音頻標記與CRNN音頻標記結(jié)果保持一致,使CRNN網(wǎng)絡(luò)的CNN結(jié)構(gòu)具有了明確的音頻標記功能;同時也提升了RNN結(jié)構(gòu)對音頻樣本幀間關(guān)系的建模能力。實驗證實:在CRNN聲音事件檢測模型訓(xùn)練時增加一致性約束可以取得與改進網(wǎng)絡(luò)結(jié)構(gòu)相當?shù)男阅芴嵘?。這充分說明:增加約束條件訓(xùn)練具有明顯功能結(jié)構(gòu)的CRNN網(wǎng)絡(luò)是提升其聲音事件檢測性能的合理途徑。同時,我們發(fā)現(xiàn)ATCC-CRNN對于短時聲音事件的檢測能力不足,結(jié)合注意機制提升模型對短時聲音事件的檢測能力是值得進一步研究的問題。此外,運用合適的數(shù)據(jù)增廣策略來提升ATCC-CRNN聲音事件檢測性能也值得仔細研究。