• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    神經網絡的聲場景自動分類方法?

    2022-07-07 07:23:10姜文宗劉寶弟王延江
    應用聲學 2022年3期
    關鍵詞:時頻分支卷積

    梁 騰 姜文宗 王 立 劉寶弟 王延江

    (1 中國石油大學(華東)海洋與空間信息學院 青島 266580)

    (2 中國石油大學(華東)控制科學與工程學院 青島 266580)

    0 引言

    聲場景是指人們的日常環(huán)境和周圍發(fā)生的各種物理事件所產生的聲音。如,繁忙的街道上產生的嘈雜聲和汽車鳴笛聲,以及各種施工工地上產生的機器轟鳴聲等。而利用計算機來自動提取這些聲場景并對其進行分類具有重要的應用價值,如,場景聲頻監(jiān)控[1]、設計助聽器[2]、構建智能房間[3]和制造智能汽車等。

    目前,對真實環(huán)境中的聲場景即聲事件進行精準的自動分類,還存在較大的困難。因為在真實的聲場景中,通常會同時出現(xiàn)多種聲事件,這導致某類聲事件會受到其他背景聲的干擾,從而使機器自動識別變得困難。因此,聲場景分類具有重要的研究價值。近些年隨著卷積神經網絡(Convolutional neural network,CNN)的發(fā)展,出現(xiàn)了許多基于CNN 的聲場景分類方法,其中時頻卷積神經網絡(Temporal-spectral convolutional neural network,TS-CNN)提出了時頻注意力模塊[4],是目前聲場景分類效果最好的網絡之一,但是由于其結構復雜且層數(shù)較多,導致其運算效率較低,推理開銷大。為了提高性能,當前網絡都是朝著更重、更復雜的方向發(fā)展,但是大型網絡對搭載設備要求高,且運算速度慢,不利于實際應用。因此如何能夠在不增加推理計算量的情況下提高網絡的聲場景分類能力,成為一大難題。

    在不提高網絡參數(shù)量的前提下,已有的提高深度卷積神經網絡性能的方法包括協(xié)同學習(Collaborative learning)[5]、多任務學習[6]和知識蒸餾[7]等。其中,協(xié)同學習是在網絡的中間層連接額外的分類器對中間層進行直接監(jiān)督。多任務學習是把多個相關任務放在一起學習,通過設計多個損失函數(shù)同時學習多個任務。而知識蒸餾是將已經訓練好的大型教師網絡中包含的知識,蒸餾提取到小型的學生網絡。2015年,Hinton等[7]提出了知識蒸餾的方法,成功實現(xiàn)了網絡與網絡之間的知識轉移,但是知識蒸餾方法存在多網絡訓練,且設計復雜的缺點。2016年,S?gaard 等[8]證明了多任務學習的性能取決于多個相關任務的相似性,而在聲場景分類中難以找到合適的相似任務。2018年,Song等[5]對協(xié)同學習中輔助分支的設計和不同引入中間層位置的選擇進行了研究,研究證明簡單的添加輔助分類器并不能提高網絡的性能,而經過對輔助分支的結構進行設計和選擇恰當?shù)囊胫虚g層位置可以有效提高網絡性能。所以本文采用協(xié)同學習來對網絡進行改進。

    本文提出了一種基于協(xié)同學習的時頻卷積神經網絡模型(TSCNN-CL),能夠在保持推理計算量不變的前提下,有效提高網絡的聲場景分類性能。本文的主要貢獻包括:(1) 提出了在網絡靠前的中間層上附加輔助監(jiān)管分支,這些輔助監(jiān)管分支可以起到一個鑒別中間層提取特征圖的質量的作用。(2) 設計了一種同構分支結構,該結構可以提高主干網絡的聲場景分類性能。(3) 設計了一種基于KL散度的協(xié)同損失函數(shù),在主干網絡與輔助監(jiān)管分支之間實現(xiàn)了成對知識交流,從而起到了正則化的作用,提高了網絡的魯棒性。(4) 采用了一種基于協(xié)同學習的測試策略,在測試時將輔助監(jiān)管分支屏蔽,保持推理量不變,使模型便于工業(yè)部署中的實際應用。本文將所提出的模型在ESC-50、ESC-10 和UrbanSound8k 三個常用聲音分類數(shù)據(jù)集上進行了實驗驗證,實驗結果表明所提出的TSCNN-CL模型的平均分類準確率分別為84.6%、93.5%和84.5%,相比于在TS-CNN 模型上的實驗結果分別提升了1.2%、1.5%和1.0%。

    1 聲場景的特征提取

    由于所需識別的聲事件常常被背景噪聲所掩蓋,因此準確地提取其特征是聲場景分類的關鍵。目前常用聲音特征提取方法有短時傅里葉變換(Short-time Fourier transform,STFT)、小波譜圖和Mel 譜圖。其中,STFT 的方法是采用一個窗口函數(shù),將聲信號分割成許多小的時間間隔,然后對每一個時間間隔做傅里葉變換,以確定該時間間隔的頻率;小波譜圖是通過對聲信號進行多尺度分解,將聲信號分解到不同尺度上進行表示[9],從而得到聲信號的時頻表達;而Mel 譜圖是基于人類聽覺系統(tǒng)對不同頻率尺度的感知,在STFT 基礎上進一步提取具有不同頻率成分的特征信息,與STFT和小波變換相比,它提供更集中的聲音頻譜表示。由于這些時頻表達方法得到的頻譜圖可以看成一幅圖像,因此也可以采用圖像處理的方法對其特征進行進一步描述,常用的方法如局部二進制模式(Local binary patterns,LPB)或方向梯度直方圖(Histogram of oriented gradient,HOG)等[10]。

    上述聲音特征提取方法只適合對特定領域的聲信號進行表達。而對數(shù)梅爾譜圖法(Log-Mel) 通過對梅爾譜圖取對數(shù),壓縮了頻率的尺度,使特征變化更加平穩(wěn)。同時避免了梅爾譜圖因頻率相差過高而導致的數(shù)據(jù)計算困難、低頻率數(shù)據(jù)容易被忽視等問題,能夠對不同領域的聲信號進行更準確的表達。為此,本文選擇Log-Mel譜圖對聲音特征進行表達。圖1展示了一段煙火聲的Log-Mel譜圖。

    圖1 煙火的對數(shù)梅爾譜圖示例Fig.1 Example of Log-Mel of pyrotechnics

    2 時頻卷積神經網絡

    時頻卷積神經網絡(TS-CNN)是由Wang等[4]提出的用于聲場景分類的CNN,彌補了此前網絡在提取深層特征時沒有充分利用聲音特有的頻率和時間特征的缺陷。TS-CNN 在CNN 中引入時間—頻率平行注意力機制,通過根據(jù)不同時間幀和頻帶的重要性進行加權對時間和頻譜特征進行有選擇的學習,同時平行分支構造可以分別應用時間注意力和頻譜注意力,有效避免了噪聲干擾。

    TS-CNN 的網絡結構如圖2所示。它由4 個時頻卷積模塊(TFblock)組成,分別具有64、128、256和512 個輸出通道。其中每個卷積模塊包含2 個卷積層,卷積核大小為3×3,提取的對數(shù)梅爾譜圖先通過時頻注意力模塊進行提取特征,然后經過平均池化層進行下采樣,最后連接全局池化層和全連接層。在每個卷積層后都采用批量歸一化層[11]和ReLU[12]激活函數(shù)。4 個卷積層模塊依次相連,使用Softmax分類器進行分類。

    圖2 TS-CNN 結構框圖Fig.2 TS-CNN model framework

    TS-CNN 可充分利用聲音固有的頻率和時間特征,能夠有效降低噪聲的干擾,但由于TS-CNN網絡層數(shù)較深,且在訓練時采用非凸優(yōu)化算法,導致網絡在訓練的時候,容易陷入局部最優(yōu)值,并且伴隨著梯度消失和梯度爆炸的現(xiàn)象,因此達不到最優(yōu)效果。為了解決這一問題,在不增加推理量的前提下提高性能,本文在TS-CNN 的基礎上引入了協(xié)同學習,提出了TSCNN-CL網絡。

    3 協(xié)同時頻卷積神經網絡

    協(xié)同時頻卷積神經網絡(TSCNN-CL)是在TSCNN 基礎上引入了協(xié)同學習的方法,通過增加兩個協(xié)同分支以使得網絡訓練更加充分。增加CNN 的深度雖然可以一定程度上提高網絡的表征能力,但隨著深度加深,會逐漸出現(xiàn)神經網絡難以訓練的情況,其中就包括像梯度消失和梯度爆炸等現(xiàn)象。為此,TSCNN-CL 在神經網絡的中間層引入輔助的分支分類器,輔助分支分類器能夠判別中間層提取的特征圖質量的好壞,并且為中間層提供直接的監(jiān)督,而不是CNN 通常采用的僅在輸出層提供監(jiān)督,然后將此監(jiān)督傳播回早期層的標準方法。并且為每個分支設計了基于KL 散度的輔助損失函數(shù),使分支和主干之間進行信息交互,提高了網絡的泛化能力。

    3.1 網絡結構

    TSCNN-CL 的模型結構如圖3所示。具體地,先將TF 模塊1、TF 模塊2 和TF 模塊3 的輸出分別標記為C、B、A位,然后從C位和B位分別引出兩條同構分支,在分支之間進行KL 散度計算作為協(xié)同損失函數(shù)。其中,同構分支的網絡結構與主干網絡的網絡結構完全相同。

    圖3 TSCNN-CL 模型結構圖Fig.3 TSCNN-CL model framework

    3.2 協(xié)同損失函數(shù)

    在TSCNN-CL 中,兩個協(xié)同分支采用交叉熵作為損失函數(shù)。而為了實現(xiàn)不同分類器之間的知識協(xié)同,在不同分支之間設計了一種基于KL 散度的協(xié)同損失函數(shù),使得連接到主干網絡的所有分支之間可以進行信息交流,進一步優(yōu)化網絡性能。

    設D={(xi,yi|1 ≤i≤N}為包含N個樣本的數(shù)據(jù)集,其中xi是第i個訓練樣本,yi是對應的真實標簽。此外,設f(W,xi)為CNN的輸出向量。對于只在網絡的最后一層增加監(jiān)督的標準訓練方案,優(yōu)化目標可表示為

    其中,L1為默認損失,R為正則化項,λ是正則化系數(shù)。在公式(1)中,L1由式(2)計算:

    其中,H( )是交叉熵損失函數(shù),定義為

    對于TSCNN-CL,因為分別在B 位、C 位引出了協(xié)同分支,所以模型的優(yōu)化目標為

    其中,WB、WC分別為分支B、C的輸出向量,LAUX為輔助損失函數(shù)。LAUX可表示為

    因為KL 散度不具有交換性,TSCNN-CL 的3條支路兩兩交互,因此設計了6個KL散度來組成輔助損失函數(shù)LAUX。

    4 實驗結果與分析

    為驗證所提TSCNN-CL 網絡模型的有效性,本文在ESC-10、ESC-50 和UrbanSound8k 三個常用基準聲音數(shù)據(jù)集上進行了分類實驗驗證。

    4.1 數(shù)據(jù)庫

    (1) ESC-50/ESC-10[13]:ESC-50 數(shù)據(jù)集是由2000 個環(huán)境音頻記錄的集合,是一個適用于聲場景分類的基準數(shù)據(jù)集。數(shù)據(jù)集中每個記錄由5 s 長的錄音組成,分為50 個小語義類(每個類有40 個樣本)。其中聲頻的采樣頻率為44.1 kHz。所有數(shù)據(jù)集被分為5 個子集進行交叉驗證,本文中將采用交叉驗證結果的平均對網絡性能進行評估。而ESC-10數(shù)據(jù)集是ESC-50 數(shù)據(jù)集的一個子集,包含10 個類別,每類40個例子。ESC-10數(shù)據(jù)集的所有其他特征都與ESC-50數(shù)據(jù)集相同。

    (2) UrbanSound8k[14]:Urbansound8k 是目前應用最為廣泛的公共數(shù)據(jù)集,主要用于自動城市環(huán)境聲分類研究。UrbanSound8k 數(shù)據(jù)集由8732 個聲頻片段組成,一共分為10 類:“空調”“汽車喇叭”“兒童玩?!薄肮方小薄般@孔”“發(fā)動機空轉”“槍聲”“風鉆”“警笛”“街頭音樂”。每個類的總聲頻時長是不均衡的,且每個聲頻樣本的時長可變,最長是4 s,最短是2 s。樣本采樣頻率從16 kHz到48 kHz不等。實驗使用官方的10 個交叉驗證數(shù)據(jù)集進行模型性能評價。

    4.2 數(shù)據(jù)預處理

    本文首先將所有的原始聲頻樣本重新采至44.1 kHz,并且通過零填充將聲頻補充到同一長度:ESC-10 和ESC-50 擴充到5 s,UrbanSound8k 擴充到4 s。然后采用STFT 提取聲頻樣本的譜圖,設定的窗口大小為40 ms,跳躍大小為20 ms。最后通過梅爾濾波器得到對數(shù)梅爾頻譜圖。

    4.3 網絡訓練

    在進行網絡訓練時,本文選擇Adam 算法作為優(yōu)化器,使用默認參數(shù),初始學習率設置為0.03,指數(shù)衰減率為0.99。協(xié)同分支在訓練時與主干網絡一同訓練,在推理時將其屏蔽,不增加額外推理代價。該網絡由PyTorch 實現(xiàn),并且在Tesla V100 上進行訓練。圖4為網絡訓練過程中的損失函數(shù)變化曲線。

    圖4 TSCNN-CL 與TS-CNN 的訓練過程中損失函數(shù)變化曲線對比Fig.4 Comparison of loss changes in TSCNN-CL and TS-CNN models during the training process

    由圖4可以看出,在TSCNN-CL 訓練過程中,在迭代10 Epoch 之前訓練集和驗證集的損失值從0.14 迅速下降,在10 Epoch 和30 Epoch 之間損失函數(shù)緩慢下降,40 Epoch 之后的損失值逐漸趨于平穩(wěn),且穩(wěn)定在0.015。由于采用的驗證集數(shù)據(jù)樣本和訓練集樣本不同,兩個模型在驗證時損失值在20 Epoch 左右存在震蕩。此外,在與TSCNN 的比較中可以看出,TSCNN-CL的損失函數(shù)曲線變化更加平滑,收斂更加迅速。

    4.4 單分支與多分支比較

    為驗證多分支協(xié)同學習的有效性,本文分別在A位、B位和C 位引出同構協(xié)同分支進行測試。圖5分別展示了對應3 個位點的網絡結構。不同位點分支實驗結果的分類正確率如表1所示。從表1可以看出,分支位點的位置越靠前,網絡的性能越好。這是因為在網絡的訓練過程中隨著迭代次數(shù)的增加,CNN 早期層的卷積核參數(shù)的變化會趨于平緩。但這并不意味著早期層輸出的特征圖已經達到了最好的效果,而只是達到了一個局部最優(yōu)。換言之,整體網絡的性能由于早期層的卷積核沒有得到充分的訓練,而導致最終的分類效果沒有得到提升。TSCNN-CL 則通過對早期的卷積層添加協(xié)同分支,使其繼續(xù)進行訓練,從而提高了其輸出的特征圖質量,因此增強了網絡的分類性能。

    表1 不同分支之間的實驗結果比較Table 1 Comparison of experimental results among different branches(單位: %)

    圖5 不同分支的框架Fig.5 The frameworks of different branches

    4.5 實驗結果比較與分析

    為了驗證TSCNN-CL 模型的性能,本文將其與當前主流方法進行了比較。通過交叉驗證,實驗結果表明所提出的TSCNN-CL 的平均分類準確率在ESC-50、ESC-10 和UrbanSound8k 上分別為84.6%、93.5%和84.5%,在TS-CNN 實驗結果的基礎上分別提升了1.2%、1.5%和1.0%。其中TS-CNN的結果是按照作者給出的代碼在相同實驗環(huán)境下進行復現(xiàn)得到的。聲場景分類的主流方法中,按照對聲信號的與處理方式,可以分為兩大類,分別是人工設計特征和原始聲信號。人工設計特征是指聲場分類任務從原始聲信號中提取人工設計的特征,比如:時頻圖、梅爾圖、梅爾倒譜系數(shù)作為神經網絡的輸入進行訓練。2017年,谷歌將GoogLeNet[15]應用到了聲場分類中,其采用梅爾圖與梅爾倒譜系數(shù)相結合的方式對聲信號進行預處理,取得了良好的分類效果。但在實際聲場景中,聲信號與語聲和音樂信號不同,面臨著錄制條件復雜、噪聲較多等問題,人工設計的特征無法對聲信號的特征進行自適應的表示。而原始聲信號方案可以利用神經網絡強大的特征提取能力,從聲信號中提取出自適應的特征,同時也省去了復雜的人工設計特征過程。鑒于此優(yōu)勢,一些基于原始聲信號的研究相繼出現(xiàn)。2017年,Tokozum等[16]提出了一種稱為EnvNet的一維體系結構,它使用原始聲信號作為輸入進行端到端的訓練,在當時達到了最好的分類效果。2019年,Abdoli 等[15]提出了Gammatone 1D-CNN,模擬Gammatone 濾波器組進行網絡初始化,有效提高了網絡的分類性能。盡管原始聲信號方案與人工設計特征方案相比存在優(yōu)勢,但是由于一維的聲信號比手工設計特征包含更多的噪聲信息,并且神經網絡需要大量的聲音數(shù)據(jù)用于訓練,而聲音數(shù)據(jù)的獲取難度要高于圖像和文本數(shù)據(jù),所以目前的主流方案還是人工設計特征方案。

    此外,GoogLeNet 在UrbanSound8k 上的測試并沒有按照標準劃分10個子集進行交叉驗證,而是采用了5個隨機劃分的交叉驗證集。而Gammatone 1D-CNN 雖然在UrbanSound8k 分類效果較好,但主要是對聲音特征進行了重疊提取,提取的相鄰特征信息之間存在50%的重疊,相當于對數(shù)據(jù)進行了增強,且測試集里包含了訓練集的樣本,因而提升了分類效果。TSCNN-CL 與其他主流方法相比,采用了時頻注意力模塊對聲信號的時間和頻率特征進行加權學習,不僅能夠有效避免噪聲的干擾,而且通過引入?yún)f(xié)同學習,能最大程度地挖掘網絡潛力,進一步增強了網絡的分類性能。表2顯示了TSCNN-CL和其他主流方法的性能比較,結果表明,本文提出的協(xié)同學習的方法能夠顯著提高網絡的分類效果。

    表2 TSCNN-CL 模 型 在ESC-10、ESC-50 和UrbanSound8k 上與其他聲場景分類模型的對比Table 2 Comparisons between TSCNN-CL model and other environmental sound classification models on ESC-10,ESC-50,and UrbanSound8k datasets(單位: %)

    5 結論與展望

    本文提出了一種基于協(xié)同學習的時頻卷積神經網絡(TSCNN-CL)用于聲場景自動分類。TSCNN-CL 通過協(xié)同學習的方法,在不增加推理量的前提下,提高了網絡的分類性能。首先在TSCNN 的中間層引入兩條協(xié)同分支,這兩條協(xié)同分支能夠輔助監(jiān)督中間層訓練。其次在主干與分支之間設計了相應的輔助損失函數(shù),使得主干和分支可以進行信息交互,提高了網絡的泛化能力,并且為協(xié)同分支之間也設計了協(xié)同損失函數(shù),實現(xiàn)了分支之間的成對知識匹配。最后,在推理的時候將分支屏蔽,保持推理運算量不變,使模型便于工業(yè)部署。在聲場識別常用數(shù)據(jù)集ESC-10、ESC-50 和Urban-Sound8k 上的實驗結果表明所提出的TSCNN-CL網絡模型的分類效果較TS-CNN 模型有較大提升,且優(yōu)于當前大部分的主流方法。

    猜你喜歡
    時頻分支卷積
    基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
    巧分支與枝
    學生天地(2019年28期)2019-08-25 08:50:54
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    基于傅里葉域卷積表示的目標跟蹤算法
    一類擬齊次多項式中心的極限環(huán)分支
    基于時頻分析的逆合成孔徑雷達成像技術
    對采樣數(shù)據(jù)序列進行時頻分解法的改進
    一種基于卷積神經網絡的性別識別方法
    電視技術(2014年19期)2014-03-11 15:38:20
    雙線性時頻分布交叉項提取及損傷識別應用
    淺析《守望燈塔》中的時頻
    大厂| 贵州省| 静宁县| 秭归县| 井冈山市| 伊通| 高雄县| 凤山县| 宁明县| 威信县| 韶关市| 海南省| 彰化市| 西充县| 百色市| 当涂县| 盐亭县| 琼海市| 福海县| 上高县| 九江市| 乐昌市| 北安市| 随州市| 拜城县| 陈巴尔虎旗| 九江市| 阳信县| 福海县| 上饶市| 分宜县| 临桂县| 子长县| 浮梁县| 义马市| 桃源县| 建始县| 香港| 孟津县| 洱源县| 叙永县|