• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于遷移學(xué)習(xí)的暴恐音頻判別方法①

      2019-11-15 07:07:06胡鑫旭何小海熊淑華王正勇
      關(guān)鍵詞:梅爾網(wǎng)絡(luò)結(jié)構(gòu)音頻

      胡鑫旭,周 欣,何小海,熊淑華,王正勇

      (四川大學(xué) 電子信息學(xué)院,成都 610065)

      隨著近年來互聯(lián)網(wǎng)與電影行業(yè)的快速發(fā)展,網(wǎng)絡(luò)上包含的音視頻信息與日俱增,為用戶所共享的音視頻中不乏包含有暴力恐怖音視頻,這些暴恐音視頻將產(chǎn)生不良的網(wǎng)絡(luò)環(huán)境,對(duì)缺乏判斷力的未成年人產(chǎn)生負(fù)面影響.針對(duì)此現(xiàn)象,通常由人工進(jìn)行審查,審核通過以后才可進(jìn)入網(wǎng)絡(luò),但由于網(wǎng)絡(luò)上的音視頻信息豐富,并且每日還會(huì)產(chǎn)生海量的音視頻,所以這種做法不僅耗時(shí)耗力,而且影響了信息的傳播速度.因此,自動(dòng)檢測與判別網(wǎng)絡(luò)上傳播的暴恐音視頻成為近年來的一個(gè)研究熱點(diǎn).

      通常情況下,對(duì)網(wǎng)絡(luò)暴力元素的判別可以使用視頻或音頻特征,也可以兩者相結(jié)合,由于音頻在處理速度上較快于視頻處理速度,對(duì)于實(shí)時(shí)性要求比較高的場景,使用音頻特征的判別更具優(yōu)勢(shì),所以基于音頻信息的暴恐場景判別研究是極有必要的.

      目前暴恐音頻場景判別任務(wù)主要基于傳統(tǒng)的機(jī)器學(xué)習(xí)算法,采用SVM 分類器或KNN 分類器.2006年,Theodoros Giannakopoulos 使用SVM 來檢測暴力音頻,提取音頻的能量熵、短時(shí)平均過零率、短時(shí)能量、頻譜衰減值等特征,訓(xùn)練集和測試集各為10 分鐘的視頻數(shù)據(jù),最后達(dá)到14.5%的分類錯(cuò)誤率[1].文獻(xiàn)[2]同樣使用SVM 分類器方法,在由15 部電影組成的MediaEval VSD 數(shù)據(jù)集上截取槍聲、爆炸聲等暴力片段,隨機(jī)采樣15 部電影中的非暴力部分,得到70.2%的分類準(zhǔn)確率.但由于SVM 模型在訓(xùn)練數(shù)據(jù)較多的時(shí)候,需要計(jì)算的核矩陣大小也會(huì)增大,將會(huì)使訓(xùn)練效率降低,而較少的訓(xùn)練數(shù)據(jù)又限制了判別效果.2008年,Aggelos Pikrakis 使用KNN 分類器檢測音頻中的槍聲,提取了MFCC、STFT 聲譜圖、色彩特征、熵、語譜圖等特征,從30 部電影中截取5000 個(gè)音頻片段進(jìn)行檢測,準(zhǔn)確率為64.55%[3].可見采用傳統(tǒng)方法進(jìn)行的暴力音頻場景判別效果都不盡人意.

      2006年,Hinton 教授首次提出深度學(xué)習(xí)的概念,從此深度學(xué)習(xí)技術(shù)在圖像、視頻、語音、文本等領(lǐng)域得到了廣泛應(yīng)用.文獻(xiàn)[2]搭建了基于深度神經(jīng)網(wǎng)絡(luò)的暴力音頻分類系統(tǒng),在暴力與非暴力音頻各為30 分鐘的訓(xùn)練集上訓(xùn)練,達(dá)到了77.38%的分類準(zhǔn)確率.梁嘉欣等人針對(duì)傳統(tǒng)方法忽略時(shí)序信息的問題,提出了一種基于張量模型的暴力音頻檢測方法,最終得到了89.6%的準(zhǔn)確率[4].可見采用了深度學(xué)習(xí)方法的判別率往往相比于傳統(tǒng)機(jī)器學(xué)習(xí)方法有一定提升,因此本文將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)應(yīng)用于暴恐音頻場景的判別中.

      由于數(shù)據(jù)集的限制,將深度學(xué)習(xí)用于暴恐音頻判別的研究不多.針對(duì)判別網(wǎng)絡(luò)上傳播的一段只有背景信息的音頻是否屬于暴恐音頻的應(yīng)用背景,需要含有場景背景信息豐富并且包含暴恐元素的一段持續(xù)性音頻序列,然而目前國內(nèi)外并沒有相關(guān)領(lǐng)域的公開音頻數(shù)據(jù)集,于是本文從網(wǎng)上和電影中截取音頻片段組成暴恐音頻庫,但暴恐音頻來源受限并且數(shù)量較少,而CNN 往往需要希望有足夠多的數(shù)據(jù)訓(xùn)練,性能才好,在數(shù)據(jù)集過小的情況下效果不佳.于是本文將遷移學(xué)習(xí)技術(shù)引入暴恐音頻的判別中.

      1 基于遷移學(xué)習(xí)的暴恐音頻判別方法

      遷移學(xué)習(xí)的核心是利用已有的知識(shí),去解決不同但相關(guān)領(lǐng)域的問題[5].考慮到本文屬于有監(jiān)督到有監(jiān)督的類型,于是采用fine-tune 的遷移學(xué)習(xí)方法.Fine-tune基于一個(gè)預(yù)訓(xùn)練好的模型,采用相同的網(wǎng)絡(luò)結(jié)構(gòu),使用不同于預(yù)訓(xùn)練好模型的數(shù)據(jù),根據(jù)所要完成任務(wù)的要求,調(diào)整輸出,在預(yù)訓(xùn)練好的模型參數(shù)上進(jìn)行再訓(xùn)練,是一種解決小數(shù)據(jù)庫訓(xùn)練的方法[6].

      圖1為本文基于遷移學(xué)習(xí)的暴恐音頻判別方法的總體框圖,主要包括提取音頻對(duì)數(shù)梅爾頻譜特征、在源音頻數(shù)據(jù)上預(yù)訓(xùn)練網(wǎng)絡(luò)得到預(yù)訓(xùn)練模型、在目標(biāo)音頻數(shù)據(jù)上進(jìn)行fine-tune 二次訓(xùn)練.具體為:將TUT 音頻數(shù)據(jù)集作為源音頻數(shù)據(jù),提取音頻對(duì)數(shù)梅爾頻譜特征后,預(yù)訓(xùn)練網(wǎng)絡(luò)得到預(yù)訓(xùn)練模型,然后將暴恐音頻庫作為目標(biāo)音頻數(shù)據(jù),提取對(duì)數(shù)梅爾頻譜特征后在預(yù)訓(xùn)練模型上繼續(xù)訓(xùn)練得到最終的模型,最后在測試音頻上運(yùn)用最終得到的模型進(jìn)行暴恐音頻判別.此外,為提取更多的特征,在fine-tune 以后的網(wǎng)絡(luò)結(jié)構(gòu)中添加輔助網(wǎng)絡(luò),并將輔助網(wǎng)絡(luò)部分的輸出特征與輸入特征聚合在一起共同輸入分類層,更有效地利用暴恐音頻中的信息.

      1.1 對(duì)數(shù)梅爾頻譜特征的提取

      音頻特征的提取主要有3 種方式:時(shí)域特征、頻域特征及倒譜域特征的提取.時(shí)域特征通常是指短時(shí)平均過零率、短時(shí)能量、能量熵等,時(shí)域特征具有簡單但不夠豐富的特點(diǎn);頻域特征是指傅里葉頻譜、濾波器組等.相比于時(shí)域特征,頻域特征具有對(duì)外界環(huán)境更好的感知特性,但是頻域特征無法得到頻率分布隨時(shí)間變化的狀態(tài),所以本文采用的是音頻的倒譜域特征,典型代表是對(duì)數(shù)梅爾頻譜特征[7],將一維的音頻信號(hào)映射為時(shí)間-頻域的二維信號(hào)[8],提取過程如圖2所示.

      圖1 總體框圖

      本文產(chǎn)生對(duì)數(shù)梅爾頻譜圖的參數(shù)為:音頻信號(hào)的采樣率為44.1 kHz,預(yù)加重系數(shù)為0.97,采用漢明窗進(jìn)行分幀,快速傅里葉變換(Fast Fourier Transform,F(xiàn)FT)窗口長度為50 ms,相鄰窗之間的距離為20 ms,每幀包含2205 個(gè)采樣點(diǎn),梅爾濾波器的個(gè)數(shù)為200,圖3展示了含有槍聲的暴恐音頻(a)與正常音頻(b)的聲音波形圖與梅爾頻譜圖.

      圖2 提取音頻對(duì)數(shù)梅爾頻譜特征流程

      圖3 音頻波形圖與梅爾頻譜圖

      梅爾頻譜圖的垂直軸表示頻率,水平軸表示時(shí)間,顏色表示每個(gè)時(shí)間點(diǎn)各個(gè)頻率位置處的聲音的強(qiáng)度,圖3(c)中梅爾頻譜圖的3 到4.2 s 顯示的是出現(xiàn)槍聲的梅爾頻譜圖,與其他未出現(xiàn)槍聲的時(shí)間段梅爾頻譜圖有明顯差異,由圖3可見,含有暴恐元素音頻的頻率與強(qiáng)度在整個(gè)時(shí)間軸上分布不均勻,而正常音頻的梅爾頻譜圖在整個(gè)時(shí)間軸上頻率與強(qiáng)度分布基本均勻.提取特征后,將其轉(zhuǎn)換為分貝標(biāo)度,以便于計(jì)算.

      使用頻譜圖的好處是把現(xiàn)在的音頻分類問題變成了一個(gè)圖像分類問題,將每個(gè)wav 文件轉(zhuǎn)換成二維自變量(時(shí)間-頻率)的頻譜圖,每個(gè)頻譜圖存儲(chǔ)在與其類別相對(duì)應(yīng)的文件夾中.一個(gè)10 s 長的音頻,采樣率為44.1 kHz,共有44.1 kHz×10 s=441 000 個(gè)點(diǎn),分幀過后,因?yàn)閹茷?0 ms,即幀移為882(44.1 kHz×0.02 s=882)個(gè)采樣點(diǎn),所以維度為500 列(441 000/882=500),行為梅爾濾波器個(gè)數(shù).最終將每個(gè)10 s 長的音頻轉(zhuǎn)化為數(shù)組形式,維度為200 行、500 列.

      1.2 預(yù)訓(xùn)練網(wǎng)絡(luò)

      在提取音頻梅爾頻譜特征后,將每段音頻輸入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練,本文在文獻(xiàn)[7]的基礎(chǔ)上搭建預(yù)訓(xùn)練網(wǎng)絡(luò),預(yù)訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)如圖4.

      圖4 預(yù)訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)

      值得注意的是為了減少神經(jīng)網(wǎng)絡(luò)參數(shù)與避免過擬合,采用全局平均池化層(Global Average Pooling,GAP)替代全連接層,搭建的預(yù)訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如表1所示.

      表1 CNN 模型預(yù)訓(xùn)練網(wǎng)絡(luò)參數(shù)表

      將上述預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)在TUT 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集包含公共汽車站場景類、超市場景類等15 個(gè)場景類,訓(xùn)練集中每類場景包含234 個(gè)音頻,訓(xùn)練后的模型作為暴恐音頻判別的預(yù)訓(xùn)練模型.

      1.3 基于遷移學(xué)習(xí)的暴恐音頻場景判別方法

      由于TUT 數(shù)據(jù)集并不包含暴恐音頻類,因此,需要對(duì)預(yù)訓(xùn)練模型進(jìn)行遷移學(xué)習(xí),保留預(yù)訓(xùn)練模型權(quán)重與網(wǎng)絡(luò)結(jié)構(gòu),調(diào)整模型輸出,在自建的暴恐音頻庫上繼續(xù)訓(xùn)練,最終搭建的暴恐音頻判別的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖5.

      考慮到1.2 節(jié)得到的預(yù)訓(xùn)練模型已經(jīng)從TUT 數(shù)據(jù)集中習(xí)得了很多音頻低層次特征,因此只需在預(yù)訓(xùn)練模型上做簡單權(quán)重調(diào)整,所以微調(diào)部分迭代次數(shù)由600 改為300,學(xué)習(xí)速率由0.01 改為0.001,模型參數(shù)如表2所示.

      2 改進(jìn)的CNN-fine-tune 暴恐音頻判別方法

      因?yàn)樵诰矸e神經(jīng)網(wǎng)絡(luò)中,最終任務(wù)的高級(jí)特征往往由網(wǎng)絡(luò)后端習(xí)得,網(wǎng)絡(luò)前端習(xí)得的只是低層次特征[9].為提取更多的高級(jí)特征,形成多級(jí)特征提取器,本文以CNN 模型作為基礎(chǔ)網(wǎng)絡(luò),在截?cái)嗟幕A(chǔ)網(wǎng)絡(luò)的末尾追加了幾個(gè)特征層,這部分稱為輔助結(jié)構(gòu).但如果只是簡單地增加深度,會(huì)導(dǎo)致梯度彌散或梯度爆炸,所以新添輔助結(jié)構(gòu)部分采用了一種類似于殘差網(wǎng)絡(luò)的結(jié)構(gòu),如圖6所示.

      圖5 CNN-fine-tune 網(wǎng)絡(luò)結(jié)構(gòu)

      表2 CNN-fine-tune 網(wǎng)絡(luò)參數(shù)表

      圖6 添加輔助網(wǎng)絡(luò)結(jié)構(gòu)

      輔助網(wǎng)絡(luò)部分采用3 個(gè)連續(xù)的濾波器大小為1×50、1×1、1×1 的卷積層,最后一個(gè)1×1 的卷積層為了改變特征圖通道數(shù),使得經(jīng)過3 次非線性激活函數(shù)計(jì)算,增強(qiáng)了對(duì)于復(fù)雜程度和非線性程度的表達(dá)能力和泛化能力.將這一部分得到的特征圖與輸入特征圖聚合在一起,共同輸入分類層:

      其中,式(1)中F1是基礎(chǔ)網(wǎng)絡(luò)的輸出,也是輔助網(wǎng)絡(luò)的輸入,F(xiàn)2是輔助網(wǎng)絡(luò)的輸出,σ 為激活函數(shù),ωi(i=1,2,3)為輔助結(jié)構(gòu)中3 個(gè)卷積層權(quán)重,采用均勻分布初始化權(quán)重.式(2)意為采用keras 中concatenate函數(shù),實(shí)現(xiàn)了原始CNN 網(wǎng)絡(luò)特征圖與輔助網(wǎng)絡(luò)特征圖的數(shù)據(jù)疊加.下面說明引入輔助網(wǎng)絡(luò)的原理[10].

      假設(shè)on是 網(wǎng)絡(luò)第n層 的輸出特征圖,in是n層的輸入也是第n-1層的輸出,每一層輸出特征圖的計(jì)算公式如下:

      輔助網(wǎng)絡(luò)跨越多層,將輸入通過恒等映射轉(zhuǎn)換成輸出,此時(shí)每一層的梯度計(jì)算公式如下:

      由式(4)可見在網(wǎng)絡(luò)中加入輔助網(wǎng)絡(luò),可以使得梯度在反向傳播時(shí)永遠(yuǎn)大于或等于1,這樣就不會(huì)影響深層網(wǎng)絡(luò)的訓(xùn)練.

      3 實(shí)驗(yàn)結(jié)果與分析

      本文是在Ubuntu16.04 系統(tǒng)下,基于Keras 深度學(xué)習(xí)框架,以theano 作為后端進(jìn)行網(wǎng)絡(luò)模型的構(gòu)建和訓(xùn)練,實(shí)驗(yàn)采用NVIDIA GTX960 顯卡進(jìn)行加速.

      預(yù)訓(xùn)練網(wǎng)絡(luò)部分使用TUT 數(shù)據(jù)集,遷移學(xué)習(xí)網(wǎng)絡(luò)部分訓(xùn)練與測試數(shù)據(jù)集組成如下:從Youtube 中下載了網(wǎng)友錄制的一些恐怖襲擊現(xiàn)場音頻,同時(shí)也選取了少部分電影中的暴恐鏡頭音頻,根據(jù)槍聲、尖叫聲、爆炸聲、警報(bào)聲、打斗聲等截取音頻.正常音頻包括綜藝節(jié)目片段、電影片段與生活場景音頻,包含了笑聲、說話聲、鼓掌聲、音樂聲等.建立的數(shù)據(jù)集共699個(gè)音頻片段,由于音頻段時(shí)長各異,制作數(shù)據(jù)集時(shí)統(tǒng)一將尺寸設(shè)定為每個(gè)音頻10 s,其中正常音頻片段348 個(gè),250 個(gè)正常音頻用于訓(xùn)練,98 個(gè)正常音頻用于測試,暴恐音頻片段351 個(gè),250 個(gè)暴恐音頻用于訓(xùn)練,101 個(gè)暴恐音頻用于測試.音頻庫分布如表3.

      表3 音頻分布表

      本文研究的對(duì)象是一個(gè)二分類任務(wù),各種類別樣本數(shù)量相當(dāng),不需要考慮樣本類別不平衡問題,性能指標(biāo)采用準(zhǔn)確率(Accuracy,Acc).Acc的計(jì)算過程如公式所示:

      其中,Nt表示每類預(yù)測正確的樣本數(shù)量,Nall表示每類總樣本數(shù)量.

      利用最終得到的暴恐音頻判別模型在測試集的199 個(gè)音頻片段上進(jìn)行測試,得到未使用遷移學(xué)習(xí)與使用遷移學(xué)習(xí),以及未改進(jìn)CNN 與改進(jìn)CNN 后得到的判別效果分別如表4所示,同時(shí)使用傳統(tǒng)SVM 分類器進(jìn)行比較.

      表4 實(shí)驗(yàn)結(jié)果

      由實(shí)驗(yàn)一結(jié)果與實(shí)驗(yàn)二結(jié)果對(duì)比可得,傳統(tǒng)機(jī)器學(xué)習(xí)方法對(duì)于暴恐音頻的判別不如深度學(xué)習(xí)方法.實(shí)驗(yàn)二和實(shí)驗(yàn)三對(duì)比可得,使用fine-tune 的遷移學(xué)習(xí)方法比未使用遷移學(xué)習(xí)的方法提升了6.93%的暴恐音頻判別率和1.02%的正常音頻判別率,平均判別率提升了3.97%.同時(shí),實(shí)驗(yàn)四表明疊加輔助網(wǎng)絡(luò)結(jié)構(gòu)后對(duì)于暴恐音頻和正常音頻的判別率都有所提高,平均判別率相比于未添加輔助網(wǎng)絡(luò)的提高了1.01%,可見疊加的輔助網(wǎng)絡(luò)有助于得到更加可靠的特征提取效果.

      4 結(jié)論

      本文在判別網(wǎng)絡(luò)上傳播的一段音頻是否屬于暴恐音頻的應(yīng)用背景下,首先在公開的TUT 音頻數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練得到預(yù)訓(xùn)練模型,然后利用fine-tune 的遷移學(xué)習(xí)方法將預(yù)訓(xùn)練模型與網(wǎng)絡(luò)結(jié)構(gòu)引入暴恐音頻的判別中,在訓(xùn)練數(shù)據(jù)較少的情況下,也得到了不錯(cuò)的判別率,為提取更多的特征,在fine-tune 以后的網(wǎng)絡(luò)添加了一種類似于殘差網(wǎng)絡(luò)的結(jié)構(gòu),進(jìn)一步提高了音頻判別率.

      猜你喜歡
      梅爾網(wǎng)絡(luò)結(jié)構(gòu)音頻
      基于梅爾頻譜分離和LSCNet的聲學(xué)場景分類方法
      女詩人梅爾詩集《十二背后》三人談
      必須了解的音頻基礎(chǔ)知識(shí) 家庭影院入門攻略:音頻認(rèn)證與推薦標(biāo)準(zhǔn)篇
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      音頻分析儀中低失真音頻信號(hào)的發(fā)生方法
      電子制作(2017年9期)2017-04-17 03:00:46
      基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
      知識(shí)網(wǎng)絡(luò)結(jié)構(gòu)維對(duì)于創(chuàng)新績效的作用機(jī)制——遠(yuǎn)程創(chuàng)新搜尋的中介作用
      滬港通下A+ H股票網(wǎng)絡(luò)結(jié)構(gòu)演化的實(shí)證分析
      Pro Tools音頻剪輯及修正
      人間(2015年8期)2016-01-09 13:12:42
      復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)比對(duì)算法研究進(jìn)展
      西城区| 土默特左旗| 岚皋县| 洛浦县| 策勒县| 寻乌县| 庐江县| 安新县| 通山县| 师宗县| 茂名市| 乌什县| 晋中市| 鄱阳县| 梨树县| 正安县| 蒙山县| 镇安县| 化德县| 淮南市| 新营市| 余姚市| 大荔县| 吉首市| 安福县| 宁陕县| 仲巴县| 久治县| 青田县| 桂林市| 台前县| 页游| 织金县| 柘荣县| 邳州市| 治县。| 邹城市| 琼海市| 安平县| 涪陵区| 咸阳市|