刁則鳴,周神保,羅海濤
(1.國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心廣東分中心,廣東 廣州 510000;2.長(zhǎng)安通信科技有限公司,廣東 廣州 510000)
基于音頻特征對(duì)錄音設(shè)備的識(shí)別從2007年開始成為學(xué)術(shù)研究熱點(diǎn)[1]。2017年,中華人民共和國(guó)民事訴訟法[2]把視聽材料作為法庭認(rèn)可的八大證據(jù)之一,此后,國(guó)內(nèi)也掀起了對(duì)音頻取證研究的熱潮。音頻取證主要研究目的在于通過音頻信息推斷音頻信號(hào)是在何時(shí)(錄音時(shí)間)何地(錄音環(huán)境)由什么設(shè)備錄制的[3],通常是對(duì)原始錄制音頻進(jìn)行分析。AGGARWAL R等人認(rèn)為,假設(shè)把錄音設(shè)備看作一個(gè)對(duì)音頻的濾波器,則尋找表征錄音設(shè)備的特征參量就是從音頻信號(hào)中提取錄音設(shè)備的傳遞函數(shù)[4]。因此,音頻取證中對(duì)錄音設(shè)備的識(shí)別首先需要提取非話音段,從非話音段中對(duì)設(shè)備本底噪聲進(jìn)行估計(jì)[5-7]。
與音頻取證的錄音設(shè)備識(shí)別有所不同,經(jīng)電話網(wǎng)傳輸后的源終端的識(shí)別不能完全考慮非話音段,因?yàn)榉窃捯舳卧诰W(wǎng)絡(luò)傳輸中受編解碼的影響很大,往往會(huì)丟失很多設(shè)備特征參量。近些年網(wǎng)絡(luò)傳輸后的音頻溯源研究也引起了學(xué)術(shù)界的重視,王一平等人在提取音頻特征的基礎(chǔ)上,基于隨機(jī)森林篩選出貢獻(xiàn)度高的特征作為來源特征[8];Pindr0p公司則研究了傳輸音頻數(shù)據(jù)的相關(guān)特征并提出可以利用這些特征構(gòu)造呼叫聲紋(call fingerprint),再利用這些聲紋識(shí)別來源地點(diǎn)、來源網(wǎng)絡(luò)、呼叫路徑等[9],但Pindr0p研究成果未完整公開。
上述研究都沒有就來源終端的識(shí)別提出解決方法,本文將在闡明來源終端識(shí)別的可行性的基礎(chǔ)上,提出一種用神經(jīng)網(wǎng)絡(luò)對(duì)來源終端的特征進(jìn)行建模的方法,為判斷來話意圖研究提供一些參考思路。
為了在網(wǎng)絡(luò)傳輸過程中既保證音頻的保真度,又提高帶寬利用率,網(wǎng)絡(luò)設(shè)備在傳輸音頻時(shí)會(huì)通過端點(diǎn)檢測(cè)(Voice Activity Detection,VAD)技術(shù)找到話音段,并只對(duì)話音段進(jìn)行壓縮編碼,靜音段則不受保護(hù)。因此,在提取源設(shè)備本底噪聲特征時(shí),比較合理的方法是從非靜音段中提取。Mel頻率是一種基于人耳聽覺特性提取的頻率特性,與Hz頻率成非線性對(duì)應(yīng)關(guān)系,梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)則是描述這種對(duì)應(yīng)關(guān)系的系數(shù),可以用來計(jì)算得到Hz頻率??梢?,MFCC適合用于描述傳輸音頻的非靜音段部分特性。
標(biāo)準(zhǔn)的倒譜參數(shù)MFCC只反映了語(yǔ)音參數(shù)的靜態(tài)特性,當(dāng)需要考慮不同說話人、不同音頻內(nèi)容等區(qū)別時(shí),往往還可以綜合考慮這些標(biāo)準(zhǔn)MFCC的差分譜。本文設(shè)計(jì)了幾組音頻聚類實(shí)驗(yàn),來驗(yàn)證利用MFCC描述音頻來源終端特征的可行性,總體實(shí)驗(yàn)思路如圖1所示。首先利用測(cè)試手機(jī)撥打一定量的電話,通過同款手機(jī)接收并錄制下電話音頻,然后對(duì)每個(gè)音頻的非靜音段提取13維的MFCC(每幀提取一組),考慮到每個(gè)音頻長(zhǎng)度不一,再對(duì)每個(gè)音頻計(jì)算統(tǒng)計(jì)MFCC特征,最后在聚類前對(duì)這些統(tǒng)計(jì)特征做降維處理。
圖1 實(shí)驗(yàn)流程圖
為了確保實(shí)驗(yàn)結(jié)果有明確指向性,實(shí)驗(yàn)中的音頻內(nèi)容、呼叫網(wǎng)絡(luò)、被叫設(shè)備須保持一致,相同來源設(shè)備用同種標(biāo)記符表示,如:(x、v、_),可輸出如圖2所示的聚類結(jié)果。
圖2 聚類結(jié)果
從實(shí)驗(yàn)結(jié)果來看,不同來源設(shè)備的音頻用MFCC描述后區(qū)分度較高,實(shí)驗(yàn)中不同來源設(shè)備的音頻聚類效果較好。同時(shí),通過聚類結(jié)果還可以看到,不同來源設(shè)備的音頻也存在串類的情況,也就是說用MFCC描述來源設(shè)備還是存在一定的誤差。下文將通過實(shí)驗(yàn)來驗(yàn)證用MFCC構(gòu)建識(shí)別模型的準(zhǔn)確率。
WaveNet[10]是DeepMind提出的一種生成網(wǎng)絡(luò),其主要思想是認(rèn)為語(yǔ)音是由一個(gè)個(gè)采樣點(diǎn)組成的,每個(gè)采樣都受到歷史采樣的約束,因此每個(gè)語(yǔ)音片段的聯(lián)合概率可以用下式表示:
(1)
即一個(gè)長(zhǎng)度為T的音頻可以用每個(gè)歷史語(yǔ)音采樣點(diǎn)(x1,…,xt-1)預(yù)測(cè)的采樣點(diǎn)(xt)的聯(lián)合概率表示。這種音頻的理解方式反映了WaveNet對(duì)時(shí)序信號(hào)前后因果關(guān)系的重視,也是其模型設(shè)計(jì)的核心思想所在。
在模型結(jié)構(gòu)方面,WaveNet使用了多層因果空洞卷積(Causal Dilated Convolution),通過擴(kuò)大輸出感受野(Receptive Field),來表達(dá)音頻時(shí)序特征。為了避免模型深度增加導(dǎo)致梯度消失(Vanishing Gradient),WaveNet使用了殘差網(wǎng)絡(luò)結(jié)構(gòu)(Residual Network),跳躍某些時(shí)序特征的約束,提高訓(xùn)練深度。因此,WaveNet的模型深度得到了保證,對(duì)音頻的特征學(xué)習(xí)很充分。為了使WaveNet可以用于執(zhí)行來源終端類型識(shí)別任務(wù),需要在該模型中引入一定規(guī)模的dropout以優(yōu)化訓(xùn)練效果,并將模型輸出進(jìn)行池化(Pooling)操作以實(shí)現(xiàn)降維調(diào)整,模型總體結(jié)構(gòu)如圖3所示。
圖3 模型圖
本實(shí)驗(yàn)收集了8款手機(jī)的呼叫錄音,分別為HTC、諾基亞、華為、三星、蘋果、努比亞、黑莓、小米。每個(gè)手機(jī)平均呼叫400次左右,通過同一個(gè)手機(jī)接聽并采集錄音,共采集錄音3 600余個(gè),每個(gè)通話時(shí)長(zhǎng)60 s左右。
實(shí)驗(yàn)中,對(duì)音頻的非靜音段按幀提取13維MFCC,這樣每幀音頻將由一組13維的數(shù)據(jù)表示。為了避免奇異樣本對(duì)樣本全體的不良影響,本文在模型訓(xùn)練之前對(duì)所有音頻幀的MFCC按下式進(jìn)行歸一化處理:
(2)
其中,xmean和xstd分別為所有音頻幀MFCC的均值和標(biāo)準(zhǔn)差,所有音頻幀通過歸一化處理可以得到新的x′。
本文選取90%數(shù)據(jù)作為訓(xùn)練集,9%數(shù)據(jù)作為驗(yàn)證集,再預(yù)留1%數(shù)據(jù)作為模型通用性的測(cè)試集。設(shè)定模型epoch為20,在每個(gè)epoch中監(jiān)聽驗(yàn)證集的損失(val_loss),當(dāng)該指標(biāo)波動(dòng)變緩時(shí)調(diào)低學(xué)習(xí)率(learning rate),并在每個(gè)epoch后輸出一個(gè)模型,實(shí)時(shí)輸出訓(xùn)練結(jié)果,完整訓(xùn)練過程記錄如圖4及圖5所示。
圖4 模型分類準(zhǔn)確率
圖5 模型分類誤差
從訓(xùn)練指標(biāo)的走勢(shì)可以看出模型的訓(xùn)練效果較好,訓(xùn)練準(zhǔn)確率(acc)達(dá)到98.5%,驗(yàn)證準(zhǔn)確率(val_acc)達(dá)到92.8%左右,損失在訓(xùn)練過程中總體呈下降趨勢(shì),模型表現(xiàn)穩(wěn)定。為了測(cè)試模型的通用性,本文用測(cè)試集對(duì)輸出的模型進(jìn)行測(cè)試,測(cè)試結(jié)果如表1所示。
表1測(cè)試結(jié)果顯示,模型平均準(zhǔn)確率為89.6%,與模型驗(yàn)證準(zhǔn)確率接近。注意到HTC、諾基亞和蘋果有不同程度的錯(cuò)分類情況,本文認(rèn)為有兩方面的原因,一是訓(xùn)練樣本集有限,模型訓(xùn)練還不夠充分;二是以非靜音段的音頻MFCC作為輸入還不足以完整刻畫音頻的來源特征。
本文提出了一種基于神經(jīng)網(wǎng)絡(luò)的來源電話類型識(shí)別方法,由于經(jīng)過網(wǎng)絡(luò)傳輸?shù)膩碓刺卣髟陟o音段難以提取,本文提出聚焦于非靜音段音頻分析,從音頻聚類效果來看,用MFCC作為模型輸入是具有一定可行性的。分類實(shí)驗(yàn)結(jié)果表明,本文所提出的方法對(duì)來源電話終端類型具有較好的識(shí)別效果。
表1 通用性測(cè)試結(jié)果 (%)
然而,本文的方法是對(duì)來源電話終端識(shí)別的初步探索,還有很多局限性,如樣本音頻不足可能導(dǎo)致模型過擬合,音頻在不同接收終端錄制可能導(dǎo)致模型通用性不夠,用MFCC作為模型單一輸入可能降低識(shí)別準(zhǔn)確性。本文后續(xù)將繼續(xù)深入研究,期待形成行之有效的識(shí)別方法。