周 曄章堅(jiān)武*程繼承
(1.杭州電子科技大學(xué)通信工程學(xué)院,浙江 杭州 310018;2.浙江宇視科技有限公司,浙江 杭州 310051)
自動(dòng)說話人驗(yàn)證(Automatic Speaker Verification,ASV)作為一種身份識(shí)別技術(shù),旨在根據(jù)傳感器采集的語音樣本對(duì)給定人聲稱的身份進(jìn)行驗(yàn)證[1]。近年來,由于采集傳感設(shè)備的發(fā)展,該技術(shù)受到了廣泛的關(guān)注,并應(yīng)用于智能設(shè)備登錄、門禁控制、網(wǎng)上銀行等方面。但是各類語音偽裝技術(shù)威脅著ASV系統(tǒng)的安全性能,目前確定了四種類型的偽裝語音欺騙攻擊[2]:語音合成、語音轉(zhuǎn)換(Voice Conversion,VC)、語音模仿、重播,它們可生成類似于合法用戶語音的偽裝語音。以語音合成[3-4]和語音轉(zhuǎn)換[5-6]為主的邏輯訪問(Logical Access,LA)攻擊在過去十年中取得了巨大進(jìn)展,因此區(qū)分偽裝語音與真實(shí)用戶語音變得更具挑戰(zhàn)性。越來越多的研究證實(shí),ASV系統(tǒng)在面對(duì)針對(duì)數(shù)據(jù)庫的各種惡意欺騙攻擊時(shí)存在嚴(yán)重脆弱性[7-8]。
為了應(yīng)對(duì)欺騙攻擊威脅,研究人員一直致力于尋求有效的反欺騙方法,目前語音欺騙檢測(cè)系統(tǒng)主要由前端特征提取和后端分類器兩部分組成。與一般的說話人驗(yàn)證和語音處理所使用的聲學(xué)特征不同,語音欺騙檢測(cè)需要開發(fā)更適用于語音欺騙檢測(cè)的聲學(xué)特征[9]。經(jīng)聲學(xué)特征提取后,使用性能出色的分類器以完成真?zhèn)握Z音區(qū)分。在傳統(tǒng)的機(jī)器學(xué)習(xí)方法中,高斯混合模型[10](Gaussian Mixture Model,GMM)是最經(jīng)典的分類模型,其優(yōu)勢(shì)在于訓(xùn)練時(shí)間短,但檢測(cè)準(zhǔn)確性有限;隨著深度學(xué)習(xí)的興起,各類能夠?qū)W習(xí)復(fù)雜非線性特征的深度神經(jīng)網(wǎng)絡(luò)也被應(yīng)用于語音欺騙檢測(cè),Zhang等[11]提出CNN-RNN檢測(cè)系統(tǒng),以CNN提取音頻特征、以RNN捕獲跨時(shí)域的長(zhǎng)期依賴關(guān)系進(jìn)而實(shí)現(xiàn)檢測(cè)。Wu等[12]將特征基因轉(zhuǎn)換器與LCNN分類器結(jié)合,使真?zhèn)握Z音差異最大化。雖然現(xiàn)有方法的訓(xùn)練性能均有所提升,但在實(shí)際應(yīng)用中會(huì)遭遇未知類型攻擊,而這些攻擊通常與已知攻擊具有不同的統(tǒng)計(jì)分布,從而造成訓(xùn)練和應(yīng)用之間巨大的性能差距,這表明欺騙檢測(cè)系統(tǒng)對(duì)未知攻擊的泛化能力仍待改進(jìn)。
此外,由于現(xiàn)實(shí)情況中多為復(fù)雜聲學(xué)環(huán)境,如存在多源環(huán)境噪聲、混響和信道干擾等[13],并都可造成語音質(zhì)量退化,因而將其統(tǒng)稱為環(huán)境干擾。各類欺騙檢測(cè)系統(tǒng)面對(duì)復(fù)雜的聲學(xué)環(huán)境時(shí),存在性能大幅倒退情況。針對(duì)此問題,Park等[14]提出SpecAugment數(shù)據(jù)增強(qiáng)方法,該方法對(duì)輸入音頻的對(duì)數(shù)梅爾頻譜圖進(jìn)行操作,但它從數(shù)據(jù)中完全去除干擾音頻的同時(shí),也刪除了有用信息,一定程度上不利于后續(xù)檢測(cè)。Li等[15]通過基于注意力機(jī)制的LSTM來調(diào)整權(quán)重進(jìn)而自動(dòng)選擇特定的、有代表性的幀級(jí)特征用于嘈雜環(huán)境中的欺騙檢測(cè),但改善程度有限。本文針對(duì)去除環(huán)境干擾過程進(jìn)行改進(jìn),構(gòu)建了深度殘差收縮網(wǎng)絡(luò)。
本文的主要貢獻(xiàn)包括2個(gè)方面:
①針對(duì)復(fù)雜聲學(xué)環(huán)境下的語音欺騙檢測(cè),本文構(gòu)建深度殘差收縮網(wǎng)絡(luò)(Deep Residual Shrinkage Networks,DRSN),設(shè)計(jì)了包含基于深度注意力機(jī)制的自適應(yīng)閾值學(xué)習(xí)模塊和軟閾值模塊的殘差收縮構(gòu)建單元(Residual Shrinkage Building Unit,RSBU),在無需專業(yè)人士手動(dòng)執(zhí)行環(huán)境狀態(tài)監(jiān)測(cè)的情況下,每個(gè)語音信號(hào)可依據(jù)各自聲學(xué)環(huán)境中不同干擾水平確定獨(dú)立閾值,在不損害有用信息的同時(shí)將干擾特征強(qiáng)制置零,實(shí)現(xiàn)自主動(dòng)態(tài)去擾,保留更具辨別性的高級(jí)特征,在復(fù)雜聲學(xué)環(huán)境下既能提高判別特征學(xué)習(xí)能力,又能執(zhí)行高效訓(xùn)練。
②針對(duì)檢測(cè)方法泛化性能差問題,使用三種不同聲學(xué)特征提取算法(CQCC、MFCC和Spectrogram)以更全面地表示語音特性,并將特征分別作為網(wǎng)絡(luò)輸入,依據(jù)其輸出性能為各模型生成權(quán)重,在執(zhí)行多特征聯(lián)合檢測(cè)中平衡不同模型特點(diǎn)、實(shí)現(xiàn)優(yōu)勢(shì)補(bǔ)充以提升系統(tǒng)泛化性。
深度殘差網(wǎng)絡(luò)(ResNet)是卷積網(wǎng)絡(luò)中極具吸引力的變體,它使用恒等路徑(Identity Shortcut)來減輕參數(shù)優(yōu)化的難度[16]。對(duì)于一般的卷積網(wǎng)絡(luò),當(dāng)網(wǎng)絡(luò)加深時(shí),反向傳播的梯度間相關(guān)性會(huì)越來越差,網(wǎng)絡(luò)表征能力不增反退,但由于ResNet中存在由非線性層和恒等路徑所組成的殘差單元(Residual Building Unit,RBU),可很好地改善該問題,如圖1所示。在ResNet中,梯度不僅能便捷地逐層反向傳播,而且通過恒等路徑可直接回流至起始層,從而高效地更新參數(shù)以減輕網(wǎng)絡(luò)的訓(xùn)練難度[17]。
圖1 RBU的結(jié)構(gòu)
鑒于ResNet的優(yōu)良性能,有學(xué)者將其引入作為語音欺騙檢測(cè)的后端分類器。Alzantot等[18]使用不同的特征提取算法將原始語音波形轉(zhuǎn)換為2D特征表示,再將該2D特征表示輸出至采用跳躍連接的ResNet中,一定程度地提高了檢測(cè)準(zhǔn)確率。Chen等[19]在ResNet的基礎(chǔ)上通過使用大邊距余弦損失函數(shù)(LMCL)和在線頻率掩蔽增強(qiáng)來迫使網(wǎng)絡(luò)學(xué)習(xí)更強(qiáng)大的特征嵌入。
本文所使用的深度殘差收縮網(wǎng)絡(luò)(DRSN)[20]在ResNet的基礎(chǔ)上,增加基于深度注意力機(jī)制的自適應(yīng)閾值學(xué)習(xí)模塊和軟閾值模塊以進(jìn)一步提升其性能,詳細(xì)介紹見第2節(jié)。
本節(jié)將重點(diǎn)介紹本語音欺騙檢測(cè)方法所使用的聲學(xué)特征。
①常數(shù)Q倒譜系數(shù)CQCC
CQCC(Constant Q Cepstral Coefficient)[21]時(shí)間和頻率分辨率可變,能夠可靠地捕獲欺騙攻擊的一些信息,并且它的結(jié)構(gòu)對(duì)情景和欺騙攻擊是同時(shí)敏感的。CQCC特征是利用常數(shù)Q變換(CQT)結(jié)合傳統(tǒng)倒譜分析而獲得的,CQT使用幾何的頻率間隔,在較低頻率下提供高頻率分辨率,在較高頻率下提供高時(shí)間分辨率,因而對(duì)大多欺騙攻擊感知敏感。為計(jì)算CQCC,在應(yīng)用CQT后再計(jì)算功率譜并取對(duì)數(shù),接著進(jìn)行均勻重采樣,最后通過離散余弦變換以獲得CQCC特征。
②梅爾頻率倒譜系數(shù)MFCC
MFCC(Mel Frequency Cepstral Coefficient)[22]是基于人耳聽覺特性提出,具有良好的識(shí)別性能和抗噪性能,廣泛應(yīng)用于自動(dòng)語音和ASV。MFCC模擬了人類聽覺處理語音時(shí)的非線性特點(diǎn),對(duì)于不同頻率語音信號(hào)的靈敏度不同。MFCC特征是先計(jì)算短時(shí)傅立葉變換(STFT),再通過濾波器組將頻譜映射到梅爾頻譜,最后經(jīng)過離散余弦變換而得到。
③聲譜圖Spectrogram
對(duì)原始信號(hào)進(jìn)行分幀加窗后完成短時(shí)傅里葉變換,并計(jì)算每個(gè)分量的大小最后將其轉(zhuǎn)換為對(duì)數(shù)刻度,捕獲輸入音頻波形的時(shí)頻特性。相比于CQCC和MFCC特征,由于該特征并未過多地進(jìn)行人工工學(xué)特征處理,因而更加貼合輸入的原始數(shù)據(jù),且研究表明[23-24],深度學(xué)習(xí)模型能夠通過輸入原始數(shù)據(jù)自動(dòng)進(jìn)行學(xué)習(xí),在隱藏層內(nèi)執(zhí)行更高級(jí)別的特征表示。
在本節(jié)中,首先介紹基于深度殘差收縮網(wǎng)絡(luò)(DRSN)的多特征聯(lián)合語音欺騙檢測(cè)方法的整體架構(gòu),然后分別介紹實(shí)現(xiàn)動(dòng)態(tài)消除環(huán)境干擾的殘差收縮構(gòu)建單元(RSBU)和平衡不同模型特點(diǎn)、實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ)的聯(lián)合檢測(cè)單元。
以CQCC、MFCC及Spectrogram三個(gè)聲學(xué)特征作為輸入,先對(duì)特征圖進(jìn)行卷積以減少網(wǎng)絡(luò)訓(xùn)練的參數(shù)量,降低過擬合現(xiàn)象發(fā)生的可能性,隨后將經(jīng)過卷積處理的特征分別傳入DRSN,構(gòu)建MFCCDRSN、CQCC-DRSN和Spectrogram-DRSN模型??紤]到在一般欺騙檢測(cè)任務(wù)中,真實(shí)語音數(shù)量遠(yuǎn)少于偽裝語音數(shù)量,所有模型都使用最小化加權(quán)交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練,其中分配給真實(shí)語音和偽裝語音的權(quán)重之比為9∶1,以減輕訓(xùn)練數(shù)據(jù)分布的不平衡。此外,在全連接層(FC)中設(shè)置比率為0.5的Dropout,從而增強(qiáng)每層各個(gè)特征之間的正交性。隨后將3個(gè)單類特征-DRSN檢測(cè)模型結(jié)果輸入至聯(lián)合檢測(cè)單元,得到最終判決結(jié)果,如圖2所示。
圖2 基于DRSN檢測(cè)方法整體架構(gòu)
鑒于音頻數(shù)據(jù)制作中會(huì)不可避免地存在環(huán)境噪聲、混響和信道干擾等環(huán)境干擾,干擾的存在會(huì)降低神經(jīng)網(wǎng)絡(luò)提取偽裝語音特征信號(hào)的能力,為去除復(fù)雜聲學(xué)環(huán)境對(duì)檢測(cè)的影響,本文參考ResNet中的殘差單元(RBU),設(shè)計(jì)了DRSN中的殘差收縮構(gòu)建單元(RSBU),殘差收縮構(gòu)建單元包含基于深度注意力機(jī)制的自適應(yīng)閾值學(xué)習(xí)模塊和軟閾值模塊,如圖3所示。
圖3 殘差收縮構(gòu)建單元RSBU
①自適應(yīng)閾值學(xué)習(xí)模塊
在消除環(huán)境干擾過程中,閾值參數(shù)通常根據(jù)專家的先驗(yàn)知識(shí)而給出,監(jiān)測(cè)成本高且波動(dòng)較大。其次音頻數(shù)據(jù)制作環(huán)境各異,因而很難逐一設(shè)置最佳閾值。針對(duì)此問題,通過增設(shè)自適應(yīng)閾值學(xué)習(xí)模塊,可以注意每個(gè)音頻的聲學(xué)環(huán)境情況自主確定最佳閾值,并將該值提供給軟閾值模塊實(shí)現(xiàn)動(dòng)態(tài)消除環(huán)境干擾。在該模塊中首先對(duì)特征圖x∈?C×W×H取絕對(duì)值、使用全局平均池化降低特征維度為x∈?C×1×1,增強(qiáng)感受野。其次在兩層全連接層之間添加BN和ReLU[25],前者可以將特征調(diào)整為標(biāo)準(zhǔn)正態(tài)分布或理想的分布,從而減少內(nèi)部協(xié)變漂移,防止梯度消失,提升收斂速度,后者可以引入非線性變換,學(xué)習(xí)特征間的相關(guān)性,增強(qiáng)網(wǎng)絡(luò)的表達(dá)能力。隨之經(jīng)過全連接層后獲得縮放參數(shù),最后利用sigmoid函數(shù)使縮放參數(shù)至(0,1)的范圍內(nèi),可表示為:
式中:z c是第C個(gè)神經(jīng)元的特征,αc是與之對(duì)應(yīng)的縮放系數(shù)??s放系數(shù)看作是經(jīng)過特征學(xué)習(xí)后對(duì)每個(gè)特征通道聲學(xué)環(huán)境的評(píng)判結(jié)果。
由于后續(xù)軟閾值模塊所需閾值不僅需要為正,而且不能太大。為了讓閾值保持在合理范圍內(nèi),將各通道縮放系數(shù)αc與經(jīng)過取模、全局平均池化操作的特征數(shù)據(jù)相乘得到獨(dú)立的閾值,閾值公式定義為:
式中:τc是特征圖第C個(gè)通道的閾值,C、W和H分別是特征圖x的通道數(shù)、寬和高。
②軟閾值模塊
軟閾值模塊作為非線性變換層插入到殘差收縮構(gòu)建單元(RSBU)中,可以根據(jù)當(dāng)前環(huán)境干擾狀況靈活地實(shí)現(xiàn)去擾,突出高判別性的聲音信息。軟閾值函數(shù)可以表示為:
式中:x為輸入特征,y為輸出特征,τ為閾值。
軟閾值處理過程將小于閾值的干擾數(shù)據(jù)置零,保留有用的正負(fù)特征,生成無擾且具高判別性的特征y∈?C×W×H。軟閾值函數(shù)的導(dǎo)數(shù)如式(4)所示,由于輸出對(duì)輸入的導(dǎo)數(shù)取0或1,可有效防止梯度消失和爆炸問題。
軟閾值作為收縮函數(shù),更有利于消除與干擾相關(guān)的信息,多個(gè)RSBU堆疊使用可加強(qiáng)各種非線性變換以提高判別特征的學(xué)習(xí)能力。
隨著欺騙算法的更迭,可制作出在感知上與真正語音無法區(qū)分的偽裝語音。但如沙啞、呼吸急促聲、說話速度等行為特征是不可能完全合成的。此外,說話人的音高、音長(zhǎng)、音色等高級(jí)特征也是作為判別標(biāo)準(zhǔn)的潛在特征,而這些特征在MFCC、CQCC和Spectrogram語音特征圖上可體現(xiàn)為共振峰、聲波頻率、振動(dòng)幅度、振動(dòng)波形等差異。為有效整合各特征信息并使DRSN高效學(xué)習(xí),本文將MFCC-DRSN、CQCC-DRSN和Spectrogram-DRSN模型聯(lián)合起來構(gòu)建多特征聯(lián)合檢測(cè)單元,該檢測(cè)單元通過組合能夠平衡不同模型特點(diǎn)、實(shí)現(xiàn)優(yōu)勢(shì)補(bǔ)充進(jìn)而提高檢測(cè)系統(tǒng)整體性能。將使用性能最好的訓(xùn)練模型參數(shù)應(yīng)用于評(píng)估數(shù)據(jù)集,經(jīng)過模型檢測(cè)后得到單類特征-DRSN模型分?jǐn)?shù)文件,分?jǐn)?shù)計(jì)算公式為:
式中:ν表示給定的音頻文件,θ表示模型參數(shù)。
通過對(duì)分?jǐn)?shù)文件的加權(quán)融合以實(shí)現(xiàn)聯(lián)合檢測(cè),檢測(cè)分?jǐn)?shù)在多項(xiàng)式回歸的邏輯函數(shù)中融合,表示為:
式中:N為融合模型數(shù)量,w i為融合權(quán)重,s i為單類模型分?jǐn)?shù)。
以三個(gè)單類特征-DRSN模型檢測(cè)分?jǐn)?shù)為自變量、以檢測(cè)結(jié)果為因變量建立邏輯回歸模型:
經(jīng)模型處理得出回歸常數(shù)并對(duì)其進(jìn)行歸一化處理,最終獲得模型的權(quán)重,通過式(7)的線性融合可進(jìn)一步校準(zhǔn)輸出分?jǐn)?shù)。
實(shí)驗(yàn)采用ASVspoof 2019 LA數(shù)據(jù)集,數(shù)據(jù)集的基本語音樣本采集于107位說話者,且每個(gè)說話者都采集一定數(shù)量的樣本,一部分作為真實(shí)語音,另一部分使用欺騙算法產(chǎn)生偽裝語音。所有真實(shí)語音和偽裝語音被隨機(jī)分為三個(gè)子集:訓(xùn)練集、開發(fā)集和評(píng)估集,且各子集間說話人不存在重疊。其中訓(xùn)練集為2 580條真實(shí)語音和22 800條偽裝語音;開發(fā)集為2 548條真實(shí)語音和22 296條偽裝語音;測(cè)試集為7 335條真實(shí)語音和64 578條偽裝語音。具體數(shù)據(jù)情況見表1。
表1 ASVspoof2019 LA數(shù)據(jù)集說話人和語音數(shù)量
偽裝語音是由17種語音合成、語音轉(zhuǎn)換和混合系統(tǒng)組成的不同陣列創(chuàng)建。它們的波形生成方法、聲學(xué)模型和欺騙算法都各不相同[26]。A01-A06被指定為已知的欺騙攻擊用于訓(xùn)練集和開發(fā)集,評(píng)估集使用A07-A19欺騙攻擊,除A16和A19使用的算法分別與A04和A06相同外,共含有11種未知的欺騙攻擊,具體情況見表2。
表2 ASVspoof2019 LA數(shù)據(jù)集欺騙攻擊系統(tǒng)
雖然大多數(shù)用于檢測(cè)的數(shù)據(jù)集由高質(zhì)量信號(hào)組成,但語音信號(hào)到達(dá)檢測(cè)系統(tǒng)前通常會(huì)受到許多外在條件的影響,包括加性噪聲、傳輸通道(包括壓縮偽影和低帶寬)和混響等由環(huán)境或信道引起的失真,所以在實(shí)際檢測(cè)中聲學(xué)環(huán)境多樣且復(fù)雜。
本文采用最小串聯(lián)檢測(cè)成本函數(shù)(t-DCF)和等錯(cuò)誤率(EER)作為評(píng)價(jià)語音欺騙檢測(cè)系統(tǒng)的指標(biāo)。
①最小串聯(lián)檢測(cè)成本函數(shù)t-DCF
將固定參數(shù)的ASV系統(tǒng)與語音欺騙檢測(cè)系統(tǒng)進(jìn)行串聯(lián),使用t-DCF指標(biāo)評(píng)估串聯(lián)系統(tǒng)的整體性能:
②等錯(cuò)誤率EER
使用等錯(cuò)誤率(EER)指標(biāo)獨(dú)立評(píng)估語音欺騙檢測(cè)系統(tǒng)的性能,EER表示錯(cuò)誤接受的概率等于錯(cuò)誤拒絕的概率,等錯(cuò)誤率值越低,檢測(cè)系統(tǒng)的準(zhǔn)確度越高。
為驗(yàn)證所設(shè)計(jì)系統(tǒng)模型的有效性和輸入特征對(duì)檢測(cè)性能的影響,本文設(shè)置了10組實(shí)驗(yàn),具體情況為
①Baseline CQCC-GMM:Asvspoof2019比賽中的基線系統(tǒng)之一,以16 kHz的采樣頻率和16的重采樣周期獲得CQCC系數(shù),后端分類器為高斯混合模型。
②Baseline LFCC-GMM:Asvspoof2019比賽中的基線系統(tǒng)之一,使用20通道數(shù)的三角形線性間隔濾波器組獲得LFCC系數(shù),后端分類器為高斯混合模型。
③CQCC-ResNet:Asvspoof2019比賽的先進(jìn)系統(tǒng)模型,以CQCC為輸入特征,后端分類器為ResNet,ResNet中堆疊9個(gè)RBU。
④MFCC-ResNet:與③類似,以MFCC為輸入特征,ResNet中堆疊6個(gè)RBU。
⑤Spectrogram-ResNet:與③類似,以Spectrogram為輸入特征,ResNet中堆疊6個(gè)RBU。
⑥CQCC-DRSN:本文單類特征檢測(cè)模型之一,以CQCC為輸入特征,后端分類器為DRSN,batch size為32,DRSN中堆疊7個(gè)RSBU。
⑦M(jìn)FCC-DRSN:與⑥類似,以MFCC為輸入特征,DRSN中堆疊10個(gè)RSBU。
⑧Spectrogram-DRSN:與⑥類似,以Spectrogram為輸入特征,DRSN中堆疊8個(gè)RSBU。
⑨普通融合:將本文所提出的3個(gè)單類特征檢測(cè)模型執(zhí)行常規(guī)融合。
⑩加權(quán)聯(lián)合檢測(cè):依據(jù)3個(gè)單類特征檢測(cè)模型表現(xiàn)出的性能特點(diǎn)來計(jì)算權(quán)重,而后進(jìn)行加權(quán)融合從而實(shí)現(xiàn)聯(lián)合檢測(cè)。
實(shí)驗(yàn)結(jié)果如表3所示,在開發(fā)集數(shù)據(jù)中,CQCCResNet和Spectrogram-ResNet模型檢測(cè)性能明顯優(yōu)于基線系統(tǒng),但是在評(píng)估集中僅有CQCC-ResNet模型檢測(cè)效果較好,說明ResNet模型利用已知攻擊算法推廣未知攻擊算法的能力有限。而本文提出三個(gè)單類特征檢測(cè)模型在開發(fā)集中均較基線系統(tǒng)有所提升,且在評(píng)估集中同樣表現(xiàn)出不錯(cuò)的泛化能力。進(jìn)一步地,對(duì)此三個(gè)模型進(jìn)行普通融合,t-DCF和EER分別達(dá)到0.1228、4.30%,而加權(quán)聯(lián)合檢測(cè)模型的t-DCF和EER為0.1122、3.82%,相較于最佳基線系統(tǒng),其性能分別提升47%和53%,這表明聯(lián)合檢測(cè)單元能夠有效平衡不同模型特點(diǎn),實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ)、擴(kuò)大類間差距進(jìn)而提高真?zhèn)握Z音的區(qū)分性。
表3 不同模型在LA數(shù)據(jù)集上的檢測(cè)性能比較
由于評(píng)估集中存在大量未知欺騙攻擊類型,為了探究不同模型的泛化性能,分析評(píng)估集A07至A19中11種未知攻擊和2種已知攻擊(A16和A19)的t-DCF指標(biāo),如圖4所示。
圖4 不同模型針對(duì)不同欺騙攻擊的t-DCF分?jǐn)?shù)
由圖4可知,在單類特征-DRSN模型中,Spectrogram-DRSN檢測(cè)效果最佳,MFCC-DRSN次之,CQCCDRSN相對(duì)較差,這表明Spectrogram這類貼合原始數(shù)據(jù)的聲學(xué)特征更適合在DRSN網(wǎng)絡(luò)中學(xué)習(xí)。兩種多特征檢測(cè)方法相比,本文所提出的加權(quán)聯(lián)合檢測(cè)方法總是優(yōu)于普通融合系統(tǒng),且在所有模型中達(dá)到最佳檢測(cè)效果,證明本文所提出方法的有效性。但是面對(duì)在語音轉(zhuǎn)換挑戰(zhàn)賽中被認(rèn)為具有最高欺騙能力的A17欺騙攻擊類型時(shí),所有檢測(cè)模型的t-DCF都有所上升。由于A17是基于波形濾波的語音轉(zhuǎn)換攻擊,因而其制作偽裝語音的原始波形中可能包含更多偽裝線索,后續(xù)擬直接使用音頻原始波形作為檢測(cè)網(wǎng)絡(luò)的特征輸入,以有效捕獲更多合成語音中的偽影,進(jìn)而提升對(duì)該類型欺騙攻擊的檢測(cè)性能。
隨著對(duì)語音合成和語音轉(zhuǎn)換等技術(shù)的深入研究,偽裝語音更逼真自然以至于難以辨別,這使得人們對(duì)ASV系統(tǒng)的安全性和欺騙檢測(cè)系統(tǒng)的可靠性愈發(fā)關(guān)注。本文提出一種基于深度殘差收縮網(wǎng)絡(luò)用于邏輯訪問場(chǎng)景的語音欺騙檢測(cè)方法,以CQCC、MFCC和Spectrogram作為前端特征,以DRSN網(wǎng)絡(luò)作為后端分類器,并使用合理的聯(lián)合檢測(cè)方式實(shí)現(xiàn)多特征語音欺騙檢測(cè)。依據(jù)在ASVspoof2019 LA數(shù)據(jù)集上的表現(xiàn),本文所提模型具有較好的檢測(cè)性能,但是在面對(duì)個(gè)別未知類型的欺騙攻擊時(shí),未達(dá)到最佳檢測(cè)效果,未來將研究更具普適性的后端分類器,尋找聲學(xué)特征-分類器的最佳組合模型,同時(shí)加強(qiáng)模型間協(xié)作融合以提升系統(tǒng)的泛化性。