趙雅珺,王 泳,張夢鴿
(廣東技術(shù)師范大學(xué),廣東 廣州 510665)
已有研究證明,語音轉(zhuǎn)換(voice conversion,VC)、語音合成(speech synthesis,SS)及重錄語音等欺騙性語音能有效地欺騙說話人識別(automatic speaker recognition,ASV)系統(tǒng),從而冒充他人登入系統(tǒng)[1-5],對社會安全產(chǎn)生嚴(yán)重威脅。其中,VC及SS需要目標(biāo)說話人較多的語音信息及特征,再加上現(xiàn)有算法尚未完全成熟,實(shí)現(xiàn)成本及難度相對較高;而重錄語音利用低廉的錄音設(shè)備即可輕松獲得,且重錄語音基本包含目標(biāo)人物語音的所有特征,因此,相對VC及SS更具威脅。為此,文中對重錄語音的檢測算法進(jìn)行研究。
在已有的研究中,針對欺騙性語音安全性的研究主要集中在對VC及SS的檢測算法上。Hanilci C等提出了利用語音信號的線性預(yù)測殘差提取相位特征進(jìn)行欺騙檢測的方法[6];Kamble M等提出了基于能量分離算法的瞬時(shí)頻率余弦系數(shù),用于檢測真假語音[7];Muckenhirn H等通過計(jì)算一階和二階頻譜統(tǒng)計(jì)量并將它們提供給分類器來檢測攻擊[8];Janicki A等提出了利用線性預(yù)測(linear prediction)殘差信號提取基于音頻質(zhì)量特征的算法[9];Alam J提出了一種基于無限脈沖響應(yīng)常數(shù)q變換特征表示的欺騙檢測算法[10]。此外還有運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)的檢測算法[11-12],以及運(yùn)用高斯混合模型(GMM)、動態(tài)時(shí)間規(guī)整(DTW)模型、深度學(xué)習(xí)等其他方法的檢測算法[13-20]。
然而,針對重錄語音檢測的報(bào)道相對較少。文獻(xiàn)[21]提出了一種利用頻域線性預(yù)測框架提取時(shí)間包絡(luò)特征的方法,用于檢測重播欺騙攻擊。采用高斯混合模型(GMM)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)兩種建模方法,對真實(shí)和偽造數(shù)據(jù)的GMM進(jìn)行訓(xùn)練,CNN子系統(tǒng)用來區(qū)分真實(shí)和重放語音。其融合系統(tǒng)結(jié)果的誤差率為9.7%,有待提高。文獻(xiàn)[22]則應(yīng)用了線性預(yù)測(linear prediction)殘差信號。該文指出線性預(yù)測殘差信號是一種準(zhǔn)周期脈沖序列,如果樣本被改變,感知到的線性預(yù)測殘差信號將是不同的,由此,將RMFCC(residual mel frequency cepstral co-efficient)作為線性預(yù)測殘差信號的代表特征,應(yīng)用在重播攻擊檢測系統(tǒng)中。文獻(xiàn)[23]利用分層散射分解系數(shù)和逆梅爾倒譜系數(shù)(IMFCC)分析頻譜在低端和高端存在的差異,然后采用2級GMM后端來獲得真實(shí)語音和重放語音之間的邏輯似然比,再使用HTK[24]和VLfeat工具包[25]對GMM進(jìn)行訓(xùn)練。文獻(xiàn)[26]提出基于卷積神經(jīng)網(wǎng)絡(luò)檢測重錄語音的算法,該算法利用電網(wǎng)頻率(ENF)及其諧波組成的組合作為CNN的輸入,此算法要求錄音設(shè)備必須插入電網(wǎng),以從語音信號中提取ENF;若錄音設(shè)備自帶電源,則無法使用此方法。在涉及安全問題時(shí),更大的可能性是錄音設(shè)備為自帶電源的設(shè)備,因此該算法在實(shí)際應(yīng)用中具有明顯的局限性。
上述研究尚存在一些問題:傳統(tǒng)算法提取特征過程比較復(fù)雜;算法均缺乏通用性,對訓(xùn)練和測試環(huán)境或設(shè)備不同時(shí)比較脆弱。這些工作具有啟發(fā)性,但是也反映出此類語音取證面臨的困境,包括在沒有標(biāo)準(zhǔn)化的情況下如何設(shè)定取證場景、取證場景是否與真實(shí)世界相符、錄音數(shù)量是否不足等問題。為此,文中提出了一種基于新的卷積神經(jīng)網(wǎng)絡(luò)且對不同場景魯棒的重錄語音檢測算法。網(wǎng)絡(luò)的數(shù)據(jù)輸入形式采用語音信號經(jīng)過分幀的時(shí)頻圖,網(wǎng)絡(luò)結(jié)構(gòu)層包括若干卷積層、池化層,在實(shí)驗(yàn)中先分別對不同錄制語音設(shè)備、距離及環(huán)境等重錄語音影響因子進(jìn)行研究分析,然后提出最終的訓(xùn)練方法,并對所有的不同條件下的重錄語音進(jìn)行檢測。實(shí)驗(yàn)結(jié)果表明,在不同的實(shí)驗(yàn)條件下,該算法均達(dá)到了較高的檢測率,因此具有通用性。
構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。網(wǎng)絡(luò)結(jié)構(gòu)中每一層的參數(shù)情況如表1所示。
圖1 網(wǎng)絡(luò)結(jié)構(gòu)
表1 網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)情況
結(jié)構(gòu)層輸出尺寸卷積核參數(shù)量Conv164×623×1,3296Pooling164×311×2Conv264×313×1,323 072Pooling264×161×2Conv364×163×1,646 144Pooling364×81×2Conv464×83×1,12824 576Pooling464×41×2
表1 網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)情況
該模型結(jié)構(gòu)共有7層,每層包含一個(gè)卷積層與一個(gè)池化層,卷積層的輸出通過ReLU函數(shù)進(jìn)行激活,并在層與層之間加入殘差連接[27],最后通過全局池化提取最終特征,并通過sigmoid預(yù)測檢測結(jié)果。該結(jié)構(gòu)最大的特點(diǎn)是采用在頻率維度卷積及時(shí)間維度池化,具體設(shè)置為采用3×1卷積核和1×2池化。如此設(shè)置一方面最大化降低模型容量,極大減少過擬合的風(fēng)險(xiǎn),降低模型對數(shù)據(jù)量的依賴性,另一方面,又與時(shí)頻圖的特征分布特點(diǎn)高度契合,將訓(xùn)練參數(shù)分配到更合理的地方,從而用更有效的特征來訓(xùn)練更緊湊的參數(shù)。
深度學(xué)習(xí)模型的性能對數(shù)據(jù)有極高的依賴性,以原始音頻信號作為網(wǎng)絡(luò)的輸入數(shù)據(jù),其特征分布過于稀疏,極大地提高了神經(jīng)網(wǎng)絡(luò)提取有效特征的難度。另一方面,重錄設(shè)備會在原語音信號的頻域上引入變化[21,23,26,28],此種變化可以作為區(qū)分重錄語音及原始語音的重要依據(jù)。為此,文中的網(wǎng)絡(luò)輸入數(shù)據(jù)采用語音的時(shí)頻圖。時(shí)頻圖由短時(shí)傅里葉變換(short-time Fourier transform,STFT)生成,相對于直接輸入語音數(shù)據(jù),時(shí)頻圖對于重錄設(shè)備引入的特征信息有相對密集的分布,更有利于神經(jīng)網(wǎng)絡(luò)特征提取,從而加快訓(xùn)練,提高精度。
語音重錄包含三個(gè)過程:語音經(jīng)過播放器播放,經(jīng)過空氣傳播,再由錄音設(shè)備錄制。重錄導(dǎo)致語音數(shù)據(jù)一定程度的失真,此失真包括幅度失真和時(shí)間軸上的線性伸縮,主要由播放時(shí)的DA變換與錄制時(shí)的AD變換采用的設(shè)備、錄制環(huán)境及錄制距離等因素造成。幅度失真可以表示為能量變化和一個(gè)疊加噪聲,線性伸縮的程度與使用的硬件如聲卡性能及所采用的采樣率有關(guān)。失真模型可表示為:
(1)
其中,y(t)是重錄語音;x(t)是原始語音;λ是幅值變換因子;η是疊加噪聲。
對應(yīng)的頻域變化如式2所示。
Y(jω)=λ?X(jαω)+N(jω)
(2)
其中,?是時(shí)間軸線性伸縮因子;Y(jω)、X(jω)、N(jω)分別為y(t)、x(t)、η的頻域表示。
對于固定的錄音設(shè)備,其特征是非常穩(wěn)定的,即λ、α是常數(shù),而疊加噪聲與錄制環(huán)境、錄制距離及錄制設(shè)備AD轉(zhuǎn)換有關(guān)。
對于訓(xùn)練數(shù)據(jù),該實(shí)驗(yàn)均為安靜環(huán)境下錄制,避免引入無關(guān)的環(huán)境噪聲,因?yàn)榄h(huán)境噪聲有很大的隨機(jī)性,且深度學(xué)習(xí)作為數(shù)據(jù)驅(qū)動的技術(shù),在數(shù)據(jù)中加入環(huán)境噪聲會使模型在訓(xùn)練過程中將是否含有環(huán)境噪聲作為檢測的依據(jù)。這對于實(shí)驗(yàn)是非常不利的,模型檢測的依據(jù)應(yīng)該是與設(shè)備相關(guān)的、穩(wěn)定存在的特征。在實(shí)驗(yàn)中疊加噪聲η主要與不同的錄制環(huán)境,以及不同的錄制設(shè)備有關(guān),因此對于特定錄制設(shè)備、特定錄制距離下H(jω)的分布也是特定的。為了驗(yàn)證模型對含有環(huán)境噪聲的錄制語音檢測的魯棒性,文中也對含有環(huán)境噪聲的錄制語音進(jìn)行了檢測。
綜上分析,對于文中采用的時(shí)頻圖,作為檢測是否為重錄語音的特征,其分布特點(diǎn)在相鄰語音幀之間具有獨(dú)立性并且在特定頻段又具有一致性。
原始語音 重錄語音
如圖2所示,左側(cè)為原始語音時(shí)頻圖,右側(cè)為一種場景下的重錄語音時(shí)頻圖,方框內(nèi)區(qū)域可以直觀地看出,重錄語音引入的變化在某些頻段較為明顯。頻率分辨率的大小是影響特征提取的最關(guān)鍵因素,這是由短時(shí)傅里葉變換中窗函數(shù)長度決定的,窗長度越大,頻率分辨率越高,特征表現(xiàn)越明顯。因此,在傳統(tǒng)信號處理方法檢測重錄語音特征時(shí),為了提取充分的特征,往往需要很長的語音段,這極大地限制了其適用范圍。文中采用0.2秒語音段作為實(shí)驗(yàn)數(shù)據(jù),短時(shí)傅里葉變換采用126長度漢寧(Hanning)窗,步長為50,時(shí)頻圖的尺寸為(64×62)。模型適用于絕大多數(shù)應(yīng)用場景,并且實(shí)驗(yàn)結(jié)果證明具有很好的效果。
文中在頻率維度進(jìn)行卷積,同時(shí)在時(shí)間維度進(jìn)行池化。只在頻率維度進(jìn)行卷積(3×1),不考慮時(shí)間維度的相關(guān)性,能極大地減少卷積核參數(shù)量,使得模型有更強(qiáng)的抗過擬合能力,減少對數(shù)據(jù)量的過度依賴,同時(shí)在訓(xùn)練過程中由于卷積核的參數(shù)共享,時(shí)間維度具有同分布設(shè)備的特征信息重復(fù)訓(xùn)練卷積核參數(shù),可以使訓(xùn)練更加充分。池化層采用時(shí)間維度的池化(1×2),頻率維度不進(jìn)行池化。池化能減少特征的維度,加快網(wǎng)絡(luò)的計(jì)算,并且使網(wǎng)絡(luò)結(jié)構(gòu)對數(shù)據(jù)特征的伸縮、變形有更強(qiáng)的魯棒性,但池化在減少數(shù)據(jù)維度的同時(shí)也會丟失很多的特征信息,對于時(shí)頻圖,特征分布不存在伸縮與變形,只在時(shí)間維度池化,既減少了特征維度,同時(shí)又不會導(dǎo)致頻率維度特征的丟失,這在文中卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中極為重要。通過多層卷積與池化計(jì)算,特征維度最終變?yōu)橐痪S,長度與時(shí)頻圖頻率相同。
實(shí)驗(yàn)采用0.2秒時(shí)長語音段,原始語音庫由300個(gè)說話人共100分鐘的語音,每人語音時(shí)長為20秒,均是經(jīng)過裁剪處理,不包含明顯的靜音片段,抽樣頻率16 kHz,量化精度16 bits。已有的研究報(bào)道均不考慮訓(xùn)練樣本和測試樣本在不同場景下的錄制,而這不符合實(shí)際場景。為此,該實(shí)驗(yàn)語音庫用不同的錄音設(shè)備及在不同的錄音距離下重錄,以測試算法的通用性。隨機(jī)抽選50位發(fā)言人的語音作為測試數(shù)據(jù),其余250人的語音用于訓(xùn)練,避免同一位發(fā)言者的錄音出現(xiàn)在不同數(shù)據(jù)集,保證訓(xùn)練數(shù)據(jù)與測試數(shù)據(jù)的獨(dú)立性。
具體錄制過程如下:對于訓(xùn)練集,在安靜環(huán)境下由不同距離和設(shè)備組合對原始語音庫重錄4次,由此獲得4個(gè)重錄語音庫,它們分別包含25 000段語音。原始語音通過手提電腦聯(lián)想Y40-70AT-IFI播放;重錄設(shè)備是手提電腦戴爾(Inspiron)靈越14(Ins14VD-258)和智能手機(jī)小米2S。4次錄制的情況如表2中編號為t的數(shù)據(jù)。
對于測試數(shù)據(jù),采用與訓(xùn)練集相同的錄制設(shè)置。為了驗(yàn)證模型對具有環(huán)境隨機(jī)噪聲干擾的語音的魯棒性,分別在室內(nèi)安靜環(huán)境與有一定隨機(jī)噪聲的室內(nèi)環(huán)境下錄制,測試集共包含8個(gè)語音庫,每個(gè)語音庫包含該庫錄制模式下共25 000條測試語音,如表2中編號為s的數(shù)據(jù)。
表2 語音錄制情況
數(shù)據(jù)輸入網(wǎng)絡(luò)之前需要進(jìn)行預(yù)處理,過程如下:對每個(gè)語音段進(jìn)行短時(shí)傅里葉變換,語音采樣率為16 kHz,量化精度16 bit,采用126長度漢寧(Hanning)窗,步長為50。全部數(shù)據(jù)在輸入網(wǎng)絡(luò)前要經(jīng)過歸一化處理,先計(jì)算整個(gè)訓(xùn)練集數(shù)據(jù)的均值μ與標(biāo)準(zhǔn)差σ,然后對數(shù)據(jù)樣本x'進(jìn)行減均值,除以標(biāo)準(zhǔn)差來進(jìn)行歸一化,最后得到經(jīng)過預(yù)處理的數(shù)據(jù)x。
(3)
文中網(wǎng)絡(luò)誤差函數(shù)為交叉熵?fù)p失函數(shù),采用Adam優(yōu)化算法進(jìn)行訓(xùn)練,初始學(xué)習(xí)率設(shè)置為0.001,并在訓(xùn)練過程中動態(tài)調(diào)整學(xué)習(xí)率,每訓(xùn)練10 000次將學(xué)習(xí)率減小一倍,每次訓(xùn)練批量大小為32。為了在訓(xùn)練過程中監(jiān)督訓(xùn)練效果,從訓(xùn)練數(shù)據(jù)中隨機(jī)選取2 000條數(shù)據(jù)用于驗(yàn)證,通過對比訓(xùn)練數(shù)據(jù)損失函數(shù)與驗(yàn)證數(shù)據(jù)損失函數(shù),為損失函數(shù)加入正則化項(xiàng)并設(shè)置正則化系數(shù)為0.000 1能有效防止過擬合。
表3列出了訓(xùn)練過程中的一些重要的超參數(shù)設(shè)置,在訓(xùn)練過程中不斷監(jiān)測訓(xùn)練損失與驗(yàn)證損失,并挑選訓(xùn)練損失小并且與驗(yàn)證損失較為接近時(shí)的模型作為測試模型。在該超參數(shù)設(shè)置下網(wǎng)絡(luò)在訓(xùn)練過程中能夠快速收斂,并且最終取模型得到相當(dāng)高的精確度。
重錄語音檢測涉及多個(gè)影響因子,包括錄制設(shè)備、錄制距離以及錄制環(huán)境等。為了驗(yàn)證不同的影響因子對于網(wǎng)絡(luò)的影響,分別對不同的錄制語音進(jìn)行實(shí)驗(yàn),訓(xùn)練多個(gè)模型并分別對測試數(shù)據(jù)進(jìn)行測試,以此來分析各因素對網(wǎng)絡(luò)檢測率的影響,并通過實(shí)驗(yàn)結(jié)果的分析,從而提出最終的訓(xùn)練模型。具體內(nèi)容如下:分別以原始語音t為正樣本與不同重錄語音作為負(fù)樣本的組合來訓(xùn)練網(wǎng)絡(luò),以t1為負(fù)樣本訓(xùn)練得到模型M1,以t2為負(fù)樣本訓(xùn)練得到模型M2,以t3為負(fù)樣本訓(xùn)練得到模型M3,以t4為負(fù)樣本訓(xùn)練得到模型M4,分別從t1、t2、t3、t4數(shù)據(jù)集中等比例采樣組成訓(xùn)練集負(fù)樣本訓(xùn)練得到模型M5作為最終的模型。測試結(jié)果如下:
(1)驗(yàn)證錄制設(shè)備對網(wǎng)絡(luò)的影響。
分別以模型M1、M2對測試數(shù)據(jù)s、s1、s2進(jìn)行測試,其中s為原始語音的測試數(shù)據(jù)。在錄制環(huán)境與錄制距離相同條件下研究錄制設(shè)備對模型的影響,測試結(jié)果如表4所示。
表4 不同錄制設(shè)備的測試結(jié)果
測試結(jié)果表明,在錄制距離與錄制環(huán)境條件相同時(shí),重錄設(shè)備對于模型的影響較大,相同設(shè)備的重錄語音訓(xùn)練的模型對同設(shè)備下的重錄語音有較高的檢測率,而對其他設(shè)備的重錄語音檢測率不理想。如表4所示,使用t1數(shù)據(jù)訓(xùn)練的模型對于s2數(shù)據(jù)檢測率為93.7%,低于其相同錄制條件下的測試數(shù)據(jù),而對于t2數(shù)據(jù)訓(xùn)練的模型對s1數(shù)據(jù)的檢測率低至31.4%,甚至低于隨機(jī)猜測。并且,不同設(shè)備對于模型的影響大小也不相同,由表4中可知采用電腦重錄語音訓(xùn)練的模型比手機(jī)重錄語音訓(xùn)練的模型有更好的魯棒性。
(2)驗(yàn)證錄制距離對網(wǎng)絡(luò)的影響。
以模型M2、M3、M4分別對測試數(shù)據(jù)s、s2、s3進(jìn)行測試,在錄制設(shè)備與錄制環(huán)境相同條件下研究錄制距離對模型的影響,測試結(jié)果如表5所示。
表5 不同錄制距離的測試結(jié)果
測試結(jié)果表明,不同的錄制距離對網(wǎng)絡(luò)影響較大,相同錄制距離的重錄語音訓(xùn)練的模型對相同錄制距離的重錄語音檢測率較高,均能達(dá)到99.9%以上,而錄制距離不同的情況下檢測率則較低,并且隨著距離的差距增加檢測率不斷下降,20 cm的重錄語音訓(xùn)練的模型,對于40 cm的重錄語音檢測率僅為30.12%,對于60 cm的重錄語音檢測幾乎全部錯(cuò)誤。對于60 cm的重錄語音訓(xùn)練的模型也有相似的結(jié)果。由表5實(shí)驗(yàn)結(jié)果可知,40 cm距離的重錄語音對于20 cm、60 cm的重錄語音有不錯(cuò)的檢測率,原因是其特征與這兩種錄制距離的重錄語音有更多的相似性,因此模型能夠通過這些特征來進(jìn)行判定,而隨著距離差距的增大,特征變化更大,對應(yīng)的模型只能識別該距離下的重錄語音特征。
(3)驗(yàn)證錄制環(huán)境對網(wǎng)絡(luò)的影響。
分別以模型M1、M2、M3、M4測試其對應(yīng)錄制條件下安靜與有噪聲的重錄語音,測試結(jié)果如表6所示。
測試結(jié)果表明,模型對于有少量隨機(jī)噪聲的重錄語音檢測率略低于安靜環(huán)境下重錄語音,但是影響有限。隨機(jī)噪聲會為重錄語音引入新的特征,這對模型的檢測會有一定的干擾,但同時(shí),無論是否含有噪聲,重錄語音對設(shè)備和錄制距離的特征是比較穩(wěn)定的,并且占據(jù)極大的比例,這些特征是區(qū)分原始語音與重錄語音更重要、更穩(wěn)定的特征。由表6測試結(jié)果可知,文中提出的網(wǎng)絡(luò)結(jié)構(gòu)對于不同錄制環(huán)境下的重錄語音都有較好的檢測率,高達(dá)99.8%以上,表明該網(wǎng)絡(luò)結(jié)構(gòu)對重錄語音中的隨機(jī)環(huán)境噪聲有良好的魯棒性。
表6 不同錄制環(huán)境的測試結(jié)果
以上實(shí)驗(yàn)表明,錄制設(shè)備、錄制距離、錄制環(huán)境等影響因素對于模型都有不同程度的影響,單一條件下的重錄語音所訓(xùn)練的模型對不同條件下的重錄語音魯棒性較低。因此為了提高模型對不同錄制設(shè)備、錄制距離以及錄制環(huán)境下的重錄語音的檢測能力,需要對訓(xùn)練數(shù)據(jù)數(shù)據(jù)集進(jìn)行合理的設(shè)置,訓(xùn)練集應(yīng)更多地包含各種不同條件下的重錄語音數(shù)據(jù),這樣網(wǎng)絡(luò)結(jié)構(gòu)才能學(xué)習(xí)更多不同錄制設(shè)備、錄制距離以及錄制環(huán)境下的重錄語音特征,從而提高模型的識別能力,提高對于各種場景下的重錄語音的魯棒性。
(4)多場景訓(xùn)練數(shù)據(jù)組合訓(xùn)練模型。
為了提高模型對不同場景下的重錄語音的檢測能力,采取多錄音條件下的數(shù)據(jù)組成訓(xùn)練集,對模型進(jìn)行訓(xùn)練,具體內(nèi)容如下:分別從t1、t2、t3、t4數(shù)據(jù)庫中等比例各隨機(jī)抽取四分之一數(shù)據(jù)并與原始語音共同組成訓(xùn)練集,然后使用該訓(xùn)練集對模型進(jìn)行訓(xùn)練得到模型M5,并分別對測試集數(shù)據(jù)進(jìn)行測試。測試結(jié)果如表7所示。
表7 三種錄制條件綜合下的測試結(jié)果
由測試結(jié)果可知,采用多條件重錄語音所組成的訓(xùn)練集能極大提高模型的魯棒性,對不同情況下的重錄語音測試精確度都比較高,均能達(dá)到99.8%以上。采用多條件下的重錄語音組成訓(xùn)練集,極大地豐富了訓(xùn)練數(shù)據(jù)的特征信息,通過充分訓(xùn)練,模型能夠提取不同錄制設(shè)備、錄制距離等特征信息,同時(shí)也使原始語音與重錄語音的特征更有分辨性。測試結(jié)果表明,在采用多條件下重錄語音進(jìn)行訓(xùn)練的模型對各種不同錄制設(shè)備、錄制距離以及錄制環(huán)境下的重錄語音都有良好的檢測率,此條件下訓(xùn)練的模型具有更好的魯棒性。
綜上所述,不同的錄制設(shè)備、錄制距離以及錄制環(huán)境都會對模型的檢測造成不同程度的影響,采用單一條件下的重錄語音訓(xùn)練的模型不具有通用性,泛化能力不足。因此文中網(wǎng)絡(luò)結(jié)構(gòu)采用不同錄制條件下的重錄語音的組合數(shù)據(jù)集進(jìn)行訓(xùn)練,結(jié)果表明該網(wǎng)絡(luò)結(jié)構(gòu)有良好的魯棒性,對于不同錄制設(shè)備、錄制距離以及錄制環(huán)境下重錄語音都具有極高的檢測性能,表明提出的卷積神經(jīng)網(wǎng)絡(luò)能很好地解決重錄語音攻擊的檢測問題,并且具有對較短語音段的檢測能力。
之前對于重錄語音的檢測,更多集中于傳統(tǒng)的信號處理方法,特征提取的算法有很大的局限性,算法復(fù)雜,同時(shí)為了提取充分的特征,對語音段的長度有較大的要求,這對算法的實(shí)用性是很大的限制。文中提出的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)可以在極短語音段上提取充分的特征信息,依據(jù)語音信號的時(shí)頻特征進(jìn)行特殊設(shè)計(jì),運(yùn)用特殊的卷積核設(shè)置,與時(shí)頻圖的特征分布特點(diǎn)高度契合,并且模型參數(shù)量較少,大大降低了模型過擬合風(fēng)險(xiǎn)。同時(shí)對錄制設(shè)備、錄制距離以及錄制環(huán)境等影響因子進(jìn)行了實(shí)驗(yàn)研究,結(jié)果表明通過增加訓(xùn)練集數(shù)據(jù)的豐富性能極大地提高模型的魯棒性,通過采用多場景下的重錄語音混合數(shù)據(jù)進(jìn)行訓(xùn)練,模型取得了最好的效果。為了驗(yàn)證該算法地性能以及通用性,網(wǎng)絡(luò)分別對不同錄制設(shè)備、不同錄制距離及不同錄制環(huán)境下的重錄語音進(jìn)行測試,其結(jié)果的精確度可達(dá)99.8%以上。實(shí)驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)能夠有效地學(xué)習(xí)到標(biāo)準(zhǔn)信號處理無法解決的強(qiáng)大的特征表示,并能獲得較高的識別精度;該卷積神經(jīng)網(wǎng)絡(luò)模型對于不同錄制場景和設(shè)備的重錄語音檢測具有通用性。