• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于對角雙譜系數(shù)的錄音回放攻擊檢測*

    2021-05-08 06:10:34俞一彪
    通信技術 2021年4期
    關鍵詞:雙譜對角錄音

    陳 敏,俞一彪

    (蘇州大學,江蘇 蘇州 215006)

    0 引言

    隨著技術的發(fā)展,說話者確認(Automatic Speaker Verification,ASV)技術的研究已經(jīng)獲得了很大進步,并已應用于許多需要身份認證的領域[1]。但是,ASV系統(tǒng)在實際應用中極易受到欺騙攻擊而嚴重威脅系統(tǒng)的安全性[2]。一般來說,對ASV系統(tǒng)的攻擊方式主要有語音模仿[3]、語音合成[4]、語音轉換[5]和錄音回放[6]等。其中,錄音回放攻擊是指攻擊者通過錄音設備錄制合法用戶的語音,或者通過其他手段獲得合法用戶的語音樣本,然后在ASV系統(tǒng)的輸入端回放錄音來實施對ASV系統(tǒng)的攻擊。錄音回放攻擊因其具有很強的欺騙性且簡單易實現(xiàn),對ASV系統(tǒng)造成的威脅最大[7]。因此,如何檢測錄音回放攻擊對保證ASV系統(tǒng)的安全性十分重要。

    近年來,針對錄音回放攻擊檢測研究,研究人員做了大量有意義的工作,其中很重要的一個方面是提出了一些有效的特征參數(shù)來提高檢測率。文獻[8]提出了基于梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficient,MFCC)的統(tǒng)計特征,并利用多種分類方法進行錄音回放攻擊檢測。陳亞楠等人通過對原始語音和回放語音在固定頻率范圍上信息量的分布特點的研究,提出了一種基于低頻區(qū)信息量分布的回放語音檢測方法[9]。在文獻[10]中,作者探索用來自語音高頻區(qū)域的信息來識別回放樣本。文獻[11]利用逆梅爾頻率倒譜系數(shù)(Inverted Mel-Frequency Cepstral Coefficient,IMFCC)特征提取高頻區(qū)域信息,并在純凈語音條件下對數(shù)據(jù)集進行了驗證。文獻[12]提出了CQCC特征,主要特點是在高頻段有較好的時間分辨率,在低頻段有較好的頻率分辨率,能夠較好地表征真實語音和回放語音的差異信息。文獻[13]研究了不同頻帶下多種特征對錄音回放檢測的作用,保留語音信號6~8 kHz的高頻部分,提取CQCC等特征,使用GMM模型完成錄音回放檢測。文獻[14]對語音提取平均頻譜位圖,通過預選距離判斷當前語音是否為錄音回放語音。文獻[15]通過分析真實語音和錄音回放語音的差異,提出了基于線性預測殘差方法的特征來檢測錄音回放攻擊。文獻[16]將TECC特征用于錄音回放攻擊檢測。此外,Jelil等人提出了新的源特征用于檢測錄音回放攻擊語音,即線性預測殘差的希爾伯特包絡線的峰值旁瓣值比[17]。以上方法雖然分析了真實語音和回放語音的差異,但是并未考慮到不同設備的質量差異對檢測結果的影響。

    文獻[18]對錄音和播放設備得到的語音傳輸期間的頻譜包絡變化進行建模,用于回放檢測。文獻[19]提出了一種基于信道模式噪聲的錄音攻擊檢測方法,根據(jù)原始語音和錄音回放語音信道的差異,針對不同信道中的錄音和回放設備引入不同的信道模式噪聲,采用濾波器和分析統(tǒng)計幀的方法提取信道模式噪聲,并使用SVM模型進行正常語音和回放語音的分類。文獻[20]考慮不同環(huán)境和設備對實驗結果的影響,使用MFCC、IMFCC和CQCC作為特征,并使用高斯混合模型(Gaussian Mixture Model,GMM)、深度神經(jīng)網(wǎng)絡(Deep Neural Network,DNN)作為分類器,進行了更加細致的分析和檢測。以上方法雖考慮了不同設備和環(huán)境對實驗結果的影響,并能在一定程度上實現(xiàn)錄音回放攻擊檢測,但是都基于已有的特征參數(shù),未提出新的特征。

    本文研究了麥克風和揚聲器的頻率響應,從對角雙譜這一角度分析真實語音和錄音回放語音的差異,提出了對角雙譜系數(shù)(Diagonal BiSpectrum Coefficient,DBSC)特征應用于錄音回放攻擊檢測,并分析了不同設備配置對錄音回放攻擊檢測性能的影響。結果顯示,DBSC特征能夠有效實現(xiàn)錄音回放攻擊檢測。

    1 真實語音和回放語音差異性分析

    僅僅通過人耳難以區(qū)分真實語音和錄音回放語音,因此需要從多維度研究分析真實語音和錄音回放語音的差異來提出檢測方案。從輸入信道看,原始真實語音信號和錄音回放攻擊語音信號的輸入過程如圖1所示。

    圖1 典型錄音回放攻擊過程

    真實語音信號和回放語音信號的具體表達式分別為:

    從圖1可以看出,在利用錄音回放攻擊說話人確認系統(tǒng)時,需要額外用到一對聲音錄音設備(麥克風)和聲音播放設備(揚聲器),會對信道時域脈沖響應產(chǎn)生線性卷積效應。當錄音設備和播放設備均為高保真設備時,真實語音和錄音回放語音之間的差異較小,不利于進行錄音回放攻擊檢測。反之,當錄音設備和播放設備不是高保真設備時,真實語音和錄音回放語音之間的差異較大,有利于進行錄音回放攻擊檢測。因此,對于回放攻擊檢測而言,最不利的情況是錄音設備和播放設備都是超高保真設備。

    麥克風是一種將聲音轉換成電子信號的換能器。麥克風中任何器件的非線性都有可能導致最后輸出的失真。典型的麥克風的頻率響應曲線如圖2所示??梢钥闯觯溈孙L的頻率響應曲線在高低頻段有較大衰減,使得輸入語音的高低頻帶頻譜發(fā)生變化。另外,在錄音系統(tǒng)采集麥克風的輸出信號過程中會采用一個低通濾波器來濾除大于奈奎斯特頻率的高頻分量。濾波器的過渡帶同樣會引起輸入語音在奈奎斯特頻率附近的變化,即會對高頻段頻譜產(chǎn)生衰減。

    圖2 典型的麥克風的頻率響應曲線

    揚聲器是一種十分常用的電聲換能器件。揚聲器的性能優(yōu)劣對音質的影響很大。典型的揚聲器的頻率響應曲線如圖3所示??梢钥闯?,揚聲器的頻率響應范圍一般為20 Hz~20 kHz,頻率響應曲線通常具有非平坦特性,是一條具有許多峰谷點的不規(guī)則連續(xù)曲線,主要表現(xiàn)為信號在低頻段和高頻段有衰減,會影響錄音回放語音在高低頻帶的頻譜。

    圖3 典型的揚聲器的頻率響應曲線

    以上分析得出,錄音回放過程中使用的麥克風和揚聲器都會對語音信號造成一定程度的頻響失真,主要表現(xiàn)在高低兩端頻帶的非線性頻響衰減。另外,錄音系統(tǒng)信號采集過程中,低通濾波會進一步引起輸入信號頻譜的高頻衰減,將直接導致真實語音和錄音回放語音有所區(qū)別。通過提取或強調這種非線性特征差能夠有效檢測錄音回放攻擊。

    2 對角雙譜系數(shù)特征提取

    2.1 對角切片雙譜

    錄音回放語音產(chǎn)生過程中因引入相應的設備而導致頻譜的非線性失真,而一般的頻譜分析或者功率譜分析難以深入揭示其本質。高階譜常用于捕捉非線性信號[21],而雙譜是高階譜分析的特例。雙譜是對信號的3階累積量進行二維傅立葉變換,非常適用于檢測非線性信號,且能抑制高斯噪聲,保留相位信息。圖4分別給出了對于同一說話人同一文本真實語音和錄音回放語音的頻譜對比圖、功率譜對比圖以及等高線雙譜對比圖。從圖4可以看出,真實語音和錄音回放語音的頻譜非常接近,而真實語音和錄音回放語音的雙譜圖存在明顯區(qū)別。真實語音的雙譜分布更加集中,錄音回放語音的雙譜分布更加分散。雖然真實語音和錄音回放語音的功率譜也有較明顯的區(qū)別,但是錄音回放語音的功率譜曲線更加平滑,真實語音和錄音回放語音的差異信息有可能缺失。因此,基于雙譜的檢測方法有利于區(qū)分真實語音和錄音回放語音,從而實現(xiàn)錄音回放攻擊檢測。

    圖4 真實語音和錄音回放語音的頻譜、功率譜以及等高線雙譜對比

    信號x(n)的雙譜Bx(ω1,ω2)可以通過計算3階累積量的二維傅立葉變換得到:

    式中,C3x(τ1,τ2)是3階累積量,可以表示為:

    對于一個離散時間能量有限的確定信號,可將雙譜定義為:

    雙譜是一個二維函數(shù),不僅反映了信號的頻譜特征,也反映了不同頻帶頻譜的關系和大量的信號內(nèi)在信息,但其所需的計算量偏大。雙譜對角切片是指當ω1=ω2=ω時的雙譜值,包含了表征性的主要信號特征。通過計算雙譜對角切片,不僅可以有效提取主要的雙譜特征,還可以大幅降低計算復雜度。

    令ω1=ω2=ω,則可將雙譜的對角切片表示為:

    圖5給出了語音信號對應的雙譜等高線圖、三維圖以及對角切片雙譜圖??梢钥闯?,雙譜對角切片圖是沿雙譜的三維圖按照平面所得到的截面,其中ω1與ω2的長度取決于快速傅里葉變換長度。

    圖5 雙譜等高線圖、三維圖以及對角切片雙譜

    2.2 真實語音和錄音回放語音對角雙譜差分析

    從圖1可以看出,錄音回放語音可以表示為真實語音和錄放輸入信道脈沖響應的卷積。錄放輸入信道包含錄音設備和播放設備,錄音回放語音可以表示為:

    式中,r(n)表示錄音回放語音,x(n)表示真實語音,h(n)=hmic(n)*hspe(n)表示錄放輸入信道的脈沖響應。

    在頻域上,錄音回放語音頻譜即可表示為真實語音頻譜與錄放輸入信道頻響的乘積:

    根據(jù)式(6),真實語音的對角雙譜可表示為:

    式中,Bh(ω,ω)是錄放輸入信道脈沖響應的對角雙譜??梢钥闯?,錄音回放語音的對角雙譜是真實語音的對角雙譜和錄放輸入信道對角雙譜的乘積。

    進一步推導得:

    根據(jù)對揚聲器和麥克風的頻率響應分析可知,兩者的頻率響應在低頻段和高頻段會產(chǎn)生衰減。另外,錄音中低通濾波器奈奎斯特截止頻率附近過渡帶會引起信號頻譜的高頻衰減。因此,錄音回放語音頻譜高頻段的值相比真實語音會有衰減。根據(jù)式(8),錄放輸入信道系統(tǒng)的幅頻率響應可以表示為:

    根據(jù)對角雙譜的表達式(9),錄放輸入信道的對角雙譜值可以表示為:

    圖6給出了2017年ASVspoof挑戰(zhàn)賽開發(fā)集中10種不同錄放設備配置對應的錄放輸入信道脈沖響應對角雙譜值??梢钥闯觯诟哳l段(橫坐標范圍6 500~8 000 Hz)的大部分情況下,系統(tǒng)脈沖響應的對角雙譜值均小于1,與式(13)的推導結果一致。

    圖6 10種不同錄放輸入信道脈沖響應的對角雙譜值

    因此,在高頻段,錄音回放語音的對角雙譜值比真實語音的對角雙譜值小,如式(14)所示:

    由于真實語音和錄音回放語音的對角雙譜值較小,為了便于比較對其取對數(shù),圖7給出了同一說話人同一文本的真實語音和10種不同錄音回放語音的對數(shù)對角雙譜值。從圖7可以看出,在高頻段(橫坐標范圍6 500~8 000 Hz),真實語音的對數(shù)對角雙譜值比錄音回放語音的對數(shù)對角雙譜值大,與式(14)的推導結果相一致。

    以上分析說明,對角雙譜具有明顯的分類作用,真實語音和錄音回放語音的差異被放大,有利于進行錄音回放攻擊檢測。

    3)充電子過程成功概率與讀寫環(huán)節(jié)成功概率僅在單次掃描情況下呈非線性關系,在執(zhí)行多次掃描時均呈非線性關系。隨著掃描次數(shù)的增加,將掃描成功概率由最初較小值提升至較大值,能夠更有效提高子過程充電成功概率;

    2.3 對角雙譜系數(shù)特征提取

    綜上所述,原始語音和回放語音的對角雙譜特征差主要表現(xiàn)在高頻區(qū),因此考慮使用IMel濾波器來強化高頻段的對角雙譜特征。對角雙譜系數(shù)特征提取的流程圖如圖8所示。首先,對輸入語音進行預處理和快速傅里葉變換(Fast Fourier Transform,F(xiàn)FT)得到頻域語音信號,然后進行對角雙譜計算,再通過IMel濾波器強化高頻段特征,最后經(jīng)過對數(shù)變換(Log Transformation,LOG)和離散余弦變換(Discrete Cosine Transform,DCT)得到對角雙譜系數(shù)特征(DBSC)。

    錄音回放過程會導致語音頻譜的非線性失真。對角雙譜可以有效表達這種非線性失真,通過IMel濾波器對高頻區(qū)進行較高分辨率的濾波處理進一步強化錄音回放語音的高頻非線性失真,提高了與真實語音的區(qū)分性,有利于實現(xiàn)錄音回放攻擊檢測。

    圖8 對角雙譜系數(shù)特征提取流程

    3 實驗結果與分析

    3.1 實驗條件

    國際語音處理協(xié)會的ASVspoof 2017挑戰(zhàn)賽提供了采用CQCC和高斯混合模型的錄音回放攻擊檢測基線系統(tǒng)和標準語料庫(ASVspoof 2017 2.0語料庫)[12],并將EER作為通用評估標準。ASVspoof 2017 2.0語料庫詳細信息如表1所示,所有語音樣本采集自26種不同的錄音環(huán)境,采用了25種不同的錄音設備和26種不同的播放設備。錄音回放配置(錄音設備+環(huán)境+播放設備)共有61種,其中測試集有57種錄音回放配置。根據(jù)文獻[22]中對設備質量的分類,將測試集中的錄音回放語音按照高、中、低的標準進行分類,具體分布情況如表2所示。

    表1 ASVspoof 2017 2.0語料庫

    表2 ASVspoof 2017 2.0語料庫測試集中錄音回放語音使用的環(huán)境和設備

    本文實驗語音樣本均來自ASVspoof 2017 2.0語料庫。錄音回放攻擊檢測中,真實語音、錄音回放語音模型都使用256階GMM。測試時,采用式(15)計算每個測試語音的得分。

    式中,Lgenuine和Lspoof分別為測試語音對于真實語音GMM模型和錄音回放語音GMM模型的平均對數(shù)似然度。score為測試語音的對數(shù)似然比,其值大于設定閾值θ,則判決測試語音為真實語音,否則為錄音回放語音。閾值θ越大,錯誤接受率(False Acceptance Rate,F(xiàn)AR)越低,錯誤拒絕率(False Rejection Rate,F(xiàn)RR)越高;反之,亦然。調整閾值θ,當FAR和FRR相等時,F(xiàn)AR和FRR的值即為EER。錄音回放攻擊檢測系統(tǒng)的性能評價指標即為EER,此值越小,說明系統(tǒng)性能越好,即系統(tǒng)的抗錄音回放攻擊能力越強。

    3.2 錄音回放攻擊檢測實驗

    實驗分兩組進行。第1組使用ASVspoof 2017 2.0語料庫中訓練集的所有真實語音和錄音回放語音分別訓練各自256階GMM模型。第2組不僅使用訓練集樣本數(shù)據(jù),還使用開發(fā)集樣本數(shù)據(jù)分別訓練真實語音和錄音回放語音的256階GMM模型。測試語音使用測試集的所有語音樣本。短時窗長設置為256。由于訓練集、開發(fā)集和測試集的說話人不同,語音文本不完全相同,因此錄音回放攻擊檢測實驗針對非特定說話人且與文本無關。在實驗條件相同情況下,CQCC(90維)、MFCC(12維靜態(tài)特征+12維一階差分特征+12維二階差分特征)、IMFCC(12維靜態(tài)特征+12維一階差分特征+12維二階差分特征)、TECC[16(]40維)和DBSC特征(12維靜態(tài)特征+12維一階差分特征+12維二階差分特征)的EER如表3所示。

    從表3可以看出,當?shù)?組實驗增加開發(fā)集中真實語音和回放語音樣本數(shù)據(jù)進行訓練時,每一個特征對應的錄音回放攻擊檢測系統(tǒng)的EER下降,原因在于數(shù)據(jù)集的擴充,包含更多真實語音和錄音回放語音的差異信息,提高了GMM模型的泛化能力,更具有普適性,提升了系統(tǒng)的錄音回放攻擊檢測能力。另外,相比于其他特征,第1組實驗和第2組實驗中的DBSC特征對應的錄音回放攻擊檢測系統(tǒng)的ERR最低。在第1組實驗中,相比于CQCC、MFCC、IMFCC和TECC特征,DBSC特征對應的錄音回放攻擊系統(tǒng)的EER分別相對下降了14.21%、30.64%和31.51%和36.28%。在第2組實驗中,相比于CQCC、MFCC、IMFCC和TECC特征,DBSC特征對應的錄音回放攻擊系統(tǒng)的EER分別相對下降了6.0%、13.24%和34.48%和38.39%。因此,DBSC特征能夠有效實現(xiàn)錄音回放攻擊檢測。

    表3 不同特征參數(shù)的錄音回放攻擊檢測系統(tǒng)的EER

    3.3 不同質量設備的影響

    為更好地評估語料庫中不同設備質量對錄音回放攻擊檢測性能的影響,如表2所示。測試集中的所有錄音回放語音使用的設備可分為高質量、中等質量和低質量3類。實驗同樣分兩組進行:第1組使用ASVspoof 2017 2.0語料庫中訓練集的所有真實語音和錄音回放攻擊語音分別訓練各自256階GMM模型;第2組不僅使用訓練集樣本數(shù)據(jù),還使用開發(fā)集樣本數(shù)據(jù)分別訓練真實語音和錄音回放語音的256階GMM模型。短時窗長設置為256。在其他實驗條件相同情況下,CQCC(90維)、MFCC(12維靜態(tài)特征+12維1階差分特征+12維2階差分特征)、IMFCC(12維靜態(tài)特征+12維1階差分特征+12維二階差分特征)、TECC(40維)和DBSC特征(12維靜態(tài)特征+12維1階差分特征+12維2階差分特征)的對應的不同錄音回放攻擊檢測系統(tǒng)結果,如表4所示。

    表4 不同特征及不同質量的設備對應的錄音回放攻擊檢測系統(tǒng)的EER(單位:%)

    從表4可以看出,對于不同質量的設備,當?shù)?組實驗增加開發(fā)集中真實語音和回放語音樣本數(shù)據(jù)進行訓練時,每一個特征對應的錄音回放攻擊檢測系統(tǒng)的EER下降,原因在于開發(fā)集比訓練集中錄音回放語音使用的設備種類增多,豐富了真實語音和錄音回放語音的差異信息,更容易使真實語音的GMM模型和錄音回放語音的GMM模型具有區(qū)分性,從而提升系統(tǒng)的錄音回放攻擊檢測能力。當使用低質量設備來獲得錄音回放語音時,此時真實語音和錄音回放語音的差異較大。通過之前對揚聲器和麥克風的頻率響應分析,低質量的設備會導致設備在高頻段的頻率響應變差,進而導致系統(tǒng)脈沖響應的對角雙譜值衰減更多,從而錄音回放語音的對角雙譜值和真實語音的對角雙譜值有更大的區(qū)別。因此,使用DBSC特征的錄音回放攻擊檢測系統(tǒng)的EER更小,更能表征真實語音和錄音回放語音的差異。當使用高質量錄音設備來獲得錄音回放語音時,真實語音和錄音回放語音的差異較小,但是高保真揚聲器和麥克風在高頻段總會受奈奎斯特截止頻率低通濾波影響而衰減。DBSC特征使用對角雙譜的方法在高頻段對真實語音和錄音回放語音的差異進行分析,并通過IMel濾波器強化高頻特征,因此錄音回放攻擊檢測系統(tǒng)的EER最小,具備良好的錄音回放攻擊檢測能力。另外,針對高質量的錄音設備和中等質量的播放設備所對應的錄音回放語音,雖然DBSC特征能在一定程度上實現(xiàn)錄音回放攻擊檢測,但此時CQCC特征對應的錄音回放攻擊檢測能力更強。究其原因在于CQCC特征在低頻段具有較高的頻率分辨率,在高頻段具有較高的時間分辨率,可以很好地體現(xiàn)真實語音和錄音回放語音在高頻段的差異,具有很強的表征力。

    綜上所述,DBSC特征對應的錄音回放攻擊檢測系統(tǒng)具有較好的性能。對于高質量設備,DBSC特征同樣具備較強的錄音回放攻擊檢測能力。

    4 結語

    為了實現(xiàn)錄音回放攻擊檢測,研究和分析揚聲器和麥克風本身的聲學特性和頻率響應,發(fā)現(xiàn)主要在高頻段區(qū)域有衰減。在高頻段使用對角雙譜的方法分析真實語音和錄音回放語音的差異,通過IMel濾波器強化高頻段特征信息,提出了DBSC特征應用于錄音回放攻擊檢測。實驗證明,提出的DBSC特征能夠充分捕捉真實語音和錄音回放語音的差異。當使用高質量的設備獲取錄音回放語音時,DBSC特征對應的錄音回放攻擊系統(tǒng)同樣具有較強的檢測能力,說明DBSC特征具有優(yōu)越的錄音回放攻擊檢測性能并能夠顯著提升說話人確認系統(tǒng)的安全性。

    猜你喜歡
    雙譜對角錄音
    Listen and Paint, etc.
    Funny Phonics
    擬對角擴張Cuntz半群的某些性質
    雙譜圖在語音分析中的應用
    Colorful Seasons多彩四季
    A New Term
    基于雙譜特征融合的通信輻射源識別算法
    基于小波包域雙譜的風力機振動信號監(jiān)測方法研究
    基于倒雙譜的地震子波估計方法
    非奇異塊α1對角占優(yōu)矩陣新的實用簡捷判據(jù)
    南丰县| 延安市| 旅游| 高邮市| 定兴县| 道真| 封开县| 长乐市| 酉阳| 舒城县| 疏勒县| 会昌县| 东乌| 崇明县| 岑巩县| 齐齐哈尔市| 博乐市| 营山县| 太原市| 巨野县| 库尔勒市| 蚌埠市| 乐山市| 克拉玛依市| 永嘉县| 慈利县| 化隆| 库伦旗| 本溪市| 普兰店市| 洪泽县| 仙游县| 高密市| 钟山县| 苍溪县| 江永县| 新邵县| 新泰市| 南京市| 利川市| 饶河县|