金雨晨 凌霖 許毅
摘 要:IoT設(shè)備身份認(rèn)證是物聯(lián)網(wǎng)領(lǐng)域的重要應(yīng)用。語音重放欺騙攻擊現(xiàn)已成為自動說話人驗證(ASV)系統(tǒng)所面臨的嚴(yán)重的安全威脅。文中以ASVspoof 2017語音數(shù)據(jù)集為研究對象進(jìn)行重放語音檢測實驗,利用倒譜均值方差歸一化(CMVN)改進(jìn)檢測系統(tǒng)性能。實驗結(jié)果表明,采用CMVN后的線性頻率倒譜系數(shù)(LFCC)特征在重放語音的檢測上性能優(yōu)于常數(shù)Q變換倒譜系數(shù)(CQCC)、梅爾倒譜系數(shù)(MFCC)和逆梅爾倒譜系數(shù)(IMFCC)特征。
關(guān)鍵詞:物聯(lián)網(wǎng);自動說話人驗證;倒譜特征;重放語音檢測;倒譜均值方差歸一化;逆梅爾倒譜系數(shù)
中圖分類號:TP393;TN912.3文獻(xiàn)標(biāo)識碼:A文章編號:2095-1302(2020)06-00-03
0 引 言
說話人識別領(lǐng)域在過去的幾十年中取得了重大進(jìn)展。事實上,這項技術(shù)已經(jīng)成熟了,可以廣泛的應(yīng)用于現(xiàn)實世界中。但是多項研究表明,沒有采取一定檢測措施的自動說話人驗證(Automatic Speaker Verification,ASV)系統(tǒng)對于欺騙攻擊表現(xiàn)得非常脆弱[1-3]。語音欺騙攻擊手段主要有模仿、語音合成、語音轉(zhuǎn)換、錄音重放等,其中重放錄音是最容易采用的欺騙攻擊方式,它不需要特殊的信號處理知識就能夠進(jìn)行[4]。在過去的幾年里,特別是從ASVspoof 2015挑戰(zhàn)賽開始,為了保護(hù)說話人識別系統(tǒng),人們進(jìn)行了大量的研究工作,制定了各種反欺騙策略。一般,反欺騙系統(tǒng)由兩部分組成:前端用于參數(shù)化語音信號,后端通過分類器確定其是真實語音還是欺騙語音[5]。
本文對基于倒譜特征的重放語音檢測系統(tǒng)進(jìn)行實驗和分析,并對比幾種不同倒譜系數(shù)特征系統(tǒng)的性能。
1 ASV系統(tǒng)及重放語音檢測
基于GMM-UBM分類器的ASV系統(tǒng)模型如圖1所示。
ASV系統(tǒng)模型可能在8個位置受到攻擊,其中重放語音攻擊一般發(fā)生在語音信號的輸入,即麥克風(fēng)接收端。相應(yīng)的,反欺騙系統(tǒng)的分類器需要訓(xùn)練真實語音模型和欺騙語音模型,針對重放語音的檢測過程如圖2所示。
2 基于倒譜特征的重放語音檢測算法
重放語音檢測算法的流程如下。
(1)語音信號的采集。
(2)信號的預(yù)處理,包含采樣量化,預(yù)加重,端點檢測,分幀,加窗等。
(3)特征提取。
(4)模型的訓(xùn)練,即分類器。本文采用高斯混合模型(GMM),通過訓(xùn)練集語音數(shù)據(jù)獲得真實說話人語音模型與欺騙語音模型。
(5)檢測判決。對測試語音數(shù)據(jù)(開發(fā)集或評估集語音數(shù)據(jù))分別在真實說話人語音模型與欺騙語音模型上計算對數(shù)似然分值后,獲得系統(tǒng)的等錯誤率EER值。
本文主要對基于不同倒譜系數(shù)特征的欺騙檢測系統(tǒng)進(jìn)行評估對比,系統(tǒng)的EER值越低反映檢測性能越優(yōu)。
2.1 實驗條件
造成重放語音攻擊研究困難的部分原因是缺乏可公開使用的數(shù)據(jù)庫和統(tǒng)一的基準(zhǔn),ASVspoof 2017是第一個提供重放語音標(biāo)準(zhǔn)語料庫、協(xié)議和度量指標(biāo)的公共框架倡議。
ASVspoof 2017數(shù)據(jù)集主要以RedDot數(shù)據(jù)庫作為真實語音的來源,RedDot重放數(shù)據(jù)庫作為偽造重放錄音的來源[6]。數(shù)據(jù)集被分成訓(xùn)練集、開發(fā)集和評估集三個分組,表1給出了它們的數(shù)據(jù)統(tǒng)計,數(shù)據(jù)對應(yīng)177種不同的重放會話和61種
不同的重放配置[3]。重放配置是指錄音環(huán)境、錄音設(shè)備和重放設(shè)備的一種組合。
2.2 基于CQCC特征的重放語音檢測
CQCC(Constant Q Cepstral Coefficients)是一種經(jīng)常使用的聲樂識別與檢測的聲學(xué)特征。CQCC的特征提取主要分為以下幾個過程:預(yù)處理,常數(shù)Q變換(CQT),能量譜,對數(shù)能量,離散余弦變換(DCT)[7]。
將經(jīng)過預(yù)處理的語音信號進(jìn)行常數(shù)Q變換,將語音信號由時域變換到頻域。CQT可以被視為一組有著對數(shù)間隔的濾波器,它和小波變換類似,具有可變的時間和頻率分辨率,相較傳統(tǒng)的DFT而言,能提供更佳的信號分辨能力,在ASVspoof 2015的合成語音檢測任務(wù)中表現(xiàn)出優(yōu)秀的檢測性能,因而ASVspoof 2017將CQCC特征的檢測系統(tǒng)作為基線(BASELINE)系統(tǒng)。
提取CQCC特征時,不進(jìn)行預(yù)加重,最低分析頻率設(shè)為15.625 Hz,最高分析頻率取8 000 Hz,第一個八度音階的均勻采樣數(shù)d為16,每個八度音階包含的頻帶數(shù)設(shè)置為96,CQCC原始特征維度設(shè)置為30維(包括0階系數(shù)),在經(jīng)過一階和二階差分以后,最終每幀音頻對應(yīng)的CQCC特征為90維特征向量。GMM分類器的高斯分量數(shù)設(shè)置為512,利用訓(xùn)練好的GMM模型對系統(tǒng)進(jìn)行性能評估。
2.3 基于MFCC,IMFCC,LFCC特征的重放語音檢測
提取MFCC(Mel Frequency Cepstral Coefficients)倒譜系
數(shù)一般包括:預(yù)處理、快速傅里葉變換(Fast Fourier Transform,
FFT)、梅爾濾波、DCT變換。經(jīng)過快速傅里葉變換后得到的離散頻譜用一組三角濾波器進(jìn)行濾波,最后進(jìn)行離散余弦變換。在用MFCC進(jìn)行特征提取時,濾波器以MEL頻率比例放置,在低頻區(qū)域中具有更密集的間隔。
與MFCC不同,IMFCC采用了逆梅爾濾波器組取代梅爾濾波器組。逆梅爾濾波器組與傳統(tǒng)梅爾濾波器組的結(jié)構(gòu)相反,它使用在“倒MEL”尺度上線性分布的濾波器,更強(qiáng)調(diào)高頻區(qū)域,因而在高頻范圍有著更高的分辨率[5,8]。
LFCC(Linear Frequency Cepstral Coefficients)與梅爾倒譜特征提取過程類似,但它的濾波器組頻率不是按MEL頻率分布,而是按照線性頻率分布的。
在進(jìn)行重放語音檢測時,對語音信號進(jìn)行預(yù)加重,系數(shù)取0.97,F(xiàn)FT長度為512。窗函數(shù)為Hamming窗,窗口長20 ms,時間偏移為10 ms,其他設(shè)置和CQCC相似,每幀語音得到90維特征向量,GMM模型同樣為512維。
2.4 倒譜均值方差歸一化
信道干擾會降低重放語音檢測系統(tǒng)的性能,而倒譜均值和方差歸一化(Cepstrum Mean Variance Normalization,CMVN)是一種用于消除干擾信道效應(yīng)的有效的歸一化技術(shù)。不同聲學(xué)環(huán)境下不同設(shè)備的語音回放和記錄類似于附加通道效應(yīng)的積累,而CMVN的目的是減少信道效應(yīng),這可能會對重放檢測造成不利影響[3]。但這種情況只在錄音發(fā)生在相同信道的條件下成立,由于ASVspoof 2017數(shù)據(jù)來自使用異構(gòu)設(shè)備和信道的Red Dots數(shù)據(jù)庫[6],此情況并不成立。
CMVN可以幫助將真實的和重放的語音分布調(diào)整到一個共同的范圍,從而迫使欺騙檢測根據(jù)信道差異外的其他影響對兩者進(jìn)行區(qū)分。
3 實驗結(jié)果
不采用CMVN時,對基于不同倒譜特征的檢測結(jié)果進(jìn)行分析,見表2所列。
對比MFCC和IMFCC,IMFCC特征在重放語音檢測中的性能要明顯優(yōu)于MFCC特征的性能。由于逆梅爾濾波器組的特性,IMFCC在高頻段分辨率要高于梅爾濾波器組,說明語音信號高頻段對檢測結(jié)果的影響更大??傮w來看,CQCC基線系統(tǒng)在評估集的結(jié)果最優(yōu),LFCC次之,MFCC和IMFCC的性能則相對較差。開發(fā)集的檢測結(jié)果優(yōu)于評估集,主要是由于評估集的語音數(shù)量和重放配置遠(yuǎn)多于開發(fā)集(見表1),所以評估集結(jié)果更能反映系統(tǒng)的實際檢測性能。
為改進(jìn)重放語音檢測系統(tǒng)的性能,對CQCC,LFCC特征采用CMVN,得到的檢測結(jié)果見表3所列。
對比加入CMVN前(見表2)數(shù)據(jù),CQCC的評估集EER減少了10.61,LFCC的評估集EER下降了19.72。結(jié)果表明,CMVN有助于提升系統(tǒng)對新語音樣本的適應(yīng)能力,并且從改善效果看,LFCC的性能要好于CQCC的性能,因此,可以得出LFCC+CMVN針對重放語音的檢測中有很好的效果。
進(jìn)一步,在LFCC加入CMVN的基礎(chǔ)上,考察GMM模型高斯分量數(shù)的改變對于重放檢測系統(tǒng)性能的影響,結(jié)果見表4所列。
由表4可見,隨著高斯分量數(shù)的增加,EER的值會有一定的減小,但減小幅度有限。實驗結(jié)果表明,適當(dāng)增加高斯分量數(shù)可以提升系統(tǒng)的性能。但是,增加高斯分量數(shù)會使得計算量增大,大大增加實驗的時間。
4 結(jié) 語
基于語音的身份認(rèn)證相對其他生物特征,具有用戶接受程度高、拾音設(shè)備簡單、數(shù)據(jù)量小、計算復(fù)雜度低等優(yōu)勢,因此基于說話人識別的身份認(rèn)證系統(tǒng)應(yīng)用越來越廣泛。但是,說話人識別系統(tǒng)對于各種欺騙攻擊技術(shù)表現(xiàn)非常脆弱?;诘棺V系數(shù)特征的重放語音檢測系統(tǒng)能增加ASV系統(tǒng)的可靠性,本文在實驗后得出結(jié)論:基于IMFCC特征的系統(tǒng)檢測性能要優(yōu)于基于MFCC特征的系統(tǒng),但總體上,基于MFCC和IMFCC特征的系統(tǒng)性能相對較差;CMVN能提升重放語音檢測系統(tǒng)的性能;增加GMM模型高斯分量數(shù)也能少許改善系統(tǒng)檢測性能,但要付出運(yùn)算量代價;相比CQCC,MFCC,IMFCC,基于LFCC特征的檢測系統(tǒng),性能最優(yōu)。
參考文獻(xiàn)
[1] WU Z Z,EVANS N,KINNUNEN T,et al. Spoofing and countermeasures for speaker verification:a survey [J]. Speech communication,2015,66:130-153.
[2] KINNUNEN T,WU Z Z,LEE K A,et al. Vulnerability of speaker verification systems against voice conversion spoofing attacks:the case of telephone speech [C]// IEEE International Conference on Acoustics. Kyoto:IEEE,2012:4401-4404.
[3] DELGADO H,TODISCO M,SAHIDULLAH M,et al. ASVspoof 2017 Version 2.0:meta-data analysis and baseline enhancements [C]// Odyssey 2018-The Speaker and Language Recognition Workshop. Les Sables dOlonne,2018.
[4] FONT R,L?PEZ J M E,CANO M J. Experimental analysis of features for replay attack detection:results on the ASVspoof 2017 challenge [C]// International Speech Communication Association. Stockholm:Interspeech,2017:7-11.
[5] SAHIDULLAH M,KINNUNEN T,CEMAL H. A comparison of features for synthetic speech detection [C]// Proceedings of the Annual Conference of the International Speech Communication Association. Dresden:Interspeech,2015:2087-2091.
[6] KINNUNEN T,SAHIDULLAH M,F(xiàn)ALCONE M,et al. RedDots replayed:a new replay spoofing attack corpus for text-dependent speaker verification research [C]// 2017 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP 2017). New Orleans:IEEE,2017:5395-5399.
[7] TODISCO M,H?CTOR D,EVANS N. Constant Q cepstral coefficients:a spoofing countermeasure for automatic speaker verification [J]. Computer speech & language,2017,45:516-535.
[8]林朗,王讓定,嚴(yán)迪群,等.基于逆梅爾對數(shù)頻譜系數(shù)的回放語音檢測算法[J].電信科學(xué),2018,34(5):96-104.
[9]凌賢鵬,李綻蕾,劉昊.基于智能語音的智能家居系統(tǒng)設(shè)計[J].物聯(lián)網(wǎng)技術(shù),2019,9(1):73-74.
[10]原晨,高勇.高質(zhì)量信道上回聲隱藏法秘密信息提取出錯原因分析[J].現(xiàn)代電子技術(shù),2015,38(11):103-106.