于佳祺,簡(jiǎn)志華,徐嘉,游林,汪云路,吳超
研究與開(kāi)發(fā)
基于聯(lián)合特征與隨機(jī)森林的偽裝語(yǔ)音檢測(cè)
于佳祺1,簡(jiǎn)志華1,徐嘉1,游林2,汪云路2,吳超1
(1. 杭州電子科技大學(xué)通信工程學(xué)院,浙江 杭州 310018;2. 杭州電子科技大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,浙江 杭州 310018)
為了能較為全面地描述語(yǔ)音信號(hào)的特征信息,提高偽裝檢測(cè)率,提出了一種基于均勻局部二值模式紋理特征與常數(shù)Q倒譜系數(shù)聲學(xué)特征相結(jié)合,并以隨機(jī)森林為分類(lèi)模型的偽裝語(yǔ)音檢測(cè)方法。利用均勻局部二值模式提取語(yǔ)音信號(hào)語(yǔ)譜圖中的紋理特征矢量,并與常數(shù)Q倒譜系數(shù)構(gòu)成聯(lián)合特征,再用所獲得的聯(lián)合特征矢量訓(xùn)練隨機(jī)森林分類(lèi)器,從而實(shí)現(xiàn)了偽裝語(yǔ)音檢測(cè)。實(shí)驗(yàn)中,分別對(duì)其他特征參數(shù)以及支持向量機(jī)分類(lèi)器模型所構(gòu)建的幾種偽裝檢測(cè)系統(tǒng)進(jìn)行了性能對(duì)照,結(jié)果表明,所提聯(lián)合特征與隨機(jī)森林模型相結(jié)合的語(yǔ)音偽裝檢測(cè)系統(tǒng)具有最優(yōu)的檢測(cè)性能。
偽裝語(yǔ)音檢測(cè);聲學(xué)特征;紋理特征;均勻局部二值模式;隨機(jī)森林
自動(dòng)說(shuō)話(huà)人驗(yàn)證(automatic speaker verification,ASV)系統(tǒng)是通過(guò)對(duì)說(shuō)話(huà)人語(yǔ)音信號(hào)進(jìn)行分析并對(duì)說(shuō)話(huà)人身份進(jìn)行認(rèn)證的技術(shù)。ASV系統(tǒng)是一種無(wú)須直接接觸便可完成識(shí)別的身份認(rèn)證方式,檢測(cè)設(shè)備成本低且便于操作[1-2]。雖然目前ASV系統(tǒng)的正確識(shí)別率高,但數(shù)據(jù)顯示,以冒充目標(biāo)說(shuō)話(huà)人真實(shí)身份為目的的惡意欺騙攻擊極大地降低了ASV系統(tǒng)的安全性。欺騙攻擊的類(lèi)型主要有語(yǔ)音合成、語(yǔ)音轉(zhuǎn)換[3]、人為模仿與語(yǔ)音回放[4-5]。為了應(yīng)對(duì)這些不同種類(lèi)的欺騙攻擊,需要提高說(shuō)話(huà)人識(shí)別系統(tǒng)檢測(cè)欺騙攻擊的能力,使ASV系統(tǒng)具有反欺騙攻擊的能力[6-7]。
偽裝語(yǔ)音檢測(cè)的研究重點(diǎn)是提取特征參數(shù)與建立欺騙檢測(cè)模型,其中,特征提取主要是提取語(yǔ)音信號(hào)中的聲學(xué)特征來(lái)描述目標(biāo)語(yǔ)音特性[8]。目前的語(yǔ)音信號(hào)特征提取方法有很多,梅爾頻率倒譜系數(shù)(Mel-frequency cepstral coefficient,MFCC)就是常用的聲學(xué)特征之一,MFCC是模仿人耳對(duì)不同頻率的語(yǔ)音信號(hào)具有不同感知程度的聽(tīng)覺(jué)特性[9]。線(xiàn)性頻率倒譜系數(shù)(linear frequency cepstral coefficient,LFCC)與MFCC的獲取方法類(lèi)似,但是濾波器組不是按照Mel(梅爾)頻率分布,而是使用線(xiàn)性頻率。在A(yíng)SVspoof2019挑戰(zhàn)賽中,這兩種特征參數(shù)都被ASV官方基線(xiàn)系統(tǒng)所選用。MFCC與LFCC這兩種特征在說(shuō)話(huà)人驗(yàn)證中都有不錯(cuò)的表現(xiàn),但是在欺騙檢測(cè)中性能并不理想[10-12]。隨著研究的深入,逐漸出現(xiàn)了其他針對(duì)欺騙語(yǔ)音檢測(cè)的聲學(xué)特征。Todisco等[13]提出了基于常量Q變換(constant Q transform,CQT)的常量Q倒譜系數(shù)(constant Q cepstral coefficient,CQCC)。CQCC能夠提供可變的時(shí)間和頻率分辨率,克服了其他聲學(xué)特征時(shí)頻分辨率均勻的缺點(diǎn),且CQT能夠更加有效地提取頻譜的細(xì)節(jié)信息,這使得其在偽裝語(yǔ)音檢測(cè)中可以取得更好的效果。實(shí)驗(yàn)結(jié)果也表明,CQCC在多數(shù)據(jù)集上有很好的泛化效果[14-15]。然而,這些特征參數(shù)都沒(méi)有考慮頻域特征與時(shí)域特征間的相關(guān)性。Massoud等[16]借鑒圖像領(lǐng)域的研究成果,使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)直接對(duì)語(yǔ)音的梅爾頻譜圖進(jìn)行識(shí)別分類(lèi),得到了很好的性能。也有學(xué)者在語(yǔ)譜圖上提取特征并用于檢測(cè),實(shí)驗(yàn)結(jié)果表明都有更好的泛化性與魯棒性[17]。欺騙檢測(cè)模型有多種,深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)是常見(jiàn)的檢測(cè)模型之一,它很適合做非線(xiàn)性映射的搜索,在偽裝語(yǔ)音檢測(cè)中有很好的表現(xiàn),但需要較多的數(shù)據(jù)進(jìn)行訓(xùn)練[18]。高斯混合模型(Gaussian mixture model,GMM)作為一種概率統(tǒng)計(jì)模型,也常用于語(yǔ)音分類(lèi)與識(shí)別領(lǐng)域。支持向量機(jī)(support vector machine,SVM)可以通過(guò)解決二次優(yōu)化問(wèn)題實(shí)現(xiàn)二分類(lèi),有著強(qiáng)大的實(shí)用性與泛化能力。
本文在語(yǔ)譜圖的基礎(chǔ)上,通過(guò)均勻局部二值模式(uniform local binary pattern,ULBP)分析并提取其紋理特征,然后與CQCC聲學(xué)特征進(jìn)行聯(lián)合,提出了一種聯(lián)合特征進(jìn)行欺騙檢測(cè)的方法。紋理特征作為描述語(yǔ)音信號(hào)的一種重要特征參數(shù),可以反映出語(yǔ)音信號(hào)語(yǔ)譜圖中的排列規(guī)則與重復(fù)出現(xiàn)的局部模式,可以描述語(yǔ)譜圖的表面特性,并且具有良好的抗噪聲性能[19]??紤]到聯(lián)合特征的維數(shù)過(guò)高問(wèn)題,引入主成分分析(principal component analysis,PCA)算法對(duì)特征矢量進(jìn)行降維處理,很好地解決了聯(lián)合特征維數(shù)過(guò)大的問(wèn)題。同時(shí)考慮到聯(lián)合特征與分類(lèi)器的匹配問(wèn)題,選取隨機(jī)森林(random forest,RF)模型用于偽裝語(yǔ)音與真實(shí)語(yǔ)音的分類(lèi)。RF能夠根據(jù)各個(gè)特征矢量的重要性程度進(jìn)行評(píng)估,更能應(yīng)對(duì)特征數(shù)值差異大的聯(lián)合特征矢量,在處理聯(lián)合特征時(shí)有更高的匹配度,能得到更好的分類(lèi)效果[20]。
圖1 LBP求解過(guò)程示例
圖2 ULBP紋理特征矢量提取過(guò)程
考慮到聲學(xué)特征與紋理特征在欺騙檢測(cè)中各有優(yōu)勢(shì),使用CQCC聲學(xué)特征與ULBP紋理特征聯(lián)合的方式用于欺騙檢測(cè)。在欺騙攻擊場(chǎng)景中,聯(lián)合特征帶有更多的語(yǔ)音信息,有更好的表現(xiàn)??紤]到特征參數(shù)維度過(guò)大,導(dǎo)致欺騙檢測(cè)系統(tǒng)計(jì)算量大而影響系統(tǒng)的實(shí)時(shí)性,同時(shí)聲學(xué)特征矢量與紋理特征矢量中存在信息冗余。因此,采用主成分分析算法分別對(duì)CQCC與ULBP特征進(jìn)行處理[24],達(dá)到降維的效果,然后再將降維后的特征進(jìn)行拼接,從而生成聯(lián)合特征,降維的具體流程如下。
圖3 聯(lián)合特征提取流程
隨機(jī)森林采用集成學(xué)習(xí)的思想,將多個(gè)弱學(xué)習(xí)器組成一個(gè)強(qiáng)學(xué)習(xí)器。隨機(jī)森林通過(guò)隨機(jī)選取數(shù)據(jù)樣本來(lái)形成多個(gè)決策樹(shù)從而形成森林結(jié)構(gòu),每一棵樹(shù)都會(huì)得出一個(gè)分類(lèi)結(jié)果。原則上,隨機(jī)森林算法在進(jìn)行分類(lèi)時(shí),使用票數(shù)占少的需要遵從票數(shù)占多的規(guī)則進(jìn)行投票分配,整個(gè)森林系統(tǒng)的分類(lèi)結(jié)果應(yīng)以票數(shù)最高的分類(lèi)結(jié)果為準(zhǔn)。RF的訓(xùn)練流程如下。
首先,提取出語(yǔ)音信號(hào)的語(yǔ)譜圖,并確保語(yǔ)譜圖紋理清晰,將語(yǔ)譜圖轉(zhuǎn)換成灰度圖,通過(guò)統(tǒng)計(jì)直方圖得到ULBP紋理特征。同時(shí)根據(jù)特征聯(lián)合的方式,將ULBP紋理特征與CQCC聲學(xué)特征進(jìn)行聯(lián)合,即從兩個(gè)方面分析語(yǔ)音信號(hào)。將一段任何時(shí)長(zhǎng)的語(yǔ)音信號(hào)經(jīng)過(guò)整個(gè)聯(lián)合特征提取流程后,轉(zhuǎn)換成一個(gè)CQCC-ULBP聯(lián)合特征矢量,并用于訓(xùn)練隨機(jī)森林分類(lèi)模型。在對(duì)隨機(jī)森林分類(lèi)模型完成訓(xùn)練后,得到對(duì)應(yīng)的最佳決策樹(shù)參數(shù),再對(duì)待檢測(cè)的語(yǔ)音進(jìn)行測(cè)試,然后根據(jù)每棵樹(shù)所給出的投票情況給出判決結(jié)果。使用隨機(jī)森林用于分類(lèi)時(shí),每棵樹(shù)的權(quán)重相同且互不相關(guān),依據(jù)投票的情況給出最后結(jié)論。選取隨機(jī)森林分類(lèi)算法來(lái)訓(xùn)練聯(lián)合特征實(shí)現(xiàn)語(yǔ)音信號(hào)的特征分類(lèi)時(shí),使用隨機(jī)森林對(duì)提取的真實(shí)語(yǔ)音與欺騙語(yǔ)音數(shù)據(jù)集所得到的聯(lián)合特征向量進(jìn)行訓(xùn)練,再對(duì)待認(rèn)證語(yǔ)音集進(jìn)行測(cè)試。因此,便可以得到一個(gè)基于聯(lián)合特征與隨機(jī)森林的偽裝語(yǔ)音檢測(cè)系統(tǒng),基于聯(lián)合特征與隨機(jī)森林的偽裝語(yǔ)音檢測(cè)系統(tǒng)流程如圖4所示。
實(shí)驗(yàn)使用的語(yǔ)音庫(kù)是Interspeech在2019年舉辦的ASVspoof挑戰(zhàn)賽中所使用的邏輯訪(fǎng)問(wèn)(logical access,LA)場(chǎng)景數(shù)據(jù)集。ASVspoof2019LA數(shù)據(jù)庫(kù)基于語(yǔ)音克隆工具包(voice cloning tool kit,VCTK)語(yǔ)料庫(kù)提取,是一個(gè)在消聲暗室中以16 kHz的采樣率錄制的多人英語(yǔ)語(yǔ)音數(shù)據(jù)庫(kù)。ASVspoof2019LA語(yǔ)音庫(kù)中的偽裝語(yǔ)音由語(yǔ)音轉(zhuǎn)換和語(yǔ)音合成兩種偽裝方式生成,偽裝方式A01-A19的具體信息詳見(jiàn)文獻(xiàn)[25]。同時(shí)選取ASVspoof2015語(yǔ)音庫(kù)進(jìn)一步對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行驗(yàn)證。ASVspoof2015語(yǔ)音庫(kù)中的欺騙攻擊語(yǔ)音由語(yǔ)音轉(zhuǎn)換和語(yǔ)音合成兩種偽裝方式生成,偽裝語(yǔ)音S1-S10的生成信息詳見(jiàn)文獻(xiàn)[26]。
圖4 基于聯(lián)合特征與隨機(jī)森林的偽裝語(yǔ)音檢測(cè)系統(tǒng)流程
選取ASVspoof2019LA語(yǔ)音庫(kù)中的語(yǔ)音樣本用于實(shí)驗(yàn),隨機(jī)選取了5 850條語(yǔ)音用于系統(tǒng)性能測(cè)試,其中有5 000條語(yǔ)音作為訓(xùn)練集,850條語(yǔ)音作為測(cè)試集。
表1 應(yīng)對(duì)不同欺騙攻擊時(shí)MFCC與CQCC特征在SVM與RF系統(tǒng)中的t-DCF值
由表1中的t-DCF值可以看出,在偽裝語(yǔ)音檢測(cè)中,MFCC的檢測(cè)結(jié)果較差。MFCC雖然能很好地反映人耳的聽(tīng)覺(jué)機(jī)理,在說(shuō)話(huà)人驗(yàn)證系統(tǒng)中可以取得較好的性能,然而在偽裝語(yǔ)音檢測(cè)時(shí)并不能很好地辨別出真實(shí)語(yǔ)音與欺騙語(yǔ)音的區(qū)別,由于欺騙語(yǔ)音與真實(shí)語(yǔ)音的語(yǔ)音內(nèi)容十分相似,難以區(qū)分,欺騙檢測(cè)性能較差。相比而言,CQCC是針對(duì)偽裝語(yǔ)音檢測(cè)所使用的聲學(xué)特征,避免了時(shí)頻分辨率均勻的缺點(diǎn),更能在偽裝語(yǔ)音檢測(cè)中代表語(yǔ)音特征,相比MFCC有更好的檢測(cè)效果。同時(shí),在對(duì)語(yǔ)音MFCC與CQCC兩種特征進(jìn)行分類(lèi)時(shí),SVM與RF的性能表現(xiàn)差異不大,t-DCF值相差比較相近,RF略微要好一些。
實(shí)驗(yàn)提取語(yǔ)譜圖紋理特征,使用ULBP算法提取訓(xùn)練集中語(yǔ)音信號(hào)的ULBP特征矢量,使用PCA對(duì)ULBP特征、CQCC特征和MFCC特征進(jìn)行降維處理并得到聯(lián)合特征,再將聯(lián)合特征矢量分別用于訓(xùn)練SVM與RF系統(tǒng),將所有訓(xùn)練的SVM系統(tǒng)與RF系統(tǒng)在測(cè)試集中進(jìn)行測(cè)試,在應(yīng)對(duì)不同欺騙攻擊時(shí)兩種聯(lián)合特征在SVM與RF系統(tǒng)中的t-DCF值如圖5所示。
圖5 在應(yīng)對(duì)不同欺騙攻擊時(shí)兩種聯(lián)合特征在SVM與RF系統(tǒng)中的t-DCF值
通過(guò)對(duì)比圖5與表1中的實(shí)驗(yàn)數(shù)據(jù)發(fā)現(xiàn),基于MFCC-ULBP特征矢量的檢測(cè)系統(tǒng)明顯優(yōu)于基于MFCC特征矢量的檢測(cè)系統(tǒng)。同樣地,基于CQCC-ULBP特征矢量的檢測(cè)系統(tǒng)明顯優(yōu)于基于CQCC特征矢量的檢測(cè)系統(tǒng)。因?yàn)槁?lián)合特征中包含語(yǔ)音信號(hào)中所攜帶的能量與紋理特征,比傳統(tǒng)聲學(xué)特征更具有代表性。同時(shí)也發(fā)現(xiàn),采用CQCC-ULBP聯(lián)合特征的偽裝語(yǔ)音檢測(cè)方法具有最佳的檢測(cè)效果。在分類(lèi)器方面,使用SVM與RF模型分別對(duì)MFCC-ULBP與CQCC-ULBP兩種聯(lián)合特征訓(xùn)練時(shí),通過(guò)RF模型訓(xùn)練特征的檢測(cè)效果明顯優(yōu)于SVM。使用RF模型進(jìn)行偽裝語(yǔ)音檢測(cè)時(shí),采用的聯(lián)合特征用于偽裝語(yǔ)音檢測(cè)的系統(tǒng)性能整體上都提高了檢測(cè)效果。但在使用SVM對(duì)聯(lián)合特征進(jìn)行偽裝語(yǔ)音檢測(cè)時(shí),系統(tǒng)檢測(cè)性能在部分偽裝種類(lèi)中會(huì)有一定程度的下降。在處理普通的二分類(lèi)問(wèn)題時(shí),SVM具有優(yōu)秀的性能與泛化能力。但在偽裝語(yǔ)音檢測(cè)實(shí)驗(yàn)場(chǎng)景中,真實(shí)語(yǔ)音樣本數(shù)量應(yīng)普遍少于欺騙語(yǔ)音樣本數(shù)量,并且由于真實(shí)語(yǔ)音與欺騙語(yǔ)音樣本同等重要,故不宜在實(shí)驗(yàn)前對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,而數(shù)據(jù)預(yù)處理可有效地提升SVM在二分類(lèi)數(shù)據(jù)上的泛化能力。但RF在進(jìn)行訓(xùn)練和分類(lèi)時(shí)都不需要進(jìn)行數(shù)據(jù)預(yù)處理。
同時(shí),實(shí)驗(yàn)也選取ASVspoof2015語(yǔ)音庫(kù)中的語(yǔ)音樣本用于實(shí)驗(yàn)來(lái)進(jìn)一步驗(yàn)證實(shí)驗(yàn)中的結(jié)論,仍然隨機(jī)選取5 850條語(yǔ)音用于系統(tǒng)性能測(cè)試,其中有5 000條語(yǔ)音用于訓(xùn)練作為訓(xùn)練集,850條語(yǔ)音用于測(cè)試作為測(cè)試集。將該數(shù)據(jù)集中語(yǔ)音樣本在本文所提出的偽裝語(yǔ)音檢測(cè)方法進(jìn)行驗(yàn)證,使用聯(lián)合特征的提取方式提取該語(yǔ)音數(shù)據(jù)集中語(yǔ)音的特征參數(shù),將得到的真?zhèn)握Z(yǔ)音特征參數(shù)在RF與SVM中進(jìn)行訓(xùn)練,所有訓(xùn)練的SVM系統(tǒng)與RF系統(tǒng)在測(cè)試集中進(jìn)行測(cè)試,將各類(lèi)特征矢量在各個(gè)偽裝語(yǔ)音檢測(cè)系統(tǒng)上進(jìn)行測(cè)試,應(yīng)對(duì)不同欺騙攻擊時(shí)各類(lèi)特征在SVM與RF系統(tǒng)中的t-DCF值如圖6所示。
圖6 應(yīng)對(duì)不同欺騙攻擊時(shí)各類(lèi)特征在SVM與RF系統(tǒng)中的t-DCF值
從圖6中的實(shí)驗(yàn)結(jié)果可以看出,在A(yíng)SVspoof 2015數(shù)據(jù)集中,基于CQCC-ULBP的聯(lián)合特征與隨機(jī)森林的偽裝語(yǔ)音檢測(cè)模型在整體上實(shí)現(xiàn)了最佳的分類(lèi)性能。在使用聲學(xué)特征對(duì)S2類(lèi)型欺騙攻擊進(jìn)行分類(lèi)時(shí),t-DCF參數(shù)的值普遍很大,因?yàn)镾2類(lèi)型是改變聲學(xué)特征的生成的偽裝語(yǔ)音,更容易破壞使用聲學(xué)特征識(shí)別的系統(tǒng),而聯(lián)合特征彌補(bǔ)了這一點(diǎn),在應(yīng)對(duì)S2類(lèi)型欺騙攻擊時(shí)檢測(cè)效果較好。在應(yīng)對(duì)S3、S4類(lèi)型語(yǔ)音合成欺騙攻擊時(shí),各系統(tǒng)都有不錯(cuò)的表現(xiàn),并且聯(lián)合特征得到了最佳的效果。但在應(yīng)對(duì)S9類(lèi)型欺騙攻擊時(shí),對(duì)聯(lián)合特征的檢測(cè)性能造成了一定影響,t-DCF參數(shù)的值明顯增加。這是由于S9類(lèi)型的語(yǔ)音轉(zhuǎn)換攻擊,幾乎不改變語(yǔ)譜圖的聲紋特征,導(dǎo)致紋理特征識(shí)別效果不好。紋理特征表現(xiàn)不佳,影響了聯(lián)合特征的整體性能。同時(shí)從圖5可以看出,相同條件下采用聯(lián)合特征與RF模型進(jìn)行偽裝語(yǔ)音檢測(cè)時(shí)的性能要優(yōu)于采用聯(lián)合特征與SVM模型進(jìn)行檢測(cè)的效果。
表2 SVM與RF平均執(zhí)行時(shí)間
為了改善基于傳統(tǒng)聲學(xué)特征參數(shù)的偽裝語(yǔ)音檢測(cè)系統(tǒng)的性能,提出了一種利用ULBP算法在語(yǔ)譜圖中提取紋理特征并與CQCC聲學(xué)特征進(jìn)行聯(lián)合的偽裝語(yǔ)音檢測(cè)方法。在該方法中,分別使用PCA將一段語(yǔ)音的ULBP特征參數(shù)矩陣和CQCC特征矢量序列進(jìn)行壓縮,然后進(jìn)行聯(lián)合,成為一個(gè)矢量。同時(shí),將該聯(lián)合矢量所構(gòu)成的語(yǔ)音特征參數(shù)集訓(xùn)練RF分類(lèi)器,就可以得到偽裝語(yǔ)音檢測(cè)系統(tǒng)。實(shí)驗(yàn)結(jié)果表明,聯(lián)合特征可以更加全面地描述語(yǔ)音信號(hào)的特征信息,便于分類(lèi)檢測(cè),本文采用隨機(jī)森林作為分類(lèi)器與ULBP-CQCC聯(lián)合特征參數(shù)進(jìn)行匹配具有最優(yōu)的檢測(cè)性能。
[1] GOMEZ-ALANIS A, GONZALEZ-LOPEZ J A, PEINADO A M. A kernel density estimation based loss function and its application to ASV-spoofing detection[J]. IEEE Access, 2020, 8: 108530-108543.
[2] 肜婭峰, 陳晨, 陳德運(yùn), 等. 基于貝葉斯主成分分析的i-vector說(shuō)話(huà)人確認(rèn)方法[J]. 電子學(xué)報(bào), 2021, 49(11): 2186-2194.
RONG Y F, CHEN C, CHEN D Y, et al. Bayesian principal component analysis for I-vector speaker verification[J]. Acta Electronica Sinica, 2021, 49(11): 2186-2194.
[3] LI N, MAK M W, CHIEN J T. Deep neural network driven mixture of PLDA for robust i-vector speaker verification[C]//Proceedings of 2016 IEEE Spoken Language Technology Workshop. Piscataway: IEEE Press, 2016: 186-191.
[4] ALEGRE F, JANICKI A, EVANS N. re-assessing the threat of replay spoofing attacks against automatic speaker verification[C]//Proceedings of 2014 International Conference of the Biometrics Special Interest Group (BIOSIG). Piscataway: IEEE Press, 2014: 1-6.
[5] 林朗, 王讓定, 嚴(yán)迪群, 等. 基于逆梅爾對(duì)數(shù)頻譜系數(shù)的回放語(yǔ)音檢測(cè)算法[J]. 電信科學(xué), 2018, 34(5): 90-98.
LIN L, WANG R D, YAN D Q, et al. A playback speech detection algorithm based on log inverse Mel-frequency spectral coefficient[J]. Telecommunications Science, 2018, 34(5): 90-98.
[6] NAUTSCH A, WANG X, EVANS N, et al. ASVspoof 2019: spoofing countermeasures for the detection of synthesized, converted and replayed speech[J]. IEEE Transactions on Biometrics, Behavior, and Identity Science, 2021, 3(2): 252-265.
[7] 任延珍, 劉晨雨, 劉武洋, 等. 語(yǔ)音偽造及檢測(cè)技術(shù)研究綜述[J]. 信號(hào)處理, 2021, 37(12): 2412-2439.
REN Y Z, LIU C Y, LIU W Y, et al. A survey on speech forgery and detection[J]. Journal of Signal Processing, 2021, 37(12): 2412-2439.
[8] YU H, TAN Z H, MA Z Y, et al. Spoofing detection in automatic speaker verification systems using DNN classifiers and dynamic acoustic features[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(10): 4633-4644.
[9] PAUL D, PAL M, SAHA G. Novel speech features for improved detection of spoofing attacks[C]//Proceedings of 2015 Annual IEEE India Conference. Piscataway: IEEE Press, 2015: 1-6.
[10] HIDAYAT R, BEJO A, SUMARYONO S, et al. Denoising speech for MFCC feature extraction using wavelet transformation in speech recognition system[C]//Proceedings of 2018 10th International Conference on Information Technology and Electrical Engineering (ICITEE). Piscataway: IEEE Press, 2018: 280-284.
[11] ?ZS?NMEZ D B, ACARMAN T, PARLAK ? B. Optimal classifier selection in Turkish speech emotion detection[C]// Proceedings of 2021 29th Signal Processing and Communications Applications Conference (SIU). Piscataway: IEEE Press, 2021: 1-4.
[12] PENG X, LU C Y, YI Z, et al. Connections between nuclear-norm and frobenius-norm-based representations[J]. IEEE Transactions on Neural Networks and Learning Systems, 2018, 29(1): 218-224.
[13] TODISCO M, DELGADO H, EVANS N. Constant Q cepstral coefficients: a spoofing countermeasure for automatic speaker verification[J]. Computer Speech & Language, 2017 (45): 516-535.
[14] SARANYA S, BHARATHI B, KAVITHA S. An approach to detect replay attack in automatic speaker verification system[C]//Proceedings of 2018 International Conference on Computer, Communication, and Signal Processing (ICCCSP). Piscataway: IEEE Press, 2018: 1-5.
[15] YE Y C, LAO L J, YAN D Q, et al. Detection of replay attack based on normalized constant Q cepstral feature[C]//Proceedings of 2019 IEEE 4th International Conference on Cloud Computing and Big Data Analysis. Piscataway: IEEE Press, 2019: 407-411.
[16] MASSOUDI M, VERMA S, JAIN R. Urban sound classification using CNN[C]//Proceedings of 2021 6th International Conference on Inventive Computation Technologies (ICICT). Piscataway: IEEE Press, 2021: 583-589.
[17] LI P H, LI Y Y, LUO D C, et al. Speaker identification using FrFT-based spectrogram and RBF neural network[C]//Proceedings of 2015 34th Chinese Control Conference (CCC). Piscataway: IEEE Press, 2015: 3674-3679.
[18] WANG J, HAN Z Y. Research on speech emotion recognition technology based on deep and shallow neural network[C]//Proceedings of 2019 Chinese Control Conference (CCC). Piscataway: IEEE Press, 2019: 3555-3558.
[19] 徐劍, 簡(jiǎn)志華, 于佳祺, 等. 采用完整局部二進(jìn)制模式的偽裝語(yǔ)音檢測(cè)[J]. 電信科學(xué), 2021, 37(5): 91-99.
XU J, JIAN Z H, YU J Q, et al. Completed local binary pattern based speech anti-spoofing[J]. Telecommunications Science, 2021, 37(5): 91-99.
[20] K L, DABHADE S B, RODE Y S, et al. Identification of breast cancer from thermal imaging using SVM and random forest method[C]//Proceedings of 2021 5th International Conference on Trends in Electronics and Informatics (ICOEI). Piscataway: IEEE Press, 2021: 1346-1349.
[21] TAO Y, HE Y Z. Face recognition based on LBP algorithm[C]//Proceedings of 2020 International Conference on Computer Network, Electronic and Automation (ICCNEA). Piscataway: IEEE Press, 2020: 21-25.
[22] OJALA T, PIETIKAINEN M, MAENPAA T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7): 971-987.
[23] FAUDZI S A A M, YAHYA N. Evaluation of LBP-based face recognition techniques[C]//Proceedings of 2014 5th International Conference on Intelligent and Advanced Systems (ICIAS). Piscataway: IEEE Press, 2014: 1-6.
[24] WANG L L. Research on distributed parallel dimensionality reduction algorithm based on PCA algorithm[C]//Proceedings of 2019 IEEE 3rd Information Technology, Networking, Electronic and Automation Control Conference. Piscataway: IEEE Press, 2019: 1363-1367.
[25] WANG X, YAMAGISHI J, TODISCO M, et al. ASVspoof 2019: a large-scale public database of synthesized, converted and replayed speech[J]. Computer Speech & Language, 2020, 64: 101114.
[26] WU Z Z, KINNUNEN T, EVANS N, et al. ASVspoof 2015: the first automatic speaker verification spoofing and countermeasures challenge[C]//Proceedings of Interspeech 2015. ISCA: ISCA, 2015.
[27] CHENG X L, XU M X, ZHENG T F. Replay detection using CQT-based modified group delay feature and ResNeWt network in ASVspoof 2019[C]//Proceedings of 2019 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC). Piscataway: IEEE Press, 2019: 540-545.
Spoofing speech detection algorithm based on joint feature and random forest
YU Jiaqi1, JIAN Zhihua1, XU Jia1, YOU Lin2, WANG Yunlu2, WU Chao1
1. School of Communication Engineering, Hangzhou Dianzi University, Hangzhou 310018, China 2. School of Cyberspace Security, Hangzhou Dianzi University, Hangzhou 310018, China
In order to describe the characteristic information of the speech signal more comprehensively and improve the detection rate of camouflage, a spoofing speech detection method based on the combination of uniform local binary pattern texture feature and constant Q cepstrum coefficient acoustic feature was proposed, which used random forest as the classifier model. The texture feature vector in the speech signal spectrogram was extracted by using the uniform local binary mode, and the joint feature was formed with the constant Q cepstrum coefficient. Then, the obtained joint feature vector was used to train the random forest classifier, so as to realize the camouflage speech detection. In the experiment, the performances of several spoofing detection systems constructed by other feature parameters and the support vector machine classifier model were compared, and the results show that the proposed speech spoofing detection system combined with the joint feature and the random forest model has the best performance.
spoofing speech detection, acoustic feature, texture feature, uniform local binary pattern, random forest
: The National Natural Science Foundation of China (No.61201301, No.61772166, No.61901154)
TP391.42
A
10.11959/j.issn.1000?0801.2022089
2022?01?02;
2022?05?15
國(guó)家自然科學(xué)基金資助項(xiàng)目(No.61201301,No.61772166,No.61901154)
于佳祺(1997?),男,杭州電子科技大學(xué)通信工程學(xué)院碩士生,主要研究方向?yàn)檎Z(yǔ)音偽裝檢測(cè)、特征提取與分析。
簡(jiǎn)志華(1978?),男,博士,杭州電子科技大學(xué)通信工程學(xué)院副教授、碩士生導(dǎo)師,主要研究方向?yàn)檎Z(yǔ)音轉(zhuǎn)換、偽裝語(yǔ)音檢測(cè)、聲紋識(shí)別等。
徐嘉(1998?),女,杭州電子科技大學(xué)通信工程學(xué)院碩士生,主要研究方向?yàn)檎Z(yǔ)音偽裝及檢測(cè)。
游林(1966?),男,博士,杭州電子科技大學(xué)網(wǎng)絡(luò)空間安全學(xué)院教授、碩士生導(dǎo)師,主要研究方向?yàn)樯镄畔⑻幚?、信息安全、密碼學(xué)等。
汪云路(1980?),女,博士,杭州電子科技大學(xué)網(wǎng)絡(luò)空間安全學(xué)院講師,主要研究方向?yàn)橐纛l信息處理、信息隱藏。
吳超(1988?),男,博士,杭州電子科技大學(xué)通信工程學(xué)院講師,主要研究方向?yàn)閷?dǎo)航信號(hào)處理及欺騙干擾檢測(cè)。