王正創(chuàng)
摘要:在聲紋識(shí)別系統(tǒng)中,由于特征參數(shù)MFCC不能實(shí)現(xiàn)高效的識(shí)別,提出了將MFCC和共振峰相結(jié)合的提取方法。并在此基礎(chǔ)上引用了一階差分[Δ]MFCC和二階差分[ΔΔ]MFCC,進(jìn)而將MFCC、[Δ]MFCC、[ΔΔ]MFCC和共振峰有機(jī)結(jié)合起來(lái)進(jìn)行聲紋識(shí)別實(shí)驗(yàn),說(shuō)話人模型采用的是高斯混合模型。實(shí)驗(yàn)結(jié)果表明提取混合特征參數(shù)MFCC、[Δ]MFCC、[ΔΔ]MFCC與共振峰進(jìn)行聲紋識(shí)別時(shí),識(shí)別率大大提高。
關(guān)鍵詞:MFCC;共振峰;GMM
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)04-0188-03
A Voiceprint Recognition Algorithm Based on MFCC and Formants
WANG Zheng-chuang
(College of Mechanical and Electronic Engineering, Chaohu University, Chaohu 238000,China)
Abstract: Because MFCC cant achieve efficient voiceprint recognition, a feature extraction method by combining MFCC and Formants is proposed. And on the basis cited the [Δ]MFCC and [ΔΔ]MFCC, then MFCC, [Δ]MFCC, [ΔΔ]MFCC and Formants are combined to conduct the voiceprint recognition experiment, the speaker models use the Gaussian Mixture Modeling. The experiment results show that the extraction of mixture parameters MFCC, [Δ]MFCC, [ΔΔ]MFCC and Formants for the voiceprint recognition, the recognition rate improves greatly.
Key words: MFCC; formants; GMM
1 概述
由于聲紋和指紋、人臉、DNA一樣,是一個(gè)人內(nèi)在的、唯一的特征,通過(guò)提取聲紋中的特征來(lái)進(jìn)行身份鑒別技術(shù)不斷地發(fā)展起來(lái)。目前已廣泛應(yīng)用到銀行證券、刑偵反恐、國(guó)防安全等各個(gè)領(lǐng)域,并發(fā)揮著越來(lái)越大的作用。
聲紋識(shí)別中最關(guān)鍵的問(wèn)題之一就是提取有效的特征參數(shù),有效的特征參數(shù)可以提高識(shí)別率,目前常見(jiàn)的特征參數(shù)有基音周期、線性預(yù)測(cè)系數(shù)(LPC)、線譜對(duì)參數(shù)(LSP)、線性預(yù)測(cè)倒譜系數(shù)(LPCC)、梅爾頻率倒譜系數(shù)(MFCC)。本文主要介紹MFCC和共振峰的提取算法,并利用高斯混合模型進(jìn)行聲紋識(shí)別實(shí)驗(yàn),進(jìn)而表明MFCC參數(shù)與共振峰結(jié)合優(yōu)于單獨(dú)的特征參數(shù)。
2 Mel頻率倒譜系數(shù)
MFCC 是根據(jù)人的聽(tīng)覺(jué)感知機(jī)理提出的能反映人的聲音特征的參數(shù),因此它沒(méi)有任何前提假設(shè),且具有良好的識(shí)別能力和抗噪聲能力。由于人耳所聽(tīng)到的聲音的高低與聲音的頻率并不成正比關(guān)系,而用Mel頻率尺寸則更符合人耳的聽(tīng)覺(jué)特性。Mel頻率與實(shí)際頻率的具體關(guān)系可用公式(1)表示:
[Mel(f)=2595lg(1+f/700)] (1)
圖1是MFCC參數(shù)的提取框圖:
圖1 MFCC的提取過(guò)程
MFCC 參數(shù)提取過(guò)程如下:
1)原始語(yǔ)音信號(hào)在經(jīng)過(guò)采樣量化后需經(jīng)過(guò)預(yù)加重處理以提高信號(hào)的高頻部分的幅度,進(jìn)而增加語(yǔ)音的高頻分辨率,一般通過(guò)預(yù)加重?cái)?shù)字濾波器對(duì)其加以濾波,該濾波器的傳遞函數(shù)為:
[H(Z)=1-αZ-1] (2)
其中,[α]為預(yù)加重系數(shù)且0.9<[α]<1.0,這里取[α]=0.97。
2)根據(jù)語(yǔ)音信號(hào)短時(shí)平穩(wěn)的特性,通過(guò)分幀操作提取語(yǔ)音短時(shí)特性便于建模,通常取幀長(zhǎng)30ms,此時(shí)幀移10ms。為了平滑信號(hào)以減少每幀信號(hào)兩端的預(yù)檢測(cè)誤差,一般采用加窗的方法。本文采用加漢明窗,如下:
[W(n)=0.54-0.46cos(2πnN-1)] [(0≤n≤N-1)] (3)
3)端點(diǎn)檢測(cè)是聲紋識(shí)別中的一個(gè)重要環(huán)節(jié),有效的端點(diǎn)檢測(cè)方法不僅可以減少數(shù)據(jù)的存儲(chǔ)量和處理時(shí)間,而且可以排除無(wú)聲段的噪聲干擾使聲紋識(shí)別更為準(zhǔn)確。
4)原始語(yǔ)音信號(hào)s(n)經(jīng)過(guò)采樣、量化、預(yù)加重、分幀、加窗、端點(diǎn)檢測(cè)等處理,得到每個(gè)語(yǔ)音幀的時(shí)域信號(hào)x(n)。將時(shí)域信號(hào)x(n)后補(bǔ)若干0以形成長(zhǎng)為N(一般取N=512)的序列,然后經(jīng)過(guò)離散傅里葉變換(DFT)后得到線性頻譜X(k),變換公式為
[X(k)=n=0N-1x(n)e-j2πnk/N,0≤n,k≤N-1] (4)
5)將得到的線性頻譜X(k)通過(guò)Mel頻率濾波器組得到Mel頻譜,Mel頻率濾波器組為在語(yǔ)音的頻譜范圍內(nèi)設(shè)置的若干個(gè)具有三角濾波特性的帶通濾波器,其設(shè)計(jì)如下:
[Hp(k)=0 (k
其中,[0≤p
6)所得到的Mel頻譜通過(guò)對(duì)數(shù)能量的處理,得到對(duì)數(shù)頻譜S(p),總傳遞函數(shù)為:
[S(p)=lnk=0N-1X(k)2Hp(k),0≤p
7)將得到的對(duì)數(shù)頻譜S(p)經(jīng)過(guò)離散余弦變換(DCT)到倒譜域,即可得到MFCC參數(shù)c(n):
[c(n)=p=1P-1S(p)cosπn(p+1/2)P,0≤p
在實(shí)際的聲紋識(shí)別應(yīng)用中,并不是取全部維數(shù)的MFCC系數(shù),一般最前若干維以及最后若干維的MFCC系數(shù)對(duì)語(yǔ)音的區(qū)分性能較大,在這取前12維的MFCC系數(shù)。圖2為從一段語(yǔ)音信號(hào)中提取的特征參數(shù)MFCC、[Δ]MFCC、[ΔΔ]MFCC。從圖中可以看出,12維以后的一階MFCC系數(shù)和二階MFCC系數(shù)的幅度值基本上為0,對(duì)語(yǔ)音的區(qū)分性能影響不大。
圖2 特征參數(shù)MFCC、[Δ]MFCC、[ΔΔ]MFCC
3 共振峰
當(dāng)聲音進(jìn)入聲道后,其頻譜必定會(huì)受到聲道的共振特性的影響,聲道具有一組共振頻率,稱(chēng)為共振峰頻率或共振峰。聲道的頻譜特性反映出共振峰的不同位置和各個(gè)峰的頻帶寬度,共振峰及其帶寬取決于聲道的形狀和尺寸,所以不同的語(yǔ)音信號(hào)對(duì)應(yīng)于一組不同的共振峰參數(shù)。
圖3是共振峰參數(shù)的提取框圖:
圖3 共振峰參數(shù)的提取過(guò)程
語(yǔ)音信號(hào)進(jìn)過(guò)分幀、加窗 、快速傅里葉變換(FFT),將得到語(yǔ)音信號(hào)的短時(shí)譜,短時(shí)譜取對(duì)數(shù)后再進(jìn)行快速傅里葉逆變換(IFFT),將得到語(yǔ)音的倒譜。倒譜將基音諧波和聲道的頻譜包絡(luò)分離出來(lái),倒譜的低時(shí)部分可以分析聲道、聲門(mén)和輻射信息,而高頻部分可以分析激勵(lì)源信息。因此對(duì)倒譜進(jìn)行低時(shí)窗選,通過(guò)語(yǔ)音倒譜分析系統(tǒng)的最后一級(jí),進(jìn)行FFT后的輸出即為平滑后的對(duì)數(shù)模函數(shù),此時(shí)平滑的對(duì)數(shù)譜顯示了特定輸入語(yǔ)音信號(hào)的諧振結(jié)構(gòu),即譜的峰值基本上對(duì)應(yīng)于共振峰頻率,對(duì)平滑過(guò)的對(duì)數(shù)譜中的峰值進(jìn)行定位,即得到共振峰。如圖4,從一段語(yǔ)音信號(hào)中提取的共振峰參數(shù)。
圖4 共振峰參數(shù)
4 實(shí)驗(yàn)結(jié)果及分析
本實(shí)驗(yàn)所使用的語(yǔ)音庫(kù)是在實(shí)驗(yàn)室環(huán)境下,采用8KHz的采樣頻率,單聲道,16位的采樣精度進(jìn)行語(yǔ)音信號(hào)錄制的。該語(yǔ)音庫(kù)共有10個(gè)說(shuō)話人,其中每個(gè)說(shuō)話人的10個(gè)語(yǔ)音段用于訓(xùn)練樣本集,訓(xùn)練的時(shí)間分別為10s、20s、30s,7個(gè)語(yǔ)音段用于測(cè)試樣本集,測(cè)試的時(shí)間為10s。實(shí)驗(yàn)時(shí)分別提取每個(gè)說(shuō)話人的特征參數(shù)MFCC、[MFCC+ΔMFCC]、Formants、[MFCC+ΔMFCC+ΔΔMFCC+Formants]。說(shuō)話人的模型使用GMM混合模型,高斯模型混合數(shù)為16。表1是提取不同特征參數(shù)識(shí)別結(jié)果的比較。
表1 不同特征參數(shù)的識(shí)別率(%)
從實(shí)驗(yàn)結(jié)果可以得出,特征混合參數(shù)[MFCC+ΔMFCC+ΔΔMFCC+Formants]的識(shí)別率最高,優(yōu)于單獨(dú)的特征參數(shù)MFCC和共振峰,并且隨著訓(xùn)練時(shí)間的增加,不同特征參數(shù)的識(shí)別率都有所提高,但是識(shí)別率增長(zhǎng)到一定程度后就很難增長(zhǎng)。此外,在訓(xùn)練過(guò)程中,盡量保證錄音的質(zhì)量,盡量少含有噪音和雜音,這樣識(shí)別率會(huì)更高。
5 結(jié)論
本文主要介紹了特征參數(shù)MFCC和共振峰的提取方法,并將一階差分[Δ]MFCC、二階差分[ΔΔ]MFCC有機(jī)結(jié)合起來(lái)進(jìn)行聲紋識(shí)別。實(shí)驗(yàn)結(jié)果顯示特征混合參數(shù)[MFCC+ΔMFCC+ΔΔMFCC+Formants]的識(shí)別率明顯提高了很多,并且訓(xùn)練時(shí)間增長(zhǎng),識(shí)別率就越高,進(jìn)一步提高了聲紋識(shí)別系統(tǒng)的性能。不足的是特征混合參數(shù)的計(jì)算量大,但是計(jì)算機(jī)的處理速度不斷加快,解決計(jì)算量不是問(wèn)題,在訓(xùn)練語(yǔ)音中容易受噪音的干擾,所以特征參數(shù)的魯棒性將是以后研究的一個(gè)方向。
參考文獻(xiàn):
[1] Yang Yang, Wu Ren, Zhang Hui. The research of voiceprint recognition based on genetic optimized RBF neural networks . 2012 IEEE International Conference on Computer Science and Automation Engineering (CSAE). Washington, United States: IEEE Computer Society,2012.704-708.
[2] Tomi Kinnunen, Haizhou Li. An overview of text-independent speaker recognition: From features to supervectors. Speech Communication,2010,52(1):12-40.
[3] Ahmed Mezghani, Douglas OShaughnessy. Speaker Verification Using a New Representation Based on a Combination of MFCC and Formants[C]. Canadian Conference on Electrical and Computer Engineering. United States: Institute of Electrical and Electronics Engineers Inc.,2005.1461 -1464.
[4] Zhao Yanping, Zhao Xiaohui, Wang Bo. A speech enhancement method employing sparse representation of power spectral density [J]. Journal of Information and Computational Science,2013,10(6):1705-1714.
[5] 胡政權(quán). 說(shuō)話人識(shí)別中語(yǔ)音參數(shù)提取方法的研究[D].南京:南京師范大學(xué),2013.
[6] 張震,王化清. 語(yǔ)音信號(hào)特征提取中Mel倒譜系MFCC的改進(jìn)算法[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(22):54-56.
[7] 宮朝輝,刁麓弘. 改進(jìn)共振峰提取的語(yǔ)音端點(diǎn)檢測(cè)[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2013,25(8):1230-1236.
[8] 裴鑫. 聲紋識(shí)別系統(tǒng)關(guān)鍵技術(shù)研究[D]. 哈爾濱:哈爾濱理工大學(xué),2014.