伊·達瓦,吾守爾·斯拉木,匂坂 芳典
(1. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830014;2. 新疆多語種技術(shù)重點實驗室,新疆 烏魯木齊 830014;3. 早稻田大學(xué) 大學(xué)院國際情報通信研究科, 日本,東京,169-0051)
據(jù)科學(xué)家分析、人類說話的聲音能夠表現(xiàn)出一個人的生理、情緒、感情、健康程度、受教育狀況、居住以及所處的社會環(huán)境等許多關(guān)聯(lián)的物理現(xiàn)象,跟一個人的遺傳因子(DNA)有密切關(guān)系且千差萬別。為此在科學(xué)上常常用聲音的聲學(xué)參數(shù)來標記、觀察、辨別一個人的生理特征以及身份。這種技術(shù)稱為聲紋技術(shù),目前,尤其是公共安全領(lǐng)域應(yīng)用很廣泛[1-3]。
語音是信息最重要的載體,隨著手機、互聯(lián)網(wǎng)等方便好用的通訊產(chǎn)業(yè)的高速發(fā)展,利用電話—互聯(lián)網(wǎng)等通訊手段的犯罪時有發(fā)生,且有逐年上升的趨勢。比方說電話詐騙,通過電話、網(wǎng)絡(luò)終端的非法交易,利用電話的政治煽動事件等直接危害人民群眾的正常生活工作甚至威脅著國家和地區(qū)的安定。因此語音技術(shù)在國家、地區(qū)及公共安全領(lǐng)域有著重大的應(yīng)用價值。
說話人識別技術(shù)與語音識別技術(shù)不同。在語音識別中重點關(guān)注語音內(nèi)容(說的什么話)以及人聽覺等提取相關(guān)信息的特征參數(shù)。常用MFCC參數(shù),而說話人識別中應(yīng)重點考慮說話人本身特征,即表現(xiàn)聲道和音調(diào)相關(guān)的特征參數(shù),不必考慮說什么內(nèi)容的話或者什么詞句,說哪種語言等內(nèi)容信息。
為實現(xiàn)說話人的自動判別或者識別分類,技術(shù)上在語音信號流中提取聲學(xué)參數(shù)生成發(fā)話人的數(shù)理模型。常用方法有矢量量化VQ (Vector Quantization);ANN (Acoustic Network Neural);HMM (Hideen Markov Model);GMM (Gaussian Mixture Model) 技術(shù)及它們的混合技術(shù)等。
SRS技術(shù),近年來一直是在計算機通信領(lǐng)域的熱門研究課題之一。目前說話人自動識別系統(tǒng)(SRS)主要依據(jù)于語音中所包含的說話人特定的聲學(xué)特征來自動辨認—識別一個人的身份??梢詫崿F(xiàn)生物人證、語音識別及合成技術(shù)。在國內(nèi)外,安全要害部門的出入注冊、偵聽嫌疑人通話、出入境管理及敏感內(nèi)容的監(jiān)控等方面已得到了廣泛地應(yīng)用,而且需求也很大。
原先,由于基于HMM的方法對含噪音的語音信號處理有較強的魯棒性,為此常也在說話人識別中引用。比如,在文獻[4-7]中通過連續(xù)語音 CHMM (Continuous CHMM) 的方法實現(xiàn)了較好的說話人識別系統(tǒng)。但是,基于HMM的方法對上下文無關(guān)時間序列的建模能力有限,需要事先自動轉(zhuǎn)寫語音流內(nèi)容。
另外,上述各方法均利用聲道頻譜的倒譜系數(shù)LPC (Linear Prediction Coding), Mel-倒譜及LPC-倒譜參數(shù)作為特征量構(gòu)建識別模型。聲道頻譜含豐富的語言學(xué)成分(如音素等),因此,用這種方法建模對于語音識別(語音轉(zhuǎn)換為文字)技術(shù)帶來較高的識別性能。尤其是基于GMM的方法對上下文無關(guān)數(shù)據(jù)有較好的聲學(xué)特征分類能力,近來在SRS系統(tǒng)開發(fā)中得到了廣泛的應(yīng)用[8-9]。
基于GMM的SRS系統(tǒng),對于無噪音環(huán)境下收錄的巨量的話音,通過單一信道建模并在閉合集實驗(close test 訓(xùn)練模型數(shù)據(jù)和測試數(shù)據(jù)相同)條件下一般給出較高的實驗結(jié)果??墒?,SRS系統(tǒng)的性能在開放集數(shù)據(jù)(open test 訓(xùn)練和測試數(shù)據(jù)不同)條件下常常會大幅度地下降。這是由于不同環(huán)境下的語音信號流變動大系統(tǒng)難以適應(yīng)而引起的。比如帶噪音的電話線路,發(fā)話周圍噪音,使用話筒特性等將引起語音特征量的變化。因此近來不少研究關(guān)注試圖提取發(fā)話人個人聲道相關(guān)參數(shù)建模的研究[10-11]。另外采取其他一些技術(shù)措施來改善系統(tǒng)性能的研究嘗試也不少,如CMN (Cepstral Mean Normalization 頻倒譜歸一化處理)法等[12]。
為了增強并提高發(fā)話人聲學(xué)特征提取精度和質(zhì)量,本文討論自動切分有聲區(qū)間(voiced part “聲道信號”)語音流提取純LPC倒譜以及LPC倒譜增加基頻(f0, “聲源信號”)參數(shù)建模方案,試圖改善SRS系統(tǒng)的識別性能。
高斯混合分布模型GMM法是目前在說話人識別技術(shù)中常用來建模的有效方法之一?;贕MM準則說話人識別方法GMM模型構(gòu)建原理如圖1所示。
圖1 為說話人GMM模型的表現(xiàn)形式圖
實施識別時的數(shù)理模型可表示為式(1)和(2)。比較HMM法,GMM不依賴于語音的音素(文本)信息,因此,可以利用多種形式的發(fā)話語音流進行建模。
SRS系統(tǒng)的性能受很多外加因素的影響而性能惡化,例如,環(huán)境噪音、受話機傳輸特性、錄音條件及信道中出現(xiàn)說話人自身的生理特征(比如,方言、說話方式、情緒及心理等)以及語種等。圖2表示電話信道特性構(gòu)造。
圖2 電話語音環(huán)境模型
傳輸?shù)绞茉捦驳恼Z音是個包含多種附加噪音的混合信號。比如在圖2中,假設(shè)無雜音語音信號表示為SDi(ω;n),電話線路傳輸特性為H(ω)時,傳輸?shù)绞茉捲捦驳恼Z音信號Oi(ω;n)的表示形式為式(3),即
在式(3)中,ω表示信號傳輸頻率,n為特征量序列號,而i為說話人數(shù)??梢娪捎贖(ω)的客觀存在,會使受話筒信號產(chǎn)生失真。另外考慮到個人聲道特性SDFi(ω;n),發(fā)話環(huán)境雜音Nenv(ω;n)及回線雜音Ncn(ω,n)等因素時,實際傳輸?shù)绞茉捦采系恼Z音信號的數(shù)理模型應(yīng)表現(xiàn)為式(4)的形式。
因此,在設(shè)計建立一個實時的說話人識別系統(tǒng)時,如何從這樣一個復(fù)雜的含噪音的信號中提取原有的語音信號是電話語音識別的最大的問題。也是本研究擬去解決的關(guān)鍵性問題。除此之另外,應(yīng)用系統(tǒng)還要考慮以下的技術(shù)課題。
① 系統(tǒng)需要定期修改訓(xùn)練數(shù)據(jù)-刷新聲紋模型
由于話者的發(fā)音特征隨著季節(jié),本人的情緒以及周圍環(huán)境等因素的改變而隨時變化。這就是聲源的可變性問題。為了適應(yīng)發(fā)音的時差變動,系統(tǒng)需要定期刷新原先的錄音數(shù)據(jù)-使得說話人模型吸收時差變化。
② 父子(兄弟姐妹等家族)聲音難以區(qū)分
目前在聲學(xué)研究中目前沒有一個有效可靠的方法來區(qū)分父子或者兄弟姐妹等家族語音的發(fā)音。在建立面向安全—監(jiān)控管理系統(tǒng)中有必要采取聲學(xué)以外的有效措施對家族發(fā)話語音所對應(yīng)身份的辨認驗證。
SRS系統(tǒng)利用聲譜提取聲學(xué)特征量。尤其是LPC頻譜更好地反映語言學(xué)聲學(xué)特征并有較好的魯棒性,因此常常用來做語音信號的特征參數(shù)抽出。其遞歸計算式為:
其中cn為LPC倒譜系數(shù),αi為通過Levinson Durbin算法獲得的線性預(yù)測系數(shù),而n表示LPC倒譜系數(shù)的大小。本次試驗中對頻譜的每幀抽出16維LPC-倒譜系數(shù)構(gòu)建聲學(xué)特征量。
聲音頻率(在語音聲學(xué)中指聲帶的基頻,常記作為f0),反映一個人說話時的聲帶振動時的聲源特性的本質(zhì)。要增強并提高SRS系統(tǒng)精度有必要考慮與說話人個人聲道特征相關(guān)的聲學(xué)特征參數(shù),即基頻參數(shù)。為此,本研究關(guān)注在語音流的有聲區(qū)間提取頻譜LPC倒譜系數(shù)及基頻參數(shù)并合并的方式增強GMM模型的精度,從而達到提高說話人識別精度的目的。其訓(xùn)練用特征量為式(6)所示。這樣總的聲學(xué)特征參數(shù)維數(shù)增加到17階。即16階LPC倒頻系數(shù)和一維基頻系數(shù)logF0(因為logF0近似于正規(guī)分布)。
一般說話人識別系統(tǒng)由圖3所示三部分技術(shù)環(huán)節(jié)構(gòu)成。首先是聲學(xué)參數(shù)抽出部分,即通過某種方式從一定量的語音數(shù)據(jù)中抽出一定大小和格式的聲學(xué)參數(shù),即特征參數(shù)或者特征量;其次是,說話人分類建模過程,即通過特征量的統(tǒng)計學(xué)習(xí)及自適應(yīng)方法建立各說話人聲學(xué)模型,最后為決定算法部分,用來取出識別結(jié)果。其中特征量為式(6)給出的混合參數(shù),GMM用來創(chuàng)建說話人模型。
圖3 基線提案系統(tǒng)
由于只有語音流中的有聲區(qū)間才有可能反映出說話人的聲學(xué)特征,因此完整地抽出語音流中的有聲區(qū)間是個很重要的技術(shù)問題。如圖4所示,一段發(fā)話中如果含有元音就會出現(xiàn)音高或者基頻(F0),因此我們可以利用基頻曲線通過自相關(guān)線性預(yù)測編碼法自動切分語音流中的有聲區(qū)間。
圖4 基于基頻F0的語音串有聲無聲區(qū)間的切分舉例
本次試實驗訓(xùn)練庫采用項目組自行采集的實際電話信道維吾爾語對話語音庫[13],發(fā)話人數(shù)為50人(男30,女20),16KHz采樣,16bit量化。每人發(fā)話時間長度約為10~60s。測試數(shù)據(jù)為實際電話信道另行采集的數(shù)據(jù)(與文本無關(guān)),格式與訓(xùn)練數(shù)據(jù)相同。
對每個說話人訓(xùn)練1個1 024個分量的GMM,在GMM混合元M=16。GMM采用最大似然(Maximum Likelihood, ML)準則,訓(xùn)練采用K均值法初始化模型,然后用Baum-Welch算法迭代16次。對于每個發(fā)話人每段語音,分別在每個GMM上計算MLLR,然后拼接形成超矢量。
為了便于比較分析,本次實驗用整個語音區(qū)間切分數(shù)據(jù);人工切分有聲區(qū)間數(shù)據(jù);自動切分有聲區(qū)間數(shù)據(jù)以及自動切分有聲區(qū)間數(shù)據(jù)增加基頻logF0等四種數(shù)據(jù)分別在閉集測試和開放集測試上進行。實驗結(jié)果如表1所示。
表1 說話人識別試驗結(jié)果(M=16)
從表1實驗結(jié)果可以看到,僅利用LPC倒頻系數(shù)時比起人工切分整個區(qū)間和人工切分有聲區(qū)間,自動切分有聲區(qū)間時的識別率在閉集及開放集兩種測試情況下降較多(閉集為93.31%,而開放集為76.97%)。但是通過本研究提案方法(LPC倒譜增加基頻參數(shù)logF0并進行自動切分有聲區(qū)間)的識別精度比起LPC倒譜系數(shù)自動切分語音數(shù)據(jù)時有明顯的提高,即閉集測試為99.18%, 改善5.87%, 而開放集為80.29%,改善3.32%。提案方法開放集測試結(jié)果較接近與人工切分結(jié)果。
通過本次實驗我們可以確認利用語音串的有聲區(qū)間數(shù)據(jù)比較利用語音區(qū)間的整個區(qū)間識別精度有明顯提高。這是由于語音信號中的無聲數(shù)據(jù)段會引起GMM的誤匹配。
LPC-倒譜為實驗數(shù)據(jù)再增加聲源相關(guān)的基頻參數(shù)會使開放集說話人識別系統(tǒng)達到較好的識別精度,接近實際使用要求。
今后要進一步研究反映說話人個人聲學(xué)特征相關(guān)參數(shù)的提取方法,以改善系統(tǒng)的開放集應(yīng)用性能。
[1] 白井 克彥. 音聲言語處理的潮流 [M]. 東京: CORONA PUBLISHING CO.LTD, 出版社, 2010.3
[2] A Solomonoff, A. Mielke, and al. Clustering speakers by their voice [C]//Proc. ICASSP. UAS: ICASSP, 1998: 757-760.
[3] 張利鵬,王琳琳,徐明星. 多發(fā)音方式下說話人識別研究 [C]//第十屆全國人機語音通訊學(xué)術(shù)會議暨國際語音語言處理研討會論文集. 北京: 清華大學(xué)出版社, 2009: 22-23.
[4] S..Furui. Speaker dependent feature extraction, recognition and processing techniques [J]. Speech Communication, 1991.10(5-6):505-520.
[5] T.Matsui and S.Furui. Comparison of text independent speaker recognition methods using VQ-distortion and discrete/ continuous HMMs [C]//Proc. ICASSP. California: ICASSP, 1992: 157-160.
[6] D.A. Reynolds. Speaker Identification and verification using Gaussian mixture speaker model [J]. Speech Communication, 1995, 17(1-2): 91-108.
[7] B.Tseng, F.Soong and A. Rosenberg. Continuous probabilistic acoustic map for speaker recognition [C]//Proc. ICASSP. California: ICASSP, 1992: 161-164.
[8] Kenichi YOSHIDA, et, al. Speaker Recognition Using Multi-SNR Subband GMM under Noisy Environments [R]. IEICE Technical Report. DSP2000-97, IEICE, 2000.
[9] Minghui Liu and Zhongwei Huang. Evaluation of GMM- based Features for SVM Speaker Verification [C]//Proc. of the 7thWorld Congress on Intelligent Control and Automation. China: Chongqing, 2008: 5027-5030.
[10] Hirokazu Itahashi, et,al. Explaining A Discriminate Model Construct red By SVM in Text Categorization [C]//Proc. of the 22ndAnnual Conference of the Japanese Society for Artificial Intelligence. Kyushu: ACJSAI, 2008: 1-4.
[11] 李娜,崔連延,李蘭蘭. 一種加權(quán)矢量量化說話人識別技術(shù) [J]. 電腦知識與技術(shù), 2008, (35): 2228-2229.
[12] 王永琦,鄧琛,李世超,等. 噪音環(huán)境中基于GMM漢語說話人識別 [J]. 人工智能, 2005, 25(11-2):177-179.
[13] 吾守爾·斯拉木, 那斯爾江·吐爾遜. 維吾爾語語音語料庫的設(shè)計研究[C]//北京, 國家語言資源與應(yīng)用語言學(xué)高峰論壇, 2007.