侯玉寶,王景芳
湖南涉外經(jīng)濟(jì)學(xué)院信息科學(xué)與工程學(xué)院,長沙 410205
拉普拉斯混合分布語音模型研究
侯玉寶,王景芳
湖南涉外經(jīng)濟(jì)學(xué)院信息科學(xué)與工程學(xué)院,長沙 410205
語音信號處理[1-2]以語音為研究對象,涉及心理學(xué)、生理學(xué)、語言學(xué)、人工智能和模式識別等多項(xiàng)研究領(lǐng)域,甚至還涉及到說話時(shí)的表情、手勢等人的體態(tài)語言信息。由于語音是人們在日常生活中的主要交流手段,因此語音信號處理在現(xiàn)代信息社會中占有重要地位。近年來,隨著語音信號處理技術(shù)的日益成熟,出現(xiàn)了新的基于語音識別的應(yīng)用方向,如語音撥號、呼叫中心、移動(dòng)設(shè)備中的嵌入式命令控制、發(fā)音學(xué)習(xí)以及基于關(guān)鍵詞檢出的口語會話系統(tǒng)等。隨著語音信號處理技術(shù)在實(shí)際生活中的應(yīng)用在不斷發(fā)展,語音信號處理技術(shù)已經(jīng)被廣泛地接受和使用。由于語音比其他形式的交互方式具有更多的優(yōu)勢,因此這項(xiàng)技術(shù)已經(jīng)越來越貼近人們的生活。目前,語音信號處理技術(shù)處于蓬勃發(fā)展時(shí)期,不斷有新的產(chǎn)品被研制開發(fā),市場需求逐漸增加,具有良好的應(yīng)用前景。
語音研究離不開其分布模型[3-9],以往大多假設(shè)在正態(tài)分布基礎(chǔ)上;中心極限定理從理論上闡述了產(chǎn)生正態(tài)分布的條件,中心極限定理簡單直觀的闡述是:如果決定某一隨機(jī)變量結(jié)果的是大量微小的、獨(dú)立的隨機(jī)因素之和,并且每一隨機(jī)因素的單獨(dú)作用相對均勻得小,沒有一種因素可起到壓倒一切的主導(dǎo)作用,那么這個(gè)隨機(jī)變量一般近似服從于正態(tài)分布。正態(tài)分布廣泛存在于自然現(xiàn)象、社會現(xiàn)象、科學(xué)技術(shù)以及生產(chǎn)活動(dòng)中,在實(shí)際中遇到的許多隨機(jī)現(xiàn)象都服從或者近似服從正態(tài)分布。但事實(shí)上語音是具有重尾特性的非平穩(wěn)過程。Laplace分布具有峰度為6的重尾特性,本文研究Laplace分布語音模型與混合Laplace分布語音模型,并將兩者語音模型進(jìn)行對比分析。
2.1 重尾與峰度
相對于正態(tài)分布而言,以四階中心矩為基礎(chǔ)。四階中心矩具有峰度(kurtosis)的含義,峰度是統(tǒng)計(jì)中描述分布狀態(tài)的一個(gè)重要特征值,用以判斷概率密度函數(shù)曲線相比于正態(tài)分布的尖平程度。如果將正態(tài)分布視為常峰態(tài),密度函數(shù)曲線的形狀比正態(tài)分布更高更瘦的稱為高峰態(tài),否則稱為低峰態(tài)。正態(tài)分布的峰度為3。Laplace分布的峰度為6。正態(tài)云分布峰度在3~9之間[10]。
圖1 正態(tài)云分布仿真結(jié)果
定義[7]隨機(jī)變量X稱為是重尾[11]的,如果峰度:
其中μ,σ分別為X的期望和標(biāo)準(zhǔn)差。
2.2 模型參數(shù)估計(jì)
2.3 實(shí)例驗(yàn)證與分析
取AURORA語音庫[12]純凈語音“The birch canoe slid on the smooth planks.”文件sp01.wav,背景噪聲選自Noisex-92數(shù)據(jù)庫[13]。用純語音、含babble噪聲信噪比SNR=5、0 dB語音的正態(tài)云分布仿真結(jié)果如圖1。圖上RMS為平均誤差,直方圖等分區(qū)間200個(gè)。
Laplace分布隨機(jī)變量X的峰度為:K(X)=6,單個(gè)Laplace分布應(yīng)用范圍受限制。有必要研究混合Laplace模型使其適用于超重尾信號,如一般的純語音峰度大都大于9。
3.1 EM算法原理
EM算法是Dempster,Laind,Rubin[14-15]于1977年提出的求參數(shù)極大似然估計(jì)的一種方法,它可以從非完整數(shù)據(jù)集中對參數(shù)進(jìn)行MLE估計(jì),是一種非常簡單實(shí)用的學(xué)習(xí)算法。這種方法可以廣泛地應(yīng)用于處理缺損數(shù)據(jù),截尾數(shù)據(jù),帶有噪聲等所謂的不完全數(shù)據(jù)(incomplete data)。
假定集合Z=(X,Y)由觀測數(shù)據(jù)X和未觀測數(shù)據(jù)Y組成,Z=(X,Y)和X分別稱為不完整數(shù)據(jù)和完整數(shù)據(jù)。假設(shè)Z的聯(lián)合概率密度被參數(shù)化地定義為P(X,Y|Θ),其中Θ表示要被估計(jì)的參數(shù)。Θ的最大似然估計(jì)是求不完整數(shù)據(jù)的對數(shù)似然函數(shù)L(X;Θ)的最大值而得到的:
EM算法包括兩個(gè)步驟:由E步和M步組成,它是通過迭代地最大化完整數(shù)據(jù)的對數(shù)似然函數(shù)Lc(X;Θ)的期望來最大化不完整數(shù)據(jù)的對數(shù)似然函數(shù),其中:
假設(shè)在算法第t次迭代后Θ獲得的估計(jì)記為Θ(t),則在(t+1)次迭代時(shí),
E-步為計(jì)算完整數(shù)據(jù)的對數(shù)似然函數(shù)的期望,記為:
M-步為通過最大化Q(Θ|Θ(t))來獲得新的Θ。
通過交替使用這兩個(gè)步驟,EM算法逐步改進(jìn)模型的參數(shù),使參數(shù)和訓(xùn)練樣本的似然概率逐漸增大,最后終止于一個(gè)極大點(diǎn)。直觀地理解EM算法,它也可被看作為一個(gè)逐次逼近算法:事先并不知道模型的參數(shù),可以隨機(jī)選擇一套參數(shù)或者事先粗略地給定某個(gè)初始參數(shù)λ0,確定出對應(yīng)于這組參數(shù)的最可能的狀態(tài),計(jì)算每個(gè)訓(xùn)練樣本的可能結(jié)果的概率,在當(dāng)前的狀態(tài)下再由樣本對參數(shù)修正,重新估計(jì)參數(shù)λ,并在新的參數(shù)下重新確定模型的狀態(tài),這樣,通過多次的迭代,循環(huán)直至某個(gè)收斂條件滿足為止,就可以使得模型的參數(shù)逐漸逼近真實(shí)參數(shù)。
EM算法的主要目的是提供一個(gè)簡單的迭代算法計(jì)算后驗(yàn)密度函數(shù),它的最大優(yōu)點(diǎn)是簡單和穩(wěn)定。
3.2 混合Laplace模型設(shè)計(jì)與實(shí)現(xiàn)
(1)數(shù)量性狀表型值的有限混合Laplace分布
假定數(shù)量性狀在某分離的表型值X為一隨機(jī)變量,其概率密度為:
(2)有限混合正態(tài)分布參數(shù)的極大似然估計(jì)(MLE)
圖2 EM仿真結(jié)果
(4)極大似然估計(jì)EM算法中成分分布數(shù)k的確定
EM迭代由確定k開始并完成,對于一個(gè)確定的k,EM迭代除了給出所估計(jì)的參數(shù)外,還給出相應(yīng)的對數(shù)似然函數(shù)值l?k)。
1977年,Akaike根據(jù)最大熵原理得出了極大似然函數(shù)與熵之間的關(guān)系。根據(jù)這個(gè)關(guān)系,有限混合正態(tài)分布參數(shù)的極大似然估計(jì)中,確定k的最佳方案應(yīng)使AIC準(zhǔn)則最小。
3.3 實(shí)例仿真
混合模型參與個(gè)數(shù)k=2,取上述純語音、含babble噪聲信噪比SNR=5,0 dB的語音。EM仿真結(jié)果見圖2。
純語音、含babble噪聲信噪比SNR=5,0 dB語音的混合Laplace分布模型的平均誤差RMS分別為5.38、0.45、0.59,它們的混合Laplace分布模型的平均誤差RMS分別為1.96、0.44、0.46,效率分別提升了63.57%、2.22%、22.03%。
本文研究了Laplace分布模型與Laplace混合分布模型,做了理論分析與實(shí)驗(yàn)仿真。Laplace混合分布模型階數(shù)的選定值可用AIC、BIC準(zhǔn)則確定,也可選密度函數(shù)的加權(quán)系數(shù)確定,先把階數(shù)給得稍大點(diǎn),若其最小的系數(shù)小于5%以下除去這項(xiàng),這樣就把參數(shù)估計(jì)與確定模型階數(shù)一并進(jìn)行。為了提高參數(shù)估計(jì)的軟件速度也可采用類似有限混合正態(tài)分布[8]估計(jì)方法,每步先估計(jì)各分密度的均值與方差,再依Laplace分布參數(shù)與它們之間的關(guān)系求出。本文提出了語音Laplace混合分布建模新思路,這些研究為語音增強(qiáng)、語音編碼、語音識別等提供了新的理論基礎(chǔ)。
[1]韓紀(jì)慶.語音信號處理[M].北京:清華大學(xué)出版社,2010.
[2]趙力.語音信號處理[M].北京:機(jī)械工業(yè)出版社,2009.
[3]周彬,鄒霞,張雄偉.基于多元Laplace語音模型的語音增強(qiáng)算法[J].電子與信息學(xué)報(bào),2012,43(7):1568-1573.
[4]鄒霞,吳其前,張雄偉.一種基于Laplacian語音模型的語音增強(qiáng)算法[J].信號處理,2007,23(2):195-199.
[5]Zou Xia,Zhang Xiongwei.Speech enhancement using an mmse short time dct coefficients estimator with supergaussian speech modeling[J].Journal of Electronics,2007,24(3):332-337.
[6]應(yīng)娜,趙曉暉,董婧,等.一種諧波正弦語音模型的最佳相位估計(jì)算法[J].電子學(xué)報(bào),2009,37(4):860-863.
[7]孫艷,于鳳芹.小波多分辨率的諧波正弦語音建模[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(17):151-153.
[8]粱巖,鮑長春,夏丙寅,等.基于高斯混合模型的壓縮域語音增強(qiáng)方法[J].電子學(xué)報(bào),2012,40(10):2031-2038.
[9]劉明輝,黃中偉.結(jié)合高斯混合模型和VOT特征的音素發(fā)音錯(cuò)誤檢測[J].科學(xué)技術(shù)與工程,2013(7):1789-1793.
[10]李德毅,劉常昱,淦文燕.正態(tài)云模型的重尾性質(zhì)證明[J].中國工程科學(xué),2011,13(4):20-23.
[11]陳琳,劉維奇.重尾分布族及其關(guān)系圖[J].高校應(yīng)用數(shù)學(xué)學(xué)報(bào),2009,24(2):166-174.
[12]Spib noise data[EB/OL].[2013-08-05].http://spib.rice.edu/ spib/select_noise.html.
[13]Speech&noise data[EB/OL].[2013-08-05].http://www. utdallas.edu/~loizou/speech/noizeus/.
[14]Dempster A P,Laird N M,Rubin D B.Maximum likelihood from incomplete data via the EM algorithm[J]. Journal of the Royal Statistical Society,Series B(Methodological),1977,39(1):1-38.
[15]譚鮮明.有限正態(tài)混合模型的參數(shù)估計(jì)與應(yīng)用[D].天津:南開大學(xué),2005.
HOU Yubao,WANG Jingfang
College of Information Science and Engineering,Hunan International Economics University,Changsha 410205,China
For overweight tail characteristics of the speech signal,this paper proposes a mixed-laplace distribution acoustic model.Laplace mixture distribution model parameter estimation is discussed theoretically,and which can be achieved from the principles and algorithms.The maximum expected(Expectation Maximization,EM)algorithm has been applied to obtaining good results.The hybrid Laplace model has been creatively used to study speech signal processing.
mixture Laplace model;speech signal;Expectation Maximization(EM);kurtosis;heavy-tailed distribution
針對具有超重尾特性的語音信號,提出了混合拉普拉斯分布語音模型。從理論上探討了混合拉普拉斯分布模型的參數(shù)估計(jì),從原理與算法得以實(shí)現(xiàn)。通過最大期望(Expectation Maximization,EM)算法取得了良好效果。創(chuàng)新運(yùn)用混合拉普拉斯模型研究語音信號處理。
混合Laplace模型;語音信號;最大期望算法;峰度;重尾分布
A
TPl82
10.3778/j.issn.1002-8331.1310-0328
HOU Yubao,WANG Jingfang.Mixture Laplace distribution speech model research.Computer Engineering and Applications,2014,50(18):202-205.
侯玉寶(1982—),男,講師,主要研究方向:信號處理。E-mail:matlab_wjf@126.com
2013-10-25
2013-12-15
1002-8331(2014)18-0202-04
CNKI網(wǎng)絡(luò)優(yōu)先出版:2014-01-26,http://www.cnki.net/kcms/doi/10.3778/j.issn.1002-8331.1310-0328.html