張君昌,胡海濤,崔 力
(西北工業(yè)大學(xué)電子信息學(xué)院,陜西西安 710129)
融合Burg譜估計與信號變化率測度的語音端點檢測
張君昌,胡海濤,崔 力
(西北工業(yè)大學(xué)電子信息學(xué)院,陜西西安 710129)
針對現(xiàn)有基于特征的語音端點檢測方法在低信噪比及非平穩(wěn)噪聲下檢測性能較低的問題,提出了一種融合Burg譜估計與長時段信號變化率測度(LTSV)的語音端點檢測方法.該方法采用表征較長時段語音變化率的LTSV參數(shù),較準(zhǔn)確地反映了語音的非平穩(wěn)程度.與傳統(tǒng)基于特征的語音端點檢測方法相比,該方法在低信噪比及非平穩(wěn)噪聲情況下的檢測性能有了較大提高.并融合Burg譜估計,與傳統(tǒng)Welch譜估計方法相比,提高了LTSV參數(shù)的區(qū)分度,從而進一步提高了檢測的準(zhǔn)確率.仿真結(jié)果表明:采用融合Burg譜估計與LTSV的語音端點檢測方法在低信噪比(-10dB)及非平穩(wěn)噪聲情況下,與傳統(tǒng)基于特征的語音端點檢測方法相比,檢測準(zhǔn)確率普遍提高了約6%以上,說明該方法在低信噪比及非平穩(wěn)噪聲環(huán)境下魯棒性更好.
語音端點檢測;信號變化率測度;Burg譜估計;低信噪比;非平穩(wěn)性
語音端點檢測是語音識別的一個關(guān)鍵技術(shù)問題,其目的是區(qū)分出語音段和非語音段,準(zhǔn)確定位出語音段的起始點和終止點,將語音信號精確地檢測出來.語音端點檢測在語音識別系統(tǒng)中起著重要的作用,準(zhǔn)確的端點檢測不僅能使語音識別系統(tǒng)處理時間減到很小,而且能排除無聲段的噪聲干擾,而不準(zhǔn)確的端點檢測則會引起語音識別系統(tǒng)的性能下降和計算量增加.
目前語音端點檢測方法主要有基于特征[1]的方法和基于模式識別[2]的方法兩大類.其中基于特征的方法以其簡單、快速的優(yōu)點被廣泛地研究和應(yīng)用.現(xiàn)有的各種基于特征的方法均有其局限性,如基于短時平均幅度的端點檢測方法雖然簡單,但難以區(qū)分弱摩擦音與結(jié)尾時的鼻音;基于短時平均過零率的端點檢測方法雖然對清音的檢測效果較好,但其抗噪聲性能較差;基于譜熵的端點檢測方法由于語譜的固有特征能夠有效地區(qū)分語音和噪聲,但對清音部分的檢測效果較差,尤其是實際應(yīng)用中的“毛刺”問題.為了提高端點檢測的準(zhǔn)確率,許多學(xué)者提出了結(jié)合多個特征的語音端點檢測方法,如目前應(yīng)用較廣的基于譜熵、短時過零率與倒譜距離的檢測方法.該算法將譜熵、短時過零率和倒譜距離三種語音特征結(jié)合起來進行端點檢測,試圖克服傳統(tǒng)單一特征抗噪聲性能差的缺點,利用各自特征參數(shù)的優(yōu)點,提高端點檢測的準(zhǔn)確率.但在低信噪比情況下,特別是對非平穩(wěn)噪聲,其檢測性能會迅速變差.
為了克服傳統(tǒng)語音端點檢測算法的缺點,文獻[3]提出了一種新的基于長時段信號變化率測度的語音端點檢測算法,該算法在一個長時語音段(如20幀)測度輸入信號的非平穩(wěn)度變化,利用語音和非語音的不同變化特征,來區(qū)分語音和非語音.該算法較之傳統(tǒng)語音端點檢測算法在低信噪比下對于非平穩(wěn)噪聲的檢測性能更好,適合不同的噪聲類型.然而進一步的分析發(fā)現(xiàn),文獻[3]中的方法采用了經(jīng)典的Welch譜估計算法,其頻率分辨率低,偏差較高,在低信噪比及復(fù)雜噪聲情況下對含噪語音與噪聲信號的誤分類率較高.因此,筆者提出一種融合Burg譜估計算法與長時段信號變化率測度的語音端點檢測方法,有效地降低了含噪語音與噪聲信號的誤分類率,在低信噪比及復(fù)雜噪聲情況下檢測性能更好,魯棒性更強.
1.1 長時段信號變化率測度及其參數(shù)選擇
傳統(tǒng)基于特征[4]的語音端點檢測方法對于在低信噪比及非平穩(wěn)噪聲下語音信號的檢測性能較差,因此Ghosh等人提出了一種基于信號變化率測度的語音端點檢測算法[3],其算法如下:
首先估計信號x(n)在頻點ωk處的功率譜
最后計算輸入m幀信號在不同頻率點ωk處的方差lx(m),
假設(shè)輸入信號是平穩(wěn)噪聲N(n),因為N(n)是平穩(wěn)的,在理想狀態(tài)下噪聲頻譜不隨時間變化.因此,噪聲功率譜sN(n,ωk)對于所有n值都是不變的.假定噪聲譜已知sN(n,ωk)=σk,代入式(2),可得log R.因此,對于任意頻點ωk,其方差lx(m)=0.
如果輸入信號x(n)為含加性平穩(wěn)噪聲語音,即x(n)=S(n)+N(n),假定噪聲與語音信號是不相關(guān)的,因此,輸入信號的功率譜為Sx(n,ωk)=Ss(n,ωk)+σk,其中Ss(n,ωk)為語音信號功率譜.LS+N(m)是在不同頻率值ωk處的方差.如果輸入信號信噪比SNRk?1,則對于任意的頻率值ωk,有
因此,LS+N(m)≈0.另一方面,如果含噪語音信號具有較高的信噪比,語音信號在不同頻率處強度大不相同,即使輸入信號含有加性噪聲,信號強度在不同頻點仍有較大波動.因此,LS+N(m)顯著大于零.
非平穩(wěn)噪聲的頻譜是隨時間變化的.因此,當(dāng)輸入信號是非平穩(wěn)噪聲時,其頻譜是不可知的,lx(m)也不再是零.lx(m)由噪聲信號的類型及其非平穩(wěn)度決定,因此,理論分析變得很困難.然而,通過從TIMIT語料庫選取純凈語音,與噪聲庫NOISEX-92中9種噪聲(坦克噪聲、軍用車輛噪聲、飛機座艙噪聲、高頻信道噪聲、F16座艙噪聲、汽車內(nèi)部噪聲、機關(guān)槍噪聲、Babble噪聲、工廠噪聲)合成3種信噪比(0dB、-5dB、-10dB)的含噪語音樣本進行大量實驗仿真發(fā)現(xiàn),當(dāng)輸入信號是含非平穩(wěn)噪聲語音時,信號頻譜在頻點ωk處sx(n,ωk)由信噪比SNRk決定,含噪語音信號的功率譜變化程度遠(yuǎn)大于噪聲信號的功率譜變化程度,因此,LTSV算法在非平穩(wěn)噪聲情況下同樣具有較好的檢測性能.
通過LTSV算法分析不同噪聲,發(fā)現(xiàn)信噪比越高,lS+N與lN曲線的分離度就越好.為了分析在不同頻點處lS+N與lN的曲線變化,文中采用較高信噪比情況.在4 k Hz以下,含噪語音的信噪比較高,這是因為語音信號本質(zhì)上是一種低通信號,語音識別信息主要在500 Hz~4 k Hz之間.所以在這個區(qū)間選擇,K由抽樣頻率FS及離散傅里葉變換(DFT)點數(shù)nDFT決定,其計算公式為
R與M是計算lx(m)的兩個參數(shù),文中R取值為30,M取值為20.
1.2 譜估計方法選擇
譜估計法是決定lS+N與lN曲線分離度的一個重要因素.經(jīng)典的周期圖法直接利用有限個序列數(shù)據(jù)的傅里葉變換來估計其功率譜,估計方差較大.為此,一種應(yīng)用較廣泛的改進方法就是加權(quán)交疊平均法[5],該方法采取數(shù)據(jù)分段加窗處理,先分別求出每一段的譜估計,然后進行總平均.但是無論是周期圖還是其改進方法,都存在著頻率分辨率低,方差性能不好的問題.其原因是經(jīng)典譜估計利用加窗的方法,用有限個數(shù)據(jù)或其自相關(guān)函數(shù)來估計無限個數(shù)據(jù)的功率譜,造成了經(jīng)典譜估計較差的分辨率.為此,筆者采用現(xiàn)代AR參數(shù)模型[6]譜估計法根據(jù)對過程的先驗知識,建立一個近似實際過程的模型,然后利用觀測數(shù)據(jù)或自相關(guān)函數(shù)來估計假設(shè)的模型參數(shù),最后進行識別或譜估計.因為在這個過程中沒有用到窗函數(shù),所以可以消除掉窗函數(shù)的畸變影響,得到比經(jīng)典譜估計更高的頻率分辨率.對于AR模型,參數(shù)估計性能較好的是Burg算法[7],因此,筆者采用Burg算法進行譜估計.
1.3 融合Burg譜估計與LTSV語音端點檢測判決
融合Burg譜估計算法的長時段信號變化率測度的語音端點檢測方法的系統(tǒng)框圖如圖1所示.
圖1 語音端點檢測系統(tǒng)框圖
輸入信號首先用漢寧窗加窗分幀,幀長為20 ms,幀移為10 ms,采用Burg譜估計法估計輸入信號的功率譜.在第l幀窗口上,lx(l)由當(dāng)前幀及前R-1幀信號計算得到,lx(l)與判決門限相比較,以判決在R幀內(nèi)是否含有語音段.用Dl來判斷,如果Dl=0,則說明結(jié)束于第l幀的前R幀信號是噪聲段;如果Dl=1,則說明是語音段.
語音端點判決如圖2所示,每10 ms幀移間隔判決一次,從第l幀開始采集R+1次判決Dl,Dl+1,…,Dl+R+1,當(dāng)前判決與前一次判決有10 ms幀移間隔.如果這些判決有80%是語音,則認(rèn)為10 ms的幀移是語音信號,否則認(rèn)為是噪聲.
圖2 語音端點檢測系統(tǒng)端點判決
純凈語音采用TIMIT語料庫,隨機選擇TIMIT語料庫中一段男聲語音“Hurdle the pit with the aid of a long pole”.噪聲采自NOISEX-92噪聲庫,分別采用5段不同類型的噪聲(白噪聲、汽車噪聲、坦克噪聲、HF噪聲、機槍噪聲).合成多段不同信噪比(-10dB,-5dB,0dB,5dB,10dB)下的含噪語音進行測試.
圖3 -10dB汽車噪聲下基于兩種譜估計方法的語音端點檢測結(jié)果
在汽車噪聲環(huán)境下,測試語音采樣頻率為16 k Hz,信噪比為-10dB,在matlab平臺基于Welch譜估計與基于Burg譜估計的LTSV方法檢測結(jié)果如圖3所示.
從圖3可以看出,基于Welch譜估計的LTSV方法在0.26 s將語音誤判為噪聲,在1.49 s同樣誤判;而基于Burg譜估計的LTSV方法則無誤判,較Welch譜估計法,檢測準(zhǔn)確率[6]明顯提高.
在汽車噪聲情況下,傳統(tǒng)基于特征的語音端點檢測方法、基于Welch法譜估計的LTSV方法與基于Burg譜估計的LTSV方法在5種不同信噪比下檢測準(zhǔn)確率對比如圖4所示.
傳統(tǒng)基于特征的語音端點檢測方法、基于Welch譜估計的LTSV與融合Burg譜估計的LTSV語音端點檢測方法在低信噪比(-10dB)的5種噪聲環(huán)境下檢測準(zhǔn)確率如表1所示.
圖4 不同端點檢測準(zhǔn)確率方法對比
表1 3種方法在不同噪聲類型下檢測準(zhǔn)確率%_
從圖4與表1中可以看出,在低信噪比(-10dB)下基于特征的語音端點檢測方法已經(jīng)失效,基于Welch譜估計的LTSV方法檢測性能有了較大提高,而基于Burg譜估計的LTSV方法對低信噪比下平穩(wěn)噪聲(白噪聲)與非平穩(wěn)噪聲(汽車噪聲、坦克噪聲等)均有良好的檢測性能,說明基于Burg譜估計的LTSV方法具有較高的頻率分辨率,進一步提高了檢測準(zhǔn)確率,從而驗證了基于Burg譜估計的LTSV方法在低信噪比及復(fù)雜噪聲環(huán)境下進行語音端點檢測的有效性和魯棒性.
同時發(fā)現(xiàn),對于機槍噪聲,3種方法的檢測性能均較差.這是因為機關(guān)槍噪聲包含機關(guān)槍子彈發(fā)射間隔噪聲與子彈發(fā)射噪聲兩種噪聲,兩種噪聲混雜在一起造成信號非平穩(wěn)度的無規(guī)律變化.因此,LTSV方法的檢測性能也變差,這正是基于LTSV語音端點檢測方法的局限性所在.
筆者提出了一種融合Burg譜估計的長時信號變化率測度的語音端點檢測方法.該方法采用Burg譜估計,進一步提高了LTSV參數(shù)的區(qū)分度.大量實驗仿真表明,在低信噪比和非平穩(wěn)噪聲情況下,該方法的檢測準(zhǔn)確率達(dá)到了85%以上,而傳統(tǒng)基于特征的語音端點檢測方法只有約50%,這說明LTSV算法在低信噪比及非平穩(wěn)噪聲下具有更好的魯棒性.值得注意的是,使用長時窗進行信號分析計算量稍大,會造成語音端點判決的延時.因此,在系統(tǒng)檢測延遲與系統(tǒng)檢測性能之間需要一個較好的折中方案,這也是筆者下一步研究的重點.
[1] 胡波,肖熙.檢測語音端點及基音的概率模型及方法[J].清華大學(xué)學(xué)報(自然科學(xué)版),2013,53(6):749-752. Hu Bo,Xiao Xi.Endpoint Detection and Pitch Determination Method Based on a Probability Model[J].Journal of Tsinghua University(Science and Technology),2013,53(6):749-752.
[2] 李遠(yuǎn)征,盧朝陽,李靜.一種基于多特征融合的視頻目標(biāo)跟蹤方法[J].西安電子科技大學(xué)學(xué)報,2012,39(4):624-629. Li Yuanzheng,Lu Chaoyang,Li Jing.A Robust Video Object Tracking Algorithm Based on Multi-feature Fusion[J]. Journal of Xidian University,2012,39(4):624-629.
[3] Ghosh P K,Tsiartas A,Narayanan S.Robust Voice Activity Detection Using Long-Term Signal Variability[J].IEEE Transactions on Audio,Speech and Language Processing,2011,19(3):601-613.
[4] Cheng Gong,Zhang Xiongwei,Li Yaobo,et al.Voice Activity Detection Method Based on Gray Correlation Analysis Algorithm[J].Journal of PLA University of Science and Technology,2012,56(7):1014-1022.
[5] Cho N,Kim E K.Enhanced Voice Activity Detection Using Acoustic Event Detection and Classification[J].IEEE Transactions on Consumer Electronics,2011,57(1):196-202
[6] Chiu Y H B,Raj B,Stern R M.Learning-Based Auditory Encoding for Robust Speech Recognition[J].IEEE Transactions on Audio,Speech and Language Processing,2012,20(3):900-914.
(編輯:李恩科)
Robust voice endpoint detection fusing Burg spectrum estimate and signal variability
ZHANG Junchang,HU Haitao,CUI Li
(School of Electronic Information,Northwestern Polytechnical Univ.,Xi’an 710129,China)
Voice Endpoint Detection is challenging,especially in nonstationary noise and a low signal-tonoise ratio(SNR),so this paper proposes a novel Robust Voice Endpoint Detection method fusing Burg spectrum estimate and long-term signal variability(LTSV).This method uses a novel long-term signal variability measure,by which the degree of nonstationarity in various signals can be indicated.Comparison with the traditional Voice Endpoint Detection method based on signal features,this method’s detection performance has been greatly improved under the condition of a low signal-to-noise ratio and nonstationary noise.Also,Burg spectrum estimate is proposed,which improves the LTSV parameter discrimination degree,thus further improving the detection accuracy.Simulation results show that in comparison with the standard Voice Endpoint Detection method,the new method’s accuracy is generally improved by more than about 6%,which shows that the new method has better robustness in the non-stationary noise and low signal-to-noise ratio environment.
voice endpoint detection;long-term signal variability measure;Burg spectrum estimate;low signal-to-noise ratio;nonstationarity
TN702
A
1001-2400(2014)03-0192-04
10.3969/j.issn.1001-2400.2014.03.029
2013-07-15< class="emphasis_bold">網(wǎng)絡(luò)出版時間:
時間:2013-11-22
陜西省自然科學(xué)基金資助項目(2011JQ8038)
張君昌(1969-),男,副教授,博士,E-mail:zhangjc@nwpu.edu.cn.
http://www.cnki.net/kcms/detail/61.1076.TN.20131122.1628.201403.209_029.html