• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    車內(nèi)環(huán)境下基于高信噪比頻帶的語音特征提取方法

    2014-04-29 00:00:00吳紫劍

    摘 要:語音識(shí)別技術(shù)在汽車領(lǐng)域有著廣泛的應(yīng)用。但通常車內(nèi)環(huán)境存在著噪音,且車載系統(tǒng)運(yùn)算能力有限。要保證較高識(shí)別率,減少識(shí)別時(shí)的計(jì)算量,需要針對(duì)噪音環(huán)境的特點(diǎn)提取魯棒特征并壓縮語音模板。本文選擇高信噪比的頻帶進(jìn)行語音模板的訓(xùn)練,通過聚類的方法壓縮模板的長度,并用實(shí)驗(yàn)驗(yàn)證了所提出的語音特征魯棒性。

    關(guān)鍵詞:語音識(shí)別;特征提?。荒0逵?xùn)練

    中圖分類號(hào):TN912.34

    語音識(shí)別在汽車領(lǐng)域的應(yīng)用包括撥打電話,調(diào)節(jié)空調(diào),控制音響甚至發(fā)動(dòng)引擎等。出于成本的考慮,汽車通常使用嵌入式系統(tǒng)來實(shí)現(xiàn)這些功能。系統(tǒng)的運(yùn)算資源有限,為了保證在噪聲環(huán)境下也具有良好的識(shí)別率,減少對(duì)系統(tǒng)資源的需求,需要針對(duì)汽車噪聲環(huán)境的特點(diǎn)訓(xùn)練魯棒的語音模板,并壓縮模板長度以降低語音識(shí)別時(shí)的計(jì)算量。

    車內(nèi)環(huán)境充斥著噪音,為保證較高的識(shí)別率,需要分析車內(nèi)噪聲的特點(diǎn)并進(jìn)行語音模板訓(xùn)練。通常采用各種濾波、降噪的手段減少噪音對(duì)識(shí)別系統(tǒng)的影響。近年來,語音頻譜熵被用于語音端點(diǎn)檢測的任務(wù)中,取得了良好的效果[1],表明譜熵是一種能夠良好區(qū)別語音和非語音的特征參數(shù)[2]。當(dāng)駕駛員的語音命令被汽車噪聲污染時(shí),因?yàn)檫@兩種信號(hào)所分布的頻率范圍不同,導(dǎo)致疊加后的信號(hào)在不同頻帶有著不同的信噪比。從這個(gè)角度來看,我們可以把低于某一信噪比的頻帶看成頻域上的非語音段,并在模板訓(xùn)練時(shí)予以排除,用高信噪比的頻帶訓(xùn)練出魯棒的語音模板以提高識(shí)別率。本文用譜熵來進(jìn)行頻帶劃分,然后對(duì)模板進(jìn)行壓縮:在時(shí)域壓縮將導(dǎo)致識(shí)別率的大幅下降[3],而針對(duì)語音幀的壓縮方法可以較好地壓縮模板的長度,并在說話人確認(rèn)的任務(wù)中有了成功的應(yīng)用[3-5]。故本文選擇高信噪比的頻帶進(jìn)行特征提取,用聚類的方法壓縮模板的長度,得到的語音模板可以在保持較高識(shí)別率的同時(shí)減少計(jì)算量,不同信噪比條件下的實(shí)驗(yàn)驗(yàn)證了所提特征在車內(nèi)噪聲環(huán)境中有較高的魯棒性。

    1 車內(nèi)帶噪語音分析

    車內(nèi)環(huán)境中,噪聲主要包括發(fā)動(dòng)機(jī)噪聲、輪胎噪聲、風(fēng)噪等,一般為加性噪聲,且能量集中在低頻段[6]。本文為模擬車內(nèi)環(huán)境下語音信號(hào)的端點(diǎn)檢測,對(duì)實(shí)驗(yàn)室安靜環(huán)境下采集的語音信號(hào)疊加汽車噪聲,采用NOISEX-92噪聲庫中的“Volvo”噪聲。純凈以及帶噪(信噪比為-5dB)的語音信號(hào)的時(shí)域波形如下圖所示:

    圖1 語音信號(hào)時(shí)域波形

    圖2 帶噪語音信號(hào)時(shí)域波形

    由圖2可見當(dāng)信噪比較低時(shí),語音被淹沒于噪聲中。從時(shí)域上來看,帶噪語音信號(hào)的波形失真嚴(yán)重,我們很難區(qū)分出語音段與噪聲段。進(jìn)一步分析車內(nèi)噪聲環(huán)境下的語音信號(hào),我們觀察帶噪語音信號(hào)的語譜圖,采用漢明窗長128,窗移32,如圖3所示:

    圖3 帶噪信號(hào)語譜圖

    從語譜圖中可以看到,待分析的語音信號(hào)頻率分布在整個(gè)低頻到高頻的范圍內(nèi),相對(duì)的,噪聲主要存在于小于300Hz的低頻范圍中,并且?guī)缀跬耆匮谏w了語音的低頻成分,使我們無法分辨出語音在低頻的變化趨勢(shì)。所以在進(jìn)行語音模板訓(xùn)練時(shí),應(yīng)當(dāng)排除低頻段的頻帶數(shù)據(jù),用高信噪比的頻帶計(jì)算語音特征。

    2 語音特征提取

    語音特征提取的過程包括預(yù)加重,分幀,計(jì)算倒譜系數(shù)幾個(gè)過程。在計(jì)算倒譜系數(shù)之前,為了找到高信噪比的頻帶,我們利用譜熵特征來確定劃分頻帶的閾值。

    2.1 預(yù)加重。為了保證頻譜平坦并消除聲門激勵(lì)和口鼻輻射的影響,使得在整個(gè)頻帶中能使用同樣的信噪比進(jìn)行頻譜分析,將語音信號(hào)通過一個(gè)預(yù)加重?cái)?shù)字濾波器提升高頻[7]。濾波器的輸入x(n)與輸出y(n)滿足下列差分方程:

    y(n)=x(n)-a*x(n-1) (1)

    本文中a的值取0.97。

    2.2 譜熵的計(jì)算。對(duì)頻譜的頻率分量計(jì)算歸一化譜概率密度,如公式2所示:

    (2)

    其中s(fi)為信號(hào)在fi處頻譜幅值,M為FFT變換長度,得到pi為頻率fi在整個(gè)頻率范圍內(nèi)出現(xiàn)的概率。利用上式的結(jié)果便可計(jì)算出此信號(hào)的譜熵En:

    (3)

    2.3 高信噪比頻帶的劃分。本文通過人工選取閾值的方法把頻帶劃分成高、低信噪比兩個(gè)部分,再用譜熵去評(píng)價(jià)閾值劃分的效果。因?yàn)樽V熵是一種能夠良好區(qū)別語音段和非語音段的特征,頻域上分布越分散的信號(hào)的頻率不確定性越高,熵就越高,比如白噪聲;相反的,語音信號(hào)的頻譜則有著相對(duì)比較集中的分布,不確定性較小,熵較低。所以閾值的選擇要使得噪聲段頻譜熵值盡可能大,且使得語音段熵值盡可能小。

    實(shí)驗(yàn)中語音信號(hào)的采樣率為8000Hz,我們將整個(gè)頻率范圍分成兩部分:低信噪比部分(0-FHz)以及高信噪比部分(F-4000Hz)。通過觀察,我們選擇F=250Hz為汽車噪聲環(huán)境下的閾值點(diǎn)。得到高信噪比部分譜熵特征如圖4所示:

    圖4 高信噪比頻帶譜熵

    容易看出,在高信噪比語音信號(hào)中,純?cè)肼暥巫V熵較高,而帶噪語音部分的譜熵較低甚至接近零,在純?cè)肼暥闻c帶噪語音段的分界處,我們可以看到很陡峭的變化曲線。這表明閾值F選取250Hz時(shí),頻域上噪聲的不確定性與語音的規(guī)律性可以被充分區(qū)別開來。

    2.4 計(jì)算特征序列。語音信號(hào)被表示成幀序列后,計(jì)算每幀信號(hào)特征參數(shù)[8]。本文利用幀信號(hào)中的高信噪比頻帶去計(jì)算梅爾頻率倒譜系數(shù)(Mel-frequency cepstrum coefficients,MFCC),語音幀序列被轉(zhuǎn)換成特征序列。一幀的特征參數(shù)MFCC計(jì)算步驟如下:(1)計(jì)算功率譜:對(duì)每幀信號(hào)作N點(diǎn)快速傅立葉變換后將頻域復(fù)序列乘以其共軛,再乘1/N以便估計(jì)出信號(hào)的功率譜P(f)。因系數(shù)1/N是常量,出于減少計(jì)算量的考慮將其省略。(2)將功率譜P(f)通過一組M個(gè)帶通濾波器后計(jì)算出每個(gè)頻帶的能量E(m),m=1,2,…,M。這種濾波器的幅頻響應(yīng)為三角形,稱為Mel頻率尺度濾波器組,其中心頻率在Mel頻率尺度上均勻分布,每個(gè)濾波器的下限和上限取相鄰兩個(gè)濾波器的中心頻率。Mel頻率和實(shí)際頻率間的關(guān)系如下式所示:

    Mel(f)=25951og10(1000+f/700) (4)

    由公式2可看出,Mel濾波器組的中心頻率在實(shí)際頻率上按指數(shù)增長。構(gòu)造濾波器組時(shí),先將信號(hào)的上限頻率對(duì)應(yīng)成Mel頻率,再將此頻率均分為M份,最后將M個(gè)Mel頻率變回實(shí)際頻率,就得到每個(gè)濾波器的中心頻率。(3)對(duì)一幀信號(hào)的能量序列(向量)E(m)取對(duì)數(shù)后再進(jìn)行C點(diǎn)離散余弦變換,舍去i=0時(shí)的系數(shù)后留下長度為C-1的向量便是此信號(hào)的梅爾頻率倒譜系數(shù)。由公式4計(jì)算可知,第四個(gè)Mel頻率濾波器的中心頻率為249.3Hz,正好在閾值250Hz附近,為了排除低信噪比的頻帶,我們舍棄前四個(gè)濾波器得到的能量序列,并對(duì)E(m)余下的值(m=5,6,…,M)進(jìn)行離散余弦變換后得到MFCC,計(jì)算公式如下:

    (5)

    3 模板訓(xùn)練

    在語音模板訓(xùn)練時(shí),為了壓縮模板的長度,本文使用了k均值聚類的方法合并語音中的相似幀。由于所得中心的數(shù)目等于初始中心的數(shù)目,將中心直接用作模板并未縮短語音模板的長度,且丟失了時(shí)序信息,不滿足模板匹配時(shí)動(dòng)態(tài)時(shí)間規(guī)整算法對(duì)時(shí)序的要求。為了解決上述問題,本文利用初始中心的時(shí)序信息為其排序,選出具有代表性的中心作為語音模板,于是壓縮了模板的長度。訓(xùn)練步驟如下:(1)對(duì)于某個(gè)語音的N次貫序輸入MFCC特征向量序列:S(i),i=1,2,…,N.取出最近一次的輸入序列S(Nj),j=1,2,…,J.作為初始聚類中心,其中S(Nj)是一幀語音信號(hào)的特征向量;(2)用k均值聚類算法對(duì)所有特征向量進(jìn)行聚類,得到中心特征向量序列C(kj),j=1,2,…,J;(3)找出S(N)各幀特征向量分別歸屬的中心C(k),并用中心替換之,得到新的特征向量序列Sc(Nj),j=1,2,…,J,因?yàn)槊總€(gè)聚類中心都代表了一組相似的特征向量,顯然這個(gè)新序列的特征向量集合是中心集合C(k)的一個(gè)子集;(4)把新特征序列Sc(N)中連續(xù)的相同幀縮減為一幀的特征向量,就得到壓縮語音模板Sc(Nt),t=1,2,…,T.且有T

    4 實(shí)驗(yàn)結(jié)果分析

    實(shí)驗(yàn)使用了四位測試人的語音數(shù)據(jù),分別用舊語音特征(含有低信噪比頻帶)和新語音特征(只含高信噪比頻帶)進(jìn)行模板訓(xùn)練,識(shí)別時(shí)用動(dòng)態(tài)時(shí)間規(guī)整算法進(jìn)行模板匹配。模板訓(xùn)練時(shí)每個(gè)語音命令采集10組進(jìn)行訓(xùn)練,模板識(shí)別時(shí)他人語音為21組,本人語音為20組(相同語音10組,不同語音10組)。計(jì)算不同信噪比下的識(shí)別率,如表1所示:

    表1 不同信噪比下新舊特征模板識(shí)別率

    信噪比(dB)舊特征識(shí)別率(%)新特征識(shí)別率(%)

    -570.73100

    -1043.9096.34

    -1541.4667.07

    -2041.4665.85

    比較新舊模板的壓縮率,如表2所示:

    表2 新舊特征模板壓縮率

    舊模板壓縮率(%)新模板壓縮率(%)

    46.6849.11

    從表1中可以看出,隨著信噪比的惡化,新舊特征模板的識(shí)別率都下降,但是高信噪比頻帶提取的語音特征的識(shí)別率遠(yuǎn)高于舊特征的識(shí)別率。舊特征在-15dB和-20dB信噪比條件下識(shí)別率一樣,這可能是由于測試語音數(shù)目不夠多造成的。從表2可以看出,新舊模板長度都被壓縮,新模板的壓縮率稍高,這是因?yàn)樾履0暹x取了高信噪比部分的頻帶,這個(gè)頻帶的范圍小于整個(gè)頻率范圍,訓(xùn)練時(shí)Mel頻率尺度濾波器組的輸出因此減少,聚類時(shí)有更多相似的幀被合并。

    5 結(jié)束語

    本文針對(duì)車內(nèi)噪音的頻率分布特點(diǎn),通過譜熵特征來劃分高低信噪比的頻帶并進(jìn)行特征提取,保證了在低信噪比的條件下系統(tǒng)仍然有良好的識(shí)別率。用聚類的方法壓縮模板的長度,減少了模板匹配的計(jì)算量。由于實(shí)驗(yàn)測試人數(shù)不多,為更精確反映不同信噪比條件下的識(shí)別率變化,接下來的研究還要提取更多測試人的語音數(shù)據(jù)。鑒于高低信噪比頻帶的劃分并非自動(dòng)進(jìn)行,閾值的自動(dòng)獲取是進(jìn)一步實(shí)驗(yàn)所要考慮的問題。

    參考文獻(xiàn):

    [1]Asgari M,Sayadian A,F(xiàn)arhadloo M,et al.Voice activity detection using entropy in spectrum domain[C]//Telecommunication Networks and Applications Conference,2008.ATNAC

    2008.Australasian.IEEE,2008:407-410.

    [2]Vlaj D,Ka?i? Z,Kos M.Voice activity detection algorithm using nonlinear spectral weights,hangover and hangbefore criteria[J].Computers Electrical Engineering,2012.

    [3]Luan J,Hao J,Kakino T,et al.Template compression and distance normalization for reliable text-dependent speaker verification[C]//Speaker and Language Recognition Workshop,2006.IEEE Odyssey 2006:The.IEEE,2006:1-4.

    [4]Kaczmarek A,Staworko M. Application of dynamic time warping and cepstrograms to text-dependent speaker verification[C]//Signal Processing Algorithms,Architectures,Arrangements,and Applications Conference Proceedings(SPA),2009.IEEE,2009:169-174.

    [5]Staworko M,awski M.FPGA implementation of feature extraction algorithm for speaker verification[C]//Mixed Design of Integrated Circuits and Systems (MIXDES),2010 Proceedings of the 17th International Conference.IEEE,2010:557-561.

    [6]韋曉東,胡光銳.汽車噪聲中自動(dòng)語音的識(shí)別技術(shù)[J].上海交通大學(xué)學(xué)報(bào),1998(10):10-13.

    [7]趙力.語音信號(hào)處理(第2版)[M].北京:機(jī)械工業(yè)出版社,2009.

    [8]林瑋,楊莉莉,徐柏齡.基于修正MFCC參數(shù)漢語耳語音的話者識(shí)別[J].南京大學(xué)學(xué)報(bào):自然科學(xué)版,2006(1):54-62.

    作者簡介:吳紫劍(1988-),男,江蘇人,碩士研究生,研究方向:信號(hào)處理。

    作者單位:南京航空航天大學(xué)民航學(xué)院,江蘇南京 210016

    丹江口市| 中阳县| 龙里县| 和林格尔县| 泽州县| 昔阳县| 陆川县| 洞头县| 卢氏县| 四平市| 亚东县| 巴东县| 巫山县| 古交市| 凌云县| 资溪县| 曲靖市| 喀什市| 浦城县| 福安市| 遂平县| 天津市| 枣庄市| 梧州市| 浦北县| 玛纳斯县| 浪卡子县| 宝兴县| 葫芦岛市| 沿河| 和顺县| 应用必备| 含山县| 本溪市| 吉木萨尔县| 丹凤县| 淳安县| 称多县| 麦盖提县| 随州市| 嘉峪关市|