• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于短時(shí)能量過零率和功率譜熵的語(yǔ)音端點(diǎn)檢測(cè)

    2014-11-25 11:00:39葛艷白艷萍胡紅萍
    數(shù)字化用戶 2014年18期
    關(guān)鍵詞:魯棒性

    葛艷  白艷萍  胡紅萍

    【摘 要】隨著語(yǔ)音技術(shù)的發(fā)展,語(yǔ)音識(shí)別技術(shù)應(yīng)用到各個(gè)領(lǐng)域,而端點(diǎn)檢測(cè)是語(yǔ)音識(shí)別系統(tǒng)中至關(guān)重要的一個(gè)環(huán)節(jié),語(yǔ)音端點(diǎn)檢測(cè)的精確度直接影響語(yǔ)音識(shí)別的準(zhǔn)確度.在噪聲環(huán)境下,語(yǔ)音端點(diǎn)檢測(cè)很困難,信噪比下降,本文就基于短時(shí)能量過零率和基于功率譜熵對(duì)所采集的音頻文件進(jìn)行端點(diǎn)檢測(cè),然后對(duì)處理后的音頻進(jìn)行頻譜分析、對(duì)比,得出基于功率譜熵的端點(diǎn)檢測(cè)的魯棒性比較好,識(shí)別效果比較好。

    【關(guān)鍵詞】短時(shí)能量過零率 功率譜熵 端點(diǎn)檢測(cè) 魯棒性

    一、引言

    語(yǔ)音端點(diǎn)檢測(cè)是指從含噪語(yǔ)音中找到語(yǔ)音段的起始點(diǎn),端點(diǎn)檢測(cè)對(duì)孤立詞識(shí)別非常關(guān)鍵,語(yǔ)音識(shí)別一半以上的錯(cuò)誤是由錯(cuò)誤的端點(diǎn)檢測(cè)導(dǎo)致的.準(zhǔn)確的端點(diǎn)檢測(cè)還可以降低后續(xù)處理時(shí)間和存儲(chǔ)空間,使語(yǔ)音識(shí)別系統(tǒng)性能達(dá)到最佳.

    目前,基于能量的方法是目前語(yǔ)音端點(diǎn)檢測(cè)廣泛使用的方法,它在高信噪比條件下效果很好,但是當(dāng)信噪比很低時(shí),純粹的能量參數(shù)效果不再令人滿意。本文就基于短時(shí)能量過零率和基于功率譜熵對(duì)所采集的音頻文件進(jìn)行端點(diǎn)檢測(cè),分析對(duì)比證實(shí)了基于功率譜熵對(duì)語(yǔ)音識(shí)別有比較好的識(shí)別性。

    二、理論概述

    (一)基于短時(shí)能量和過零率的端點(diǎn)檢測(cè)

    1、短時(shí)能量

    由于語(yǔ)音信號(hào)的短時(shí)性,因此對(duì)數(shù)字化后的語(yǔ)音信號(hào)一般進(jìn)行分幀處理,并認(rèn)為1幀內(nèi)信號(hào)的頻譜特征和某些物理特征參量近似看做不變。1幀內(nèi)的信號(hào)能量稱為短時(shí)能量。

    語(yǔ)音和噪聲的區(qū)別可以體現(xiàn)在它們的能量上,語(yǔ)音段的能量比噪聲段能量大,語(yǔ)音段的能量是噪聲段能量疊加語(yǔ)音聲波能量的和。在信噪比很高時(shí),那么只要計(jì)算輸入信號(hào)的短時(shí)能量或短時(shí)平均幅度就能夠把語(yǔ)音段和噪聲背景區(qū)分開。

    設(shè)第n幀語(yǔ)音信號(hào)的短時(shí)能量用En表示,則信號(hào)的短時(shí)能量定義為: 式中,N為信號(hào)幀長(zhǎng)。

    2、過零率

    短時(shí)過零表示一幀語(yǔ)音信號(hào)波形穿過橫軸(零電平)的次數(shù)。過零分析是語(yǔ)音時(shí)域分析中最簡(jiǎn)單的一種。對(duì)于連續(xù)語(yǔ)音信號(hào),過零意味著時(shí)域波形通過時(shí)間軸;而對(duì)于離散信號(hào),如果相鄰的取樣值的改變符號(hào)稱為過零。過零率就是樣本改變符號(hào)次數(shù)。

    定義信號(hào)的短時(shí)平均過零率Zn為:

    式中,為符號(hào)函數(shù),即:

    3、過零率的修正

    為盡可能減少低頻的干擾,在實(shí)際應(yīng)用中往往對(duì)過零率做出簡(jiǎn)單的修正,修正的方法是對(duì)上面的定義做一些修改,即設(shè)定一個(gè)門限T,將過零率的定義修改為穿越該門限的次數(shù)。

    于是,有定義:

    (二)基于熵函數(shù)的語(yǔ)音端點(diǎn)檢測(cè)

    ShenJ L 首先將熵的概念引入到語(yǔ)音信號(hào)處理中,利用幅度譜熵在語(yǔ)音段與非語(yǔ)音段上頻譜的差異達(dá)到檢測(cè)語(yǔ)音端點(diǎn)的目的。在信息論中,用熵來表征信源輸出的平均信息量,假設(shè)信源發(fā)出有限個(gè)符號(hào) ,它們組成的輸出序列前后符號(hào)之間相互統(tǒng)計(jì)獨(dú)立, 分別為 n個(gè)符號(hào)出現(xiàn)的概率,其定義式如下:

    信源熵是概率分布的函數(shù),而且概率分布越平坦熵值就越大。熵函數(shù)語(yǔ)音端點(diǎn)檢測(cè)就是通過檢測(cè)語(yǔ)音頻譜的平坦程度來實(shí)現(xiàn)的。對(duì)于非語(yǔ)音段,其能量比較平穩(wěn)的分布在各個(gè)頻率,因而其頻譜熵比較大。而對(duì)于語(yǔ)音段,聲音的能量主要集中在某幾個(gè)頻段上,因而其頻譜熵比較小。于是可以根據(jù)語(yǔ)音段和非語(yǔ)音段在譜熵上的差異來實(shí)現(xiàn)語(yǔ)音端點(diǎn)的檢測(cè)本文中采用功率譜熵的方法,功率譜熵函數(shù)的構(gòu)造構(gòu)成如下:

    首先對(duì)語(yǔ)音進(jìn)行分幀加漢明窗,幀成為256,幀移128,對(duì)每幀語(yǔ)音信號(hào)計(jì)算其短時(shí)自相關(guān)序列,對(duì)得到的序列進(jìn)行傅里葉變換即可得到功率譜密度。各頻率分量的歸一化功率譜密度函數(shù)可表示為:

    式中表示信號(hào)經(jīng)過FFT變換后的頻譜分量:表示某個(gè)頻率分量i所對(duì)應(yīng)的概率密度函數(shù);N表示FFT變換的長(zhǎng)度(本文取256點(diǎn))??紤]到語(yǔ)音信號(hào)類似于功率信號(hào),同時(shí)根據(jù)功率譜密度的對(duì)稱性,只取FFT一半的點(diǎn)來構(gòu)造以減少計(jì)算量。所以實(shí)際運(yùn)用中采用下式來計(jì)算歸一化功率譜密度函數(shù)

    對(duì)應(yīng)的每一幀語(yǔ)音信號(hào)的信息熵定義為

    H=

    由以上功率譜熵函數(shù)的構(gòu)造過程可以看到熵的大小由功率譜的方差來決定而不是信號(hào)的幅度,幅度的大小不會(huì)影響歸一化功率譜密度函數(shù),語(yǔ)音信號(hào)的譜熵特征分析都是通過檢測(cè)譜的平坦程度,從而達(dá)到語(yǔ)音端點(diǎn)檢測(cè)的目的。對(duì)于無聲段,它的能量在各頻率的分布比較平穩(wěn),反映到信息量上,認(rèn)為其所含的平均信息量即譜熵較大;而對(duì)于語(yǔ)音段,它的能量集中于某幾個(gè)頻段,起伏突變大,那么它所含的平均信息量即譜熵較小,于是可以利用兩者譜熵的差異,進(jìn)行語(yǔ)音段和無聲段的劃分。并且理論上,如果譜的分布保持不變,信號(hào)幅值的大小不會(huì)影響.。因而,功率譜熵對(duì)噪聲有一定的穩(wěn)健性。

    三、MATLAB對(duì)采集到的音頻進(jìn)行端點(diǎn)檢測(cè)實(shí)驗(yàn)

    在本論文所采集的音頻信號(hào)中,撥號(hào)音相當(dāng)于語(yǔ)音段(有聲段),其他的為靜音段(噪聲段),撥號(hào)音段平均能量最高,靜音段平均能量相對(duì)較低,整個(gè)端點(diǎn)檢測(cè)可分為四段:靜音段、過渡段、撥號(hào)段、結(jié)束。使用一個(gè)變量表示當(dāng)前狀態(tài)。靜音段,如果能量或過零率超過低門限,就開始標(biāo)記起始點(diǎn),進(jìn)入過渡段。過渡段當(dāng)兩個(gè)參數(shù)值都回落到低門限以下,就將當(dāng)前狀態(tài)恢復(fù)到靜音狀態(tài)。而如果過渡段中兩個(gè)參數(shù)中的任一個(gè)超過高門限,即被認(rèn)為進(jìn)入撥號(hào)段。處于撥號(hào)段時(shí),如果兩參數(shù)降低到門限以下,而且總的計(jì)時(shí)長(zhǎng)度小于最短時(shí)間門限,則認(rèn)為是一段噪音,繼續(xù)掃描以后的撥號(hào)音數(shù)據(jù),直至標(biāo)記結(jié)束點(diǎn)。從而達(dá)到分離出單個(gè)撥號(hào)音的效果。

    低噪音音頻875417基于短時(shí)能量過零率端點(diǎn)檢測(cè) 低噪音音頻875417基于功率譜熵的端點(diǎn)檢測(cè)。

    四、總結(jié)

    本文分別利用短時(shí)能量過零率和功率譜熵對(duì)銀行卡密碼,手機(jī)號(hào),銀行卡號(hào)所采集的音頻數(shù)據(jù)進(jìn)行端點(diǎn)檢測(cè)實(shí)驗(yàn),此實(shí)驗(yàn)是在適當(dāng)?shù)驮胍粝虏杉?,結(jié)果顯示功率譜熵的檢測(cè)效果會(huì)好點(diǎn),而且魯棒性比較好,但如果噪聲再高點(diǎn),功率譜熵的結(jié)果也不好,故本文有待于進(jìn)一步研究。

    參考文獻(xiàn):

    [1]Dean J,Krusienski.Nvestigations Into Using Matlab For Acoustical Adaptive Filtering[J]. REU PENN STATE Annual Research, 2003, 1: 45-53.

    [2]陳亞勇.MATLAB 信號(hào)處理詳解[M]. 北京:人民郵電出版社,2000.

    [3]程佩青.數(shù)字信號(hào)處理.第三版[M]. 北京:清華大學(xué)出版社,2008.

    [4]Navarro-Mesa, J.An improved speech endpoint detection system in noisy environments by means of third-order spectra[J]. IEEE Signal Processing Letters, 1999, 6(9): 224-226.

    基金項(xiàng)目:

    國(guó)家自然基金(61275120)

    作者簡(jiǎn)介:

    葛艷(1987—),女,山西呂梁,碩士,研究生,研究方向:語(yǔ)音端點(diǎn)檢測(cè)。

    猜你喜歡
    魯棒性
    考慮恒功率負(fù)載的直流微電網(wǎng)穩(wěn)定性與魯棒性控制策略
    武漢軌道交通重點(diǎn)車站識(shí)別及網(wǎng)絡(luò)魯棒性研究
    荒漠綠洲區(qū)潛在生態(tài)網(wǎng)絡(luò)增邊優(yōu)化魯棒性分析
    基于確定性指標(biāo)的弦支結(jié)構(gòu)魯棒性評(píng)價(jià)
    基于時(shí)差效用的雙目標(biāo)資源約束型魯棒性項(xiàng)目調(diào)度優(yōu)化
    一種基于三維小波變換的魯棒視頻水印方案
    一種基于奇異值分解的魯棒水印算法
    基于非支配解集的多模式裝備項(xiàng)目群調(diào)度魯棒性優(yōu)化
    基于遺傳算法的數(shù)字水印嵌入位置的優(yōu)化算法
    西南交通大學(xué)學(xué)報(bào)(2016年6期)2016-05-04 04:13:11
    大关县| 卢龙县| 高要市| 西青区| 合作市| 黔南| 称多县| 溆浦县| 孙吴县| 张掖市| 平定县| 遂昌县| 巢湖市| 九台市| 石首市| 奉节县| 鲁山县| 肃宁县| 道真| 万全县| 博乐市| 凭祥市| 彭州市| 巍山| 乾安县| 无棣县| 保定市| 大埔县| 樟树市| 二连浩特市| 新宾| 陆川县| 正宁县| 麦盖提县| 永福县| 景洪市| 托克逊县| 如皋市| 永春县| 军事| 轮台县|