• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      Toeplitz含噪語(yǔ)音端點(diǎn)魯棒檢測(cè)

      2013-08-30 10:00:18王景芳寧礦鳳
      關(guān)鍵詞:信息量端點(diǎn)特征值

      王景芳,寧礦鳳

      WANG Jingfang1,NING Kuangfeng2

      1.湖南涉外經(jīng)濟(jì)學(xué)院 電氣工程系,長(zhǎng)沙 410205

      2.湖南涉外經(jīng)濟(jì)學(xué)院 計(jì)算機(jī)科學(xué)系,長(zhǎng)沙 410205

      1.Electric Engineering Department,Hunan International Economics University,Changsha 410205,China

      2.Computer Science Department,Hunan International Economics University,Changsha 410205,China

      1 引言

      語(yǔ)音作為語(yǔ)言的聲學(xué)表現(xiàn),是聽覺器官對(duì)外界聲音傳播介質(zhì)機(jī)械振動(dòng)的感知,是人類信息傳遞和情感交流的重要載體。目前,語(yǔ)音處理技術(shù)要求語(yǔ)音輸入在安靜的環(huán)境下進(jìn)行,當(dāng)周圍環(huán)境有噪聲(如工廠、機(jī)場(chǎng)等)時(shí),系統(tǒng)性能會(huì)急劇下降。然而,語(yǔ)音通信過程不可避免地受到來自周圍環(huán)境、傳播介質(zhì)等噪聲的影響。語(yǔ)音端點(diǎn)檢測(cè)是數(shù)字語(yǔ)音處理的重要環(huán)節(jié)[1-5],其目的是從采樣得到的數(shù)字信號(hào)中檢測(cè)出語(yǔ)音信號(hào)段和噪聲信號(hào)段。將采集的語(yǔ)音信號(hào)分為純?cè)肼暥魏蛶г胝Z(yǔ)音段,判斷各語(yǔ)音片段的起止點(diǎn),是語(yǔ)音增強(qiáng)算法和語(yǔ)音編碼的重要組成部分之一。在語(yǔ)音識(shí)別過程中,正確確定語(yǔ)音段的起止端點(diǎn),可減少計(jì)算量和語(yǔ)音識(shí)別誤判率。

      短時(shí)能量是語(yǔ)音端點(diǎn)檢測(cè)算法中最常用的特征[6],它在高信噪比環(huán)境中可以有效地分出語(yǔ)音和噪聲,但是大量的實(shí)驗(yàn)結(jié)果顯示,基于短時(shí)能量的方法在低信噪比和非平穩(wěn)噪聲環(huán)境中,其性能明顯下降。當(dāng)然,部分算法在低信噪比環(huán)境中可以保持穩(wěn)定的性能[7]。其缺點(diǎn)是計(jì)算復(fù)雜度太大,不適合實(shí)時(shí)語(yǔ)音識(shí)別系統(tǒng)的應(yīng)用。Shen[8]最早提出將信息熵用于語(yǔ)音/噪聲分類,人的發(fā)音和噪聲的差異可以從它們的頻譜熵表現(xiàn)出來?;谡Z(yǔ)音頻譜熵的算法在低信噪比環(huán)境下勝過基于能量的方法。在白噪聲效果較好,但在有色噪聲還是難以奏效。

      在語(yǔ)音增強(qiáng)方面利用過信號(hào)子空間[9-12];本文針對(duì)在低信噪比、非平穩(wěn)噪聲條件下難以實(shí)現(xiàn)語(yǔ)音端點(diǎn)檢測(cè),提出了一種基于Toeplitz最大特征值的去噪語(yǔ)音端點(diǎn)檢測(cè)方法。該方法用相語(yǔ)帶頻譜自相關(guān)序列構(gòu)造一個(gè)對(duì)稱Toeplitz矩陣,利用該矩陣最大特征值的信息量對(duì)語(yǔ)音信號(hào)進(jìn)行雙門限端點(diǎn)檢測(cè)。該算法大大提高了算法的檢測(cè)精度與有效性,能在多種噪聲環(huán)境和低信噪比條件中都能保持較好的檢測(cè)性能。

      2 構(gòu)造Toeplitz信息矩陣

      語(yǔ)音信號(hào)從整體來看其特性及表征其本質(zhì)特征的參數(shù)均是隨時(shí)間而變化的,是一個(gè)典型的非平穩(wěn)過程,但在一個(gè)短時(shí)間段內(nèi)(10~30 ms),其特性相對(duì)保持穩(wěn)定,因而可以看做是一個(gè)準(zhǔn)平穩(wěn)過程,即語(yǔ)音信號(hào)的短時(shí)平穩(wěn)性。目前絕大多數(shù)的語(yǔ)音信號(hào)處理技術(shù)均是在“短時(shí)”的基礎(chǔ)上,將語(yǔ)音信號(hào)分為許多段來逐段分析其特征參數(shù),其中每一段稱為一“幀”,分段的過程稱為“分幀”處理,通過對(duì)語(yǔ)音信號(hào)加窗函數(shù)來實(shí)現(xiàn),幀長(zhǎng)一般取10~30 ms。分幀可以連續(xù)分段,但一般是通過一個(gè)滑動(dòng)窗口進(jìn)行交疊式分段,這樣使幀與幀之間平滑過渡,保持了信號(hào)的連續(xù)性。在窗函數(shù)的選取上,為了能夠得到高的頻率分辨率并克服Gibbs現(xiàn)象,選取漢寧(Hanning)窗交疊式分段。

      對(duì)帶噪語(yǔ)音信號(hào)x(n)進(jìn)行分幀,幀長(zhǎng)FrameLen,幀移StepLen(StepLen<FrameLen),總幀數(shù)Num,若第k幀的信號(hào)經(jīng)過快速傅里葉變換(FFT)得到它在譜上的NFFT個(gè)點(diǎn)YF(i,k)(0≤i≤NFFT),因語(yǔ)音頻譜范圍(200 Hz~4 kHz),找其對(duì)應(yīng)的點(diǎn)區(qū)間 [Nd,Ng]點(diǎn) (0≤Nd<Ng≤NFFT),記 L=Ng-Nd+1,LM=L/2為Toeplitz矩陣大??;Xk(i)=YF(i+Ng-1,k)(1≤i≤L)。

      第k幀語(yǔ)帶頻譜自相關(guān)序列R(m):

      構(gòu)造LM維實(shí)對(duì)稱Toeplitz矩陣A:

      這樣Toeplitz矩陣階數(shù)不高,求特征值速度快。

      3 語(yǔ)音端點(diǎn)檢測(cè)實(shí)現(xiàn)過程

      3.1 求最大特征值迭代法原理分析

      冪法是求方陣的最大特征值及對(duì)應(yīng)特征向量的一種迭代法。設(shè) An有n個(gè)線性相關(guān)的特征向量v1,v2,…,vn,對(duì)應(yīng)的特征值 λ1,λ2,…,λn,滿足:

      3.1.1 基本思想

      因?yàn)閧v1,v2,…,vn}為 Cn的一組基,所以任給 x(0)≠0 ,

      若 a1≠0,則知,當(dāng) k充分大時(shí) A(k)x(0)≈λk1a1v1=c v1屬λ1的特征向量。

      另一方面,記max(x)=xi,其中|xi|=||x||∞,則當(dāng) k充分大時(shí):

      若a1=0,則因舍入誤差的影響,會(huì)有某次迭代向量在v1方向上的分量不為0,迭代下去可求得λ1及對(duì)應(yīng)特征向量的近似值。

      3.1.2 規(guī)范化

      在 實(shí) 際 計(jì) 算 中 ,若 |λ1|> 1 則 |λk1a1|→ ∞ ,若 |λ1|< 1 則

      注:若A的特征值不滿足條件式(3),冪法收斂性的分析較復(fù)雜,但若 λ1=λ2= … =λr且 |λ1|>|λr+1|≥ … ≥|λn|則定理結(jié)論仍成立。此時(shí)不同初始向量的迭代向量序列一般趨向于l1的不同特征向量。

      3.2 Toeplitz矩陣A最大特征值求解算法

      求解一個(gè)最大特征值,在這里用冪法,這樣避免求特征值中出現(xiàn)矩陣分解或求逆矩陣計(jì)算。其實(shí)現(xiàn)步驟:

      (1)賦初值:LM維列向量 y=[1,1,…,1]H,H為轉(zhuǎn)置;LM維列向量 y0=[0,0,…,0]H;循環(huán)判決條件eps=0.000 1(一個(gè)較小數(shù)),d=1。

      (2)矩陣計(jì)算:z=A y。

      (3)歸一化:

      其中 ||z||∞=max{|z(i)|,i=1,2,…,LM}。

      (4)計(jì)算:d=max{|y(i)-y0(i)|,i=1,2,…,LM},保留上一次的 y,y0=y。

      (5)循環(huán)判決:如果 d>eps轉(zhuǎn)第(2)步,否則轉(zhuǎn)第(6)步。

      (6)計(jì)算最大特征值:

      (7)保留第k幀最大特征值信息量:

      3.3 雙門限語(yǔ)音端點(diǎn)判別

      為了防止各幀最大特征值信息量Tzv出現(xiàn)鋸齒形波動(dòng),將Tzv相鄰3幀平均濾波。雙門限語(yǔ)音端點(diǎn)判別:

      步驟1認(rèn)定初始的N0幀為噪聲幀,對(duì)Tzv(l)(0<l≤N0)求均值A(chǔ)vg與標(biāo)準(zhǔn)方差Std。定義雙門限語(yǔ)音幀閾值TS和噪聲幀閾值TN分別為:

      步驟2計(jì)算下一幀語(yǔ)音信號(hào)最大特征值信息量Tzv(l)。當(dāng)前一幀為噪聲幀,則和閾值TS比較,小于TS則判定為噪聲幀,大于TS則為語(yǔ)音幀。當(dāng)前一幀為語(yǔ)音幀,則和閾值TN比較,小于TN則為噪聲幀,大于TN則為語(yǔ)音幀。循環(huán)步驟2至信號(hào)采樣結(jié)束。

      α、β 可選取在(0,4)之間,不同噪聲選取不同值;語(yǔ)音段至少有一定的延續(xù)段,比如持續(xù)0.2 s;若檢測(cè)到語(yǔ)音段小于它,則稱為“語(yǔ)音碎片”(在非高斯噪聲[如:工廠噪聲(factory)、嘈雜噪聲(babble)]下常見),最后對(duì)孤立“語(yǔ)音碎片”剔除或?qū)ο噜彙罢Z(yǔ)音碎片”整合。

      4 實(shí)驗(yàn)評(píng)估

      圖1 原語(yǔ)音與混合不同噪聲(SNR=5 dB)的端點(diǎn)檢測(cè)對(duì)比

      背景噪聲選自Noisex-92數(shù)據(jù)庫(kù)[13],它的采樣頻率 fs=19.98 kHz。以同樣的采樣頻率 fs,在計(jì)算機(jī)噪聲與室內(nèi)噪音環(huán)境錄下“語(yǔ)、音、端、點(diǎn)”音見圖1(a),門框折線為本文方法端點(diǎn)檢測(cè)結(jié)果。在語(yǔ)音分幀過程中,每幀取25 ms,即幀長(zhǎng) FrameLen=[0.025 fs]點(diǎn),幀移[FrameLan/4],確定每幀的快速傅里葉變換(FFT)長(zhǎng)度取它等于幀長(zhǎng)FrameLen,截取開始噪聲幀N0=20。

      將原語(yǔ)音、原語(yǔ)音與噪聲Noisex-92庫(kù)中的噪聲——白噪聲(white)、粉色噪聲(pink)、戰(zhàn)機(jī)噪聲(f16_cockpit)、人嘈雜噪聲(babble)用本文Toeplitz矩陣最大特征值法進(jìn)行端點(diǎn)檢測(cè),在信噪比SNR=5 dB、0 dB、-5 dB時(shí),用本文算法與信號(hào)遞歸度分析法[14]對(duì)比檢測(cè)結(jié)果分別列圖1~3。圖中左部的橫坐標(biāo)為時(shí)間(s)、縱坐標(biāo)為幅度;中部的橫坐標(biāo)為幀數(shù)、縱坐標(biāo)為Toeplitz矩陣最大特征值信息量(dB);右部的橫坐標(biāo)為幀數(shù)、縱坐標(biāo)為遞歸度(%)。圖1~3的左部為語(yǔ)音、混有不同噪聲的語(yǔ)音及它們的端點(diǎn)檢測(cè),圖中部為本文算法的Toeplitz矩陣最大特征值信息量與端點(diǎn)分割線;本文算法在多種噪聲混合情況下,Toeplitz矩陣最大特征值信息量曲線變化不大,語(yǔ)音端點(diǎn)分割準(zhǔn)確,自適應(yīng)性好。

      在混有噪聲的低信噪比情形下測(cè)試,測(cè)試結(jié)果由3個(gè)指標(biāo)衡量[15]:

      其中,N1和N0分別為測(cè)試語(yǔ)音中手工標(biāo)記語(yǔ)音幀和噪聲幀總個(gè)數(shù),N1,0為手工標(biāo)記語(yǔ)音幀而識(shí)別為噪聲幀的錯(cuò)誤個(gè)數(shù),N0,1為手工標(biāo)記噪聲幀而識(shí)別為語(yǔ)音幀的錯(cuò)誤個(gè)數(shù)。則P(A/S)為語(yǔ)音幀檢測(cè)正確率,P(A/N)為非語(yǔ)音幀檢測(cè)正確率,P(A)為總的檢測(cè)正確率。

      表1給出不同噪聲不同信噪比環(huán)境下的兩種方法實(shí)驗(yàn)結(jié)果的簡(jiǎn)表。

      5 結(jié)束語(yǔ)

      圖2 原語(yǔ)音與混合不同噪聲(SNR=0 dB)的端點(diǎn)檢測(cè)對(duì)比

      圖3 原語(yǔ)音與混合不同噪聲(SNR=-5 dB)的端點(diǎn)檢測(cè)對(duì)比

      表1 語(yǔ)音端點(diǎn)檢測(cè)實(shí)驗(yàn)結(jié)果

      文中從新視覺角度提出了一種基于Toeplitz最大特征值的含噪語(yǔ)音端點(diǎn)魯棒檢測(cè)的新方法,本方法用語(yǔ)帶頻譜范圍(200 Hz~4 kHz)自相關(guān)序列構(gòu)造一個(gè)對(duì)稱Toeplitz矩陣,利用該矩陣最大特征值的信息量對(duì)語(yǔ)音信號(hào)進(jìn)行雙門限端點(diǎn)檢測(cè)。用最大特征值抽提主體信號(hào),更好地抑制了噪聲。在信噪比低于5 dB時(shí),一般的語(yǔ)音端點(diǎn)檢測(cè)方法,如短時(shí)譜估計(jì),顯得幾乎無(wú)能為力;該算法仍實(shí)用,它具有計(jì)算簡(jiǎn)單,抗噪聲能力強(qiáng)的特點(diǎn),并通過實(shí)驗(yàn)表明該方法的正確性,還具有很好的魯棒性;本文算法通用性好,適應(yīng)環(huán)境寬。特別是噪聲混疊在低、高頻段的含噪語(yǔ)音檢測(cè)甚佳,噪聲混疊在語(yǔ)音帶頻段的情形值得進(jìn)一步改進(jìn)。

      [1]Raj B,Singh R.Classifier-based non-linear projection for adaptive endpointing of continuous speech[J].Computer Speech and Language,2003,17:5-26.

      [2]Tanyer S G,Ozer H.Voice activity detection in nonstationary noise[J].IEEE Transactions on Speech and Audio Processing,2000,8(4):478-482.

      [3]Karray L,Martin A.Towards improving speech detection robustness for speech recognition in adverse conditions[J].Speech Communication,2003,40:261-276.

      [4]Kuroiwa S,Naito M,Yamamoto S,et al.Robust speech detection method for telephone speech recognition system[J].Speech Communication,1999,27:135-148.

      [5]Ramirez J,Segura J C,Benitez C,et al.Efficient voice activity detection algorithms using long-term speech information[J].Speech Communication,2004,42:271-287.

      [6]Ramirze J,Segura J C,Benitez C,et al.An efective subband OSF-based VAD with noise reduction for robust speech recognition[J].IEEE Transactions on Speech and Audio Processing,2005,13(6):1119-1129.

      [7]Nemer E,Goubran R,Mahmoud S.Robust voice activity detection using higher-order statistics in the LPC residual domain[J].IEEE Transactions on Speech and Audio Processing,2001,9(3):217-231.

      [8]Shen J,Hung J,Lee L.Robust entropy-based endpoint detection for speech recognition in noisy environments[C]//Proc of International Conference on Spoken Language Processing,Sydney,Australia,1998:232-238.

      [9]Ephraim Y,van Trees H L.A signal subspace approach for speech enhancement[J].IEEE Trans on Speech Audio Processing,1995,3(4):251-266.

      [10]Klein M,Kabal P.Signal subspace speech enhancement with perceptual post filtering[C]//IEEE-ICASSP’02,Orlando,F(xiàn)lorida,USA,2002:537-540.

      [11]Mittal U,Phamdo N.Signal/noise KLT based approach for enhancing speech degraded by colored noise[J].IEEE Trans on Speech Audio Processing,2000,8:159-167.

      [12]Yi H,Loizou P C.A generalized subspace approach for enhancing speech corrupted by colored noise[J].IEEE Trans on Speech and Audio Processing,2003,11(4).

      [13]Spib noise data[EB/OL].[2011-10-20].http://spib.rice.edu/spib/select_noise.html.

      [14]閆潤(rùn)強(qiáng),朱貽盛.基于信號(hào)遞歸度分析的語(yǔ)音端點(diǎn)檢測(cè)方法[J].通信學(xué)報(bào),2007(1):35-39.

      [15]Marzinzik M,Kollmeier B.Speech pause detection for noise spectrum estimation by tracking power envelope dynamics[J].IEEE Trans on Speech and Audio Processing,2002,10:109-118.

      [16]李晉,王景芳,高金定.基于經(jīng)驗(yàn)?zāi)B(tài)分解和遞歸圖的語(yǔ)音端點(diǎn)檢測(cè)算法[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(34):132-135.

      [17]王景芳.實(shí)時(shí)語(yǔ)音端點(diǎn)魯棒檢測(cè)[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(20):147-149.

      猜你喜歡
      信息量端點(diǎn)特征值
      非特征端點(diǎn)條件下PM函數(shù)的迭代根
      一類帶強(qiáng)制位勢(shì)的p-Laplace特征值問題
      單圈圖關(guān)聯(lián)矩陣的特征值
      不等式求解過程中端點(diǎn)的確定
      基于信息理論的交通信息量度量
      參數(shù)型Marcinkiewicz積分算子及其交換子的加權(quán)端點(diǎn)估計(jì)
      如何增加地方電視臺(tái)時(shí)政新聞的信息量
      新聞傳播(2016年11期)2016-07-10 12:04:01
      基丁能雖匹配延拓法LMD端點(diǎn)效應(yīng)處理
      基于商奇異值分解的一類二次特征值反問題
      基于多尺度互信息量的數(shù)字視頻幀篡改檢測(cè)
      轮台县| 班戈县| 镇康县| 惠东县| 岚皋县| 宜城市| 临江市| 西乌| 津南区| 沽源县| 牙克石市| 浦东新区| 新巴尔虎右旗| 神农架林区| 沁源县| 芮城县| 定兴县| 凤山市| 疏勒县| 福海县| 长白| 桃园市| 望奎县| 甘肃省| 鄂伦春自治旗| 汉阴县| 柳河县| 公安县| 全椒县| 府谷县| 疏附县| 蒙山县| 连州市| 临澧县| 湖南省| 丘北县| 瑞丽市| 九台市| 乐业县| 农安县| 沅陵县|