• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    噪聲環(huán)境下多特征融合的語音端點檢測方法

    2021-08-09 02:58:42羅思洋邵玉斌杜慶治
    關(guān)鍵詞:清音子帶端點

    羅思洋,龍 華,邵玉斌,杜慶治

    (昆明理工大學(xué) 信息工程與自動化學(xué)院,云南 昆明 650500)

    語音信號中的語音段是由清音段和濁音段構(gòu)成的[9],只有同時兼顧語音段中清音與濁音的追蹤能力,并且提升端點檢測方法在不同信噪比和不同噪聲環(huán)境下的魯棒性,才能進一步提升端點檢測方法的性能.結(jié)合上述分析,本文提出了一種多特征融合的語音端點檢測方法.通過研究發(fā)現(xiàn),Gammatone頻率倒譜系數(shù)的第一維系數(shù)GFCC0在噪聲環(huán)境下對語音段中的清音和濁音都有較好的追蹤能力,子帶譜熵特征對語音段中的濁音追蹤能力較好,而結(jié)合MFCC 系數(shù)和Fisher 線性判別的投影特征[10]對語音段中的清音有較好的追蹤能力.因此考慮將GFCC0作為多特征融合的首要特征,結(jié)合子帶譜熵特征和投影特征進一步提升對語音段的追蹤能力,通過自適應(yīng)加權(quán)融合的方法得到用于端點檢測的融合特征.仿真實驗證明,本文方法在-5~5 dB信噪比的white 噪聲和-5~15 dB 信噪比的babble、

    噪聲環(huán)境下的語音端點檢測就是從帶有背景噪聲的語音信號中區(qū)分出語音段和噪聲段,從而提高語音信號的利用率[1].隨著智能語音技術(shù)的發(fā)展,語音端點檢測已經(jīng)廣泛應(yīng)用到了語音識別、語音增強和音頻分類技術(shù)的前端.例如端點檢測可以簡化語音識別過程中的冗余數(shù)據(jù),加快語音識別系統(tǒng)的速度[2].

    在漫長的發(fā)展歷程中出現(xiàn)了上百種語音端點檢測方法,可以將這些方法歸結(jié)為基于模式識別和基于特征的方法[3].基于模式識別的方法主要有Zhang 等[4]提出的結(jié)合深度置信網(wǎng)絡(luò)和10 類語音特征的端點檢測方法,Thomas 等[5]提出的基于卷積神經(jīng)網(wǎng)絡(luò)的端點檢測方法.這類方法使用語音信號的特征構(gòu)建訓(xùn)練數(shù)據(jù),通過大量訓(xùn)練達到區(qū)分語音段和噪聲段的目的,訓(xùn)練過程需要大量數(shù)據(jù),導(dǎo)致計算量較大,難以保證端點檢測的實時性.基于特征的方法主要通過特征的提取和閾值的設(shè)定實現(xiàn)端點檢測,常用的特征包括短時能量、譜熵[6]、子帶譜熵[7]等.但是單一特征對噪聲的魯棒性較差,因此多特征融合的端點檢測方法越來越受到關(guān)注.hfchannel、factory1、m109、pink、volvo噪聲環(huán)境下具有比3 種對比算法更高的端點檢測準確率,特別是在volvo 噪聲環(huán)境下的端點檢測準確率可以達到94.5%以上.

    1 特征參數(shù)提取

    特征提取是語音端點檢測的關(guān)鍵問題.在基于特征的方法中,選擇合理的特征融合構(gòu)造適合端點檢測的新特征,可以彌補單一特征對語音段追蹤能力不足及噪聲環(huán)境下魯棒性較差的問題,有效提升端點檢測的準確率.

    1.1 子帶譜熵特征提取子帶譜熵特征是Wu 等[7]在譜熵特征的基礎(chǔ)上改進得到的,相比于譜熵,子帶譜熵的優(yōu)點在于對每幀信號劃分子帶后減小了噪聲對譜線幅值的影響.語音信號分幀后,對第i幀信號進行快速傅里葉變換得到Xi(k),該幀信號第k條譜線頻率分量fk的能量譜Ei(k) 表示為

    若每幀信號劃分為Nb個子帶,每個子帶包含4 條譜線,那么第x個子帶的能量為

    Jia 等[11]在公式(3)的基礎(chǔ)上引入了一個正常量K,計算得到新的子帶能量概率為

    1.2 MFCC 特征提取MFCC 特征作為語音信號處理最常用的特征之一,已被廣泛應(yīng)用于語音端點檢測任務(wù)[12].MFCC 特征的提取是基于Mel 濾波器實現(xiàn)的,首先需要對語音信號進行預(yù)處理(包括預(yù)加重、分幀和加窗),然后對每幀信號進行快速傅里葉變換得到Xi(k),接著對Xi(k) 取平方后得到譜線能量Ei(k),Ei(k) 的表達式同公式(1).將每幀信號的譜線能量通過Mel 濾波器組,即使用譜線能量與Mel 濾波器的頻率響應(yīng)相乘,表達式如下:

    其中,Hm(k)為Mel 濾波器頻率響應(yīng),M為濾波器個數(shù),m為濾波器的序號.將通過Mel 濾波器的能量取對數(shù)后進行離散余弦變換,可以計算得到MFCC 特征為

    其中,M(i,n) 表示第i幀信息的第n維MFCC 特征.本文在提取MFCC 特征時,僅提取MFCC 系數(shù),不提取MFCC 差分系數(shù),所以信號首尾各兩幀數(shù)據(jù)不用舍棄,最終得到每一幀信號的l維MFCC 特征記為Mi∈Rl×1,i表示幀序號,l表示所提MFCC特征的總維數(shù).由于MFCC 特征通常取12 維及以上[13],在特征融合時參數(shù)量過多,并且該參數(shù)易受噪聲影響.因此本文方法不將MFCC 特征直接用于特征融合,而是將該特征與Fisher 線性判別法相結(jié)合[10],提取對于端點檢測任務(wù)更為有效的投影特征.

    1.3 投影特征提取投影特征的提取是基于語音信號的MFCC 特征和Fisher 線性判別法實現(xiàn)的[10].本文在測試數(shù)據(jù)隨機外截取一段清音段作為清音樣本,分幀后得到N1幀信號,提取每幀清音樣本的l維MFCC 特征記為Qi∈Rl×1,其中i表示幀序號即1≤i≤N1.對待提取投影特征的語音信號,取前N2幀作為噪聲樣本,提取每幀噪聲樣本的l維MFCC 特征記為Zi∈Rl×1,其中,1≤i≤N2.所提特征的均值向量為

    其中,u1表示清音樣本MFCC 特征的均值向量,u2表示噪聲樣本MFCC 特征的均值向量,u0表示u1和u2合并后的均值向量.設(shè)定一個與所提MFCC 特征維數(shù)相同的投影向量w,則可定義類間散度為

    投影的目的在于使特征中SSW值最小,且SSB值最大[10,14].對語音信號分幀后,提取每一幀信號的l維MFCC 特征Mi,根據(jù)最佳方向投影后得到投影特征

    1.4 GFCC0 特征提取相比于MFCC 特征,語音信號的GFCC 特征具有更好的抗噪性能[15].文獻[3]將MFCC 的第一維系數(shù)MFCC0用于語音端點檢測,取得了不錯的效果.但通過研究發(fā)現(xiàn),GFCC的第一維系數(shù)GFCC0具有比MFCC0更強的抗噪性能和語音追蹤能力,特別是可以同時兼顧到語音段中濁音和清音的追蹤,因此本文將GFCC0特征引入到端點檢測任務(wù)中.圖1(a)為一段純凈語音信號的歸一化幅值;圖1(b)為該段語音信號的清濁音標注結(jié)果,其中噪聲段標注為0,語音段中的濁音標注為2,清音標注為1;圖1(c)為該段語音信號的歸一化MFCC0特征曲線,根據(jù)語音信號波形將該信號前10 幀視為純噪聲幀,虛線為前10 幀信號MFCC0特征的平均值,將虛線作為MFCC0參考線;圖1(d)為該段語音信號的歸一化GFCC0特征曲線,虛線為前10 幀信號GFCC0特征的平均值,將虛線作為GFCC0參考線.從圖中可以看出,信號濁音段的MFCC0特征高于MFCC0參考線,而清音段的MFCC0特征卻低于MFCC0參考線,該特征難以同時兼顧語音段中濁音和清音的追蹤,同時部分噪聲段的MFCC0特征也高于MFCC0參考線,上述兩方面都會影響到MFCC0特征對語音段的追蹤能力;而信號濁音段和清音段的GFCC0特征均高于GFCC0參考線,所以GFCC0特征可以同時兼顧到語音段中濁音和清音的追蹤,同時信號噪聲段的GFCC0特征在GFCC0參考線附近.因此在端點檢測任務(wù)中GFCC0對語音段的追蹤能力強于MFCC0.

    圖1 語音信號GFCC0 和MFCC0 特征對比Fig.1 Comparison of GFCC0 and MFCC0 of speech signal

    GFCC 特征的提取是基于Gammatone 濾波器組實現(xiàn)的.與MFCC 特征提取相同的是,在GFCC特征提取前需要對語音信號進行預(yù)處理,得到譜線能量Ei(k).與MFCC 特征提取不同的是,在GFCC特征提取過程中,譜線能量通過濾波器后不再使用對數(shù)壓縮的方式,而是采用指數(shù)壓縮的方式

    其中Hm(k)為Gammatone 濾波器頻率響應(yīng),M為濾波器個數(shù),m為濾波器的序號,a為指數(shù)壓縮值,本文取指數(shù)壓縮后的能量經(jīng)過離散余弦變換后得到GFCC 特征:

    其中G(i,n) 表示第i幀信息的第n維GFCC 特征.通過式(19)計算得到每一幀信號的GFCC 特征,取該特征的第一維系數(shù)就可以得到特征融合所需的新 特征GFCC0,記為Gi.

    2 多特征融合的語音端點檢測

    特征提取得到語音信號的子帶譜熵特征Hi、GFCC0特征Gi和投影特征ri后,還需要對3 類特征自適應(yīng)加權(quán)融合,多特征融合旨在得到對語音段追 蹤能力更強的融合特征.

    2.1 多特征融合多特征融合前,首先對語音信號的3 類特征進行對比分析.圖2 所示為一段語音信號的特征對比圖,其中圖2(c)為中值濾波平滑處理后的子帶譜熵特征值Hi;圖2(d)為平滑處理后的投影特征值ri;圖2(e)為歸一化GFCC0特征值Gi.

    圖2 語音信號特征對比Fig.2 Comparison of speech signal features

    端點檢測目的在于區(qū)分出語音信號中的語音段和噪聲段,其中語音段是由濁音段和清音段共同構(gòu)成的.在多特征融合前,結(jié)合圖2 對3 類特征的特點進行分析:①濁音段的子帶譜熵特征遠小于噪聲段,但是清音段和噪聲段的子帶譜熵特征卻很接近,因此子帶譜熵特征可以有效區(qū)分語音信號中的濁音段和噪聲段;②清音段的投影特征大于噪聲段的投影特征,而濁音段和噪聲段的投影特征卻很接近,因此投影特征主要針對的是清音段和噪聲段的區(qū)分;③從語音信號的歸一化GFCC0特征可以看出,濁音段和清音段的GFCC0特征大于噪聲段的GFCC0特征,圖1(d)中與參考線的對比更加突出了該特點,因此GFCC0特征可以同時兼顧語音段中濁音和清音的追蹤.同時GFCC 特征具有較好的抗噪性能[15],通過實驗發(fā)現(xiàn)GFCC0特征在噪聲環(huán)境下對語音段中的濁音和清音同樣具有較好的追蹤能力.因此考慮加權(quán)融合這3 類特征,得到適用于端點檢測的新特征.多特征融合的流程如圖3 所示.

    圖3 多特征融合流程圖Fig.3 Flow chart of multi-feature fusion

    特征預(yù)處理首先使用中值濾波分別對3 類特征進行平滑處理,然后對3 類特征的幅度平移調(diào)整后取絕對值,計算方法如下:

    投影特征的預(yù)處理還包含數(shù)據(jù)的歸一化,歸一化投影特征如下:

    權(quán)重系數(shù)的求解是基于3 種特征平移調(diào)整后的平均值自適應(yīng)計算得到的,權(quán)重系數(shù)的計算如下:

    其中,α1表示特征融合時子帶譜熵的權(quán)重系數(shù),α2表示特征融合時GFCC0的權(quán)重系數(shù),α3表示特征融合時投影特征的權(quán)重系數(shù).得到自適應(yīng)估計的參數(shù)權(quán)重后,進行特征融合:

    其中表示預(yù)處理后的子帶譜熵特征,表示預(yù)處理后的GFCC0特征,表示預(yù)處理后的投影特征.對式(24)結(jié)果歸一化后得到端點檢測的融合特征值為

    圖4 所示為純凈語音和帶噪語音(含SNR=5dB 的pink 噪聲)波形及其融合特征值.

    圖4 語音信號的融合特征Fig.4 Fusion features of speech signal

    將圖4(c)與圖2 對比可以看出,多特征融合將3 類特征的優(yōu)點相結(jié)合,得到對語音追蹤能力更強的融合特征,其中語音段的融合特征往往大于噪聲段的融合特征,體現(xiàn)了融合特征對語音段的追蹤能力.在5 dB 信噪比的pink 噪聲環(huán)境下,語音段的融合特征同樣大于噪聲段的融合特征,體現(xiàn)了融合特征的抗噪性能.

    2.2 自適應(yīng)門限估計與端點檢測本文針對多種噪聲環(huán)境下的語音信號進行端點檢測,在得到用于端點檢測的融合特征后,首先使用模糊C 均值聚類法對每一條語音的門限值進行自適應(yīng)估計,然后通過雙門限法實現(xiàn)語音信號的端點檢測.模糊C均值聚類的損失函數(shù)如下[16]:

    其中,xi為樣本,i為樣本序號,N為樣本總數(shù),mj為聚類中心,j為聚類中心序號,C為聚類中心的總數(shù),b>1為模糊常數(shù),μj(xi) 為隸屬度函數(shù),同時滿足

    目標是使式(26)最小,通過求mj和μj(xi) 的偏導(dǎo)數(shù)并令偏導(dǎo)數(shù)為0,可得

    妊娠期高血壓是一種常見的妊娠期疾病類型,會對孕婦及胎兒產(chǎn)生極大的影響,容易導(dǎo)致胎兒宮內(nèi)窘迫和產(chǎn)后出血等多種不良后果[4]。臨床對妊娠期高血壓產(chǎn)婦進行剖宮產(chǎn)術(shù)治療之后,存在一定的產(chǎn)后出血風(fēng)險,嚴重威脅產(chǎn)婦健康和安全。為此,臨床需要積極做好相應(yīng)的預(yù)防措施[5]。

    其中,本文使用的樣本xi是語音信號的融合特征,樣本序列i是輸入語音的幀序號,樣本總數(shù)N是輸入語音的總幀數(shù).j=1,2,···,C表示聚類中心的序號,本文針對噪聲環(huán)境下的語音端點檢測,實質(zhì)上是使用融合特征實現(xiàn)語音幀和噪聲幀的二分類,因此聚類中心個數(shù)取C=2.

    自適應(yīng)門限估計和端點檢測的步驟如下:

    步驟1根據(jù)式(25)計算語音信號的融合特征;

    步驟2設(shè)定聚類中心個數(shù)C=2,計算得到融合特征的自適應(yīng)聚類中心 {m11,m12},其中

    其中,Th為雙門限的高門限值,Tl為低門限值,β1和 β2為經(jīng)驗常數(shù);

    步驟4根據(jù)自適應(yīng)聚類中心與 β1、β2,結(jié)合式(31)自適應(yīng)估計雙門限法的門限值,得到端點檢測的結(jié)果.

    3 實驗設(shè)計與結(jié)果分析

    實驗的純凈語音數(shù)據(jù)來自TIMIT 數(shù)據(jù)庫,噪聲數(shù)據(jù)來自NOISEX-92 數(shù)據(jù)庫.從TIMIT 數(shù)據(jù)庫中隨機選取男女說話人各50 條純凈語音,并在這100 條純凈語音外隨機截取一段0.11 s 的清音段作為清音樣本.為了驗證算法在多種噪聲環(huán)境下的性能,將純凈語音分別與NOISEX-92 數(shù)據(jù)庫中的white、babble、hfchannel、factory1、m109、pink 和volvo7 種噪聲按照-5、0、5、10、15 dB 的信噪比合成帶噪語音.合成的3 500 條帶噪語音作為實驗的測試數(shù)據(jù),均統(tǒng)一為8 kHz 采樣率、16 bit 量化精度的單聲道音頻文件.

    在實驗前使用傳統(tǒng)雙門限法對純凈語音進行標記,并對傳統(tǒng)雙門限法標記錯誤的幀進行人工修正,以修正后的標記結(jié)果作為本次實驗仿真的參考標準.由于語音信號在10~30 ms 內(nèi)具有短時平穩(wěn)性,所以實驗仿真取幀長16 ms(128 個采樣點),幀移8 ms(64 個采樣點).本文在提取子帶譜熵時引入的正常量K=0.5;在構(gòu)造投影特征時提取的MFCC 特征維數(shù)l=12,提取的噪聲樣本長度為N2=10幀;β1和β2的設(shè)定流程如圖5 所示,即隨機設(shè)定 β1和β2的初始值,根據(jù)目標分類準確率迭代調(diào)整,直至獲得滿足目標分類準確率的值作為最終取值,得到

    圖5 β1和β2 設(shè)定流程圖Fig.5 Flow chart of β1 and β2 setting

    在端點檢測過程中,會出現(xiàn)語音幀的漏檢和噪聲幀的誤檢,綜合考慮后使用語音端點檢測的準確率作為最終評價指標,定義如下[3]:

    其中,L1表示語音幀漏檢為噪聲幀的幀數(shù),L2表示噪聲幀誤檢為語音幀的幀數(shù),L表示語音信號的總幀數(shù).

    為了驗證本文算法的性能,選取傳統(tǒng)算法中結(jié)合短時能量與過零率的傳統(tǒng)雙門限法和子帶譜熵法作為對比算法,此外還使用了文獻[3]中基于譜熵梅爾積的端點檢測算法作為對比算法.合成的3 500 條帶噪語音分別使用本文算法和3 種對比算法進行端點檢測,并使用公式(32)計算準確率.

    3.2 實驗結(jié)果分析圖6~8 分別展示了本文方法在volvo 噪聲(SNR=-5 dB)、white 噪聲(SNR=0 dB)和factory1 噪聲(SNR=5 dB)環(huán)境下的端點檢測結(jié)果.圖6~8 中的子圖(c)為實驗前標注的語音端點檢測結(jié)果的參考標準,語音段(包含濁音段和清音段)標注為1,噪聲段標注為0;圖6~8 中的子圖(a)和(d)均標注了本文方法的檢測結(jié)果,其中子圖(d)為本文方法在融合特征值上的檢測結(jié)果,豎實線處表示語音段開始,豎虛線處表示語音段結(jié)束.通過對比本文方法的檢測結(jié)果和標注的參考標準可以看出,本文提出的融合特征可以區(qū)分出帶噪語音信號的語音段和噪聲段,將該特征應(yīng)用到端點檢測任務(wù)中可以較好的找到語音段的開始位置和結(jié)束位置.

    圖6 volvo 噪聲環(huán)境下的檢測結(jié)果(SNR=-5 dB)Fig.6 Detection results in volvo noise environment (SNR=-5 dB)

    圖7 white 噪聲環(huán)境下的檢測結(jié)果(SNR=0 dB)Fig.7 Detection results in white noise environment (SNR=0 dB)

    根據(jù)式(32)計算得到本文算法和3 種對比算法在不同噪聲和不同信噪比環(huán)境下的語音端點檢測準確率.本文將準確率低于50%的端點檢測定義為失效,最終結(jié)果如表1 所示.

    從表1 可知,在進行實驗仿真的7 種噪聲環(huán)境下,傳統(tǒng)雙門限法在信噪比低于0 dB 時檢測準確率往往不足50%,造成檢測方法的失效;當(dāng)信噪比達到10 dB 后,傳統(tǒng)雙門限法性能得以提升,隨著信噪比的增加,準確率也逐漸增加.造成傳統(tǒng)雙門限法在低信噪比環(huán)境下準確率較低的原因是,低信噪比環(huán)境下語音信號的過零率會增大,而過零率作為實現(xiàn)傳統(tǒng)雙門限法的主要特征,會影響到雙門限法的第二級判決,從而影響到端點檢測的準確率.基于子帶譜熵的語音端點檢測方法在-5 dB 信噪比環(huán)境下可以達到55%以上的準確率,不會出現(xiàn)端點檢測的失效;檢測準確率同樣會隨著信噪比的增加而增加,但是在10 dB 和15 dB 信噪比下的表現(xiàn)不如雙門限法.子帶譜熵法的實驗結(jié)果體現(xiàn)了單一特征往往難以在噪聲環(huán)境下達到令人滿意的檢測效果,因此多特征融合的方法成為了近年來語音端點檢測的研究重點.相比于傳統(tǒng)雙門限法和子帶譜熵法,文獻[3]中結(jié)合譜熵特征和MFCC0的方法在低信噪比環(huán)境下取得了更好的端點檢測效果,并且在10 dB 和15 dB 的white 噪聲環(huán)境下取得了最高的端點檢測準確率.通過實驗發(fā)現(xiàn),在10 dB和15 dB 的white 噪聲環(huán)境下,本文所提的融合特征在端點檢測時出現(xiàn)了比文獻[3]方法更多的誤檢幀數(shù),導(dǎo)致準確率略低于文獻[3]的方法.但是本文提出的多特征融合的端點檢測方法比文獻[3]所提方法具有更好的抗噪性能,在信噪比為-5、0和5 dB 的white 噪聲環(huán)境下取得了比文獻[3]方法更高的端點檢測準確率;同時本文提出的多特征融合的端點檢測方法在babble、hfchannel、factory1、m109、pink 和volvo 6 種噪聲的不同信噪比環(huán)境下,都取得了比3 種對比算法更好的端點檢測效果.

    表1 不同方法端點檢測準確率對比Tab.1 Comparison of detection accuracy of different methods %

    4 結(jié)論

    本文將GFCC0特征應(yīng)用到語音端點檢測任務(wù)中,將該特征與子帶譜熵特征、投影特征自適應(yīng)融合構(gòu)造適用于端點檢測的新特征,然后使用模糊C 均值聚類算法自適應(yīng)估計門限閾值,最后通過雙門限法實現(xiàn)端點檢測.相比于3 種對比算法,本文提出的端點檢測方法在多種噪聲的不同信噪比環(huán)境下均提升了端點檢測的準確率.這主要歸功于本文方法使用對語音段追蹤能力較強的3 種特征自適應(yīng)融合,進一步提升了對語音段的追蹤能力.在未來工作中,需要繼續(xù)對多特征融合的方法和門限估計的方法進行研究,減少語音幀的漏檢和噪聲幀的誤檢,進一步提升語音端點檢測的準確率.

    猜你喜歡
    清音子帶端點
    《山水清音》
    《園林清音》
    人文天下(2022年5期)2022-08-11 14:49:26
    非特征端點條件下PM函數(shù)的迭代根
    一種基于奇偶判斷WPT的多音干擾抑制方法*
    子帶編碼在圖像壓縮編碼中的應(yīng)用
    電子制作(2019年22期)2020-01-14 03:16:24
    不等式求解過程中端點的確定
    參數(shù)型Marcinkiewicz積分算子及其交換子的加權(quán)端點估計
    基于虛擬孔徑擴展的子帶信息融合寬帶DOA估計
    基丁能雖匹配延拓法LMD端點效應(yīng)處理
    基于計算聽覺場景分析的改進清音分離方法
    绥阳县| 湛江市| 韶山市| 香港| 治多县| 太仓市| 南投县| 如东县| 太康县| 曲周县| 高安市| 翁牛特旗| 黎平县| 龙里县| 通城县| 微山县| 靖安县| 安阳县| 杭锦后旗| 老河口市| 阿拉善盟| 临城县| 长丰县| 石景山区| 金山区| 建德市| 山东省| 前郭尔| 绥芬河市| 宽城| 浪卡子县| 武汉市| 城步| 康保县| 石泉县| 高唐县| 盐亭县| 商都县| 镇巴县| 海丰县| 绥德县|