李雷,賈新春,彭登永
(1.山西大學(xué) 數(shù)學(xué)科學(xué)學(xué)院,山西 太原 030006;2.山西大學(xué) 自動(dòng)化系,山西 太原 030013)
近年來(lái),作為語(yǔ)音識(shí)別技術(shù)的重要組成部分,語(yǔ)音信號(hào)的檢測(cè)與增強(qiáng)技術(shù)獲得了廣泛的關(guān)注與研究[1-2]。其中語(yǔ)音檢測(cè)技術(shù)主要分為兩類(lèi)[3]:模型匹配法和門(mén)限法。前者由于需要大量的內(nèi)存空間來(lái)存儲(chǔ)一些經(jīng)典語(yǔ)音模型,同時(shí)還需要大量數(shù)據(jù)來(lái)估計(jì)待檢測(cè)語(yǔ)音的模型,因而在實(shí)際應(yīng)用中受到一定的限制。后者通過(guò)設(shè)定語(yǔ)音特征參數(shù)閾值來(lái)進(jìn)行檢測(cè),相比于前一種方法更容易實(shí)現(xiàn),因此得到更為廣泛的應(yīng)用,例如基于短時(shí)能量與過(guò)零率的檢測(cè)方法、基于LPC倒譜特征的檢測(cè)方法[4]、基于小波分析理論的檢測(cè)方法等。另一方面,語(yǔ)音增強(qiáng)技術(shù)主要有譜減法[5]、最小均方誤差法[6]、小波變換法[7]等。然而,這些現(xiàn)有的語(yǔ)音檢測(cè)與增強(qiáng)技術(shù)多要求語(yǔ)音環(huán)境具有高信噪比,大多難以用于實(shí)現(xiàn)低信噪比語(yǔ)音信號(hào)的檢測(cè)與增強(qiáng)。在許多實(shí)際生產(chǎn)應(yīng)用中,語(yǔ)音信號(hào)往往會(huì)受到各種各樣的噪聲干擾、甚至?xí)谎蜎](méi),例如火車(chē)站臺(tái)嘈雜的語(yǔ)音環(huán)境經(jīng)常會(huì)表現(xiàn)會(huì)負(fù)信噪比特征,即信號(hào)功率小于噪聲功率。對(duì)于這類(lèi)具有較低信噪比特征的語(yǔ)音環(huán)境下,如何從噪聲背景中盡可能地提取有用的語(yǔ)音信號(hào)來(lái)實(shí)現(xiàn)語(yǔ)音檢測(cè)和增強(qiáng)是一個(gè)具有重要現(xiàn)實(shí)意義和挑戰(zhàn)的研究問(wèn)題。
為了解決低信噪比環(huán)境對(duì)語(yǔ)音信號(hào)處理的影響,人們?cè)诓粩嗟匮芯康托旁氡拳h(huán)境下的語(yǔ)音信號(hào)處理技術(shù)。例如,基于希爾伯特-黃變換的低信噪比語(yǔ)音端點(diǎn)檢測(cè)算法[8]以及基于極值域均值模式分解最大相似度的低信噪比語(yǔ)音增強(qiáng)算法[9]。它們?cè)诘托旁氡日Z(yǔ)音檢測(cè)和增強(qiáng)上有顯著效果,但其同樣面臨著一些不可忽略的問(wèn)題。這兩個(gè)技術(shù)都是在經(jīng)驗(yàn)?zāi)B(tài)分解算法基礎(chǔ)上發(fā)展而來(lái),而經(jīng)驗(yàn)?zāi)B(tài)分解算法中需要利用三次樣條插值技術(shù)對(duì)信號(hào)的全部極大值和極小值點(diǎn)進(jìn)行插值擬合,其中會(huì)遇到端點(diǎn)外插值的情況,從而導(dǎo)致端點(diǎn)效應(yīng)的出現(xiàn)。
對(duì)于語(yǔ)音信號(hào)處理過(guò)程中出現(xiàn)的端點(diǎn)效應(yīng),目前也有一些處理方法。例如,Huang等[10]提出了一種延拓法,利用“特征波”對(duì)原始信號(hào)進(jìn)行延拓。這一方法只是對(duì)端點(diǎn)效應(yīng)有所抑制,并沒(méi)有有效降低端點(diǎn)效應(yīng)帶來(lái)的影響。因此,許多研究人員對(duì)這一方法進(jìn)行了深入分析并提出了一些改進(jìn)方法,如鄧擁軍等[11]通過(guò)對(duì)給定信號(hào)的兩端分別添加極大值和極小值,再利用神經(jīng)網(wǎng)絡(luò)分析法來(lái)進(jìn)行端點(diǎn)延拓。另外,也出現(xiàn)了邊界波形匹配預(yù)測(cè)法和基于信號(hào)時(shí)域局部特征的自適應(yīng)時(shí)變?yōu)V波分解算法等方法。這些方法都有一定的抑制端點(diǎn)效應(yīng)的效果。
不同于以上工作,為降低端點(diǎn)效應(yīng)帶來(lái)的影響,本文采用雙采樣方法將帶噪語(yǔ)音的信號(hào)分割成兩組不同長(zhǎng)度的信號(hào)段,來(lái)實(shí)現(xiàn)低信噪比語(yǔ)音檢測(cè)與增強(qiáng)算法,其中這兩組信號(hào)段的長(zhǎng)度不同且端點(diǎn)不重合。對(duì)這兩組信號(hào)段分別進(jìn)行經(jīng)驗(yàn)?zāi)B(tài)分解處理,得到固有模態(tài)分量。然后對(duì)兩組固有模態(tài)分量分別進(jìn)行一系列處理,兩組不同長(zhǎng)度的信號(hào)段經(jīng)過(guò)相同的處理過(guò)程可以得到兩組語(yǔ)音起始與截止端點(diǎn)數(shù)據(jù),以及兩組濾波去噪后的信號(hào)數(shù)據(jù)。兩組語(yǔ)音端點(diǎn)數(shù)據(jù)是不同的,兩組去噪后的信號(hào)數(shù)據(jù)也不同,其中有端點(diǎn)效應(yīng)以及信號(hào)段長(zhǎng)度帶來(lái)的影響。對(duì)于語(yǔ)音端點(diǎn)數(shù)據(jù),本文根據(jù)這兩組不同的結(jié)果進(jìn)行語(yǔ)音端點(diǎn)校正,對(duì)于同一段語(yǔ)音,從兩組結(jié)果中取靠近其中心的點(diǎn)作為其端點(diǎn)。對(duì)于去噪后的信號(hào)數(shù)據(jù),進(jìn)行數(shù)據(jù)融合處理,對(duì)于某一時(shí)刻的信號(hào)數(shù)據(jù),如果該時(shí)刻處于兩組信號(hào)段中任意一個(gè)信號(hào)段的端點(diǎn)附近,則取另一組信號(hào)對(duì)應(yīng)時(shí)刻的數(shù)據(jù)作為最終增強(qiáng)處理后的信號(hào)數(shù)據(jù),否則取兩組信號(hào)對(duì)應(yīng)時(shí)刻數(shù)據(jù)的均值為最終增強(qiáng)處理后的信號(hào)數(shù)據(jù)。雙采樣技術(shù)的應(yīng)用為語(yǔ)音端點(diǎn)校正以及最后的濾波信號(hào)數(shù)據(jù)融合提供了必要的條件,也為有效降低端點(diǎn)效應(yīng)帶來(lái)的影響提供了基礎(chǔ)。最后,通過(guò)例子驗(yàn)證該結(jié)果比現(xiàn)有算法效果更好。
語(yǔ)音信號(hào)是典型的非平穩(wěn)信號(hào),但語(yǔ)音信號(hào)同時(shí)具有短時(shí)平穩(wěn)特性,即可認(rèn)為在10~30 ms內(nèi)語(yǔ)音信號(hào)分布特性近似不變。因此,可以在處理語(yǔ)音信號(hào)時(shí)先將其分割成連續(xù)的小段,再進(jìn)行一系列的處理。傳統(tǒng)的語(yǔ)音采樣技術(shù)是對(duì)語(yǔ)音信號(hào)進(jìn)行“加窗分幀”處理。分幀可以采用連續(xù)分段和交疊分段的方法,一般采用后者。交疊分段的方法由于幀與幀之間是平滑過(guò)渡,保持了信號(hào)的連續(xù)性,兩幀之間的交疊部分稱(chēng)為幀移。分幀是通過(guò)一個(gè)有限長(zhǎng)的窗函數(shù)加權(quán)滑動(dòng)實(shí)現(xiàn)的。
本文以高速列車(chē)運(yùn)營(yíng)的復(fù)雜語(yǔ)音環(huán)境及無(wú)線(xiàn)傳感網(wǎng)絡(luò)(WSN)的實(shí)時(shí)監(jiān)測(cè)為研究背景,提出一個(gè)多采樣方法來(lái)降低復(fù)雜語(yǔ)音環(huán)境對(duì)語(yǔ)音信號(hào)處理效果的影響。具體地,由于在WSN對(duì)火車(chē)站臺(tái)語(yǔ)音信號(hào)進(jìn)行實(shí)時(shí)監(jiān)測(cè)收集過(guò)程中,采樣數(shù)據(jù)經(jīng)常會(huì)發(fā)生丟包和時(shí)延等非理想情形,從而導(dǎo)致采樣數(shù)據(jù)的不完整和不連續(xù),所以為降低它們對(duì)語(yǔ)音處理效果的影響,可以在火車(chē)站臺(tái)同一個(gè)地點(diǎn)同時(shí)利用多個(gè)無(wú)線(xiàn)傳感器對(duì)語(yǔ)音信號(hào)進(jìn)行采樣,然后在后續(xù)的數(shù)據(jù)處理中通過(guò)數(shù)據(jù)融合來(lái)減弱這些非理想因素對(duì)語(yǔ)音處理效果的影響。考慮到研究方法復(fù)雜度和有效性之間的折中,本文采用兩個(gè)無(wú)線(xiàn)傳感器分別對(duì)同一低信噪比語(yǔ)音信號(hào)進(jìn)行采樣的雙采樣方法。在此過(guò)程中,兩個(gè)無(wú)線(xiàn)傳感器都只收集和發(fā)送數(shù)據(jù),不存儲(chǔ)數(shù)據(jù),故只能采用連續(xù)分段的方法進(jìn)行采樣,如圖1所示。為防止各分段的端點(diǎn)重合以及滿(mǎn)足短時(shí)平穩(wěn)性,可分別取幀長(zhǎng)為l1、l2,使得l1、l2均分布在30 ms附近,且兩者之積為無(wú)理數(shù),本文取l1=10π ms,l2=10 e ms,其中π為圓周率,e為自然常數(shù)。
圖1 語(yǔ)音雙采樣示意圖
本文提出的基于雙采樣方法的語(yǔ)音端點(diǎn)檢測(cè)與語(yǔ)音增強(qiáng)算法主要流程見(jiàn)圖2,從圖中可知,所提算法的處理過(guò)程主要分為兩大部分組成,即語(yǔ)音端點(diǎn)檢測(cè)和語(yǔ)音增強(qiáng)。因此,后文將主要圍繞著兩部分進(jìn)行詳細(xì)闡述。
圖2 基于雙采樣方法的語(yǔ)音檢測(cè)與增強(qiáng)流程示意圖
在語(yǔ)音識(shí)別系統(tǒng)中語(yǔ)音信號(hào)檢測(cè)被稱(chēng)為語(yǔ)音端點(diǎn)檢測(cè)。在火車(chē)站臺(tái)這種復(fù)雜語(yǔ)音環(huán)境中,強(qiáng)背景噪聲的存在使得待檢測(cè)的語(yǔ)音信號(hào)相對(duì)較弱,這導(dǎo)致常規(guī)的檢測(cè)算法效果較差。經(jīng)過(guò)分析比較現(xiàn)有的檢測(cè)算法,本文采用基于希爾伯特-黃變換的語(yǔ)音信號(hào)檢測(cè)算法,該算法在低信噪比語(yǔ)音信號(hào)檢測(cè)中取得了一定成效。希爾伯特-黃變換算法[12-13]主要包含兩個(gè)部分:經(jīng)驗(yàn)?zāi)B(tài)分解和希爾伯特變換。
A. 經(jīng)驗(yàn)?zāi)B(tài)分解
經(jīng)驗(yàn)?zāi)B(tài)分解(Empirical Mode Decomposition, EMD)過(guò)程具體如下:
1) 設(shè)原始信號(hào)為x(t),初始化:r0(t)=x(t),i=1;
2) 得到第i個(gè)固有模態(tài)分量(Intrinsic Mode Function, IMF):
(a) 初始化:h0(t)=ri-1(t),j=1;
(b) 找出hj-1(t)的局部極值點(diǎn);
(c) 對(duì)hj-1(t)的局部極大和極小值點(diǎn)分別進(jìn)行三次樣條插值擬合處理,形成上下包絡(luò)線(xiàn);
(d) 計(jì)算上下包絡(luò)線(xiàn)的平均值mj-1(t);
(e) 計(jì)算hj(t)=hj-1(t)-mj-1(t);
3) 計(jì)算ri(t)=ri-1(t)-imfi(t);
4) 如果ri(t)的極值點(diǎn)數(shù)多于2個(gè),則i=i+1,轉(zhuǎn)到2);否則,分解結(jié)束,ri(t)為殘余分量。
B. 希爾伯特變換
希爾伯特變換(Hilbert Transform,HT)常用于線(xiàn)性和非線(xiàn)性系統(tǒng)的分析。在實(shí)際應(yīng)用中,HT可以提供有關(guān)振幅、瞬時(shí)相位和頻率的附加信息。對(duì)于信號(hào)x(t)通過(guò)經(jīng)驗(yàn)?zāi)B(tài)分解處理得到的任意時(shí)間序列imfi(t),其希爾伯特變換himfi(t)被定義為:
由于在火車(chē)站臺(tái)是利用無(wú)線(xiàn)傳感網(wǎng)絡(luò)對(duì)語(yǔ)音信號(hào)進(jìn)行實(shí)時(shí)采集和傳輸,容易出現(xiàn)丟包現(xiàn)象,這里假設(shè)雙采樣得到的兩組數(shù)據(jù)在同一時(shí)刻的數(shù)據(jù)最多丟失一組。
根據(jù)前文所述,可制定基于希爾伯特-黃變換算法的語(yǔ)音端點(diǎn)檢測(cè)步驟如下:
1) 利用兩個(gè)傳感器對(duì)語(yǔ)音信號(hào)分別以相同采樣頻率進(jìn)行采樣,并分割成相鄰沒(méi)有重疊的信號(hào)幀,幀長(zhǎng)分別為:l1=10e ms,l2=10π ms;
2) 分別對(duì)兩種不同幀長(zhǎng)的帶噪語(yǔ)音信號(hào)各幀進(jìn)行經(jīng)驗(yàn)?zāi)B(tài)分解處理;
3) 對(duì)各IMF分量進(jìn)行希爾伯特變換,求解瞬時(shí)頻率與幅值;
4) 兩組數(shù)據(jù)分別合成希爾伯特譜;
5) 利用合成的希爾伯特譜計(jì)算獲得信號(hào)瞬時(shí)能量譜,并對(duì)該譜進(jìn)行平滑處理;
6) 在信號(hào)初始階段選取沒(méi)有語(yǔ)音的片段,用于語(yǔ)音背景噪聲的估計(jì)。本文分別取兩種幀長(zhǎng)信號(hào)的前5幀瞬時(shí)能量譜進(jìn)行如下處理,分別得到兩個(gè)語(yǔ)音信號(hào)檢測(cè)的閾值(這里假設(shè)兩組數(shù)據(jù)的前5幀均沒(méi)有出現(xiàn)數(shù)據(jù)丟失)Ts1、Ts2:
Ts1=E(IE1)+α·D(IE1)
7) 利用閾值Ts1、Ts2在兩種不同幀長(zhǎng)的瞬時(shí)能量譜中判斷出語(yǔ)音段和非語(yǔ)音段,并在帶噪語(yǔ)音信號(hào)中標(biāo)記出語(yǔ)音的起始和截止端點(diǎn)(仿真實(shí)驗(yàn)中,可以同時(shí)在純凈語(yǔ)音信號(hào)中標(biāo)出語(yǔ)音端點(diǎn),來(lái)計(jì)算準(zhǔn)確率);
8) 每個(gè)語(yǔ)音片段對(duì)應(yīng)兩個(gè)語(yǔ)音端點(diǎn),比較兩種不同幀長(zhǎng)信號(hào)的語(yǔ)音端點(diǎn)位置,對(duì)于同一個(gè)語(yǔ)音片段的起始端點(diǎn),選取靠近語(yǔ)音片段中心的那個(gè)作為該語(yǔ)音片段的起始端點(diǎn),而其截止端點(diǎn)同樣選取靠近其中心的端點(diǎn)作為其截止端點(diǎn)。
基于經(jīng)驗(yàn)?zāi)B(tài)分解最大相似度語(yǔ)音增強(qiáng)方法,可以利用前文中檢測(cè)得到的噪聲先驗(yàn)知識(shí)和最大相似度方法對(duì)經(jīng)驗(yàn)?zāi)B(tài)分解得到的固有模態(tài)分量進(jìn)行有效的分類(lèi),再對(duì)各類(lèi)固有模態(tài)分量進(jìn)行自適應(yīng)濾波處理,達(dá)到降噪目的,從而實(shí)現(xiàn)復(fù)雜環(huán)境下低信噪比語(yǔ)言信號(hào)的增強(qiáng)。
本文中最大相似度指的是噪聲信號(hào)與檢測(cè)到的帶噪語(yǔ)音信號(hào)各固有模態(tài)分量的最大相似程度。最大相似度計(jì)算過(guò)程如下:
1) 在語(yǔ)音信號(hào)前的非語(yǔ)音段任意提取k段噪聲信號(hào)Nk,且每段噪聲信號(hào)要與檢測(cè)到的語(yǔ)音信號(hào)片段長(zhǎng)度相同;
2) 計(jì)算提取的k段噪聲信號(hào)分別與分解得到的第i個(gè)固有模態(tài)分量imfi對(duì)應(yīng)的語(yǔ)音片段位置的數(shù)據(jù)之間的相關(guān)系數(shù)R1i、R2i、…Rki,假設(shè)i=1,2,…,m;
3) 在R1i、R2i、…Rki中選取最大值,即為最大相似度,記作MSi,i=1,2,…,m。
基于前文對(duì)基于經(jīng)驗(yàn)?zāi)B(tài)分解最大相似度語(yǔ)音增強(qiáng)算法各關(guān)鍵概念的闡述,給出語(yǔ)言增強(qiáng)設(shè)計(jì)步驟如下:
1) 在前文語(yǔ)音檢測(cè)的基礎(chǔ)上,分別提取檢測(cè)到的帶噪語(yǔ)音信號(hào)片段;
2) 在語(yǔ)音信號(hào)前端任意提取多段與檢測(cè)到的語(yǔ)音信號(hào)片段長(zhǎng)度相等的噪聲信號(hào);
3) 將提取的帶噪語(yǔ)音信號(hào)片段進(jìn)行極值域均值模式分解處理,得到若干固有模態(tài)分量;
4) 計(jì)算求取噪聲信號(hào)與各固有模態(tài)分量之間的最大相似度;
5) 通過(guò)實(shí)驗(yàn)確定最大相似度閾值,本文取閾值為0.02;
7) 將經(jīng)過(guò)濾波處理的固有模態(tài)分量和沒(méi)經(jīng)過(guò)濾波處理的其他固有模態(tài)分量進(jìn)行信號(hào)重構(gòu),得到增強(qiáng)后的信號(hào);
8) 將兩組不同幀長(zhǎng)的經(jīng)過(guò)一系列處理得到的增強(qiáng)信號(hào)進(jìn)行數(shù)據(jù)融合,如果在某一點(diǎn),處于其中一組數(shù)據(jù)某幀端點(diǎn)附近(端點(diǎn)前后0.5 ms),則融合的信號(hào)取另一組數(shù)據(jù)對(duì)應(yīng)位置的數(shù)據(jù),否則取兩組數(shù)據(jù)的平均值。
經(jīng)過(guò)上述算法第八個(gè)步驟數(shù)據(jù)融合處理,可有效解決端點(diǎn)效應(yīng)帶來(lái)的影響,且可減少幀長(zhǎng)不同所帶來(lái)的影響,進(jìn)而提高語(yǔ)音增強(qiáng)效果。
根據(jù)上述理論分析,分別進(jìn)行了MATLAB軟件仿真實(shí)驗(yàn)和實(shí)物平臺(tái)測(cè)試實(shí)驗(yàn),以下是實(shí)驗(yàn)過(guò)程及結(jié)果。
本文選取一段語(yǔ)音信號(hào),利用MATLAB軟件對(duì)其添加了不同信噪比的火車(chē)站臺(tái)噪聲,并按照前述方法進(jìn)行了仿真實(shí)驗(yàn),結(jié)果如圖3-圖5所示。
圖3 SNR =1 dB時(shí)語(yǔ)音端點(diǎn)檢測(cè)與增強(qiáng)效果
圖4 SNR =-3 dB時(shí)語(yǔ)音端點(diǎn)檢測(cè)與增強(qiáng)效果
圖5 SNR =-7 dB時(shí)語(yǔ)音端點(diǎn)檢測(cè)與增強(qiáng)效果
圖3、4、5分別是信噪比為1 dB、-3 dB、-7 dB時(shí)語(yǔ)音端點(diǎn)檢測(cè)與增強(qiáng)效果圖,每幅圖中第一子圖為原始語(yǔ)音信號(hào)圖,第二子圖為帶噪語(yǔ)音信號(hào)的起始與截止端點(diǎn)檢測(cè)效果圖,第三子圖為增強(qiáng)處理后效果圖。從中可以看出,隨著信噪比降低,本文方法仍然有較好的語(yǔ)音端點(diǎn)檢測(cè)與增強(qiáng)效果。此外,針對(duì)不同信噪比的帶噪信號(hào),本文利用譜減法和最小均方誤差估計(jì)法對(duì)前文帶噪語(yǔ)音信號(hào)進(jìn)行處理,并用MATLAB軟件編程實(shí)現(xiàn),得到語(yǔ)音增強(qiáng)后信噪比,如表1所示。
由表1可知,本文方法在信噪比較低時(shí)依然有較好的增強(qiáng)效果,能較大幅度提高信噪比。同時(shí),與另兩種方法相比,在相同條件下,本文方法增強(qiáng)效果更好。
我們注意到,在本文所提方法中,由于語(yǔ)音增強(qiáng)是在語(yǔ)音端點(diǎn)檢測(cè)基礎(chǔ)上進(jìn)行操作,所以增強(qiáng)效果可以側(cè)面反映出語(yǔ)音端點(diǎn)檢測(cè)效果,而仿真實(shí)驗(yàn)顯示語(yǔ)音增強(qiáng)效果較好,故語(yǔ)音端點(diǎn)檢測(cè)效果較好。另外,從圖3-圖5中也能看出,語(yǔ)音信號(hào)的端點(diǎn)基本都能被檢測(cè)出來(lái),然而,由于聲音信號(hào)的不平穩(wěn)性,導(dǎo)致很多現(xiàn)有方法會(huì)把帶噪信號(hào)中的許多噪音被誤認(rèn)為語(yǔ)音,從而降低了其語(yǔ)音處理效果,而本文所提的基于雙采樣的語(yǔ)音增強(qiáng)技術(shù)能很好地處理這類(lèi)問(wèn)題,并得到較好的結(jié)果。
表1 3種方法增強(qiáng)語(yǔ)音后信噪比對(duì)比結(jié)果
利用硬件(語(yǔ)音信號(hào)采集節(jié)點(diǎn)、信號(hào)轉(zhuǎn)發(fā)器)和軟件(Microsoft Visual Studio)搭建了語(yǔ)音信號(hào)采集處理平臺(tái)(如圖6所示),根據(jù)前文所述算法,利用C#語(yǔ)言編程實(shí)現(xiàn),對(duì)硬件采集的語(yǔ)音信號(hào)進(jìn)行了實(shí)際場(chǎng)景的語(yǔ)音信號(hào)檢測(cè)與增強(qiáng)測(cè)試,結(jié)果見(jiàn)表2、表3所示。
圖6 語(yǔ)音信號(hào)采集處理平臺(tái)示意圖
由于實(shí)際應(yīng)用場(chǎng)景(火車(chē)站臺(tái))的特殊性,實(shí)物平臺(tái)測(cè)試實(shí)驗(yàn)只能在實(shí)驗(yàn)室進(jìn)行。具體操作為:利用錄音設(shè)備在火車(chē)站臺(tái)錄制一整天的音頻數(shù)據(jù),然后在實(shí)驗(yàn)室播放,利用語(yǔ)音信號(hào)采集節(jié)點(diǎn)進(jìn)行信號(hào)采集,并通過(guò)信號(hào)轉(zhuǎn)發(fā)器傳輸給電腦接收端,通過(guò)電腦軟件平臺(tái)對(duì)所采集的信號(hào)進(jìn)行處理。檢測(cè)的語(yǔ)音對(duì)象是火車(chē)站站臺(tái)廣播語(yǔ)音,其他聲音信號(hào)默認(rèn)為背景噪聲。
表2統(tǒng)計(jì)并比較了使用本文方法與基于短時(shí)能量與過(guò)零率的檢測(cè)方法、基于LPC倒譜特征的檢測(cè)方法的語(yǔ)音信號(hào)檢測(cè)率(DR)、漏檢率(ODR)和誤檢率(EDR)。使用本文方法、譜減法和最小均方誤差估計(jì)法對(duì)同一段帶噪語(yǔ)音信號(hào)增強(qiáng)處理,利用PESQ語(yǔ)音質(zhì)量評(píng)估算法分別對(duì)增強(qiáng)后的語(yǔ)音信號(hào)進(jìn)行了語(yǔ)音質(zhì)量評(píng)估,結(jié)果如表3所示。從表2、表3中可以看出本文方法的有效性和可靠性。
表2 3種方法語(yǔ)音信號(hào)檢測(cè)結(jié)果比較
表3 對(duì)3種方法所增強(qiáng)語(yǔ)音的PESQ語(yǔ)音質(zhì)量評(píng)估結(jié)果比較
本文提出了一種基于雙采樣方法的語(yǔ)音端點(diǎn)檢測(cè)與語(yǔ)音增強(qiáng)算法,在雙采樣技術(shù)的基礎(chǔ)上結(jié)合經(jīng)驗(yàn)?zāi)B(tài)分解、希爾伯特變換及最大相似度計(jì)算,對(duì)帶噪語(yǔ)音信號(hào)依次進(jìn)行語(yǔ)音端點(diǎn)檢測(cè)和語(yǔ)音增強(qiáng)處理,最后通過(guò)數(shù)據(jù)融合處理在降低了端點(diǎn)效應(yīng)及其他因素對(duì)低信噪比語(yǔ)音信號(hào)處理結(jié)果帶來(lái)的影響,實(shí)驗(yàn)結(jié)果說(shuō)明本文所提方法在處理火車(chē)站臺(tái)低信噪比復(fù)雜語(yǔ)音環(huán)境下語(yǔ)音端點(diǎn)檢測(cè)與增強(qiáng)的有效性。此外,本文算法可以推廣到多個(gè)傳感器采樣的場(chǎng)景中。