高磊 章小兵
基金項(xiàng)目:安徽工業(yè)大學(xué)產(chǎn)學(xué)研基金資助重大項(xiàng)目;項(xiàng)目編號(hào):RD14206003。
作者簡(jiǎn)介:高磊(1997— ),男,安徽合肥人,碩士研究生;研究方向:測(cè)控技術(shù)與語(yǔ)音識(shí)別。
*通信作者:章小兵(1972— ),男,安徽蕪湖人,教授,博士;研究方向:測(cè)控技術(shù)與語(yǔ)音識(shí)別。
摘要:傳統(tǒng)的端點(diǎn)檢測(cè)在低信噪比(SNR)非平穩(wěn)噪聲下性能會(huì)失效,因此文章提出了將最優(yōu)改進(jìn)的對(duì)數(shù)譜幅度估計(jì)(OMLSA)以及最小控制遞歸平均算法(IMCRA)相結(jié)合的方法對(duì)包含噪聲的語(yǔ)音指令進(jìn)行去噪處理,提取PNCC的第一維靜態(tài)特征作為特征參數(shù)。同時(shí),文章在單參數(shù)雙門限法的基礎(chǔ)上設(shè)計(jì)了一個(gè)自適應(yīng)閾值,可以更好地跟蹤預(yù)測(cè)實(shí)際語(yǔ)音的起始與終止端。Matlab仿真結(jié)果顯示,該算法在各種非平穩(wěn)噪聲下比經(jīng)典算法優(yōu)勢(shì)更大。
關(guān)鍵詞:端點(diǎn)檢測(cè);最優(yōu)改進(jìn)的對(duì)數(shù)譜幅度估計(jì);最小控制遞歸平均算法;PNCC;自適應(yīng)閾值
中圖分類號(hào):TN912.3 文獻(xiàn)標(biāo)志碼:A
0 引言
語(yǔ)音端點(diǎn)的檢測(cè)準(zhǔn)確度是語(yǔ)音識(shí)別精度中最關(guān)鍵的一步。它的功能是把被背景噪聲覆蓋的語(yǔ)音提取出來(lái),確定語(yǔ)音的開(kāi)始和結(jié)尾。針對(duì)端點(diǎn)檢測(cè)的方法,人們研究出了模型匹配和特征提取兩大類。模型匹配方法對(duì)計(jì)算機(jī)的性能是一個(gè)考驗(yàn),消耗時(shí)間長(zhǎng),實(shí)際情況下用處不大。特征提取方法時(shí)域、頻域、時(shí)頻域的結(jié)合可以優(yōu)勢(shì)互補(bǔ),應(yīng)用較為廣泛。張毅等[1]在子帶譜熵的基礎(chǔ)上結(jié)合了子帶能量,兩者做比值處理,拉開(kāi)語(yǔ)音片段與噪聲片段差距,解決了子帶譜熵的不穩(wěn)定性問(wèn)題,添加中值濾波去除參數(shù)波形中不穩(wěn)定的毛刺,該算法計(jì)算簡(jiǎn)單、快速高效,更易檢測(cè)出語(yǔ)音的端點(diǎn)。朱春利等[2]基于LMS自適應(yīng)濾波降噪,選擇合適的窗長(zhǎng)計(jì)算短時(shí)能量,改進(jìn)過(guò)零率拉開(kāi)靜音與噪聲的差距,之后中值平滑去除LMS殘留野點(diǎn),更能反映原始語(yǔ)音信號(hào)的特征。目前,這些方法在高信噪比環(huán)境下可以穩(wěn)定運(yùn)行,但是在非平穩(wěn)環(huán)境下不再生效,判斷端點(diǎn)仍不能達(dá)到人們的滿意度。
本文首先利用最小控制遞歸平均算法來(lái)跟蹤噪聲的實(shí)時(shí)變化,其次用最優(yōu)改進(jìn)的對(duì)數(shù)譜幅度估計(jì)算法增強(qiáng)語(yǔ)音重建語(yǔ)音質(zhì)量,最后提取PNCC的第一維靜態(tài)特征作為端點(diǎn)檢測(cè)的參數(shù)。在檢測(cè)過(guò)程中,本文基于VAD的原理設(shè)計(jì)出自適應(yīng)根據(jù)特征參數(shù)變化的閾值,為更加精確地定位語(yǔ)音提供幫助。
1 最優(yōu)改進(jìn)對(duì)數(shù)譜幅度估計(jì)(OM-LSA)
為了有效地抑制非平穩(wěn)聲,引入基于統(tǒng)計(jì)模型的單通道語(yǔ)音增強(qiáng)方法,可以顯著地減少殘留噪聲,提高了增強(qiáng)語(yǔ)音的質(zhì)量。
其中,y(t)表示帶噪語(yǔ)音,x(t)表示純凈語(yǔ)音,d(t)表示不相關(guān)的噪聲,其中t表示離散時(shí)間指數(shù)。兩邊同時(shí)做離散傅里葉變換:
其中,k表示頻域分量索引,l表示幀的編號(hào)索引。為了使估計(jì)出來(lái)的純凈語(yǔ)音頻譜幅度X^(k,l)與實(shí)際純凈語(yǔ)音X(k,l)接近,需要計(jì)算自適應(yīng)頻譜濾波器增益函數(shù):
自適應(yīng)濾波器增益為:
其中,GH1(k,l)表示對(duì)數(shù)譜幅度增益,p(k,l)表示語(yǔ)音存在條件概率,Gmin表示最小增益經(jīng)驗(yàn)值起到抑制音樂(lè)噪聲的作用[3]。
2 基于PNCC的端點(diǎn)檢測(cè)
2.1 PNCC特征
PNCC是一種在抗噪聲和混響下有很大優(yōu)勢(shì)的語(yǔ)音特征,能夠在不影響識(shí)別能力和運(yùn)算復(fù)雜性的前提下,通過(guò)長(zhǎng)時(shí)間幀功率分析有效地消除背景噪聲的影響[6]。
PNCC特征參數(shù)公式:
其中,B表示PNCC維數(shù),n表示PNCC維數(shù)的索引。
近幾年,美國(guó)科學(xué)家Kim等[7]提出功率歸一化倒譜系數(shù)(PNCC)將其運(yùn)用于語(yǔ)音增強(qiáng)算法。參考吳新忠等[5]提取MFCC0的優(yōu)秀效果,本文取PNCC的第一維參數(shù)PNCC1用于端點(diǎn)檢測(cè)任務(wù)。
2.2 自適應(yīng)閾值
外界噪聲的變化會(huì)帶動(dòng)特征參數(shù)的變化,因此將特征參數(shù)與閾值聯(lián)系起來(lái)才能適應(yīng)環(huán)境的變化。將PNCC1特征參數(shù)的前幾幀進(jìn)行平均得到的PNCCN作為初始閾值:利用對(duì)數(shù)譜距離(VAD)式(14)判定當(dāng)前幀是否語(yǔ)音幀,若為語(yǔ)音幀(NF=0),則閾值不變,若為非語(yǔ)音幀(NF=1),則依據(jù)下式(15)對(duì)閾值進(jìn)行更新得到PNCCnew:
其中,NoiseCounter是累計(jì)的無(wú)語(yǔ)音段長(zhǎng)度,NoiseMargin是語(yǔ)音段與無(wú)語(yǔ)音段之間的最小距離,設(shè)為2.5,Hangover是最小的無(wú)語(yǔ)音段長(zhǎng)度,設(shè)為8。
T1,T2分別是雙門限法的高低門限值,如圖1所示,橫虛線T1是高閾值,橫曲線T2是低閾值。豎實(shí)線S、豎虛線E是檢測(cè)出來(lái)每一段語(yǔ)音的起始端點(diǎn)。若PNCC1(i)>T1則一定是語(yǔ)音段,從PNCC1(i)與T1的交點(diǎn)分別向兩邊擴(kuò)展,將PNCC1(i)與T2的交點(diǎn)作為語(yǔ)音段的起始點(diǎn)位置。相對(duì)于傳統(tǒng)的雙門限法本文注重于細(xì)節(jié)上的追蹤,傳統(tǒng)的雙門限法T2是一條固定的直線,不能及時(shí)應(yīng)對(duì)特征參數(shù)波形突變從而導(dǎo)致的誤判現(xiàn)象。
3 實(shí)驗(yàn)與分析
3.1 實(shí)驗(yàn)裝置
筆者用高保真麥克風(fēng)在安靜的房間里錄音,數(shù)據(jù)存儲(chǔ)格式為8 000 Hz、16 bit的wav文件,此次實(shí)驗(yàn)中錄制的純凈語(yǔ)音為“你好悠悠,導(dǎo)航去安徽工業(yè)大學(xué)”,長(zhǎng)度為6 s,將Noisex-92標(biāo)準(zhǔn)噪聲庫(kù)中的白噪聲、pink噪聲、f16噪聲和factory噪聲分別生成-3,0,3 dB 3個(gè)不同的水平,再添加到干凈的語(yǔ)音文件中,然后將合成的語(yǔ)音用于端點(diǎn)檢測(cè)。信號(hào)分幀每幀長(zhǎng)設(shè)為200個(gè)樣本,幀移為80個(gè)樣本,兩個(gè)連續(xù)幀的重疊為120個(gè)樣本,窗口函數(shù)為漢明窗。
在Windows 10操作系統(tǒng)下,本文在實(shí)驗(yàn)平臺(tái)Matlab2013a上進(jìn)行一系列的實(shí)驗(yàn)來(lái)評(píng)價(jià)所提算法的有效性,將其與近幾年的語(yǔ)音端點(diǎn)檢測(cè)經(jīng)典算法進(jìn)行比較,分別是張毅等[1]、陳昊澤等[8]、朱春利等[2]。
3.2 與經(jīng)典算法的性能比較
如圖2所示,在純凈語(yǔ)音波形上分別用豎實(shí)線和豎虛線標(biāo)記了每一段真實(shí)語(yǔ)音的起點(diǎn)和終點(diǎn),在-3dB f16、factory環(huán)境中測(cè)試了上述不同的端點(diǎn)檢測(cè)方法。
如圖2所示,張毅等[1]提出的子帶能熵比雖然通過(guò)雙參數(shù)比值的方法拉開(kāi)語(yǔ)音與噪聲特征的差距,但是周圍產(chǎn)生了大量的尖端毛刺破壞了語(yǔ)音特征,這是導(dǎo)致把噪聲誤判為語(yǔ)音的關(guān)鍵。
如圖3所示,在不規(guī)律的factory噪聲下,噪聲的特征掩蓋住語(yǔ)音本身的特征,擾亂原始語(yǔ)音的成分,使得子帶能熵比算法失效。
陳昊澤等[8]提出的對(duì)數(shù)能量頻帶方差積法雖然與張毅等[1]提出的方法原理相似,但是在圖2、圖3中均表現(xiàn)出能量弱的語(yǔ)音處兩參數(shù)做乘積處理會(huì)使得能量大處的語(yǔ)音特征幅值更大,能量小處的語(yǔ)音特征幅值更小的特性,因此若閾值選擇過(guò)小,從而使得弱語(yǔ)音處特征與噪聲齊平,導(dǎo)致誤判,若閾值選擇過(guò)大,又會(huì)有漏檢的錯(cuò)誤。朱春利等[2]提出的LMS自適應(yīng)濾波在非平穩(wěn)噪聲下降噪,前端都會(huì)有延遲噪聲,殘余噪聲在圖2中表現(xiàn)出過(guò)零率前端突出,不可避免地帶來(lái)了誤差,并且雙參數(shù)雙門限法能量和過(guò)零率參數(shù)對(duì)于表達(dá)語(yǔ)音的特征自身缺乏抗噪性和魯棒性,不能有效區(qū)分語(yǔ)音和非語(yǔ)音。
本文提出基于IMCRA的高斯統(tǒng)計(jì)模型語(yǔ)音增強(qiáng)方法對(duì)于被平穩(wěn)和非平穩(wěn)的噪聲污染的語(yǔ)音在重建語(yǔ)音質(zhì)量上都有顯著的改善,極大地幫助了后續(xù)端點(diǎn)特征的提取工作。如圖2、圖3中本文算法特征參數(shù)相較于其他3種算法整體波形平緩,相差大的語(yǔ)音能量通過(guò)本文的特征提取也可以達(dá)到上下幅值差距不大,語(yǔ)音段幅度遠(yuǎn)高于噪聲段幅度,這樣也避免了閾值的選擇帶來(lái)的困惑,最后自適應(yīng)的閾值也會(huì)隨著特征參數(shù)的變化而實(shí)時(shí)更新門限,相比學(xué)者[1-2,8]中固定的閾值在語(yǔ)音的開(kāi)始端和結(jié)束端都會(huì)有一個(gè)上升或下降的趨勢(shì),此系統(tǒng)對(duì)所有環(huán)境下語(yǔ)音的泛化和應(yīng)變能力得到了提升。
4 結(jié)語(yǔ)
經(jīng)模擬實(shí)驗(yàn)得到驗(yàn)證,不管在多么嚴(yán)峻的平穩(wěn)或非平穩(wěn)的噪聲場(chǎng)景下,相比于經(jīng)典算法,本文構(gòu)造的改進(jìn)方法都能最大限度地保證它必須具有的實(shí)際的語(yǔ)音成分,具有判斷端點(diǎn)誤差度量小和檢出率高的優(yōu)勢(shì)。此算法對(duì)于語(yǔ)音識(shí)別前端的預(yù)處理項(xiàng)目有一定的參考價(jià)值,但是依舊存在不足,一方面如何對(duì)算法進(jìn)行進(jìn)一步的優(yōu)化以滿足更加復(fù)雜的環(huán)境,另一方面保持算法精度的同時(shí)降低計(jì)算量、縮短運(yùn)算時(shí)間是本文接下來(lái)要做的工作。
參考文獻(xiàn)
[1]張毅,王可佳,席兵,等.基于子帶能熵比的語(yǔ)音端點(diǎn)檢測(cè)算法[J].計(jì)算機(jī)科學(xué),2017(5):304-307.
[2]朱春利,李昕.基于LMS減噪與改進(jìn)的雙門限語(yǔ)音端點(diǎn)檢測(cè)方法[J].系統(tǒng)仿真學(xué)報(bào),2017(9):1950-1959,1967.
[3]WANG J,YAN L,TIAN J,et al.Speech enhancement algorithm of improved OMLSA based on bilateral spectrogram filtering[J].Journal of Intelligent & Fuzzy Systems,2020(5):6881-6889.
[4]張建偉,陶亮,周健,等.基于改進(jìn)譜平滑策略的IMCRA算法及其語(yǔ)音增強(qiáng)[J].計(jì)算機(jī)工程與應(yīng)用,2017(1):153-157.
[5]吳新忠,夏令祥,張旭,等.基于譜熵梅爾積的語(yǔ)音端點(diǎn)檢測(cè)方法[J].北京郵電大學(xué)學(xué)報(bào),2019(2):83-89.
[6]WANG N,HE M,SUN J,et al.Ia-PNCC:noise processing method for underwater target recognition convolutional neural network[J].Computers,Materials & Continua,2019(1):169-181.
[7]KIM C,STERN R M.Power-normalized cepstral coefficients(PNCC)for robust speech recognition[J]. IEEE/ACM Transactions on Audio,Speech,and Language Processing,2016(7):1315-1329.
[8]陳昊澤,張志杰.基于能量和頻帶方差結(jié)合的語(yǔ)音端點(diǎn)檢測(cè)方法[J].科學(xué)技術(shù)與工程,2019(26):249-254.
(編輯 王雪芬)
Abstract: The performance of traditional endpoint detection will fail under low SNR non-stationary noise. Therefore, this paper proposes a method combining the optimal improved logarithmic Spectral Amplitude Estimation (OMLSA) and the Minimum Control Recursive Averaging algorithm (IMCRA) to denoise speech commands containing noise. The first dimension static features of PNCC are extracted as the feature parameters.At the same time, an adaptive threshold is designed based on the single-parameter double-threshold method, which can better track and predict the start and end of the actual speech. Matlab simulation results show that the proposed algorithm has more advantages than the classical algorithm under various non-stationary noises .
Key words: endpoint detection; OMLSA; IMCRA; PNCC; adaptive threshold