趙曉雷
(渭南師范學(xué)院網(wǎng)絡(luò)安全與信息化學(xué)院 渭南 714099)
在人類生活中,信息交換的形式多種多樣,而語(yǔ)音傳遞信息則成為交換信息的最有效、最常用的形式,由于在現(xiàn)實(shí)生活中獲取語(yǔ)言時(shí)存在著各種各樣的噪聲,勢(shì)必影響語(yǔ)音質(zhì)量的高低。語(yǔ)音信號(hào)分析方法有多種,比如從時(shí)域方面進(jìn)行分析,或者從頻域這個(gè)方面進(jìn)行分析,另外還有模型分析方法和非模型分析方法等等。傅立葉變換是將信號(hào)系統(tǒng)的時(shí)域和頻域的特性聯(lián)系起來(lái)的一種分析信號(hào)的方法,它不僅能夠[1]用來(lái)分析信號(hào)中的成分,也可以將分析的成分再合成信號(hào),同時(shí),也可以利用其他形式的波比如方波等作為信號(hào)數(shù)據(jù)來(lái)使用。因此可以將傅里葉變換應(yīng)用到語(yǔ)音信號(hào)處理上,在語(yǔ)音信號(hào)[2]處理上可以取得一定的效果。
對(duì)語(yǔ)音信號(hào)分析是完成語(yǔ)音信號(hào)參數(shù)的特點(diǎn)分析,只有這樣才有可能處理這些參數(shù),比如語(yǔ)音通信、語(yǔ)音合成、語(yǔ)音識(shí)別等,而且,對(duì)音質(zhì)而言,語(yǔ)音[3]由于采集過(guò)程中的限制和周圍環(huán)境的影響也有好壞之分,比如識(shí)別率和影響率的大小,這些都會(huì)影響到分析出來(lái)語(yǔ)音信號(hào)的準(zhǔn)確性和精確性。
語(yǔ)音分析無(wú)論是在選擇使用的參數(shù)還是在分析方法上,都必須按幀[4]進(jìn)行?!岸虝r(shí)分析技術(shù)”它在整個(gè)語(yǔ)音信號(hào)的分析過(guò)程中都有貫穿,而且在整個(gè)過(guò)程中也是一個(gè)不平穩(wěn)的過(guò)程。
時(shí)域分析顧名思義就是分析時(shí)域參數(shù),語(yǔ)音信號(hào)的時(shí)域分析主要是通過(guò)對(duì)采集來(lái)的語(yǔ)音信號(hào)本身的時(shí)域參數(shù)進(jìn)行分析[5]。進(jìn)行語(yǔ)音分析時(shí),時(shí)域波形是我們最能夠直觀看到的。從根本上講語(yǔ)音信號(hào)的實(shí)質(zhì)也就是一種時(shí)域,在進(jìn)行語(yǔ)音信號(hào)分析時(shí)最常采用的方法就是時(shí)域分析法,也是應(yīng)用與分析所采集信號(hào)的參數(shù)最基本的方法。
語(yǔ)音信號(hào)的頻域分析是針對(duì)語(yǔ)音信號(hào)的頻域特征進(jìn)行分析。最常用的頻域分析法有帶通濾波器組法、傅里葉變換法、線性預(yù)測(cè)法[6]等。在用傅里葉變換表示語(yǔ)音信號(hào)之前,應(yīng)先用短時(shí)傅里葉變換對(duì)語(yǔ)音信號(hào)的頻譜進(jìn)行分析,我們將所對(duì)應(yīng)的頻譜稱為“短時(shí)譜”。
假設(shè)f(t)是t函數(shù)的一個(gè)周期,其中t需要滿足一定條件,我們令其時(shí)間周期為兩個(gè)時(shí)間單位,保持連續(xù)或者第一類間斷點(diǎn)的各數(shù)為常數(shù)項(xiàng),f(t)單調(diào)或可劃分成有限單調(diào)區(qū)間,則F(t)以周期為2T的傅里葉級(jí)數(shù)收斂,和函數(shù)F(ω)也是一個(gè)以周期函數(shù),周期為兩個(gè)時(shí)間單位,并且在這些點(diǎn)上并不連續(xù),這是一個(gè)有極限的函數(shù),并且在一個(gè)固定周期里面,它的極值點(diǎn)個(gè)數(shù)也是常數(shù)有限,這就是達(dá)到狄里赫萊。
傅立葉變換公式:
在音頻信號(hào)的研究中,常常需要對(duì)信號(hào)進(jìn)行濾波,去分析某一個(gè)頻段的信號(hào)。我們經(jīng)常使用的數(shù)字濾波器有兩種,其中一種是FIR濾波器[7],有限長(zhǎng)單位沖激響應(yīng)濾波器。它不但可以保證它的幅頻特性,而且還具有嚴(yán)格的線性相位特性,而它的單位抽樣響應(yīng)的長(zhǎng)度是有限的,所以濾波器是一種非常穩(wěn)定的系統(tǒng)。另外一種是IIR濾波器,有延遲,不是線性相位的,同時(shí)其單位抽樣響應(yīng)是無(wú)限長(zhǎng)的,所以兩者相比,F(xiàn)IR有線性相位上的優(yōu)勢(shì)。但是實(shí)際運(yùn)用中,F(xiàn)IR雖然是線性相位,但是也存在延遲,這樣濾波后的信號(hào)總是有一定相位偏差,對(duì)信號(hào)分析造成很大干擾,即便是人為校正,也會(huì)帶來(lái)很多工作量。實(shí)際應(yīng)用中,我們需要的是一個(gè)零相移的濾波器[8],這樣在信號(hào)處理中,就能很好地保證我們非常關(guān)心的相位,而解決零相移問(wèn)題,是可以實(shí)現(xiàn)的。在要求沒(méi)有具體到濾波器的實(shí)時(shí)性的時(shí)候,我們將濾波器的相位頻率特性設(shè)置為固定不變的0,從另外一個(gè)相對(duì)簡(jiǎn)單的思路來(lái)說(shuō),就是讓一個(gè)信號(hào)序列在經(jīng)過(guò)濾波器濾波后[9~10],它的信號(hào)序列的相位沒(méi)有發(fā)生任何變化,我們就將這種濾波器稱之為零相移數(shù)字濾波器。
窗函數(shù)法的設(shè)計(jì)思想:便是用窗函數(shù)法設(shè)計(jì)FIR濾波器在時(shí)域進(jìn)行。窗函數(shù)法設(shè)計(jì)FIR濾波器的流程圖如圖1所示。
圖1 窗函數(shù)法設(shè)計(jì)FIR濾波器的流程圖
這里以一個(gè)語(yǔ)音信號(hào)為例子,采樣時(shí)的頻率為8000Hz。將在不同頻帶(對(duì)這段語(yǔ)音加入不同頻段的噪聲,加入噪聲為高頻余弦噪聲振幅為0.3,頻率為3000Hz,和高頻率正弦噪聲振幅為0.3,頻率為10000 Hz,和低頻正弦頻率振幅為0.3,頻率為10 Hz),使用漢明窗設(shè)計(jì)FIR和零相移FIR,分別濾波,濾波后計(jì)算兩者的信噪比。通過(guò)對(duì)比它們?yōu)V波后的頻譜和信噪比來(lái)判斷濾波的好壞。
語(yǔ)音信號(hào)進(jìn)行采集的部分[11~12],可以利用錄音工具進(jìn)行信號(hào)的采集,然后對(duì)音頻格式進(jìn)行轉(zhuǎn)換音頻格式,目的是為了使Matlab可以識(shí)別出來(lái)。
原始語(yǔ)音波形和頻譜如圖2,加入噪聲后的語(yǔ)音波形和頻譜圖如圖3所示。
使用線性FIR濾波器對(duì)語(yǔ)音去噪得到波形圖和頻譜圖,如圖4。
使用線性相移FIR濾波后信噪比:-3.4388。
出現(xiàn)負(fù)數(shù)的原因是:FIR濾波后信號(hào)出現(xiàn)了相位延遲變化[13~14],計(jì)算信噪比出現(xiàn)錯(cuò)位,得到負(fù)數(shù),所以FIR濾波器對(duì)語(yǔ)音信號(hào)濾波會(huì)產(chǎn)生很大的相位缺信息丟失[15],雖然頻段上和幅值上基本符合要求,但是在加密水印等語(yǔ)音處理中,信號(hào)延遲,并且最后100個(gè)數(shù)據(jù)點(diǎn)丟掉了,意味著原始數(shù)據(jù)點(diǎn)信息的丟失。
圖2 原始語(yǔ)音波形和頻譜出圖
圖3 加入噪聲后語(yǔ)音波圖和語(yǔ)音頻譜圖
圖4 去除噪音的波形圖和頻譜圖
使用零相移FIR濾波器對(duì)信號(hào)濾波得到波形和頻譜如圖5,信噪比通過(guò)計(jì)算我們得到:加噪后信噪比:7.2679。
圖5 零相移FIR濾波器對(duì)信號(hào)濾波波形圖和頻譜圖
FIR去噪后信噪比:-3.4379。
零相移FIR去噪后信噪比:9.0203。
在以上的實(shí)驗(yàn)中,相對(duì)普通濾波器使用零相移濾波器實(shí)現(xiàn)了信號(hào)的過(guò)濾,并且保留了很好的相位特性,零相移濾波器的過(guò)渡帶衰減比較大。零相移濾波器的濾波結(jié)果既保持了濾波幅度和頻域的特點(diǎn),又很好地保留了相位信息,沒(méi)有造成數(shù)據(jù)損失,所以零相移濾波器在語(yǔ)音濾波處理中擁有比線性FIR濾波器更多的優(yōu)勢(shì)。
[1]黃克武,陶然,吳葵,王越.分?jǐn)?shù)階傅里葉域與時(shí)域聯(lián)合干擾抑制研究[J]. 中國(guó)科學(xué):技術(shù)科學(xué),2011(10):1394-1404.
[2]Hong Kook Kim.Cepstrum-Domain Acoustic Feature Compensation Based on Decomposition of Speech and Noise for ASR in Noisy Environments[J].IEEE Transac?tions on Speech and Audio Processing,2003,11(5):435-446.
[3]Carrillo RE,Barner K E.Lorentzian based iterative hard thresholding for compressed sensing[C]//IEEE interna?tional Conference on Acoustics,Speech and Signal Pro?cessing.Prague,Czech Republic:IEEE Computer Soci?ety,2011:3664-3667.
[4]Carrillo RE,Barner K E.Lorentzian iterative hard thresh?olding:Robust compressed sensing with prior information[J].IEEE Transactions on Signal Processing,2013:4822-4833.
[5]徐巖,孟靜.基于粉紅噪聲的語(yǔ)音增強(qiáng)算法性能評(píng)價(jià)研究[J].鐵道學(xué)報(bào),2011(04):53-58.
[6]于永江,王菲.基于DSP的語(yǔ)音處理教學(xué)實(shí)驗(yàn)平臺(tái)設(shè)計(jì)[J]. 電子測(cè)試,2016(17)100-101.
[7]劉少華.基于獨(dú)立分量分析的語(yǔ)音信號(hào)分離及在數(shù)據(jù)采集卡上的實(shí)現(xiàn)[D].南京:廣西師范大學(xué),2013.
[8]馬春.基于壓縮感知的語(yǔ)音信號(hào)重構(gòu)方法研究[D].合肥:安徽大學(xué),2012.
[9]楊振,徐瓏婷.語(yǔ)音信號(hào)處理中魯棒性壓縮感知關(guān)鍵技術(shù)[J].數(shù)據(jù)采集與處理.2017(3):232-245.
[10]孫林慧.語(yǔ)音壓縮感知關(guān)鍵技術(shù)研究[D].南京:南京郵電大學(xué),2012.
[11]陸希玉,詹杰,唐昆,崔慧娟.低功耗通用語(yǔ)音處理平臺(tái)的設(shè)計(jì)實(shí)現(xiàn)[J].微型機(jī)與應(yīng)用,2005(08):16-19.
[12]周偉雄.語(yǔ)音信號(hào)的神經(jīng)網(wǎng)絡(luò)非線性分析模型及應(yīng)用[D].廣州:華南理工大學(xué),2010.
[13]Zhang Z,Rao B D.Recovery of block sparse signals using the framework of block sparse Bayesian learning[C]//IEEE international Conference on Acoustics,Speech and Signal Processing.Kyoto:IEEE,2012:3345-3348.
[14]劉鑫,金暄宏.基于LabVIEW的語(yǔ)音信號(hào)處理[J].軟件導(dǎo)報(bào),2017(3):135-137.
[15]SiggCD,Dikk T,Buhmann J M.Speech enhancement us?ing generative dictionary learing[J].Audio,Speech,and Language Processing,IEEE Transactions on,2017,20(6):1689-1712.