吳君欽,王迎福
(江西理工大學(xué)信息工程學(xué)院,江西 贛州 341000)
隨著現(xiàn)代通信技術(shù)的不斷演進(jìn)和突破,人們對于其在智能設(shè)備上的語音質(zhì)量和清晰度的需求也極大的提高了。在實(shí)際中,信號在通信設(shè)備中進(jìn)行傳遞時往往會受到來自周圍情景中各種干擾源的污染,從而導(dǎo)致終端收到的源信號出現(xiàn)變形或失真。這一問題在一些室外的工作場所或者嘈雜的工廠環(huán)境中是普遍存在的,而語音增強(qiáng)技術(shù)使其獲得極大的改善。語音增強(qiáng)技術(shù)是指發(fā)送端發(fā)送的語音信號在傳遞過程中被周圍環(huán)境中各種噪聲、干擾污染或者是覆蓋后,能從污染后的語音信號中分離出所需要的純凈語音信號,從而達(dá)到有效抑制或減弱噪聲干擾的技術(shù)。語音增強(qiáng)技術(shù)屬于語音數(shù)字信號處理中的一個預(yù)處理模塊,對于提升語音總體質(zhì)量和可識別度等方面起到了不可忽視的作用。其主要作用為:盡可能提升語音信號的總體質(zhì)量和可辯別度。語音增強(qiáng)已經(jīng)應(yīng)用在很多領(lǐng)域。例如:殘疾人助聽設(shè)備、多說話人識別、微信、QQ等語音通話、智能手機(jī)通話、語音識別等。在這些模塊中,語音增強(qiáng)技術(shù)是整個系統(tǒng)至關(guān)重要的一部分,其結(jié)果直接關(guān)系到最終語音識別的質(zhì)量和準(zhǔn)確性。因而,語音增強(qiáng)技術(shù)是現(xiàn)代語音通信系統(tǒng)中的關(guān)鍵技術(shù)之一。
近年來,各國的學(xué)者和研究者根據(jù)現(xiàn)有的非負(fù)矩陣分解(Non-negative Matrix Factorization,NMF)算法,推出大量以NMF為理論基礎(chǔ)的語音增強(qiáng)算法并在這些算法基礎(chǔ)上進(jìn)行改進(jìn)和優(yōu)化。然而在進(jìn)行問題的目標(biāo)函數(shù)的確定時,大部分的NMF增強(qiáng)算法采用了Lee等人[1]提出的乘性迭代更新算法,這樣導(dǎo)致算法產(chǎn)生的結(jié)果并不理想。為解決這一問題,稀疏和卷積非負(fù)矩陣分解方法[2]先后被提出來,從而增加了字典學(xué)習(xí)的速度和字典的精確性。A.T.Cemgil將NMF算法與統(tǒng)計模型相結(jié)合,提出了貝葉斯非負(fù)矩陣分解(Bayesian NMF,BNMF)[3]。N.Mohammadiha等[4]將該算法結(jié)合到語音增強(qiáng)技術(shù)上以及進(jìn)行改進(jìn)[5][6],均獲得了較大的提升。
NMF從非負(fù)數(shù)據(jù)中學(xué)習(xí)基于部分的表示形式。對于語音信號,通常將NMF使用幅度譜圖進(jìn)行表示,以便學(xué)習(xí)并捕獲典型聲源模式的頻譜或者時間譜原子。在語音增強(qiáng)的背景下,必須確定哪些原子屬于目標(biāo)說話者,哪些原子屬于干擾?;诒O(jiān)督的基于模型的方法通過獨(dú)立的預(yù)學(xué)習(xí)每個聲源的字典來解決此問題,從而允許實(shí)時操作,因?yàn)樵谶\(yùn)行時僅需要當(dāng)前或者是之前的頻譜幀進(jìn)行實(shí)時操作?;谀P偷臒o監(jiān)督方法利用基礎(chǔ)源的空間分布來學(xué)習(xí)沒有先驗(yàn)信息的單個源字典,這些單獨(dú)的詞典沒有語音和噪聲的單獨(dú)數(shù)據(jù)集的形式。這些無監(jiān)督方法無法實(shí)時操作,因?yàn)榭臻g信息不適用于一些未知的場景?;诖?,需要對語音和噪聲信號的字典原子進(jìn)行更深入的研究。
在本節(jié)中,介紹了GCC-NMF增強(qiáng)算法的基礎(chǔ),即NMF字典學(xué)習(xí)算法和廣義互相關(guān)(Generalized Cross Correlation,GCC)聲源定位方法。
當(dāng)將NMF應(yīng)用到音頻信號中時,假設(shè)輸入語音信號的幅度譜為|Vft|,f和t分別表示頻率和時間。NMF將頻譜分解為兩個非負(fù)矩陣:字典矩陣Wfd(見圖1(a)),其列包含的原子譜由d表示和一組對應(yīng)的激活系數(shù)矩陣Hdt,使得|V|=WH,例如NMF字典原子(見圖1(b))。輸入語音信號的幅度譜|Vft|的每一列,即每一幀t,可以近似為NMF詞典原子與來自H對應(yīng)列的激活系數(shù)的線性組合。對于本文研究的立體聲譜圖,沿時間軸將左右輸入聲譜圖連接起來,V=[VL|VR],即對于大小分別為F×T的左聲譜圖和右聲譜圖,連接矩陣的大小為F×2T。這樣,生成的NMF詞典原子僅捕獲譜信息,而在相應(yīng)的激活系數(shù)矩陣中捕獲的左右聲道之間的差異為H=[HL|HR]。
圖1 NMF在混合語音信號中學(xué)習(xí)的詞典
在傳統(tǒng)的NMF中,字典學(xué)習(xí)和激活系數(shù)推斷是通過隨機(jī)初始化字典和激活系數(shù)矩陣,然后根據(jù)乘法更新規(guī)則迭代更新它們來同時進(jìn)行的。更新規(guī)則收斂到β散度重構(gòu)代價函數(shù)的局部最小值,其一般情況是廣義Kullback-Leibler(KL)散度,定義如下
D(|V|,Λ)=|V|(log|V|-logΛ)+(Λ-|V|)
(1)
其中,Λ=WH為重構(gòu)的輸入矩陣V。從而得到KL散度的代價函數(shù)更新規(guī)則如下
(2)
(3)
其中,矩陣的次方、除法和Hadamard乘積是逐元素計算的,而I是全值為1的矩陣。NMF字典原子通常在每次更新后進(jìn)行標(biāo)準(zhǔn)化,并且其激活系數(shù)會相應(yīng)縮放。
在有噪聲、干擾和混響的情況下,GCC是一種穩(wěn)健的聲源定位方法。GCC函數(shù)利用任意頻率加權(quán)函數(shù)擴(kuò)展了頻域互相關(guān)定義,從而在計算互相關(guān)時提供了對信號組成頻率相對重要性的控制,GCC函數(shù)定義如下
(4)
其中,Re為取實(shí)部運(yùn)算符,ψft為任意頻率加權(quán)函數(shù),VLft和VRft是通過STFT計算得到語音信號的左右復(fù)制的時頻變換,*是復(fù)共軛,f、t和τ分別表示頻率、時間和到達(dá)時間差(Time Difference of Arrival,TDOA)。
(5)
然后,可以隨時間合并生成GCC-PHAT相位頻譜圖,其中3個最高峰分別對應(yīng)于3個源的TDOA估計,用藍(lán)色虛線標(biāo)識,如圖2所示。
圖2 說話人混合信號的源定位
時間t(s)到達(dá)時間差(s)
在本節(jié)中,首先介紹了GCC-NMF增強(qiáng)算法和其二進(jìn)制系數(shù)掩碼方法,并根據(jù)其空間來源進(jìn)行分組,然后獨(dú)立地重建每組原子。此外,提出了一種替代的軟掩碼方法,并介紹了字典預(yù)學(xué)習(xí)、激活系數(shù)矩陣以及在線定位方法。
根據(jù)2.2小節(jié)知識,考慮到GCC定義中的任意頻率加權(quán)函數(shù)ψft,以及單個NMF詞典原子本身就是頻率的非負(fù)函數(shù)這一事實(shí),可以構(gòu)造一組原子特定的GCC頻率加權(quán)函數(shù),定義如下
(6)
這樣,對于給定的原子d,頻率將根據(jù)其在原子中的相對大小進(jìn)行加權(quán)。然后,將所得的原子特定的GCC-NMF相位譜定義如下
(7)
(8)
(9)
該掩碼消除了干擾產(chǎn)生的原子,從而將目標(biāo)語音從混合信號中分離出來,然后通過類似于維納濾波器對輸入信號隨時間變化來估計復(fù)雜目標(biāo)的頻譜。該濾波器在頻域中被構(gòu)造為目標(biāo)估計頻譜和混合信號估計頻譜之間的比率,即語音信號的幅度輸入頻譜|Vcft|的重構(gòu)估計。然后,將濾波器與復(fù)雜的輸入頻譜圖Vcft相乘,即
(10)
Λcft=∑dWfdHcdt
(11)
(12)
在時頻域中,軟掩碼[9][10]替代二進(jìn)制掩碼是提高語音增強(qiáng)性能的常用技術(shù)。在本節(jié)中,提出了一種軟掩碼替代方法,用來替代式(8)中的二進(jìn)制激活系數(shù)掩碼方法。該NMF激活系數(shù)軟掩碼函數(shù)定義如下
(13)
使用NMF進(jìn)行有監(jiān)督語音增強(qiáng)的一種典型方法是預(yù)先學(xué)習(xí)一對NMF字典:一個使用單獨(dú)的語音信號作為NMF字典進(jìn)行預(yù)學(xué)習(xí),另一個使用單獨(dú)的噪聲信號為NMF字典進(jìn)行預(yù)學(xué)習(xí)。對于給定的測試信號,在保持字典不變時,推測出兩個字典的激活系數(shù)。通過從包含單獨(dú)語音和噪聲信號中的數(shù)據(jù)集中預(yù)學(xué)習(xí)單個NMF字典,并將這種方法推廣到無監(jiān)督的情況。
與有監(jiān)督方法相反,由于無需使用任何先驗(yàn)知識就可以為語音和噪聲信號學(xué)習(xí)單個字典,因此該方法是純無監(jiān)督的。由于單個預(yù)學(xué)習(xí)的NMF字典同時包含了語音和噪聲信號的特征,然后根據(jù)式(8)和(13)將各個NMF字典原子在每個時間點(diǎn)與目標(biāo)說話者或者干擾相關(guān)聯(lián)。這種方法允許單個NMF字典原子在不同的時間點(diǎn)對語音或噪聲信號進(jìn)行編碼,從而克服了有監(jiān)督情況下單個字典原子只能編碼單個源的限制。因此,字典預(yù)學(xué)習(xí)方法能夠在這些條件下適用,從而避免了當(dāng)訓(xùn)練和測試數(shù)據(jù)源自不同數(shù)據(jù)集時引起的不匹配問題。
通過隨機(jī)初始化激活系數(shù)向量并根據(jù)式(2)進(jìn)行迭代更新,可以逐幀推導(dǎo)出輸入混合語音信號預(yù)學(xué)習(xí)字典的激活系數(shù)。由于估計目標(biāo)信號為W(H⊙M),估計干擾信號為W(H⊙(1-M)),因此可以得到估計混合信號為WH(目標(biāo)和干擾信號之和)。因此,混合信號的系數(shù)矩陣H與掩碼系數(shù)矩陣M的估計是相互獨(dú)立的。然后,系數(shù)掩碼根據(jù)其TDOA估計值抑制屬于噪聲信號的字典原子。在實(shí)驗(yàn)中證明:將激活系數(shù)H去掉,可以實(shí)現(xiàn)更好的性能。在這種情況下,可以將激活系數(shù)矩陣Hdt替換為單位矩陣,從而將式(10)定義的類似維納濾波器簡化為如下形式
(14)
(15)
其中,L是滑動窗口的大小。窗口大小的影響可以實(shí)時交互地探究,其中較小的窗口可跟蹤源位置中更快的變化,但可能會在語音短暫停頓期間切換到背景噪聲,而較大的窗口會在追蹤更多緩慢的移動揚(yáng)聲器時表現(xiàn)更加穩(wěn)定。
由于以短時傅里葉變換(Short-Time Fourier Transform,STFT)為基礎(chǔ)的語音增強(qiáng)算法會產(chǎn)生固有的算法等待時間,即窗口大小加跳數(shù),這與計算機(jī)的處理速度無關(guān)。在充分考慮頻譜分辨率和窗口大小的情況下,包括在線GCC-NMF在內(nèi)依賴高頻譜分辨率的算法通常具有大于64ms的延遲。但是,這樣的高延遲對于包括助聽器等的語音增強(qiáng)的許多實(shí)際應(yīng)用來說容忍度很低。因此,本節(jié)提出了將非對稱STFT窗口化方法與在線GCC-NMF語音增強(qiáng)算法相結(jié)合,從而將算法的延遲大大降低。
STFT以幀為單位處理語音信號,即較短時間的語音信號重疊段,其中在計算其傅里葉變換之前,將每一幀信號都乘以分析窗口,即對信號加窗。而幀的重新合成則是通過對加窗后的幀進(jìn)行傅里葉逆變換,再將所得樣本乘以合成窗口并通過重疊相加(Overlap-Add,OLA)方法[12][13]合并相鄰幀來實(shí)現(xiàn)的。如果幀變換具有恒定的重疊相加(Constant Overlap-Add,COLA)特性,即如果分析和合成窗口矩陣點(diǎn)積的重疊和不隨時間改變,則可以實(shí)現(xiàn)理想的幀重構(gòu)。常用的分析和合成窗是逐點(diǎn)平方根的周期性漢寧窗,其中幀大小的周期性漢寧函數(shù)定義如下
(16)
其中n表示窗函數(shù)的長度,N表示窗口大小。以上通過OLA重新合成的重疊信號加窗過程產(chǎn)生了等同于窗口大小N的延遲LOLA。為了保持實(shí)時性,包括傅里葉變換及其逆變換在內(nèi)的所有處理都應(yīng)在單個幀內(nèi)提前R進(jìn)行,從而使得系統(tǒng)總共產(chǎn)生了N+R的延遲。例如,對以16kHz采樣的輸入語音信號進(jìn)行GCC-NMF語音增強(qiáng),其窗口大小為1024個采樣和256個采樣超前幀,將導(dǎo)致系統(tǒng)總共產(chǎn)生80ms的延遲。
減少實(shí)時GCC-NMF語音增強(qiáng)系統(tǒng)延遲的一種簡單方法是直接減小窗口大小N。但是這種方法不僅會降低頻譜的分辨率,而且會使得客觀語音增強(qiáng)質(zhì)量和清晰度顯著降低。因此,本文提出了一種基于非對稱STFT窗口化方法來減少GCC-NMF系統(tǒng)的延遲。
與傳統(tǒng)的具有相同周期的對稱分析和合成窗口不同,非對稱窗口能夠通過將長的分析窗口與短的合成窗口相結(jié)合來同時實(shí)現(xiàn)高頻譜分辨率和低延遲。本文使用的非對稱窗口方法源自于文獻(xiàn)[14]的改進(jìn),其它非對稱窗口化方法可以參考其它文獻(xiàn)[15]-[17]。
對于給定的幀大小N,非對稱分析和合成窗口的設(shè)計應(yīng)滿足它們的乘積是大小為2M 圖3 幀長為N的對稱和非對稱STFT窗函數(shù) (17) (18) 這些窗口函數(shù)相對于分析窗和合成窗乘積得漢寧窗的中心分為兩部分,即n=N-M。在N-M的右側(cè)范圍內(nèi),分析和合成窗均由大小為2M平方根的漢寧窗口的右半部分組成。在左側(cè)范圍內(nèi),分析窗口由大小為N-M的漢寧窗口的左半部分組成,而合成窗定義為分析窗與乘積漢寧窗兩者的比值,其范圍限制為N-2M≤n 在本小節(jié)中,使用語譜圖分析法、盲源分離(Blind Speech Separation,BSS)評測[18]、聲源分離的感知評價方法(Perceptual Evaluation for Audio Source Separation,PEASS)[19]、短時客觀可懂度(Short-Time Objective Intelligibility,STOI)[20]、擴(kuò)展短時客觀可懂度(ExtendedShort-Time Objective Intelligibility,ESTOI)[21]作為客觀語音評測指標(biāo)對該算法在語音質(zhì)量和清晰度方面進(jìn)行評估,并將所提出的無監(jiān)督的低延遲語音增強(qiáng)算法與其它無監(jiān)督和半監(jiān)督方法進(jìn)行對比,然后探究了合成窗大小對對稱方法與非對稱方法的影響。 4.3.1 實(shí)驗(yàn)參數(shù)設(shè)置 在本小節(jié)中,在噪聲開發(fā)數(shù)據(jù)集中的SiSEC 2016語音集[18]上評估實(shí)時GCC-NMF算法,該語音數(shù)據(jù)集包括語音和實(shí)際背景噪聲的雙通道混合信號,麥克風(fēng)相隔8.6cm。在CHiME 2016開發(fā)集的一個子集[22]上進(jìn)行無監(jiān)督的詞典預(yù)學(xué)習(xí),并在單個麥克風(fēng)的語音和背景噪聲信號之間平均分配隨機(jī)選擇的幀。SiSEC和CHiME的采樣率均為16 kHz,使用STFT具有1024個采樣窗口(64 ms),采樣大小為256跳(16 ms)以及平方根漢寧的分析和合成窗函數(shù)的對稱窗口情況。默認(rèn)的GCC-NMF參數(shù)設(shè)置為字典大小為1024,NMF字典預(yù)學(xué)習(xí)更新次數(shù)為100,運(yùn)行時NMF激活系數(shù)推斷更新次數(shù)為100,TDOA樣本數(shù)為128和目標(biāo)TDOA窗口大小為總范圍的3/64,即6個TDOA樣本。 語音增強(qiáng)質(zhì)量使用PEASS方法工具包和BSS Eval性能測量工具進(jìn)行量化。PEASS是一種基于感知的方法,與BSS Eval提供的基于SNR的傳統(tǒng)指標(biāo)相比,它與主觀評估的相關(guān)性更好。這些開源工具包都提供了總體增強(qiáng)質(zhì)量,目標(biāo)保真度,干擾抑制和偽像的度量,這些分?jǐn)?shù)越高越好。對于PEASS,分別將與總體感知有關(guān)、與目標(biāo)感知有關(guān)、與干擾感知有關(guān)和與偽像感知有關(guān)的值分別命名為總體感知分?jǐn)?shù)(Overall Perceptual Score,OPS)、與目標(biāo)相關(guān)的感知分?jǐn)?shù)(Target-related Perceptual Score,TPS)、與干擾相關(guān)的感知分?jǐn)?shù)(Interference-related Perceptual Score,IPS)、以及與偽像相關(guān)的感知分?jǐn)?shù)(Artifacts-related Perceptual Score,APS),在BSS Eval情況下分別命名為信號失真率(Source to Distortion Ratio,SDR)、噪聲抑制比(Interferencesto Source Ratio,ISR)信號干擾率(Source to Interferences Ratio,SIR)、和信號偽像率(Sources to Artifacts Ratio,SAR)。語音清晰度通過STOI和ESTOI度量進(jìn)行量化,其中相比STOI,ESTOI與聽力測試分?jǐn)?shù)相關(guān)性更好[23]。 4.3.2 實(shí)驗(yàn)結(jié)果分析 1)非對稱窗口和NMF字典原子 在圖4(a)中,使用了不同延遲的對稱STFT窗口方法學(xué)習(xí)NMF字典原子。隨著窗口尺寸的減小,字典原子的頻帶越來越寬,并且使用更長周期的窗口捕獲的譜細(xì)節(jié)也會丟失。與傳統(tǒng)的加窗方法相反,非對稱加窗可以保留較長的分析窗口,同時減小了合成窗口的大小。隨著合成窗口大小2M的減小,分析窗口的大小固定為幀大小N,其形狀越來越接近理想化。圖4(c)顯示使用了不同延遲的非對稱窗方法學(xué)習(xí)的NMF字典原子。學(xué)習(xí)的NMF字典原子保留了譜細(xì)節(jié),而與合成窗口大小無關(guān)。因?yàn)樵谒星闆r下均使用了相同的訓(xùn)練數(shù)據(jù)和隨機(jī)種子,從而使得所得的字典原子在所有算法的延遲中非常相似,在學(xué)習(xí)的NMF字典原子中的細(xì)微差異是由不同的分析窗口所產(chǎn)生的。 圖4 NMF字典和對應(yīng)的STFT分析窗口 2)非對稱窗口以及語音增強(qiáng)質(zhì)量評估 在表1、2和3中,使用ESTOI、PEASS、STOI以及BSS分別對所提出來的方法進(jìn)行評估,并將該方法與其它語音增強(qiáng)算法的在相同的數(shù)據(jù)集得到的測試結(jié)果進(jìn)行比較。其中,實(shí)驗(yàn)數(shù)據(jù)都是以平均分離分?jǐn)?shù)±標(biāo)準(zhǔn)偏差呈現(xiàn),從而確保實(shí)驗(yàn)結(jié)果的相對穩(wěn)定,數(shù)據(jù)集取自SiSEC dev1實(shí)時語音記錄數(shù)據(jù)集。除了文獻(xiàn)[28]提出的方法外,所提出方法在各項性能上均由于其它方法,這些方法大都依賴于監(jiān)督學(xué)習(xí)或不適合在線環(huán)境。略優(yōu)于所提方法的是一種使用區(qū)域增長排列對齊方法的頻域盲源分離技術(shù)。盡管作者表示該方法具有在線運(yùn)行的可能性,但并未提供在線方法的實(shí)現(xiàn)。而相對于傳統(tǒng)的對稱窗口化方法,本實(shí)驗(yàn)采用的是改進(jìn)的非對稱漢寧窗,所提方法在語音增強(qiáng)質(zhì)量和可懂度兩項指標(biāo)上均略好于對稱窗方法,且其各項評測值相對更加穩(wěn)定,因此可以說所提出STFT非對稱窗口化對GCC-NMF方法在性能上是有所提升的。 表1 PEASS評測值 表2 STOI和ESTOI評測值 表3 BSS評測值(單位:dB) 3)合成窗大小對增強(qiáng)性能的影響 在圖5(a)中,給出了對稱窗口情況下客觀語音增強(qiáng)質(zhì)量和可懂度度量與算法延遲之間的關(guān)系。注意到,總體質(zhì)量得分以及清晰度得分都隨著窗口尺寸的減小而降低,而對于小于8ms的窗口,PEASS總體性能會顯著下降。這很可能是由于語音和噪聲源與圖4(a)中所示的帶寬較大的NMF字典原子可分離性降低,從而導(dǎo)致所得在線GCC-NMF語音增強(qiáng)的質(zhì)量下降。同時還注意到干擾抑制與目標(biāo)保真度和偽像PEASS分?jǐn)?shù)之間存在重大折衷,其中較小的窗口尺寸會導(dǎo)致干擾抑制增加,但代價是明顯的偽像和較差的目標(biāo)保真度。在圖5(b)中,展示了在與上述相同的條件下非對稱加窗方法的延遲的影響。這里的分析窗口在16 kHz(64 ms)時固定為1024個樣本,而合成窗口的大小則從512到32個樣本(32到2 ms)變化,在每種情況下,每個窗口使用的合成窗口都有75%的重疊部分。從圖中可以看到,對于不同的合成窗口大小,所有評測值都保持相對恒定,即使對于低至2 ms的延遲也是如此。這些結(jié)果表明,提出的非對稱加窗方法是一種可行的解決方案,可將GCC-NMF算法的延遲降低到遠(yuǎn)低于聽力設(shè)備所需閾值,同時還能保持較高延遲的對稱加窗方法的質(zhì)量。因此,該方法能小幅提升傳統(tǒng)對稱窗法的性能,還能降低算法的延遲。 圖5 不同的合成窗大小對語音增強(qiáng)性能的影響 此外,在圖6中,分別給出了對稱加窗法和非對稱加窗法結(jié)合GCC-NMF進(jìn)行語音增強(qiáng)后的語譜圖,相比于源信號,增強(qiáng)后的語音信號大大減弱了靜音段和幀間的底噪干擾,同時保留了高頻段的有用信號成分,實(shí)現(xiàn)了源語音信號的降噪和增強(qiáng)。 圖6 源信號與增強(qiáng)后的語音信號語譜圖 本文提出了一種將廣義互相關(guān)方法與非負(fù)矩陣相結(jié)合的兩通道語音增強(qiáng)算法。該方法通過對輸入混合信號進(jìn)行字典預(yù)學(xué)習(xí),然后隨機(jī)初始化激活系數(shù)向量并進(jìn)行迭代更新,從而可以逐幀推導(dǎo)出輸入混合語音信號預(yù)學(xué)習(xí)字典的激活系數(shù)。此外,使用了最大池化廣義互相關(guān)相變技術(shù)進(jìn)行在線目標(biāo)定位,不僅確保了算法的實(shí)時性,而且極大地保證了重構(gòu)后的語音質(zhì)量和辨識度。在此基礎(chǔ)上,針對以STFT為基礎(chǔ)的語音增強(qiáng)算法會產(chǎn)生固有的算法延遲,提出了一種非對稱短時傅里葉變換的窗口化方法代替?zhèn)鹘y(tǒng)的對稱窗方法,該方法使用較長的分析窗和較短的合成窗相結(jié)合來實(shí)現(xiàn)算法的低時延。實(shí)驗(yàn)證明,該算法能將固有算法時延降低至2ms而不會降低語音的質(zhì)量和清晰度。4.3 實(shí)驗(yàn)測試與結(jié)果分析
5 結(jié)論