• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于多任務(wù)稀疏表達(dá)的二元麥克風(fēng)小陣列話音增強(qiáng)算法

      2014-10-27 11:53:12楊立春葉敏超錢沄濤
      通信學(xué)報 2014年2期
      關(guān)鍵詞:話音多任務(wù)麥克風(fēng)

      楊立春,葉敏超,錢沄濤

      (1. 浙江大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,浙江 杭州 310027;2. 浙江萬里學(xué)院 智能控制技術(shù)研究所,浙江 寧波 315101)

      1 引言

      二元麥克風(fēng)小陣列被廣泛應(yīng)用在手機(jī)、助聽器等受空間、運(yùn)算能力和成本限制的設(shè)備中,用以實(shí)現(xiàn)話音增強(qiáng)。自適應(yīng)波束形成是二元麥克風(fēng)小陣列話音增強(qiáng)的常用算法[1~5],其思想是通過期望目標(biāo)方向信號獲得最大增益,并通過權(quán)系數(shù)的更新估計非目標(biāo)方向干擾信號實(shí)現(xiàn)話音增強(qiáng)。為了防止目標(biāo)話音信號失真,權(quán)系數(shù)在話音段需停止更新,而這需要話音活動檢測(VAD,voice activity detection)技術(shù)支持,同時要求處理信號的開始階段為非話音段,因此 VAD的準(zhǔn)確性成為影響波束形成話音增強(qiáng)效果的重要因素。

      另一種常見的二元麥克風(fēng)小陣列話音增強(qiáng)算法是相干濾波器(coherence-based filter)方法[6],通過假定陣元間目標(biāo)話音信號相關(guān)而噪聲信號不相關(guān),使用基于互功率譜密度的相干函數(shù)進(jìn)行降噪。實(shí)際環(huán)境中,尤其是在小陣列中,這種假設(shè)往往不成立,因而一般通過估計噪聲譜的方法進(jìn)行相干濾波[7]。與波束形成方法一樣,噪聲譜估計方法也要求目標(biāo)話音信號不能出現(xiàn)在處理信號的第一幀位置,且通常需要 VAD技術(shù)支持,以防止噪聲譜估計錯誤造成話音信號失真。

      近年來基于多任務(wù)稀疏表達(dá)的學(xué)習(xí)方法[8~10]在去噪領(lǐng)域得到研究,該方法通過構(gòu)造固定的字典或動態(tài)學(xué)習(xí)得到的字典,在特定的約束下可以使信號在此字典上表示的系數(shù)稀疏化,當(dāng)多個任務(wù)中某些信號在此字典上表達(dá)的系數(shù)近似相同時將會被保留,而那些系數(shù)不同的信號將被抑制。

      稀疏編碼(sparse coding)在單道話音增強(qiáng)[11~13]算法中的研究表明,話音信號可以使用合適字典中的少量基函數(shù)進(jìn)行表達(dá)。而高斯白噪聲等隨機(jī)噪聲不能被少量基函數(shù)完整表達(dá),故單道稀疏編碼算法對這些類型噪聲的抑制較好。但無論是構(gòu)造固定字典還是通過學(xué)習(xí)的字典均無法完全將目標(biāo)信號和非平穩(wěn)噪聲分離,所以同其他單道算法一樣,該算法也不能對非平穩(wěn)噪聲進(jìn)行有效抑制。

      本文提出了一種基于多任務(wù)稀疏表達(dá)的二元麥克風(fēng)小陣列話音增強(qiáng)算法,當(dāng)2個陣元接收到的目標(biāo)信號通過時延補(bǔ)償使得它們在同一時刻基本一致,而噪聲信號不一致時,對目標(biāo)信號和噪聲信號在各自的字典上進(jìn)行稀疏表達(dá),2個陣元中的目標(biāo)信號對應(yīng)其字典上的系數(shù)應(yīng)基本相同,而噪聲信號對應(yīng)其字典上的系數(shù)不同,使用多任務(wù)稀疏表達(dá)即可將這些不一致的噪聲信號系數(shù)進(jìn)行抑制,從而實(shí)現(xiàn)降噪的目的。

      話音信號的字典通過語料庫離線學(xué)習(xí)獲得。由于話音信號具有共性特征,用語料庫離線學(xué)習(xí)得到的字典與說話人及環(huán)境都沒有關(guān)系,具有通用性。而噪聲字典使用通過陣列得到的參考噪聲信號在線學(xué)習(xí)得到。因環(huán)境噪聲的多變特性,在線學(xué)習(xí)方法能夠保證噪聲字典對環(huán)境噪聲的適應(yīng)性。由于噪聲抑制主要通過其在2個陣元字典表達(dá)上的一致性實(shí)現(xiàn),因而泄露到參考噪聲中的少量話音信號對降噪效果影響可以忽略。因此本文算法無需使用VAD算法,也沒有第一幀要求非話音的限制,保證了算法的穩(wěn)定性和通用性。

      2 信號模型

      考慮一個由2個全指向性麥克風(fēng)組成的二元麥克風(fēng)小陣列,假定目標(biāo)話音信號和噪聲信號不相關(guān),則到達(dá)2個陣元的信號可以表示為

      其中,xi(t)表示陣元接收到的目標(biāo)話音信號;ni(t)表示陣元接收到的噪聲信號。把式(1)兩邊同時進(jìn)行短時傅里葉變換轉(zhuǎn)換成頻域形式為

      陣元間目標(biāo)信號的時延差可通過時延估計算法實(shí)現(xiàn)[14,15]。由于在小陣列中陣元間距較小,在采樣率不夠高的情況下,2個陣元的目標(biāo)信號的時延一般小于一個采樣點(diǎn),此時2個陣元的目標(biāo)信號僅在相位上有差別。當(dāng)目標(biāo)信號以與陣列的第1個陣元成θ角方向傳播時,第2個陣元接收的目標(biāo)信號與第1個陣元的目標(biāo)信號的相位差為e-jωdcosθ/c。對第2個陣元的目標(biāo)信號進(jìn)行相位補(bǔ)償后可得

      其中,θ為目標(biāo)聲源與陣列的第1個陣元方向的夾角;ω為頻率因子,d為陣元間距;c為聲波在空氣中傳播的速度。式(3)和式(2)表示陣元1接收到的含噪信號(當(dāng)i=1時),可以看出經(jīng)過相位補(bǔ)償后的2個陣元中的目標(biāo)信號完全相同,而非目標(biāo)信號方向上的噪聲信號則不同。為了處理方便,把經(jīng)過相位補(bǔ)償后的 2個信號經(jīng)過傅里葉反變換轉(zhuǎn)到時域形式,分別為y1p(t)和y2p(t)。

      3 多任務(wù)稀疏性約束話音增強(qiáng)算法

      假定陣列中每個陣元接收到的噪聲信號是式(1)所示的加性噪聲,經(jīng)相位補(bǔ)償后第2個陣元含噪信號如式(3)所示,與式(2)第1個陣元含噪信號相比,目標(biāo)信號基本相同,而噪聲信號不同,因而符合多任務(wù)稀疏學(xué)習(xí)降噪的條件?;诙嗳蝿?wù)稀疏性約束話音增強(qiáng)算法主要包括兩部分:1)通過字典學(xué)習(xí)找到目標(biāo)話音信號和噪聲信號合適的字典;2)通過混合字典的多任務(wù)稀疏表達(dá)實(shí)現(xiàn)噪聲抑制。

      3.1 字典學(xué)習(xí)

      通用基函數(shù),例如小波基、離散余弦變換(DCT,discrete cosine transform)基,由于可以作為任意非隨機(jī)信號的字典,因而很難使用它們分離目標(biāo)信號和噪聲信號。字典學(xué)習(xí)的目標(biāo)是通過使用某種類型信號的訓(xùn)練樣本,獲得符合其特征基向量組成的字典。學(xué)習(xí)得到的自適應(yīng)字典可以較好地重構(gòu)與訓(xùn)練樣本信號較為類似的信號,而不能完全重構(gòu)其他與訓(xùn)練樣本信號差異較大的信號。因而相對通用的基函數(shù)字典,通過學(xué)習(xí)得到的字典可以更好地實(shí)現(xiàn)信號分離。在字典中,每列也被稱為“原子”,非隨機(jī)信號如果能使用少量字典中的“原子”線性表達(dá),則稱該信號能被該字典稀疏表達(dá)。一般在噪聲抑制和信號分離的應(yīng)用場景中,均使用過完備字典(或稱冗余字典),即字典中包含的原子數(shù)目大于信號幀長。

      考慮信號序列 si∈Rm,i=1,2,…,n,其字典應(yīng)該滿足

      其中,D∈Rm×k為字典,上式中的λ′為正則化約束系數(shù),β為系數(shù)矩陣。通過對βi施以?1范數(shù)約束可以得到其稀疏解。為了能使用式(4)有效地對大訓(xùn)練樣本集進(jìn)行求解,文獻(xiàn)[16,17]提出了一種基于隨機(jī)梯度下降的字典學(xué)習(xí)算法。該算法采用交替優(yōu)化系數(shù)與字典的方式進(jìn)行求解,每一次迭代,首先固定字典D,求解系數(shù)β的優(yōu)化問題,然后固定系數(shù)β,進(jìn)行字典D的更新[16,17],詳細(xì)步驟如算法1所示。

      算法1 基于隨機(jī)梯度下降的字典學(xué)習(xí)算法

      輸入:

      信號:si∈Rm,

      正則化參數(shù):λ′,

      初始字典:D0∈Rm×k,

      迭代次數(shù):T

      輸出:

      字典矩陣:DT∈Rm×k

      步驟:

      1)初始化:A0←0,B0←0;

      2)for t=1 to Tdo

      3)固定字典,求解稀疏編碼的系數(shù):

      6)使用算法2的字典更新算法更新字典:

      7)end for

      8)returnDT;

      算法2 字典更新算法

      輸入:

      輸出:

      更新后的字典矩陣:D∈Rm×k;

      步驟:

      1)repeat

      2)for j=1 to k do

      3)更新字典的第 j列:

      4)end for

      5)until convergence

      6)return D;

      由于目標(biāo)話音信號和非隨機(jī)噪聲信號適合使用不同的字典進(jìn)行稀疏表達(dá),通過把目標(biāo)話音信號字典和噪聲字典連接的組合字典,實(shí)現(xiàn)每個陣元接收到的含噪信號可以通過混合字典的稀疏表示進(jìn)行分離,將噪聲字典對應(yīng)的系數(shù)置0即可實(shí)現(xiàn)降噪的目的,因此在降噪前需分別得到話音信號字典和噪聲字典。

      為了得到目標(biāo)話音信號和噪聲信號的字典,需要分別使用這 2種信號作為訓(xùn)練樣本進(jìn)行字典學(xué)習(xí)。對于二元麥克風(fēng)陣列來說,其噪聲相關(guān)信號可以表示為

      式(5)表明 yn(t)理論上不含目標(biāo)信號且與原始噪聲信號相關(guān)。由于信號數(shù)據(jù)字典是信號在其特征空間中基向量的集合,信號的衰減或增強(qiáng)不會影響信號字典本身。因而可以使用信號yn(t)作為原始噪聲信號字典學(xué)習(xí)的信號得到其字典 Dn。假定在話音增強(qiáng)過程中噪聲環(huán)境不變,因此噪聲字典的學(xué)習(xí)可以放在話音增強(qiáng)的開始階段,利用式(5)獲得開始一段的相關(guān)噪聲,并作為訓(xùn)練樣本學(xué)習(xí)得到該噪聲字典。

      對于目標(biāo)話音信號,由于不能直接獲得其不含噪聲干擾的純凈信號,因而需要預(yù)先使用語料庫進(jìn)行學(xué)習(xí)獲得其過完備字典Dt。本文使用GRID[18]語料庫,該語料庫提供了18 個男性和16個女性每人1000個句子的語料。訓(xùn)練中選取其中男女各16人,對其語料進(jìn)行訓(xùn)練得到具有一定通用性的話音信號字典。

      3.2 話音降噪

      由于含噪信號 y1p(t)和y2p(t)中含有共同的目標(biāo)信號x1(t),為了得到這些共同信號,可以通過?2/ ?1正則化稀疏回歸得到稀疏的系數(shù)矩陣,然后將噪聲字典對應(yīng)的系數(shù)置 0,最后進(jìn)行稀疏重構(gòu)即可實(shí)現(xiàn)降噪,如圖1所示。

      圖1 多任務(wù)稀疏表達(dá)降噪原理

      圖1中左側(cè)y1和y2分別為稀疏重構(gòu)后的2個陣元的信號,D代表混合字典,它由上方左側(cè)左子矩陣的話音字典Dt和右子矩陣的噪聲字典Dn共同組成,右側(cè)W是2個陣元信號在字典上表達(dá)對應(yīng)的稀疏系數(shù)矩陣,其上部對應(yīng)目標(biāo)信號系數(shù),下部為噪聲信號系數(shù),這些系數(shù)是通過?2/ ?1正則化約束得到。2個麥克風(fēng)所獲得的噪聲信號由于存在不一致性,故在多任務(wù)稀疏模型中噪聲信號的系數(shù)得以抑制,圖1中W對應(yīng)框下半部分噪聲對應(yīng)系數(shù)較小或者為0,去噪處理時統(tǒng)一做置0處理。

      假定從2個陣元接收信號中每次取m個采樣點(diǎn)并且經(jīng)過相位補(bǔ)償,然后定義Y為一個m行2列的矩陣,第1列和第2列分別為信號 y1p(t )和y2p(t)的m個采樣點(diǎn),Y在混合字典上表達(dá)對應(yīng)的系數(shù)矩陣W滿足下式約束

      其中,D=[Dt,Dn],是目標(biāo)話音字典和噪聲字典組成的過完備基向量組成的數(shù)據(jù)字典矩陣;λ為正則化系數(shù),其值的大小決定了系數(shù)矩陣的稀疏性程度;式(6)中第二項為對系數(shù)進(jìn)行稀疏性約束的?2/ ?1混合范數(shù)。求得式(6)中的最優(yōu)解后,還需要對中對應(yīng)噪聲部分的系數(shù)置0,得到。此時陣列降噪后的輸出信號為

      式(6)是以下多任務(wù)稀疏表示的一種特殊情況:

      其中, f(·)是一個光滑的凸代價函數(shù)。該問題可使用加速近似梯度算法[9,18,19]進(jìn)行求解。該算法為迭代算法,每一次迭代中首先不考慮正則化項,使用加速梯度下降使得 f(·)函數(shù)值減小,然后再將加速梯度下降得到的解通過近似算子“投影”到約束的可行域中。加速近似梯度算法的框架如算法3所示。

      算法3 加速近似梯度算法

      輸入:

      代價函數(shù): f(·)

      正則化參數(shù):λ

      初始化仿射組合參數(shù):β0

      初始化系數(shù)矩陣:W0

      收斂閾值:τ

      輸出:

      系數(shù)矩陣:W*

      步驟:

      1)repeat

      2)通過仿射組合計算搜索點(diǎn):

      3)使用自適應(yīng)步長 t(k)計算下一個梯度下降點(diǎn)U(k+1):

      4)使用近似算子計算下一個系數(shù)矩陣:W(k+1):

      5)更新 t(k+1)和β(k+1)準(zhǔn)備下次迭代

      6)k←k+1;

      7)until||W(k+1)-W(k)||2≤τ

      8)return W*=W(k+1)

      對于算法3中的4),文獻(xiàn)[19]給出了一種簡便的按行分離的計算方法

      3.3 算法復(fù)雜度分析

      為了衡量本文算法的性能,選擇廣義旁瓣抵消器(GSC,generalized sidelobe canceller)和基于相干濾波器作為參考對象。由于在二元麥克風(fēng)小陣列中3種算法均需要進(jìn)行短時傅里葉變換和反變換,因而在比較中可以都不考慮傅里葉變換和反變換復(fù)雜度的影響。

      本文方法是基于加速近似梯度算法,對于一個二元陣列,每次處理m個采樣點(diǎn),則基于?2/ ?1正則化約束多任務(wù)稀疏表達(dá)的算法復(fù)雜度是O(n(m+2)/,其中,ε為信號重構(gòu)誤差,n為字典中原子的數(shù)目。而相位補(bǔ)償?shù)乃惴◤?fù)雜度為O(m),因而本文算法不考慮傅里葉變換與反變換的計算量時,對 m個采樣點(diǎn)的算法復(fù)雜度為;GSC 算法復(fù)雜度[20]為O(4ml+m+3),其中,l為GSC中自適應(yīng)濾波器的長度,因此基于二元麥克風(fēng)小陣列的 GSC算法加上時延補(bǔ)償后的總復(fù)雜度為O(4ml+2m+3);而相干濾波器[7]的算法復(fù)雜度為O(m)。

      由于本文算法中使用的是過完備字典,即n>m,同時ε為很小的正數(shù),因此本文的算法復(fù)雜度比另外2種算法復(fù)雜度高。不過由于在實(shí)際處理時,對信號是分幀進(jìn)行的,只要幀不太長,對于當(dāng)前主流的處理器運(yùn)算速度,本文算法基本能滿足實(shí)時性要求。

      4 實(shí)驗(yàn)分析

      本實(shí)驗(yàn)主要驗(yàn)證本文算法在目標(biāo)話音信號陣列接收信號的開始位置和非開始位置對于非平穩(wěn)噪聲干擾的降噪效果,信號的幀長為256點(diǎn),字典矩陣大小為256×1024。實(shí)驗(yàn)表明,正則化系數(shù)λ取值為0.1附近時,可以取得較好的去噪效果,故實(shí)驗(yàn)中使用λ=0. 1。每個實(shí)驗(yàn)采用開始2s長度的噪聲相關(guān)信號進(jìn)行學(xué)習(xí)得到相應(yīng)的噪聲字典,該相關(guān)噪聲信號通過式(5)計算得到。另外使用GSC[1]和基于相干濾波器[7]2種經(jīng)典的二元麥克風(fēng)小陣列話音增強(qiáng)算法作為比較,同時假設(shè)這2種方法在VAD估計時完全準(zhǔn)確。

      4.1 仿真實(shí)驗(yàn)

      仿真實(shí)驗(yàn)使用陣元間距為2 cm的二元麥克風(fēng)小陣列,干擾噪聲信號來自Noise92[21]噪聲庫,在實(shí)驗(yàn)中使用了2個相同的噪聲干擾源,用來模擬真實(shí)環(huán)境多個噪聲源情況,信號的采樣頻率降到16 KHz;目標(biāo)聲源離陣列15 cm,圖2為噪聲干擾源、目標(biāo)信號源、陣列的位置關(guān)系圖,為了與實(shí)際環(huán)境相似,圖2中目標(biāo)信號位置位于2個陣元中心線偏左一點(diǎn),本實(shí)驗(yàn)中偏左 3 mm,處理時認(rèn)為是在中心線上,以模擬實(shí)際目標(biāo)信號位置估計略有偏差情景。陣列仿真信號使用Kentucky大學(xué)的ArrayToolbox工具箱產(chǎn)生。

      圖2 仿真環(huán)境陣列、目標(biāo)信號、噪聲信號位置關(guān)系

      第1個實(shí)驗(yàn)的主要目的是驗(yàn)證本文算法對于目標(biāo)信號處于開始幀位置時的降噪能力,干擾源為多人話音干擾(babble)噪聲,圖 3(a)為原始話音信號波形圖,經(jīng)過babble噪聲干擾后第一個陣元接收到的含噪話音信號如圖3(b)所示。從圖3(c)和圖3(d)中可以看出,由于陣列接收的含噪信號開始含有目標(biāo)信號,GSC和互相干算法處理后開始階段都發(fā)生了明顯的失真,而從圖3(e)本文算法處理后的波形圖可以看出,失真與另外2種算法相比明顯較小,另外與圖3(b)的原始含噪信號相比,噪聲已得到明顯抑制。

      為了對 3種算法的話音失真情況進(jìn)行定量分析,需對增強(qiáng)后的話音信號進(jìn)行話音失真度(speech distortion)[22]計算

      其中,H表示話音增強(qiáng)函數(shù),x表示原始目標(biāo)信號,k為采樣因子,E(·)表示數(shù)學(xué)期望,xσ為原始目標(biāo)信號的均方。vsd的數(shù)值越小表明失真度也越小。分別對GSC、相干濾波以及本文算法在第1個實(shí)驗(yàn)處理結(jié)果使用式(10)計算得到:0. 031、0. 103、0. 012,這表明陣列接收到的含噪信號開始幀含有目標(biāo)信號時,多任務(wù)稀疏性約束話音增強(qiáng)算法相對具有較小的失真度。

      圖3 babble干擾處理前后波形

      第2個實(shí)驗(yàn)的主要目的是驗(yàn)證本文算法在不同信噪比環(huán)境下的降噪效果,干擾源為背景音樂,位置關(guān)系同第1個實(shí)驗(yàn),唯一的區(qū)別是2個噪聲源均為背景音樂。另外為了能與其他方法相比較,實(shí)驗(yàn)中陣列接收信號的開始位置不含目標(biāo)話音信號。比較結(jié)果如圖4所示,其中,信噪比通過式(11)計算。

      其中,P(x)和 P(n)分別為目標(biāo)信號和噪聲信號功率譜密度。輸出信噪比中的噪聲譜密度采用最小統(tǒng)計[23~25]的方法進(jìn)行估計,然后使用含噪信號譜密度減去噪聲譜密度即為目標(biāo)信號譜密度,進(jìn)而利用式(11)計算出每個輸出信號的信噪比。

      從圖4可以看出,在不同信噪比條件下,本文提出的話音增強(qiáng)算法信噪比大概能提升12 dB左右,與基于相干濾波器方法降噪效果大致差不多,但優(yōu)于波束形成算法,另外本文算法的一個重要優(yōu)點(diǎn)是無需使用話音活動檢測支持,同時在上面2個實(shí)驗(yàn)中發(fā)現(xiàn),在幀長為256時,本文算法基本能達(dá)到實(shí)時性要求。

      圖4 仿真環(huán)境陣列、目標(biāo)信號、噪聲信號位置關(guān)系

      第3個實(shí)驗(yàn)主要驗(yàn)證相位補(bǔ)償誤差對本文算法的影響。目標(biāo)信號與陣列中心距離為15 cm,且偏左與陣列中心線成 45°角,含噪信號的初始信噪比為0 dB。相位補(bǔ)償陣列、信號源位置關(guān)系如圖5所示。

      圖5 相位補(bǔ)償陣列、信號源位置關(guān)系

      圖5中噪聲1和噪聲2均為音樂噪聲,距離陣列中心分別約為0.8 m和1.6 m。此時根據(jù)本文第2節(jié)分析,應(yīng)該對陣元2信號乘以 e-jωdcosθ/c,才能得到準(zhǔn)確的相位補(bǔ)償。

      實(shí)驗(yàn)中設(shè)計估計的目標(biāo)聲源偏離實(shí)際聲源誤差以2 mm一個間隔增加,話音增強(qiáng)效果與目標(biāo)聲源偏離誤差的關(guān)系如圖6所示。從圖6可以看出,在本實(shí)驗(yàn)條件下,當(dāng)目標(biāo)估計聲源位置偏離越大時性能也越差,這主要是由于當(dāng)估計誤差越大時,訓(xùn)練用的參考噪聲含有目標(biāo)信號越多,導(dǎo)致學(xué)習(xí)得到的噪聲字典無法較好地分離目標(biāo)信號與噪聲信號,從而對降噪產(chǎn)生一定的影響。

      圖6 目標(biāo)聲源估計誤差對處理效果的影響

      但從圖6中同時也可以看出,在估計誤差較小的情況下,如小于4 mm,與沒有誤差的估計性能相差較小。

      考慮到本文應(yīng)用場景是手機(jī)或助聽器領(lǐng)域,目標(biāo)信號距離陣列較近而噪聲相對較遠(yuǎn),此時相位估計相對較準(zhǔn)確,因而相位補(bǔ)償誤差不會太大,對降噪不會產(chǎn)生明顯影響。另外本實(shí)驗(yàn)也說明本文算法中相位補(bǔ)償?shù)牟襟E有益于噪聲消除。

      為了進(jìn)一步驗(yàn)證本文算法的有效性,使用基于ITU-T P.862.2[25]定義的話音質(zhì)量感知評價(PESQ,perceptual evaluation of speech quality)標(biāo)準(zhǔn)作為重建話音質(zhì)量的客觀評價。基于PESQ標(biāo)準(zhǔn)的算法首先對原始話音信號和含噪話音經(jīng)話音增強(qiáng)后的信號進(jìn)行電平調(diào)整到標(biāo)準(zhǔn)聽覺電平,再用 IRS(intermediate reference system)濾波器進(jìn)行濾波。對通過電平調(diào)整和濾波后的2個信號在時間上對準(zhǔn),并進(jìn)行聽覺變換,該變換包括對系統(tǒng)中線性濾波和增益變化的補(bǔ)償和均衡。2個聽覺變換后的信號之間的譜失真測度作為擾動,分析擾動曲面提取出的退化參數(shù),并在頻率和時間上累積起來,映射到對主觀MOS的預(yù)測值?;赑ESQ標(biāo)準(zhǔn)的算法可以比較待測試話音信號與指定參考信號之間的聽覺距離,并提供類似主觀平均意見分(MOS,mean opinion score)的PESQ MOS話音質(zhì)量打分,其分值范圍在?0.5~4.5之間,分值越大表示增強(qiáng)后的話音與原始話音越接近。

      實(shí)驗(yàn)環(huán)境同第1個實(shí)驗(yàn),使用GSC、相干濾波器以及本文方法分別對babble、音樂、汽車、辦公室、工廠 5種背景噪聲干擾的目標(biāo)話音信號進(jìn)行降噪處理,陣元接收到的含噪信號初始信噪比均為1 dB左右,使用基于PESQ MOS算法測試時需同時輸入原始目標(biāo)信號。表1為本實(shí)驗(yàn)環(huán)境下不同算法 PESQ MOS得分情況,從表中可以看出,本文算法PESQ MOS評價結(jié)果也優(yōu)于另外2種話音增強(qiáng)算法。

      4.2 真實(shí)數(shù)據(jù)實(shí)驗(yàn)

      實(shí)驗(yàn)中的二元麥克風(fēng)陣列采用2個全指向性硅微麥克風(fēng)組成,陣元間距為1 cm,音頻采集卡使用福建泉州恒通數(shù)碼科技的 DAR-2000進(jìn)行信號采集,采樣率為32 KHz;實(shí)驗(yàn)環(huán)境為一個長、寬、高分別約為6 m、5 m和3 m的實(shí)驗(yàn)室內(nèi)。目標(biāo)信號源為真人朗誦且位于陣列的正前方約 15 cm;噪聲信號源為位于陣列左前方的音箱,離陣列距離約為1 m。實(shí)驗(yàn)中分別使用babble、汽車、工廠、音樂以及辦公室等作為背景噪聲,不同二元麥克風(fēng)小陣列降噪算法處理的結(jié)果如表2所示。

      表1 PESQ MOS得分結(jié)果比較

      表2 不同類型背景噪聲處理信噪比比較

      由表2可以看出,在實(shí)際環(huán)境中,無論輸入信號的信噪比如何,本文算法明顯比GSC算法要好,比相干濾波器略有改善。考慮到實(shí)驗(yàn)中的VAD是理想狀況,實(shí)際情況中很難滿足,因而無需VAD支持的本文降噪算法相對來說更具可靠性。此外實(shí)際實(shí)驗(yàn)環(huán)境是在室內(nèi),因而具有一定的混響干擾,本文算法雖然是基于加性噪聲干擾的噪聲抑制,但由于混響噪聲在多個麥克風(fēng)獲取的信號中無一致性,故多任務(wù)稀疏表示對于此類乘性噪聲也有一定的抑制能力。

      5 結(jié)束語

      本文把基于多任務(wù)稀疏性約束的方法引入到二元麥克風(fēng)小陣列中。首先利用相位補(bǔ)償使其滿足多任務(wù)稀疏性學(xué)習(xí)算法的條件。文中通過語料庫的離線字典學(xué)習(xí)獲得通用的話音信號字典,利用噪聲參考信號進(jìn)行實(shí)時在線字典學(xué)習(xí)獲得適應(yīng)于環(huán)境噪聲的噪聲信號字典,進(jìn)而可以通過?2/ ?1范數(shù)約束噪聲信號的系數(shù),從而達(dá)到降噪的目的。與傳統(tǒng)的二元麥克風(fēng)小陣列話音增強(qiáng)算法相比,不但可以克服話音活動檢測的限制,而且也不需要假定處理信號初始階段為非話音段的條件,并具有明顯的降噪效果。

      [1]GRIFFITHS L,JIM C. An alternative approach to linearly constrained adaptive beamforming[J]. IEEE Transactions on Antennas and Propagation,1982,30(1):27-34.

      [2]ELKO G W,PONG A N. A simple adaptive first-order differential microphone[A]. Proceedings of IEEE International Conference on Applications of Signal Processing to Audio and Acoustics[C]. New Paltz,NY,USA,1995.169-172.

      [3]BRANDSTEIN M,WARD D. Microphone Arrays: Signal Processing Techniques and Applications[M]. Berlin: Springer Verlag,2001.

      [4]CHENA J,PHUA K,SHUEA L,et al. Performance evaluation of adaptive dual microphone system[J]. Speech Communication,2009,51(12):1180-1193.

      [5]HUANG Y,CHEN J,BENESTY J. Immersive audio schemes[J].IEEE Signal Processing Magazine,2011,28(1):20-32.

      [6]ALLEN J B,BERKLEY D A,BLAUERT J. Multimicrophone signal-processing technique to remove room reverberation from speech signals[J]. The Journal of the Acoustical Society of America,1977,62(4):912:915.

      [7]KALLEL F,GHORBEL M,FRIKHA M,et al. A noise cross PSD estimator based on improved minimum statistics method for two-microphone speech enhancement dedicated to a bilateral cochlear implant[J]. Applied Acoustics,2012,73(3):256-264.

      [8]ARGYRIOU A,EVGENIOU T,PONTIL M. Convex multi-task feature learning[J]. Machine Learning,2008,73(3):243-272.

      [9]LIU J,JI S,YE J. Multi-task feature learning via efficient l2,1-norm minimization[A]. Proceedings of the Conference on Uncertainty in Artificial Intelligence[C]. Montreal,Canada,2009. 339-348.

      [10]ROMERA PAREDES B,ARGYRIOU A,BIANCHI-BERTHOUZE N,et al. Exploiting unrelated tasks in multi-task learning[A]. Proceedings of the 15th International Conference on Artificial Intelligence and Statistics[C]. La Palma,Canary Islands,2012.951-962.

      [11]GEMMEKE J F,CRANEN B. Sparse imputation for noise robustspeech recognition using soft masks[A]. IEEE International Conference on Acoustics,Speech and Signal Processing[C]. 2009.4645-4648.

      [12]HE Y J,HAN J Q,DENG S W,et al. A solution to residual noise in speech denoising with sparse representation[A]. IEEE International Conference on Acoustics,Speech and Signal Processing[C]. Kyoto,Japan,2011.4653-4656.

      [13]SIGG C D,DIKK T,BUHMANN J M. Jordan speech enhancement using generative dictionary learning[J]. IEEE Transactions on Audio,Speech,and Language Processing,2012,20(6):1698-1712.

      [14]COBOS M,LOPEZ J J,SPORS S. Analysis of room reverberation effects in source localization using small microphone arrays[A]. International Symposium on Communications,Control and Signal Processing[C]. Limassol,Cyprus,2010.1-4.

      [15]BLANDIN C,VINCENT E,OZEROV A. Multi-source TDOA estimation using SNR-based angular spectra[A]. IEEE International Conference on Acoustics,Speech and Signal Processing[C]. Prague,Czech Republic,2011.2616-2619.

      [16]BACH F,PONCE J,SAPIRO G. Online learning for matrix factorization and sparse coding[J]. Journal of Machine Learning Research,2010,2010(11):19-60.

      [17]MAIRAL J,BACH F,PONCE J,et al. Online dictionary learning for sparse coding[A]. International Conference on Machine Learning[C].Montreal,Canada,2009.689-696.

      [18]http://www.dcs.shef.ac.uk/spandh/gridcorpus/.

      [19]CHEN X. Accelerated gradient method for multi-task sparse learning problem[A]. IEEE International Conference Data Mining[C]. Miami,FL,2009.746-751.

      [20]HERBORDT W,KELLERMANN W. Efficient frequency-domain realization of robust generalized,sidelobe cancellers[A]. IEEE Fourth Workshop on Multimedia Signal Processing[C]. Cannes,France,2001.377-382.

      [21]http://spib.rice.edu/spib/select_noise.html.

      [22]BENESTY J,CHEN J,HUANG Y. Microphone Array Signal Processing[M]. Berlin: Spring-Verlag,2008.10-11.

      [23]MARTIN R. Noise power spectral density estimation based on optimal smoothing and minimum statistics[J]. IEEE Transactions on Speech and Audio Processing,2001,9(5):504-512.

      [24]MARTIN R. Bias compensation methods for minimum statistics noise power spectral density estimation[J]. Signal Processing,2006,86(6):1215-1229.

      [25]Wideband Extension to Rec P862 for the Assessment of Wideband Telephone Networks and Speech Codecs[R]. Intl Telecom Union,2007.

      猜你喜歡
      話音多任務(wù)麥克風(fēng)
      Binaural Rendering based on Linear Differential Microphone Array and Ambisonic Reproduction
      基于中心化自動加權(quán)多任務(wù)學(xué)習(xí)的早期輕度認(rèn)知障礙診斷
      基于數(shù)字麥克風(fēng)的WIFI語音發(fā)射機(jī)
      電子測試(2018年23期)2018-12-29 11:11:24
      話音疊加中實(shí)時混音算法的FPGA實(shí)現(xiàn)
      麥克風(fēng)的藝術(shù)
      基于判別性局部聯(lián)合稀疏模型的多任務(wù)跟蹤
      電測與儀表(2016年5期)2016-04-22 01:13:46
      麥克風(fēng)
      IP語音報頭壓縮設(shè)計與實(shí)現(xiàn)
      無線電工程(2014年1期)2014-06-14 01:37:28
      未知環(huán)境下基于粒子群優(yōu)化的多任務(wù)聯(lián)盟生成
      灵川县| 科技| 九江市| 搜索| 沧源| 寿阳县| 永德县| 金沙县| 博客| 义马市| 衡东县| 江口县| 分宜县| 陈巴尔虎旗| 千阳县| 方山县| 莆田市| 平潭县| 平度市| 大石桥市| 江油市| 南阳市| 三亚市| 务川| 上虞市| 元阳县| 绥化市| 中宁县| 彭阳县| 桂平市| 万载县| 牡丹江市| 翼城县| 宝兴县| 绥江县| 保亭| 古蔺县| 江口县| 德惠市| 电白县| 华池县|