章宇棟,黃惠祥,童 峰
(廈門大學(xué) 海洋與地球?qū)W院,水聲通信與海洋信息技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,福建 廈門 361102)
麥克風(fēng)陣列技術(shù)如今已廣泛應(yīng)用于智能機(jī)器人、視頻會(huì)議、可穿戴設(shè)備、語(yǔ)音增強(qiáng)等領(lǐng)域.麥克風(fēng)陣列的語(yǔ)音增強(qiáng)功能主要通過先對(duì)聲源定位,再對(duì)其方位進(jìn)行波束增強(qiáng),抑制旁瓣來實(shí)現(xiàn).實(shí)際應(yīng)用中如會(huì)議等具有多說話人的場(chǎng)景,語(yǔ)音增強(qiáng)設(shè)備需不斷重新定位語(yǔ)音增強(qiáng)方向,在此類場(chǎng)景下,如何分辨多人同時(shí)說話以及進(jìn)行定位語(yǔ)音增強(qiáng)成為了新的挑戰(zhàn).
麥克風(fēng)陣列聲源定位技術(shù)主要分為3大類:1) 基于最大輸出功率的可控波束形成的聲源定位技術(shù)[1]在實(shí)際使用過程中需要進(jìn)行全局搜索,運(yùn)算量較大,還會(huì)影響到定位的實(shí)時(shí)性,同時(shí)還需要提前得到信號(hào)源頻譜特性與環(huán)境噪聲先驗(yàn)知識(shí)的關(guān)系,因此不易實(shí)現(xiàn);2) 基于高分辨率譜估計(jì)的聲源定位技術(shù)[2]主要運(yùn)用于窄帶信號(hào),對(duì)于語(yǔ)音信號(hào)這樣的寬帶信號(hào),會(huì)導(dǎo)致算法運(yùn)算量增加,同樣不利于實(shí)現(xiàn);3) 基于互相關(guān)時(shí)延估計(jì)的聲源定位技術(shù)[3]計(jì)算量較小、易實(shí)現(xiàn),但在室內(nèi)混響嚴(yán)重及低信噪比環(huán)境下性能下降嚴(yán)重.
相位變換加權(quán)的可控響應(yīng)功率(SRP-PHAT)定位算法[4]結(jié)合了可控響應(yīng)功率和相位變換加權(quán)的優(yōu)點(diǎn),比基于時(shí)延估計(jì)的定位算法具有更好的性能,但在混響和噪聲較強(qiáng)的環(huán)境下,該聲源定位算法性能驟降.此外傳統(tǒng)的麥克風(fēng)陣列針對(duì)多聲源定位的方法,如時(shí)延估計(jì)的L型麥克風(fēng)陣列進(jìn)行多聲源波達(dá)方向(DOA)估計(jì)[5]以及利用L型的麥克風(fēng)陣列獲得多聲源的頻率及到達(dá)角的聯(lián)合估計(jì)方法[6],均是采用L型麥克風(fēng)陣列來獲得到達(dá)角的空間位置及時(shí)延關(guān)系,從而對(duì)多聲源進(jìn)行定位,而本研究則基于壓縮感知(CS)理論對(duì)多聲源進(jìn)行定位與分辨.
CS理論最重要的意義在于可以極大地減輕信號(hào)采集端的復(fù)雜度,在采集端低采樣率的情況下,信號(hào)的接收端能以比較大的概率重構(gòu)出原始信號(hào).在水聲信道估計(jì)中,CS信道估計(jì)可利用信道稀疏特性提高估計(jì)性能[7].CS理論突破了原有的奈奎斯特采樣定理的束縛,當(dāng)信號(hào)滿足稀疏信號(hào)的條件時(shí),可線性投影到低維空間上,若CS矩陣滿足約束等距性(RIP)條件,則可根據(jù)低維的壓縮采樣信號(hào)實(shí)現(xiàn)高概率的準(zhǔn)確重構(gòu)[8].
趙小燕等[9]基于CS的聲源定位算法,通過將麥克風(fēng)接收的信號(hào)轉(zhuǎn)換至頻域,將聲源可能存在的空間位置所對(duì)應(yīng)的房間頻域響應(yīng)定為特征字典,再利用正交匹配追蹤(OMP)算法重構(gòu)出信號(hào),加強(qiáng)聲源的位置信息,從而獲得更為魯棒的聲源位置估計(jì).在高混響低信噪比的仿真實(shí)驗(yàn)條件下,CS-OMP算法的定位性能要明顯優(yōu)于SRP-PHAT算法.但該算法需要事先測(cè)量各聲源可能存在的空間位置的房間沖激響應(yīng),在實(shí)際應(yīng)用背景下仍有較大的不便性[10].
在CS-OMP算法的基礎(chǔ)上,本研究在高混響低信噪比環(huán)境下直接利用麥克風(fēng)陣列陣元間的時(shí)延關(guān)系構(gòu)造房間沖激響應(yīng),并進(jìn)行了在此環(huán)境下的多說話人聲源方位估計(jì)的實(shí)驗(yàn).對(duì)SRP-PHAT、DS、CS-OMP以及本研究基于構(gòu)造房間沖激響應(yīng)CS(CRR-CS)的DOA估計(jì)算法在不同信噪比等多種條件下對(duì)多聲源的分辨能力進(jìn)行對(duì)比和評(píng)估.
對(duì)于一個(gè)處在室內(nèi)環(huán)境中的M元線性麥克風(fēng)陣列,第m個(gè)麥克風(fēng)接收到的信號(hào)為
xm(n)=hm(rs,n)*s(n)+wm(n),
m=1,2,…,M,
(1)
其中,*表示卷積運(yùn)算,n為離散時(shí)間序列,s(n)為聲源信號(hào),wm(n)為第m個(gè)麥克風(fēng)接收到的噪聲,hm(rs,n)為聲源位置rs到第m個(gè)麥克風(fēng)的房間沖激響應(yīng).
假定N×1維復(fù)矢量Y=[Y1,Y2,…,YN]T可用基矩陣Ψ=[Ψ1,Ψ2,…,ΨN]T線性表示為
(2)
其中,S=[S1,S2,…,SN]T表示N×1維的系數(shù)矢量.
若矢量S中非零的個(gè)數(shù)‖S‖0滿足
‖S‖0=P?N,
(3)
則稱信號(hào)Y為基矩陣Ψ上的稀疏信號(hào).式中,‖·‖為l0范數(shù),P為Y的稀疏度,Ψ為稀疏基.
在CS理論中,若Y在某已知基矩陣Ψ上的系數(shù)是稀疏的,則稀疏的信號(hào)Y可以線性投影到低維空間上,利用低維的壓縮采樣信號(hào)可高概率地?zé)o損重構(gòu)出高維的原始信號(hào).通常用一個(gè)M×N維觀測(cè)矩陣Φ對(duì)信號(hào)Y進(jìn)行線性變換,得到M×1維的觀測(cè)矢量
X=ΦY=ΦΨS=ΘS.
(4)
其中,X=[X1,X2,…,XM]T(M?N)為觀測(cè)矢量,Θ=ΦΨ為CS矩陣.
當(dāng)隨機(jī)觀測(cè)矩陣Φ滿足M≥CPlog(N/P)時(shí)(C是一個(gè)與恢復(fù)精度有關(guān)的常數(shù)),CS矩陣Θ能夠以較大概率滿足RIP條件.若CS矩陣Θ滿足RIP條件,則可實(shí)現(xiàn)高概率準(zhǔn)確的信號(hào)重構(gòu)[11].在實(shí)際情況中,噪聲往往無(wú)法避免,需對(duì)欠定方程(4)引入加性噪聲項(xiàng),即
X=ΘS+W,
(5)
其中,W為有界噪聲.
在Y為稀疏信號(hào)的前提條件下,式(5)可以通過l0范數(shù)最小化方式求解,即
s.t. ‖X-ΘS‖2≤ε,
(6)
其中,ε是與噪聲相關(guān)的常量.
CS理論的核心問題是信號(hào)的重構(gòu),目前已有的重構(gòu)算法有OMP算法、基追蹤(BP)算法等,本研究采用OMP算法.
麥克風(fēng)陣元接收到的信號(hào)xm(n)加窗后,經(jīng)離散傅里葉變換得到頻域信號(hào)Xm(k).假如房間沖激響應(yīng)的長(zhǎng)度遠(yuǎn)小于窗函數(shù)的長(zhǎng)度,再將其用矢量描述為
X(k)=H(rs,k)S(k)+W(k).
(7)
其中:S(k)為聲源信號(hào)的頻域矢量;X(k)為麥克風(fēng)接收信號(hào)的頻域矢量,X(k)=[X1(k),X2(k),…,XM(k)]T;H(rs,k)為聲源rs處的房間頻域響應(yīng)矢量,H(rs,k)=[H1(rs,k),H2(rs,k),…,HM(rs,k)]T;W(k)為噪聲的頻域矢量,W(k)=[W1(k),W2(k),…,WM(k)]T.
聲源可能存在的空間位置集為{r1,r2,…,rI},則ri對(duì)應(yīng)的房間頻域響應(yīng)矢量為H(ri,k),假定空域離散位置的個(gè)數(shù)即稀疏度I,當(dāng)其遠(yuǎn)大于目標(biāo)聲源的個(gè)數(shù)時(shí),則冗余的房間頻域響應(yīng)矩陣為
D(k)=[H(r1,k),H(r2,k),…,H(rI,k)].
(8)
將式(8)中冗余房間頻域響應(yīng)矩陣D(k)稱為字典,在此條件下,可將式(7)改寫為
(9)
(10)
(11)
(12)
hm(rs,n)=δ(n,tm),
(13)
其中,
(14)
其中,θ為信號(hào)入射方向與陣列夾角,c為聲速,fs為采樣率[13].
實(shí)驗(yàn)在空間尺寸約為30 m×20 m×6 m的廈門大學(xué)藝術(shù)學(xué)院音樂廳進(jìn)行.麥克風(fēng)陣列為陣元間距13.5 cm的7元均勻線陣,語(yǔ)音信號(hào)為TIMIT標(biāo)準(zhǔn)語(yǔ)音信號(hào)[14],通過Marshall藍(lán)牙音箱播放,采樣率為16 kHz.將2個(gè)聲源分別放置在陣列前方30°,0°兩個(gè)方位上進(jìn)行播放,對(duì)比不同算法性能的多聲源DOA估計(jì)性能.此外利用Marshall藍(lán)牙音箱播放噪聲進(jìn)行實(shí)錄以用于疊加構(gòu)成不同信噪比場(chǎng)景.
麥克風(fēng)陣列的波束方向性函數(shù)為[15]:
(15)
其中,N為麥克風(fēng)數(shù),f為語(yǔ)音段頻率,ψ為定位角.波束寬度為主極大值到理論上出現(xiàn)零時(shí)的角度,假定入射角θ=90°,f=2 kHz,d=13.5 cm,可以求得理論波束寬度約為21.9°,故實(shí)驗(yàn)中將掃描精度設(shè)置為15°,略小于理論波束寬度.由于是對(duì)多聲源進(jìn)行定位與分辨,雙聲源若設(shè)置間隔太遠(yuǎn),則易于分辨;若設(shè)置角度間隔小于理論波束寬度,則會(huì)導(dǎo)致雙聲源的信號(hào)強(qiáng)度都最大而無(wú)法判定是否準(zhǔn)確分辨.故雙聲源角度間隔設(shè)置為略大于理論波束寬度的30°.
原始語(yǔ)音信號(hào)信噪比為15.66 dB,通過疊加實(shí)錄的噪聲來構(gòu)造不同信噪比的測(cè)試信號(hào),用來對(duì)SRP-PHAT、DS,以及CRR-CS算法在不同信噪比條件下對(duì)多聲源定位估計(jì)的分辨性能.其中,通過實(shí)測(cè)獲得的各空間位置到麥克風(fēng)陣列的沖激響應(yīng)用于CS-OMP算法構(gòu)造稀疏恢復(fù)方程.算法實(shí)驗(yàn)參數(shù)設(shè)置見表1.
表1 實(shí)驗(yàn)參數(shù)設(shè)置
2.2.1不同信噪比下各算法對(duì)多聲源的分辨性能
當(dāng)I=2,η=0.15時(shí),不同信噪比條件下各算法對(duì)多聲源的分辨能力如圖1所示.
從圖1可以看出,在不同信噪比條件下CRR-CS算法曲線在不同聲源方向都有尖銳的指向性,可見CRR-CS算法對(duì)兩個(gè)聲源的方位估計(jì)具有很強(qiáng)的分辨能力,且定位效果很好;DS算法能夠大致估計(jì)出聲源的位置,但無(wú)法分辨兩個(gè)不同的聲源;SRP-PHAT算法也能夠分辨出兩個(gè)不同的聲源位置,但指向性尖銳程度及分辨性能都要低于CRR-CS算法;CS-OMP算法分辨兩個(gè)聲源的能力較差.同時(shí)在圖中可以發(fā)現(xiàn)隨著信噪比的下降,各算法對(duì)于多聲源的分辨能力也在下降,但CRR-CS算法仍明顯優(yōu)于其他算法.
圖1 不同信噪比下各算法對(duì)多聲源的分辨性能Fig.1 Resolving performance of multiple sources for each algorithm at different signal noise ratios
考慮到實(shí)驗(yàn)設(shè)置的分辨率為15°,故采用樣條插值法進(jìn)行均方根誤差(RMSE,εRMSE)性能評(píng)估[16].各算法信號(hào)強(qiáng)度最高的兩處分別通過樣條插值法獲得預(yù)測(cè)角度,真值方向?yàn)槁曉此诘慕嵌?,通過式(16)計(jì)算各算法的RMSE,考慮到DS算法無(wú)法分辨出2個(gè)不同的聲源,故不參與比較.
圖2 不同頻點(diǎn)閾值下各算法對(duì)多聲源的分辨性能Fig.2 Resolving performance of multiple sources for each algorithm at different frequency threshold
(16)
從表2可以看出各算法隨著信噪比的下降,RMSE總體上有增加的趨勢(shì),但CRR-CS的結(jié)果不但誤差較小,且增長(zhǎng)小于其余兩種算法,而CS-OMP算法在6.57 dB信噪比環(huán)境下的預(yù)測(cè)角度出現(xiàn)了明顯的錯(cuò)誤.
表2 不同信噪比下各算法DOA估計(jì)的RMSE
2.2.2不同頻點(diǎn)閾值下各算法對(duì)多聲源的分辨性能
當(dāng)I=2,信噪比為15.67 dB時(shí),不同算法頻點(diǎn)閾值條件下各算法對(duì)多聲源的分辨能力如圖2所示.
由于DS算法與SRP-PHAT算法中無(wú)需設(shè)置頻點(diǎn)閾值,故此部分沒有參數(shù)發(fā)生變化,故DS算法與SRP-PHAT算法的結(jié)果在此處僅作參考.從圖2中可以看出隨著頻點(diǎn)閾值η的增大,CS-OMP算法與CRR-CS算法的分辨能力都有所提升,但CRR-CS算法性能要明顯優(yōu)于CS-OMP算法.
2.2.3不同稀疏度下各算法對(duì)多聲源的分辨性能
當(dāng)信噪比為15.67 dB,η=0.15時(shí),不同聲源數(shù)I條件下各算法對(duì)多聲源的分辨能力如圖3所示.
圖3 不同稀疏度下各算法對(duì)多聲源的分辨性能Fig.3 Resolving performance of multiple sources for each algorithm at different sparseness
考慮到實(shí)際應(yīng)用場(chǎng)景中往往無(wú)法準(zhǔn)確獲知聲源準(zhǔn)確數(shù)量,文中對(duì)設(shè)置不同聲源數(shù)時(shí)傳統(tǒng)OMP算法與CRR-CS算法的性能變化信息評(píng)估.在實(shí)驗(yàn)中分別設(shè)I為1,2,3,對(duì)比CS-OMP和CRR-CS算法在不同稀疏度下的分辨性能.I=1時(shí),CS-OMP算法無(wú)法成功定位出聲源位置且不能分辨多聲源,I為2和3時(shí)能夠定位準(zhǔn)確但分辨效果差;盡管CRR-CS算法隨著稀疏度的增加分辨性能有所下降,但仍舊遠(yuǎn)優(yōu)于CS-OMP算法.可見CRR-CS算法對(duì)于設(shè)置不同聲源數(shù)的情況下,其估計(jì)結(jié)果仍具有一定的穩(wěn)健性.
本研究將基于CS的麥克風(fēng)陣列定位算法應(yīng)用于多聲源環(huán)境當(dāng)中,在CS-OMP算法的基礎(chǔ)上,考慮到多聲源場(chǎng)景,通過利用陣元間時(shí)延關(guān)系直接產(chǎn)生的房間沖激響應(yīng)進(jìn)行混合矩陣構(gòu)造.結(jié)果表明,本文中提出的CRR-CS算法對(duì)多聲源的方位估計(jì)能力相比SRP-PHAT和DS算法更優(yōu)秀,且在不同信噪比環(huán)境中均對(duì)多聲源有更好的分辨能力.同時(shí),在聲源數(shù)未知及不同頻點(diǎn)閾值的情況下,CRR-CS算法的分辨及定位性能要比CS-OMP算法強(qiáng).可見:文中利用麥克風(fēng)陣列陣元之間的時(shí)延關(guān)系構(gòu)造房間沖激響應(yīng)既減少了需要進(jìn)行實(shí)測(cè)的房間沖激響應(yīng)的步驟,又提高了多聲源分辨能力.
參考文獻(xiàn):
[1]WAX M,KAILATH T.Optimum localization of multiple sources by passive arrays[J].IEEE Transaction on Acoustics,Speech,and Signal Processing,1983,31(5):1210-1217.
[2]GUSTAFSSON T,RAO B D,TRIVEDI M.Source localization in reverberant environments:modeling and statistical analysis[J].IEEE Transactions on Speech and Audio Processing,2003,11(6):791-803.
[3]HUANG L,WU S J,ZHANG L R.A novel MUSIC algorithm for direction-of-arrival estimation without the estimate of covariance matrix and its eigendecomposition[C]∥Proceedings of IEEE International Conference on Vehicular Technology.Stockholm:IEEE,2005:16-19.
[4]ZHAO X Y,TANG J,ZHOU L,et al.Accelerated steered response power method for sound source localization via clustering search[J].Science China Physics,Mechanics and Astronomy,2013,56(7):1329-1338.
[5]張艷娜.基于麥克風(fēng)陣列的多聲源定位算法研究[D].沈陽(yáng):沈陽(yáng)航空航天大學(xué),2014:11-15
[6]付金山,李秀坤.聲矢量陣 DOA 估計(jì)的稀疏分解理論研究[J].哈爾濱工程大學(xué)學(xué)報(bào),2013,34(3):281-286.
[7]伍飛云,童峰.塊稀疏水聲信道的改進(jìn)壓縮感知估計(jì)[J].聲學(xué)學(xué)報(bào),2017,42(1):27-36.
[8]金光明.基于麥克風(fēng)陣列多聲源定位的新方法[J].東北大學(xué)學(xué)報(bào)(自然科學(xué)版),2012,33(6):769-773.
[9]趙小燕,周琳,吳鎮(zhèn)揚(yáng).基于壓縮感知的麥克風(fēng)陣列聲源定位算法[J].東南大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,45(2):203-207.
[10]李劍汶,章宇棟,童峰.一種采用旁瓣增強(qiáng)的麥克風(fēng)陣列抗混響算法[J].廈門大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,56(5):711-717.
[11]CANTLES E,ROMBERG J.Uncertainty principles:exact signal reconstruction from highly incomplete frequency information [J].IEEE Transactions on Information Theory,2006,52(2):489-509.
[12]TROPP J A,GILBERT A C.Signal recovery from random measurements via orthogonal matching pursuit[J].IEEE Transactions on Information Theory,2007,53(12):4655-4666.
[13]李芳蘭,周躍海,童峰.采用可調(diào)波束形成器的GSC麥克風(fēng)陣列語(yǔ)音增強(qiáng)方法[J].廈門大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,52(2):186-189.
[14]GAROFOLO J S,LAMEL L F,FISHER W M,et al.TIMIT acoustic-phonetic continuous speech corpus LDC93S1.[DB/OL].[2017-06-22].https:∥catalog.ldc.upenn.edu/LDC93S1.
[15]BENESTY J,CHEN J,HUANG Y.Microphone array signal processing[M].Berlin Heidelberg:Springer Science & Business Media,2008:43-46.
[16]GANGNLY A,REDDY C,HAO Y,et al.Improving sound localization for hearing aid devices using smartphone assisted technology[C]∥2016 IEEE International Workshop on Signal Processing Systems (SiPS).Dallas:IEEE,2016:165-170.