王 玫, 孫昊彬, 羅麗燕, 宋浠瑜
(1.桂林電子科技大學(xué) 認(rèn)知無(wú)線電與信息處理教育部重點(diǎn)實(shí)驗(yàn)室,廣西 桂林 541004;2.桂林理工大學(xué) 信息科學(xué)與工程學(xué)院,廣西 桂林 541006)
聲源定位技術(shù)由于廣泛應(yīng)用與智能交通、安防監(jiān)控、電話會(huì)議、人機(jī)交互、導(dǎo)航等各種應(yīng)用而備受關(guān)注。常用的聲源定位技術(shù)可以分為3類:基于最大輸出功率的波束成形的方法、基于聲音到達(dá)時(shí)間的方法以及基于高分辨譜估計(jì)的方法。針對(duì)在復(fù)雜的室內(nèi)環(huán)境中混響較高的情況,第一類方法與后2類方法相比,具有更好的魯棒性[1]。在第一類波束成形的方法中,廣泛使用的是基于可控響應(yīng)功率-相位變換(SRP-PHAT)法。由于SRP-PHAT是一種基于聲源空間網(wǎng)格點(diǎn)搜索算法,在計(jì)算過(guò)程中往往會(huì)出現(xiàn)大量極值點(diǎn),導(dǎo)致計(jì)算量增大。因此,Silverman等[1]在使用SRP-PHAT算法的同時(shí)采用隨機(jī)區(qū)域收縮(SRC)來(lái)降低計(jì)算量,Grondin等[2-3]提出了一種依賴于SRP-PHAT投影矩陣的奇異值分解的定位方法,張鐵成[4]將壓縮感知與SRP-PHAT-SRC方法結(jié)合,Grondin等[5]利用最大滑動(dòng)窗口濾波與分層搜索的方法都降低了SRP-PHAT的計(jì)算時(shí)間。但這類方法以犧牲精度為代價(jià),換取定位算法的實(shí)時(shí)性。因此,提出從信號(hào)接收端入手,提高接收信號(hào)的質(zhì)量,從而提升定位精度的思路。
麥克風(fēng)作為一種常用的拾音設(shè)備,按照特定的空間拓?fù)浣Y(jié)構(gòu)組合形成的麥克風(fēng)陣列,與單一麥克風(fēng)相比,不僅可以獲得聲音信號(hào)的時(shí)域信息,還可以獲得空域信息,通過(guò)充分利用空時(shí)信息提升定位效果。
根據(jù)陣列信號(hào)處理理論可知,麥克風(fēng)陣列拓?fù)鋬?yōu)化對(duì)陣列處理系統(tǒng)性能具有重要影響[6-8]。麥克風(fēng)陣列拓?fù)浣Y(jié)構(gòu)可分為3類:一維陣列(如嵌套線型陣列、等間距線型陣列等線陣),二維陣列(如圓型陣列、方型陣列等平面陣),三維陣列(如星型陣列、球型陣列等立體陣)。陣列拓?fù)浣Y(jié)構(gòu)不同會(huì)影響麥克風(fēng)陣列定位算法的定位精度與運(yùn)算速度。黃東霞等[6-7]研究了一維與二維陣列在時(shí)延性能和語(yǔ)音增強(qiáng)方面的差異,但未考慮聲源高度變化對(duì)定位精度的影響。劉賓[8]分析了平面陣與立體陣的定位效果,但其中的陣列都為大孔徑陣列,不符合室內(nèi)定位要求。劉路路[9]使用三維七元陣列,利用融合預(yù)處理與GCC-qγβ的方法進(jìn)行三維定位,但達(dá)不到室內(nèi)定位的精度要求。因此,研究合理的三維陣列拓?fù)浣Y(jié)構(gòu)具有實(shí)際意義。
目前,基于麥克風(fēng)陣列的室內(nèi)移動(dòng)聲源定位研究均在麥克風(fēng)陣列接收信號(hào)頻率響應(yīng)保持高度一致性的假設(shè)下進(jìn)行,但由于制造公差、使用時(shí)長(zhǎng)以及室內(nèi)復(fù)雜環(huán)境等多種因素的影響,使麥克風(fēng)陣列接收信號(hào)的頻率響應(yīng)特性與理論值存在較大偏差,導(dǎo)致定位精度下降。因此,對(duì)麥克風(fēng)陣列頻率響應(yīng)的校準(zhǔn),對(duì)于室內(nèi)移動(dòng)聲源定位精度的進(jìn)一步提升具有重要意義。
麥克風(fēng)陣列校準(zhǔn)的傳統(tǒng)方法是在特定環(huán)境(如消聲室)下通過(guò)逐一比較各麥克風(fēng)與參考麥克風(fēng)的頻率響應(yīng)參數(shù)進(jìn)行校準(zhǔn)[10-11]。這種方法能夠以較低的計(jì)算量補(bǔ)償增益和相位誤差,但是這種方法使用的前提條件是要有一個(gè)理想化的參考麥克風(fēng),如果參考麥克風(fēng)的參數(shù)不準(zhǔn)確會(huì)導(dǎo)致其他麥克風(fēng)無(wú)法精確校準(zhǔn)。針對(duì)傳統(tǒng)方法的不足,文獻(xiàn)[12-13]提出一種改進(jìn)的陣列校準(zhǔn)方法,在已知陣列形狀和聲源方向的情況下,利用特征值分解計(jì)算增益和相位誤差,但該方法只適用于特殊環(huán)境(如消聲室),且需要花費(fèi)大量的費(fèi)用。此外,Madhu等[14]提出了一種通過(guò)頻域中的歸一化互相關(guān)函數(shù)獲得麥克風(fēng)的權(quán)重,從而消除麥克風(fēng)陣列的增益誤差并檢測(cè)麥克風(fēng)的異常的方法。Hua等[15]提出了一種增益自校準(zhǔn)方法,該方法基于在麥克風(fēng)未失配的情況下,默認(rèn)長(zhǎng)時(shí)間內(nèi)所有麥克風(fēng)接收到的平均功率相同。但這些校準(zhǔn)方法關(guān)注的是總增益,而不是單個(gè)麥克風(fēng)的增益,且未考慮麥克風(fēng)之間的相位誤差。Seltzer和Raj通過(guò)最小化語(yǔ)音識(shí)別誤差來(lái)校準(zhǔn)麥克風(fēng)陣列,這需要使用專用設(shè)備和測(cè)試聲音進(jìn)行手動(dòng)校準(zhǔn)[16]。Hu等[17]提出了一種基于多通道維納濾波器(MCWF)的麥克風(fēng)陣列頻率響應(yīng)校準(zhǔn)方法,用來(lái)減小由麥克風(fēng)不同頻率響應(yīng)引起的誤差,且無(wú)需特殊的實(shí)驗(yàn)環(huán)境。因此,本研究采用基于多通道維納濾波器的麥克風(fēng)陣列頻率響應(yīng)校準(zhǔn)方法并進(jìn)行改進(jìn),能夠有效地提升定位效果。
以室內(nèi)聲學(xué)高精度三維定位為應(yīng)用研究對(duì)象,從麥克風(fēng)拓?fù)浣Y(jié)構(gòu)分析與麥克風(fēng)陣列校準(zhǔn)兩方面,基于麥克風(fēng)陣列信號(hào)處理的相關(guān)理論與方法,在室內(nèi)復(fù)雜環(huán)境中快速準(zhǔn)確地定位室內(nèi)說(shuō)話人的三維位置坐標(biāo)。此外,針對(duì)在真實(shí)室內(nèi)環(huán)境中,麥克風(fēng)陣列與說(shuō)話人(聲源)之間存在干擾的情況下,聲源定位能力不足的實(shí)際問(wèn)題,提出了一種低通濾波與多通道自適應(yīng)濾波融合的陣列校準(zhǔn)方案,并在此校準(zhǔn)基礎(chǔ)上,采用SRP-PHAT-SRC算法對(duì)聲源進(jìn)行定位。場(chǎng)測(cè)實(shí)驗(yàn)結(jié)果表明,麥克風(fēng)拓?fù)浣Y(jié)構(gòu)分析為基于麥克風(fēng)陣列的室內(nèi)聲源定位提供了充分的理論依據(jù)與實(shí)際參考,所提出的濾波融合陣列校準(zhǔn)方案能有效補(bǔ)償麥克風(fēng)陣列各接收信號(hào)的頻率響應(yīng)差異,使得基于SRP-PHAT-SRC的聲源定位算法在實(shí)際場(chǎng)景下遠(yuǎn)場(chǎng)聲源定位精度提升48%。
(1)
設(shè)mi(t)為麥克風(fēng)陣列中第i個(gè)麥克風(fēng)接收到的信號(hào),則在有限時(shí)間長(zhǎng)度T內(nèi)可控響應(yīng)功率(SRP)可以定義為
(2)
(3)
(4)
Mk(ω)為第k個(gè)麥克風(fēng)接收信號(hào)mk(t)的傅里葉變換;τ為時(shí)延差;*為函數(shù)的共軛。因?yàn)橄辔蛔儞Q(PHAT)對(duì)在高混響環(huán)境中求GCC有很好的效果,其權(quán)重是頻率分量的倒數(shù),
(5)
考慮到計(jì)算式(3)所涉及的對(duì)稱性,并去掉一些固定能量項(xiàng),則Pn(x)隨x變化的部分為
(6)
因而,為了簡(jiǎn)化計(jì)算,式(1)可替換為
(7)
SRC的基本思想是給定一個(gè)初始搜索區(qū)域,其中包含了全局最大值,同時(shí)也包含一些局部極大值。在迭代過(guò)程中逐漸縮小搜索區(qū)域,直到達(dá)到限定條件并停止,從而找出最大值。此方法能夠有效地減少定位所需時(shí)間,提高定位算法的實(shí)時(shí)性。但是SRP-PHAT-SRC定位方法只適用于大孔徑麥克風(fēng)陣列的近場(chǎng)聲源定位,且未考慮陣列拓?fù)浣Y(jié)構(gòu)和陣列校準(zhǔn)對(duì)定位性能的影響。針對(duì)該問(wèn)題,提出了三維陣列拓?fù)浠趦呻A段麥克風(fēng)自校準(zhǔn)方法的聲源定位(SSL)系統(tǒng)。
本三維星型陣列拓?fù)涞淖孕?zhǔn)麥克風(fēng)陣列聲源定位系統(tǒng)分為2個(gè)子系統(tǒng):1)麥克風(fēng)陣列拓?fù)浞治鱿到y(tǒng);2)基于多通道低通濾波與多通道自適應(yīng)濾波融合的SRP-PHAT-SRC定位系統(tǒng)。
麥克風(fēng)陣列拓?fù)浞治鱿到y(tǒng)如圖1所示。該系統(tǒng)共有2個(gè)模塊組成,分別為麥克風(fēng)陣列拓?fù)浣Y(jié)構(gòu)設(shè)置模塊與說(shuō)話人定位算法模塊。
圖1 麥克風(fēng)陣列拓?fù)浞治鱿到y(tǒng)
麥克風(fēng)陣列拓?fù)浣Y(jié)構(gòu)設(shè)置模塊。為了探究不同陣列拓?fù)浣Y(jié)構(gòu)對(duì)定位結(jié)果的影響,本實(shí)驗(yàn)對(duì)麥克風(fēng)陣列中3個(gè)參數(shù)采用控制變量法,分別通過(guò)改變陣列維度、陣元間距及陣元個(gè)數(shù)構(gòu)成不同結(jié)構(gòu)的麥克風(fēng)陣列。
說(shuō)話人定位算法模塊。該模塊采用相位變換加權(quán),計(jì)算接收信號(hào)的可控響應(yīng)功率。在預(yù)先設(shè)定的聲源空間內(nèi),搜索使可控響應(yīng)功率達(dá)到最大的坐標(biāo),即得到真實(shí)聲源的位置估計(jì)。語(yǔ)音信號(hào)由麥克風(fēng)陣列直接獲得,再進(jìn)行分離可以得到多路單一麥克風(fēng)語(yǔ)音信號(hào)。由于搜索功率最大值的過(guò)程計(jì)算量太大,本系統(tǒng)使用隨機(jī)區(qū)域收縮優(yōu)化算法找尋峰值。將定位坐標(biāo)與真實(shí)坐標(biāo)進(jìn)行對(duì)比,通過(guò)這些誤差的對(duì)比,分析不同麥克風(fēng)陣列的性能。
圖2為基于多通道低通濾波與多通道自適應(yīng)濾波融合的SRP-PHAT定位系統(tǒng)。當(dāng)說(shuō)話人的語(yǔ)音經(jīng)過(guò)室內(nèi)環(huán)境所產(chǎn)生的聲學(xué)信道傳播,通過(guò)麥克風(fēng)陣列的前置放大器進(jìn)行接收,將接收到的各個(gè)麥克風(fēng)信號(hào)進(jìn)行基于多通道低通濾波與多通道自適應(yīng)濾波的融合濾波后進(jìn)行定位。
圖2 基于多通道低通濾波與多通道自適應(yīng)濾波融合的SRP-PHAT定位系統(tǒng)
在陣列信號(hào)處理的理論上,只需要3個(gè)傳感器就可根據(jù)聲源目標(biāo)與坐標(biāo)點(diǎn)之間的幾何關(guān)系確定聲音的位置。但在室內(nèi)定位實(shí)測(cè)中,麥克風(fēng)陣列的定位精度還受很多因素的影響,如房間結(jié)構(gòu)與家具擺放、室內(nèi)的混響系數(shù)等。因此,構(gòu)建一個(gè)性能較好的麥克風(fēng)陣列,需考慮種種因素,如陣元個(gè)數(shù)、陣元間距、陣列維度等[8,18]。
陣列所具有的方向向量能夠確定陣列所需要的模型,麥克風(fēng)陣列的幾何結(jié)構(gòu)與方向向量有著十分緊密的關(guān)系。一般陣列的幾何結(jié)構(gòu)不同,方向向量就會(huì)不同。最早期的天線陣列中,陣列一般采取一維均勻直線陣、均勻的圓陣等一維陣列。在實(shí)際的測(cè)量系統(tǒng)中,為了聲源定位的精度,往往采用二維或者三維陣列,這樣可以降低聲源在空間中的位置誤差。
自適應(yīng)濾波器可以使估計(jì)的隨機(jī)過(guò)程與所需的隨機(jī)過(guò)程之間的均方誤差(MSE)最小化,因此,使用自適應(yīng)濾波器來(lái)校準(zhǔn)由麥克風(fēng)和前置放大器不同靈敏度引起的頻率響應(yīng)誤差(幅度頻率響應(yīng)和相位頻率響應(yīng))是一種可行的方法。
(8)
(9)
hi=[hi(0)hi(1) …h(huán)i(M-1)]T,
(10)
圖3 最小均方差自適應(yīng)濾波流程
其中M為濾波器的階數(shù)。因?yàn)橐?jì)算J的最小值,所以,設(shè)式(8)中d(n)的值等于0,可得
(11)
設(shè)
e′(n)=d(n)-mi(n)=d(n)-
第i個(gè)麥克風(fēng)所在位置的最小均方差為
(12)
式中,E[·]為數(shù)學(xué)期望。為了找到εi(n),設(shè)hi為0,可得
(13)
當(dāng)滿足均方差誤差最小時(shí),所對(duì)應(yīng)的權(quán)矢量hi為最佳權(quán)矢量,并且與FIR維納濾波器的最佳解是一致的。因此,所對(duì)應(yīng)的維納霍夫等式為
Rxixihi=Rxid。
(14)
(15)
其中,u1是長(zhǎng)度為M的單位向量,di(n)為除去當(dāng)前第i個(gè)麥克風(fēng)外其他接收信號(hào)之和的平均,
u1=[1 0 0 … 0]T,
(16)
(17)
根據(jù)式(17)可得到每個(gè)麥克風(fēng)的最佳權(quán)矢量,便可以構(gòu)造頻率響應(yīng)校準(zhǔn)系統(tǒng)。
通過(guò)數(shù)值模擬仿真與真實(shí)環(huán)境場(chǎng)測(cè)實(shí)驗(yàn)來(lái)驗(yàn)證三維星型陣列拓?fù)涞淖孕?zhǔn)麥克風(fēng)陣列聲源定位系統(tǒng)的可靠性(定位精度)與實(shí)用性(算法計(jì)算量)。
圖4為一個(gè)10 m×8 m×4 m的仿真房間,房間混響時(shí)間RT60為0.25 s,即高度混響環(huán)境。設(shè)真實(shí)聲源的位置坐標(biāo)(x,y,z)為(1,2,3),麥克風(fēng)陣列以坐標(biāo)點(diǎn)(2,2,2)為中心,每個(gè)軸上放置不同數(shù)量的麥克風(fēng),以組合成不同陣型、不同陣元數(shù)量、不同陣元間距的麥克風(fēng)陣列,從而對(duì)不同維度、不同孔徑與數(shù)量的麥克風(fēng)陣列拓?fù)浣Y(jié)構(gòu)進(jìn)行分析。實(shí)驗(yàn)所使用的聲源信號(hào)是一段在消聲室中錄制的3 s女性語(yǔ)音,采樣頻率為44 100 Hz。
圖4 房間構(gòu)造、聲源位置以及麥克風(fēng)陣列位置說(shuō)明
根據(jù)麥克風(fēng)陣列拓?fù)浞治鱿到y(tǒng)的流程,通過(guò)對(duì)比不同麥克風(fēng)陣列拓?fù)浣Y(jié)構(gòu)的定位效果與實(shí)際位置的誤差,分析不同麥克風(fēng)陣列拓?fù)涞膬?yōu)劣。對(duì)陣列維度、陣元個(gè)數(shù)和陣元間距3方面進(jìn)行了仿真實(shí)驗(yàn),效果如圖5、6、7、8所示。
圖5 麥克風(fēng)陣列不同維度對(duì)定位誤差的影響
圖6 不同陣元個(gè)數(shù)對(duì)麥克風(fēng)陣列定位精度的影響
圖7 不同陣元個(gè)數(shù)對(duì)麥克風(fēng)陣列定位時(shí)計(jì)算量的影響
圖8 不同麥克風(fēng)間距對(duì)麥克風(fēng)陣列定位精度的影響
從圖5可看出,在相同的環(huán)境與相同的定位算法下三維星型陣列的定位精度明顯優(yōu)于其他2種陣列。因此后續(xù)實(shí)驗(yàn)都基于三維星型陣列。
結(jié)合圖6與圖7可看出,在使用三維星型陣列定位時(shí),在每個(gè)軸上麥克風(fēng)數(shù)量達(dá)到5個(gè)時(shí)定位算法開始收斂,誤差減小并且計(jì)算量降低,當(dāng)每軸上麥克風(fēng)數(shù)量到達(dá)10個(gè)時(shí),定位精度與計(jì)算量達(dá)到最優(yōu)。
由圖8可知,當(dāng)每軸麥克風(fēng)個(gè)數(shù)為5個(gè)及以上時(shí),定位算法開始收斂,并且定位精度隨著麥克風(fēng)間距的增大而上升。在每軸8個(gè)麥克風(fēng)時(shí),位置誤差趨向于平穩(wěn),12個(gè)時(shí)達(dá)到最優(yōu)。
綜合上述3個(gè)實(shí)驗(yàn)的定位精度與實(shí)際情況,使用每軸上8個(gè)麥克風(fēng),每個(gè)麥克風(fēng)間距為10 cm的三維星型陣列做實(shí)際測(cè)試??紤]到實(shí)際測(cè)試中,由于麥克風(fēng)的制造公差、使用年限、室內(nèi)空間混疊與聲源遠(yuǎn)離麥克風(fēng)陣列產(chǎn)生的信號(hào)衰減而產(chǎn)生的麥克風(fēng)信號(hào)頻響不一致,導(dǎo)致定位性能下降的問(wèn)題,提出基于多通道低通濾波與多通道自適應(yīng)濾波融合的方法,對(duì)麥克風(fēng)所采集的信號(hào)進(jìn)行濾波,再進(jìn)行定位。
場(chǎng)測(cè)實(shí)驗(yàn)在桂林電子科技大學(xué)金雞校區(qū)第七教學(xué)樓315室實(shí)施,該房間的尺寸為7.3 m×7.4 m×3.3 m,實(shí)驗(yàn)使用每軸8個(gè)麥克風(fēng),麥克風(fēng)間距為10 cm的三維星型陣列采集聲音,麥克風(fēng)型號(hào)為PCBModel:130F22,聲卡為NI公司PXIe-4497采集卡,工作站為NI公司PXIe-8840控制器,數(shù)據(jù)采集軟件為其高公司SignalPad測(cè)控軟件V2.0。實(shí)驗(yàn)場(chǎng)景如圖9所示,同一個(gè)說(shuō)話人分別在距離麥克風(fēng)陣列1、2、3、4、5、6 m處進(jìn)行實(shí)驗(yàn),使用麥克風(fēng)陣列采集信號(hào),分析其濾波前后的頻響參數(shù)與定位結(jié)果。
圖9 實(shí)驗(yàn)場(chǎng)景
由于麥克風(fēng)數(shù)量較多,在做頻率響應(yīng)參數(shù)對(duì)比時(shí),選取了3個(gè)麥克風(fēng)的頻率響應(yīng)參數(shù),濾波前后的參數(shù)如圖10、11所示。從圖10可看出,濾波前麥克風(fēng)所接收的信號(hào)頻率響應(yīng)參數(shù)變化趨勢(shì)基本一致,只在一些點(diǎn)上有較大的浮動(dòng),這些頻率響應(yīng)的不一致會(huì)導(dǎo)致定位性能的下降。然而在圖11中,經(jīng)過(guò)基于多通道低通濾波器與多通道自適應(yīng)濾波器的融合濾波后,各個(gè)麥克風(fēng)的頻率響應(yīng)參數(shù)不僅在趨勢(shì)上一致,而且參數(shù)的跳變很小,各個(gè)麥克風(fēng)的頻率響應(yīng)參數(shù)基本保持一致。
圖10 濾波前接收端麥克風(fēng)的頻率響應(yīng)參數(shù)
圖11 經(jīng)過(guò)濾波后接收端麥克風(fēng)的頻率響應(yīng)參數(shù)
通過(guò)對(duì)比本方法、傳統(tǒng)SRP-PHAT-SRC方法與GCC-qγβ方法的位置誤差,證明了SSL系統(tǒng)的先進(jìn)性。
由圖12可知,當(dāng)聲源與陣列距離較近時(shí),本方法的定位效果明顯好于GCC-qγβ方法與傳統(tǒng)SRP-PHAT-SRC方法。隨著陣列與聲源位置的增加,定位誤差與GCC-qγβ方法接近,且明顯優(yōu)于傳統(tǒng)的SRP-PHAT-SRC方法。
圖12 不同的聲源與麥克風(fēng)陣列間距定位效果對(duì)比
針對(duì)室內(nèi)復(fù)雜環(huán)境下遠(yuǎn)場(chǎng)移動(dòng)聲源定位能力的不足,提出三維星型陣列拓?fù)涞淖孕?zhǔn)麥克風(fēng)陣列聲源定位系統(tǒng),仿真與實(shí)驗(yàn)結(jié)果驗(yàn)證了所提系統(tǒng)基于多通道的語(yǔ)音獲取方式和感知聲源信號(hào)時(shí)空信息,有利于從陣列拓?fù)渑c陣列校準(zhǔn)兩方面改進(jìn)SRP-PHAT-SRC聲源定位算法的遠(yuǎn)場(chǎng)聲源定位性能。實(shí)驗(yàn)結(jié)果同時(shí)證明所提系統(tǒng)具有一定的理論基礎(chǔ)與實(shí)用價(jià)值。但是在三維定位中,針對(duì)聲源高度的定位結(jié)果并不準(zhǔn)確,因此在針對(duì)聲源高度的定位精度優(yōu)化上值得進(jìn)一步研究,從而提高整體定位精度。