王華松,趙 鑫
(92941部隊(duì),遼寧葫蘆島 125001)
關(guān)鍵字:端點(diǎn)檢測(cè);脈沖聲源定位;廣義互相關(guān);時(shí)延提取
基于傳聲器陣列的聲源定位問題,就是將一組傳聲器按一定方式布置在空間特定的位置上,形成傳聲器陣列,用傳聲器接收語音信號(hào),相當(dāng)于對(duì)空間分布的聲場(chǎng)信號(hào)進(jìn)行采樣,得到聲源的空間離散觀測(cè)數(shù)據(jù),通過一定的信號(hào)處理算法,估計(jì)聲源的空間位置。基于傳聲器陣列的定位方法按照定位原理大體上可以分為3類[1]:基于最大輸出功率的可控波束形成技術(shù)、基于高分辨率譜估計(jì)的定位技術(shù)和基于到達(dá)時(shí)間差(Time Difference Of Arrival,TDOA)的定位技術(shù)。本文主要研究第三種定位方法,這種方法分為兩步:第一步獲得麥克風(fēng)兩個(gè)時(shí)間延遲估計(jì)(Time Delay Estimation, TDE),常用的方法有互相關(guān)法(Cross Correlation, CC)[2]、互功率譜相位法(Cross PowerSpectrum Phase, CSP)[3]、自適應(yīng)特征值分解法(Adaptive Eigenvalue Decomposition,AED)[4]等;第二步進(jìn)行空間定位,常用的方法有最小二乘法、最優(yōu)化方法等?;赥DOA的定位方法計(jì)算量小,原理簡(jiǎn)單,易于實(shí)時(shí)實(shí)現(xiàn),可用于單脈沖聲源的定位。
時(shí)延估計(jì)是聲源定位中的關(guān)鍵環(huán)節(jié),對(duì)于語音信號(hào),由于持續(xù)時(shí)間比較長(zhǎng),可以運(yùn)用滑動(dòng)平均的方式[5]來消除部分誤差。但是,對(duì)于短時(shí)脈沖聲信號(hào),由于持續(xù)時(shí)間比較短,受混響干擾比較明顯,這種方式不再有效。本文運(yùn)用傳統(tǒng)的互相關(guān)方法求出時(shí)延值,利用端點(diǎn)檢測(cè)信息判斷時(shí)延值的優(yōu)劣,提取好的時(shí)延值,再利用最優(yōu)化方法進(jìn)行空間定位,提出了一種在非高斯白噪聲與高混響環(huán)境下室內(nèi)脈沖聲定位的方案。為了驗(yàn)證方案的有效性,實(shí)際構(gòu)建了由6個(gè)麥克風(fēng)組成的傳聲器陣列,模擬點(diǎn)聲源在室內(nèi)的真實(shí)聲場(chǎng)環(huán),開展相關(guān)定位實(shí)驗(yàn),并對(duì)定位精度進(jìn)行分析比較。實(shí)驗(yàn)結(jié)果表明,該方案能夠?qū)崿F(xiàn)單個(gè)脈沖聲源的定位并且具有較高的定位精度。
為了抑制噪聲的影響,可在頻域內(nèi)對(duì)互相關(guān)函數(shù)進(jìn)行加權(quán),這種方法稱為廣義互相關(guān)法(Generalized Cross Correlation, GCC)[2]。本文主要運(yùn)用廣義互相關(guān)-相位變換算法(Generalized Cross Correlation PHAse Transformation, GCC-PHAT),該方法相當(dāng)于對(duì)互功率譜函數(shù)進(jìn)行白化濾波,只保留信號(hào)的相位信息,可使互相關(guān)函數(shù)峰值更加尖銳。但是這種方法是建立在非混響模型基礎(chǔ)上的,通常適用于低混響和低信噪比信號(hào)的場(chǎng)合[6],對(duì)于高混響和非相關(guān)白噪聲環(huán)境下,不能很準(zhǔn)確地估計(jì)出時(shí)延值。
基于TDOA的聲源定位,就是根據(jù)距離差均方誤差最小值原則,求解聲源所在位置。
當(dāng)確定了N組時(shí)延值之后,即可按照最優(yōu)化的方式來求解聲源所在的位置。該最優(yōu)化問題可以表示為
采用廣義互相關(guān)法得到的TDOA相對(duì)比較精確,但是該方法易受噪聲和混響的干擾,會(huì)出現(xiàn)較大偏差的TDOA。
由于受到同步非高斯白噪聲的影響,在零時(shí)延處廣義互相關(guān)波形存在偽峰,偽峰的幅值甚至可能超過真實(shí)峰值的幅值,造成時(shí)延估計(jì)的錯(cuò)誤。分別對(duì)傳聲器接收到的原始信號(hào)和噪聲信號(hào)進(jìn)行頻譜分析,對(duì)原始脈沖聲信號(hào)進(jìn)行帶通濾波,保留有效頻率成分。實(shí)驗(yàn)中我們發(fā)現(xiàn)濾波后部分處于零時(shí)延的幅值已經(jīng)低于真實(shí)時(shí)延處的幅值,零時(shí)延處的虛假峰值在一定程度上被抑制。
由于受到混響影響,互相關(guān)函數(shù)也會(huì)出現(xiàn)偽峰。假設(shè)麥克風(fēng)對(duì)空間距離為l,聲源到麥克風(fēng)對(duì)的距離差為d,由三角形幾何關(guān)系可知,d<l,因此時(shí)延估計(jì)中互相關(guān)函數(shù)峰值存在區(qū)間為■-lfsc,lfsc■,其中fs為采樣頻率,峰值區(qū)間以采樣點(diǎn)為單位。通過限定搜索區(qū)間,如圖1所示,可將部分偽峰排除在搜索區(qū)間之外,這種方法可以一定程度上改善由于混響產(chǎn)生的偽峰影響,提高時(shí)延估計(jì)的性能。
圖1 限定互相關(guān)函數(shù)峰值搜索區(qū)間Fig.1 Limitation of the peak search range of CC function
在時(shí)延估計(jì)過程中,端點(diǎn)檢測(cè)是一個(gè)重要環(huán)節(jié)。端點(diǎn)檢測(cè)的目的是從包含脈沖聲信號(hào)的一段信號(hào)中確定脈沖聲的起始點(diǎn)。有效的端點(diǎn)檢測(cè)技術(shù)能夠排除部分噪聲段的干擾,還可以為截取有效信號(hào)參與互相關(guān)運(yùn)算提供依據(jù),節(jié)約數(shù)據(jù)處理時(shí)間。傳聲器接收到的一路原始信號(hào)和對(duì)應(yīng)的短時(shí)能量如圖2所示,其信噪比為23.27。由于信噪比較高,脈沖聲信號(hào)短時(shí)能量遠(yuǎn)遠(yuǎn)大于噪聲段的短時(shí)能量,本文中端點(diǎn)檢測(cè)采用基于短時(shí)能量的算法,設(shè)置合適的能量閾值即可判斷脈沖到達(dá)的時(shí)間點(diǎn)。信號(hào)x的短時(shí)能量定義為[8]
圖2 傳聲器接收信號(hào)和對(duì)應(yīng)的短時(shí)能量Fig.2 Signal received by microphone and the corresponding short-term energy
采用端點(diǎn)檢測(cè)方法可得到時(shí)延的粗略估計(jì),端點(diǎn)檢測(cè)結(jié)果為幀長(zhǎng)一半的倍數(shù),因此對(duì)信號(hào)分幀時(shí)應(yīng)盡量減小幀長(zhǎng)以提高時(shí)延估計(jì)精度。采用該方法得到的TDOA,不易受噪聲和混響的干擾,不會(huì)出現(xiàn)較大偏差的TDOA;但是該方法時(shí)延估計(jì)精度偏低。
盡管進(jìn)行濾波處理并且縮小峰值搜索區(qū)間可以提高時(shí)延估計(jì)精度,但在實(shí)驗(yàn)中發(fā)現(xiàn),混響對(duì)于時(shí)延估計(jì)精度的影響仍然比較大。與語音信號(hào)的時(shí)延估計(jì)不同,脈沖聲信號(hào)持續(xù)時(shí)間很短,無法通過滑動(dòng)平均的方式消除部分時(shí)延估計(jì)誤差。在混響環(huán)境中,根據(jù)端點(diǎn)檢測(cè)信息,截除部分噪聲段,截取端點(diǎn)后很少一部分信號(hào)段,盡可能地將反射波排除在有效信號(hào)段之外,僅利用部分有效信號(hào)段進(jìn)行互相關(guān)處理,可提高時(shí)延估計(jì)精度,減少計(jì)算量。但存在的主要問題是,在聲源定位過程中,在預(yù)先不知道聲源具體位置的情況下,很難準(zhǔn)確地截取直達(dá)波部分,截取的有效信號(hào)段不可避免地包含一部分反射波信號(hào),給精確的時(shí)延估計(jì)帶來很大的困難。如果直接利用所有時(shí)延值進(jìn)行定位估計(jì),會(huì)帶入誤差比較大的時(shí)延估計(jì)值,定位誤差會(huì)比較大,得不到理想結(jié)果。
采用端點(diǎn)檢測(cè)得到時(shí)延估計(jì)的方法,時(shí)延估計(jì)精度為幀長(zhǎng)的一半,精度偏低,但是這種方法不易受到噪聲和混響的影響,不會(huì)出現(xiàn)較大偏差的時(shí)延估計(jì)?;ハ嚓P(guān)方法得到的時(shí)延估計(jì)是以采樣點(diǎn)個(gè)數(shù)來進(jìn)行描述的,其精度取決于采樣頻率,理論上講,時(shí)延估計(jì)精度應(yīng)該高于端點(diǎn)檢測(cè)法得到的結(jié)果。但是對(duì)于短時(shí)脈沖聲信號(hào)而言,互相關(guān)法特別容易受混響的影響,異常值較多。
可以將2.1和2.2節(jié)的兩種時(shí)延估計(jì)方法相結(jié)合,充分利用端點(diǎn)檢測(cè)法不易受到噪聲和混響的影響和互相關(guān)法精度較高的優(yōu)點(diǎn)??紤]利用端點(diǎn)檢測(cè)信息提取部分精度較高的互相關(guān)時(shí)延估計(jì)進(jìn)行定位,將誤差較大的互相關(guān)時(shí)延估計(jì)剔除掉不參與定位。如果兩種方法得到的時(shí)延估計(jì)比較接近,說明兩者精度都較高,我們更傾向于選擇互相關(guān)法得到的時(shí)延估計(jì),并將其提取出來,把其余TDOA值舍去。具體實(shí)現(xiàn)方法為
式中:τij為互相關(guān)方法得到的時(shí)延;τi′j為端點(diǎn)檢測(cè)方法得到的時(shí)延;G為設(shè)定的閾值,G的選取和采樣頻率有關(guān),當(dāng)采樣頻率較高時(shí),G的取值可以適當(dāng)大一些。保留滿足式(11)的時(shí)延即為精確的時(shí)延,利用這些可用時(shí)延可完成脈沖聲源定位。
這種精確時(shí)延提取方法綜合了兩種時(shí)延估計(jì)方法的優(yōu)點(diǎn),時(shí)延估計(jì)精度較高,且不易受噪聲和混響干擾。
基于第2節(jié)提出的精確時(shí)延提取方法,本文設(shè)計(jì)了由6個(gè)麥克風(fēng)構(gòu)成的傳聲器陣列(陣列結(jié)構(gòu)在第4節(jié)進(jìn)行進(jìn)一步描述),一共產(chǎn)生16組時(shí)延。任意四個(gè)傳聲器都可以包含三維空間信息,至少提取四組較好的時(shí)延,就可以包含四個(gè)傳聲器接收到的聲信號(hào)。因此,提取四組以上較好的時(shí)延就可以比較準(zhǔn)確地估計(jì)出聲源的空間位置。
本文提出的聲源定位方案框圖如圖3所示。該方案首先對(duì)采集的脈沖聲信號(hào)進(jìn)行濾波處理,接著利用能量信息進(jìn)行端點(diǎn)檢測(cè),根據(jù)端點(diǎn)相減的方法求取時(shí)延,再截取有效信號(hào)段運(yùn)用互相關(guān)方法求時(shí)延。將互相關(guān)法求得的時(shí)延與端點(diǎn)相減求得的時(shí)延對(duì)比,保留差值小于4個(gè)采樣點(diǎn)的時(shí)延,最后按照最優(yōu)化方式求出聲源的估計(jì)位置。
圖3 脈沖聲源定位方案流程圖Fig.3 Flowchart of the pulse sound source positioning scheme
為了驗(yàn)證時(shí)延提取方法有較好的聲源估計(jì)性能,下面分別對(duì)時(shí)延提取前后,時(shí)延估計(jì)誤差和聲源估計(jì)誤差與端點(diǎn)之后截取點(diǎn)數(shù)的關(guān)系進(jìn)行比較。端點(diǎn)之后截取點(diǎn)數(shù)越多,信號(hào)包含的反射波信號(hào)成分也越多,混響越強(qiáng)。聲源位置為s=(2.785 m,1.025 m, -0.43 m)。定義聲源估計(jì)誤差為估計(jì)值和實(shí)際值之間的空間距離;時(shí)延估計(jì)誤差為時(shí)延估計(jì)值和實(shí)際時(shí)延值差值絕對(duì)值的均值,以采樣點(diǎn)度量;異常點(diǎn)百分比[9]為時(shí)延估計(jì)值偏離實(shí)際時(shí)延值大于3個(gè)采樣點(diǎn)的個(gè)數(shù)在所有時(shí)延估計(jì)個(gè)數(shù)中的百分比。表1和表2中K0和K1分別表示時(shí)延提取前后的異常點(diǎn)百分比,由此可知,時(shí)延提取后,異常點(diǎn)百分比有所降低。圖4~6表明,提取時(shí)延后,互相關(guān)時(shí)延估計(jì)誤差在5個(gè)采樣點(diǎn)之內(nèi),時(shí)延估計(jì)性能較時(shí)延提取前有較大改善,有比較強(qiáng)的抗混響能力。圖7和圖8表明,時(shí)延提取后與直接利用16組時(shí)延相比,定位精度大大提高。如果直接利用一般互相關(guān)法得到的16組時(shí)延直接定位,由于時(shí)延估計(jì)異常點(diǎn)較多,誤差會(huì)達(dá)到10 m甚至更大,導(dǎo)致定位結(jié)果出現(xiàn)錯(cuò)誤。圖9為時(shí)延提取后一般互相關(guān)和廣義互相關(guān)定位誤差對(duì)比,由圖可知,時(shí)延提取后定位精度都能達(dá)到分米級(jí);在端點(diǎn)之后截取點(diǎn)數(shù)較多的情況下,廣義互相關(guān)時(shí)延估計(jì)性能明顯優(yōu)于一般互相關(guān),運(yùn)用廣義互相關(guān)法完成定位,其定位精度基本能達(dá)到厘米級(jí)。
表1 時(shí)延提取前后一般互相關(guān)方法的異常點(diǎn)百分比Table 1 The percentage of abnormal points of common CC method before and after extracting TDE value
表2 時(shí)延提取前后廣義互相關(guān)方法的異常點(diǎn)百分比Table 2 The percentage of abnormal points of GCC method before and after extracting TDE value
圖4 時(shí)延提取前后一般互相關(guān)方法的時(shí)延估計(jì)誤差對(duì)比Fig.4 Comparison of TDE error before and after extracting TDE value for common CC method
圖5 時(shí)延提取前后廣義互相關(guān)方法的時(shí)延估計(jì)誤差對(duì)比Fig.5 Comparison of TDE error before and after extracting TDE value for GCC method
圖6 時(shí)延提取后一般互相關(guān)和廣義互相關(guān)方法的時(shí)延估計(jì)誤差Fig.6 TDE errors after extracting TDE value for common CC and GCC methods
圖7 時(shí)延提取前后一般互相關(guān)定位估計(jì)誤差對(duì)比Fig.7 Comparison of localization error before and after extracting TDE value for common CC
圖8 時(shí)延提取前后廣義互相關(guān)方法的定位估計(jì)誤差對(duì)比Fig.8 Comparison of localization error before and after extracting TDE value for GCC method
圖9 時(shí)延提取后一般互相關(guān)和廣義互相關(guān)方法的定位誤差Fig.9 Localization error after extracting TDE value for common CC and GCC methods
實(shí)驗(yàn)系統(tǒng)由六個(gè)麥克風(fēng)構(gòu)成的傳聲器陣列組成,麥克風(fēng)陣列空間擺放位置如圖10所示,參考傳聲器m1為坐標(biāo)原點(diǎn),麥克風(fēng)孔徑L為0.5 m。各個(gè)陣元坐標(biāo)如表3所示。實(shí)驗(yàn)在一個(gè)7 m×5 m×4 m的室內(nèi)空間進(jìn)行,存在空調(diào)、燈、CPU風(fēng)扇等噪聲源。敲擊鋼管模擬點(diǎn)聲源。麥克風(fēng)將聲音信號(hào)轉(zhuǎn)換為電信號(hào),經(jīng)過兩個(gè)四通道信號(hào)調(diào)理器放大,再通過阿爾泰PCI8510數(shù)據(jù)采集卡將六路信號(hào)采集到主機(jī),采樣頻率為100 kHz。六個(gè)麥克風(fēng)兩兩結(jié)合構(gòu)成15個(gè)麥克風(fēng)對(duì),共產(chǎn)生15組時(shí)延。在不同的位置做六組實(shí)驗(yàn),每組實(shí)驗(yàn)在相同的環(huán)境下重復(fù)模擬點(diǎn)聲源。
表3 傳聲器陣列各麥克風(fēng)坐標(biāo)(L=0.5 m)Table 3 The coordinates of each microphone (L=0.5 m)
圖10 麥克風(fēng)陣列布設(shè)圖Fig.10 Layout of microphone array
表4為六組實(shí)驗(yàn)定位結(jié)果,其中t表示實(shí)測(cè)環(huán)境溫度,r表示聲源位置到參考麥克風(fēng)距離。REMS定義為聲源估計(jì)位置到實(shí)際位置距離的均值。徑向誤差定義為聲源估計(jì)位置到麥克風(fēng)參考點(diǎn)M1(坐標(biāo)原點(diǎn))距離和實(shí)際位置到參考點(diǎn)距離的差值的均值。我們認(rèn)為定位誤差(REMS)大于0.5 m時(shí),定位失敗。由表4可知,聲源距離參考麥克風(fēng)距離近時(shí)(≤3 m),定位成功率比較高,都能達(dá)到90%以上;定位精度比較高,除第二組外,定位精度可達(dá)到厘米級(jí)。第二組由于聲源離墻角比較近,受墻面反射影響比較嚴(yán)重,誤差比較大,定位精度為分米級(jí)。聲源距離參考麥克風(fēng)距離遠(yuǎn)時(shí)(3~6 m),定位成功率相對(duì)較低,定位誤差相對(duì)較大,定位精度為分米級(jí)。實(shí)驗(yàn)結(jié)果表明,本文提出的方案可以在很大程度上克服非高斯白噪聲和室內(nèi)混響的影響,有效實(shí)現(xiàn)近場(chǎng)單脈沖聲源的實(shí)時(shí)準(zhǔn)確定位。實(shí)驗(yàn)中還發(fā)現(xiàn),提高信噪比有利于提高定位成功率和定位精度。
表4 六組實(shí)驗(yàn)定位結(jié)果Table 4 The positioning results of six groups of tests
對(duì)于短時(shí)脈沖聲信號(hào),由于易受噪聲及混響影響,運(yùn)用互相關(guān)法進(jìn)行時(shí)延估計(jì)異常點(diǎn)比較多,直接運(yùn)用所有時(shí)延值無法得出準(zhǔn)確的聲源估計(jì)結(jié)果。本文主要運(yùn)用端點(diǎn)檢測(cè)信息,對(duì)互相關(guān)法估計(jì)的時(shí)延值進(jìn)行提取,挑選好的時(shí)延值進(jìn)行空間位置估計(jì)。
實(shí)驗(yàn)過程中發(fā)現(xiàn),由于室內(nèi)混響的影響,端點(diǎn)信號(hào)后的信號(hào)截取點(diǎn)數(shù)對(duì)時(shí)延估計(jì)精度有很大影響,利用端點(diǎn)相減求出的時(shí)延與用互相關(guān)法求出時(shí)延進(jìn)行對(duì)比判斷,提取四組以上好的時(shí)延估計(jì),這種方法綜合了互相關(guān)法精度較高和端點(diǎn)檢測(cè)法不易受噪聲和混響干擾的優(yōu)點(diǎn),可降低異常點(diǎn)百分比,同時(shí)能夠克服噪聲和混響的影響。在互相關(guān)法求峰值過程中,利用傳聲器對(duì)的距離信息,減小峰值搜索區(qū)間,可提高時(shí)延估計(jì)性能。
實(shí)驗(yàn)證明,該方案實(shí)現(xiàn)簡(jiǎn)單,一次定位的時(shí)間不超過4 s,可實(shí)現(xiàn)單脈沖聲源的實(shí)時(shí)準(zhǔn)確定位,定位精度可達(dá)到分米甚至厘米級(jí),并且有較好的魯棒性。
今后進(jìn)一步研究的重點(diǎn)為,在保證定位精度的前提下,盡量減少傳聲器的數(shù)量,減小算法的復(fù)雜性。以較小的硬件為代價(jià),實(shí)現(xiàn)單脈沖聲源的實(shí)時(shí)準(zhǔn)確定位。