蔣相斌,白宗龍,孫金瑋,黃博妍
(哈爾濱工業(yè)大學(xué),黑龍江 哈爾濱 150001)
聲源定位技術(shù)可以應(yīng)用到很多方面,例如視頻會(huì)議、人工智能、語(yǔ)音增強(qiáng)以及降噪等[1-3]。常見(jiàn)的聲源定位方法有到達(dá)時(shí)間差法(TDOA),波束成形法(BF)以及空間譜估計(jì)算法等?;趶V義互相關(guān)算法是到達(dá)時(shí)間差法的一種,具有計(jì)算量小等優(yōu)勢(shì),實(shí)際應(yīng)用廣泛。其中,廣義互相關(guān)法是指通過(guò)對(duì)兩信號(hào)的互功率譜密度函數(shù)相乘并進(jìn)行加權(quán)后進(jìn)行傅里葉反變換得到兩信號(hào)時(shí)延的過(guò)程。
基于廣義互相關(guān)的聲源定位算法分為兩步:首先,求出兩兩傳聲器的時(shí)間延遲;然后,結(jié)合傳聲器的空間位置信息確定聲源的位置。本文在強(qiáng)混響條件下結(jié)合鏡像源模型對(duì)算法進(jìn)行改進(jìn),并進(jìn)行仿真實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)結(jié)果證明:在低信噪比(SNR)的條件下,改進(jìn)后的定位準(zhǔn)確率有一定的提高。
文章首先介紹了現(xiàn)有的聲源定位模型;并提出了一種利用包含在混響中空間位置信息進(jìn)行聲源定位的改進(jìn)方法;通過(guò)仿真實(shí)驗(yàn)結(jié)果比較,最終結(jié)果表明:文中所提出的聲源定位算法提高了強(qiáng)混響低信噪比條件下的聲源定位正確率。
基于廣義互相關(guān)的聲源定位包含兩個(gè)步驟:時(shí)延估計(jì)以及位置估計(jì)。本節(jié)將分別介紹這兩部分。
在自由場(chǎng)環(huán)境下,空間位置不同的兩傳聲器接收到聲源x1(t)的數(shù)學(xué)模型如[4]
x1(t)=a1s(t-τ)+n1(t)
(1)
x1(t)=a2s(t-τ-τ0)+n2(t)
(2)
式中:x1(t),x2(t)分別為1號(hào)傳聲器2號(hào)傳聲器接收到的信號(hào);n1(t),n2(t)分別為聲源傳播到兩傳聲器過(guò)程中的噪聲;a1,a2分別為聲源傳播到兩傳聲器過(guò)程中的衰減,并且有0 如圖1所示,本文中假設(shè)環(huán)境為室內(nèi),有較強(qiáng)的混響,傳聲器數(shù)量為4個(gè),聲源為平穩(wěn)寬帶聲源,則式(1)和(2)所使用的數(shù)學(xué)模型過(guò)于簡(jiǎn)單而不能準(zhǔn)確描述聲源傳播路徑。所以引入鏡像源模型描述強(qiáng)混響條件下傳聲器接收到的信號(hào)模型。該模型假設(shè)存在關(guān)于各個(gè)反射面相對(duì)稱(chēng)的鏡像源,多個(gè)鏡像源產(chǎn)生一系列的沖擊響應(yīng),以此模擬混響的形成過(guò)程。此模型規(guī)定傳聲器接收到的信號(hào)由直達(dá)聲、混響以及噪聲組成,數(shù)學(xué)模型如式(3)、式(4)所示。 x1(t)=h1?s(t)+n1(t) (3) x2(t)=h2?s(t)+n2(t) (4) 式中:h1,h2為混響過(guò)程的沖擊響應(yīng);?卷積運(yùn)算。 基于廣義互相關(guān)的聲源定位算法的關(guān)鍵問(wèn)題在于計(jì)算兩兩傳聲器之間的時(shí)間差。本文介紹廣義互相關(guān)的時(shí)延獲取以及其改進(jìn)方法。文中使用的物理模型假設(shè)為平穩(wěn)的,因此適用于變化緩慢的環(huán)境,即信號(hào)以及噪聲的參數(shù)在整個(gè)測(cè)量階段保持平穩(wěn)。 圖1 室內(nèi)強(qiáng)混響條件下聲源定位 基于廣義互相關(guān)的聲源定位算法通過(guò)互相關(guān)函數(shù)計(jì)算兩傳聲器之間的時(shí)間差,互相關(guān)函數(shù)的定義如式(5)。 Rx1x2(τ)=(τ)E[x1(t)x2(t-τ)] (5) 式中:E[·]為求數(shù)學(xué)期望。 將式(5)最大化,峰值位置對(duì)應(yīng)的x1(t)值就是兩傳聲器的時(shí)間差。在高信噪比(SNR)的情況下,由式(5)會(huì)得到明顯的峰值,但是存在混響以及噪聲以至于SNR較低時(shí),會(huì)出現(xiàn)多個(gè)峰值甚至無(wú)法確定明顯的峰值,導(dǎo)致時(shí)延x1(t)的估計(jì)出現(xiàn)嚴(yán)重的偏差,最終導(dǎo)致聲源定位算法的失效。為了解決存在噪聲以及混響情況下互相關(guān)函數(shù)求時(shí)延失效的問(wèn)題,引入了廣義互相關(guān)方法。本文在節(jié)中也提出了一種提高時(shí)延估計(jì)準(zhǔn)確率的方法。 通過(guò)傅里葉變換可以將x1(t)和x2(t)的互相關(guān)函數(shù)與互功率譜密度函數(shù)聯(lián)系起來(lái),如式(6)所示 (6) 式中:Gx1x2(ω)為互動(dòng)率譜密度函數(shù),定義如式(7)。 (7) 式中:(·)*為復(fù)共軛;X1(ω),X2(ω)分別為信號(hào)x1(t)和x2(t)的傅里葉變換。 為了降低噪聲以及混響的影響,利用濾波器fi(t)對(duì)xi(t)進(jìn)行濾波,濾波后的信號(hào)表示為y1(t),其中i=1,2。所以,y1(t)和y2(t)的互動(dòng)率譜密度函數(shù)Gy1y2(ω)表示如式(8)。 (8) 圖2 廣義互相關(guān)流程 表1列舉了應(yīng)用最為廣泛的四種加權(quán)方法,分別為互相關(guān)、ROTH,SCOT以及PHAT加權(quán)。圖2顯示了廣義互相關(guān)方法的計(jì)算流程,其中,Ψ12(ω)表示在表1中選取的加權(quán)函數(shù)。 表1 常用的廣義互相關(guān)加權(quán)函數(shù) 接下來(lái),介紹基于廣義互相關(guān)的聲源定位算法第二部分。為了方便起見(jiàn),考慮二維平面的情況本文算法可推廣到三維空間之中。 式(9)表示信號(hào)源與傳聲器之間的關(guān)系,其中信號(hào)源位于S=(x0,y0),三個(gè)傳聲器位于A=(x1,y1),B=(x2,y2)以及C=(x3,y3)。 (9) 其中, (10) 式中:τ21和τ31分別為傳聲器B到傳聲器A的時(shí)延以及傳聲器C到傳聲器A的時(shí)延;c為聲速。 式(9)通過(guò)牛頓法進(jìn)行求解為 (11) (12) (13) 由公式(11)可以看出聲源位置估計(jì)是由時(shí)延決定的,所以時(shí)延估計(jì)的準(zhǔn)確度直接影響最終聲源位置估計(jì)的正確率。在第3節(jié)中給出了強(qiáng)混響條件下的利用鏡像源信息提高時(shí)延估計(jì)準(zhǔn)確度的方法。 在立方體室內(nèi)空間中,接收到的聲音信號(hào)存在比較強(qiáng)的混響。利用鏡像源模型得到立方體室內(nèi)沖擊響應(yīng)如式所示[6] (14) 式中:tlength為沖擊響應(yīng)的長(zhǎng)度;p(t)ijk為來(lái)自ijk鏡像源的聲壓信號(hào);Nx,Ny和Nz分別為鏡像源的數(shù)目。 如圖3所示,如果只考慮距離聲源比較近的反射面,式(3)和(4)可以簡(jiǎn)化為 圖3 單個(gè)鏡像源傳播模型 (15) x2(t)=a21s(t-τ21)+a22s(t-δ2-τ21)+n2(t) (16) 式中:δ1和δ2分別為鏡像源S′傳播到1號(hào)傳聲器的時(shí)延以及傳播到2號(hào)傳聲器的時(shí)延。由于反射面吸收以及傳播衰減的因素,衰減系數(shù)a11,a12,a21,a22滿(mǎn)足關(guān)系a11>a12,a21>a22。 由圖3中幾何關(guān)系,實(shí)際聲源與鏡像源相對(duì)于麥克風(fēng)滿(mǎn)足式(17)和式(18)的關(guān)系 S′A-SA=cδ1 (17) S′B-SB=cδ2 (18) 將互相關(guān)函數(shù)寫(xiě)為 Rx1x2(τ)=E[x1(t-τ)x2(t)] (19) 將式(17)和(18)帶入公式(19),得到 Rx1x2(τ)=E[a11a21s(t-τ)s(t-τ21)+a11a21s(t-τ)s(t-δ2-τ21)+a12a21s(t-τ-δ1)s(t-τ21)+a12a22s(t-τ-δ1)s(t-δ2-τ21)] (20) 提出衰減系數(shù)項(xiàng),則 Rx1x2(τ)=a11a21E[s(t-τ)s(t-τ21)]+a11a22E[s(t-τ)s(t-δ2-τ21)]+a12a21E[s(t-τ-δ1)s(t-τ21)]+a12a22E[s(t-τ-δ1)s(t-δ2-τ21)] (21) 由互相關(guān)函數(shù)定義可知,式(21)可以改寫(xiě)為 Rx1x2(τ21)=a11a21Rss(τ21)+a11a22Rss(τ21+δ2)+a12a21Rss(τ21-δ1)+a12a22Rss(τ21+δ2-δ1) (22) 式中:Rss(·)為聲源信號(hào)自相關(guān)函數(shù)。 在僅考慮距離聲源最近的反射面以及單次反射的情況下,由式(22)可知兩傳聲器接收到信號(hào)的互相關(guān)函數(shù)具有四個(gè)峰值,且由a11a21>a11a22,a11a21>a12a21,可以確定四個(gè)峰值之間的相對(duì)位置關(guān)系。最大峰值位置與其余四個(gè)峰值位置關(guān)系為 (τ21+δ2)+(τ21-δ1)-(τ21+δ2-δ1)=τ21 (23) 式(23)顯示了峰值之間位置關(guān)系,利用該關(guān)系可以判定由互相關(guān)函數(shù)確定的時(shí)延是否正確,以避免錯(cuò)誤的時(shí)延導(dǎo)致錯(cuò)誤的聲源定位結(jié)果。最終,提高聲源定位的準(zhǔn)確率,其中,準(zhǔn)確率的定義為 (24) 式中:Ncorrect為估計(jì)正確的實(shí)驗(yàn)次數(shù);Ntotal為實(shí)驗(yàn)的總次數(shù)。 在本節(jié)中,給出傳統(tǒng)GCC(Generalized Cross Crorrelation廣義互相關(guān),這種算法可用于聲源定位),GCC_ROTH,GCC_SCOT以及GCC_PHAT的隨SNR變化的時(shí)延估計(jì)準(zhǔn)確率比較結(jié)果。然后利用式(23)分別對(duì)四種方法進(jìn)行改進(jìn),并給出改進(jìn)后的方法與為改進(jìn)方法的比較結(jié)果。 圖4顯示了四種方法隨SNR(信噪比)變化的時(shí)延估計(jì)準(zhǔn)確率的比較結(jié)果。其中進(jìn)行了1000次實(shí)驗(yàn),快拍數(shù)為1024,信號(hào)頻率為500 Hz。通過(guò)圖4可知,隨SNR降低,四種算法的時(shí)延估計(jì)準(zhǔn)確度都會(huì)降低,這種情況在SNR=-4 dB之后十分明顯。 圖4 基于廣義互相關(guān)時(shí)延估計(jì)準(zhǔn)確度隨SNR的變化 為了改善在強(qiáng)混響低SNR下的時(shí)延估計(jì)準(zhǔn)確度,利用式(23)對(duì)以上四種算法進(jìn)行改進(jìn)。圖5~8分別顯示了改進(jìn)后的方法與原始方法時(shí)延估計(jì)準(zhǔn)確度的比較結(jié)果。每次比較進(jìn)行了20次蒙特卡洛實(shí)驗(yàn),每次試驗(yàn)進(jìn)行1000次時(shí)延估計(jì),每次時(shí)延估計(jì)的快拍數(shù)為1024,聲源的頻率為500 Hz,且仿真在SNR=-10 dB情況下進(jìn)行。 圖5 GCC與改進(jìn)后GCC時(shí)延估計(jì)準(zhǔn)確度的比較 圖6 GCC_PHAT與改進(jìn)后GCC_PHAT時(shí)延估計(jì)準(zhǔn)確度的比較 圖7 GCC_ROTH與改進(jìn)后GCC_ROTH時(shí)延估計(jì)準(zhǔn)確度的比較 圖8 GCC_SCOT與改進(jìn)后GCC_SCOT時(shí)延估計(jì)準(zhǔn)確度的比較 由圖5~8可知,再加入式(23)的限制條件之后,各個(gè)方法的時(shí)延估計(jì)準(zhǔn)確度在強(qiáng)混響低SNR的情況下都有一定程度的改善。因此提高了聲源定位的準(zhǔn)確度,避免因時(shí)延估計(jì)錯(cuò)誤導(dǎo)致聲源定位的錯(cuò)誤結(jié)果。 通過(guò)介紹基于廣義互相關(guān)的聲源定位算法的基礎(chǔ)上,針對(duì)該算法在強(qiáng)混響低信噪比的情況下時(shí)延估計(jì)準(zhǔn)確度較低的問(wèn)題,利用鏡像源模型提出了一種提高時(shí)延估計(jì)準(zhǔn)確度的方法。同過(guò)仿真實(shí)驗(yàn)結(jié)果的分析可知,本方法利用混響中的位置信息增強(qiáng)抵抗噪聲干擾的能力,進(jìn)而提高實(shí)時(shí)延估計(jì)的準(zhǔn)確度?;祉憛^(qū)別于一般噪聲,原因是其含有聲源的空間位置信息,如何利用混響中的聲源位置信息進(jìn)一步提高聲源定位的準(zhǔn)確度以及進(jìn)行三維空間內(nèi)的鏡像源模型分析是我們下一步的主要研究?jī)?nèi)容。2 提高時(shí)延估計(jì)準(zhǔn)確度的方法
3 仿真實(shí)驗(yàn)
4 結(jié)論