張會新,閆安斌,王 昕,姜 維
(1.中北大學電子測試技術國家重點實驗室,太原 030051;2.儀器科學與動態(tài)測試教育部重點實驗室,太原 030051;3.北京宇航系統(tǒng)工程研究所,北京 100076)
?
分布式麥克風陣列的聲源定位*
張會新1,2,閆安斌1,2,王昕3,姜維3
(1.中北大學電子測試技術國家重點實驗室,太原030051;2.儀器科學與動態(tài)測試教育部重點實驗室,太原030051;3.北京宇航系統(tǒng)工程研究所,北京100076)
摘要:聲定位探測技術的無源被動特性,使其在定位技術研究領域內獨樹一幟,時延估計和定位算法是支持這一技術的核心。DUET時延估計算法簡單,通過對接收到的信息分段幀移加窗處理,能夠有效識別有用語音信息,時延估計精度較高,在高噪聲的環(huán)境中非常適用;球面定位算法是基于時延估計提出的,對麥克風的排列形式不固定,適用于任意排布的麥克風陣列,并且在時延估計精度較高的情況下,能夠很準確地對聲源目標進行定位。
關鍵詞:聲定位,DUET,時延估計,幀移加窗處理,球面定位算法
麥克風陣列的聲源定位屬于被動聲測技術,它是利用物體運動或振動時產(chǎn)生的音頻信號,通過對該音頻信號進行采集、提取和分析,實現(xiàn)對發(fā)聲體定位的一種技術。麥克風陣列是指若干個具有相同性能或性能接近的麥克風群體,它們有的被以某種規(guī)則的幾何形式進行排列,有的則是隨機地散布在某些應用區(qū)域中。
陣列的選取對目標定位的精度影響很大[1],常見的陣列形式有直線型和十字型。均勻線陣結構簡單,計算量小,但其獲得信息量也較少,只適用于平面定位;十字陣列由相互垂直的線陣組成,中間陣元共用,較線性陣列結構復雜,所獲得的信息量也較多,通過適當?shù)挠嬎?,這些信息量可以測算出聲源的俯仰角、方位角及距離;但規(guī)則的陣元排布需要人為去實現(xiàn),不適用于傳感器節(jié)點的大量散布和空投方式,也不利于將節(jié)點散布在有爭議或人類不適宜到達的區(qū)域,故本文提出一種基于任意陣列的定位算法,任意陣排布的麥克風陣列結構復雜多樣化,實際應用比較簡單,其缺點是計算量相對較大。
在聲陣列定位系統(tǒng)中,精確測量聲源目標的相對距離和相對方位參數(shù)的關鍵,是要能夠準確而又及時地得到聲源發(fā)出的音頻信號到達接收麥克風質檢的時延值,時延估計技術顯得尤為重要。傳統(tǒng)的時延估計算法是通過計算信號與信號之間的相關性,根據(jù)相關函數(shù)得到時延差。這種算法對只存在單一聲源的場合中,計算簡單,時延估計比較準確,但在實際情形中,往往不可能只存在唯一的聲源,這將導致傳統(tǒng)時延估計采用的互相關法,因噪聲的存在,使得信號之間的時延旁瓣過高,而無法準確得到目標聲源到達不同麥克風的時延。目前出現(xiàn)的一類基于時頻稀疏特性的算法,該算法實現(xiàn)簡單,能同時對多個聲源信號進行分離。尤其Van Hulle提出的DUET算法應用最為廣泛[2]。
1.1語音信號的加窗處理
語音信號的頻率隨時間的變化而不同,幾乎沒有完全重合的兩段聲音譜線,但在眾多學者的長期試驗與探索中,發(fā)現(xiàn)在一段很小的時間內,語音信號的頻率基本是平穩(wěn)的。故對語音信號的分析,需將信號進行分段后才能進行后續(xù)的處理。一般為了保持信號的連續(xù)性,使得幀與幀之間平滑過渡,通常采用交疊分段的方法[3],前后幀的交疊部分稱為“幀移”,如圖1所示。
圖1幀移與幀長關系圖
語音信號的分幀是利用可移動的有限長度窗口進行加權來實現(xiàn)的。即利用窗函數(shù)w(n)與信號s(n)相乘,常用的窗函數(shù)有兩種,一種是矩形窗,另一種是漢明窗。窗函數(shù)的選擇直接影響語音信號的短時分析特性(語音信號的特性變化),進而影響到后續(xù)的延時處理,直接導致定位的精度。
窗函數(shù)的選擇主要考慮兩個方面:窗口形狀和窗口長度。從形狀上看,漢明窗的主瓣寬度是矩形窗的兩倍,同時帶寬增加了一倍,帶外衰減也是矩形窗的兩倍,故漢明窗較矩形更能夠保證波形成分的完整[2],窗口長度的確定由采樣頻率和頻率分辨率共同決定:
從表達式不難看出,當采樣頻率確定后,窗口長度取長,則頻率的分辨率便會降低;若提高頻率分辨率,則會使窗口的長度變短,兩者變化相互矛盾。換言之,窗口長度如果取長,則不能如實反映語音信號幅度變化,反之,則短時能量將隨時間產(chǎn)生很大變化,使得能量函數(shù)不夠平滑。
根據(jù)實際需求,當采樣率在20 KHz時,窗口長度N通常取200點~600點即可(即10 ms ~30 ms的短幀時間)。
1.2 DUET時延估計算法
語音信號是時頻稀疏和短時正交的,即每個聲源發(fā)出的聲音在頻率上都只集中在一個比例很小的范圍內,并且各個聲源發(fā)出聲音的頻率分布幾乎互不交疊[4]。換言之,假設兩個語音信號源si(t)和sj(t)經(jīng)過一個矩形窗的窗函數(shù)W(t)傅里葉變換后,在頻域上是互不交疊的,即認為兩語音信號si(t)和sj(t)短時正交。
在無反射無混響的情況下,假設陣列中的兩個同質麥克風收到來自多個語音源信號s1(t),s2(t),…,sn(t)組成的混合信號,則兩路麥克風收到的信號可以表示為:
其中,x1表示麥克風1接收到的混合信號,x2表示麥克風2接收到的混合信號,δi表示兩麥克風之間的相對延時,ai表示語音信號到達兩麥克風之間的相對衰減系數(shù)。
基于無反射無混響的假設前提,對兩路信號進行加窗傅里葉變換,將信號的時域表達式轉換為頻域表達式:
由于語音信號滿足時頻稀疏和短時正交性,故可以認為在每一個時頻點(τ,ω)處,最多只有一個聲源起主導作用,則每個時頻點處的頻域表達式可以表示為:
其中,x贊i(τ,ω)指在時頻點(τ,ω)處起主導作用的聲源信號的傅里葉變換。
擴展到N個同質麥克風,則可得到任意兩個同質麥克風在時頻點(τ,ω)處的頻域相關系數(shù)矩陣:
由于本文使用的定位計算是通過得到信號源產(chǎn)生的信號到達各個麥克風的時間差,確定聲源距離兩麥克風的距離差,進而得到聲源的位置,故在此暫不考慮a(τ,ω)。
最后確定聲源對應于各個麥克風的時延參數(shù)δ(τ,ω),是通過對得到的所有參數(shù)進行加權聚類處理,對于移動速度比較慢或者靜止的聲源,短時內,信號到達兩麥克風的時延是固定的,故經(jīng)計算得到的時延參數(shù)會散落在各自實際時延值的附近,根據(jù)概率估計便可估計出實際的時延值。
任意排布的麥克風陣列,由于其擺放形式比較自由,投放形式也比較自由,更加適用于有爭議的地區(qū)或者人無法直接到達的區(qū)域,實用性更強。
2.1時延定位算法(TDOA)
時延定位(TDOA)算法是通過研究和探測聲波的傳播情況來對目標進行定位的。聲音在同種介質中傳播的速度是一定的,由于其傳播速度相對于光速和無線電傳輸速度比較小,聲源發(fā)出語音信號與麥克風接收該語音信號之間會存在一定的時延,并且該時延相對較大,利用音信信號到達每個接收麥克風的時延都不同,提出了基于時延的定位算法。
根據(jù)時延定位算法理論,構建的數(shù)學模型如式
化簡可得:
(9)所示:
其中,ti為聲源發(fā)出語音信號與麥克風接收該語音信號的時延,ri表示語音信號接收麥克風距離聲源的距離,ni表示由于測量誤差引起的隨機噪聲。同理,可以推廣到麥克風陣列中其他麥克風對應的時延數(shù)學模型:
由此,只要計算出傳感器節(jié)點之間的相對時延,即可清楚地定位被測目標聲源的位置。
2.2球面交匯法[5-6]
設陣列陣元按任意位置擺放,如圖2所示,將陣元O置于原點作為參考點(x0,y0,z0),
通過等式變煥,可以得到:
圖2球面交匯法示意圖
陣列中其他第i個麥克風節(jié)點的坐標設為(xi,yi,zi),聲源S的坐標用(x,y,z)表示,ri表示聲源S與第i個麥克風的距離。結合上圖并根據(jù)時延定位算法思想,可得到其定位的數(shù)學模型:
或
其中,t0表示聲源S開始發(fā)射信號的時刻,ti為第i個麥克風接收到信號的時刻,εi為模型測量誤差,τi=ti-t0。
比如,當陣元的個數(shù)是3的時候,得到的方程組如式(14):
令
則,式(14)可轉換為:
由上述方程可得:
又由式(14)和式(16)可得
整理得:
即
az2+bz+c=0
解得:
由上述推導可知,此模型至少需要3個麥克風即可計算出聲源坐標(x,y,z)的值(當多余3個時,可使用最小二乘法計算最佳解)。
為了驗證該算法的有效性,本節(jié)基于模擬仿真軟件,做了大量的試驗,并對試驗結果進行了深入的理論分析。通過研究分析表明,DUET時延算法對有干擾源的聲源環(huán)境中,能有效識別有效信息,并能夠有效得到不同麥克風接收聲源信息之間的時延值,對后續(xù)的定位算法起關鍵作用。球面交匯法適用于任意排布的麥克風陣列的聲源定位,定位的相對誤差較小,能夠有效地對聲源位置進行定位。3.1 DUET時延算法仿真分析
本次時延仿真試驗中,設定聲源距離麥克風a 為40 m,距離麥克風b為50 m,a、b兩麥克風距離為20 m,采樣頻率為20 KHz,陣列采樣的信號長度為2.1 s,為兼顧語音信號的短時平穩(wěn)特性,本次設定信號幀長為30 ms,幀移為1/2。根據(jù)DUET算法,對每幀數(shù)據(jù)漢明加窗后進行1 024點的短時傅里葉變換,得到麥克風接收到的混合信號的模型,構建陣列麥克風頻域矩陣,對矩陣進行相關性計算,得到相關系數(shù)矩陣,進而得到各個麥克風之間的時延。
利用大數(shù)定理,對得到的時延樣本進行估計,以確定最終的時延值。圖3為本次仿真試驗結果圖:
圖3時延估計樣本分布三維圖
由圖3可以看出,中間出現(xiàn)一個尖峰,尖峰對應的時延值大概為29.38 ms,基本接近實際時延值29.41 ms,故此算法對有噪聲干擾的環(huán)境中的聲源信號時延估計具有適用性。
3.2球型定位算法仿真分析
構建三維立體坐標系,假設3個麥克風的坐標分別為a(0,0,0,),b(3,8,0),c(11,4,0),聲源S坐標為(19,6,10),如圖4所示:
圖4聲源與麥克風位置示意圖
圖5球面交匯法定位計算誤差統(tǒng)計示意圖
當時間測量誤差呈50 us的正態(tài)分布時,用球面交匯定位法對聲源的3個坐標系進行偏差計算及距離的偏差計算,統(tǒng)計結果如圖5所示,本次仿真試驗共統(tǒng)計500次。
圖6球面定位誤差與時延誤差的關系示意圖
此外,圖6給出了時延誤差對球面交匯法聲源定位的影響的示意圖。
從圖6可知,當時延相對誤差控制到0.4以下時,可將定位的相對誤差控制到0.1以下。
聲定位探測技術因其無源被動的特性,已成為目前定位技術研究的一個重要方面。時延估計和定位算法的選擇都是決定定位精度的關鍵技術。本文提到的DUET時延估計算法,適用于噪聲比較復雜的環(huán)境中,并且時延估計精度較高;球面定位算法在時延估計誤差較小的情況下,其定位精度也相對較好。
參考文獻:
[1]HE J,LIU Z. Two-step azimuth and elevation angle estimation with vector hydrophone array[J]. Chinese Journal of Electronics,2009,18(4):754-758.
[2]顧添翼.基于麥克風陣列的多聲源側向方法研究[D].南京:南京理工大學,2014.
[3]甘海波.語音識別系統(tǒng)中聲學層模型的研究[D].哈爾濱工業(yè)大學,2008.
[4]ARBERET S,GRIBONVAL R,BIMBOT F.A robust method to count and locate audio sources in a multichannel underdetermined mixture[J]. Signal Process,IEEE Transaction on,2010,58(1):121-133.
[5]王鵬.基于MEMS矢量水聽器陣列的聲目標定向定位技術研究[D].太原:中北大學,2013.
[6]雷鳴,陳紹欽,雷志勇.近地炸點聲定位算法研究[C].計算機測量與控制,2012,20(3):734-736.
Sound Source Localization Distributed Microphone Array
ZHANG Hui-xin1,2,YAN An-bin1,2,WANG Xin3,JIANG Wei3
(1. National Key Laboratory for Electronic Measurement Technology,North University of China,Taiyuan 030051;2. Key Laboratory of Instrumentation Science & Dynamic Measurement of Ministry of Education,Taiyuan 030051,China;3. Beijing Institute of Astronautics System Engineering,Beijing 100076,China)
Abstract:Passive features of Acoustic positioning detection technology make it unique in the field of positioning technology,TDE and positioning algorithm is the core to support this technology. DUET delay estimation algorithm is simple,with segmenting information received via the docking frame shift windowing,it can effectively identify useful speech information,high delay estimation accuracy is corporately accurate which is suited in high -noise environments ideally;spherical delay estimation algorithm is put forward based on TDE,the arrangement of the microphone is not fixed in the form of its requirements,and therefore is applicable to any arrangement of the microphone array,and in the case of high precision delay estimation,it can accurately position the sound source target.
Key words:acoustic positioning,DUET,TDE,windowing frame shift,spherical localization algorithm
作者簡介:張會新(1980-),男,山西太原人,講師。研究方向:動態(tài)測試技術及智能儀表。
*基金項目:國家“863”計劃基金資助項目(2011AA0404040)
收稿日期:2015-01-12
文章編號:1002-0640(2016)02-0077-05
中圖分類號:TN925+.1
文獻標識碼:A
修回日期:2015-03-07