姜志鵬,唐加能,梁瑞宇
(1.金陵科技學(xué)院電子信息工程學(xué)院,南京 211169;2.華僑大學(xué)工學(xué)院,福建泉州 362021;3.南京工程學(xué)院通信工程學(xué)院,南京 211167)
聲源定位技術(shù)在基于麥克風(fēng)陣列的語音信號處理中處于核心地位,其不但可以提供位置信息,而且對基于麥克風(fēng)陣列的語音增強(qiáng)技術(shù)具有重要的作用。此外,利用聲源定位技術(shù),還可以改善基本的盲源分離技術(shù)在聲音混迭的環(huán)境的性能,解決語音信號的重構(gòu)問題,顯著改善恢復(fù)的語音信號的質(zhì)量?;邴溈孙L(fēng)陣列的聲源定位技術(shù)已經(jīng)成為一大研究熱點(diǎn),對其開展研究具有很強(qiáng)的理論意義和實(shí)踐價(jià)值[1]?,F(xiàn)有的大部分定位系統(tǒng)使用的算法的計(jì)算量較大,實(shí)時(shí)性較差,不能滿足實(shí)時(shí)性要求高的場合。
基于麥克風(fēng)陣列的聲源定位技術(shù)主要有三類[2]:基于高分辨率譜估計(jì)技術(shù)[3-4]、基于可控波束形成技術(shù)[5-6]以及基于時(shí)延估計(jì)的定位技術(shù)[7-8]?;诟叻直媛首V估計(jì)技術(shù)利用特征值分解將數(shù)據(jù)的協(xié)方差矩陣分解為噪聲子空間和信號子空間,再找出與噪聲子空間正交的方向矢量來獲得聲源的方向估計(jì)。該算法主要是針對窄帶信號提出的,當(dāng)聲源信號為寬帶信號時(shí),需要將其分為多個(gè)子帶信號,然后分別用高分辨率譜估計(jì)算法進(jìn)行聲源定位,最后根據(jù)得到的結(jié)果計(jì)算聲源位置。該算法復(fù)雜度較大[9-10],很難應(yīng)用于實(shí)時(shí)系統(tǒng)?;诳煽夭ㄊ纬傻穆曉炊ㄎ粚溈孙L(fēng)接收到的信號進(jìn)行濾波并加權(quán)求和來形成波束,進(jìn)而通過搜索可能的聲源位置來引導(dǎo)該波束,使波束輸出功率最大的點(diǎn)就是聲源的位置。該算法需要全局搜索,運(yùn)算量很大,很難實(shí)時(shí)實(shí)現(xiàn)[11]。而采用的一些迭代方法雖然減少了運(yùn)算量,但很難得到有效的全局峰值,并且對搜索初始值十分敏感?;跁r(shí)延估計(jì)的聲源定位方法是一種雙步定位法[12]。該方法首先估計(jì)聲源到達(dá)不同麥克風(fēng)的時(shí)間差,再根據(jù)多個(gè)時(shí)間差通過幾何關(guān)系得到聲源位置。基于時(shí)延估計(jì)的聲源定位算法運(yùn)算量小,實(shí)時(shí)性好,對硬件要求不高。但該類算法不適用于多聲源定位,而且在較強(qiáng)混響和噪聲的環(huán)境中,很難獲得精確的時(shí)延,從而導(dǎo)致后續(xù)的定位產(chǎn)生很大的誤差。盡管如此,由于基于時(shí)延估計(jì)的定位算法易于應(yīng)用于實(shí)時(shí)系統(tǒng),而且在適當(dāng)改進(jìn)后,在一定的噪聲和混響下也能有比較好的定位精度,被廣泛地應(yīng)用于各種定位系統(tǒng)。
針對目前聲源定位算法的問題,本文提出一種基于變步長標(biāo)準(zhǔn)最小均方差VLMS(Variable Step Size Least Mean Square)算法。該算法利用VLMS算法自適應(yīng)估計(jì)聲源到麥克風(fēng)的脈沖響應(yīng)系數(shù),進(jìn)而估計(jì)出各麥克風(fēng)之間時(shí)延,并利用幾何方法定位聲源在3D空間的位置。此外,本文設(shè)計(jì)了基于Cor?tex-A8嵌入式平臺的聲源定位系統(tǒng),并進(jìn)行了相應(yīng)的硬件選型與調(diào)試及算法移植工作。實(shí)時(shí)實(shí)驗(yàn)顯示,本系統(tǒng)的方案合理有效,能夠較好的實(shí)現(xiàn)聲源定位。
當(dāng)聲源相對于麥克風(fēng)陣列運(yùn)動(dòng)時(shí),時(shí)延也相應(yīng)地變化,廣義互相關(guān)法不再適用。為此,有專家提出基于LMS自適應(yīng)濾波時(shí)延估計(jì)算法[13-14]。LMS自適應(yīng)濾波時(shí)延估計(jì)算法基于LMS自適應(yīng)噪聲抵消系統(tǒng),其原理如圖1所示[15]。s(n-τ)相當(dāng)于語音信號s(n)經(jīng)過了一個(gè)相移濾波器hs(n),hs(n)峰值處的橫坐標(biāo)對應(yīng)的就是信號間的時(shí)延。采用LMS自適應(yīng)濾波器來估計(jì)時(shí)延,就是用一個(gè)自適應(yīng)濾波器逼近hs(n)。通過加入與基本輸入端時(shí)間延遲相等的時(shí)延,使兩路信號最大程度的相似,最終由收斂的濾波器權(quán)矢量求得時(shí)延估值。
從圖1中可以看出,聲源信號s(n)經(jīng)過相移濾波器hs(n)后輸出n1(n),再與環(huán)境噪聲n2(n)相加,得到輸入信號x2(n)。第二路是s(n)與n1(n)相加得到輸入信號x1(n)。自適應(yīng)濾波器在自適應(yīng)迭代過程中,逐步逼近相移濾波器hs(n)。當(dāng)自適應(yīng)濾波器收斂,x2(n)與y(n)的均方誤差最小時(shí),s(n-τ)與其估計(jì)s(n-)的相似程度最大。此時(shí)自適應(yīng)濾波器的權(quán)失量wopt就是相移濾波器hs(n)的復(fù)制。由wopt最大值的橫坐標(biāo),可得到時(shí)延估計(jì)。
圖1 LMS自適應(yīng)濾波時(shí)延估計(jì)原理圖
LMS時(shí)延估計(jì)具體的算法如下:
這里,umax和umin是步長的最大值和最小值,ξ
以四元十字陣為例,陣列分別由麥克風(fēng)M1、M2、M3和M4組成,陣元間距為L,以陣列中心位置為原點(diǎn)O,建立如圖2所示的所示的直角坐標(biāo)系。
圖2 四元十字陣結(jié)構(gòu)圖
在理論分析基礎(chǔ)上,本文設(shè)計(jì)了基于S5PV210的實(shí)時(shí)聲源定位系統(tǒng)。系統(tǒng)的硬件框圖如圖3所示。
系統(tǒng)采用四麥克風(fēng)組成四元十字陣來估計(jì)聲源位置。考慮到空間采樣定理,本文設(shè)定的麥克風(fēng)間距為15 cm。麥克風(fēng)采集到模擬聲信號后,送到WM8960音頻編解碼芯片進(jìn)行編碼。編碼后的數(shù)字信號送往S5PV210處理,用定位算法計(jì)算出聲源位置。再利用超級終端通過串口與嵌入式系統(tǒng)進(jìn)行交互,最終結(jié)果打印在超級終端上。其中SD卡和USB模塊用于嵌入式系統(tǒng)程序的燒寫和未來系統(tǒng)的升級。
圖3 系統(tǒng)硬件框圖
S2PV210是一個(gè)32 bit處理器,采用ARMV7精簡指令集,主頻率高達(dá)1GHZ,低功耗并且高效益。內(nèi)部集成ARM Cortex-A8核心,將ARMV7-A體系架構(gòu)和外設(shè)支持相結(jié)合,同時(shí)也是第1個(gè)以ARMv7架構(gòu)為基礎(chǔ)的應(yīng)用處理器。芯片帶有32 bit寬度、64 bit深度,支持5.1版本的IIS協(xié)議和128 kbyte音頻播放輸出緩沖器以及硬件音頻混合器。S5PV210具有多種音頻接口,可以便捷的對音頻進(jìn)行各種復(fù)雜的高速運(yùn)算處理,為用戶提供性能優(yōu)異的音頻解決方案。
本系統(tǒng)采用的WM8960是一款24 bit低功耗、高質(zhì)量的立體編碼解碼器。其運(yùn)行的模擬電源電壓低至2.7V,數(shù)字內(nèi)核運(yùn)行電壓可低至1.7V,芯片的不同部分可以通過軟件控制實(shí)現(xiàn)關(guān)閉,這使得能耗進(jìn)一步降低。其高級的片上數(shù)字信號處理能夠?qū)崿F(xiàn)麥克風(fēng)輸入的自動(dòng)電平控制,支持的采樣率有:8,11.025,12,16,22.05,24,32,44.1,48(單位:kHz)。
在仿真實(shí)驗(yàn)中,房間的尺寸為6 m×6 m×3 m,聲源坐標(biāo)為[4 m,4 m,1 m],兩個(gè)麥克風(fēng)的坐標(biāo)分別為[1 m,1 m,1 m]、[4 m,1 m,1 m]。用Image法產(chǎn)生房間脈沖響應(yīng),在無混響時(shí),設(shè)置房間墻壁反射系數(shù)為0。將聲源信號與傳遞函數(shù)卷積,可得到兩個(gè)麥克風(fēng)的接收信號。由圖4可以看出,兩麥克風(fēng)間的時(shí)延差為59個(gè)點(diǎn)。
有混響時(shí),設(shè)置虛擬聲源個(gè)數(shù)為8,房間墻壁反射系數(shù)為0.3,圖5為聲源到兩麥克風(fēng)的傳遞函數(shù)。
圖4 無混響時(shí)聲源到兩個(gè)麥克風(fēng)的傳遞函數(shù)
圖5 有混響時(shí)聲源到兩個(gè)麥克風(fēng)的傳遞函數(shù)
利用基于VLMS的時(shí)延估計(jì)算法,并根據(jù)式(14)~式(16),對聲源進(jìn)行空間定位實(shí)驗(yàn)。實(shí)驗(yàn)采用AV16.3數(shù)據(jù)庫中不同語音片段進(jìn)行,語音采樣率為16 kHz,四元麥克風(fēng)方陣中陣元之間距離d=15 cm。實(shí)驗(yàn)語音信噪比為20 dB和0 dB,分別進(jìn)行30次實(shí)驗(yàn),其平均定位效果如表1所示。
從表1可以看出,當(dāng)語音信噪比較高(SNR=20 dB)時(shí),3種算法都取得了較好的定位效果;而當(dāng)語音信噪比較低(SNR=0 dB)時(shí),VLMS算法定位精度最高,而基于互相關(guān)的GCC算法定位精度最低。
表1 空間聲源定位平均效果
測試設(shè)備包括:手持?jǐn)U音器(用來提供聲源)、聲源定位系統(tǒng)(以S5PV210為核心處理器、WM8960為音頻編解碼器、電源及外圍電路組成的電路板)、筆記本電腦(用來運(yùn)行超級終端以與定位系統(tǒng)交互并觀察結(jié)果)、支撐架(把擴(kuò)音器固定在高處作為聲源)、皮尺等。
測試實(shí)驗(yàn)在室外進(jìn)行:地點(diǎn)為空曠的操場上,選取一個(gè)較為安靜且無風(fēng)的時(shí)間進(jìn)行測試,主要噪聲為遠(yuǎn)處傳來的微弱噪聲。
實(shí)驗(yàn)時(shí),麥克風(fēng)陣列均安放在地面上,聲源信號為語音信號,麥克風(fēng)一收到的波形如圖6所示。采樣率16 kHz,采樣位數(shù)16 bit,幀長1 024。
測試時(shí),對每個(gè)位置的聲源都進(jìn)行了10次測試,取其平均值作為最終結(jié)果。其中聲源距麥克風(fēng)陣的距離r為聲源到陣列中心的距離(單位:cm),方位角用符號φ表示(單位:°),仰角用符號θ表示(單位:°)。為方便觀察,統(tǒng)計(jì)結(jié)果均取絕對值,如表2所示。由表可知,方位角受聲源距離和仰角影響較小,與距離和仰角相比,其誤差較小。
表2 聲源定位結(jié)果
由表2可知,從實(shí)驗(yàn)結(jié)果來看,該系統(tǒng)基本實(shí)現(xiàn)了聲源的空間定位功能,但距離、和仰角的精度不夠理想,需要進(jìn)一步改進(jìn)。因?yàn)樵趯?shí)際的聲源定位系統(tǒng)中,除了定位算法自身的局限性之外,還有很多種因素影響著定位的結(jié)果。具體因素包括:(1)硬件因素:考慮到成本,本系統(tǒng)采用駐極體式麥克風(fēng),其性價(jià)比較高,但性能不如專業(yè)級麥克風(fēng)。另外,系統(tǒng)硬件性能沒有經(jīng)過專業(yè)的測試,可能存在內(nèi)部噪聲,導(dǎo)致信號失真;(2)環(huán)境因素:聲音傳播的速度是不定的,而聲速只能通過測量溫濕度、風(fēng)速、風(fēng)向和氣壓等推算得到,本文取聲速為340 m/s,這樣在計(jì)算時(shí)就產(chǎn)生了誤差。此外,在實(shí)際環(huán)境中存在不穩(wěn)定的背景噪聲,有些是人耳不易察覺,而麥克風(fēng)很敏感的,這些噪聲都會(huì)對最終結(jié)果造成一定的影響。(3)陣型因素:四元十字陣本身存在一些缺陷。其在估計(jì)距離時(shí)有較大的誤差;其次,估計(jì)仰角時(shí)需要聲源仰角較大時(shí)才有較高的精度。
在理論研究基礎(chǔ)上,本文設(shè)計(jì)了實(shí)時(shí)聲源定位系統(tǒng),并針對時(shí)延估計(jì)的問題,提出一種改進(jìn)的時(shí)延估計(jì)算法。仿真和實(shí)時(shí)實(shí)驗(yàn)顯示,該算法能較好的定位聲源。但是,系統(tǒng)只能對單聲源進(jìn)行定位,無法滿足對多聲源進(jìn)行定位的要求,后續(xù)需要進(jìn)一步研究多聲源定位的算法。本系統(tǒng)采用的是平面四元十字陣列,相比三維陣列,其定位精度較低,在后續(xù)的工作中可以改進(jìn)麥克風(fēng)陣列,用三維陣列來替代平面陣列。
[1]崔瑋瑋,曹志剛,魏建強(qiáng).基于雙麥克風(fēng)的2維平面定位算法[J].信號處理,2008,24(2):299-302
[2]Flanagan J L,Johnston J D,Zahn R,et al.Computer-Steered Micro?phone Arrays for Sound Transduction in Large Rooms[J].J Acoust Soc Amer,1985,78(5):1508-1518
[3]Shan T J,Wax M,Kailath T.On Spatial Smoothing for Direction-of-Arrival Estimation of Coherent Signals[J].IEEE Transactions on Acoustics,Speech,and Signal Processing,1985,33(4):806-811
[4]Haykin S S.Adaptive Filter Theory[M].Pearson Education India,2005.50-57
[5]Carter G C.Variance Bounds for Passively Locating an Acoustic Source with A Symmetric Line Array[J].The Journal of the Acous?tical Society of America,1977,62(4):922-926
[6]Hahn W,Tretter S.Optimum Processing for Delay-Vector Estima?tion in Passive Signal Arrays[J].Information Theory,IEEE Trans?actions on,1973,19(5):608-614
[7]Benesty J.Adaptive Eigenvalue Decomposition Algorithm for Pas?sive Acoustic Source Localization[J].The Journal of the Acousti?cal Society of America,2000.107(1):384-391
[8]Brandstein M S,Adcock J E,Silverman H F.A Closed-Form Loca?tion Estimator for Use with Room Environment Microphone Arrays[J].IEEE Transactions on Speech and Audio Processing,1997,5(1):45-50
[9]Wang H,Kaveh M.Coherent Signal Subspace Processing for the Detection and Estimation of Angles of Arrival of Multiple Wide-Band Sources[J].IEEE Transactions on Acoustics,Speech and Signal Processing,1995,33(4):823-831
[10]Buckley K,Griffiths L.Broad-Band Signal Subspace Spatial Spec?trum Estimation[J].IEEE Transactions on Acoustics,Speech and Signal Processing,1998,36(7):953-964
[11]Dibiase J.A High-Accuracy,Low-Latency Technique for Talker Localization in Reverberant Environments[D].Brown University,USA,May 2000:12-56
[12]魯佳.基于傳聲器陣列的聲源定位研究[D].天津:天津大學(xué),2008
[13]李雪梅,陶然,王越,等.時(shí)延估計(jì)技術(shù)研究[J].雷達(dá)科學(xué)與技術(shù),2010,8(4):362-367
[14]付學(xué)志,劉忠,胡生亮,等.低信噪比下的變步長最小均方自適應(yīng)算法及其在時(shí)延估計(jì)中的應(yīng)用[J].中南大學(xué)學(xué)報(bào),2012,43(3):1010-1018
[15]陸曉燕.基于麥克風(fēng)陣列實(shí)現(xiàn)聲源定位[D].大連:大連理工大學(xué),2003
[16]Rotaru M,Albu F,Coanda H.A Variable Step Size Modified Decor?related NLMS Algorithm for Adaptive Feedback Cancellation in Hearing Aids[C]//2012 10th International Symposium on Electron?ics and Telecommunications,ISETC 2012.2012.Timisoara,Roma?nia:IEEE Computer Society:1011-1015.
姜志鵬(1978-),男,漢族,江蘇省金壇市人,碩士,現(xiàn)為金陵科技學(xué)院講師,主要研究方向?yàn)樾盘柵c信息處理、無線傳感網(wǎng)絡(luò),jzp@jit.edu.cn。