李德寶 歸達(dá)舉 葉懋
摘 要:隨著科技的進(jìn)步和發(fā)展,聲源定位技術(shù)已經(jīng)成為人們研究的重要課題之一?;诼曔_(dá)時(shí)間差(TDOA)是陣列語音信號(hào)處理的核心技術(shù),其作用是估算出同一聲源信號(hào)到達(dá)不同麥克風(fēng)時(shí),因?yàn)閭鬏數(shù)木嚯x不相同而引起的時(shí)間差。麥克風(fēng)陣列對(duì)于室內(nèi)環(huán)境噪聲抑制、聲源定位、跟蹤這些方面都比單個(gè)麥克風(fēng)有優(yōu)勢,從而優(yōu)化語音信號(hào)采樣質(zhì)量。該文主要講的是用麥克風(fēng)陣列和時(shí)延估計(jì)聲源定位方法對(duì)聲源進(jìn)行定位及跟蹤。
關(guān)鍵詞:麥克風(fēng)陣列 聲源定位 聲達(dá)時(shí)間差(TDOA)
中圖分類號(hào):TN912.34 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2016)05(a)-0003-02
基于麥克風(fēng)陣列的聲源定位技術(shù)的研究在全國的關(guān)注度越來越高,基于麥克風(fēng)陣列的聲源定位技術(shù)是指經(jīng)過麥克風(fēng)陣列對(duì)聲音信號(hào)進(jìn)行采集,從而進(jìn)行信號(hào)處理得到聲源到達(dá)陣列的波達(dá)方向。目前,在全球所有的電子產(chǎn)品都趨向于高度智能化發(fā)展的今天,聲源定位技術(shù)依然扮演著語音通信領(lǐng)域中舉足輕重的技術(shù)角色。譬如在視頻通話中,利用聲源定位技術(shù)操控?cái)z像頭,能夠自動(dòng)搜尋發(fā)言者。在20世紀(jì)70年代,就已經(jīng)有很多高校和研究室在這一通信領(lǐng)域進(jìn)行研究探索,從此基于麥克風(fēng)陣列的聲源定位,語音信號(hào)處理中的說話人識(shí)別,語音合成等語音信號(hào)處理成為科技研究的熱點(diǎn)。與單麥克風(fēng)系統(tǒng)相比之下,麥克風(fēng)陣列系統(tǒng)在語音信號(hào)處理方面具有顯著優(yōu)勢:多個(gè)麥克風(fēng)組成的麥克風(fēng)陣列能夠利用互補(bǔ)性能,對(duì)背景噪聲進(jìn)行消除和增強(qiáng)語音信號(hào),從而提高語音識(shí)別的效果,同時(shí)能在一定范圍內(nèi)對(duì)聲源信號(hào)進(jìn)行實(shí)時(shí)定位與跟蹤,但是單個(gè)麥克風(fēng)卻沒有能力做到這一點(diǎn)。因此,具有良好的抗噪性、良好的抗混響性能以及簡單的計(jì)算量或較快的運(yùn)算速度是一個(gè)優(yōu)秀的時(shí)延估計(jì)方法所具備的優(yōu)點(diǎn)。
1 時(shí)延估計(jì)算法
基于聲達(dá)時(shí)間差的麥克風(fēng)陣列聲源定位的技術(shù)主要分為兩個(gè)步驟:第一步估算語音信號(hào)到達(dá)陣列中陣元間的時(shí)間差(TDOA),進(jìn)而通過幾何關(guān)系來確定聲源的位置。首先估算時(shí)延是該定位技術(shù)中的核心內(nèi)容。聲達(dá)時(shí)間差聲源定位的定位精度主要取決于對(duì)TDOA的估計(jì)。而且時(shí)延估計(jì)的技術(shù)不被陣列結(jié)構(gòu)所限制,運(yùn)算量少,有相對(duì)的精度,因此是當(dāng)前最常用的技術(shù)。聲源在受到噪聲,混響較小的情況下,能夠利用簡易的廣義互相關(guān)方法(GCC)來估算時(shí)延,處理聲源的定位問題。然而當(dāng)噪聲增大時(shí),混響的變強(qiáng),簡易的廣義互相關(guān)方法和許多常用的加權(quán)廣義互相關(guān)方法已經(jīng)完全不能解決估算時(shí)延的問題。優(yōu)化相位互相關(guān)方法,銳化了互相關(guān)函數(shù)的峰值,從中起到了相對(duì)的抗混響的作用,增強(qiáng)了估算時(shí)延的精度。利用麥克風(fēng)陣列每一個(gè)麥克風(fēng)接收信號(hào)的互補(bǔ)性,采用多信道互相關(guān)系數(shù)(MCCC)方法來估算任意一對(duì)麥克風(fēng)之間的時(shí)延。這種方法能抵抗中度混響和噪音的影響,增強(qiáng)時(shí)延估算的性能。然而這種方法在噪音和混響復(fù)雜的應(yīng)用情況中效果不是很完美,并且這種途徑對(duì)麥克風(fēng)間的物理結(jié)構(gòu)關(guān)系有較高的限制,倘若每個(gè)麥克風(fēng)之間的結(jié)構(gòu)十分繁雜,該途徑在時(shí)延估量方面也可能會(huì)被弱化。時(shí)延估計(jì)的算法有很多,但是由于該系統(tǒng)主要應(yīng)用在室內(nèi)場所,其噪聲空間相對(duì)平穩(wěn)以及混響相對(duì)較小,故采用TDOA算法中運(yùn)算量較小的GCC方法來對(duì)第一步的時(shí)延進(jìn)行估計(jì)分析。其示意如圖1所示。
要估計(jì)出時(shí)延,余下的環(huán)節(jié)只是運(yùn)用數(shù)學(xué)方法進(jìn)行簡單的計(jì)算。關(guān)于二維平面定位,僅須要兩個(gè)獨(dú)立的時(shí)延估計(jì)值,相同的,對(duì)于三維空間則須要三個(gè)獨(dú)立的時(shí)延估計(jì)值,任一個(gè)時(shí)延估計(jì)值對(duì)應(yīng)一個(gè)二次、三次方程,求解這些方程組就可以算出聲源的坐標(biāo),所以時(shí)延估計(jì)算法的第二步就是根據(jù)第一步計(jì)算出來的實(shí)驗(yàn)估計(jì)值運(yùn)用數(shù)學(xué)方法進(jìn)行簡單的計(jì)算??傊?,基于時(shí)延估計(jì)的聲源定位技術(shù)在數(shù)學(xué)計(jì)算量上與其他的定位算法相比具有很好的優(yōu)勢,在實(shí)際應(yīng)中的運(yùn)用成本很低。
2 廣義互相關(guān)(GCC)時(shí)延估計(jì)算法
由于同一個(gè)聲源的語音信號(hào)中存在一定的相關(guān)性,因此利用GCC方法計(jì)算任意一個(gè)麥克風(fēng)捕捉到的信號(hào)之間的相關(guān)函數(shù)來估算出時(shí)延(TDOA)值,這個(gè)互相關(guān)函數(shù)得到的峰值所對(duì)應(yīng)的時(shí)間即為兩信號(hào)之間的相對(duì)時(shí)延。但是在真實(shí)應(yīng)用環(huán)境下,因?yàn)樵肼暫突祉懙母蓴_下,相關(guān)函數(shù)得到的最大峰值就會(huì)被減弱,甚至可能出現(xiàn)好幾個(gè)峰值,由于這種原因?qū)?huì)影響所需峰值檢測難度。經(jīng)過GCC法計(jì)算出這兩個(gè)語音信號(hào)之間的互功率譜,同時(shí)在頻域內(nèi)進(jìn)行加權(quán),增強(qiáng)需要信號(hào)的相關(guān)成分,能夠使相關(guān)函數(shù)在時(shí)延處的峰值更為突出,然后進(jìn)行逆變換得出時(shí)域,進(jìn)而求出兩信號(hào)間所需的互相關(guān)函數(shù)。
3 算法仿真
假設(shè)噪聲與源信號(hào)之間互相獨(dú)立。SRN1和SRN2分別為接收的信號(hào)的信噪比,仿真中采用延時(shí)為d=20,采樣點(diǎn)數(shù)為1 024,兩路信號(hào)的信噪比SRN1取5dB固定不變,SRN2在0~20 dB取值進(jìn)行1 000此夢特卡洛廣義時(shí)延估計(jì)仿真,圖2為輸入信號(hào)波形;在仿真中,取信噪比為SRN1=5 dB,SRN2=-10 dB,所得到的相位變換廣義互相關(guān)(GCC—PHAT)波形如圖3所示。
綜合上述的理論分析以及仿真結(jié)果表明,在高斯信噪比的情況下,隨著信噪比降低,Phat權(quán)值的峰值仍然銳化效果明顯。因此,利用相位變換廣義互相關(guān)法(GCC—PHAT)的兩路信號(hào)間時(shí)延差比判斷得到最大值得到時(shí)延差的精度更高,得到的目標(biāo)坐標(biāo)值收斂,穩(wěn)定,滿足實(shí)際需求。
4 結(jié)語
聲源定位在噪聲環(huán)境下的實(shí)現(xiàn)是一個(gè)難點(diǎn),通過上述理論分析和仿真顯示在基于TDOA的聲音定位系統(tǒng)可以準(zhǔn)確地定位聲響模塊的位置,相位變換廣義互相關(guān)算法(GCC—PHAT)在無混響或者弱混響環(huán)境下具有很好的效果和好的實(shí)時(shí)性,且Phat加權(quán)隨信噪比變化的波動(dòng)性很小,主峰值相比次峰仍較為尖銳,體現(xiàn)出較好地抗噪聲性能。相比于傳統(tǒng)的方法,在保證時(shí)延估計(jì)準(zhǔn)確的前提下,相位變換廣義互相關(guān)算法(GCC—PHAT)有效降低了計(jì)算復(fù)雜度,更適合于時(shí)延的實(shí)時(shí)估計(jì)。
參考文獻(xiàn)
[1] 王宏禹,岳天爽.自適應(yīng)噪聲抵消和時(shí)間延遲估計(jì)[M].大連:大連理工大學(xué)出版社,1999.
[2] 丁玉美,闊永紅,高新波.數(shù)字信號(hào)處理——時(shí)域離散隨機(jī)信號(hào)處理[M].西安:西安電子科技大學(xué)出版社,2002.
[3] 劉松平,MICHAEL G,陳積懋.模態(tài)聲發(fā)射檢測技術(shù)[J].無損檢測,2002,22(1):38-41.