李曉飛,劉宏,2
(1.北京大學(xué)深圳研究生院集成微系統(tǒng)科學(xué)工程與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,廣東深圳 518055;2.北京大學(xué)機(jī)器感知與智能教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871)
機(jī)器人聽覺聲源定位研究綜述
李曉飛1,劉宏1,2
(1.北京大學(xué)深圳研究生院集成微系統(tǒng)科學(xué)工程與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,廣東深圳 518055;2.北京大學(xué)機(jī)器感知與智能教育部重點(diǎn)實(shí)驗(yàn)室,北京 100871)
聲源定位技術(shù)定位出外界聲源相對(duì)于機(jī)器人的方向和位置,機(jī)器人聽覺聲源定位系統(tǒng)可以極大地提高機(jī)器人與外界交互的能力.總結(jié)和分析面向機(jī)器人聽覺的聲源定位技術(shù)對(duì)智能機(jī)器人技術(shù)的發(fā)展有著重要的意義.首先總結(jié)了面向機(jī)器人聽覺的聲源定位系統(tǒng)的特點(diǎn),綜述了機(jī)器人聽覺聲源定位的關(guān)鍵技術(shù),包括到達(dá)時(shí)間差、可控波束形成、高分辨率譜估計(jì)、雙耳聽覺、主動(dòng)聽覺和視聽融合技術(shù).其次對(duì)麥克風(fēng)陣列模型進(jìn)行了分類,比較了基于三維麥克風(fēng)陣列、二維麥克風(fēng)陣列和雙耳的7個(gè)典型系統(tǒng)的性能.最后總結(jié)了機(jī)器人聽覺聲源定位系統(tǒng)的應(yīng)用,并分析了存在的問題和未來的發(fā)展趨勢(shì).
機(jī)器人;機(jī)器人聽覺;聲源定位;麥克風(fēng)陣列
機(jī)器人聽覺系統(tǒng)是一種自然、方便、有效、智能的機(jī)器人與外界系統(tǒng)交互的方式.由于聲音信號(hào)的衍射性能,聽覺具有全向性,相較于視覺、激光等其他的傳感信號(hào)聽覺不需要直線視野,在有視野遮蔽障礙物的情況下依然可以有效地工作.一般來講機(jī)器人聽覺包括聲源信號(hào)的定位與分離、自動(dòng)語音識(shí)別、說話人識(shí)別等.機(jī)器人聽覺聲源定位是指機(jī)器人利用搭載在機(jī)器人上或者外部設(shè)備上的麥克風(fēng)陣列定位出聲源的相對(duì)位置.隨著信息技術(shù)、電子科學(xué)技術(shù)、計(jì)算機(jī)科學(xué)技術(shù)和智能科學(xué)的迅速發(fā)展,自20世紀(jì)90年代中期始,人們對(duì)機(jī)器人聽覺聲源定位技術(shù)進(jìn)行了深入而廣泛的研究,并取得了重要的進(jìn)展.
聲源的位置信息包括軸向角、仰角和距離,其中軸向角可以確定聲源的二維方向,軸向角和仰角可以確定聲源的三維方向,軸向角、仰角和距離可以確定聲源的三維位置.在噪聲環(huán)境下,利用少量的麥克風(fēng)實(shí)時(shí)地定位聲源的三維位置是一個(gè)實(shí)用的機(jī)器人聽覺聲源定位系統(tǒng)的目標(biāo).雖然機(jī)器人聽覺聲源定位技術(shù)的研究取得了很多成果,但是該技術(shù)的實(shí)際應(yīng)用還面臨很多問題.
相較于一般的聲源定位系統(tǒng),機(jī)器人聽覺聲源定位具有以下特點(diǎn):
1)麥克風(fēng)陣列易搭載:搭載在機(jī)器人平臺(tái)上的麥克風(fēng)陣列應(yīng)該盡量小,麥克風(fēng)陣列的小型化可以通過減少麥克風(fēng)的數(shù)量和優(yōu)化陣列拓?fù)鋪韺?shí)現(xiàn).
2)機(jī)器人運(yùn)動(dòng):搭載在機(jī)器人平臺(tái)上的麥克風(fēng)陣列的運(yùn)動(dòng)改變了聽覺場(chǎng)景,給聲源定位帶來了困難.但另一方面可以通過麥克風(fēng)陣列的主動(dòng)運(yùn)動(dòng),豐富麥克風(fēng)陣列的拓?fù)?,提高定位能?
3)聲源移動(dòng):在大多數(shù)機(jī)器人聽覺聲源定位系統(tǒng)應(yīng)用中,聲源是移動(dòng)的,需要進(jìn)行移動(dòng)聲源的定位與跟蹤.
4)實(shí)時(shí)性高:機(jī)器人的運(yùn)動(dòng)和聲源的移動(dòng)造成機(jī)器人和聲源相對(duì)位置的即時(shí)變化,要求定位具有較高的實(shí)時(shí)性.機(jī)器人與外界交互的實(shí)時(shí)性是機(jī)器人友好性和安全性的保障,是評(píng)價(jià)交互性能的重要指標(biāo),因此聲源定位系統(tǒng)的實(shí)時(shí)性是極其必要的.
5)抗混響和噪聲:機(jī)器人工作在真實(shí)環(huán)境中,信號(hào)混響和噪聲是難以避免的,因此聲源定位系統(tǒng)的抗混響和抗噪聲能力在很大程度上影響定位性能.
1995年Irie第1次將聲源定位技術(shù)用于智能機(jī)器人[1],利用短時(shí)時(shí)域、頻域特征和神經(jīng)網(wǎng)絡(luò)技術(shù)區(qū)分?jǐn)z像頭視角內(nèi)的左中右3個(gè)聲源方向.其后,基于麥克風(fēng)陣列的到達(dá)時(shí)間差技術(shù)(time delay of arrival,TDOA)、基于最大輸出功率的可控波束形成技術(shù)(steered beamforming,BS)、高分辨率譜估計(jì)技術(shù)(high resolution spectral estimation)、雙耳聽覺(binaural)、機(jī)器學(xué)習(xí)(machine learning)、主動(dòng)聽覺技術(shù)(active audition)、視聽融合(audio-visual)等方法被用于機(jī)器人聽覺聲源定位.
基于TDOA的定位技術(shù)是一種2步定位方法,首先估計(jì)出聲源信號(hào)到達(dá)各個(gè)麥克風(fēng)之間的時(shí)間延遲,然后利用幾何定位方法求出聲源位置.
穩(wěn)健的時(shí)間延遲估計(jì)是精確聲源定位的基礎(chǔ),常用的時(shí)延估計(jì)算法包括廣義互相關(guān)(generalized cross correlation,GCC)[2]、互功率譜相位法(crosspower spectrum phase,CSP)[3]、特征值分解[4]、聲學(xué)傳遞函數(shù)比[5]等.獲取TDOA以后,乘以聲速便可以得到距離差,這樣就可以通過聲源與麥克風(fēng)的幾何關(guān)系得到聲源位置.主要的幾何定位方法包括最大似然估計(jì)(maximum likelihood estimator)[6]和最小均方估計(jì)(least square estimator)[7-8].TDOA 方法計(jì)算量小,可實(shí)時(shí)實(shí)現(xiàn),但雙步估計(jì)帶來累積誤差,是一種次最優(yōu)估計(jì),為了取得較高的分辨率,對(duì)信號(hào)采樣率要求較高,適用于單聲源定位.
1997年Huang等利用3個(gè)麥克風(fēng)組成平面三角陣列定位聲源的全向軸向角[9].根據(jù)聲音的優(yōu)先效應(yīng),通過無回響起點(diǎn)檢測(cè)算法(echo-free onset detection)檢測(cè)出無回響的聲音段,利用過零點(diǎn)(zerocrossing point)檢測(cè)時(shí)延,然后根據(jù)幾何關(guān)系定位聲源軸向角.2002年他們利用如圖1所示的三維麥克風(fēng)陣列進(jìn)行聲源軸向角和仰角的定位[10],互相關(guān)函數(shù)和互功率譜相位差分別被用于時(shí)延估計(jì).識(shí)別階段,6 個(gè)時(shí)間差組成時(shí)間差序列:Δtm=(Δt12,Δt13,Δt14,Δt23,Δt24,Δt34),時(shí)間差序列誤差為e(θ,φ)=‖Δt(θ,φ) - Δtm‖,其中 Δt(θ,φ)為理論時(shí)間差,軸向角 θ和仰角 φ 取使e(θ,φ)最小化的值.2007年文獻(xiàn)[11]對(duì)于多個(gè)聲源,利用6個(gè)互相關(guān)函數(shù)的幾何平均:
表示一個(gè)聲源位置存在聲源的概率,概率越大則存在聲源的可能性越大.
圖1 4通道陣列Fig.1 4-ch array
2002年Sekmen等提出一種自然的人機(jī)交互方式,把人作為一個(gè)被動(dòng)的用戶,不用通過鍵盤、鼠標(biāo)等人工的方式與機(jī)器人進(jìn)行交互[12].機(jī)器人只是人的運(yùn)動(dòng)的一個(gè)直接物理再現(xiàn),利用聲源定位和紅外運(yùn)動(dòng)跟蹤,為人臉跟蹤系統(tǒng)提供候選區(qū)域和機(jī)器人的注意力.2個(gè)麥克風(fēng)擺放在一個(gè)開放的空間,頭部傳輸函數(shù)不用考慮.假設(shè)聲源位于仿人機(jī)器人的前方,利用互相關(guān)法估計(jì)時(shí)延,通過遠(yuǎn)場(chǎng)近似幾何方法便可定位遠(yuǎn)場(chǎng)聲源.
2003年Valind等放置8個(gè)麥克風(fēng)在長方體支架的頂點(diǎn)[13],如圖2所示.該麥克風(fēng)陣列搭載在Pi-oneer 2機(jī)器人上,用來進(jìn)行聲源軸向角和仰角定位.利用譜加權(quán)GCC-PHAT方法提取時(shí)間差,給信噪比大的頻帶賦予更大的權(quán)值可以有效地抑制窄帶噪聲的影響.然后利用遠(yuǎn)場(chǎng)幾何定位方法定位聲源的軸向角和仰角.
圖2 8通道立方體陣列Fig.2 8-ch cube array
2007年Rudzyn利用與圖1相似的麥克風(fēng)陣列定位聲源三維位置[14],包括距離、軸向角和仰角.利用加權(quán)互相關(guān)函數(shù)(weighted cross correlation,WCC)估計(jì)時(shí)延:fwcc=fgcc/(famdf+ δ),其中famdf為平均幅度差函數(shù)(average magnitude difference function),用于增強(qiáng)GCC的性能.同樣使用近場(chǎng)幾何定位方法來定位三維聲源.
2008年Kwak等利用平面正三角形陣列定位聲源[15].語音信號(hào)的聲門激勵(lì)信息被用于時(shí)延估計(jì),首先求出語音信號(hào)線性預(yù)測(cè)殘差表示聲門激勵(lì)信號(hào),然后線性預(yù)測(cè)殘差的希爾伯特包絡(luò)(Hilbert envelop)信號(hào)被用于基于GCC-PHAT的聲源估計(jì),再通過一種可靠的幾何定位方法定位出聲源軸向角.該系統(tǒng)成本低廉、實(shí)時(shí)性好,可用于家庭服務(wù)機(jī)器人.
2009年Hu等利用基于特征結(jié)構(gòu)(eigen structure)的GCC方法估計(jì)多個(gè)聲源的時(shí)延[16].多聲源情況下麥克風(fēng)接受信號(hào)的頻域表示為
式中:D為聲源個(gè)數(shù).接收信號(hào)互相關(guān)矩陣的特征分解為
式中:λ為特征值,V為特征向量.與前個(gè)最大特征值對(duì)應(yīng)的向量表示聲源向量,利用聲源向量的GCC方法進(jìn)行時(shí)延估計(jì).文獻(xiàn)[17]利用聲速的限制求出聲源個(gè)數(shù),定位階段,利用最小均方估計(jì)求解超定線性方程組定位多個(gè)聲源,近場(chǎng)情況下求解聲源三維直角系坐標(biāo),遠(yuǎn)場(chǎng)情況下求解聲源軸向角.圖3為該系統(tǒng)搭載在移動(dòng)機(jī)器人平臺(tái)上的8通道麥克風(fēng)陣列.
圖3 8通道麥克風(fēng)陣列Fig.3 8-ch microphone array
2010年Lee等利用遠(yuǎn)場(chǎng)情況下聲源角度和到達(dá)時(shí)延的幾何關(guān)系建立了 angle-TDOA 圖[18].融合該圖和互相關(guān)函數(shù)得到Cross-Angle-Correlation函數(shù)R(θ),該函數(shù)在聲源方向取較大的值.對(duì)于多個(gè)聲源,競(jìng)爭 K-means 算法被用于基于 Cross-Angle-Correlation函數(shù)的聲源角度聚類,該系統(tǒng)利用正三角形麥克風(fēng)陣列定位聲源軸向角.
該方法對(duì)麥克風(fēng)接受到的聲源信號(hào)濾波并加權(quán)求和形成波束,按照某種搜索策略全局搜索可能的聲源位置來引導(dǎo)波束,波束輸出功率最大的位置即為聲源位置[19-20].延遲和波束形成算法(delay-andsum beamforming,DSB)[21]通過對(duì)麥克風(fēng)接受信號(hào)采用時(shí)間移位以補(bǔ)償聲源到達(dá)各麥克風(fēng)的傳播延遲,并通過相加求平均來形成波束.濾波和波束形成算法(filter-and-sum beamforming,F(xiàn)SB)[22]在時(shí)間移位的同時(shí)進(jìn)行濾波,然后相加求平均形成波束.
可控波束形成算法的定位性能取決于麥克風(fēng)陣列方向圖的主瓣和旁瓣的分布.主瓣能量越大,寬度越窄,則形成波束的分辨率越高.通常該算法要求大量的麥克風(fēng)以取得較好的方向圖.該算法本質(zhì)上是一種最大似然估計(jì),需要聲源和噪聲的先驗(yàn)信息,但通常這些信息在實(shí)際應(yīng)用中不易獲得.最大似然估計(jì)是一種非線性優(yōu)化問題,傳統(tǒng)搜索算法容易陷入局部最小點(diǎn),而遍歷式的搜索方法的運(yùn)算量極大[23].
1999年Matsui等研制出一種辦公室接待機(jī)器人 Jijo-2,它可在辦公室環(huán)境下引導(dǎo)客人參觀[24].該機(jī)器人視覺聲源定位系統(tǒng)基于波束形成算法,利用平均分布于半圓弧的平面8通道麥克風(fēng)陣列定位聲源的軸向角.
2004年Valin等利用DSB定位多聲源位置,預(yù)求出所有對(duì)的麥克風(fēng)信號(hào)頻域的互相關(guān)[25]:
每個(gè)波束輸出功率可以通過N(N-1)/2個(gè)互相關(guān)累積和求得.譜加權(quán)在互相關(guān)求解中給信噪比大的頻帶賦予更大的權(quán)值,有效地抑制了窄帶噪聲的影響.另外為了避免聲源的錯(cuò)誤檢測(cè),一個(gè)基于聲源存在概率的后處理算法被提出.2009年 Badali和Valin等利用如圖2所示的麥克風(fēng)陣列測(cè)試了可控響應(yīng)功率(steered response power)和其他算法的性能[26].運(yùn)用譜加權(quán)用于抑制噪聲,方向優(yōu)化算法是在DSB算法定位的結(jié)果臨近范圍內(nèi)應(yīng)用高分辨率方法,從而更精確地定位聲源.上述2篇文獻(xiàn)的麥克風(fēng)陣列如圖2所示,圖4顯示了2種球形搜索網(wǎng)格.文獻(xiàn)[26]的實(shí)驗(yàn)結(jié)果顯示三角網(wǎng)格聲源搜索策略相較于矩形網(wǎng)格更有效,三角網(wǎng)格共2 562個(gè)搜索點(diǎn),每個(gè)搜索區(qū)域覆蓋2.5°.
圖4 球形搜索網(wǎng)格Fig.4 Spherical search grids
2004年Tamai等利用搭載在Nomad機(jī)器人上的平面圓形32通道麥克風(fēng)陣列定位1~4個(gè)聲源的水平方向和垂直方向[27].由于麥克風(fēng)數(shù)量較多,DSB算法可以很好地抑制環(huán)境噪聲和機(jī)器人機(jī)體噪聲.文獻(xiàn)[28]提出了一種3個(gè)圓形陣列組成的32通道陣列,相較于一個(gè)圓形陣列具有更好的波束方向圖分布.以上2種陣列如圖5所示.
圖5 32通道二維麥克風(fēng)陣列Fig.5 32-ch 2-D microphone array
2005年Nakadai等利用64通道分布式麥克風(fēng)陣列在電視等噪聲環(huán)境中檢測(cè)真實(shí)語音信號(hào)[29],并定位聲源的平面二維位置.圖6為麥克風(fēng)陣列,麥克風(fēng)分布在1.2 m高度的墻壁和高度為0.7 m的桌面上.加權(quán)DBS用于求解每個(gè)可能方向的方向性模式(directivity pattern),方向性模式用于檢測(cè)麥克風(fēng)接收信號(hào)是否為真實(shí)的語音信號(hào),并定位聲源.2006年他們?cè)谖墨I(xiàn)[30]中基于MUSIC方法利用搭載在ASIMO機(jī)器人頭部的8通道麥克風(fēng)陣列定位多聲源,并利用粒子濾波(particle filter)方法融合房間麥克風(fēng)陣列和機(jī)器人麥克風(fēng)陣列的定位結(jié)果,跟蹤多個(gè)聲源.
圖6 分布式麥克風(fēng)陣列Fig.6 Distributed microphone array
2006年Sasaki等利用32通道3同心圓陣列通過機(jī)器人的運(yùn)動(dòng)定位多聲源的二維位置[31].首先利用基本DSB算法減弱噪聲,然后通過頻帶選擇算法(frequency band selection)消除剩余噪聲并定位出多聲源的水平方向,最后根據(jù)運(yùn)動(dòng)的機(jī)器人可以在不同的位置檢測(cè)同一個(gè)聲源的方向,通過三角定位方法和RANSAC算法(random sample consensus)定位出聲源的精確位置.2007年他們通過主瓣消除算法(main-lobe canceling)從DSB算法得出的空間譜中逐個(gè)檢測(cè)聲源的位置[32].每次檢測(cè)出當(dāng)前具有最大能量的方向作為當(dāng)前聲源的方向,然后減除該方向的主瓣繼續(xù)檢測(cè)下一個(gè)聲源.主瓣消除算法需要陣列方向圖具有較小的旁瓣.圖7顯示了同心圓陣列和八邊形32通道麥克風(fēng)陣列,八邊形陣列在700~2 500 Hz的頻率范圍內(nèi)旁瓣能量較小.Kagami等利用文獻(xiàn)[32]中的聲源方向定位和粒子濾波方法,通過機(jī)器人的運(yùn)動(dòng)定位靜止聲源的精確位置[33].2010年Sasaki等綜合上述的聲源定位功能,并進(jìn)行短時(shí)聲音信號(hào)識(shí)別以標(biāo)定聲源[34],通過跟蹤多個(gè)聲源,畫出聲源圖并定位機(jī)器人的位置.
圖7 同心圓陣列和八邊形陣列Fig.7 Concentric array and octagonal array
該方法來源于現(xiàn)代高分辨率譜估計(jì)技術(shù),如自回歸模型(autoregressive)[35]、多重信號(hào)分類(multiple signal classification,MUSIC)[36]等方法,利用特征值分解(eigenvalue decomposition)將麥克風(fēng)信號(hào)的協(xié)方差矩陣分解為信號(hào)子空間和噪聲子空間,然后找出與噪聲子空間正交的方向矢量來進(jìn)行聲源的方向估計(jì).
基于高分辨率譜估計(jì)的定位方法是一種超分辨率的估計(jì)技術(shù),其空間分辨率不會(huì)受到信號(hào)采樣頻率的限制,并且在一定條件下可以達(dá)到任意定位精度[37].然而,該類方法也存在一定的不足,主要表現(xiàn)在:1)易受空間相關(guān)噪聲的干擾,當(dāng)方向性噪聲的能量與聲源信號(hào)能量相當(dāng)時(shí),該算法容易定位到噪聲方向;2)房間的反射作用使信號(hào)和干擾之間有一定的相關(guān)性,從而降低了該方法的有效性;3)需要對(duì)整個(gè)空間進(jìn)行搜索來確定聲源的位置,且其估計(jì)精度與空間的細(xì)分程度有關(guān),計(jì)算復(fù)雜度偏高.
1999年Asano等利用搭載在辦公室機(jī)器人Jijo-2上的平均分布于半圓弧的平面8通道麥克風(fēng)陣列定位多個(gè)聲源的軸向角[38].擴(kuò)展的MUSIC算法被用于近場(chǎng)定位,近場(chǎng)方向向量為
式中:r和θ分別為聲源的水平距離和軸向角.
大多數(shù)機(jī)器人聽覺聲源定位系統(tǒng)接收的聲源信號(hào)是寬帶信號(hào),原始的MUSIC算法只能定位窄帶信號(hào).2007年Argentieri等給出MUSIC算法的寬帶聲源擴(kuò)展[39],近場(chǎng) MUSIC空間譜為
式中:b為信號(hào)頻點(diǎn)數(shù),B為頻帶寬度.實(shí)驗(yàn)證明該寬帶擴(kuò)展方法性能很好,但計(jì)算量太大.波束空間算法利用頻率和范圍不變的波束形成聚焦頻點(diǎn),生成一個(gè)對(duì)所有興趣頻點(diǎn)有效的空間譜.
2009年Nakamura等利用廣義特征值分解抑制空間相關(guān)噪聲的影響[40],在靜音段估計(jì)出噪聲的空間互相關(guān)矩陣,對(duì)帶噪聲源信號(hào)的互相關(guān)矩陣和噪聲的互相關(guān)矩陣進(jìn)行廣義特征值分解,生成一個(gè)完全抑制噪聲的空間譜.2011年他們聯(lián)合視覺跟蹤算法,利用粒子濾波進(jìn)行說話人的跟蹤[41].
2009年Ishi測(cè)試了MUSIC方法在辦公室環(huán)境和室外環(huán)境下定位軸向角的性能[42].辦公室環(huán)境存在空調(diào)噪聲和機(jī)器人機(jī)體噪聲,室外環(huán)境存在背景音樂噪聲.他們分別測(cè)試了信號(hào)分幀長度對(duì)方向估計(jì)性能和實(shí)時(shí)性的影響,寬帶MUSIC頻帶寬度和聲源個(gè)數(shù)對(duì)方向估計(jì)的影響.另外還提出了一種確定聲源個(gè)數(shù)的方法,對(duì)每個(gè)頻率采用固定聲源數(shù),并設(shè)置寬帶MUSIC的聲源個(gè)數(shù)上限,實(shí)驗(yàn)證明這種方法與已知聲源個(gè)數(shù)情況下的定位性能差不多.圖8顯示了該機(jī)器人平臺(tái)和14通道的稀疏麥克風(fēng)陣列.
圖8 稀疏麥克風(fēng)陣列Fig.8 Sparse microphone array
人可以通過雙耳定位3-D空間聲源方向,雙耳時(shí)間差(interaural time difference,ITD)和雙耳強(qiáng)度差(interaural intensity difference,IID)用于定位聲源軸向角,由耳廓衍射和散射效應(yīng)帶來的聲譜特性(spectral cue)用于定位聲源仰角[43].聲音信號(hào)從聲源位置傳播至人耳鼓膜處的傳輸函數(shù)被稱為頭部相關(guān) 傳 遞 函 數(shù) (head-related transfer functions,HRTFs)[44],影響 HRTFs的因素有耳廓、頭部、耳道、肩膀和軀體等.基于雙耳的聲源定位方法對(duì)于仿人機(jī)器人是一種自然、有效的方式,利用人工頭和人工耳廓可以有效地模仿人的聽覺定位能力[45].
Nakadai等基于仿人機(jī)器人SIG的雙耳聽覺定位聲源軸向角[46-48].由立體視覺擴(kuò)展的聽覺 Epipolar幾何可以數(shù)學(xué)化地估計(jì)出特定聲源方向的IPD:Δφe=2πfr(θ+sin θ)/v,其中f、r、θ和v分別為信號(hào)頻率、頭部半徑、聲源角度和聲速,一般f小于1 500 Hz.可能聲源方向和實(shí)測(cè)信號(hào)的IPD之差最小的為聲源方向.Epipolar幾何很難確定出精確的IID,只能通過頻率大于1 500 Hz的頻帶確定出聲源的大概方向.利用物理學(xué)中的散射理論(scattering theory)也可以數(shù)學(xué)化地估計(jì) IPD Δφs(θ,f)和 IID Δρs(θ,f) ,同樣分別采用小于和大于1 500 Hz的頻帶,相較于Epipolar幾何散射理論的IPD估計(jì)誤差更小,并且可以較精確地估計(jì)出IID.利用Dempster-Shafe理論聯(lián)合IPD和IID信息,聯(lián)合概率取最大的可能位置為聲源位置.
2005年Kumon等根據(jù)聲波在耳廓中反射決定的聲譜特性(spectral cue)設(shè)計(jì)了一個(gè)人工耳廓[49].耳廓形狀如圖9所示,耳廓必須關(guān)于聲源仰角非對(duì)稱以保證可以區(qū)分不同仰角的聲源信號(hào).該耳廓對(duì)于仰角大于90°的聲源具有較明顯的譜峰(spectral peak).2006年Shimoda等改進(jìn)了文獻(xiàn)[49]中設(shè)計(jì)的人工耳廓的仰角定位算法[50].由于機(jī)器人頭部運(yùn)動(dòng)是連續(xù)的,所以聲譜特性變化也是連續(xù)的,即相鄰時(shí)刻的聲譜特性不會(huì)產(chǎn)生突變.根據(jù)此特性對(duì)長時(shí)間檢測(cè)的聲譜特性進(jìn)行聚類,得到更精確的聲譜特性,一定程度上抑制了噪聲的干擾.
圖9 人工耳廓Fig.9 Artificial pinnae
2006年Hornsteind等利用人工耳廓和人工頭模擬人的聽覺定位[51].人工頭模型如圖10所示,通過ITD、IID和譜谷(spectral notches)定位聲源的軸向角和仰角以控制頭部轉(zhuǎn)向聲源.
圖10 人工頭部和耳廓Fig.10 Artificial head and pinnae
2006年Keyrouz等利用人工頭和人工雙耳同時(shí)分離和定位2個(gè)聲源的軸向角和仰角[52],一種時(shí)域的盲源分離算法被用于分離2個(gè)獨(dú)立且相距不太近的聲源.令第1個(gè)聲源到第2個(gè)分離信號(hào)的沖激響應(yīng)為c12,第2個(gè)聲源到第1個(gè)分離信號(hào)的沖激響應(yīng)為c21,則聲源到麥克風(fēng)的沖激響應(yīng)h需滿足:
式中:w為解混沖激響應(yīng).通過式(1)、(2)可以分別求出2個(gè)聲源方向的HRTFs,進(jìn)一步可以定位聲源的全向軸向角和仰角.
2008年Rodemann等利用仿人耳蝸和雙麥克風(fēng)進(jìn)行聲源的3-D方向定位[53],耳蝸和機(jī)器人如圖11所示.在提取ITD、IID和spectral cue前先進(jìn)行雙耳信號(hào)的同步譜減去噪.為了消除聲源信號(hào)特性對(duì)聲譜特性的影響,用左右耳對(duì)數(shù)譜之差表示聲譜特性:(k)=lg((k)) - lg(k)).2010 年他們?cè)谖墨I(xiàn)[54]中聯(lián)合聲音幅度、譜幅度、ITD和IID定位聲源的距離.
圖11 仿人耳廓和機(jī)器人Fig.11 Humanoid pinnae and robot
2011年Kim等為了降低基于信號(hào)相關(guān)的時(shí)延估計(jì)算法的信號(hào)采樣率對(duì)定位分辨率的影響,利用最大似然方法找出最大化互功率譜之和的聲源軸向角,分辨率達(dá)到1°[55].另外考慮機(jī)器人球形頭部帶來的多徑效應(yīng),一個(gè)基于front-back的多徑補(bǔ)償因子被用來修正時(shí)延估計(jì).2011年Skaf等[56]測(cè)試了放置在一個(gè)橢球人工頭上的88對(duì)對(duì)稱雙耳的定位性能,IID和ITD被分別測(cè)試,實(shí)驗(yàn)結(jié)果顯示,綜合IID和ITD性能時(shí)雙耳放置在人工頭的后下方性能最優(yōu).人工頭及雙耳位置如圖12所示.
圖12 最優(yōu)雙耳位置Fig.12 Optimal position of two ears
Saxena等利用單麥克風(fēng)和人工耳廓基于機(jī)器學(xué)習(xí)方法定位聲源方向[57].不同聲源方向到麥克風(fēng)的傳輸函數(shù)不同,用隱馬爾可夫模型表示時(shí)變的麥克風(fēng)信號(hào)Yt,則聲源方向可以通過式(3)估計(jì),式(3)可以通過前向-后向算法求解,以15°的步長遍歷軸向角求解^θ.
文獻(xiàn)[58]指出機(jī)器人的感知能力應(yīng)該是主動(dòng)的,可以通過機(jī)器人的移動(dòng)和傳感器參數(shù)的控制獲得更好的感知環(huán)境.該文基于SIG人形機(jī)器人的頭部轉(zhuǎn)動(dòng)建立了主動(dòng)聽覺系統(tǒng),通過頭部的轉(zhuǎn)動(dòng)可以調(diào)節(jié)雙耳麥克風(fēng)垂直于聲源方向以取得更好的定位性能.機(jī)器人頭部和攝像機(jī)的馬達(dá)轉(zhuǎn)動(dòng)、齒輪、傳送帶和滾珠會(huì)帶來內(nèi)部噪聲,由于離麥克風(fēng)較近,所以會(huì)極大影響聲源定位性能,因此自適應(yīng)濾波器被用于抑制內(nèi)部噪聲.
文獻(xiàn)[59]提出感知-馬達(dá)(sensory-motor)融合的概念:感知信息指導(dǎo)馬達(dá)的運(yùn)動(dòng)和導(dǎo)航,通過機(jī)器人的運(yùn)動(dòng)消除雙耳聲源定位算法的前后向混淆.
2011年Martinson等用3臺(tái)Pioneer3-AT機(jī)器人分別搭載2、1和1個(gè)麥克風(fēng)組成動(dòng)態(tài)可重置的麥克風(fēng)陣列[60],如圖13所示.對(duì)于給定的興趣區(qū)域,吸引/排斥模型可以動(dòng)態(tài)優(yōu)化各麥克風(fēng)位置以獲得更好的聲源定位性能.
圖13 動(dòng)態(tài)麥克風(fēng)陣列Fig.13 Dynamic microphone array
Portello等建立了一個(gè)動(dòng)態(tài)雙耳聽覺模型[61],麥克風(fēng)和聲源相對(duì)運(yùn)動(dòng)的動(dòng)態(tài)ITD模型給無味卡爾曼濾波器提供了一個(gè)ground credible等式,以確定聲源的距離和軸向角的定位,該算法不適用于聲源和傳感器之間高速相對(duì)運(yùn)動(dòng)的情況.
Kumon提出一種主動(dòng)軟耳廓[62],軟耳廓由具有彈性的硅橡膠制成,背面覆蓋一層皮毛,以保證耳廓的單向性.耳廓可以旋轉(zhuǎn)和變形以提供主動(dòng)聽覺聲源定位能力,軟耳廓如圖14所示.
圖14 軟耳廓Fig.14 Soft pinnae
基于視覺的物體檢測(cè)與跟蹤在光照條件好、視野無遮擋的情況下具有更好的性能.融合聽覺信息與視覺信息可以極大提高各傳感器單獨(dú)的感知能力.Okuno和Nakadai等融合聽覺事件形成的聽覺流與視覺事件形成的視覺流生成聯(lián)合流,以控制SIG 機(jī)器人注意力的轉(zhuǎn)移[47,63-64],其中聽覺事件為聲源方向估計(jì),視覺事件為多人人臉檢測(cè).Lv等利用視覺物體檢測(cè)修正聽覺聲源定位結(jié)果[65].Lee等利用視覺信息在多個(gè)人中區(qū)分出真正的說話者[66].
聲源定位系統(tǒng)的麥克風(fēng)數(shù)量和拓?fù)渲饕Q于聲源定位方法,一般情況下TDOA方法、高分辨率方法和波束形成方法需要的麥克風(fēng)數(shù)量依次增多.麥克風(fēng)陣列類型如表1所示.
表1 麥克風(fēng)陣列類型Table 1 Types of microphone array
二維和三維陣列一般為規(guī)則拓?fù)潲溈孙L(fēng)陣列,如線性、三角形、多邊形、多面體陣列等,分別具有二維平面和三維空間聲源定位能力.面向機(jī)器人聽覺的聲源定位的麥克風(fēng)陣列應(yīng)該易搭載在機(jī)器人平臺(tái)上,通常要求陣列的小型化,包括麥克風(fēng)數(shù)量的減少和陣列尺寸的減小.實(shí)時(shí)性是人機(jī)交互的重要特點(diǎn),因此實(shí)時(shí)的機(jī)器人聽覺系統(tǒng)聲源定位要求選取計(jì)算復(fù)雜度低的定位方法,一般來講雙耳定位和基于到達(dá)時(shí)間差的定位具有較小的計(jì)算復(fù)雜度,其次是基于高分辨率定位方法,基于波束形成方法的定位復(fù)雜度較高.雙麥克風(fēng)模擬人耳聽覺,通常需要借助人工頭和耳廓的輔助,并且精確的頭部相關(guān)傳遞函數(shù)較難獲取.
筆者利用搭載在移動(dòng)機(jī)器人平臺(tái)上的二維平面4通道十字型麥克風(fēng)陣列定位說話人的軸向角和距離,以進(jìn)行友好、有效的人機(jī)交互.文獻(xiàn)[67]提出指導(dǎo)性譜時(shí)定位方法(guided ST position algorithm),通過粗定位結(jié)果估計(jì)的聲場(chǎng)條件進(jìn)行二次精確定位,可以有效地消除混響的影響.文獻(xiàn)[68]提出一種基于時(shí)間差特征的空間柵格匹配(spatial grid matching)算法,找到與待定位聲源的時(shí)間差特征最匹配的柵格作為聲源位置.該方法可以有效地避免幾何定位方法的非線性方程組求解問題,復(fù)雜度較低,并且合理的麥克風(fēng)陣列拓?fù)淇梢员苊鈳缀味ㄎ环椒赡芟萑刖植孔顑?yōu)點(diǎn)的問題.移動(dòng)機(jī)器人和麥克風(fēng)陣列如圖15所示.
圖15 移動(dòng)機(jī)器人和麥克風(fēng)陣列Fig.15 Mobile robot and microphone array
首先,利用譜加權(quán)GCC-PHAT方法求出各個(gè)麥克風(fēng)對(duì)之間的信號(hào)時(shí)間差,6個(gè)時(shí)間差組成時(shí)間差特征序列:τ =(τ12,τ13,τ14,τ23,τ24,τ34).可以證明,時(shí)間差特征與聲源位置是一一對(duì)應(yīng)的,即一個(gè)特定的時(shí)間差對(duì)應(yīng)一個(gè)特定位置,反之亦然;另外2個(gè)聲源位置之間的時(shí)間差特征的差與聲源的位置之差成正比,即2個(gè)聲源距離越遠(yuǎn),另外2個(gè)位置的時(shí)間差特征的差越大.根據(jù)這2個(gè)特點(diǎn),可以把二維平面按照某種方式分割成柵格,每個(gè)柵格內(nèi)的聲源看作同一類聲源,平面柵格如圖16所示.
圖16 平面柵格Fig.16 Horizontal grid
然后基于時(shí)間差特征,利用蒙特卡洛方法為每個(gè)柵格訓(xùn)練一個(gè)混合高斯模型,該模型表示平均分布于柵格內(nèi)的時(shí)間差特征.定位階段,聲源定位的問題可以表示為
式中:G表示柵格,Gs表示聲源柵格.計(jì)算出未知聲源的時(shí)間差特征相對(duì)于所有柵格的似然值,似然值最大的柵格被定位為聲源柵格.另外有效特征檢測(cè)算法利用信號(hào)時(shí)間差之間的約束移除錯(cuò)誤的時(shí)間差,提高了定位性能.并且決策樹提供了一種由粗到細(xì)的定位方式,極大減少了未知聲源的時(shí)間差與柵格的匹配次數(shù).
實(shí)驗(yàn)測(cè)試了4 m以內(nèi)的2 016組數(shù)據(jù),軸向角柵格精度為1°,距離分為 0~1.5 m、1~2 m和1.5~4 m 3個(gè)柵格.軸向角測(cè)量誤差小于5°的定位率超過95%,距離定位率超過90%,可以有效定位說話人的方位和說話人是否處于人機(jī)交互的安全距離.而且聽覺聲源定位結(jié)果控制機(jī)器人轉(zhuǎn)向說話人,使說話人在攝像頭的視野范圍之內(nèi),基于視覺的人體檢測(cè)技術(shù)被用于更精確的目標(biāo)人定位,以進(jìn)行進(jìn)一步的人機(jī)交互.
一個(gè)機(jī)器人聽覺聲源定位系統(tǒng)可以從麥克風(fēng)陣列拓?fù)?、麥克風(fēng)數(shù)量、聲源定位能力、聲源個(gè)數(shù)、抗噪聲和混響能力、定位性能等方面來評(píng)價(jià),其中定位能力指是否能進(jìn)行聲源軸向角、仰角和距離的定位.表2列出了基于三維麥克風(fēng)陣列、二維麥克風(fēng)陣列和雙耳的7個(gè)典型聲源定位系統(tǒng),其中聲源個(gè)數(shù)只是列出了相關(guān)文獻(xiàn)中實(shí)驗(yàn)測(cè)試的聲源個(gè)數(shù),不能完全反映該聲源定位系統(tǒng)的能力.因?yàn)闄C(jī)器人聽覺聲源定位算法發(fā)展的時(shí)間較短,并沒有公共的測(cè)試實(shí)驗(yàn)數(shù)據(jù)庫或?qū)嶒?yàn)平臺(tái);所以不同系統(tǒng)的實(shí)驗(yàn)場(chǎng)景和性能測(cè)量標(biāo)準(zhǔn)不同,本文只列出了相關(guān)文獻(xiàn)中公布的定位性能.
表2 典型機(jī)器人聽覺聲源定位系統(tǒng)的分析Table 2 Analysis of typical sound source localization system for robot audition
機(jī)器人聽覺聲源定位系統(tǒng)的應(yīng)用場(chǎng)景主要有家庭環(huán)境、公共場(chǎng)所、危險(xiǎn)環(huán)境和一些其他特定場(chǎng)景中,面向的聲源有人的語音和其他各種聲源,主要包括以下幾類應(yīng)用:
1)服務(wù)機(jī)器人:聲源定位系統(tǒng)提供了一種自然、高效的人機(jī)交互方式,主要應(yīng)用在家庭、商場(chǎng)等環(huán)境.服務(wù)機(jī)器人定位的聲源通常為人的語音,并且面臨復(fù)雜的噪聲.
2)接待機(jī)器人:在辦公室或家庭等場(chǎng)所接待客人,引導(dǎo)客人的行動(dòng),一般具有一定的語音識(shí)別能力,如文獻(xiàn)[24].
3)軍用機(jī)器人:戰(zhàn)場(chǎng)聲源的定位,如文獻(xiàn)[69]在城市環(huán)境基于軍用無人車定位槍聲、尖叫聲.
4)救援機(jī)器人:危險(xiǎn)環(huán)境中救援任務(wù)的聲源定位,如文獻(xiàn)[70].在危險(xiǎn)環(huán)境中,由于對(duì)人來說工作環(huán)境較為惡劣,因此機(jī)器人可以發(fā)揮較大的作用,比如救援、事故檢測(cè)等.
5)助殘機(jī)器人:引導(dǎo)殘疾人,特別是盲人的活動(dòng),如文獻(xiàn)[71].與機(jī)器人的語音交互和機(jī)器人的引導(dǎo)可以極大地提高盲人的活動(dòng)能力.
自1995年,經(jīng)過十幾年的研究與探索,面向機(jī)器人聽覺的聲源定位技術(shù)取得了一定的成果,但系統(tǒng)的實(shí)用化還面臨著一些問題,這些問題引導(dǎo)了未來的發(fā)展趨勢(shì):
1)機(jī)器人的運(yùn)動(dòng).機(jī)器人運(yùn)動(dòng)帶來的麥克風(fēng)陣列的運(yùn)動(dòng)是機(jī)器人聽覺與傳統(tǒng)聲源定位技術(shù)主要的差別所在,運(yùn)動(dòng)的麥克風(fēng)陣列會(huì)面臨即時(shí)變化的聲學(xué)環(huán)境,要求聲源定位系統(tǒng)具有較高的實(shí)時(shí)性.現(xiàn)在大多數(shù)聲源定位系統(tǒng)的傳感器數(shù)量較多,導(dǎo)致算法計(jì)算復(fù)雜度較高.少量的麥克風(fēng)和低復(fù)雜度的定位算法有待進(jìn)一步探索.
2)復(fù)雜的聲學(xué)環(huán)境.幾乎所有的實(shí)用聲源定位系統(tǒng)必然面臨著復(fù)雜的聲學(xué)環(huán)境,存在各種類型的噪聲.現(xiàn)有的抗噪聲技術(shù)大多只是針對(duì)某類或某幾類噪聲有效,一種魯棒的、對(duì)各種噪聲廣泛適用的抗噪聲技術(shù)或方案也還有待進(jìn)一步研究.
3)陣列的小型化.機(jī)器人搭載平臺(tái)要求麥克風(fēng)的數(shù)量盡量少,陣列尺寸盡量小,并且通常麥克風(fēng)數(shù)量的減少會(huì)有效降低運(yùn)算量.現(xiàn)有的麥克風(fēng)陣列大多需要專門的搭載平臺(tái),甚至需要輔助設(shè)備,實(shí)用化比較差.雙耳聲源定位的發(fā)展提供了更接近于人的定位方式和能力,但特制的人工頭和耳廓,以及它們的數(shù)學(xué)模型的建立都帶來了諸多不便.
4)友好、智能的交互方式.人機(jī)交互中人應(yīng)該是被動(dòng)的,即不用通過某種不方便的主動(dòng)方式與機(jī)器人交互.這就要求機(jī)器人可以主動(dòng)、透明地與人交互,因此,智能聲源定位技術(shù)的應(yīng)用還與其他相關(guān)技術(shù)息息相關(guān),并且一定程度上受到它們的制約,比如聲音的檢測(cè)與識(shí)別等.
本文主要依據(jù)定位算法綜述了機(jī)器人聽覺聲源定位技術(shù),不同于傳統(tǒng)的聲源定位技術(shù),智能機(jī)器人帶來了一些新的問題,比如機(jī)器人平臺(tái)對(duì)麥克風(fēng)陣列結(jié)構(gòu)的限制、機(jī)器人運(yùn)動(dòng)給聲源定位帶來的諸多問題、人機(jī)交互對(duì)實(shí)時(shí)性的要求、機(jī)器人特定的工作場(chǎng)景等.依據(jù)機(jī)器人技術(shù)的聲源定位系統(tǒng)仍然有待進(jìn)一步地總結(jié)與分析.總之,實(shí)時(shí)、精確的機(jī)器人系統(tǒng)與外界系統(tǒng)的交互是機(jī)器人聽覺聲源定位技術(shù)追求的目標(biāo).聲源定位技術(shù)與機(jī)器人技術(shù)的融合帶來了很多新的挑戰(zhàn),但更重要的是兩者會(huì)互相促進(jìn)對(duì)方的發(fā)展.
[1]IRIE R E.Robust sound localization:an application of an auditory perception system for a humanoid robot[D].Cambridge,USA:Department of Electrical Engineering and Computer Science,MIT,1995.
[2]KNAPP C H,CARTER G C.The generalized correlation method for estimation of time delay[J].IEEE Transactions on Acoustics,Speech,and Signal Processing,1976,24(4):320-327.
[3]OMOLOGO M,SVAIZER P.Acoustic source location in noisy and reverberant environment using CSP analysis[C]//IEEE International Conference on Acoustics,Speech,and Signal Processing.Atlanta,USA,1996:921-924.
[4]BENESTY J.Adaptive eigenvalue decomposition algorithm for passive acoustic source localization[J].Journal of A-coustical Society of America,2000,107(1):384-391.
[5]DVORKIND T G,GANNOT S.Time difference of arrival estimation of speech source in a noisy and reverberant environment[J].IEEE Transactions on Signal Processing,2005,85(1):177-204.
[6]HAHN W,TRETTER S.Optimum processing for delayvector estimation in passive signal arrays[J].IEEE Transactions on Information Theory,1973,19(5):608-614.
[7]WANG H,CHU P.Voice source localization for automatic camera pointing system in videoconferencing[C]//IEEE Workshop on Applications of Signal Processing to Audio and Acoustics.New Paltz,USA,1997:187-190.
[8]SCHAU H,ROBINSON A.Passive source localization employing intersection spherical surfaces from time-of-arrival difference[J].IEEE Transactions on Acoustics,Speech,and Signal Processing,1987,35(8):1223-1225.
[9]HUANG Jie,SUPAONGPRAPA T,TERAKURA I,et al.Mobile robot and sound localization[C]//IEEE/RSJ International Conference on Intelligent Robots and System.Grenoble,F(xiàn)rance,1997:683-689.
[10]HUANG Jie,KUME K,SAJI A,et al.Robotic spatial sound localization and its 3-D sound human interface[C]//First International Symposium on Cyber Worlds(CW 2002).Tokyo,Japan,2002:191-197.
[11]LI H K,YOSIARA T,ZHAO Q F.A spatial sound localization system for mobile robots[C]//IEEE Instrumentation and Measurement Technology Conference.Warsaw,Poland,2007:1-6.
[12]SEKMEN A S,WIKES M,KAWAMURA K.An application of passive human-robot interaction:human tracking based on attention distraction[J].IEEE Transactions on Systems,Man,and Cybernetics,Part A:Systems and Humans,2002,32(2):248-259.
[13]VALIN J M,MICHAUD F,ROUAT J,et al.Robust sound source localization using a microphone array on a mobile robot[C]//IEEE/RSJ International Conference on Intelligent Robots and System.Las Vegas,USA,2003:1228-1233.
[14]RUDZYN B,KADOUS W,SAMMUT C.Real time robot audition system incorporating both 3D sound source localisation and voice characterization[C]//IEEE International Conference on Robotics and Automation.Roma,Italy,2007:4733-4738.
[15]KWAK K C,KIM S S.Sound source localization with the aid of excitation source information in home robot environments[J].IEEE Transactions on Consumer Electronics,2008,54(2):852-856.
[16]HU J S,CHAN C Y,WANG C K,et al.Simultaneous localization of mobile robot and multiple sound sources using microphone array[C]//IEEE International Conference on Robotics and Automation.Kobe,Japan,2009:29-34.
[17]HU J S,YANG C H,WANG C K.Estimation of sound source number and directions under a multi-source environment[C]//IEEE/RSJ International Conference on Intelligent Robots and System.Louis,USA,2009:181-186.
[18]LEE B,CHOI J S.Multi-source sound localization using the competitive K-means clustering[C]//IEEE Conference on Emerging Technologies and Factory Automation.Bilbao,Spain,2010:1-7.
[19]HAHN W R.Optimum signal processing for passive sonar range and bearing estimation[J].Journal of Acoustical Society of America,1975,58(1):201-207.
[20]CARTER G.Variance bounds for passively locating an acoustic source with a symmetric line array[J].Journal of Acoustical Society of America,1977,62(4):922-926.
[21]RAMOS L L,HOLM S,GUDYANGEN S,et al.Delayand-sum beamforming for direction of arrival estimation applied to gunshot acoustics[C]//Proceedings of SPIE Defense,Security,and Sensing.Orlando,USA,2011.
[22]KAJALA M.Filter-and-sum beamformer with adjustable filter characteristics[C]//IEEE International Conference on Acoustics,Speech,and Signal Processing.Salt Lake City,USA,2001:2917-2920.
[23]曹瑋瑋.基于麥克風(fēng)陣列的聲源定位與語音增強(qiáng)方法研究[D].北京:清華大學(xué),2008.
CAO Weiwei.Study on methods of microphone array based sound source localization and speech enhancement[D].Beijing:Tsinghua University,2008.
[24]MATSUI T,ASOH H,F(xiàn)RY J,et al.Integrated natural spoken dialogue system of Jijo-2 mobile robot for office services[C]//Proceedings of the Sixteenth National Conference on Artificial Intelligence and the Eleventh Conference on Innovative Applications of Artificial Intelligence.Menlo Park,USA,1999:621-627.
[25]VALIN J M,MICHAUD F,HADJOU B.Localization of simultaneous moving sound sources for mobile robot using a frequency-domain steered beamformer approach [C]//IEEE International Conference on Robotics and Automation.New Orleans,USA,2004:1033-1038.
[26]BADALI A,VALIN J M,MICHAUD F.Evaluating realtime audio localization algorithms for artificial audition in robotics[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.St.Louis,USA,2009:2033-2038.
[27]TAMAI Y,KAGAMI S,AMEMIYA Y,et al.Circular microphone array for robot’s audition[C]//IEEE International Conference on Sensors.Vienna,Austria,2004:565-570.
[28]TAMAI Y,SASAKI Y,KAGAMI S.Three ring microphone array for 3D sound localization and separation for mobile robot audition[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.Edmonton,Canada,2005:4172-4177.
[29]NAKADAI K,NAKAJIMA H,YAMADA K,et al.Sound source tracking with directivity pattern estimation using a 64 ch microphone array[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.Edmonton,Canada,2005:1690-1696.
[30]NAKADAI K,NAKAJIMA H,MURASE M,et al.Robust tracking of multiple sound sources by spatial integration of room and robot microphone arrays[C]//IEEE International Conference on Acoustics,Speech,and Signal Processing.Toulouse,F(xiàn)rance,2006:929-932.
[31]SASAKI Y,KAGAMI S,MIZOGUCHI H.Multiple sound source mapping for a mobile robot by self-motion triangulation[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.Beijing,China,2006:380-385.
[32]SASAKI Y,KAGAMI S,MIZOGUCHI H.Main-lobe canceling method for multiple sound sources localization on mobile robot[C]//IEEE/ASME International Conference on Advanced Intelligent Mechatronics.Zurich,Switzerland,2007:1-6.
[33]KAGAMI S,THOMPSON S,SASAKI Y,et al.2D sound source mapping from mobile robot using beamforming and particle filtering[C]//IEEE International Conference on Acoustics,Speech,and Signal Processing.Taipei,China,2009:3689-3692.
[34]SASAKI Y,THOMPSON S,KANEYOSHI M,et al.Mapgeneration and identification of multiple sound sources from robot in motion[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.Taipei,China,2010:437-443.
[35]SCHMIDT R O.Multiple emitter location and signal parameter estimation[J].IEEE Transactions on Antennas and Propagation,1986,34(33):276-280.
[36]WANG H,KAVEH M.Coherent signal subspace processing for the detection and estimation of angles of arrival of multiple wide-band sources[J].IEEE Transactions on A-coustics,Speech,and Signal Processing,1985,33(4):823-831.
[37]居太亮.基于麥克風(fēng)陣列的聲源定位算法研究[D].成都:電子科技大學(xué),2006.
JU Tailiang.Research on speech source localization methods based on microphone arrays[D].Chengdu:University of Electronic Science and Technology of China,2006.
[38]ASANO F,ASOH H,MATSUI T.Sound source localization and signal separation for office robot“Jijo-2”[C]//IEEE International Conference on Multisensor Fusion and Integration for Intelligent Systems.Taipei,China,1999:243-248.
[39]ARGENTIERI S.Broadband variations of the MUSIC highresolution method for sound source localization in robotics[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.San Diego,USA,2007:2009-2014.
[40]NAKAMURA K,NAKADAI K,ASANO F,et al.Intelligent sound source localization for dynamic environments[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.St.Louis,USA,2009:664-669.
[41]NAKAMURA K,NAKADAI K,ASANO F,et al.Intelligent sound source localization and its application to multimodal human tracking[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.San Francisco,USA,2011:143-148.
[42]ISHI C T,CHATOT O,ISHIGURO H,et al.Evaluation of a MUSIC-based real-time sound localization of multiple sound sources in real noisy environments[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.St.Louis,USA,2009:2027-2032.
[43]LYON R F.A computational model of binaural localization and separation[C]//IEEE International Conference on A-coustics,Speech,and Signal Processing.Boston,USA,1983:1148-1151.
[44]ALGAZU V R,DUDA R O,MORRISON R P,et al.Structural composition and decomposition of HRTFs[C]//IEEE Workshop on Applications of Signal Processing to Audio and Acoustics.New York,USA,2001:103-106.
[45]HANDZEL A A,KRISHNAPRASAD P S.Biomimetic sound-source localization[J].IEEE Journal on Sensors,2002,2(6):607-616.
[46]NAKADAI K,OKUNOT H G,KITANO H.Epipolar geometry based sound localization and extraction for humanoid audition[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.Maui,USA,2001:1395-1401.
[47]NAKADAI K,HIDAI K,MIZOGUCHI H,et al.Realtime auditory and visual multiple-object tracking for humanoids[C]//Proceedings of the Seventeenth International Joint Conference on Artificial Intelligence.Seattle,USA,2001:1425-1436.
[48]NAKADAI K,MATSUURA D,OKUNO H G,et al.Applying scattering theory to robot audition system:robust sound source localization and extraction[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.Las Vegas,USA,2003:1147-1152.
[49]KUMON M,SHIMODA T,KOHZAWA R.Audio servo for robotic systems with pinnae[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.Edmonton,Canada,2005:1881-1886.
[50]SHIMODA T,NAKASHIMA T,KUMON M,et al.Spectral cues for robust sound localization with pinnae[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.Beijing,China,2006:386-391.
[51]HOMSTEIN J,LOPES M,SANTOS-VICTOR J,et al.Sound localization for humanoid robots-building audio-motor maps based on the HRTF[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.Beijing,China,2006:1170-1176.
[52]KEYROUZ F,MAIER W,DIEPOLD K.A novel humanoid binaural 3D sound localization and separation algorithm[C]//IEEE-RAS International Conference on Humanoid Robot.Genova,Italy,2006:296-301.
[53]RODEMANN T,INCE G,JOUBLIN F,et al.Using binaural and spectral cues for azimuth and elevation localization[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.Nice,F(xiàn)rance,2008:2185-2190.
[54]RODEMANN T.A study on distance estimation in binaural sound localization[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.Taipei,China,2010:425-430.
[55]KIM U H,MIZUMOTO T,OGATA T,et al.Improvement of speaker localization by considering multipath interference of sound wave for binaural robot audition[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.San Francisco,USA,2011:2910-2915.
[56]SKAF A.Optimal positioning of a binaural sensor on a humanoid head for sound source localization[C]//IEEE-RAS International Conference on Humanoid Robot.Bled,Slovenia,2011:165-170.
[57]SAXENA A,NG A Y.Learning sound location from a single microphone[C]//IEEE International Conference on Robotics and Automation.Kobe,Japan,2009:1737-1742.
[58]NAKADAI K,LAURENS T,OKUNO H G,et al.Active audition for humanoid[C]//Proceedings of the 17th National Conference on Artificial Intelligence.Austin,USA,2000:832-839.
[59]ANDERSSON S B,HANDZEL A A,SHAH V,et al.Robot phonotaxis with dynamic sound-source localization[C]//IEEE International Conference on Robotics and Automation.Barcelona,Spain,2004:4833-4838.
[60]MARTINSON E,APKER T,BUGAJSKA M.Optimizing a reconfigurable robotic microphone array[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.San Francisco,USA,2011:125-130.
[61]PORTELLO A.Acoustic models and Kalman filtering strategies for active binaural sound localization[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.San Francisco,USA,2011:137-142.
[62]KUMON M,NODA Y.Active soft pinnae for robots[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.San Francisco,USA,2011:112-117.
[63]OKUNO H G,NAKADAI K,HIDAI K,et al.Human-robot interaction through real-time auditory and visual multiple-talker tracking[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.Maui,USA,2001:1402-1409.
[64]OKUNO H G,NAKADAI K,KITANO K.Social interaction of humanoid robot based on audio-visual tracking[C]//International Conference on Industrial and Engineering Applications of Artificial Intelligence and Expert System.Cairns,Australia,2002:1-10.
[65]LV Xiaoling,ZHANG Minglu.Sound source localization based on robot hearing and vision[C]//International Conference on Computer Science and Information Technology.Singapore,2008:942-946.
[66]LEE B,CHOI J S,KIM D,et al.Sound source localization in reverberant environment using visual information[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.Taipei,China,2010:3542-3547.
[67]LIU Hong,SHEN Miao.Continuous sound source localization based on microphone array for mobile robots[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.Taipei,China,2010:4332-4339.
[68]LI Xiaofei,LIU Hong,YANG Xuesong.Sound source localization for mobile robot based on time difference feature and space grid matching[C]//IEEE/RSJ International Conference on Intelligent Robots and Systems.San Francisco,USA,2011:2879-2886.
[69]YOUNG S H,SCANLON M V.Detection and localization with an acoustic array on a small robotic platform in urban environments,technical report ADA410432[R].Adelphi,USA:U.S.Army Research Laboratory,2003.
[70]SUN Hao,YANG Peng,LIU Zuojun,et al.Microphone array based auditory localization for rescue robot[C]//Chinese Control and Decision Conference.Taiyuan,China,2011:606-609.
[71]LUO R C,HUANG C H,LIN T T.Human tracking and following using sound source localization for multisensor based mobile assistive companion robot[C]//IEEE Conference on Industrial Electronics Society.Glendale,USA,2010:1552-1557.
李曉飛,男,1987年生,博士研究生,主要研究方向?yàn)檎Z音識(shí)別、聲源定位.
劉宏,男,1967年生,教授,博士生導(dǎo)師,中國人工智能學(xué)會(huì)常務(wù)理事、副秘書長、青年工作委員會(huì)主任,主要研究方向?yàn)橹悄軝C(jī)器人、計(jì)算機(jī)視聽覺.先后承擔(dān)國家自然科學(xué)基金項(xiàng)目7項(xiàng),國家“863”、“973”計(jì)劃課題項(xiàng)目 5項(xiàng),曾獲國家航天科技進(jìn)步獎(jiǎng).發(fā)表學(xué)術(shù)論文100余篇,其中60余篇被SCI、EI檢索.
A survey of sound source localization for robot audition
LI Xiaofei1,LIU Hong1,2
(1.Key Laboratory of Integrated Microsystems,Shenzhen Graduate School of Peking University,Shenzhen 518055,China;2.Key Laboratory of Machine Perception(Ministry of Education),Peking University,Beijing 100871,China)
The technology of sound source localization can localize the direction and position of a sound source relative to a robot.Sound source localization system for robot audition can greatly improve the ability of a robot to interact with external conditions.The summary and analysis of sound source localization for robot audition can significantly promote the development of intelligent robots.In this work,first,the characteristics of sound source localization for robot audition were summarized.The key technologies were summarized,including the time delay of arrival,steered beamforming,high resolution spectral estimation,binaural,active audition,and audio-visual.Then,the models of a microphone array were classified,and the performances of seven typical systems based on a 3-D microphone array,2-D microphone array,and binaural were compared.Finally,the applications of a sound source localization system of robot audition were summarized.Several issues that sound source localization systems face as well as development trends were analyzed.
robot;robot audition;sound source localization;microphone array
TP242.6;TN912.3
A
1673-4785(2012)01-0009-12
10.3969/j.issn.1673-4785.201201003
http://www.cnki.net/kcms/detail/23.1538.TP.20120219.2224.001.html
2012-01-10. 網(wǎng)絡(luò)出版時(shí)間:2012-02-19.
國家“863”計(jì)劃資助項(xiàng)目(2006AA04Z247);國家自然科學(xué)基金資助項(xiàng)目(60675025,60875050);深圳市科技計(jì)劃及基礎(chǔ)研究計(jì)劃資助項(xiàng)目(JC20090316039).
劉宏.E-mail:hongliu@pku.edu.cn.