艾炎
語(yǔ)音是人類進(jìn)行交流溝通最主要的方式之一,他能方便快捷的承載這巨大的信息。隨著社會(huì)的迅速發(fā)展,進(jìn)入了高度信息化,語(yǔ)音也室作為重要的信息載體之一,語(yǔ)音數(shù)據(jù)處理的整個(gè)過程可以分為兩個(gè)部分:A/D轉(zhuǎn)換,即把原始聲音的模擬輸入轉(zhuǎn)化為數(shù)字化信息;D/A轉(zhuǎn)換,即把數(shù)字信息轉(zhuǎn)化為模擬數(shù)據(jù)。他的傳送、存儲(chǔ)、識(shí)別、合成和增強(qiáng)室現(xiàn)代信息數(shù)字化中非常重要、基礎(chǔ)的組成部分之一。而現(xiàn)在人工智能技術(shù)的發(fā)展,尤其是自然語(yǔ)言處理技術(shù)的高速發(fā)展,語(yǔ)音處理已經(jīng)成為現(xiàn)在智能家居、交通、辦公、通信等新興領(lǐng)域中的核心技術(shù)之一。尤其像現(xiàn)在線上教育、云會(huì)議等方式的流行,語(yǔ)音信號(hào)處理是一個(gè)非常具有價(jià)值及必要的研究技術(shù)。
麥克風(fēng)陣列(Microphone Array),從字面上,指的是麥克風(fēng)的排列。也就是說由一定數(shù)目的聲學(xué)傳感器(一般是麥克風(fēng))組成,用來對(duì)聲場(chǎng)的空間特性進(jìn)行采樣并處理的系統(tǒng)。麥克風(fēng)按照指定要求排列后,加上相應(yīng)的算法(排列+算法)就可以解決很多房間聲學(xué)問題,比如聲源定位、去混響、語(yǔ)音增強(qiáng)、盲源分離等。語(yǔ)音增強(qiáng)是指當(dāng)語(yǔ)音信號(hào)被各種各樣的噪聲(包括語(yǔ)音)干擾甚至淹沒后,從含噪聲的語(yǔ)音信號(hào)中提取出純凈語(yǔ)音的過程。聲源定位技術(shù)是指使用麥克風(fēng)陣列來計(jì)算目標(biāo)說話人的角度和距離,從而實(shí)現(xiàn)對(duì)目標(biāo)說話人的跟蹤以及后續(xù)的語(yǔ)音定向拾取,是人機(jī)交互、音視頻會(huì)議等領(lǐng)域非常重要的前處理技術(shù)。去混響技術(shù)能很好的對(duì)房間的混響情況進(jìn)行自適應(yīng)的估計(jì),從而很好的進(jìn)行純凈信號(hào)的還原,顯著的提升了語(yǔ)音聽感和識(shí)別效果。聲源信號(hào)的提取就是從多個(gè)聲音信號(hào)中提取出目標(biāo)信號(hào),聲源信號(hào)分離技術(shù)則是將需要將多個(gè)混合聲音全部提取出來。
近場(chǎng)模型和遠(yuǎn)場(chǎng)模型
根據(jù)聲源和麥克風(fēng)陣列距離的遠(yuǎn)近,可將聲場(chǎng)模型分為兩種:近場(chǎng)模型和遠(yuǎn)場(chǎng)模型。近場(chǎng)模型將聲波看成球面波,它考慮麥克風(fēng)陣元接收信號(hào)間的幅度差;遠(yuǎn)場(chǎng)模型則將聲波看成平面波,它忽略各陣元接收信號(hào)間的幅度差,近似認(rèn)為各接收信號(hào)之間是簡(jiǎn)單的時(shí)延關(guān)系。顯然遠(yuǎn)場(chǎng)模型是對(duì)實(shí)際模型的簡(jiǎn)化,極大地簡(jiǎn)化了處理難度。一般語(yǔ)音增強(qiáng)方法就是基于遠(yuǎn)場(chǎng)模型。
近場(chǎng)模型和遠(yuǎn)場(chǎng)模型的劃分沒有絕對(duì)的標(biāo)準(zhǔn),一般認(rèn)為聲源離麥克風(fēng)陣列中心參考點(diǎn)的距離遠(yuǎn)大于信號(hào)波長(zhǎng)時(shí)為遠(yuǎn)場(chǎng);反之,則為近場(chǎng)。設(shè)均勻線性陣列相鄰陣元之間的距離(又稱陣列孔徑)為d,聲源最高頻率語(yǔ)音的波長(zhǎng)(即聲源的最小波長(zhǎng))為λmin,如果聲源到陣列中心的距離大于2d2/λmin,為遠(yuǎn)場(chǎng)模型,否則為近場(chǎng)模型,示意圖如下圖1所示。
麥克風(fēng)陣列的拓?fù)浣Y(jié)構(gòu)
麥克風(fēng)陣列的拓?fù)浣Y(jié)構(gòu)可以分為線性拓?fù)?、平面拓?fù)?,還有三維拓?fù)?,如下圖2麥克風(fēng)的三種拓?fù)浣Y(jié)構(gòu),其中線性陣列的結(jié)構(gòu)簡(jiǎn)單、容易分析、算法復(fù)雜度相對(duì)較低,但是他的估計(jì)有效性估計(jì)是一維的,只能定位信號(hào)源的方向角度。平面陣列中常見的是均勻圓陣,如下圖3京東公司推出的叮咚mini的就是4顆麥克風(fēng)均勻按圓形排列。
圖3京東叮咚mini的麥克風(fēng)均勻圓陣
定位原理
TDOA定位是一種利用時(shí)間差進(jìn)行定位的方法。通過測(cè)量信號(hào)到達(dá)監(jiān)測(cè)站的時(shí)間,可以確定信號(hào)源的距離。利用信號(hào)源到各個(gè)監(jiān)測(cè)站的距離(以監(jiān)測(cè)站為中心,距離為半徑作圓),就能確定信號(hào)的位置。但是絕對(duì)時(shí)間一般比較難測(cè)量,通過比較信號(hào)到達(dá)各個(gè)監(jiān)測(cè)站的絕對(duì)時(shí)間差,就能作出以監(jiān)測(cè)站為焦點(diǎn),距離差為長(zhǎng)軸的雙曲線,雙曲線的交點(diǎn)就是信號(hào)的位置。
假設(shè)測(cè)得聲源到第n個(gè)麥克風(fēng)接收到聲源所發(fā)出的聲音信號(hào)的時(shí)刻分別為ti(i=1,2,3,4...n),且假設(shè)標(biāo)簽到第n個(gè)基站的距離為ri(i=1,2,3,4...n)如下圖4聲源到麥克風(fēng)的傳輸示意圖。
.
在基站之間完全同步的情況下,得出定位標(biāo)簽相對(duì)于四組定位基站(假設(shè)1#、2#為第一組,2#、3#為第二組,3#、4#為第三組,4#、1#為第四組)的距離差di12~di14為:
假設(shè)空間布有N個(gè)基站,同時(shí)利用多個(gè)TDOA 測(cè)量值可以構(gòu)成關(guān)于標(biāo)簽位置的雙曲線方程組,求解此方程組即可得到標(biāo)簽坐標(biāo)。
TDOA估值進(jìn)行聲源定位,三顆麥克風(fēng)陣列可以確定空間聲源位置,增加麥克風(fēng)會(huì)增高數(shù)據(jù)精度。定位的方法有MLE最大似然估計(jì),最小方差,球形差值和線性相交等,TDOA相對(duì)來講應(yīng)用廣泛,定位精度高,且計(jì)算量最小,實(shí)時(shí)性好,可用于實(shí)時(shí)跟蹤,在目前大部分的智能定位產(chǎn)品中均采用TDOA技術(shù)作為定位技術(shù)。
廣州大學(xué)華軟軟件學(xué)院省級(jí)“創(chuàng)新強(qiáng)校工程”科研項(xiàng)目《基于人工智能的自然語(yǔ)言交互設(shè)備研究》(2017KQNCX274)
參考文獻(xiàn):
[1]張芳.基于STM32的麥克風(fēng)陣列聲源定位系統(tǒng)研究[D].河北:燕山大學(xué),2014.
[2]鄧承韻.基于麥克風(fēng)陣列的語(yǔ)音分離算法研究[D].北京:北京郵電大學(xué),2019.
[3]高健; 陸陽(yáng); 李慶巧; 衛(wèi)星.采用三次通信的TOF與TDOA聯(lián)合定位算法[D].安徽:電子測(cè)量與儀器學(xué)報(bào),2020.
[4]郝張紅; 段羽浩; 韓彬彬.基于TDOA的聲源定位算法研究及實(shí)現(xiàn)[D].安徽:信息系統(tǒng)工程,2020.
[5]高健;陸陽(yáng);李慶巧;衛(wèi)星.基于UWB技術(shù)的無人機(jī)室內(nèi)飛行測(cè)試平臺(tái)設(shè)計(jì)[D].湖南:傳感器與微系統(tǒng),2019.