摘要:聲源定位的準(zhǔn)確程度對(duì)語(yǔ)音增強(qiáng)的效果影響很大,因而成為語(yǔ)音增強(qiáng)領(lǐng)域的重要研究方向。本文提出一種基于語(yǔ)音活動(dòng)檢測(cè)的實(shí)時(shí)處理聲源定位方法,僅在目標(biāo)語(yǔ)音段進(jìn)行判定。相對(duì)傳統(tǒng)聲源定位方法,可以明顯提高判定的有效性. 仿真實(shí)驗(yàn)表明本文方法在實(shí)時(shí)處理系統(tǒng)中能更有效的實(shí)現(xiàn)聲源定位。
關(guān)鍵詞:聲源定位;語(yǔ)音活動(dòng)檢測(cè);語(yǔ)音增強(qiáng)
中圖分類(lèi)號(hào):TP302 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)04-0251-02
A Sound Source Localization Method Based on Voice Activity Detection
YANG Li-chun
(Institute of Intelligent Control Technology, Zhejiang Wanli University, Ningbo 315101, China)
Abstract: The accuracy of sound source localization has a great influence on speech enhancement, which is an important study direction in the field of speech enhancement. This paper proposes a real-time processing of sound source localization method based on voice activity detection which decision lie only in target speech segments. Compared with the traditional sound source localization method, the proposed method can significantly improve the effectiveness of the determination. The simulation experiment shows that the proposed method is more effective in real-time system for realize sound source localization than that its counterpart.
Key words: Sound Source Localization;Voice Activity Detection;Speech Enhancement
麥克風(fēng)陣列語(yǔ)音增強(qiáng)[1]是語(yǔ)音通訊和交互領(lǐng)域的關(guān)鍵技術(shù),其效果直接影響目標(biāo)語(yǔ)言質(zhì)量的好壞,而聲源定位則是麥克風(fēng)陣列語(yǔ)音增強(qiáng)的重要支持。當(dāng)前語(yǔ)音定位技術(shù)是利用時(shí)延估計(jì)實(shí)現(xiàn)的,時(shí)延估計(jì)技術(shù)主要包括廣義互相關(guān)(Generalized Cross Correlation, GCC)[2]算法和最小均方自適應(yīng)(Least Mean Square, LMS)[3]濾波兩種方法,其思想都是尋找語(yǔ)音段內(nèi)能量最強(qiáng)的方向。在實(shí)時(shí)處理系統(tǒng)中,由于各種環(huán)境干擾,如語(yǔ)音、音樂(lè)、機(jī)器以及汽車(chē)等,造成無(wú)法有效和正確估計(jì)目標(biāo)信號(hào)的方向。
為了解決這個(gè)問(wèn)題,本文提出一種基于語(yǔ)音活動(dòng)檢測(cè)(Voice Activity Detection, VAD)的目標(biāo)語(yǔ)音定位方法,使得聲源定位僅在語(yǔ)音段進(jìn)行,可以規(guī)避在非語(yǔ)音段進(jìn)行聲源定位而導(dǎo)致的定位錯(cuò)誤發(fā)生,進(jìn)而可以提高聲源定位的有效性。
1基于語(yǔ)音活動(dòng)檢測(cè)的廣義互相關(guān)的聲源定位
為了獲得目標(biāo)聲源的位置,需要得到其在兩個(gè)麥克風(fēng)的時(shí)延,本文的方法是基于GCC的無(wú)偏互相關(guān)函數(shù)實(shí)現(xiàn)時(shí)延估計(jì)。假定目標(biāo)聲源與噪聲獨(dú)立不相關(guān),則兩個(gè)麥克風(fēng)獲得的信號(hào)分別可用式(1)和(2)表示:
其中:x1與x2分別表示兩個(gè)麥克風(fēng)獲得的信號(hào);t表示時(shí)刻;s表示目標(biāo)語(yǔ)音信號(hào);v1,v2表示兩個(gè)麥克風(fēng)接收到的噪聲信號(hào);τ表示兩個(gè)麥克風(fēng)接收到目標(biāo)語(yǔ)音信號(hào)的時(shí)延。
則兩個(gè)麥克風(fēng)接收到信號(hào)的互相關(guān)函數(shù)可表示為式(3)形式:
其中
其中T為觀測(cè)時(shí)間。由于實(shí)際采集的是離散信號(hào),所以式(4)可改寫(xiě)成式(5)的形式:
其中n表示采樣點(diǎn)。在式(5)中,我們可以近似認(rèn)為
本文的語(yǔ)音活動(dòng)檢測(cè)方法是基于WebRtc[4]中的VAD算法,該方法首先在頻域內(nèi)把信號(hào)分成6個(gè)子帶,并分別計(jì)算每個(gè)子帶的能量;然后使用高斯混合模型 (Gaussian Mixture Model, GMM)分別計(jì)算語(yǔ)音和非語(yǔ)音存在的概率,并通過(guò)相應(yīng)的概率來(lái)判斷語(yǔ)音和噪聲。GMM的噪聲和語(yǔ)音模型如式(6)所示:
其中:xk是選取的特征量,在WebRtc的VAD中具體是指子帶能量;rk是包括均值uz和方差sita的參數(shù)集合;z=0,代表噪聲;z=1,代表語(yǔ)音。
2 仿真實(shí)驗(yàn)
實(shí)驗(yàn)中,不失一般性,我們采用2個(gè)麥克風(fēng)組成一個(gè)小陣列進(jìn)行聲源定位,陣元間距為4cm,采樣率為16KHz。分別利用傳統(tǒng)的廣義互相關(guān)算法和本文提出的基于VAD的算法進(jìn)行驗(yàn)證。
實(shí)驗(yàn)環(huán)境在一個(gè)普通會(huì)議室內(nèi),測(cè)試10次,每次語(yǔ)速和目標(biāo)語(yǔ)音間隔不同,信噪比均為10dB左右,干擾源為風(fēng)扇、機(jī)器以及嘈雜說(shuō)話(huà)聲(babble),每次錄音時(shí),目標(biāo)聲源分別在位于陣列中心0°到180°每隔20°共10個(gè)位置分別說(shuō)一句話(huà),以模擬聲源移動(dòng)。每次實(shí)驗(yàn)錄音長(zhǎng)度均選取45秒,然后使用本文算法和GCC方法對(duì)這10個(gè)錄音進(jìn)行計(jì)算,對(duì)結(jié)果進(jìn)行平均,其結(jié)果如圖1所示:
從圖1中可以看出,本文的算法在實(shí)時(shí)系統(tǒng)中無(wú)論目標(biāo)聲源位于哪個(gè)位置,估計(jì)的方向與實(shí)際方向誤差很小,因而表明本文提出的方法具有較好的準(zhǔn)確性和魯棒性。
3 總結(jié)
實(shí)際應(yīng)用中,由于目標(biāo)信號(hào)位置可能會(huì)發(fā)生變化,因此實(shí)時(shí)處理系統(tǒng)需不斷判定目標(biāo)聲源位置,本文提出的僅在語(yǔ)音段進(jìn)行聲源位置判定,可以有效避免在非語(yǔ)音段判定造成的定位錯(cuò)誤,因而具有較好的理論意義和實(shí)際應(yīng)用價(jià)值。
參考文獻(xiàn):
[1] 楊立春, 葉敏超, 錢(qián)沄濤. 基于多任務(wù)稀疏表達(dá)的二元麥克風(fēng)小陣列語(yǔ)音增強(qiáng)算法[J]. 通信學(xué)報(bào), 2014, 35(2):87-94.
[2] Knapp C H,Carter G C, The Generalized Correlation Method for Estimation of Time Delay[J]. IEEE Transactions on Acoustics, Speech and Signal Processing. 1976, 24(4):320-327.
[3] Widrow B, Hoff M E. Adaptive switching circuits[J]. WESCON Conv. Rec, 1960, 5(3): 96-104.
[4] https://webrtc.org