楊 洋,楊 震,2
1.南京郵電大學(xué)通信與信息工程學(xué)院,江蘇 南京 210003
2.南京郵電大學(xué)通信與網(wǎng)絡(luò)技術(shù)國家地方聯(lián)合工程研究中心,江蘇 南京 210003
近年來,隨著技術(shù)不斷革新,大量的數(shù)據(jù)信息駐留在不規(guī)則且復(fù)雜的結(jié)構(gòu)網(wǎng)絡(luò)中,導(dǎo)致傳統(tǒng)的數(shù)字信號處理技術(shù)不再適用,進而催生了新興的技術(shù)——圖信號處理(Graph Signal Processing,GSP)技術(shù)的研究熱潮,文獻[1-3]介紹了圖信號處理的眾多應(yīng)用與挑戰(zhàn)。目前,圖信號處理已廣泛應(yīng)用在諸如傳感器網(wǎng)絡(luò)[4]、生物網(wǎng)絡(luò)[5]、圖像處理[6]、機器學(xué)習(xí)[7]等領(lǐng)域。
相較于傳統(tǒng)數(shù)字信號處理(Digital Signal Processing,DSP)的固定離散傅里葉基,圖傅里葉的基底可以有多種選擇,故對于處理各種信號更加靈活。例如對于邊的權(quán)重為實數(shù)且非負的無向圖,常常選用的是拉普拉斯矩陣L的特征值分解來定義圖傅里葉基[1],圖拉普拉斯矩陣常定義為L=D-A,其中D為度矩陣,其為對角陣,對角線上的元素表示與該頂點相關(guān)聯(lián)邊的數(shù)量,A為鄰接矩陣,表示為頂點之間的關(guān)系,而選用鄰接矩陣的特征值分解或約旦分解來定義圖傅里葉基則不需要考慮圖邊的權(quán)重是否實復(fù)和正負,以及是否帶有方向[3,8-10]。
對于語音信號,文獻[11-12]提出利用有向循環(huán)圖作為有限長周期時間序列的圖,一旦圖確定,選擇合適的方法來進行圖傅里葉變換是很重要的,若選用約旦分解來定義圖傅里葉基底,則需要預(yù)先考慮和調(diào)整圖的結(jié)構(gòu),這會改變圖結(jié)構(gòu),導(dǎo)致后續(xù)處理的錯誤,此外若對有向循環(huán)圖進行特征分解,已經(jīng)證明,得到的圖頻率和相應(yīng)的頻譜特性與經(jīng)典數(shù)字信號處理一致,所以選用奇異值分解無須對圖結(jié)構(gòu)先驗已知,且不用考慮因圖矩陣非負元素為負導(dǎo)致的部分語音信號移動或丟失[13]。
在語音增強方面,文獻[14-15]提出了GSP在單通道語音信號中的增強處理,而傳統(tǒng)上對于多通道語音增強大多用麥克風(fēng)陣列的波束形成來實現(xiàn)[16]。近年來,眾多研究者常對最小方差無失真響應(yīng)(Minimum Variance Distortionless Response,MVDR)波束形成的目標(biāo)信號的掩膜或噪聲功率譜密度估計進行處理,如文獻[17]利用生成對抗網(wǎng)絡(luò)生成掩膜,文獻[18]利用單調(diào)算子分裂來改善噪聲功率譜密度估計的精確性,文獻[19]提出了一種基于麥克風(fēng)觀測值來遞歸估計空間相干矩陣的方法,進而提高了語音和噪聲功率譜密度估計的精確性。
以上工作利用GSP技術(shù)提升了單通道語音增強性能,但還未將圖信號處理技術(shù)應(yīng)用于多通道語音增強中,文獻[16-19]仍然是在傳統(tǒng)DSP域進行多通道語音增強。鑒于采用GSP技術(shù)能提升語音增強性能[14-15],本文將從多通道信號轉(zhuǎn)換到圖頻域的角度出發(fā),考慮幀內(nèi)語音信號的邏輯關(guān)系和各傳感器之間的邏輯關(guān)系,將多通道語音信號從經(jīng)典的時域變換到圖頻域進行處理。仿真實驗表明,相較于傳統(tǒng)DSP方法處理的MVDR波束形成語音增強,在語音質(zhì)量和語音可懂性方面有顯著提升。
本節(jié)簡要介紹圖信號的概念。通常,圖用G={V,E,W}[1]表示,其中V表示有限點的集合|V|=N,E為邊的集合,W表示加權(quán)鄰接矩陣。如果在點i,j之間有邊ei,j,那么Wi,j表示該邊上的權(quán)重,即兩點的相關(guān)性。 若Wi,j=0,則說明點i,j無關(guān)系。一般而言,為方便說明,若兩點直接有關(guān)系即兩點有邊,權(quán)重為1,否則為0。對于幀內(nèi)的語音信號而言,語音信號可表示為N個采樣點的一維有向信號
對于語音信號,其圖信號可表示為G={V,E,Af},其中點集V表示語音信號時域上對應(yīng)的采樣點nN,邊集E表示前后信號相鄰的關(guān)系,ei,j∈{0,1}。 加權(quán)鄰接矩陣Af可由文獻[8]中的定義2得出,文獻[8]中指出,對于一維有限長離散時間信號,其鄰接矩陣為
其可視化圖如圖1所示。
圖1 一維有限長時間序列的可視化模型[8]
對于通道之間的語音信號而言,由于麥克風(fēng)之間的相對位置不同,對聲源的接受有時間差τij=其中ds為兩個傳感器之間的間距,θ為聲波到達線性陣列的傳感器之間形成的夾角,c為空氣中的聲速。則該陣列的導(dǎo)向矢量為
傳感器結(jié)構(gòu)如圖2所示。
圖2 均勻線性麥克風(fēng)陣列[20]
語音信號在麥克風(fēng)陣列接收到的信號中,通道的圖鄰接矩陣Ac可由傳感器之間的相對距離以及它們的導(dǎo)向矢量的聯(lián)合圖來表示,具體如下
其中與主對角線平行的元素表示相鄰傳感器之間位置關(guān)系,即若兩傳感器相鄰為1,否則為0;主對角線表示以第一個傳感器為參考點,該陣列的導(dǎo)向矢量,反映了陣列之間的相位差。
通過圖傅里葉變換(Graph Fourier Transform,GFT),可以使信號變換到圖頻域中進行分析,對鄰接矩陣A進行特征分解有A=VΛV-1,其中V為特征向量組成的矩陣,為由特征值組成的對角矩陣,稱λk為圖頻率[9]。將V-1視為GFT矩陣,則GFT定義為其圖逆GFT(Inverse GFT,IGFT)定義為作者團隊已經(jīng)證明,當(dāng)鄰接矩陣A為1-shift的情況時,經(jīng)典DSP為GSP的特殊情況,本文對鄰接矩陣A進行奇異值分解得到A=VΛD?[16],則 GFT 為IGFT 為
將多通道信號分幀,得到M×T×F的矩陣,其中,M為通道數(shù)量,T為幀數(shù),F(xiàn)為幀長,如圖 3所示。
圖3 多通道語音信號
首先,進行幀內(nèi)的GFT。具體地,對Af進行奇異值分解,得到左奇異值向量U,取出其中一個通道內(nèi)的幀內(nèi)數(shù)據(jù)與U-1相乘進行GFT,依次循環(huán)得到一個通道內(nèi)的 GFT,幀內(nèi) GFT的過程如圖 4所示。
圖4 幀內(nèi)GFT
然后,進行通道內(nèi)的GFT,過程與幀內(nèi)GFT類似。具體地,對Ac進行奇異值分解得到U矩陣,取出一幀內(nèi)的全部通道數(shù)據(jù)與U-1相乘再放回,依次循環(huán)得到整個數(shù)據(jù)的GFT,通道內(nèi)的GFT過程如圖5所示。至此,將多通道時域語音信號變換到圖頻域中。
圖5 通道內(nèi)GFT
對于麥克風(fēng)陣列,在t時刻,麥克風(fēng)n(n=1,2,…,N)采集到的含噪語音信號可以表示為yn(t)=xn(t)+vn(t),其中vn(t) 為加性噪聲,xn(t)為聲源到達麥克風(fēng)的信號,它們由同一個圖得出。由于麥克風(fēng)之間的空間分布,聲源到達各個麥克風(fēng)的衰減和延遲是不同的,即xn(t)=αn·s(t-τn),其中αn為衰減因子,τn為相對時延。
將含噪圖語音信號進行GFT,得到
其中
式中Aτn為移位算子[21]。
令
通過設(shè)計濾波器
對含噪圖語音信號進行濾波,得到增強后的圖語音信號
結(jié)合式(6)和(7)得
式中,Cv為協(xié)方差矩陣。假設(shè)噪聲與原始信號不相干,那么之間的 PSD 滿足
結(jié)合式(8)和(10),有
定義局部信噪比為
則MVDR的求解問題可以表示為
其最優(yōu)解為
本節(jié)對所提的基于GSP的MVDR波束形成多通道語音增強方法進行仿真,并與文獻[17]提出的傳統(tǒng)DSP域的MVDR波束形成多通道語音增強方法和文獻[23]提出的基于深度神經(jīng)網(wǎng)絡(luò)的語音活動檢測支持的波束形成多通道語音增強方法進行比較。為簡便起見,將本文提出的基于GSP的MVDR波束形成多通道語音增強方法記為圖傅里葉變換多通道語音處理(Graph Fourier Transform Multi?Channel Speech Processing,GFT?MCSP)方法。 采用的評價指標(biāo)為客觀語音質(zhì)量評估(Perceptual Evaluation of Speech Quality,PESQ)[24]和短時客觀可懂度(Short?Time Objective Intelligibility,STOI)[25],對本文提出的方法以及參考實驗的性能進行評估。對于PESQ,其范圍在1.0~4.5,數(shù)值越大,語音信號的感知質(zhì)量越好,當(dāng)?shù)陀?.0時即為失真嚴重。而STOI范圍在0~1,且值越大,語音信號的可懂度越好。
在本節(jié)仿真實驗中,多通道語音信號是由麥克風(fēng)陣列模擬平臺 SMARD[26]生成,房間設(shè)置為長3 m,寬4 m,高3 m,房間墻壁的吸收系數(shù)設(shè)置為1,以確保數(shù)據(jù)集在實驗中沒有混響影響。純凈語音信號來源于TIMIT語音庫,且采樣頻率為16 000 Hz。將純凈語音信號分別加上白噪聲和babble噪聲(隨機選自于 NOISEX?92)[27]干擾,構(gòu)成不同信噪比下的含噪語音信號。
圖6和圖7分別為不同方法在白噪聲環(huán)境下PESQ、STOI與輸入信噪比的性能曲線。由圖6和圖7可以看出,在白噪聲環(huán)境下,所提的GFT?MCSP方法得到的PESQ和STOI均優(yōu)于兩種參考方案。另外,從圖6和圖7還可以看出,考慮傳感器之間的位置關(guān)系與相位差聯(lián)合構(gòu)建的圖對語音質(zhì)量與可懂度的提升優(yōu)于僅考慮單一關(guān)系構(gòu)建的圖。
圖6 白噪聲下不同方法的PESQ對比
圖7 白噪聲下不同方法的STOI對比
圖8和圖9分別為不同方法在babble噪聲環(huán)境下PESQ、STOI與輸入信噪比的性能曲線。從圖8和圖9可以看出,在babble噪聲下,低信噪比時GFT?MCSP的PESQ與文獻[17]和文獻[23]差距不大,而在高信噪比下本文所提的GFT?MCSP方法得到的PESQ遠優(yōu)于文獻[17]和文獻[23]中的方法。并且,在babble噪聲環(huán)境下,本文所提的GFT?MCSP方法得到的STOI優(yōu)于文獻[17]和文獻[23]中的方法。同時,從圖8和圖9可以看出,babble噪聲環(huán)境下,考慮傳感器之間的位置關(guān)系與相位差聯(lián)合構(gòu)建的圖對語音質(zhì)量與可懂度的提升也優(yōu)于僅考慮單一關(guān)系構(gòu)建的圖。
圖8 babble噪聲下不同方法的PESQ對比
圖9 babble噪聲下不同方法的STOI對比
本文提出了一種基于GSP的MVDR波束形成多通道語音增強方法,該方法聯(lián)合考慮語音幀內(nèi)關(guān)系與各通道間傳感器關(guān)系來構(gòu)建圖語音信號。具體地,在通道內(nèi)利用傳感器相對位置關(guān)系與導(dǎo)向矢量結(jié)合的方式構(gòu)建通道內(nèi)的圖,對幀內(nèi)采用1-shift的方式構(gòu)建幀內(nèi)圖。在此基礎(chǔ)上,將多通道語音信號通過聯(lián)合 GFT映射到圖頻域,利用圖頻域中的MVDR波束形成器對語音信號進行增強。仿真表明,本文提出的基于GSP的MVDR波束形成多通道語音增強方法在語音質(zhì)量評估和可懂度方面有顯著的提高。