邱珊,李石林
(湖南人文科技學(xué)院,湖南 婁底,417000)
基于空間協(xié)方差矩陣的欠定卷積盲源分離
邱珊,李石林
(湖南人文科技學(xué)院,湖南 婁底,417000)
利用空間協(xié)方差矩陣表示的盲源分離模型與瞬時理想模型的一致性,本文提出了基于空間協(xié)方差矩陣的欠定卷積盲源分離方法。本方法用零均值高斯隨機變量的協(xié)方差矩陣來表示各個源信號經(jīng)過傳輸信道后的短時傅里葉變換,采用層次聚類估計出高斯隨機變量協(xié)方差矩陣的初值,并使用極大期望值算法(EM)求解對數(shù)似然函數(shù),最后采用維納濾波法語音增強技術(shù)求解時頻域內(nèi)的源信號。通過仿真實驗,驗證了算法的有效性。
欠定卷積 空間協(xié)方差矩陣 維納濾波
在實際環(huán)境中,語音會受到來自噪聲或者其他信號的干擾,因此出現(xiàn)了語音增強技術(shù)。盲源分離技術(shù)是一種有效的增強技術(shù),它在語音信號分離等許多實際人機交互領(lǐng)域有著廣泛的應(yīng)用。盲源分離技術(shù)最具代表性的算法是獨立分量分析算法,該方法要求觀測信號數(shù)目大于或者等于源信號的個數(shù)也就是非欠定信號。然而,在實際應(yīng)用中,不可避免地會出現(xiàn)觀測信號數(shù)目會小于源信號數(shù)目的情況,且考慮源信號到各個傳感器會產(chǎn)生延時效應(yīng)的欠定盲源分離問題更加具有研究意義。1991年,Cardoso[1]首次提出欠定情況下的盲源分離問題。關(guān)于欠定模型的算法越來越多,當信源具有某種稀疏性時,可以將欠定模型轉(zhuǎn)化成正定模型,從而降低了問題的難度,Karvanen和Cichocki[2]提出了將信號度量成稀疏程度的方法,這時在時域上的稀疏性。而Bofil[3]等人則利用了變換域中的稀疏性。當源信號在時域變換域沒有全部充分稀疏時,一些經(jīng)典的矩陣估計算法就提出來了。Arbret[4,5]等人提出了基于時頻比的混合矩陣估計方法。而混合矩陣的列矢量是通過一些聚類算法得到的。如A.Cichocki、P.D.O’Grady等[6]提出的K-均值聚類算法,M.Zibulevsky等[7]提出的FCM聚類算法。而本文采用層次聚類估計出高斯隨機變量協(xié)方差矩陣的初值,并根據(jù)空間協(xié)方差矩陣表示的盲源分離模型和瞬時理想模型的一致性,使用極大期望值算法(EM)求解對數(shù)似然函數(shù),最后采用維納濾波法語音增強技術(shù)求解時頻域內(nèi)的源信號。
欠定卷積混合模型可以表示為:
…,I,
(1)
(2)
cij(t)表示第j個源信號的直達波和第j個源信號經(jīng)L條反射路徑形成的回聲與直達波一起傳入第i個傳感器的信號。cj(t)=[c1j(t),c2j(t),…,cIj(t)]T;cj(t)表示第j個源信號的直達波和第j個源信號經(jīng)L條反射路徑形成的回聲一起傳入I個傳感器的信號,表示第j個源信號的在時域內(nèi)的空間特性。
aj(p)=[a1j(p),a2j(p),…,aIj(p)]T;表示第j個源信號到達所有傳感器幅度衰減。
則(1)式可以表示為:
(3)
其中:
(4)
(5)
Rcj(f,τ)=vj(f,τ)Rj(f),
(6)
其中,Rcj(f,τ)表示cj(t)的協(xié)方差矩陣,vj(f,τ)是一個標量,表示第j個源信號在(f,τ)時頻點所包含的能量,其初始值為1.Rj(f)表示源信號傳輸信道的空間特征,是一個時不變的協(xié)方差矩陣。因此,觀測信號的協(xié)方差矩陣可以表示為:
(7)
利用EM算法對Rj(f),vj(f,τ)進行迭代收斂。
EM算法分為兩步: E步:根據(jù)參數(shù)初始值或上一次迭代的結(jié)果計算當前似然函數(shù);M步:將似然函數(shù)最大化以獲得新的參數(shù)值通過循環(huán)E步和M步,直到滿是某一個收斂條件為止,這就使得被估計的參數(shù)能夠逼近于真實的參數(shù)。EM算法的主要目的是提供一個簡單的迭代算法計算后驗密度函數(shù),通過EM算法對Rj(f),vj(f,τ)進行更新:
Estep:
(8)
(9)
(10)
(f,τ))Rcj(f,τ),
(11)
其中,I為單位矩陣。
M step:
(12)
(13)
最大期望算法(EM)估計出v和R之后,通過聚類進行源序(初值)調(diào)整
(14)
f∈Fj=1,2,…,J。
(15)
維納濾波是對平穩(wěn)信號時域波形的最小均方誤差準則下的估計。
假設(shè)y(n)表示離散時間的含噪聲序列:
y(n)=x(n)+b(n),
(16)
其中,x(n)是所需要的信號,也稱為“目標信號”,而b(n)是背景噪聲。從y(n)中恢復(fù)目標信號x(n)方法是尋找一個線性濾波器h(n),使得通過濾波器操作后的序列:
(17)
(18)
將式(18)代入(17),并對式子兩邊取傅立葉變換,得:
(19)
根據(jù)維納濾波的最小誤差準則,本算法用維納濾波器語音增強技術(shù)求解出頻域內(nèi)的源信號[5]
Sj(f,τ)=Gj(f,τ)X(f,τ),
(20)
對頻域內(nèi)的源信號進行反傅里葉變換,估計出時域內(nèi)的源信號:
(21)
本算法的流程框如圖1所示。
圖1 算法流程框圖Fig.1 Flow chart of algorithm
為了驗證本算法有效性,本章采用真實房間錄音信號進行仿真實驗;房間中2個全向傳聲器接收來3個不同方位的語音信號,3個聲源成Y字狀等間隔放置。采樣頻率為16KHz,進行STFT變換時選擇窗長為1024的Hanning窗進行FFT,幀移為512。實驗采用的混合信號為雙聲道立體聲信號,s1、 s2、 s3分別來自三個不同的人隨機說出的語句。圖2為三個語音信號的時域圖,圖3為二個混合信號時域圖。
(a)s1時域圖
(b)s2時域圖
(c)s3時域圖
(d)麥克風(fēng)x1信號時域圖
(e)麥克風(fēng)x2信號時域圖
(a)分離出的s1時域圖
(b)分離出的s2時域圖
(c)分離出的s3時域圖
將圖4本章算法分離出的源信號時域圖與圖2源信號時域圖進行對比,從直觀上看三者在波形上都十分相似,從三個圖的比較中可以看出上面本章所提出的分離方法的結(jié)果十分理想。
為了定性衡量本文算法,采用信號與失真比率SDR(dB)、信號與干擾比率SIR(dB)、信號與人造成份比率SAR(dB)來衡量每個估計出的信號與真實的源信號之間的誤差。信號與失真比率、信號與干擾比率、信號與人造成份比率越高,分離出的源信號與真實的源信號就越接近,其誤差如表1所示。
表1 三種誤差比率
SDR(dB)是用來衡量每個估計信號與源信號之間的誤差,信曲比越高,恢復(fù)信號與源信號越接近。表2為采用2種算法得到的信曲比的比較結(jié)果。
表2 二種方法所得信曲比的比較結(jié)果
從表2中我們可以明顯看出,使用本文所提出的算法分離出于音頻信號的信曲比對比于基于時頻稀疏性算法所分離出的音頻信號的信曲比得到了極大的提升:采用基于時頻稀疏性算法的SDR均值為5.9340dB,采用基于空間協(xié)方差矩陣算法的SDR值均值為11.9049 dB。
本章主要介紹了基于空間協(xié)方差矩陣的欠定卷積盲源分離算法。該算法用零均值高斯隨機變量的協(xié)方差矩陣來表示各個源信號經(jīng)過傳輸信道后的短時傅里葉變換。采用層次聚類估計高斯隨機變量協(xié)方差矩陣的初值,使用極大期望值算法(EM)求解參數(shù),并利用維納濾波法語音增強技術(shù)求解頻域內(nèi)的源信號。最后采用信曲比(SDR)做為衡量標準與基于時頻稀疏性算法進行比較,其結(jié)果大大優(yōu)于基于時頻稀疏性算法。
[1]JF Cardoso.Blind identification of more sources than sensors[C]∥In International Conference on Acoustics,Speech,and Signal Processing,1991,5:3109-3112.
[2]Karvanen J,Cichochi A.Measuring sparseness of noisy signals[C]∥4th International Symposium on Independent Component Analysis and Blind Signal Separation,2003:125-130.
[3]Bofill P,Zibulevsky M.Underdetermined blind source separation using sparse representations[J].Signal Processing.2001,81(11):2353-2362.
[4]Arbret S,Vandergheynest P,Carrillo R E,et al.Sparse reverberant audio source separation via reweighted analysis[J].IEEE Transactions on Audio,Speech,and Language Processing,2013,21(7):1391-1402.
[5]Gu F,Zhang H,Wang W,et al.Generalized generating function with tucker decomposition and alternating least squares for underdetermined blind identification[J].EURASIP Journal on Advances in Signal Processing,2013,2013(1):1-9.
[6]Pederson M S.Two-Microphone Separation of speech Mixtures[J].IEEE Transactions on Neural Networks,2008,19(3):475-492.
[7]Ngoc Q.K.Duong.Under-Determined Reverberant Audio Source Separation Using a Full-Rank Spatial Covariance Model[J].IEEE Transactions on Audio,Speech and Language Processing,2010,18(7):1830-1840.
Research on underdetermined convolutive blind source separation based on spatial covariance matrix
QIU Shan,LI Shilin
(Hunan University of Humanities,Science and Technology,Loudi 417009,China)
Based on spatial covariance matrix for utilizing the consistency of the blind source separation model represented by space covariance matrix and instantaneous ideal model,this paper propose a underdetermined convolution blind source separation method.We used the covariance of zero-mean Gaussian random variable to represent the short Fourier transform of each source signal after transmitting in the channel.Adopt the hierarchical clustering to estimate the initial value of the covariance matrix of Gauss random variables.Used the expectation-maximum algorithm to slove the log-likelihood function.At last,using the Weiner filtering speech enhancement technique,figure out the frequency domain source signal.Through the simulation analysis verified the validity of the algorithm.
underdetermined convolutive;spatial covariance matrix;Weiner filtering
1672-7010(2016)04-0045-05
2016-04-15
湖南人文科技學(xué)院校級青年基金項目(2015QN02);湖南省教育廳科學(xué)研究項目(15C0726)
邱珊(1986-),湖南婁底人,助教,碩士研究生,從事自適應(yīng)信號處理研究;E-mail:272865017@qq.com
TN911.7
A