郭振超 楊 震,2 葛子瑞 郭海燕 王婷婷
(1.南京郵電大學(xué)通信與信息工程學(xué)院,江蘇南京 210003;2.南京郵電大學(xué)通信與網(wǎng)絡(luò)技術(shù)國(guó)家地方聯(lián)合工程研究中心,江蘇南京 210003)
隨著大數(shù)據(jù)時(shí)代的到來(lái),對(duì)不同環(huán)境中收集到的大規(guī)模數(shù)據(jù)集進(jìn)行分析和處理已逐漸引起了研究人員的關(guān)注。Moura 等人于2013 年首次提出了圖信號(hào)處理[1](Graph Signal Processing,GSP),運(yùn)用圖模型將傳統(tǒng)的信號(hào)處理理論擴(kuò)展到通用圖表示的廣義數(shù)據(jù)集。特別是近些年來(lái),許多工程和科研領(lǐng)域都已將研究側(cè)重于海量數(shù)據(jù)處理問(wèn)題。例如,文獻(xiàn)[2]使用圖信號(hào)的圖頻率域理論對(duì)紐約市7 億條出租車行駛軌跡進(jìn)行分析和研究,利用不同頻率系數(shù)分析解釋了出租車的潛在行為。文獻(xiàn)[3]運(yùn)用圖卷積神經(jīng)網(wǎng)絡(luò)來(lái)處理社交網(wǎng)絡(luò),利用復(fù)雜的大規(guī)模社會(huì)網(wǎng)絡(luò)數(shù)據(jù)推測(cè)用戶的私有屬性。文獻(xiàn)[4]根據(jù)人腦結(jié)構(gòu)的連通性構(gòu)建動(dòng)態(tài)的多模態(tài)腦圖,將圖信號(hào)理論和網(wǎng)絡(luò)控制理論結(jié)合來(lái)研究多模態(tài)腦圖之間的關(guān)系。
圖信號(hào)處理的第一步是對(duì)數(shù)據(jù)集的合理表示,以應(yīng)對(duì)存在大量高維不規(guī)則數(shù)據(jù)的場(chǎng)景。目前在GSP中,表示圖結(jié)構(gòu)的圖邊權(quán)矩陣主要分為兩種,一種是用于描述無(wú)向圖的圖拉普拉斯矩陣L,另一種是既可用于描述無(wú)向圖也可以用于描述有向圖的圖鄰接矩陣A。本文針對(duì)語(yǔ)音信號(hào)這樣的時(shí)間序列展開研究,考慮到語(yǔ)音信號(hào)作為時(shí)序信號(hào)所具有的有向性、周期性等特性,本文側(cè)重研究基于圖鄰接矩陣的圖信號(hào)。
基于圖鄰接矩陣的GSP 理論與技術(shù)目前已有一套較為全面的理論架構(gòu),其研究方向主要包括圖傅里葉變換[5]、圖采樣[6]和圖濾波器設(shè)計(jì)[7]等。例如,文獻(xiàn)[8]解決了GFT 在重復(fù)特征值情況下的不確定性問(wèn)題,提出GFT的準(zhǔn)坐標(biāo)自由定義,并通過(guò)傾斜頻譜投影得到圖形信號(hào)的圖頻譜分解。文獻(xiàn)[9]定義了頂點(diǎn)域和圖頻譜域中的圖脈沖、調(diào)制、濾波和卷積并提供了一個(gè)用于采樣圖信號(hào)的框架,進(jìn)而給出了采樣信號(hào)的條件,以實(shí)現(xiàn)信號(hào)的完全恢復(fù)。文獻(xiàn)[10]通過(guò)改變圖移位算子的特征值保證了移位算子的能量不變性,并進(jìn)一步提出圖信號(hào)的自相關(guān)、互相關(guān)函數(shù),以此構(gòu)建了圖wiener濾波器。
但值得一提的是,目前GSP 理論與技術(shù)主要針對(duì)圖拓?fù)浣Y(jié)構(gòu)先驗(yàn)已知的圖信號(hào)進(jìn)行了大量的研究,而對(duì)于圖拓?fù)浣Y(jié)構(gòu)先驗(yàn)未知的圖信號(hào)卻甚少研究,例如語(yǔ)音信號(hào)??紤]到語(yǔ)音信號(hào)常使用傳統(tǒng)數(shù)字信號(hào)處理的方法進(jìn)行處理,而作為傳統(tǒng)數(shù)字信號(hào)處理的擴(kuò)展的圖信號(hào)處理,包含了與傳統(tǒng)數(shù)字信號(hào)處理相對(duì)應(yīng)的卷積、濾波等理論,故而可以很好地用于語(yǔ)音信號(hào)處理。另外,圖信號(hào)處理對(duì)于不同的信號(hào)擁有更強(qiáng)的適應(yīng)性,即其可根據(jù)語(yǔ)音信號(hào)的特性設(shè)計(jì)合理的圖結(jié)構(gòu),獲得合適的圖頻域以便對(duì)語(yǔ)音信號(hào)進(jìn)行時(shí)頻分析。當(dāng)然目前在GSP 與語(yǔ)音信號(hào)處理相結(jié)合的方面,本團(tuán)隊(duì)一些研究人員在語(yǔ)音圖結(jié)構(gòu)設(shè)計(jì)和語(yǔ)音消噪等方面已取得了初步研究成果。例如,文獻(xiàn)[11]提出了一種k-shift 算子將語(yǔ)音信號(hào)映射至圖域,通過(guò)語(yǔ)音圖信號(hào)的圖鄰接矩陣的奇異值分解定義了一種圖傅里葉基向量,并基于MMSE 準(zhǔn)則設(shè)計(jì)了圖wiener 濾波器用于語(yǔ)音消噪。文獻(xiàn)[12]提出了基于k-shift算子的圖譜減法并進(jìn)一步提出了迭代圖譜減法。
眾所周知在傳統(tǒng)的語(yǔ)音信號(hào)處理中,語(yǔ)音端點(diǎn)檢測(cè)是預(yù)處理中極為重要的環(huán)節(jié),例如語(yǔ)音消噪中常使用語(yǔ)音端點(diǎn)檢測(cè)判斷非語(yǔ)音段,從而進(jìn)行合理的噪聲估計(jì)。語(yǔ)音識(shí)別系統(tǒng)中常使用語(yǔ)音端點(diǎn)檢測(cè)判斷語(yǔ)音段,提升算法的檢測(cè)準(zhǔn)確率。為了能較好地區(qū)分語(yǔ)音段和非語(yǔ)音段,研究人員設(shè)計(jì)出了不同的特征參數(shù)提取方法,主要包括時(shí)域和頻域兩個(gè)部分。在時(shí)域上,主要的特征參數(shù)包括短時(shí)能量[13]、短時(shí)過(guò)零率ZCR[14]和短時(shí)自相關(guān)[15]。但時(shí)域的特征參數(shù)存在明顯的缺點(diǎn),即在噪聲環(huán)境下不具有良好的抗噪聲性能,會(huì)導(dǎo)致系統(tǒng)性能顯著下降。而以譜熵為代表的頻域特征參數(shù)[16]則具有一定的魯棒性,特別是在低信噪比條件下識(shí)別效果更好。例如文獻(xiàn)[17]在譜熵的基礎(chǔ)上引入了正常數(shù)K,增強(qiáng)語(yǔ)音信號(hào)和噪聲信號(hào)之間的可分辨性。文獻(xiàn)[18]提出一種自適應(yīng)子帶譜熵ABSE 算法,對(duì)語(yǔ)音的頻譜進(jìn)行子帶分割,以減小部分頻點(diǎn)噪聲過(guò)大對(duì)檢測(cè)造成的影響,提升了低信噪比下語(yǔ)音端點(diǎn)檢測(cè)準(zhǔn)確率。
本文首先提出了一種用于描述語(yǔ)音信號(hào)的遺忘圖拓?fù)浣Y(jié)構(gòu),來(lái)探索語(yǔ)音樣點(diǎn)之間的關(guān)聯(lián)性,并根據(jù)圖鄰接矩陣建立起相應(yīng)的語(yǔ)音信號(hào)圖頻率域。然后,通過(guò)將ABSE 算法拓展至圖頻率域,提出一種GABSE 算法用于語(yǔ)音端點(diǎn)檢測(cè),以進(jìn)一步提高語(yǔ)音端點(diǎn)檢測(cè)準(zhǔn)確性和魯棒性。
GSP 理論與技術(shù)是一種處理高維度、不規(guī)則和非線性數(shù)據(jù)的處理工具,其中圖拓?fù)浣Y(jié)構(gòu)的設(shè)計(jì)是研究的重要環(huán)節(jié)。不同于傳統(tǒng)信號(hào)處理理論孤立地研究信號(hào)樣點(diǎn)值,圖信號(hào)處理的關(guān)鍵在于以樣點(diǎn)之間的關(guān)系為橋梁建立連通的圖拓?fù)浣Y(jié)構(gòu),形成完整的圖信號(hào)模型G=(V,E,W),其中V為圖信號(hào)的頂點(diǎn)集,E為連接樣點(diǎn)的邊集,W為每條邊對(duì)應(yīng)的權(quán)重。
考慮到語(yǔ)音信號(hào)是一種非線性信號(hào),因此我們可以將語(yǔ)音信號(hào)映射為一種圖信號(hào)進(jìn)行處理。具體而言,對(duì)于一段幀長(zhǎng)為N的語(yǔ)音信號(hào)s=[s0,s1,…,sN-1]T,可將其映射為一組圖信號(hào)sG,其中上標(biāo)G表示對(duì)應(yīng)的圖信號(hào)模型。通過(guò)這種映射,語(yǔ)音圖信號(hào)樣點(diǎn)之間的關(guān)系借助圖信號(hào)模型G=(V,E,W)定量地表現(xiàn)出來(lái)。圖信號(hào)模型中的V=[v0,v1,…,vN-1]T表示圖中的所有頂點(diǎn),這與一幀語(yǔ)音信號(hào)中的N個(gè)采樣點(diǎn)一一對(duì)應(yīng),同時(shí)語(yǔ)音信號(hào)s可映射至圖結(jié)構(gòu)的頂點(diǎn)上成為圖信號(hào)sG=。圖結(jié)構(gòu)中的邊集合E∈CN×N表示各個(gè)采樣點(diǎn)之間是否存在連接的邊以及其方向,即若eij=1則表示vi與vj兩者之間存在連接邊,反之eij=0。邊的存在表明了各個(gè)采樣點(diǎn)之間是否存在聯(lián)系,而具體的關(guān)聯(lián)程度由權(quán)重矩陣W={wij}∈CN×N的大小表示。
在早期關(guān)于圖信號(hào)處理的研究中,圖結(jié)構(gòu)往往采用的是一種無(wú)向圖形式,即wij=wji??紤]到語(yǔ)音前后樣點(diǎn)之間地關(guān)聯(lián)性,故本文認(rèn)為無(wú)向圖結(jié)構(gòu)對(duì)于語(yǔ)音同樣適用。另外,為了實(shí)現(xiàn)有向圖和無(wú)向圖的統(tǒng)一表示,下文將采用圖鄰接矩陣A來(lái)表示權(quán)重矩陣W。
根據(jù)文獻(xiàn)[19],在圖鄰接矩陣A滿足
的條件時(shí),圖信號(hào)處理的理論與傳統(tǒng)數(shù)字信號(hào)處理理論相一致,即GSP 理論是DSP 理論的擴(kuò)展延伸。因此one-shift 圖(如圖1 所示)可以看成是傳統(tǒng)數(shù)字信號(hào)處理采用的圖結(jié)構(gòu)。本文考慮到這種圖結(jié)構(gòu)反映了當(dāng)前樣點(diǎn)與后一個(gè)樣點(diǎn)之間的簡(jiǎn)單關(guān)系,對(duì)于規(guī)則的時(shí)序信號(hào)有一定的概括性,但對(duì)于特定的時(shí)序信號(hào),one-shift 圖難以描述特定的相關(guān)特性。故而本文設(shè)計(jì)了一種基于遺忘因子的遺忘圖結(jié)構(gòu)。
語(yǔ)音信號(hào)作為時(shí)序信號(hào)的一種,與人體發(fā)聲系統(tǒng)的特性有密切的關(guān)聯(lián),這使得其具有一定的特殊性和復(fù)雜性。作為一種短時(shí)平穩(wěn)信號(hào),語(yǔ)音信號(hào)在一幀之內(nèi)往往具有較強(qiáng)關(guān)聯(lián)性?;谶@種關(guān)聯(lián)性,本文提出了一種基于遺忘因子的遺忘圖模型,具體如圖2 所示。并可以得到遺忘圖模型的邊矩陣ε∈RN×N,其中的元素可表示為
其中k表示與當(dāng)前樣點(diǎn)有關(guān)聯(lián)性的臨近樣點(diǎn)的個(gè)數(shù)。
遺忘圖模型的鄰接矩陣Amenory滿足
其中λ∈(0,1)為遺忘因子,表示vi與vj之間的時(shí)間距離越遠(yuǎn),兩者的關(guān)聯(lián)性越弱。同時(shí),Ψ 為遺忘門限,當(dāng)二者之間的時(shí)間關(guān)聯(lián)性低至門限之下,則認(rèn)為沒有關(guān)聯(lián)性。遺忘因子與遺忘門限均根據(jù)經(jīng)驗(yàn)取得,常取0.8 和10-3,不同遺忘因子下的鄰接矩陣如圖3所示。
圖3 表示了樣點(diǎn)之間的關(guān)聯(lián)性,其中橫坐標(biāo)和左縱坐標(biāo)均為128 個(gè)樣點(diǎn)的序號(hào),右縱坐標(biāo)軸表示關(guān)聯(lián)性,顏色由淺至深表明了關(guān)聯(lián)性由大到小。從色階圖可以看出,遺忘因子主要控制樣點(diǎn)之間關(guān)聯(lián)性的衰減速度,遺忘因子越大,關(guān)聯(lián)性衰減速度就越慢,存在關(guān)聯(lián)性的樣點(diǎn)就越多。
值得說(shuō)明的是,本文提出的遺忘圖矩陣與傳統(tǒng)的相關(guān)矩陣有明顯不同。遺忘圖矩陣一個(gè)描述樣點(diǎn)之間關(guān)系的矩陣,因此遺忘圖矩陣是一個(gè)時(shí)不變的圖結(jié)構(gòu),沒有額外的計(jì)算量,而傳統(tǒng)的相關(guān)矩陣需要隨著幀的變化不斷計(jì)算數(shù)值,有較大的計(jì)算成本。本文的遺忘圖矩陣可以定義新的“圖頻率域”,進(jìn)一步定義一種新的映射方法。
本文的遺忘圖結(jié)構(gòu)與文獻(xiàn)[11-12]提出的kshift 圖結(jié)構(gòu)也有顯著區(qū)別。首先,k-shift 圖是一種簡(jiǎn)單圖,未能充分考慮到語(yǔ)音信號(hào)的時(shí)變性,簡(jiǎn)單地0-1 關(guān)系不能很好地反映出信號(hào)樣點(diǎn)的關(guān)系變化情況。而遺忘圖結(jié)構(gòu)是在此基礎(chǔ)上提出了遺忘因子作為關(guān)聯(lián)性的衰減系數(shù),隨著時(shí)間間隔的增加,樣點(diǎn)之間的關(guān)聯(lián)性也逐漸減小,直至關(guān)聯(lián)性完全消失。另外,根據(jù)線性代數(shù)運(yùn)算可以看出,k-shift圖矩陣為1-shift 圖矩陣的多項(xiàng)式組合,因此k-shift 圖矩陣定義的“圖頻率域”與傳統(tǒng)頻率域非常相似,無(wú)法體現(xiàn)出圖信號(hào)處理對(duì)信號(hào)良好的適應(yīng)性。
在DSP 理論中,傅里葉變換矩陣DFTN可以表示為
U是A的特征向量。由于λk是一個(gè)復(fù)數(shù),且A為一個(gè)實(shí)矩陣,因此U必須為復(fù)數(shù)矩陣。因此我們?cè)O(shè)ui=ai+jbi,則有
通過(guò)矩陣運(yùn)算可以得到
因此,可以得出
在此關(guān)系式中存在a1,…,an,b1,…,bn這2N個(gè)未知數(shù),但只有2N-2 個(gè)方程,特征向量本應(yīng)由兩個(gè)基礎(chǔ)解系構(gòu)成線性組合,即
但考慮到a1,…,an,b1,…,bn存在如下關(guān)系
因此,特征向量U可改寫為
在GSP 理論中,U被稱為GFT 基向量矩陣。由于傅里葉變換矩陣DFT∈U,可以證明,DFT是GFT在one-shift 圖情況下的一種特殊情況[19],如圖4所示。
通過(guò)特征分解或Jordan 分解等方法,可以對(duì)鄰接矩陣進(jìn)行對(duì)角化,從而深入研究信號(hào)的圖頻率域特性。由于本文中采用的圖鄰接矩陣Amenory是對(duì)稱矩陣,因此可以對(duì)Amenory直接進(jìn)行特征分解,即
其中,Λ=diag[λ0,λ1,…,λN-1]表示特征值矩陣,λi稱為信號(hào)的圖頻率。ξ=[v0,v1,…,vN-1]為Amenory的對(duì)角化矩陣,其中vi與λi相關(guān)聯(lián)。由于ξ是一個(gè)滿秩矩陣,其列向量可以作為空間的基向量。因此,圖傅里葉變換矩陣Θ可表示為
其中,gi表示GFT 矩陣的第i個(gè)N維基向量。利用GFT矩陣Θ可以將長(zhǎng)度為N的一幀語(yǔ)音圖信號(hào)sG變換至圖頻域,得到其圖頻譜為
譜熵是一種常用于端點(diǎn)檢測(cè)的頻域特征參數(shù),根據(jù)語(yǔ)音信號(hào)的頻域能量分布可以得到譜熵值H[20]:
其中,H(m)是第m幀的譜熵值,P(l,m)是第m幀中第l個(gè)頻點(diǎn)的概率值?;谧V熵的端點(diǎn)檢測(cè)方法是利用語(yǔ)音信號(hào)的頻譜更有組織性(即相關(guān)性強(qiáng)),而背景噪聲如白噪聲的頻譜更加散亂(即相關(guān)性弱)的特點(diǎn),從而得到不同的譜熵值,進(jìn)而對(duì)語(yǔ)音段與非語(yǔ)音段加以區(qū)分。
根據(jù)2.1的相應(yīng)理論,可以由語(yǔ)音信號(hào)s得到語(yǔ)音圖信號(hào)sG,其中索引G=(V,ε,Amenory)。對(duì)于一幀含噪語(yǔ)音圖信號(hào)sG通過(guò)公式(15),可得
其中,sG(n,m)是第m幀第n點(diǎn)的圖信號(hào)值,gk(n)是GFT 矩陣第k個(gè)列向量的第n個(gè)元素表示sG對(duì)應(yīng)圖頻信號(hào)中第m幀λk對(duì)應(yīng)的分量。根據(jù)(17)可以得到信號(hào)的圖頻譜。
通常來(lái)說(shuō),利用圖子帶能量概率分布可以求出每一幀對(duì)應(yīng)的譜熵值。但是,譜熵作為一種統(tǒng)計(jì)特征,只能反應(yīng)其頻譜分布的部分情況。即使是分布不同的兩組頻譜,也可能求出一致的譜熵,因此需要對(duì)這種情況加以區(qū)別。參照文獻(xiàn)[18],將圖子帶附近的能量變化作為權(quán)重參數(shù)Ω。
其中
Ω(l,m)表示第m幀中第l個(gè)圖有效子帶的權(quán)重,D[?]表示三個(gè)臨近頻點(diǎn)概率的方差。根據(jù)公式(11)、(12)和(13)可以求得對(duì)應(yīng)的圖自適應(yīng)子帶譜熵HGABSE。
圖自適應(yīng)子帶譜熵實(shí)現(xiàn)了語(yǔ)音與噪聲的區(qū)分,仍需要通過(guò)門限值來(lái)進(jìn)行進(jìn)一步判定。參照文獻(xiàn)[18]提出檢測(cè)方法,我們?cè)O(shè)置對(duì)應(yīng)的圖自適應(yīng)閾值
其中,α為實(shí)驗(yàn)預(yù)設(shè)參數(shù),取值為1。μ和σ根據(jù)公式(27)~(30)自適應(yīng)更新。
其中,β為實(shí)驗(yàn)預(yù)設(shè)參數(shù),取值為0.2。
在利用門限判決得到起始幀與終止幀后,將起始幀的第一個(gè)端點(diǎn)與終止幀的最后一個(gè)端點(diǎn)分別作為語(yǔ)音的起點(diǎn)和終點(diǎn)。
通過(guò)計(jì)算的圖自適應(yīng)子帶譜熵HGABSE和圖自適應(yīng)門限可以對(duì)語(yǔ)音信號(hào)進(jìn)行端點(diǎn)檢測(cè),具體的檢測(cè)方法如圖5所示。
為客觀測(cè)試提出的圖信號(hào)對(duì)語(yǔ)音的適應(yīng)性與GABSE 算法的性能,本文采用DARPA TIMIT Acoustic-phonetic Continuous Speech Corpus(TIMIT)語(yǔ)音庫(kù)作為語(yǔ)音素材,并選取Standard noise NOISEX-92 library數(shù)據(jù)庫(kù)作為噪聲素材。實(shí)驗(yàn)中語(yǔ)音的采樣率為8 kHz,幀長(zhǎng)選取為128 個(gè)樣點(diǎn),選取的單個(gè)語(yǔ)音素材時(shí)長(zhǎng)均為3 s。本文中生成的含噪信號(hào)的方法為,根據(jù)預(yù)設(shè)信噪比以及信號(hào)功率計(jì)算噪聲方差,進(jìn)而對(duì)噪聲幅度縮放,并與純凈語(yǔ)音疊加。
我們從TIMIT語(yǔ)音庫(kù)中選取一段純凈的語(yǔ)音信號(hào)并分出濁音幀、過(guò)渡幀和清音幀,并從NOISEX-92數(shù)據(jù)庫(kù)中選取白噪聲,分別進(jìn)行圖傅里葉變換得到其圖頻譜如圖6所示。
將圖6(b)和(c)、(e)和(f)、(h)和(i)分組對(duì)比可以看出,語(yǔ)音信號(hào)濁音幀和過(guò)渡幀的圖頻譜比起傳統(tǒng)頻譜更加集中在信號(hào)的低頻部分,而清音幀更加集中在信號(hào)的高頻部分,從而使得信號(hào)在圖頻域具有更強(qiáng)的組織性。而從(k)和(l)可以看出,白噪聲在圖頻域的分布與傳統(tǒng)頻域的分布相接近。而決定譜熵的差異性最主要的因素是語(yǔ)音信號(hào)和噪聲的頻域分布特點(diǎn)差異,因此在圖頻率域中純凈語(yǔ)音信號(hào)和噪聲信號(hào)的譜熵差異較傳統(tǒng)頻域更大,從而可以使以圖譜熵為特征參數(shù)容易區(qū)別出語(yǔ)音段和非語(yǔ)音段。
為檢驗(yàn)GABSE算法是否具有良好性能,我們參照文獻(xiàn)[18]在安靜的環(huán)境下錄制了一段語(yǔ)音,內(nèi)容為“eight”,并加入NOISEX-92數(shù)據(jù)庫(kù)中的volvo噪聲和machinegun 噪聲,其信噪比為5 dB,更多SNR 情況在后續(xù)實(shí)驗(yàn)中分析。將GABSE 算法得到的譜熵值與文獻(xiàn)[18]中的ABSE 算法得到的譜熵值進(jìn)行對(duì)比,可以得到如圖7所示的結(jié)果。
圖7(a)和(b)分別為加入volvo 噪聲和machinegun 噪聲的含噪語(yǔ)音時(shí)域圖,(c)和(d)、(e)和(f)分別為兩組含噪語(yǔ)音在ABSE 算法與GABSE 算法下的譜熵分布。對(duì)比(c)和(e)、(d)和(f)可以看出,ABSE 算法在噪聲段仍然會(huì)存在相當(dāng)大的譜熵值,會(huì)與語(yǔ)音段譜熵產(chǎn)生混淆造成誤判。而GABSE 算法在非語(yǔ)音段的圖譜熵相當(dāng)小而且平穩(wěn),與語(yǔ)音段圖譜熵差別較大,有利于語(yǔ)音的端點(diǎn)檢測(cè)。
公式(3)中的遺忘因子為重要的實(shí)驗(yàn)參數(shù),為體現(xiàn)出參數(shù)的合理性,將遺忘因子由0.1 到1 逐漸增加,步長(zhǎng)設(shè)置為0.1,測(cè)試不同遺忘因子下的檢測(cè)準(zhǔn)確率。實(shí)驗(yàn)采用TIMIT 語(yǔ)音庫(kù)中的100 句語(yǔ)音,其中包含50 句男聲和50 句女聲,累計(jì)語(yǔ)音時(shí)長(zhǎng)為5 分鐘,另外噪聲源選取NOISEX-92 噪聲庫(kù)中的白噪聲,信噪比設(shè)置為5 dB,具體的實(shí)驗(yàn)結(jié)果如圖8所示。
從圖8 中可以看出遺忘因子為0.8 和0.9 時(shí)信號(hào)的識(shí)別效果最佳,同時(shí)取值0.8 可以使關(guān)聯(lián)性參數(shù)衰減的更快,使圖矩陣更加稀疏,提高運(yùn)算效率。
為測(cè)試GABSE 算法的端點(diǎn)檢測(cè)性能,我們從TIMIT 語(yǔ)音庫(kù)中選取了100 條語(yǔ)音,其中包含50 句男聲和50 句女聲,累計(jì)語(yǔ)音時(shí)長(zhǎng)為5 分鐘。另外噪聲源選取白噪聲、factory 噪聲和babble 噪聲這三種噪聲。為了與實(shí)際場(chǎng)景更加吻合,實(shí)驗(yàn)中將含噪語(yǔ)音信號(hào)的信噪比設(shè)置為-15至15 dB,以5 dB為間隔。為了測(cè)試語(yǔ)音端點(diǎn)檢測(cè)的準(zhǔn)確率,參考文獻(xiàn)[18]端點(diǎn)檢測(cè)的自適應(yīng)方法,并對(duì)每一條語(yǔ)音的起止點(diǎn)進(jìn)行手動(dòng)標(biāo)記,用以與檢測(cè)結(jié)果進(jìn)行比對(duì)。將基于GABSE 算法的語(yǔ)音端點(diǎn)檢測(cè)方法的準(zhǔn)確率與文獻(xiàn)[18]中基于ABSE 算法的語(yǔ)音端點(diǎn)檢測(cè)方法、文獻(xiàn)[21]中的rVAD 方法的檢測(cè)準(zhǔn)確率對(duì)比,結(jié)果如圖9、圖10、圖11所示。
圖9、圖10、圖11 分別是white 噪聲、babble 噪聲與factory 噪聲三種噪聲下-15 至15 dB 含噪語(yǔ)音信號(hào)的起點(diǎn)與終點(diǎn)的檢測(cè)準(zhǔn)確率,其中start 和end 分別表示語(yǔ)音段的起點(diǎn)和終點(diǎn)。
從圖9 中可以看出,在不同信噪比的平穩(wěn)噪聲下,GABSE 算法的檢測(cè)準(zhǔn)確率相較于傳統(tǒng)ABSE 算法平均高出約12%。相較于rVAD 方法,GABSE 算法的檢測(cè)準(zhǔn)確率平均高出約20%。由于圖譜熵是根據(jù)信號(hào)在圖頻率域的概率分布計(jì)算得到的,圖譜熵值與信號(hào)的概率分布有關(guān)系,而白噪聲在圖頻率域是接近均勻分布的,所以得到的圖譜熵值較其他種類的噪聲更大,因此與語(yǔ)音段的差別更大,識(shí)別的效果遠(yuǎn)好于rVAD方法。
從圖10 與圖11 中可以看出,在不同信噪比的非平穩(wěn)噪聲下,GABSE 算法的檢測(cè)準(zhǔn)確率相較于傳統(tǒng)ABSE 算法平均高出約8%。相較于rVAD 方法,GABSE 算法的檢測(cè)準(zhǔn)確率平均高出約15%。由于非平穩(wěn)噪聲相較于白噪聲又具有組織性,因此圖譜熵值更小,與語(yǔ)音段的差別有所減小,因此性能也有所下降。
綜上實(shí)驗(yàn)結(jié)果可以體現(xiàn)出本文設(shè)計(jì)的GABSE算法具有更好的性能,同時(shí)也體現(xiàn)了本文提出語(yǔ)音圖結(jié)構(gòu)的有效性和魯棒性。此外,起點(diǎn)的檢測(cè)準(zhǔn)確率通常高于終點(diǎn)的檢測(cè)準(zhǔn)確率,這是由于純凈語(yǔ)音素材在前幾十毫秒時(shí)間里往往處于寂靜幀,純?cè)肼晭c起始的語(yǔ)音幀往往差別較大。而在語(yǔ)音段部分幀可能與噪聲幀較為類似,從而造成對(duì)語(yǔ)音信號(hào)終點(diǎn)的誤判,最終導(dǎo)致語(yǔ)音起點(diǎn)的檢測(cè)準(zhǔn)確率較高。
本文提出了一種遺忘圖拓?fù)浣Y(jié)構(gòu),并利用基于遺忘圖拓?fù)浣Y(jié)構(gòu)的圖鄰接矩陣的所定義的GFT 將語(yǔ)音信號(hào)映射至圖頻率域,根據(jù)圖頻率域?qū)儍粽Z(yǔ)音信號(hào)與噪聲信號(hào)的圖譜特性分布,有效的在圖頻率域?qū)儍粽Z(yǔ)音信號(hào)與噪聲信號(hào)進(jìn)行了區(qū)分。此外,本文還提出基于GABSE 的語(yǔ)音端點(diǎn)檢測(cè)方法,將圖譜熵代替?zhèn)鹘y(tǒng)譜熵作為特征參數(shù),有效的對(duì)語(yǔ)音段和非語(yǔ)音段進(jìn)行了區(qū)分。最后,通過(guò)實(shí)驗(yàn)仿真可以看出基于GABSE 的語(yǔ)音端點(diǎn)檢測(cè)方法優(yōu)于傳統(tǒng)的基于ABSE 的語(yǔ)音端點(diǎn)檢測(cè)方法及rVAD 語(yǔ)音端點(diǎn)檢測(cè)方法。相較于基于ABSE 的語(yǔ)音端點(diǎn)檢測(cè)方法,基于GABSE的語(yǔ)音端點(diǎn)檢測(cè)方法在平穩(wěn)噪聲下檢測(cè)準(zhǔn)確率提高了12%,在非平穩(wěn)噪聲下檢測(cè)準(zhǔn)確率提高了8%。相較于rVAD 語(yǔ)音端點(diǎn)檢測(cè)方法,基于GABSE 的語(yǔ)音端點(diǎn)檢測(cè)方法在平穩(wěn)噪聲下檢測(cè)準(zhǔn)確率提高了20%,在非平穩(wěn)噪聲下檢測(cè)準(zhǔn)確率提高了15%。