項(xiàng) 羽,令曉明,2,郭亞龍
( 1.蘭州交通大學(xué) 光電技術(shù)與智能控制教育部重點(diǎn)實(shí)驗(yàn)室,蘭州 730070;2.蘭州交通大學(xué) 國家綠色鍍膜技術(shù)與裝備工程技術(shù)研究中心,蘭州 730070)
說話人分割聚類( Speaker Diarization)是語音處理的一個(gè)研究方向, 主要是作為一種前端處理技術(shù)在語音處理領(lǐng)域使用。 是將一段連續(xù)的語音數(shù)據(jù)按不同說話人分割成片段, 并給每段語音片段標(biāo)注上說話人的身份信息,以解決“ 誰在什么時(shí)候說”的問題[1]。 說話人分割聚類在眾多領(lǐng)域都有著廣泛的應(yīng)用,如在錄音軟件中,可以通過說話人分割聚類技術(shù)將錄音音頻的說話人及其說話時(shí)長標(biāo)注出來, 將其作為特征可以快速從眾多音頻中找到特定音頻;在會(huì)議場(chǎng)景中,結(jié)合說話人分割聚類技術(shù)和語音識(shí)別技術(shù)可以生成一份包含發(fā)言人身份信息的會(huì)議記錄,便于參會(huì)人員回顧會(huì)議內(nèi)容;作為語音領(lǐng)域的前端處理技術(shù),還可以提升后續(xù)語音處理系統(tǒng)的性能,如語音識(shí)別系統(tǒng)在說話人發(fā)生變化的時(shí)間點(diǎn)重置語音識(shí)別模型可以提高語音識(shí)別的準(zhǔn)確率。
最初的說話人分割方法是基于能量的[2],這種方法是假設(shè)在兩人對(duì)話話語之間存在一個(gè)靜默區(qū)域, 通過設(shè)定能量閾值檢測(cè)說話人轉(zhuǎn)換點(diǎn), 但是實(shí)際場(chǎng)景存在搶話現(xiàn)象導(dǎo)致分割結(jié)果并不理想。 目前比較主流的分割方法有2 種,分別是基于距離和基于模型的分割方法。 基于距離的分割方法不需要說話人的先驗(yàn)信息,但需劃定門限,魯棒性較差。 常用的距離度量有貝葉斯信息準(zhǔn)則( Bayesian Information Criterion,BIC)、 歸一化交叉似然比( Normalized Cross Likelihood Ratio,NCLR)、T-Test度量距離等[3]。 常用的說話人聚類方法是層次聚類,進(jìn)行層次聚類有2 種方法, 分別是自下而上和自上而下的方法[4],其中自下而上的方法魯棒性較差,而自上而下的方法區(qū)分性較差, 在分割聚類系統(tǒng)中自下而上的方法得到了更為廣泛的使用。
本文提出基于DS 證據(jù)理論多特征融合模型, 提取說話人的嵌入特征用于說話人分割聚類。 該模型相較于傳統(tǒng)單一特征或單一神經(jīng)網(wǎng)絡(luò), 說話人分割聚類系統(tǒng)性能得以提升。
完整的說話人分割聚類系統(tǒng)由預(yù)處理、有效語音檢測(cè)、說話人轉(zhuǎn)換點(diǎn)檢測(cè)、說話人聚類和二次分割幾部分組成,其示意圖如圖1 所示。
圖1 說話人分割聚類系統(tǒng)框圖
音頻信號(hào)如果直接輸入說話人分割聚類系統(tǒng),系統(tǒng)的性能會(huì)不理想。 因此在此之前需要對(duì)音頻信號(hào)進(jìn)行預(yù)加重、分幀、加窗等預(yù)處理,由此消除發(fā)聲器官本身和采集設(shè)備采集音頻所帶來的混疊、高次諧波失真、高頻等因素對(duì)音頻信號(hào)質(zhì)量的影響。
有效語音檢測(cè)的目的是將輸入的音頻信號(hào)中的語音與非語音分離,只保留說話人的語音信號(hào)用于后續(xù)的分割聚類,這里的非語音指的是靜音區(qū)域、環(huán)境噪音、背景音樂音效等。 有效語音檢測(cè)模塊的存在有助于后續(xù)模塊專注于處理音頻信號(hào)的語音部分,由此而提高系統(tǒng)的性能。
說話人轉(zhuǎn)換點(diǎn)檢測(cè)的目的是檢測(cè)出說話人變化的時(shí)間點(diǎn),再根據(jù)這個(gè)時(shí)間點(diǎn)將語音信號(hào)分割成片段,使其成為只包含一個(gè)說話人的音頻片段。 目前主流的分割方法有2 種,分別是基于距離和基于模型的方法。基于距離的方法是選取大小相同相鄰的2 個(gè)滑動(dòng)窗,計(jì)算2 個(gè)窗內(nèi)的特征分布之間的距離作為說話人分割的依據(jù),通過與預(yù)先設(shè)定的閾值或懲罰因子來進(jìn)行比較判斷2 個(gè)窗內(nèi)的語音是否來自同一說話人[5]?;谀P偷姆椒ㄊ菍?duì)語音建立起說話人模型,將語音分割成等長的短語音片段,使用建立的說話人模型對(duì)這些語音片段進(jìn)行分類,模型之間的邊界就是說話人的轉(zhuǎn)換點(diǎn)。 除此之外還有基于深度神經(jīng)網(wǎng)絡(luò)的方法,其基本思想是通過深度神經(jīng)網(wǎng)絡(luò)來確定當(dāng)前語音幀和說話人轉(zhuǎn)換點(diǎn)的相對(duì)位置,然后在所有語音幀中找到和理想的轉(zhuǎn)換點(diǎn)最匹配的語音幀作為說話人轉(zhuǎn)換點(diǎn)。 基于深度神經(jīng)網(wǎng)絡(luò)的方法相較于前2 種方法準(zhǔn)確率會(huì)更高,但是計(jì)算量會(huì)更大。
說話人聚類是將分割得到的語音片段按說話人的身份信息進(jìn)行聚類,類別的數(shù)量就是說話人的數(shù)量。常用層次聚類的方法進(jìn)行說話人聚類, 進(jìn)行層次聚類有自下而上和自上而下2 種方法。 自下而上的方法是將每段語音片段都當(dāng)作一類,然后計(jì)算所有類別之間的相似度,接著合并2 個(gè)相似度最高的2 個(gè)類別, 合并后重新計(jì)算新類之間的相似度, 重復(fù)迭代這一過程直到完成聚類輸出結(jié)果[6]。自上而下的方法是將所有語音片段當(dāng)成一個(gè)整體類別,然后增加類別并重新分配語音片段,不斷重復(fù)迭代直至達(dá)到目標(biāo)類別數(shù)。 除了層次聚類之外還可以使用譜聚類等聚類方法進(jìn)行說話人聚類, 譜聚類是通過距離矩陣和相似矩陣將聚類問題轉(zhuǎn)化為平面上的帶權(quán)無向圖的切分問題,使得切分得到的子圖之間的權(quán)重和最小,而每個(gè)子圖內(nèi)的權(quán)重和最大。
說話人聚類完成后就得到了說話人分割聚類的初步結(jié)果,但是得到的結(jié)果可能不夠理想。二次分割就是對(duì)片段的邊界及聚類結(jié)果進(jìn)行進(jìn)一步處理, 得到更佳的聚類結(jié)果。二次分割會(huì)帶來額外的計(jì)算量,而且只能用于離線的說話人分割聚類系統(tǒng),因此二次分割不是必須的。
DS 證據(jù)理論是由Dempster 提出并由Shafer 完善的不確定性推理計(jì)算方法[7],是一種廣泛應(yīng)用于決策融合和信息融合上的多數(shù)據(jù)融合方法,在多分類器融合、不確定性推理、多準(zhǔn)則決策等領(lǐng)域都得到了廣泛的應(yīng)用。
在DS 證據(jù)理論中識(shí)別框架是不確定性問題所有可能發(fā)生事件的集合[8],用Θ={A1,A2,…,An}來表示,Ai為識(shí)別框架Θ 的一個(gè)子集。 識(shí)別框架內(nèi)的子集兩兩之間相互排斥,其冪集用2Θ表示,表示的是所有可能的問題組合。
基本概率分布是DS 證據(jù)理論對(duì)識(shí)別框架中的每一種可能發(fā)生事件的結(jié)果都分配了概率。 基本概率分布配置函數(shù)稱為mass 函數(shù),常用m 來表示。對(duì)于2Θ中的任何命題A,mass 函數(shù)在識(shí)別框架的冪集2Θ滿足以下條件
式中:? 為空集,表示不可能發(fā)生的命題;m( A)為A 的基本概率分配函數(shù),反映了證據(jù)對(duì)命題A 的支持程度。
組合規(guī)則是DS 證據(jù)理論的核心,DS 證據(jù)理論的融合基本策略就是將多個(gè)獨(dú)立證據(jù)函數(shù)m1,m2,…,mi進(jìn)行正交運(yùn)算,用⊕表示組合運(yùn)算,則
2 個(gè)證據(jù)體Ai和Bi的合成公式可以表示為
同理,多證據(jù)體的情況計(jì)算公式為
式中:1/( 1-k) 為歸一化因子;n 為發(fā)生事件的個(gè)數(shù);k 反映了證據(jù)體之間沖突程度的大小,值越大,沖突程度越大,取值范圍為[0,1]。
原始的語音信號(hào)中有著大量的冗余信息,空間特征也較為復(fù)雜。 如果將原始的語音信號(hào)直接送入神經(jīng)網(wǎng)絡(luò)會(huì)導(dǎo)致網(wǎng)絡(luò)模型承擔(dān)額外的計(jì)算量,導(dǎo)致網(wǎng)絡(luò)訓(xùn)練的效果并不理想。 因此對(duì)原始語音信號(hào)進(jìn)行特征提取選取出具有代表的數(shù)據(jù)用于表征語音信號(hào)能減少包含的冗余信息,減輕網(wǎng)絡(luò)的負(fù)擔(dān),提高訓(xùn)練的效果。
本文選取了5 種聲學(xué)特征進(jìn)行組合,相較于單一特征能夠更加全面有效地表征語音信號(hào)。 這5 種特征分別是梅爾倒譜系數(shù)( Mel-scale Frequency Cepstral Coefficients,MFCC)、 對(duì)數(shù)梅爾頻譜( Logarithmic Mel Spectrum,Log-Mel)、 色度特征( Chroma)、 光譜對(duì)比度特征( Spectral Contrast)和調(diào)性網(wǎng)絡(luò)特征( Tonnetz)。 分別將MFCC 和Log-Mel 與其他3 種特征的譜圖垂直拼接得到MFCST 特征和LMCST 特征。 2 種組合特征的語譜圖如圖2 所示。
圖2 MFCST 與LMCST 語譜圖
在卷積神經(jīng)網(wǎng)絡(luò)中,隨著網(wǎng)絡(luò)層數(shù)的加深,提取的像素特征就越準(zhǔn)確。但是網(wǎng)絡(luò)層數(shù)并不是越多越好,過多的網(wǎng)絡(luò)層數(shù)會(huì)帶來訓(xùn)練過程中前傳信號(hào)和梯度信號(hào)的消失問題。 殘差網(wǎng)絡(luò)( ResNet)的出現(xiàn)解決了這一問題,ResNet 的核心是通過建立前層與后層之間的連接,可以實(shí)現(xiàn)訓(xùn)練過程中梯度的反向傳播,可以訓(xùn)練出更深的卷積神經(jīng)網(wǎng)絡(luò)。密集卷積網(wǎng)絡(luò)( DenseNet)是基于ResNet 思想提出的一種網(wǎng)絡(luò)結(jié)構(gòu),與ResNet 相比是一種更密集的連接方式,將所有層都相互連接起來。 DenseNet 的這種連接方式會(huì)使得當(dāng)前層的輸入來自于前面所有層的輸出,而不是僅僅只有前一層的輸出。這樣的方式充分利用了可用的特征信息,并對(duì)特征進(jìn)行重用,大大減少了訓(xùn)練模型所需的參數(shù)量,同時(shí)還減輕了網(wǎng)絡(luò)加深梯度消失的問題。
由于在現(xiàn)實(shí)環(huán)境中存在各種外界因素的干擾,采用單一神經(jīng)網(wǎng)絡(luò)進(jìn)行模型訓(xùn)練效果并不理想, 而基于DS證據(jù)理論的決策融合算法可以利用數(shù)據(jù)集訓(xùn)練不同的分類器進(jìn)行融合。 本文選取的網(wǎng)絡(luò)為DenseNet-121,將從語音數(shù)據(jù)提取到的2 種組合特征MFCST 和LMCST 分別作為2 個(gè)網(wǎng)絡(luò)的輸入, 從2 個(gè)網(wǎng)絡(luò)提取到softmax 層的輸出后,利用DS 證據(jù)理論進(jìn)行融合。 DS-DenseNet 網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。
圖3 基于DS 證據(jù)理論的網(wǎng)絡(luò)結(jié)構(gòu)
為了驗(yàn)證本文提出的基于DS 證據(jù)理論多特征融合模型的有效性,從SAM 語料庫[9]中抽取了18 000 個(gè)語音片段作為訓(xùn)練集,模型在AVA 數(shù)據(jù)集上進(jìn)行測(cè)試。 對(duì)聲音片段進(jìn)行分幀處理,重疊率為87.5%。 利用Python 的librosa 庫 提 取MFCC、Log-Mel、Chroma、Spectral Contrast 和Tonnetz 特征。 為了研究特征維數(shù)的影響,組合特征分別使用了24 維、32 維和64 維的MFCC、Log-Mel 與8 維的Chroma、16 維的Tonnetz 和8 維的Spectral Con trast 進(jìn)行拼接,將拼接組合特征MFCST 和LMCST 輸入到網(wǎng)絡(luò)中,用于提取說話人的嵌入特征,提取到說話人的特征序列之后進(jìn)行層次聚類得到說話人分割聚類的結(jié)果。
為了評(píng)估系統(tǒng)的性能,采用說話人分割聚類錯(cuò)誤率( Diarization Error Rate,DER) 作為系統(tǒng)的評(píng)價(jià)指標(biāo),其定義如下
DER=MSR+FASR+Speaker Error,
式中:MSR 為漏警, 表示有效語音部分被誤判為非語音部分的比例;FASR 為虛警,表示非語音的部分被誤判為有效語音部分;Speaker Error 表示說話人分類錯(cuò)誤,表示原來屬于某個(gè)說話人的語音被誤判為另一說話人語音的比例。這3 種錯(cuò)誤來源于說話人分割聚類的不同步驟,MSR 和FASR 是有效語音檢測(cè)模塊產(chǎn)生的錯(cuò)誤,而Speaker Error 是說話人轉(zhuǎn)換點(diǎn)檢測(cè)和說話人聚類產(chǎn)生的錯(cuò)誤。
為了將組合特征與單特征進(jìn)行性能比較,首先使用了24 維的MFCC、Log-Mel 與其他3 種特征的組合,將單MFCC、Log-Mel 與2 種組合特征輸入DenseNet 網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)( 表1)。
表1 單特征與組合特征的DER
由表1 可知,組合特征相較于單特征用作網(wǎng)絡(luò)的輸入,在相同條件下能夠得到更為準(zhǔn)確的結(jié)果。為了測(cè)試進(jìn)行DS 理論融合結(jié)果及特征維度的影響, 分別將24 維、32 維和64 維的MFCC、Log-Mel 與其他3 種特征進(jìn)行組合,用于DS-DenseNet 的輸入進(jìn)行實(shí)驗(yàn)( 表2)。
表2 DS-DenseNet 下不同維度特征的DER
通過與表1 對(duì)比, 可以發(fā)現(xiàn)進(jìn)行DS 融合后系統(tǒng)的性能得到了提升,并且在本文選用的3 種特征維度中,32維的特征維度取得了最好的結(jié)果。
本文提出基于DS 證據(jù)理論多特征融合模型的說話人分割聚類提高了分割聚類系統(tǒng)的性能。 與單一特征相比,2 種組合特征的系統(tǒng)準(zhǔn)確率得到了提升,將2 種組合特征使用DS 證據(jù)理論進(jìn)行融合后再作為分割聚類系統(tǒng)的輸入能進(jìn)一步提升系統(tǒng)的精度。 特征維度也對(duì)系統(tǒng)性能有一定影響, 其中在本文選取的3 種特征維度中,32維取得了最高的精度。