哈爾肯別克·木哈西 鐘 珞 達瓦·伊德木草
1(武漢理工大學計算機科學與技術學院 湖北 武漢 430070)2(新疆大學多語言技術重點實驗室 新疆 烏魯木齊 830046)
用說話人相似度i-vector的非負值矩陣分解說話人聚類
哈爾肯別克·木哈西1鐘 珞1達瓦·伊德木草2
1(武漢理工大學計算機科學與技術學院 湖北 武漢 430070)2(新疆大學多語言技術重點實驗室 新疆 烏魯木齊 830046)
基于貝葉斯或者全貝葉斯準則的說話人自動聚類或者識別方法,主要采取重復換算全發(fā)話語音段的相似量度,再組合相似性較大的語音片段實現(xiàn)說話人的聚類。這種方法中如果發(fā)話語音片段數(shù)越多,組合計算時間就越長,系統(tǒng)實時性變差,而且各說話人模型用GMM方法建立,發(fā)話語音時間短暫時GMM的信賴性降低,最終影響說話人聚類精度。針對上述問題,提出引用i-vector說話人相似度的非負值矩陣分解的高精度快速說話人聚類方法。
說話人分割及聚類 非負值矩陣分解i-vectorGMM電話語音
隨著信息技術和存儲技術的發(fā)展,音頻數(shù)據(jù)量呈現(xiàn)爆炸式增長。面對如此海量數(shù)據(jù),人們迫切希望能準確快速搜索到需要的信息,因而對相關語音技術的需求也與日俱增。會議講演(語音)的有聲記錄,或者為國家安全、社會穩(wěn)定、犯罪嫌疑人追蹤控制、身份確認以及加強反腐力度等目的,錄制保留的多人長時間說話語音數(shù)據(jù)媒體規(guī)模逐年增多[1]。在這種大規(guī)模音頻文件中自動提取(誰在說話、什么時間說話、說了什么等)不同發(fā)話人,不同時間及不同內(nèi)容的話語信息需要進行自動分析分割,并進行數(shù)字化整理,作為有聲數(shù)據(jù)資源管理。多說話人識別技術的目的是在上述某種音頻文件中分割出或者分類出不同的說話人技術。和傳統(tǒng)的說話人識別技術相比,多說話人識別技術不僅能夠分割出不同的說話者,而且還能判斷每個說話人發(fā)話時間及內(nèi)容。它是說話人識別技術的一種延伸。
針對基于貝葉斯信息準則(BIC)的說話人分割算法[2-3]對語音信號的分布估計較粗糙的缺點,以及高斯混合模型GMM說話人模型在發(fā)話時間短暫時信賴性底等問題,提出基于非負值矩陣分解NMF(Non-negative Matrix Factorization)的、引用i-vector說話人相關性模型組合方法的、高精度快速分割或聚類說話人方案。該方案主要利用i-vector說話人向量間的距離,計算相似量度,生成說話人相似矩陣,將K均值算法的聚類結果作為NMF的初始因子矩陣,并對超圖的鄰接矩陣進行NMF,獲得基矩陣和系數(shù)矩陣;最后根據(jù)系數(shù)矩陣獲得最終的聚類結果。由于抽出i-vector作為知識事先利用大量的實驗數(shù)據(jù),因此相比于GMM,i-vector方法不受發(fā)話語音短暫的影響。另外由于i-vector方法很難受到聲道的影響、可以作為有效的說話人特征量使用[4-5]。
2014年,在說話人識別(也稱聲紋識別)領域的國際頂級會SpeakerOdyssey2014專家學者報告討論表明,i-vector已是說話人識別的主流技術,成為其他算法的參照標準。洪青陽介紹了國內(nèi)把i-vector說話人識別技術率先應用到公安部聲紋識別行業(yè)中大幅度提高了系統(tǒng)識別的效率情況報告[6]。栗志意等學者報告了系統(tǒng)融合以及對未知數(shù)據(jù)的聚類和自適應提升性能的有效方法[7]。Tawara等學者提出的狄利克雷分布過程混合模型全貝葉斯準則的說話人自動聚類或者識別的新嘗試也受到了研究人員的關注[8]。
2.1 非負值矩陣分解
NMF法是把非負值矩陣V分解為基底矩陣W和系數(shù)矩陣H的方法。即:
V?WH
(1)
式中W、H分別通過Kullback-Leibler[9]信息量(簡稱K-L信息量)D(q‖p)獲取。它表示對于真分布q推測出分布p,距離q的偏離程度。如果這兩個分布是一致的,那么偏離程度為0。要確定W和H,可以假設:當推測分布設為WH,而真分布設為V時,K-L信息量由式(2)定義:
(2)
再經(jīng)過式(3)和式(4)的更換,可以獲得式(2)的最小化方程,即:
(3)
(4)
其中,Vij、Hij、Wij分別表示矩陣V、W及H的第i行j列元素。
2.2 說話人聚類方法
基于NMF法的說話人聚類是分解發(fā)話語音片段間的相似量度U×U矩陣V而實現(xiàn)的[10]。這里U為語音片段總數(shù)。如圖1所示,相似矩陣(similarity)可以分解成基底矩陣W(basis)和系數(shù)矩陣H(activation)的乘積。其中矩陣W為R×U類的基底矩陣,其各列表示各說話人;矩陣H也是R×U矩陣,其行表示對于各語音片段對應的說話人比重;R為類數(shù)。按照說話人的不同,首先從矩陣H中選出比重較大的語音片段,然后將相同說話人的語音片段聚類在一起,實現(xiàn)說話人聚類。
圖1 NMF方法說話人聚類示意圖
在本節(jié)討論說話人建模以及通過說話人模型算出說話人間的相似量度方法。也就是,在多說話人語音流文件中生成各發(fā)話語音片段所表現(xiàn)的說話人模型,計算語音片段間的相似量度。本節(jié)討論常見基于GMM的說話人模型的交叉似然比CLR(CrossLikelihoodRatio) 距離的建模聚類方法和利用i-vector說話人模型余弦算相似量度建模聚類方法。
3.1 基于GMM的說話人建模
對于各發(fā)話語音片段,經(jīng)優(yōu)化學習法建GMM說話人模型。GMM的概率密度p(x|λ)由下式算出:
(5)
(6)
3.2 基于CLR方法的說話人相似量度計算
CLR方法可以通過兩個GMM參數(shù)的對數(shù)似然密度比算出。因為GMM兩個似然密度相近時CLR取值為零。因此,CLR可以作為說話人間的距離尺度。基于NMF的聚類方法是利用相似度矩陣法,可以取CLR的倒數(shù)變換算出相似量度。第i個和第j個語音片段的CLR可以通過下式算出,即:
(7)
(8)
3.3 基于i-vector的說話人相似度計算
常見UBM(Universalbackgroundmodel)方法[12]對于不特定說話人全部特征空間概率模型,利用多說話人在不同內(nèi)容的話語,在不同說話環(huán)境以及不同實驗條件下收集整理的大量語音數(shù)據(jù)學習GMM混合參數(shù)建模。而i-vector法是對于上述語音流按語音片段從UBM獲取話語依存UBM超級向量、再通過維數(shù)壓縮的方法獲得向量,既稱為i-vector。這種話語依存GMMm(u)超級向量可以表示為:
m(u)=m+Tw(u)
(9)
式(9)中,w(u)代表i-vector。m(u),m分別表示話語依存GMM和UBM超級向量、而T為部分空間映射矩陣。一般對i-vector實施FLDA分解(Fisherlineardiscriminantanalysis)法消除參數(shù)聲道影響。
3.4 基于余弦相似量度的說話人相似度計算
兩個向量間的相似性常用余弦相似量度尺度測量[13]。因此,該文中兩個語音片段i-vector間的相似性通過余弦相似量度獲取。因為余弦尺度取值范圍在-1到+1之內(nèi),而NMF(非負值矩陣)只能取正數(shù)。所以,本研究中對于余弦相似量度向量進行下式變換,再實施NMF法。即:
(10)
針對NMF方法的說話人聚類實驗,為便于比較,本文分別利用常見GMM方法和i-vector生成相似量度矩陣,通過兩種實驗進行討論。
4.1 實驗條件及數(shù)據(jù)
本次多說話人聚類實驗選用新疆大學多語言信息技術重點實驗室開發(fā)的100個人電話語音錄用數(shù)據(jù),從中選用50個發(fā)話人數(shù)據(jù)[14-16]。其中,男女性分別為25人,每人在不同時間段發(fā)話5次、每次發(fā)話語音片段長度5~10秒時間不等。特征量為12維的MFCC參數(shù),幀長25ms,周期10ms。GMM用混合數(shù)設定8。
4.2 實驗評估方法
本次試驗結果的評估,我們采用各語音片段追加說話人標簽,取標簽平均聚類純度ACP(averageclusterpurity)及平均說話人純度ASP(averagespeakerpurity)的幾何K均值進行評估。
假設ST為實際發(fā)話人數(shù),S為說話人類數(shù),nij為發(fā)話人j在全發(fā)話語音中分配到第i個說話人類的發(fā)話語音數(shù),nj為發(fā)話人j的全發(fā)話數(shù),ni為分配到說話人i類的發(fā)話數(shù),U表示發(fā)話總數(shù)時,類純度pi和說話人純度qj分別由式(11)算出,即:
(11)
類純度表示,對各類分配到的發(fā)話語音中屬于同一個說話人的比例,而說話人純度表示,每個發(fā)話人所發(fā)話語音中屬于同一個類的發(fā)話語音比例。這樣,平均類純度VACP及平均說話人純度VASP分別表示為:
(12)
因此,ACP和ASP的幾何K均值設定為:
(13)
4.3 實驗結果
本次試驗結果如圖2所示。
圖2 GMM-CLR及-vector-COS相似度獲取說話人聚類的比較
從圖2可以看出,用i-vector-COS余弦相似量度生成相似矩陣所獲得的實驗效果明顯好于用CLR方法生成相似矩陣的效果。為了便于比較,圖3中顯示了上述實驗中追加標簽的10個說話人在不同實驗過程中聚類效果。
圖3 GMM-CLR及提按方法說話人聚類結果演示
從演示結果可以觀察到,各語音片段在不同類中分配聚類實況。其中每個矩形圖表示各說話人發(fā)話語音片段,橫坐標代表各發(fā)話語音片段聚類的正確說話人標簽,而縱坐標代表推測出的說話人標簽。從圖3可以觀察到,在GMM-CLR試驗中,同一個說話人發(fā)話語音片段被分配到多個類中,而采用i-vector-Cos聚類試驗中同一個說話人的發(fā)話語音基本上被正確地分配到同一個類中。因此,可以肯定本文提出的NMF算法及i-vector組合方法運行高效,并且獲得了比其他常見的聚類集成算法更加優(yōu)越的結果。
針對小規(guī)模語音實驗數(shù)據(jù),對基于NMF(非負值矩陣分解)方法的說話人聚類中導入i-vector說話人相似度模型,實現(xiàn)短暫發(fā)話語音能夠獲取高速并高精度的說話人聚類方法。并探討了常見基于CLR相似量度矩陣算法說話人聚類與基于i-vector相似量度矩陣的說話人聚類方法,再利用K均值法對系統(tǒng)性能進行了比較評估。實驗結果顯示,i-vector說話人相似矩陣模型及NMF算法組合方法不僅可以獲得高精度說話人聚類效果,而且對于數(shù)據(jù)變動也具有較強魯棒性。
進一步擴大實驗人數(shù)以及實驗數(shù)據(jù)環(huán)境,確認提出方法對于無限說話人分割及聚類的推測效果是后期研究工作重點。
[1]NishidaM,IshigawaY,YamamotoS.SpeakerDiarizationBasedonNon-negativeMatrixFactorizationinMulti-partyConversations[J].SLP,2011,85(7):1-6.
[2] 伊·達瓦,吾守爾·斯拉木,匂坂芳典.LPC及F0參數(shù)組合基于GMM電話語音說話人識別[J].中文信息學報,2011,25(4):105-109.
[3]KanagasundaramA,VogtR,DeanD,etal.i-vectorbasedspeakerrecognitiononshortutterances[C]//12thAnnualConferenceoftheInternationalSpeechCommunicationAssociation(ISCA),2011:2341-2344.
[4]GeigerJ,WallhoffF,RigollG.GMM-UBMbasedopen-setonlinespeakerdiarization[C]//11thAnnualConferenceoftheInternationalSpeechCommunicationAssociation(ISCA),2010:2330-2333.
[5] 伊·達瓦,匂坂芳典,中村哲.語料資源缺乏的連續(xù)語音識別方法的研究[J].自動化學報,2010,36(4):550-557.
[6]JessenM.Currentdevelopmentsinforensicspeakeridentification[C]//Odyssey2010:TheSpeakerandLanguageRecognitionWorkshop,2010:378-394.
[7] 栗志意,張衛(wèi)強,何亮,等.基于總體變化子空間自適應的i-vector說話人識別系統(tǒng)研究[J].自動化學報,2014,40(8):1836-1840.
[8]TawaraN,WatanabeS,OgawaT,etal.SpeakerClusteringBasedonUtterance-OrientedDirichletProcessMixtureModel[C]//12thAnnualConferenceoftheInternationalSpeechCommunicationAssociation(ISCA),2011:2905-2908.
[9]WatanabeS,MochihashiD,HoriT,etal.Gibbissamplingbasedmulti-scalemixturemodelforspeakerclustering[C]//Proceedingsofthe2011IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP),2011:4524-4527.
[10] 達瓦·伊德木草,木合亞提·尼亞孜別克,吾守爾·斯拉木.語音技術在少數(shù)民族語言的應用研究[J].新疆大學學報(自然科學版),2014,31(1):88-96.
[11]MurtazaM,BSharifM,RazaM,etal.FaceRecognitionUsingAdaptiveMarginFisher’sCriterionandLinearDiscriminantAnalysis(AMFC-LDA)[J].TheInternationalArabJournalofInformationTechnology,2014,11(2):149-158.
[12] Dehak N,Kenny P J,Dehak R,et al.Front-End Factor Analysis for Speaker Verification[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(4):788-798.
[13] Ye J.Cosine similarity measures for intuitionistic fuzzy sets and their applications[J].Mathematical and Computer Modelling,2011,53(1/2):91-97.
[14] 武曉敏,達瓦·伊德木草,吾守爾·斯拉木.自然預料缺乏的民族語言連續(xù)語音識別[J].計算機工程,2012,38(12):129-131,135.
[15] 李曉陽,伊·達瓦,吾守爾·斯拉木,等.基于GMM-UBM/SVM的維吾爾語電話語音監(jiān)控系統(tǒng)[J].計算機應用與軟件,2012,29(1):46-48,77.
[16] Yidemucao D,Zhao Z,Silamu W.Sound scene clustering without prior knowledge[C]//2012 Chinese Conference on Pattern Recognition (CCPR),2012:613-621.
A SPEAKER CLUSTERING METHOD BASED ON NON-NEGATIVE MATRIX FACTORIZATION AND I-VECTOR OF SPEAKER SIMILARITY
Harhenbek Muhaxov1Zhong Lou1Dawa Idomucao2
1(SchoolofComputerScienceandTechnology,WuhanUniversityofTechnology,Wuhan430070,Hubei,China)2(KeyLaboratoryofXinjiangMulti-LanguageTechnology,XinjiangUnivrsity,Urumqi830046,Xingjiang,China)
Based on Bayesian or full Bayesian criterion, the speaker clustering or recognition method is mainly used to repeat the similarity measure of the whole utterance segment, and then combine the similar utterance segment to realize speaker clustering. In this method, if the number of utterance segment is increased, the combined computation time is longer and the system real-time property is worse. Moreover, the speaker model is established by GMM. The reliability of GMM is reduced when the speech time is short, which affects the accuracy of speaker clustering. Aiming at the above problems, this paper proposes a high-accuracy fast speaker clustering method based on non-negative matrix factorization and i-vectorofspeakersimilarity.
Speaker segmentation and clustering Non-negative matrix factorization I-vector GMM Telephone speech
2016-03-01。國家自然科學基金項目(61163030)。哈爾肯別克·木哈西,博士生,主研領域:語音信號處理。鐘珞,教授。達瓦·伊德木草,教授。
TP
ADOI:10.3969/j.issn.1000-386x.2017.04.028