• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于文本無關(guān)的話者識(shí)別技術(shù)綜述

      2016-03-22 14:09:37陳建濤陳維娜
      電腦知識(shí)與技術(shù) 2016年1期
      關(guān)鍵詞:模式匹配神經(jīng)網(wǎng)絡(luò)

      陳建濤++陳維娜

      摘要:基于文本無關(guān)的話者識(shí)別系統(tǒng)應(yīng)用前景廣闊,單一特征參數(shù)法往往難以完全反映說話人的個(gè)人語音特征,因此目前研究的重點(diǎn)在于多種特征相結(jié)合的方法。文本無關(guān)的話者識(shí)別技術(shù)的難點(diǎn)在于它對(duì)提取參數(shù)要求很高,不能局限于表征個(gè)體單方面的特征參量,因此要形成一個(gè)有效、可靠的多特征結(jié)合的系統(tǒng)是當(dāng)前研究的難點(diǎn)之一。

      關(guān)鍵詞:話者識(shí)別;模式匹配;文本無關(guān);神經(jīng)網(wǎng)絡(luò)

      中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)01-0189-03

      An Overview about the Text-independent Speaker-identification Technology

      Chen Jian-tao,CHEN Wei-na

      (Peoples Public Security University of China,Beijing 102623, China)

      Abstract: The application prospect of the text-independent speaker-recognition system is wide, and the single feature parameter method is often difficult to completely reflect the speaker's personal voice characteristics, so the focus of the current research lies in the combination of multiple features. The difficulty of the text independent speaker recognition technology is that it requires a high extraction parameters, and can not be confined to the characteristics of individual parameters, so it is difficult to form an effective and reliable system.

      Key words: speaker-identification; pattern matching; text-independent; neural network

      話者識(shí)別(speaker identification),在司法鑒定領(lǐng)域也被稱作語音同一認(rèn)定,是指通過比較特定說話人不同時(shí)間段發(fā)出的語音,從而判斷這些語音是否來自同一人的一種技術(shù)手段。[1]

      圖1 話者識(shí)別的一般流程

      話者識(shí)別技術(shù)根據(jù)被檢測(cè)語音和樣本語音內(nèi)容之間的關(guān)系可分為文本相關(guān)(Text-dependent)的話者識(shí)別技術(shù)和文本無關(guān)(Text-independent)的話者識(shí)別技術(shù)兩種。所謂文本相關(guān)是指在被檢測(cè)語音和樣本語音內(nèi)容完全一致的前提下進(jìn)行的話者識(shí)別;文本無關(guān)與文本相關(guān)相對(duì),是指不考慮被檢測(cè)語音與樣本語音內(nèi)容是否一致而進(jìn)行的話者識(shí)別方法。文本相關(guān)的話者識(shí)別技術(shù)是話者識(shí)別技術(shù)的起步階段,雖然簡(jiǎn)單而且誤識(shí)率低,但是在實(shí)際應(yīng)用中,受限制的因素較多,因此基于文本無關(guān)的話者識(shí)別技術(shù)就成為了話者識(shí)別領(lǐng)域中的研究的重點(diǎn)和應(yīng)用的熱點(diǎn)。話者識(shí)別系統(tǒng)一般包含語音信號(hào)輸入、預(yù)處理與數(shù)字化、特征提取、模式匹配和輸出結(jié)果等幾個(gè)模塊,圖1表示的是話者識(shí)別系統(tǒng)一般的流程圖。

      1 語音的特征參數(shù)

      在對(duì)人的發(fā)聲系統(tǒng)的發(fā)聲機(jī)理、聽覺系統(tǒng)的感知機(jī)理和語音信號(hào)的數(shù)學(xué)建模的研究基礎(chǔ)之上,文本無關(guān)話者識(shí)別技術(shù)研究過程中已使用過的特征參數(shù)主要包括以下三類:

      1.1基于發(fā)聲特性的特征參數(shù)[7]~[8]

      從法庭科學(xué)的角度來講,人的發(fā)音習(xí)慣是運(yùn)動(dòng)習(xí)慣的一種,屬于人的局部器官的協(xié)調(diào)運(yùn)動(dòng),這種運(yùn)動(dòng)習(xí)慣由聲帶、聲道和鼻、口、咽共振腔的生理結(jié)構(gòu)決定,而基于語音的短時(shí)譜提取出來的特征參數(shù)正好能反映不同人之間的這種生理結(jié)構(gòu)差異?;诎l(fā)聲特性的特征參數(shù)包括音強(qiáng)曲線、基音強(qiáng)度、共振峰強(qiáng)度和帶寬等。

      1.2基于聽覺特性的特征參數(shù)

      除了模擬人的發(fā)聲特性,通過模擬人耳聽覺特性也能夠提取出說話人語音的特征參數(shù),常見的主要是一些倒譜參數(shù),例如美尓倒譜系數(shù)(MFCC)和感知線性預(yù)測(cè)倒譜系數(shù)(LPCC)等,大量研究表明這類參數(shù)在文本無關(guān)的話者識(shí)別系統(tǒng)中能夠取得較好的效果。其中美尓倒譜系數(shù)(MFCC,Mel Frequency Cepstral Coefficients)MFCC參數(shù)是基于人的聽覺特性的臨界帶效應(yīng)[2],由于MFCC的計(jì)算要經(jīng)過濾波、取對(duì)數(shù)、作DCT變換等幾個(gè)過程,它的運(yùn)算量要比LPCC參數(shù)大,但是MFCC的魯棒性要強(qiáng)[9],對(duì)于較強(qiáng)的輔音和夾雜噪音的語音都有較強(qiáng)的識(shí)別度。王金明等人[3]通過驗(yàn)證發(fā)現(xiàn)基于LPCC參數(shù)的誤識(shí)率為10.9%,而基于MFCC參數(shù)的誤識(shí)率為8.8%,此外一階差分特征參數(shù)與原參數(shù)組合的系統(tǒng)性能優(yōu)于非組合型特征參數(shù)。

      1.3基于聲道參數(shù)模型的特征參數(shù)

      基于聲道參數(shù)模型的特征參數(shù)是指能夠客觀反映說話人聲道特性的一類參數(shù),常用的是線性預(yù)測(cè)倒譜系數(shù)及其派生參數(shù)(反射系數(shù)、對(duì)數(shù)面積比系數(shù)、自相關(guān)系數(shù)、線譜對(duì)參數(shù)等),線性預(yù)測(cè)倒譜系數(shù)及其派生參數(shù)能夠有效表現(xiàn)聲道特點(diǎn),是最有效的語音特征參數(shù)之一[11]。線性預(yù)測(cè)倒譜系數(shù)(LPCC,Linear Prediction Cepstrum Coefficient)[4] LPCC是由LPC系數(shù)推算得到的倒譜系數(shù),相對(duì)于LPC來說能夠較好地排除說話聲發(fā)音時(shí)的過激信息,通常只需要幾十個(gè)倒譜系數(shù)就能夠描述說話人語音的共振峰特性,能夠客觀地表現(xiàn)聲道的發(fā)聲特性。LPCC的推算流程如圖2所示。線性預(yù)測(cè)方法是建立在語音信號(hào)的相鄰采樣點(diǎn)之間具有很好的關(guān)聯(lián)性的基礎(chǔ)上的。研究表明不同人之間的相應(yīng)特征之間的距離要大,而同一人相應(yīng)特征之間的距離要小。

      圖2 LPCC參數(shù)的推算流程示意圖[12]

      寧飛[5]經(jīng)過對(duì)LPCC的數(shù)據(jù)進(jìn)行詳細(xì)分析,發(fā)現(xiàn)LPCC倒譜參數(shù)其實(shí)并不能完全表現(xiàn)不同說話人聲音之間的特異性,倒譜參數(shù)的前五分之一反映的是說話人的聲道特性,不同人之間差異度較小,不宜用于說話人識(shí)別,而倒譜參數(shù)的后五分之一主要反映說話人的聲門特征,個(gè)體特異性顯著,這類參數(shù)可以用于說話人識(shí)別。

      由于單一特征法通常不能完全反映說話人的個(gè)人特征,多種特征參數(shù)融合的方法應(yīng)運(yùn)而生。多特征法是融合多種語音特征參量進(jìn)行話者識(shí)別的方法,多特征融合的方法是在單特征法的基礎(chǔ)之上發(fā)展起來的,算法和框架的設(shè)計(jì)都要更為復(fù)雜,但多特征融合的方法對(duì)于文本無關(guān)的語音識(shí)別準(zhǔn)確率要明顯高于單特征法。例如朱堅(jiān)民等[6]提出了將MFCC特征和1/3倍頻程特征作為說話人語音的特征參數(shù),設(shè)計(jì)并實(shí)現(xiàn)了利用貝葉斯網(wǎng)絡(luò)進(jìn)行話者識(shí)別的方法,50人的樣本庫正確率可達(dá)100%。流程如圖3所示:

      圖3 基于貝葉斯網(wǎng)絡(luò)的話者識(shí)別方法流程圖[6]

      2話者識(shí)別的模型

      2.1模板匹配模型

      模板匹配是一種比較傳統(tǒng)的相似度計(jì)算與匹配方法,廣泛用于語音、圖片、文字和符號(hào)等各種模式識(shí)別領(lǐng)域。模板匹配的步驟:首先進(jìn)行特征矢量的歸一——即從樣本語音庫中提取出所需要的特征矢量,然后在測(cè)試階段用同樣的處理方法從待測(cè)語音中提取特征矢量,并與之前提取的樣本特征矢量進(jìn)行比較,進(jìn)而得出識(shí)別結(jié)果。在模板匹配方法中可以使用多種距離測(cè)度,常用的是馬氏距離和歐氏距離兩種。[13]~[14]總體來說,模板匹配方法抗噪能力較弱,上述兩種距離測(cè)度的變化會(huì)改變說話人的特征參數(shù),最終導(dǎo)致識(shí)別率下降。

      2.2矢量量化模型

      在圖像壓縮和語音壓縮等領(lǐng)域中矢量量化模型使用得比較多,它是將說話人語音中若干連續(xù)的特征參量取值分成一組,每組包含N個(gè)參數(shù),這樣就能夠?qū)崿F(xiàn)用N維向量表示一個(gè)說話人的語音特征的目的[15]。同樣,矢量量化模型也分為學(xué)習(xí)和推理兩個(gè)階段:矢量量化模型學(xué)習(xí)時(shí)使用的是類聚算法,把M個(gè)說話人的語音特征參數(shù)類聚成M類,得到M個(gè)碼本矢量;推理時(shí)先用同樣的方法得到待測(cè)說話人語音的特征矢量,然后將這說話人的特征矢量與原有的M個(gè)碼本矢量最小距離進(jìn)行累加,將累加和最小的說話人作為識(shí)別結(jié)果。圖4是一種基于VQ矢量量化模型的話者識(shí)別系統(tǒng)示意圖。使用矢量量化模型的優(yōu)點(diǎn)是數(shù)據(jù)量少、訓(xùn)練時(shí)間短,可以通過量化長(zhǎng)時(shí)語音特征參數(shù)統(tǒng)計(jì)信息來達(dá)到識(shí)別說話人的目的,同時(shí)還可以有效地進(jìn)行數(shù)據(jù)數(shù)據(jù)壓縮從而提高識(shí)別效率。

      圖4 基于VQ矢量量化模型的話者識(shí)別系統(tǒng)示意圖[16]

      2.3隱馬爾科夫模型(HMM)

      隱馬爾科夫模型(Hidden Markov Model)是使用描述狀態(tài)間轉(zhuǎn)移來描述特征變化過程的一種模型,人們?cè)谡f話時(shí)發(fā)出的語音特征是隨著時(shí)間不斷變化的,因此用隱馬爾科夫模型來描述語音的動(dòng)態(tài)特征是可行的。在做測(cè)試時(shí),將待測(cè)語音作為觀察值,把樣本語音模型作為隱含狀態(tài),測(cè)試待測(cè)語音在每個(gè)樣本語音模型下的條件概率,取條件概率最大的那個(gè)樣本語音模型作為待測(cè)語音模型識(shí)別結(jié)果。圖5是基于隱馬爾科夫模型的話者識(shí)別系統(tǒng)示意圖。

      圖5 基于HMM的話者識(shí)別系統(tǒng)示意圖[17]

      2.4高斯混合模型(GMM)

      用高斯定理的來分析說話人語音,每個(gè)人的語音特征在所有特征空間里都有一個(gè)特定的分布狀態(tài),這也和司法鑒定領(lǐng)域中關(guān)于語音的特異性的描述相一致,因此可以用語音特征的這種獨(dú)特的分布來描述說話人的語音模型。高斯混合模型(Gaussian Mixture Model)將說話人語音特征的高斯分布進(jìn)行線性組合,用這種組合的形式來表示不同說話人的語音特征在語音特征空間中的獨(dú)特分布狀態(tài),將最能產(chǎn)生測(cè)試語音特征的高斯分布模型所對(duì)應(yīng)的樣本語音作為識(shí)別結(jié)果。在訓(xùn)練過程中,為每個(gè)人的語音建立一個(gè)模型,對(duì)每個(gè)人的特征分布狀態(tài)進(jìn)行統(tǒng)計(jì),當(dāng)所有訓(xùn)練結(jié)束后,保存每個(gè)說話人語音所對(duì)應(yīng)的線性組合參數(shù);在識(shí)別過程中,將待測(cè)語音與樣本語音的參數(shù)進(jìn)行比對(duì),求出每個(gè)樣本語音與待測(cè)語音對(duì)應(yīng)的似然函數(shù),將最大似然函數(shù)所對(duì)應(yīng)的說話人作為識(shí)別結(jié)果[18]?;诨旌细咚鼓P偷脑捳咦R(shí)別系統(tǒng)的大體工作流程如圖6所示。

      圖6 基于GMM的話者識(shí)別系統(tǒng)示意圖

      2.5人工神經(jīng)網(wǎng)絡(luò)模型

      雖然參數(shù)模型和非參數(shù)模型方法都已經(jīng)在文本無關(guān)的話者識(shí)別技術(shù)中有所應(yīng)用,然而目前來說這些方法與人腦識(shí)別的效果差距依然是很大的。人工神經(jīng)網(wǎng)絡(luò)模型是指參照人腦神經(jīng)元思考問題的工作模式而建立的一種數(shù)學(xué)模型,使用這種模型能夠在一定程度上模擬人腦進(jìn)行話者識(shí)別的過程,因此人工神經(jīng)網(wǎng)絡(luò)模型為話者識(shí)別尤其是文本無關(guān)話者識(shí)別提供了一個(gè)新的、有效的途徑。人工神經(jīng)網(wǎng)絡(luò)模型應(yīng)用文本無關(guān)的話者識(shí)別技術(shù)領(lǐng)域中通常有兩種形式:一種是前向神經(jīng)網(wǎng)絡(luò),另一種是多層前向神經(jīng)網(wǎng)絡(luò)。前一種結(jié)構(gòu)、分類相對(duì)簡(jiǎn)單,因此應(yīng)用范圍相對(duì)較廣;而后一種網(wǎng)絡(luò)的原理是將單個(gè)神經(jīng)網(wǎng)絡(luò)進(jìn)行組合得到一個(gè)級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò),例如BP型神經(jīng)網(wǎng)絡(luò)和RBF型神經(jīng)網(wǎng)絡(luò),多層前向神經(jīng)網(wǎng)絡(luò)的話者識(shí)別系統(tǒng)具有較高的識(shí)別率,因此也逐漸應(yīng)用到了文本無關(guān)的話者識(shí)別領(lǐng)域[19]?;谌斯ど窠?jīng)網(wǎng)絡(luò)模型的話者識(shí)別系統(tǒng)采用相似程度來度量識(shí)別結(jié)果,陳全今等[10]引入對(duì)數(shù)似然率(LLR,Logarithm Likelihood Ratio)的概念,對(duì)檢材和樣本的相似程度進(jìn)行評(píng)分,具體方法是定義對(duì)數(shù)似然率

      [LLR=lnP(EHP)P(EHd)]

      其中E表示語音檢材語音與樣本語音出自同一人的后驗(yàn)概率;、分別表示將檢材語音與樣本語音出自同一人的先驗(yàn)概率,陳金全等將LLR的評(píng)分分為10個(gè)檔次,對(duì)應(yīng)10個(gè)不同的結(jié)論,如表1所示。

      表1 LLR評(píng)分的分檔

      使用LLR的優(yōu)點(diǎn)在于不僅能夠通過分檔量化得到檢材與樣本的相似或者差異程度,同時(shí)能驗(yàn)證LLR是否適用既定的檢材和樣本。

      目前基于人工神經(jīng)網(wǎng)絡(luò)模型的文本無關(guān)話者識(shí)別方法所面臨的難題在于,神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)會(huì)隨著待識(shí)別人群數(shù)量的變化而變化,分類器設(shè)計(jì)也要隨著反復(fù)的訓(xùn)練過程不斷改變。而且基于人工神經(jīng)網(wǎng)絡(luò)模型的說話人識(shí)別系統(tǒng)的訓(xùn)練時(shí)間會(huì)隨著待測(cè)人群數(shù)量的增大而呈指數(shù)增長(zhǎng)的趨勢(shì),所以從理論上來說,當(dāng)待測(cè)人群數(shù)量增大到一定數(shù)量級(jí)時(shí),這樣的系統(tǒng)無法在可接受的時(shí)間之內(nèi)完成話者識(shí)別任務(wù)的訓(xùn)練過程。解決這一問題的方法在于實(shí)現(xiàn)大功能的神經(jīng)網(wǎng)絡(luò)分解成若干個(gè)子功能的小神經(jīng)網(wǎng)絡(luò),再將這些小神經(jīng)網(wǎng)絡(luò)組合起來從而實(shí)現(xiàn)大網(wǎng)絡(luò)的功能。

      3 結(jié)語和展望

      基于文本無關(guān)的話者識(shí)別系統(tǒng)應(yīng)用前景廣闊,單一特征參數(shù)法往往難以完全反映說話人的個(gè)人語音特征,因此目前研究的重點(diǎn)在于多種特征相結(jié)合的方法。文本無關(guān)的話者識(shí)別技術(shù)的難點(diǎn)在于它對(duì)提取參數(shù)要求很高,不能局限于表征個(gè)體單方面的特征參量,因此要形成一個(gè)有效、可靠的多特征結(jié)合的系統(tǒng)是當(dāng)前研究的難點(diǎn)之一。此外,國內(nèi)外諸多研究表明,語句的長(zhǎng)短對(duì)文本無關(guān)話者識(shí)別性能有較大的影響,無論采用多少個(gè)不同類型的參數(shù),只要能從足夠長(zhǎng)的語音中提取語音特征參數(shù),總能實(shí)現(xiàn)一個(gè)較高的識(shí)別率。

      參考文獻(xiàn):

      [1] 王英利,聲紋鑒定技術(shù)[M]群眾出版社,2013:174.

      [2] Rabineer L R,Juang B H.Fundamentals of Speech Processing and recognition[M].Prentice-Hall,1993.

      [3] 王金明,張雄偉.話者識(shí)別系統(tǒng)中語音特征參數(shù)的研究與仿真[J].系統(tǒng)仿真學(xué)報(bào),2013(9).

      [4] 余良俊、張友純,基于LPCC的話者識(shí)別系統(tǒng)[J].科技資訊,2007(31).

      [5] 寧飛.說話人識(shí)別的幾種方法[J].電聲技術(shù),2001(12).

      [6] 朱堅(jiān)民,張雷.基于聲音多特征貝葉斯網(wǎng)絡(luò)融合的話者識(shí)別研究[J].儀器儀表學(xué)學(xué)報(bào),2013(9).

      [7] Sambur M R. Selection of Acoustic Features for Speaker Identification[C]. IEEE Trans On ASSP, 1975: 176-182.

      [8] Rabineer L R, Juang B H. Fundamentals of Speech Processing and Recognition[M]. Prentice-Hall, 1993.

      [9] 李霄寒.高階MFCC的話者識(shí)別性能及其噪聲魯棒性[J].信號(hào)處理,2001(4).

      [10] 陳全今.基于LLR的聲紋識(shí)別應(yīng)用研究[J].海峽科學(xué),2014(9).

      [11] 李邵梅. 文本無關(guān)短語音說話人識(shí)別技術(shù)研究[D].解放軍信息工程大學(xué),2011.

      [12] 蔣曄. 基于文本無關(guān)的說話人識(shí)別技術(shù)研究[D].南京理工大學(xué),2008.

      [13] 鄧浩江,王守覺,邢藏菊,等. 基于聚類統(tǒng)計(jì)與文本無關(guān)的說話人識(shí)別研究[J]. 電路與系統(tǒng)學(xué)報(bào),2001(3):77-80.

      [14] 岳喜才,葉大田. 文本無關(guān)的說話人識(shí)別:綜述[J]. 模式識(shí)別與人工智能,2001(2):194-200.

      [15] 劉芮杉. 與文本無關(guān)的語種識(shí)別技術(shù)研究[D].電子科技大學(xué),2013.

      [16] 林江云. 文本無關(guān)說話人識(shí)別系統(tǒng)研究[D].廈門大學(xué),2008.

      [17] 張慶芳,趙鶴鳴. 基于改進(jìn)VQ算法的文本無關(guān)的說話人識(shí)別[J]. 計(jì)算機(jī)工程與應(yīng)用,2006(10):65-68.

      [18] 張煒,胡起秀,吳文虎. 距離加權(quán)矢量量化文本無關(guān)的說話人識(shí)別[J]. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版),1997(3):21-24.

      [19] 楊延龍. 與文本無關(guān)的說話人識(shí)別的關(guān)鍵技術(shù)研究[D].西安電子科技大學(xué),2010.

      [20] 包威權(quán),陳坷,遲惠生. 基于HMM/MLFNN 混合結(jié)構(gòu)的說話人辨認(rèn)研究[C].第四屆全國人機(jī)語音通訊會(huì)議論文集,1995:185-189.

      猜你喜歡
      模式匹配神經(jīng)網(wǎng)絡(luò)
      儲(chǔ)氫場(chǎng)景與氫氣儲(chǔ)運(yùn)系統(tǒng)的多維度模式匹配優(yōu)化研究
      基于模式匹配的計(jì)算機(jī)網(wǎng)絡(luò)入侵防御系統(tǒng)
      電子制作(2019年13期)2020-01-14 03:15:32
      神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
      電子制作(2019年19期)2019-11-23 08:42:00
      具有間隙約束的模式匹配的研究進(jìn)展
      OIP-IOS運(yùn)作與定價(jià)模式匹配的因素、機(jī)理、機(jī)制問題
      基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
      復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
      基于散列函數(shù)的模式匹配算法
      基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
      基于神經(jīng)網(wǎng)絡(luò)分?jǐn)?shù)階控制的逆變電源
      诸暨市| 临颍县| 江阴市| 炎陵县| 进贤县| 西和县| 海兴县| 稻城县| 包头市| 克什克腾旗| 平舆县| 大厂| 永康市| 灌南县| 渝北区| 剑阁县| 衡南县| 文化| 吉首市| 隆尧县| 日土县| 西乌珠穆沁旗| 睢宁县| 长泰县| 巩义市| 应城市| 成武县| 大荔县| 临泉县| 鄂伦春自治旗| 垣曲县| 饶阳县| 墨脱县| 广德县| 鄂托克旗| 大足县| 湖北省| 辽阳县| 厦门市| 元朗区| 胶州市|