• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      辨證認(rèn)識(shí)話者自動(dòng)識(shí)別系統(tǒng)

      2013-01-15 05:21:48楊俊杰
      中國(guó)司法鑒定 2013年2期
      關(guān)鍵詞:自動(dòng)識(shí)別特征參數(shù)共振

      楊俊杰

      (山西大學(xué),山西 太原030006;山西警官高等??茖W(xué)校,山西 太原 030021)

      辨證認(rèn)識(shí)話者自動(dòng)識(shí)別系統(tǒng)

      楊俊杰

      (山西大學(xué),山西 太原030006;山西警官高等??茖W(xué)校,山西 太原 030021)

      為了警示近年來(lái)我國(guó)司法話者識(shí)別領(lǐng)域中出現(xiàn)的一些崇外、盲目追求快速與省事的苗頭,結(jié)合話者自動(dòng)識(shí)別系統(tǒng)的研究、應(yīng)用狀況,從語(yǔ)音的共性與個(gè)性、話者識(shí)別結(jié)果的相對(duì)性與絕對(duì)性出發(fā),通過(guò)分析比對(duì)話者自動(dòng)識(shí)別與語(yǔ)音識(shí)別所用的特征參數(shù)及實(shí)現(xiàn)過(guò)程,辨證分析了制約話者自動(dòng)識(shí)別系統(tǒng)準(zhǔn)確率的根本原因。指出了話者自動(dòng)識(shí)別系統(tǒng)尚無(wú)法達(dá)到人們對(duì)其的期望,以及適合于司法訴訟領(lǐng)域的話者自動(dòng)識(shí)別系統(tǒng)的發(fā)展方向。

      話者自動(dòng)識(shí)別;語(yǔ)音識(shí)別;司法訴訟;特征參數(shù)

      由于案件逐年增多,從事話者識(shí)別的司法鑒定部門(mén)從2000年左右的幾家猛增到上百家。隨著國(guó)外一些話者自動(dòng)識(shí)別系統(tǒng)的引進(jìn),應(yīng)用領(lǐng)域中出現(xiàn)了一些崇外、盲目追求快速與省事的苗頭。部分應(yīng)用部門(mén)不管話者自動(dòng)識(shí)別系統(tǒng)的成熟程度、也不管本部門(mén)的實(shí)際需要,更不顧今后跨地區(qū)數(shù)據(jù)庫(kù)建設(shè)及數(shù)據(jù)共享的實(shí)際需要,只要財(cái)政給錢(qián),就買國(guó)外的、買貴的。豈不知,貴的未必就比便宜的好用,國(guó)外的話者識(shí)別系統(tǒng)未必就能適應(yīng)中國(guó)語(yǔ)言的“水土環(huán)境”。本文結(jié)合話者自動(dòng)識(shí)別系統(tǒng)的研究、應(yīng)用狀況,從語(yǔ)音的共性與個(gè)性、話者識(shí)別結(jié)果的相對(duì)性與絕對(duì)性出發(fā),通過(guò)對(duì)比話者自動(dòng)識(shí)別與語(yǔ)音識(shí)別所用的特征參數(shù)及實(shí)現(xiàn)過(guò)程,來(lái)辨證分析制約話者自動(dòng)識(shí)別系統(tǒng)準(zhǔn)確率的根本原因,以期能對(duì)我國(guó)司法訴訟領(lǐng)域辨證認(rèn)識(shí)話者自動(dòng)識(shí)別系統(tǒng)起到一定的推動(dòng)作用,并提出了適合于司法訴訟領(lǐng)域的話者自動(dòng)識(shí)別系統(tǒng)的發(fā)展方向。

      1 話者自動(dòng)識(shí)別系統(tǒng)的研究狀況

      1.1 話者自動(dòng)識(shí)別系統(tǒng)的發(fā)展

      話者自動(dòng)識(shí)別的研究始于20世紀(jì)60年代。到20世紀(jì)70年代,語(yǔ)音信號(hào)研究進(jìn)一步走向深入,線性預(yù)測(cè)技術(shù)、動(dòng)態(tài)時(shí)間規(guī)整技術(shù)基本成熟。20世紀(jì)80年代,語(yǔ)音信號(hào)處理領(lǐng)域取得了新的突破,其標(biāo)志之一就是概率統(tǒng)計(jì)模型在語(yǔ)音識(shí)別和話者識(shí)別中的成功應(yīng)用,最典型的就是隱馬爾可夫模型(Hidden Markov Model,HMM)和高斯混合模型(Gaussian Mixture Model,GMM)。其中,高斯混合模型是目前最為流行的與文本無(wú)關(guān)的話者識(shí)別模型。80年代后期,人工神經(jīng)網(wǎng)絡(luò)以其較強(qiáng)的模式識(shí)別能力、自學(xué)習(xí)、自組織能力給話者識(shí)別研究帶來(lái)了新的思想和方法[1]。

      當(dāng)前,國(guó)外開(kāi)展話者自動(dòng)識(shí)別的主要是世界上經(jīng)濟(jì)比較發(fā)達(dá)的國(guó)家,如美國(guó)、俄羅斯、日本、英國(guó)、法國(guó)、德國(guó)、澳大利亞、西班牙等。國(guó)內(nèi)開(kāi)展話者自動(dòng)識(shí)別的研究單位有清華大學(xué)、北京大學(xué)、中科院聲學(xué)所、中科院自動(dòng)化所、北京陽(yáng)宸電子技術(shù)公司、科大訊飛公司等,并先后得到了國(guó)家自然科學(xué)基金重大和重點(diǎn)項(xiàng)目、攀登計(jì)劃等基金的支持,取得了豐碩的研究成果。產(chǎn)品主要有北京陽(yáng)宸電子技術(shù)公司的VS-99話者自動(dòng)識(shí)別系統(tǒng)、科大訊飛的InterVeri系列、廣東省公安廳王英利等開(kāi)發(fā)的話者自動(dòng)識(shí)別系統(tǒng)等。其中,清華大學(xué)智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室和北京得意音通技術(shù)公司開(kāi)發(fā)的“基于聲紋識(shí)別技術(shù)的身份認(rèn)證系統(tǒng)引擎”已經(jīng)成功應(yīng)用于出入境證件的防偽等領(lǐng)域,能夠有效地應(yīng)對(duì)變?cè)旌蛡卧熳o(hù)照等出入境證件的難題。該系統(tǒng)已于2007年1月通過(guò)了由公安部科技局主持的項(xiàng)目驗(yàn)收及科技成果鑒定,成果“達(dá)到國(guó)際先進(jìn)水平”[1]。

      1.2 話者自動(dòng)識(shí)別系統(tǒng)中特征參數(shù)的研究狀況

      當(dāng)前,話者自動(dòng)識(shí)別系統(tǒng)的研究主要集中在特征參數(shù)提取與模式識(shí)別兩個(gè)方面。其中,特征參數(shù)提取就是對(duì)語(yǔ)音信號(hào)進(jìn)行分析處理,去除與話者識(shí)別無(wú)關(guān)的冗余信息,獲得語(yǔ)音信號(hào)中表征人的基本特征的信息,它是實(shí)現(xiàn)話者自動(dòng)識(shí)別最為關(guān)鍵的一步。

      人之所以能夠根據(jù)語(yǔ)音信號(hào)將話者識(shí)別出來(lái),是因?yàn)檎Z(yǔ)音信號(hào)中包含了與說(shuō)話人身份(是誰(shuí))有關(guān)的個(gè)體特定信息。有人認(rèn)為,“語(yǔ)音信號(hào)中包含了與說(shuō)話人有關(guān)的一些高級(jí)信息,如方言、遣詞用句特點(diǎn)、說(shuō)話的習(xí)慣風(fēng)格等。這些高級(jí)信息是話者識(shí)別系統(tǒng)最理想的特征參數(shù)。只是由于目前的技術(shù)水平還不能模仿人的這種能力,也找不出這些高級(jí)信息同語(yǔ)音參量之間的定量關(guān)系,所以它們還不能在自動(dòng)話者識(shí)別系統(tǒng)中得到應(yīng)用。除了上述高級(jí)信息外,還有一些低級(jí)信息?!@種能夠表征說(shuō)話人的信息,是通過(guò)共振峰頻率及帶寬、平均基頻、頻譜基本形狀等這些物理可測(cè)量的參數(shù)特征表現(xiàn)出來(lái)的”[1]。筆者認(rèn)為這種觀點(diǎn)存在兩個(gè)誤解:一是,不應(yīng)該把語(yǔ)音信息分為高級(jí)信息與低級(jí)信息。這種劃分應(yīng)該是受英語(yǔ)中supra-segmental feature (超音質(zhì)特征)的影響。實(shí)際上,該supra-的含義應(yīng)該是“附著在音段之上”的含義而不是“比音段高級(jí)”;二是,這些“高級(jí)信息”并不是人類區(qū)分不同說(shuō)話人的主要依據(jù),也不是話者識(shí)別系統(tǒng)最理想的特征參數(shù)。筆者曾對(duì)30對(duì)雙胞胎語(yǔ)音進(jìn)行過(guò)研究,發(fā)現(xiàn)聲調(diào)、音強(qiáng)、時(shí)長(zhǎng)等超音質(zhì)特征的人間區(qū)別力遠(yuǎn)沒(méi)有音質(zhì)特征的區(qū)別力強(qiáng)[3]。這是因?yàn)閺男〉酱螅p胞胎就一起在相同的語(yǔ)言環(huán)境中跟相同的學(xué)習(xí)對(duì)象習(xí)得語(yǔ)言,在說(shuō)話的方言、詞匯、語(yǔ)法、風(fēng)格等超音質(zhì)方面必然高度一致。即使不是雙胞胎,同一地方的一些人在超音質(zhì)方面也會(huì)高度相似。因此,超音段信息并不是區(qū)分不同說(shuō)話人的“高級(jí)信息”及主要依據(jù),也不是話者識(shí)別系統(tǒng)最理想的特征參數(shù)。不過(guò)可以肯定的是這些超音段信息在說(shuō)話人的聽(tīng)覺(jué)識(shí)別中也具有較大作用。但由于目前的技術(shù)水平還不能模仿人的這種能力,也找不出這些“高級(jí)信息”同語(yǔ)音參量之間的定量關(guān)系,所以它們還不能在自動(dòng)話者識(shí)別系統(tǒng)中得到應(yīng)用[1]。

      目前,話者自動(dòng)識(shí)別中常用的特征參數(shù)主要有:

      (1)線性預(yù)測(cè)倒譜系數(shù)

      線性預(yù)測(cè)倒譜系數(shù)(Linear Predictive Cepstral Coding,LPCC)是一個(gè)比較重要的特征參數(shù),它能夠比較徹底地去除語(yǔ)音產(chǎn)生過(guò)程中的激勵(lì)信息,能較好描述語(yǔ)音信號(hào)的共振峰特性。

      (2)Mel頻率倒譜系數(shù)

      Mel頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)表達(dá)了一種常用的從語(yǔ)音頻率到“感知頻率”的對(duì)應(yīng)關(guān)系,這更符合人耳的聽(tīng)覺(jué)特性。

      (3)基音周期

      目前的方法主要是基于傳統(tǒng)的語(yǔ)音模型,最具代表性的就是自相關(guān)法、平均幅度差函數(shù)法、線性預(yù)測(cè)分析法、倒譜法、小波變換法及在四種算法基礎(chǔ)上的衍生算法(如小波變換和自相關(guān)相結(jié)合),這些都屬于頻域方法的范疇;此外,還有一種更早提出的時(shí)域方法,即Gold和Rabiner提出的并行處理方法[3]。

      (4)共振峰

      共振峰是表征語(yǔ)音信號(hào)特征的基本參數(shù)之一。傳統(tǒng)的共振峰提取采用了倒譜分析和線性預(yù)測(cè)分析。有學(xué)者針對(duì)LPC方法中會(huì)受到合并共振峰和虛假共振峰干擾的缺點(diǎn),提出了新的提取方法,即在LPC幅度譜上搜尋最大的極大值點(diǎn)所對(duì)應(yīng)的頻率,并將它作為構(gòu)成聲道參數(shù)的某一諧振腔所對(duì)應(yīng)的共扼復(fù)根的角度,再通過(guò)LPC系數(shù)相頻特性的一次導(dǎo)數(shù)和三次導(dǎo)數(shù)相結(jié)合的方法求出這對(duì)共軛復(fù)根的幅度,從而確定了該諧振腔,也就得到了該諧振腔的共振峰[4]。雖有一些改善,但效果并不是很好。也有一些學(xué)者提出一種基于共振峰增強(qiáng)的共振峰頻率估計(jì)方法。近年來(lái),還有人提出一些共振峰提取的新方法,例如,基于聲道激勵(lì)信號(hào)解卷積的倒譜分析法,基于逆濾波器的共振峰提取方法[5],基于語(yǔ)音非線性模型的共振峰估計(jì)方法等。

      表1 特征參數(shù)比較表

      通過(guò)表1中四種特征參數(shù)的聲學(xué)特性、提取原理及魯棒性三方面的分析總結(jié)可以發(fā)現(xiàn):楊俊杰等在話者識(shí)別的語(yǔ)音學(xué)方法中區(qū)別力最強(qiáng)的共振峰特征[6],由于易受虛假共振峰的干擾其魯棒性卻變得較弱。因此,自動(dòng)識(shí)別系統(tǒng)中共振峰特征的區(qū)別價(jià)值是被降低了。筆者認(rèn)為這與共振峰特征的利用方法有關(guān)。在語(yǔ)音學(xué)方法中,話者鑒定專家是利用各個(gè)音節(jié)共振峰的細(xì)節(jié)特征,而話者自動(dòng)識(shí)別系統(tǒng)是利用一段語(yǔ)音中共振峰的整體特征,正是這種整體性應(yīng)用掩蓋了語(yǔ)音的個(gè)體特殊性;同時(shí),話者鑒定專家可以依靠自己豐富的經(jīng)驗(yàn)綜合排除噪音、信道、情緒等因素的干擾,而話者自動(dòng)識(shí)別系統(tǒng)卻容易受到這些因素的干擾。

      目前,對(duì)特征的進(jìn)一步研究主要包括兩個(gè)方面:一是對(duì)MFCC提取的改進(jìn),如基于平滑幅度譜包絡(luò)的MFCC 的改進(jìn)參數(shù) SMFCC[7](Smoothing MFCC),鑒別性Mel頻率倒譜系數(shù)[8](DMFCC)等等。二是尋找非聲道參數(shù),如針對(duì)傳統(tǒng)的特征參數(shù)只反映聲道的頻譜特性,而忽略了聲門(mén)振動(dòng)信息以及聲門(mén)振動(dòng)對(duì)聲道的潛在影響,有學(xué)者提出了消除聲門(mén)振動(dòng)對(duì)說(shuō)話人聲道影響的倒譜特征[9];韻律,詞匯等超音質(zhì)特征參數(shù)逐漸被應(yīng)用于話者識(shí)別系統(tǒng)中。但截至目前尚未找到簡(jiǎn)單可靠的可更好應(yīng)用于話者識(shí)別的語(yǔ)音特征參數(shù)。

      1.3 話者自動(dòng)識(shí)別系統(tǒng)正確識(shí)別率的現(xiàn)狀

      話者識(shí)別系統(tǒng)的好壞是由正確識(shí)別率、訓(xùn)練時(shí)間的長(zhǎng)短、識(shí)別時(shí)間、對(duì)參考參量存儲(chǔ)量的要求、使用者使用的方便程度等許多因素決定的。

      當(dāng)前,國(guó)內(nèi)外所見(jiàn)話者自動(dòng)識(shí)別系統(tǒng)的正確識(shí)別率相差不多。例如,美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)署(National Institute of Standard and Technology,簡(jiǎn)稱 NIST) 從1996年開(kāi)始到2010年一共舉行了15次話者識(shí)別評(píng)測(cè)(最大庫(kù)容約為6 000人[10])。這些測(cè)試體現(xiàn)了參測(cè)系統(tǒng)在接近真實(shí)環(huán)境中的實(shí)際表現(xiàn),被認(rèn)為是國(guó)際上水平最高、最嚴(yán)謹(jǐn)、過(guò)程最公平、結(jié)果最權(quán)威的說(shuō)話人與語(yǔ)音識(shí)別系統(tǒng)測(cè)試。受邀參加評(píng)測(cè)的均為世界頂級(jí)的專業(yè)研究開(kāi)發(fā)機(jī)構(gòu)。我國(guó)近年來(lái)也有一些專業(yè)機(jī)構(gòu)參加。其中,安徽科大訊飛語(yǔ)音技術(shù)公司已連續(xù)3年成績(jī)優(yōu)秀,2008年在NIST所有4個(gè)總體測(cè)試中,科大訊飛系統(tǒng)(iFLY)又獲得2項(xiàng)第1名、1項(xiàng)第3名,1項(xiàng)第5名,綜合成績(jī)排名第一的成績(jī)[11]。

      同時(shí),由清華大學(xué)智能技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室和北京得意音通技術(shù)公司開(kāi)發(fā)的通用的基于話者自動(dòng)識(shí)別(聲紋識(shí)別)技術(shù)的身份認(rèn)證系統(tǒng)引擎,是支持跨平臺(tái)、多信道、實(shí)時(shí)處理效率高、抗干擾性好、可擴(kuò)展性強(qiáng)、適用面廣的通用說(shuō)話人身份認(rèn)證應(yīng)用系統(tǒng)產(chǎn)品。該系統(tǒng)可以根據(jù)語(yǔ)音波形中所蘊(yùn)涵的說(shuō)話人信息,自動(dòng)識(shí)別確認(rèn)話者身份,具有識(shí)別精度高、抗干擾能力強(qiáng)、適用范圍廣、安全性能強(qiáng)等特點(diǎn)。其識(shí)別性能為:實(shí)際系統(tǒng)的錯(cuò)誤拒絕率(漏識(shí)率)為3.17%,錯(cuò)誤接受率(誤識(shí)率)為4.93%,均低于5%[2]。但是,如果將兩類錯(cuò)誤率加起來(lái)還是達(dá)到大約8.1%的錯(cuò)誤率。更為關(guān)鍵的是這才是1200人的庫(kù)容量。隨著庫(kù)容的增加準(zhǔn)確識(shí)別率還會(huì)下降。

      2009年3月,北京軟件產(chǎn)品質(zhì)量檢測(cè)檢驗(yàn)中心對(duì)得意音通與公安部三所聯(lián)合開(kāi)發(fā)的《海量語(yǔ)音文件的目標(biāo)說(shuō)話人篩選系統(tǒng)》進(jìn)行了全面測(cè)試,系統(tǒng)的漏識(shí)率和誤警率分別達(dá)到了2.81%和2.81%[12]。其兩類錯(cuò)誤率加起來(lái)約為5.62%。

      誠(chéng)然,近些年來(lái),話者自動(dòng)識(shí)別的研究取得了可喜的進(jìn)步,但衡量話者自動(dòng)識(shí)別系統(tǒng)性能的一項(xiàng)重要指標(biāo)是在一定庫(kù)容量下的等錯(cuò)誤率的高低。目前多數(shù)系統(tǒng)在解決海量數(shù)據(jù)、不同信道以及噪聲影響等關(guān)鍵技術(shù)方面效果還不理想,離實(shí)際應(yīng)用還有一些差距[11]。中國(guó)刑事警察學(xué)院的崔景旭等曾用西班牙的話者自動(dòng)識(shí)別系統(tǒng)BATVOX對(duì)用專家方法鑒定過(guò)的案件進(jìn)行過(guò)實(shí)際測(cè)試,發(fā)現(xiàn)當(dāng)參考數(shù)據(jù)庫(kù)里沒(méi)有能夠和待檢人嗓音匹配的參考人群時(shí),會(huì)出現(xiàn)明顯失誤[13]。

      同時(shí),國(guó)內(nèi)外實(shí)驗(yàn)數(shù)據(jù)證明:

      (1)信號(hào)通道對(duì)識(shí)別率影響最大,按照不同通道建立正常發(fā)音數(shù)據(jù)庫(kù)是必須的。

      (2)偽裝發(fā)音對(duì)識(shí)別率的計(jì)算也會(huì)發(fā)生較大影響。德國(guó)馬爾堡大學(xué)聲學(xué)研究所和西班牙馬德里大學(xué)的技術(shù)人員對(duì)此做過(guò)實(shí)驗(yàn)研究。他們發(fā)現(xiàn),當(dāng)偽裝語(yǔ)音沒(méi)有與之對(duì)應(yīng)的偽裝語(yǔ)音的參考模型時(shí),提高音調(diào)、降低音調(diào)和阻礙鼻腔發(fā)音均會(huì)出現(xiàn)識(shí)別率的明顯下降??梢?jiàn)有無(wú)與待測(cè)語(yǔ)音對(duì)應(yīng)的參考數(shù)據(jù)庫(kù)對(duì)識(shí)別結(jié)果的影響也很大[13]。

      此外,語(yǔ)言種類(包括方言)、言語(yǔ)方式(對(duì)話、獨(dú)白、朗讀、大聲、小聲、不同情緒等)、性別、話者人數(shù)等因素都會(huì)對(duì)話者自動(dòng)識(shí)別的準(zhǔn)確率產(chǎn)生較大的影響。例如,當(dāng)在漢語(yǔ)方言與普通話之間進(jìn)行話者自動(dòng)識(shí)別時(shí),雖然現(xiàn)有自動(dòng)識(shí)別系統(tǒng)大多采用與文本無(wú)關(guān)的方式來(lái)進(jìn)行,但由于方言語(yǔ)音系統(tǒng)與普通話語(yǔ)音系統(tǒng)的差異,其識(shí)別準(zhǔn)確率要遠(yuǎn)低于同語(yǔ)言之間的準(zhǔn)確率[14]。尤其是當(dāng)方言中存在嘎裂聲、假聲等特殊發(fā)聲態(tài)的時(shí)候,識(shí)別率還會(huì)更低。因此,原則上說(shuō),應(yīng)該建立與它們一一對(duì)應(yīng)的多種參考數(shù)據(jù)庫(kù)。但現(xiàn)實(shí)問(wèn)題是:

      (1)在某些案件中,信道、偽裝方式等情況是未知的。在這種情況下,識(shí)別時(shí)選用哪個(gè)參考語(yǔ)音庫(kù)則會(huì)成為主要問(wèn)題。諸如語(yǔ)言種類、言語(yǔ)方式,即使是已知的,但由于其分類龐雜,要建立一一對(duì)應(yīng)的參考數(shù)據(jù)庫(kù)是不現(xiàn)實(shí)的。由此就導(dǎo)致了話者自動(dòng)識(shí)別的準(zhǔn)確率問(wèn)題及其結(jié)論的應(yīng)用問(wèn)題。正是基于上述原因,國(guó)外話者識(shí)別工作是建立在語(yǔ)音數(shù)據(jù)庫(kù)基礎(chǔ)上的專家系統(tǒng),法庭不承認(rèn)計(jì)算機(jī)自動(dòng)識(shí)別的單一結(jié)果,必須要求有專家的鑒定報(bào)告[11]。

      (2)中國(guó)語(yǔ)言豐富,人口眾多。既有豐富的少數(shù)民族語(yǔ)言,更有十大方言區(qū)及其內(nèi)差異明顯的次方言區(qū),建立一一對(duì)應(yīng)的參考數(shù)據(jù)庫(kù)更是難以實(shí)現(xiàn)的。同時(shí),中國(guó)擁有世界上將近19.85%[15]的人口,其數(shù)據(jù)庫(kù)容量也大的難以完成。因此,在諸如西班牙等人口僅有4 702萬(wàn),并且語(yǔ)音差異明顯的外國(guó)人占戶籍登記人口12.2%[16]的國(guó)家中比較好用的話者自動(dòng)識(shí)別系統(tǒng),則未必能適應(yīng)中國(guó)語(yǔ)言的“水土環(huán)境”,“水土不服”導(dǎo)致的準(zhǔn)確率下降也在所難免。

      2 話者自動(dòng)識(shí)別系統(tǒng)的應(yīng)用狀況及原因分析

      2.1 話者自動(dòng)識(shí)別系統(tǒng)的應(yīng)用現(xiàn)狀

      由于語(yǔ)音具有不會(huì)遺失和忘記、不需記憶、使用方便、經(jīng)濟(jì)及可擴(kuò)展性良好等眾多優(yōu)勢(shì),隨著技術(shù)的發(fā)展,話者自動(dòng)識(shí)別逐步被廣泛應(yīng)用到軍事、商業(yè)、安全防范、司法訴訟、醫(yī)學(xué)等領(lǐng)域。其中,在軍事、商業(yè)、安全防范等領(lǐng)域上的應(yīng)用較好,但截至目前,在司法訴訟領(lǐng)域,話者自動(dòng)識(shí)別結(jié)論在世界各國(guó)均不能單獨(dú)作為法庭證據(jù)使用,僅有一些機(jī)構(gòu)采用話者自動(dòng)識(shí)別與語(yǔ)音專家結(jié)論相結(jié)合的綜合方法,二者結(jié)果相互印證(如法國(guó)國(guó)家憲兵總局話者識(shí)別實(shí)驗(yàn)室等)。

      2.2 話者自動(dòng)識(shí)別系統(tǒng)應(yīng)用狀況的原因分析

      話者自動(dòng)識(shí)別系統(tǒng)在軍事領(lǐng)域應(yīng)用較好并不是因?yàn)樵擃I(lǐng)域話者自動(dòng)識(shí)別系統(tǒng)的準(zhǔn)確率比其他領(lǐng)域的準(zhǔn)確率高,而是因?yàn)樵谲娛律希?/p>

      (1)比對(duì)人群數(shù)量有限(集中在主要指揮人員),數(shù)據(jù)庫(kù)庫(kù)容與司法訴訟的庫(kù)容相比要小的多;

      (2)識(shí)別對(duì)象來(lái)自天南海北,各自的語(yǔ)言差異明顯;(3)其使用的原則是“寧可錯(cuò)殺一千也不漏掉一個(gè)”。話者自動(dòng)識(shí)別系統(tǒng)在商業(yè)、安防領(lǐng)域應(yīng)用較好是因?yàn)榭梢赃M(jìn)行語(yǔ)音與說(shuō)話人的二重認(rèn)證,進(jìn)而增加系統(tǒng)的準(zhǔn)確率。但訴訟中話者識(shí)別則比軍事、安防等領(lǐng)域要嚴(yán)格的多,其原則是“寧可放縱一千也不應(yīng)冤枉一個(gè)”。所以要求話者識(shí)別結(jié)論要有很高的識(shí)別準(zhǔn)確率。而目前只有綜合聽(tīng)辨、視譜、言語(yǔ)分析等為一體的專家分析方法的鑒定結(jié)論能夠滿足這一要求。但是,從絕對(duì)和相對(duì)的辯證統(tǒng)一來(lái)說(shuō),也不是絕對(duì)不能在司法訴訟領(lǐng)域應(yīng)用話者自動(dòng)識(shí)別系統(tǒng),而是要根據(jù)話者自動(dòng)識(shí)別系統(tǒng)目前的研究現(xiàn)狀,充分利用其快速、方便、經(jīng)濟(jì)及可擴(kuò)展性良好等眾多優(yōu)勢(shì)把其應(yīng)用到重點(diǎn)人口、案件語(yǔ)音等的辨別中,從而為縮小案件偵查范圍、串并案件、專家鑒定等工作提供服務(wù)。特別是,當(dāng)需要在一個(gè)人數(shù)較少的封閉人群中識(shí)別某一說(shuō)話人時(shí),話者自動(dòng)識(shí)別系統(tǒng)則可以充分體現(xiàn)其高效、較為準(zhǔn)確的價(jià)值。

      3 制約話者自動(dòng)識(shí)別系統(tǒng)識(shí)別率的原因分析

      制約話者自動(dòng)識(shí)別結(jié)果在法庭上不能單獨(dú)作為證據(jù)的直接原因是其準(zhǔn)確率不高以及容易受到噪音、信道、偽裝、情緒、語(yǔ)言種類等因素的影響,而最根本的原因則是實(shí)現(xiàn)話者自動(dòng)識(shí)別所依據(jù)特征參數(shù)的有效性問(wèn)題。

      說(shuō)到話者自動(dòng)識(shí)別所依據(jù)的特征參數(shù)則不得不涉及到同樣以語(yǔ)音信號(hào)為素材,解決機(jī)器“聽(tīng)”懂人類語(yǔ)言的語(yǔ)音識(shí)別技術(shù)。二者之間即有共同點(diǎn),也存在不同之處。其共同點(diǎn)是:二者都要通過(guò)對(duì)所接受的語(yǔ)音信號(hào)進(jìn)行處理,提取相應(yīng)的特征參數(shù),建立相應(yīng)的匹配模型,然后據(jù)此做出判斷;其區(qū)別在于,話者識(shí)別著眼于包含在語(yǔ)音信號(hào)中的個(gè)性特征,提取說(shuō)話人的個(gè)人信息,以達(dá)到識(shí)別說(shuō)話人是誰(shuí)的目的,它強(qiáng)調(diào)不同人之間的語(yǔ)音差別(即雖然說(shuō)話人說(shuō)的語(yǔ)音內(nèi)容相同,但系統(tǒng)能識(shí)別出說(shuō)話人不同);而語(yǔ)音識(shí)別側(cè)重于語(yǔ)音信號(hào)中的語(yǔ)義內(nèi)容信息,強(qiáng)調(diào)不同語(yǔ)音信號(hào)中的共性信息(即要把不同人說(shuō)的a都識(shí)別為a)。

      通過(guò)對(duì)話者自動(dòng)識(shí)別和語(yǔ)音識(shí)別實(shí)現(xiàn)過(guò)程的對(duì)比,筆者發(fā)現(xiàn)兩者的識(shí)別系統(tǒng)基本一樣,其系統(tǒng)主要包括兩個(gè)階段:訓(xùn)練階段和模式識(shí)別階段[17](見(jiàn)圖1)。

      從系統(tǒng)框圖可以看出,無(wú)論是在訓(xùn)練還是識(shí)別階段,都需要對(duì)語(yǔ)音信號(hào)進(jìn)行特征提取。因此,特征提取是話者識(shí)別系統(tǒng)中的重要組成部分。對(duì)此,筆者對(duì)話者自動(dòng)識(shí)別和語(yǔ)音識(shí)別中所用到的主要特征參數(shù)進(jìn)行了比較、分析[18],結(jié)果見(jiàn)表2。

      表2 話者自動(dòng)識(shí)別和語(yǔ)音識(shí)別所用特征參數(shù)對(duì)比表

      通過(guò)以上比較可以發(fā)現(xiàn),識(shí)別目的截然不同的話者自動(dòng)識(shí)別和語(yǔ)音識(shí)別所采用的特征參數(shù)竟然大體相同。由此引出了一個(gè)重要問(wèn)題:對(duì)于每一種特征參數(shù),其在話者識(shí)別和語(yǔ)音識(shí)別中的有效性(或價(jià)值)是否相同,即其包含的語(yǔ)義信息和說(shuō)話人的個(gè)性信息是否相同?對(duì)此,有學(xué)者作了類似的分析,他們提出了一種語(yǔ)音特征參數(shù)中語(yǔ)義和個(gè)性特征子分量分析與有效性評(píng)價(jià)的4S方法,對(duì)語(yǔ)義和個(gè)性特征的成份比例進(jìn)行分析,并通過(guò)量化指標(biāo)來(lái)評(píng)判特征參數(shù)對(duì)語(yǔ)音識(shí)別和話者識(shí)別的有效性。對(duì)常用特征參數(shù)LPC、LPCC和MFCC進(jìn)行的4S分析表明:這些參數(shù)表達(dá)語(yǔ)義信息比說(shuō)話人個(gè)性特征信息更加充分,即:與話者識(shí)別相比較,它們顯然更適合于語(yǔ)音識(shí)別的應(yīng)用[19]。因此,如何從語(yǔ)音信號(hào)中提取更能體現(xiàn)說(shuō)話人的個(gè)性信息的特征將是今后話者識(shí)別應(yīng)用走向市場(chǎng)的一大關(guān)鍵。

      4 結(jié)論

      經(jīng)過(guò)前面的辨證分析、比較,得到以下認(rèn)識(shí):

      (1)現(xiàn)有話者自動(dòng)識(shí)別所利用的特征參量更適合于進(jìn)行語(yǔ)音識(shí)別,需要繼續(xù)尋找更能代表個(gè)人特定性的語(yǔ)音特征。

      (2)我國(guó)話者自動(dòng)識(shí)別水平近年來(lái)已經(jīng)接近國(guó)外水平,并非國(guó)外的產(chǎn)品性能就肯定好。從全局的角度出發(fā),我國(guó)更應(yīng)該建立自己的話者自動(dòng)識(shí)別語(yǔ)音庫(kù)的標(biāo)準(zhǔn)及語(yǔ)音庫(kù),以滿足各地犯罪信息共享的需求。

      (3)在國(guó)外某些國(guó)家應(yīng)用較好的話者識(shí)別系統(tǒng)難以適應(yīng)中國(guó)的語(yǔ)言環(huán)境,無(wú)法達(dá)到預(yù)期的正識(shí)率。

      (4)話者自動(dòng)識(shí)別具有廣闊的應(yīng)用前景,但由于其現(xiàn)有的識(shí)別水平及影響因素,其應(yīng)該更多地被應(yīng)用到軍事、安防等領(lǐng)域以及用來(lái)縮小偵查范圍、串并案件的偵查初期,而不是單獨(dú)為法庭提供證據(jù)。因此,企圖只靠話者自動(dòng)識(shí)別系統(tǒng)進(jìn)行說(shuō)話人鑒定的追求快速、省事的想法是不現(xiàn)實(shí)的。

      (5)話者識(shí)別工作應(yīng)該是建立在語(yǔ)音數(shù)據(jù)庫(kù)基礎(chǔ)上的專家系統(tǒng)。由于話者自動(dòng)識(shí)別的局限性,法庭不承認(rèn)計(jì)算機(jī)自動(dòng)識(shí)別的結(jié)果,必須要求有專家的鑒定報(bào)告。所以專家方法和話者自動(dòng)識(shí)別相結(jié)合的半自動(dòng)綜合識(shí)別方法,是話者識(shí)別的最終發(fā)展趨勢(shì)。

      致謝

      本文是2012年度國(guó)家社會(huì)科學(xué)青年基金項(xiàng)目(編號(hào):12CYY015)的調(diào)研性成果之一,曾在第十屆中國(guó)語(yǔ)音學(xué)學(xué)術(shù)會(huì)議上宣讀并得到王英利高級(jí)工程師的點(diǎn)評(píng),一并感謝。

      [1]于明剛.噪聲環(huán)境下話者識(shí)別研究[D].哈爾濱工程大學(xué)碩士論文,2008.

      [2]清華大學(xué).通用的基于聲紋識(shí)別技術(shù)的身份認(rèn)證系統(tǒng)引擎[EB/OL].http://www.tsinghua.e, 2011-11-16/2012-09-10.

      [3]NOLL A M.Cepstrum pitch determination[J].Acoust.Soc.Am, 1967,(47): 293-309.

      [4]何峰,陳曉清,李國(guó)鎖,等.一種新的語(yǔ)音信號(hào)共振峰提取的算法[J].信號(hào)處理,2007,(4):618-621.

      [5]Watanabe A.Formant estimation method using inverse-filter control.J.IEEE Transactions on Speech and Audio Processing[J].2001,9(4):317-326.

      [6]楊俊杰,崔效義,李敬陽(yáng),等.常用語(yǔ)音特性在鑒別雙胞胎語(yǔ)中的價(jià)值研究[J].中國(guó)人民公安大學(xué)學(xué)報(bào):自然科學(xué)版,2006,(3):21-24.

      [7]張偉偉,楊鼎才.用于話者識(shí)別的MFCC的改進(jìn)算法[J].電子測(cè)量技術(shù),2009,(8):118-121.

      [8]王剛,鄭方.電話信道下應(yīng)用DMFCC進(jìn)行話者識(shí)別[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2009,(10):1597-1600.

      [9]楊璞.基于聲門(mén)特征的話者識(shí)別研究[D].浙江大學(xué)碩士學(xué)位論文,2005.

      [10]National Institute of Standards and Technology.2010 NIST_E-valuation Plan[EB/OL].http://www.itl.nist.gov/iad/mig/tests/sre/2010/index.html,2011-11-16/2012-01-20.

      [11]李敬陽(yáng).國(guó)內(nèi)外聲紋鑒定發(fā)展概述 [J].刑事技術(shù),2009,(S2):51-55.

      [12]得意音通技術(shù).北京軟件產(chǎn)品質(zhì)量檢測(cè)檢驗(yàn)中心對(duì)《海量語(yǔ)音文件的目標(biāo)說(shuō)話人篩選系統(tǒng)》進(jìn)行了全面測(cè)試[EB/OL].http://www.d-ear.com/newsview.asp?id=214&sj=2009, 2011-11-22/2012-02-20.

      [13]崔景旭,洪韓,王欣,等.話者自動(dòng)識(shí)別系統(tǒng)及其應(yīng)用[C].第九屆中國(guó)語(yǔ)音學(xué)學(xué)術(shù)會(huì)議論文集,2010.

      [14]趙靖,龔衛(wèi)國(guó),楊利平.基于GMM的普通話和四川方言獨(dú)立文本的說(shuō)話人確認(rèn)[J].計(jì)算機(jī)應(yīng)用,2008,(3):792-794.

      [15]中國(guó)人口占世界人口比重下降[EB/OL].http://news.163.com/11/0712/11/78OPF20U00014AED.html,2012-11-6/2012-02-20.

      [16]西班牙人口情況 [EB/0L].http://es.mofcom.gov.cn/aarticle/ddgk/zwrenkou/201111/20111107820876.html,2012-11-6/2012-03-12.

      [17]李軼.說(shuō)話人識(shí)別系統(tǒng)研究[D].浙江大學(xué)碩士學(xué)位論文,2003.

      [18]劉雅琴,智愛(ài)娟.幾種語(yǔ)音識(shí)別特征參數(shù)的研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2009,(12):67-70.

      [19]俞一彪,許允喜,芮賢義.一種語(yǔ)音特征參數(shù)子分量分析與有效性評(píng)價(jià)的新方法[J].信號(hào)處理,2007,(2):188-191.

      Understand the Automatic Speaker Identification System Dialectically

      YANG Jun-jie
      (Shanxi University, Taiyuan 030006, China; Shanxi Police College, Taiyuan 030021, China)

      To warn the abuse of foreign automatic speaker identification system to pursue speed and convenience in recent years,the status of the study and application of automatic speaker identification system was introduced.Based on the commonness and individuality of the voice and the relativity and absoluteness of speaker identification results,this paper compares automatic speaker identification system and automatic speech recognition system in characteristic parameters and process,and analyzes the fundamental reasons of the restricted accuracy of automatic speaker identification system.As a conclusion,the automatic speaker identification system is still unable to achieve what is desired.The development direction of automatic speaker identification in forensic science was put forward.

      automatic speaker identification; speech recognition; forensic science; characteristic parameter.

      DF793.2

      A

      10.3969/j.issn.1671-2072.2013.02.017

      1671-2072-(2013)02-0071-05

      2012-11-19

      2012年度國(guó)家社會(huì)科學(xué)青年基金項(xiàng)目(12CYY015)

      楊俊杰(1973—)男,講師,碩士,主要從聲像資料、漢語(yǔ)方言學(xué)研究。E-mail:545668179@qq.com。

      施少培)

      鑒定實(shí)踐Forensic Practice

      猜你喜歡
      自動(dòng)識(shí)別特征參數(shù)共振
      故障診斷中信號(hào)特征參數(shù)擇取方法
      基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
      安然 與時(shí)代同頻共振
      選硬人打硬仗——紫陽(yáng)縣黨建與脫貧同頻共振
      自動(dòng)識(shí)別系統(tǒng)
      特別健康(2018年3期)2018-07-04 00:40:18
      基于PSO-VMD的齒輪特征參數(shù)提取方法研究
      CTA 中紡院+ 化纖聯(lián)盟 強(qiáng)強(qiáng)聯(lián)合 科技共振
      金屬垃圾自動(dòng)識(shí)別回收箱
      基于IEC61850的配網(wǎng)終端自動(dòng)識(shí)別技術(shù)
      統(tǒng)計(jì)特征參數(shù)及多分類SVM的局部放電類型識(shí)別
      谷城县| 和政县| 洪湖市| 五原县| 盱眙县| 福清市| 孝感市| 汕尾市| 乐昌市| 北川| 伊宁县| 岳阳市| 丽江市| 乌拉特中旗| 凤台县| 长兴县| 齐齐哈尔市| 杭锦旗| 广河县| 莱州市| 牡丹江市| 北川| 若尔盖县| 文昌市| 蒙城县| 博野县| 临洮县| 汕头市| 江山市| 纳雍县| 舟山市| 贡觉县| 屏南县| 清水县| 牡丹江市| 会昌县| 柯坪县| 登封市| 堆龙德庆县| 峡江县| 武宣县|