聲紋識別技術(shù)及其應(yīng)用現(xiàn)狀

2016-11-18 07:55:42李藍(lán)天艾斯卡爾肉孜

信息安全研究 2016年1期

鄭方李藍(lán)天張慧艾斯卡爾·肉孜

1(清華信息科學(xué)技術(shù)國家實驗室技術(shù)創(chuàng)新和開發(fā)部語音和語言技術(shù)中心北京 100084)2(清華大學(xué)信息技術(shù)研究院語音和語言技術(shù)中心北京 100084)3(清華大學(xué)計算機科學(xué)與技術(shù)系北京 100084)4(貴州大學(xué)科技學(xué)院貴陽 550001)(fzheng@tsinghua.edu.cn)

鄭方1,2,3李藍(lán)天1,2,3張慧4艾斯卡爾·肉孜1,2,3

隨著信息技術(shù)的快速發(fā)展，如何準(zhǔn)確認(rèn)證一個人的身份、保護個人隱私和保障信息安全，成為當(dāng)前亟需解決的問題.與傳統(tǒng)身份認(rèn)證方式相比，生物特征識別身份認(rèn)證技術(shù)在使用過程中具有不會丟失、被盜或遺忘的特性；其不但快捷、方便，而且準(zhǔn)確、可靠.聲紋識別作為當(dāng)前最熱門的生物特征識別技術(shù)之一，在遠(yuǎn)程認(rèn)證等應(yīng)用領(lǐng)域中具有獨特優(yōu)勢，受到了越來越多的關(guān)注.以聲紋識別技術(shù)及其應(yīng)用現(xiàn)狀為主線，將依次介紹聲紋識別的基本概念、發(fā)展歷程、應(yīng)用現(xiàn)狀及其行業(yè)標(biāo)準(zhǔn)化現(xiàn)狀；綜述聲紋識別所面臨的各類問題及其解決方案；最后對聲紋識別技術(shù)以及應(yīng)用的發(fā)展前景進行展望.

生物特征識別；身份認(rèn)證；聲紋識別；發(fā)展歷程；技術(shù)應(yīng)用

在我國古代戰(zhàn)亂時期，官兵進出城池通過對照預(yù)先設(shè)定的口令判斷是敵是友；在現(xiàn)實生活中，我們每天通過鑰匙或電子卡進出家門；在上網(wǎng)過程中，用戶的賬戶和密碼是登錄某網(wǎng)站或某郵箱進行下一步操作的渠道；在一些電子支付中，通過發(fā)送驗證碼到用戶手機讓其輸入進行支付確認(rèn)…….上述提到的口令、鑰匙、電子卡、賬戶密碼以及支付驗證碼都代表了認(rèn)證操作者的相關(guān)信息，但在科技和互聯(lián)網(wǎng)迅速發(fā)展的今天，傳統(tǒng)身份認(rèn)證顯然已不能滿足用戶對個人信息及財產(chǎn)保護的需求.口令易被泄露、鑰匙或電子卡易丟失和被復(fù)制、賬戶和密碼易被遺忘和攻擊、驗證碼易被截取等一系列的安全隱患所帶來的事故時有發(fā)生.因此，傳統(tǒng)認(rèn)證方式將逐漸成為歷史，而生物特征認(rèn)證方式將閃亮登場.

在“無處不賬戶、無處不密碼”的時代，人們常常因為遺忘或丟失密碼而感到煩惱，生物特征認(rèn)證技術(shù)的出現(xiàn)無疑帶來了更便捷、高效的服務(wù)方式.生物特征可“隨身攜帶”，可隨時隨地使用人們身上的生物特征來對自己的身份進行認(rèn)證，是“用自己來識別自己”的一門技術(shù).顯然，在使用生物特征的認(rèn)證過程中，人們無需擔(dān)心遺忘、丟失.此外，生物特征還有防偽性好、不易被改造和竊取等優(yōu)點.有關(guān)新聞報道和預(yù)測指出，未來明文密碼將成為歷史，各種口令也將不復(fù)存在，生物特征認(rèn)證技術(shù)將取而代之.

生物特征可分為2類，包括生理特征和行為特征[1].常見的生理特征有指紋、掌紋、人臉、虹膜、視網(wǎng)膜等；常見的行為特征有聲紋、簽名、心跳等.除此之外，生物特征還有手形、步態(tài)、DNA、味紋、血管紋路等.生物特征代表著每個人所固有的特點，它具有普遍性、唯一性、穩(wěn)定性、不易復(fù)制性等，但在實際應(yīng)用中，這些生物特征的認(rèn)證都有其一定的局限性.例如手指、手掌蛻皮或磨損的情況下會使身份認(rèn)證辨認(rèn)度降低；不法分子通過戴指模躲過指紋認(rèn)證系統(tǒng)掩蓋其真實身份以逃避司法追究；虹膜識別技術(shù)需要昂貴的攝像頭聚焦和較好的光源；視網(wǎng)膜識別技術(shù)要求激光照射眼球的背面以獲取視網(wǎng)膜特征的唯一性，故可能會影響使用者的健康，并且視網(wǎng)膜身份認(rèn)證技術(shù)的使用性不是很好，研究成本也高；而在2015年10月21日新聞報道中，“趙薇‘被賣房’”案件表明人臉識別系統(tǒng)也存在一定的風(fēng)險性.

與其他生物特征相比，作為行為特征的聲紋具有以下特點[2]：

1) 蘊含聲紋特征的語音獲取方便、自然，在采集過程中涉及到的用戶個人隱私信息較少，因此使用者更易接受；

2) 語音采集裝置成本低廉，使用簡單，一個麥克風(fēng)即可，在使用通訊設(shè)備(如電話、手機)時更無需額外的錄音設(shè)備；

3) 配合語音識別技術(shù)，可使聲紋口令動態(tài)變化而無需擔(dān)心密碼遺忘、丟失和竊取問題，防止錄音假冒，因此也尤為適合遠(yuǎn)程身份認(rèn)證.

為此，本文以聲紋識別技術(shù)為主線，介紹聲紋識別技術(shù)的基本概念、應(yīng)用領(lǐng)域以及聲紋識別在實際應(yīng)用中所存在的問題與對應(yīng)解決方案；最后，展望聲紋識別技術(shù)在身份認(rèn)證領(lǐng)域的發(fā)展前景.

1 聲紋識別基本概念

在日常生活中，我們時時刻刻都在從外界接受和向外界傳達著各種信息，語音信息則是其中重要的一部分.在語音領(lǐng)域中，人的語音通常被定義為人的發(fā)音器官所發(fā)出的、帶有一定實際含義的聲音，也常常被研究者認(rèn)為是語言的發(fā)音符號.音頻信號的處理在人工智能和機器學(xué)習(xí)領(lǐng)域研究中具有很重要的地位.人類語音中含有各類豐富的信息，既有豐富的說話人個性信息和發(fā)音的內(nèi)容信息，也有錄制環(huán)境的噪聲信息、信道信息等等.

聲紋其實就是對語音中所蘊含的、能表征和標(biāo)識說話人的語音特征，以及基于這些特征(參數(shù))所建立的語音模型的總稱[3]，而聲紋識別是根據(jù)待識別語音的聲紋特征識別該段語音所對應(yīng)的說話人的過程[3].與指紋類似，每個人在說話過程中所蘊含的語音特征和發(fā)音習(xí)慣幾乎是獨一無二的，就算被模仿，也改變不了話者最本質(zhì)的發(fā)音特性和聲道特征.有相關(guān)科學(xué)研究表明，聲紋具有特定性和穩(wěn)定性等特點，尤其在成年之后，可以在相對長的時間里保持相對穩(wěn)定不變.聲紋是一種行為特征，由于每個人在講話時使用的發(fā)聲器官如舌頭、牙齒、口腔、聲帶、肺、鼻腔等在尺寸和形態(tài)方面有所差異，以及年齡、性格、語言習(xí)慣等多種原因，加之發(fā)音容量大小和發(fā)音頻率不同，在發(fā)音時千姿百態(tài)，因而導(dǎo)致這些器官發(fā)出的聲音必然有著各自的特點.可以說任何2個人的聲紋圖譜都不盡相同.

聲紋識別技術(shù)又稱說話人識別技術(shù)，就是基于這些信息來探索人類身份的一種生物特征識別技術(shù).這種技術(shù)基于語音中所包含的說話人特有的個性信息，利用計算機以及現(xiàn)在的信息識別技術(shù)，自動地鑒別當(dāng)前語音對應(yīng)的說話人身份[4-5].聲紋識別與語音識別不同，聲紋識別的過程是試圖找到區(qū)別每個人的個性特征，而語音識別則是側(cè)重于對話者所表述的內(nèi)容進行區(qū)分.在實際應(yīng)用中往往把語音識別技術(shù)和聲紋識別技術(shù)結(jié)合起來應(yīng)用，以提高聲紋身份認(rèn)證系統(tǒng)的安全性能.

聲紋識別是一類典型的模式識別問題，其主要包含說話人模型訓(xùn)練和測試語音識別2個階段，圖1是一個基本的說話人識別框架.

1) 訓(xùn)練階段.對使用系統(tǒng)的說話人預(yù)留充足的語音，并對不同說話人語音提取聲學(xué)特征，然后根據(jù)每個說話人的語音特征訓(xùn)練得到對應(yīng)的說話人模型，最終將全體說話人模型集合在一起組成系統(tǒng)的說話人模型庫.

2) 識別階段.說話人進行識別認(rèn)證時，系統(tǒng)對識別語音進行相同的特征提取過程，并將語音特征與說話人模型庫進行比對，得到對應(yīng)說話人模型的相似性打分，最終根據(jù)識別打分判別得到識別語音的說話人身份.

圖1 基本的說話人識別系統(tǒng)框架

1.1 聲紋識別的分類

按照不同的分類角度，聲紋識別可大致分為以下幾類.

1.1.1 聲紋辨認(rèn)和聲紋確認(rèn)

聲紋識別根據(jù)實際應(yīng)用的范疇可分為聲紋辨認(rèn)和聲紋確認(rèn)[5].這2類任務(wù)的識別目標(biāo)略有不同.聲紋辨認(rèn)是指判定待測試語音屬于目標(biāo)說話人模型集合中哪一個人，是一個“多選一”的選擇問題.而聲紋確認(rèn)是確定待識別的一段語音是否來自其所聲明的目標(biāo)說話人，是一個“一對一”的判決問題.

對于聲紋識別辨認(rèn)來說，根據(jù)測試識別來自說話人范圍的不同，說話人辨認(rèn)又可劃分為閉集識別和開集識別[5].閉集識別是指待測試語音必定屬于目標(biāo)說話人集合中的某一位，即待識別語音為集內(nèi)說話人；所謂開集識別是指待識別語音的發(fā)音者可能不屬于目標(biāo)說話人集合中的任何一位.

除此之外，根據(jù)實際應(yīng)用場景，聲紋識別還包括說話人檢測(即檢測目標(biāo)說話人是否在某段語音中出現(xiàn))和說話人追蹤(即以時間為索引，實時檢測每段語音所對應(yīng)的說話人)[6].

1.1.2 文本相關(guān)、文本無關(guān)和文本提示

按照待識別語音的文本內(nèi)容，聲紋識別可分為文本無關(guān)(text-independent)、文本相關(guān)(text-dependent)和文本提示(text-prompted)[5]3種.文本無關(guān)是指說話人識別系統(tǒng)對于語音文本內(nèi)容無任何要求，說話人的發(fā)音內(nèi)容不會被預(yù)先限定，在訓(xùn)練和識別階段說話人只需要隨意地錄制達到一定長度的語音即可；而文本相關(guān)是指說話人識別系統(tǒng)要求用戶必須按照事先指定的文本內(nèi)容進行發(fā)音.對比這2類說話人識別，文本相關(guān)的說話人識別的語音內(nèi)容匹配性優(yōu)于文本無關(guān)的說話人識別，所以一般來說其系統(tǒng)性能也會相對好很多，但是對說話人預(yù)留和進行識別時語音的錄制要求更高并且識別文本易于竊??；而文本無關(guān)的說話人識別使用更加方便靈活，具有更好的推廣性和適應(yīng)性.

為此，綜合二者的優(yōu)點，文本提示型的說話人識別應(yīng)運而生，其是指識別系統(tǒng)從說話人的訓(xùn)練文本庫中隨機提取若干詞匯組合后提示用戶發(fā)音，這樣不僅避免了文本相關(guān)的假冒錄音闖入，并且實現(xiàn)相對簡單、安全性高，是說話人識別技術(shù)的一大熱點.

1.2 聲紋識別的性能評價

根據(jù)聲紋識別任務(wù)的不同，其系統(tǒng)性能的評價指標(biāo)也略有不同.對于聲紋確認(rèn)系統(tǒng)，通常采用DET曲線、等錯誤率(equal error rate,EER)和檢測代價函數(shù)DCF(detection cost function)；而聲紋辨認(rèn)系統(tǒng)則根據(jù)測試集合的不同，選擇不同的系統(tǒng)評價指標(biāo).

1.2.1 聲紋確認(rèn)系統(tǒng)性能指標(biāo)

1) DET曲線及等錯誤率EER[7]

聲紋確認(rèn)識別系統(tǒng)的性能評價主要看2個參量，分別是錯誤接受率(false acceptation rate,FAR)和錯誤拒絕率(false rejection rate,FRR).FAR是指將非目標(biāo)說話人判別為目標(biāo)說話人造成的錯誤.FRR是指將目標(biāo)說話人誤識成非目標(biāo)說話人造成的錯誤.二者的定義如下：

(1)

(2)

在聲紋識別系統(tǒng)中，可通過設(shè)定不同的閾值對FAR和FRR進行權(quán)衡.系統(tǒng)所要求的安全性越高則設(shè)定閾值應(yīng)越高，此時接受條件就越嚴(yán)格，即FAR越低，但FRR越高；反之，如果系統(tǒng)追求較好的用戶體驗性(通過率高)，則閾值應(yīng)越低，此時接受條件就越寬松，F(xiàn)AR就越高，但FRR越低.一般采用檢測錯誤權(quán)衡曲線(detection error trade-offs curve, DET)來反映2個錯誤率之間的關(guān)系：對一個特定的聲紋識別系統(tǒng)，以FAR為橫坐標(biāo)軸，以FRR為縱坐標(biāo)軸，通過調(diào)整其參數(shù)得到的FAR與FRR之間關(guān)系的曲線圖就是DET曲線(參見圖2).顯然，DET曲線離原點越近系統(tǒng)性能越好.

圖2 檢測錯誤權(quán)衡曲線示例

在DET曲線上，第1象限角平分線與其的交點處，F(xiàn)AR與FRR值相等，該錯誤率稱為EER.顯然，EER值越小系統(tǒng)性能應(yīng)該越好，它代表了聲紋識別系統(tǒng)的一個大約性能，是衡量系統(tǒng)性能的重要參數(shù).

2) 檢測代價函數(shù)DCF[5]

在美國國家標(biāo)準(zhǔn)技術(shù)研究所(National Institute of Standards and Technology, NIST)的評測中，還定義了FAR和FRR的加權(quán)和函數(shù)，即檢測代價函數(shù)DCF作為系統(tǒng)性能的評價指標(biāo).DCF的定義如下：

(3)

其中，CMiss和CFalseAlarm分別表示錯誤拒絕和錯誤接受的權(quán)重，表示目標(biāo)說話人的先驗概率.針對不同的應(yīng)用場景，對FAR和FRR定義不同的權(quán)重，并用最小DCF即minCDCF來表示系統(tǒng)能夠取得的最優(yōu)性能.

1.2.2 聲紋辨認(rèn)系統(tǒng)性能指標(biāo)

通常情況下，在開集聲紋辨認(rèn)系統(tǒng)中仍可采用等錯誤率EER和檢測代價函數(shù)DCF來評價系統(tǒng)性能指標(biāo)；而在聲紋閉集辨認(rèn)系統(tǒng)中通常采用正確識別率(簡稱識別率)、錯誤識別率(簡稱為錯誤率)以及前N正確率(TopNcorrectness)作為評價系統(tǒng)性能的指標(biāo).

識別率是指待識別語音能夠從目標(biāo)說話人集合中正確找到所對應(yīng)說話人的概率.通常認(rèn)定待識別語音與目標(biāo)說話人集合中相似度最大的作為辨認(rèn)說話人，其辨認(rèn)正確的比率又可稱為Top-1辨認(rèn)正確率；若目標(biāo)說話人集合中相似度最大的N個辨認(rèn)說話人包含正確說話人時認(rèn)為辨認(rèn)正確，如此統(tǒng)計出來的辨認(rèn)正確的比率稱為Top-N辨認(rèn)正確率.

1.3 聲紋識別的發(fā)展歷程

“聞其聲而知其人”，通過人的聽覺來判斷說話人的聲音具體來自哪一個人，古已有之.以語音作為身份認(rèn)證的手段，最早可追溯到17世紀(jì)60年代英國查爾斯一世之死的案件審判中.對說話人識別的研究始于20世紀(jì)30年代[8].自1937年的Lindbergh兒子被拐騙事件開始，人們針對語音中的說話人信息開展了科學(xué)的探索和研究.1945年，Bell實驗室的Kesta等人借助肉眼觀察，完成語譜圖匹配，并首次提出了“聲紋”的概念；且在1962年第1次介紹了采用此方法進行說話人識別的可能性.1966年，美國法院的第1次采用“聲紋”進行了取證.Bell實驗室的Pruzanshy提出的基于模板匹配(template matching)和統(tǒng)計方差分析的說話人識別方法[9]，引起信號處理領(lǐng)域許多學(xué)者的注意，興起了說話人研究的高潮.1969年Luck首先將倒譜技術(shù)用于說話人的識別，得到了較好的效果.Atal等人[10]將線性預(yù)測倒譜系數(shù)(linear predictive cepstrum coefficient, LPCC)用于說話人識別，提高了識別系數(shù)的精度.Doddington等人[11]提出了利用共振峰進行說話人確認(rèn)，1972年，Atal[12]用提出的基頻輪廓進行說話人識別.

從20世紀(jì)70年代末至80年代末，說話人識別的研究重點轉(zhuǎn)向?qū)β晫W(xué)特征參數(shù)的處理以及新的模式匹配方法上.研究者相繼提出了LPC譜系數(shù)[13]、LSP譜系數(shù)、感知線性預(yù)測系數(shù)(perceptual linear predictive, PLP)[14]、梅爾倒譜系數(shù)(Mel-frequency cepstrum coefficient, MFCC)[15]等說話人識別特征參數(shù).此時，動態(tài)時間規(guī)整法(dynamic time warping, DTW)[16]、矢量量化法(vector quantization, VQ)[17]、隱馬爾科夫模型(hidden Markov model, HMM)[18]、人工神經(jīng)網(wǎng)絡(luò)法(artificial neural network, ANN)[19]等技術(shù)在語音識別領(lǐng)域得到了廣泛的運用，也成為說話人識別的核心技術(shù).

20世紀(jì)90年代以后，尤其是Reynolds[20]對高斯混合模型(Gaussian mixture model, GMM)作了詳細(xì)介紹后，GMM以其簡單、靈活、有效以及較好的魯棒性，迅速成為目前與文本無關(guān)的說話人識別中的主流技術(shù)，將說話人識別研究帶入一個新的階段.2000年，Reynolds等人[21]在說話人確認(rèn)任務(wù)中提出了高斯混合模型-通用背景模型GMM-UBM (Gaussian mixture model-Universal background model)結(jié)構(gòu)，為說話人識別從實驗室走向?qū)嵱米鞒隽酥匾暙I.

進入21世紀(jì)，在傳統(tǒng)GMM-UBM的方法上，Kenny,Dehak等人先后提出了聯(lián)合因子分析(Joint factor analysis, JFA)[22]和i-vector模型[23]，將說話人模型映射到低維子空間中，克服了GMM-UBM系統(tǒng)中高斯分量互相獨立的局限性，提高了系統(tǒng)性能.為進一步提高模型的區(qū)分性能力，相關(guān)的區(qū)分性訓(xùn)練方法也應(yīng)運而生.此外，隨著深度機器學(xué)習(xí)在語音識別、圖像處理等領(lǐng)域的快速發(fā)展和成功應(yīng)用，近年來，基于深度學(xué)習(xí)的相關(guān)方法也逐漸應(yīng)用到說話人識別中[24-25]，并取得了不俗的成效.

2 聲紋識別的應(yīng)用

聲紋識別技術(shù)早已在西方許多國家開始應(yīng)用，如：1998年歐洲電信聯(lián)盟應(yīng)用聲紋識別技術(shù)在電信與金融結(jié)合領(lǐng)域，完成了cAvE計劃；2004年美國最大的銀行自動出納機制造商NCR分部，開始試驗自動出納機的聲紋核實效果;同年5月美國加利福尼亞州Beep Card公司發(fā)明了一種帶有特殊安全功能的信用卡，這種信用卡只有在識別出主人的聲音后確認(rèn)身份后才能正常操作;2006年，荷蘭的ABN AMRO銀行率先使用了美國Voice Vault的聲紋識別系統(tǒng)，借助預(yù)先錄制的個人私密問題進行身份驗證.目前在國外，聲紋識別技術(shù)已經(jīng)廣泛應(yīng)用到軍事、國防、政府、金融等多個領(lǐng)域.

國內(nèi)對聲紋識別技術(shù)的研究起步稍晚于國外，但經(jīng)過國內(nèi)研究人員的共同努力，聲紋識別技術(shù)在國內(nèi)已經(jīng)得到了較好的發(fā)展與應(yīng)用.2011年中國建設(shè)銀行與北京得意公司合作，構(gòu)建了基于說話人識別技術(shù)的聲紋電話銀行系統(tǒng)；2013年11月，廈門天聰公司與廈門公安局指揮中心合作，搭建廈門“110”報警聲紋采集與輔警系統(tǒng).2013年12月，北京得意公司與中大信通合作的社區(qū)矯正項目，利用聲紋識別技術(shù)為深圳司法局提供服務(wù).

根據(jù)實際應(yīng)用范疇，下文將從聲紋辨認(rèn)和確認(rèn)等方面詳細(xì)介紹聲紋識別技術(shù)的應(yīng)用，并總結(jié)相關(guān)的行業(yè)及國家標(biāo)準(zhǔn).

2.1 聲紋辨認(rèn)技術(shù)領(lǐng)域

聲紋辨認(rèn)技術(shù)通常廣泛應(yīng)用于公安司法、軍隊國防領(lǐng)域中，如：刑偵破案、罪犯跟蹤、國防監(jiān)聽等[5,26-27]；

1) 監(jiān)聽跟蹤

恐怖分子在作案前后通常會與組織、同伙保持聯(lián)系，通訊中可能會包含關(guān)鍵內(nèi)容.因此，在通信系統(tǒng)或安全監(jiān)測系統(tǒng)中預(yù)先安裝聲紋辨認(rèn)系統(tǒng)，可通過通訊跟蹤和聲紋辨別技術(shù)對罪犯進行預(yù)防和偵查追捕.據(jù)悉，拉登的落網(wǎng)正是美國情報部門充分利用了聲紋鑒別技術(shù).此外，聲紋辨認(rèn)技術(shù)還用于對滿刑釋放的犯罪嫌疑人進行監(jiān)聽和跟蹤，可有效阻止犯罪嫌疑人再次犯科，也利于對其進行及時逮捕.

2) 國防安全

聲紋辨認(rèn)技術(shù)可以察覺電話交談過程中是否有關(guān)鍵說話人出現(xiàn)，繼而對交談內(nèi)容進行跟蹤(戰(zhàn)場環(huán)境監(jiān)聽)；當(dāng)通過電話發(fā)出軍事指令時，可以對發(fā)出命令者進行身份辨認(rèn)(敵我指戰(zhàn)員鑒別).目前該技術(shù)在國外軍事方面已經(jīng)有所應(yīng)用.據(jù)報道，2001年4月1日迫降在我國海南機場的美軍EP-3偵察機就載有類似的聲紋識別偵聽模塊.

3) 公安技偵

犯罪嫌疑人通過非法渠道到獲取受害者的個人信息，通過電話勒索、綁架等刑事犯罪案件時有發(fā)生.如：2015年9月21日，中國警察網(wǎng)新聞報道了一起電話“勒索‘消災(zāi)費’每天恐嚇數(shù)百名學(xué)生家長”的案件；2015年11月19日報道了富豪被綁架勒索的案件等.對于此類的刑事犯罪案件，公安司法人員可利用聲紋辨認(rèn)技術(shù)，從通話語音中鎖定嫌疑犯人、減小刑偵范圍.在車站、飛機、碼頭等公共安檢點裝入聲紋辨認(rèn)系統(tǒng)，可以有效對危險人物進行鑒別和提示，降低肉眼識別所帶來的錯誤，提高人們生命財產(chǎn)的安全性.

2.2 聲紋確認(rèn)技術(shù)領(lǐng)域

隨著互聯(lián)網(wǎng)的快速發(fā)展，便捷的網(wǎng)上交易越來越受人們的親睞，因而遠(yuǎn)程身份認(rèn)證的安全性亟待加強.聲紋確認(rèn)技術(shù)可以滿足網(wǎng)上交易、支付、遠(yuǎn)程身份認(rèn)證的安全性需要，并已逐漸廣泛應(yīng)用于證券交易、銀行交易、個人設(shè)備聲控鎖、汽車聲控鎖、公安取證、信用卡識別等[5,26-27].

1) 網(wǎng)絡(luò)支付

2014年中國互聯(lián)網(wǎng)支付用戶調(diào)研報告顯示，網(wǎng)上支付、手機支付、第三方支付已成為現(xiàn)代人購物付款的主流方式.顯然，網(wǎng)絡(luò)支付的安全性應(yīng)當(dāng)重視起來，網(wǎng)絡(luò)支付的身份認(rèn)證也愈發(fā)重要.近年來，有相關(guān)媒體接二連三地報道支付寶被盜刷、網(wǎng)銀被轉(zhuǎn)出等案件.為了防止這類案件的再次發(fā)生，將聲紋確認(rèn)技術(shù)加入到交易支付中，通過動態(tài)密碼口令等方式進行個人身份認(rèn)證，有效地提高了個人資金和交易支付的安全性.例如，荷蘭ABN AMRO銀行、澳大利亞國家銀行National借助聲紋識別系統(tǒng)實現(xiàn)用戶身份認(rèn)證；全球互聯(lián)網(wǎng)支付系統(tǒng)的領(lǐng)導(dǎo)者Voice Commerce Group也于2008年推出了基于聲紋識別的Voice Pay服務(wù).目前在國內(nèi)，由北京得意公司提供的聲紋認(rèn)證技術(shù)正在中國建設(shè)銀行等領(lǐng)域推廣使用.

2) 聲紋鎖控

據(jù)媒體報道，近幾年數(shù)以萬計的騰訊QQ用戶出現(xiàn)了賬號被盜取的情況.盜號者通過聯(lián)系用戶的親朋好友進行金錢詐騙，給用戶及其親友帶來了嚴(yán)重的損失.為了避免這類事件再次發(fā)生，有必要將聲紋認(rèn)證代替明文密碼認(rèn)證.例如，微信已上線使用基于聲紋動態(tài)口令的登錄方式，極大提高了使用者賬號的安全性.隨著聲紋認(rèn)證技術(shù)的成熟，相信聲紋控鎖技術(shù)將被廣泛地應(yīng)用在各類賬戶聲控密碼鎖、電腦聲控鎖、汽車聲控鎖等領(lǐng)域中.

3) 生存認(rèn)證

有關(guān)資料顯示，全國每年都有上萬人甚至更多的人冒領(lǐng)社保達數(shù)億元之多.為了防止養(yǎng)老金被冒領(lǐng)，進一步完善對養(yǎng)老保險金的管理和監(jiān)督，社保局可通過預(yù)裝聲紋身份認(rèn)證系統(tǒng)，再結(jié)合人工輔助手段，對領(lǐng)養(yǎng)老金者進行現(xiàn)場身份認(rèn)證或當(dāng)本人無法親臨現(xiàn)場時可通過電話進行遠(yuǎn)程身份確認(rèn)，有效地阻止國家社保養(yǎng)老金的流失，提高社保服務(wù)機構(gòu)工作的準(zhǔn)確性和安全性.與其他生物認(rèn)證技術(shù)相比，聲紋認(rèn)證技術(shù)具有更強的遠(yuǎn)程操控性，可快捷靈活地應(yīng)用于遠(yuǎn)程身份認(rèn)證中.

2.3 其他應(yīng)用領(lǐng)域

除了上述相關(guān)應(yīng)用領(lǐng)域，說話人檢測和追蹤技術(shù)也有著廣泛的應(yīng)用.在含有多說話人的語音段中，如何高效準(zhǔn)確地把目標(biāo)說話人檢測標(biāo)識出來有著十分重要的意義.例如，在現(xiàn)有音頻視頻會議系統(tǒng)中，通常設(shè)有多麥克風(fēng)陣列用以實時記錄會議中每一個說話人的講話.通過將說話人追蹤技術(shù)嵌入該會議系統(tǒng)，可實時標(biāo)識每段語音所對應(yīng)的說話人，實時追蹤“who spoke when”.該技術(shù)廣泛應(yīng)用于遠(yuǎn)程會議中，方便會議紀(jì)要總結(jié)，有利于提高公司的工作效率.

2.4 聲紋識別的行業(yè)及國家標(biāo)準(zhǔn)

為了使生物特征識別技術(shù)得到更好的發(fā)展，國際標(biāo)準(zhǔn)化組織(International Organization for Standardization, ISO)對生物特征識別的相關(guān)術(shù)語及其產(chǎn)業(yè)技術(shù)制訂了標(biāo)準(zhǔn)和規(guī)范，其中涵括了聲紋識別技術(shù).我國國家標(biāo)準(zhǔn)和相關(guān)行業(yè)權(quán)威部門也針對聲紋識別技術(shù)制定了一系列的標(biāo)準(zhǔn)及規(guī)范，如[27]：

由北京得意公司、清華大學(xué)智能技術(shù)與系統(tǒng)國家重點實驗室(語音與語言技術(shù)中心)和中國電子技術(shù)標(biāo)準(zhǔn)化研究所共同起草的《自動聲紋識別(說話人識別)技術(shù)規(guī)范》(SJT 11380—2008)于2008年3月11日正式頒布實施，該標(biāo)準(zhǔn)的內(nèi)容主要包括聲紋識別(說話人識別)的術(shù)語與定義、數(shù)據(jù)交換格式和應(yīng)用編程接口，適用于各種計算機、網(wǎng)絡(luò)和智能設(shè)備的聲紋識別系統(tǒng).該標(biāo)準(zhǔn)是我國第1個關(guān)于聲紋識別(說話人識別)的標(biāo)準(zhǔn)，其頒布很好地推動和規(guī)范了我國的聲紋識別產(chǎn)業(yè)的發(fā)展.

由清華大學(xué)、中國科學(xué)院自動化研究所、中國科學(xué)院計算技術(shù)研究所等單位共同起草的《安防生物特征識別應(yīng)用術(shù)語》(GAT 893—2010)標(biāo)準(zhǔn)于2010年12月1日起實施，該標(biāo)準(zhǔn)規(guī)范化了生物特征識別技術(shù)通用術(shù)語，其中包括聲紋識別專用術(shù)語的定義規(guī)范.該標(biāo)準(zhǔn)的頒布實施給生物特征識別技術(shù)的研究帶來了方便，同時也避免了研究人員因濫用自定義術(shù)語而對技術(shù)研究造成不良影響.

2014年9月19日，由全國安防標(biāo)委會人體生物特征識別應(yīng)用分技術(shù)委員會正式發(fā)出公告，《安防聲紋確認(rèn)應(yīng)用算法技術(shù)要求和測試方法》(GAT 1179—2014)標(biāo)準(zhǔn)已通過審核批準(zhǔn)予以頒布，并于2014年10月1日開始實施.該標(biāo)準(zhǔn)是由清華大學(xué)語音和技術(shù)中心和北京得意公司為主要單位共同起草的.該標(biāo)準(zhǔn)首次提出聲紋識別安全分級的概念.它的頒布在一定程度上促進了國內(nèi)聲紋技術(shù)在安防行業(yè)的發(fā)展應(yīng)用.

此外，全國信息標(biāo)準(zhǔn)化委員會生物特征識別分技術(shù)委員會(SACTC28SC37)也設(shè)有生物特征識別標(biāo)準(zhǔn)委員會，其生物特征識別標(biāo)準(zhǔn)委員會也對生物特征識別在其應(yīng)用領(lǐng)域提供了一些標(biāo)準(zhǔn).這將對生物特征識別技術(shù)的發(fā)展起到推動性的作用.然而，目前這些標(biāo)準(zhǔn)對于生物特征識別行業(yè)的發(fā)展還是遠(yuǎn)遠(yuǎn)不夠的，更多更精細(xì)的標(biāo)準(zhǔn)有待制定，以此滿足生物特征識別技術(shù)和產(chǎn)業(yè)的發(fā)展.

3 聲紋識別所面臨技術(shù)問題

近年來，聲紋識別技術(shù)發(fā)展迅速，并在許多領(lǐng)域得以應(yīng)用.然而，實際應(yīng)用中的復(fù)雜環(huán)境對聲紋識別系統(tǒng)的魯棒性提出了巨大的挑戰(zhàn).為此，許多高校、科研機構(gòu)和公司企業(yè)針對聲紋識別面臨的各類問題開展了一系列探究，并已提出實施了相應(yīng)解決方案.本節(jié)將羅列聲紋識別技術(shù)所面臨問題和對應(yīng)解決方案[28].

3.1 環(huán)境噪音

實際應(yīng)用中，人們所處的錄音環(huán)境總是包含著各種類型的噪音，如白噪音、音樂播放、開關(guān)門的聲音等等.這些噪音不僅在一定程度上淹沒了語音信號中所蘊含的說話人信息，并且使得聲紋系統(tǒng)無法獲取準(zhǔn)確的說話人聲紋特征.此外，環(huán)境噪音通常是不可預(yù)知的，這使得聲紋識別性能具有極大的不確定性.為了解決環(huán)境噪音對聲紋識別系統(tǒng)的影響，關(guān)于噪音魯棒性的研究陸續(xù)展開；其主要包括2個方向，一方面是提高聲紋特征的噪音魯棒性；另一方面是建立噪音魯棒的聲紋模型.針對聲紋特征，研究者提出了頻譜減法(spectral subtraction)用于解決固定環(huán)境噪音[29-30]；RASTA濾波法用以消除信道緩慢變化的噪音[31]；也有許多算法用以提高特征魯棒性，如主成分分析法[32]、線性判別法[33]和異方差線性判別分析[34]等.針對模型的噪音魯棒性，其通常采用模型補償算法[35-36]來減少測試和訓(xùn)練之間的噪音失配程度.

3.2 信道失配

信道失配是影響聲紋識別性能的另一大因素.在實際應(yīng)用中，語音信號可通過各式各樣的錄音設(shè)備錄制得到，如不同麥克風(fēng)、手機、固定電話、采訪錄音筆等等.而錄音設(shè)備的不同會直接導(dǎo)致語音信號傳輸信道的變化，使得語音信號發(fā)生頻譜畸變，進而嚴(yán)重影響語音聲學(xué)特征和說話人模型對說話人特性的表征能力，造成測試語音聲學(xué)特征與說話人模型在聲學(xué)空間分布上的失配.這種失配在很大程度上降低了說話人識別系統(tǒng)的性能.現(xiàn)有解決信道失配問題的方法也有很多，如傳統(tǒng)GMM-UBM框架下的特征變換(feature transformation)[37-39]、模型補償(model compensation)[40-41]、分?jǐn)?shù)歸一化(score normalization)[21,42]，JFAi-vector模型與區(qū)分性方法(如WCCN[43]，LDA[23,44]，NAP[45]，PLDA[46-47]等)的結(jié)合，在基于神經(jīng)網(wǎng)絡(luò)的說話人識別系統(tǒng)中通過消除一些網(wǎng)絡(luò)隱藏節(jié)點[48]等.

3.3 多說話人

多說話人是指在同一時刻有2個或2個以上的人同時說話，從而形成了多說話人的混合語音，其聲紋識別的復(fù)雜性遠(yuǎn)大于單個說話人.在實際應(yīng)用中，說話人在聲紋語音錄制時往往會摻雜其他說話人，如果系統(tǒng)不能實現(xiàn)多說話人的語音分離，將直接影響到聲紋識別系統(tǒng)的性能.為此，研究者提出了說話人分割技術(shù)，對多說話人混合語音進行分割和聚類處理，捕捉獲取語音信號各時間點所對應(yīng)的說話人信息[49].根據(jù)分割聚類過程的不同，可分為同步語音分割聚類和異步語音分割聚類.前者指聲紋系統(tǒng)在分割語音片段的同時判別語音片段所對應(yīng)的說話人類別；后者是將多說話人的混合語音分割成若干個獨立的說話人語音片段，而后再將同一說話人的語音片段聚在一起進行每個說話人身份認(rèn)證[50].

當(dāng)前常用的同步說話人語音分割聚類的算法有：基于E-HMM算法自上而下[51]、自下而上[52-53]的方法；為解決自上而下初始參數(shù)設(shè)定的問題，Imseng等人[54]提出了具有魯棒性的自適應(yīng)方法；由于同步分割聚類系統(tǒng)主要采用基于HMM的方法，為確定HMM狀態(tài)數(shù)，F(xiàn)ox等人[55]先后又提出了基于HDP-HMM的分割聚類算法和粘性的HDP-HMM(sticky HDP-HMM)算法.

3.4 說話人自身

說話人自身的影響是指自身的一些因素對聲紋識別性能帶來的影響.同一個說話人的聲音具有易變性，會受其身體狀況、時變、情感、語速以及語言等各種因素的影響，這些因素的影響也是當(dāng)前語音信號處理的重要難點[56].針對以上提到的這些影響因素，下面將逐一介紹與剖析.

1) 身體狀況.語音發(fā)出者可能由于身體不適，如感冒、喉炎、鼻塞及其他原因，引起聲音變化，這種變化會使聲紋特征發(fā)生畸變，導(dǎo)致聲紋識別的準(zhǔn)確度降低.早在1996年，Tull等人[57-58]已經(jīng)對感冒在說話人識別中所帶來的影響展開了相關(guān)的研究.該研究分別在感冒情況下和正常情況下的聲道、基頻和梅爾倒譜系數(shù)、共振峰等信號參數(shù)進行了分析.研究發(fā)現(xiàn)，感冒情況下的語音信號中含有由于嗓子嘶啞和咳嗽所產(chǎn)生的噪音，而這種噪音在正常語音中是不存在的.

2) 時變.人的聲道會隨著年齡的增長而變化，因此同一個人在不同年齡階段所發(fā)出的聲音也是有所不同的[59-60].在實際應(yīng)用中發(fā)現(xiàn)，聲紋預(yù)錄和聲紋驗證通常不在同一個時間段甚至相隔了很長時間，而這種時間間隔會對聲紋識別系統(tǒng)性能造成明顯的衰減[61-62].為提高聲紋識別系統(tǒng)的時變魯棒性，研究者提出了一系列方法.如定期要求用戶進行聲紋模型更新，或者借助最新用戶數(shù)據(jù)完成用戶聲紋模型自適應(yīng)更新[63-66].從特征域角度，有研究者提出了基于F-ratio準(zhǔn)則的頻帶區(qū)分性特征算法和基于性能驅(qū)動的頻帶彎折算法[67-68]，其強調(diào)說話人個性信息的同時弱化時變信息，提取了時變魯棒的聲紋特征.

3) 情感.情感屬于語音中的一種信息，同一個人在不同情感下所發(fā)出的語音是有所不同的.在實際應(yīng)用中，用戶情緒不可能是一成不變的，其通常會受各種因素的影響而產(chǎn)生不同情緒化的語音，其對說話人的音量、語速、語調(diào)均會產(chǎn)生一定的影響.有研究表明，在不同的情緒狀態(tài)(喜、怒、哀、樂)下，每種狀態(tài)的頻譜分布有所不同[69-71].為此，針對情感對聲紋識別的影響，研究者提出了附加情感的模型訓(xùn)練方法[72]，以此獲取情感相關(guān)的聲紋模型；此外，還有研究者提出了基于特征和模型聯(lián)合優(yōu)化的方法[73-74]，將情感特征投影到中性特征空間，進而弱化情感信息的影響.

4) 語速.語速是對一個人說話快慢的度量，其是一種高層的說話人信息.對同一個人而言，當(dāng)其在重復(fù)同一段話時，幾乎不可能實現(xiàn)語音的時間同步，而這就是由語速快慢而造成的[75].有研究表明，語速對聲紋識別系統(tǒng)有較大的影響，語速過快或者過慢均會使系統(tǒng)性能降低[76].針對語速的研究尚少，目前是在文本相關(guān)的聲紋識別系統(tǒng)上采用時間對準(zhǔn)的方法降低語速對系統(tǒng)性能的影響[77]；而對于文本無關(guān)的聲紋識別，由于無法預(yù)知時間對準(zhǔn)信息，因此對語速的研究較為棘手.

5) 跨語言.跨語言是指說話人在進行聲紋預(yù)留和聲紋驗證時使用不同的語言，如：說話人使用漢語進行模型訓(xùn)練，而用英語進行聲紋驗證.實驗表明，與同語言識別結(jié)果相比，跨語言聲紋識別準(zhǔn)確率大幅降低[78].在這個多民族、多國家、多文化的時代，單一的語言已經(jīng)不能滿足人們工作和學(xué)習(xí)交流的需要，因此，跨語言聲紋識別是必須要解決的問題.針對跨語言聲紋識別已經(jīng)有了一些成果，如在聲紋建模時采用多種語言的語音，訓(xùn)練一個多語言說話人模型，提高模型的語言魯棒性[78]；提取更加魯棒的聲紋特征，削弱語言信息的影響[79]；提出語言因子補償算法[80]，試圖將語音中的語言因子信息消除，進而降低跨語言對系統(tǒng)的影響.

3.5 假冒闖入

早在20世紀(jì)90年代，研究者已關(guān)注到生物特征識別中的假冒闖入問題，并針對指紋、人臉識別提出了一系列防假冒闖入的方法和對策.隨著聲紋識別技術(shù)的快速發(fā)展與廣泛應(yīng)用，針對聲紋識別的防假冒闖入研究也逐漸興起[81-83].聲紋識別的防假冒闖入場景主要分為聲音模仿、語音合成、聲音轉(zhuǎn)換和錄音重放4個方面.

1) 聲音模仿.模仿是最早的研究方向[84]，研究者認(rèn)為模仿更多體現(xiàn)的是對韻律和講話風(fēng)格的模仿，而未從根本上改變聲道特性.因此，模仿更多是對人耳的欺騙，而對聲紋識別系統(tǒng)影響不大[85].

2) 語音合成.近年來語音合成技術(shù)發(fā)展迅速，其可借助少量語音實現(xiàn)特定說話人的模型自適應(yīng)，而后將合成得到的特定說話人語音進行聲紋系統(tǒng)假冒闖入[86-89].通過探究正常語音與合成語音在聲學(xué)特性之間的差異性(如：頻譜相位譜動態(tài)特性[88-90]、高階梅爾倒譜系數(shù)的離散度[91]、F0統(tǒng)計[92-93]等)，現(xiàn)已有許多方法對策實現(xiàn)針對語音合成的闖入檢測.

3) 聲音轉(zhuǎn)換.其通常分為離線訓(xùn)練和在線轉(zhuǎn)換2個過程[94]，如何建立訓(xùn)練闖入語音和目標(biāo)語音之間的轉(zhuǎn)換函數(shù)決定了聲音轉(zhuǎn)換假冒闖入的效果.現(xiàn)有的聲音轉(zhuǎn)換檢測方法，如余弦相位譜[90]、MGDF相位譜分析[90]、基于句子層和短時的特征離散度統(tǒng)計[95-96]等.

4) 錄音重放.與前三者相比，錄音重放在實際應(yīng)用中更易出現(xiàn)[81].闖入者無需任何語音學(xué)知識，僅借助簡單的錄音放音設(shè)備即可實現(xiàn)錄音重放闖入[96].與此同時，實驗表明錄音重放闖入率也較高.為此，研究者開展了一系列的研究.如：基于語譜圖，構(gòu)建“語音指紋”模型[97]；針對錄音重放帶來的信道變化，提出了信道檢測算法[98-99]等.

針對實際應(yīng)用中的假冒闖入問題，除了上述提到的各類解決方法外，活體檢測也是一種有效地防闖入機制.活體檢測通俗地講就是判斷系統(tǒng)輸入的是預(yù)先處理得到的語音(如合成語音、轉(zhuǎn)換語音、錄音重放語音)還是真實的活體人聲.如何將活體檢測技術(shù)合理應(yīng)用到聲紋識別系統(tǒng)中，對防假冒闖入和提高系統(tǒng)魯棒性具有十分重要的意義.近年來許多研究機構(gòu)和公司開展了一系列研究，并提出了相應(yīng)的技術(shù)方案[100-101].

3.6 短語音

對于實際應(yīng)用中的聲紋識別系統(tǒng)，其用戶體驗性的好壞已成為一項重要的評價指標(biāo)，顯然較短的測試語音時長會帶來更好的用戶體驗；此外，在很多聲紋識別的應(yīng)用領(lǐng)域，實際使用時無法獲取足夠長度的測試語音(如刑偵安防等領(lǐng)域).因此，研究較短的測試語音時長下的聲紋識別具有很強的現(xiàn)實意義.

早在1983年，研究者就注意到語音時長對說話人系統(tǒng)的性能有著直接的影響[102].然而，對于目前主流的幾種聲紋識別系統(tǒng)(GMM-UBM,i-vector,JFA)，在較短測試語音條件下的系統(tǒng)性能變化均十分劇烈，且都不能取得令人滿意的效果.其原因在于短語音測試條件下，測試語音中所包含的說話人信息不均衡，進而導(dǎo)致訓(xùn)練與識別的匹配性嚴(yán)重下降；此外，短語音條件下測試語音中的信息量太少，不足以提供充足的區(qū)分性信息，使得識別混淆度變大[2].

近些年來，針對短語音聲紋識別，研究者們也提出了一系列方法與對策.例如：從語音中篩選更具有區(qū)分性的數(shù)據(jù)[103]；融合不同聲學(xué)特征獲得更魯棒的特征參數(shù)[104]；結(jié)合語音識別的先驗知識構(gòu)建更精細(xì)的聲紋模型[105]；更合理準(zhǔn)確的雙邊似然分計算方式[106]等.

4 總結(jié)與展望

本文對生物特征技術(shù)中的聲紋識別作了詳細(xì)介紹.綜述了聲紋識別的基本概念、應(yīng)用領(lǐng)域、行業(yè)標(biāo)準(zhǔn)、聲紋識別所面臨問題及其解決方案，同時對現(xiàn)有和未來的潛在應(yīng)用進行了介紹.

聲紋識別技術(shù)發(fā)展到今天，對所面臨問題的解決方法并未完全成熟，與實際情景中的運用還存在一定的距離，但聲紋識別技術(shù)在未來方方面面的潛在應(yīng)用是有目共睹的.該技術(shù)有望應(yīng)用于金融安全、公共安全、社保生存認(rèn)證、社區(qū)矯正系統(tǒng)、移動互聯(lián)網(wǎng)安全、車聯(lián)網(wǎng)安全等各個領(lǐng)域.

目前，在實際應(yīng)用中，可通過聲紋識別融合其他的生物認(rèn)證方式如人臉、指紋、虹膜等技術(shù)的優(yōu)勢提高系統(tǒng)識別認(rèn)證的安全性；在遠(yuǎn)程身份認(rèn)證中，可以聲紋認(rèn)證為主、人工為輔對操作者進行雙重認(rèn)證；在手機支付及聲紋鎖認(rèn)證中，可借助動態(tài)隨機碼和語音識別以防止錄音假冒的闖入.總之，在不同的應(yīng)用場合下，可根據(jù)實際的需求，靈活地使用聲紋識別認(rèn)證技術(shù).

聆聽美好聲音，科技不僅在你的身邊，還在你的聲音中.用你的聲音探索身邊的科技，用你的聲音掌控你身邊的智能設(shè)備，聲紋識別技術(shù)會讓科技更人性化，讓人們的生活更愉快、更輕松.

[1]Wikipedia. Biomerics. [OL]. [2015-12-20]. https://en.wikipedia.org/wiki/Biometrics

[2]張陳昊. 短語音說話人識別研究[D]. 北京: 清華大學(xué)計算機科學(xué)與技術(shù)系, 2014

[3]中華人民共和國電子行業(yè)標(biāo)準(zhǔn). SJ/T 11380—2008. 自動聲紋識別(說話人識別)技術(shù)規(guī)范[J]. 信息技術(shù)與標(biāo)準(zhǔn)化, 2008 (8): 27-29

[4]Atal B S. Automatic recognition of speakers from their voices[J]. Proceedings of the IEEE,1976, 64(4): 460-475

[5]Campbell Jr J P. Speaker recognition: A tutorial[J]. Proceedings of the IEEE, 1997, 85(9): 1437-1462

[6]Wikipedia. Speaker recognition[OL]. [2015-12-20]. https://en.wikipedia.org/wiki/Speaker_recognition

[7]Martin A, Doddington G, Kamm T, et al. The DET curve in assessment of detection task performance[C] //Proc of the European Conf on Speech Communication and Technology (Eurospeech 1997). 1997: 1895-1898

[8]吳璽宏. 聲紋識別聽聲辨人[N]. 計算機世界, 2001-08-13

[9]Pruzansky S, Mathews M V. Talker-recognition procedure based on analysis of variance[J]. Journal of the Acoustical Society of America, 1965, 36(11): 2041-2047

[10]Atal B S, Hanauer S L. Speech analysis and synthesis by linear prediction of the speech wave[J]. Journal of the Acoustical Society of America, 1971, 50(2B): 637-655

[11]Doddington G R, Flanagan J L, Lummis R C. Automatic speaker verification by non-linear time alignment of acoustic parameters: US Patent 3,700,815[P]. 1972-10-24

[12]Atal B S. Automatic speaker recognition based on pitch contours[J]. Journal of the Acoustical Society of America, 1972, 52(6B): 1687-1697

[13]Makhoul J, Cosell L. LPCW: An LPC vocoder with linear predictive spectral warping[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 1976: 466-469

[14]Hermansky H. Perceptual linear predictive (PLP) analysis of speech[J]. Journal of the Acoustical Society of America, 1990, 87(4): 1738-1752

[15]Vergin R, O’shaughnessy D, Farhat A. Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition[J]. IEEE Trans on Speech and Audio Processing, 1999, 7(5): 525-532

[16]Sakoe H, Chiba S. Dynamic programming algorithm optimization for spoken word recognition[J]. IEEE Trans on Acoustics, Speech and Signal Processing, 1978, 26(1): 43-49

[17]Burton D K, Shore J E, Buck J T. A generalization of isolated word recognition using vector quantization[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 1983: 1021-1024

[18]Rabiner L R, Juang B H. An introduction to hidden Markov models[J]. ASSP Magazine, 1986, 3(1): 4-16

[19]Jain A K, Mao J, Mohiuddin K M. Artificial neural networks: A tutorial[J]. Computer, 1996, 29(3): 31-44

[20]Reynolds D. Gaussian mixture models[M] //Encyclopedia of Biometrics. Berlin: Springer, 2009: 659-663

[21]Reynolds D A, Quatieri T F, Dunn R B. Speaker verification using adapted Gaussian mixture models[J]. Digital Signal Processing, 2000, 10(1): 19-41

[22]Dehak N, Dumouchel P, Kenny P. Modeling rosodic features with joint factor analysis for speaker verification[J]. IEEE Trans on Audio, Speech, and Language Processing, 2007, 15(7): 2095-2103

[23]Dehak N, Kenny P, Dehak R, et al. Front-end factor analysis for speaker verification[J]. IEEE Trans on Audio, Speech, and Language Processing, 2011, 19(4): 788-798

[24]Variani E, Lei X, McDermott E, et al. Deep neural networks for small footprint text-dependent speaker verification[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2014: 4052-4056

[25]Kenny P, Gupta V, Stafylakis T, et al. Deep neural networks for extracting Baum-Welch statistics for speaker recognition[C] //Proc of the IEEE Odyssey—The Speaker and Language Recognition Workshop. Piscataway, NJ: IEEE, 2014

[26]Furui S. Recent advances in speaker recognition[C] //Proc of the Audio-and Video-based Biometric Person Authentication. Berlin: Springer, 1997: 235-252

[27]Zheng T F. Prove yourself by yourself with the use of speaker recognition technology[EB/OL]. [2015-12-20]. http://cslt.riit.tsinghua.edu.cn/fzheng/R&D.htm#R&D_Invited

[28]Zheng T F, Jin Q, Li L T, et al. An overview of robustness related issues in speaker recognition[C] //Proc of the Asia-Pacific Signal and Information Processing Association Annual Summit and Conf (APSIPA ASC 2014). 2014: 1-10

[29]Boll S F. Suppression of acoustic noise in speech using spectral subtraction[J]. IEEE Trans on Acoustics, Speech and Signal Processing, 1979, 27(2): 113-120

[30]Berouti M, Schwartz R, Makhoul J. Enhancement of speech corrupted by acoustic noise[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 1979: 208-211

[31]Hermansky H, Morgan N. RASTA processing of speech[J]. IEEE Trans on Speech and Audio Processing, 1994, 2(4): 578-589

[32]Kocsor A, Tóth L, Kuba A, et al. A comparative study of several feature transformation and learning methods for phoneme classification[J]. Journal of Speech Technology, 2000, 3(3/4): 263-276

[33]Lomax R G, Hahs-Vaughn D L. Statistical Concepts: A Second Course[M]. United States of America: Taylor & Francis Group, 2012

[34]Saon G, Padmanabhan M, Gopinath R, et al. Maximum likelihood discriminant feature spaces[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2000: 1129-1132

[35]Gales M J F, Young S J. Robust continuous speech recognition using parallel model combination[J]. IEEE Trans on Speech and Audio Processing, 1996, 4(5): 352-359

[36]Renevey P, Drygajlo A. Statistical estimation of unreliable features for robust speech recognition[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2000: 1731-1734

[37]Reynolds D. Channel robust speaker verification via feature mapping[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2003: 53-56

[38]Zhu D, Ma B, Li H, et al. A generalized feature transformation approach for channel robust speaker verification[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2007: 61-64

[39]Vair C, Colibro D, Castaldo F, et al. Channel factors compensation in model and feature domain for speaker recognition[C] //Proc of the IEEE Odyssey—The Speaker and Language Recognition Workshop. Piscataway, NJ: IEEE, 2006: 1-6

[40]Heck L P, Weintraub M. Handset-dependent background models for robust text-independent speaker recognition[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 1997: 1071-1074

[41]Teunen R, Shahshahani B, Heck L P. A model-based transformational approach to robust speaker recognition[C] //Proc of the 6th Int Conf on Spoken Language Processing (ICSLP 2000). 2000: 495-498

[42]Auckenthaler R, Carey M, Lloyd-Thomas H. Score normalization for text-independent speaker verification systems[J]. Digital Signal Processing, 2000, 10(1): 42-54

[43]Hatch A O, Kajarekar S S, Stolcke A. Within-class covariance normalization for SVM-based speaker recognition[C] //Proc of the INTERSPEECH. 2006

[44]McLaren M, Van Leeuwen D. Source-normalised-and-weighted LDA for robust speaker recognition using i-vectors[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2011: 5456-5459

[45]Solomonoff A, Quillen C, Campbell W M. Channel compensation for SVM speaker recognition[C] //Proc of the IEEE Odyssey—The Speaker and Language Recognition Workshop. Piscataway, NJ: IEEE, 2004: 219-226

[46]Ioffe S. Probabilistic Linear Discriminant Analysis[M]. Computer Vision—ECCV 2006. Berlin: Springer, 2006: 531-542

[47]Prince S J D, Elder J H. Probabilistic linear discriminant analysis for inferences about identity[C] //Proc of the 11th Int Conf on Computer Vision (ICCV). Piscataway, NJ: IEEE, 2007: 1-8

[48]Kishore S P, Yegnanarayana B. Speaker verification: Minimizing the channel effects using autoassociative neural network models[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2000: 1101-1104

[49]Tranter S E, Reynolds D. An overview of automatic speaker diarization systems[J]. IEEE Trans on Audio, Speech, and Language Processing, 2006, 14(5): 1557-1565

[50]Kotti M, Moschou V, Kotropoulos C. Speaker segmentation and clustering[J]. Signal Processing, 2008, 88(5): 1091-1124

[51]Meignier S, Bonastre J F, Fredouille C, et al. Evolutive HMM for multi-speaker tracking system[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2000: 1201-1204

[52]Ajmera J, Wooters C. A robust speaker clustering algorithm[C] //Proc of the IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU). Piscataway, NJ: IEEE, 2003: 411-416

[53]Wooters C, Huijbregts M. The ICSI RT07s speaker diarization system[M] //Multimodal Technologies for Perception of Humans. Berlin: Springer, 2008: 509-519

[54]Imseng D, Friedland G. Tuning-robust initialization methods for speaker diarization[J]. IEEE Trans on Audio, Speech, and Language Processing, 2010, 18(8): 2028-2037

[55]Fox E B, Sudderth E B, Jordan M I, et al. A sticky HDP-HMM with application to speaker diarization[J]. The Annals of Applied Statistics, 2011, 5(2A): 1020-1056

[56]Huang C, Chen T, Li S Z, et al. Analysis of speaker variability[C] //Proc of the INTERSPEECH. 2001: 1377-1380

[57]Tull R G, Rutledge J C. Analysis of “cold-affected”speech for inclusion in speaker recognition systems[J]. Journal of the Acoustical Society of America, 1996, 99(4): 2549-2574

[58]Tull R G, Rutledge J C. “Cold Speech” for Automatic Speaker Recognition[C] //Acoustical Society of America 131st Meeting Lay Language Papers, 1996

[59]Kersta L G. Voiceprint Recognition[J]. Nature, 1962, (4861): 1253-1257

[60]Bonastre J F, Bimbot F, Bo? L J, et al. Person authentication by voice: A need for caution[C] //Proc of the INTERSPEECH. 2003

[61]Kato T, Shimizu T. Improved speaker, verification over the cellular phone network using phoneme-balanced and digit-sequence-preserving connected digit patterns[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2003: 57-60

[62]Hébert M. Text-Dependent Speaker Recognition[M]. Berlin: Springer, 2008: 743-762

[63]Bimbot F, Bonastre J F, Fredouille C, et al. A tutorial on text-independent speaker verification[J]. EURASIP Journal on Applied Signal Processing, 2004, 2004: 430-451

[64]Beigi H. Effects of time lapse on speaker recognition results[C] //Proc of the 16th IEEE Int Conf on Digital Signal Processing. Piscataway, NJ: IEEE, 2009: 1-6

[65]Beigi H. Fundamentals of Speaker Recognition[M]. Berlin: Springer, 2011

[66]Lamel L F, Gauvain J L. Speaker verification over the telephone[J]. Speech Communication, 2000, 31(2): 141-154

[67]Wang L-L, Wu X-J, Zheng T F, et al. An investigation into better frequency warping for time-varying speaker recognition[C] //Proc of the Asia-Pacific Signal and Information Processing Association Annual Summit and Conf (APSIPA ASC 2012). 2012: 1-4

[68]Wang L-L, Zheng T F. Creation of time-varying voiceprint database[C] //Proc of the O-COCOSDA 2010. 2010

[69]Bie F-H, Wang D, Zheng T F, et al. Emotional speaker verification with linear adaptation[C] //Proc of the IEEE China Summit & Int Conf on Signal and Information Processing (ChinaSIP). Piscataway, NJ: IEEE, 2013: 91-94

[70]Zetterholm E. Prosody and voice quality in the expression of emotions[C] //Proc of the ICSLP. 1998

[71]Pereira C, Watson C I. Some acoustic characteristics of emotion[C] //Proc of the ICSLP. 1998

[72]Wu T, Yang Y, Wu Z. Improving speaker recognition by training on emotion-added models[M] //Affective Computing and Intelligent Interaction. Berlin: Springer, 2005: 382-389

[73]Shahin I. Speaker identification in emotional environments[J]. Iranian Journal of Electrical and Computer Engineering, 2009, 8(1): 41-46

[74]Bie F-H, Wang D, Zheng T F, et al. Emotional adaptive training for speaker verification[C] //Proc of the Asia-Pacific Signal and Information Processing Association Annual Summit and Conf (APSIPA ASC 2013). Piscataway, NJ: IEEE, 2013: 1-4

[75]Atal B S. Automatic recognition of speakers from their voices[J]. Proceedings of the IEEE, 1976, 64(4): 460-475

[76]Matsui T, Furui S. Comparison of text-independent speaker recognition methods using VQ-distortion and discrete/continuous HMM’s[J]. IEEE Trans on Speech and Audio Processing, 1994, 2(3): 456-459

[77]Yasuda H, Kudo M. Speech rate change detection in martingale framework[C] //Proc of the 12th IEEE Int Conf on Intelligent Systems Design and Applications (ISDA). Piscataway, NJ: IEEE, 2012: 859-864

[78]Ma B, Meng H. English-Chinese bilingual text-independent speaker verification[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2004: 293-296

[79]Nagaraja B G, Jayanna H S. Combination of features for multilingual speaker identification with the constraint of limited data[J]. International Journal of Computer Applications, 2013, 70(6): 1-6

[80]Lu L, Dong Y, Zhao X, et al. The effect of language factors for robust speaker recognition[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2009: 4217-4220

[81]Lindberg J, Blomberg M. Vulnerability in speaker verification—A study of technical impostor techniques[C] //Proc of the Eurospeech. 1999: 1211-1214

[82]Evans N, Kinnunen T, Yamagishi J. Spoofing and countermeasures for automatic speaker verification[C] //Proc of the INTERSPEECH. 2013: 925-929

[83]Wu Z, Evans N, Kinnunen T, et al. Spoofing and countermeasures for speaker verification: A survey[J]. Speech Communication, 2015, 66: 130-153

[84]Lau Y W, Wagner M, Tran D. Vulnerability of speaker verification to voice mimicking[C] //Proc of the 2004 IEEE Int Symp on Intelligent Multimedia, Video and Speech Processing. Piscataway, NJ: IEEE, 2004: 145-148

[85]Perrot P, Aversano G, Blouet R, et al. Voice forgery using ALISP: Indexation in a client memory[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2005: 17-20

[86]Masuko T, Tokuda K, Kobayashi T, et al. Speech synthesis using HMMs with dynamic features[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 1996: 389-392

[87]Masuko T, Tokuda K, Kobayashi T, et al. Voice characteristics conversion for HMM-based speech synthesis system[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 1997: 1611-1614

[88]De Leon P L, Pucher M, Yamagishi J, et al. Evaluation of speaker verification security and detection of HMM-based synthetic speech[J]. IEEE Trans on Audio, Speech, and Language Processing, 2012, 20(8): 2280-2290

[89]Galou G, Chollet G. Synthetic voice forgery in the forensic context: a short tutorial[C] //Proc of the Forensic Speech and Audio Analysis Working Group (ENFSI-FSAAWG). 2011

[90]Wu Z, Siong C E, Li H. Detecting converted speech and natural speech for anti-spoofing attack in speaker recognition[C] //Proc of the INTERSPEECH. 2012

[91]Chen L-W, Guo W, Dai L-R. Speaker verification against synthetic speech[C] //Proc of the 7th Int Symp on Chinese Spoken Language Processing (ISCSLP). 2010: 309-312

[92]Ogihara A, Hitoshi U, Shiozaki A. Discrimination method of synthetic speech using pitch frequency against synthetic speech falsification[J]. IEICE Trans on Fundamentals of Electronics, Communications and Computer Sciences, 2005, 88(1): 280-286

[93]De Leon P L, Stewart B, Yamagishi J. Synthetic speech discrimination using pitch pattern statistics derived from image analysis[C] //Proc of the INTERSPEECH. 2012

[94]Stylianou Y. Voice transformation: A survey[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2009: 3585-3588

[95]Alegre F, Vipperla R, Evans N. Spoofing countermeasures for the protection of automatic speaker recognition systems against attacks with artificial signals[C] //Proc of the INTERSPEECH. 2012

[96]Alegre F, Amehraye A, Evans N. Spoofing countermeasures to protect automatic speaker verification from voice conversion[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 2013: 3068-3072

[97]Wu Z, Gao S, Cling E S, et al. A study on replay attack and anti-spoofing for text-dependent speaker verification[C] //Proc of the Asia-Pacific Signal and Information Processing Association, 2014 Annual Summit and Conference (APSIPA ASC). Piscataway, NJ: IEEE, 2014: 1-5

[98]Villalba J, Lleida E. Detecting replay attacks from far-field recordings on speaker verification systems[M] //Biometrics and ID Management. Berlin: Springer, 2011: 274-285

[99]Wang Z-F, Wei G, He Q-H. Channel pattern noise based playback attack detection algorithm for speaker recognition[C] //Proc of the IEEE Int Conf on Machine Learning and Cybernetics (ICMLC). Piscataway, NJ: IEEE, 2011: 1708-1713

[100]Shiota S, Villavicencio F, Yamagishi J, et al. Voice liveness detection algorithms based on pop noise caused by human breath for automatic speaker verification[C] //Proc of the 16th Annual Conf of the International Speech Communication Association. 2015: 239-243

[101]鄭方. 基于動態(tài)密碼語音的身份確認(rèn)系統(tǒng)及方法: 中國, ZL201310123555.0[P]. 2015-02-25

[102]Li K P, Wrench Jr E H. An approach to text-independent speaker recognition with short utterances[C] //Proc of the IEEE Int Conf on Acoustics, Speech, and Signal Processing (ICASSP). Piscataway, NJ: IEEE, 1983: 555-558

[103]Kwon S, Narayanan S. Robust speaker identification based on selective use of feature vectors[J]. Pattern Recognition Letters, 2007, 28(1): 85-89

[104]Zhang C-H, Zheng T F. A fishervoice based feature fusion method for short utterance speaker recognition[C] //Proc of the IEEE China Summit & Int Conf on Signal and Information Processing (ChinaSIP). Piscataway, NJ: IEEE, 2013: 165-169

[105]Zhang C-H, Wu X-J, Zheng T F, et al. A K-phoneme-class based multi-model method for short utterance speaker recognition[C] //Proc of the Asia-Pacific Signal & Information Processing Association Annual Summit and Conference (APSIPA ASC 2012). 2012: 1-4

[106]Malegaonkar A, Ariyaeeinia A, Sivakumaran P, et al. On the enhancement of speaker identification accuracy using weighted bilateral scoring[C] //Proc of the 42nd IEEE Annual Int Carnahan Conf on Security Technology (ICCST). Piscataway, NJ: IEEE, 2008: 254-258

鄭方

教授，博士生導(dǎo)師，主要研究方向為說話人識別、語音識別、自然語言處理.

fzheng@tsinghua.edu.cn

李藍(lán)天

博士研究生，主要研究方向為說話人識別.

lilt@cslt.riit.tsinghua.edu.cn

張慧

本科生，主要研究方向為說話人識別.

hebe.hui.zhang@gmail.com

艾斯卡爾·肉孜

博士研究生，主要研究方向為說話人識別.

askar@cslt.riit.tsinghua.edu.cn

Overview of Voiceprint Recognition Technology and Applications

Thomas Fang Zheng1,2,3, Li Lantian1,2,3, Zhang Hui4, and Askar Rozi1,2,3

1(CenterforSpeechandLanguageTechnologies,DivisionofTechnicalInnovationandDevelopment,TsinghuaNationalLaboratoryforInformationScienceandTechnology,Beijing100084)2(CenterforSpeechandLanguageTechnologies,ResearchInstituteofInformationTechnology,TsinghuaUniversity,Beijing100084)3(DepartmentofComputerScienceandTechnology,TsinghuaUniversity,Beijing100084)4(CollegeofScienceandTechnology,GuizhouUniversity,Guiyang550001)

With the rapid development of information technology, how to identify a person to protect hisher personal privacy as well as information security has become a hot issue. Comparing with the traditional identity authentication, the biometric authentication technologies have the features of not being to get lost, to be stolen or forgotten when being used. The use of them is not only fast and convenient, but also accurate and reliable. Being one of the most popular biometric authentication technologies, the voiceprint recognition technology has its unique advantages in the field of remote authentication and other areas, and has attracted more and more attention. In this paper, the voiceprint recognition technology and its applications will be mainly introduced, including the fundamental concept, development history, technology applications and industrial standardizations. Various kinds of problems and corresponding solutions are overviewed, and the prospects are pointed out finally.

biometric recognition; identity authentication; voiceprint recognition; development history; technology applications

2016-01-03

國家自然科學(xué)基金項目(61271389，61371136)；國家“九七三”重點基礎(chǔ)研究發(fā)展計劃基金項目(2013CB329302)

TP391.4