• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      淺談聲紋識(shí)別技術(shù)與安全

      2017-02-14 09:26:36阿里巴巴安全部
      關(guān)鍵詞:聲紋識(shí)別聲紋語音

      阿里巴巴安全部 王 炎

      淺談聲紋識(shí)別技術(shù)與安全

      阿里巴巴安全部 王 炎

      0 前言

      在這個(gè)移動(dòng)互聯(lián)網(wǎng)大行其道的年代,人們不用互相見面就可以完成很多事情,比如社交、購物、網(wǎng)上開店、金融交易等等,但是如何驗(yàn)證身份變成了人和人在不見面的情況下最難的事情。傳統(tǒng)的解決方案就是密碼或者秘鑰,它需要你記住或者存起來,容易忘又容易丟,還容易被黑客利用各種手段攻擊。有多少人使用“123456“這種簡單密碼在網(wǎng)絡(luò)上行走,他們就是黑客們最喜歡的目標(biāo); 你家的路由器是不是還在用”admin”這種默認(rèn)密碼,這就是物聯(lián)網(wǎng)領(lǐng)域中安全最薄弱的環(huán)節(jié)。不過,好在我們每個(gè)人身上都長滿了“活密碼”,指紋、臉、聲音、眼睛等等,都是人和人之間相互區(qū)分的獨(dú)一無二的標(biāo)識(shí),我們稱之為“生物特征”。聲音就是這種一種可以反映人身份的生物特征,參考“指紋”的命名方式,我們可以叫它“聲紋”,見圖1。

      圖1 各種生物特征比較

      聲紋是指人類語音中攜帶言語信息的聲波頻譜,它同指紋一樣,具備獨(dú)特的生物學(xué)特征,具有身份識(shí)別的作用,不僅具有特定性,而且具有相對(duì)的穩(wěn)定性。聲音信號(hào)是一維連續(xù)信號(hào),將它進(jìn)行離散化后,就可以得到我們現(xiàn)在常見的計(jì)算機(jī)可以處理的聲音信號(hào),見圖2。

      圖2 計(jì)算機(jī)可以處理的離散聲音信號(hào)

      聲紋識(shí)別(也稱說話人識(shí)別)技術(shù)也如同現(xiàn)在在智能手機(jī)上應(yīng)用十分廣泛的指紋識(shí)別技術(shù)一樣,從說話人發(fā)出的語音信號(hào)中提取語音特征,并據(jù)此對(duì)說話人進(jìn)行身份驗(yàn)證的生物識(shí)別技術(shù)。每個(gè)人都具有獨(dú)一無二的聲紋,這是由我們的發(fā)聲器官在成長過程中逐漸形成的特征。無論別人對(duì)我們的說話模仿的多么相似,聲紋其實(shí)都是具有顯著區(qū)別的。

      現(xiàn)實(shí)生活中的“未見其人,先聞其聲”就是人類通過聲音去識(shí)別另一個(gè)人身份的真實(shí)描述,你媽甚至通過你電話里的一個(gè)“喂”字就知道是你,而不是隔壁老王家的兒子打的電話,這是我們?nèi)祟惤?jīng)過長期進(jìn)化所獲得到的超常的能力。雖然目前計(jì)算機(jī)還做不到通過一個(gè)字就判斷出人的身份,但是利用大量的訓(xùn)練語音數(shù)據(jù),可以學(xué)出一個(gè)“智商”還不錯(cuò)的“聲紋”大腦,它在你說出8-10個(gè)字的情況下可以判斷出是不是你在說話,或者在你說1分鐘以上的話后,就可以準(zhǔn)確地判斷出你是否是給定的1000人中的一員。這里面其實(shí)包含了大部分生物識(shí)別系統(tǒng)都適用的重要概念:1:1 和1:N,同時(shí)也包含了只有在聲紋識(shí)別技術(shù)中存在的獨(dú)特的概念:內(nèi)容相關(guān)和內(nèi)容無關(guān)。

      1 工作原理

      對(duì)于一個(gè)生物識(shí)別系統(tǒng)而言,如果它的工作模式是需要你提供自己的身份(賬號(hào))以及生物特征,然后跟之前保存好的你本人的生物特征進(jìn)行比對(duì),確認(rèn)兩者是否一致(即你是不是你),那么它是一個(gè)1:1的識(shí)別系統(tǒng)(也可以叫說話人確認(rèn),Speaker Verification); 如果它只需要你提供生物特征,然后從后臺(tái)多條生物特征記錄中搜尋出哪個(gè)是你(即你是誰),或者哪個(gè)都不是你,那么它是一個(gè)1:N的識(shí)別系統(tǒng)(也可以叫辨認(rèn),Speaker Identification),見圖3。技術(shù)上,簡單的聲紋識(shí)別的系統(tǒng)工作流程圖來見圖4。

      圖3 說話人確認(rèn)和說話人辨認(rèn)

      圖4 聲紋識(shí)別工作流程圖

      對(duì)于聲紋識(shí)別系統(tǒng)而言,如果從用戶所說語音內(nèi)容的角度出發(fā),則可以分為內(nèi)容相關(guān)和內(nèi)容無關(guān)兩大類技術(shù)。顧名思義,“內(nèi)容相關(guān)”就是指系統(tǒng)假定用戶只說系統(tǒng)提示內(nèi)容或者小范圍內(nèi)允許的內(nèi)容,而“內(nèi)容無關(guān)”則并不限定用戶所說內(nèi)容。前者只需要識(shí)別系統(tǒng)能夠在較小的范圍內(nèi)處理不同用戶之間的聲音特性的差異就可以,由于內(nèi)容大致類似,只需要考慮聲音本身的差異,難度相對(duì)較小; 而后者由于不限定內(nèi)容,識(shí)別系統(tǒng)不僅需要考慮用戶聲音之間的特定差異,還需要處理內(nèi)容不同而引起的語音差異,難度較大。

      目前有一種介于兩者之間的技術(shù),可以稱之為“有限內(nèi)容相關(guān)”,系統(tǒng)會(huì)隨機(jī)搭配一些數(shù)字或符號(hào),用戶需正確念出對(duì)應(yīng)的內(nèi)容才可識(shí)別聲紋,這種隨機(jī)性的引入使得文本相關(guān)識(shí)別中每一次采集到的聲紋都有內(nèi)容時(shí)序上的差異,這種特性正好與互聯(lián)網(wǎng)上廣泛存在的短隨機(jī)數(shù)字串(如數(shù)字驗(yàn)證碼)相契合,可以用來校驗(yàn)身份,或者和其他人臉等生物特征結(jié)合起來組成多因子認(rèn)證手段。

      具體到聲紋識(shí)別算法的技術(shù)細(xì)節(jié),在特征層面,經(jīng)典的梅爾倒譜系數(shù)MFCC,感知線性預(yù)測系數(shù)PLP、深度特征Deep Feature、以及能量規(guī)整譜系數(shù)PNCC 等,都可以作為優(yōu)秀的聲學(xué)特征用于模型學(xué)習(xí)的輸入,但使用最多的還是MFCC特征,也可以將多種特征在特征層面或者模型層面進(jìn)行組合使用。在機(jī)器學(xué)習(xí)模型層面,目前還是N.Dehak在2009年提出的iVector框架一統(tǒng)天下,雖然在深度學(xué)習(xí)大紅大紫的今天,聲紋領(lǐng)域也難免被影響,在傳統(tǒng)的UBM-iVector框架下衍化出了DNN-iVector,也僅僅是使用DNN(或者BN)提取特征代替MFCC或者作為MFCC的補(bǔ)充,后端學(xué)習(xí)框架依然是iVector。

      圖5示出了一個(gè)完整的聲紋識(shí)別系統(tǒng)的訓(xùn)練和測試流程,可以看到在其中iVector模型的訓(xùn)練以及隨后的信道補(bǔ)償模型訓(xùn)練是最重要的環(huán)節(jié)。在特征階段,可以使用BottleNeck特征取代或者補(bǔ)充MFCC特征,輸入到iVector框架中訓(xùn)練模型,如圖6所示。

      圖5 聲紋識(shí)別算法的完整訓(xùn)練和識(shí)別框架

      圖6 使用BottleNeck特征訓(xùn)練iVector模型

      在系統(tǒng)層面,不同的特征及模型,可以從不同的維度刻畫說話人的聲音特征,加上有效的分?jǐn)?shù)規(guī)整,將各子系統(tǒng)融合能有效的提高系統(tǒng)的整體性能。

      2 針對(duì)聲紋識(shí)別的攻擊

      聲紋識(shí)別作為一種安全身份認(rèn)證手段,不可避免的要面臨非法用戶的攻擊風(fēng)險(xiǎn)。聲紋識(shí)別算法目前技術(shù)水平有限,很難識(shí)別聲音十分相似的兩人:現(xiàn)在大部分的算法都可以控制在誤識(shí)率在千分之一,即隨機(jī)1000個(gè)不同人的刻意攻擊,有可能會(huì)有一個(gè)人因聲音過于相似而通過。

      2.1 熟人模仿攻擊

      你身邊熟悉你的人模仿你的聲音,去攻擊你的聲紋賬戶,通過的概率比上述隨機(jī)攻擊會(huì)更大一些。當(dāng)然,人與人之間的聲音本身有本質(zhì)的不同,即便人耳不一定能聽出來,聲紋識(shí)別系統(tǒng)對(duì)這種差異是非常敏感的,模仿很難成功攻擊。

      2.2 重放攻擊

      如果你的聲音被某些別有用心的人錄下來,然后在聲紋登錄時(shí)播放你的聲音。當(dāng)前,技術(shù)上對(duì)這種攻擊可以有兩種防范手段:活體檢測和隨機(jī)內(nèi)容聲紋,活體檢測技術(shù)可以有效的識(shí)別出當(dāng)前認(rèn)證的聲音來自于真人還是錄音設(shè)備,而隨機(jī)內(nèi)容聲紋在每次登錄的時(shí)候會(huì)提示用戶必須說隨機(jī)顯示出來的內(nèi)容,只要說的內(nèi)容不一致,認(rèn)證就會(huì)失敗,這樣,讓提前錄好的聲音失效。

      2.3 特定人聲音合成或聲音轉(zhuǎn)換

      利用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等技術(shù),通過對(duì)目標(biāo)人的一段錄音進(jìn)行建模,學(xué)習(xí)出目標(biāo)人的聲音特質(zhì)并將其參數(shù)化,然后將非目標(biāo)人的聲音合成并轉(zhuǎn)化為目標(biāo)人的聲音進(jìn)行攻擊; 在深度學(xué)習(xí)技術(shù)流行之前,傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)合成的聲音在真實(shí)度上比較差,但是近年類似google的WavNet,以及Adobe Project VoCo等技術(shù),極大的提高了聲音合成的真實(shí)度,對(duì)聲紋識(shí)別算法造成了潛在的威脅。

      圖7 聲紋驗(yàn)證信號(hào)處理

      聲紋識(shí)別技術(shù)使用便捷,受限制較少。硬件設(shè)備簡單,只需要有麥克風(fēng)即可; 不受語種、方言、性別和年齡的影響。并且適合遠(yuǎn)程使用,可適用于遠(yuǎn)程控制與識(shí)別領(lǐng)域; 在用戶正常說話中,即可后臺(tái)遠(yuǎn)程進(jìn)行聲紋識(shí)別。用戶接受程度高:不易遺忘,防偽性能好、不易偽造或被盜。隨身“攜帶”,隨時(shí)隨地使用。

      但是它同樣也有一些缺點(diǎn),比如同一個(gè)人的聲音具有易變性,易受身體狀況、年齡、情緒等的影響。不同的麥克風(fēng)和信道對(duì)識(shí)別性能有影響,環(huán)境噪音和混合說話人對(duì)識(shí)別有干擾,并且在部分公共場合,用戶不方便說話。

      目前看來聲紋識(shí)別技術(shù)是未來的發(fā)展趨勢,隨著聲音合成技術(shù)的發(fā)展,對(duì)聲音活體檢測技術(shù)也提出了更高的要求。在大數(shù)據(jù)條件下,利用部分準(zhǔn)確或不準(zhǔn)確的說話人標(biāo)注,自動(dòng)建立說話人模型,具有重要的實(shí)際應(yīng)用意義。

      隨著數(shù)據(jù)資源的增多,對(duì)聲紋識(shí)別系統(tǒng)的檢索要求的相應(yīng)時(shí)間也越來越短。充分利用移動(dòng)互聯(lián)網(wǎng)時(shí)代產(chǎn)生的大量語音數(shù)據(jù),發(fā)揮深度學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)威力,可以將聲紋識(shí)別算法的準(zhǔn)確率和魯棒性大幅提升。

      12月份舉辦的阿里聚安全攻防挑戰(zhàn)賽中,聲紋身份驗(yàn)證攻防閃亮登場。參賽者可以嘗試用聲音攻擊一套聲紋驗(yàn)證系統(tǒng),通過設(shè)計(jì)攻擊用的音頻騙過聲紋驗(yàn)證系統(tǒng),讓系統(tǒng)驗(yàn)證成功。這是阿里聚安全在安全挑戰(zhàn)賽模式上的一大創(chuàng)新,相信未來會(huì)有更多新穎的安全攻防技術(shù)出現(xiàn)在各類挑戰(zhàn)賽中。

      猜你喜歡
      聲紋識(shí)別聲紋語音
      魔力語音
      基于MATLAB的語音信號(hào)處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于MQ3與MP3的價(jià)廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對(duì)方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      屏幕即指紋識(shí)別
      聲紋識(shí)別中的區(qū)分性訓(xùn)練
      淺談一種基于聲紋識(shí)別的教室上課點(diǎn)名系統(tǒng)
      基于i—vector聲紋識(shí)別上課點(diǎn)名系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
      面向移動(dòng)終端的語音簽到系統(tǒng)
      基于數(shù)字水印的人臉與聲紋融合識(shí)別算法
      临武县| 扬州市| 高雄市| 来凤县| 平罗县| 巩留县| 偏关县| 阿坝县| 津市市| 分宜县| 高陵县| 永平县| 稷山县| 河东区| 吉隆县| 三都| 昌宁县| 桓仁| 金乡县| 文昌市| 冷水江市| 新晃| 阿勒泰市| 垣曲县| 新巴尔虎左旗| 汕头市| 宁城县| 汾阳市| 德保县| 罗田县| 西畴县| 临澧县| 乌兰县| 阜康市| 高陵县| 松桃| 常宁市| 修武县| 崇阳县| 封开县| 蓬安县|