• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于ARM的說話人識別系統(tǒng)的研究與實現(xiàn)*

      2014-09-06 10:51:08孫干超王吉林
      電子器件 2014年6期
      關(guān)鍵詞:識別率特征向量語音

      孫干超,王吉林

      (鹽城工學(xué)院信息工程學(xué)院,江蘇 鹽城 224051)

      ?

      基于ARM的說話人識別系統(tǒng)的研究與實現(xiàn)*

      孫干超*,王吉林

      (鹽城工學(xué)院信息工程學(xué)院,江蘇 鹽城 224051)

      提出了一種基于壓縮感知(CS)的說話人識別算法以及在ARM系統(tǒng)中的實現(xiàn),首先,介紹壓縮感知理論框架,提出說話人識別可以與壓縮感知理論相結(jié)合的依據(jù);其次,提出基于壓縮感知的說話人識別算法的基本方法,即建立說話人語音特征數(shù)據(jù)庫和基追蹤匹配得到最大均值系數(shù),其中,語音特征向量由GMM均值超向量核算法得到,大量實驗數(shù)據(jù)表明,該方法一定程度上提高了識別率,并且在說話人集合較大的情況下識別效果較好。

      壓縮感知;說話人識別;基追蹤;高斯混合模型

      語音是人的自然屬性之一,由于各個說話人發(fā)音器官的生理差異以及后天形成的發(fā)音習(xí)慣等行為差異的影響,每個人的語音中蘊含著與眾不同的個人特征[1]。說話人識別就是著眼于提取包含在語音信號中的個人特征,以達到識別說話人的目的。說話人識別按其被輸入的測試語音來分可以分為與文本有關(guān)和與文本無關(guān)的說話人識別。而與文本無關(guān)的說話人識別在今天無疑有著更廣泛的應(yīng)用。

      對于與文本無關(guān)的說話人識別,由于說話人的個性特征具有長時變動性,而且其發(fā)音常常與環(huán)境、說話人情緒、說話人健康有密切關(guān)系[1],實際過程中還可能引入背景噪聲等干擾,這些都是與文本無關(guān)說話人識別的識別率得不到進一步提高的主要因素。為了降低這些因素的影響,人們從事了大量的研究,這些研究可分為3個方面:(1)語音降噪,這一方面是研究的熱點,譜減法[2-3]是對靜態(tài)噪聲最常用的方法,由于通常說話人是在非靜態(tài)噪聲環(huán)境下,譜減法帶來了嚴重的MUSIC噪聲[2-3],所以Tradj C[4]等人采用了自適應(yīng)噪聲抵消技術(shù)來降低噪聲的影響獲得不錯的效果,Soon I Y[5]等人對帶噪語音采用2維傅氏變換,然后進行Wiener濾波;(2)模型優(yōu)化,松井等人[6]把魯棒的距離尺度DIM(Distortion-Intersection Measure)應(yīng)用于說話人識別,把GMM的各高斯分布的兩端用一定值(如3σ)平滑,結(jié)果能較好地吸收特征參數(shù)的變動。Liu C S[7]等提出了基于最近冒名者的模型,Xiang B[8]等人基于結(jié)構(gòu)背景模型提出了一種結(jié)構(gòu)高斯混合模型;(3)對模型輸出的似然概率(得分)進行處理,當(dāng)說話人的個性特征不斷變化、語音與噪聲不能很好地分離或者降噪算法對語音有損傷、模型不能很好地匹配時,需要對似然概率(得分)進行補償[9],Reynolds[10]提出了采用說話人背景模型的平均似然函數(shù)來計算得分;Matsui和Furui[11]提出了基于后驗概率的模型。Markov和Nakagawa[12]將整個語句分成若干幀,計算每幀得分,從而獲得總得分,通過實驗得出識別率有大的提高。Chen K[13]等人基于最小風(fēng)險對得分進行了判決獲得了滿意的結(jié)果。雖然以上沒有考慮目標(biāo)模型和非目標(biāo)模型的幀似然概率的特性,但同時也說明對模型輸出的似然概率進行變換,可以提高識別率。

      針對傳統(tǒng)說話人識別算法會隨著背景噪音的增大而性能降低的問題,本文提出將壓縮感知理論應(yīng)用到說話人識別領(lǐng)域。首先論證了語音信號在說話人識別意義上的可壓縮性,為兩種理論的結(jié)合奠定基礎(chǔ),繼而提出一種基于壓縮感知的說話人識別算法,并進行了實驗論證,結(jié)果表明,基于壓縮感知的說話人識別算法能提高噪音環(huán)境下的說話人識別率。

      1 基于壓縮感知的說話人識別

      1.1 壓縮感知的基本原理

      壓縮感知CS(Compressive Sensing)是一種新型的數(shù)據(jù)采集和編解碼理論[14-15],該理論包括兩個部分:將信號在觀測向量上投影得到觀測值,以及利用重構(gòu)算法由觀測值重構(gòu)信號。

      壓縮感知理論要求信號必須是稀疏的,自然界中的大多數(shù)信號都是稀疏或變換稀疏的(可以壓縮的),即不同類型的信號在不同的變換域下稀疏,比如語音信號在局部傅里葉變換域,圖像信號在離散余弦變換域和小波域,都符合稀疏條件。

      設(shè)一個長度為N的信號x,變換域為Ψ=[ψ1,ψ2,…,ψN],其中ψi(i=1,2,…,N)是長度為N的列向量,則信號x可表示為:

      (1)

      其中θ是在變換域Ψ下的稀疏系數(shù)。

      若x是K稀疏的,稀疏指x本身或者在某種變換域Ψ下有K個非零元素。用一個與稀疏基不相關(guān)的觀測矩陣Φ對信號進行線性變換,得到觀測向量:

      y=Φx

      (2)

      其中,Φ為M×N(M?N)維,通常選取高斯隨機矩陣。具體過程如圖1所示。

      圖1 壓縮感知獲得觀測向量

      重構(gòu)信號可以通過l0范數(shù)優(yōu)化問題找到具有系數(shù)結(jié)構(gòu)的解:

      min‖θ‖0s.t. y=Ξθ

      (3)

      其中,

      Ξ=ΦΨ

      (4)

      由于式(4)是一個很難求解的NP-hard問題,可以用l1約束取代l0約束:

      min‖θ‖1s.t. y=Ξθ

      (5)

      從而,原信號得到恢復(fù)。

      整個壓縮感知的過程如圖2所示。

      圖2 壓縮感知的處理過程

      本文的說話人系統(tǒng)中,不需要最終重構(gòu)信號,可以利用檢測算法直接從稀疏系數(shù)中計算權(quán)重進行判斷,完成說話人識別。

      1.2 基于壓縮感知的說話人識別

      本文選取語音特征向量來構(gòu)建稀疏基,其中語音特征向量由GMM均值超向量核算法生成,從而長度不等的語音片段被映射到一個空間,在這個空間內(nèi)特征向量維數(shù)固定。

      假設(shè)ψi,j∈Rm表示第i個人的第j個語音特征向量,每個人有J個語音特征向量,那么,用Ψi表示屬于第i個人的表達矩陣:

      Ψi=[ψi,1,ψi,2,…,ψi,3]

      (6)

      由線性表達可知[15],若測試語音特征向量y屬于第i個人,則

      y=ai,1ψi,1+ai,2ψi,2+…+ai,Jψi,J

      (7)

      另一方面,所有人的語音特征向量組成的特征數(shù)據(jù)庫可表示為:

      Ψ=[Ψ1,Ψ2,…,ΨI]

      (8)

      其中I為說話人識別的類別數(shù)。

      那么第i類測試y在特征數(shù)據(jù)庫下系數(shù)為:

      θ=[0,0,…,0,ai,1,ai,2,…,ai,J,0,…,0]

      (9)

      可以看出,除了該類對應(yīng)原子系數(shù)不為零,其他原子的系數(shù)全為零。因此,該系數(shù)向量是稀疏的,滿足壓縮感知的恢復(fù)條件。

      系統(tǒng)的識別過程如下:

      第1步:提取待識別的語音信號的GMM均值超向量作為特征向量;

      第2步:將觀測向量代入式(5)求解一范數(shù)約束問題得到稀疏系數(shù);

      第3步:計算類平均稀疏系數(shù),并且將測試說話人判定為均值系數(shù)最大的類:

      (10)

      SK=MAX(S1,S2,…,SI)

      (11)

      其中SK為測試說話人所在的類。

      2 說話人識別系統(tǒng)的硬件平臺設(shè)計

      2.1 硬件平臺設(shè)計

      綜合考慮硬件效率及成本因素,我們所選用的硬件平臺是TI的Devkit8500開發(fā)套件。選用德州儀器(TI)的DM3730處理器作為中央處理器。其中硬件板的結(jié)構(gòu)如圖3所示。

      圖3 硬件平臺的構(gòu)造

      通過對其輸入、輸出口IO(Input Output)的設(shè)置,使其通過集成音頻接口IIS(Integrate Interface of Sound)和集成電路間(Inter-Integrated Circuit)總線與音頻處理芯片進行通信。另外,外擴一片同步動態(tài)隨機存儲器SDRAM(Synchronous Dynamic Random Access Memory)和一片F(xiàn)lash,分別作為程序運行空間和音頻文件、HMM模型數(shù)據(jù)存儲空間。

      LCD顯示屏通過TFT_LCD接口與主板相連,采用觸摸方式進行操控。通過開始按鈕啟動程序,此時通過麥克風(fēng)讀取語音,即可進行識別,并在屏幕上顯示識別結(jié)果,以進行后續(xù)操作。IIS總線用于在ARM A8和音頻接口芯片之間傳輸音頻數(shù)據(jù),IIC總線作控制,數(shù)據(jù)傳輸使用直接存儲訪問DMA(Direct Memory Access)方式。由于TI的DMA控制器沒有內(nèi)置存儲區(qū)域,因此在驅(qū)動程序中要對音頻設(shè)備分配緩存區(qū)。緩存區(qū)的地址由DMA控制器的地址寄存器設(shè)置。

      2.2 軟件平臺及實現(xiàn)算法設(shè)計

      本平臺所選用的內(nèi)核是Linux-2.6內(nèi)核。因為嵌入式Linux是低成本開發(fā)系統(tǒng)??梢詰?yīng)用于多種硬件平臺??梢远ㄖ?可以根據(jù)庫戶的需要,實時地將某些模塊插入到內(nèi)核或者從內(nèi)核中移走,并能根據(jù)設(shè)備的個性量體裁衣。性能優(yōu)異。Linux系統(tǒng)內(nèi)核精簡、高效和穩(wěn)定。能夠充分發(fā)揮硬件的功能,因此它比其他操作系統(tǒng)運行效率要高。并且具有良好的網(wǎng)絡(luò)支持。

      在算法結(jié)構(gòu)中,語音識別是核心模塊,需要完成的操作包括語音信號采集、語音端點檢測、碼本的匹配計算,以及結(jié)果的輸出。ARM板完成的算法結(jié)構(gòu)及其流程如圖4所示。

      圖4 ARM板說話人識別算法實現(xiàn)流程

      3 實驗結(jié)果與分析

      為了檢驗提出的方法的有效性,我們進行了比較實驗。比較的基線系統(tǒng)是M=16時的GMM識別模型系統(tǒng)。實驗中采用NTT數(shù)據(jù)庫。NTT數(shù)據(jù)庫包括35個說話人(22男,13女)的記錄。它是分5個時期持續(xù)10個月收集得到的。訓(xùn)練時使用10句語料,5句對所有說話人都相同,5句則各不相同,但都來自同一時期。測試時采用來自同一時期的10句語料。每句話的平均持續(xù)時間為4 s。語音信號經(jīng)12 kHz采樣,1 Z-1~0.98 Z-1的預(yù)加重,窗長21.33 ms,窗移8 ms的漢明窗后,進行14階LPC分析,然后從14階LPC系數(shù)中求出12階的倒譜系數(shù)和12階Δ倒譜系數(shù)作為說話人識別的特征參數(shù)。

      實驗中使用的噪聲數(shù)據(jù)是日本電子協(xié)會標(biāo)準(zhǔn)噪聲數(shù)據(jù)庫中的行駛中的汽車(2 000 cc組,一般道路)內(nèi)的噪聲(平穩(wěn)噪聲)和展覽會中的展示隔間內(nèi)的噪聲(非平穩(wěn)噪聲)。這些噪聲被按一定的信噪比(SNR)疊加進無噪語音中組成帶噪語音。比較識別結(jié)果如表1所示。

      表1 10名說話人的平均識別率(%)

      通過表1我們發(fā)現(xiàn)基于稀疏理論的壓縮感知方法確實能夠提高說話人識別系統(tǒng)的識別率。尤其在噪聲環(huán)境下,與基線系統(tǒng)相比識別率有較大的提高。

      4 小結(jié)

      針對傳統(tǒng)說話人識別算法會隨著說話人背景噪音的增大而性能降低的問題,本文提出將壓縮感知理論應(yīng)用到說話人識別領(lǐng)域。論證了語音信號在說話人識別意義上的可壓縮性,提出一種基于壓縮感知的說話人識別算法,并進行了實驗論證,結(jié)果表明,基于壓縮感知的說話人識別系統(tǒng)比基于GMM的基線系統(tǒng)有較好的識別率。

      [1]趙力. 語音信號處理[M]. 北京:機械工業(yè)出版社,2003:236-253.

      [2]Pandey P C,Bhandorkar S M. Enhancement of Alaryngeal Speech Using Spectral Subtraction[C]//14th International Conference on DSP 2002. 2002:591-594.

      [3]Zhong Lin,Rafik Goubran. Musical Noise Reduction in Speech Using Two-Dimensional Spectrogram Enhancement[C]//Proceedings of HAVE 2003. 2003:61-64.

      [4]Tadj C,Gabrea M. Towards Robustness in Speaker Verification:Enhancement and Adaptation[C]//MWSCAS-2002. 2002:320-323.

      [5]Soon I Y,Koh S N. Speech Enhancement Using 2-D Fourier Transform[J]. IEEE Transactions on Speech and Audio Processing,2003,11(6):717-724.

      [6]松井知子,古井貞熙. VQ、離散/連續(xù)HMMによるテキスト獨立話者認識法の比較[J]. 電子情報通信學(xué)會論文志,1994;J77-A(4):601-607.

      [7]Liu C S,Wang H C. Speaker Verification Using Normalization Log-Likelihood Score[J]. IEEE Trans Speech and Audio Precessing,1980,4(3):56-60.

      [8]Bing Xiang,Toby Berger,Efficient Text-Independent Speaker Verification with Structural Gaussian Mixture Models and Neural Network[J]. IEEE Trans. Speech and Audio Precessing,2003,11(5):447-456.

      [9]Dat tran,Michael Wagner. A Proposed Likelihood Trasformation for Speaker Verification[C]//ICASSP’00. 2000:1069-1072.

      [10]Douglas A Reynolds. Speaker Identification and Verification Using Gaussian Mixture Speaker Models[J]. Speech Communication,1995:91-108.

      [11]Matsui T,Furui S. Concatenated Phoneme Models for Text Variable Speaker Recognition[C]//Proceeding of ICASSP’93. 1993:391-394.

      [12]Markov K,Nakagawa S. Text-Independent Speaker Recognition System Using Frame Level Likelihood Processing[J]. Technical Report of IEICE,1996,96(17):37-44.

      [13]Ke Chen. Towards Better Making a Decision in Speaker Verification[J]. Pattern Recognition,2003:329-346.

      [14]Baraniuk R. Compressive Sensing[J]. IEEE Signal Processing Magazine,2007,24(3):1092-1099.

      [15]Donoho D. Compressed Sensing Theory[J]. 2006,IEEE Trans Inform,52(4):1289-1306.

      孫干超(1961-),男,漢族,江蘇鹽城人,高級工程師,研究方向為電子技術(shù)與信息處理,ycsgc@163.com。

      SpeakerRecognitionBasedonARM*

      SUNGanchao*,WANGJilin

      (Yancheng Institute of Technology,College of Information Engineering,Yancheng Jiangsu 224051,China)

      To improve the rates of speaker recognition,a method based on the compressed sensing(CS)is proposed. First,the frame of compressed sensing theory is introduced to analyzing the premise of combining the compressed sensing theory with the speaker recognition. Then the major algorithm of speaker recognition based on compressed sensing is advanced,that is the establishment of speakers’ characteristic database and matrix trace to obtain the maximum average coefficients matching. Oceans of experimental data indicate that this method has strong recognition ability and the performance is good when the collection of speakers is huge.

      compressed sensing;speaker recognition;matrix trace;Gaussian mixture model

      2013-12-15修改日期:2013-01-08

      TN912.34

      :A

      :1005-9490(2014)06-1151-04

      10.3969/j.issn.1005-9490.2014.06.029

      猜你喜歡
      識別率特征向量語音
      二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計——以特征值和特征向量為例
      克羅內(nèi)克積的特征向量
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
      計算機工程(2020年3期)2020-03-19 12:24:50
      魔力語音
      基于MATLAB的語音信號處理
      電子制作(2019年14期)2019-08-20 05:43:38
      基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關(guān)系
      基于MQ3與MP3的價廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      提升高速公路MTC二次抓拍車牌識別率方案研究
      一類特殊矩陣特征向量的求法
      临汾市| 武宣县| 五指山市| 特克斯县| 尼木县| 古浪县| 冀州市| 鹰潭市| 德清县| 会同县| 八宿县| 西乡县| 博客| 庆城县| 山阳县| 开远市| 仁怀市| 县级市| 奉节县| 丹巴县| 建始县| 邹平县| 舒城县| 都昌县| 南皮县| 荃湾区| 绿春县| 佛冈县| 麻城市| 方正县| 错那县| 克什克腾旗| 黔西| 英德市| 定日县| 汉沽区| 安仁县| 阜康市| 洪雅县| 南京市| 迁安市|