• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      雙微陣列語音增強算法在說話人識別中的應(yīng)用

      2018-07-20 06:44:56毛維曾慶寧龍超
      聲學技術(shù) 2018年3期
      關(guān)鍵詞:維納濾波麥克風識別率

      毛維,曾慶寧,龍超

      ?

      雙微陣列語音增強算法在說話人識別中的應(yīng)用

      毛維,曾慶寧,龍超

      (桂林電子科技大學信息與通信學院,廣西桂林 541004)

      針對復(fù)雜噪聲環(huán)境下識別性能顯著降低的問題,提出一種用于說話人識別系統(tǒng)前端的雙微陣列語音增強算法。該算法采用的是相干濾波和頻域?qū)拵ё钚》讲顭o畸變響應(yīng)波束形成器后置結(jié)合改進的維納濾波器。其基本原理是首先求出雙微麥克風陣列信號中兩個相鄰?fù)ǖ篱g的相干函數(shù),再利用通道間信號的相干性來進行初始噪聲抑制。其次,通過一個頻域?qū)拵ё钚》讲顭o畸變響應(yīng)(Minimum Variance Distortionless Response, MVDR)波束形成器保留目標聲源方向的信號并抑制其他方向的信號干擾,再通過改進的維納濾波器去除噪聲殘留提升語音質(zhì)量。最后,使用梅爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficients, MFCC)和伽馬通濾波器組頻率倒譜系數(shù)(Gammatone Filter-bank Frequency Cepstral Coefficients, GFCC)對增強后的語音信號做特征參數(shù)提取并進行說話人識別。仿真過程采用聲學人工頭模擬雙耳采集數(shù)據(jù),實驗結(jié)果表明,該語音增強算法在復(fù)雜噪聲環(huán)境下能夠獲得較好的增強效果,能有效提升說話人識別系統(tǒng)的識別率。

      雙微陣列;語音增強;相干濾波;最小方差無畸變響應(yīng);改進維納濾波;說話人識別

      0 引言

      說話人識別是利用說話人的語音特征來確定或鑒定說話人身份的技術(shù)。實際的說話人識別系統(tǒng)受到周圍環(huán)境噪聲的影響,系統(tǒng)識別率嚴重下降,語音增強[1]是解決這一問題的一種方式,其主要目的是從帶噪語音中盡可能地恢復(fù)出原有的純凈語音。語音增強算法種類繁多,其中大多數(shù)算法是使用各種噪聲消除方法結(jié)合語音信號的特征來進行研究,如基于短時譜估計的單通道語音增強算法有:譜減法[2],最小均方誤差方法[3-4],維納濾波方法[5]等。常見的多通道語音增強算法[6]有固定波束形成法、廣義旁瓣抵消器等。在噪聲抑制方面,固定波束形成法有著明顯的缺陷,且處理后的語音信號中仍存在較多的噪聲殘留;而廣義旁瓣抵消器則是在抑制混響和非相干噪聲方面有一定的限制。近年來,說話人識別技術(shù)得到進一步的發(fā)展。在無噪聲干擾的情況下,當前說話人識別系統(tǒng)可以獲得較高的識別率。但是在電噪聲、房間混響等復(fù)雜噪聲情況下,說話人識別系統(tǒng)的識別效果較差,而且存在適用性差以及實用性不足等諸多缺點。而采用麥克風陣列,與單個陣元相比,可以利用麥克風陣列信號的時域、頻域以及空域信息更好地處理說話人的語音并提升語音質(zhì)量。本文針對此問題,利用聲學人工頭模擬頭部雙耳距離,采用一種雙微麥克風陣列來獲取說話人的語音,用相干濾波先將各通道間的含噪語音進行初步的信噪比提升,再通過最小方差無畸變響應(yīng)(Minimum Variance Distortionless Response, MVDR)波束形成器對非目標聲源方向的信號進行噪聲抑制,最后通過一個改進的維納后置濾波器去除殘留噪聲并對語音做增益補償提升可懂度,以此來提升說話人識別系統(tǒng)的識別率。

      1 語音增強

      1.1 雙微陣列

      雙微陣列是由2個子陣元個數(shù)為的麥克風陣列構(gòu)成,其中單個子陣列陣元間距大約為1~2 cm,而兩個子陣列之間的間距一般設(shè)置為15~18 cm,本文采用的子陣列之間間距為16 cm,其中雙微陣列中單個子陣列中的陣元個數(shù)都為2,組成一個2×2的4元陣,雙微陣列的簡易結(jié)構(gòu)如圖1所示。

      圖1 雙微陣列的簡易結(jié)構(gòu)

      1.2 相干濾波器

      圖2 相干濾波原理圖

      首先,對各個麥克風接收到的語音信號進行加窗分幀,接著對每個麥克風信號中的每幀信號進行傅里葉變換,然后求出求出各個麥克風中輸入信號的互功率譜密度(Cross-power Spectral Density, CSD)[9]為

      兩個相鄰麥克風接收到的信號的相干函數(shù)可用式(2)定義:

      通過式(3)判決式來設(shè)置相干濾波閾值,得到相干濾波的增益函數(shù):

      1.3 廣義旁瓣抵消器

      圖3 廣義旁瓣抵消器原理圖

      1.4 頻域?qū)拵ё钚》讲顭o畸變響應(yīng)

      1.5 改進的維納濾波

      研究表明[16],對先驗信噪比和后驗信噪比的高估和低估會對語音的可懂度有一定的影響,在低于-10 dB區(qū)域,估計的先驗信噪比往往會高于理想情況,此區(qū)域所產(chǎn)生的誤差將會明顯降低增強語音的可懂度;在大于6.02 dB區(qū)域,則存在低估的情況,因此,進一步的處理方法如下:

      在小于-10 dB以下區(qū)域,引入偏差值修正頻譜增益函數(shù):

      在大于6.02 dB區(qū)域,有:

      最終可推得:

      通過式(17)~(18)中先驗信噪比和增益函數(shù),可以判定幅度譜大于6.02 dB的放大畸變區(qū)域,對此區(qū)域的幅度譜進行一定的約束為

      本文采用的是雙微麥克風陣列系統(tǒng),模擬頭部雙耳距離,其中通道1、2和通道3、4距離為,為2 cm,而由通道1、2構(gòu)成的子陣列和通道3、4構(gòu)成的子陣列之間的距離為8;因通道1、2和通道3、4相距較遠,麥克風子陣列之間的時空域信息可以獲得更多的有效信息,相干濾波后將輸出信號通過MVDR波束形成器,用于抑制非目標聲源方向上的干擾,并將輸出信號通過改進可懂度的維納濾波器,去除噪聲殘留提高語音質(zhì)量。本文算法結(jié)構(gòu)如圖4所示。

      圖4 本文算法結(jié)構(gòu)圖

      為了驗證該雙微陣列對于說話人識別系統(tǒng)的可行性,給出了單個麥克風陣列、雙麥克風陣列以及雙微陣列在f16噪聲和m109噪聲情況下的主觀語音質(zhì)量評估(Perceptual Evaluation of Speech Quality, PESQ)得分,如表1和表2所示。

      根據(jù)表1和表2的PESQ得分可知,雙微陣列情況下的去噪效果是較好的,因此,將該雙微陣列應(yīng)用在說話人識別系統(tǒng)前端是可行的。

      表1 f16噪聲情況下,不同信噪比下的PESQ得分

      表2 m109噪聲情況下,不同信噪比下的PESQ得分

      2 說話人識別

      本文使用的說話人識別系統(tǒng)是基于高斯混合模型[17-18](Gaussian mixture model, GMM)的文本無關(guān)的說話人辨認系統(tǒng),系統(tǒng)分為兩個階段,一是訓練階段,二是測試階段。在判定階段,對測試語音的特征與訓練模型中的各個特征進行對比,并計算對數(shù)似然度,得分最高的說話人模型為識別結(jié)果,簡易流程圖如圖5所示。

      圖5 說話人識別系統(tǒng)簡易流程圖

      2.1 梅爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficients, MFCC)

      線性預(yù)測倒譜系數(shù)(Linear Prediction Cepstrum Coefficient, LPCC)是一種譜估計方法,語音信號在獲取線性預(yù)測倒譜系數(shù)后在頻域上是線性的,但這與人耳的實際聽覺屬性有所不符合,并且LPCC中的大量的噪聲細節(jié)都出現(xiàn)在語音信號的高頻區(qū)域,這些都會影響系統(tǒng)的性能?;贛FCC系數(shù)對于人耳更為敏感這一聽覺屬性,在說話人識別中得到了廣泛的應(yīng)用。MFCC系數(shù)的基本原理是將經(jīng)過采樣后的信號進行預(yù)加重處理,提升語音信號中的高頻分量,然后對預(yù)加重處理后的語音信號進行加窗分幀,求每一幀信號的快速傅里葉變換,得到信號的能量,接著通過一個梅爾濾波器組并計算每個濾波器組輸出信號的對數(shù)能量,最后進行離散余弦變換(Discrete Cosine Transform, DCT),最終得到MFCC系數(shù)[19]。

      2.2 伽瑪通濾波器組倒譜系數(shù)(Gammatone Filter-bank Frequency Cepstral Coefficients, GFCC)

      伽馬通(Gammatone)濾波器組[20]最初用在模擬聽覺神經(jīng)響應(yīng),是一種常見的耳蝸聽覺濾波器[21]。本文采用的濾波器組的公式如下:

      GFCC系數(shù)提取過程如圖6所示,首先對語音信號進行預(yù)加重處理提升高頻分量,然后對其進行加窗分幀,對每幀語音信號進行快速傅里葉變換,得到的幅度譜通過一個Gammatone濾波器組;最后對其進行離散余弦變換(Discrete Cosine Transform, DCT)。

      圖6 GFCC提取過程

      3 仿真實驗

      本次實驗數(shù)據(jù)錄制環(huán)境為學校教學樓樓頂空曠的天臺,采集設(shè)備為M-AUFIO多路音頻采集器,雙耳采用雙微陣列來模擬,且單個微型陣列中的陣元間距為2 cm,兩個微型陣列之間的距離為16 cm,說話人距離陣列的距離為1~1.5 m。語音和噪聲采集都是在同樣的錄制環(huán)境下,除了說話人位置,在麥克風正前方的任意角度設(shè)置了若干噪聲源。本次實驗采集了20位同學的聲音數(shù)據(jù),其中男生15人,女生5人,每個說話人有10句語音,每段語音時間約3 s,從每個說話人語音中選出5句語音作為訓練模型,同時對每個說話人使用5句語音來測試,總共測試100句,語種為漢語普通話。采集語音和噪聲數(shù)據(jù)時均采用16 kHz的采樣率,采樣精度為16 bit,幀長為32 ms,幀移為16 ms,窗函數(shù)為Hamming窗。為了驗證本文算法在說話人識別系統(tǒng)前端的可行性,對比了以下四種方法:廣義旁瓣抵消(GSC)、相干濾波結(jié)合MVDR、MVDR結(jié)合改進維納濾波以及本文使用的相干濾波結(jié)合MVDR波束形成后置改進維納濾波。圖7為0 dB白噪聲情況下各算法增強后的時域仿真圖,圖8為0 dB白噪聲情況下各算法增強后的時頻圖。

      圖7 白噪聲環(huán)境下各算法增強后時域仿真圖

      圖8 白噪聲情況下各算法增強后的時頻圖

      從圖7的時域仿真圖中可見,廣義旁瓣抵消器的去噪效果較差。相干濾波結(jié)合MVDR雖有一定的效果,但是噪聲殘留較大;而MVDR結(jié)合改進的維納濾波增強后信噪比得到一定的提升,但仍然存在一定的毛刺和部分噪聲殘留。本文提出的相干濾波結(jié)合MVDR波束形成后置改進維納濾波方法不僅在去除噪聲殘留方面得到了提升,同時還通過改進維納濾波器降低了語音的失真度,改善了語音質(zhì)量,在低信噪比環(huán)境下,這些影響是可以忽略的。因此本文提出的雙微陣列語音增強算法適合用于說話人識別系統(tǒng)的前端處理。

      3.1 實驗1

      在說話人識別系統(tǒng)中選取了LPC、MFCC、GFCC這三種特征參數(shù)對白噪聲進行測試,仿真結(jié)果如表3所示。

      表3 三種特征參數(shù)在白噪聲環(huán)境下識別率(%)

      如表3所示,在無白噪聲干擾的環(huán)境下,三種特征參數(shù)的識別率都達到了較高的水平,但總體上,GFCC的識別率明顯高于其他兩種特征參數(shù)提取的識別率。

      3.2 實驗2

      為了驗證本文算法在不同噪聲環(huán)境下的可行性,分別在babble噪聲、volvo噪聲、白噪聲、f16噪聲的環(huán)境下進行測試,計算四種增強算法在說話人識別系統(tǒng)中的識別率。結(jié)合實驗1的仿真結(jié)果,選取26維GFCC作為說話人識別特征,四種噪聲的說話人識別率如圖9所示。

      從圖9中可以看到,廣義旁瓣抵消器由于去噪效果的限制,表現(xiàn)出較低的識別率;而MVDR結(jié)合改進維納濾波算法由于信噪比的提升比GSC去噪算法的識別率更高,但是其去噪效果仍然存在殘留噪聲和部分毛刺。本文提出的雙微陣列語音增強算法通過對相鄰?fù)ǖ篱g的信號進行初步的相干濾波增強,而后通過一個MVDR波束形成后置改進維納濾波器,使其增強效果更明顯,同時減少殘留噪聲。在后置改進維納濾波部分,對有產(chǎn)生失真的語音段進行了增益補償,進一步提高了說話人識別系統(tǒng)的識別率。因此,證明了本文算法的可行性。

      4 結(jié)束語

      針對復(fù)雜噪聲環(huán)境識別性能顯著下降的問題,提出雙微陣列語音增強算法,該算法先在基于兩個相鄰麥克風通道基礎(chǔ)上,進行相干濾波增強,再通過一個MVDR結(jié)合改進的維納濾波器,抑制非目標聲源方向的干擾信號,同時去除噪聲殘留,最后得到增強后的信號。采用聲學人工頭模擬頭部雙耳距離采集數(shù)據(jù),實驗結(jié)果表明通過該算法對說話人識別系統(tǒng)前端進行初步增強后的說話人識別率提升明顯,可應(yīng)用到人工智能機器人的信號采集和說話人識別身份確認系統(tǒng)中。

      [1] LOIZOU P C. Speech enhancement: Theory and Practice[M]. America: The Chemical Rubber Company Press, 2013: 75-109.

      [2] STEVEN F B. A Spectral Substraction Algorithm for Suppression of Acoustic Noise in Speech[J]. IEEE International Conference on Acoustics Speech & Signal Processing, 1979, 27(2): 200-203.

      [3] EPHRAIM Y, MALAH D. Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator [J]. IEEE Transactions on Acoustics Speech and Signal Processing, 1984, 32(6): 1109-1121

      [4] 張鑫琪, 馮海泓, 徐海東. 改進的最小均方誤差語音增強算法的研究[J]. 聲學技術(shù), 2008, 27(2): 230-234.

      ZHANG Xinqi, FENG Haihong, XU Haidong. A study of an improved minimum mean-square error speech enhancement algorithm[J]. Technical Acoustics, 2008, 27(2):230-234.

      [5] 李寧, 蔣建中, 郭軍利. 一種聽覺掩蔽效應(yīng)和維納濾波的語音增強算法[J]. 計算機工程與應(yīng)用, 2011, 47(29): 161-163.

      LI Ning, JIANG jianzhong, GUO Junli. Speech enhancement algorithm based on auditory masking effect and Wiener filter[J]. Computer Engineering and Applications, 2011, 47(29):161-163.

      [6] ALLEN J B, BERKLEY D A, BLAUERT J. Multimicrophone Signal-Processing technique to remove room reverberation from speech signals[J]. J. Acoust. Soc. Am., 1977, 62(4): 912-915.

      [7] YOUSEFIAN N, LOIZOU P C. A dual-microphone speech enhancement algorithm based on the coherence function[J]. IEEE Transactions on Audio Speech & Language Processing, 2011, 20(2): 599-609.

      [8] GHOSH P K, TSIARTAS A, NARAYANAN S. Robust voice activity detection using long-term signal variability[J]. IEEE Transactions on Audio Speech & Language Processing, 2011, 19(3): 600-613.

      [9] 馬金龍, 曾慶寧, 胡丹, 等. 基于麥克風小陣的多噪聲環(huán)境語音增強算法[J]. 計算機應(yīng)用, 2015, 35(8): 2341-2344.

      MA Jinlong, ZENG Qingning, HU Dan, et al. Speech enhancement algorithm based on microphone array under multiple noise envrionments[J]. Journal of Computer Applications, 2015, 35(8): 2341-2344.

      [10] 王群, 曾慶寧, 鄭展恒. 低信噪比環(huán)境下的麥克風陣列語音識別算法研究[J]. 科學技術(shù)與工程, 2017, 17(31): 101-107.

      WANG Qun, ZENG Qingning, ZHENG Zhanheng. Speech recognition based on microphone array in low SNR[J]. Science Technolpgy and Engineering, 2017, 17(31): 101-107.

      [11] GRIFFIITHS L J, JIM C W. An alternative approach to linearly constrained adaptive beamforming[J]. IEEE Transactions on Antennas & Propagation, 1982, 30(1): 27-34.

      [12] CAPON J, GREEENFIELD R J, KOLKER R J. Multidimensional maximum-likelihood processing of a large aperture seismic array[J]. Proceedings of the IEEE, 1967, 55(2): 192-211.

      [13] 鄭恩明, 黎遠松, 陳新華, 等. 改進的最小方差無畸變響應(yīng)波束形成方法[J]. 上海交通大學學報, 2016, 50(2): 188-193.

      ZHENG Enming, LI Yuansong, CHEN Xinhua, et al. Improved bearing resolution approach for MVDR beam-forming[J]. Journal of Shanghai Jiaotong University, 2016, 50(2): 188-193.

      [14] 馬金龍, 曾慶寧, 龍超, 等. 多噪聲環(huán)境下可懂度提升的助聽器語音增強[J]. 計算機工程與設(shè)計, 2016, 37(8): 2160-2164.

      MA Jinlong, ZENG Qingning, LONG Chao, et al. Intelligibility improved speech enhancement for hearing aids in complex noise envrionment[J]. Computer Engineering and Design, 2016, 37(8): 2160-2164.

      [15] SCALART P, FILHO J V. Speech enhancement based on a prior signal to noise estimation[C]//IEEE International Conference on Acoustics, 1996, 629-632.

      [16] 郭利華, 馬建芬. 具有高可懂度的改進的維納濾波的語音增強算法[J]. 計算機應(yīng)用與軟件, 2014, 31(11): 155-157.

      GUO Lihua, MA Jianfen. An improved wiener filtering speech enhancement algorithm with high intelligibility[J]. Computer Applications and Software, 2014, 31(11): 155-157.

      [17] 蔣曄, 唐振民. GMM文本無關(guān)的說話人識別系統(tǒng)研究[J]. 計算機工程與應(yīng)用, 2010, 46(11): 179-182.

      JIANG Ye, TANG Zhenmin. Research on GMM text-independent speaker recognition[J]. Computer Engineering and Applications, 2010, 46(11): 179-182.

      [18] 程小偉, 王健, 曾慶寧, 等. 基于調(diào)制域譜減法的魯棒性說話人識別[J]. 科學技術(shù)與工程, 2017, 17(3): 252-257.

      CHENG Xiaowei, WANG Jian, ZENG Qingning, et al. Robust speaker recognition based on modulation domain spectral subtraction[J]. Science Technology and Engineering, 2017, 17(3): 252-257.

      [19]余建潮, 張瑞林. 基于MFCC和LPCC的說話人識別[J]. 計算機工程與設(shè)計, 2009, 30(5): 1189-1191.

      YU Jianchao, ZHANG Ruilin. Speaker recognition method using MFCC and LPCC features[J]. Computer Engineering and Design, 2009, 30(5): 1189-1191.

      [20] 王玥, 錢志鴻, 王雪, 等.基于伽馬通濾波器組的聽覺特征提取算法研究[J].電子學報, 2010, 38(3): 525-528

      WANG Yue, QIAN Zhihong, WANG Xue, et al. An auditory feature extraction algorithm based on gammatone filter-banks[J]. Acta Electronica Sinica, 2010, 38(3): 525-528.

      [21] 林琳, 陳虹, 陳建. 基于魯棒聽覺特征的說話人識別[J]. 電子學報, 2013, 41(3): 619-624.

      LIN Lin, CHEN Hong, CHEN Jian. Speaker recognition based on robust auditory feature[J]. Acta Electronica Sinica, 2013, 41(3): 619-624.

      Application of dual-mini microphone array speech enhancement algorithm in speaker recognition

      MAO Wei, ZENG Qing-ning, LONG Chao

      (School of Information and Communication, Guilin University of Electronic Technology, Guilin 541004, Guangxi, China)

      Aiming at the problem of lowering recognition performance in noisy speech environment, a dual-mini microphone array speech enhancement algorithm is proposed for the front-end processing of recognition system. The speech enhancement algorithm based on Coherent Filter and MVDR-wiener is presented. First, the dual-mini microphone array signals are collected to derive the coherence function between adjacent channels and to carry out the initial noise suppression by using the coherence between elements. Then, the information of target speech is processed by the broad-band MVDR algorithm to keep the signal in the desired sound source direction and suppress the interference signals in other directions. The improved Wiener filter which can get better voice quality by removing residual noise is utilized to process the enhanced signal. Finally, a speaker recognition system using Mel frequency cepstral coefficients (MFCC) and GFCC for feature extraction is used to recognize the enhanced speech. Binaural data are acquired with acoustic artificial head in simulations, the experimental results show that the speech enhancement algorithm can obtain better enhanced effect in noisy environment and effectively improve the recognition rate.

      dual-mini array; speech enhancement; coherence filtering; minimum variance distortionless response; modified Wiener filter; speaker recognition

      TN912.34

      A

      1000-3630(2018)-03-0253-08

      10.16300/j.cnki.1000-3630.2018.03.011

      2017-06-21;

      2017-08-18

      國家自然科學基金項目(61461011)、教育部重點實驗室2016年主任基金項目資助(CRKL160107)、桂林電子科技大學研究生科研創(chuàng)新項目(2017YJCX16、2017YJCX20)

      毛維(1992-), 男, 湖南岳陽人, 碩士研究生, 研究方向為語音增強、語音識別等。

      龍超, E-mail:bishe006@163.com

      猜你喜歡
      維納濾波麥克風識別率
      基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
      計算機工程(2020年3期)2020-03-19 12:24:50
      多級維納濾波器的快速實現(xiàn)方法研究
      自適應(yīng)迭代維納濾波算法
      Binaural Rendering based on Linear Differential Microphone Array and Ambisonic Reproduction
      基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關(guān)系
      基于數(shù)字麥克風的WIFI語音發(fā)射機
      電子測試(2018年23期)2018-12-29 11:11:24
      提升高速公路MTC二次抓拍車牌識別率方案研究
      基于多窗譜估計的改進維納濾波語音增強
      基于維納濾波器的去噪研究
      麥克風的藝術(shù)
      小學科學(2016年12期)2017-01-06 19:36:17
      郸城县| 林州市| 克拉玛依市| 莱芜市| 泽库县| 穆棱市| 应用必备| 遵义市| 根河市| 三台县| 津南区| 瑞丽市| 高邮市| 财经| 遂溪县| 扎赉特旗| 甘谷县| 东城区| 阿拉善右旗| 崇文区| 晋城| 阿克| 邳州市| 丰顺县| 铜山县| 安图县| 尚义县| 当阳市| 浦北县| 龙州县| 合川市| 太白县| 玉林市| 阳原县| 横山县| 巩义市| 五常市| 沧州市| 军事| 东至县| 蓬溪县|