• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于GMM 的AMR-NB 與G.729A 之間的LSP 參數(shù)轉碼方法

      2010-08-04 08:32:42劉張宇鮑長春邱建偉徐昊
      通信學報 2010年2期
      關鍵詞:轉碼高斯復雜度

      劉張宇,鮑長春,邱建偉,徐昊

      (北京工業(yè)大學 電子信息與控制工程學院 語音與音頻信號處理實驗室,北京 100124)

      1 引言

      AMR-NB[1](adaptive multiple rate-narrow band)是3GPP(3rd generation partnership project)制訂的語音壓縮標準,現(xiàn)廣泛應用于 WCDMA(wideband code division multiple access)和TDS-CDMA(time division-synchronous code division multiple access)等第 3代移動通信系統(tǒng)中。G.729[2]是 ITU(international telecommunication union)于1995年制定的語音編碼標準,G.729A[3]是G.729的低復雜度版本,現(xiàn)主要應用于語音壓縮與VoIP(voice over internet protocol)等通信系統(tǒng)。這 2種基于CELP[4](code-excited liner prediction)的語音編碼技術在當今移動通信系統(tǒng)和網絡通信系統(tǒng)中的作用越來越重要。為了實現(xiàn)不同供應商之間通信設備的兼容與互通,需要在這2種不同語音編碼標準之間進行轉碼工作。

      在基于CELP的AMR-NB和G.729A語音轉碼中,LSP參數(shù)轉碼是轉碼算法流程的第一步,也是整個語音轉碼算法的核心部分之一,基音參數(shù),代數(shù)碼數(shù)以及增益的轉碼均建立在 LSP參數(shù)轉碼的基礎之上,因此,LSP參數(shù)轉碼效果將直接影響最終合成的語音質量。目前在LSP參數(shù)轉碼中應用最為廣泛的方法是直接轉碼(DTE,decode then encode)模式,這種傳統(tǒng)的碼流轉換方案具有2個缺點:1)運算量大;2)由于二次壓縮造成語音失真度加大,降低了合成語音質量[5]。為了解決DTE方法帶來的弊端,國外學者提出了利用直接參數(shù)轉換的方法[6,7]來實現(xiàn)這2種編碼標準之間的LSP參數(shù)轉碼,然而,LSP參數(shù)轉碼雖然能夠有效降低計算復雜度,但仍然存在二次量化失真,因此,需要找到一種更加有效的 LSP參數(shù)轉碼算法以提高轉碼語音質量。

      本文對高斯混合模型(GMM,Goussian mixture model)進行了分析研究,并將其應用到了AMR-NB與G.729A之間的LSP參數(shù)轉碼算法中。該方法利用大量訓練語音數(shù)據(jù),通過EM迭代算法進行高斯混合模型參數(shù)的估計,最后得到LSP參數(shù)轉碼函數(shù)。通過大量實驗,本文分析了訓練數(shù)據(jù)量、GMM數(shù)量、不同初始化方法的選取、收斂門限的限定和協(xié)方差矩陣限定與轉碼算法性能的關系,并得出了相應的結論。本算法在保證語音質量的情況下,極大地降低了計算復雜度和存儲空間。

      2 GMM概述

      GMM 是一種多維概率密度函數(shù),常用來表示未知概率分布數(shù)據(jù)的分布函數(shù),它在本質上是單狀態(tài)的HMM模型,其核心思想是用多個高斯分布的概率密度函數(shù)的組合來描述特征矢量在概率空間的分布狀況[8]。根據(jù)統(tǒng)計理論,若干個高斯概率密度的線性組合可以逼近任意分布,因此GMM能夠很好地描述各種形式的語音特征統(tǒng)計分布及其特性。下面介紹GMM的基本原理。

      2.1 GMM的參數(shù)描述

      GMM是由M個服從高斯分布的概率密度函數(shù)的加權組合而成的,其中每個高斯概率密度函數(shù)可以看作一個類,如圖1所示。

      圖1 GMM組成示意圖

      其表達式為

      式(1)中x是D維的特征向量,iα是各高斯函數(shù)的混合權重,必須滿足的限制,μ是高斯分布的均值向量,Σ是高斯分布的協(xié)方差矩陣,M是混合高斯模型中高斯函數(shù)的數(shù)量。 N(x; μi; Σi)為M個D維的高斯概率密度函數(shù),計算公式如下所示:

      一個GMM可以由均值矢量、協(xié)方差矩陣和混合權值等參數(shù)進行描述,通常用λ來表示這些參數(shù)的集合,如式(3)所示:

      應用式(3),可將式(1)改寫為

      其中

      2.2 GMM的參數(shù)估計(EM算法)

      在語音的LSP參數(shù)轉碼中應用GMM需要解決一個問題,即通過輸入碼流x來求得模型參數(shù)λ,使得p(x|)λ達到最大值,從而求得LSP轉碼函數(shù)。這種優(yōu)化準則即為最大似然估計準則(MLE),而如何調整模型參數(shù)λ,使p(x|)λ達到最大值,也就是GMM的訓練問題。

      本文采用EM迭代算法進行GMM參數(shù)訓練。該算法主要分為下面2個步驟。

      1) E步,即預估參數(shù)。根據(jù)所有訓練數(shù)據(jù)來估計高斯混合模型的混合權值、均值向量和協(xié)方差矩陣等參數(shù)。

      2) M步,即最大化。從上一步得到的估計結果中,根據(jù)最大似然準則重新估算模型參數(shù)值,直到參數(shù)值達到最佳為止。

      其中EM迭代算法中使用的公式如下所示[9]:

      下面給出GMM的訓練流程,如圖2所示。

      圖2 GMM訓練流程圖

      在進行 EM 算法之前,首先需要對參數(shù)集λ={αi,μi,Σi}進行初始化,本文采用的是K均值方法進行參數(shù)值初始化,即對訓練數(shù)據(jù)中的所有特征矢量求均值和方差,作為初始均值和方差,初始權重設為相等權重,即α=1/M。利用EM迭代算法求出新的,并與前一次得到的進行比較,如果比較得到的差值小于一個設定的門限δ,則迭代結束,即可求得相對應的 GMM 參數(shù)集λ={αi, μi,Σi}。

      3 基于GMM的LSP參數(shù)轉碼

      3.1 LSP參數(shù)轉碼函數(shù)的建立和求取

      如何建立和求取基于GMM的LSP參數(shù)轉碼函數(shù)是LSP轉碼中的核心問題。圖3給出了轉碼函數(shù)F(x)的建??蚣堋?/p>

      圖3 基于GMM的LSP轉碼函數(shù)訓練過程

      首先將語音訓練數(shù)據(jù)分別通過 AMR-NB與G.729A的編碼端,得到2組LSP參數(shù)向量,定義為X和Y,以最小均方誤差準則,對X和Y根據(jù)最大似然準則進行聯(lián)合高斯混合模型訓練,即得到轉碼函數(shù)F(x)。將F(x)引入到轉碼算法中,當源端的LSP參數(shù)碼流通過F(x)后,即得到目標端的LSP參數(shù),從而完成LSP轉碼。接下來利用聯(lián)合高斯分布的條件期望預測方法[10]對轉碼函數(shù)F(x)進行數(shù)學建模,如圖4所示。

      圖4 基于加權后驗概率的轉碼函數(shù)建模

      源端的一組LSP參數(shù)X經過轉碼函數(shù)得到目標端的一組LSP參數(shù)Y,由于LSP參數(shù)具有獨立性,因此X與Y是按序一一對應的,根據(jù)后驗概率的思想,轉碼函數(shù)是M個加權后驗概率的組合,其數(shù)學表達式如下:

      根據(jù)貝葉斯公式,得到

      為了求解式(10)中的未知參數(shù),需要對2端LSP參數(shù)進行聯(lián)合高斯混合模型訓練[11]。首先把按時間對齊的AMR-NB端LSP參數(shù)和G.729A端LSP參數(shù)合在一起,如式(12)所示:

      式(12)中,N是訓練數(shù)據(jù)的數(shù)量,D是LSP參數(shù)的維數(shù)。然后利用 EM 迭代算法對矢量集Z2N×D進行GMM訓練,得到GMM參數(shù)集λ{αi,μi,Σi},其中協(xié)方差矩陣和均值分別表示為

      將式(2)、式(11)、式(13)、式(14)代入式(1)即可求得F(x),即求得目標端LSP參數(shù),完成LSP參數(shù)轉碼。

      3.2 GMM在LSP參數(shù)轉碼應用中的問題

      GMM參數(shù)在LSP參數(shù)轉碼中的應用中最關鍵的部分是參數(shù)的迭代估計,而在EM迭代算法中需要注意訓練數(shù)據(jù)的選擇和模型參數(shù)的選擇等問題。下面通過一系列實驗對這些問題進行詳細的分析。本文實驗均以AMR-NB 10.2kbit/s模式與G.729A轉碼為例。

      3.2.1 訓練數(shù)據(jù)量對轉碼結果的影響

      1) 不同訓練數(shù)據(jù)量對合成語音質量的影響。

      由于GMM是一種概率統(tǒng)計模型,因此訓練數(shù)據(jù)量的大小對建模效果有較大的影響,從而間接影響轉碼效果。首先取 GMM 數(shù)為 32,分別采用從8s到約26min不同時長的NTT數(shù)據(jù)庫標準語音作為測試數(shù)據(jù)進行GMM訓練,并對6句中文語音(男女聲各 3句)進行轉碼實驗,得到了平均的客觀MOS 分值[12,13]。

      如圖5所示,當高斯混合函數(shù)個數(shù)一定時,轉碼語音質量隨著訓練數(shù)據(jù)集的增大而提高,但在訓練數(shù)據(jù)量超過2萬幀之后,繼續(xù)加大訓練數(shù)據(jù)對語音質量的提高不再有明顯作用。另外,在基于GMM的 LSP參數(shù)轉碼算法中,在測試語料相同的條件下,AMR-NB向G.729A轉碼的MOS分要略高于G.729A向AMR-NB,這種情況與DTE以及傳統(tǒng)參數(shù)轉碼算法相似。

      2) 不同訓練數(shù)據(jù)量對計算復雜度的影響。

      LSP參數(shù)是通過轉碼函數(shù)F(x)進行轉碼的,轉碼函數(shù)F(x)的構建是通過對 GMM 參數(shù)進行訓練完成的,而GMM的EM參數(shù)估計并不依賴于源LSP碼流,是預先完成、獨立于轉碼算法之外的。因此,整個GMM訓練過程對轉碼算法的計算復雜度沒有影響,訓練數(shù)據(jù)集的增加也與轉碼計算復雜度無關。

      圖5 訓練數(shù)據(jù)量的大小對轉碼客觀MOS分的影響

      3.2.2 GMM數(shù)選取對轉碼結果的影響

      1) 不同GMM個數(shù)對平均譜失真(SD,spectual distortion)的影響。

      譜失真的定義如下:

      圖6 LSP參數(shù)轉碼隨GMM數(shù)增加的譜失真變化曲線

      從圖6中可以看到隨著GMM個數(shù)的增加,LSP參數(shù)轉碼譜失真逐漸下降,最后趨向于一個極值。另外,基于DTE方法的AMR-NB10.2kbit/s模式向G.729A轉碼的譜失真是2.683dB,因此,當GMM個數(shù)大于等于16時,本LSP參數(shù)轉碼方法產生的譜失真小于DTE轉碼方法。

      2) 不同GMM個數(shù)對合成語音質量的影響。

      GMM是由具有M個混合成分的高斯密度函數(shù)來進行線性疊加的,因此高斯模型的階數(shù),即高斯密度函數(shù)的個數(shù)的大小與基于GMM的LSP參數(shù)轉碼效果直接相關?;贕MM的LSP參數(shù)轉碼算法是利用 GMM 對線譜頻率參數(shù)進行擬合,因此,在理論上M越大,聲道譜參數(shù)包絡就擬合得越精確,轉碼性能也就越好。本實驗以AMR10.2kbit/s轉碼速率為例,首先利用 76 800幀的NTT數(shù)據(jù)庫標準語音作為訓練數(shù)據(jù),分別采用5種從小到大的不同的混合數(shù)進行GMM訓練,并對6句中文語音(男女聲各3句)進行轉碼實驗,得到了平均的客觀MOS分值,GMM個數(shù)對LSP參數(shù)轉碼后合成語音質量的影響實驗結果圖7所示。

      圖7 GMM數(shù)大小對轉碼語音質量的影響

      從圖7可以看出,在訓練數(shù)據(jù)量一定的條件下,一般地,轉碼語音質量隨著GMM數(shù)的增加而提高,但在混合模型達到256時,轉碼性能低于 128個混合模型數(shù),也就是說,在 LSP參數(shù)轉碼的實際應用中,GMM訓練出現(xiàn)了過訓練現(xiàn)象。因此單從GMM數(shù)對LSP參數(shù)轉碼質量的影響來看,存在一個 GMM 的個數(shù)能夠對應最優(yōu)的轉碼語音質量。經過實驗比較,取 GMM 個數(shù)為128。

      3.2.3 EM算法中迭代次數(shù)的分析與收斂門限的確定

      前文中已經討論了EM迭代算法的流程,應用最大似然法來獲得所要最大化的目標GMM參數(shù)集λ需要預先設定一個門限值δ,而這個門限值與EM 迭代算法的迭代速度和收斂精度密切相關,因此,選擇一個合適的δ是比較重要的。由于GMM 個數(shù)同樣影響迭代速度,因此本實驗對門限值和 GMM 數(shù)進行聯(lián)合分析。在本實驗中,GMM 數(shù)分別取 8,16,32,64,訓練數(shù)據(jù)為 24句NTT標準語音庫語音,每句時長為8s。實驗結果如圖8所示。

      從圖8中可以看到,迭代次數(shù)是由收斂門限值和GMM數(shù)2個因素共同決定的。當GMM數(shù)較少時,迭代次數(shù)主要取決于收斂門限的取值,這是因為少量的GMM不足以準確描述譜參數(shù)特征,需要更高的精度來保證GMM的準確性。當GMM數(shù)足夠多時,在本實驗中即 GMM數(shù)達到64時,大量的GMM只需較少次數(shù)的迭代便可以滿足收斂門限的要求。在實際應用中,出于對計算復雜度的考量,GMM數(shù)不能取值過大,因此,需要通過確定較高的收斂門限來保證精度,在本文中取門限值δ為10-6。

      圖8 門限值和GMM數(shù)與迭代次數(shù)的關系

      4 實驗結果

      為了驗證本文所提算法的有效性,在主觀A/B聽力測試與客觀MOS分測試中,LSP參數(shù)采用基于GMM的LSP參數(shù)轉碼技術進行轉碼,而基音參數(shù)、代數(shù)碼數(shù)以及增益采用 DTE轉碼方式進行轉碼。

      4.1 主觀A/B聽力測試

      本實驗采用A/B聽力測試方法對轉碼語音進行了主觀測試。測試語音由24句組成,每句長8s,分別由2男2女4個說話人發(fā)音。6名測聽人員分別對LSP經DTE轉碼的語音和經GMM轉碼的語音進行主觀測聽,并得到以下主觀偏好結果,如表1所示。

      表1 LSP轉碼語音的主觀A/B聽力對比

      從表1中可以看到,在AMR-NB 10.2kbit/s與G.729A之間的轉碼中,基于GMM的LSP轉碼主觀聽力質量不次于DTE的LSP轉碼方法。

      4.2 客觀MOS分測試

      本實驗使用 ITU-T P.862.1所規(guī)定的MOS_LQO[14]為客觀語音質量的衡量標準。實驗選取NTT標準語音數(shù)據(jù)庫的96句中文語音作為測試數(shù)據(jù)源,一共4男4女8位說話人,每人講12句話,每句8s時長,對于AMR-NB來說是每句話400幀,對于G.729A來說是每句話800幀。以AMR-NB 10.2kbit/s模式向G.729A轉碼為例,與DTE轉碼模式進行比較,實驗測得的MOS分結果如表2所示。

      表2 LSP轉碼語音的MOS分比較

      從表2中的MOS分值中可以看到,在男聲測試語音中,LSP 2種轉碼算法的質量非常接近;在女聲測試語音中,基于GMM的LSP轉碼語音質量略低于DTE方法;在所有語句中,GMM方法的平均MOS分與DTE方法比較接近,表明轉碼語音質量在可接受的范圍之內。

      4.3 復雜度結果

      在本實驗中預設高斯混合模型值為128,基于GMM的LSP轉碼算法與基于DTE的LSP轉碼算法的計算復雜度與空間復雜度對比如表3所示。

      表3 LSP轉碼方法的復雜度比較

      從表3中可以看到,基于GMM的LSP轉碼方法與 DTE方法相比,極大地降低了計算復雜度和空間復雜度,取得了比較好的結果。

      5 結束語

      本文主要概述了高斯混合模型的定義和基本原理,詳細介紹了高斯混合模型的參數(shù)估計算法——EM 迭代算法,提出并實現(xiàn)了基于 GMM 的AMR-NB與G.729A之間的LSP參數(shù)轉碼算法,以10.2kbit/s轉碼速率為例,分析了GMM在LSP參數(shù)轉碼中的幾個實際應用問題,最后給出了實驗結果。實驗結果表明,基于GMM的LSP轉碼方法能夠在保證合成語音質量的前提下,極大地降低計算復雜度和空間復雜度。GMM在LSP參數(shù)轉碼應用中的有效性,為GMM在其他參數(shù)轉碼中的應用提供了重要的借鑒意義。

      [1] ETSI EN 301 704 V7.2.1 Adaptive Multi-Rate(AMR)Speech Transcoding[S].2000.

      [2] ITU-T G.729:Coding of Speech at 8kbit/s Using Conjugate Structure Algebraic Code Excited Linear Prediction(CS-ACELP)[S].1996.

      [3] ITU-T G.729A: Educed Complexity 8kbit/s CS-ACELP Speech Codec[S].1996.

      [4] 鮑長春.數(shù)字語音編碼原理[M].西安:西安電子科技大學出版社,2007.BAO C C.Principles of Digital Speech Coding[M].Xi’an: Xidian University Press,2007.

      [5] 邱建偉,鮑長春,徐昊等.基于CELP編碼模型的參數(shù)轉碼技術[J].電聲技術,2009,(4):84-87.QIU J W,BAO C C,XU H,et al.Parameter transcoding techniques based on CELP speech coding[J].Audio Engineering.2009(4): 84-87.

      [6] OTA Y,SUZUKI M,TSUCHINAGA Y,et al.Speech coding translation for IP and 3G mobile integrated network[A].IEEE International Conference on Communications[C].New York: IEEE Press,2002.114-118.

      [7] GHENANIA M,LAMBLIN C.Low-cost smart transcoding algorithm between ITU-T G.729(8kbit/s) and 3GPPNB-AMR(12.2kbit/s)[A].European Signal Processing Conference[C].Vienna: EUSIPCO Press,2004,(3): 1681-1684.

      [8] 趙永剛,唐昆,崔慧娟.基于Gaussian混合模型的LSF參數(shù)量化方法[J].清華大學學報(自然科學版),2006,46(10): 1727-1730.ZHAO Y G,TANG K,CUI H J.Quantization of LSF parameters using a Gaussian mixture model[J].J Tsinghua University(Sci & Tech),2006,46(10): 1727-1730.

      [9] 吳金池.語音辯識系統(tǒng)之研究[D].臺灣國立中央大學,2003.9-17.WU J C.Research on Speech Recognition System[D].Taiwan,China:National Central University,2003.

      [10] KAIN A B.High Resolution Voice Transformation[D].Oregon Health and Science University,2001.36-54.

      [11] 康永國,雙志偉,陶建華等.高斯混合模型和碼本映射相結合的語音轉換算法[A].第八屆全國人機語音通訊學術會議[C].2005.293-297.KANG Y G,SHUANG Z W,TAO J H,et al.Speech transform algorithm based on Gaussian mixture model and codebook mapping[A].NCMMSC2005[C].2005.293-297.

      [12] 付強.語音的參數(shù)表示和質量客觀評價研究[D].西安電子科技大學,2000.46-66.FU Q.Research on Parameter Representation and Objective Quality Assessment of Speech[D].Xi’an: Xidian University.2000.46-66.

      [13] ITU-T P.800.1:Mean Opinion Score(MOS) Terminology[S].2003.

      [14] ITU-T P.862.1: Mapping Function for Transforming P.862 Raw Result Scores to MOS-LQO[S].2003.

      猜你喜歡
      轉碼高斯復雜度
      小高斯的大發(fā)現(xiàn)
      移動云盤在線轉碼功能技術研究
      視頻轉碼技術在廣播電視中的應用研究
      締客世界(2020年1期)2020-12-12 18:18:28
      天才數(shù)學家——高斯
      一種低復雜度的慣性/GNSS矢量深組合方法
      基于IPTV點播業(yè)務的視頻分段式轉碼方案的研究與應用
      傳播力研究(2018年7期)2018-05-10 09:42:47
      求圖上廣探樹的時間復雜度
      某雷達導51 頭中心控制軟件圈復雜度分析與改進
      基于Hadoop 的分布式視頻轉碼方案
      計算機工程(2015年8期)2015-12-02 01:12:50
      出口技術復雜度研究回顧與評述
      正阳县| 博野县| 讷河市| 舟曲县| 仪征市| 墨玉县| 湖南省| 乐平市| 铜陵市| 上思县| 清丰县| 北碚区| 富源县| 道孚县| 屏山县| 万宁市| 柘荣县| 宝清县| 庄河市| 应用必备| 徐水县| 吴旗县| 巴中市| 砀山县| 霍林郭勒市| 凉城县| 宁陕县| 泰和县| 土默特左旗| 赞皇县| 赤水市| 灵石县| 新津县| 多伦县| 米脂县| 凤山市| 沙田区| 济宁市| 吕梁市| 高安市| 绥江县|