朱宗明,姜占才
改進(jìn)的混合激勵(lì)線性預(yù)測(cè)編碼算法
朱宗明1,姜占才2
(1.中國(guó)人民解放軍69220部隊(duì),阿克蘇 843000;2.青海師范大學(xué)物理系,西寧 810008 )
針對(duì)混合激勵(lì)線性預(yù)測(cè)編碼中子帶聲音強(qiáng)度的硬判決導(dǎo)致激勵(lì)源欠精細(xì)問(wèn)題,將子帶聲音強(qiáng)度視為5維的模糊特征矢量,用改進(jìn)的LBG算法設(shè)計(jì)碼本并用5bit對(duì)其作矢量量化;以精細(xì)量化的子帶聲音強(qiáng)度調(diào)制帶通濾波器,以此獲取精細(xì)的混合激勵(lì)信號(hào),最終達(dá)到改善合成語(yǔ)音質(zhì)量的目標(biāo)。仿真實(shí)驗(yàn)表明:改進(jìn)算法能有效地改善合成語(yǔ)音的自然度。
低速率語(yǔ)音編碼;混合激勵(lì);子帶聲音強(qiáng)度;矢量量化;碼本
語(yǔ)音編碼是語(yǔ)音通信的核心技術(shù),其中低速率編碼廣泛應(yīng)用于移動(dòng)通信、衛(wèi)星通信、軍事保密通信、多媒體存儲(chǔ)和數(shù)字?jǐn)?shù)據(jù)網(wǎng)(DDN)中。語(yǔ)音編碼的目的是用盡可能低的比特率獲得盡可能高的合成語(yǔ)音質(zhì)量,其意義是去除語(yǔ)音信號(hào)中的冗余,降低傳輸比特率或存儲(chǔ)空間[1]。低速率語(yǔ)音編碼分為3類,即參數(shù)編碼、波形編碼和混合編碼,其中混合編碼兼有參數(shù)編碼和波形編碼的優(yōu)勢(shì),混合激勵(lì)線性預(yù)測(cè)編碼(M ixed excitation Linear p rediction,M ELP)[2-4]是混合編碼的一種經(jīng)典編碼方案。
MELP以線性預(yù)測(cè)編碼(Linear predictive coding,LPC)的參數(shù)模型為編碼的整體框架,將語(yǔ)音幀的線性預(yù)測(cè)系數(shù)即聲道模型參數(shù)轉(zhuǎn)換為線譜對(duì)參數(shù)(LSF)后,用25bit矢量量化(Vector quantization,VQ)后編碼、傳輸。為了克服LPC方案激勵(lì)源信息描述過(guò)于簡(jiǎn)單、不準(zhǔn)確的缺陷,將二元激勵(lì)改為混合激勵(lì)來(lái)獲取更加準(zhǔn)確的激勵(lì)源信息,以混合激勵(lì)信號(hào)激勵(lì)合成濾波器,明顯提高了合成語(yǔ)音質(zhì)量。
MELP編碼方案并非完美,仍在不斷的改進(jìn)中[5]。在進(jìn)一步降低比特率方面,文獻(xiàn)[6]從降低邊帶信息編碼比特入手,將深度學(xué)習(xí)理論引入?yún)?shù)編碼,嘗試將LSF參數(shù)的傳統(tǒng)矢量量化法改為利用深度自編碼機(jī)直接對(duì)語(yǔ)音幅度譜進(jìn)行編碼的新方法,結(jié)論是在不降低合成語(yǔ)音質(zhì)量的前提下,進(jìn)一步降低了編碼速率。
MELP編碼方案將語(yǔ)音幀劃分為寬度不等的5個(gè)子帶,分別提取各子帶的聲音強(qiáng)度,稱為子帶聲音強(qiáng)度或帶通聲音強(qiáng)度,記為iVˉ,其中i=1,2,3,4,5,表示各子帶序號(hào),然后將其4bit量化、編碼、傳輸。對(duì)子帶聲音強(qiáng)度的量化結(jié)果為非0即1,優(yōu)點(diǎn)是對(duì)運(yùn)算帶來(lái)方便、不增加內(nèi)存空間,欠缺是對(duì)各子帶的清/濁音仍然執(zhí)行硬判決。
無(wú)論是一幀語(yǔ)音還是一個(gè)子帶,對(duì)其的清/濁音分類采用硬判決都不能準(zhǔn)確地描述語(yǔ)音的激勵(lì)源信息。文獻(xiàn)[7]對(duì)語(yǔ)音生成模型的激勵(lì)源提出了模糊激勵(lì)的概念—濁音隸屬度,它是一個(gè)5維矢量,其每一分量Vi都是介于0和1之間的數(shù),是一個(gè)模糊量。本文將MELP編碼方案中的子帶聲音強(qiáng)度清/濁音硬判決改為模糊判決,以模糊量濁音隸屬度調(diào)制5通帶帶通濾波器,以此獲得較精細(xì)的混合激勵(lì)源,最終獲得較高的合成語(yǔ)音質(zhì)量,而又不增加運(yùn)算開(kāi)銷。
用5個(gè)6階的Butterw orth帶通濾波器將輸入語(yǔ)音幀分為(0-500)Hz、(500-1000)Hz、(1000-2000)Hz、(2000-3000)Hz、(3000-4000)Hz的5個(gè)子帶;提取某個(gè)能夠反映子帶隸屬于濁音程度的歸一化特征量V,獲得當(dāng)前幀的子帶聲音強(qiáng)度[7],表示為:
2.1VQ及LBG算法碼本設(shè)計(jì)
VQ是一種高效的數(shù)據(jù)編碼壓縮技術(shù),而碼本的設(shè)計(jì)是VQ的關(guān)鍵環(huán)節(jié)。碼本設(shè)計(jì)的本質(zhì)是以系統(tǒng)的失真函數(shù)最小作為目標(biāo),尋求將所有的訓(xùn)練矢量劃分為N類的最佳方案,各類的質(zhì)心就是碼本的碼字。
碼本設(shè)計(jì)的基本方法是LBG算法,實(shí)際上是尋求最佳碼本的必要條件的反復(fù)迭代過(guò)程,即由初始碼本開(kāi)始,使之逐步優(yōu)化,直到系統(tǒng)性能滿足要求或不再有明顯的改進(jìn)為止。基本的LBG算法過(guò)程如下:
(1)已知碼本尺寸N,給定設(shè)計(jì)的失真門(mén)限ε(0<ε<1),給定一個(gè)初始碼本yN(0)。已知一個(gè)訓(xùn)練樣本集[Xj,j=0,1,???,m ?1]。先取n=0(n是迭代次數(shù)),設(shè)初始平均失真D(?1)→∞;
(2)用給定的碼本yN求出平均失真最小條件下的所有區(qū)域邊界Si(i=1,2,…,N),即根據(jù)最佳劃分準(zhǔn)則把訓(xùn)練樣本集劃分為N個(gè)胞腔,應(yīng)使訓(xùn)練樣本集的樣本Xj∈Si滿足條件d(Xj,Yi)<d(Xj,Y) (Y∈y ),由此得出最佳的區(qū)域邊界S(n )。計(jì)算該區(qū)域邊界下(一次迭代后)參與訓(xùn)練的訓(xùn)練樣本的平均失真
(3)計(jì)算與前一次迭代的相對(duì)平均失真,判斷是否滿足閾值門(mén)限條件
滿足上式即為滿足設(shè)計(jì)要求,此時(shí)的yN就是設(shè)計(jì)的碼本;如果不滿足,進(jìn)行下一步;
(4)用各胞腔的質(zhì)心置換各初始碼字,構(gòu)成(n=1)次迭代的新碼本,重復(fù)前兩步,直至滿足閾值門(mén)限為止。
2.2LBG算法的改進(jìn)
LBG算法設(shè)計(jì)碼本的過(guò)程是一個(gè)非凸優(yōu)化問(wèn)題,設(shè)計(jì)過(guò)程中有陷入局部最優(yōu)的可能;若想通過(guò)群舉碼本的全部可能來(lái)尋找全局最優(yōu)碼本,在現(xiàn)有計(jì)算能力下幾乎不可能實(shí)現(xiàn)。MELP中LSF參數(shù)VQ的碼本采用LBG算法,所獲得的碼本為局部最優(yōu)或接近全局最優(yōu),存在初始碼本的選擇影響碼本訓(xùn)練收斂速度和最終碼本性能的缺陷。
子帶聲音強(qiáng)度作為5通帶帶通濾波器的調(diào)制信號(hào),是獲得精準(zhǔn)混合激勵(lì)信號(hào)的關(guān)鍵技術(shù),直接決定合成語(yǔ)音的質(zhì)量,對(duì)其應(yīng)當(dāng)用VQ技術(shù)作精細(xì)量化。為了克服LBG算法的缺陷,對(duì)其作如下改進(jìn):
(1)初始碼本的選?。河媚:垲惔?zhèn)鹘y(tǒng)的隨機(jī)選取法,將聚類中心數(shù)設(shè)為碼本尺寸N,在一定規(guī)模的訓(xùn)練樣本集上作模糊C均值聚類,聚類的結(jié)果即為各類的中心,將其作為L(zhǎng)BG訓(xùn)練的初始碼本[8]。該法選取初始碼本有效地避免了隨機(jī)性和偶然性;聚類結(jié)果既是陷入局部最優(yōu),對(duì)后續(xù)LBG算法趨于全局最優(yōu)的單調(diào)性幾乎沒(méi)有影響;聚類結(jié)果非常接近設(shè)計(jì)目標(biāo)。
(2)在LBG的迭代過(guò)程中,每次迭代后都檢測(cè)、處理空胞腔:碼本尺寸是預(yù)先確定的,胞腔的數(shù)目即為碼本尺寸,這就難免每次迭代后劃分到某些胞腔的輸入矢量較少,這樣的胞腔稱之為空胞腔。顯然,空胞腔的認(rèn)定與設(shè)計(jì)碼本的尺寸和訓(xùn)練樣本集的規(guī)模有關(guān):碼本尺寸越小、樣本集規(guī)模越大,自然進(jìn)入每個(gè)胞腔的輸入矢量就多,反之,碼本尺寸越大、樣本集規(guī)模越小,形成的空胞腔數(shù)就越多。定義胞腔尺寸CZ:平均進(jìn)入胞腔的輸入矢量的最小值,取CZ=200。這一定義對(duì)設(shè)計(jì)尺寸確定的碼本,對(duì)訓(xùn)練樣本集的規(guī)模提出了下限。定義空胞腔下限δ:是胞腔尺寸CZ的百分比,設(shè)為δ=10%CZ。定義空胞腔:進(jìn)入胞腔的矢量數(shù)小于δ的胞腔??瞻槐仨毺蕹?,方法是:測(cè)定空胞腔下限δ并存儲(chǔ);每次迭代后檢驗(yàn)中間碼本中的空胞腔數(shù);檢測(cè)同等數(shù)目的大胞腔數(shù);刪除所有的空胞腔,同時(shí)將每個(gè)大胞腔分裂為兩個(gè)胞腔;用處理后的結(jié)果替換當(dāng)前的中間碼本,進(jìn)入判斷和下一迭代過(guò)程。
2.3子帶聲音強(qiáng)度碼本訓(xùn)練
建立碼本訓(xùn)練樣本集:分別以31分鐘、26分鐘和24分鐘長(zhǎng)度的三段連續(xù)語(yǔ)音的錄音為語(yǔ)音樣本,經(jīng)8kHz采樣、8bit量化、轉(zhuǎn)換為碼率為64kb/s的線性PCM碼后保存;以幀長(zhǎng)22.5ms分幀,提取各幀的子帶聲音強(qiáng)度矢量[7],建立三個(gè)訓(xùn)練樣本集YB1、YB2和YB3。最小的樣本集YB3的規(guī)模是64000×5維,對(duì)設(shè)計(jì)尺寸為128×5的碼本,平均胞腔尺寸CZ為500,顯然大于最小值200的要求。
將植入空胞腔剔除算法的LBG算法級(jí)聯(lián)到模糊C均值聚類算法之后構(gòu)成改進(jìn)的LBG算法(ALBG)。
獲取精細(xì)混合激勵(lì)信號(hào)的實(shí)質(zhì)是對(duì)子帶聲音強(qiáng)度矢量的精細(xì)量化,即將MELP編碼方案中對(duì)各子帶聲音強(qiáng)度非0即1的硬判決改為即非0也非1、而是介于0和1之間的模糊量的軟判決。量化的精確度除跟量化字長(zhǎng)有關(guān)外,還與量化碼本的性能有關(guān)。當(dāng)量化字長(zhǎng)一定時(shí),碼本的性能決定于訓(xùn)練樣本集和訓(xùn)練算法;量化的失真測(cè)度在VQ碼本訓(xùn)練算法中已選取,本課題選擇歐氏距離失真測(cè)度;由于子帶聲音強(qiáng)度碼本尺寸(64或32)較小,采用最基本的全局搜索法即可滿足搜索速度要求;精細(xì)混合激勵(lì)信號(hào)的獲取過(guò)程如圖1所示。
圖1 精細(xì)混合激勵(lì)信號(hào)獲取流程 Fig.1 Acquisition process of accurate mixed excitation signa l
4.1實(shí)驗(yàn)方案
①改進(jìn)的LBG碼本訓(xùn)練算法(ALBG)仿真實(shí)驗(yàn);
②MELP編碼方案的改進(jìn)算法(AMELP)仿真實(shí)驗(yàn)。
4.2實(shí)驗(yàn)材料(實(shí)驗(yàn)用語(yǔ)音樣本)
實(shí)驗(yàn)用語(yǔ)音取自筆者建立的語(yǔ)音庫(kù)yyk2.w av,庫(kù)中語(yǔ)音為8kHz采樣、8bit量化、線性PCM編碼的數(shù)字語(yǔ)音。實(shí)驗(yàn)時(shí)從語(yǔ)音庫(kù)隨機(jī)抽取語(yǔ)音段,也可加入高斯白噪聲后形成含噪語(yǔ)音即語(yǔ)音的噪聲觀測(cè)。幀長(zhǎng)和幀移都為180點(diǎn)(22.5ms),幀間無(wú)重疊。
4.3實(shí)驗(yàn)系統(tǒng)(程序)
分別對(duì)改進(jìn)的LBG算法和MELP改進(jìn)編碼算法編程,以文件名ALBG.m和AM ELP.m存盤(pán);在PC機(jī)上仿真實(shí)驗(yàn)。
4.4實(shí)驗(yàn)結(jié)果及其分析
4.4.1ALBG算法仿真實(shí)驗(yàn)
設(shè)置初始誤差是一萬(wàn)級(jí)的隨機(jī)數(shù),目標(biāo)誤差(設(shè)計(jì)精度)ε=0.001;分別訓(xùn)練尺寸為256、128、64、32的4個(gè)子帶聲音強(qiáng)度碼本,并且對(duì)同一碼本依次調(diào)用YB1、YB2 和YB3三個(gè)訓(xùn)練樣本集訓(xùn)練;在23次(至少需要12次)的仿真實(shí)驗(yàn)過(guò)程中,都無(wú)一例外的顯示目標(biāo)函數(shù)平滑單調(diào)地達(dá)到全局最優(yōu),迭代次數(shù)少,收斂速度快。圖2是用YB1訓(xùn)練碼本Vˉ(128)過(guò)程中目標(biāo)函數(shù)變化過(guò)程圖。
4.4.2AMELP仿真實(shí)驗(yàn)
(1)碼本尺寸選擇實(shí)驗(yàn)。理論上碼本尺寸越大,量化精度越高,但會(huì)增加編碼比特開(kāi)銷使比特率增大;當(dāng)碼本尺寸增大到一定值時(shí),再增大實(shí)際上對(duì)量化精度的貢獻(xiàn)甚微,因此,碼本尺寸(量化字長(zhǎng))的選擇應(yīng)在提高量化精度和控制碼率之間通過(guò)實(shí)驗(yàn)作出折中。
將用ALBG算法訓(xùn)練得到的4個(gè)子帶聲音強(qiáng)度碼本依次置換MELP 編碼方案中子帶聲音強(qiáng)度的量化,得到基于子帶聲音強(qiáng)度碼本和量化的4 個(gè)AMELP軟件聲碼器,在同一輸入語(yǔ)音下,依次收聽(tīng)合成語(yǔ)音,從可懂度和自然度兩個(gè)方面比較合成語(yǔ)音質(zhì)量。實(shí)驗(yàn)結(jié)果表明:當(dāng)量化字長(zhǎng)超過(guò)5bit時(shí),對(duì)提高合成語(yǔ)音質(zhì)量的貢獻(xiàn)已經(jīng)不明顯。為此,選取子帶聲音強(qiáng)度碼本的尺寸為32×5,即量化字長(zhǎng)為5bit。
圖2 碼本訓(xùn)練目標(biāo)函數(shù)變化過(guò)程 Fig.2 Objective function change process of codebook training
圖3 精細(xì)混合激勵(lì)信號(hào) Fig.3 Accurate mixed excitation signal
(2)AMELP合成語(yǔ)音質(zhì)量實(shí)驗(yàn)。將同一實(shí)驗(yàn)語(yǔ)音樣本,分別作為MELP編碼方案和AMELP編碼方案的輸入語(yǔ)音,分別得到兩種編碼方案的合成語(yǔ)音,如圖4所示,試聽(tīng)者的平均意見(jiàn)為:兩者的可懂度相同,但后者的自然度較前者稍優(yōu)。
(3)AMELP對(duì)背景噪聲的頑健性實(shí)驗(yàn)。分別在信號(hào)與背景噪聲的信噪比(SNR)為26dB、20dB、16dB三種情形下作仿真實(shí)驗(yàn),其中16dB時(shí)的實(shí)驗(yàn)結(jié)果如圖5所示。實(shí)驗(yàn)結(jié)果表明:AMELP和MELP對(duì)背景噪聲的頑健性是相同的。
圖4 兩種編碼方案合成語(yǔ)音Fig.4 Synthetic speech of two coding program
圖5 16dB時(shí)兩種編碼方案的合成語(yǔ)音 Fig.5 Synthetic speech of two coding program on 16dB
用改進(jìn)的LBG算法(ALBG:用模糊C均值聚類算法選擇初始碼本;每次迭代后及時(shí)剔除空胞腔)設(shè)計(jì)、訓(xùn)練5維的子帶聲音強(qiáng)度碼本,將其用于MELP編碼方案中子帶聲音強(qiáng)度的矢量量化,得到MELP的改進(jìn)算法AMELP。仿真實(shí)驗(yàn)表明:ALBG算法有效地克服了經(jīng)典LBG算法的兩個(gè)缺陷,目標(biāo)函數(shù)快速、平滑、單調(diào)地趨近全局最優(yōu),訓(xùn)練得到的碼本量化性能好;AM ELP方案將M ELP方案中子帶聲音強(qiáng)度精細(xì)量化,從而獲得精準(zhǔn)的混合激勵(lì)信號(hào),最終達(dá)到了提高合成語(yǔ)音質(zhì)量(自然度)的目標(biāo)。
[1] 張雄偉,陳亮,楊吉斌.現(xiàn)代語(yǔ)音處理技術(shù)及應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2003:112-172. Zhang Xiongwei,Chen liang,Yang Jibin.Modern speech processing technique and application[M].Beijing:China Machine Press,2003:112-172.
[2] Department of defense telecommunication systems standard. Mil-std-3005,Analog-to-Digital conversin of voice by 2.4kbps mixed excitation linear predication(MELP)[S].Washington,USA:Final Committee Draft,1995.
[3] Gray R M.Vector quantization[J].IEEE ASSP Magazine,1984,4:4-29.
[4] A lan V.McCree,Thomas P.Barnwell III.A Mixed Excitation LPC Vocoder[C]. ICASSP,1991,593-596.
[5] 鮑長(zhǎng)春.數(shù)字語(yǔ)音編碼原理[M].西安:西安電子科技大學(xué)出版社,2007,296-315. BAO Chang-chun. Princip le of digital speech coding[M].Xi’an:Xidian University Press,2007,296-315.
[6] 張雄偉,吳海佳,張梁梁,等.一種基于重構(gòu)性深度網(wǎng)絡(luò)的MELP語(yǔ)音編碼改進(jìn)算法[J].數(shù) 據(jù) 采集與處理,2015,30(2):307-314. ZHANG Xiong-wei,WU Hai-jia,ZHANG Liang-liang,et al. Improved MELP Algorithm Based on Reconstructive Deep Neural Network[J].Data Acquisition and Processing,2015,30(2):307-314.
[7] 姜占才,楊林.語(yǔ)音模糊特征提取及碼本訓(xùn)練算法[J].吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2012,30(3):279-283.JIANG Zhan-cai,YANG Lin.Algorithm of Voice Fuzzy Feature Extraction and Codebook Training[J]. Journal of Jilin University(Information Science),2012,30(3):279-283.
[8] 姜占才,孫燕,姚剛.模糊聚類與LBG級(jí)聯(lián)的VQ算法[J].計(jì)算機(jī)工程與科學(xué),2011,33(5):155-158. JIANG Zhan-cai,SUN Yan,YAO Gang.VQ A lgorithm of Fuzzy Clustering and LBG Cascade[J]. Computer Engineering and Science,2011,33(5):155-158.
Improved Algorithm for Mixed Excitation Linear Prediction Coding
ZHU Zong-m ing1, JIANG Zhan-cai2
(1.The Chinese people’s liberation army 69220 troops, Akzo 843000,China; 2.Physics Department of Qinghai Normal University, Xining 810008,China)
As modulating signal of five passband band-pass filter, subband voiced intensity vector which determ ines the quality of synthetic speech directly, is the key to acquire accurate m ixed excitation signal. In the scheme of m ixed excitation linear prediction coding (MELP), for the defects of excitation source which lacks accurate caused by hard decision that subband sound intensity is either 0 or 1, subband voiced intensity is seen as 5-dimension obscure eigenvector; subband voiced intensity codebook is designed using modified LBG algorithm and subband voiced intensity is quantized using 5-bit vector; five passband band-pass filter is modulated using accurate and quantized subband voiced intensity, thus acquiring accurate m ixed excitation signal; finally the quality of synthetic speech is improved. Simulation experiments show that modified algorithm not only can improve the naturalness of synthetic speech, but also has stronger robustness for background noise.
Low rate speech coding; M ixed excitation; Subband voiced intensity; Vector quantization; Codebook
10.3969/j.issn.2095-6649.2015.09.002
ZHU Zong-m ing, JIANG Zhan-cai. Improved A lgorithm for M ixed Excitation Linear Prediction Coding[J]. The Journal of New Industrialization, 2015, 5(9): 8-13.
國(guó)家社科基金(15XYY 026)。
朱宗明(1985-),男,助理工程師,從事軍事通信和軍械保障方面的研究。
姜占才(1958-),男,教授,主要從事通信語(yǔ)音處理與保密通信方面的研究。
本文引用格式:朱宗明,姜占才.改進(jìn)的混合激勵(lì)線性預(yù)測(cè)編碼算法[J]. 新型工業(yè)化,2015,5(9):8-13