譚梓煒
(深圳市創(chuàng)客工場科技有限公司 廣東深圳 518000)
?
語音改變技術(shù)及其原理
譚梓煒
(深圳市創(chuàng)客工場科技有限公司廣東深圳518000)
語音信號處理技術(shù)是語音處理領(lǐng)域中新近發(fā)展起來的一個學(xué)科分支,本文主要研究了語音信號處理技術(shù)中的兩個主要:內(nèi)容語音時長規(guī)整技術(shù)和說話人特征改變技術(shù)。語音時長規(guī)整技術(shù)就是在不改變語音音調(diào)并保證良好音質(zhì)的前提下,隨意地改變語音播放速度,就仿佛說話人自己在改變說話速度一樣。說話人特征改變技術(shù)是語音處理中一個比較新的交叉邊緣分支,主要是通過對合成語音進(jìn)行適當(dāng)語音參數(shù)控制和調(diào)整來實現(xiàn)的。在此基礎(chǔ)上得出了人耳對基音同步的感知存在一定的容差從而改進(jìn)了二次譜提取基頻算法,提高了基頻提取的準(zhǔn)確度,進(jìn)一步提出了一種新的基于改進(jìn)二次譜的語音時長規(guī)整算法。該算法在保持規(guī)整后語音質(zhì)量的同時,有效降低了整體計算復(fù)雜度。針對說話人特征改變技術(shù),提出了一種基于重采樣的基頻改變算法,該算法簡單有效,整體計算復(fù)雜度較低。
語音信號 時長規(guī)整 基音檢測 頻譜
1.研究背景及選題意義
語音是人類交流的最直接的方式,語音信號在社會交流、信息傳輸中占有重要的地位。其中,變聲技術(shù)是一個備受關(guān)注的內(nèi)容。利用變聲技術(shù)可以將一個人說出的話通過處理后變成與自身不同的特點,從而聽起來像是另一個人說出來的一樣。比如一個年輕人說出的話聽著像老人,男人聽著像女人,這看上去非常的有趣。其實,變聲技術(shù)的用途十分廣泛,比如電視節(jié)目中的配音,機(jī)密信息的語音偽裝等。
2.國內(nèi)外研究動態(tài)
(1)語音時長規(guī)整技術(shù)研究動態(tài)
在20世紀(jì)50年代的時候,就已經(jīng)開始有人研究語音時長的規(guī)整技術(shù),并且已經(jīng)有這樣一種想法提出:即在保證音色不發(fā)生改變的狀況下,將語音播放的速度進(jìn)行改變。進(jìn)入數(shù)字時代后,做到了改變語音播放速度的同時,不改變說話人特征的要求[2]。其主要方法有三類:時域法、頻域法和參數(shù)法。
(2)說話人特征改變技術(shù)研究動態(tài)
對于將說話的人的特征發(fā)生改變的這一技術(shù)的研究,首先需要了解說話的人的特征。目前有兩種方法可以實現(xiàn)使說話人特征發(fā)生改變:參數(shù)法和非參數(shù)法。第一種是首先獲得說話的人的一些參數(shù),然后憑借這些特征參數(shù)改變說話人的相應(yīng)特征;后者則建立不同說話人之間的映射關(guān)系[3]。
1.語音信號處理基本理論
語音時長規(guī)整技術(shù)的作用是在確保說話人的語音特征不發(fā)生變化的狀況下,能夠做到將語音播放的速度產(chǎn)生變化。這里面包括的算法有三種類型:頻域法、參數(shù)法以及時域法[4]。
2.語音信號的頻域特性
一段語音的短時譜的產(chǎn)生有兩個步驟,首先要對其分幀加窗,之后還要有傅里葉變換。一個隨機(jī)信號的頻譜與清音的短時譜是十分相似的。在濁音信號短時譜中,周期性特征較顯著,在短時譜中的凸起點的頻率與聲道諧振頻率具有較好的一致性。短時譜中的凸起點所對應(yīng)的頻率通常叫做共振頻率。共振峰有好幾種名稱,頻率低的通常被叫做第一共振峰,頻率高的通常被叫做第二共振峰。
3.語音信號的預(yù)處理
一般而言為了便于分析,要進(jìn)行高頻增強(qiáng)處理。能量損耗具有如下規(guī)律:由于語音信號中的功率譜每降低6dB,相應(yīng)的頻率就會增加兩倍,因此在預(yù)加重的過程中,通常在6dB/otc的前提下提高高強(qiáng)部分。預(yù)加重的方法一般有兩種:
硬件實現(xiàn)時,可用6dB/oct梯度的高頻增強(qiáng)型濾波器,其傳遞函數(shù)為
在這個函數(shù)中a表示預(yù)加重系數(shù),通常取1或者比1小。
4.仿真實現(xiàn)
在研究仿真實現(xiàn)的過程中,可以錄制一段男聲語音來深入研究。對這段語音進(jìn)行兩次規(guī)整,規(guī)整因子F分別為2和0.7,即一個是壓縮處理,一個是拉伸處理。在設(shè)定幀長時采用1024個采樣點,ss設(shè)定為幀長的一半。圖2-4—2-6描述的是重疊加算法里面原始語音信號以及F分別取2和0.7時的波形圖以及局部波形的放大圖。
圖2-4 原始語音波形圖
圖2-5 原始語音局部放大圖
圖2-6 F=2時波形
圖2-7 F=2時局部放大圖
1.人體語音信號的發(fā)聲機(jī)理
人體主要有6個發(fā)聲系統(tǒng),外界空氣經(jīng)過呼吸進(jìn)入肺部,聲帶受到氣流的沖擊后閉合[7]。不同的頻率聲波表現(xiàn)出來的就是不同的聲音特性,所以改變語音頻率是一種有效的說話人特征改變技術(shù)。
(1)算法原理
這里介紹的是音頻改變的算法。當(dāng)放音機(jī)里面的放音速度發(fā)生變化時,相應(yīng)的音高基頻會隨之發(fā)生變化,在這種情況下,基頻改變因子P 等同于變速因子S ,即P = S 。如果輸入的語音用x(n)表示,根據(jù)變速因子S(當(dāng)S > 1時,此時播放的速度就增加,當(dāng)S <1的時候,此時播放的速度就減少),播放的速度發(fā)生變化之后的的語音表示為( ) x n,那么
其中[]表示下取整運算。
(2)仿真實現(xiàn)
下面是一段男聲發(fā)“我在俄國見到的景物”的語音圖形。根據(jù)圖3.1的流程圖,當(dāng)基頻增大至變成原始的基頻的1.5倍時,對進(jìn)行的仿真實驗進(jìn)行了相關(guān)的研究,依據(jù)取得的實驗結(jié)果來討論實驗的合理性等等。
(1)改變播放速度調(diào)整基頻
圖3-2 一段男聲的語音時域波形圖
圖3-3 改變播放速度后的時域波形圖(P=1.5)
圖3-4 幀語音的原始時域波形
圖3-5 播放速度加快1.5倍后的該幀波形
根據(jù)圖3-2中所表示的波形圖可以看出,波形大體上表現(xiàn)為一幀信號就是4個周期,拿總長度除以周期數(shù)得到這段語音的周期時長是6ms.相應(yīng)的,根據(jù)圖3-5中所表示的波形圖可以看出,波形的周期數(shù)也是4,拿總的長度除以周期數(shù)就得到對應(yīng)的周期時長大約是4ms。將得到的兩個音頻相除,很容易可以看出這種做法可以很好地改變濁音信號相應(yīng)的基頻。
本文一共對兩個方面的問題進(jìn)行了研究,第一個是關(guān)于語音時長規(guī)整技術(shù),第二個是關(guān)于使說話人的特征發(fā)生變化的技術(shù)。雖然這兩種技術(shù)在文章里面是分章節(jié)介紹的,并沒有放在一起研究,但是這并不代表這兩種技術(shù)之間沒有關(guān)系,其實,這兩種技術(shù)之間的聯(lián)系十分密切,前者的深入研究是后者得以實現(xiàn)的關(guān)鍵,是后者成功的基礎(chǔ)。
[1]楊瑩春. 說話人特征及模型研究[D]. 浙江大學(xué),博士后論文,2003.
[2]胡航. 語音信號處理[M]. 哈爾濱哈爾濱工業(yè)大學(xué)出版社,2000.
[3]陳硯圃. 聽覺感知及其在語音增強(qiáng)中的應(yīng)用研究[D]. 西安交通大學(xué),博士學(xué)位論文,2001.
[4]張?zhí)祚敚?張戰(zhàn), 權(quán)進(jìn)國等. 語音信號基音檢測的二次譜方法[J].計算機(jī)應(yīng)用,2005.
{5]趙力. 語音信號處理[M] ,北京:機(jī)械工業(yè)出版社,2003.