• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      函數(shù)擬合實(shí)現(xiàn)帶聲調(diào)的語音合成

      2022-10-10 09:25:34李建文王咿卜
      關(guān)鍵詞:音調(diào)基頻聲調(diào)

      李建文 王咿卜

      (陜西科技大學(xué)電子信息與人工智能學(xué)院 陜西 西安 710021)

      0 引 言

      語音作為人與人交往最常用的方式之一,是傳遞情感最有效的手段。中國漢字大約有十萬個(gè),是一種獨(dú)特的聲調(diào)表意語言[1-2]。在計(jì)算機(jī)研究領(lǐng)域中,由于漢字種類繁多,在眾多語言中所占存儲(chǔ)空間最大,導(dǎo)致編碼過程中極為不便,但若對(duì)相同拼音按不同聲調(diào)的漢字進(jìn)行歸類,卻可以把漢字?jǐn)?shù)目縮減到約原始容量的四分之一,極大地減小了編碼空間的占用且保證了語音的逼真度。在如今人工智能高速發(fā)展的時(shí)代,語音識(shí)別及語音合成要做的不僅是算法準(zhǔn)確度的提高,還應(yīng)該注重智能化和逼真度的提高[3]。大部分人僅僅著重于識(shí)別與合成的結(jié)果,而忽略了語音是否具有合適的聲調(diào),尚未實(shí)現(xiàn)個(gè)性化的語音合成,并沒有把話語中聲調(diào)所表達(dá)的情感狀態(tài)作為考察的特征之一[4-7]。人類是富有情感的,不同的環(huán)境、心理狀態(tài)會(huì)導(dǎo)致交談的音調(diào)、聲調(diào)所傳達(dá)的情感千差萬別[1]。同樣的語言,使用不同聲調(diào)所表達(dá)的態(tài)度也各有所異。在醫(yī)學(xué)中,針對(duì)聽力障礙者推出的人工耳蝸產(chǎn)品也并未考慮聲調(diào)、語調(diào)等特征的感知[1-2]。因此,從數(shù)學(xué)角度出發(fā),考慮漢語四種聲調(diào)的特征參數(shù)以及之間參數(shù)的變換很有必要。

      劉夢(mèng)媛等[8]設(shè)計(jì)了基于HMM的語音合成系統(tǒng),選取緬甸語事物聲母及帶聲調(diào)事物韻母作為合成基元,解決了變音和變調(diào)問題;王國梁等[9]設(shè)計(jì)了端到端的語音合成系統(tǒng)Tacotron 2,在語料不足的情況下使用預(yù)訓(xùn)練解碼器,并通過多層感知機(jī)代替線性變化對(duì)停止符進(jìn)行預(yù)測(cè);宋剛等[10]基于Target模型進(jìn)行語調(diào)分析,總結(jié)了四種聲調(diào)的基頻曲線變化規(guī)律,采用分段擬合方法,將各個(gè)聲調(diào)分為兩段來研究,擬合過程中所需特征參數(shù)有各段音調(diào)的斜率、音高變化的調(diào)域及所占時(shí)間;薛健等[11]采用線性多項(xiàng)式進(jìn)行聲調(diào)模型的構(gòu)建,主要從歸一化的規(guī)范模型出發(fā),建模的參數(shù)需要從原始語音得到中值頻率、不同音調(diào)基頻變化的調(diào)域、同一音調(diào)但調(diào)型不同的變化調(diào)域。上述研究中,前兩者基于深度學(xué)習(xí)進(jìn)行語音合成,但深度學(xué)習(xí)需要極大容量語料包,過程繁瑣,且失去了對(duì)語音音調(diào)的數(shù)理本質(zhì)的探究,而基于Tacotron的方法現(xiàn)在更適合對(duì)英語的處理,目前對(duì)漢語等多文字的語言應(yīng)用尚不成熟。后兩篇論文從基頻軌跡出發(fā),討論了基頻曲線與漢語四種音調(diào)的關(guān)系,并未涉及到基頻軌跡擬合四種聲調(diào)在語音合成方面的實(shí)際應(yīng)用。本文研究旨在從語音聲調(diào)的角度出發(fā),基于歸一化模型的思想,從不同漢語的四聲調(diào)的基頻共性出發(fā),對(duì)漢語的四聲聲調(diào)進(jìn)行分析研究,提取基頻軌跡的共性,將其用高次多項(xiàng)式進(jìn)行擬合,最終以函數(shù)形式實(shí)現(xiàn)一種音高和音長(zhǎng)變化可控、所需參數(shù)少且適應(yīng)于各種發(fā)音的聲調(diào)變換模型的語音合成,以期在語音合成、情感分析領(lǐng)域?qū)φZ音逼真度和情感度的提高方面提供參考,以及在醫(yī)學(xué)領(lǐng)域?qū)θ斯ざ伒臉?gòu)造和聲調(diào)康復(fù)訓(xùn)練方面提供參考[1]。

      1 漢語聲調(diào)規(guī)范

      1.1 發(fā)音原理

      聲音的形成主要由肺、氣管、喉和聲道等器官參與。圖1所示為語音發(fā)音原理,空氣通過肺器官輸出直流氣流,產(chǎn)生發(fā)音的動(dòng)力,進(jìn)入喉,喉部位的聲帶作為聲源,產(chǎn)生振動(dòng),輸出交流氣流,再通過聲道對(duì)交流氣流產(chǎn)生諧振,對(duì)聲音進(jìn)行調(diào)整,從聲道輸出的速度波最終經(jīng)過口唇輻射輸出聲壓波,產(chǎn)生了人耳中聽到的聲音[7]。

      圖1 語音的發(fā)音原理

      從圖1可得,聲音的發(fā)出主要是由聲帶周期性的振動(dòng)產(chǎn)生。無論是漢語還是其他語言,語音都可按照聲帶的參與分為濁音和清音。濁音的發(fā)出伴隨著聲帶的振動(dòng),清音是氣流與空氣摩擦產(chǎn)生,沒有聲帶振動(dòng)的參與,因此本文從濁音角度出發(fā)進(jìn)行語音聲調(diào)研究。

      1.2 五度制音高標(biāo)記

      語言之所以能夠體現(xiàn)人類的情感,最主要的特征就在于說話人對(duì)于聲音聲調(diào)的選擇。相同的話語,不同的抑揚(yáng)頓挫也會(huì)使得情感的偏重點(diǎn)有所差別。雖然每個(gè)人說話的腔調(diào)與講話節(jié)奏都不同,但相同聲調(diào)在走向上都是大體一致的。圖2和圖3分別為拼音a和拼音o的四種聲調(diào)的語音頻譜圖(稱語譜圖),其中a1代表拼音a一聲,a2代表拼音a二聲,a3代表拼音a三聲,a4代表拼音a四聲。

      圖2 拼音a四種聲調(diào)的語譜圖

      圖3 拼音o四種聲調(diào)的語譜圖

      將圖2和圖3相同的音調(diào)進(jìn)行對(duì)比,可以看出相同音調(diào)語譜圖的曲線走向大致相同。在漢語中,普通話可以按照聲調(diào)分為四種,分別是陰平、陽平、上聲、去聲四種音調(diào)[10]。圖4所示為漢語的五度制音高標(biāo)記法。

      圖4 五度制音高標(biāo)記法

      可以看出,五度最高,一度最低。根據(jù)聲調(diào)的不同,選擇的音高也不同,每個(gè)漢語都有其對(duì)應(yīng)的音調(diào),即相應(yīng)的音高走向,但相同音調(diào)曲線走向具有同樣的共性。

      1.3 基 頻

      在分析語音信號(hào)時(shí),主要考察兩個(gè)重要的參數(shù),其中之一為基頻。已知聲音的發(fā)聲源是由聲帶的周期性振動(dòng)產(chǎn)生,聲帶一次的開啟與閉合稱為一個(gè)周期,這種周期的倒數(shù)稱為基音頻率(簡(jiǎn)稱基頻)[7,12]。人們所說的聲調(diào)指的是基頻關(guān)于時(shí)間的曲線。在語譜圖上,橫坐標(biāo)為時(shí)間,縱坐標(biāo)為頻率,基頻指的是位置最低的一條橫線對(duì)應(yīng)的縱坐標(biāo)的值,該值稱為基音頻率[13-14]。

      提取基頻,首先要對(duì)語音信號(hào)進(jìn)行加窗與分幀的處理,連續(xù)信號(hào)被分為時(shí)域離散信號(hào),m為起始時(shí)間量,得到第i幀的語音信號(hào)為xi(m),長(zhǎng)度為M,對(duì)第i幀的語音信號(hào)xi(m)進(jìn)行自相關(guān)運(yùn)算[15-16],得到Ri(k):

      (1)

      式中:k是時(shí)間的延遲量;N為語音信號(hào)經(jīng)過分幀處理后每一幀的長(zhǎng)度;xi(m+k)是移位k步的語音信號(hào)。已知周期性函數(shù)進(jìn)行自相關(guān)計(jì)算后,得到的函數(shù)同樣具有周期性,一個(gè)周期內(nèi)自相關(guān)函數(shù)圖像為遞增函數(shù),在周期的整倍數(shù)位置處獲得最大值[16-18]。由于語音信號(hào)的基頻具有周期性,周期值為P,因此采用自相關(guān)計(jì)算得到的函數(shù)也具有周期性,周期仍為P,且在P的整倍數(shù)位置處自相關(guān)函數(shù)會(huì)達(dá)到最大值max(Ri(k))。

      Ri(k)=Ri(k+P)

      (2)

      max(Ri(k))=Ri(±nP)n=1,2,…

      (3)

      由式(3)知,當(dāng)k=0時(shí),R(P)為最大值[16]。根據(jù)這一原理,采用式(1)對(duì)語音信號(hào)進(jìn)行自相關(guān)函數(shù)運(yùn)算,在R(k)中通過尋找最大值的周期性來確定每一幀語音信號(hào)的周期值P[13]。

      1.4 共振峰

      語音信號(hào)另一個(gè)重要的參數(shù)為共振峰。在發(fā)音過程中,基頻由聲帶振動(dòng)產(chǎn)生,由于傳輸?shù)铰暤腊l(fā)生諧振會(huì)產(chǎn)生各次諧波,這些諧波同一時(shí)刻所對(duì)應(yīng)的頻率值為相應(yīng)基頻的整倍數(shù)[7]。在語譜圖上,各次諧波有亮有暗,亮區(qū)域的波對(duì)應(yīng)的頻率值便是共振峰的頻率值[14]。由圖1可知,當(dāng)不考慮口唇輻射作用時(shí),語音信號(hào)是由n時(shí)刻的聲門脈沖激勵(lì)u(n)(即基頻的周期信號(hào))經(jīng)聲道響應(yīng)v(n)濾波得到,即:

      x(n)=u(n)×v(n)

      (4)

      將式(4)中三個(gè)分量求倒譜,得:

      (5)

      由式(5)可得,在倒譜域中,聲門脈沖激勵(lì)與聲道響應(yīng)兩者相分離[19-20]。為了提取共振峰,本文采用倒譜法來獲取共振峰的頻率值,具體操作如下。

      x(n)是一個(gè)長(zhǎng)度為M的語音信號(hào),將第i幀的語音信號(hào)xi(n)進(jìn)行N點(diǎn)傅里葉變換,其中j為復(fù)數(shù)的虛部單位,k為傅里葉變化的第k個(gè)頻譜,得到:

      (6)

      取Xi(k)的幅值|Xi(k)|,經(jīng)過對(duì)數(shù)運(yùn)算,得到:

      (7)

      (8)

      式中:n=0,1,…,N-1;n0為窗函數(shù)寬度。

      (9)

      (10)

      圖5所示為某一幀信號(hào)進(jìn)行共振峰提取步驟圖;圖6為最終獲得的一聲拼音a語音包絡(luò)線,其中虛線對(duì)應(yīng)的橫坐標(biāo)的值為共振峰頻率。

      圖5 倒譜法獲取語音包絡(luò)線

      圖6 語音包絡(luò)線

      2 四聲聲調(diào)分析

      2.1 聲調(diào)提取

      由圖2與圖3可以看出,語音的聲調(diào)由基頻曲線的頻率走向決定,因此采用基頻提取的方式對(duì)聲調(diào)進(jìn)行分析。圖7為實(shí)際情況下提取出來拼音a的四種聲調(diào)基頻散點(diǎn)圖。

      圖7 實(shí)際情況下拼音a的四聲基頻曲線

      從圖4與圖7對(duì)比可得,實(shí)際情況下提取出來的四聲調(diào)散點(diǎn)圖與理論上的音高走向差異很大。主要區(qū)別有以下幾點(diǎn):

      (1) 陰平聲調(diào)的基頻走向并不是簡(jiǎn)單的直線,在開始與結(jié)束位置存在小幅度的起伏變換。

      2.2 聲調(diào)擬合

      2.2.1函數(shù)最高次數(shù)選擇

      為了使得擬合曲線更接近實(shí)際情況下的聲調(diào),采用n次多項(xiàng)式對(duì)實(shí)際情況下提取出來的各個(gè)音調(diào)基頻進(jìn)行擬合:

      (11)

      式中:yl為第l音調(diào)的擬合結(jié)果(l=1為陰平,l=2為陽平,l=3為上聲,l=4為去聲);i為次數(shù);ai為次數(shù)為i次的系數(shù);x為時(shí)間序列;ai為x的系數(shù)。

      對(duì)于次數(shù)n,由多項(xiàng)式性質(zhì)可得,n選擇越高,函數(shù)擬合效果越好,誤差越小,但過高會(huì)導(dǎo)致過擬合越來越嚴(yán)重。為了防止過擬合且保證有較小的誤差,本文統(tǒng)一采用相同的有限次數(shù)對(duì)四種聲調(diào)進(jìn)行擬合。在四種聲調(diào)中,由于上聲聲調(diào)的基頻曲線變化最復(fù)雜,因此選擇上聲調(diào)為例進(jìn)行不同次數(shù)擬合。表1為多項(xiàng)式不同次數(shù)擬合結(jié)果。

      表1 多項(xiàng)式使用不同次數(shù)擬合結(jié)果對(duì)比

      其中,誤差平方和(SSE)越小,說明函數(shù)擬合效果越好;確定系數(shù)(R-square)越接近1,表明擬合函數(shù)中的變量對(duì)原函數(shù)y有越強(qiáng)的解釋能力,即模型對(duì)數(shù)據(jù)擬合效果越好。RMSE(Root mean squared error)為均方根標(biāo)準(zhǔn)差。Adjusted R-square(Degree-of-freedom adjusted coefficient of determination)為自由度確定系數(shù)。

      綜合分析各種次數(shù)的擬合結(jié)果,確定了當(dāng)次數(shù)n大于等于4時(shí)擬合效果較好,由于當(dāng)n大于4時(shí),各項(xiàng)次數(shù)的系數(shù)值過于大,基本在e+04以上,且擬合效果的提高程度很小。因此,在擬合函數(shù)時(shí),選擇n=4來進(jìn)行函數(shù)擬合,不僅可以有效保證聲調(diào)的匹配程度,而且簡(jiǎn)化了參數(shù),減小了運(yùn)算量。不同拼音的四聲調(diào)走向有其共性,選擇n=4來進(jìn)行擬合,也可以更好地使擬合函數(shù)適應(yīng)不同的語音,避免過擬合。

      2.2.2函數(shù)系數(shù)

      由于本文采用多項(xiàng)式函數(shù)進(jìn)行曲線擬合,因此在擬合過程中,采用最小二乘法進(jìn)行n次擬合。

      從原始曲線得數(shù)組(xi,yi),i=0,1,…,m-1,xi為第i點(diǎn)的時(shí)間值,yi為對(duì)應(yīng)的頻率值。以多項(xiàng)式最高次數(shù)n為4進(jìn)行四次擬合。令擬合函數(shù)為:

      yl(x)=a0+a1x+a2x2+a3x3+a4x4l=1,2,3,4

      (12)

      則式(12)可化為線性代數(shù)形式:

      yl(x)=XAl=1,2,3,4

      (13)

      為了保證擬合效果,尋找與原基頻曲線樣本點(diǎn)(xi,yi)距離平方和最小的擬合曲線,采用均方誤差Q求極小值來進(jìn)行系數(shù)求解[23-24]:

      (14)

      2.2.3擬合步驟

      由于語音波形可以分解為多個(gè)三角函數(shù),同樣也可以經(jīng)過三角函數(shù)的疊加構(gòu)成語音波形。三角函數(shù)的頻率為基頻,其各次諧波為基頻的整倍數(shù)級(jí),三角函數(shù)的幅值為基頻及各次諧波的強(qiáng)度,由此進(jìn)行曲線擬合。圖8所示為擬合步驟。

      圖8 聲調(diào)擬合步驟

      根據(jù)圖8流程,可將聲調(diào)合成分為以下幾步:

      (1) 將獲取的基頻連續(xù)曲線y(t)進(jìn)行預(yù)處理,首先對(duì)聲調(diào)經(jīng)過分幀處理,得到離散點(diǎn),初始橫軸位置為n0,聲調(diào)頻率最高位置為y0,將曲線移至橫軸初始位置y(n-n0),為使得擬合函數(shù)統(tǒng)一并且方便處理,將曲線縱軸初始位置設(shè)置為0,即y(n-n0)-y0,得y0(n)。

      (2) 為了使擬合函數(shù)能夠根據(jù)實(shí)際情況進(jìn)行音高控制,將得到的n時(shí)刻的y0(n)進(jìn)行歸一化,讓曲線的頻率最高值為1,最低點(diǎn)為0,根據(jù)式(15)得y1(n):

      (15)

      (3) 對(duì)y1(n)采用二項(xiàng)式定理確定多項(xiàng)式的系數(shù),得到擬合函數(shù)。

      (4) 由于音調(diào)的頻率變化差值較大,因此需要對(duì)擬合函數(shù)進(jìn)行縱軸的擴(kuò)頻以實(shí)現(xiàn)真實(shí)的幅度變化,通過獲取原始語音的音高差max(y(n))-min(y(n))來對(duì)擬合函數(shù)進(jìn)行擴(kuò)頻,以實(shí)現(xiàn)正確的音高變化,根據(jù)式(16)得到y(tǒng)3(n)。

      y3(n)=y2(n)·(max(y(n))-min(y(n)))

      (16)

      (5) 擴(kuò)頻之后的擬合函數(shù)y3(n)與實(shí)際曲線y(n)的音高仍存在差異,因此要通過移位使得擬合函數(shù)的初始頻率達(dá)到原始音頻的初始頻率,由擬合函數(shù)y3(n)的中值頻率y3c與實(shí)際曲線y(n)的頻率中值yc的差值決定移位量,更好地保證了合成的基頻曲線不受原始語音基頻兩端不穩(wěn)定點(diǎn)的影響。最終由式(17)得到擬合結(jié)果y41。

      y41(n)=y3(n)+(y3c-yc)

      (17)

      將擬合結(jié)果進(jìn)行語音參數(shù)讀取,得到聲調(diào)變化的時(shí)域信息(初始位置為t0,結(jié)束位置為t1),采用矩形窗進(jìn)行時(shí)域截取,如式(18)所示。為了使得聲調(diào)變化時(shí)長(zhǎng)可控,設(shè)最終發(fā)音時(shí)長(zhǎng)為t2,fs為采樣率,N為語音信號(hào)分幀后的長(zhǎng)度,進(jìn)行擴(kuò)展最終得到y(tǒng)4(n),如式(19)所示。

      y42(n)=y41(n)·window(n)

      (18)

      (19)

      2.2.4pitch模型

      通過上述步驟依次可得四種聲調(diào)的擬合函數(shù)模型的參數(shù)分布及擬合結(jié)果,如表2所示。

      表2 四種聲調(diào)的擬合參數(shù)分布及擬合結(jié)果

      分析表2中的數(shù)據(jù)可得,陰平的基頻曲線變化幅度較小,陽平次之,上聲和去聲的基頻曲線變化幅度較大。根據(jù)最終得到確定系數(shù)與極限值1相比可得,通過四次多項(xiàng)式進(jìn)行語音基頻擬合方法可行。

      3 實(shí) 驗(yàn)

      3.1 擬合結(jié)果

      根據(jù)表2中四種聲調(diào)的擬合函數(shù)參數(shù),令發(fā)音時(shí)長(zhǎng)為1,基頻的頻率最大值為300 Hz,最終得到四種聲調(diào)基頻發(fā)音曲線,如圖9所示。

      圖9 四種聲調(diào)擬合的基頻曲線對(duì)比圖

      由圖9(a)可得,陰平的曲線在實(shí)際情況下并不是單一的直線,在最高頻率300 Hz時(shí),有較小幅度的波動(dòng)。圖9(b)中陽平的基頻曲線有拐點(diǎn),拐點(diǎn)之前為斜率遞增,拐點(diǎn)之后斜率遞減。圖9(c)中上聲的基頻曲線有拐點(diǎn),拐點(diǎn)之前為斜率遞減,拐點(diǎn)之后斜率遞增。圖9(d)中去聲基頻曲線在發(fā)音中間階段先有小幅度的頻率波動(dòng)。

      由2.2.2節(jié)可知,語音可以經(jīng)過多個(gè)三角函數(shù)疊加構(gòu)成,如式(20)所示。

      output(t)=∑Amp·sin(wt+φ)

      (20)

      式中:Amp為幅度,控制聲音的響度;w為聲帶振動(dòng)頻率;t為時(shí)間;φ控制聲音發(fā)音時(shí)間的移位。由于w=2·π·f,f為基頻周期,則式(20)變化為如下函數(shù):

      output(t)=∑Amp·sin(2·π·f·t+φ)

      (21)

      在語音合成過程中,要實(shí)現(xiàn)聲調(diào)控制,需要將固定的聲帶振動(dòng)頻率即式(20)中的定值w變?yōu)殡S著時(shí)間有相應(yīng)聲調(diào)起伏變化的函數(shù),即yl(n),實(shí)驗(yàn)合成語音選取的采樣頻率為8 kHz,因此在合成過程中,時(shí)間的間隔n值非常小,即離散的采樣取值可以等效為連續(xù)時(shí)間變化yl(t)。

      output(t)=∑Amp·sin(2·π·k·yl(t)·t+φ)

      (22)

      式中:yl(t)為式(12)中四種聲調(diào)擬合函數(shù);k為基頻的整倍數(shù)級(jí);2·π·k·yl(t)為共振峰頻率。

      根據(jù)式(22)最終從數(shù)學(xué)原理角度出發(fā)實(shí)現(xiàn)了帶有音調(diào)控制的語音合成。采用Adobe Audition軟件進(jìn)行分析,將語音的原聲和合成語音進(jìn)行語譜圖對(duì)比。圖10-圖13分別為原聲和合成的拼音a的四種音調(diào)的語譜對(duì)比圖(左側(cè)為原聲語譜圖,右側(cè)為合成語音語譜圖)。

      圖10 拼音a陰平的原聲與合成結(jié)果對(duì)比

      圖11 拼音a陽平的原聲與合成結(jié)果對(duì)比

      圖12 拼音a上聲的原聲與合成結(jié)果對(duì)比圖

      圖13 拼音a去聲的原聲與合成結(jié)果對(duì)比圖

      可以看出,由于現(xiàn)實(shí)情況下,人受身體狀態(tài)與發(fā)音器官構(gòu)造的差異,使得語音的發(fā)出在語譜圖上會(huì)呈現(xiàn)一些有干擾的陰影,影響發(fā)音效果[3]。對(duì)于越標(biāo)準(zhǔn)的發(fā)音,基頻與共振峰曲線越清晰,存在的陰影越少。為合成清晰度高、干擾小的語音,本文采用函數(shù)擬合方法可以很好地去除外界對(duì)發(fā)音的影響,使得發(fā)音結(jié)果更標(biāo)準(zhǔn)。圖10-圖12對(duì)應(yīng)的一聲、二聲、三聲聲調(diào)都能夠得到很好的擬合結(jié)果,而四聲聲調(diào)存在偏差是因?yàn)樵趯?shí)際情況下,基頻的變化不是從剛開始就下降,一般先保持一段水平進(jìn)而開始走低,由于這段水平發(fā)音時(shí)間很短且保持一聲,因此在進(jìn)行函數(shù)擬合時(shí),可以利用平緩的下降來進(jìn)行擬合,最終得到擬合結(jié)果。

      為直觀地檢測(cè)通過人耳后合成結(jié)果與原始語音的聽覺差,采用Sound-Similar Free軟件對(duì)兩種結(jié)果進(jìn)行相似度檢測(cè),該軟件通過做時(shí)域分析,獲取頻譜隨著時(shí)間變化的特征向量來計(jì)算相似度,最終得到四種聲調(diào)的相似度對(duì)比結(jié)果。圖14為拼音a上聲(a1)的合成結(jié)果與原始語音的相似度對(duì)比檢測(cè)結(jié)果。

      圖14 拼音a上聲相似度檢測(cè)結(jié)果

      采取同種方法測(cè)試四種聲調(diào)的合成結(jié)果,表3為四種聲調(diào)的檢測(cè)結(jié)果。表3分析結(jié)果與圖10-圖13頻譜分析對(duì)比結(jié)果貼合。

      表3 四種聲調(diào)的相似度對(duì)比結(jié)果(%)

      3.2 實(shí)驗(yàn)對(duì)比

      現(xiàn)在大部分考慮聲調(diào)的語音合成系統(tǒng),主要采用Target模型及二次曲線擬合方法。在該模型中,四種聲調(diào)被簡(jiǎn)單地劃分為斜率為零、上聲、下降不同且變化趨勢(shì)單一的直線,結(jié)合二次曲線計(jì)算基頻曲線拐點(diǎn)位置進(jìn)行擬合[10]。由于三聲調(diào)曲線變化最復(fù)雜,因此以三聲調(diào)為例進(jìn)行實(shí)驗(yàn)對(duì)比。圖15所示為拼音a上聲的原聲和以Target模型為基礎(chǔ)的語音合成結(jié)果,圖16所示為對(duì)于拼音a上聲采用高次多項(xiàng)式和以Target模型為基礎(chǔ)的語音合成結(jié)果。

      圖15 拼音a上聲的原聲與Target模型為基礎(chǔ)進(jìn)行合成結(jié)果對(duì)比圖

      圖16 拼音a上聲的多項(xiàng)式擬合與Target模型為基礎(chǔ)進(jìn)行合成結(jié)果對(duì)比圖

      可以看出,由于語調(diào)曲線變化不是單一的,而是變化復(fù)雜且拐點(diǎn)較多的,因此采用高次多項(xiàng)式,較以Target模型為基礎(chǔ)進(jìn)行帶語調(diào)的語音合成結(jié)果得到的擬合效果更好。

      利用支持向量機(jī)的方法對(duì)聲調(diào)擬合參數(shù)進(jìn)行訓(xùn)練、分類,最終得到兩種方法關(guān)于四種聲調(diào)的識(shí)別結(jié)果,如表4所示。

      表4 四種聲調(diào)的識(shí)別結(jié)果(%)

      由表4可得,對(duì)于陰平和去聲來說,由于兩種聲調(diào)的基頻變化曲線都是單一的,因此識(shí)別率幾乎沒有差別;而對(duì)于陽平與上聲音調(diào)來說,采用多項(xiàng)式進(jìn)行基頻曲線擬合效果更好,總體識(shí)別率也更高。雖然采用多項(xiàng)式曲線擬合方法進(jìn)行轉(zhuǎn)換之后,陽平和上聲較陰平和去聲識(shí)別結(jié)果的正確率較低,但總體上看,此曲線擬合技術(shù)已經(jīng)可以達(dá)到使用的效果。

      4 結(jié) 語

      (1) 語音發(fā)音兩個(gè)重要的參數(shù)為基頻和共振峰。對(duì)語音的某一幀頻率值進(jìn)行自相關(guān)運(yùn)算,在周期處存在極大值?;l值采用自相關(guān)運(yùn)算求極大值方法求得。共振峰的頻率值可根據(jù)倒譜法求得。

      (2) 四種語調(diào)的基頻曲線在實(shí)際情況下,一聲語調(diào)存在波形變化,二聲與三聲語調(diào)基頻與五度制音高標(biāo)記法描述的音高走向不同,拐點(diǎn)更接近前端,四聲語調(diào)基頻下降趨勢(shì)更快,時(shí)間更短。

      (3) 采用多項(xiàng)式進(jìn)行基頻曲線擬合,選擇四階多項(xiàng)式擬合與原始曲線相似度可達(dá)到97.98%,同時(shí)避免了曲線過擬合。

      (4) 對(duì)發(fā)音的數(shù)學(xué)原理進(jìn)行分析,提取了語音的基頻及共振峰兩個(gè)重要參數(shù),最終通過三角函數(shù)的疊加以及四種音調(diào)的控制實(shí)現(xiàn)了聲調(diào)可控的語音合成。相比傳統(tǒng)的基頻提取,本文方法能夠通過函數(shù)擬合來靈活調(diào)整語調(diào);相比機(jī)器學(xué)習(xí),本文方法對(duì)語料包的要求更低。經(jīng)過驗(yàn)證,本文方法達(dá)到了95.91%的識(shí)別率,對(duì)于今后語音合成、情感分析、語音識(shí)別的智能化、準(zhǔn)確度有很好的參考價(jià)值,對(duì)探究發(fā)音的數(shù)學(xué)原理有參考意義。

      猜你喜歡
      音調(diào)基頻聲調(diào)
      春的呼喚
      新航空(2024年3期)2024-06-03 22:25:26
      語音同一認(rèn)定中音段長(zhǎng)度對(duì)基頻分析的影響
      聲調(diào)符號(hào)位置歌
      基于時(shí)域的基頻感知語音分離方法?
      聲調(diào)歌
      橋面鋪裝層對(duì)中小跨徑橋梁基頻影響分析
      坐著轎車學(xué)聲調(diào)
      單韻母扛聲調(diào)
      劉濤《音調(diào)未定的儒家——2004年以來關(guān)于孔子的論爭(zhēng)·序》
      名作欣賞(2017年25期)2017-11-06 01:40:12
      45000kHz基頻晶體濾波器
      電子制作(2017年20期)2017-04-26 06:57:35
      临沭县| 福海县| 随州市| 商南县| 竹北市| 响水县| 竹山县| 镇远县| 皮山县| 沁源县| 集安市| 苍山县| 江门市| 平远县| 宜城市| 亳州市| 鄢陵县| 光山县| 芜湖县| 诸暨市| 靖江市| 怀仁县| 房山区| 古浪县| 和田县| 德化县| 敦化市| 乌拉特后旗| 扎鲁特旗| 黄大仙区| 永川市| 淳安县| 邯郸市| 简阳市| 固安县| 红原县| 长宁县| 二连浩特市| 云龙县| 肇州县| 柘荣县|