帕麗旦·木合塔爾,吾守爾·斯拉木,買買提阿依甫*
(1.新疆財經(jīng)大學信息管理學院,新疆 烏魯木齊 830012;2.新疆大學信息科學與工程學院,新疆 烏魯木齊 830046)
人機語音交互是一種讓機器聽懂人講話,并能說出話來的技術(shù)[1]。語音合成是人機交互的典型技術(shù),是指將輸入的文本轉(zhuǎn)換為語音。近年來在學術(shù)界和工業(yè)界均發(fā)展迅猛,合成技術(shù)不斷地發(fā)展并較成熟,在可懂度、音質(zhì)及聽感上已取得了較好的成果,但是自然度與實際應(yīng)用需求有一定的差異。智能化新時期的需求不斷地推動著語音合成技術(shù)的發(fā)展方向,探索新的方法,提高語音合成的自然度和表現(xiàn)力成為當務(wù)之急。
目前,國內(nèi)外語音合成技術(shù)研究已較為成熟,開發(fā)出了許多著名的語音合成系統(tǒng)。國內(nèi)的中國科學研究所、清華大學、中國科技大學研究開發(fā)出的一系列語音合成系統(tǒng)在可懂度和自然度方面達到了較高的水平。此外科大訊飛聲學研究所、百度Voice、Google聲谷等開發(fā)的一系列語音合成系統(tǒng)其自適應(yīng)、可懂度等都已經(jīng)達到令人滿足的水平。
相比之下,維吾爾語音合成屬于低資源語音合成處理起步較晚。維吾爾語音合成發(fā)展借助以大語料庫拼接法為基礎(chǔ)的合成系統(tǒng)和基于HMM的維吾爾語音合成系統(tǒng)。以大語料庫為基礎(chǔ)的合成系統(tǒng)在合成語音質(zhì)量上得到了較高的合成效果。這種法是以自然音作為數(shù)據(jù)單元,所以,可以將自然音特征完全保留下來,但缺點就是語料庫的規(guī)模相對較大,以及構(gòu)建語料庫需要很長時間,并需要大量的人力和經(jīng)費的投入、系統(tǒng)不夠穩(wěn)定、擴展性較差[1]?;贖MM的維吾爾語音合成系統(tǒng)穩(wěn)定性好,合成出來的聲音在可懂度和清晰度方面很不錯,但是前端文本分析模塊難以制作,主要涉及維吾爾語的語音特征與語言特征,處理過程較復雜,需要收集大量的語料,構(gòu)建知識庫和規(guī)則庫,人工標注工作等等。另外,由于HMM系合成出的聲音過于平滑,對于中性情感文本合成的效果很好,但是帶情感色彩的文本沒有任何作用。而基于神經(jīng)網(wǎng)絡(luò)的端到端的合成方法的訓練過程比較簡單,合成出來的聲音自然度很高似乎達到真是人說話的水平,但是存在生成速度慢、穩(wěn)定性及可控性不夠好的一系列問題。因此,本論文中,提出HMM與深度神經(jīng)網(wǎng)絡(luò)相融合的語音合成方法—以維吾爾語為例。根據(jù)維吾爾語言和語音特征,利用馬爾科夫模型獲取HTS風格的語言特征,將基于決策樹聚類的上下文相關(guān)聲學模型作為是語言特征映射至聲學特征的回歸樹,將DNN視為以HMM語音當中決策樹為基礎(chǔ)的一種替代。后端合成部分利用深度學習方法,最后構(gòu)建了HMM+DNN的語音合成框架。該系統(tǒng)穩(wěn)定性、擴展性及合成速度優(yōu)于端到端的合成方法,自然度卓越基于HMM的參數(shù)合成方法。
人工神經(jīng)網(wǎng)絡(luò)是一種以模擬生物神經(jīng)系統(tǒng)為基礎(chǔ)的數(shù)學模型。在某種程度上反映了大腦生物系統(tǒng)的一些基本特征,是一種與生物多樣性進程相關(guān)的網(wǎng)絡(luò)結(jié)構(gòu)[2]。2012年,Hiton等人,將深度學習成功的應(yīng)用到語音識別[3],且很大幅度的提升了識別率,繼而產(chǎn)生了基于神經(jīng)網(wǎng)絡(luò)的語音合成方法。在基于神經(jīng)網(wǎng)絡(luò)語音合成方法中,最常用的有基于遞歸神經(jīng)網(wǎng)絡(luò)的方法(DNN)、基于循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)方法及基于長短時記憶網(wǎng)絡(luò)(LSTM)的方法[4]。Schuster[5]提出的雙向RNN的合成方法,作為序列學習器,能夠?qū)Ξ斍皫纳舷挛男畔⑦M行編碼,生成雙向的序列,通過序列學習進行建模。Hochreiter等人,為了解決傳統(tǒng)RNN的梯度消失問題,提出了新的Long Short Term Memory簡稱LSTM(長短時記憶)結(jié)構(gòu)[6]。
DNN作為一種基于深度學習的網(wǎng)絡(luò)結(jié)構(gòu)。也就是最簡單前饋神經(jīng)網(wǎng)絡(luò)的擴展類型,其網(wǎng)絡(luò)層數(shù)足夠多,此種結(jié)構(gòu)一般情況下變成深度神經(jīng)網(wǎng)絡(luò)。通過對深層非線性網(wǎng)絡(luò)結(jié)構(gòu)進行學習,從而更好地實現(xiàn)復雜函數(shù)的逼近和輸入數(shù)據(jù)的分布式表示,即有更好的學習能力[7]。采用若干隱藏單元的層,預測輸入,每層隱藏單元執(zhí)行非線性函數(shù),具體為
ht=H(wxhxt+bh)
(1)
yt=whyht+by
(2)
隱藏層所對應(yīng)的非線性激活函數(shù)用來H進行表示,權(quán)重矩陣用wxh和why來進行表示,隱藏層的偏置用bh來進行表示,輸出層的偏置用by來進行表示。式(2)中的whyht表示一個線性回歸,通過前隱藏層的激活來預測目標特征。DNN模型結(jié)構(gòu)圖1所示。
圖1 DNN模型結(jié)構(gòu)圖
循環(huán)神經(jīng)網(wǎng)絡(luò)是現(xiàn)階段自然語言處理領(lǐng)域常用的一種深度學習方法[8]。一個最簡單的RNN由輸入層、一個隱藏層和輸出層構(gòu)成[9]:
圖2中,x、s、o分別表示的是輸入層、隱藏層和輸出層所對應(yīng)的數(shù)值,u和v分別表示的是輸入層至隱藏層,以及隱藏層至輸出層的具體權(quán)重矩陣。s并非由此次輸入的x決定,還受到上次所影響。W表示的是權(quán)重矩陣,即把上次s當作此次輸入的權(quán)重[9]。若把圖2展開成圖3的形式,就更容易理解RNN的工作原理[10]。
圖2 簡單RNN結(jié)構(gòu)
圖3 RNN的展開圖
圖2中,在t時刻隱藏層以及接收到的數(shù)據(jù)大小分別為xt和st,而得到的輸出值大小為ot。值得注意的是,st并非只是由xt決定,還受到st-1的影響。通過以下公式表示RNN的工作原理
ot=g(Vst)
(3)
st=f(Uxt+Wst-1)
(4)
式(3)、式(4)分別對應(yīng)輸出層和隱藏層的公式。其中,輸出層為全連接層,所有節(jié)點一一對應(yīng)到隱藏層的節(jié)點,二者對應(yīng)連接。V表示權(quán)重矩陣,g表示激活函數(shù)。x所對應(yīng)的權(quán)重矩陣大小用U表示,W表示的是將上次數(shù)值當作此次輸入值的一個權(quán)重矩陣,f為激活函數(shù)[11][12]。由此可知,相比全連接層,循環(huán)層多一個W。
長短期記憶神經(jīng)網(wǎng)絡(luò)(LSTM)是循環(huán)神經(jīng)網(wǎng)絡(luò)的一個變體[13]。1997年,由Hochreiter和Schmidhuber提出。隨后研究者們對其進行了諸多完善和推廣。通過記憶單元來對RNN中隱含層進行替換[14]。如此網(wǎng)絡(luò)即可學會存儲更新數(shù)據(jù)信息以及忘記歷史信息。一方面能夠解決簡單循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的梯度爆炸或消失問題,另一方面能夠?qū)W習長期依賴信息[15][16]。以下圖為LSTM的抽象網(wǎng)絡(luò)結(jié)構(gòu)示意圖。
圖4 LSTM的抽象網(wǎng)絡(luò)結(jié)構(gòu)
從圖中可看出,LSTM由三個門來控制,分別是輸入門、遺忘門和輸出門[17]。顧名思義,輸入門控制著網(wǎng)絡(luò)的輸入,遺忘門控制著記憶單元,而輸出門則控制著網(wǎng)絡(luò)的輸出。其中的遺忘門的作用是決定哪些記憶需要保留,哪些記憶需要去掉,因此LSTM具有長時記憶的功能,能夠針對給定的任務(wù)自學保留多少此前的記憶,不再需要人為干擾,網(wǎng)絡(luò)就能夠自主學習。LSTM單元在t時刻更新的公式如下[18]
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
(5)
ft=σ(Wxfxt+Whfht-1+Wcfxt-1+bf)
(6)
ct=ft⊙ct-1+it⊙tanh(Wxcxt+Whcht-1+bc)
(7)
ot=σ(Wxoxt+Whoht-1+Wcoct+bo)
(8)
ht=xt⊙tanh(ct)
(9)
上述公式中σ表示神經(jīng)網(wǎng)絡(luò)中的sigmoid激活函數(shù)[19],tanh表示雙曲正切激活函數(shù)[20],e是對應(yīng)元素點積。i、f、o和c分別是輸入門、輸出門、遺忘門和輸出門。Wxi,Wxf,Wxo分別是輸入門、遺忘門、輸出門對應(yīng)的權(quán)重矩陣。bi,bf,bc,bo是偏差向量[14][15]。
在基于HMM的維吾爾語音合成中,將基于決策樹聚類的上下文相關(guān)聲學模型作為是語言特征映射至聲學特征的回歸樹,將DNN視為以HMM語音當中決策樹為基礎(chǔ)的一種替代[25][26]。此外可應(yīng)用在建模高維頻譜上。將DNN作為回歸模型的維吾爾語音合成系統(tǒng)框架圖5所示。
圖5 DNN作為回歸模型的維吾爾語音合成系統(tǒng)
在基于HMM的維吾爾語音合成中,決策樹很難處理將接受到的特征用較復雜的函數(shù)來表示,導致效率低。通過神經(jīng)網(wǎng)絡(luò)很容易對特征復雜的一些函數(shù)問題進行表示。在構(gòu)建決策樹時由輸入空間中的劃分結(jié)果所決定,在相同葉子節(jié)點中的集合與一組參數(shù)相關(guān)聯(lián),并且此組參數(shù)獨立存在,并且還需要通過規(guī)模較小的數(shù)據(jù)進行建模處理,每個集合中的數(shù)據(jù)量也會變少。這樣會降低泛化的可能性。神經(jīng)網(wǎng)絡(luò)用小規(guī)模數(shù)據(jù)建模能力比決策樹效率較高,因為深度神經(jīng)網(wǎng)絡(luò)能夠進行分布式表示。對于神經(jīng)網(wǎng)絡(luò)而言,通過較大規(guī)模的數(shù)據(jù)進行建模過程中,泛化能力更大。因此,嘗試用深度神經(jīng)網(wǎng)絡(luò)對語音合成的聲學進行建模。圖2表示將DNN作為回歸模型的維吾爾語音合成系統(tǒng),在系統(tǒng)訓練部分中,最初步的任務(wù)是前端文本處理,首先根據(jù)維吾爾語言特征,通過前端文本分析生成語言規(guī)范。然后,通過語音處理,提取聲學特征信息。最后,將語言特征信息以及所對應(yīng)的向量化序列當作DNN網(wǎng)絡(luò)的輸入,進行訓練建模。
在系統(tǒng)的合成部分中,首先通過前端處理,對輸入(待合成的文本)進行處理,獲取標注文件。然后,用訓練好的模型,生成對應(yīng)的聲學特征信息。最后,通過聲碼器(合成器)合成出文本對應(yīng)的語音。
基于DNN的維吾爾語音合成系統(tǒng)的語言特征的構(gòu)建是指標注文件(monolab,fullab)的生成。然后對標注文件進行編碼處理,將每一個上下文標簽映射至一個特征向量,作為DNN語言特征向量的輸入。構(gòu)建流程圖6所示。
圖6 語言特征的構(gòu)建流程
主要任務(wù)在前段處理過程中,最終得到的語言規(guī)范。然后進行轉(zhuǎn)化,從而變成上下文所對應(yīng)的音素信息以及標注文件。主要包括重音,詞性等諸多類型。monolab標注文件還包括每一個音素開始時間和結(jié)束時間。
本文中使用了Merlin神經(jīng)網(wǎng)絡(luò)語音合成實驗平臺,Merlin或HTS在為TTS準備更加適應(yīng)的語料庫,需要擁有一個標注文件,格式為.lab.Merlin系統(tǒng)中需要的標注文件風格為HTS,并且state級對齊。工具包對標簽進行轉(zhuǎn)化,從而以二進制連續(xù)特征向量的形式輸入到神經(jīng)網(wǎng)絡(luò)中,然后在label文件中獲得HTS風格問題的特征。因此,本系統(tǒng)中,前端文本分析模塊使用馬爾科夫訓練模型生成.lab格式的標注文件,獲取了維吾爾語言特征。獲得上下文標簽后,需要編碼處理,從而將所有上下文標簽映射到特征向量。具體步驟如下:
1)使用Festival前端工具,從文本中提取音素和上下文特征。
2) 對于訓練數(shù)據(jù)的文本和音頻進行對齊,獲得每一個音素的開始和結(jié)束時間。
3)將Festival生成的音素結(jié)構(gòu)化表示的utt格式文件轉(zhuǎn)換為Lab文件。HTS和Merlin使用相同的標注文件格式。
獲得上下文標注文件之后,需要編碼處理,從而將所有上下文因素映射到特征向量。編碼過程同樣需要音素上下文相關(guān)的問題集。此刻,使用維吾爾語HTS中設(shè)計的問題集,與上下文屬性進行了相匹配,將每一個上下文標簽轉(zhuǎn)換為一個特征向量,上下文編碼格式如圖7所示。
圖7 上下文編碼格式
在編碼過程中,每一個上下文屬性標簽對應(yīng)一個二進制編碼,為了在時間維度上將輸出和輸入的內(nèi)容對齊,對所有音素狀態(tài)所對應(yīng)的持續(xù)時間對編碼后的語言特征進行采樣處理。通過對齊后,即獲取音素級和狀態(tài)級對齊的上下文標簽。圖8和圖9分別表示音素級和狀態(tài)級對齊的實例:
圖8 音素級的對齊
圖9 狀態(tài)級的對齊
聲學特征主要包括激勵特征和譜特征[27]。聲學特征一般通過聲碼器得到的?;驹恚合扔寐暣a器讀取語音信號的譜包絡(luò)信息,由于MFCC特征維度太高,不適合直接放到網(wǎng)絡(luò)上進行訓練,所以將MFCC特征轉(zhuǎn)化為 MGC參數(shù),提取譜包絡(luò)信息。然后提取可變維度的BAP(Band Aperiodicity)特征,之后將語音基頻特征F0轉(zhuǎn)化為logF0。圖10表示聲學特征的結(jié)構(gòu)。
圖10 聲學特征的結(jié)構(gòu)
本論文中采用WORLD聲碼器從語音信號中獲取聲學特征的,WORLD聲碼器不僅具有聲學特征提取功能,還有用聲學特征對波形重建能力。WORLD在分析F0時,使用DIO算法[28],對頻帶非周期參數(shù)BAP,用使用DC4算法[28],通過Cheap Trick算法,估計譜包絡(luò)信息。圖11表示W(wǎng)ORLD聲碼器的系統(tǒng)框架。本課題使用WORLD合成器,MGC特征為60維的,對于16kHz采樣的音頻信號,BAP的維度為1,對于48kHz采樣的音頻信號,BAP的維度為5。
圖11 WORLD聲碼器的系統(tǒng)框架
DNN多個隱藏層的前饋神經(jīng)網(wǎng)絡(luò),通過對深層非線性網(wǎng)絡(luò)結(jié)構(gòu)進行學習,從而更好地實現(xiàn)復雜函數(shù)的逼近和輸入數(shù)據(jù)的分布式表示,即有更好的學習能力。本系統(tǒng)中,將DNN模型作為回歸模型[28]。將歸一化后的語言特征作為該模型的輸入向量,輸出特征為采用狀態(tài)持續(xù)時間特征,進行訓練,實現(xiàn)語言特征到狀態(tài)持續(xù)時間特征之間的映射工作,圖12表示狀態(tài)持續(xù)時間模型結(jié)構(gòu)。
圖12 表示狀態(tài)持續(xù)時間模型結(jié)構(gòu)
通過對回歸模型進行了解發(fā)現(xiàn),在輸入過程中語言特征向量的級別為句子級,輸出特征狀態(tài)表現(xiàn)出的是持續(xù)特征。而針對聲學模型而言,輸入特征并非只有語言特征,還有其所對應(yīng)的組合向量,也就是聲學模型所對應(yīng)的輸入特征。在合成過程中,需要注重語言規(guī)范問題,促使前端能夠擁有一套標準規(guī)范的處理操作流程,對語言特征進行編碼與歸一化處理,編碼后的語言特征進行上采樣處理,然后通過狀態(tài)持續(xù)時間模型生成狀態(tài)持續(xù)時間特征,最后狀態(tài)持續(xù)時間特征和語言特征相結(jié)合所得到的特征輸入到聲學模型,獲取聲學特征,最后通過聲碼器合成出語音。
本課題使用了基于神經(jīng)網(wǎng)絡(luò)的開源語音合成系統(tǒng)Merlin,該系統(tǒng)具有用神經(jīng)網(wǎng)絡(luò)聲學建模模塊,但不是一個完整的語音合成系統(tǒng),只提供聲學和前端語言特征標準化,聲學模型的訓練和建模功能,需要外加前端文本分析和合成器。因此,采用原先設(shè)計好的維吾爾語前端文本處理模塊提取語言特征信息。然后Merlin基于神經(jīng)網(wǎng)絡(luò)的聲學建模模塊對語言特征矢量化,聲學和語言特征進行歸一化,訓練聲學模型。最后用WORLD合成器合成語音,如此成功的搭建了基于神經(jīng)網(wǎng)絡(luò)的維吾爾語音合成系統(tǒng)。圖13、14是實驗平臺的截圖。
圖13 實驗平臺的截圖
圖14 實驗平臺的截圖
本文采用不同的神經(jīng)網(wǎng)絡(luò)框架進行了試驗,對神經(jīng)網(wǎng)絡(luò)的輸出特征MCC、BAP、log F0等特征進行了對比,合成出的語音進行了客觀評價。 本實驗中所使用的基準神經(jīng)網(wǎng)絡(luò)模型如下:
1)前饋神經(jīng)網(wǎng)絡(luò)DNN(Deep neural network):最簡單前饋神經(jīng)網(wǎng)絡(luò)的擴展類型,在輸入與輸出層之間包含了多層的隱含層。
2)長短期記憶神經(jīng)網(wǎng)絡(luò)LSTM(Long Short Term Memory):是循環(huán)神經(jīng)網(wǎng)絡(luò)的一個變體,通過記憶單元來對RNN中隱含層進行替換,如此網(wǎng)絡(luò)即可學會存儲更新數(shù)據(jù)信息以及忘記歷史信息。
3)雙向長短期記憶神經(jīng)網(wǎng)絡(luò)BiLSTM:是由前向LSTM與后向LSTM組合而成。
實驗語料及測試集:
由于神經(jīng)網(wǎng)絡(luò)語音合成對語料規(guī)模的大小要求高,本實驗中擴大了語料規(guī)模,中國維吾爾語廣播CNR網(wǎng)上收集了兩年的新聞文本,然后文本進行篩選,通過文本規(guī)范化處理了特殊符號和未登錄詞,整理了7200條句子。在新疆電視臺直播室進行了錄音工作,發(fā)音人是新疆電視臺的播音員,女,33歲。錄制地點:新疆電視臺。錄制設(shè)備:錄音軟件:PowerEditor(INFOMEDIA)音頻處理軟件。調(diào)音臺:STUDER OnAir2500。麥克風:Electrol.Vioce Model 309A。語音文件指標:音頻參數(shù)為48000Hz,1536kbps。數(shù)據(jù)位數(shù)為6bit。采樣率為16kHz。頻道為單聲道。總時長大約為 15個小時。7200條句子和對應(yīng)的聲音文件作為訓練集,100條句子作為測試集。首次采用基于DNN的神經(jīng)網(wǎng)絡(luò)進行了訓練。神經(jīng)網(wǎng)絡(luò)的輸入為486維的維吾爾語言特征,包括音素上下文,音節(jié),詞,韻律短語及詞性等信息。神經(jīng)網(wǎng)絡(luò)的輸出特征,在5毫秒幀間隔上提取60維MCC,5維BAP,及l(fā)og F0特征。
參數(shù)設(shè)置與實驗結(jié)果:
本實驗中用DNN神經(jīng)網(wǎng)絡(luò)、LSTM神經(jīng)網(wǎng)絡(luò)模型及BiLSTM的神經(jīng)網(wǎng)絡(luò)框架進行了訓練。訓練模型的參數(shù)設(shè)置如表1所示。
表1 訓練模型的參數(shù)設(shè)置
對神經(jīng)網(wǎng)絡(luò)的輸出特征MCC、BAP、log F0等特征進行了對比,合成出的語音進行了客觀評價。表2表示基于DNN的語音合成方法結(jié)果,表3表示基于HMM+LSTM的語音合成方法結(jié)果,表4表示基于HMM+BiLSTM的語音合成方法結(jié)果:
表2 基于DNN+HMM的語音合成方法結(jié)果
表3 基于LSTM+HMM的語音合成方法
表4 基于BiLSTM+HMM的語音合成方法
圖15表示基于HMM+BiLSTM的語音合成方法的輸入端語言特征和輸出端聲碼器參數(shù)的預測圖,圖16同一個句子的原始語音譜圖,圖17同一個句子的合成語音譜圖。
圖15 特征和參數(shù)預測圖
圖16 原始語音的譜圖
主觀測試 :
本文中,通過主觀實驗對四個系統(tǒng)關(guān)于聽感進行了評估。分別對基于HMM的維吾爾語音合成系統(tǒng)、基于DNN的維吾爾語音合成系統(tǒng)、基于LSTM的維吾爾語音合成系統(tǒng)及基于BiLSTM的維吾爾語音合成系統(tǒng)等。先用四個系統(tǒng)各自生成測試集中隨機的100條合成語句,然后對四個系統(tǒng)進行驗證。共有 50 位測試者,實驗參與者根據(jù)自己主觀感受,選擇自己偏好的一切,并對合成語句的自然度、連續(xù)性和流暢性進行評測打分。按照主觀聽感量化理論,對系統(tǒng)進行測評,評分標準如表5所示。
表5 評分標準
實驗參與者按照評分標準,分別對四個系統(tǒng)進行評測打分。然后取出50位測試者對每個系統(tǒng)的評分平均值,最后再計算出每一個系統(tǒng)的評分均值,進行了對比,實驗對比結(jié)果如圖18 所示:
圖18 實驗對比結(jié)果
從圖18可看出,基于神經(jīng)網(wǎng)絡(luò)的維吾爾語音合成系統(tǒng)在人類聽感上明顯好于HMM的維吾爾語音合成系統(tǒng)。而在基于神經(jīng)網(wǎng)絡(luò)系統(tǒng)中,基于HMM+BiLSTM的語音合成系統(tǒng)的效果更好。
實驗效果分析:
基于神經(jīng)網(wǎng)絡(luò)的合成方法更準確的接近非線性網(wǎng)絡(luò),預測目標的聲碼器參數(shù),生成的語音更自然一些?;贖MM+DNN的方法比起基于HMM的合成方法,合成出的語音沒有“機械味”,自然一些,有較好的節(jié)奏感,有點語調(diào)變化幅度。但是與基于HMM+LSTM的語音合成方法比起,語音的連續(xù)性與流暢性不如基于HMM+LSTM的語音合成方法。那么,基于HMM+BiLSTM的語音合成方法顯然的優(yōu)于基于HMM+LSTM的方法,合成語音更自然,有較強的韻律節(jié)奏感,語調(diào)的表現(xiàn)也明顯一些,甚至蘊含發(fā)音人的音色特點,自然度更接近了真實人說話的感覺。
本文中,以維吾爾語作為實驗語言的語音合成方法。研究了HMM+神經(jīng)網(wǎng)絡(luò)的維吾爾語音合成系統(tǒng)。設(shè)計了合成系統(tǒng)的框架,收集了大規(guī)模的語料,并進行前端文本處理及語音處理工作。語音語料規(guī)模達到了15個小時,其對應(yīng)的文本7200條句子。根據(jù)維吾爾語的語言及語音特點,研究了神經(jīng)網(wǎng)絡(luò)輸入端的語言特征和輸出聲學特征,并構(gòu)建了訓練模型框架,并用不同的神經(jīng)網(wǎng)路模型進行了對比試驗。最后對于實驗結(jié)果進行了評測。實驗結(jié)果驗證了基于HMM+BiLSTM的語音合成方法的效果最好。合成語音的連續(xù)性和流暢性明顯的優(yōu)于參數(shù)合成方法,自然度達到了令人滿意的效果。