孫俊海
摘要:語音信號分析合成技術(shù)是語音信號處理的一個重要組成部分,一直是近年來研究的熱點,特別是,近年來隨著多媒體通信技術(shù)的迅速發(fā)展,人們對語音重建質(zhì)量提出了更高的要求。為此,該文通過采用正弦模型和噪聲模型相結(jié)合的分析合成方法,通過提取每一幀信號的幅度、頻率、相位和殘差等參數(shù),合成每一幀語音信號,然后通過疊加的方式重建語音。研究表明,該模型是一種很好的語音分析合成模型,能合成高質(zhì)量的語音。
關(guān)鍵詞:語音重建;正弦模型;噪聲模型;語音分析合成
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2019)07-0195-02
Abstract:Speech signal analysis and synthesis technology is an important part of speech signal processing and has been a hot topic in recent years. In particular, with the rapid development of multimedia communication technology in recent years, people have put forward higher requirements for the quality of speech reconstruction. To this end, this paper combines the sinusoidal model and the noise model to analyze the synthesis method, extracts the amplitude, frequency, phase and residual parameters of each frame signal, synthesizes each frame of speech signal, and then synthesizes the speech by superposition. Research shows that the model is a good synthesis model of speech analysis, which can synthesize high quality speech.
Key words: Speech reconstruction; Sinusoidal model; Noise model; Speech analysis synthesis
1緒論
語音是語言的聲學(xué)表現(xiàn),它承載的一定的意義,是人類交換信息最方便、最快捷的一種方式[1]。近年來,隨著通信技術(shù)的迅猛發(fā)展,語音信號處理技術(shù)[2]也不斷地進(jìn)行更新。語音信號處理的目的是通過提取某些語音特征參數(shù)來達(dá)到某種用途的要求,它包括語音編碼、語音合成、語音識別等。
語音合成作為語音信號處理技術(shù)中的重要組成部分,其目的主要是讓計算機(jī)能夠產(chǎn)生高清晰度、高自然度的連續(xù)語音?;谡?噪聲模型[3]的語音分析合成技術(shù)通過把原始語音信號分成正弦波和噪聲部分,通過提取每一幀音頻特征參數(shù),然后疊加合成,能很好地重建原始語音。與傳統(tǒng)語音模型相比,該模型既保持了原始語音信號波形的主要特性,又具有較好的抗噪性,同時又能很好地保持原始語音信號的特點。
1正弦模型表示
2正弦分析合成
2.1參數(shù)估計
正弦分析合成最重要的問題是參數(shù)估計[5],只有提取合適的參數(shù),才能重建較好的語音信號。一般在頻域?qū)崿F(xiàn)參數(shù)估計,通過在頻域分析頻譜的峰值信息來提取參數(shù)。我們可以通過以下步驟得到一幀語音信號的頻域參數(shù)。首先,對原始語音信號進(jìn)行分幀加窗處理,取得若干短時語音信號;接著進(jìn)行高通濾波,濾除直流信號等低頻信號;然后對每一幀信號做快速傅立葉變換;因為正弦模型的參數(shù)估計都是頻域參數(shù),所以要把時域信號變換為頻域進(jìn)行處理,通過分析原始信號的頻譜圖,對峰值進(jìn)行檢測,選取合適的峰值信息[6]提取參數(shù)頻率、幅度和相位。
2.2正弦模型合成
5結(jié)束語
本文通過對基于正弦+噪聲模型的研究,改進(jìn)了語音合成的處理過程,提高了參數(shù)估計的準(zhǔn)確性,降低了語音信號的失真性,改善了語音的合成質(zhì)量。
參考文獻(xiàn):
[1] 呂亮亮. 基于正弦模型的語音編碼算法研究[D].西安電子科技大學(xué),2013.
[2] 張雪英.數(shù)字語音處理及MATLAB仿真[M].北京:電子工業(yè)出版社,2010
[3] 宋少鵬.基于正弦+噪聲模型的帶寬音頻信號的表示與壓縮.華南理工大學(xué),2003
[4] R.J.McAulay ,T.F.Quatieri, “SPEECH ANALYSIS/SYNTHESIS BASED ON A SINUSOIDAL REPRESENTATION OF SPEECH”, MIT Lincoln Laboratory Lexington
[5] 戴禮榮.基于正弦模型的參數(shù)語音合成研究[D].中國科學(xué)技術(shù)大學(xué)碩士學(xué)位論文.2008
[6] 范蘇云. 基于正弦模型的音樂信號合成技術(shù)研究[D].蘇州大學(xué),2017.
[7] 應(yīng)娜. 基于正弦語音模型的低比特率寬帶語音編碼算法的研究[D].吉林大學(xué),2006.
[8] 李美玲. 一種正弦諧波模型語音轉(zhuǎn)換算法的設(shè)計與實現(xiàn)[D].西安電子科技大學(xué),2017.
[9] 黃鶴. 基于正弦模型的線性預(yù)測低速率語音編碼算法研究[D].北京工業(yè)大學(xué),2002.
【通聯(lián)編輯:唐一東】