• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于壓縮感知的語音編碼新方案

      2016-09-13 07:25:25許佳佳
      電子設(shè)計(jì)工程 2016年3期
      關(guān)鍵詞:復(fù)雜度矢量重構(gòu)

      許佳佳

      (陜西師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,陜西 西安 710119)

      基于壓縮感知的語音編碼新方案

      許佳佳

      (陜西師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,陜西 西安710119)

      根據(jù)語音信號(hào)的稀疏性,將壓縮感知理論應(yīng)用于語音信號(hào)的處理中,提出了一種語音編碼的新方案。該方法在編碼端采用隨機(jī)高斯矩陣對(duì)語音信號(hào)進(jìn)行觀測(cè),得到較少的觀測(cè)值,然后使用矢量量化編碼進(jìn)一步壓縮數(shù)據(jù);在解碼端,通過矢量量化解碼得到觀測(cè)值,根據(jù)語音信號(hào)在離散余弦域中的稀疏性,用正交匹配追蹤算法重構(gòu)語音信號(hào)。所用算法,在保證語音信號(hào)重構(gòu)質(zhì)量的前提下降低計(jì)算復(fù)雜度,減小時(shí)延。實(shí)驗(yàn)結(jié)果表明,對(duì)于采樣率為44 100 Hz,量化位數(shù)為16 bit,碼速率為705.6 kbps單聲道語音信號(hào)壓縮到100 kbps左右仍具有較好的語音質(zhì)量,同時(shí)算法時(shí)間延遲低。

      壓縮感知;離散余弦變換;矢量量化;正交匹配追蹤

      近幾年由D Donoho、E Cand s及華裔科學(xué)家陶哲軒等人提出的壓縮感知(Compressive Sensing,CS)理論[1-3]指出,只要信號(hào)滿足可壓縮條件或者在某個(gè)變換域是稀疏的,就可以用一個(gè)與變換基不相關(guān)的矩陣對(duì)原始信號(hào)進(jìn)行觀測(cè),觀測(cè)得到的信號(hào)維數(shù)遠(yuǎn)遠(yuǎn)低于原始信號(hào)按照奈氏采樣得到的維數(shù),接收端根據(jù)觀測(cè)得到的少量數(shù)據(jù),通過求解優(yōu)化問題可以高概率的近似無失真的恢復(fù)出原始信號(hào)。這就突破了奈奎斯特采樣定理。該理論一經(jīng)提出,就成為了信號(hào)處理領(lǐng)域的研究焦點(diǎn)。

      目前,壓縮感知理論的應(yīng)用研究已經(jīng)涉及到眾多領(lǐng)域[4],如:CS雷達(dá)、DCS(Distributed Compressed Sensing)理論、無線傳感網(wǎng)路、圖像采集設(shè)備的開發(fā)、醫(yī)學(xué)圖像處理、生物傳感、光譜分析、遙感圖像處理等。在語音信號(hào)處理方面也不例外,由于語音信號(hào)具有良好的稀疏性,壓縮感知應(yīng)用于語音信號(hào)處理的研究也十分活躍。就語音編碼方面來看,現(xiàn)行的語音編碼方案中CD采用的PCM編碼有最高的保真度,但其雙聲道下1411.2 Kbps的碼速率過高,冗余過大;而現(xiàn)在互聯(lián)網(wǎng)上廣泛采用的MP3編碼在相對(duì)于PCM編碼壓縮10~12倍時(shí)仍具有較好的聲音質(zhì)量,不過其明顯的不足是會(huì)出現(xiàn)明顯的高頻丟失,聽覺感受上仍有瑕疵,這是因?yàn)镸P3編碼是利用了人耳聽覺特性的有損編碼的緣故。那么將壓縮感知應(yīng)用于語音壓縮編碼,可以實(shí)現(xiàn)無損壓縮。而且壓縮感知理論實(shí)現(xiàn)了將信號(hào)處理中的采樣和壓縮合二為一,不用高速采樣,不用保留大量冗余數(shù)據(jù)再壓縮。這具體會(huì)對(duì)語音編碼帶來哪些好處,本文就此進(jìn)行了研究。

      1 壓縮感知基本原理

      1.1信號(hào)的稀疏性

      已知離散信號(hào)x=[x1,x2,…,xN]T,其可以在RN空間的一組正交基Ψ=[φ1,φ2,…,φN]上分解,其中φi(i=1,2,…,N)是N維向量。則x可以表示為:

      其中s=[s1,s2,…,sN]T。

      如果‖s‖0=K,且K<

      1.2觀測(cè)與重構(gòu)

      設(shè)觀測(cè)矩陣為M×N的矩陣Φ,觀測(cè)后所得的向量為y= [y,y,…,yM]T,則壓縮感知的數(shù)學(xué)表達(dá)式為,

      其中ACS=ΦΨ稱之為CS矩陣。

      理論上應(yīng)使Φ與Ψ組成的CS矩陣ACS滿足任意2K列都線性無關(guān),即滿足有限等距性質(zhì)(Restricted Isometry Property,RIP)。然而,判斷給定的A是否具有RIP性質(zhì)是一個(gè)組合復(fù)雜度問題。為了降低問題的復(fù)雜度,文獻(xiàn)[6]指出如果保證觀測(cè)矩陣Φ和稀疏基Ψ不相干,則ACS在很大概率上滿足RIP性質(zhì)。

      一般地,若s是K-稀疏的,只要M≥cKlog(N/K)(c是常數(shù)),就可以由M個(gè)方程解出K個(gè)未知數(shù)。由于K個(gè)大系數(shù)在s中的位置不確定,該問題的解決就歸結(jié)為尋求最優(yōu)解,理論上可以通過l范數(shù)優(yōu)化的方法獲得,即

      但式(3)的求解是一個(gè)NP難的非凸優(yōu)化問題。

      2006年,陶哲軒和E Cand s證明了在RIP條件下l1范數(shù)優(yōu)化問題與l0范數(shù)優(yōu)化問題有相同的解,即

      這是一個(gè)凸優(yōu)化問題,可以通過線性規(guī)劃求解。

      2 語音信號(hào)的稀疏性

      語音信號(hào)是短時(shí)平穩(wěn)的復(fù)雜信號(hào),就單一正交基,一般認(rèn)為離散余弦變換對(duì)語音信號(hào)的稀疏效果較好。對(duì)語音信號(hào)進(jìn)行離散余弦變換后,大部分能量集中在低頻部分,且大多數(shù)系數(shù)的絕對(duì)值都很小,具有近似稀疏性,又由于離散余弦變換具有很強(qiáng)的去相關(guān)性,所以本文用離散余弦變換對(duì)語音信號(hào)進(jìn)行稀疏分解。

      一維DCT的變換矩陣為

      M為語音信號(hào)長(zhǎng)度。

      如下,是對(duì)取自中科院自動(dòng)化所語音庫中的語音信號(hào)進(jìn)行的稀疏變換。原語音為女聲的“二十萬納米”的發(fā)音,采樣頻率為44 100 Hz,采樣值的編碼位數(shù)是16 bit,雙聲道。實(shí)驗(yàn)時(shí)取一個(gè)聲道的數(shù)據(jù)。

      圖1 語音信號(hào)的時(shí)域和DCT域波形Fig.1 Speech signal waveform in time domain and DCT domain

      3 編碼方案

      3.1系統(tǒng)描述

      該系統(tǒng)先用高斯隨機(jī)矩陣對(duì)語音信號(hào)進(jìn)行CS觀測(cè),得到的觀測(cè)值采用矢量量化編碼,經(jīng)過廣義信道傳輸后,對(duì)接收到的信號(hào)進(jìn)行矢量量化解碼得到CS觀測(cè)值,通過OMP算法重構(gòu)出語音信號(hào)。如圖2所示。

      圖2 系統(tǒng)框圖Fig.2 System block diagram

      3.2語音信號(hào)的CS觀測(cè)

      在稀疏變換基選用一維DCT變換矩陣時(shí),依前文所述,只要保證觀測(cè)矩陣與其不相干,則Acs在很大概率上滿足RIP性質(zhì),從而保證語音信號(hào)可以重構(gòu)。不過很大概率仍然是個(gè)不確切的說法,就具體某觀測(cè)矩陣是否可以用于壓縮感知,E Cande s和Tao在文獻(xiàn)[7]中給出了確切的標(biāo)準(zhǔn)。即,對(duì)于任意k稀疏信號(hào)x∈RN,若存在常數(shù)0≤δk<1,使得:

      成立,則認(rèn)為矩陣Φ滿足RIP性質(zhì)。

      從語音信號(hào)的重構(gòu)效果及計(jì)算復(fù)雜度兩方面考慮,文中選擇高斯隨機(jī)矩陣作為觀測(cè)矩陣。

      3.3語音信號(hào)的CS重構(gòu)

      目前,重構(gòu)算法主要分為貪婪追蹤算法和凸優(yōu)化算,其他的還有組合算法和基于貝葉斯框架[8]的重構(gòu)算法。每種算法都有其優(yōu)缺點(diǎn),需要結(jié)合具體情況選用合適的算法。用凸優(yōu)化算法重構(gòu)信號(hào)所需的觀測(cè)次數(shù)最少,但計(jì)算復(fù)雜度高;貪婪追蹤算法要求相對(duì)更多的觀測(cè)次數(shù),但計(jì)算復(fù)雜度低,重構(gòu)效率高。綜合語音編碼系統(tǒng)對(duì)編碼質(zhì)量和時(shí)延性的要求,本文選擇貪婪追蹤算法中的正交匹配追蹤算法 (Orthogonal Matching Pursuit)OMP。

      OMP算法的步驟如下:

      輸入:觀測(cè)矩陣Φ,稀疏變換矩陣Ψ,觀測(cè)向量y,稀疏度K;終止條件,一般為最大迭代次數(shù)或殘差不大于某一值;

      輸出:信號(hào)的逼近x?,殘差r;

      步驟1:初始化,令迭代次數(shù)n=0,殘差r0=y,重構(gòu)信號(hào)x0= 0,索引矩陣T為空;

      步驟2:求CS矩陣Acs的列向量和當(dāng)前殘差rn的投影系數(shù) (內(nèi)積值)φ,記錄最大投影系數(shù)對(duì)應(yīng)的位置,即求k=arg

      步驟3:更新CS矩陣,令A(yù)cs的第k列為零;更新索引矩陣令Tn+1=Tn∪φk,其中φk為原Acs的第k列;

      步驟5:判斷是否滿足迭代終止條件,如果不滿足,則轉(zhuǎn)到步驟2,滿足則停止迭代。

      3.4矢量量化編碼

      矢量量化是先把信號(hào)序列的K個(gè)連續(xù)樣點(diǎn)分成一組,形成K維歐氏空間中的一個(gè)矢量,然后對(duì)此矢量進(jìn)行量化[9]。矢量量化過程可定義為K維信源空間χ到其中一個(gè)有限子集,即碼本Y={Yi|Yi∈χ,i=1,2,…,L}的一個(gè)映射Q:Q{X|X∈χ}=,其中,L是碼字的個(gè)數(shù)。矢量量化器的基本工作原理如圖3所示。

      圖3 矢量量化原理框圖Fig.3 Block diagram of the vector quantization

      4 仿真實(shí)驗(yàn)

      實(shí)驗(yàn)中的訓(xùn)練語音和測(cè)試語音均取自中科院自動(dòng)化研究所的CASIA語音庫,采樣頻率為44 100 Hz,量化編碼為16 bit。根據(jù)語音信號(hào)的短時(shí)平穩(wěn)性,先對(duì)語音信號(hào)進(jìn)行分幀處理,幀長(zhǎng)取10 ms,即每幀441個(gè)采樣點(diǎn)。

      用MATLAB編程實(shí)現(xiàn)已知訓(xùn)練序列的LBG算法來產(chǎn)生碼書。訓(xùn)練序列的長(zhǎng)度為4 410 000個(gè)點(diǎn),具體為100秒的男女聲混合語音,分成10 000幀,每幀進(jìn)行M=196的高斯隨機(jī)觀測(cè),根據(jù)所得的觀測(cè)值來訓(xùn)練生成碼書。

      實(shí)驗(yàn)一:

      研究語音信號(hào)中的濁音幀、清音幀和過度幀的重構(gòu)質(zhì)量與觀測(cè)數(shù)目M的關(guān)系。測(cè)試中的各語音幀取自不在訓(xùn)練集合中的女聲 “二十萬納米”。如前所述,M的取值應(yīng)滿足公式M≥cKlog(N/K),實(shí)驗(yàn)中取下限,即令M=cKlog(N/K),已知N=441,又隨機(jī)對(duì)多幀語音信號(hào)進(jìn)行DCT變換后取K=50,現(xiàn)對(duì)常數(shù)c取不同的值,計(jì)算結(jié)果四舍五入至整數(shù),得出M的值,進(jìn)行高斯隨機(jī)觀測(cè)。然后對(duì)觀測(cè)值進(jìn)行矢量量化編碼和矢量量化解碼,通過OMP重構(gòu)出語音信號(hào)。圖4、圖5和圖6分別顯示了c取不同值時(shí)濁音幀、清音幀和過度幀原信號(hào)與重構(gòu)信號(hào)的波形對(duì)比。

      圖4 濁音幀在c取不同值時(shí)重構(gòu)信號(hào)與原信號(hào)的時(shí)域波形對(duì)比Fig.4 The waveform comparison between the reconstructed signal and the original signal when c is different in voiced frame

      可以看出濁音幀和過度幀c越大語音信號(hào)重構(gòu)質(zhì)量越高,而清音幀的重構(gòu)效果與c的取值關(guān)系不大,且難以準(zhǔn)確重構(gòu)。這是因?yàn)榍逡艚聘咚拱自肼暤脑?。不過我們可以看出,雖然清音幀的重構(gòu)信號(hào)波形不能準(zhǔn)確的和原信號(hào)的波形重合,但是兩者的包絡(luò)卻相差不大。又因?yàn)榍逡粜盘?hào)在語音信號(hào)中的能量占比很小,只有10%左右,對(duì)整個(gè)語音的重構(gòu)影響不大。因此我們可以得出結(jié)論,在保證能重構(gòu)語音信號(hào)的前提下,語音信號(hào)的重構(gòu)質(zhì)量與觀測(cè)數(shù)目M正相關(guān)。

      圖5 清音幀在c取不同值時(shí)重構(gòu)信號(hào)與原信號(hào)的時(shí)域波形對(duì)比Fig.5 The waveform comparison between the reconstructed signal and the original signal when c is different in unvoiced frame

      實(shí)驗(yàn)二

      研究在該編碼方案下一句話的重構(gòu)質(zhì)量和該方案較原語音編碼的壓縮程度。實(shí)驗(yàn)分別對(duì)一句男聲語音和一句女聲語音進(jìn)行。先定義壓縮比r,第i幀信號(hào)的分段信噪比SNRseg(i)和平均分段信噪比SNRaseg。

      根據(jù)壓縮比r的定義,r的值越大說明該編碼方案的壓縮能力越強(qiáng)。

      重構(gòu)語音質(zhì)量的客觀評(píng)價(jià)采用平均分段信噪比SNRaseg,主觀評(píng)價(jià)采用MOS分,MOS分采用ITU P.862標(biāo)準(zhǔn)算出。對(duì)不在訓(xùn)練集合中的兩個(gè)語句進(jìn)行處理,這兩句語音的內(nèi)容相同,時(shí)間長(zhǎng)短相同,只是一句為男聲一句為女聲。實(shí)驗(yàn)結(jié)果如表1和表2所示。

      圖6 過渡幀在c取不同值時(shí)重構(gòu)信號(hào)與原信號(hào)的時(shí)域波形對(duì)比Fig.6 The waveform comparison between the reconstructed signal and the original signal when c is different in intermediate frame

      單獨(dú)從是表1或表2的數(shù)據(jù)來看,平均分段信噪比SNRaseg和MOS值都與觀測(cè)數(shù)目M正相關(guān),這都進(jìn)一步佐證了實(shí)驗(yàn)一的結(jié)論,即語音信號(hào)的重構(gòu)質(zhì)量與觀測(cè)數(shù)目M正相關(guān)。對(duì)比兩個(gè)表可以看出,在相同條件下,男聲的重構(gòu)質(zhì)量較女聲的重構(gòu)質(zhì)量好一些。這是因?yàn)榕曋械募?xì)節(jié)更多,稀疏性較差一些的原因。在這個(gè)實(shí)驗(yàn)中還得出了壓縮比r的數(shù)據(jù),從中可以看出該編碼方案具有很好的壓縮性,在將原信號(hào)編碼壓縮6倍以上仍具有較高的重構(gòu)質(zhì)量。

      表1 男聲語音的重構(gòu)質(zhì)量和壓縮比Tab.1 Reconstruction quality and compression ratio of male voice

      實(shí)驗(yàn)可以看出該編碼方案對(duì)CD音質(zhì)的單聲道語音信號(hào)壓縮6倍以上仍具有較好的音質(zhì)。雖然雙聲道的CD音質(zhì)的語音信號(hào)壓縮后的碼速率仍需200 kbps左右,高于mp3標(biāo)準(zhǔn)的128 kbps,但mp3標(biāo)準(zhǔn)丟棄了大量人耳聽不到的頻段上的數(shù)據(jù),而該方案實(shí)現(xiàn)了無損壓縮。

      表2 女聲語音的重構(gòu)質(zhì)量和壓縮比Tab.2 Reconstruction quality and compression ratio of female voice

      5 結(jié)束語

      文中對(duì)壓縮感知應(yīng)用于語音編碼進(jìn)行了研究,又運(yùn)用了矢量矢量量化技術(shù)進(jìn)一步降低了碼速率。研究表明語音的重構(gòu)質(zhì)量與觀測(cè)數(shù)目正相關(guān),由此也可以看出觀測(cè)矩陣在壓縮感知中對(duì)信號(hào)重構(gòu)的重要性,未來可以在自適應(yīng)觀測(cè)矩陣設(shè)計(jì)上進(jìn)行研究,還可以研究應(yīng)用熵編碼進(jìn)一步降低碼速率以及壓縮感知應(yīng)用于語音編碼的抗噪性。

      [1]Donoho D.Compressed sensing[J].IEEE Transactions on Information Theory,2006,52(4):1289-1306.

      [2]Cand s E,Tao T.Near-optimal signal recovery from random projections:Universal encoding strategies[J].IEEE Transactions on Information Theory,2006,52(12):5406-5425.

      [3]Donoho D,Y Tsaig.Extensions of compressed sensing[J]. Signal Processing,2006,86(3):533-548.

      [4]石光明.壓縮感知理論及其研究進(jìn)展[J].電子學(xué)報(bào),2009,37 (5):1070-1081.

      [5]范虹,郭鵬,王芳梅.非平穩(wěn)信號(hào)稀疏表示的研究發(fā)展[J].計(jì)算機(jī)應(yīng)用,2012,32(1):272-278.

      [6]Baraniuk R.A lecture on compressive sensing[J].IEEE Signal Processing Magazine,2007,24(4):118-121.

      [7]E Cande s,Tao T.Decoding by linear programming[J].IEEE Transaction on information theory,2005,51(12):4203-4215.

      [8]Ji S,Xue Y,Carin L.Bayesian compressive sensing[J].IEEE Transactions on Signal Processing,2008,56(6):2346-2356.

      [9]張明君,高有行.利用改進(jìn)K填充算法消除椒鹽噪聲[J].電子科技,2004(1):39-42.

      New speech coding scheme based on compressed sensing

      XU Jia-jia
      (School of Computer Science,Shaanxi Normal University,Xi’an 710119,China)

      According to the sparse of the speech signal,applied compression perception theory to speech signal processing,this paper proposes a new scheme of speech signal coding.The method using random Gaussian matrix observing the speech signal on the encoding side,obtained fewer observations,then further compress the data using vector quantization coding.In the decoder,decoding by vector quantization,getting observations based on the speech signal sparsity in the discrete cosine domain,then reconstructed speech signal using orthogonal matching pursuit algorithm.The purpose of the algorithm is to reduce the computational complexity and delay on the premise of guarantee the quality of speech signal reconstruction. Experimental results show that the mono audio signal whose sampling rate is 44100 hz,quantitative is 16 bit and bit rate is 705.6 Kbps could be compressed to around 100 Kbps,the compressed speech signal still has good voice quality,at the same time the algorithm has lower time delay.

      compressed sensing;DCT;vector quantization;OMP

      TN912.3

      A

      1674-6236(2016)03-0032-05

      2015-03-10稿件編號(hào):201503139

      許佳佳(1989—),男,江蘇徐州人,碩士研究生。研究方向:信號(hào)處理。

      猜你喜歡
      復(fù)雜度矢量重構(gòu)
      長(zhǎng)城敘事的重構(gòu)
      攝影世界(2022年1期)2022-01-21 10:50:14
      矢量三角形法的應(yīng)用
      一種低復(fù)雜度的慣性/GNSS矢量深組合方法
      北方大陸 重構(gòu)未來
      北京的重構(gòu)與再造
      商周刊(2017年6期)2017-08-22 03:42:36
      求圖上廣探樹的時(shí)間復(fù)雜度
      論中止行為及其對(duì)中止犯的重構(gòu)
      基于矢量最優(yōu)估計(jì)的穩(wěn)健測(cè)向方法
      三角形法則在動(dòng)態(tài)平衡問題中的應(yīng)用
      某雷達(dá)導(dǎo)51 頭中心控制軟件圈復(fù)雜度分析與改進(jìn)
      鲁甸县| 息烽县| 黔南| 竹北市| 民勤县| 鸡西市| 甘南县| 竹溪县| 夹江县| 平湖市| 兰州市| 侯马市| 乐山市| 阿荣旗| 南开区| 文安县| 柘城县| 北京市| 浦北县| 休宁县| 那曲县| 卫辉市| 黄龙县| 乐东| 余姚市| 新余市| 娄烦县| 新河县| 杭锦后旗| 政和县| 隆化县| 玛多县| 左云县| 星子县| 扎赉特旗| 东安县| 同心县| 布拖县| 威宁| 政和县| 沈丘县|