邵玉斌, 劉晶, 龍華, 李一民
(昆明理工大學(xué) 信息工程與自動化學(xué)院, 云南 昆明 650500)
電話是人們進行交互的最直接的遠程通信方式[1]。然而通信的頻譜資源有限,使得語音傳輸資源緊張[2]。在軍事演習(xí)或?qū)崙?zhàn)中,戰(zhàn)場環(huán)境下充斥著各種人為干擾和軍事噪聲,在緊張頻譜資源下高效的話音壓縮編碼和噪聲抑制方法將是提高海陸空的信息快速交互和語音質(zhì)量的重要途徑[3]。
Donoho等[4]提出利用壓縮感知技術(shù)對語音信號進行壓縮,可有效提高信號的傳輸效率,再通過重構(gòu)算法恢復(fù)原始信號,從而能在音頻傳輸時減小頻譜資源開銷。但是,戰(zhàn)場環(huán)境下語音信號會帶有大量的背景噪聲,導(dǎo)致重構(gòu)語音質(zhì)量不好[5]。目前,含噪語音壓縮感知的重構(gòu)算法主要有基追蹤[6]、匹配追蹤算法[7]以及貝葉斯算法[8]等。孫林慧等[9]提出含噪語音信號的自適應(yīng)基追蹤去噪算法;楊真真等[10]提出含噪語音壓縮與重構(gòu)的自適應(yīng)共軛梯度重構(gòu)算法;季云云等[11]提出針對脈沖噪聲的貝葉斯稀疏重構(gòu)算法,都能夠在一定程度上取得較好效果,但是,這些算法復(fù)雜度高,重構(gòu)時間長。為此,張殿飛等[12]提出壓縮感知自適應(yīng)快速重構(gòu)算法;馬春等[13]提出改進Kalman濾波L1模加速算法的語音信號重構(gòu);Kim等[14]提出一種視頻編碼方案的語音壓縮傳輸方法;Abbas[15]提出了基于離散小波變換和混沌信號的語音壓縮算法;Qin等[16]提出了基于貝葉斯壓縮感知的數(shù)據(jù)壓縮方法。實驗發(fā)現(xiàn),以上方法在高壓縮比和低信噪比下重構(gòu)的語音質(zhì)量不佳,而且要求重構(gòu)信號必須具有一定的稀疏性。
本文針對各類戰(zhàn)場環(huán)境噪聲的高壓縮比的語音傳輸與重構(gòu)進行研究,將語音傳輸轉(zhuǎn)為圖像傳輸,提出一種基于語譜圖壓縮傳輸和重構(gòu)的方法。首先將語音信號壓縮為語譜圖進行傳輸;再在接收端對圖像進行去噪;最后根據(jù)圖像重構(gòu)出語音信號。實驗結(jié)果表明,本文方法在一定程度上解決了高壓縮比和低信噪比下重構(gòu)語音質(zhì)量不佳問題,達到了提高重構(gòu)語音質(zhì)量的目的。
聲音和圖像是聽覺和視覺上兩種模態(tài)接收的輸入信息,在數(shù)字處理領(lǐng)域各自有不同的處理方法[17]。考慮到可以進行視聽覺交互融合的方式進行信息交流,本文將語音信號壓縮為語譜圖信號傳輸。對語譜圖的研究表明:語譜圖包含大量的語音學(xué)信息,語音學(xué)家可以通過語音學(xué)知識和發(fā)聲特征解釋語譜圖[18]。因此對語譜圖進行傳輸再重構(gòu)是可行的。
將語音信號壓縮為二維灰度語譜圖信號。具體流程如下:
1)將語音信號x(n)進行分幀,n為離散信號時間序列,幀長為M,M為偶數(shù),幀移為零,從而壓縮圖像的大小。再對每幀信號加窗,防止頻譜泄漏,采用的是漢明窗,加窗后的第i幀信號為s(i)(n)。
2)將信號s(i)(n)進行短時傅里葉變換后再求功率譜:
(1)
P(i)(k)=|X(i)(k)|2
(2)
式中:X(i)(k)為第i幀信號的離散傅里葉變換后的結(jié)果,k為傅里葉變換的第k個頻譜,1≤k≤M/2;P(i)(k)為功率譜。由于幅度譜對稱,因此取一半求功率譜P(i)(k)。
3)求對數(shù)的功率密度譜,定義如下:
(3)
LM ×M2
圖1 壓縮后的語譜圖
由于本文方法應(yīng)用于噪聲環(huán)境下的語音傳輸,語譜圖上夾帶噪聲,而且在信道傳輸?shù)倪^程中也會有噪聲干擾。因此,本文引入自動色階算法[19]進行圖像增強處理,再逆向還原幅度譜矩陣。具體步驟如下:
1)利用直方圖統(tǒng)計語譜圖像素矩陣x的像素值,將像素值高于高閾值的部分置為255,將像素值低于低閾值的部分置為0。由于大部分噪聲像素值低于低閾值,將低于低閾值部分置為0,從而實現(xiàn)對噪聲的抑制。像素值在高低閾值之間采用線性量化的方法重新分配像素值,使圖像更具有層次感和目視效果。閾值定義如下:
Mmin=max (x1),x1(n)=x0(n) 1≤n≤K×α
(4)
Mmax=max (x2),x2(n)=x0(n)
1≤n≤K×(1-β)
(5)
式中:Mmax為高閾值;Mmin為低閾值;x0為總像素值從小到大排列向量;x1為低于低閾值的向量;x2為高于高閾值的向量;α、β為可控色劑因子取值;K為像素點的總個數(shù)?!翱煽厣珓┮蜃印敝傅氖强刂聘叩烷撝荡笮〉目烧{(diào)節(jié)因子,將第K×α個像素值設(shè)定為低閾值和第K×(1-β)個像素值設(shè)定為高閾值。線性量化的公式如下:
(6)
式中:s為閾值之間的像素最大值;l為閾值之間的像素最小值;Rz為高低像素閾值之間的像素值;R為量化后的像素值。圖2為不同噪聲源5 dB語音原始語譜圖和采用自動色階算法增強語譜圖的圖像,可控色劑因子α=0.7、β=0.005。從圖2中可以看到噪聲明顯減弱,語義信息凸顯。圖2中,噪聲代號說明:N1為白噪聲,N2為粉紅噪聲,N3為高斯信道噪聲,N4為軍用車輛噪聲,N5為F16駕駛艙噪聲,N6為機槍噪聲,N7為攻擊機駕駛艙噪聲,N8為驅(qū)逐艦作戰(zhàn)室背景噪聲。
圖2 原語譜圖和增強后的語譜圖
2)將增強后的像素值矩陣轉(zhuǎn)換為對數(shù)功率譜矩陣,公式如下:
(7)
LM ×M2
式中:P′dB為轉(zhuǎn)換后維的增強對數(shù)幅度譜矩陣;R為增強后的像素值矩陣;ε為對數(shù)能量的顯示范圍;η為最小的顯示范圍的絕對值。
3)將對數(shù)功率譜矩陣轉(zhuǎn)換為幅度譜矩陣,公式如下:
(8)
式中:P2為轉(zhuǎn)換后的幅度譜矩陣;PdB(j,i)為矩陣第j行第i列的對數(shù)幅度值。
語音的頻譜由相位譜和幅度譜兩部分組成,缺少任何一部分還原到時域時,會導(dǎo)致語音質(zhì)量下降。在1.2節(jié)中已經(jīng)得到語音的幅度譜矩陣,因此只需要重構(gòu)出相位譜即可得到語音信號。本文提出正弦模型(SM)、噪聲模型(NM)、發(fā)聲模型(VM),分別對語音進行重構(gòu)。
由于絕大多數(shù)周期信號均可以分解為一至無數(shù)個不同頻率的正弦信號,本文考慮采用正弦信號進行語音重構(gòu)。具體步驟如下:
(9)
式中:Z為組合正弦信號。
2)將組合正弦信號進行分幀,幀長為M,幀移為0。得到分幀后的矩陣Z1。
3)用(8)式得到的幅度譜矩陣對Z1進行變換,公式如下:
Z2(j1,i)=Z1(j1,i)×P3(j1,i),1≤i≤ LM ,
1≤j1≤M
(10)
(11)
式中:替換:Z2(j1,i)為第j1行第i列變換后正弦矩陣數(shù)值;Z1(j1,i)為正弦矩陣的第j1行第i列的數(shù)值;P3(j1,i)為對稱幅度譜矩陣的第j1行第i列的數(shù)值;P4為P2上下翻折所得到的矩陣;P3為上下對稱的的矩陣。將調(diào)整的Z2逆分幀得到重構(gòu)語音信號序列Z3。
高斯信號近似等于無數(shù)個相位和幅度都是隨機的正弦信號疊加的結(jié)果,在頻率上是連續(xù)的,從而更好地模擬聲道中的氣流,因此可以采用噪聲進行信號重構(gòu)。具體步驟如下:
1)產(chǎn)生采樣率為fs,長度為L的零均值單位方差高斯白噪聲信號序列Y(n)~N(0,1)。
2)對Y(n)進行分幀處理,幀長為M,幀移為0,得到分幀后的矩陣Y1。
3)用(8)式得到的幅度譜矩陣對Y1進行轉(zhuǎn)換,公式如下:
Y2(j1,i)=Y1(j1,i)×P3(j1,i)
(12)
式中:Y2為變換后的矩陣。通過對Y2逆分幀得到重構(gòu)的語音信號Y3(n)。
長期研究表明,語音信號可以視為由激勵模型產(chǎn)生的信號,通過聲道模型和輻射模型的級聯(lián)產(chǎn)生的[20],因此采用發(fā)聲模型可以重構(gòu)出語音信號。具體步驟如下:
1)語音信號具有短時平穩(wěn)性,因此(8)式得到的幅度譜估計每幀的單脈沖響應(yīng),作為聲道模型FIR濾波器。先求取對數(shù)幅度譜,公式如下:
P5(j,i)=10lgP2(j,i)
(13)
式中:P5為對數(shù)幅度譜。再對P5作離散余弦變換得到P6,這樣方便將聲門激勵和聲道激勵分離。以倒譜中的第λ=25條譜線為界,用1~25區(qū)間構(gòu)建聲道沖激響應(yīng)倒譜矩陣,公式如下:
(14)
式中:P6(j)為矩陣的第j行;G為聲道沖激響應(yīng)倒譜矩陣。對G進行逆離散余弦變換得到聲道沖激響應(yīng)頻域矩陣G1,對矩陣G1取反對數(shù),再進行翻折變換,公式如下:
(15)
(16)
式中:G2為反對數(shù)后的聲道沖激響應(yīng)頻域矩陣;G3為G2上下翻折后的矩陣;G4為上下對稱矩陣。再對G4進行逆傅里葉變換取實數(shù)部分,得到聲道模型全極點濾波器矩陣G5。圖3為聲道濾波器沖激響應(yīng)在一幀內(nèi)的波形。
圖3 一幀單脈沖響應(yīng)波形
為了加快計算效率,對每幀256點取沖激響應(yīng)最高峰128點左右能量集中的部分,本文取經(jīng)驗值[67,190]之間的沖激響應(yīng)點數(shù),該范圍的能量占總能量的96%,構(gòu)造新的沖激響應(yīng)矩陣G6。
2)根據(jù)倒譜法估計清音濁音,濁音的倒譜中可以清晰地看到基音峰突出,而清音的倒譜中基本沒有出現(xiàn)基音峰。因此可以(8)式得到的幅度譜矩陣估計出清音和濁音,從而采用不同脈沖激勵聲道模型。先對P5作逆傅里葉變換得到倒譜域矩陣P7,濁音和清音估計公式如下:
(17)
式中:P7(i)為矩陣的第i列數(shù)據(jù),即第i幀數(shù)據(jù),1表示該幀為濁音,2表示該幀為清音。max(|P7(i)|)-min(|P7(i)|)為最大峰與最小峰的差值。
1× LM
3)采用倒譜法估計基音周期。如果對數(shù)振幅頻譜包含許多規(guī)則間隔的諧波,則頻譜的傅立葉分析將顯示一個與諧波之間的間隔相對應(yīng)的峰值:即基頻。從而得到維的基音頻率序列J。
1×( LM ×M)
1×( LM ×
4)再采用三次樣條插值法生成幀與幀之間更加平滑的維的基音頻率序列J11。然后將生成的序列通過壓控振蕩器生成M)維的脈沖壓控信號J1。
5)研究表明聲帶振動類似于斜三角脈沖[20],因此將生成的J1的沖激部分采用斜三角波形替代,斜三角波形公式如下:
(18)
式中:N1=4,N2=5,替代后的壓控信號序列為J2。圖4為一幀壓控輸出信號的波形。
圖4 一幀壓控輸出信號的脈沖波形
6)通過不同脈沖去激勵聲道模型,如圖5所示。
圖5 發(fā)聲重構(gòu)模型
其中,J3(i)為矩陣的第i列數(shù)據(jù),J3為J2分幀后的壓控信號序列矩陣,Q(i)=1即該幀為濁音,采用壓控信號序列脈沖激勵該幀聲道模型,Q(i)=2即該幀為清音,采用高斯噪聲脈沖激勵該幀聲道模型。從而得到語音信號分幀矩陣Z3,進行逆分幀得到未經(jīng)過輻射模型的語音信號序列Z4。
7)聲道模型相當(dāng)于兩次低通濾波,導(dǎo)致高頻部分弱化,因此需要經(jīng)過輻射模型提高高頻部分,從而得到重構(gòu)語音信號序列Z5。本文采用高通濾波和預(yù)加重組成輻射模型提高高頻部分。
本實驗在MATLAB2019R上進行仿真,硬件的配置為Win10,運行內(nèi)存為8 GB,處理器Intel-i7-4710MQ。語料為中國廣播電臺的音頻,每段音頻為10 s,采樣率為8 000 Hz,16位單通道的wav格式漢語音頻。分別與白噪聲、驅(qū)逐艦作戰(zhàn)室背景噪聲、軍用車輛噪聲、高頻信道噪聲、粉紅噪聲、F16座艙噪聲、攻擊機駕駛艙噪聲和機槍噪聲構(gòu)造SNR=[0 dB,5 dB,10 dB]帶噪語音,噪聲來源于Nonspeech公開噪聲庫。重構(gòu)語音質(zhì)量采用客觀平均意見得分(PESQ)作為評價指標(biāo),PESQ分取值范圍為-0.5~4.5,PESQ是由P.862的PESQ程序?qū)Ρ仍颊Z音與重構(gòu)語音打分得出的。語音傳輸采用的是壓縮比[21]作為評價指標(biāo)。去噪效果采用的是平均信噪比(ASNR)作為評價指標(biāo)。壓縮比的計算公式如下:
(19)
式中:F為壓縮前的信號大??;CR為壓縮后的信號大小。平均信噪比定義如下:
(20)
3.2.1 不同幀長下重構(gòu)語音質(zhì)量
先驗證不同幀長下語譜圖重構(gòu)的語音質(zhì)量,選取M=64和M=256分析本文提出的3種不同重構(gòu)模型的差異。根據(jù)(21)式計算出語音數(shù)據(jù)量為160 kB。待重構(gòu)語譜圖分辨率為312×128,量化位數(shù)為8,實際大小約為15.1 kB的jpg格式的圖片,根據(jù)(19)式計算可得ρ≈10。
(21)
式中:f為語音的采用率;d為量化位數(shù);s為聲道數(shù);t為語音總時間。
圖6為原始語音波形和語譜圖及3種重構(gòu)模型不同幀長下重構(gòu)語音波形和語譜圖。表1為3種重構(gòu)模型平均意見的得分。
圖6 原始語音和重構(gòu)語音的波形及語譜圖
表1 3種方法重構(gòu)語音的PESQ分
從圖6和表1可知,發(fā)聲模型重構(gòu)的語音質(zhì)量高于其他兩種方法。由于發(fā)聲模型是基于人的發(fā)聲方式重構(gòu)的,可以很好地重構(gòu)出清音和濁音,相位和幅度都高度重構(gòu),從而使得聽覺上更優(yōu)于其他兩種方法,本文采用訊飛語音識別軟件,精確識別出了語音的內(nèi)容。噪聲重構(gòu)模型的優(yōu)點是不存在卡頓和無聲調(diào)發(fā)聲現(xiàn)象,這是因為在頻率和時間上斷層被噪聲所彌補,從而稍微平滑,但是一直伴隨著少量的噪聲存在。正弦模型的優(yōu)點是可以很好地重構(gòu)出語音的波形和語譜圖,但是在M=64時,頻率上存在斷層,導(dǎo)致語音沒有聲調(diào);M=256時,時間上存在斷層,導(dǎo)致語音出現(xiàn)卡頓現(xiàn)象,但是在聽覺上依然很清楚。由于M=64時,語音聲調(diào)總體質(zhì)量不如M=256,因此本文后續(xù)在M=256上進行實驗。
3.2.2 不同壓縮比下重構(gòu)語音質(zhì)量
為了驗證本文方法無噪語音條件下,不同高壓縮比重構(gòu)語音質(zhì)量。下面分別采用文獻[6]基追蹤、文獻[22]快速重構(gòu)算法(FRAT)、文獻[12]自適應(yīng)快速重構(gòu)算法以及本文提出的3種重構(gòu)模型對壓縮比為ρ≈10和ρ≈40的語音進行重構(gòu)。壓縮比ρ≈10選取的語譜圖分辨率為312×128,約為15.1 kb的jpg格式的圖片,壓縮比ρ≈40選取的語譜圖分辨率為156×64,約為3.8 kb的jpg格式的圖片。實驗結(jié)果如表2所示。
表2 6種方法重構(gòu)語音的PESQ分
從表2中可以看出,在高壓縮比情況下,對比方法幾乎無法重構(gòu)出語音信號。而本文提出的3種方法都可以相對較好地重構(gòu)語音信號。ρ≈40時,接收到傳輸?shù)恼Z譜圖后,采用臨近插值處理的方法將分辨率156×64的語譜圖轉(zhuǎn)換為分辨率為312×128語譜圖,再進行語音重構(gòu),因此相對于ρ≈10時,語音質(zhì)量有所下降,從而證明了本文方法在高壓縮比下有效。
為了驗證噪聲環(huán)境下不同方法重構(gòu)語音的平均信噪比的大小。在壓縮比為ρ≈10,信噪比為10 dB的語音信號條件下對語音進行壓縮重構(gòu)。實驗結(jié)果如表3所示。
表3 6種方法重構(gòu)語音的平均信噪比
從表3中可以看出,在噪聲環(huán)境和高壓縮比下,對語音進行重構(gòu),對比方法重構(gòu)的語音的平均信噪比低于原始信號的平均信噪比,是由于噪聲和抽樣的數(shù)據(jù)不足導(dǎo)致重構(gòu)不理想。而本文提出的3種重構(gòu)方法較原始語音信號在平均信噪比上都有些許提高,由于本文采用了圖像傳輸?shù)姆绞?,在提高壓縮比的同時,盡量減少了語音信號的抽樣,而且還采用了圖像去噪算法進行噪聲抑制,從而證明本文方法在噪聲環(huán)境下的進行語音重構(gòu)有效。
3.2.3 不同信噪比下重構(gòu)語音質(zhì)量
由于對比方法在高壓縮比下,基本無法重構(gòu)語音,下面僅驗證本文3種方法在不同噪聲環(huán)境的不同信噪比下,壓縮比ρ≈10的條件下重構(gòu)的語音質(zhì)量。分別測試在8種不同噪聲源下,不同信噪比環(huán)境下的語音重構(gòu)質(zhì)量。實驗結(jié)果如表3所示。表3中噪聲代號與圖2相同。
從表4可以看出,本文提出的3種重構(gòu)模型在白噪聲、粉紅噪聲、高斯信道噪聲重構(gòu)語音質(zhì)量最優(yōu),在F16戰(zhàn)機噪聲和攻擊機駕駛艙噪聲環(huán)境下,重構(gòu)的語音質(zhì)量稍微有所下降,在驅(qū)逐艦作戰(zhàn)背景噪聲環(huán)境下,重構(gòu)語音質(zhì)量相對較差,機槍噪聲和軍用車輛噪聲環(huán)境下重構(gòu)語音質(zhì)量最差。結(jié)合圖2可知,頻率上均勻分布的噪聲采用自動色階算法可以很好地被抑制,從而得到較好的重構(gòu)效果;噪聲在頻率上分布較為集中的情況下,導(dǎo)致圖像處理后,依然存在小部分噪聲存在,導(dǎo)致重構(gòu)質(zhì)量下降;噪聲大部分分布在頻率段較低的位置時,由于語音信號主要集中在中低頻部分,采用圖像處理的方法無法很好地抑制噪聲,導(dǎo)致重構(gòu)出的語音依然存在噪聲的影響,導(dǎo)致語音質(zhì)量差。從重構(gòu)方法分析,在噪聲環(huán)境下,發(fā)聲重構(gòu)模型效果最差,由于噪聲影響導(dǎo)致語音的相位無法較好地重構(gòu),從而使得隨著信噪比的降低重構(gòu)語音質(zhì)量急劇下降。正弦重構(gòu)模型次之,隨之信噪比的下降,無法將噪聲全部抑制,導(dǎo)致重構(gòu)出的語音具有滋滋聲,從而影響聽覺,導(dǎo)致語音質(zhì)量不佳。噪聲重構(gòu)模型最佳,由于圖像處理后語音較弱的部分被噪聲間接增強,卡頓部分被噪聲銜接上,導(dǎo)致滋滋聲不明顯,從而提高了重構(gòu)語音質(zhì)量。
表4 不同方法重構(gòu)語音的PESQ分
3.2.4 不同方法重構(gòu)語音時間
采用AFRAT、以及本文的提出的三種重構(gòu)方法重復(fù)實驗10次,對比AFrat、SM、NM、VM4種重構(gòu)模型的重構(gòu)語音時間對比。實驗結(jié)果如表5所示。
表5 4種方法重構(gòu)語音時間
從表5中可以看出:VM模型重構(gòu)時間最短,由于只存在卷積運算,而且只取部分有效脈沖響應(yīng),從而重構(gòu)速度快;NM的重構(gòu)速度次之,由于NM重構(gòu)模型存在矩陣運算,相對于VM模型,重構(gòu)速度稍慢;SM模型相對于NM模型,由于SM有多個矩陣運算,導(dǎo)致重構(gòu)時間增加很大;AFrat模型隨著語音信噪比的增大,重構(gòu)時間增大,由于AFast模型選擇的原子個數(shù)接近于稀疏向量的行數(shù),從而導(dǎo)致的浮點計算增大。
根據(jù)上述實驗結(jié)果及分析可知,在高壓縮比和不同噪聲源下,本文提出的噪聲重構(gòu)模型具有較好的重構(gòu)性能;在高壓縮比和無噪環(huán)境的情況下,本文提出的發(fā)聲重構(gòu)模型具有較好的重構(gòu)性能。
本文針對高壓縮比和戰(zhàn)場環(huán)境下語音重構(gòu)性能差甚至無法重構(gòu)的問題,提出了一種基于圖像傳輸處理的語音傳輸重構(gòu)一體化模型。根據(jù)聲音和圖像是聽覺和視覺兩種交互形式,將語音轉(zhuǎn)換為內(nèi)存更小圖像進行傳輸;考慮到戰(zhàn)場環(huán)境噪聲復(fù)雜,引入圖像增強技術(shù),抑制環(huán)境噪聲;最后根據(jù)不同的重構(gòu)模型進行語音重構(gòu)。實驗結(jié)果表明:高壓縮比及無噪的情況下,基于發(fā)聲重構(gòu)模型具有很好的重構(gòu)性能;在高壓縮比及噪聲環(huán)境下,基于噪聲重構(gòu)模型能較好的重構(gòu)出語音信號,語音質(zhì)量也能達到人耳接受范圍。后續(xù)繼續(xù)在高壓縮比以及語音重構(gòu)質(zhì)量上進行提高,實現(xiàn)傳輸和重構(gòu)一體化智能系統(tǒng)。