劉洪運,王衛(wèi)東
中國人民解放軍總醫(yī)院醫(yī)學工程保障中心,北京市,100853
希爾伯特黃變換在電子耳蝸語音處理算法中的應用
【作 者】劉洪運,王衛(wèi)東
中國人民解放軍總醫(yī)院醫(yī)學工程保障中心,北京市,100853
為了提高噪聲環(huán)境下的語音、聲調語音以及音樂的識別水平,基于希爾伯特黃變換提出一種新的電子耳蝸語音編碼策略,利用經驗模態(tài)分解和希爾伯特變換提取語音的幅度瞬時幅度和瞬時頻率,經濾波、調制等處理算法獲取表征語音的精細結構進而合成刺激信號。以Matlab軟件為平臺對提出的算法和傳統(tǒng)的連續(xù)間隔采樣以及幅頻聯(lián)合編碼算法進行仿真,分別處理50組語音測聽材料并合成相應的語音信號。結果顯示新算法合成的語音信號與原始信號的相關系數(shù)高于另外兩種算法得到的相關系數(shù),從而表明新算法可以保留更多原始語音的信息。
電子耳蝸;希爾伯特黃變換;經驗模態(tài)分解;仿真
語音編碼策略[4]在電子耳蝸系統(tǒng)中扮演至關重要的角色,編碼優(yōu)劣直接決定了電子耳蝸的性能,根據(jù)語音編碼策略對外周聽覺系統(tǒng)不同角度的模仿,大致可以將其分為模擬、幅度信息調制和幅度頻率(或相位等精細結構)調制三種。
以壓縮模擬方案(Compressed Analog, CA)為典型代表的模擬策略,通過帶通濾波器實現(xiàn)外周聽覺的模擬,經過簡單的壓縮即送往電極,導致處理后語音成分過度冗余,性能不佳[5-8]。后兩種編碼策略也都是基于帶通濾波器模擬外周聽覺系統(tǒng),幅度信息調制策略僅提取帶通濾波后語音的時域包絡用以調制固定刺激頻率的脈沖,連續(xù)間隔采樣(Continuous Interleaved Sampling, CIS)是該類編碼策略的典型代表。幅度頻率編碼策略在幅度信息調制的基礎上,提取了小波變換或帶通濾波后語音信號的頻率、相位或其它精細結構等信息進行聯(lián)合編碼以改善噪聲環(huán)境下語音的識別和提高聲調語言、音樂的感知水平。此類編碼策略有精細結構處理(Fine Structure Processing, FSP)[9]、幅度頻率編碼(Frequency Amplitude Modulation Encoding, FAME)[2-3]、小波過零刺激(Wavelet Transform Zerocrossing Stimulation, WTZS)等[10-12]。
理論研究和實驗分析表明,電子耳蝸植入者真實聽覺環(huán)境中聲音的感知、音樂以及聲調語言的高水平識別與原始語音的頻率調制信息、相位調制信息以及時域精細結構密切相關[2-3]。而模擬方案處理語音信號過于粗糙,可用信息冗余度大無法被聽神經合理利用致使運用該方案的電子耳蝸性能欠佳;僅利用幅度調制信息的編碼策略則走向另一個極端,即僅保留時域包絡而摒棄了其他所有信息,雖然在很大程度上解決了安靜條件下的語音識別問題,但對噪聲環(huán)境下的語音識別、聲調語言及音樂的識別能力較差;FSP、FAME、WTZS等精細語音處理算法固然可以同時編碼原始語音的幅度、頻率、相位或精細結構等信息,且經實驗驗證確實可以改善語音識別能力,但其原理設計缺陷及自適應性未能得到很好的解決[10]。針對現(xiàn)有語音編碼策略存在的問題,該文提出了希爾伯特黃變換刺激(Hilbert-Huang Transform Stimulating Strategy,HHTS)的電子耳蝸語音處理算法。
1.1 希爾伯特變換(Hilbert Transform,HT)
對于任意的實信號,其解析形式可表達為:
與傳統(tǒng)轉輪靜平衡試驗工具一樣,其原理是利用平衡球心與平衡物體的重心的相應位置,在保證一定靈敏度下獲得平衡[2]。對于不同重量的平衡物體,平衡物體的總重量和平衡球心與平衡物體重心的距離h值(以下稱h值)的關系,采用表1數(shù)值。
對于非線性、非平穩(wěn)信號,盡管HT是方便、有效、快捷的工具,但其不能單獨應用。為了使HT的輸出具有精確的物理意義,要求HT的輸入必須是窄帶信號,這樣,A(t),φ(t)和f (t)才能從不同角度準確的表示原始信號x(t)的時變特性。也就是說,在對一個多成分的信號HT之前,必須通過窄帶濾波器進行處理[13-14]。
1.2 希爾伯特黃變換(Hilbert-Huang Transform,HHT)
1998年,Huang提出了經驗模態(tài)分解這種新的信號分析方法,1999年其對該方法進行了改進,即得到了后來被美國NASA中心稱為HHT的非線性、非平穩(wěn)信號的時頻分析工具,并且在生理信號、地震、衛(wèi)星以及地球物理等領域得到廣泛應用。使用HHT時,首先通過篩選的過程完成經驗模態(tài)分解(Empirical Mode Decomposition,EMD),把原始信號分解成一系列滿足條件1和條件2的本征模態(tài)函數(shù)(Intrinsic Mode Function,IMF),然后對各IMF分量進行Hilbert變換,得出時頻平面上的能量分布[15]。
條件1在整個數(shù)據(jù)序列中,極值點的數(shù)量與過零點的數(shù)量必須相等,或最多相差不能多于一個。與傳統(tǒng)的平穩(wěn)高斯過程關于窄帶的定義相似;條件2在任意時間點上,信號的局部極大值和局部極小值定義的包絡平均值為零。把傳統(tǒng)的全局限定變?yōu)榫植肯薅?,這樣做不僅可以去除由于波形不對稱而造成的瞬時頻率波動,而且保證了由IMF求得的瞬時頻率具有明確的物理意義[15]。
EMD分解過程如下:
(1) 首先通過算法檢測出原始信號x(t)所有的極大值點emax(t)以及所有的極小值點emin(t),并用三次樣條函數(shù)擬合出原數(shù)據(jù)序列的上、下包絡線;
(2) 步驟(1)得到的上、下包絡線被用來計算瞬時均值m11(t)=(emax(t)+emin(t))/2,將原始信號x(t)減去瞬時均得到新序列h11(t)=x(t)-m11(t);
(3) 判斷h11(t)是否滿足條件1和條件2,如不滿足此基本條件,將其作為目標信號重復篩選過程步驟(1)和(2)k次,直至滿足終止條件0.2≤SD≤0.3,,此時,h1k(t)=h1(k-1)(t)-m1k(t),其中m1k(t)是k次迭代的包絡均值,h1(k-1)(t)是信號與(k-1)次包絡均值的差值。
定義c1(t)=h1k(t)為第一個IMF,將其從原始信號中分離r1(t)=x(t)-c1(t);
將r1(t)作為新的初始信號進行以上篩選過程提取x(t)的IMFs;
當rn(t)滿足終止條件時提示不可能再從原始信號x(t)中分離出IMF,最終x(t)可表示為IMFs和殘差的組合形式:
根據(jù)以上分析可知,EMD分解是依據(jù)信號本身進行的自適應分解,即其分解過程依賴于信號本身包含的變化信息,能敏感反映信號的變化。同時其篩選思想體現(xiàn)了多分辨分析的濾波過程,每一個IMF分量通常都具有一定的物理意義,且包含一定范圍的特征尺度,因此可以利用該特征對目標信號進行濾波[13-16]。由篩選過程得到的不同尺度IMF具有窄帶信號的特征,是局部窄帶信號,可直接用于HT獲取原始信號的瞬時幅度和瞬時頻率,而這些瞬時參數(shù)具有明確的物理意義,同時能精確表達原始信號的時變特性。
1.3 希爾伯特黃變換刺激策略
理論研究表明:人的耳蝸具有精細的聲音分析功能,就像品質因數(shù)近似恒定的帶通濾波器組形成空間分布,能夠分辨可聽閾聲音的各個頻率成分。從耳蝸對聲音的分析機制出發(fā),為了模擬外周聽覺系統(tǒng)的功能,帶通濾波器組和小波函數(shù)被廣泛用于現(xiàn)有電子耳蝸語音編碼策略。從信號處理的角度來說,無論是帶通濾波還是小波變換,其實質均是傳統(tǒng)的傅里葉變換,處理平穩(wěn)信號尚可,針對語音這種非平穩(wěn)信號可能會出現(xiàn)問題,同時其在不同程度上受窗函數(shù)及測不準原理的限制,從而不能精確的表達信號的時頻特性。除此之外,在運用帶通濾波器和小波變換進行信號處理時,濾波器參數(shù)和母函數(shù)一經確定便不能再行修改,自適應性很差[10,17]。上文提到的HHT,其篩選的過程與人的外周聽覺分析聲音的過程類似,因此,可以利用HHT的這種多分辨率分析特性模擬外周聽覺系統(tǒng)進行語音處理。根據(jù)以上分析基于HHT本文提出了一種新的電子耳蝸語音處理策略,其實現(xiàn)原理如圖1所示。
圖1 希爾伯特黃變換的電子耳蝸語音處理算法Fig.1 Hilbert-Huang transform speech coding algorithm
外界的語音信號一般通過多向型麥克風進入語音處理器,根據(jù)語音特點進行預處理后語音信號經EMD分解獲得頻率從低到高依次排列的本征模態(tài)函數(shù)IMFn,IMFn-1…IMF2,IMF1,爾后對這些本征模態(tài)函數(shù)進行希爾伯特變換。變換后信號并行分為兩路,一路通過瞬時幅度公式精確提取各通道IMF對應的幅度并進行低通濾波處理得到幅度調制信息;另一路通過瞬時頻率公式精確提取各通道IMF對應的頻率信息,根據(jù)人耳對頻率感知的范圍對各通道瞬時頻率進行帶寬限制處理,處理后信號用于對相應通道中心頻率的雙相脈沖進行頻率調制(不改變雙向脈沖的幅度),經低通濾波處理獲取頻率或相位調制信息。最后用各通道的瞬時幅度對相應的頻率或相位信息進行幅度調制進而送往植入耳蝸的電極E刺激聽神經。
為了驗證希爾伯特黃變換刺激算法的有效性和可行性,基于MATLAB平臺對提出的希爾伯特黃變換刺激算法進行仿真實現(xiàn),同時選取與希爾伯特黃變換刺激算法通道數(shù)相同的帶通濾波器實現(xiàn)CIS、FAME方案,分別處理不同噪聲環(huán)境下的50個言語測聽材料(采樣頻率44.1 kHz,漢語普通話),并將3種算法各自合成的信號與原始信號進行分析計算相關系數(shù),3種算法均采用8個通道進行仿真。圖2為3種電子耳蝸語音編碼策略在安靜環(huán)境下處理語音測聽彩料中漢語詞組“查詢”的具體范例。
圖2 語音信號Fig.2 Speech signal
CIS方案利用整流和低通濾波對8個帶通濾波器的輸出進行檢波獲取8通道的包絡信息用于調制固定頻率的雙相脈沖,固其8個通道的刺激脈沖頻率相同且固定。頻率幅度聯(lián)合編碼的FAME算法以Hilbert變換為基礎,將語音信號分解為變化緩慢的時域包絡和變化快速的精細結構,時域包絡即為AM,通過對精細結構進行進一步處理獲得FM,利用固定頻率的雙相脈沖調制FM后,再用AM進行幅度調制即可合成最終的刺激脈沖序列,WZCS算法合成8通道刺激脈沖序列的過程如前文所述。
圖2(b)從上至下依次為原始語音時域信號、CIS、FAME、HHTS三種語音處理算法合成的信號。觀察該圖可以發(fā)現(xiàn),合成信號的包絡與原始語音信號的包絡十分接近,這就表明合成信號包含了原始語音信號信息的。對50個言語測聽材料分別經3種算法處理合成的信號與原始語音信號進行相關性分析,得出表1數(shù)據(jù)。
表1 不同聽覺環(huán)境下3種處理算法合成的語音與原始語音信號的相關系數(shù)均值Tab.1 Correlation analysis between synthesized signal and that of original signal in different environment
分析表明:安靜、5 dB、10 dB及15 dB條件下,HHTS算法對50個言語測聽材料處理合成信號與原始語音信號的相關系數(shù)的絕對值均值最大,說明利用該算法合成的信號與其它兩種算法相比,與原始語音信號更為接近。從某種意義上說,經過HHTS編碼算法處理后的語音信號保留了更多的原始語音信號的頻率成分、相位信息或精細結構。
本文立足于國內外電子耳蝸的發(fā)展現(xiàn)狀,針對電子耳蝸植入者識別能力呈現(xiàn)的巨大個體差異以及對聽覺環(huán)境、聽覺材料的過分依賴現(xiàn)象,結合電子耳蝸語音處理算法的所面臨的研究瓶頸和挑戰(zhàn),提出了希爾伯特黃變換刺激算法。與傳統(tǒng)電子耳蝸語音編碼策略相比,希爾伯特黃變換刺激算法不需要設置帶通濾波器組參數(shù)或選取小波基函數(shù),其根據(jù)語音信號的自身特點,通過層層篩選獲取不同尺度特征的近似局部窄帶信號本征模態(tài)函數(shù),在此基礎上運用希爾伯特變換,精確提取瞬時幅度和瞬時頻率參數(shù)進行編碼處理,整個過程不使用任何先驗知識,擺脫了傳統(tǒng)濾波器組和小波基窗函數(shù)和測不準原理的限制,具備良好的自適應性,保留了原始語音信號的基本特征,理論上來說其性能比基于帶通濾波和小波分析的語音處理算法要優(yōu)越,而初步的實驗結果也證明了這一點,可以為電子耳蝸語音處理器的設計提供借鑒。
[1] WHO. Global estimates on prevalence of hearing loss (2012) [DB/ OL]. [2014-03-31]. http://www. who.int/pbd/deafness/estimates/en. [2] Zeng FG, Nie KB, Stickney GS, et al. Speech recognition with amplitude and frequency modulations[J]. PNAS, 2005, 102 (7): 2293-2298.
[3] Nie KB, Stickney GS, Zeng FG. Encoding frequency modulation to improve cochlear implant performance in noise[J]. IEEE Trans Biomed Eng, 2005, 52(1): 64-73.
[4] 龔樹生, 郝瑾. 國產人工耳蝸,任重道遠[J]. 中國醫(yī)學文摘(耳鼻咽喉科學), 2013, 28(05): 231-236.
[5] Wilson BS, Finley CC, Lawson DT. Design and evaluation of continuous interleaved sampling (CIS) processing strategy for multi-channel cochlear implants[J]. J Rehabil Res Dev, 1993, 30(1):110-116.
[6] Nogueira W, Büchner A, Lenarz T. A psychoacoustic “N of M”-type speech coding strategy for cochlear implants[C]. EURASIP J Adv Sig Proc, 2005: 3044-3059.
[7] Somek B, Fajt S, Dembitz A, et al. Coding strategies for cochlear implants[J]. AUTOMATIKA: J Control Measur Electronics Comput Commun, 2006, 47(1-2)69-74.
[8] Rouiha K, Bachir D, Ali B. Analysis of speech processing strategies in cochlear implants[J]. J Comput Sci, 2008, 1:372-374.
[9] Zierhofer CM. Electrical nerve stimulation based on channel specifc sampling sequences[P]. US patent 6 594 525. [2003-07-15].
[10] 王衛(wèi), 袁虎. 一種新的電子耳蝸的刺激脈沖序列的合成方案[J].中國生物醫(yī)學工程學報, 2005, 24(3): 375-380.
[11] Wang WD, Liu HY, Yuan H. A new speech coding strategy for cochlear implants[J]. JMBE, 2010, 30(5):335-342.
[12] Liu HY, Wang WD, Li KY, et al. A novel speech coding algorithm for cochlear implants[C]. BMEI, 2012, 403-406.
[13] Hou LM, Xie JM. A new approach to extract formant instantaneous characteristics for speaker identifcation[C]. IJCISIM, 2009, 1:295-302.
[14] Huang NE. Hilbert-Huang transform and its application[M]. World Scientifc Publishing Co.Pte. Ltd, 2005
[15] Li J, Liu F, Xu HY, et al. Speech enhancement algorithm based on Hilbert-Huang and wavelet[J]. Lect Notes Electr Eng, 2013, 206:173-178.
[16] Heydarian P, Reoss JD. Extraction of long-term structures in musical signals using the empirical mode decomposition[C]. DAFx Proc, 2005, 258-261.
[17] Huang NE, Attoh-Okine NII O. The Hilbert-Huang transform in engineering[M]. Florida: CRC Press, 2005.
The Application of Hilbert-Huang Transform in Speech Coding Algorithm for Cochlear implants
【Writers】Liu Hongyun, Wang Weidong
Department of Biomedical Engineering, Chinese PLA General Hospital, Beijing, 100853
cochlear implant, Hilbert-Huang transform, empirical mode decomposition, simulation
TN911.7
A
10.3969/j.issn.1671-7104.2014.05.002
1671-7104(2014)05-0318-04
2014-03-28
國家自然科學基金項目(61201436);國家科技支撐計劃項目(2013BAI03B03)
王衛(wèi)東,E-mail: wangwd301@126.com
【 Abstract 】To enhance speech recognition in realistic listening environment, as well as tonal language and music perception, a new speech coding strategy based on Hilbert Huang transform was presented. Instantaneous frequency and instantaneous amplitude which refect speech contents, speech rhythms and tones are derived from original speech signal through empirical mode decomposition and the Hilbert transform to synthesize stimulating pulses. The presented new speech coding algorithm, continuous interleaved sampling, and frequency amplitude modulation encoding strategies were simulated by Matlab and synthesized signals of 50 Mandarin speech test materials are correlation analyzed between original signals. Compared to other two strategies, the presented new strategy obtains the highest correlation coeffcient between synthesized signal and that of original speech, which indicates it could keep more information of the original speech signal than other two strategies.