陳又圣,杜軍
深圳信息職業(yè)技術(shù)學(xué)院電子與通信學(xué)院,廣東深圳518000
據(jù)世界衛(wèi)生組織官網(wǎng)報(bào)告(數(shù)據(jù)更新日期為2018年3月15日),全世界患有殘疾性聽力損失的人數(shù)高達(dá)4.66 億,其中包含0.34 億兒童患者,并且聽力損失的患者在迅速增長,到2050年,患有殘疾性聽力損失的人數(shù)將會超過9 億。2017年,第70 屆世界衛(wèi)生大會通過一項(xiàng)有關(guān)預(yù)防耳聾以及聽力損失的決議,協(xié)助世界衛(wèi)生組織的成員國制定相應(yīng)的規(guī)劃,并把耳部和聽力初級保健納入本國的衛(wèi)生保健系統(tǒng)。不同的聽力損失情況可以采用不同的治療方式,例如藥物治療、佩帶助聽器、植入電子耳蝸等,其中,對于重度耳聾患者和極重度耳聾患者來說,植入電子耳蝸是目前最為有效的方式。電子耳蝸既可以單獨(dú)使用,也可以和助聽器進(jìn)行結(jié)合并形成雙耳的模式[1-5]。電子耳蝸處于噪聲環(huán)境以及應(yīng)用場景中的各類失配都會導(dǎo)致言語識別率的大幅度降低,為了提高電子耳蝸的言語識別率,近年來學(xué)者們在電流導(dǎo)引[6]、電子耳蝸的精細(xì)結(jié)構(gòu)編碼[7]、虛擬電極[8-9]、光學(xué)耳蝸[10-11]、麥克風(fēng)陣列[12-13]等方面做了很多努力和研究工作。
電子耳蝸包括體外和體內(nèi)兩個模塊,其中體外部分通過麥克風(fēng)采集聲音信號,傳入言語處理器中,信號被特定的電子耳蝸言語處理策略處理,進(jìn)行參數(shù)提取、信號調(diào)制、編碼、壓縮等系列過程,然后通過無線方式把有效信號和能量傳輸?shù)襟w內(nèi)植入體中,體內(nèi)植入體的線圈接收信號,并通過解碼等過程把目標(biāo)參數(shù)提取并傳輸?shù)诫姌O陣列上,電極陣列以特定的刺激參數(shù)和模式刺激對應(yīng)位置的聽覺神經(jīng)并讓聽力患者產(chǎn)生聽覺感知,恢復(fù)部分的聽力。目前國外電子耳蝸的生產(chǎn)商主要有3 家,即澳大利亞的COCHLEAR 公司、奧地利的MED-EL 公司和美國的AB 公司,而國內(nèi)則只有諾爾康公司推出電子耳蝸臨床產(chǎn)品,其中,COCHLEAR 公司是全球最大的電子耳蝸生產(chǎn)商,占了全球市場份額的60%~70%。由于電子耳蝸的復(fù)雜性,其價格一直很高,限制了其應(yīng)用的廣度和深度。據(jù)報(bào)導(dǎo),目前電子耳蝸的市場滲透率在發(fā)達(dá)國家也只有20%,而在發(fā)展中國家則不到1%。近幾年這種情況有所改觀,有學(xué)者研究和統(tǒng)計(jì)指出[14],近年來3家國外公司(COCHLEAR、MED-EL和AB)和一家國內(nèi)公司(諾爾康)在中國政府投標(biāo)價格中有了大幅度的下降,從2011年的每個25 000 美元到2016年的6 030 美元再到2017年的5 490 美元。價格的大幅度降低有助于促進(jìn)電子耳蝸在中國大陸的進(jìn)一步使用,但是漢語本身是音調(diào)語言,音調(diào)對漢字的識別比英語重要得多,因此,直接把國外電子耳蝸中的言語處理策略移植并應(yīng)用在漢語人群中是不適合的。本研究選取目前廣泛使用的基于信號特征的電子耳蝸言語處理策略進(jìn)行研究,并探討其頻帶選取的特性以及對信號特征變化的影響,為電子耳蝸新言語處理策略的開發(fā)以及電子耳蝸國產(chǎn)化提供基礎(chǔ)。
從大類來說,電子耳蝸的言語處理策略可以劃分為基于濾波器組的算法和不基于濾波器組的算法,其中,基于濾波器組的算法是目前的主流方法。而從刺激模式來看,基于濾波器組電子耳蝸的言語處理策略可以進(jìn)一步劃分為非信號特征的模式(即規(guī)律性循環(huán)刺激模式)和基于信號特征的刺激模式。規(guī)律性循環(huán)刺激模式與信號本身的特性無關(guān),該言語處理策略是按預(yù)先設(shè)計(jì)好的刺激模式進(jìn)行,例如連續(xù)交替采樣模式[15-17]、連續(xù)交替等間隔刺激模式[18]。而基于信號特征的刺激模式是基于信號本身的實(shí)時變化特征的,例如可以選取頻帶中若干個最大的頻帶用于電極刺激,常見模式包括SPEAK 策略[19]、ACE 策略[20]、n of m 策略、FFC 策略、信號精細(xì)結(jié)構(gòu)策略等。目前研究領(lǐng)域和應(yīng)用領(lǐng)域應(yīng)用最廣泛的是基于信號特征的言語處理策略,而該類策略的主要特點(diǎn)是基于信號特征的頻帶選取模式,本文的實(shí)驗(yàn)測試和參數(shù)分析是基于該類言語處理策略進(jìn)行研究的。
本文的信號采集采用KNOWLES 麥克風(fēng)模塊,為了便于進(jìn)行信號采集,麥克風(fēng)模塊與STM32 開發(fā)板進(jìn)行連接,實(shí)現(xiàn)按鍵控制聲音的錄入播放,并將麥克風(fēng)采集的聲音進(jìn)行處理并寫入flash,生成wav音頻文件。采集的信號保存在SD 卡中,可便攜地進(jìn)行不同場景的信號采集,而需要進(jìn)行算法研究時,SD卡插入計(jì)算機(jī)中,用Matlab 讀取聲音文件并進(jìn)行算法處理??紤]到電子耳蝸使用者面對面交流的使用場景,本文的信號采集實(shí)驗(yàn)的麥克風(fēng)與目標(biāo)聲源(音箱)的距離設(shè)置為1 m,語料為女聲發(fā)音的漢語“中國醫(yī)學(xué)物理學(xué)雜志”。電子耳蝸不同的言語處理策略的程序代碼已經(jīng)用Matlab 提前編寫好,所采集的信號經(jīng)過不同算法處理后,用于進(jìn)行進(jìn)一步的參數(shù)提取和分析。
用所搭建的硬件系統(tǒng)采集目標(biāo)信號,保存在計(jì)算機(jī),然后分別用Matlab 所編寫的電子耳蝸言語處理進(jìn)行信號處理,生成并合成用于表征原始信號編碼和傳入電極陣列的新信號,進(jìn)而用于算法比較。本研究選用目前應(yīng)用最為廣泛的兩種基于信號特征的電子戰(zhàn)耳蝸言語處理策略,即ACE 策略和SPEAK策略,來進(jìn)行算法研究和參數(shù)比較。其中,ACE 策略選用常見的22 通道濾波器組并選取8 個頻帶用于電極刺激,而SPEAK 選用常見的20 通道濾波器組并選取6個頻帶用于電極刺激。
原始采集的目標(biāo)信號、經(jīng)過ACE 策略和SPEAK策略處理后并合成的新信號,它的信號頻譜圖的對比如圖1所示。
圖1表示信號經(jīng)過ACE策略和SPEAK策略處理后的信號和原始信號的對比。從圖1a 可以看到,原始信號在每個時間幀均包含不同頻率成分的信號,其中紅色是高能量的部分,顏色越深對應(yīng)的能量越大。而對比圖1b 和圖1c 可以看到,ACE 策略和SPEAK 策略處理后的信號在每個時間幀開始集中在特定的幾個頻率上。在圖1b和圖1c中標(biāo)記了對應(yīng)濾波器組每個頻帶的中心頻率,通過比較可以看到,經(jīng)過算法處理后的信號能量集中在對應(yīng)的若干頻率位置上,該頻率位置對應(yīng)所在濾波器組每個通道的中心頻率。而進(jìn)一步比較圖1b和圖1c中每個時間幀所選取的頻帶來看,算法選取的是能量最大的若干個頻帶,頻譜中顯示的是紅色和深紅色區(qū)域,其中,ACE 策略選取的是能量最大的8 個通道的信號,而SPEAK 策略選取的是能量最大的6 個通道的信號。對于不同的時間幀來說,由于原始信號的能量分布隨著時間的變化而不同,因此,算法所提取的頻帶也不同,頻帶的選取與原始信號的能量強(qiáng)度分布有關(guān)。
圖1 信號的頻譜比較Fig.1 Comparison of signal frequency spectra
不同時間幀所選取的信號的頻帶不同,可以對所選取的各個頻帶進(jìn)行統(tǒng)計(jì)。在所采集的語料為“中國醫(yī)學(xué)物理學(xué)雜志”的語音信號里,該語音信號的長度為1.95 s,算法中的每一幀的長度為512點(diǎn),整個信號一共劃分為61幀。然后對每一幀所選取的頻帶編號進(jìn)行統(tǒng)計(jì)和分析,可以發(fā)現(xiàn)以下的規(guī)律:ACE策略中每一個時間幀選取8個頻帶,其中低頻的頻帶經(jīng)常被選取,同樣,SPEAK 策略中每一個時間幀選取6 個頻帶,也是低頻的頻帶經(jīng)常被選取。進(jìn)一步統(tǒng)計(jì)每個頻帶被選取的次數(shù)并由大到小排列,則ACE 策略中被選取次數(shù)最多的前5個頻帶依次是:通道2、通道1、通道4、通道5、通道3,對應(yīng)被選取的次數(shù)分別是:51、50、45、44、43。而SPEAK 策略中被選取次數(shù)最多的前5 個頻帶依次是:通道1、通道2、通道3、通道4、通道5,對應(yīng)被選取的次數(shù)分別是:48、45、36、35、30。由于實(shí)驗(yàn)中的語音信號共劃分為61 幀,因此,計(jì)算得到ACE 策略的通道1、通道2、通道3、通道4、通道5 的被選取的概率分別是:81.97%、83.61%、70.49%、73.77%和72.13%,SPEAK 策略的通道1、通道2、通道3、通道4、通道5 的被選取的概率分別是:78.69%、73.77%、59.02%、57.38%和49.18%。因此,從分析和統(tǒng)計(jì)上看,基于信號特征的電子耳蝸言語處理策略在頻帶選取上傾向于選取低頻的頻帶,這種頻帶選取的模式一方面可以保留語音中低頻的較高的能量信息,另一方面容易丟失中高頻的細(xì)致信息。
從前面的分析看到,低頻的頻帶容易被選擇,而中頻和高頻的頻帶選取情況也有所差異,進(jìn)一步詳細(xì)統(tǒng)計(jì)各個頻帶的選取概率,其頻帶選取概率曲線如圖2所示。
圖2 ACE策略和SPEAK策略的頻帶選取概率曲線Fig.2 Probability curves of frequency-band selection for ACE strategy and SPEAK strategy
圖2為ACE策略和SPEAK策略的頻帶選取概率曲線,從曲線上可以看到,低頻通道所對應(yīng)的頻帶選取概率較高,中頻和高頻的選取概率較低。另一方面,兩組曲線均在中間位置有一個下凹,表示ACE 策略和SPEAK 策略對中頻頻段的選取概率是最低的。從圖1a 中原始信號的頻譜中可以看到,原始信號的能量分布總體上是沿著從低頻到高頻有下降的趨勢,中頻頻段的能量并沒有明顯比高頻頻段的能量少。但是,由于ACE 策略和SPEAK 策略在頻帶劃分上都是高頻的頻帶寬,低頻的頻帶窄。因此,高頻頻段所包括的頻帶內(nèi)的信號成分更多,也有助于提高所在通道被選取的概率,而中頻頻段既沒有低頻通道的能量集中特性,也沒有高頻通道的頻帶寬特性,反而是被選取概率最低的。
本研究基于信號特征的電子耳蝸言語處理策略的頻帶選取特性,總結(jié)了ACE 策略和SPEAK 策略等算法在頻帶選取上傾向于低頻頻帶的特征。通過譜分析和電子耳蝸通道選取的統(tǒng)計(jì),對比高低頻頻帶的電子耳蝸不同時間幀的通道選取和參數(shù)?;谛盘柼卣鞯碾娮佣佈哉Z處理策略在頻帶選取上更多選取能量集中的低頻信號,部分選取高頻信號,較少選擇中頻信號。該選擇模式有助于傳遞目標(biāo)語音信號的主要信息,但中高頻通道被選取的概率偏低,導(dǎo)致中高頻信息丟失,后續(xù)的算法研究和改進(jìn)需要結(jié)合該特性研究降低中高頻信號失配的補(bǔ)償模式,尤其是中頻信號的提升方法。