王海鵬,闕大順,2,祁寵杰,董航
(1.武漢理工大學(xué) 信息工程學(xué)院,湖北 武漢 430070;2.武漢理工大學(xué) 光纖傳感技術(shù)與信息處理教育部重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430070)
根據(jù)第二次全國(guó)殘疾人抽樣調(diào)查的結(jié)果匯總表明,截至2006年4月1日,我國(guó)患聽力殘疾人數(shù)為2004萬(wàn),占總殘疾人數(shù)24.16%,言語(yǔ)殘疾127萬(wàn),占總殘疾人總數(shù)的1.53%[1]。目前解決聾人聽力問題的方案主要有佩戴助聽器和人工植入電子耳蝸。傳統(tǒng)助聽器的實(shí)質(zhì)是聽覺放大器[2],僅適用于弱聽患者;而電子耳蝸雖然適用于重聽患者,但由于價(jià)格昂貴和手術(shù)復(fù)雜難以推廣。同時(shí)聾啞人使用的手語(yǔ)在非聾啞人群體中并未普及,聾啞人的交流問題亟待解決。
本文設(shè)計(jì)的聾啞人語(yǔ)音交互系統(tǒng)是自動(dòng)語(yǔ)音識(shí)別(Automatic Speech Recognition,ASR)技術(shù)和單片微處理技術(shù)相結(jié)合的綜合應(yīng)用,實(shí)現(xiàn)了語(yǔ)音自動(dòng)識(shí)別、識(shí)別結(jié)果的文字顯示和快速按鍵觸發(fā)語(yǔ)音播報(bào)等功能。
圖1所示為系統(tǒng)的整體框圖,它由RSC-4128語(yǔ)音識(shí)別模塊、STM32控制單元、按鍵單元、TFT液晶屏、WT588D語(yǔ)音播報(bào)模塊等組成。通過麥克風(fēng),RSC-4128自動(dòng)將語(yǔ)音轉(zhuǎn)化為文字編號(hào), 傳 送 給STM32控制單元。STM32 控制單元按文字編號(hào)實(shí)時(shí)輸出對(duì)應(yīng)文字到TFT液晶屏。用戶(特指聾啞人)還可通過快速按鍵觸發(fā)WT558D語(yǔ)音播報(bào)的功能,幫助用戶實(shí)現(xiàn)尋求幫助、打招呼和呼救等特殊應(yīng)用。
圖1 系統(tǒng)整體框圖
控制單元 STM32是一款基于 Cortex-M3內(nèi)核的高性能32位處理器,其高性能、低成本、低功耗特性得益于Cortex-M3在架構(gòu)上的多項(xiàng)改進(jìn),包括應(yīng)用提升代碼密度的Thumb-2指令集和Tail-Chaining等,使其具有高性能和優(yōu)秀的功耗水平[3]。
聾啞人語(yǔ)音交互系統(tǒng)中采用的是 STM32F103RBT6芯片,其最小系統(tǒng)設(shè)計(jì)簡(jiǎn)單,采用 8 MHz和 32.768 KHz的外部晶振,復(fù)位電路設(shè)計(jì)成按鍵復(fù)位和上電自動(dòng)復(fù)位的方式。
系統(tǒng)的液晶控制器是一款256K色TFTLCD控制器ILI9320。它最大支持240RGB×320的分辨率,支持8位,9位,16位,18位并行控制模式以及SPI串行模式。該系統(tǒng)采用通用I/O口模擬的16位8080并行接口控制模式。
RSC-4128語(yǔ)音識(shí)別處理器高度集成語(yǔ)音和模擬輸入/輸出復(fù)合信號(hào)處理模塊。其內(nèi)部資源豐富,固化了一整套可靈活運(yùn)用的語(yǔ)音識(shí)別和語(yǔ)音合成技術(shù),其中應(yīng)用了隱馬爾可夫模型(HMM,Hidden Markov Model)、人工神經(jīng)網(wǎng)絡(luò)(ANN,Artificial Neural Networks)和動(dòng)態(tài)時(shí)間規(guī)整算法(DTW,Dynamic Time Warping)等。片上集成語(yǔ)音信號(hào)采集前置放大和程控增益模塊、可編程數(shù)字濾波引擎等語(yǔ)音信號(hào)模數(shù)混合處理模塊。同時(shí),RSC-4128是一款低功耗芯片,在3 V工作電壓時(shí)典型工作電流為12 mA,休眠模式下典型工作電流為1 μA,且具有多種低功耗模式和特定聲音信號(hào)自動(dòng)喚醒功能[4-5]。
當(dāng)語(yǔ)音信號(hào)通過麥克風(fēng)采集后,經(jīng)過前置阻容網(wǎng)絡(luò)進(jìn)行初步去噪和放大,送 入RSC -4128。RSC-4128通過外部存儲(chǔ)器接口,擴(kuò)展 AM29LV800BT-70EC 8Mbit Flash芯片作為外部程序存儲(chǔ)器,SST29VE020 2Mbit Flash作為外部數(shù)據(jù)存儲(chǔ)器擴(kuò)展RSC-4128的存儲(chǔ)空間,數(shù)據(jù)并行傳送。模塊另有MAX218串行口用于程序修正和模塊通信。RSC-4128語(yǔ)音識(shí)別模塊原理框圖如圖2所示。
圖2 RSC-4128語(yǔ)音識(shí)別模塊原理框圖
WT588D語(yǔ)音播模塊集成WT588D-20SS微控制器、語(yǔ)音處理電路、32Mbit Flash存儲(chǔ)器等,具有220個(gè)可控制的音頻地扯[6]。通過 Voice Reader軟件將文本轉(zhuǎn)化成語(yǔ)音數(shù)據(jù);通過WT588D Voice Chip上位機(jī)軟件配置WT588D模塊為一線串口控制模式,設(shè)定語(yǔ)音重放、聲音增大和減小等控制控制指令。系統(tǒng)中WT588D語(yǔ)音播報(bào)模塊以PWM方式直接推動(dòng)0.5 W/8 Ω揚(yáng)聲器,電路連接簡(jiǎn)單,控制方便。聾啞人可通過按鍵或語(yǔ)音對(duì)其快速控制和命令設(shè)置??焖倏刂茣r(shí),WT588D播報(bào)對(duì)應(yīng)地址的語(yǔ)音。
系統(tǒng)的語(yǔ)音識(shí)別功能主要由 RSC-4128語(yǔ)音識(shí)別模塊完成,TFT液晶驅(qū)動(dòng)和語(yǔ)音播報(bào)控制主要由STM32完成。系統(tǒng)將常用詞匯編排成表,存儲(chǔ)于語(yǔ)音識(shí)別模塊和STM32單元。RSC-4128將語(yǔ)音識(shí)別的結(jié)果以對(duì)應(yīng)編號(hào)的形式傳送至STM32,STM32將對(duì)應(yīng)編號(hào)的文字在屏幕上顯示出來。STM32同時(shí)控制著WT588D語(yǔ)音播模塊,由用戶通過快速按鍵或語(yǔ)音對(duì)WT588D語(yǔ)音播模塊進(jìn)行控制,實(shí)現(xiàn)緊急情況下的快速語(yǔ)音播報(bào)或普通的語(yǔ)音播報(bào)和控制。
采用RSC-4128的非特定人識(shí)別和特定人語(yǔ)音識(shí)別相結(jié)合的辦法,方便用戶擴(kuò)展語(yǔ)音識(shí)別詞匯量和克服方言口音障礙,滿足聾啞人的交流的更大需求。其中非特定人識(shí)別數(shù)據(jù)由軟件Quick T2SI輔助完成;特定人識(shí)別部分采用對(duì)同一常用詞匯錄入多個(gè)不同人模板的方案,用以提高特定人識(shí)別模式下的識(shí)別率。其語(yǔ)音模板由軟件設(shè)定語(yǔ)音訓(xùn)練命令和提示語(yǔ)音引導(dǎo)用戶錄制得到。雖然 RSC-4128限定只能錄入至多255個(gè)特定人語(yǔ)音模板,但對(duì)于聾啞人的日常交流,這個(gè)數(shù)量是可觀的,同時(shí)也能緩解地方口音識(shí)別困難的問題。
RSC-4128在語(yǔ)音識(shí)別模式下實(shí)時(shí)地接收外界語(yǔ)音信號(hào)。當(dāng)外界有語(yǔ)音輸入時(shí),RSC-4128開始調(diào)用的技術(shù)庫(kù)函數(shù),控制各數(shù)字語(yǔ)音信號(hào)處理模塊進(jìn)行語(yǔ)音識(shí)別。其中 RSC-4128語(yǔ)音識(shí)別子程序流程圖如圖3所示。
圖3 語(yǔ)音識(shí)別子程序流程圖
系統(tǒng)上電后,STM32單元執(zhí)系列初始化程序,其中包括LCD初始化和中斷始化等。初始化后STM32單元對(duì)按鍵循環(huán)掃描,此時(shí)外部中斷使能。當(dāng)語(yǔ)音識(shí)別模塊通過寫信號(hào)線電平拉低觸發(fā)STM32外部中斷,運(yùn)行中斷服務(wù)程序讀入語(yǔ)音識(shí)別結(jié)果。當(dāng)用戶按下命令按鍵后,STM32通過一線串口控制 WT588D模塊進(jìn)行語(yǔ)音播報(bào)等功能或設(shè)定。一線串口協(xié)議一次傳8位數(shù)據(jù),數(shù)據(jù)0和數(shù)據(jù)1由對(duì)應(yīng)位的占空比區(qū)分。數(shù)據(jù)0用200 us高電平和600 us低電平表示,數(shù)據(jù)1用600 us低電平和200 us高平表示。其中語(yǔ)音播報(bào)子程序流程圖如圖4所示。
圖4 語(yǔ)音播報(bào)子程序流程圖
測(cè)試項(xiàng)目分為語(yǔ)音識(shí)別率測(cè)試和語(yǔ)音播報(bào)功能測(cè)試。在語(yǔ)音識(shí)別測(cè)試環(huán)節(jié),錄制了212條日常生活語(yǔ)句或詞語(yǔ)。在最常用的日常用語(yǔ)中,隨機(jī)選擇了幾組進(jìn)行實(shí)驗(yàn)室環(huán)境下的測(cè)試,包括“你好”、“吃飯了嗎”、“謝謝”、“再見”和“不用謝”等。實(shí)驗(yàn)觀察了語(yǔ)音識(shí)別后液晶屏上的顯示的識(shí)別結(jié)果,統(tǒng)計(jì)語(yǔ)音識(shí)別率。聾啞人語(yǔ)音交互系統(tǒng)實(shí)物如圖5所示。
圖5 聾啞人語(yǔ)音交互系統(tǒng)實(shí)物圖
首先將這些常用口語(yǔ)以單個(gè)特定人的語(yǔ)音錄制成模板中,然后由錄制人對(duì)其進(jìn)行單人語(yǔ)音識(shí)別測(cè)試,部分實(shí)驗(yàn)結(jié)果如表1所示。
表1 單特定人模板及其語(yǔ)音識(shí)別率測(cè)試結(jié)果
考慮到實(shí)際使用情況,于是對(duì)該單特定人模板進(jìn)行了包括錄制人在內(nèi)的多人語(yǔ)音識(shí)別測(cè)試,測(cè)試人數(shù)為3人。部分實(shí)驗(yàn)結(jié)果如表2所示。
表2 單特定人模板多人語(yǔ)音識(shí)別率測(cè)試結(jié)果
參照表2所示測(cè)試結(jié)果,再考慮到不同人對(duì)同一詞匯的發(fā)音的差異性,又對(duì)同一詞匯錄制多人的發(fā)音。隨機(jī)選取3人進(jìn)行語(yǔ)音模板的錄取,再另外選取3人測(cè)試識(shí)別率。部分測(cè)試結(jié)果如表3所示。
表3 多特定人模板多人語(yǔ)音識(shí)別率測(cè)試結(jié)果
另外,同時(shí)實(shí)現(xiàn)了語(yǔ)音播報(bào)功能,按下語(yǔ)音播報(bào)快速按鍵或語(yǔ)音控制,系統(tǒng)均能播報(bào)對(duì)應(yīng)語(yǔ)音且播報(bào)出的語(yǔ)音音質(zhì)清晰。
本文闡述了聾啞人語(yǔ)音交互系統(tǒng)的軟硬件設(shè)計(jì)原理、功能分析和系統(tǒng)測(cè)試。該系統(tǒng)實(shí)現(xiàn)了自動(dòng)語(yǔ)音識(shí)別和語(yǔ)音播報(bào)等功能,并具有低功耗和便于攜帶的特點(diǎn),為聾啞人群體提供許多便利,提供了一種幫助聾啞人解決交流問題的新思路,有助于提高聾啞人群體的生活水平。
[1]薛靜.第二次全國(guó)殘疾人抽樣調(diào)查最新數(shù)據(jù)公報(bào)[J].中國(guó)聽力語(yǔ)言康復(fù)科學(xué)雜志,2007,5(1):38.
[2]李建文,付蓉.基于 DSP的皮膚聽聲器的研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(17):3750 -3753.
[3]張?jiān)?,熊杰,宋宴?基于STM32的勵(lì)磁系統(tǒng)錄波存儲(chǔ)器的實(shí)現(xiàn)[J].長(zhǎng)江科學(xué)院院報(bào),2009,26(12):110-114.
[4]Sensory Inc.Speech Recognition Processor Data Sheet[K/OL].,2008.[2012-12-23]..
[5]李瑞峰,李麟.基于RSC4128的家用機(jī)器人語(yǔ)音人機(jī)交互系統(tǒng)的設(shè)計(jì)[J].制造業(yè)自動(dòng)化,2007,29(10):30 -33.
[6]徐娟娟,趙建平.WT588D在汽車遠(yuǎn)程防盜系統(tǒng)中的應(yīng)用[J].電氣自動(dòng)化,2012,34(4):85-87.