鄭百花 雷群泌
(湖南環(huán)境生物職業(yè)技術學院,湖南 衡陽 421005)
英語作為世界通用語言,是對外交流的必備工具,手語作為特殊人群的專用語言具有無可替代性。但是兩者的互通互譯尚屬于空缺狀態(tài),不便于語言障礙人士與外界,尤其與外賓進行直接交流。因此,設計語音識別平臺,并融合圖像識別與展示功能,形成英語、普通話和手語的低延時自動翻譯工具。
當設計基于語音圖像融合平臺的英語與手語自動翻譯系統(tǒng)時,該控制器由STM32單片機構成,對采集到的語音和圖像進行處理,內(nèi)置STM32M3核心,并與控制器的外部接口集成ADC,設置了集成采集方式,實現(xiàn)對數(shù)據(jù)的快速傳送功能?;谡Z音圖像融合平臺的英語與手語自動翻譯系統(tǒng)硬件結構如圖1所示。
圖1 硬件設計
在上述硬件設計的構造中,通過呼叫控制芯片中的信息信道,使控制時鐘的頻率達到28 MHz,控制系統(tǒng)采用掃描和變換的方式進行操作。在單片機的外端,采用2套傳感器結構引腳,完成英語和手語翻譯系統(tǒng)間的信息同步傳遞任務。
該文將語音圖像融合技術應用到英語和手語的自動翻譯系統(tǒng)中,利用CNN技術可以有效降低語音信號在時間、頻率上的損耗,同時也保證了語音的整體特性,便于網(wǎng)絡的訓練和識別。該文所設計的英語與手語自動翻譯系統(tǒng)先利用語音識別模塊對輸入的語音進行預處理,并抽取其特征,然后將其作為語音特征圖像,利用該圖像進行CNN的訓練和識別。語音識別的流程如圖2所示。
圖2 語音識別流程
為了獲得正確且較為典型的語音信號,要對采集的語音信號進行預處理,并利用能量與過零率法進行終端檢測,經(jīng)過預處理后則可進行特征提取。英語與手語翻譯系統(tǒng)中的語音信號源都是以人聲為基礎的,利用梅爾倒譜系數(shù)來進行語音識別[1]。在該基礎上,將小波包分解技術應用于快速傅里葉變換中,傅里葉變換是時域—頻域變換分析中的基本方法。分割Mel尺度的頻域,Mel音階可以使純音的感知頻率或音調(diào)與其實際測量頻率相關聯(lián),從而保證語音特征完整。
在英語和手語的自動翻譯中,利用語義單元融合本體,從語音及圖像中抽取語義上下文。通過修改文本的語義來構造自動轉(zhuǎn)化的聯(lián)合特征分布集K,并將其與Fuzzy綜合判斷相結合,構造一個自動轉(zhuǎn)化的分段函數(shù),如公式(1)所示。
式中:t1為翻譯時輸出在英漢2種語言中的時間序列;t2為采樣時英語與手語自動轉(zhuǎn)換翻譯的間隔時間;ET為T時的常數(shù)函數(shù)。
建立自動轉(zhuǎn)換的聯(lián)合特征值,如公式(2)所示。
式中:δ(t1,t2)為英語與手語之間自動轉(zhuǎn)化的分段函數(shù);u為自動轉(zhuǎn)化分段函數(shù)中出現(xiàn)的并集;C為復數(shù)集合。
語義融合后獲得特征分布節(jié)點I1、I2的自動翻譯轉(zhuǎn)換,定義I1、I2間的距離,建立聯(lián)合特征?x為自動轉(zhuǎn)換翻譯特征分量,在區(qū)間中,構造一種用于自動翻譯的約束最優(yōu)化問題,并給出英語和手語的自動翻譯的聯(lián)合限制特征量,如公式(3)所示。
建立計算英語和手語翻譯模型中的語義單位向量模型,滿足翻譯系統(tǒng)在輸入時的自適應性,提高語音特征在檢測識別時的效率,便于排除歧義特征項。
通過去除模糊特征項可以有效提高英語與手語自動翻譯系統(tǒng)的精度,從而使英語和手語自動翻譯成為可能[2]。一方面,由于詞性的歧義,因此同一詞語的詞類差異也會導致譯文意義存在差異。另一方面,在不同的環(huán)境下,同樣的詞語的意義也會存在細微差異[3]。為了消除因詞類而產(chǎn)生的模糊性,應首先明確詞語的詞性,并根據(jù)相似性來標記詞類[4]。通過計算所選的n個句子的相似度,對所選n個句子的相似性進行分析,并將其輸入類似的語句組合模塊中,相似度如公式(4)所示。
式中:words(A)為英語句子A中的一組單詞;words(B)為輸入手語B的圖像集合;i為字組中的第i個要素;Len為字符串的長度;sim(A,B)為詞形的相似性。
通過分析詞形相似度可以提高句子的翻譯質(zhì)量。通過所標記的詞性可以判斷所指的具體意義,從而排除歧義,完成英語與手語間的翻譯工作。為了避免由于上下文的差異而產(chǎn)生的歧義,必須采用本體的方法來排除歧義。首先,要單獨處理需要翻譯的句子。其次,在領域字典中找到每個詞,把這個詞定義在一個特定的詞義范圍內(nèi),并賦予它一定的意義,從而消除歧義,方便規(guī)整雙向翻譯。
英語和手語自動翻譯系統(tǒng)在建立雙向翻譯時,由于估計的人體阻抗參數(shù)偏低,因此使英語與手語翻譯系統(tǒng)無法識別所有的翻譯節(jié)點,翻譯路徑太少。建立手語處理的空間域,并將手部處理空間與在軌跡中的數(shù)據(jù)點相結合,將初始節(jié)點作為特征向量,手部軌跡匹配函數(shù)D如公式(5)所示。
式中:ai為特征矢量;bj為數(shù)值單調(diào);wn為手語路徑權值。
校準2個循環(huán)的軌道變量,該軌跡周期數(shù)字變量P(λ)如公式(6)所示。
式中:Bj為數(shù)字的似然性。
基于所形成的軌道變量,設置一個模糊的數(shù)字控制關系來控制所估計的手部處理空間阻抗參數(shù),其數(shù)值關系如公式(7)所示。
式中:M為手部處理空間的轉(zhuǎn)譯路徑;d為手語的轉(zhuǎn)換循環(huán)。
為了達到雙向轉(zhuǎn)換,以語義解碼技術為支撐實現(xiàn)翻譯軟件的功能[5]。在實際過程中,通過規(guī)整處理2個轉(zhuǎn)換過程,對硬件結構的可視語義進行編碼,將其轉(zhuǎn)換成英語語言信息,然后將其輸入編碼矢量中,輸出的語言序列矢量如公式(8)所示。
式中:yt為接收到的視覺語義編碼;hm為自然語言序列的映射過程;m為維度參數(shù)[6]。
在系統(tǒng)軟件中,經(jīng)過控制維度參數(shù)標準化處理,相應地處理了一個具體詞匯類的矢量,數(shù)字關系如公式(9)所示。
式中:zt為向量索引值;p(zi)為詞語類別函數(shù);wk為手語譯碼產(chǎn)生的單詞參數(shù)。
與以上具體分類所產(chǎn)生的單詞參數(shù)相對應,通過轉(zhuǎn)換句式的指標單詞構造實際的解碼產(chǎn)生過程,數(shù)字關系如公式(10)所示。
式中:ht為該索引函數(shù)的詞匯表;Y為譯碼產(chǎn)生函數(shù)。
譯碼處理程序被用作所述的語句轉(zhuǎn)換次序,當所述轉(zhuǎn)換程序數(shù)據(jù)被執(zhí)行時,所述譯碼產(chǎn)生函數(shù)是由Java程序編寫的,嚴格地遵循譯碼產(chǎn)生的次序,形成英語與手語的雙向自動轉(zhuǎn)換。
在caffeine平臺上進行試驗,采用英特爾3770芯片,主頻3.4 GHz,內(nèi)存16 GB。為了確保試驗結果的正確性,對試驗參數(shù)進行統(tǒng)一設置,將英語與手語的自動翻譯中斷圖取樣時間間隔設為0.26 ms,英語與手語的自動轉(zhuǎn)換為15 kHz,轉(zhuǎn)換字長度為1 800 Bit,提取的翻譯文本為800 個字符,翻譯速度為18 Byte 。FPGA對CMOS進行手語圖像的采集、傳輸及存儲等操作,通過VGA顯示手語定格圖像。該文使用VisualDSP++進行模擬,使用的參數(shù)設定見表1。
表1 試驗參數(shù)
根據(jù)上述參數(shù)設定,采用基于語音圖像融合平臺的英語與手語自動翻譯系統(tǒng)進行自動轉(zhuǎn)換翻譯測試。
3.2.1 手語圖像識別結果
在基于語音圖像融合平臺的英語與手語自動翻譯系統(tǒng)設計中,將完全捕捉手語內(nèi)容才能更具體地翻譯相關內(nèi)容,因此,進行實時手語視頻圖像采集顯示試驗。從以上250 個手語樣本中選出8 個作為該試驗的具體試驗樣本,通過整理手部姿勢生成的數(shù)據(jù),從而構成手勢數(shù)據(jù)集,見表2。
根據(jù)表2中的手勢轉(zhuǎn)換資料設置相應的手指關節(jié)空間維度和關節(jié)點的置信分數(shù),并將其作為關節(jié)點的特征。經(jīng)過處理后,選擇同樣的系統(tǒng)性能指數(shù)捕獲手語圖像。在該系統(tǒng)中,采用FPGA對CMOS進行圖像控制,VGA顯示傳送和存儲的圖像,結果如圖3所示。
表2 手勢翻譯數(shù)據(jù)
圖3 手語顯示圖像
通過圖像捕捉試驗可知,8 個手語圖像捕捉效果清晰,F(xiàn)PGA的高速并行優(yōu)點使手語圖像捕捉可以更快融入語音圖像融合平臺,該系統(tǒng)設計捕捉的畫面更清晰,采集的圖像更流暢。運用試驗測試中的手語圖像捕捉以及英語語音采集,根據(jù)試驗環(huán)境和有關參數(shù)設置對該文基于語音圖像融合平臺的英語與手語自動翻譯系統(tǒng)設計進行仿真分析,將準確率和語義信息召回率檢測評價指標作為對手語圖像識別的評價依據(jù),如圖4所示。
由圖4可知,該文設計的雙語翻譯系統(tǒng)在手語圖像識別時,準確率和召回率較穩(wěn)定,語義樣本規(guī)模上升,其準確率和召回率也隨之上升。由此可見,該文所設計的英語與手語翻譯系統(tǒng)的手語圖像識別結果準確性和智能化程度較高。
圖4 準確率與召回率示意圖
3.2.2 英語翻譯結果
語音識別作為基于語音圖像融合平臺的英語與手語自動翻譯系統(tǒng)設計中重要的環(huán)節(jié),識別內(nèi)容夠準確才能保證語音交互正常運行。采用8 組英語語音句子進行識別,以8 個試驗的平均識別率為最終目標,相應的試驗數(shù)據(jù)見表3。
表3 英語語音識別結果
由表3可知,8 個英語句子的識別速度大約都為1 s,識別速度較快,語音字節(jié)長度對識別速度沒有太大的影響,識別率最高為98.54%,最低為97.33%,召回率最低為82.22%,最高為84.11%。因此,該文所設計的語音識別較準確,可以準確識別語音。
綜上所述,該文在系統(tǒng)的硬件設計方面,以STM32微控制器作為主控模塊,實現(xiàn)英語與手語自動翻譯系統(tǒng)的同步信息轉(zhuǎn)換。在系統(tǒng)的軟件設計方面,用CNN對特征圖像進行模型訓練和識別,采用語義單元的本體融合方法自動提取系統(tǒng)內(nèi)錄入的英語和手語的語義語境,按照解碼生成的順序規(guī)整雙向翻譯。試驗結果顯示,英語和手語的自動翻譯系統(tǒng)在語音圖像融合平臺的基礎上,可以有效提高句子的翻譯效率和準確性。