• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      仿真手語翻譯系統(tǒng)開發(fā)

      2022-03-15 09:45:24楊淑瑩郭楊楊
      計算機仿真 2022年2期
      關(guān)鍵詞:手語分詞語音

      楊淑瑩,田 迪,郭楊楊,趙 敏

      (天津理工大學計算機科學與工程學院,天津 300384)

      1 引言

      隨著網(wǎng)絡(luò)視頻和電視媒體的不斷發(fā)展,人民日常生活中的信息和休閑娛樂越來越離不開它們,但對于聽障人群而言視頻和電視卻可望不可“及”。據(jù)相關(guān)數(shù)據(jù)顯示,全國約120個頻道的1000多個電視欄目中配有字幕的實屬少數(shù)其中配有實時手語翻譯的更是寥寥無幾[1],而作為最受全國電視觀眾歡迎且關(guān)注度極高的節(jié)目《新聞聯(lián)播》也并未加配字幕或手語翻譯。如此一來聽障人群空對電視難“聽”其聞,對于各種國家實事的了解也只是只言片語與社會嚴重脫節(jié)。

      目前我國大陸現(xiàn)有聽力殘障人總數(shù)約為2054萬人,占全國人口總數(shù)的1.46%[2]。但我國現(xiàn)有高水平手語翻譯人員嚴重不足,國內(nèi)擁有國家資質(zhì)認證的手語翻譯員人數(shù)不足百人[3],從事手語翻譯工作的專職人員更是少之又少。想要為全部視頻及電視節(jié)目字幕或是手語翻譯工作量極大且手語翻譯人力資源嚴重短缺,對于《新聞聯(lián)播》這類的直播節(jié)目更是要求手語翻譯迅速、嚴謹、準確。鑒于以上提及的各問題,開發(fā)一個能夠被廣泛應(yīng)用的實時手語翻譯系統(tǒng)是非常有意義且極具價值的。

      對于手語翻譯系統(tǒng)的研究,國內(nèi)外學者都在不斷的進行探索。早些年間微軟亞洲研究院和中科院計算所就已經(jīng)合作開發(fā)出了基于Kinect的手語翻譯系統(tǒng),能夠完成手語翻譯;由日本東芝公司開發(fā)的人形手語機器人也已經(jīng)可以實現(xiàn)手語交流[4]。及至后來普遍興起的基于傳感器等相關(guān)設(shè)備的手語翻譯研究,如基于傳感機械設(shè)備或數(shù)據(jù)手套的手語翻譯系統(tǒng)等[5-6]。但綜合來看,以上手語翻譯系統(tǒng)或設(shè)備雖為手語翻譯領(lǐng)域帶來了新的技術(shù)和理念,在其真正應(yīng)用過程中卻存在著諸多問題,如設(shè)備價格昂貴無法普遍推廣、設(shè)備操作復雜易用性差等。而且現(xiàn)有較多研究都集中于識別手語即手語向語音的翻譯,如基于Leap Motion深度傳感器的手語手勢識別[7]等,而進行語言向手語進行翻譯的則為數(shù)不多,且現(xiàn)有技術(shù)多為視頻合成或視頻拼接[8]等方式,缺少了手語輸出的直觀現(xiàn)實性。

      所以,本文依照中國手語標準,設(shè)計實現(xiàn)了仿真手語翻譯系統(tǒng),通過B/S模式實現(xiàn)前端頁面和后臺運行的互聯(lián),使用WebGL技術(shù)進行虛擬人加載和場景渲染;JavaScript語言進行虛擬人運動控制,實現(xiàn)虛擬仿真手語翻譯;以HTML和CSS語言開發(fā)前端用戶界面,集成各功能模塊;以深度學習為根本算法實現(xiàn)快速語音識別。此仿真手語翻譯系統(tǒng)以虛擬人代替?zhèn)鹘y(tǒng)翻譯專員實現(xiàn)仿真手語翻譯,較現(xiàn)有手語翻譯系統(tǒng),在實用性、直觀現(xiàn)實和可推廣程度等方面均有所提升。

      2 仿真手語翻譯系統(tǒng)設(shè)計

      2.1 系統(tǒng)結(jié)構(gòu)

      為實現(xiàn)識別語音并將其翻譯成仿真手語的功能,本手語翻譯系統(tǒng)設(shè)計了如圖1所示的系統(tǒng)結(jié)構(gòu)共包含三大模塊,分別為語音識別模塊、文本處理模塊和虛擬人控制模塊。語音識別模塊通過前端交互界面采集語音進行識別得到文本信息;文本分詞模塊負責把識別得到的文本進行處理,將文本轉(zhuǎn)化成字詞序列并傳送至虛擬人控制模塊;虛擬人控制模塊則根據(jù)接收到的字詞序列順次調(diào)用文本對應(yīng)的手語動作,將手語信息以虛擬人仿真手語動作的方式呈現(xiàn)在用戶眼前,從而實現(xiàn)語音到手語的仿真翻譯過程。模塊之間通過網(wǎng)頁端和后臺服務(wù)器端互聯(lián)實現(xiàn)數(shù)據(jù)信息傳遞,并結(jié)合WebGL的第三方圖形庫Three.js實現(xiàn)手語動作調(diào)用。

      圖1 系統(tǒng)總體結(jié)構(gòu)圖

      2.2 系統(tǒng)實現(xiàn)流程

      本文設(shè)計實現(xiàn)的手語翻譯系統(tǒng)是將語音向手語的翻譯過程,系統(tǒng)實現(xiàn)流程如圖2所示。此系統(tǒng)有兩種使用模式供用戶選擇,分別是網(wǎng)絡(luò)視頻手語翻譯和說話人手語翻譯。網(wǎng)絡(luò)視頻手語翻譯模式類似于同聲傳譯軟件,對視頻中的聲音進行識別并輸出仿真手語,說話人手語翻譯模式則適用于車站或一些公共場所,以仿真手語作為信息載體通過屏幕傳遞給聽障人士。采集到的語音信號要先經(jīng)過語音識別模塊進行預(yù)處理和特征提取,之后使用深度學習算法對其進行識別,并將語音信號對應(yīng)的文本輸出。語音識別得到的文本信息經(jīng)過文本分詞處理輸出字詞序列,最后將序列傳遞至虛擬人控制模塊進行相應(yīng)的仿真手語動作調(diào)用播放演示,從而實現(xiàn)語音到手語的翻譯。為保證手語動作完整且準確的輸出,在文本分詞后會對手語動作庫進行檢索。當序列中出現(xiàn)沒有對應(yīng)手語動作的詞時,會將此詞登記在待補列表中,同時依次讀取該詞中所含文字,并將其保存成字序列進行手語動作調(diào)用嘗試,即將詞語中包含的所有字成分依次進行手語表示。后期及時對待補列表中的字詞手語動作進行補充。

      圖2 系統(tǒng)實現(xiàn)流程圖

      3 關(guān)鍵技術(shù)

      3.1 語音識別

      近年來深度學習快速發(fā)展,CNN(Convolutional Neural Network,CNN)在圖像識別和分類中的表現(xiàn)近乎完美[9-10],其在語音識別領(lǐng)域中的表現(xiàn)也毫不遜色,識別技術(shù)也逐漸趨于成熟[11-12]。本文將聲學特征轉(zhuǎn)換成圖片,用CNN直接對特征圖進行模型訓練和識別,相較于傳統(tǒng)方法,減少了語音信號在時域和頻域上的信息損失[13],極大限度的保留了完整的聲學特征更易于網(wǎng)絡(luò)的訓練和識別[14],取得了良好的語音識別效果。文中所設(shè)計的手語翻譯系統(tǒng)在進行翻譯時,先使用語音識別模塊對輸入的語音進行預(yù)處理和特征提取,再將其存儲為語音特征圖像,使用這些語音特征圖像進行CNN訓練和識別。語音識別流程如圖3所示。

      圖3 語音識別流程圖

      為了提取到準確且具有代表性的語音信號特征,需要先對采集到的語音信號進行預(yù)處理:將語音信號通過一個高通濾波器執(zhí)行預(yù)加重操作,之后執(zhí)行分幀加漢明窗操作并使用能量結(jié)合過零率方法進行端點檢測。預(yù)處理過后即可對其進行特征提取操作。手語翻譯系統(tǒng)主要語音信號來源均為人聲,所以本文使用符合人類聽覺機制的梅爾倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)作為語音識別特征參數(shù)[15]。同時用小波包分解代替?zhèn)鹘y(tǒng)聲學特征提取過程中的快速傅里葉變換,以Mel尺度的頻率范圍劃分語音信號頻段,保證了語音信號特征的完整性[16]?;贛FCC子帶頻譜的小波包分解特征參數(shù)提取流程如圖4所示。

      圖4 基于MFCC子帶頻譜的小波包分解系數(shù)提取流程圖

      基于MFCC子帶頻譜的小波包分解特征參數(shù)提取過程:

      1)對經(jīng)過預(yù)處理的各幀語音信號進行小波包分解求得各子頻帶系WPKk,m,其中WPKk,m,為第k個子帶的第m個小波系數(shù)。

      2)計算各子頻帶能量

      (1)

      其中Nk為第k個子帶的小波系數(shù)的個數(shù)k=1,2,3,……,K為所選頻帶的索引編號。

      3)得到各子頻帶能量后對其進行歸一化處理并執(zhí)行對數(shù)運算

      (2)

      4)對Sk離散余弦變換得到MFCC特征:

      (3)

      式中,n=1,2,……,P,P為特征參數(shù)的維數(shù)。

      5)提取MFCC特征后,使用矩陣可視化函數(shù)matshow()將系數(shù)矩陣轉(zhuǎn)換為圖像以便于后期CNN模型的訓練和識別。圖5為一條語音信號的特征系數(shù)矩陣轉(zhuǎn)換得到的特征圖。

      圖5 語音信號特征圖

      在CNN模型搭建方面,本文手語翻譯系統(tǒng)使用包含十三層網(wǎng)絡(luò)的CNN,由卷積層、池化層、全連接層組成。網(wǎng)絡(luò)包含三個卷積段,每個卷積段有三層卷積層并有一層池化層作為結(jié)尾,完成圖片特征局部感知和下采樣。其中每一卷積層均取3*3卷積核,步長取1。并使用BatchNorm2d函數(shù)進行歸一化操作,后用激活函數(shù)ReLU進行激活。池化層則均使用核大小為2*2的MaxPool2d函數(shù)取最大值。最后一層全連接層負責根據(jù)已提取的特征來實現(xiàn)特征圖像的分類。

      本次實驗中為得到足夠規(guī)模的訓練集,以提升CNN的分類效果,征集了100名學生志愿者對選定的20條常用語句進行語音錄制,每名同學對同一條語句重復5遍,共得到了1000條語音文件。選擇其中800條語音作為訓練集,剩余200條作為測試集對識別最終效果進行檢測,在學習率設(shè)定為0.001的條件下進行了1500次訓練,最終模型識別準確率為95%。

      3.2 文本分詞

      jieba中文分詞是自然語言處理領(lǐng)域中非常受歡迎的一種開源分詞工具[17],以其使用方便、分詞快速準確而備受推崇。jieba分詞有三種分詞模式,分別是精確模式、全模式和搜索引擎模式。其中精確模式對句子的分割最為準確,適合文本分析;全模式則將句子中所有的可以成詞的詞語進行掃描分割;搜索引擎模式則是在精確模式的基礎(chǔ)上對較長詞進一步切分,提高召回率。

      本文使用jieba的精確模式作為默認分詞模式,對語音識別得到的文本進行分詞,經(jīng)過分詞得到的字詞序列傳送至虛擬人控制模塊按順序依次調(diào)用對應(yīng)的仿真手語動作。如果出現(xiàn)沒有對應(yīng)手語動作的詞時,依次讀取該詞中所含文字,并將其保存成字序列進行手語動作調(diào)用嘗試,即將詞語中包含的所有字成分依次進行手語表示。例如,句子“我是天津理工大學開發(fā)的手語翻譯員”的分詞結(jié)果為“我/是/天津/理工大學/開發(fā)/的/手語/翻譯員”,但其中“理工大學”并沒有對應(yīng)的手語動作,所以對該詞依次讀取其中文字按字序列進行手語動作調(diào)用。通過字候補的字詞序列調(diào)用方式最大程度的保證了仿真手語輸出的完整性。

      3.3 虛擬人

      3.3.1 虛擬人制作

      本文使用建模動畫軟件Maya進行模型制作和關(guān)鍵幀動畫制作,先通過多邊形建模[20]的方式建立大體輪廓模型,再分別從“面”、“線”、“點”各層次逐級完善3D模型,并為其身體各部分添加材質(zhì)[17],如衣服、皮膚、頭發(fā)等。之后為模型創(chuàng)建骨骼并進行蒙皮,本文中的模型為類人型動畫模型所以可以直接使用HumanIK[20]插件生成一副骨架,然后依次調(diào)整各關(guān)節(jié)的位置使其與文的人物模型相匹配。同時選中骨架及模型文件點擊“裝備中的”“蒙皮”選項完成蒙皮綁定。完成骨骼及綁定后使用權(quán)重繪制工具對各部分關(guān)節(jié)的蒙皮權(quán)重進行繪制[17],使各部分關(guān)節(jié)合理帶動相應(yīng)部位的蒙皮。為方便后邊動畫的制作,可在HumanIK插件中點擊“一鍵生成控制器”為各部分關(guān)節(jié)建立控制器。帶有骨骼的虛擬人模型及模型控制器如圖6所示。

      圖6 帶有骨骼的虛擬模型及模型控制器

      本文采用關(guān)鍵幀動畫技術(shù)[21]來為模型創(chuàng)建動畫,選中需要添加動作的控制器并調(diào)整其位置達到最終效果即完成此關(guān)鍵幀。表示“你好”的仿真手語關(guān)鍵幀如圖7所示。為使手語動作的播放效果更貼近于人工手語動作,本文設(shè)置幀頻率為24,每個關(guān)鍵幀的間隔為20幀,即先后動作間隔約為一秒的時間。完成關(guān)鍵幀動畫之后使用Maya中的Babylon插件對模型中的動作進行分組,記錄每個動作的起止幀設(shè)為模型的動畫序列,并以手語動作表示的含義對動作命名。最后,導出模型文件。

      圖7 表示“你好”的仿真手語關(guān)鍵幀

      3.3.2 手語動作庫

      為實現(xiàn)手語翻譯系統(tǒng)的手語展示功能,還需要建立一個完整的手語動作庫。本文使用先進的三維動畫制作軟件Maya來實現(xiàn)動畫制作過程,按手語的種類劃分動畫動作組,完成手語動作庫的建立。此種建庫方式,相較于使用數(shù)據(jù)手套采集手語動作軌跡信息方法省去了購買高昂設(shè)備的成本,也隨之省去了復雜的設(shè)備及技術(shù)操作流程;相較于北京工業(yè)大學朱婷婷[22]等人手語視頻合成的方式,在提高手語動作現(xiàn)實性、增強直觀動作傳輸方面都有很多提升。因此結(jié)合Maya制作三維立體模型并創(chuàng)建手語動作庫最后通過WebGL的相關(guān)技術(shù)實現(xiàn)網(wǎng)頁端直觀顯示3D模型實現(xiàn)手語翻譯的方式是十分可行且非常有效的。

      本次實驗中以手語翻譯系統(tǒng)的應(yīng)用場所作為劃分標準,共制作了16組不同主題的手語動作庫。主題主要涉及存在聽障人溝通障礙的生活場所,如醫(yī)院、車站、餐廳等。每個主題中包含200個詞語手語動作,覆蓋大部分常用語句。每個手語動作以詞作為主要分割標準同時輔以單字,即對于“天氣”和“天”這一類會同時對詞和字進行動作設(shè)定,保證手語動作的完整性。

      3.3.3 虛擬人交互設(shè)計

      為此手語翻譯系統(tǒng)通過使用WebGL的第三方圖形庫Three.js[23]來實現(xiàn)虛擬人三維模型的網(wǎng)頁端可視化展示,通過Three.js的相關(guān)操作實現(xiàn)指定手語動作控制。首先要設(shè)置模型展示環(huán)境,對要展示模型的環(huán)境進行初始化。通過初始化相機、添加場景并為其設(shè)置背景和霧化效果、添加燈光來構(gòu)成展示模型的基本環(huán)境,之后通過Three.js的WebGLRenderer()方法來為環(huán)境進行渲染,以實現(xiàn)理想的三維立體環(huán)境效果。完成模型展示環(huán)境設(shè)置以后即可加載虛擬人模型。對于本系統(tǒng)使用的glTF模型首先要添加模型加載器,然后為模型實例化一個指定加載器,之后通過loader.load()函數(shù)將虛擬人模型加載到對應(yīng)頁面。完成虛擬人配置之后,便可以結(jié)合其他模塊調(diào)用相關(guān).js語句實現(xiàn)虛擬人手語動作展示。

      4 仿真結(jié)果

      本文使用Python3.7語言開發(fā)后臺語音識別和其它系統(tǒng)結(jié)構(gòu),使用PyTorch深度學習框架搭建神經(jīng)網(wǎng)絡(luò)。仿真手語翻譯系統(tǒng)界面如圖8所示,其中包含:功能演示、功能模式選擇、虛擬人視窗和識別結(jié)果文本框。在說話人手語翻譯模式中,通過界面上方的控制按鈕進行語音采集和識別,識別完成后虛擬人將以仿真手語的形式展示語音所表示的手語動作。

      圖8 翻譯系統(tǒng)界面圖

      作為系統(tǒng)測試,隨機輸入一段語音進行實驗并對其結(jié)果進行分析。以“我愛天津理工大學”作為語音輸入。得到的仿真手語呈現(xiàn)在虛擬人框中,同時識別得到的對應(yīng)文本將在文本框中顯示?!拔覑厶旖蚶砉ご髮W”對應(yīng)的仿真手語動作連續(xù)截圖如圖9所示。

      圖9 表示“我愛天津理工大學”的仿真手語圖

      在視頻手語翻譯模式中,在視頻框中選擇要進行手語翻譯的視頻并打開,在此以隨機一期新聞聯(lián)播節(jié)目作為測試,在視頻開始播放后系統(tǒng)將會自動進行識別并輸出對應(yīng)的仿真手語和文本內(nèi)容。

      圖10 翻譯系統(tǒng)界面圖

      5 總結(jié)

      本文設(shè)計開發(fā)了仿真手語翻譯系統(tǒng),實現(xiàn)了語音到仿真手語的翻譯過程,以仿真虛擬人取代一些現(xiàn)有翻譯設(shè)備中價格昂貴的機械手語翻譯設(shè)備,可推廣性和實用性優(yōu)勢明顯;同時其特有的虛擬仿真效果使其能夠媲美手語翻譯專員,較現(xiàn)有的一些視頻合成手語系統(tǒng)在手語展示翻譯效果方面也有很大的優(yōu)勢。此系統(tǒng)有效的解決了翻譯人員短缺的問題,且系統(tǒng)使用成本低、操作方便簡單,是可惠及所有聽障人的實用性翻譯系統(tǒng)。

      此仿真手語翻譯系統(tǒng)雖使用簡單、手語翻譯反應(yīng)迅速,但對于虛擬人的手語動作含量(即手語動作庫容量)要求較為嚴格。本次實驗中制作的3200個手語動作在日常交流對話使用中表現(xiàn)良好,但在包含內(nèi)容較多涉及場景廣泛的視頻翻譯中手語動作庫則略顯不足。所以接下來將開發(fā)基于根手語動作的可合成類手語翻譯系統(tǒng),以根手語動作為基礎(chǔ),結(jié)合驅(qū)動引擎來完成手語合成,將其建設(shè)成一個完整且實用的仿真手語翻譯系統(tǒng)。

      猜你喜歡
      手語分詞語音
      自然手語在聾人大學生手語中的使用調(diào)查研究——以南京特殊教育師范學院為例
      活力(2019年15期)2019-09-25 07:23:06
      魔力語音
      基于MATLAB的語音信號處理
      電子制作(2019年14期)2019-08-20 05:43:38
      結(jié)巴分詞在詞云中的應(yīng)用
      智富時代(2019年6期)2019-07-24 10:33:16
      基于MQ3與MP3的價廉物美的酒駕語音提醒器
      電子制作(2019年9期)2019-05-30 09:42:10
      對方正在輸入……
      小說界(2018年5期)2018-11-26 12:43:42
      值得重視的分詞的特殊用法
      奇怪的手語圖
      奇怪的手語圖
      高考分詞作狀語考點歸納與疑難解析
      昭苏县| 长垣县| 涞水县| 沛县| 永康市| 廊坊市| 武宁县| 临泽县| 阜城县| 象山县| 新安县| 西宁市| 深泽县| 隆尧县| 德惠市| 抚顺县| 顺平县| 彩票| 太白县| 华坪县| 九寨沟县| 尼玛县| 眉山市| 潮安县| 弥勒县| 郧西县| 雷州市| 龙川县| 炉霍县| 宜黄县| 敖汉旗| 城口县| 永春县| 义乌市| 腾冲县| 赤壁市| 武城县| 荔浦县| 安徽省| 得荣县| 闸北区|