林鵬程,林培杰,程樹(shù)英
(1.福州大學(xué) 物理與信息工程學(xué)院,福建 福州 350116; 2.福州大學(xué) 微納器件與太陽(yáng)能電池研究所,福建 福州 350116)
?
基于自編碼的中國(guó)手語(yǔ)識(shí)別研究
林鵬程1,2,林培杰1,2,程樹(shù)英1,2
(1.福州大學(xué) 物理與信息工程學(xué)院,福建 福州 350116; 2.福州大學(xué) 微納器件與太陽(yáng)能電池研究所,福建 福州 350116)
針對(duì)動(dòng)態(tài)手語(yǔ)上下文聯(lián)系強(qiáng)的特點(diǎn),采用LSTM(Long Short-Term Memory)循環(huán)神經(jīng)網(wǎng)絡(luò)用于識(shí)別,同時(shí),利用自編碼實(shí)現(xiàn)動(dòng)態(tài)手語(yǔ)的無(wú)監(jiān)督學(xué)習(xí)。該方法將數(shù)據(jù)手套作為采集設(shè)備,在獲取手語(yǔ)信息后,通過(guò)編碼器、解碼器生成手語(yǔ)的重構(gòu)矢量。在實(shí)驗(yàn)過(guò)程中,將采集的數(shù)據(jù)集進(jìn)行模型的訓(xùn)練,并與監(jiān)督學(xué)習(xí)的結(jié)果進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,該方法能夠有效進(jìn)行手語(yǔ)識(shí)別的無(wú)監(jiān)督學(xué)習(xí)。
長(zhǎng)短期記憶;自編碼;數(shù)據(jù)手套;手語(yǔ)識(shí)別
手勢(shì)的發(fā)展過(guò)程中,逐漸形成手語(yǔ)作為聾啞人之間的主要交流方式。同時(shí),可穿戴設(shè)備和便攜式設(shè)備的出現(xiàn),急需新的人機(jī)交互來(lái)代替鍵鼠,讓設(shè)備更加人性化,手語(yǔ)具有直接、方便、快速的特點(diǎn),成為了這類設(shè)備的首選。因此,手語(yǔ)識(shí)別技術(shù)具有很強(qiáng)的社會(huì)意義和工程意義。
中國(guó)是具有聽(tīng)障人士最多的國(guó)家[1],中國(guó)手語(yǔ)作為他們最主要的交流方式,對(duì)中國(guó)手語(yǔ)的識(shí)別研究具有很大的應(yīng)用價(jià)值。《中國(guó)手語(yǔ)》[2]中目前收錄了5 000多個(gè)詞匯,分為手指語(yǔ)和手勢(shì)語(yǔ)兩種[3],手指語(yǔ)即字母,這與鍵盤(pán)沒(méi)有本質(zhì)上的區(qū)別,因此研究的重點(diǎn)在于手勢(shì)語(yǔ)的識(shí)別上。手勢(shì)語(yǔ)都是由手勢(shì)和手形共同組成,為了獲取這些特征,目前研究包括了兩類:(1)基于機(jī)器視覺(jué);(2)基于數(shù)據(jù)手套。機(jī)器視覺(jué)的方式目前穩(wěn)定性差,受到了環(huán)境、系統(tǒng)響應(yīng)速度、識(shí)別率低的影響,很難在近期進(jìn)入市場(chǎng)。另一方面,隨著傳感器價(jià)格不斷下降,數(shù)據(jù)手套的方式在保證數(shù)據(jù)精確度的同時(shí),價(jià)格更加親民化,使得該方法很適合普及應(yīng)用,是目前手語(yǔ)識(shí)別的研究重點(diǎn)。
手語(yǔ)識(shí)別的研究上,分靜態(tài)手語(yǔ)和動(dòng)態(tài)手語(yǔ),兩者區(qū)別在于時(shí)間序列中動(dòng)作是否有變化,如今的研究重點(diǎn)在于動(dòng)態(tài)手語(yǔ)的識(shí)別。Mohandes[4]利用支持向量機(jī)對(duì)數(shù)據(jù)手套采集的100個(gè)手語(yǔ)進(jìn)行分類,準(zhǔn)確率達(dá)到99.6%,但是這些手語(yǔ)都是靜態(tài)的;Lichtenauer[5]結(jié)合動(dòng)態(tài)時(shí)間規(guī)劃(DTW)和二次分類進(jìn)行分類,平均識(shí)別率為92.3%,但DTW需要事先建立模板,工作量巨大。為了解決模板問(wèn)題,后人對(duì)隱馬爾可夫模型進(jìn)行改進(jìn)并用于手語(yǔ)識(shí)別。曹翔[6]使用分幀隱馬爾可夫模型(Hidden Markov Model, HMM)對(duì)30個(gè)中國(guó)手語(yǔ)進(jìn)行識(shí)別,準(zhǔn)確率達(dá)到了97.1%左右;Antwarg[7]用具有HMM結(jié)構(gòu)的決策樹(shù)來(lái)進(jìn)行動(dòng)作序列的預(yù)測(cè),并在兩個(gè)數(shù)據(jù)集上進(jìn)行驗(yàn)證,相比HMM算法準(zhǔn)確率提高了5%;Tzuu-Hseng[8]結(jié)合HMM、K-means、蟻群算法用于臺(tái)灣手語(yǔ)識(shí)別,平均識(shí)別率達(dá)到91.3%,但數(shù)據(jù)集只有11個(gè)詞匯。HMM雖然能解決連續(xù)手語(yǔ)的問(wèn)題,但目前大多應(yīng)用在小數(shù)據(jù)集的手語(yǔ)識(shí)別上,并且它有只與上一狀態(tài)有關(guān)的缺點(diǎn),使其離應(yīng)用仍有很長(zhǎng)的路要走,而且上述的研究模型是采用監(jiān)督學(xué)習(xí)的方式,需要對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注,帶來(lái)了附加的工作量。
本文針對(duì)上述研究的主要缺點(diǎn),構(gòu)建了一種用于中國(guó)手語(yǔ)識(shí)別的無(wú)監(jiān)督模型。模型使用LSTM型循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行中國(guó)手語(yǔ)的識(shí)別,同時(shí),利用自編碼的結(jié)構(gòu)實(shí)現(xiàn)數(shù)據(jù)的無(wú)監(jiān)督學(xué)習(xí)。
1.1 自編碼框架
為了實(shí)現(xiàn)中國(guó)手語(yǔ)的無(wú)監(jiān)督學(xué)習(xí)從而進(jìn)行識(shí)別,本文構(gòu)建了基于LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)自編碼來(lái)達(dá)到這一效果。其基本思想是通過(guò)將手語(yǔ)的數(shù)據(jù)進(jìn)行重構(gòu),生成連續(xù)手語(yǔ)數(shù)據(jù)的向量。圖1為無(wú)監(jiān)督學(xué)習(xí)手語(yǔ)的框架流程,采集的手語(yǔ)向量通過(guò)輸入層,再通過(guò)利用LSTM層所組成的編碼器進(jìn)行編碼,進(jìn)而獲得手語(yǔ)數(shù)據(jù)的重構(gòu)向量。為了實(shí)現(xiàn)無(wú)監(jiān)督學(xué)習(xí),需要將這些重構(gòu)的向量再轉(zhuǎn)化成與輸入序列相應(yīng)的向量,并比較獲得的誤差,再將誤差回傳,不斷改善參數(shù)。因此,將重構(gòu)所得的向量再經(jīng)過(guò)3層LSTM神經(jīng)網(wǎng)絡(luò)組成的解碼器進(jìn)行解碼,獲得與輸入數(shù)據(jù)相同維度的數(shù)據(jù),與其進(jìn)行比較獲得誤差,并將誤差回傳,不斷更新模型參數(shù),最終實(shí)現(xiàn)手語(yǔ)數(shù)據(jù)的無(wú)監(jiān)督學(xué)習(xí)。
圖1 無(wú)監(jiān)督手語(yǔ)識(shí)別框架
圖3 特征向量
1.2 LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)
LSTM型循環(huán)神經(jīng)網(wǎng)絡(luò)由于在進(jìn)行識(shí)別時(shí)無(wú)需了解數(shù)據(jù),能有效地區(qū)別出輸入數(shù)據(jù)之間的差異,并能針對(duì)時(shí)間序列提供強(qiáng)大的互聯(lián)網(wǎng)絡(luò),在語(yǔ)義分析、情感分析、語(yǔ)音識(shí)別[9-10]等諸多領(lǐng)域取得很好的效果。其核心在于能通過(guò)基本單元操作內(nèi)存對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ),再根據(jù)數(shù)據(jù)之間的關(guān)系來(lái)形成相應(yīng)的關(guān)系網(wǎng)絡(luò)。LSTM的基本單元中包括了輸入層、隱藏層、輸出層,并通過(guò)輸入門、輸出門、遺忘門來(lái)控制其與其他基本單元之間的聯(lián)系。當(dāng)輸入的序列為I=(I1,I2,…,IT)時(shí)(其中T為輸入序列的長(zhǎng)度,IT為T時(shí)刻的輸入),基本單元通過(guò)式(1)控制信息的流動(dòng)。
(1)
其中,W為權(quán)重矩陣,b為偏置矩陣,I、F、c、O、m分別代表輸入門、遺忘門、狀態(tài)單元、輸出門以及LSTM結(jié)構(gòu)的輸出[11];σ為控制門的激勵(lì)函數(shù),h為狀態(tài)激勵(lì)函數(shù),如式(2):
(2)
圖2 數(shù)據(jù)手套
為了評(píng)價(jià)所構(gòu)建的框架,并讓其他研究者可以進(jìn)行比較,本文中采用了自行設(shè)計(jì)的數(shù)據(jù)手套進(jìn)行采集,數(shù)據(jù)手套包括了用于采集加速度的加速度傳感器、采集角速度的陀螺儀、測(cè)量地磁的磁力計(jì)和用于獲取手指彎曲程度的彎曲度傳感器,共有兩只分別用于采集左右手信息。圖 2展示了數(shù)據(jù)手套的結(jié)構(gòu)。
采集過(guò)程中,分別讓5個(gè)不同的志愿者佩戴手套,采集了12 000組數(shù)據(jù),囊括120個(gè)手語(yǔ)詞匯,每組數(shù)據(jù)包括28個(gè)特征,部分特征可視化效果如圖3所示。
數(shù)據(jù)集中包括的手語(yǔ)詞匯都是日常常用的手語(yǔ),部分詞匯如表1所示。
表1 手語(yǔ)詞匯
3.1 數(shù)據(jù)預(yù)處理
為了驗(yàn)證本文所提出模型的有效性,將兩個(gè)數(shù)據(jù)集分別用于無(wú)監(jiān)督學(xué)習(xí),同時(shí)為了驗(yàn)證模型有效性,將部分?jǐn)?shù)據(jù)集進(jìn)行相應(yīng)的標(biāo)注,用于監(jiān)督學(xué)習(xí),與無(wú)監(jiān)督學(xué)習(xí)的效果進(jìn)行比較,最后在測(cè)試集上進(jìn)行準(zhǔn)確率的比較。數(shù)據(jù)集具體用途如表2所示。
表2 數(shù)據(jù)用途
3.2 數(shù)據(jù)訓(xùn)練
首先,利用數(shù)據(jù)訓(xùn)練本文所采用的無(wú)監(jiān)督模型,訓(xùn)練完成得到編碼器和解碼器的權(quán)重和偏置參數(shù)。無(wú)監(jiān)督所使用的數(shù)據(jù),即采集的數(shù)據(jù),輸入的數(shù)據(jù)也是相應(yīng)的標(biāo)簽數(shù)據(jù),解碼產(chǎn)生的輸出將與輸入數(shù)據(jù)進(jìn)行比較,計(jì)算損失函數(shù),計(jì)算方法如式(3)所示,其中OT為T時(shí)刻的解碼器輸出。
(3)
接著將解碼器部分移除,并添加相應(yīng)的LSTM分類器,用于將重構(gòu)后的手語(yǔ)向量識(shí)別成相應(yīng)的手語(yǔ)詞匯,其結(jié)構(gòu)如圖4所示。
圖4 編碼-分類器
為了說(shuō)明本文構(gòu)建的模型在無(wú)監(jiān)督學(xué)習(xí)方面的有效性,與劉濤[12]所采用的LSTM型分類器用于手語(yǔ)識(shí)別的結(jié)果進(jìn)行比較。
本文采用損失和準(zhǔn)確度兩個(gè)參數(shù)進(jìn)行比較。
模型在訓(xùn)練過(guò)程中,從圖5可以看出,本文使用的算法損失函數(shù)更低,并且損失函數(shù)下降速度更快,不需要大量的迭代計(jì)算。從圖6可以看出,本文所使用的方法有很大的改進(jìn),準(zhǔn)確率相比LSTM分類器有很大的提高,并且準(zhǔn)確率上升速度快,大大減小了迭代的計(jì)算次數(shù)。
圖5 算法損失函數(shù)結(jié)果比較
圖6 算法準(zhǔn)確率結(jié)果比較
為了進(jìn)一步說(shuō)明算法的有效性,分別在測(cè)試集上進(jìn)行算法的驗(yàn)證,測(cè)試集由2 000個(gè)手語(yǔ)數(shù)據(jù)組成,模型是由上述訓(xùn)練數(shù)據(jù)經(jīng)過(guò)10個(gè)周期的迭代計(jì)算所生成。兩種算法在測(cè)試集上的驗(yàn)證結(jié)果如表3所示,可以看出本文所使用的方法在訓(xùn)練階段和識(shí)別階段,識(shí)別率都比LSTM分類器好。
表3 算法測(cè)試集結(jié)果比較
綜上可知,本文中基于自編碼的中國(guó)手語(yǔ)識(shí)別方法具有一定的先進(jìn)性。
本文針對(duì)中國(guó)手語(yǔ)識(shí)別中數(shù)據(jù)難獲取、標(biāo)注量大的特點(diǎn),構(gòu)建基于自編碼的識(shí)別方式比較實(shí)現(xiàn)無(wú)監(jiān)督學(xué)習(xí)。通過(guò)與監(jiān)督學(xué)習(xí)的方式來(lái)定量評(píng)價(jià)所設(shè)計(jì)的模型的有效性。實(shí)驗(yàn)結(jié)果表明,與LSTM型分類器識(shí)別中國(guó)手語(yǔ)的方式相比,自編碼的識(shí)別方式能有效地識(shí)別中國(guó)手語(yǔ),在提高識(shí)別率的同時(shí),訓(xùn)練速度大大提高,為實(shí)際中中國(guó)手語(yǔ)識(shí)別的研究設(shè)計(jì)提供有效的支持。
[1] 馮永, 劉亞蘭. 從遺傳性聾基因篩查到基因診斷——我們的路還有多遠(yuǎn)[J]. 中國(guó)耳鼻咽喉頭頸外科,2015,22(2):55-56.
[2] 中國(guó)殘疾人聯(lián)合會(huì)教育就業(yè)部中國(guó)聾人協(xié)會(huì). 中國(guó)手語(yǔ)(上下修訂版)[M]. 北京: 華夏出版社, 2003.
[3] 楊全, 彭進(jìn)業(yè). 采用SIFT-BoW和深度圖像信息的中國(guó)手語(yǔ)識(shí)別研究[J]. 計(jì)算機(jī)科學(xué), 2014,41(2):302-307.
[4] MOHANDES M A. Recognition of two-handed arabic signs using the cyberGlove[J]. Arabian Journal for Science and Engineering, 2012,38(3):669-677.
[5] LICHTENAUER J F, HENDRIKS E A, REINDERS M J. Sign language recognition by combining statistical DTW and independent classification[J]. IEEE Transactions on Pattern Analysis and Machline Intelligence, 2008,30(11):2040-2046.
[6] 曹翔. 可穿戴手語(yǔ)翻譯器研制[D]. 合肥:中國(guó)科學(xué)與技術(shù)大學(xué),2015.
[7] ANTWARG L, ROKACH L, SHAPIRA B. Attribute-driven hidden markov model trees for intention prediction[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part C (Applications and Reviews), 2012,42(6):1103-1119.
[8] LI T H S, KAO M C, KUO P H. Recognition system for home-service-related sign language using entropy-based K-Means algorithm and ABC-Based HMM[J]. IEEE Transactions on Systems, Man, and Cybernetics: Systems, 2016,46(1):150-162.
[9] WENINGER F, GEIGER J, W?LLMER M, et al. Feature enhancement by deep LSTM networks for ASR in reverberant multisource environments [J]. Computer Speech & Language, 2014,28(4):888-902.
[10] 梁軍, 柴玉梅, 原慧斌,等. 基于極性轉(zhuǎn)移和LSTM遞歸網(wǎng)絡(luò)的情感分析[J]. 中文信息學(xué)報(bào), 2015,29(5):152-159.
[11] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997,9(8):1735-1780.
[12] LIU T, ZHOU W, LI H. Sign language recognition with long short-term memory[C]. IEEE International Conference on Image Processing. IEEE, 2016: 2871-2875.
Chinese sign language recognition research based on auto-encoder
Lin Pengcheng1,2, Lin Peijie1,2, Cheng Shuying1,2
(1. College of Physics and Information Engineering, Fuzhou University, Fuzhou 350116, China;2. Institute of Micro/Nano Devices & Solar Cells, Fuzhou University,F(xiàn)uzhou 350116, China)
Because dynamic sign language has strong context-sensitive feature,we use recurrent neural networks based on LSTM to recognise it. At the same time, auto-encoder is used to realize unsupervised learning with data glove as the collecting device.After obtaining the information of sign language,the data is used to reconstruct vector of sign language through encoder and decoder.During the experiment,the collected data is used to train the model and compare with the result of supervised learning. Experimental results demonstrate the effectiveness of the proposed auto-encoder on unsupervised learning sign language.
long short-term memory; auto-encoder; data glove; sign language recognition
TP391.4
A
10.19358/j.issn.1674- 7720.2017.13.018
林鵬程,林培杰,程樹(shù)英.基于自編碼的中國(guó)手語(yǔ)識(shí)別研究[J].微型機(jī)與應(yīng)用,2017,36(13):59-61,65.
2017-02-14)
林鵬程(1992-),男,碩士,主要研究方向:嵌入式系統(tǒng)、模式識(shí)別。
林培杰(1982-),男,碩士,講師,主要研究方向:圖像處理、嵌入式系統(tǒng)。
程樹(shù)英(1966-),女,博士,教授,主要研究方向:圖像處理、光伏電池及其應(yīng)用系統(tǒng)。