張露
(同濟(jì)大學(xué)電子與信息工程學(xué)院計算機(jī)科學(xué)與技術(shù)系,上海 201804)
基于DTW的單個手語識別算法
張露
(同濟(jì)大學(xué)電子與信息工程學(xué)院計算機(jī)科學(xué)與技術(shù)系,上海 201804)
手語識別的研究起步于20世紀(jì)90年代,國內(nèi)外知名高校、研究機(jī)構(gòu)和學(xué)者在手語識別技術(shù)上都投入很大研究力量。采用圖像處理方法,從視頻圖像中,通過提取膚色,圖像形態(tài)運(yùn)算,邊緣提取,對圖像進(jìn)行預(yù)處理,然后對每一幀圖像中的手勢輪廓數(shù)據(jù)計算Hu矩,來采集手勢特征,最后將動態(tài)時間規(guī)整(DTW)應(yīng)用到圖像識別中,對0-9十個數(shù)字進(jìn)行檢測,實(shí)驗(yàn)中,取得較好的識別效果。
手勢;DTW;邊緣檢測;Hu矩
基于視覺的手語識別技術(shù)還處于初級階段,已有學(xué)者在這個領(lǐng)域做出過很多研究,但是很多理論還沒有達(dá)到實(shí)際應(yīng)用的水平。人手是柔性物體,手語手勢變化多端,靈活度大,不像剛性物體,有具體的長度、寬度等定量特征。如何在復(fù)雜的、不斷變化的背景中檢測并分割手勢,如何迅速并準(zhǔn)確地識別出手勢手語,都是研究這探索的熱點(diǎn)。根據(jù)獲取手語手勢的不同方式,現(xiàn)階段的手語識別技術(shù)可分為兩大類:基于視覺表現(xiàn)和基于數(shù)字設(shè)備兩大類。徒手手語識別技術(shù)不要求打手語者穿戴任何設(shè)備,只需要讓攝像頭采集到手勢,剩下的工作全部由計算機(jī)完成。任海兵等于2000年研究的連續(xù)動態(tài)手勢識別系統(tǒng),可以識別12種手勢,識別率為97%[1]。2002年,張良國提出了基于Hausdorff距離的手勢識別算法,用于靜態(tài)手勢識別,對于中國手語的30個手指語識別效果較好[2]。哈爾濱工業(yè)大學(xué)的吳江琴、高文等和中科院通信技術(shù)聯(lián)合實(shí)驗(yàn)室利用CyberGlove數(shù)據(jù)手套作為數(shù)據(jù)輸入設(shè)備,綜合神經(jīng)網(wǎng)絡(luò)、隱馬爾科夫模型,統(tǒng)計模型、高斯混合模型等技術(shù),對簡單語句和單個詞匯的識別率分別為90%和94%[3]。2011年華南理工的鄒洪在實(shí)時動態(tài)手勢識別關(guān)鍵技術(shù)研究中提出了一種基于光流特征的DTW動態(tài)手勢識別算法[4]。本文在此基礎(chǔ)上提出了一種基于DTW的中國手語單個詞匯的識別方法。
為了在圖像中提取出完整清晰的手部特征,需要對每一幀圖像進(jìn)行處理運(yùn)算,步驟如下:
將輸入RGB圖像轉(zhuǎn)換到Y(jié)GbGr顏色空間,其中膚色閾值為77 對灰度圖像進(jìn)行濾波,以減少噪聲; 對圖像先進(jìn)行開運(yùn)算,消除小圖像,在纖細(xì)處分離,再進(jìn)行閉運(yùn)算,填充圖像內(nèi)部小空洞,鏈接斷裂處[6]; 根據(jù)大小、位置截取手部區(qū)域; 使用Canny算子檢測手部圖像邊緣,并保存數(shù)據(jù)[7]。 通過這一過程,能夠?qū)⑹植枯喞獜囊曨l每一幀圖像中分離出來,以便后續(xù)提取特征和識別。圖1為對原始圖像進(jìn)行分步處理后的結(jié)果。圖2為最終提取出的手部輪廓。 手勢圖像經(jīng)過預(yù)處理后可得到手勢的二值化圖像、邊緣輪廓和輪廓矩陣,這些數(shù)據(jù)中包含著很多表征手勢特征的數(shù)據(jù)[8-9]。選擇特征參數(shù)量少,同時易區(qū)分和可靠的特征能夠有效提高識別率。 圖1 圖2 輪廓矩,簡單的說就是對輪廓上的所有點(diǎn)進(jìn)行積分運(yùn)算或者求和運(yùn)算得到的一個特征,假設(shè)手勢圖像函數(shù)為f(x,y),那么圖像的p+q階幾何矩(標(biāo)準(zhǔn)矩)定義為: 公式(1)中,p,q=0,1,2,…,p,q分別對應(yīng)著x維度和y維度上的矩,其大小表示了矩的階數(shù)。當(dāng)p和q都為0時,m00實(shí)際上等同于計算手勢輪廓邊界點(diǎn)數(shù)目的總和。 還可以給出(p+q)階中心矩的公式: 再對幾何矩進(jìn)行歸一化處理,定義式為: 使用Hu矩作為手勢特征參數(shù),很好地解決了特征匹配過程中遇到的尺度變化、平移變化、坐標(biāo)及旋轉(zhuǎn)變化等問題。Hu矩由7個不變矩構(gòu)成一組特征向量,7個不變矩都由二階、三階中心矩構(gòu)成,其中低階矩包含了大部分有用的信息,高階矩不僅負(fù)載而且存在比較多的噪聲,為了克服噪聲和減少計算量,采取了前2個M1,M2作為特征值,其定義如下: 對視頻的每一幀圖像中的手勢進(jìn)行Hu矩特征提取,可得到一組對應(yīng)時間序列的矩陣,為后續(xù)識別提供數(shù)據(jù)。 下表為數(shù)字1的手語表達(dá),從手部抬起到放下過程對應(yīng)的Hu矩特征值序列,為方便表示,Hu矩值只寫出了小數(shù)點(diǎn)后兩位。 動態(tài)時間規(guī)整(Dynamic Time Wraping,DTW)是采用動態(tài)規(guī)劃技術(shù),將一個復(fù)雜的全局最優(yōu)化問題,化為許多局部最優(yōu)化問題一步步地進(jìn)行決策,由于此算法應(yīng)用于語音識別領(lǐng)域而被廣泛地研究,迄今為止已經(jīng)在很多領(lǐng)域得到了應(yīng)用。 時間序列是用時間排序的一組隨機(jī)變量,由目標(biāo)對象的某個物理量在不同時間點(diǎn)的采樣值按照時間先后次序排列而組成的序列。通常情況下,處理時間序列數(shù)據(jù)的方式是將兩個序列進(jìn)行對比,在某些領(lǐng)域,歐氏距離等這樣簡單的距離度量方法就足夠了,然而在多數(shù)情況下,兩個序列的形狀走勢相同,在時間維度上的投影差別卻很大。 DTW算法在時間序列相似性測量方面非常有效,它允許通過時間序列的“彈性”變換來最小化移位和扭曲的影響,能夠用不同的相位來檢測相似性。如設(shè)參考模板特征矢量序列為A={a1,a2,…,am},被測數(shù)據(jù)的特征矢量序列為B={b1,b2,…,bn},DTW算法就是要尋找一個最佳的時間規(guī)整函數(shù),使A的時間軸非線性的映射到A的時間軸,總的累計失真最小。 構(gòu)造一個m×n的代價矩陣C=[c(i,j)],為了找到兩個序列的最佳匹配,從矩陣中找到一個路徑使它們的累計距離最小,A與B之間的規(guī)整路徑p的累計代價函數(shù)表示為cp(A,B),定義為: 表1 其中規(guī)整路徑p=(p1,p1,…,pl,…,pL),l∈[1:L],是一個A與B之間的映射隊(duì)列,A與B之間的最優(yōu)規(guī)整路徑P*就是累計代價函數(shù)取得最小值時的路徑,DTW的度量公式為: 其中p*通過下面公式得到: 還需要對規(guī)整路徑給出約束條件: 邊界條件:路徑必須從p1=(1,1)開始,到pL=(m,n)結(jié)束。 連續(xù)條件:查詢候選序列中的每一點(diǎn)都必須用在規(guī)整路徑中,在路徑中,索引i和j都只能增加0或者1。 單調(diào)條件:規(guī)整路徑永遠(yuǎn)不能返回。 坡度約束條件:路徑不能太陡或者太緩,這一限制組織了非常短的子序列阿里匹配一個長序列。 通過這些約束,最后計算出最優(yōu)規(guī)整路徑,從而給出DTW(A,B)。由于手語也是基于時間序列的表達(dá),因此可以利用DTW算法來實(shí)現(xiàn)識別[10],計算兩段手語表達(dá)數(shù)據(jù)的距離來比較其相似度。 為驗(yàn)證算法,在MATLAB中編程實(shí)現(xiàn)上述算法過程,手語視頻使用中國科學(xué)院計算技術(shù)研究所視覺信息處理和學(xué)習(xí)研究組發(fā)布的開源DEVISIGN中國手語數(shù)據(jù)庫。在數(shù)據(jù)庫中選取0-9數(shù)字的手語表達(dá)視頻,每個數(shù)字選取3組樣本,1組樣本作為參考模板,另外2組作為被測數(shù)據(jù)。以數(shù)字1為例,經(jīng)過程序計算,參考模板與被測數(shù)據(jù)手勢“1”的累計距離如表2。 從表中數(shù)據(jù)可知,被測數(shù)據(jù)中,手勢“1”的累計距離最小,也就是說手勢數(shù)字“1”與被測模板中的數(shù)字“1”相似度最高,達(dá)到了識別效果。 但是由于手部動作變化豐富,在光照條件不好,圖像不清晰的情況下會有一定概率識別錯誤。針對10個數(shù)字多次計算識別之后,識別率在90%以上。 表2 本文提出了一種基于Hu矩和動態(tài)時間規(guī)整(DTW)方法的單個手語詞匯識別算法。將廣泛用于語音識別的DTW算法應(yīng)用到圖像處理上,對于單個詞匯取得了較好的識別效果。相較于使用輔助設(shè)備如數(shù)據(jù)手套等的識別方法,本文的識別方法僅使用視頻圖像,更加便捷。但是由于中國手語非常復(fù)雜,圖像中僅提取輪廓Hu矩也不能完全表達(dá)手部特征,下一步工作將研究如何從視頻圖像中提取更加完整準(zhǔn)確的手部特征來進(jìn)行識別。 [1]任海兵,祝遠(yuǎn)新,徐光祐,等.連續(xù)動態(tài)手勢的時空表觀建模及識別[J].計算機(jī)學(xué)報,2000,23(8):824-828. [2]張良國,吳江琴,高文,等.基于Hausdorff距離的手勢識別[J].中國圖像圖形學(xué)報(A輯),2002,7(11). [3]吳江琴,高文.HMM方法在手語識別中的應(yīng)用.計算機(jī)工程與科學(xué),1999,21(3):40-44. [4]鄒洪.實(shí)時動態(tài)手勢識別關(guān)鍵技術(shù)研究[D].華南理工大學(xué),2011. [5]柯研.基于膚色模型的人臉檢測算法研究[D].華中科技大學(xué),2008. [6]文華.基于數(shù)學(xué)形態(tài)學(xué)的圖像處理算法的研究[D].哈爾濱工程大學(xué),2007. [7]]王小俊,劉旭敏,關(guān)永.基于改進(jìn)Canny算子的圖像邊緣檢測算法[J].計算機(jī)工程,2012,14:196-198+202 [8]商立群,杜亞娟.Hu矩和Zernike矩在圖象識別中的應(yīng)用[J].西安科技學(xué)院學(xué)報,2000,01:53-56. [9]董立峰.基于Hu矩和支持向量機(jī)的靜態(tài)手勢識別及應(yīng)用[D].武漢理工大學(xué),2012. [10]倪訓(xùn)博,趙德斌,姜峰,程丹松.Viterbi和DTW算法的關(guān)系分析——在非特定人手語識別中的應(yīng)用[J].計算機(jī)研究與發(fā)展,2010,02:305-317. [11]J.L.Raheja,M.Minhas,D.Prashanth,T.Shah,A.Chaudhary,Robust Gesture Recognition Using Kinect:A Comparison Between DTW and HMM,Optik-International Journal for Light and Electron Optics,Volume 126,Issues 11-12,June 2015,Pages 1098-1104,ISSN 0030-4026,http://dx.doi.org/10.1016/j.ijleo.2015.02.043. [12]Choi H R,Kim E J,Kim T Y.A DTW Gesture Recognition System Based on Gesture Orientation Histogram[C].Consumer Electronics(ISCE 2014),The 18th IEEE International Symposium on.IEEE,2014:1-2. [13]Jambhale S S,Khaparde A.Gesture Recognition Using DTW&Piecewise DTW[C].Electronics and Communication Systems(ICECS),2014 International Conference on.IEEE,2014. Gesture Recognition Based on DTW ZHANG Lu (Department of Computer Science and Technology,School of Electronics and Information Engineering,Tongji University,Shanghai 201804) Sign language recognition research started in 1990s,domestic and foreign well-known universities,research institutions and scholars have put a lot of effort into this.Uses the image processing method,find the contour of gesture,and calculates Hu moments as the feature of each gesture,applies the dynamic time warping(DTW)method to the detection,to recognize the gesture of number 0 to 9.The experiment results show that the algorithm has a good performance. Gesture Recognition;DTW;Edge Detection;Hu Moments 1007-1423(2016)08-0077-04 10.3969/j.issn.1007-1423.2016.08.016 張露(1992-),女,河南安陽人,碩士研究生,研究方向?yàn)橛嬎銠C(jī)視覺、手勢識別 2016-01-22 2016-02-262 特征提取
3 手勢識別
4 實(shí)驗(yàn)結(jié)果
5 結(jié)語