陳紅紅馮丹陽黨小超郝占軍喬志強(qiáng)牛 娟
(1.西北師范大學(xué)計算機(jī)科學(xué)與工程學(xué)院,甘肅 蘭州 730070;2.甘肅省物聯(lián)網(wǎng)工程研究中心,甘肅 蘭州 730070)
無線通訊技術(shù)發(fā)展至今,有不少學(xué)者關(guān)注手勢識別,并致力于現(xiàn)實(shí)生活中的應(yīng)用。 目前,無線通訊技術(shù)對其在特殊教育領(lǐng)域的應(yīng)用加以關(guān)注[1]。 據(jù)統(tǒng)計,全球約有15.7 億人聽力受損[2]。 在中國,聾啞人群數(shù)量超2080 萬,占全國總?cè)丝诘?.69%。 手語作為聾啞人的通用語言,對聽力障礙者和語言障礙者來說是交流和學(xué)習(xí)的一種必要手段。 特殊教育中,通過拼音學(xué)得漢字,最終達(dá)到手語學(xué)習(xí)的目的。同時,手語作為一種特殊語言,若能將其轉(zhuǎn)化為對應(yīng)的字符,將很大程度方便聾啞人群和正常聽力人群的交流。 由此可見,通過無線通訊技術(shù)進(jìn)行手勢識別并將其應(yīng)用到特殊人群如聾啞人的手語教學(xué)中,是一種極為有效的教學(xué)方式。
本文提出了一種基于信道狀態(tài)信息(Channel State Information,CSI)的手語手勢識別方法——AirG,該方法可有效識別中國聾啞人漢語拼音手語手勢,漢語拼音手語手勢如圖1 所示。 經(jīng)驗(yàn)證,該方法實(shí)現(xiàn)了對漢語拼音手語手勢的感知與識別且具備良好的魯棒性。
圖1 漢語拼音手語手勢圖
主要貢獻(xiàn)總結(jié)如下:
①本文提出基于CSI 的AirG 系統(tǒng)可以有效識別不同環(huán)境下的漢語拼音手語手勢。 通過理論和實(shí)驗(yàn)驗(yàn)證利用CSI 進(jìn)行手語手勢識別的可行性。
②本文通過自適應(yīng)算法訓(xùn)練生成新的隱馬爾可夫模型(Hidden Markov Model,HMM)將其作為強(qiáng)分類器,避免了對正確樣本反復(fù)識別,有效地降低了整體的計算開銷。
③經(jīng)過實(shí)驗(yàn)驗(yàn)證AirG 適用于多種環(huán)境。 實(shí)驗(yàn)結(jié)果表明,AirG 在漢語拼音手語手勢識別方面較其他系統(tǒng)而言性能更好。
目前,研究人員提出各種用于人類手勢活動的感知技術(shù),主要基于傳感器、計算機(jī)視覺、以及無線設(shè)備。
其中,第一類通過傳感器識別手勢,如文獻(xiàn)[3-6]均提出使用配備傳感器的配飾作為數(shù)據(jù)采集設(shè)備捕獲手勢動作,識別結(jié)果均達(dá)到90%以上。 但基于可穿戴設(shè)備的識別方法用戶需佩戴專用設(shè)備,影響動作描述,且極大地降低了用戶的舒適感。
第二類通過計算機(jī)視覺識別手勢。 文獻(xiàn)[7-8]的手勢識別通過微軟Kinect 傳感器,其中文獻(xiàn)[8]采用雙重和十倍交叉驗(yàn)證方式,對阿拉伯?dāng)?shù)字(0 ~9)和英文字母(A ~Z)的識別率達(dá)91%以上。 但視覺識別通常對照明條件有要求且涉及個人隱私問題,實(shí)際使用中存在局限性。
第三類通過無線設(shè)備的手勢識別方法,可通過超寬帶雷達(dá)[9]、射頻識別技術(shù)[10]、接收信號強(qiáng)度指示或CSI 信號[11]。 其中射頻識別技術(shù)和超帶寬雷達(dá)需專用設(shè)備且部署復(fù)雜度高,目前多用接收信號強(qiáng)度指示或CSI 進(jìn)行手勢識別。 如,文獻(xiàn)[12]提出基于信號接收強(qiáng)度指示的手勢識別方法通過信號相位差與頻率自帶選擇可識別25 種手勢動作。 信號接收強(qiáng)度一定程度上無法接收來自不同路徑的電磁波信號,不適用于室內(nèi)人員手勢識識別;CSI 是電磁波信號的細(xì)粒度描述,可獲取子載波的幅值、相位等信息,更適用于手勢識別,文獻(xiàn)[13-15]均通過CSI進(jìn)行手勢識別。
Li[13]等人提出的WiFinger 系統(tǒng)用于手勢識別,通過k-最近鄰算法并且結(jié)合動態(tài)時間規(guī)整算法,準(zhǔn)確率可達(dá)到90.4%。 Zhang[14]等人提出的Mudra 系統(tǒng)通過干擾消除技術(shù),實(shí)現(xiàn)與位置方向無關(guān)的手勢動作識別,準(zhǔn)確率達(dá)到96%。 Jiang[15]等人提出的WiGAN 系統(tǒng),使用生成對抗網(wǎng)絡(luò)來提取和生成手勢特征,將手勢動作的特征融合后通過支持向量機(jī)(support vector machines,SVM)對活動分類,平均識別準(zhǔn)確率達(dá)95%以上。 但手勢數(shù)據(jù)達(dá)到一定量級時使用支持向量機(jī)進(jìn)行特征提取、手勢識別需較大開銷。
為了解決計算開銷大,手勢識別精度低等問題,本文提出基于CSI 的聾啞人手語手勢識別方法——AirG。 為了將手勢數(shù)據(jù)中的突兀值去除采用局部離群因子(Local Outlier Factor,LOF)檢測算法。 又因手語手勢動作屬于低頻信息,通過離散小波變換(Discrete Wavelet Transform,DWT)可有效去除環(huán)境中的高頻信息且不丟失數(shù)據(jù)細(xì)節(jié),經(jīng)預(yù)處理后的波形數(shù)據(jù)通過主成分分析法(Principal Component Analysis,PCA)篩選最能代表手語手勢的子載波。 采用數(shù)學(xué)統(tǒng)計的方法進(jìn)行特征提取,最終將手勢數(shù)據(jù)輸入Adaboost-HMM 模型得到手勢識別結(jié)果。
通過AirG 進(jìn)行手語手勢識別需經(jīng)四個步驟:手語手勢數(shù)據(jù)感知、噪聲移除、特征提取和手語手勢識別,工作流程如圖2 所示。
圖2 AirG 工作流程圖
我們使用配置Intel 5300 NIC 的兩臺筆記本電腦進(jìn)行數(shù)據(jù)采集,其中在IEEE 802.11n Monitor 模式下工作的作為發(fā)射器,另一臺作為接收器。
多條天線提供了充足的CSI 信息,但不同天線對手勢動作的敏感程度不同,可通過方差選取敏感程度高的天線。 經(jīng)篩選得出的天線受多徑效應(yīng)與固有噪聲的影響,數(shù)據(jù)波形中存在尖峰毛刺,為將異常值濾除并保留原來的信號,選用LOF 異常檢測算法去除異常值,如圖3(b)所示。 可表示為式(1):
式中:Nk(X)是點(diǎn)X的k距離鄰域內(nèi)點(diǎn)的總數(shù),lrdk(X)為點(diǎn)X的局部可達(dá)密度,Y為點(diǎn)X的k距離鄰域內(nèi)的任意一點(diǎn)。
LOFk(X)趨近1 時,被測點(diǎn)的鄰域點(diǎn)密度幾乎相等,屬同簇;LOFk(X)越大于1 時,被認(rèn)為是異常點(diǎn);若LOFk(X)遠(yuǎn)小于1,則視為密集點(diǎn)。
當(dāng)環(huán)境中存在較多干擾時,選用DWT 進(jìn)行多徑效應(yīng)移除如圖3(c)。 離散小波變換對細(xì)粒度的動作進(jìn)行多尺度分析,移除高頻噪聲的同時,保留了手勢波形的大致特征與數(shù)據(jù)細(xì)節(jié)。 我們采用Symlet5 進(jìn)行信號分解成近似系數(shù)和多個細(xì)節(jié)系數(shù),其中細(xì)節(jié)系數(shù)描述了設(shè)備中隨機(jī)噪聲和CSI 數(shù)據(jù)細(xì)節(jié)。 兩種系數(shù)可表示為式(2):
圖3 手語手勢與處理圖
式中:為近似系數(shù),本文采用Symlet5 因此J=5,為細(xì)節(jié)系數(shù),X(n)為手勢數(shù)據(jù)樣本點(diǎn),n-2 表示二倍降采樣,g為低通濾波器,可濾除高頻信息;h為高通濾波器,保留高頻部分。 對細(xì)節(jié)參數(shù)采用軟閾值算法,并用逆離散小波變換對去噪后手勢波形X′(n)重構(gòu),表示為式(3):
將噪聲移除后的30 條子載波內(nèi)包含與手勢動作相關(guān)性較小的子載波,因此采用主成分分析算法進(jìn)行降維,選擇出與降維前相似度高的子載波。 首先對手勢樣本集X={x1,x2,…,xm}求其均值向量其中xi為CSI 的列向量,ˉx表示為式(4):
Y={y1,y2,…,ym}為樣本歸一化處理后的樣本集,其中yi=xi-。 求得重構(gòu)的樣本Y的協(xié)方差矩陣C,可表示為式(5),其中cov(Xi,Xj)表示樣本協(xié)方差。
該協(xié)方差矩陣C的特征值矩陣為λ=[λ1,λ2,…,λn],降序排列后取前k個特征值,Q={q1,q2,…,qk}為特征值所對應(yīng)向量組成的特征向量矩陣。將特征向量矩陣與原樣本集相乘,得到降維后的矩陣R=QTX。 最終保留第一主成分將其作為手勢識別的CSI 波形,經(jīng)過PCA 提取子載波結(jié)果如圖4所示。
圖4 主成分分析算法提取子載波
手勢動作描述方式與速度因人而異,此外,某人執(zhí)行同一手勢動作也很難保證波形完全相同。 不同人員執(zhí)行不同手勢如圖5 所示。 手勢波形的最大值、最小值易受實(shí)驗(yàn)人員動作幅度影響較為明顯,為達(dá)到同一手勢波形一致性因此不宜作為特征值。 且為了突出不同手勢之間的差別,需選取多個特征值,但是過多的特征值易出現(xiàn)擬合問題。 因此本文最終選取特征值:偏度、峰度、標(biāo)準(zhǔn)差、峰峰值。
圖5 不同人員執(zhí)行不同手勢
偏度,可以描述手語手勢波形的偏斜程度,且可以表明數(shù)據(jù)的非對稱程度,同時可度量數(shù)據(jù)分布的偏斜方向,表示為式(6):
式中:xi為樣本中的數(shù)據(jù)點(diǎn),表示數(shù)據(jù)點(diǎn)的平均值,n表示數(shù)據(jù)點(diǎn)個數(shù)。
峰度,可以描述不同手勢數(shù)據(jù)波形的概率密度分布曲線在平均值處峰值高低的特征數(shù)的描述,表示為式(7):
標(biāo)準(zhǔn)差,是數(shù)據(jù)偏離均值的平方和平均后的方根。 手勢數(shù)據(jù)集的離散程度可通過標(biāo)準(zhǔn)差得出,即標(biāo)準(zhǔn)偏差越大,數(shù)據(jù)離散程度大;反之亦然。 可表示為式(8):
峰峰值,可以描述一個周期內(nèi)手勢動作所產(chǎn)生信號的波峰與波谷差,表示為式(9):
Adaboost 是由Freund[16]提出一種迭代方法,即,當(dāng)樣本輸入弱分類器后,分類結(jié)果呈現(xiàn)出錯誤分類樣本與正確分類樣本。 因此,將樣本權(quán)值重置,按照正樣本權(quán)值降低,負(fù)樣本權(quán)值增大的原則;對所有樣本權(quán)值更新。 每一輪更新后的樣本作為下一輪分類器的輸入,用于訓(xùn)練下一個弱分類器。 當(dāng)?shù)螖?shù)達(dá)到最大,亦或錯誤率足夠小,則形成最終的強(qiáng)分類器。 Adaboost-HMM 模型原理圖如圖6 所示。
圖6 Adaboost-HMM 模型原理
具體過程如下:
Step 1:對樣本X=(x1,x2,…,xn)中的每一個樣本點(diǎn)遵循均勻分布原則,初始化權(quán)重為(n=1,2,…,N);
Step 2:設(shè)置輪詢數(shù)值為K,對HMMθ模型進(jìn)行Adaboost 訓(xùn)練;
Step 3:對HMMθ產(chǎn)生的概率進(jìn)行二值化處理,即hk(xn)→{-1,+1},(n=1,2,…,N)。 分類器錯誤率由此計算為樣本點(diǎn)總數(shù),wk為權(quán)重。 當(dāng)錯誤率ek<0.5 時,新模型有效,否則返回上一步;
Step 4:更新樣本點(diǎn)的權(quán)值分布,表示為式(10):
式中:hx(xn)為二值化結(jié)果,Zk規(guī)范化因子,可將wk的值規(guī)范到(0,1),αk表示該輪學(xué)習(xí)所得的模型在最終模型中的權(quán)重,ek表示該輪錯誤率。
Step 5:經(jīng)過K次輪詢,最終的分類器由K個HMM 組合而成的。
觀測狀態(tài)序列為O=(o1,o2,…,oT),隱藏狀態(tài)序列為Q=(q1,q2,…,qT)。 三部分可組成HMMθ(A,B,π),模型原理如圖7 所示。
圖7 HMM 模型原理
①π={πi}=(P(q1=si)) (1≤i≤N)是初始狀態(tài)概率;
②A={aij} (1 ≤i,j≤N)為狀態(tài)轉(zhuǎn)移概率矩陣;
③B={bj(k)} (1≤j≤N,1≤k≤M)為觀測值概率矩陣。
對模型初始化θ(0)=(A(0),B(0),π(0))方便訓(xùn)練,使用鮑勃-韋爾奇算法使參數(shù)向訓(xùn)練樣本所在的概率最大化方向調(diào)整,通過式(11)、式(12)求得參數(shù)模型θ(n+1)=(A(n+1),B(n+1),π(n+1))。
式中:γt(i)表示t時刻模型處于狀態(tài)θi的概率。ξt(i,j)表示由狀態(tài)θi到狀態(tài)θj的狀態(tài)概率,當(dāng)πi,aij,bj(k)達(dá)到收斂時,整個迭代過程結(jié)束,由更新的模型參數(shù)組成新的HMM。
識別階段采用前向算法對樣本分類,將待測樣本通過訓(xùn)練后的HMM 模型,產(chǎn)生待測樣本的概率,記做P(O|θ),當(dāng)達(dá)到最大值時即為所識別的手勢。
式中:αt(i)表示前t時刻觀測序列對應(yīng)的狀態(tài)概率。
兩臺內(nèi)含Intel 5300 NIC 的筆記本電腦作為一對收發(fā)器,接收端有一根天線,發(fā)射端為三根。 發(fā)包率為1 000 包/s,設(shè)備距地面的垂直高度為1.3 m。實(shí)驗(yàn)環(huán)境分別為辦公樓大廳、會議室、教室,場景示意圖如圖8 所示。
圖8 不同實(shí)驗(yàn)場景
為減小動作完成時間對整體識別率的影響,設(shè)定數(shù)據(jù)采集時間為10 s。 其中0~3 s 靜止,第4 s 實(shí)驗(yàn)人員進(jìn)行手勢動作描述,動作描述需要2 s 左右,第7 s 時動作收回,每個動作重復(fù)10 次。 實(shí)驗(yàn)數(shù)據(jù)70%用于Adaboost-HMM 模型的訓(xùn)練,15%為交叉驗(yàn)證集,15%用作測試集測試模型。 實(shí)驗(yàn)人員隨機(jī)選取十名,志愿者的身高體重信息如圖9 所示,斜線表示身體質(zhì)量指數(shù)。
圖9 實(shí)驗(yàn)人員身高體重信息
實(shí)驗(yàn)設(shè)備選用了一對收發(fā)器。 隨著收發(fā)器之間距離的增加,信號對手勢動作的敏感程度降低,當(dāng)間隔距離達(dá)到一定限度時,手語動作對CSI 流的影響幾乎消失。 手語手勢的識別精度隨著接收器距離的增加而降低,因?yàn)檩^弱的信號很難響應(yīng)手部的移動,導(dǎo)致信號靈敏度降低。 不同距離的識別率如圖10所示。
由圖10 可見,x軸表示識別錯誤率,累積分布函數(shù)由y軸表示。 當(dāng)設(shè)備間距為1 m 時識別性能最佳,且隨著距離的增加手勢識別性能表現(xiàn)越差。 結(jié)合現(xiàn)實(shí)生活中的教學(xué)場景,本文選擇實(shí)驗(yàn)設(shè)備間距為2 m。
圖10 不同距離的識別率
為了驗(yàn)證AirG 的健壯性,我們在已有的三個實(shí)驗(yàn)環(huán)境增加了靜態(tài)干擾和動態(tài)干擾。 其中靜態(tài)干擾設(shè)定為:在距離發(fā)射端和接收端水平距離0.5 m 的地方分別放置一把椅子;動態(tài)干擾設(shè)定為:在平行于視距路徑距1 m 的地方讓一名實(shí)驗(yàn)人員勻速行走。不同環(huán)境的識別率如圖11 所示。
圖11 不同環(huán)境的識別率
實(shí)驗(yàn)結(jié)果顯示,靜態(tài)干擾對三個環(huán)境的影響相對較小,但由于教室內(nèi)已經(jīng)布置較多家具因此識別精度會有所下降。 當(dāng)環(huán)境中增加了動態(tài)干擾后,由于步態(tài)動作幅度較大對CSI 干擾較為明顯,因此三個環(huán)境中的手勢識別率均有明顯下降但都在可接受范圍內(nèi)。
由于不同人員在完成手語手勢動作時,動作描述方法與用時有所差異。 為了讓AirG 能夠充分識別不同人員的手勢動作,我們分別在每個實(shí)驗(yàn)場景下采集不同人員的手勢數(shù)據(jù)。 不同實(shí)驗(yàn)人員的識別率如圖12,可見不同實(shí)驗(yàn)人員的手勢識別率有一定的差異,并且通過實(shí)驗(yàn)得出男女生由于存在固有體型差異,因此女生的識別結(jié)果相較男生更優(yōu)。
圖12 不同實(shí)驗(yàn)人員的識別率
具體表現(xiàn)為:身材稍胖的人和手勢動作描述過快的人手勢樣本識別率相對較低,對于身材勻稱且手勢動作描述過程勻速的人員識別率較高,不同實(shí)驗(yàn)人員的數(shù)據(jù)采集與識別結(jié)果見表1。 總樣本量共計18 000次,包括有效采樣與無效采樣:有效采樣為17 447 次,無效采樣為553 次。 且對比試驗(yàn)選用有效樣本數(shù)的15%來做交叉驗(yàn)證集,驗(yàn)證集個數(shù)即識別次數(shù),最終的識別率為不同場景下的平均識別率。 整體來說,不同人員的平均手勢識別率都可以達(dá)到85%以上,這表明AirG 對不同的人員有很強(qiáng)的適應(yīng)能力。
表1 不同人員數(shù)據(jù)采集與識別結(jié)果統(tǒng)計表
由于受遺傳、環(huán)境等多種因素影響,不同人在用手習(xí)慣方面有所差異,為了測試手勢識別方法的魯棒性,我們隨機(jī)選取5 個手勢動作在三個場景中完成左利手和右利手的對比試驗(yàn)。 在三個不同的實(shí)驗(yàn)場景中,空曠環(huán)境下表現(xiàn)結(jié)果最為良好,其不同用手習(xí)慣的平均識別率如圖13 所示。
由圖13 可知,AirG 對隨機(jī)選取的手語手勢動作通過不同習(xí)慣用手進(jìn)行動作描述均取得良好的識別率。 由此證明系統(tǒng)魯棒性較好。 但由于左手在完成某些動作時,如手勢“k”,手掌會遮擋手指動作,因此整體而言左手的識別率較低。
圖13 不同用手習(xí)慣的識別率
近年來,針對手勢識別有學(xué)者WiFi 提出了多種識別方式。 為了充分展示AirG 的高性能,本文就現(xiàn)有的較為先進(jìn)的手勢識別方式WiMU[17]、和WiGeR[18]、WiReader[19]進(jìn)行對比。
WiMU 將各種可能的手勢組合生成虛擬樣本,任何給定姿勢提取幅度信息和相位信息,通過二進(jìn)制矩陣進(jìn)行識別。 WiGeR 提出了一種基于小波分析和短時能量的分割方法和開窗算法提取手勢特征,并結(jié)合動態(tài)時間規(guī)劃算法來識別手勢。
數(shù)據(jù)集由十名實(shí)驗(yàn)人員在大廳完成的兩組不同距離下的右手手勢數(shù)據(jù)組成。 本文選用準(zhǔn)確率對上述三種方法性能進(jìn)行評估結(jié)果如表2 所示。
表2 不同算法識別率表
由表2 可以看出AirG 方法的手勢識別準(zhǔn)確率高于其他三種手勢識別方法,因此AirG 對手勢識別整體性能更優(yōu)。
我們使用從10 名實(shí)驗(yàn)人員在三個不同環(huán)境內(nèi)采集到的數(shù)據(jù)集進(jìn)行多組對比試驗(yàn)進(jìn)行評估。 空曠大廳的準(zhǔn)確率可以高達(dá)93.6%,會議室的準(zhǔn)確率可以高達(dá)88.3%,教室的準(zhǔn)確率可以達(dá)到85%。 為了充分描述本文所提手語手勢識別方法的準(zhǔn)確率,我們選用對比實(shí)驗(yàn)結(jié)果中最優(yōu)條件來評估該方法對30 個手語手勢的綜合識別率。 圖14 通過混淆矩陣描述了30 個手語手勢的綜合識別結(jié)果。 總體來說,各個手勢的識別結(jié)果都良好,但由于手語手勢存在相似手勢,如“m”和“n”,又或者“h”和“x”,對此類相似手勢的誤判率相對較高。
圖14 不同手語手勢下的混淆矩陣
本文提出基于CSI 的手語手勢識別方法AirG,結(jié)合現(xiàn)實(shí)生活中的應(yīng)用與環(huán)境因素對人員手勢特征的影響,使用LOF 算法進(jìn)行離群值去除,并通過離散小波變換與PCA 對采集的手勢數(shù)據(jù)進(jìn)行降噪與篩選,通過時域信息提取不同手勢的特征。 最終將手勢數(shù)據(jù)放入Adaboost-HMM 模型進(jìn)行識別。 經(jīng)過多種對比試驗(yàn)驗(yàn)證,并結(jié)合多組對比試驗(yàn)驗(yàn)證結(jié)果表明AirG對漢語拼音手語手勢的平均識別率為88.98%,其中平均識別率為各對比試驗(yàn)下的識別率平均值。
本文的后續(xù)工作集中在以下幾個方面:①提高AirG 模型的魯棒性,將其適用于不同環(huán)境中連續(xù)手語手勢的識別;②在現(xiàn)有基礎(chǔ)上增加頻域信息的手勢特征,盡可能全面的描述人員的手勢特征。