蔡 旻 高涵文 李華一 陶重犇
1(蘇州科技大學(xué)天平學(xué)院 江蘇 蘇州 215009) 2(蘇州科技大學(xué)電子與信息工程學(xué)院 江蘇 蘇州 215009)
隨著對直觀、簡單的人機(jī)交互需求的持續(xù)增長,近年來手勢識別研究領(lǐng)域受到越來越多的關(guān)注。手勢識別系統(tǒng)主要分為兩類:基于數(shù)據(jù)手套的手勢識別[1]和基于計算機(jī)視覺的手勢識別[2]。前者需要戴上數(shù)據(jù)手套,通過數(shù)據(jù)手套將用戶的手勢信息傳遞給計算機(jī),如李秀艷等[3]提出了一種基于深度學(xué)習(xí)的可穿戴手套進(jìn)行動態(tài)手勢系列識別的方法。該方法雖然定位準(zhǔn)確,處理方法快,但是需要人們佩戴特定的設(shè)備,影響了人們的活動自由。為了滿足手勢識別的自然性與易操作性,本文利用Kinect獲取人手臂的位置,然后利用深度信息分割出人手臂的區(qū)域,硬件部分簡單且成本低廉,使用起來也自然簡便。
基于計算機(jī)視覺的手勢識別主要有基于膚色模型[4-5]和基于分類學(xué)習(xí)[6-7]的兩種識別方法。本文提出的手勢識別方法屬于分類學(xué)習(xí)的范疇,主要運(yùn)用HMM、Adaboost學(xué)習(xí)等算法結(jié)合SIFT等特征進(jìn)行識別。例如,馬杰等[8]提出密集卷積與空間轉(zhuǎn)換網(wǎng)絡(luò)相融合的識別方法,該方法需采集大量樣本、訓(xùn)練時間長、效率低;楊學(xué)文等[9]綜合手勢主方向和類-豪斯多夫距離模板匹配法,較好地解決了手勢發(fā)生形變時識別率較低的問題。但在傳統(tǒng)的手勢識別中,基本都是采用人工提取特征的方式,這樣有一定的主觀性和局限性。而卷積神經(jīng)網(wǎng)絡(luò)(CNN)可自動提取圖像中的有用信息并學(xué)習(xí),在一定程度上解決了這個問題。CNN雖然克服了人工提取特征的主觀性和局限性,提高了識別率,但是網(wǎng)絡(luò)模型對形變手勢的魯棒性仍然不足。針對此問題,本文提出了一種基于CRF和HMM混合模型的手勢識別方法來提高手勢識別的魯棒性。
HMM是用來描述具有隱式未知參數(shù)的馬爾可夫過程,其原理是從可觀察的參數(shù)中確定該過程的隱含參數(shù)。一方面,每個觀察狀態(tài)僅取決于當(dāng)前的隱藏狀態(tài),并且每個隱藏狀態(tài)僅取決于先前的狀態(tài)。然后,通過HMM的解碼問題,使用維特比算法來確定給定的觀察序列的最有可能的隱藏狀態(tài)序列。另一方面,HMM使用高斯混合模型(GMM)來模擬數(shù)據(jù)分布。當(dāng)訓(xùn)練數(shù)據(jù)太少時,GMM的建模能力就會變得很差,這是HMM的一個主要缺點(diǎn)。然而,利用判別模型,比如條件隨機(jī)場(CRF)[10],就可以彌補(bǔ)這個缺點(diǎn)。
CRF模型會對標(biāo)記序列的決策過程進(jìn)行建模。因此,它考慮了特定標(biāo)簽序列的后驗概率。與HMM類似,在每個時間步驟中,一個標(biāo)簽取決于前一個標(biāo)簽。但不同的是其也可能取決于整個觀察序列,并不要求觀察數(shù)據(jù)的條件獨(dú)立性。與HMM相反,CRF無法模擬行為模型。由于CRF是順序過程中的局部分類器,為了保證其結(jié)構(gòu)標(biāo)注的一致性,必須在后期處理中引入高層次的知識作為過濾的附加條件。然而,HMM的生成框架卻具有處理高級結(jié)構(gòu)化信息的能力。
通過上述對于CRF和HMM優(yōu)缺點(diǎn)的比較,本文發(fā)現(xiàn)兩者之間有一定的互補(bǔ)性。本文研究將這兩個模型結(jié)合在一個混合框架中,提出一種將CRF的判別能力與HMM的建模能力相結(jié)合的CRF和HMM混合模型方法。圖1顯示了所提出的混合模型。判別式CRF階段提供了輸入到HMM階段的局部類后驗概率,其解釋了關(guān)于標(biāo)簽序列的更多全局約束。假設(shè):一個標(biāo)簽是yt,觀察值為xt。當(dāng)CRF用于手勢識別任務(wù)時,這個特征向量將被量化為多個區(qū)間。序列幀的數(shù)量記為T;Y分別表示y1:T和x1:T;X、Xd表示量化的特征向量。
圖1 CRF和HMM混合模型
如圖1所示,觀察序列X和狀態(tài)序列y1:T的HMM聯(lián)合概率p(y1:T,x1:T)是使用CRF局部后驗概率p(yt|xt)計算。
根據(jù)這個模型,HMM概率p(y1:T,x1:T)取決于使用CRF計算的后驗概率:
(1)
在標(biāo)準(zhǔn)HMM中,p(xt|yt)是一種高斯混合概率。在本文的新模型中,這種分布將在某種程度上被CRF計算的分類分布p(yt|xt)所取代。因此,p(xt|yt)是根據(jù)CRF算法中的貝葉斯規(guī)則從p(yt|xt)計算得到的:
(2)
由于每個手勢類都被認(rèn)為具有同等的可能性,因此對于?t∈N,p(yt)是一個常數(shù)。解碼過程的目的是找到使p(y1:T,x1:T)最大化的隱藏狀態(tài)序列y1:T。由于觀察概率p(xt)與時間無關(guān),所以p(xt)與p(xt|yt)的最大化無關(guān)。因此,p(xt|yt)的最大化轉(zhuǎn)向了p(yt|xt)的最大化。鑒于CRF能夠計算每個類的后驗,假設(shè)p(yt|xt)=p(yt|x1:T)=p(yt|X)?p(yt|Xd)。在CRF中使用向前-向后(Baum-Welch)算法計算,其中正向概率αt和反向概率βt使用以下遞歸計算:
(3)
(4)
(5)
式中:si、sj是屬于S的隱藏狀態(tài);ol是屬于O的觀察值。最后,按照向前-向后算法計算,如下:
(6)
(7)
本文對HMM和CRF進(jìn)行單獨(dú)的訓(xùn)練,如圖2所示。在第一個階段,HMM使用標(biāo)準(zhǔn)的Baum-Welch算法進(jìn)行訓(xùn)練,這意味著目標(biāo)函數(shù)是有全局手勢模型的可能性。對每個手勢類分別學(xué)習(xí)轉(zhuǎn)換概率矩陣,并將其聚集到一個全局模型中,用于解碼手勢序列。
圖2 CRF和HMM混合模型訓(xùn)練和解碼流程圖
在第二階段,使用LBFGS算法訓(xùn)練CRF。由于CRF不能像HMM這樣進(jìn)行訓(xùn)練,所以這個訓(xùn)練階段的目標(biāo)函數(shù)是局部框架級狀態(tài)后驗。由此可見局部幀級標(biāo)簽是必要的。因此,本文引入了一個框架級標(biāo)簽階段。在第二個訓(xùn)練階段,CRF學(xué)習(xí)所有手勢的單個模型,考慮到模型中的子類和子手勢一樣多,子手勢的數(shù)量等于HMM手勢模型中的狀態(tài)數(shù)。
要識別的手勢序列可能以任意順序包含任意數(shù)量的手勢,因此,模型應(yīng)該在手勢模型之間均勻切換。這可以通過在全局序列模型中收集所有的手勢模型來建模,如圖3所示。在這個模型中,每一行都代表一個孤立的具有可變狀態(tài)數(shù)的區(qū)間數(shù)。該全局模型允許用等概率手勢轉(zhuǎn)換概率描述任意手勢序列。
圖3 基于HMM的手勢序列識別模型
為了對特征空間進(jìn)行建模,HMM依賴于學(xué)習(xí)數(shù)據(jù)庫中估計的高斯混合。在考慮樣本數(shù)量非常小的情況下,高斯分布p(xt|yt)的參數(shù)很難估計,特別是方差。因此,本文首先將這種高斯混合限制為每個手勢類為一個高斯函數(shù),其次,計算每個手勢類的方差,以增加數(shù)據(jù)量來提高估計,從而使每個手勢類都有相同的方差。
CRF方法的初始形式在數(shù)學(xué)上可以處理離散或連續(xù)特征。然而,由于CRF分類階段來源于邏輯回歸,所以它相比于連續(xù)特征更適合于離散特征。實際上,在遷移學(xué)習(xí)領(lǐng)域,連續(xù)特征離散化所導(dǎo)致的信息丟失在用單個例子訓(xùn)練CRF時可能會產(chǎn)生正則化效果。特征量化還允許有效地調(diào)整與每個離散特征值關(guān)聯(lián)的參數(shù)。雖然量化涉及到信息的丟失,但是大量特性的集成允許捕獲整個手勢的全局表示。因此,本文將使用特征量化過程。
通過將每個連續(xù)特征映射為Nq離散特征的統(tǒng)一標(biāo)量來實現(xiàn)量化,符合以下方程:
Q:[-Vmax,Vmax]→[-Nq,Nq]
(8)
本文對Nq值進(jìn)行了一定的調(diào)整,以便在驗證過程中獲得最佳的識別性能。最終發(fā)現(xiàn)Nq=16是最佳值。
相比于標(biāo)準(zhǔn)的HMM,本文混合結(jié)構(gòu)的HMM是由描述每個手勢的狀態(tài)構(gòu)成的。雖然可以通過狀態(tài)自動轉(zhuǎn)換對手勢持續(xù)時間進(jìn)行建模,但通過設(shè)置每個手勢的狀態(tài)數(shù)目可變,可以更好地實現(xiàn)建模。本文通過實驗驗證了這種想法在每個手勢的狀態(tài)數(shù)固定的情況下比相同系統(tǒng)的性能更好。每個手勢i的狀態(tài)數(shù)取決于它的幀長fg(i),那么每個狀態(tài)的幀數(shù)記為fs。Ne(i)=fg(i)/fs表示一個手勢模型i的狀態(tài)數(shù)。由此可知,將數(shù)據(jù)模型限制為每個狀態(tài)只有一個高斯分布。
混合模型的CRF部分具有標(biāo)準(zhǔn)的線性結(jié)構(gòu),CRF訓(xùn)練使得由一個單獨(dú)的模型就可以來區(qū)分?jǐn)?shù)據(jù)集的所有手勢。為了使系統(tǒng)適應(yīng)手勢持續(xù)時間的變化,本文選擇了觀測窗口w0的可變尺寸fw,如式(9)所示。在學(xué)習(xí)數(shù)據(jù)庫上對fw進(jìn)行統(tǒng)計估計。為了避免過度擬合,正則化參數(shù)根據(jù)經(jīng)驗調(diào)整為1.5。
(9)
為了能夠準(zhǔn)確地識別動態(tài)手勢,本文定義了一組14個手勢用于實驗,如圖4所示。在識別階段,首先利用Kinect感應(yīng)器來提取圖像特征和深度信息。其次,由特征提取算法提取出圖像中人體的骨架節(jié)點(diǎn),并利用該信息來創(chuàng)建人體骨架模型。然后,將人體的骨架節(jié)點(diǎn)和人體骨架的關(guān)節(jié)角度信息保存到一個緩沖區(qū)。最后,由CRF和HMM混合模型通過訓(xùn)練和解碼來識別手勢序列。
圖4 利用Kinect識別的人體手勢模型
具體算法步驟如下:
步驟1將所有手勢類視頻進(jìn)行特征提取到特征文件,使用Bawm-Welch算法進(jìn)行訓(xùn)練。對每個手勢類分別學(xué)習(xí)轉(zhuǎn)移概率矩陣,并將其聚類到一個全局模型用于解碼手勢序列。
步驟2使用LBFGS算法訓(xùn)練CRF。這個訓(xùn)練階段的目標(biāo)函數(shù)是局部框架級狀態(tài)后驗概率。
步驟3將所有測試序列視頻特征提取至特征文件,用Bawm-Welch算法對CRF進(jìn)行解碼。對每個測試序列分別學(xué)習(xí)后驗概率矩陣,并將其聚類到一個全局模型中,用于解碼手勢序列。
步驟4將HMM的轉(zhuǎn)移概率和CRF的后驗概率聚類到的一個全局模型,并進(jìn)行維特比測試數(shù)據(jù)解碼,從而得到手勢序列。
圖5顯示了調(diào)整后的HMM模型(上曲線),CRF和HMM混合模型(下曲線)對每個狀態(tài)fs的幀數(shù)的識別誤差L。這些系統(tǒng)針對fs的每個值進(jìn)行了訓(xùn)練??梢杂^察到,HMM和CRF混合模型的性能優(yōu)于HMM模型,并且HMM和CRF混合模型顯示出了穩(wěn)定的結(jié)果,而HMM性能卻是不穩(wěn)定的。
圖5 混合模型、HMM模型幀數(shù)變化的對比圖
圖6給出了兩個HMM模型(左圖)和兩個CRF和HMM混合模型(右圖)的每個狀態(tài)幀數(shù)fs的誤差L的變化。每一對系統(tǒng)都用兩個不同的特征向量進(jìn)行評估。
(a) HMM (b) 混合模型圖6 HMM和混合模型對特征向量變化的魯棒性
當(dāng)特征向量大小減小時,CRF和HMM混合模型的性能幾乎保持不變。也就是說,對于CRF和HMM混合模型,最小的特性就足夠了,而對于標(biāo)準(zhǔn)的HMM來說,需要添加特性才能大大提高識別性能。這種減少特征數(shù)的識別能力使特征提取任務(wù)更容易,速度也更快。
圖7分別得到了HMM模型,CRF和HMM混合模型的兩種不同的訓(xùn)練結(jié)果。從圖7(c)可以看出CRF和HMM混合模型達(dá)到了預(yù)期目標(biāo),即使出現(xiàn)了如圖7(a)中橢圓標(biāo)出的多處離散性錯誤,但在手勢檢測時并未產(chǎn)生錯誤。而圖7(d)中雖然迭代了多達(dá)180次,但仍然未能實現(xiàn)預(yù)期目標(biāo)。在圖7(b)中用橢圓標(biāo)出部分表示存在連續(xù)性錯誤,從而導(dǎo)致了在圖7(b)中的真實輸出出現(xiàn)了手勢檢測錯誤。因此,當(dāng)性能曲線未達(dá)到標(biāo)準(zhǔn)時,HMM模型無法滿足識別精度要求。
(a) 混合模型準(zhǔn)確檢測手勢 (b) HMM錯誤檢測手勢
(c) 迭代實現(xiàn)目標(biāo) (d) 迭代未實現(xiàn)目標(biāo)圖7 兩種方法的手勢檢測結(jié)果比較
通過上述CRF和HMM混合模型的魯棒性實驗證明了在一個簡單的系統(tǒng)中,通過對CRF和HMM融合模型的優(yōu)點(diǎn)組合和缺點(diǎn)補(bǔ)償,可以達(dá)到較高的識別性能。
本文提出了一種CRF和HMM混合模型的手勢識別方法。這種HMM和CRF混合模型融合了單個模型的優(yōu)點(diǎn),是一個比經(jīng)典HMM模型和CRF模型性能更好的模型,對不同的變體具有很好的魯棒性。實驗證明了CRF和HMM混合模型能夠有效地對序列數(shù)據(jù)的時空變化進(jìn)行建模,并能構(gòu)成一個魯棒的識別混合系統(tǒng),為隱馬爾可夫模型在視頻語義識別領(lǐng)域開辟了新的應(yīng)用前景。