耿海霄(四川大學(xué)視覺合成圖形圖像技術(shù)國(guó)防重點(diǎn)學(xué)科實(shí)驗(yàn)室,成都 610065)
基于條件隨機(jī)場(chǎng)的連續(xù)手勢(shì)識(shí)別算法
耿海霄
(四川大學(xué)視覺合成圖形圖像技術(shù)國(guó)防重點(diǎn)學(xué)科實(shí)驗(yàn)室,成都610065)
傳統(tǒng)的人機(jī)交互方式,主要通過鍵盤、鼠標(biāo)、觸摸屏等設(shè)備來進(jìn)行,這與人在日常生活中自然的交流方式仍有很大不同。為實(shí)現(xiàn)更加自然的人機(jī)交互,隨著計(jì)算機(jī)科學(xué)的飛速發(fā)展,學(xué)者們對(duì)人體動(dòng)作捕獲和識(shí)別做了大量研究,手勢(shì)識(shí)別技術(shù)也成為其研究核心之一。特別近年來,手勢(shì)控制被越來越多地運(yùn)用到各種產(chǎn)品中,這種更加直觀的人機(jī)交互方式讓手勢(shì)識(shí)別技術(shù)擁有了更廣闊的應(yīng)用前景,如虛擬現(xiàn)實(shí)、娛樂游戲、工業(yè)控制和航空航天等領(lǐng)域。
手勢(shì)識(shí)別的目標(biāo)是將人手作為直接輸入設(shè)備,不再需要中間的媒介,直接通過已定義的手勢(shì)來控制機(jī)器。在現(xiàn)實(shí)生活中,人們的手勢(shì)往往是動(dòng)態(tài)的、連續(xù)的,靜態(tài)手勢(shì)能夠表達(dá)的信息量難以滿足人們的需求。而動(dòng)態(tài)手勢(shì)包含了連續(xù)的動(dòng)作序列,不同的手勢(shì)動(dòng)作常具有相似或重復(fù)的運(yùn)動(dòng)軌跡,且相同的手勢(shì)也會(huì)因?yàn)椴煌硕哂胁煌倪\(yùn)動(dòng)速度。因此,提高手勢(shì)分割的的準(zhǔn)確性和高效性,提升手勢(shì)識(shí)別的精度成為其主要的難點(diǎn)和突破點(diǎn)。
如今,國(guó)內(nèi)外在手勢(shì)識(shí)別方面均取得了頗多研究成果,張良國(guó)等人采用基于Hausdorff距離的模板匹配方法,建立了一個(gè)靜態(tài)手勢(shì)識(shí)別系統(tǒng)。Santemiz P等人利用動(dòng)態(tài)時(shí)間規(guī)整法(DTW)進(jìn)行多序?qū)Ρ龋捎糜?jì)算兩個(gè)序列之間的歐氏距離,區(qū)分出了不同手勢(shì)序列的起點(diǎn)和終點(diǎn),解決了手勢(shì)分割中的分了和識(shí)別問題。W. J.Tan等人將DTW和神經(jīng)網(wǎng)絡(luò)結(jié)合起來,實(shí)現(xiàn)了一種手形和運(yùn)動(dòng)軌跡同時(shí)變化的識(shí)別方法。Hyeon-Kyu Lee等人提出了一種基于自適應(yīng)閾值的隱馬爾可夫模型(HMM)手勢(shì)識(shí)別算法,大大降低了手勢(shì)訓(xùn)練和識(shí)別的難度。Elmezain M等人將CRF運(yùn)用到連續(xù)手勢(shì)的分割和識(shí)別中,建立自適應(yīng)閾值模型將手勢(shì)的起點(diǎn)和終點(diǎn)清晰的定位出來,提高了識(shí)別的精確度。
其中,HMM的時(shí)間尺度不變性以及訓(xùn)練時(shí)較強(qiáng)的擴(kuò)充性,使其在動(dòng)態(tài)手勢(shì)識(shí)別中取得很好的效果。然而手勢(shì)動(dòng)作序列之間具有長(zhǎng)距離依賴性,但HMM需假設(shè)手勢(shì)動(dòng)作序列相互獨(dú)立,采用CRF可以避免條件無關(guān)性假設(shè),既降低了對(duì)訓(xùn)練成本的要求,又更容易提高識(shí)別的精確性。
本文主要工作是采用CRF算法實(shí)現(xiàn)連續(xù)手勢(shì)識(shí)別,并將實(shí)驗(yàn)結(jié)果與HMM算法進(jìn)行比較,證明CRF算法在連續(xù)手勢(shì)識(shí)別上有一定的優(yōu)勢(shì)。
2.1條件隨機(jī)場(chǎng)理論基礎(chǔ)
條件隨機(jī)場(chǎng)(Conditional Random Fileds,CRF)是一種用于標(biāo)注和切分有序數(shù)據(jù) 的條件概率模型,由Lafferty等人在2001年提出。該模型最早被用于有序數(shù)據(jù)的標(biāo)注和分析,現(xiàn)在已經(jīng)被廣泛應(yīng)用到手勢(shì)識(shí)別領(lǐng)域中。
CRF本質(zhì)上是給定了觀察值集合的馬爾科夫隨機(jī)場(chǎng),可看作一種基于最大熵和隱馬爾可夫模型的無向圖模型。假設(shè)G=(V,E)是一個(gè)無向圖,Y={Yν|ν∈V}是以G中節(jié)點(diǎn)為索引的隨機(jī)變量Yν構(gòu)成的集合。在給定的X條件下,如果每個(gè)隨機(jī)變量Yb服從馬爾可夫?qū)傩裕瑒t(X,Y)就構(gòu)成一個(gè)條件隨機(jī)場(chǎng)。即:
其中,u~v表示u和v是相鄰的邊。
假設(shè)有觀察序列X={x1,x2,…,xn}和有限狀態(tài)集合Y={y1,y2,…,yn},則根據(jù)隨機(jī)場(chǎng)的基本理論,可得:
其中,tj(yi-1,yi,x,i)是觀察序列的標(biāo)記位置i-1與i之間的轉(zhuǎn)移特征函數(shù),sk(yi,x,i)是觀察序列的i位置的狀態(tài)特征函數(shù)。
將兩個(gè)特征函數(shù)統(tǒng)一為fj(y(i-1),yi,x,i),則:
2.2條件隨機(jī)場(chǎng)的三個(gè)關(guān)鍵問題
(1)特征函數(shù)的選取
狀態(tài)特征函數(shù)有過渡的性質(zhì),表示觀察序列一個(gè)特征值是否在兩個(gè)狀態(tài)之間,即若該特征值在前一狀態(tài)和當(dāng)前狀態(tài)之間,則所有特征函數(shù)都是實(shí)數(shù)值:
其中,Ya和Yb表示CRF模型中的兩個(gè)特征值。
(2)參數(shù)估計(jì)
為了從訓(xùn)練數(shù)據(jù)中估計(jì)特征函數(shù)的權(quán)重λ,CRF參數(shù)估計(jì)基于最大熵原則,采用極大似然估計(jì)來最大化對(duì)數(shù)似然函數(shù)。假定對(duì)于訓(xùn)練數(shù)據(jù)有一組樣本集合D={x(j),y(j)},?j=1,…,n,且樣本相互獨(dú)立的,CRF的似然函數(shù)為:
上式中,p~(x,y)為訓(xùn)練樣本(x,y)的經(jīng)驗(yàn)概率。再對(duì)λj求偏導(dǎo),得出:
令公式(6)等于0,便可求出λj。然而,極大似然估計(jì)有時(shí)并不能得到一個(gè)近似解,所以Lafferty提出了兩種迭代縮放算法——GIS(Generalised Iterative Scaling)算法和IIS(Improved Iterative Scaling)算法來選擇參數(shù),使對(duì)數(shù)似然函數(shù)最大化。本文采用的GIS算法來訓(xùn)練模型參數(shù),使之得到最高的對(duì)數(shù)似然值。
(3)模型推斷
CRF模型見公式(2),其中,在模型訓(xùn)練過程中通常會(huì)碰到一些問題,如需要求邊際分布p(yi-1,yi│x,λ),需要標(biāo)記為標(biāo)記的序列等。前者可以用forwardbackward算法來計(jì)算,后者則可以用Viterbi算法來找到全局最優(yōu)解。
任何一種手勢(shì)識(shí)別算法在進(jìn)行手勢(shì)識(shí)別時(shí),都需要提取手勢(shì)特征,為后續(xù)手勢(shì)建模和分類做準(zhǔn)備。這些特征主要包括:形狀、方向角、運(yùn)動(dòng)速率、輪廓等。本文方法采用以方向角為主要特征,對(duì)手勢(shì)運(yùn)動(dòng)軌跡進(jìn)行區(qū)分和分類。其中,訓(xùn)練和識(shí)別的過程如圖1所示。
本文用Microsoft Studio 2010實(shí)現(xiàn)了基于CRF手勢(shì)識(shí)別算法。先利用OptiTrack硬件設(shè)備來捕獲目標(biāo)三維空間坐標(biāo),并通過Motive軟件與NatNet SDK協(xié)同工作收集目標(biāo)運(yùn)動(dòng)軌跡的坐標(biāo),最后采用已實(shí)現(xiàn)的CRF算法完成手勢(shì)的訓(xùn)練和識(shí)別,從而完成連續(xù)手勢(shì)運(yùn)動(dòng)軌跡的識(shí)別工作。
圖1 CRF訓(xùn)練和識(shí)別流程圖
本文手勢(shì)數(shù)據(jù)庫(kù)由10位用戶共同錄制,其中包括圖2中的4種連續(xù)手勢(shì)序列(pug Tail,Number4,Check Mark,Delete),每種手勢(shì)收集20組樣本數(shù)據(jù)進(jìn)行訓(xùn)練。在手勢(shì)識(shí)別時(shí),用戶在三維空間揮動(dòng)裝置,系統(tǒng)對(duì)實(shí)時(shí)手勢(shì)軌跡進(jìn)行識(shí)別。
圖2 手勢(shì)模板集
針對(duì)同樣的手勢(shì)庫(kù),還采用了HMM方法進(jìn)行手勢(shì)識(shí)別實(shí)驗(yàn),并與本文的CRF算法識(shí)別結(jié)果作對(duì)比,效果的對(duì)比指標(biāo)是召回率(Recall)、精確率(Precision)和兩者相結(jié)合的函數(shù)F,分別表示為:
召回率 (Recall)=正確識(shí)別的手勢(shì)個(gè)數(shù)/標(biāo)準(zhǔn)結(jié)果中的手勢(shì)個(gè)數(shù)(7)
精確率 (Precision)=正確識(shí)別的手勢(shì)個(gè)數(shù)/識(shí)別出的所有手勢(shì)個(gè)數(shù)(8)
F值測(cè)試精度的描述,同時(shí)考慮了Recall表和Precision的值,表示為:
表1為使用CRF和HMM算法進(jìn)行手勢(shì)識(shí)別時(shí),根據(jù)上述指標(biāo)收集手勢(shì)識(shí)別情況,計(jì)算均值后得到的統(tǒng)計(jì)結(jié)果。
表1
本文主要介紹了CRF算法和其在手勢(shì)識(shí)別中的應(yīng)用。由實(shí)驗(yàn)結(jié)果可知,CRF算法可以更好地描述手勢(shì)動(dòng)作序列之間的相關(guān)性,使得在手勢(shì)識(shí)別過程中有更理想的識(shí)別效果。
[1]張良國(guó),吳江琴,高文,等.基于Hausdorff距離的手勢(shì)識(shí)別[J].中國(guó)圖象圖形學(xué)報(bào),2002(11):1144-1150.
[2]Santemiz P,Aran O,Saraclar M,et al.Automatic Sign Segmentation from Continuous Signing Via Multiple Sequence Alignment[A]. 12th International Conference on Computer Vision Workshops(ICCV Workshops)[C].USA:IEEE,2009:2001-2008
[3]Probabilistic Models for Segmenting and Labeling Sequence Data[A].Proc of International Conference on Machine Learning[C].San Francisco:Morgan Kaufman,2001.
[4]C.Sminchisescu,A.Kanaujia,D.Metaxas.Conditional Models for Contextual Human Motion Recognition.Computer Vision and Image Understanding,2006,104(2):210-220.
Continuous Gesture Recognition;Condition Random Fields;Likelihood Maximization;Human-Computer Interaction
Condition Random Fields for Continuous Gesture Recognition
GENG Hai-xiao
(National Key Laboratory of Fundamental Science on Synthetic Vision,Sichuan University,Chengdu 610065)
1007-1423(2016)05-0049-04
10.3969/j.issn.1007-1423.2016.05.011
耿海霄(1990-),女,四川武定人,碩士研究生,研究方向?yàn)閳D形圖像技術(shù)
2016-01-08
2016-02-08
近年來,隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,基于非接觸手勢(shì)控制的人機(jī)交互方式在不同領(lǐng)域都得以廣泛應(yīng)用。由于連續(xù)手勢(shì)之間的相互依賴性,而傳統(tǒng)的HMM手勢(shì)識(shí)別方法必須先假設(shè)動(dòng)作序列相互獨(dú)立,對(duì)手勢(shì)識(shí)別效果會(huì)造成一定的影響。為了有更精確的識(shí)別率,在連續(xù)手勢(shì)識(shí)別過程中采用CRF算法。實(shí)驗(yàn)證明,該方法提高連續(xù)手勢(shì)運(yùn)動(dòng)軌跡的識(shí)別率,優(yōu)于傳統(tǒng)的HMM算法。
連續(xù)手勢(shì)識(shí)別;條件隨機(jī)場(chǎng);極大似然;人機(jī)交互
Recently,with the rapid development of computer science,the human-computer interaction technology based on untouched gesture control has been widely used in different fileds.The traditional Hidden Markov Model(HMM)has the assumption that the sequence of observations is mutually independent in temporal domain.However,continuous gesture is interdependent,and HMM method has some negative impact on the result.To improve the accuracy of recognition rate,in the process of continuous gesture recognition the Condition Random Fields(CRF)method are used.The experimental results show that the method effectively improve the accuracy of recognition rate and have some advantages compared with HMM method.