郭訓(xùn)力, 俞揚(yáng)
GUO Xun-Li, YU Yang
南京大學(xué) 計(jì)算機(jī)軟件新技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室, 南京 210023
National Key Laboratory for Novel Software Technology, Nanjing University, Nanjing 210023,China
隨著計(jì)算機(jī)性能的不斷提高,人們?cè)絹?lái)越多的把目光投向了人機(jī)交互方面(HCI).尤其是近些年,觸屏技術(shù)、語(yǔ)音識(shí)別技術(shù)等正在改變著人們的生活.人適應(yīng)機(jī)器的方式正在慢慢的成為過(guò)去,機(jī)器適應(yīng)人的行為獲得了越來(lái)越多的發(fā)展空間.人的手部動(dòng)作作為人與外界主要交互方式也越來(lái)越多的受到重視.
在計(jì)算機(jī)視覺(jué)領(lǐng)域,如何準(zhǔn)確地識(shí)別人手已經(jīng)得到廣泛的研究.目前,識(shí)別圖片中人手的方法主要分為基于模型的方法[1,2,3,4,5],基于幾何特征的方法[6,7,8],以及基于顏色特征的方法[9,10,11].在諸多方法中,基于模型匹配的方法首先需要將給定模型與輸入圖片中不同位置的圖像塊進(jìn)行比較,然后把最佳匹配的圖像塊作為人手區(qū)域.這種方法最為直觀,但人的手型高度可變性給定模型往往只能捕捉其中的一部分手勢(shì),對(duì)模型之外的手型卻無(wú)能為力,而且手型的變化也帶來(lái)匹配的復(fù)雜性,使得計(jì)算量大大增加.基于幾何特征的方法利用訓(xùn)練數(shù)據(jù)去擬合若干預(yù)定義的方程,該類方法要求圖片僅含有手部輪廓,沒(méi)有復(fù)雜背景,因此應(yīng)用環(huán)境受到很大制約.另一方面,在增強(qiáng)現(xiàn)實(shí)應(yīng)用的背景下,人佩戴增強(qiáng)現(xiàn)實(shí)眼鏡,如圖1所示,人手以第一人稱的角度呈現(xiàn),且往往只有人手的一部分出現(xiàn)在圖片中,此時(shí),以上兩類方法的模型就不能夠在圖片中得到匹配,也就無(wú)法完成識(shí)別任務(wù).
圖1 佩戴增強(qiáng)現(xiàn)實(shí)眼鏡的交互操作
基于顏色特征的方法主要利用顏色將手和背景分割,這種方法排除了手型變化的干擾,并且計(jì)算開(kāi)銷小,能夠滿足實(shí)時(shí)性要求.對(duì)于膚色識(shí)別已經(jīng)有很多種方法[12].最簡(jiǎn)單的方法就是設(shè)置固定閾值,這種方法的缺點(diǎn)是顯而易見(jiàn)的,即缺乏通用性.除此之外,統(tǒng)計(jì)直方圖的方法[13]作為一種在線學(xué)習(xí)的方法在視頻識(shí)別中受到廣泛研究,該方法需要人為給定一個(gè)膚色初始點(diǎn),然后不斷統(tǒng)計(jì)視頻幀序列中的顏色直方圖,從而逐漸識(shí)別視頻中的膚色區(qū)域,但對(duì)初始點(diǎn)的要求比較嚴(yán)格,而且檢測(cè)效果非常依賴于人手在視頻中出現(xiàn)的頻率.高斯密度函數(shù)法[14,15,16]作為統(tǒng)計(jì)直方圖方法的一種平滑替代,即將膚色像素點(diǎn)和背景像素點(diǎn)的直方圖用均值、方差不同的高斯函數(shù)近似替代.這類方法取得了不錯(cuò)的效果,然而計(jì)算量仍然是一個(gè)障礙.貝葉斯方法屬于非參數(shù)的方法[10,17,18,19,20],能夠獲得穩(wěn)定結(jié)果的同時(shí),避免了繁瑣的調(diào)試參數(shù),而且具有訓(xùn)練時(shí)間和測(cè)試時(shí)間短的優(yōu)點(diǎn),Antonis[10]在訓(xùn)練好的貝葉斯模型基礎(chǔ)上使用了在線學(xué)習(xí)的方法,使得識(shí)別更能夠適應(yīng)當(dāng)前環(huán)境,但單一基于膚色的方法同時(shí)也將人臉檢測(cè)了出來(lái).
本文所實(shí)現(xiàn)的系統(tǒng)即采用貝葉斯方法進(jìn)行膚色檢測(cè).在此基礎(chǔ)上,系統(tǒng)增加了一個(gè)深度過(guò)濾過(guò)程以排除預(yù)定義深度范圍之外的膚色物體對(duì)識(shí)別的影響.實(shí)驗(yàn)表明,這一深度過(guò)濾步驟較好的降低了僅僅用膚色檢測(cè)的誤識(shí)別現(xiàn)象.
在下文中,首先簡(jiǎn)要介紹貝葉斯膚色模型,然后說(shuō)明利用 HOG 特征進(jìn)行深度過(guò)濾所用的方法,最后給出實(shí)驗(yàn)結(jié)果.
用于特定顏色檢測(cè)的顏色空間有很多種選擇,常用的有RGB、YUV、HSV等.系統(tǒng)采用YUV顏色空間,因?yàn)閅UV中的Y分量對(duì)應(yīng)于亮度,由此,不考慮Y分量不僅可以減低貝葉斯自由變量的維度,也可以排除亮度對(duì)膚色識(shí)別產(chǎn)生的干擾[15].
對(duì)于采用U、V分量的貝葉斯分類器,其自由變量是二維元組c=<u,v>.假設(shè)c(x,y)表示圖像中位于坐標(biāo)(x,y)的像素點(diǎn)的顏色,P(s)表示訓(xùn)練集中像素點(diǎn)為膚色的先驗(yàn)概率,P(c(x,y))表示每種顏色元組在訓(xùn)練集中的先驗(yàn)概率,P(c(x,y)|s)表示膚色像素點(diǎn)對(duì)應(yīng)的顏色元組的概率.由貝葉斯公式[10]可以得到一種顏色元組為膚色的后驗(yàn)概率,即P(s|c(x,y)):
然后設(shè)置一個(gè)合適的閾值T,大于T則認(rèn)為是膚色點(diǎn).整個(gè)訓(xùn)練過(guò)程是在線下進(jìn)行,測(cè)試時(shí)僅僅通過(guò)計(jì)算式(1)即可.
僅僅用膚色檢測(cè)的結(jié)果往往會(huì)收到手部周圍的近似膚色物體的干擾,如圖 2所示,圖中的淡紅色花盆即被分類器判斷為膚色.所以有必要進(jìn)行深度過(guò)濾,即利用圖片的第三維信息,獲得距離攝像頭特定距離范圍的物體,而過(guò)濾掉這個(gè)范圍之外的物體.
圖2 貝葉斯膚色檢測(cè)將花盆顏色視為膚色Figure 2.Bayesian treats the color of the flower port as skin color
本系統(tǒng)對(duì)雙目攝像頭得到的左右兩幅圖片,采用視差法計(jì)算深度.由于系統(tǒng)采用的雙目攝像頭能夠保證平行放置,所以省去了攝像頭標(biāo)定和圖像校準(zhǔn)的耗時(shí)過(guò)程,僅僅計(jì)算目標(biāo)點(diǎn)在左右兩幅圖像中的視差即可.考慮到物體的輪廓能夠標(biāo)志一個(gè)物體本身,在對(duì)圖片測(cè)距時(shí),需要利用Canny算子得到二值邊緣圖片,然后僅僅針對(duì)膚色區(qū)域的邊緣點(diǎn)進(jìn)行視差測(cè)距以降低計(jì)算耗時(shí).
為了得到左右圖片中對(duì)應(yīng)點(diǎn)的視差,系統(tǒng)首先對(duì)膚色區(qū)域提取HOG特征[21].HOG用于表述圖片中物體的梯度的局部特征,在視覺(jué)領(lǐng)域被廣泛的應(yīng)用[21,22].圖3展示了一幅手部圖片和對(duì)應(yīng)的HOG特征效果圖.在左右圖片中,手指基本保持相同的梯度,且往往與背景梯度存在巨大差異,這可以保證基于 HOG的匹配能夠比較準(zhǔn)確.在得到HOG向量之后,對(duì)邊緣點(diǎn)簡(jiǎn)單的連接其本身和周圍點(diǎn)的HOG向量作為其用于匹配的特征向量.設(shè)左圖中特定的邊緣點(diǎn)為,其特征向量為.對(duì)應(yīng)點(diǎn)就是在右圖中相同縱坐標(biāo)的邊緣點(diǎn)中,搜索選定視差范圍內(nèi)與最為接近的,即
圖3 HOG特征[21]效果圖Figure 3.An illustration of HOG descriptor
圖4展示了(2)對(duì)應(yīng)的匹配結(jié)果,左右攝像頭捕獲的圖片分別為下半圖和上半圖.上半圖中黃色方框表示符合預(yù)定義的深度范圍,上下兩圖之間的綠色線條表示匹配得到的對(duì)應(yīng)關(guān)系.
圖4 采用(2)式對(duì)應(yīng)的部分匹配結(jié)果.Figure 4.An illustration of some matching results using equation(2).
實(shí)驗(yàn)使用一個(gè)擁有雙目攝像頭的增強(qiáng)現(xiàn)實(shí)眼鏡,如圖1所示,實(shí)現(xiàn)了一個(gè)實(shí)時(shí)人手識(shí)別系統(tǒng).它不需要人為的初始化圖片中的手部區(qū)域,而是直接讀入訓(xùn)練好的貝葉斯模型對(duì)圖片進(jìn)行預(yù)測(cè),其大致核心流程如圖5所示.
圖5 系統(tǒng)大致流程.Figure 5.Main procedure of the system.
深度過(guò)濾利用HOG特征[21]在左右攝像頭的圖片之間進(jìn)行匹配,根據(jù)視差判斷是否在預(yù)定義的范圍以內(nèi).圖6所示為深度過(guò)濾結(jié)果,其中(a)表示隨著手部遠(yuǎn)離攝像頭,測(cè)得的視差越來(lái)越小,在預(yù)定義范圍內(nèi)的匹配越來(lái)越少,直到整個(gè)手部都離開(kāi)預(yù)定義深度范圍.(b)所示為兩只手同時(shí)在圖片中,左手在深度范圍內(nèi),得到匹配,而右手不在深度范圍內(nèi),沒(méi)有得到匹配.
圖6 深度過(guò)濾效果.Figure 5.An illustration of depth filtering.
其中貝葉斯分類器[10]采用膚色作為識(shí)別依據(jù),對(duì)圖片中的膚色較為敏感,當(dāng)背景中除手之外還有膚色物體時(shí),檢測(cè)效果受到很大干擾.但經(jīng)過(guò)深度過(guò)濾,其檢測(cè)效果獲得很大提升.如圖7所示,(a)中的與膚色相近的門被深度信息濾掉,僅僅剩下了(b)中的手指部分.圖8是另外兩個(gè)將膚色物體過(guò)濾的例子.
圖7 深度信息過(guò)濾掉預(yù)定義深度范圍之外的膚色物體.Figure 7.With depth filtering, objects of skin color outside the predefined depth are eliminated.
在2.4GHz雙核CPU上測(cè)試,系統(tǒng)從攝像頭讀入圖片到完成識(shí)別任務(wù),所需平均時(shí)間為0.0648秒,能夠滿足實(shí)時(shí)性的要求.
圖8 深度信息過(guò)濾掉近膚色的花盆.Figure 8.The depth information filters out the flower pot of skin color.
在利用圖像的二維信息的同時(shí),利用其第三維——深度信息可以過(guò)濾掉不合適的深度范圍的物體.將這一深度過(guò)濾過(guò)程應(yīng)用在貝葉斯膚色模型基礎(chǔ)上構(gòu)建了人手識(shí)別系統(tǒng).該系統(tǒng)首先讀入訓(xùn)練好的貝葉斯膚色模型,對(duì)雙目攝像頭捕獲的兩張圖片進(jìn)行膚色區(qū)域分類,然后對(duì)這兩張圖片進(jìn)行HOG特征匹配以獲得滿足預(yù)定義視差范圍的區(qū)域,從而完成過(guò)濾,減輕了貝葉斯膚色模型的誤識(shí)別現(xiàn)象.
將來(lái),還可以考慮在線學(xué)習(xí)的方法,因?yàn)樵诰€學(xué)習(xí)可以更好的適應(yīng)當(dāng)前環(huán)境,應(yīng)該會(huì)很大的幫助識(shí)別.在應(yīng)用方面,可以實(shí)現(xiàn)如圖9所示的應(yīng)用,即系統(tǒng)能夠按照手指選擇的命令執(zhí)行相應(yīng)的操作,達(dá)到增強(qiáng)現(xiàn)實(shí)的效果.
圖9 增強(qiáng)現(xiàn)實(shí)應(yīng)用的例子.Figure 9.An example of augmented reality application.
[1]Erdem Y., Ender K., Bülent S., Jér?me D., Shape-Based Hand Recognition, IEEE Transactions on Image Processing, 2006.
[2]Anil K.J.and Nicolae D., Deformable Matching of Hand Shapes for Verification, In:Conference on Image Processing, Oct.1999:857-861.
[3]Ekaterini S., Nikos P., Hand Gesture Recognition using A Neural Network Shape Fitting Technique,Engineering Applications of Artificial Intelligence, 2009:1141-1158.
[4]Antonis A.A., Manolis I.A.L., Binocular Hand Tracking and Reconstruction Based on 2D Shape Matching, In:International Conference on Pattern Recognition, 2006:207-210.
[5]Zhiquan F., Bo Y., Yuehui C., Yanwei Z., Yi L., Zhonghua W., Research on Sampling Methods in Particle Filtering Based upon Microstructure of State Variable.Lecture Notes in Computer Science, 2008,(5226):251-257.
[6]Cenker O., Aytul E., Burak B., Combining Implicit Polynomials and Geometric Features for Hand Recognition,Pattern Recognition Letters, 2003,13(24):2145-2152.
[7]Robert T.C., Yanxi L., Marius L., Online Selection of Discriminative Tracking Features, IEEE Transactions on Pattern Analysis, 2005:1631-1643.
[8]Sushmita M., Tinku A., Gesture Recognition:A Survey, IEEE Transactions on Systems, Man and Cybernetics,2007,3(37):311-324.
[9]Vladmir V., Vassili S., Alla A., A Survey on Pixel-Based Skin Color Detection Techniques, In:International Conference on the Computer Graphics and Vision, 2003.
[10]Antonis A.., Manolis I.A.L., Real-Time Tracking of Multiple Skin-Colored Objects with A Possibly Moving Camera, In:European Conference on Computer Vision, Prague, Czech Republic, 2004.
[11]Kurata_T., Takashi O., Masakatsu K., Katsuhiko S., The Hand Mouse:GMM Hand-color Classification and Mean Shift Tracking.In Second International Workshop on Recognition, Analysis and Tracking of Faces and Gestures in Real-time Systems, July 2001.
[12]Ming Hsuan Y., David J.K., Narendra A., Detecting Faces in Images:A Survey, IEEE Transactions Pattern Analysis, 2002, 1(24):34-58.
[13]David M.S., Richard A.F., Toward Robust Skin Identification in Video Images, In:International Conference on Automatic Face and Gesture Recognition, 1996.
[14]Stephen J.Mc., Yogesh R., Shaogang G., Tracking Color Objects using Adaptive Mixture Models, Image Vision Computing, 1999,(3)17:225-231.
[15]Rick K., John R.K., Finding Skin in Color Images, In:2nd International Conference on Automatic Face and Gesture Recognition, Killington, Vermont, USA, 1996.
[16]Jian F.C., Arthur A.G., Detecting Human Faces in Color Images, Image Vision Computing, 1999,1(18):63-75.
[17]Michael I., Andrew B., ICONDENSATION:Unifying Low-level and High-level Tracking in A Stochastic Framework, In:European Conference on Computer Vision, Freiburg, Germany, 1998.
[18]Esther K.-M., Frank A., Tracking Multiple Objects using the Condensation Algorithm, Robotics and Autonomous Systems, 2001, 2(34):93-105.
[19]Navneet D., Bill T., Histograms of Oriented Gradients for Human Detection, In:IEEE Conference on Computer Vision and Pattern Recognition, 2005.
[20]Thomas S., Lior W., Stanley M.B., Maximilian R., Tomaso P., Robust Object Recognition with Cortex-like Mechanisms, IEEE Transactions on Pattern Analysis and Machine Intelligence, 2007, 3(29):411-426.
[21]Qiang Z., Shai A., Mei-chen Y., Kwang-Ting C., Fast human Detection using A Cascade of Histograms of Oriented Gradients, In:IEEE Conference on Computer Vision and Pattern Recognition, 2006.
[22]Anna B., Andrew Z., Xavier M., Scene classification via pLSA, In:European Conference on Computer Vision,2006.