韓正臣
摘要:隨著視覺技術(shù)發(fā)展的不斷更新,人們開始對(duì)手勢(shì)交互越來(lái)越青睞。這個(gè)技術(shù)不但可以解決傳統(tǒng)的信息交互的弱點(diǎn),還可以更好融合人們生活習(xí)慣。它是一種自然、和諧的人機(jī)交互方式,目前已經(jīng)有許多基于計(jì)算機(jī)視覺的手勢(shì)識(shí)別研究,但仍然存在很大的改進(jìn)和拓展的空間。手勢(shì)識(shí)別的客觀要求很高,技術(shù)限制很多,所以在實(shí)際中推廣使用普及度不高。當(dāng)前解決技術(shù)壁壘是研究的關(guān)鍵。基于膚色模型提取的方法需要根據(jù)個(gè)人的經(jīng)驗(yàn)來(lái)設(shè)置皮膚顏色的閾值。隨閾值分割圖像后,可以根據(jù)輪廓上的點(diǎn)的數(shù)量和輪廓的外接矩形的方式來(lái)查找手勢(shì)的輪廓。這些方法都還需要進(jìn)一步的改進(jìn)和完善。OpenCv開源視覺庫(kù)與VS2008開發(fā)環(huán)境相結(jié)合,通過使用靜態(tài)識(shí)別的方法正確識(shí)別了設(shè)計(jì)的幾個(gè)基本的手勢(shì),目的是通過手勢(shì)識(shí)別來(lái)代替?zhèn)鹘y(tǒng)的輸入方式實(shí)現(xiàn)一些基本操作。模型共分為四個(gè)模塊:手勢(shì)圖像捕捉、圖像預(yù)處理、特征提取以及手勢(shì)的分類識(shí)別。首先該軟件從輸入設(shè)備中采集圖像,然后根據(jù)采集的圖像生成手勢(shì)特征庫(kù)。手勢(shì)特征庫(kù)采用Hu矩作為特征,Hu矩是不變矩,它不隨圖像的平移,尺度,圖像旋轉(zhuǎn)而變化。很好解決了一般矩在圖像旋轉(zhuǎn),尺寸變化,平移的變化之后特征也變化的問題。在手勢(shì)識(shí)別過程中,對(duì)視頻的每一幀圖像進(jìn)行特征提取,然后與特征庫(kù)中的特征進(jìn)行匹配。每個(gè)人對(duì)“匹配”的要求不同,因此,本文將匹配程度作為可配置的值。每個(gè)手勢(shì)會(huì)有一個(gè)與之相對(duì)應(yīng)的指令和根據(jù)需要對(duì)應(yīng)不同的系統(tǒng)命令,這個(gè)一一對(duì)應(yīng)的規(guī)則通過配置文件確定。使設(shè)計(jì)變得更加的靈活。
關(guān)鍵詞:計(jì)算機(jī)視覺;手勢(shì)交互;膚色模型;靜態(tài)識(shí)別
中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)35-0193-02
1 研究背景
隨著信息化的高速發(fā)展,人們的生活也進(jìn)入了網(wǎng)絡(luò)時(shí)代。大數(shù)據(jù),云計(jì)算也進(jìn)入了人們的生活,其標(biāo)志性的現(xiàn)象就是各類智能終端設(shè)備的不斷涌現(xiàn),它使人機(jī)交互的方式正發(fā)生著深層次改變。人機(jī)交互的方式正在從傳統(tǒng)的鼠標(biāo)搭配鍵盤的方式往觸控、語(yǔ)音交互、動(dòng)作識(shí)別等技術(shù)為主導(dǎo)的更自然的方式轉(zhuǎn)變。其中語(yǔ)音與計(jì)算機(jī)視覺尤為突出,它使計(jì)算機(jī)變得更加的靈性化。而這兩者中計(jì)算機(jī)視覺又更能夠傳情表意,它能夠“看”明白用戶的肢體語(yǔ)言或者表情。國(guó)內(nèi)外的自然交互研究涉及了人臉識(shí)別、眼神識(shí)別、表情識(shí)別、手勢(shì)識(shí)別、肢體語(yǔ)言識(shí)別等。手勢(shì)識(shí)別作為一種人類普遍使用的交流方式,應(yīng)用在計(jì)算機(jī)交互上能給人一種直觀和自然的感覺。這種自然的輸入方式把人們從傳統(tǒng)的與輸入設(shè)備接觸交互方式中解放出來(lái),使人們與計(jì)算機(jī)交互更加的輕松愉悅。
計(jì)算機(jī)視覺是讓計(jì)算機(jī)可以替代人眼的技術(shù)。更進(jìn)一步說,就是利用視頻采集設(shè)備和電腦代替人眼對(duì)指定的目標(biāo)進(jìn)行識(shí)別,并進(jìn)一步做出計(jì)算。其中,手勢(shì)識(shí)別技術(shù)是計(jì)算機(jī)視覺的一個(gè)的重要的研究方向,它是一種常用并且合理的人機(jī)交互方式。隨著計(jì)算機(jī)視覺,包括圖像處理技術(shù)以及人工智能等技術(shù),特別是虛擬現(xiàn)實(shí)技術(shù)的迅速發(fā)展,手勢(shì)識(shí)別的實(shí)現(xiàn)更加成為可能。由于客觀環(huán)境的多變及人手和手勢(shì)的多樣性,如何在限制較少的條件準(zhǔn)確識(shí)別手勢(shì)并能保證其精度、效率以及穩(wěn)定性是研究的關(guān)鍵。
手勢(shì)識(shí)別按照手勢(shì)輸入設(shè)備分類,可以分為基于數(shù)據(jù)手套的手勢(shì)識(shí)別和基于視覺的手勢(shì)識(shí)別?;谝曈X的手勢(shì)識(shí)別中,最常見的手勢(shì)分類是將手勢(shì)分為靜態(tài)手勢(shì)和動(dòng)態(tài)手勢(shì)。靜態(tài)手勢(shì)是一種較簡(jiǎn)單的手勢(shì),當(dāng)用戶做出一個(gè)固定和靜止的動(dòng)作時(shí)計(jì)算機(jī)將其處理后識(shí)別出來(lái)。動(dòng)態(tài)手勢(shì)相對(duì)要復(fù)雜一些,它可以看做是由一系列的靜態(tài)手勢(shì)組成的序列。如果將靜態(tài)手勢(shì)和動(dòng)態(tài)手勢(shì)組合,將可以形成語(yǔ)義很豐富的手勢(shì)系統(tǒng)。
1目前人機(jī)交互的不足
人與計(jì)算機(jī)之間的交互方式是人機(jī)交互研究的核心。從現(xiàn)在的姿勢(shì)交互和語(yǔ)音交互往前追溯,有觸摸交互、手寫交互、鼠標(biāo)和鍵盤交互。姿勢(shì)交互又細(xì)分為手勢(shì)交互、表情交互、身體姿勢(shì)交互。
傳統(tǒng)的輸入設(shè)備有很多的不足之處。鼠標(biāo)和鍵盤,由于它們的使用需要接觸,在某些環(huán)境下使用不方便。用戶在車站、餐廳、購(gòu)物商場(chǎng)等場(chǎng)景下要與計(jì)算機(jī)交互時(shí),使用傳統(tǒng)交互方式十分的不便。而且在公共場(chǎng)合下,接觸性的使用會(huì)有很大的衛(wèi)生問題。不僅需要占用很大的空間,同時(shí)也會(huì)有設(shè)備損耗的問題。
手寫交互和觸摸交互改善了傳統(tǒng)的機(jī)械性輸入,它們是更符合人類的使用習(xí)慣的。但是它們?nèi)稳灰笥脩粢c設(shè)備接觸,這不免會(huì)在接觸設(shè)備的過程中損壞到設(shè)備。所以同樣有著易損耗等問題。
基于視覺的手勢(shì)交互很好克服了上述交互方式的不足之處。手勢(shì)交互是不需要接觸的,沒有損耗問題,也不會(huì)有接觸帶來(lái)的衛(wèi)生問題。手勢(shì)交互有符合人類動(dòng)作習(xí)慣和直觀自然的優(yōu)點(diǎn),使其成為了下一代自然交互方式研究的焦點(diǎn)。
2目前國(guó)內(nèi)外手勢(shì)識(shí)別狀況
基于視覺的手勢(shì)識(shí)別不需要昂貴的設(shè)備,僅僅需要攝像頭和PC機(jī)器就夠了。其廉價(jià)的輸入設(shè)備會(huì)使其將來(lái)應(yīng)用范圍十分廣泛。手勢(shì)識(shí)別在計(jì)算機(jī)視覺的研究中是熱點(diǎn)。國(guó)內(nèi)外都有很多的學(xué)者在不斷研究。這些研究在手勢(shì)的分割、跟蹤、識(shí)別和應(yīng)用中有很多的進(jìn)展。
國(guó)外對(duì)基于視覺的手勢(shì)識(shí)別的研究工作起步很早。L.H.Howe等人使用膚色閾值和幀相減的技術(shù)實(shí)現(xiàn)了手的檢測(cè)和分割。J.Zaletel等人提出了靜態(tài)手勢(shì)特征的方法,這種方法是用于提取手指的位置的。它先計(jì)算出掌心的位置,然后將掌心的位置作為極坐標(biāo)的原點(diǎn),將手掌的輪廓映射到這個(gè)極坐標(biāo),然后利用極坐標(biāo)上的局部最大值來(lái)提取手指的位置。Huang使用3D神經(jīng)網(wǎng)絡(luò)創(chuàng)建的手勢(shì)識(shí)別系統(tǒng)實(shí)現(xiàn)了15個(gè)不同手勢(shì)的識(shí)別[1]。
在技術(shù)的應(yīng)用上面,從上世紀(jì)九十年代開始,國(guó)外的科學(xué)家就開始不斷研究手勢(shì)識(shí)別技術(shù),并且研制出一些實(shí)體來(lái)進(jìn)行試驗(yàn),例如:可以模仿人進(jìn)行手勢(shì)操作的機(jī)器人;電視控制的傳感系統(tǒng),無(wú)需遙控,利用手勢(shì)識(shí)別左右上下進(jìn)行對(duì)電視的遙控;體感游戲,更是完美的利用手勢(shì)識(shí)別,在信息交互中完全釋放出手勢(shì)識(shí)別的優(yōu)勢(shì)。
我國(guó)相對(duì)于國(guó)外的研究起步要晚,但是目前也取得了很大的研究成果。朱建偉[1]使用兩個(gè)攝像頭正交放置,實(shí)現(xiàn)了三維手勢(shì)的識(shí)別,并實(shí)現(xiàn)了使用手勢(shì)實(shí)現(xiàn)對(duì)照片的瀏覽。孫玉[3]使用Hu矩特征手勢(shì)識(shí)別和CamShift算法對(duì)手勢(shì)跟蹤,實(shí)現(xiàn)了手勢(shì)對(duì)Word的輸入和操作。
3意義
本文主要研究基于視覺的手勢(shì)識(shí)別技術(shù)和對(duì)這種技術(shù)的應(yīng)用。目標(biāo)跟蹤識(shí)別是計(jì)算機(jī)視覺領(lǐng)域中的關(guān)鍵技術(shù),多應(yīng)用于人機(jī)交互。手勢(shì)識(shí)別必將使人與機(jī)器之間的溝通變得智能化、信息化,與傳統(tǒng)的輸入設(shè)備相比,手勢(shì)操作則顯得直觀和自然,更符合人類習(xí)慣。
手勢(shì)識(shí)別作為新型的人機(jī)交互技術(shù),手勢(shì)識(shí)別技術(shù)越來(lái)越廣泛應(yīng)用到各個(gè)行業(yè)。體感游戲首先成熟使用的,改變了傳統(tǒng)的手持物體操作。更加互動(dòng),真實(shí)。使得人與游戲美妙結(jié)合,身臨其境。
手勢(shì)識(shí)別還可以用于手語(yǔ)識(shí)別。手語(yǔ)是聾啞人使用的語(yǔ)言,是聾啞人與正常人交流的平臺(tái)。在醫(yī)療領(lǐng)域中,具有語(yǔ)言交流障礙的患者,可以通過手勢(shì)識(shí)別,在預(yù)設(shè)好系統(tǒng)中,自助掛號(hào),表達(dá)病情。更加體現(xiàn)人性化。綜上所述,手勢(shì)識(shí)別技術(shù)越來(lái)越被研發(fā)人員重視,在日常生活中涉及的領(lǐng)域也越來(lái)越多,研究?jī)r(jià)值也越來(lái)越突出。這項(xiàng)技術(shù)也將被廣泛的普及推廣到人們生活中的方方面面。
4結(jié)束語(yǔ)
基于計(jì)算機(jī)視覺的識(shí)別的功能還可以不斷拓展,可以實(shí)現(xiàn)攝像頭檢測(cè)人與電腦的距離(當(dāng)計(jì)算機(jī)識(shí)別出人坐在計(jì)算機(jī)前時(shí)顯示器顯示,當(dāng)人離開的時(shí)候關(guān)閉顯示器,達(dá)到節(jié)約電能的作用)等等。手勢(shì)識(shí)別還可以應(yīng)用于虛擬鍵盤,使用一個(gè)投影的鍵盤,然后通過攝像頭識(shí)別手在虛擬鍵盤上的相關(guān)操作??梢詰?yīng)用在智慧醫(yī)療中,解決傳統(tǒng)的診療掛號(hào)方式。從根本上尋找解決病人就醫(yī)難的狀況的合理方案將健康的養(yǎng)生知識(shí)傳播到更遠(yuǎn)更廣。
參考文獻(xiàn):
[1] Guan Ran and Xu Xiangmin, A Computer Vision-Based Gesture Detectio And Recognition Technique[J]. Computer Applications and Software.2013,30(1):155-164.
[2] Junyeong Choi, Jungsik Park, Hanhoon Park and Jong-II Park. iHand: an interactive bare-hand-based augmented reality interface on commercial mobile phones[J]. OpticalEngineering. 2013,52(2),027206.
[3] 任雅祥. 基于手勢(shì)識(shí)別的人機(jī)交互發(fā)展研究[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2006(7):1201-1204.