呂 昊 張成元*
(山東科技大學(xué)泰安校區(qū),山東 泰安271000)
同時使用投影儀和攝像機,然后再借助特殊處理設(shè)備進行二者之間的運算,建立二者之間聯(lián)系。這樣的系統(tǒng)就可以稱之為投影儀攝像機系統(tǒng)。投影儀攝像機系統(tǒng)的應(yīng)用在以下四大領(lǐng)域有著極為廣泛的應(yīng)用:第一增強現(xiàn)實與虛擬現(xiàn)實領(lǐng)域,第二自校正顯示領(lǐng)域,第三3D 結(jié)構(gòu)獲取領(lǐng)域,第四自然人機交互領(lǐng)域。
最初的增強現(xiàn)實系統(tǒng)經(jīng)常使用頭盔式或者眼鏡式顯示方式,通過控制整個視野的景象來增強用戶的浸入式體驗。但是,這種顯示器需要隨著頭部的轉(zhuǎn)動而轉(zhuǎn)動,所以就存在著笨重、不方便佩戴的缺陷,而且還需要結(jié)合用戶的體型特點進行針對性定制。而用戶體驗也不是很理想,普遍反應(yīng)有頭暈等不適癥狀。之后,環(huán)形銀幕的誕生使得現(xiàn)實設(shè)備與用戶身體進行了分離。與傳統(tǒng)的顯示設(shè)備相比,投影的應(yīng)用優(yōu)勢非常突出。例如,調(diào)整尺寸可以與實際情況更貼合;投射內(nèi)容已經(jīng)不再局限于平面,非平面也可以實現(xiàn)內(nèi)容的投射;多部投影的協(xié)同有效消除了用戶被侵入的感覺。近幾年來,基于投影儀的增強現(xiàn)實系統(tǒng)也成為相關(guān)技術(shù)領(lǐng)域的研究熱點。同時,個人電腦硬件成本越來越低、投影成本越來越低、性能越來越穩(wěn)定,基于投影儀的增強現(xiàn)實系統(tǒng)的應(yīng)用也越來越廣泛,例如博物館的互動投影、軍事領(lǐng)域的投影模擬作戰(zhàn)系統(tǒng)等。投影儀相對單一,只具備顯示功能,功能略顯單一,與智能人機交互還有很大的區(qū)別。將投影儀和攝像頭、計算機融合在一起,進行投影儀攝像機系統(tǒng)的構(gòu)建,就可以提升其對環(huán)境的主動適應(yīng)能力,增強其對人體動作以及指令的響應(yīng)能力。
攝像頭在投影儀攝像機系統(tǒng)中的應(yīng)用,可以達到投影儀自校正顯示的目的,即不僅可以進行單臺投影儀的失真自動校正,還可以進行多臺投影儀的自動拼接顯示。因為針對投影面來說,要想獲取紋理信息和幾何信息,攝像頭發(fā)揮著重要的輔助作用,可以保證投影顯示系統(tǒng)中必要注冊技術(shù)的實現(xiàn)。針對多投影拼接顯示,最重要的就是各投影儀之間的協(xié)調(diào)與管理,重疊區(qū)域的幾何校正以及光度校正。只有做好以上幾點,才能夠合理的處理投影圖像與攝像機平面之間的幾何映射建立等問題,實現(xiàn)近似于單臺大型投影投射效果的無縫拼接。
另外,投影儀攝像機系統(tǒng)的應(yīng)用,還體現(xiàn)在自然人機交互系統(tǒng)的構(gòu)成方面。近幾年來,數(shù)字?jǐn)z像機投影儀成本日益減小、尺寸日益縮小,人機交互領(lǐng)域的研究也開始向投影儀攝像機系統(tǒng)轉(zhuǎn)移。投影儀可以作為可控輸出的光源,進行反饋圖像的輸出。而攝像機則發(fā)揮著傳感器的作用,即第一,對用戶需求進行獲取,第二,對場景當(dāng)前狀態(tài)進行獲取。而這正是實現(xiàn)用戶與系統(tǒng)多形式互動的基礎(chǔ)。
近幾年來,人們將研究重點集中到了以手勢為基礎(chǔ)的自然人機交互系統(tǒng)方面。學(xué)術(shù)界和工業(yè)界也研發(fā)出了很多與自然人機交互系統(tǒng)有關(guān)的應(yīng)用?,F(xiàn)階段,以手勢為基礎(chǔ)的人機交互系統(tǒng)主要涉及以下幾方面的技術(shù):第一,手的檢測分割技術(shù),第二,動態(tài)和靜態(tài)手勢分劃與識別技術(shù),第三,反饋和自我學(xué)習(xí)技術(shù)。
對于基于手勢的人機交互系統(tǒng)來說,手的檢測分割發(fā)揮著基礎(chǔ)性作用。尤其是獲得用良好用戶體驗的裸手檢測,得到了相關(guān)領(lǐng)域的廣泛關(guān)注。但是,因為人手形態(tài)具有一定的不確定性,投影儀攝像機系統(tǒng)具有一定的特殊性,所以裸手檢測非常復(fù)雜。投影儀不僅可以將相對極端的光線投射出來,還可以保證投影內(nèi)容色彩的豐富性。但是大多數(shù)的投影內(nèi)容都是不斷運動的,所以以運動檢測為基礎(chǔ)的方法能夠發(fā)揮的作用就比較有限,甚至以機器學(xué)習(xí)為基礎(chǔ)的檢測器也無法適應(yīng)手形態(tài)以及顏色的多變性。
目前,國內(nèi)在已經(jīng)提出了一種連續(xù)變形手勢的跟蹤方法,且無需人工干預(yù),專門用于實時交互中變形手勢的跟蹤。首先,針對原本復(fù)雜的三維模型,使用低維度的二維模型替代,之后針對所提取的圖像特征,利用輪廓提取和圖像分割,與識別后的手勢模型進行匹配,達到跟蹤模型自動初始化的目的。之后,再借助Camshift 算法來進行手的跟蹤,通過聚類算法與粒子濾波的結(jié)合,實現(xiàn)多個手指尖的同時跟蹤,然后結(jié)合跟蹤結(jié)果確定跟蹤模板更新的必要性。
為了提升手勢操作的精細(xì)性,尤其是涉及到選取模擬鼠標(biāo)、多點觸摸等操作單時候,必須要精準(zhǔn)的提取指尖信息。常用的之間信息提取技術(shù)路線主要有兩種:一種是依賴于標(biāo)記的技術(shù),另一種是通過手指形態(tài)來進行裸手指尖提取的技術(shù)。首先,標(biāo)記法,指的是提前在操作手指或其指尖上做出記號,然后借助最簡單的方式進行指尖位置的獲取。例如,在“Magic Table”系統(tǒng)的應(yīng)用中,操作者可以通過指尖推動色塊的方法來進行指尖的檢測與跟蹤。另外,還可以讓操作者帶上顏色標(biāo)記,也可以直接對手指進行染色,然后對指尖實施定位跟蹤。例如,在“Six Sense”交互系統(tǒng)的應(yīng)用中,使用的是顏色標(biāo)記法,即讓使用者對指尖進行標(biāo)記,然后利用攝像頭直接對各個指尖進行捕捉和識別。這樣,在手勢識別與攝像頭輸出的共同作用下,就可以獲得良好的交互體驗。
雖然標(biāo)記的方法不必對手進行分割檢測,提升了手指定位與跟蹤的便捷性。但是因為侵入性和不便性太高,而影響了用戶體驗。如果背景中出現(xiàn)與標(biāo)記相近的顏色,手指定位誤差還會升高。在這種情況下,裸手的手勢識別則表現(xiàn)出了非常明顯的優(yōu)勢:第一易用性好、第二自然度高、第三可以獲得良好的用戶體驗。所以,無論是在國內(nèi),還是在國外,都有著良好的用戶體驗。
現(xiàn)階段,無標(biāo)記的指尖檢測可以通過手指的形態(tài)特點,在已經(jīng)大概提取出手的輪廓的基礎(chǔ)上,進行指尖檢測。即通過Camshift 進行手的輪廓的大概獲取,然后再對多個指尖進行跟蹤。然后先前景分割,再在顏色與邊緣信息的作用下進行指尖信息的獲取,然后通過小范圍內(nèi)的搜索進行指尖的跟蹤。但是,需要注意的是,這種手的提取方法代表著其對于相關(guān)背景的依賴性非常高,而現(xiàn)階段的系統(tǒng)只能進行一個指尖的跟蹤。由于這種技術(shù)的局限,所以只能在某種特定的工作環(huán)境中使用。
一般情況下,手勢是基于視覺的自然人機交互系統(tǒng)最佳的輸入方式。人類可以通過手勢來表達自己的意愿,所以也可以通過相應(yīng)的手語系統(tǒng)來進行任何語句的表達。手勢識別系統(tǒng)主要涉及以下兩種:一種是靜態(tài)手勢識別,另一種是動態(tài)手勢識別。所謂靜態(tài)手勢,指的是通過單個手的形態(tài)來進行相關(guān)語義的表達,然后識別系統(tǒng)再將手的形態(tài)特加以采集,并將其與已知庫中注冊樣本進行匹配,最終給出手勢所要表達的語義。而動態(tài)手勢則包含一系列手的軌跡,所以要想明白動態(tài)手勢的含義,就必須要識別其空間特點以及時間特點,例如速度、方向等。只有這樣,才能夠?qū)σ粋€動態(tài)手勢的含義進行描述。對于人手來說,指尖中蘊含著十分豐富的信息。所以對于桌面式的人機交互系統(tǒng)來說,指尖的檢測與提取具有十分重要的作用。在桌面式系統(tǒng)中,我們通過攝像機可以發(fā)現(xiàn)人手中的很多細(xì)節(jié),但是如果將整個手掌都出現(xiàn)在攝像機視野中,那么將會因為占據(jù)區(qū)域過多而不利于各種精細(xì)化手勢的操作。所以,利用指尖來完成類似觸摸屏的操作,更加受到桌面式系統(tǒng)的認(rèn)可,例如手指書寫系統(tǒng)、虛擬鍵盤等系統(tǒng)就對手指上對應(yīng)特征點的運動信息進行了充分的應(yīng)用,并實現(xiàn)了后續(xù)更加精準(zhǔn)的識別與交互。當(dāng)檢測到手指之后,還需要對手指位置和手勢的運動信息進行跟蹤獲得,為后續(xù)的手勢識別打好基礎(chǔ),從而通過驗證識別多個指尖的相對位置來開展相應(yīng)的交互操作。近幾年來,國內(nèi)外的科研人員在指尖檢測以及基于手指的交互系統(tǒng)方面取得了十分豐富的研究成果,但是在裸手指尖檢測方面的研究,依然面臨著巨大的挑戰(zhàn)。究其原因,與其他目標(biāo)檢測跟蹤問題相比,指尖檢測還有以下幾方面的問題始終沒有攻克。
(1)在利用手部區(qū)域冗余信息方面,還有很多技術(shù)難題。例如,對于基于指尖的交互系統(tǒng)來說,空間會被手掌或者手背占據(jù)。而這就會對基于膚色的檢測系統(tǒng)產(chǎn)生影響,增大指尖部位的檢測難度。
(2)為了確保手勢操作可以順利的完成,通過會在三維空間中進行整個手動作的操作。這樣,我們不僅要獲取指尖的位置,還要獲取更加深度的信息。在這種情況下,常規(guī)的立體視覺或者結(jié)構(gòu)光方法因為以下幾方面的限制,并不適用:第一模型相對復(fù)雜,會產(chǎn)生較大的計算開銷,且達不到實時交互的相關(guān)要求;第二對于設(shè)備有著特殊的要求,所以在硬件方面的投入成本較大,且使用方面不夠便捷。如果讓整個手在二維空間中運動,那么就會出現(xiàn)手指互相遮擋的現(xiàn)象,再加上觀察角度不同,指尖檢測結(jié)果也就得不到保證。
(3)在真實交互當(dāng)中,部分用戶還會出現(xiàn)一些無意識的手指動作。在這種情況下,要想準(zhǔn)確的了解用戶的真正意圖,還需要有效的區(qū)分手指的隨機動作以及有效操作。而這就需要對手指的運動歷史進行持續(xù)性的記錄,最大限度的排斥用戶產(chǎn)生的無意識動作。另外,手指檢測還受到環(huán)境因素的影響,如果檢測背景存在著較多的不確定因素,光照變化較大,手指陰影較為嚴(yán)重,那么手指檢測系統(tǒng)的通用性就會受到影響。
目前,基于計算機視覺指尖檢測的人機交互系統(tǒng)已經(jīng)被研發(fā)出來。例如,"Finger Mouse","Finger Paint"等都是可以在普通表面上,通過指尖檢測來進行觸摸屏操作的模擬。而且與傳統(tǒng)的觸摸屏幕相比,表現(xiàn)出來很大的不同:第一可以利用圖像采集設(shè)備進行相應(yīng)場景中手指運動信息的直接獲取,然后再利用計算機對用戶的真實意圖進行明確;第二,無需利用紅外設(shè)備和觸覺傳感設(shè)備,整體適應(yīng)性較強,任何表面都可以進行觸摸操作,系統(tǒng)成本較低。
所謂手指基元,指的是通過Calar MB 和Lobo N 進行單個手指的建模,對手指進行描述時,只需使用一組平行線和一段弧線。針對已經(jīng)完成檢測的手指基元,還需要利用決策樹進行分組,將決策樹進行合并輸出,就獲得了最終的手指檢測結(jié)果。但是這種方法的應(yīng)用缺點是計算太過復(fù)雜,在實時系統(tǒng)中的應(yīng)用存在較大難度。在這種情況下,基于單目視覺的Visual Panel系統(tǒng)被Zhang 研發(fā)出來。這種系統(tǒng)可以在任何一塊矩形面板上進行輸入設(shè)備的模擬,并與計算機進行交互,而在矩形面板上移動手指,就是鼠標(biāo)行為的模擬。Visual Panel 系統(tǒng)的應(yīng)用正是借助于矩形板的作用,才使得背景的復(fù)雜程度得到了大大的降低,提升了之間檢測跟蹤的便捷性與高效性。但是這種系統(tǒng)的應(yīng)用缺點也非常明顯,即系統(tǒng)的應(yīng)用范圍被局限在矩形板上?!癡isual Touchpad”是被Malik 研發(fā)出來的,這種系統(tǒng)可以對指尖能否在矩形紙板表面上停留進行了準(zhǔn)確的判斷,這樣就可以對鼠標(biāo)點擊效果進行模擬。而要想獲取更加深入的信息,則需要加強雙攝像頭的應(yīng)用。
在運動過程中,雖然無法固定整個手的形態(tài),但是并不影響手指性狀特點的穩(wěn)定性。所以,針對各種指尖檢測問題的解決,可以從指尖形態(tài)方面入手。但是,要想分析指尖形態(tài),還需要先將其從整個手區(qū)域中進行分割提取。所以,在攻克指尖檢測難題的時候,還需要先解決以下兩方面的難題。第一采用何種方法才能將手指區(qū)域的輪廓進行準(zhǔn)確的分割,第二檢測指尖的時候應(yīng)當(dāng)選擇什么樣的形狀特點。
在平面上,手指運動的形狀特點是基本不變的,所以可以將整個指尖視為平行線與圓形基元的組合。如果將二值化得到的目標(biāo)區(qū)域設(shè)置為1,背景區(qū)域設(shè)置成0,那么指尖區(qū)域則表現(xiàn)出了兩大特點:第一指尖末端與圓形非常接近,且直徑與手指寬度相同;第二將指尖外接圓圓心視為中心點,在一定搜索范圍內(nèi),絕大多數(shù)的非1 像素和絕少數(shù)的非0 像素構(gòu)成了一個閉合區(qū)域,將指尖僅僅的包圍住。
以這種形態(tài)特點為靈感,可以研發(fā)出一種快速的指尖檢測方法。首先,二值化圖中存在著區(qū)域都可能成為圓形,可以通過快速原型檢測算法對這些區(qū)域進行獲??;其次,對獲取到的圓形區(qū)域進行篩選,找出符合要求的圓形中心,而這就是最終檢測的之間位置。但是,指尖知識近似于圓形,并不是完整的圓形,所以常規(guī)的圓形檢測算法無法有效解決這一問題。因為指尖是近似于半圓和矩形的結(jié)合,所以對其進行進一步觀察,我們可以發(fā)現(xiàn)半圓中的指尖有著徑向?qū)ΨQ的特點,版員外的手指部分也有一定的對稱特點。在這種情況下,完善適合通過指尖的對稱性來展開相應(yīng)的檢測工作。之后再通過實驗對比和徑向?qū)ΨQ方法,就可以將指尖徑向累計梯度計算出來。針對已經(jīng)分割好的手前景區(qū)域,還需要進行一定的預(yù)處理,獲取相應(yīng)的梯度圖,再以變換徑向?qū)ΨQ的方式獲取指尖位置。然后再通過指尖顏色信息的差異性進行逐一排除。
本文首先對投影儀攝像機系統(tǒng)、手勢交互系統(tǒng)中手的檢測分割、指尖提取的研究進展與應(yīng)用進行了詳細(xì)的分析,其次對幾種常見的指尖檢測方法進行了描述。最后重點描述了徑向?qū)ΨQ與指尖檢測將結(jié)合的方法,并提出了一種全新的候選點排除方法。這種方法的應(yīng)用,只需要合理的把握手指的形狀特點,就可以有效排除手掌上類似指尖的可疑點。指尖檢測方法更加簡單、適用,有著廣闊的發(fā)展前景。