(1.浙江大學(xué)控制科學(xué)與工程學(xué)院 浙江 杭州 310000;2淮北職業(yè)技術(shù)學(xué)院計算機科學(xué)與技術(shù)系, 安徽 淮北 235000)
在移動互聯(lián)網(wǎng)時代,智能終端光學(xué)技術(shù)及人工智能的發(fā)展一直以來都是科學(xué)技術(shù)創(chuàng)新的亮點,其中應(yīng)用最為廣泛的應(yīng)該就是智能手機攝像頭像素的不斷倍增及屏幕的觸摸人機交互技術(shù)。攝像頭實現(xiàn)了大量的內(nèi)容輸入,是一種重要的人機交互媒體;觸摸屏操作方便,相比鍵盤鼠標(biāo)更自然流暢。但是,攝像頭和觸摸屏都屬于2D交互方式,現(xiàn)有的攝像頭大部分只能實現(xiàn)二維圖像的靜態(tài)拍攝,無法無法實現(xiàn)三維圖像的交互;觸摸屏上實現(xiàn)的也只是平面感應(yīng)和觸摸,即使出現(xiàn)了近年較為流行的3D Touch等新的觸控方式,人機交互依然局限于一個平面。但隨著3D成像技術(shù)的不斷發(fā)展,智能手機對真實環(huán)境信息的采集逐漸由傳統(tǒng)的二維向三維轉(zhuǎn)換,有望推動人工智能識別及光學(xué)創(chuàng)新革命。
回看人機交互的歷史,早期鉆孔指令帶、DOS系統(tǒng)+鍵盤形成的一維人機交互;Windows+鼠標(biāo)的二維交互方式推動了人類獲取信息方式的提高并開啟了互聯(lián)網(wǎng)/ PC時代;觸摸屏和攝像頭開啟了移動互聯(lián)網(wǎng)和智能手機時代;而到了以AR為代表的下一代云計算平臺則迫切需要人機能夠?qū)崿F(xiàn)全方位立體對話,這是由AR設(shè)備的定義所決定的:AR技術(shù)指的是利用計算機視覺技術(shù)和人工智能技術(shù)來制造不存在于物理世界中的虛擬物體,并將虛擬物體準(zhǔn)確地放置在現(xiàn)實世界中,通過更自然的交互,讓用戶將獲得一個更具感知效果的新環(huán)境。由于實際環(huán)境是3D的,所以AR也需要生成三維虛擬對象,并把3D的虛擬對象疊加顯示在現(xiàn)實的物理環(huán)境中,這就要求AR設(shè)備必須實現(xiàn)3D的輸入和輸出。而且,AR需要大量信息數(shù)據(jù)的導(dǎo)入,智能終端的人機交互方式也要向更加高效、更低學(xué)習(xí)成本、更加自然的方向發(fā)展。所以,有理由相信在不久的將來實時3D交互設(shè)計會在人類生活中被廣泛應(yīng)用:精確的人臉識別可以用于解鎖支付,精確的手勢和動作識別可用于家庭游戲娛樂,精確的建??梢允咕W(wǎng)上購物更有效率。
拍照一直以來都是智能手機的重要賣點,可以說像素和拍照性能是衡量手機功能的重要指標(biāo)。以大家熟悉的IPhone蘋果手機為例,無論前置、后置攝像頭的性能指標(biāo)都遠遠超過其他配件。但是,雖然手機光學(xué)部件性能有了很大提高,采用的依然是傳統(tǒng)的二維成像原理:即把真實三維世界的圖像信息映射到CMOS光敏元件來實現(xiàn)成像,手機攝像頭內(nèi)部模組構(gòu)成見圖1。
圖1 手機攝像頭模組組成
2.2.1 結(jié)構(gòu)光(Structure Light)技術(shù)
結(jié)構(gòu)光是將特定光投射到物體表面,然后由攝像頭進行數(shù)據(jù)信息采集,依據(jù)物體反射引起的光信號變化,計算出現(xiàn)實物體的位置、深度等信息,從而復(fù)原重建整個三維空間[5]。結(jié)構(gòu)光三維成像實際上就是利用特定光源照射被檢測物體,進而獲取物體三維空間信息的技術(shù)。其主要技術(shù)方案是在物體表面映射載頻條紋,成像裝置從另外一個視角記錄被成像物體表面經(jīng)過高度調(diào)制并反射的可變形條紋圖像,接收的圖案必定會因物體表面的空間形狀而發(fā)生變形,這樣就可以得到物體的表面形狀和深度等信息,最終從獲取的變形條紋圖中進行數(shù)模轉(zhuǎn)換和重建被測物體真實的三維圖像,圖2為真實空間中利用結(jié)構(gòu)光在人手模型上形成的散斑效果。
圖2 結(jié)構(gòu)光效果圖
結(jié)構(gòu)光深度計算的方式也有很多種,最具代表性的是Light Coding方案。Light Coding的光源被稱為“激光散斑”,由紅外激光發(fā)生器輸出激光束,通過衍射光學(xué)元件DOE(Diffractive Optical Elements)進行衍射,進而得到所需的散斑圖案。Light Coding透過Diffuser(光柵、擴散片)發(fā)射940nm波長的近紅外激光,并均勻地分布在測量空間(測量空間在測量前已被劃分為若干個標(biāo)記參考面),然后通過紅外攝像機對參考面上的每一個散斑圖案進行記錄,從而形成基線校準(zhǔn)。在獲得以上原始數(shù)據(jù)后,IR利用傳感技術(shù)對被測物體調(diào)制后的激光散斑pattern進行信息捕捉,由此分析計算已知pattern與接收pattern在空間(x,y,z)上的偏移量,從而計算出物體的位置和深度等信息,復(fù)原整個三維空間。
2.2.2 TOF(Time Of Flight)技術(shù)
TOF是利用專用傳感器判斷物體的空間、距離等三維立體信息,該傳感器可以捕捉并獲取從發(fā)射端到接收端的近紅外光的飛行時間。TOF是一種主動式深度傳感技術(shù),其工作過程就是將紅外測量光連續(xù)調(diào)制到目標(biāo)場景,當(dāng)發(fā)射光束到達目標(biāo)時,一些反射光將返回到原始路徑并被儀器檢測器接收,根據(jù)光的飛行時間和光的速度,可以計算光源與被測物體之間的距離[8]。如圖3所示,假設(shè)Δφ為發(fā)射信號與測量返回信號的相位差,f為發(fā)射脈沖波形的頻率,c為光速,則TOF攝像機與目標(biāo)物體之間的距離計算公式為:
圖3 TOF原理
2.2.3 雙目測距技術(shù)
雙目測距與人眼成像的原理相似,由兩個攝像頭在真實的自然光中進行圖像拍攝,并根據(jù)三角形原理計算獲取被測物體深度信息,具體工作原理見圖4。雙目測距過程通常包括雙目標(biāo)定、圖像校正、立體匹配、三維測量。當(dāng)雙目攝像機獲取左右圖像時,由于鏡頭安裝和制作工藝等因素的影響,成像結(jié)果會發(fā)生畸變。因此,對攝像機參數(shù)進行立體標(biāo)定是很有必要的,通過雙目標(biāo)定得到攝像機的內(nèi)外參數(shù),能夠精確調(diào)整圖像失真及進行其它圖像校正操作,并且通過對攝像機焦距和基線參數(shù)進行標(biāo)定完成實際距離的計算[9]。
圖4 雙目測距原理
Kinect采用PrimeSense結(jié)構(gòu)光方法,硬件上主要是通過三個鏡頭相互組合而成。置于中間的是RGB彩色攝像機,用于拍攝、記錄真實世界中的對象模型;位于鏡頭兩側(cè)的是由紅外CMOS相機及紅外激光發(fā)射器組成的三維結(jié)構(gòu)深度傳感器,用于收集深度數(shù)據(jù),硬件布局見圖5。同時,Kinect也與聚焦技術(shù)相融合匹配,當(dāng)進行聚焦移動時基本電機也將隨之移動。Kinect還裝配了由四個麥克風(fēng)控制組成的陣列麥克風(fēng),通過聲音數(shù)據(jù)的分析采集實現(xiàn)聲源的定位和語音的識別,并相互之間進行比對去除噪聲[10]。
圖5 Kinect 1.0鏡頭硬件組成
PrimeSense的結(jié)構(gòu)光方案是通過Infrared Projector發(fā)射一副具有三維深度的“立體”編碼近紅外激光(光源通過準(zhǔn)直鏡頭和DOE器件形成衍射光斑),再通過接收端的Infrared camera收集經(jīng)人體反射回來的紅外光線。這種光斑的分布具有高度的隨機性,而且形成的圖案隨著距離的不同會出現(xiàn)變化。也就是說,在同一空間內(nèi)任意兩個位置所形成的散斑圖案不盡相同。在物體進行三維重建時,先在空間中打入以上所述的結(jié)構(gòu)光,并對被照射到的空間進行標(biāo)記,然后當(dāng)把物體放置在這個空間中,物體的具體位置就可以通過物體上的散斑圖案的變化而獲取。當(dāng)然,保存空間的背景校準(zhǔn)數(shù)據(jù)是第一要素,假設(shè)Kinect定義的空間是距顯示設(shè)備14m的距離范圍,且每隔10cm作為一個參考平面,這樣就可以得到30個標(biāo)記保存的散斑圖像。測量時先選定拍攝一副可作為基準(zhǔn)參考對象的散斑圖像,然后將標(biāo)記過的整幅圖象與基準(zhǔn)數(shù)據(jù)對象進行運算,就可以獲得30幅相關(guān)度圖像,而空間場景中目標(biāo)物體真實存在的地理位置信息會顯示在相關(guān)圖像的峰值上,對這些峰值進行相互疊加及插值運算,就可以還原整個場景的三維形狀。
Project Tango原型機包含4顆后置攝像頭,分別是普通400萬像素RGB攝像頭,用于3D成像的紅外發(fā)射器和紅外接收器,以及一顆魚眼鏡頭用于動作捕捉。Tango主要利用傳感器和攝像頭進行三維實時建模,具備廣泛的應(yīng)用場景,包括繪制3D地圖,3D實景成像,在家庭環(huán)境中進行擬真3D游戲等,圖6 為Tango進行實時室內(nèi)建筑3D成像的效果圖。
圖6 Tango室內(nèi)實時三維成像效果圖
PrimeSense被蘋果收購后,Google在Tango商用機上改用TOF進行3D 成像:最上方是三星RGB CMOS攝像頭,用于常規(guī)拍照;最下方是OV魚眼鏡頭,用于動作捕捉;兩者之間則是采用TOF系統(tǒng)構(gòu)成的攝像頭。為了提供三維場景,三種攝像頭各司其職,并與其它傳感器“合作”,以實現(xiàn)下列功能:
1)運動跟蹤(運動跟蹤):通過裝有多種傳感器的移動設(shè)備,在不跟蹤外部信號的情況下,實時地獲取設(shè)備的位置和姿態(tài),并對其在三維空間中的運動軌跡進行追蹤。Tango創(chuàng)新性地采用了攝像頭與慣性測量單元(IMU)相結(jié)合的方法來實現(xiàn)精確的運動跟蹤。
2)區(qū)域?qū)W習(xí):利用人類感知信息記錄和索引周圍環(huán)境,對空間環(huán)境的構(gòu)建和運動跟蹤中累積的錯誤進行自動糾正,并能夠合并重復(fù)的環(huán)境。該功能特性描述起來雖然簡單,但是真正實施起來確是很復(fù)雜的一個過程:首先感應(yīng)設(shè)備會提取所拍攝的每幅照片的特征,然后使用一些有效的存儲和搜索算法來確定新幀是否與先前拍攝的環(huán)境相似,如果匹配是準(zhǔn)確的,設(shè)備可以立即使用先前收集的環(huán)境信息。
3)深度知覺(Depth Perception):利用三維飛行時間攝像頭實現(xiàn)對外部空間環(huán)境的不間斷掃描,以掃描的數(shù)據(jù)信息為基礎(chǔ)建立三維模型,然后跟蹤運動軌跡,確定空間內(nèi)設(shè)備的位置和周圍障礙物的距離。
3D成像是一種借助光學(xué)、傳感設(shè)備、人工智能等多種學(xué)科相互融合滲透而發(fā)展起來的一門綜合三維成像技術(shù),隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)及大數(shù)據(jù)技術(shù)的創(chuàng)新應(yīng)用和發(fā)展,3D成像在智能終端特別是移動終端的人機對話設(shè)計中正引發(fā)鏈?zhǔn)酵黄苿?chuàng)新,確立了真實與虛擬世界之間的相互聯(lián)系,為感知數(shù)據(jù)采集、大數(shù)據(jù)應(yīng)用、人機協(xié)同增強智能等提供了真實的三維數(shù)據(jù)源,很大程度上提高了3D成像在AI和AR等前言技術(shù)的應(yīng)用效果。