宋克凡
哈爾濱師范大學(xué)附屬中學(xué),黑龍江哈爾濱 150080
全息視頻會(huì)議研究
宋克凡
哈爾濱師范大學(xué)附屬中學(xué),黑龍江哈爾濱 150080
目的:不同于現(xiàn)有3D視頻和3D模擬會(huì)議室,通過實(shí)現(xiàn)3D虛擬對面視頻通話,該方法增加通過互聯(lián)網(wǎng)遠(yuǎn)程聯(lián)系的對象之間交流的親密性以及視頻清晰度。方法:結(jié)合增強(qiáng)現(xiàn)實(shí)頭戴設(shè)備及3D遠(yuǎn)程拍攝裝置。結(jié)果:可實(shí)現(xiàn)虛擬3D視頻會(huì)議。
全息投影;3D視頻會(huì)議;增強(qiáng)現(xiàn)實(shí)
現(xiàn)實(shí)生活中,人們之間交流的最主要且最重要的方式為語音通話。人們可以依此直觀快速的表達(dá)觀點(diǎn)傳遞信息。然而視頻通話先已因互聯(lián)網(wǎng)設(shè)備的普及而助手可得,卻遲遲未成為主流通訊方式,不僅僅因?yàn)樗钄?shù)據(jù)流量較多(大多數(shù)固定生活地點(diǎn)覆蓋wifi),因?yàn)橥ㄔ捳咧車h(huán)境可能涉及隱私,亦或是視頻通話時(shí)所傳遞的信息并不比語音通話所傳遞的顯著增多,且最主要的是與通話是手機(jī)貼近耳朵不同,遠(yuǎn)程視頻通話無法給使用者顯示出距離感,大多數(shù)人們通過手機(jī)大小的平面屏幕觀看一個(gè)活動(dòng)幅度較小的動(dòng)態(tài)頭像。而人類之間交流很主要的一個(gè)元素即為領(lǐng)地意識,通過個(gè)體之間的距離,或是身體的傾向,可以潛移默化的影響人們之間關(guān)系的疏密。而普通視頻通話拉近距離時(shí)僅能在一個(gè)距離使用者任意距離的小屏幕上看到一個(gè)被扭曲的面孔,更無法實(shí)現(xiàn)握手甚至擁抱等等的肢體交流。因此在一些人們之間關(guān)系需要強(qiáng)烈緊密交織的場景,譬如商業(yè)談判或是朋友聚會(huì),愛人之間的約會(huì),都需要正式的,線下的接觸與交流,只為獲得更多直觀的細(xì)節(jié)。
大量實(shí)驗(yàn)證明3D的交流可以更加全面完整的模擬人們?nèi)粘5娜穗H交往,因此可以使聊天者獲得更高的使用滿意度。基于此,實(shí)現(xiàn)全真模擬先下交流的工具急需研發(fā)。
2.1 3D拍攝方法
人類視覺系統(tǒng)主要通過兩種方式實(shí)現(xiàn)3D識別,其一為物體或視角的移動(dòng),此方式為大多數(shù)共有,甚至部分動(dòng)物僅能識別運(yùn)動(dòng)的物體進(jìn)而感知深度。但依賴這種方式僅能獲取大致的位置信息,并且物體的大小很難有直觀的判斷。并且人們在視頻通話當(dāng)中身體的移動(dòng)幅度不大,同時(shí)缺乏其他運(yùn)動(dòng)物體以相對比較,因此在2D屏幕之下視頻時(shí),人們很難將這些信息完美的在大腦中還原成立體影像,影響通話的真實(shí)性。另一種3D識別方式即為雙目視覺,通過兩只眼睛在不同角度獲取圖像,人類的大腦可以通過比對這兩組圖像之間的差異直接感知深度,利用三角法確定物體相對自身的大小,且可以獲取更加豐富的信息以合成3D模型。
然而因目前3D掃描技術(shù)扔很難實(shí)現(xiàn)實(shí)時(shí)的對動(dòng)態(tài)對象的掃描。多個(gè)攝像機(jī)同步實(shí)時(shí)建模的運(yùn)算量過大,普通的個(gè)人計(jì)算設(shè)備只能靠大幅度降低清晰度和幀數(shù)以實(shí)現(xiàn),無法增強(qiáng)原有2D視頻的用戶體驗(yàn)。雖然可以使用單一攝像機(jī)利用運(yùn)動(dòng)識別3D的原理進(jìn)行掃描建模以減少數(shù)據(jù)總量,但依靠運(yùn)動(dòng)速度建模也遠(yuǎn)遠(yuǎn)達(dá)不到實(shí)現(xiàn)幀數(shù)正常的視頻通話。如若本系統(tǒng)僅利用立體攝像機(jī)而非多攝像頭的3D掃描儀,同于觀看實(shí)時(shí)的3D電影,因此可以巧妙的避免計(jì)算機(jī)的巨大運(yùn)算量,而利用人腦合成最終的3D影像。
僅使用兩個(gè)攝像頭,一左一右平行放置,距離接近正常人瞳距的平均值,而攝像頭視角也應(yīng)接近人類視角水平120°,垂直60°以保證圖像始終在視野范圍之內(nèi)。應(yīng)實(shí)現(xiàn)可以將左眼正常做看到的周圍環(huán)境完全覆蓋掉,而顯示此錄像設(shè)備的左側(cè)攝像機(jī)畫面,而右眼所應(yīng)看到的畫面也可被相應(yīng)的攝像機(jī)所取代,相當(dāng)于將兩只眼睛遠(yuǎn)程移動(dòng)到了攝像機(jī)的位置,因此可以看到真切的圖像。
2.2 3D顯示方法
顯示端雖然可以使用任何3D顯示器,但大多都有較為嚴(yán)重的缺點(diǎn)。裸眼3D:立體效果不佳,像素密度大多不是很高,且觀看者不可以大幅度的左右移動(dòng),也對觀看距離有所限制,以上特點(diǎn)是使用者位置過于固定,很有可能阻礙通常交流的正常進(jìn)行。普通偏振3D顯示器以及互補(bǔ)色式3D(anaglyphic 3D):不僅需要佩戴透光率較低的眼鏡,而且所看到對象的大小需要依賴屏幕的大小而決定,還原1:1比例的人所需的屏幕大小因現(xiàn)有3D屏幕大多非透明,只能使用大于對象大小的屏幕實(shí)現(xiàn)立體效果融入到周圍環(huán)境,不然透過一個(gè)較小的屏幕觀看將擋住周圍大部分環(huán)境信息以實(shí)現(xiàn)3D面對面通話效果,而且攝像機(jī)的擺放位置也較為尷尬,只能放置在不被屏幕遮擋的視線之內(nèi),而放置于屏幕與觀看者之間不僅會(huì)擋住用戶觀看屏幕的視線,而且會(huì)使拍攝距離比顯示距離近,此時(shí)對方如果需要還原同樣大小的對象,則需要使用更廣闊的屏幕來放大人物以拉近距離,況且在多人通話時(shí)需要更多塊屏幕以同時(shí)顯示所有人物,成本以及便攜性都將限制這種方式的實(shí)施。全息投影:大多數(shù)技術(shù)對顏色還原的并不真實(shí),而且至今只有亞利桑那州大學(xué)的研究人員實(shí)現(xiàn)了實(shí)時(shí)錄制以及顯示,但幀數(shù)僅為0.5,即每兩秒鐘顯示一張靜態(tài)圖像,技術(shù)過于不成熟無法量產(chǎn)以及投入實(shí)際應(yīng)用。虛擬現(xiàn)實(shí)頭戴設(shè)備:雖可以完美顯示對方3D環(huán)境,或是顯示對方融入己方周圍環(huán)境之后的影像,但因需要佩戴較為笨重且不透明的眼鏡,致使對方無法看到佩戴著的雙眼以及臉部大部分細(xì)節(jié),嚴(yán)重阻礙了視頻是的良好體驗(yàn)以及人們之間面對面交流的直觀性和流暢性??紤]到以上幾點(diǎn)問題,本系統(tǒng)使用增強(qiáng)現(xiàn)實(shí)眼鏡以在顯示任意大小3D效果的同時(shí)透明鏡片保證了面部表情的有效識別。所述增強(qiáng)顯示眼鏡為Moverio BT-200或Holo lens類裝配可以完全覆蓋雙眼視角的透明顯示屏。
2.3 3D通話的模式
基于以上設(shè)備:雙目視覺攝像頭,增強(qiáng)現(xiàn)實(shí)眼鏡,可以直接實(shí)現(xiàn)3D通話,僅需要將左右眼鏡片分別顯示兩個(gè)攝像機(jī)所拍攝下的畫面即可。但是這種方式有重大的問題:對方的背景與自身的背景將會(huì)有重合:兩種解決方式:將對方畫面通過云計(jì)算等方式從單一的角度建立片面的,部分的3D模型,再分析出人物的位置與畫面顯示其3D的畫面,但這種方式雖然較3D掃面節(jié)省部分資源,但所需的成本依然很高,且畫面不清晰。而可以利用intel 的realsense 技術(shù),調(diào)用其SDK中通過雙攝像頭拍攝去背景的功能,再將兩個(gè)均被去掉背景的畫面分別顯示到鏡片之上,即可完美的實(shí)現(xiàn)遠(yuǎn)程與單一的某一個(gè)或多個(gè)3D人物對話。
同時(shí)也可以利用增強(qiáng)顯示眼鏡內(nèi)置陀螺儀檢測頭部運(yùn)動(dòng),以此將對方的畫面虛擬的固定在生活環(huán)境之中的某一個(gè)特定的位置,當(dāng)頭部并未直視那個(gè)方向是對方的畫面即可隱出。用此方式可以實(shí)現(xiàn)在一個(gè)空無一人的圓桌上依次顯示出每一個(gè)對話者的虛擬的全息圖像,從而達(dá)到模擬線下對話的目的。
2.4 立體聲音
為達(dá)到更好的模擬效果,可以在攝像頭端配置雙麥克風(fēng),用以錄制立體音效并通過耳機(jī)用以識別人物位置,或在轉(zhuǎn)動(dòng)頭部時(shí)產(chǎn)生左右耳時(shí)間差模擬出聲源的相反移動(dòng),以產(chǎn)生對話人物沒有隨頭戴設(shè)備的移動(dòng)變動(dòng)位置的效果。
而因?yàn)槎鷻C(jī)本身即為兩個(gè)輸出源,覆蓋在雙耳表面以達(dá)到生成任何方位聲響的功能。
2.5 使用方式
通過利用realsense 去背景程序遠(yuǎn)程視頻聊天API,以及增強(qiáng)現(xiàn)實(shí)顯示設(shè)備顯示視頻(含音頻)API以及三軸陀螺儀的調(diào)用接口,即可實(shí)現(xiàn)全息多人3D視頻通話。
此系統(tǒng)暫時(shí)實(shí)現(xiàn)了僅可以看到對方正面的三體成像,不過可以依靠三軸陀螺儀傳遞的頭部轉(zhuǎn)動(dòng)信息水平的切換頭戴設(shè)備中顯示的聯(lián)系人,且可以使對方的影響虛擬的固定在一個(gè)位置,雖然在電腦中并未形成對話者的3D模型,但是想要拉近對方的影像可以簡便的依靠單純的放大縮小畫面。因在放大對方畫面的時(shí)候錄制對方的雙目視覺攝像機(jī)之間的距離也相應(yīng)改變,并不會(huì)出現(xiàn)縮小三維成像(HYPO STEREO),或放大三維成像(HYPER STEREO)因瞳距與事物之間比例失調(diào)而形成的成像失真。
上述系統(tǒng)與理想的全息會(huì)議還是有一定的出入,人物的虛擬影像在現(xiàn)實(shí)中的位置應(yīng)該是固定的,不隨另一個(gè)觀察者的移動(dòng)而改變。雖然此系統(tǒng)可以通過陀螺儀和加速器調(diào)試實(shí)現(xiàn)令對方坐在自己環(huán)境中的凳子之上,但在大致前后移動(dòng)的過程之中,人物的距離感僅可以通過放大縮小來實(shí)現(xiàn),而在做圍繞椅子運(yùn)動(dòng)的方向上,對方只能繼續(xù)顯示正臉的畫面,并使這個(gè)畫面一直以椅子的豎直方向?yàn)檩S,面對觀看者旋轉(zhuǎn)。這種體驗(yàn)并不能夠完全達(dá)到理想的模擬效果。但是可以使用無人機(jī)等設(shè)備作為平臺(tái),搭載雙目視覺攝像機(jī),遠(yuǎn)程接受對方的移動(dòng)信息,并同步的做出模擬。因此可以在人腦的高度做出與觀看者頭部同一的運(yùn)動(dòng)軌跡,因此即可達(dá)到幾近完美的模擬線下交流體驗(yàn),未來甚至可以佩戴虛擬現(xiàn)實(shí)觸感手套或服裝以實(shí)現(xiàn)與同伴握手擁抱等真切的肢體動(dòng)作。屆時(shí),當(dāng)此系統(tǒng)大量滲透到公司個(gè)人的日常工作生活之中的時(shí)候,人們便沒有什么理由交通,那時(shí)我們不僅僅可以遠(yuǎn)程的傳送文件和資料,還可以通過互聯(lián)網(wǎng)瞬時(shí)傳送一個(gè)真實(shí)的人到任何地方。
[1]Fahle,M (1987).”Wozu zwei Augen? [Why two eyes?]”.Naturwissenschaften 74:383–385. Bibcode:1987NW.....74..383F. doi:10.1007/BF00405466.
[2]Rolland,Jannick; Baillott,Yohan; Goon,Alexei.A Survey of Tracking Technology for Virtual Environments,Center for Research and Education in Optics and Lasers,University of Central Florida.
[3]US Pat. 4295153,retrieved Jan 17,2011 (anaglyphic 3D).
[4]http://www.intel.com/content/www/us/en/ architecture-and-technology/realsense-overview.html (realsense ).
[5]GB patent 394325,Alan Dower Blumlein,”Improvements in and relating to Soundtransmission,Sound-recording and Sound-reproducing Systems.”,issued 1933-06-14,assigned to Alan Dower Blumlein and Musical Industries,Limited
[6]Stereo Realist Manual.
TP3
A
1674-6708(2015)142-0117-02