全息視頻會(huì)議研究

2015-09-16 20:08:02宋克凡

科技傳播 2015年13期

關(guān)鍵詞：通話攝像機(jī)遠(yuǎn)程

宋克凡

哈爾濱師范大學(xué)附屬中學(xué)，黑龍江哈爾濱 150080

全息視頻會(huì)議研究

宋克凡

哈爾濱師范大學(xué)附屬中學(xué)，黑龍江哈爾濱 150080

目的：不同于現(xiàn)有3D視頻和3D模擬會(huì)議室，通過實(shí)現(xiàn)3D虛擬對面視頻通話，該方法增加通過互聯(lián)網(wǎng)遠(yuǎn)程聯(lián)系的對象之間交流的親密性以及視頻清晰度。方法：結(jié)合增強(qiáng)現(xiàn)實(shí)頭戴設(shè)備及3D遠(yuǎn)程拍攝裝置。結(jié)果：可實(shí)現(xiàn)虛擬3D視頻會(huì)議。

全息投影；3D視頻會(huì)議；增強(qiáng)現(xiàn)實(shí)

1 概論

現(xiàn)實(shí)生活中，人們之間交流的最主要且最重要的方式為語音通話。人們可以依此直觀快速的表達(dá)觀點(diǎn)傳遞信息。然而視頻通話先已因互聯(lián)網(wǎng)設(shè)備的普及而助手可得，卻遲遲未成為主流通訊方式，不僅僅因?yàn)樗钄?shù)據(jù)流量較多（大多數(shù)固定生活地點(diǎn)覆蓋wifi），因?yàn)橥ㄔ捳咧車h(huán)境可能涉及隱私，亦或是視頻通話時(shí)所傳遞的信息并不比語音通話所傳遞的顯著增多，且最主要的是與通話是手機(jī)貼近耳朵不同，遠(yuǎn)程視頻通話無法給使用者顯示出距離感，大多數(shù)人們通過手機(jī)大小的平面屏幕觀看一個(gè)活動(dòng)幅度較小的動(dòng)態(tài)頭像。而人類之間交流很主要的一個(gè)元素即為領(lǐng)地意識，通過個(gè)體之間的距離，或是身體的傾向，可以潛移默化的影響人們之間關(guān)系的疏密。而普通視頻通話拉近距離時(shí)僅能在一個(gè)距離使用者任意距離的小屏幕上看到一個(gè)被扭曲的面孔，更無法實(shí)現(xiàn)握手甚至擁抱等等的肢體交流。因此在一些人們之間關(guān)系需要強(qiáng)烈緊密交織的場景，譬如商業(yè)談判或是朋友聚會(huì)，愛人之間的約會(huì)，都需要正式的，線下的接觸與交流，只為獲得更多直觀的細(xì)節(jié)。

大量實(shí)驗(yàn)證明3D的交流可以更加全面完整的模擬人們?nèi)粘５娜穗H交往，因此可以使聊天者獲得更高的使用滿意度。基于此，實(shí)現(xiàn)全真模擬先下交流的工具急需研發(fā)。

2 材料與方法

2.1 3D拍攝方法

人類視覺系統(tǒng)主要通過兩種方式實(shí)現(xiàn)3D識別，其一為物體或視角的移動(dòng)，此方式為大多數(shù)共有，甚至部分動(dòng)物僅能識別運(yùn)動(dòng)的物體進(jìn)而感知深度。但依賴這種方式僅能獲取大致的位置信息，并且物體的大小很難有直觀的判斷。并且人們在視頻通話當(dāng)中身體的移動(dòng)幅度不大，同時(shí)缺乏其他運(yùn)動(dòng)物體以相對比較，因此在2D屏幕之下視頻時(shí)，人們很難將這些信息完美的在大腦中還原成立體影像，影響通話的真實(shí)性。另一種3D識別方式即為雙目視覺，通過兩只眼睛在不同角度獲取圖像，人類的大腦可以通過比對這兩組圖像之間的差異直接感知深度，利用三角法確定物體相對自身的大小，且可以獲取更加豐富的信息以合成3D模型。

然而因目前3D掃描技術(shù)扔很難實(shí)現(xiàn)實(shí)時(shí)的對動(dòng)態(tài)對象的掃描。多個(gè)攝像機(jī)同步實(shí)時(shí)建模的運(yùn)算量過大，普通的個(gè)人計(jì)算設(shè)備只能靠大幅度降低清晰度和幀數(shù)以實(shí)現(xiàn)，無法增強(qiáng)原有2D視頻的用戶體驗(yàn)。雖然可以使用單一攝像機(jī)利用運(yùn)動(dòng)識別3D的原理進(jìn)行掃描建模以減少數(shù)據(jù)總量，但依靠運(yùn)動(dòng)速度建模也遠(yuǎn)遠(yuǎn)達(dá)不到實(shí)現(xiàn)幀數(shù)正常的視頻通話。如若本系統(tǒng)僅利用立體攝像機(jī)而非多攝像頭的3D掃描儀，同于觀看實(shí)時(shí)的3D電影，因此可以巧妙的避免計(jì)算機(jī)的巨大運(yùn)算量，而利用人腦合成最終的3D影像。

僅使用兩個(gè)攝像頭，一左一右平行放置，距離接近正常人瞳距的平均值，而攝像頭視角也應(yīng)接近人類視角水平120°，垂直60°以保證圖像始終在視野范圍之內(nèi)。應(yīng)實(shí)現(xiàn)可以將左眼正常做看到的周圍環(huán)境完全覆蓋掉，而顯示此錄像設(shè)備的左側(cè)攝像機(jī)畫面，而右眼所應(yīng)看到的畫面也可被相應(yīng)的攝像機(jī)所取代，相當(dāng)于將兩只眼睛遠(yuǎn)程移動(dòng)到了攝像機(jī)的位置，因此可以看到真切的圖像。

2.2 3D顯示方法

顯示端雖然可以使用任何3D顯示器，但大多都有較為嚴(yán)重的缺點(diǎn)。裸眼3D：立體效果不佳，像素密度大多不是很高，且觀看者不可以大幅度的左右移動(dòng)，也對觀看距離有所限制，以上特點(diǎn)是使用者位置過于固定，很有可能阻礙通常交流的正常進(jìn)行。普通偏振3D顯示器以及互補(bǔ)色式3D（anaglyphic 3D）：不僅需要佩戴透光率較低的眼鏡，而且所看到對象的大小需要依賴屏幕的大小而決定，還原1:1比例的人所需的屏幕大小因現(xiàn)有3D屏幕大多非透明，只能使用大于對象大小的屏幕實(shí)現(xiàn)立體效果融入到周圍環(huán)境，不然透過一個(gè)較小的屏幕觀看將擋住周圍大部分環(huán)境信息以實(shí)現(xiàn)3D面對面通話效果，而且攝像機(jī)的擺放位置也較為尷尬，只能放置在不被屏幕遮擋的視線之內(nèi)，而放置于屏幕與觀看者之間不僅會(huì)擋住用戶觀看屏幕的視線，而且會(huì)使拍攝距離比顯示距離近，此時(shí)對方如果需要還原同樣大小的對象，則需要使用更廣闊的屏幕來放大人物以拉近距離，況且在多人通話時(shí)需要更多塊屏幕以同時(shí)顯示所有人物，成本以及便攜性都將限制這種方式的實(shí)施。全息投影：大多數(shù)技術(shù)對顏色還原的并不真實(shí)，而且至今只有亞利桑那州大學(xué)的研究人員實(shí)現(xiàn)了實(shí)時(shí)錄制以及顯示，但幀數(shù)僅為0.5，即每兩秒鐘顯示一張靜態(tài)圖像，技術(shù)過于不成熟無法量產(chǎn)以及投入實(shí)際應(yīng)用。虛擬現(xiàn)實(shí)頭戴設(shè)備：雖可以完美顯示對方3D環(huán)境，或是顯示對方融入己方周圍環(huán)境之后的影像，但因需要佩戴較為笨重且不透明的眼鏡，致使對方無法看到佩戴著的雙眼以及臉部大部分細(xì)節(jié)，嚴(yán)重阻礙了視頻是的良好體驗(yàn)以及人們之間面對面交流的直觀性和流暢性?？紤]到以上幾點(diǎn)問題，本系統(tǒng)使用增強(qiáng)現(xiàn)實(shí)眼鏡以在顯示任意大小3D效果的同時(shí)透明鏡片保證了面部表情的有效識別。所述增強(qiáng)顯示眼鏡為Moverio BT-200或Holo lens類裝配可以完全覆蓋雙眼視角的透明顯示屏。

2.3 3D通話的模式

基于以上設(shè)備：雙目視覺攝像頭，增強(qiáng)現(xiàn)實(shí)眼鏡，可以直接實(shí)現(xiàn)3D通話，僅需要將左右眼鏡片分別顯示兩個(gè)攝像機(jī)所拍攝下的畫面即可。但是這種方式有重大的問題：對方的背景與自身的背景將會(huì)有重合：兩種解決方式：將對方畫面通過云計(jì)算等方式從單一的角度建立片面的，部分的3D模型，再分析出人物的位置與畫面顯示其3D的畫面，但這種方式雖然較3D掃面節(jié)省部分資源，但所需的成本依然很高，且畫面不清晰。而可以利用intel 的realsense 技術(shù)，調(diào)用其SDK中通過雙攝像頭拍攝去背景的功能，再將兩個(gè)均被去掉背景的畫面分別顯示到鏡片之上，即可完美的實(shí)現(xiàn)遠(yuǎn)程與單一的某一個(gè)或多個(gè)3D人物對話。

同時(shí)也可以利用增強(qiáng)顯示眼鏡內(nèi)置陀螺儀檢測頭部運(yùn)動(dòng)，以此將對方的畫面虛擬的固定在生活環(huán)境之中的某一個(gè)特定的位置，當(dāng)頭部并未直視那個(gè)方向是對方的畫面即可隱出。用此方式可以實(shí)現(xiàn)在一個(gè)空無一人的圓桌上依次顯示出每一個(gè)對話者的虛擬的全息圖像，從而達(dá)到模擬線下對話的目的。

2.4 立體聲音

為達(dá)到更好的模擬效果，可以在攝像頭端配置雙麥克風(fēng)，用以錄制立體音效并通過耳機(jī)用以識別人物位置，或在轉(zhuǎn)動(dòng)頭部時(shí)產(chǎn)生左右耳時(shí)間差模擬出聲源的相反移動(dòng)，以產(chǎn)生對話人物沒有隨頭戴設(shè)備的移動(dòng)變動(dòng)位置的效果。

而因?yàn)槎鷻C(jī)本身即為兩個(gè)輸出源，覆蓋在雙耳表面以達(dá)到生成任何方位聲響的功能。

2.5 使用方式

通過利用realsense 去背景程序遠(yuǎn)程視頻聊天API，以及增強(qiáng)現(xiàn)實(shí)顯示設(shè)備顯示視頻（含音頻）API以及三軸陀螺儀的調(diào)用接口，即可實(shí)現(xiàn)全息多人3D視頻通話。

3 結(jié)果

此系統(tǒng)暫時(shí)實(shí)現(xiàn)了僅可以看到對方正面的三體成像，不過可以依靠三軸陀螺儀傳遞的頭部轉(zhuǎn)動(dòng)信息水平的切換頭戴設(shè)備中顯示的聯(lián)系人，且可以使對方的影響虛擬的固定在一個(gè)位置，雖然在電腦中并未形成對話者的3D模型，但是想要拉近對方的影像可以簡便的依靠單純的放大縮小畫面。因在放大對方畫面的時(shí)候錄制對方的雙目視覺攝像機(jī)之間的距離也相應(yīng)改變，并不會(huì)出現(xiàn)縮小三維成像（HYPO STEREO)，或放大三維成像（HYPER STEREO）因瞳距與事物之間比例失調(diào)而形成的成像失真。

4 展望

上述系統(tǒng)與理想的全息會(huì)議還是有一定的出入，人物的虛擬影像在現(xiàn)實(shí)中的位置應(yīng)該是固定的，不隨另一個(gè)觀察者的移動(dòng)而改變。雖然此系統(tǒng)可以通過陀螺儀和加速器調(diào)試實(shí)現(xiàn)令對方坐在自己環(huán)境中的凳子之上，但在大致前后移動(dòng)的過程之中，人物的距離感僅可以通過放大縮小來實(shí)現(xiàn)，而在做圍繞椅子運(yùn)動(dòng)的方向上，對方只能繼續(xù)顯示正臉的畫面，并使這個(gè)畫面一直以椅子的豎直方向?yàn)檩S，面對觀看者旋轉(zhuǎn)。這種體驗(yàn)并不能夠完全達(dá)到理想的模擬效果。但是可以使用無人機(jī)等設(shè)備作為平臺(tái)，搭載雙目視覺攝像機(jī)，遠(yuǎn)程接受對方的移動(dòng)信息，并同步的做出模擬。因此可以在人腦的高度做出與觀看者頭部同一的運(yùn)動(dòng)軌跡，因此即可達(dá)到幾近完美的模擬線下交流體驗(yàn)，未來甚至可以佩戴虛擬現(xiàn)實(shí)觸感手套或服裝以實(shí)現(xiàn)與同伴握手擁抱等真切的肢體動(dòng)作。屆時(shí)，當(dāng)此系統(tǒng)大量滲透到公司個(gè)人的日常工作生活之中的時(shí)候，人們便沒有什么理由交通，那時(shí)我們不僅僅可以遠(yuǎn)程的傳送文件和資料，還可以通過互聯(lián)網(wǎng)瞬時(shí)傳送一個(gè)真實(shí)的人到任何地方。

[1]Fahle，M (1987).”Wozu zwei Augen? [Why two eyes?]”.Naturwissenschaften 74：383–385. Bibcode:1987NW.....74..383F. doi:10.1007/BF00405466.

[2]Rolland，Jannick; Baillott，Yohan; Goon，Alexei.A Survey of Tracking Technology for Virtual Environments，Center for Research and Education in Optics and Lasers，University of Central Florida.

[3]US Pat. 4295153，retrieved Jan 17，2011 (anaglyphic 3D).

[4]http://www.intel.com/content/www/us/en/ architecture-and-technology/realsense-overview.html （realsense ）.

[5]GB patent 394325，Alan Dower Blumlein，”Improvements in and relating to Soundtransmission，Sound-recording and Sound-reproducing Systems.”，issued 1933-06-14，assigned to Alan Dower Blumlein and Musical Industries，Limited

[6]Stereo Realist Manual.

TP3

1674-6708（2015）142-0117-02