李 強(qiáng)
內(nèi)蒙古廣播電視臺(tái) 內(nèi)蒙古 呼和浩特市 010050
VR 技術(shù)是計(jì)算機(jī)技術(shù)、傳感技術(shù)、機(jī)器人技術(shù)、人工智能、仿生學(xué)、物理學(xué)等眾多學(xué)科飛速發(fā)展的結(jié)果。主要依賴于三維圖形實(shí)時(shí)顯示、三維定位追蹤、觸覺(jué)傳感技術(shù)、人工智能技術(shù)、高速計(jì)算與并行計(jì)算技術(shù),以及人的行為學(xué)研究等多項(xiàng)關(guān)鍵技術(shù)的發(fā)展。虛擬現(xiàn)實(shí)技術(shù)有以下幾個(gè)特點(diǎn):
第一,交互性(Interactivity)是指使用者與虛擬場(chǎng)景中各種對(duì)象相互作用的能力,它既包括場(chǎng)景中對(duì)象的可操作程度,又包括使用者從環(huán)境中得到反饋的自然程度。用戶通過(guò)專(zhuān)門(mén)的設(shè)備來(lái)實(shí)現(xiàn)對(duì)模擬環(huán)境的作用,同時(shí)實(shí)現(xiàn)對(duì)設(shè)備的操控,它是人機(jī)和諧的關(guān)鍵性因素。
第二,構(gòu)想性(Imagination)是指借助虛擬現(xiàn)實(shí)技術(shù),實(shí)現(xiàn)抽象概念的具象化。在虛擬現(xiàn)實(shí)系統(tǒng)中,人們不僅可以直觀的體驗(yàn)到虛擬世界里各種對(duì)象帶給的新奇感受,而且還能通過(guò)人類(lèi)的思想意識(shí),發(fā)揮主觀能動(dòng)性,去積極構(gòu)想和創(chuàng)造新的事物??梢哉f(shuō)VR 是啟發(fā)人的創(chuàng)造性思維的活動(dòng)。
第三,沉浸感(Illusion of Immersion)是指使用者通過(guò)借助各種設(shè)備使其意識(shí)完全進(jìn)入到計(jì)算機(jī)創(chuàng)建的虛擬環(huán)境中,他的各種感知(包括視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)、嗅覺(jué)等)如同在現(xiàn)實(shí)環(huán)境中的感受一樣真實(shí)。VR技術(shù)利用計(jì)算機(jī)生成的模擬環(huán)境,通過(guò)多源信息融合交互、三維動(dòng)態(tài)視景和實(shí)體行為的系統(tǒng)仿真,能使用戶得到真正的沉浸式體驗(yàn)。
其中VR 視頻是指全景視頻,用專(zhuān)業(yè)的VR 攝影設(shè)備將現(xiàn)場(chǎng)環(huán)境真實(shí)地記錄下來(lái),再通過(guò)計(jì)算機(jī)進(jìn)行后期處理,所形成的可以實(shí)現(xiàn)三維空間展示功能的視頻。如水平360°x 垂直360°全景視頻,用戶可借助VR虛擬現(xiàn)實(shí)設(shè)備觀看全景視頻,并獲得身臨其境的感受。
圖1 觀看VR視頻典型流程
什么樣的技術(shù)才能做到真正的VR 沉浸感呢?其實(shí)VR 沉浸感,最終表現(xiàn)為用戶交互。而對(duì)于用戶交互,有幾種技術(shù)方案選擇。
VR 頭戴式設(shè)備中的頭部跟蹤系統(tǒng)可跟蹤你的頭部向側(cè)面移動(dòng)的角度。它為方向和運(yùn)動(dòng)分配X,Y,Z 軸,并涉及諸如加速度計(jì)、陀螺儀、光學(xué)捕捉設(shè)備。頭部跟蹤要求低等待時(shí)間,即50 毫秒或更短,否則用戶將感覺(jué)到頭部運(yùn)動(dòng)和模擬之間的延時(shí)。
某些頭戴設(shè)備包含紅外控制器,該控制器可在虛擬環(huán)境中跟蹤眼睛方向。這項(xiàng)技術(shù)的主要好處是可以獲得更真實(shí),更深入的視野。
事實(shí)上,沒(méi)有運(yùn)動(dòng)跟蹤,VR 將受限制,無(wú)法四處張望和四處走動(dòng),而運(yùn)動(dòng)追蹤將把VR提升到一個(gè)全新的水平。6DoF是六自由度的簡(jiǎn)稱(chēng),分別指代虛擬世界中的位置坐標(biāo)和姿態(tài)坐標(biāo)。6DoF 產(chǎn)品不僅可以感知到使用者的頭部轉(zhuǎn)動(dòng),還可以獲取到使用者在虛擬世界中空間位移和身體運(yùn)動(dòng),從而使用戶能夠便捷的使用身體位移來(lái)變換位置,并且可以用手去摸,抓取物品等,與虛擬世界交互。6DoF 產(chǎn)品除了最基礎(chǔ)的用于觀看視頻外,還能用于游戲、健身、知識(shí)學(xué)習(xí)等更廣泛的領(lǐng)域,讓真實(shí)的你與虛擬世界融為一體,真正感受VR 帶來(lái)的獨(dú)特奇幻體驗(yàn)。3DoF 是三自由度的簡(jiǎn)稱(chēng),與6DoF 相比它僅有姿態(tài)坐標(biāo),而不具備位置坐標(biāo),相當(dāng)于在虛擬世界中的眼睛,用戶可以以頭部為中心環(huán)視虛擬世界的畫(huà)面,因此3DoF產(chǎn)品僅用于觀影體驗(yàn)。
相比較傳統(tǒng)的3DoF,6DoF通過(guò)與3D 空間概念的結(jié)合,支持運(yùn)動(dòng)跟蹤的選項(xiàng)分為光學(xué)跟蹤和非光學(xué)跟蹤兩類(lèi)。光學(xué)跟蹤通常是頭戴式設(shè)備上的攝像頭,用于跟蹤運(yùn)動(dòng),而非光學(xué)跟蹤是指在設(shè)備或身體上使用其他傳感器。實(shí)際上,大多數(shù)現(xiàn)有設(shè)備都結(jié)合了這兩種選擇。
通常,使用VR 設(shè)備可實(shí)現(xiàn)100~110°的視野。下一個(gè)關(guān)鍵功能是每秒的幀速率,該速率至少應(yīng)為60fps,以使虛擬仿真看起來(lái)足夠逼真。早期VR 頭戴設(shè)備的6DoF 定位,主要是依靠在場(chǎng)地中架設(shè)額外的設(shè)備配合眼鏡里的定位marker 來(lái)實(shí)現(xiàn)定位,而近年來(lái)興起的定位技術(shù),則是靠頭盔上自帶的攝像頭拍攝外部景物,來(lái)反向估計(jì)自己的姿態(tài),進(jìn)行定位。與早期的外部定位技術(shù)相比,新的定位技術(shù)可以使用戶免去了復(fù)雜的外部設(shè)備架設(shè)環(huán)節(jié),使得VR 頭戴設(shè)備在使用上和便捷性上有了很大的提升。
真正的VR 技術(shù)給我們帶來(lái)的是全方位的感官體驗(yàn),使我們沉浸其中,而最直接、最具體的感受首先是視覺(jué)上的。因此我們就需要分析研究怎樣把獲得的VR 視頻,從前端的服務(wù)器送到終端的顯示器上,使我們?cè)谔摂M的環(huán)境中得到真實(shí)的體驗(yàn)。
全景拍攝是虛擬現(xiàn)實(shí)技術(shù)中非常重要的環(huán)節(jié),全景視頻360°無(wú)死角還原現(xiàn)場(chǎng)的特點(diǎn),讓VR 技術(shù)的“沉浸感”得到最好的體現(xiàn)。攝像機(jī)處于中心位置向外360°進(jìn)行拍攝,隨后對(duì)各方向視頻進(jìn)行全景拼接。VR視頻拼接算法,一種是基于變換的拼接算法,就是通過(guò)對(duì)單應(yīng)性矩陣進(jìn)行調(diào)整,再通過(guò)網(wǎng)格化的扭曲,使重合區(qū)域的拼接縫隙盡可能減小;另一種是基于拼接線的拼接算法,通過(guò)對(duì)圖像拼接線部分的重新調(diào)整,確保拼接的自然性。用戶固定觀看位置,支持頭部轉(zhuǎn)動(dòng),以頭部為中心選擇視角方向,觀看改變方向的相應(yīng)畫(huà)面。
除了全景拍攝實(shí)景外,虛擬現(xiàn)實(shí)應(yīng)用領(lǐng)域里大量的產(chǎn)品圖像輸出畫(huà)面,完全由計(jì)算機(jī)圖形系統(tǒng)渲染輸出的。此外,使用者的空間運(yùn)動(dòng)數(shù)據(jù)信息也實(shí)時(shí)的通過(guò)VR 設(shè)備的SDK(軟件開(kāi)發(fā)工具包)和API(應(yīng)用程序接口)傳入計(jì)算機(jī)系統(tǒng)里進(jìn)行計(jì)算,最終反應(yīng)在圖形系統(tǒng)里并給出對(duì)應(yīng)的反饋。使用VR 技術(shù)可以從兩方面逾越傳統(tǒng)影視中的一些屏障:一者,可以運(yùn)用數(shù)字技術(shù),復(fù)原某些歷史中存在的場(chǎng)景、事物、打破時(shí)間和空間的限制;二來(lái)可以運(yùn)用數(shù)字技術(shù),發(fā)揮創(chuàng)作者的想象力和創(chuàng)造力,建構(gòu)某些在現(xiàn)實(shí)中未必存在的場(chǎng)景。
圖2 ERP映射模式
H.264、H.265、AVS2 是 目前最主流的視頻編碼協(xié)議,得到眾多編解碼軟硬件的支持,但它們都是傳統(tǒng)平面視頻編碼技術(shù)不斷演進(jìn)的結(jié)晶,并不能原生支持基于球面的VR 視頻,因此需要先把球面投影到平面,才能通過(guò)已有的成熟協(xié)議、軟件和硬件把VR 視頻傳播出去。因此,視頻映射是VR 視頻編碼的預(yù)處理環(huán)節(jié),目前專(zhuān)門(mén)針對(duì)VR 視頻的編碼標(biāo)準(zhǔn)仍在研究中,通常將360°的二維球面視頻圖像映射成為二維平面矩形視頻圖像,再送入編碼器進(jìn)行編碼傳輸。
映射:VR 視頻映射是指將球面全景視頻表示為適于壓縮編碼的平面視頻,即將球面全景圖像轉(zhuǎn)化映射成為二維平面圖像,最常用的是等距圓柱映射和正六面體映射模型。
3.2.1 等距圓柱映射(ERP)
ERP 映射模型是在VR 視頻中使用最廣泛的映射模型,經(jīng)緯圖模型只有一個(gè)投影面。它的實(shí)現(xiàn)過(guò)程如下:首先在平面長(zhǎng)寬比為2:1 的矩形區(qū)域內(nèi)按照目標(biāo)分辨率進(jìn)行均勻的像素格劃分,得到長(zhǎng)為m 等分寬為n 等分的分割,然后按照矩形的長(zhǎng)和寬在球面上進(jìn)行均勻的經(jīng)線和緯線采樣,將經(jīng)線m 等分,緯線n 等分,獲得球面網(wǎng)格。等距圓柱體投影最大的優(yōu)勢(shì)就是其直觀的投影方式,完全線性的變換公式使得其易于操作。
3.2.2 正六面體映射(CMP)
CMP 映射模型有6 個(gè)映射面,分別將360°球體視頻圖像映射到6 個(gè)面上,然后拼接為矩形的一種投影方式,具體的操作其實(shí)就是簡(jiǎn)單的坐標(biāo)比例縮放。由于立方體模型具有極好的對(duì)稱(chēng)性,所以在與球面進(jìn)行相互投影的過(guò)程中可以大大降低計(jì)算復(fù)雜度,并且面與面之間的投影關(guān)系是一致的。如圖3所示。
圖3 CMP映射模式
壓縮編碼:映射后的VR 視頻可采用普通視頻的編碼技術(shù)進(jìn)行壓縮。目前應(yīng)用較多的視頻編碼技術(shù)是H.264、H.265、AVS2 等,在保證同等畫(huà)質(zhì)的前提下,H.265 和AVS2 的壓縮效率大約比H.264 提升50%左右。下一代編碼技術(shù)H.266 與AVS3的目標(biāo)壓縮效率比H.265 與AVS2 提升一倍。碼率是影響VR視頻在終端接收和觀看清晰度的重要指標(biāo)。8K/50P 的視頻,采用H.265 或AVS2 編碼,碼率需80~100Mbps。
VR 視頻數(shù)據(jù)量大,現(xiàn)階段要觀看4K 影片,至少需要25~50Mbps 以上的速率;8K 的VR視頻需要80~100Mbps 速率,將來(lái)30K 的VR 視頻預(yù)計(jì)需要800~1000Mbps 的速率。目前互聯(lián)網(wǎng)帶寬限制影響用戶體驗(yàn),而廣電自有網(wǎng)絡(luò)帶寬38Mbps,能夠高效順暢支持4KVR 節(jié)目傳輸,保證節(jié)目的清晰流暢。如果真正進(jìn)入5G 時(shí)代,(5G 網(wǎng)絡(luò)的傳輸速率可達(dá)到10Gbps,是4G 的100 倍;傳輸時(shí)延可達(dá)到1ms 級(jí)別,是4G 的1/50),將有望助力VR 真正落地,擴(kuò)展更多的應(yīng)用領(lǐng)域。
由于VR 視頻數(shù)據(jù)量大,傳輸時(shí)要占用更多的網(wǎng)絡(luò)資源,而全視角傳輸方案是將360°環(huán)繞的畫(huà)面都傳輸給終端,當(dāng)用戶頭部轉(zhuǎn)動(dòng)需要切換畫(huà)面時(shí),所有的處理都在終端本地完成。采用全視角傳輸方案,由于觀看者在觀看時(shí),實(shí)際只能看到當(dāng)前視野,看不到的部分占了網(wǎng)絡(luò)帶寬,但沒(méi)有真正用到,從而對(duì)網(wǎng)絡(luò)資源造成了較大浪費(fèi)。因此,提出了FOV(Field of View,視場(chǎng)角)傳輸方案,傳輸當(dāng)前視角中的可見(jiàn)畫(huà)面,將360°全景視野劃分為若干個(gè)視角,每個(gè)視角生成一個(gè)視頻文件,只包含視角內(nèi)高分辨率和周?chē)糠值头直媛室曈X(jué)信息,終端根據(jù)用戶當(dāng)前視角姿態(tài)位置,向服務(wù)器請(qǐng)求對(duì)應(yīng)的視角文件,只將視角區(qū)域進(jìn)行高質(zhì)量傳輸,不涉及非視角區(qū)域。VR 視頻應(yīng)用的全視角傳輸帶寬要求達(dá)到140Mbps,F(xiàn)OV傳輸帶寬只要求達(dá)到75Mbps。
圖4 VR視頻端到端系統(tǒng)框圖
目前,VR 全景視頻一般采用投影方式,每一幀畫(huà)面為矩形畫(huà)面,VR 全景視頻播放過(guò)程具體如下:
(1)VR 服務(wù)器按照順序?qū)R 全景視頻通過(guò)流媒體方式下發(fā)給VR 顯示終端;
(2)VR 顯示終端通過(guò)相應(yīng)流媒體協(xié)議進(jìn)行下載,解析和解碼后獲取到每一幀矩形視頻畫(huà)面;
(3)將相應(yīng)的矩形畫(huà)面渲染為球狀畫(huà)面;
(4)根據(jù)用戶眼睛觀看方向確定用戶在所述球狀畫(huà)面中所能觀看到的區(qū)域,并從所述球狀畫(huà)面中獲取所述區(qū)域的畫(huà)面;
(5)對(duì)所獲取的畫(huà)面進(jìn)行桶形反畸變處理,并將處理后的畫(huà)面渲染至顯示屏中進(jìn)行顯示。
上述就是關(guān)于VR 的概況和視頻流程分析。當(dāng)然,目前VR的發(fā)展還面臨很多挑戰(zhàn),例如,拍攝時(shí)如何隱藏設(shè)備和制作人員;鏡頭快速移動(dòng)造成用戶觀看時(shí)感覺(jué)頭暈;前端制作和傳輸分發(fā)過(guò)程中,需要考慮到各種終端對(duì)不同映射模型的適配情況;VR 高質(zhì)量畫(huà)面的傳輸遠(yuǎn)遠(yuǎn)超出了當(dāng)前網(wǎng)絡(luò)資源的范圍;眼鏡、頭盔等VR 終端設(shè)備長(zhǎng)時(shí)間使用對(duì)人眼的傷害等。但我們相信,隨著科技的發(fā)展,VR 技術(shù)會(huì)給我們帶來(lái)更好的體驗(yàn)和更廣泛的應(yīng)用。