常 遠,蓋 孟
基于神經(jīng)輻射場的視點合成算法綜述
常 遠1,2,蓋 孟1,2
(1. 北京大學信息科學技術學院,北京 100871;2. 北京大學北京市虛擬仿真與可視化工程研究中心,北京 100871)
基于圖像的視點合成技術在計算機圖形學與計算機視覺領域均有廣泛的應用,如何利用輸入圖像的信息對三維模型或者場景進行表達是其中的關鍵問題。最近,隨著神經(jīng)輻射場這一表示方式的提出,大量基于此表示方法的研究工作對該方法進行了進一步優(yōu)化和擴展,在準確性、高效性等方面取得了良好的成果。該類研究工作可以根據(jù)研究目的大致分為兩大類:對神經(jīng)輻射場算法本身的分析以及優(yōu)化,和基于神經(jīng)輻射場框架的擴展及延伸。第一類研究工作對神經(jīng)輻射場這一表示方法的理論性質和不足進行了分析,并提出了優(yōu)化的策略,包括對合成精度的優(yōu)化、對繪制效率的優(yōu)化以及對模型泛用性的優(yōu)化。第二類研究工作則以神經(jīng)輻射場的框架為基礎,對算法進行了擴展和延伸,使其能夠解決更加復雜的問題,包括無約束拍攝條件下的視點合成、可進行重光照的視點合成以及對于動態(tài)場景的視點合成。在介紹了神經(jīng)輻射場模型提出的背景之后,對以其為基礎的其他相關工作按照上述分類進行了討論和分析,最后總結了神經(jīng)輻射場方法面對的挑戰(zhàn)和對未來的展望。
基于圖像的繪制;視點合成;神經(jīng)輻射場;神經(jīng)渲染;深度學習
基于圖像的視點合成是計算機圖形學與計算機視覺領域共同關注的重要問題。具體來說,基于圖像的視點合成即為利用已知拍攝視點的若干圖像作為輸入,對這些圖像所拍攝的三維物體或者場景進行幾何、外觀、光照等性質的表達,從而可以對其他未拍攝到的視點的圖像進行合成,最終得到具有高真實感的繪制結果。相比傳統(tǒng)的三維重建結合圖形繪制的流程,此類方法能夠得到照片級別真實感的合成結果。
多年來,研究者們針對該問題進行了大量的探索,獲得了許多有價值的研究成果[1]。早期的方法一般采用“拼圖”的形式實現(xiàn)此目的[2-4],但這類方法對于拍攝條件的限制較高,同時能夠合成的視點也非常有限。后來研究者們開始嘗試從輸入圖像中提取場景的三維信息,并以提取出的三維結構信息作為輔助,實現(xiàn)對不同視點的繪制,提高了自由視點合成的效果[5-7]。近些年來隨著深度學習技術的飛速發(fā)展,許多基于深度學習的方法也被提出[8-10],通過數(shù)據(jù)驅動的方式,進一步提高了視點合成的準確性和真實感。
最近,隨著神經(jīng)渲染技術的興起,類似方法也被擴展到了視點合成的領域中。文獻[11]提出了使用神經(jīng)輻射場表示三維場景或模型,并結合體繪制方法,將此表示方式成功地應用到了視點合成領域,取得了高質量的合成結果。這一研究成果獲得了研究者們廣泛的關注,并且引領了接下來的一系列針對該方法進行分析、優(yōu)化、擴展的研究工作。其中,有些工作對神經(jīng)輻射場的繪制效率和精度進行了優(yōu)化提高[12-13],有些工作則是在可移植性上進行了探索[14-15],另外還有一些工作對該表示方法進行了擴展,以解決更加復雜的問題[16-17]。本文對以上基于神經(jīng)輻射場的最新研究工作進行綜述,對各種不同類型工作進行了介紹,也對各類方法的特點以及不足等進行分析和總結。
神經(jīng)輻射場的提出得益于神經(jīng)渲染領域取得的迅猛發(fā)展。該類技術可以將神經(jīng)網(wǎng)絡作為隱函數(shù)對三維模型進行表示,以達到不同的應用目的,如圖像生成、視角生成以及重新光照等等。本節(jié)首先對采用神經(jīng)網(wǎng)絡作為場景幾何的隱式表達的方法進行總結與介紹,以此引入神經(jīng)輻射場的提出。
占位網(wǎng)絡是一種典型的利用神經(jīng)網(wǎng)絡隱式表達三維幾何的方法[18-19]。這種方法用神經(jīng)網(wǎng)絡對空間中每個點的二值占位情況進行預測,即對三維空間訓練一個二分類網(wǎng)絡,如圖1所示。該方法的提出,主要意義在于使用連續(xù)函數(shù)對三維空間進行表達,相比于過去使用體素、網(wǎng)格等表達方式,可以在不增加任何空間存儲的情況下描述各種復雜的幾何形狀。
圖1 占位網(wǎng)絡對空間進行二分類[18]
除了直接把空間按照是否存在模型劃分為兩類情況之外,還有一類隱式的表示方法是通過回歸一個有符號的距離函數(shù)SDF對三維模型進行表示[20-21]。這類表示方式能夠連續(xù)地對三維模型進行表示,即使是具有復雜拓撲的模型也能夠進行建模,如圖2所示。
圖2 用有符號距離函數(shù)來表示三維模型((a)用有符號距離函數(shù)隱式表示曲面;(b)有符號距離函數(shù)的二維剖面;(c)利用有符號距離函數(shù)繪制得到的三維曲面)[20]
以SDF方法為基礎,研究者們對這類方法進一步進行了完善,將其應用到了對具有高度細節(jié)的模型表示中。例如,像素對齊隱式函數(shù)方法(pixel-aligned implicit function,PIFu)[21]通過將空間點投影到與像素對齊的特征空間,隱式地學習三維模型當中的細節(jié),從而實現(xiàn)了對穿衣人體模型的高分辨率重建。
但上述方法往往要求已知的三維形狀作為監(jiān)督信息,而在許多應用中,人們無法輕易地獲取到三維形狀的真值。所以接下來的一系列工作開始嘗試放寬這一條件,直接使用圖像作為監(jiān)督。為此,一些研究工作提出了可微的繪制技術,從而將繪制步驟加入到神經(jīng)網(wǎng)絡中,以實現(xiàn)由繪制圖像的誤差直接對網(wǎng)絡進行訓練。文獻[22]采用占位網(wǎng)絡作為表達三維模型幾何的表示結構,并采用數(shù)值方法尋找每條光線與模型表面的交點。每個光線交點都作為神經(jīng)網(wǎng)絡的輸入預測該點的顏色值。文獻[23]則采用為每個三維空間坐標預測對應的顏色和特征向量,并提出了一個由循環(huán)神經(jīng)網(wǎng)絡組成的可微的繪制函數(shù)用于決定哪里存在著物體表面。然而,這些方法始終受限于處理僅具有低復雜度的幾何結構的簡單形狀,導致過度平滑的繪制結果。
由于體繪制過程本身是可微的,所以可以加入到上述神經(jīng)網(wǎng)絡的訓練,從而實現(xiàn)僅用圖像的顏色值作為監(jiān)督的訓練過程。
圖3 神經(jīng)輻射場算法流程[11]
此外,為了避免合成圖像中高頻信息的丟失,NeRF還將輸入變量首先進行了位置編碼[25],將其映射到其傅里葉特征。實驗表明,這一映射能夠有效地解決高頻信息難以擬合的問題。
表1展示了NeRF與早期基于神經(jīng)網(wǎng)絡的其他方法在2個數(shù)據(jù)集[11,26]上的量化對比結果。由表1可以看出,使用連續(xù)函數(shù)對場景進行表示的NeRF方法得到了更加高質量的視點合成結果。
表1 NeRF與早期基于神經(jīng)網(wǎng)絡方法的量化對比
基于神經(jīng)輻射場的方法NeRF提出之后,由于其結構簡單、合成精度高的特點,迅速引起了研究者們的注意。部分研究工作開始對NeRF取得良好結果的原因進行理論和實驗分析,同時,部分研究工作也開始針對NeRF存在的問題進行了優(yōu)化和提升。
文獻[28]對NeRF方法中的位置編碼操作進行了更加深入的研究,以神經(jīng)正切核理論[29]作為工具,從理論上論證了標準的多層感知機是難以對高頻信息進行學習的。同時,其也通過不同應用場景下的實驗結果驗證了這一現(xiàn)象。為了解決這一問題,該方法提出將原始輸入變量映射至傅里葉特征空間可以將有效的神經(jīng)正切核變換為可調帶寬的靜態(tài)核,并且可以大幅地提升多層感知機處理計算機圖形學和計算機視覺領域中低維回歸問題的能力。如圖4所示,在加入位置編碼之后,對高頻信息的擬合有了顯著的提升。
圖4 加入位置編碼的效果((a)多層感知機網(wǎng)絡示例;(b)圖像回歸任務;(c)三維形狀回歸任務;(d)核磁共振成像任務;(e)逆向繪制任務)[28]
文獻[13]則對NeRF中理論上存在的歧義性進行了分析,并對采樣過程進行了優(yōu)化,使其能夠適應無邊界場景的視點合成。在NeRF中,為了對物體的外觀顏色隨觀察角度變化而變化這一性質進行建模,其理論上實際出現(xiàn)了幾何與顏色的歧義。具體來說,對于一個已知的場景或者模型,即使是一個完全錯誤的幾何估計,也總存在一個合適的輻射場使得該輻射場與該錯誤的幾何能夠完美地對輸入圖像進行擬合。如圖5所示,僅用一個球面模型代替正確的幾何結構,只要對應的輻射場足夠的精細,滿足每條光線與球面相交的點沿光線方向發(fā)出的顏色為對應像素的顏色,即可使得預測的圖像與輸入圖像完全吻合。然而由于對幾何的錯誤估計,該神經(jīng)輻射場在視點偏離輸入視點時就會造成較大的畸變,從而無法用于正確的視點合成。而NeRF在實際實驗中并沒有出現(xiàn)上述嚴重的歧義現(xiàn)象,是因為對于一個有限大小的多層感知機,其表示的函數(shù)具有較高的平滑性,一般難以表達出錯誤的幾何所需要的非常高頻的輻射場函數(shù),從而避免了這個問題。
圖5 顏色和幾何的歧義性[13]
除此之外,該文獻還對光線采樣過程進行了優(yōu)化,通過在單位球的內(nèi)外部分別采用不同的參數(shù)化方法,實現(xiàn)了對無邊界場景的有效采樣,完善了NeRF對無邊界場景的處理能力。優(yōu)化過后的采樣過程如圖6所示。
圖6 球面內(nèi)外不同參數(shù)化[13]
表2展示了該方法在無邊界場景數(shù)據(jù)集[30]上與原始NeRF方法的對比結果??梢钥闯?,該方法有效地提升了網(wǎng)絡對于無邊界場景的表達能力,可以得到更準確的視點合成結果。
表2 文獻[13]與NeRF在無邊界場景上的量化對比
還有一類重要的研究工作則以繪制效率為出發(fā)點提出了優(yōu)化策略[12,31-32]。如上文所述,通過神經(jīng)輻射場繪制圖像中的像素需要在其發(fā)出的光線上進行采樣,并且對于每一個采樣點,都需調用一次神經(jīng)網(wǎng)絡以得到對應的體密度和顏色值預測。這使得NeRF不僅在訓練時需要消耗較多時間,在對新視點進行預測時同樣需要消耗較多的時間。為此,文獻[12]提出了一種新的場景表達方式:神經(jīng)稀疏體素場(neural sparse voxel fields,NSVF),將空間進行稀疏的體素劃分,并把輻射場定義在每個體素內(nèi)部從而描述該局部空間的性質。在構造體素八叉樹結構之后,就可以在繪制時跳過那些不存在任何內(nèi)容的體素,從而大大提升繪制的速度?;谠撓∈梵w素結構的采樣方式如圖7所示。
圖7 不同的采樣方式((a)均勻采樣;(b)重要區(qū)域采樣; (c)稀疏體素采樣)[12]
還有部分研究者們對該模型的泛用性進行了研究和優(yōu)化[14-15,33]。傳統(tǒng)的NeRF模型要求對每一個場景都要獨立的進行訓練,同時也需要較多的進行過相機標定的輸入圖像用于訓練,這使得使用時的時間開銷較大,大大降低了該模型的泛用能力。文獻[14]首先利用卷積網(wǎng)絡對圖像進行特征提取,然后將提取到底特征加入到NeRF網(wǎng)絡的輸入中,以學習到場景的先驗,如式(3)所示
優(yōu)化之后的模型能夠有效地學習到場景的先驗知識,從而能夠在一次訓練過后,對于新的場景,僅通過少量的輸入圖像即可對未知視點進行預測。
另一種提高NeRF泛用性的方法則是利用元學習的思路。文獻[15]利用標準的元學習算法對NeRF網(wǎng)絡的初始參數(shù)進行學習,如圖8所示。該研究表明,使用學習得到網(wǎng)絡初始參數(shù)相比使用傳統(tǒng)的參數(shù)初始化方法能夠得到更快的收斂速度,同時這些學習到的初始參數(shù)值可以有效地作為場景的先驗知識,使得當輸入圖像有限時,也能得到良好的合成結果。實際上,該方法不僅限于視點合成問題,對于用全連接神經(jīng)網(wǎng)絡表示信號的各種應用均可適用。
圖8 學習得到的初始參數(shù)能夠加快收斂速度也具有更好的泛用性[15]
除了對NeRF方法本身進行分析和優(yōu)化之外,還有許多的研究工作對該方法進行了擴展和延伸,將其擴展到了更加多樣、復雜的應用場景中。
為了能夠利用互聯(lián)網(wǎng)上采集到的同一場景的多視角照片進行自由視點的合成,文獻[34]將NeRF擴展到了無約束拍攝條件下的視點合成,提出了無約束條件下的神經(jīng)輻射場算法(NeRF in the wild,NeRF-W)。對于某些名勝景點,互聯(lián)網(wǎng)上能夠找到大量的游客拍攝的照片,如何通過這些照片對場景構建合適的表示結構,實現(xiàn)自由視點的漫游是一個非常有價值也具有挑戰(zhàn)性的問題。由于照片的拍攝時間、天氣、光照等條件可能存在著巨大的差異,同時還常常會有游客等前景出現(xiàn)在不同的照片中,使得傳統(tǒng)的NeRF無法對這種情況構建出正確的神經(jīng)輻射場。在這種條件下,即使是同一個位置、同一個角度,也可能對應著完全不同的拍攝圖像。針對這一特點,該方法為每張輸入圖像進行外觀編碼[35],用于隱式地表示每幅輸入圖像所蘊含的拍攝條件。在加入這一編碼操作之后,NeRF-W可以準確地學習到場景的幾何結構,并可以對不同的輸入圖像的光照條件進行編碼和解碼。除此之外,為了處理不同照片中存在不同的前景等臨時物體,NeRF-W將場景建模為各輸入圖像間共享的元素以及依賴于各輸入圖像的元素。這使得模型可以對場景中保持靜態(tài)的內(nèi)容與臨時物體進行有效的區(qū)分,從而使得在合成新視點時,能夠避免由于行人、車輛等臨時前景所帶來的視覺瑕疵。圖9展示了NeRF-W處理互聯(lián)網(wǎng)無約束拍攝圖像的結果。
圖9 通過互聯(lián)網(wǎng)收集圖像進行視點繪制[34]
另一類重要的擴展應用為將神經(jīng)輻射場進行增強使其能夠表達不同的光照條件[36-38]。3.1節(jié)中介紹的NeRF-W雖然已經(jīng)能夠基于不同的光照條件下拍攝的圖像進行圖像合成,并且可以對合成的視點平滑地調整光照條件,但其只是隱式地對光照性質進行了描述,并不能顯式地調整光照的各種物理量。
文獻[37]提出了一種叫做神經(jīng)反射場的表示方式,在NeRF能夠對體密度信息進行編碼的基礎上,對空間中每一點的局部光照模型也進行了編碼,包括法向和反射性質,如圖10所示。該方法將這一表示模型與基于物理的可微光線步進算法進行結合,可以繪制出任意視點、任意光照條件下的圖像。
然而,這種直接的方法局限于某些受限的光照設置,要求所有的輸入圖像都繪制于同一個單個的點光源。對此,文獻[36]提出了神經(jīng)輻射及可見性場(neural reflectance and visibility fields,NeRV)進行改進,改進的方式是使用一個額外的多層感知機學習空間中的可見性場,用于描述每一個點的可見性。在這種情況下,該神經(jīng)網(wǎng)絡的輸入為空間中的三維位置坐標,輸出則為:體密度、表面法向、材質參數(shù)、沿任意方向距離第一個相交表面的距離、沿任意方向對外部環(huán)境的可見性。增加了可見性表達之后,該模型降低了體繪制的時間復雜度,從而可以描述更加復雜的光照所產(chǎn)生的效果,如圖11所示。
圖10 神經(jīng)反射場算法流程概覽[37]
圖11 神經(jīng)可見性場降低了時間復雜度[36]
表3展示了在不同光照條件下上述2種方法在合成場景數(shù)據(jù)集上的量化對比結果。其中,“Single Point” 表示光照為隨機分布的單一的白色點光源的光照條件?!癆mbient+Point”表示單一點光源和一個暗灰色環(huán)境圖的光照條件??梢钥闯?,在簡單的單一點光源條件下,2種方法并無顯著差異,但是在復雜的光照條件下,NeRV具有明顯的優(yōu)勢。
表3 文獻[37]與NeRV在不同光照條件下的量化對比
由NeRF的原理可知,其本質上是依賴于多視圖之間的幾何一致性。然而,當場景中存在動態(tài)物體時,這種一致性便不再存在,導致NeRF無法對存在動態(tài)物體的場景進行表達。所以,另一類重要的研究方向即為將NeRF擴展到對于動態(tài)場景的表達。
動態(tài)場景的視點合成問題指的是輸入一段視頻,視頻的拍攝過程中不僅相機發(fā)生移動,場景中的物體也存在運動。目標是通過這段視頻合成得到任意時刻任意視點的圖像。最直接的方法是將時間變量直接作為額外的輸入加入到NeRF的訓練中。但是,由于每個時刻,該場景中的每一點都只被一個視角觀察到,所以理論上有無數(shù)種幾何變化都可以符合輸入視頻中的觀察。為此,一種直接的解決方式是利用現(xiàn)有的動態(tài)視頻深度估計算法對每一幀的深度進行估計,以此對神經(jīng)輻射場的優(yōu)化進行約束[39]。這種方法由于需要顯式的深度圖進行約束,所以要首先訓練得到動態(tài)場景深度估計的網(wǎng)絡[40],并且其結果依賴于深度圖估計的準確性。
另一種解決思路則是利用場景流的約束。文獻[16]設計了神經(jīng)場景流場用于動態(tài)場景的表達。具體來說,該網(wǎng)絡在NeRF基礎上加入時間變量作為額外輸入,并且輸出的變量也在傳統(tǒng)NeRF的基礎上增加了對相鄰時刻場景流的預測。其中,該方法對預測的場景流進行了一致性的約束,以約束整體的優(yōu)化過程。該約束要求相鄰時刻的正向、反向場景流是一致的。圖12展示了利用預測的場景流對圖像進行形變的過程。
圖12 利用場景流進行形變[11]
此外,文獻[17]提出了一種可形變的神經(jīng)輻射場(Deformable neural radiance fields,D-NeRF)對存在動態(tài)物體的場景進行表示。該方法的基本框架與NeRF-W模型類似,對每個輸入圖像進行外觀編碼,以調整圖像之間的外觀變化,例如曝光度、白平衡等。在此基礎上,該方法用多層感知機表示一個空間坐標到正則空間坐標的變換,同時將場景每個時刻的狀態(tài)編碼為一個隱式的向量。通過對場景中的形變進行描述,該方法大大地提高了對于存在動態(tài)物體場景進行視點合成的魯棒性。圖13展示了該方法的網(wǎng)絡結構。
圖13 D-NeRF的網(wǎng)絡結構[17]
得益于可微繪制技術的發(fā)展,基于體繪制的神經(jīng)渲染方法在近年來取得了飛快的發(fā)展,也促進了基于神經(jīng)輻射場的視點合成算法的飛速發(fā)展。神經(jīng)輻射場方法的提出具有2個重要的意義。首先,該方法可以獲得高質量的視點合成結果。并且,不同于之前的算法采用離散的體素網(wǎng)格等結構對場景幾何進行描述,該方法利用神經(jīng)網(wǎng)絡強大的表示能里,使用神經(jīng)網(wǎng)絡作為連續(xù)的隱函數(shù)對三維場景的幾何和顏色性質進行表示。這使得該表示模型不會隨著場景中幾何分辨率的提高而顯著變大。第二,該表示方法為研究者們提供了一種新的研究思路,促進了后續(xù)基于此表示模型的各種方法的蓬勃發(fā)展。
本文首先以用神經(jīng)網(wǎng)絡作為隱函數(shù)表達三維模型的早期方法作為背景,引入了神經(jīng)輻射場方法的提出,也對該方法的理論模型進行了簡單的介紹。然后將基于該模型的相關工作分為2類進行了總結和分析:
第一類方法為對傳統(tǒng)神經(jīng)輻射場方法的理論分析和性能優(yōu)化。這類研究工作對神經(jīng)輻射場方法的效率、精度、理論依據(jù)等方面進行了深入的探討,也對算法本身的性能進行了優(yōu)化提升。其中包括對模型表示能力的優(yōu)化、對繪制效率的優(yōu)化以及針對模型泛用性的優(yōu)化。
第二類方法則為基于神經(jīng)輻射場方法的推廣和延伸。這類研究工作不再局限于原始方法所著眼的傳統(tǒng)靜態(tài)場景視點合成問題,而是以神經(jīng)輻射場的思路為基礎,為其他的復雜應用場景設計新的解決方案。有些方法將其推廣至利用無約束的互聯(lián)網(wǎng)圖像進行視點合成,有些則將其推廣至4維的動態(tài)場景的視點合成問題,還有一些方法則擴展了模型的表示能力,使其能夠對場景光照進行顯式表達,從而能夠對合成的視點進行重光照。
基于圖像的視點合成問題在近20余年始終是計算機圖形學和計算機視覺領域的重要問題,對此,研究者們也已經(jīng)進行了相當深入的研究。其中,如何從圖像中提取場景的幾何、外觀、光照等信息是視點合成技術的關鍵問題,也是其難點和挑戰(zhàn)。早期的方法受困于無法對場景的幾何進行準確估計,使得僅能在苛刻的應用條件下進行視點合成。隨著多視圖立體幾何的發(fā)展,研究者們利用對場景幾何的重建結果,大大提升了合成視點的魯棒性和準確性。然而,由于幾何的重建誤差以及并沒有考慮到場景幾何與外觀的一致性問題,視點合成的質量仍然有所不足。近年來,研究者們考慮同時對場景的幾何與外觀信息進行估計,使得視點合成技術得到了顯著的進步。深度學習的發(fā)展也深刻地影響到了這一領域。但是,由于這些方法均采用離散的方式來對三維空間進行描述,其合成質量受限于空間劃分的粒度,這使得空間復雜度成了對于合成視點質量的一個重要制約因素。同時,采用多平面劃分的方式,其對于場景中存在斜面的表示能力也存在著先天的劣勢。神經(jīng)輻射場方法利用了神經(jīng)網(wǎng)絡強大的表達能力,構造了一種連續(xù)的幾何與外觀表示方法來解決上述問題,在合成質量方面取得了顯著的提升。神經(jīng)輻射場方法提出至今僅僅一年左右的時間,基于該模型的相關研究工作已經(jīng)得到了如此快速的發(fā)展,這體現(xiàn)出了這一模型具有強大的表示能力以及優(yōu)秀的擴展性。而這一表示模型在其他應用領域的延伸將是重要的研究方向,例如基于神經(jīng)輻射場的場景編輯、模型生成等等。同時,這類方法也存在著缺點與不足。首先,通過隱函數(shù)表示三維空間的方式需要在繪制時對空間中的每一個點都調用該隱函數(shù)一次,這相比于離散的表示方式大大地增加了時間開銷,使得實時繪制難以實現(xiàn)。另外,該類方法的另一缺點為缺乏可解釋性。采用體素或網(wǎng)格的離散表示形式的方法具有較高的解釋性,能夠對合成結果中出現(xiàn)失敗或瑕疵的原因進行分析。而基于神經(jīng)輻射場模型的方法將三維場景編碼為神經(jīng)網(wǎng)絡的參數(shù),難以從圖形理論上分析該方法成功或者失敗的具體原因。對該類方法的可解釋性進行提升也將是未來重要的研究方向之一。本文通過對現(xiàn)有的工作進行分類總結,希望能對研究者們的研究工作起到參考和啟發(fā)作用。
[1] CHANG Y, WANG GP. A review on image-based rendering[J]. Virtual Reality & Intelligent Hardware, 2019,1(1): 39-54.
[2] SHUM H-Y, HE LW. Rendering with concentric mosaics[C]//The 26th Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM Press. 1999: 299-306.
[3] DEBEVEC P, DOWNING G, BOLAS M, et al. Spherical light field environment capture for virtual reality using a motorized pan/tilt head and offset camera[EB/OL]. [2021-01-20]. http://dx. doc.org/10.1145/2787626.2787648.
[4] SZELISKI R, SHUM HY, Creating full view panoramic image mosaics and environment maps[C]//The 24th Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM Press, 1997: 251–258.
[5] CHAURASIA G, DUCHêNE S, SORKINE-HORNUNG O, et al. Depth synthesis and local warps for plausible image-based navigation[J]. ACM Transaction on Graphics, 2013, 32(3): 30:1-30:12.
[6] HEDMAN P, KOPF J. Instant 3D photography[J]. ACM Transaction on Graphics, 2018, 37(4): 10:1-10:12.
[7] PENNER E, ZHANG L. Soft 3D reconstruction for view synthesis[J]. ACM Transaction on Graphics, 2017, 36(6): 235:1-235:11.
[8] HEDMAN P, PHILIP J, PRICE T, et al., Deep blending for free-viewpoint image-based rendering[J]. ACM Transaction on. Graphics, 2018, 37(6): 257:1-257:15.
[9] MILDENHALL B, SRINIVASAN PP, ORTIZ-CAYON R, et al. Local light field fusion: practical view synthesis with prescriptive sampling guidelines[J]. ACM Transaction on Graphics, 2019, 38(4): 29:1-29:14.
[10] CHOI I, GALLO O, TROCCOLI A J, et al. Extreme view synthesis[C]//2019 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2019: 7780-7789.
[11] MILDENHALL B, SRINIVASAN PP, TANCIK M, et al. NeRF: representing scenes as neural radiance fields for view synthesis[C]//2020 European Conference on Computer Vision. Heidelberg: Springer, 2020: 405-421.
[12] LIU L J, GU J T, LIN K Z, et al. Neural sparse voxel fields[C]//2020 Advances in Neural Information Processing Systems. Virtual: Curran Associates Inc, 2020: 15651-15663
[13] ZHANG K, RIEGLER G, SNAVELY N, et al. Nerf++: analyzing and improving neural radiance fields[EB/OL]. [2021-01-11]. https://arxiv.org/abs/2010.07492v2.
[14] YU A, YE V, TANCIK M, et alpixelNeRF: neural radiance fields from one or few images[EB/OL]. [2021-02-01]. https://arxiv.org/abs/2012.02190v1.
[15] TANCIK M, MILDENHALL B, WANG T, et al.Learned initializations for optimizing coordinate-based neural representations[EB/OL]. [2021-01-15]. https://arxiv.org/abs/2012. 02189v2.
[16] LI Z Q, NIKLAUS S, SNAVELY N, et al. Neural scene flow fields for space-time view synthesis of dynamic scenes[EB/OL]. [2021-02-15]. https://arxiv.org/abs/2011. 13084v1.
[17] PARK K, SINHA U, BARRON J T, et al. Deformable neural radiance fields[EB/OL]. [2021-01-29]. https://arxiv.org/abs/ 2011.12948.
[18] MESCHEDER L, OECHSLE M, NIEMEYER M, et al. Occupancy networks: learning 3D reconstruction in function space[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 4455-4465.
[19] CHEN Z Q, ZHANG H.Learning implicit fields for generative shape modeling[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 5932-5941.
[20] PARK J J, FLORENCE P, STRAUB J,NEWCOMBE R, et al. DeepSDF: learning continuous signed distance functions for shape representation[C]//2019 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2019: 165-174.
[21] SAITO S, HUANG Z, NATSUME R, et al. Pifu: pixel-aligned implicit function for high-resolution clothed human digitization[C]//2019 IEEE/CVF International Conference on Computer Vision. New York: IEEE Press, 2019: 2304-2314.
[22] NIEMEYER M, MESCHEDER L, OECHSLE M, et al. Differentiable volumetric rendering: learning implicit 3d representations without 3D supervision[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2020: 3501-3512.
[23] SITZMANN V, ZOLLH?FER M, WETZSTEIN G.cene representation networks: Continuous 3d-structure-aware neural scene representations[EB/OL]. [2021-01-18]. https://arxiv.org/abs/1906.01618?context=cs.
[24] KAJIYA JT, VON HERZEN BP. Ray tracing volume densities[J]. Computer Graphics, 1984, 18(3): 165-174.
[25] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//The 31st International Conference on Neural Information Processing Systems. New York: ACM Press, 2017: 6000-6010.
[26] SITZMANN V, THIES J, HEIDE F, et al. Deepvoxels: learning persistent 3D feature embeddings[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition.New York: IEEE Press, 2019: 2432-2441.
[27] LOMBARDI S, SIMON T, SARAGIH J, et al., Neural volumes: learning dynamic renderable volumes from images[J]. ACM Transaction on Graphics, 2019, 38(4): 65:1-65:14.
[28] TANCIK M, SRINIVASAN P P, BEN MILDENHALL B, et al. Fourier features let networks learn high frequency functions in low dimensional domains[EB/OL]. [2021-01-09]. https://arxiv. org/abs/2006.10739.
[29] JACOT A, GABRIEL F, HONGLER C. Neural tangent kernel: convergence and generalization in neural networks[C]//The 32nd International Conference on Neural Information Processing Systems. New York: ACM Press, 2018: 8580-8589.
[30] KNAPITSCH A, PARK J, ZHOU QY, et al. Tanks and temples: benchmarking large-scale scene reconstruction[J]. ACM Transactions on Graphics (ToG), 2017, 36(4): 1-13.
[31] LINDELLD B, MARTEL J N P, WETZSTEIN G. Automatic integration for fast neural volume rendering[EB/OL]. [2021-02-03]. https://arxiv.org/abs/2012.01714.
[32] NEFF T, STADLBAUER P,PARGER M, et al. DONeRF: towards real-time rendering of neural radiance fields using depth oracle networks[EB/OL]. [2021-01-28]. https://arxiv.org/ abs/2103.03231.
[33] TREVITHICK A, YANG B.GRF: learning a general radiance field for 3D scene representation and rendering[EB/OL]. [2021-02-10]. https://arxiv.org/abs/2010.04595.
[34] MARTIN-BRUALLA R, RADWAN N, SAJJADI MS, et al., Nerf in the wild: neural radiance fields for unconstrained photo collections[EB/OL][2021-01-30]. https://arxiv.org/abs/2008.02268.
[35] BOJANOWSKI P, JOULIN A, LOPEZ-PAS D, et al.Optimizing the latent space of generative networks[C]//The 35th International Conference on Machine Learning.Princeton: International Machine Learning Society(IMLS), 2018:599-608.
[36] SRINIVASAN P P, DENG B Y,ZHANG X M, et al. NeRV: neural reflectance and visibility fields for relighting and view synthesis[EB/OL]. [2021-01-02]. https://arxiv.org/abs/2012.03927.
[37] BI S, XU Z X, SRINIVASAN P, et al., Neural reflectance fields for appearance acquisition[EB/OL]. [2021-01-19]. https://arxiv.org/abs/2008.03824v2.
[38] BOSS M, BRAUN R, JAMPANI V, et al. NeRD: neural reflectance decomposition from image collections[EB/OL]. [2021-02-04]. https://arxiv.org/abs/2012.03918.
[39] XIAN W Q, HUANG J B, KOPF J, et al. Space-time neural irradiance fields for free-viewpoint video[EB/OL]. [2021-02-03]. https://arxiv.org/abs/2011.12950.
[40] LUO X, HUANG J B, SZELISKI R, et al. Consistent video depth estimation[J]. ACM Transactions on Graphics (TOG), 2020, 39(4): 71:1-71:13.
A review on neural radiance fields based view synthesis
CHANG Yuan1,2, GAI Meng1,2
(1. School of Electronics Engineering and Computer Science, Peking University, Beijing 100871, China;2. Beijing Engineering Technology Research Center for Virtual Simulation and Visualization, Peking University, Beijing 100871, China)
Image-based view synthesis techniques are widely applied to both computer graphics and computer vision. One of the key issues is how to use the information from the input image to represent a 3D model or scene. Recently, with the proposal of neural radiance fields (NeRF), a large number of research works based on this representation have further enhanced and extended the method, and achieved the expected accuracy and efficiency. This type of research can be broadly classified into two categories by purposes: the analysis and improvement of NeRF itself, and the extensions based on the NeRF framework. Methods of the first category have analyzed the theoretical properties and shortcomings of the NeRF representation and proposed some strategies for performance improvement, including the synthesis accuracy, rendering efficiency, and model generalizability. The second type of works are based on the NeRF framework and have extended the algorithm to solve more complex problems, including view synthesis using unconstrained images, view synthesis with relighting, and view synthesis for dynamic scenes. After outlining the background of the proposal of NeRF, other related works based on it were discussed and analyzed in this paper according to the classification mentioned above. Finally, the challenges and prospects were presented concerning the development of NeRF-based approaches.
image-based rendering; view synthesis; neural radiance fields; neural rendering; deep learning
TP 391
10.11996/JG.j.2095-302X.2021030376
A
2095-302X(2021)03-0376-09
2021-03-15;
2021-04-19
15 March,2021;
19 April,2021
北大百度基金資助項目(2019BD007)
PKU-Baidu Fund (2019BD007)
常 遠(1995-),男,河北邯鄲人,博士研究生。主要研究方向為計算機圖形學與計算機視覺。E-mail:changyuan@pku.edu.cn
CHANG Yuan (1995-), male, PhD candidate. His main research interests cover computer graphics and computer vision.E-mail: changyuan@pku.edu.cn
蓋 孟(1988-),男,山東萊陽人,助理研究員,博士。主要研究方向為計算機圖形學、虛擬仿真等。E-mail:gm@pku.org.cn
GAI Meng (1988-), male, research associate, Ph.D. His main research interests cover computer graphics, virtual reality and simulation, etc. E-mail: gm@pku.org.cn