摘 要:神經(jīng)輻射場(chǎng)(NeRF)是一種面向三維隱式空間建模的深度學(xué)習(xí)模型,在表示和渲染三維場(chǎng)景領(lǐng)域具有重要價(jià)值。然而由于神經(jīng)輻射場(chǎng)算法訓(xùn)練過程復(fù)雜、需要大量的計(jì)算資源和時(shí)間等,其可用性和實(shí)用性受到一定限制,如何針對(duì)神經(jīng)輻射場(chǎng)的痛點(diǎn)問題進(jìn)行優(yōu)化是當(dāng)前計(jì)算機(jī)視覺等領(lǐng)域研究的熱點(diǎn)之一。此研究旨在對(duì)神經(jīng)輻射場(chǎng)的優(yōu)化和應(yīng)用進(jìn)行全面綜述。首先,在深入解析神經(jīng)輻射場(chǎng)基本原理的基礎(chǔ)上,從渲染質(zhì)量、計(jì)算復(fù)雜度、位姿等方面對(duì)現(xiàn)階段神經(jīng)輻射場(chǎng)的優(yōu)化情況進(jìn)行概述;其次,列舉神經(jīng)輻射場(chǎng)應(yīng)用狀況,為未來更高效和實(shí)用的算法優(yōu)化設(shè)計(jì)提供參考;最后,總結(jié)神經(jīng)輻射場(chǎng)的優(yōu)勢(shì)與局限性,并提出未來可能的發(fā)展方向,以期發(fā)揮神經(jīng)輻射場(chǎng)在三維渲染、場(chǎng)景合成等方面的巨大潛力。
關(guān)鍵詞:神經(jīng)輻射場(chǎng); 神經(jīng)渲染; 三維場(chǎng)景; 深度學(xué)習(xí)
中圖分類號(hào):TP399 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2024)08-002-2252-09
doi:10.19734/j.issn.1001-3695.2023.11.0551
Comprehensive review of 3D scene rendering technique-neural radiance fields
Han Kai, Xu Juan
(School of Information Science, Beijing Language University, Beijing 100083, China)
Abstract:NeRF is a deep learning model aimed at modeling three-dimensional implicit spaces, and it holds significant value in the representation and rendering of 3D scenes. However, due to the complex training process, substantial computational resources, and time requirements, the usability and practicality of the NeRF algorithm are somewhat limited. Addressing the pain points of NeRF optimization has become a hot topic in the field of computer vision. This paper aimed to provide a comprehensive review of the optimization and application of NeRF. Firstly, it delved into the basic principles of NeRF and outlined the current optimization status from the perspectives of rendering quality, computational complexity, and pose. Secondly, it enumerated the application scenarios of NeRF to provide references for future, more efficient and practical algorithmic optimizations. Finally, it summarized the strengths and limitations of NeRF and proposed potential future directions tailored to harness the tremendous potential of NeRF in 3D rendering, scene synthesis, and beyond.
Key words:neural radiance fields(NeRF); neural rendering; 3D scene; deep learning
0 引言
近年來,虛擬現(xiàn)實(shí)(virtual reality,VR)和增強(qiáng)現(xiàn)實(shí)(augmented reality,AR)等技術(shù)引發(fā)了虛實(shí)結(jié)合的浪潮,人們對(duì)于在線教育、遠(yuǎn)程辦公和數(shù)字文娛等需求逐漸增加,使VR/AR行業(yè)呈現(xiàn)出快速增長(zhǎng)的態(tài)勢(shì)。特別是2021年元宇宙(Metaverse)[1]概念引爆全球,構(gòu)建高質(zhì)量的虛擬鏡像世界需要大量的數(shù)據(jù)、算力和算法的支持。然而,目前VR/AR資源較少,構(gòu)建方式往往采用人工或三維重建的方式,較為復(fù)雜。其中三維重建通過對(duì)拍攝的多張照片進(jìn)行分析匹配,構(gòu)建相應(yīng)的三維模型[2],傳統(tǒng)三維重建的關(guān)鍵技術(shù)主要包括激光掃描法、結(jié)構(gòu)光法、Kinect技術(shù)和單目視覺等,按照是否主動(dòng)向場(chǎng)景中發(fā)射光源分為主動(dòng)式和被動(dòng)式[3]。主動(dòng)式通過傳感器主動(dòng)向物體照射光源,依靠解析返回的信號(hào)來獲得物體的三維信息;被動(dòng)式不使用任何其他能量,依靠多視圖幾何原理基于視差進(jìn)行計(jì)算。
隨著深度學(xué)習(xí)技術(shù)的迅猛發(fā)展,研究者開始探索利用神經(jīng)網(wǎng)絡(luò)來解決三維場(chǎng)景重建和圖像合成的問題。為了擺脫傳統(tǒng)體積渲染的束縛,神經(jīng)輻射場(chǎng)應(yīng)運(yùn)而生。神經(jīng)輻射場(chǎng)是一種新興的機(jī)器學(xué)習(xí)方法,最早出現(xiàn)在2020年ECCV會(huì)議上,由Mildenhall等人[4]提出。自該文發(fā)表以來,神經(jīng)輻射場(chǎng)引起了計(jì)算機(jī)科學(xué)與技術(shù)領(lǐng)域的廣泛關(guān)注,特別是在計(jì)算機(jī)視覺領(lǐng)域掀起了研究熱潮,對(duì)計(jì)算機(jī)圖形學(xué)、虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)等領(lǐng)域均產(chǎn)生了積極影響,是一項(xiàng)具有極大研究潛力的技術(shù)[5,6]。在Google Scholar上搜索2020年1月至2023年11月神經(jīng)輻射場(chǎng)有關(guān)論文達(dá)1萬余篇,引用量已超6 000次,ICCV、ECCV等學(xué)術(shù)會(huì)議中都收錄了大量關(guān)于神經(jīng)輻射場(chǎng)的高質(zhì)量論文。可見,神經(jīng)輻射場(chǎng)已然成為國內(nèi)外圖形圖像領(lǐng)域?qū)W術(shù)研究重要關(guān)注的內(nèi)容。
然而,在技術(shù)應(yīng)用過程中,神經(jīng)輻射場(chǎng)訓(xùn)練一次需要100 k~300 k次迭代,完成一個(gè)三維場(chǎng)景需要構(gòu)建大量的物體,采用當(dāng)前的訓(xùn)練模式無法有效運(yùn)用在下游產(chǎn)業(yè)中。同時(shí),神經(jīng)輻射場(chǎng)大量的神經(jīng)網(wǎng)絡(luò)運(yùn)算導(dǎo)致其渲染速度緩慢,種種因素制約了神經(jīng)輻射場(chǎng)在實(shí)際場(chǎng)景中的應(yīng)用。為使神經(jīng)輻射場(chǎng)能夠更好地發(fā)揮其價(jià)值,學(xué)界開始了對(duì)神經(jīng)輻射場(chǎng)技術(shù)的優(yōu)化研究,這些研究成果對(duì)更好地發(fā)揮神經(jīng)輻射場(chǎng)具有重要借鑒意義。鑒于此,本文將從全面介紹神經(jīng)輻射場(chǎng)方法的基本原理出發(fā),針對(duì)神經(jīng)輻射場(chǎng)優(yōu)化技術(shù)進(jìn)行分析,并從實(shí)際應(yīng)用情況進(jìn)行概述,旨在對(duì)當(dāng)前神經(jīng)輻射場(chǎng)的發(fā)展情況進(jìn)行總結(jié),從而探索其在渲染技術(shù)和相關(guān)領(lǐng)域中的潛力和未來可能的研究方向,為后續(xù)進(jìn)一步優(yōu)化研究提供有益參考。
1 神經(jīng)輻射場(chǎng)的基本原理
神經(jīng)輻射場(chǎng)是一種高質(zhì)量場(chǎng)景重建技術(shù),它能夠表示場(chǎng)景的三維結(jié)構(gòu),從而實(shí)現(xiàn)新視角的視圖合成[4]。神經(jīng)輻射場(chǎng)的主要任務(wù)是在已知視圖的視角下生成未知視角的圖像,基本形式是將三維場(chǎng)景表示為神經(jīng)網(wǎng)絡(luò)近似的輻射場(chǎng),并從二維圖像中重建出逼真高質(zhì)量的三維場(chǎng)景,本質(zhì)上也是一種基于深度學(xué)習(xí)的機(jī)器學(xué)習(xí)方法。下文將從神經(jīng)輻射場(chǎng)基本架構(gòu)、渲染和訓(xùn)練這三個(gè)主要方面展開,深入闡釋神經(jīng)輻射場(chǎng)方法的基本原理。
1.1 神經(jīng)輻射場(chǎng)的基本架構(gòu)
神經(jīng)輻射場(chǎng)引入了輻射場(chǎng)的概念,指在空間中每個(gè)點(diǎn)上的顏色和輻射強(qiáng)度的分布,這里每個(gè)點(diǎn)的輻射信息可以表示為一個(gè)連續(xù)的函數(shù),以此獲取這個(gè)輻射場(chǎng)包含在任意空間點(diǎn)處的顏色、密度等屬性信息。在實(shí)際訓(xùn)練中,使用基于神經(jīng)網(wǎng)絡(luò)的隱式表示方法來表示場(chǎng)景的輻射場(chǎng),這是因?yàn)橄噍^于顯式表示方法,隱式表示方法無須顯式存儲(chǔ)場(chǎng)景的幾何形狀和材質(zhì),能進(jìn)行無限的分辨率渲染,并且使用神經(jīng)網(wǎng)絡(luò)可以從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)場(chǎng)景的復(fù)雜性和多樣性。神經(jīng)輻射場(chǎng)的基本架構(gòu)主要包括位置編碼和多層感知機(jī)。
1.1.1 位置編碼
在傳統(tǒng)的MLP網(wǎng)絡(luò)中,由于其局限性,較難有效學(xué)習(xí)和表示顏色、紋理和光照等高頻數(shù)據(jù)的細(xì)節(jié)。但場(chǎng)景中的顏色紋理信息通常具有高頻成分,如果直接使用MLP網(wǎng)絡(luò)對(duì)場(chǎng)景進(jìn)行學(xué)習(xí),可能會(huì)導(dǎo)致習(xí)得的紋理表面變得相當(dāng)模糊。
為了解決這一問題,神經(jīng)輻射場(chǎng)引入了位置編碼(positional encoding)[7]的概念。位置編碼函數(shù)采用與Transformer 中類似正余弦周期函數(shù)的形式,在不同頻域上對(duì)位置進(jìn)行編碼,允許MLP網(wǎng)絡(luò)同時(shí)學(xué)習(xí)場(chǎng)景中的高低頻信息,以提高對(duì)細(xì)節(jié)的捕捉能力。位置編碼主要用于提升MLP網(wǎng)絡(luò)對(duì)場(chǎng)景中高頻信息的捕捉能力,類似于傅里葉變換,利用高頻函數(shù)將低維空間的數(shù)據(jù)輸入映射到高維空間,以增加網(wǎng)絡(luò)對(duì)高頻數(shù)據(jù)的敏感性[8]。神經(jīng)輻射場(chǎng)能夠采用位置編碼將輸入的空間位置(x,y,z)和觀察方向(θ,)映射到高維空間,實(shí)現(xiàn)高頻信息的有效擬合,提高生成圖像的清晰度。
1.1.2 多層感知機(jī)
神經(jīng)輻射場(chǎng)通常使用多層感知機(jī)(multilayer perceptron,MLP)來學(xué)習(xí)一個(gè)三維場(chǎng)景顏色、密度等物理屬性,MLP是一個(gè)由多個(gè)全連接的隱藏層組成的深度神經(jīng)網(wǎng)絡(luò),可以作為通用函數(shù)近似器表示表面或體積屬性[4]。其中每個(gè)隱藏層中的神經(jīng)元與前一層中的所有神經(jīng)元相互連接,通過非線性變換將輸入映射到輸出,再通過輸出層的神經(jīng)元輸出對(duì)應(yīng)的屬性。
神經(jīng)輻射場(chǎng)使用Fθ(x,d)→(c,σ)兩個(gè)獨(dú)立的MLP來分別表示場(chǎng)景中每個(gè)點(diǎn)的輻射顏色和密度。具體操作步驟如下:首先,將輸入數(shù)據(jù)x(即x,y,z)傳入第一個(gè)MLP網(wǎng)絡(luò),經(jīng)過一系列的非線性變換和激活函數(shù)后,得到對(duì)應(yīng)的中間特征和σ(即對(duì)應(yīng)點(diǎn)的密度);接著,將中間特征和d(即觀察視角)再次輸入到另一個(gè)全連接層中,并預(yù)測(cè)場(chǎng)景中的顏色c,由此得到對(duì)應(yīng)點(diǎn)的顏色和密度值。
如圖1所示,神經(jīng)網(wǎng)絡(luò)的輸入是連續(xù)的5D坐標(biāo),包括空間點(diǎn)坐標(biāo)(x,y,z)和觀察方向(θ,),共計(jì)五個(gè)變量[4],經(jīng)過位置編碼和多層感知機(jī)的處理,輸出對(duì)應(yīng)點(diǎn)的顏色(r,g,b)和體積密度。整個(gè)過程需要在場(chǎng)景中進(jìn)行大量空間點(diǎn)的采樣并進(jìn)行預(yù)測(cè),使神經(jīng)輻射場(chǎng)從不同視角合成出逼真的連續(xù)視角圖像,實(shí)現(xiàn)對(duì)場(chǎng)景的渲染任務(wù)??梢酝ㄟ^限制顏色的預(yù)測(cè),保持多視圖之間的一致性,使得神經(jīng)輻射場(chǎng)能夠根據(jù)不同視角下的光照效果生成不同的圖像。結(jié)合MLP的能力,神經(jīng)輻射場(chǎng)能夠模擬逼真的場(chǎng)景,并有效提升生成圖像的畫面質(zhì)量。它可以通過捕捉復(fù)雜的非線性關(guān)系,有效進(jìn)行建模,從而實(shí)現(xiàn)后續(xù)高質(zhì)量的圖像渲染效果。
1.2 圖像渲染
在渲染階段,神經(jīng)輻射場(chǎng)使用了體積渲染方法[9],通過光線和場(chǎng)景點(diǎn)的采樣預(yù)測(cè)顏色和密度,并將其累積到最終的合成圖像中。體積渲染是一種將三維場(chǎng)景轉(zhuǎn)換為二維圖像的技術(shù),具體到神經(jīng)輻射場(chǎng)中來說,當(dāng)給定不同視角的相機(jī)姿態(tài)后,可以計(jì)算出特定像素坐標(biāo)的顏色。
具體實(shí)現(xiàn)步驟為:通過對(duì)采樣點(diǎn)或途經(jīng)點(diǎn)(即相機(jī)光心發(fā)出的一條射線經(jīng)過要計(jì)算顏色的像素坐標(biāo),并穿過場(chǎng)景中的各個(gè)點(diǎn))的顏色值累加,可以得到該像素的最終顏色。在這個(gè)過程中,通過渲染方程對(duì)每個(gè)途經(jīng)點(diǎn)進(jìn)行遞歸計(jì)算,能夠獲取途經(jīng)點(diǎn)到相機(jī)位置的顏色值,具體體現(xiàn)在渲染方程中
(γ)=∫tftnT(t)σ(r(t))c(r(t),d)dt(1)
其中:c表示顏色;σ表示密度;r表示相機(jī)發(fā)出射線上的距離;d表示相機(jī)射線上的方向;t則表示在相機(jī)射線上采樣點(diǎn)到相機(jī)光心的距離;dt表示光線在每一步積分的微分距離。這里一條射線上的點(diǎn)是連續(xù)的,因此射線的顏色可以由積分得到。T(t)是射線從tn到t這一段路徑上的光線累積透明度,可以理解為這條射線從tn到t沒有擊中任何粒子的概率。在方程中,累積的體積密度σ越大,T(t)的值越小,有效降低了遮擋對(duì)該位置顏色的影響。
考慮到一條射線上大部分區(qū)域都是空區(qū)域或被遮擋的區(qū)域,對(duì)最終顏色的貢獻(xiàn)值較小,神經(jīng)輻射場(chǎng)中采用了一種優(yōu)化策略分層體素渲染[4],通過對(duì)不同區(qū)域分別進(jìn)行粗采樣和細(xì)采樣的方式來減少計(jì)算開銷。在粗采樣階段,神經(jīng)輻射場(chǎng)使用較為稀疏的采樣點(diǎn),在起點(diǎn)和終點(diǎn)之間均勻采樣Nc個(gè)點(diǎn)。這些粗采樣的點(diǎn)用于計(jì)算體素的密度和顏色值。對(duì)于得到的粗采樣點(diǎn),神經(jīng)輻射場(chǎng)通過歸一化權(quán)重進(jìn)行分段常數(shù)概率密度函數(shù)的構(gòu)建,并使用逆變換方法對(duì)粗采樣的點(diǎn)進(jìn)行二次采樣,以此得出更多的細(xì)采樣點(diǎn)。通過將這些細(xì)采樣點(diǎn)與原有的粗采樣點(diǎn)一起采樣,減小估算積分式的計(jì)算開銷,加快訓(xùn)練速度。
1.3 神經(jīng)輻射場(chǎng)的訓(xùn)練
總的來說,神經(jīng)輻射場(chǎng)的訓(xùn)練過程包括數(shù)據(jù)準(zhǔn)備、射線采樣、場(chǎng)景表示預(yù)測(cè)、渲染圖像生成和損失函數(shù)計(jì)算幾個(gè)步驟,如圖2所示。
收集準(zhǔn)備用于訓(xùn)練的場(chǎng)景數(shù)據(jù)是訓(xùn)練的基礎(chǔ),數(shù)據(jù)包括多個(gè)角度下拍攝的圖像以及相機(jī)姿態(tài)信息。一些常見的神經(jīng)輻射場(chǎng)數(shù)據(jù)集通常會(huì)涵蓋不同類型的場(chǎng)景,包括LLFF、360_v2和Objectron[10]等。其次,需要完成對(duì)多視角圖像的射線采樣,這里的一條射線對(duì)應(yīng)最終圖片的一個(gè)像素,找到射線與場(chǎng)景的若干個(gè)交點(diǎn),這些采樣點(diǎn)將作為MLP的輸入完成后續(xù)的訓(xùn)練。想要確定射線,離不開對(duì)相機(jī)位姿的確認(rèn),可以利用SFM(structure from motion)方法[11]進(jìn)行相機(jī)位姿的生成。
接著,將每個(gè)采樣點(diǎn)的3D坐標(biāo)和觀察位置輸入到神經(jīng)網(wǎng)絡(luò)中,通過一系列非線性變換和激活函數(shù),產(chǎn)生該位置的密度值和顏色值。利用體積渲染技術(shù),沿著光線路徑對(duì)密度和顏色值進(jìn)行插值[12]和融合,以計(jì)算出每個(gè)像素的顏色值。
因?yàn)轶w積渲染函數(shù)是可微的,可以通過計(jì)算渲染生成的圖像與真實(shí)圖像之間的差異,使用損失函數(shù)進(jìn)行比較,從而對(duì)神經(jīng)輻射場(chǎng)的場(chǎng)景表示進(jìn)行迭代優(yōu)化。這里的損失函數(shù)可以用于衡量生成圖像和真實(shí)圖像中每個(gè)像素RGB值之間的差異。通過整個(gè)訓(xùn)練過程,使得神經(jīng)輻射場(chǎng)可以在之前未見過的視角下生成逼真的圖像。
2 神經(jīng)輻射場(chǎng)的優(yōu)化
神經(jīng)輻射場(chǎng)能較好地和現(xiàn)有的圖像內(nèi)容理解方法兼容,能夠不受網(wǎng)格限制更好地處理場(chǎng)景細(xì)節(jié)和紋理,并且可以在不同視角下生成高質(zhì)量的圖像。但同時(shí),神經(jīng)輻射場(chǎng)的訓(xùn)練和渲染往往需要大量的計(jì)算資源和時(shí)間,使得研究者需要從渲染質(zhì)量、計(jì)算復(fù)雜度、位姿優(yōu)化等多個(gè)方面不斷嘗試優(yōu)化和改進(jìn)神經(jīng)輻射場(chǎng)算法。為了更加透徹地了解作為神經(jīng)隱式表征突出代表的神經(jīng)輻射場(chǎng)技術(shù)的應(yīng)用潛力,如圖3,本章圍繞現(xiàn)階段神經(jīng)輻射場(chǎng)的優(yōu)化,從渲染質(zhì)量、渲染速度、位姿、可編輯場(chǎng)景等優(yōu)化方法出發(fā),對(duì)相關(guān)研究成果進(jìn)行系統(tǒng)梳理和總結(jié)。
2.1 關(guān)于渲染質(zhì)量的優(yōu)化
渲染質(zhì)量是評(píng)判神經(jīng)輻射場(chǎng)技術(shù)好壞的重要指標(biāo),影響著后續(xù)的研究工作。研究者們大多將精力集中于優(yōu)化和提升生成的三維空間的渲染質(zhì)量上。以下模型皆致力于提升合成視圖的渲染圖像質(zhì)量。
Mip-NeRF[13]是一種減少圖像鋸齒神經(jīng)輻射場(chǎng)的多尺度表示方法,如圖4所示,相較于傳統(tǒng)神經(jīng)輻射場(chǎng)的表示方法,它提出利用錐追蹤(cone tracing)[14]來完成光線追蹤,改善了神經(jīng)輻射場(chǎng)投出光線產(chǎn)生混疊的問題,顯著提高了神經(jīng)輻射場(chǎng)呈現(xiàn)精細(xì)細(xì)節(jié)的能力。不同于傳統(tǒng)的光線追蹤,該方法通過有效地渲染圓錐體,構(gòu)建了每個(gè)圓錐體覆蓋體積的綜合位置編碼,從而降低了混疊出現(xiàn),顯著提高了神經(jīng)輻射場(chǎng)呈現(xiàn)細(xì)節(jié)精細(xì)度的能力。
Mip-NeRF在渲染場(chǎng)景時(shí)能夠展現(xiàn)更加清晰、平滑的圖像效果,并減少了圖像鋸齒現(xiàn)象,使得渲染結(jié)果更加逼真。同時(shí),Mip-NeRF在性能方面也有所提升,相較于傳統(tǒng)神經(jīng)輻射場(chǎng),其渲染速度提高了約7%的同時(shí),還能將模型的大小減半,節(jié)約了存儲(chǔ)空間。但Mip-NeRF存在一定的缺點(diǎn),它的效果實(shí)現(xiàn)需要準(zhǔn)確標(biāo)定相機(jī)位姿,只有當(dāng)收集圖片質(zhì)量高且相機(jī)姿態(tài)準(zhǔn)確時(shí),它才能呈現(xiàn)良好的效果,否則容易因?yàn)榕臄z過程中出現(xiàn)的運(yùn)動(dòng)模糊等噪聲受到影響,后續(xù)的工作在一定程度上對(duì)此問題進(jìn)行了優(yōu)化。
針對(duì)應(yīng)用于無界場(chǎng)景表現(xiàn)不佳的問題,Barron等人[15]提出一種無邊界抗鋸齒神經(jīng)輻射場(chǎng)Mip-NeRF 360,它是Mip-NeRF的擴(kuò)展,使用非線性場(chǎng)景參數(shù)化、在線蒸餾和基于失真的正則化器來克服無界場(chǎng)景問題。與Mip-NeRF相比,它減少了57%的均方誤差。
Ref-NeRF[16]建立在Mip-NeRF的基礎(chǔ)上,用反射亮度取代了神經(jīng)輻射場(chǎng)中參數(shù)化視相關(guān)的出射亮度,并采用一組空間變化場(chǎng)景屬性構(gòu)造函數(shù),提出了一種新的關(guān)于視相關(guān)輻射值的參數(shù)化和結(jié)構(gòu)化方式,對(duì)法向量提出新的正則化。這些操作能讓MLP在上面更好地插值,主要解決了合成中的高光和反光問題。
為解決神經(jīng)輻射場(chǎng)在多尺度的視圖合成任務(wù)中產(chǎn)生模糊和鋸齒的問題,范騰等人[17]提出了多尺度神經(jīng)輻射場(chǎng)(MS-NeRF)方法,該方法通過在多尺度視圖合成任務(wù)過程中引入不同尺度場(chǎng)景下稀疏的視圖特征和視點(diǎn)特征作為先驗(yàn)信息,并利用淺層的殘差塊網(wǎng)絡(luò)對(duì)深層網(wǎng)絡(luò)進(jìn)行監(jiān)督,從而提高了合成視圖的視覺效果。
NeRF-W[18]是一種神經(jīng)輻射場(chǎng)的擴(kuò)展,通過放寬嚴(yán)格一致性的假設(shè)來處理實(shí)際場(chǎng)景中的復(fù)雜性和多樣性。其主要技術(shù)點(diǎn)包括采用自監(jiān)督學(xué)習(xí)方法來學(xué)習(xí)如何將非結(jié)構(gòu)化網(wǎng)絡(luò)照片集轉(zhuǎn)換為3D場(chǎng)景表示,通過比較渲染圖像與實(shí)際圖像之間的差異來學(xué)習(xí)場(chǎng)景的外觀和結(jié)構(gòu)。這種方法允許在渲染圖像中出現(xiàn)一些不一致性,但需要在可接受的范圍內(nèi)。NeRF-W能夠更好地處理實(shí)際場(chǎng)景中的復(fù)雜性和多樣性,從而提高了3D場(chǎng)景重構(gòu)的精度和質(zhì)量。
NeRF++方法[19]引入了自適應(yīng)采樣策略和分層網(wǎng)絡(luò)結(jié)構(gòu),使用球體分離場(chǎng)景,為未綁定場(chǎng)景生成新的視圖,它主要訓(xùn)練了兩個(gè)獨(dú)立的神經(jīng)輻射場(chǎng)模型,一個(gè)用于球體內(nèi)部,一個(gè)用于球體外部,使用這種訓(xùn)練方法將原始的神經(jīng)輻射場(chǎng)擴(kuò)展,實(shí)現(xiàn)了遠(yuǎn)景渲染質(zhì)量的提高。對(duì)渲染質(zhì)量?jī)?yōu)化方法的總結(jié)及對(duì)比如表1所示。
上述各項(xiàng)提升NeRF渲染質(zhì)量的優(yōu)化技術(shù)都對(duì)渲染質(zhì)量有一定的提升,且各有其優(yōu)勢(shì)和不足。在神經(jīng)輻射場(chǎng)基礎(chǔ)上,目前Mip-NeRF對(duì)于后續(xù)的進(jìn)一步研究最具影響力,它提出了錐形追蹤,減少了鋸齒偽影,Ref-NeRF實(shí)現(xiàn)效果同樣十分優(yōu)秀。除此之外,Deblur-NeRF[20]使用了一個(gè)新穎的可變形稀疏核模塊,實(shí)現(xiàn)了模糊輸入恢復(fù)清晰的效果,使神經(jīng)輻射場(chǎng)對(duì)模糊輸入具有魯棒性。具體應(yīng)用到圖像處理方向,RawNeRF[21]和HDR-NeRF[22]同樣展現(xiàn)了創(chuàng)新的一面。然而,究其本質(zhì),神經(jīng)輻射場(chǎng)離不開對(duì)渲染高清視圖的需求,當(dāng)前研究盡管在一定程度上提高了渲染質(zhì)量,但在實(shí)際應(yīng)用的過程中仍可能面臨成本過高等現(xiàn)實(shí)問題,除了注重渲染質(zhì)量的提升以外,還應(yīng)平衡成本與效益的關(guān)系,以真正實(shí)現(xiàn)NeRF的落地應(yīng)用。
2.2 關(guān)于計(jì)算復(fù)雜度的優(yōu)化
原始版神經(jīng)輻射場(chǎng)需要100張左右的圖片進(jìn)行訓(xùn)練,隨著計(jì)算復(fù)雜度的改進(jìn),現(xiàn)有模型只需要幾張圖像幾秒鐘就可以進(jìn)行高質(zhì)量重建。Instant-NGP[23]模型極大地提高了神經(jīng)輻射場(chǎng)模型的訓(xùn)練速度,如圖5所示,原先一個(gè)場(chǎng)景訓(xùn)練需要幾個(gè)小時(shí),Instant-NGP只要幾秒鐘就可以完成。不同于神經(jīng)輻射場(chǎng)的MLP,Instant-NGP用體素網(wǎng)格進(jìn)行哈希編碼,這種新的位置編碼極大地提高了訓(xùn)練和推理速度。
Depth-Supervised NeRF[24]在原有損失函數(shù)的基礎(chǔ)上提出了創(chuàng)新,充分利用了現(xiàn)有的深度監(jiān)督學(xué)習(xí)方法,并巧妙地利用了運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(structure from motion,SFM)將稀疏3D點(diǎn)作為額外的深度監(jiān)督信號(hào)。通過引入這個(gè)損失函數(shù),DS-NeRF能夠把光線的深度分布與給定的3D關(guān)鍵點(diǎn)相匹配,并且還考慮了深度的不確定性。這種方法在訓(xùn)練過程中僅使用較少的視圖就能生成更加優(yōu)質(zhì)的圖像,并且訓(xùn)練速度提高了2~3倍。此外,DS-NeRF的優(yōu)勢(shì)還在于它能夠支持多種深度監(jiān)督形式,如掃描深度傳感器和RGBD重建輸出。
SNeRG[25]則是一種加速渲染的方法。Hedman等人通過預(yù)計(jì)算和存儲(chǔ)稀疏神經(jīng)輻射網(wǎng)格來對(duì)神經(jīng)輻射場(chǎng)進(jìn)行實(shí)時(shí)渲染,將MLP模型轉(zhuǎn)換成一個(gè)稀疏網(wǎng)格模型進(jìn)行訓(xùn)練,實(shí)現(xiàn)30 fps以上的典型神經(jīng)輻射場(chǎng)場(chǎng)景。但其對(duì)含反射和透明場(chǎng)景進(jìn)行建模時(shí)較為困難,需要對(duì)每個(gè)表面的視圖依賴性完成單獨(dú)建模,這對(duì)于城市規(guī)模的渲染,將會(huì)出現(xiàn)成本過高的情況。
DVGO[26]提出了對(duì)網(wǎng)格進(jìn)行訓(xùn)練加速的方法,采用將場(chǎng)景進(jìn)行顯示體素表達(dá)的方法,將神經(jīng)輻射場(chǎng)的訓(xùn)練時(shí)間縮減到半小時(shí)以內(nèi)。Sun等人采用了兩個(gè)先驗(yàn)算法,通過混合體素階段跳過了大量無關(guān)點(diǎn)的采樣,相比于傳統(tǒng)神經(jīng)輻射場(chǎng),它直接使用三線性插值得出空間點(diǎn)的信息,無須通過MLP,由此實(shí)現(xiàn)了加速訓(xùn)練。DVGO測(cè)試中得到的結(jié)果通常比NeRF好,特別是在一些具有復(fù)雜幾何的場(chǎng)景上,但對(duì)無界場(chǎng)景沒有給出處理方法。對(duì)以上計(jì)算復(fù)雜度優(yōu)化方法的總結(jié)及對(duì)比如表2所示。
除此之外,Point-NeRF[27]、HeadNeRF[28]和Plenoxels[29]等模型都在高效建模與渲染方面展現(xiàn)出優(yōu)秀的能力。Point-NeRF用3D點(diǎn)云和神經(jīng)特征來模擬輻射場(chǎng)進(jìn)行優(yōu)化,訓(xùn)練時(shí)間大大縮短;HeadNeRF則是將神經(jīng)輻射場(chǎng)集成到人頭的參數(shù)表示中,可以實(shí)時(shí)渲染高保真頭部圖像,同時(shí)通過設(shè)計(jì)新的損耗項(xiàng),將一幀的渲染時(shí)間從5 s減少到25 ms;Plenoxels通過梯度方法和正則化對(duì)校準(zhǔn)圖像進(jìn)行優(yōu)化,是一種全體素用于逼真視圖合成的系統(tǒng),優(yōu)化速度比神經(jīng)輻射場(chǎng)快兩個(gè)數(shù)量級(jí)。
神經(jīng)輻射場(chǎng)技術(shù)涉及復(fù)雜的計(jì)算問題,需要高度優(yōu)化技術(shù)來提高計(jì)算效率。以上研究從訓(xùn)練和渲染階段入手,致力于優(yōu)化神經(jīng)輻射場(chǎng)的計(jì)算復(fù)雜度,以提高計(jì)算速度和準(zhǔn)確性。這些研究取得了一定的進(jìn)步,但仍然存在一些不足。例如,當(dāng)使用幾張簡(jiǎn)單的圖像進(jìn)行重建時(shí),如何更好地把控渲染后三維模型的精細(xì)度是一項(xiàng)重要的挑戰(zhàn)。由此可見,未來在應(yīng)用神經(jīng)輻射場(chǎng)進(jìn)行場(chǎng)景重建時(shí),需要同時(shí)考慮渲染質(zhì)量的提升和計(jì)算復(fù)雜度的降低,以獲得最佳的效果。
2.3 關(guān)于位姿的優(yōu)化
傳統(tǒng)神經(jīng)輻射場(chǎng)的訓(xùn)練建立在已有相機(jī)位姿的基礎(chǔ)上,通常受到不對(duì)準(zhǔn)相機(jī)位姿訓(xùn)練樣本的影響,且在實(shí)際應(yīng)用中存在相機(jī)位姿未知的情況,因此,位姿優(yōu)化的NeRF具有一定的研究?jī)r(jià)值。部分研究采用NeRF-based SLAM(simultaneously localization and mapping)等方法來優(yōu)化位姿,并不斷嘗試與深度學(xué)習(xí)融合,如下幾個(gè)關(guān)于位姿的優(yōu)化模型和方法值得關(guān)注。
iNeRF[30]是一種用于姿態(tài)估計(jì)的反向神經(jīng)輻射場(chǎng)框架,通過固定網(wǎng)絡(luò)模型優(yōu)化相機(jī)位姿。它可以在沒有3D網(wǎng)格模型或深度感應(yīng)的情況下,僅使用RGB圖像作為輸入來估計(jì)具有復(fù)雜幾何形狀的場(chǎng)景和物體的姿態(tài)。通過反轉(zhuǎn)從單一視圖推斷出的NeRF模型,對(duì)RGB圖像進(jìn)行類別級(jí)別的物體姿態(tài)估計(jì),包括訓(xùn)練期間未見的物體實(shí)例。它的優(yōu)點(diǎn)是可以應(yīng)用于真實(shí)世界的場(chǎng)景和物體,并且可以通過預(yù)測(cè)更多圖像的相機(jī)姿態(tài)來改善模型。iNeRF可以通過估計(jì)新圖像的相機(jī)姿態(tài),并將這些圖像用作NeRF的額外訓(xùn)練數(shù)據(jù),從而改善NeRF在復(fù)雜真實(shí)世界場(chǎng)景(如LLFF數(shù)據(jù)集)中的性能。
BARF[31]同時(shí)優(yōu)化網(wǎng)絡(luò)模型和相機(jī)位姿,是一種用于訓(xùn)練NeRF的新方法,如圖6所示,可以在不準(zhǔn)確甚至未知的相機(jī)姿勢(shì)下進(jìn)行訓(xùn)練。Lin等人[31]發(fā)現(xiàn)從粗到細(xì)地注冊(cè)相機(jī)幀對(duì)NeRF同樣適用。BARF可以有效地優(yōu)化神經(jīng)場(chǎng)景表征,并解決大型相機(jī)姿勢(shì)的錯(cuò)位問題,為視覺定位系統(tǒng)和未知相機(jī)姿勢(shì)的場(chǎng)景表示提供了新的可能性。
MVSNeRF[32]本質(zhì)上是一種結(jié)合了多視角立體匹配(MVS)和神經(jīng)輻射場(chǎng)(NeRF)技術(shù)的方法。其主要技術(shù)點(diǎn)在于利用平面掃描3D成本體積進(jìn)行幾何感知場(chǎng)景理解,通過將附近輸入視圖的2D圖像特征扭曲到參考視圖的掃描平面上,在輸入?yún)⒖家晥D處構(gòu)建成本體積。該方法進(jìn)一步微調(diào)提速特征和MLP解碼器,能夠高效地重建復(fù)雜的三維場(chǎng)景,并提升泛化能力,使得重建的輻射場(chǎng)可以適用于不同的視角和光照條件。
NeRF--[33]專注于前向場(chǎng)景的新視圖合成。與傳統(tǒng)神經(jīng)輻射場(chǎng)方法不同,NeRF--簡(jiǎn)化了訓(xùn)練過程,擯棄了對(duì)已知或預(yù)先相機(jī)參數(shù)的需求。為了實(shí)現(xiàn)這一改進(jìn),NeRF--提出了三項(xiàng)關(guān)鍵貢獻(xiàn):首先,它將相機(jī)參數(shù)視為可學(xué)習(xí)的參數(shù),與神經(jīng)輻射場(chǎng)模型一同進(jìn)行聯(lián)合優(yōu)化,通過光度重建實(shí)現(xiàn)了相機(jī)參數(shù)的聯(lián)合優(yōu)化;其次,為了評(píng)估相機(jī)參數(shù)和新視圖渲染質(zhì)量,引入了一個(gè)新的數(shù)據(jù)集,名為BLEFF(blender forward-facing dataset);最后證明在大多數(shù)場(chǎng)景下,聯(lián)合優(yōu)化流程能夠恢復(fù)準(zhǔn)確的相機(jī)參數(shù)。NeRF--技術(shù)為新視圖合成提供了一種高效、靈活的解決方案,并為相機(jī)參數(shù)的學(xué)習(xí)和優(yōu)化帶來了新的視角和進(jìn)展。
傳統(tǒng)神經(jīng)輻射場(chǎng)的訓(xùn)練依賴于每張圖片的相機(jī)位姿和內(nèi)參,因此對(duì)于這一階段的優(yōu)化也尤為重要。上文列舉的各類位姿優(yōu)化方法較好地解決了相機(jī)姿勢(shì)估計(jì)誤差問題,總結(jié)及對(duì)比如表3所示。
2.4 其他優(yōu)化
學(xué)者們除了對(duì)神經(jīng)輻射場(chǎng)在渲染質(zhì)量、計(jì)算復(fù)雜度和相機(jī)位姿上的改進(jìn)展開大量研究外,還面向高分辨率實(shí)時(shí)渲染、動(dòng)態(tài)場(chǎng)景、可編輯NeRF、語義表示、無約束等其他方面的優(yōu)化問題作出了探討。針對(duì)神經(jīng)輻射場(chǎng)技術(shù)瓶頸的優(yōu)化,促使更多的研究者發(fā)現(xiàn)神經(jīng)輻射場(chǎng)的可能性,加入優(yōu)化的隊(duì)伍,不斷促進(jìn)著視圖合成領(lǐng)域的發(fā)展。
對(duì)于無邊界和1080p分辨率下無法實(shí)現(xiàn)實(shí)時(shí)渲染的問題,文獻(xiàn)[34]提出用3D高斯函數(shù)表示場(chǎng)景,這是一種類似于神經(jīng)輻射場(chǎng)的技術(shù),可以實(shí)現(xiàn)在1080p分辨率下的高質(zhì)量實(shí)時(shí)渲染。如圖7所示,首先,在相機(jī)校準(zhǔn)過程中生成稀疏點(diǎn),使用3D高斯函數(shù)表示場(chǎng)景,既保留了輻射場(chǎng)的特性,又可以避免在空白區(qū)域內(nèi)不必要的計(jì)算;其次,對(duì)3D高斯函數(shù)進(jìn)行交錯(cuò)優(yōu)化/密度控制,特別是通過優(yōu)化各向異性協(xié)方差,以實(shí)現(xiàn)對(duì)場(chǎng)景的準(zhǔn)確表示;最后,開發(fā)了一種GPU友好的快速可視性感知渲染算法,該算法支持各向異性飛濺,在加速訓(xùn)練的同時(shí)支持實(shí)時(shí)渲染。
針對(duì)神經(jīng)輻射場(chǎng)只能重建靜態(tài)場(chǎng)景的技術(shù)瓶頸,不少研究致力于將其擴(kuò)展到動(dòng)態(tài)領(lǐng)域。Pumarola等人[35]提出的D-NeRF可以用于對(duì)動(dòng)態(tài)場(chǎng)景的建模和渲染,在單相機(jī)圍繞場(chǎng)景旋轉(zhuǎn)一周的情況下,重建物體的剛性和非剛性運(yùn)動(dòng),將神經(jīng)輻射場(chǎng)擴(kuò)展到動(dòng)態(tài)領(lǐng)域。圖8描述了動(dòng)態(tài)場(chǎng)景數(shù)據(jù)集的構(gòu)建和訓(xùn)練D-NeRF模型的過程,與靜態(tài)場(chǎng)景的神經(jīng)輻射場(chǎng)不同,動(dòng)態(tài)場(chǎng)景中的物體和相機(jī)位置可能隨時(shí)間變化,D-NeRF將時(shí)間作為額外輸入實(shí)現(xiàn)對(duì)動(dòng)態(tài)場(chǎng)景的建模,捕捉物體的運(yùn)動(dòng)和場(chǎng)景隨時(shí)間產(chǎn)生的變化,從而控制物體的移動(dòng)。
基于多視圖視頻的神經(jīng)3D視頻合成[36]采用時(shí)間條件神經(jīng)輻射場(chǎng),通過一組緊湊的代碼表示場(chǎng)景動(dòng)態(tài)信息。這種方法可以有效地將10臺(tái)攝像機(jī)記錄的18 s 30幀/s的多視圖視頻進(jìn)行建模,并且模型大小僅為28 MB,實(shí)現(xiàn)了高效的動(dòng)態(tài)場(chǎng)景合成與建模。
除高分辨率實(shí)時(shí)渲染、動(dòng)態(tài)建模外,還存在其他基于神經(jīng)輻射場(chǎng)劣勢(shì)的改良。針對(duì)神經(jīng)輻射場(chǎng)無法在場(chǎng)景中執(zhí)行用戶控制的形狀變形的情況,NeRF-Editing[37]通過建立顯式網(wǎng)格表示和目標(biāo)場(chǎng)景的隱式神經(jīng)表示之間的對(duì)應(yīng)關(guān)系,使得用戶可以對(duì)場(chǎng)景的隱式表示進(jìn)行可控的形狀變形,并合成編輯后的場(chǎng)景新視圖。這種方法為編輯場(chǎng)景提供了更加直觀和靈活的方式,允許用戶以交互方式修改場(chǎng)景的外觀和形狀。近期提出的Blended-NeRF[38]提供了一種全面的框架,能夠在場(chǎng)景中進(jìn)行局部編輯。通過引入預(yù)訓(xùn)練模型和3D RoI框以及獨(dú)特的融合技術(shù)和視覺增強(qiáng)方法,顯著提高了編輯的效率和質(zhì)量。
基于神經(jīng)渲染的無監(jiān)督連續(xù)語義自適應(yīng)Semantic-NeRF[39]模型首次提出將語義信息加入NeRF,實(shí)現(xiàn)了僅依靠少量特定語義標(biāo)簽就能獲取準(zhǔn)確的語義標(biāo)注和理解。通過融合分割模型的預(yù)測(cè)來訓(xùn)練每個(gè)場(chǎng)景的Semantic-NeRF模型網(wǎng)絡(luò),然后使用視圖一致呈現(xiàn)的語義標(biāo)簽作為偽標(biāo)簽來適應(yīng)模型,如圖9所示。由于該模型體積較小,可以儲(chǔ)存在長(zhǎng)期記憶中,隨后可用于從任意角度呈現(xiàn)數(shù)據(jù),對(duì)正確的語義輸出有著重要影響。
SS-NeRF[40]提供了一種新的場(chǎng)景理解方法,能夠從新穎的視點(diǎn)渲染逼真的RGB圖像,而且還能夠渲染各種精確的場(chǎng)景屬性。有助于在統(tǒng)一的框架下解決各種場(chǎng)景理解任務(wù),包括語義分割、表面法線估計(jì)、重塑、關(guān)鍵點(diǎn)檢測(cè)和邊緣檢測(cè)。
針對(duì)神經(jīng)輻射場(chǎng)需要大量輸入視圖的問題,PixelNeRF[41]可以根據(jù)一個(gè)或少數(shù)幾個(gè)輸入圖像預(yù)測(cè)連續(xù)的神經(jīng)場(chǎng)景表示。傳統(tǒng)的神經(jīng)輻射場(chǎng)構(gòu)建方法涉及對(duì)每個(gè)場(chǎng)景進(jìn)行獨(dú)立的優(yōu)化,需要大量校準(zhǔn)的視圖和計(jì)算時(shí)間。為了解決這些問題,PixelNeRF提出了一個(gè)全卷積的架構(gòu),將神經(jīng)輻射場(chǎng)與圖像輸入進(jìn)行條件化。這使得網(wǎng)絡(luò)能夠跨多個(gè)場(chǎng)景進(jìn)行訓(xùn)練,學(xué)習(xí)場(chǎng)景的先驗(yàn)知識(shí),從少數(shù)幾個(gè)視圖中以前向傳播的方式執(zhí)行新視圖合成。
針對(duì)將真實(shí)物體轉(zhuǎn)移到虛擬世界的目標(biāo),ScanNeRF[42]通過比對(duì)三個(gè)先進(jìn)神經(jīng)輻射場(chǎng)優(yōu)化技術(shù),提出了一個(gè)基準(zhǔn)思想來評(píng)估神經(jīng)輻射場(chǎng)和神經(jīng)渲染框架,并設(shè)計(jì)了一個(gè)可以實(shí)現(xiàn)短時(shí)間收集對(duì)象數(shù)千張圖像的流程,用于快速掃描真實(shí)物體,為促進(jìn)神經(jīng)輻射場(chǎng)框架的研究起到了促進(jìn)作用。
近年來,國內(nèi)研究者在神經(jīng)輻射場(chǎng)領(lǐng)域進(jìn)行了其他方面的優(yōu)化探索。苗源等人[43]從光場(chǎng)數(shù)據(jù)采集的角度出發(fā),提出了基于神經(jīng)輻射場(chǎng)的光場(chǎng)角度域超分辨方法。該方法能夠準(zhǔn)確表達(dá)具有復(fù)雜不利條件的光場(chǎng)場(chǎng)景,有效解決了場(chǎng)景高頻紋理信息較難擬合的問題,為后續(xù)開展光場(chǎng)計(jì)算成像研究提供參考。
表4對(duì)比了以上優(yōu)化方法的創(chuàng)新、結(jié)果及應(yīng)用場(chǎng)景。神經(jīng)輻射場(chǎng)的優(yōu)化研究涵蓋了渲染速度、渲染質(zhì)量、動(dòng)態(tài)建模、語義分割等各個(gè)方面,從傳統(tǒng)神經(jīng)輻射場(chǎng)各個(gè)階段出發(fā),研究者們結(jié)合實(shí)際,能夠發(fā)掘出不同的優(yōu)化方式,從而改進(jìn)神經(jīng)輻射場(chǎng)。這些優(yōu)化工作使得神經(jīng)輻射場(chǎng)在實(shí)際應(yīng)用中更具有吸引力,為圖像渲染和場(chǎng)景重建等領(lǐng)域的發(fā)展帶來了新的可能性。但往往研究者僅針對(duì)某一個(gè)方面進(jìn)行優(yōu)化,或者融合某兩部分完成優(yōu)化,因其訓(xùn)練成本過高,大部分研究者在入手階段就“望而卻步”,不利于深入實(shí)踐。因此對(duì)神經(jīng)輻射場(chǎng)各個(gè)階段的前后交融研究十分必要,開源數(shù)據(jù)集和實(shí)際應(yīng)用使用的技術(shù)整理可以幫助未來研究者在某一階段優(yōu)化的基礎(chǔ)上繼續(xù)完善,不斷發(fā)掘神經(jīng)輻射場(chǎng)的可能性。
3 神經(jīng)輻射場(chǎng)的應(yīng)用
每一項(xiàng)新技術(shù)的出現(xiàn),都需要將其應(yīng)用到實(shí)際生活中,以促進(jìn)便利和改善現(xiàn)有技術(shù)的不足。近年來,深度學(xué)習(xí)技術(shù)的快速發(fā)展為各個(gè)領(lǐng)域帶來了革命性的變化,神經(jīng)輻射場(chǎng)作為其中的一種先進(jìn)方法,在場(chǎng)景合成和渲染方面展示出巨大潛力。它能夠?yàn)橛脩魩沓两揭曈X效果,增強(qiáng)個(gè)性化定制,進(jìn)一步降低人工成本。它的創(chuàng)新思想和技術(shù)為許多實(shí)際應(yīng)用領(lǐng)域帶來了前所未有的機(jī)會(huì),了解神經(jīng)輻射場(chǎng)應(yīng)用場(chǎng)景從而探尋未來發(fā)展的可能性是十分必要的。本章以神經(jīng)輻射場(chǎng)實(shí)際應(yīng)用為重點(diǎn),闡述神經(jīng)輻射場(chǎng)在計(jì)算機(jī)視覺、計(jì)算機(jī)圖形學(xué)和增強(qiáng)現(xiàn)實(shí)等領(lǐng)域的具體應(yīng)用案例,并介紹了一些相關(guān)的研究進(jìn)展內(nèi)容。
3.1 自動(dòng)駕駛
隨著科技的不斷進(jìn)步,自動(dòng)駕駛已經(jīng)成為社會(huì)炙手可熱的話題之一。然而,要大規(guī)模推廣自動(dòng)駕駛無人車,在前期的開發(fā)階段需要進(jìn)行多次測(cè)試和設(shè)置。神經(jīng)輻射場(chǎng)作為一種高度逼真的場(chǎng)景渲染方法,在場(chǎng)景感知、決策支持等方面發(fā)揮著重要作用,在自動(dòng)駕駛領(lǐng)域具有廣泛的應(yīng)用前景?;谏窠?jīng)輻射場(chǎng)的衍生版本Block-NeRF[44],利用自動(dòng)駕駛的傳感器收集附近街區(qū)的環(huán)境數(shù)據(jù),并合成大規(guī)模的逼真3D場(chǎng)景。這種視圖合成技術(shù)可以實(shí)現(xiàn)虛擬和現(xiàn)實(shí)場(chǎng)景的實(shí)時(shí)融合,為自動(dòng)駕駛系統(tǒng)提供精確的視覺效果。CityNeRF[45]首次嘗試將神經(jīng)輻射場(chǎng)帶到城市級(jí)規(guī)模,捕捉了城市環(huán)境的復(fù)雜細(xì)節(jié)和空間變化,為在不同細(xì)節(jié)級(jí)別上的視圖渲染提供了強(qiáng)大的解決方案。
如圖10所示,除了基本的視圖合成,神經(jīng)輻射場(chǎng)還可以通過改變環(huán)境照明條件,模擬一些復(fù)雜的路況,包括天氣和時(shí)間的變化、環(huán)境照明變化等情況,幫助自動(dòng)駕駛提供一個(gè)很好的模擬數(shù)據(jù),提升導(dǎo)航的穩(wěn)定性,從而進(jìn)一步提升模擬駕駛場(chǎng)景的仿真度。
利用神經(jīng)輻射場(chǎng)技術(shù),自動(dòng)駕駛系統(tǒng)可以實(shí)現(xiàn)對(duì)周圍環(huán)境的實(shí)時(shí)三維重建,為自動(dòng)駕駛的定位和導(dǎo)航提供重要的支持。通過不斷更新的場(chǎng)景重建模型,系統(tǒng)能夠準(zhǔn)確定位車輛在場(chǎng)景中的位置,為后續(xù)的路徑規(guī)劃和選擇提供精確的參考。這種三維重建能力對(duì)于自動(dòng)駕駛的定位和導(dǎo)航非常關(guān)鍵,有助于提高自動(dòng)駕駛系統(tǒng)的定位準(zhǔn)確性。
神經(jīng)輻射場(chǎng)技術(shù)能夠協(xié)助自動(dòng)駕駛系統(tǒng)實(shí)現(xiàn)對(duì)周圍障礙物的三維檢測(cè)和跟蹤。通過將實(shí)時(shí)攝像頭圖像輸入到已訓(xùn)練好的模型中,系統(tǒng)可以獲取障礙物的準(zhǔn)確三維位置和形狀信息,這為自動(dòng)駕駛系統(tǒng)提供了關(guān)鍵的感知能力,使其能夠更好地規(guī)避障礙物,確保行駛的安全性和穩(wěn)定性。
3.2 圖像處理
神經(jīng)輻射場(chǎng)作為一種隱式表示方法,在圖像處理方面展現(xiàn)出了很大的發(fā)展前景。與傳統(tǒng)的圖像處理方法依賴于人工設(shè)計(jì)的提取器不同,神經(jīng)輻射場(chǎng)采用了一種全新的思路,即從隱式神經(jīng)表示或神經(jīng)場(chǎng)的角度來處理圖像。例如,RawNeRF[21]能夠處理高動(dòng)態(tài)范圍(high dynamic range imaging,HDR)圖像視圖的合成,能夠處理具有復(fù)雜光照和明暗變化的HDR圖像,使得還原夜景照片成為可能。它使用原始線性圖像作為訓(xùn)練數(shù)據(jù),并在線性顏色空間中進(jìn)行渲染。這使得RawNeRF能夠處理不同曝光和色調(diào)映射曲線,從而提供更大的靈活性。它在神經(jīng)輻射場(chǎng)渲染之后處理,而不是直接使用后處理的圖像作為訓(xùn)練數(shù)據(jù)。然而,與RawNeRF中的原始線性圖像相反,HDR-NeRF[22]通過使用可變曝光時(shí)間的低動(dòng)態(tài)范圍訓(xùn)練圖像來接近HDR視圖合成,在HDR重建上獲得了較高的視覺評(píng)估分?jǐn)?shù)。
如圖11所示,Neural Knitworks[46]在單個(gè)樣本上訓(xùn)練的模型可以在非常低的內(nèi)存要求下執(zhí)行許多不同的圖像合成任務(wù)。它是一種用于自然圖像神經(jīng)隱式表示學(xué)習(xí)的體系結(jié)構(gòu),通過對(duì)抗的方式優(yōu)化圖像補(bǔ)丁的分布,能夠捕捉圖像的特征和結(jié)構(gòu),并通過增強(qiáng)補(bǔ)丁預(yù)測(cè)之間的一致性,確保生成的圖像在多個(gè)任務(wù)中都能保持穩(wěn)定和準(zhǔn)確,以此來實(shí)現(xiàn)圖像合成。
綜上,神經(jīng)輻射場(chǎng)在圖像處理方面展現(xiàn)出了在高動(dòng)態(tài)范圍圖像視圖合成、去噪和圖像修復(fù)等方面的能力,這些技術(shù)的發(fā)展將為圖像處理領(lǐng)域帶來更多創(chuàng)新和進(jìn)步。
3.3 數(shù)字化人體
數(shù)字人是一種虛擬人體形象技術(shù),其目標(biāo)是運(yùn)用數(shù)字技術(shù)創(chuàng)造出與人類形象類似的虛擬人物形象。數(shù)字人常運(yùn)用于教育、電子商務(wù)和媒體娛樂等領(lǐng)域,可以充當(dāng)虛擬助教、虛擬客服或是虛擬主播,近年來十分火爆。但傳統(tǒng)的數(shù)字人制作非常復(fù)雜,不僅需要昂貴的設(shè)備還需要完成3D建模、材質(zhì)紋理處理、骨骼綁定和動(dòng)作步驟等流程,并且需要大量專業(yè)人士的協(xié)作,這極大地限制了數(shù)字人技術(shù)的應(yīng)用范圍。神經(jīng)輻射場(chǎng)為通過少量訓(xùn)練數(shù)據(jù)實(shí)現(xiàn)高質(zhì)量數(shù)字人建模與渲染帶來可能,它能夠簡(jiǎn)化數(shù)字人的制作難度,為創(chuàng)造寫實(shí)、還原的數(shù)字人形象提供了強(qiáng)大的算法支持;虛擬主播數(shù)字人也有望在電商經(jīng)濟(jì)日益火爆的背景下,助力減少人力成本,為直播帶來不一樣的體驗(yàn);為影視制作、動(dòng)畫游戲開發(fā)等領(lǐng)域提供更廣闊的空間。
在數(shù)字化人體中,神經(jīng)輻射場(chǎng)的主要應(yīng)用之一是人體姿態(tài)估計(jì)和重建。通過收集多個(gè)視角的圖像或視頻,神經(jīng)輻射場(chǎng)可以對(duì)人體進(jìn)行3D重建,從而獲得人體的準(zhǔn)確姿態(tài)和形狀信息。這對(duì)于虛擬人物形象的創(chuàng)建非常重要,可以為虛擬角色賦予逼真的動(dòng)作和姿態(tài),增強(qiáng)用戶的沉浸感[47]。除了完成基本人體結(jié)構(gòu)的制作,數(shù)字人實(shí)現(xiàn)仿真性的一個(gè)重要因素在于人臉面部表情變化。人臉重建要求神經(jīng)輻射場(chǎng)模型在面部表情變化下具有魯棒性,而面部表情變化可能表現(xiàn)為拓?fù)渥兓?。模型通常將變形?chǎng)參數(shù)化為附加的MLP,潛在地受到潛在代碼的制約,允許從基線人臉控制變形,能夠?qū)崿F(xiàn)人臉的位姿、表情編輯,在動(dòng)畫制作和游戲制作領(lǐng)域有著很好的發(fā)展前景[48]。
此外,神經(jīng)輻射場(chǎng)在人臉面部表情重建和編輯方面也開始有了新發(fā)展。如圖12所示,通過給定一個(gè)人的單目肖像視頻序列,無須專門的捕獲設(shè)置,就可以重建一個(gè)代表4D面部化身的動(dòng)態(tài)神經(jīng)輻射場(chǎng),從而合成新的頭部姿勢(shì)以及面部表情的變化[49]。神經(jīng)輻射場(chǎng)的高質(zhì)量渲染能力為數(shù)字化人體中的虛擬影像生成提供了新思路。通過神經(jīng)輻射場(chǎng)的神經(jīng)場(chǎng)表示,可以生成逼真的虛擬人體影像,用于電影特效、虛擬演員和虛擬角色的制作等方面。神經(jīng)輻射場(chǎng)通過算法生成對(duì)應(yīng)的數(shù)字人,為數(shù)字人建模和渲染帶來了全新的技術(shù)方案。目前,神經(jīng)輻射場(chǎng)在數(shù)字化人體方面的相關(guān)算法研究大多只是針對(duì)單個(gè)身體部位如肢體或面部進(jìn)行的[47~49],未來有望在數(shù)字人的智能化與擬人化方面實(shí)現(xiàn)突破。
3.4 其他應(yīng)用
神經(jīng)輻射場(chǎng)除在以上三個(gè)方面的應(yīng)用,在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)領(lǐng)域也展現(xiàn)出巨大的價(jià)值,無論是重建真實(shí)世界的場(chǎng)景還是創(chuàng)造元宇宙的數(shù)字地圖,都可以運(yùn)用在游戲、教育等各行各業(yè),為用戶提供更真實(shí)的體驗(yàn)。通過利用神經(jīng)輻射場(chǎng)技術(shù),開發(fā)者可以創(chuàng)建逼真的虛擬世界,讓用戶能夠沉浸在更真實(shí)、詳細(xì)的環(huán)境中。這樣的體驗(yàn)可以讓用戶感覺身臨其境,增加樂趣并提高使用者的沉浸感。
同時(shí),神經(jīng)輻射場(chǎng)在醫(yī)療領(lǐng)域具有廣泛的應(yīng)用前景,可以作為醫(yī)療教學(xué)輔助和實(shí)操訓(xùn)練的重要工具,可以用于重建和可視化醫(yī)學(xué)圖像,如CT掃描和MRI核磁共振成像。在成像中,傳感器探測(cè)的數(shù)據(jù)需要經(jīng)過離散采樣并重建成體數(shù)據(jù)或者切片供人類觀看。Truong等人[50]提出一種在稀疏采樣下進(jìn)行神經(jīng)場(chǎng)重建的框架,通過神經(jīng)輻射場(chǎng)生成的逼真渲染結(jié)果,可以幫助醫(yī)生更好地理解患者的解剖結(jié)構(gòu)、診斷疾病,并進(jìn)行手術(shù)規(guī)劃。相較于傳統(tǒng)依賴于模型的解剖學(xué)教學(xué),神經(jīng)輻射場(chǎng)可以通過對(duì)患者影像數(shù)據(jù)進(jìn)行處理和重建,生成高度逼真的三維解剖模型,幫助醫(yī)學(xué)生在虛擬環(huán)境中進(jìn)行解剖學(xué)習(xí)和實(shí)踐,提高其對(duì)人體結(jié)構(gòu)和器官的理解,提供更生動(dòng)、立體的學(xué)習(xí)體驗(yàn)。
除此之外,神經(jīng)輻射場(chǎng)還有其他一些潛在的應(yīng)用。例如,神經(jīng)輻射場(chǎng)可以用于模擬和訓(xùn)練機(jī)器人,通過對(duì)真實(shí)環(huán)境的建模和渲染,幫助其學(xué)習(xí)和訓(xùn)練各種技能和行為模式,提高機(jī)器人面對(duì)復(fù)雜環(huán)境任務(wù)的高度智能和適應(yīng)能力。綜上,神經(jīng)輻射場(chǎng)具有廣泛的應(yīng)用潛力。未來,隨著神經(jīng)輻射場(chǎng)技術(shù)的不斷優(yōu)化和發(fā)展,相信它將在各個(gè)領(lǐng)域發(fā)揮更大的價(jià)值,為產(chǎn)業(yè)新發(fā)展帶來更多機(jī)遇和可能。
4 結(jié)束語
4.1 神經(jīng)輻射場(chǎng)的優(yōu)勢(shì)與局限性
神經(jīng)輻射場(chǎng)作為一種新興的計(jì)算機(jī)視覺技術(shù),具有巨大的優(yōu)勢(shì)。如前所述,它能夠有效地對(duì)復(fù)雜的場(chǎng)景進(jìn)行重建,在一定程度上減輕傳統(tǒng)建模的壓力。同時(shí),它能夠從有限數(shù)量的輸入樣本中學(xué)習(xí)預(yù)測(cè)出近似3D場(chǎng)景的輻射場(chǎng)和密度場(chǎng),對(duì)場(chǎng)景中的物體進(jìn)行精確捕捉和識(shí)別,為各種應(yīng)用提供了有力支持。它也能夠適應(yīng)不同場(chǎng)景的外在條件,例如光照等,通過神經(jīng)網(wǎng)絡(luò)從現(xiàn)有觀測(cè)中學(xué)習(xí)渲染,實(shí)現(xiàn)高質(zhì)量三維場(chǎng)景的生成,這些優(yōu)勢(shì)使得神經(jīng)輻射場(chǎng)成為一種強(qiáng)大而有效的技術(shù)。但是,沒有一項(xiàng)技術(shù)是完美無缺的。高計(jì)算成本、高計(jì)算復(fù)雜度限制了神經(jīng)輻射場(chǎng)在實(shí)際應(yīng)用和交互式場(chǎng)景中的使用,對(duì)單一方面的優(yōu)化不足以實(shí)現(xiàn)廣泛的推廣應(yīng)用。同時(shí),神經(jīng)渲染的一個(gè)主要局限體現(xiàn)在它無法處理結(jié)構(gòu)數(shù)據(jù),如網(wǎng)格、點(diǎn)云等,它采用的是隱式場(chǎng)景表示方法,構(gòu)建的虛擬現(xiàn)實(shí)內(nèi)容是體積數(shù)據(jù),無法進(jìn)行物理碰撞等檢測(cè),因此無法直接遷移到現(xiàn)有的渲染引擎中進(jìn)行交互,這意味著神經(jīng)輻射場(chǎng)生成的內(nèi)容可能無法與其他常見的三維模型和場(chǎng)景進(jìn)行無縫集成和交互。這些限制使得神經(jīng)輻射場(chǎng)在實(shí)際應(yīng)用中受到一定的制約。然而,隨著技術(shù)的不斷發(fā)展和改進(jìn),相信這些問題未來都能解決,神經(jīng)輻射場(chǎng)也有望成為一種更加強(qiáng)大和靈活的工具,為元宇宙、虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)等領(lǐng)域帶來更多創(chuàng)新和可能性[51]。
4.2 未來可能的研究方向
神經(jīng)輻射場(chǎng)的提出引起了學(xué)術(shù)界的熱烈反響,研究者們對(duì)于神經(jīng)輻射場(chǎng)的研究熱情高漲,促使神經(jīng)輻射場(chǎng)取得了快速發(fā)展。然而,盡管神經(jīng)輻射場(chǎng)是一個(gè)關(guān)鍵性的突破,但要實(shí)現(xiàn)完美的效果仍需要一定的時(shí)間,現(xiàn)階段出色的研究成果尚未落地,神經(jīng)輻射場(chǎng)的優(yōu)化還可以從以下三個(gè)方面考慮:
a)渲染質(zhì)量和渲染成本并行優(yōu)化。為了實(shí)現(xiàn)更全面、精細(xì)的場(chǎng)景重建,需要進(jìn)一步探索神經(jīng)輻射場(chǎng)在質(zhì)量和成本并行的優(yōu)化方式。當(dāng)前對(duì)這方面的研究大多是分步進(jìn)行的,質(zhì)量高、成本低的處理仍然是一個(gè)挑戰(zhàn),因此需要開發(fā)更有效的方法來解決這一問題,在提高渲染質(zhì)量的同時(shí),降低訓(xùn)練成本。
b)探索神經(jīng)輻射場(chǎng)的多模態(tài)表示能力。當(dāng)前基于神經(jīng)輻射場(chǎng)的優(yōu)化工作,大部分還是由視圖作為輸入,對(duì)于多模態(tài)數(shù)據(jù)的處理研究較少,因此有必要探索其他模態(tài)如文字、音頻和視頻等的結(jié)合。同時(shí)可以探索與生成式人工智能的結(jié)合,訓(xùn)練擴(kuò)散模型,完成一些生成方面的任務(wù)。訓(xùn)練具有語義理解能力和語義視圖綜合能力的神經(jīng)輻射場(chǎng),判斷其應(yīng)用落地的可能,也許會(huì)產(chǎn)生令人驚艷的效果。同時(shí)還需開發(fā)更有效的方法來整合不同類型的數(shù)據(jù),以提高場(chǎng)景感知和理解的能力。
c)與實(shí)際應(yīng)用緊密結(jié)合。神經(jīng)輻射場(chǎng)技術(shù)可以嘗試與顯式場(chǎng)景表示相結(jié)合,以投入實(shí)際應(yīng)用場(chǎng)景為目標(biāo)進(jìn)行研究,在與實(shí)際應(yīng)用結(jié)合的過程中,催生新的優(yōu)化方式,不斷迭代促成神經(jīng)輻射場(chǎng)的發(fā)展。
總而言之,神經(jīng)輻射場(chǎng)技術(shù)的出現(xiàn)令人振奮,通過辯證的眼光審視這一新技術(shù),本文既看到了其發(fā)展前景,也意識(shí)到了現(xiàn)有技術(shù)的不足之處。在未來的工作中,神經(jīng)輻射場(chǎng)將在現(xiàn)有工作基礎(chǔ)上,重點(diǎn)在更高質(zhì)量更快速度的渲染、虛擬現(xiàn)實(shí)和應(yīng)用落地等方面的進(jìn)一步研究。相信通過持續(xù)的研究和創(chuàng)新,神經(jīng)輻射場(chǎng)技術(shù)將真正實(shí)現(xiàn)在各個(gè)領(lǐng)域的全面落地和應(yīng)用。
參考文獻(xiàn):
[1]Lee L H, Braud T, Zhou Pengyuan, et al. All one needs to know about metaverse: a complete survey on technological singularity, virtual ecosystem, and research agenda[EB/OL]. (2021-11-03). https://arxiv.org/abs/2110.05352.
[2]Ebrahimnezhad H, Ghassemian H. Robust motion from space curves and 3D reconstruction from multiviews using perpendicular double stereo rigs[J]. Image and Vision Computing, 2008, 26(10): 1397-1420.
[3]江靜, 張雪松. 基于計(jì)算機(jī)視覺的深度估計(jì)方法[J]. 光電技術(shù)應(yīng)用, 2011,26(1): 51-55. (Jiang Jing, Zhang Xuesong. Depth estimation methods based on computer vision[J]. Electro-Optic Technology Application, 2011,26(1): 51-55.)
[4]Mildenhall B, Srinivasan P P, Tancik M, et al. NeRF: representing scenes as neural radiance fields for view synthesis[J]. Communications of the ACM, 2021, 65(1): 99-106.
[5]Gao K, Gao Yina, He Hongjie, et al. NeRF: neural radiance field in 3D vision, a comprehensive review[EB/OL]. (2023-11-30). https://arxiv.org/abs/2210.00379.
[6]Tewari A, Thies J, Mildenhall B, et al. Advances in neural rendering[J]. Computer Graphics Forum, 2022, 41(2): 703-735.
[7]Tancik M, Srinivasan P, Mildenhall B, et al. Fourier features let networks learn high frequency functions in low dimensional domains[J]. Advances in Neural Information Processing Systems, 2020, 33: 7537-7547.
[8]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017:6000-6010.
[9]Kajiya J T, Von Herzen B P. Ray tracing volume densities[J]. ACM SIGGRAPH Computer Graphics, 1984, 18(3): 165-174.
[10]Ahmadyan A, Zhang Liangkai, Ablavatski A, et al. Objectron: a large scale dataset of object-centric videos in the wild with pose annotations[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 7818-7827.
[11]Schonberger J L, Frahm J M. Structure-from-motion revisited[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 4104-4113.
[12]鐘寶江, 陸志芳, 季家歡. 圖像插值技術(shù)綜述[J]. 數(shù)據(jù)采集與處理, 2016, 31(6): 1083-1096. (Zhong Baojiang, Lu Zhifang, Ji Jiahuan. Review on image interpolation techniques[J]. Journal of Data Acquisition and Processing, 2016, 31(6): 1083-1096.)
[13]Barron J T, Mildenhall B, Tancik M, et al. Mip-NeRF: a multiscale representation for anti-aliasing neural radiance fields[C]//Proc of IEEE/CVF International Conference on Computer Vision. Pisca-taway, NJ: IEEE Press, 2021: 5835-5844.
[14]桂梅書, 侯進(jìn), 譚光鴻, 等. 基于體素錐追蹤的全局光照算法[J]. 光學(xué)學(xué)報(bào), 2019, 39(6): 292-301. (Gui Meishu, Hou Jin, Tan Guanghong, et al. Global illumination algorithm based on voxel cone tracing[J]. Acta Optica Sinica, 2019, 39(6): 292-301.)
[15]Barron J T, Mildenhall B, Verbin D, et al. Mip-NeRF 360: unbounded anti-aliased neural radiance fields[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 5460-5469.
[16]Verbin D, Hedman P, Mildenhall B, et al. Ref-NeRF: structured view-dependent appearance for neural radiance fields[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 5481-5490.
[17]范騰, 楊浩, 尹穩(wěn),等. 基于神經(jīng)輻射場(chǎng)的多尺度視圖合成研究[J]. 圖學(xué)學(xué)報(bào), 2023,44(6):1140-1148. (Fan Teng, Yang Hao, Yin Wen, et al. Multi-scale view synthesis based on neural radiance field[J]. Journal of Graphics, 2023,44(6):1140-1148.)
[18]Martin-Brualla R, Radwan N, Sajjadi M S M, et al. NeRF in the wild: neural radiance fields for unconstrained photo collections[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway, NJ: IEEE Press, 2021: 7206-7215.
[19]Zhang Kai, Riegler G, Snavely N, et al. NeRF++: analyzing and improving neural radiance fields[EB/OL]. (2020-10-21). https://arxiv.org/abs/2010.07492.
[20]Ma Li, Li Xiaoyu, Liao Jing, et al. Deblur-NeRF: neural radiance fields from blurry images[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 12851-12860.
[21]Mildenhall B, Hedman P, Martin-Brualla R, et al. NeRF in the dark: high dynamic range view synthesis from noisy raw images[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway, NJ: IEEE Press, 2022: 16169-16178.
[22]Huang Xin, Zhang Qi, Feng Ying, et al. HDR- NeRF: high dynamic range neural radiance fields[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 18377-18387.
[23]Müller T, Evans A, Schied C, et al. Instant neural graphics primitives with a multiresolution hash encoding[J]. ACM Trans on Graphics, 2022, 41(4): 1-15.
[24]Deng Kangle, Liu A, Zhu Junyan, et al. Depth-supervised NeRF: fewer views and faster training for free[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 12872-12881.
[25]Hedman P, Srinivasan P P, Mildenhall B, et al. Baking neural radiance fields for real-time view synthesis[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 5855-5864.
[26]Sun Cheng, Sun Min, Chen H T. Direct voxel grid optimization: super-fast convergence for radiance fields reconstruction[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 5459-5469.
[27]Xu Qiangeng, Xu Zexiang, Philip J, et al. Point- NeRF: point-based neural radiance fields[C]//Proc of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 5428-5438.
[28]Hong Yang, Peng Bo, Xiao Haiyao, et al. HeadNeRF: a real-time NeRF-based parametric head model[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 20342-20352.
[29]Fridovich-Keil S, Yu A, Tancik M, et al. Plenoxels: radiance fields without neural networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 5491-5500.
[30]Lin Yenchen, Florence P, Barron J T, et al. iNeRF: inverting neural radiance fields for pose estimation[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, NJ: IEEE Press, 2021: 1323-1330.
[31]Lin C H, Ma W C, Torralba A, et al. BARF: bundle-adjusting neural radiance fields[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 5721-5731.
[32]Chen Anpei, Xu Zexiang, Zhao Fuqiang, et al. MvsNeRF: fast generalizable radiance field reconstruction from multi-view stereo[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 14104-14113.
[33]Wang Zirui, Wu Shangzhe, Xie Weidi, et al. NeRF--: neural radiance fields without known camera parameters[EB/OL]. (2022-04-06). https://arxiv.org/abs/2102.07064.
[34]Kerbl B, Kopanas G, Leimkühler T, et al. 3D Gaussian splatting for real-time radiance field rendering[J]. ACM Trans on Graphics, 2023, 42(4): 1-14.
[35]Pumarola A, Corona E, Pons-Moll G, et al. D-NeRF: neural radiance fields for dynamic scenes[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 10313-10322.
[36]Li Tianye, Slavcheva M, Zollhoefer M, et al. Neural 3D video synthesis from multi-view video[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 5511-5521.
[37]Yuan Yujie, Sun Yangtian, Lai Yukun, et al. NeRF-editing: geometry editing of neural radiance fields[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 18332-18343.
[38]Gordon O, Avrahami O, Lischinski D. Blended-NeRF: zero-shot object generation and blending in existing neural radiance fields[EB/OL]. (2023-09-07). https://arxiv.org/abs/2306.12760.
[39]Liu Zhizheng, Milano F, Frey J, et al. Unsupervised continual semantic adaptation through neural rendering[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 3031-3040.
[40]Zhang Mingtong, Zheng Shuhong, Bao Zhipeng, et al. Beyond RGB: scene-property synthesis with neural radiance fields[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway, NJ: IEEE Press, 2023: 795-805.
[41]Yu A, Ye V, Tancik M, et al. PixelNeRF: neural radiance fields from one or few images[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 4576-4585.
[42]De Luigi L, Bolognini D, Domeniconi F, et al. ScanNeRF: a scalable benchmark for neural radiance fields[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision. Piscataway, NJ: IEEE Press, 2023: 816-825.
[43]苗源, 劉暢, 邱鈞. 基于神經(jīng)輻射場(chǎng)的光場(chǎng)角度域超分辨[J]. 光學(xué)學(xué)報(bào), 2023, 43(14): 93-102. (Miao Yuan, Liu Chang, Qiu Jun. Neural radiance field-based light field super-resolution in angular domain[J]. Acta Optica Sinica, 2023, 43(14): 93-102.)
[44]Tancik M, Casser V, Yan Xinchen, et al. Block-NeRF: scalable large scene neural view synthesis[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 8238-8248.
[45]Xiangli Yuanbo, Xu Linning, Pan Xingang, et al. CityNeRF: building NeRF at city scale[EB/OL]. (2021). https://api. semanticscholar. org/CorpusID: 245117494.
[46]Czerkawski M, Cardona J, Atkinson R, et al. Neural Knitworks: patched neural implicit representation networks[J]. Pattern Recognition, 2024,151:110378.
[47]Chen Jianchuan, Yi Wentao, Ma Liqian, et al. GM-NeRF: learning generalizable model-based neural radiance fields from multi-view images[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 20648-20658.
[48]Zheng Mingwu, Zhang Haiyu, Yang Hongyu, et al. NeuFace: realistic 3D neural face rendering from multi-view images[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 16868-16877.
[49]Gafni G, Thies J, Zollhofer M, et al. Dynamic neural radiance fields for monocular 4D facial avatar reconstruction[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2021: 8645-8654.
[50]Truong P, Rakotosaona M J, Manhardt F, et al. Sparf: neural radiance fields from sparse and noisy poses[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2023: 4190-4200.
[51]馬瑞祾, 徐娟. 國際中文教育元宇宙: 理論意蘊(yùn)、雙輪驅(qū)動(dòng)與發(fā)展進(jìn)路[J]. 云南師范大學(xué)學(xué)報(bào): 對(duì)外漢語教學(xué)與研究版, 2023, 21(4): 16-25. (Ma RuiLing, Xu Juan. The metaverse of international Chinese language education: theoretical implications, two-wheel drive and development strategies[J]. Journal of Yunnan Normal University: Teaching & Studying Chinese as a Foreign Language Edition, 2023, 21(4): 16-25.)