龔雨楠 薄一航
北京電影學(xué)院美術(shù)學(xué)院,北京 100088
電影和技術(shù)的發(fā)展息息相關(guān),從黑白電影到彩色電影,無聲電影到有聲電影,再到現(xiàn)如今的數(shù)字電影時代,不斷提升的視聽技術(shù)使電影擁有更多的細(xì)節(jié),更具沉浸性,為觀眾提供極佳的視聽體驗。視效技術(shù)將創(chuàng)作者的想象力進(jìn)行視覺化呈現(xiàn),為觀眾帶來了豐富的視覺體驗,其中三維數(shù)字技術(shù)在電影制作中起到了越來越重要的作用。三維技術(shù)可以拓展電影呈現(xiàn)的場景空間,展現(xiàn)生動的計算機(jī)圖形學(xué)(CG)角色,其應(yīng)用不僅僅局限于后期提升最終成片的視覺效果,還可以應(yīng)用在前期籌備過程和拍攝過程中的預(yù)覽,使創(chuàng)作人員能夠更加準(zhǔn)確地把握創(chuàng)作效果。
與圖像內(nèi)容相比,三維數(shù)字內(nèi)容的創(chuàng)作流程更長,創(chuàng)作難度和成本相對更高。在人工智能生成內(nèi)容(Artificial Intelligence Generated Content,AIGC)技術(shù)迅猛發(fā)展的背景下,如何利用相關(guān)技術(shù)輔助三維數(shù)字內(nèi)容創(chuàng)作,是一個值得探討的問題。AIGC 技術(shù)并不特指某種技術(shù),而是綜合多種不同人工智能生成技術(shù),涉及不同的計算機(jī)研究領(lǐng)域和其他學(xué)科的交叉融合,包括但不限于自然語言處理(NLP)、計算機(jī)視覺(CV)、計算機(jī)圖形學(xué)(CG)等。近兩年陸續(xù)有面向公眾的AIGC 類型產(chǎn)品發(fā)布,如文本生成大模型ChatGPT、文生圖類型應(yīng)用Midjourney 和Stable Diffusion 等,這些產(chǎn)品不僅可以實現(xiàn)對圖像或文本等信息的理解與判別,還可以根據(jù)要求生成新的內(nèi)容,甚至可以根據(jù)給定要求完成一系列任務(wù),可以讓大眾真正通過使用人工智能技術(shù)提高工作效能。
本文將圍繞影視中的三維數(shù)字內(nèi)容創(chuàng)作,闡述影視制作流程中對三維數(shù)字內(nèi)容的需求,探討在AIGC 技術(shù)飛速發(fā)展的背景下,由文本生成3D 技術(shù)在三維創(chuàng)作中的實際落地應(yīng)用,如何降低繁瑣的重復(fù)性工作以及提升影視制作效率,釋放創(chuàng)作者的想象力。
在數(shù)字電影制作流程中,尤其在需要三維技術(shù)輔助的電影中,需要利用多種CG 模型、角色來實現(xiàn)最終的成片效果,其中三維數(shù)字內(nèi)容包含了模型資產(chǎn)、材質(zhì)資產(chǎn)、動畫資產(chǎn)等。三維數(shù)字內(nèi)容通常由創(chuàng)作人員在計算機(jī)上利用三維建模軟件進(jìn)行建模而得到,傳統(tǒng)創(chuàng)建流程包括設(shè)計、建模、展UV、UV 貼圖繪制,最終導(dǎo)入渲染引擎進(jìn)行渲染和導(dǎo)出,對于人物角色等需要動畫的模型,還需要進(jìn)行骨骼綁定、蒙皮權(quán)重調(diào)整等操作。除傳統(tǒng)建模方法外,還可以通過激光掃描進(jìn)行三維重建,通常應(yīng)用于微縮模型的數(shù)字化或者對已有現(xiàn)實大場景的還原。相較于游戲行業(yè)中對三維模型高精度、優(yōu)性能的要求,電影中所需的三維模型在不同應(yīng)用場景中對應(yīng)了不同需求,并非在任意場景都要求滿足這兩個要求,因此在創(chuàng)建方法的選擇上更靈活,可以嘗試選用多種技術(shù)結(jié)合的方式,提高創(chuàng)作效率,提升創(chuàng)作質(zhì)量。
電影對三維數(shù)字內(nèi)容的需求可以從兩個不同的應(yīng)用場景進(jìn)行分析:前期視覺預(yù)演與后期視效制作。以下將通過對不同應(yīng)用場景的分析,提出電影攝制流程對三維數(shù)字內(nèi)容的需求。
在影片的前期籌備工作中,分鏡腳本設(shè)計是一個重要環(huán)節(jié),對現(xiàn)場拍攝和后期制作都具有指導(dǎo)意義。影片的分鏡通常將故事情節(jié)內(nèi)容以鏡頭為單位來劃分,能夠體現(xiàn)出場景與人物的關(guān)系、人物調(diào)度、鏡頭景別、攝影機(jī)運(yùn)動方式等,實現(xiàn)了從劇本到畫面的初步轉(zhuǎn)化,加深拍攝團(tuán)隊對劇本的理解和對拍攝內(nèi)容的把握,降低不同部門間的溝通成本,為現(xiàn)場拍攝工作減輕壓力。在特效影片中,拍攝團(tuán)隊需要通過故事板預(yù)先確定特效制作方案,避免返工,減少不必要的成本。
隨著CG 技術(shù)的快速發(fā)展,分鏡不再局限于早期手繪故事板,出現(xiàn)了動態(tài)故事板,即如今的動態(tài)視覺預(yù)演。創(chuàng)作者可以在仿真虛擬場景中,通過設(shè)定虛擬攝影機(jī)位置制定拍攝方案,直接以短片的方式呈現(xiàn)預(yù)覽結(jié)果。虛擬三維空間能夠更好地模擬現(xiàn)實場景,提升前期籌備的工作效率,三維視覺化呈現(xiàn)以及虛擬場景中的各項數(shù)據(jù)可以對現(xiàn)實進(jìn)行仿真,如場景的大小、各類道具的位置以及虛擬攝影機(jī)的各項參數(shù)。這些數(shù)據(jù)在虛擬仿真空間內(nèi)進(jìn)行嘗試與調(diào)整后,能夠更好地為現(xiàn)場拍攝工作提供參考。圖1為影片《流浪地球2》在前期為多個視效鏡頭制作的動態(tài)預(yù)覽鏡頭。
圖1 《流浪地球2》預(yù)覽與實拍畫面對比[1]
在動態(tài)預(yù)演過程中,電影制作團(tuán)隊往往需要豐富的三維數(shù)字內(nèi)容以快速得到相應(yīng)場景,如特定場景、角色、動畫,在耗費(fèi)人力成本較小的前提下,短時間內(nèi)得到盡可能接近預(yù)期的結(jié)果,為之后的拍攝及后期流程做充分準(zhǔn)備。這一環(huán)節(jié)的三維數(shù)字內(nèi)容并不需要特別精細(xì),但是應(yīng)該不僅能夠準(zhǔn)確反映最后的拍攝效果,如角度、景別、演員與攝影機(jī)的調(diào)度等,還可以指導(dǎo)后期精細(xì)化的道具模型、角色模型創(chuàng)建,是貫穿整個攝制流程的重要參考;且因處于前期環(huán)節(jié),實現(xiàn)高效快速的建模與動畫流程占有更高的優(yōu)先級。
在電影后期視效制作流程中,三維數(shù)字化技術(shù)進(jìn)一步拓展了電影內(nèi)容的創(chuàng)作空間,有助于創(chuàng)作者進(jìn)行藝術(shù)表達(dá),無論是對歷史場景的再現(xiàn),或者是對架空背景奇幻世界的展示,都需要三維數(shù)字內(nèi)容進(jìn)行輔助。在后期視效中需要運(yùn)用到的三維數(shù)字內(nèi)容可以簡要劃分為三維角色、三維道具和三維場景??苹妙愋碗娪罢宫F(xiàn)著創(chuàng)作者天馬行空的想象力,以《阿凡達(dá):水之道》為例(圖2),不僅呈現(xiàn)了潘多拉星球獨(dú)特且震撼的生態(tài)系統(tǒng),還設(shè)計了納美族角色形象。生動的角色表演和精妙的場景設(shè)計,往往能夠與電影的敘事相結(jié)合,創(chuàng)建出一個更具信服力和沉浸感的世界。
圖2 電影《阿凡達(dá)·水之道》截圖[2]
針對后期視效制作所需的三維模型內(nèi)容,三維數(shù)字藝術(shù)家應(yīng)該從電影整體的美術(shù)風(fēng)格出發(fā),在設(shè)計階段制定模型的需求和規(guī)范,根據(jù)實際應(yīng)用范圍確定該模型的精細(xì)程度以及是否需要動畫,并就此對模型的創(chuàng)建進(jìn)行規(guī)劃。如果在影片中有關(guān)鍵道具的特寫鏡頭,則需要呈現(xiàn)更加豐富的細(xì)節(jié)。此外,最終性能也應(yīng)在設(shè)計階段便納入考慮范圍,雖然電影相較于游戲而言對性能的要求并沒有那么高,但是當(dāng)前為了實現(xiàn)實時預(yù)演,提升后期渲染效率,仍然需要準(zhǔn)備低面數(shù)模型,并在不影響最終視覺效果的情況下,減少模型面數(shù)和頂點(diǎn)數(shù)量。
針對電影中的CG 人物角色,后期需要利用面部捕捉和動作捕捉實現(xiàn)生動的CG 角色表演。為保證面部動畫的流暢性,需要對模型的布線進(jìn)行調(diào)整,以符合面部肌肉運(yùn)動方向;為實現(xiàn)自然的角色動作動畫,需要對人物角色模型進(jìn)行骨骼綁定,并進(jìn)行蒙皮權(quán)重處理,使得骨骼動畫發(fā)生變化時,角色模型表面的網(wǎng)格頂點(diǎn)可以根據(jù)骨骼進(jìn)行合理的移動和變形??偠灾?,后期視效制作所需的三維模型不僅需要更高的精細(xì)度和細(xì)節(jié),還要考慮動畫的可實現(xiàn)性。
隨著文本生成圖像研究不斷發(fā)展進(jìn)步,文本生成三維(Text-to-3D)成為一個值得關(guān)注的課題。與圖像生成方法相比,針對生成三維形狀的深度學(xué)習(xí)(Deep Learning)更為困難,三維模型相較于二維圖像而言,包含的信息數(shù)據(jù)量更多且更復(fù)雜,對神經(jīng)網(wǎng)絡(luò)(Neural Network)的訓(xùn)練難度更大。
首先,難度來源于三維模型數(shù)據(jù)的復(fù)雜性。以像素為單位整齊排布的二維圖像為歐幾里得結(jié)構(gòu)數(shù)據(jù),節(jié)點(diǎn)與鄰居節(jié)點(diǎn)之間具有統(tǒng)計上的相關(guān)性,更容易被處理與學(xué)習(xí);而三維模型數(shù)據(jù)較為復(fù)雜,因此首先需選取合適的表示方式。目前較為主流的三維模型數(shù)據(jù)表示方式可以劃分為顯式表示和隱式表示,前者包含點(diǎn)云(Point Cloud)、體素網(wǎng)格(Voxels)、多邊形網(wǎng)格(Polygon Mesh),后者則包含符號距離場(Signed Distance Field,SDF)、多視圖表示(Mult-view Data)等。其中基于多視圖表示與體素網(wǎng)格的三維模型數(shù)據(jù)屬于三維歐幾里得數(shù)據(jù),能夠?qū)⒍S深度學(xué)習(xí)范式拓展到三維數(shù)據(jù);三維非歐幾里得數(shù)據(jù)的深度學(xué)習(xí)技術(shù)難度更大,需要使用幾何深度學(xué)習(xí)方法。
其次,三維生成的訓(xùn)練還面臨數(shù)據(jù)集不足的難題。Text-to-Image 的模型訓(xùn)練可以從互聯(lián)網(wǎng)獲得海量數(shù)據(jù),但是三維內(nèi)容的訓(xùn)練數(shù)據(jù)集規(guī)模是遠(yuǎn)遠(yuǎn)不夠的。隨著針對三維數(shù)字內(nèi)容的研究發(fā)展,已有研究團(tuán)隊創(chuàng)建了相關(guān)數(shù)據(jù)集。ShapeNet 是根據(jù)Word-Net 層次組織的三維形狀數(shù)據(jù)集,但由于其為仿真數(shù)據(jù)集,外觀與真實世界中的數(shù)據(jù)分布差距較大,因此得到的訓(xùn)練結(jié)果仍然有差距;數(shù)據(jù)集Objaverse 包含了通過掃描得到80 萬余標(biāo)注的三維物體,研究團(tuán)隊在此基礎(chǔ)上進(jìn)行了擴(kuò)展,創(chuàng)建了Objaverse-XL[3],包含一千余萬的三維物體;OmniObject3D 為物體提供了四種模態(tài)的信息,包含帶紋理的高精度模型、點(diǎn)云、多視圖渲染圖像以及實景拍攝的環(huán)繞視頻。盡管整體數(shù)量看上去十分可觀,但是與圖像億級的數(shù)量相比,訓(xùn)練數(shù)據(jù)集規(guī)模仍然非常有限。
目前,隨著對三維生成研究的開展與深入,部分技術(shù)方法可以直接由文本生成種類豐富的三維模型。下文將根據(jù)發(fā)展的時間及不同的技術(shù)要點(diǎn),對已有的Text-to-3D 技術(shù)方法進(jìn)行分類,劃分為初期、中期、中后期。初期階段不直接生成三維形狀,但是可以用文本指導(dǎo)三維模型進(jìn)行組合,形成一個更復(fù)雜的模型或組合成為一個場景;中期階段研究發(fā)展探索對不同三維表示的學(xué)習(xí),通過編碼器學(xué)習(xí)文本和三維模型的對應(yīng)關(guān)系,實現(xiàn)跨模態(tài)映射,可以利用生成網(wǎng)絡(luò)針對部分特定類目生成形狀;中后期,即現(xiàn)階段,則在文生圖技術(shù)發(fā)展的基礎(chǔ)上,基于CLIP、神經(jīng)輻射場(Neural Rediance Fileds, NeRF)和Text-to-Image 相關(guān)方法實現(xiàn)的Text-to-3D 技術(shù)方法。
在初期階段,文本和三維內(nèi)容的相關(guān)研究包括文本與三維模型間的匹配;三維模型的位置定位,以及在文本與三維生成的文本引導(dǎo)三維模型的組合等。根據(jù)給定文本從資產(chǎn)庫中檢索出對應(yīng)模型,并且組合成一個完整的三維場景,如WordsEye[4]利用解析器對文本進(jìn)行解析,轉(zhuǎn)換為依賴結(jié)構(gòu),再對依賴關(guān)系結(jié)構(gòu)進(jìn)行語義解釋,并轉(zhuǎn)換為表示三維對象、姿態(tài)、空間關(guān)系、顏色屬性等的描述器,之后根據(jù)描述器重構(gòu)場景。此類研究中的重點(diǎn)主要在于通過對文本進(jìn)行解析,準(zhǔn)確學(xué)習(xí)空間中的物體關(guān)系,使系統(tǒng)能夠根據(jù)給定文本確定所需物體,從資產(chǎn)庫中選擇三維模型,確定不同模型的位置與空間關(guān)系,合成一個三維場景。其中三維模型仍然需要人工創(chuàng)建,只是可以使由輸入文本控制三維場景合成及搭建場景的效率得到提高。
Chang 等人[5]提出了可以從三維場景中學(xué)習(xí)的空間知識表示,通過統(tǒng)計在不同場景中出現(xiàn)的物體及其相對空間位置,實現(xiàn)了從簡潔文本到真實可信場景的生成。Ma 等人[6]針對室內(nèi)場景陳設(shè),實現(xiàn)了子場景中的文本驅(qū)動場景建模,且增強(qiáng)了生成的三維場景的復(fù)雜性和現(xiàn)實性(圖3),該生成框架利用語義場景圖表示對幾何與語義信息進(jìn)行編碼并學(xué)習(xí)物體間更復(fù)雜的關(guān)系,用多個文本提示逐步生成需要的場景。
圖3 自然語言驅(qū)動合成系統(tǒng)的結(jié)構(gòu)概覽[6]
隨著生成模型如生成式對抗網(wǎng)絡(luò)(GAN)、擴(kuò)散模型(Diffusion Model)等進(jìn)一步發(fā)展,在利用文本生成具體三維模型的研究中,部分研究方法根據(jù)三維數(shù)據(jù)集,通過對三維模型的點(diǎn)云、體素網(wǎng)格、三角形網(wǎng)格或隱式函數(shù)的表示進(jìn)行學(xué)習(xí),將文本特征映射到自動編碼器的特征空間,然后利用隱式解碼器生成三維形狀(圖4)[7][8][9]。
圖4 隱式解碼器結(jié)構(gòu)[9]
Chen 等人[10]提出了文本描述和三維形狀聯(lián)合表示的問題,通過學(xué)習(xí)文本描述和彩色三維形狀的聯(lián)合嵌入,利用生成式對抗網(wǎng)絡(luò)預(yù)測彩色的體素網(wǎng)格,能夠生成三維形狀,但是文本與形狀語義仍然存在差距,生成形狀不夠準(zhǔn)確,且在最終的分辨率和紋理上表現(xiàn)不盡如人意。Jahan 等人[11]基于參數(shù)化建模的想法將關(guān)鍵詞映射到三維形狀的子空間,讓用戶可以通過對子空間的關(guān)鍵詞控制形狀生成,該研究通過結(jié)合學(xué)習(xí)以標(biāo)簽為條件的潛在向量分布的標(biāo)簽回歸網(wǎng)絡(luò),以及將采樣的潛在向量轉(zhuǎn)換為三維形狀生成網(wǎng)絡(luò)來實現(xiàn),只能通過關(guān)鍵詞生成對應(yīng)形狀。Liu 等人[12]基于隱式場的三維生成方法,對模型的形狀和顏色特征進(jìn)行編碼學(xué)習(xí),并對輸入文本進(jìn)行編碼,根據(jù)與形狀和顏色特征的對應(yīng)關(guān)系,再通過空間感知解碼器對提取到的特征解碼,生成具有不同形狀和顏色的三維形狀,訓(xùn)練數(shù)據(jù)是針對桌子和椅子的類目,可以生成有一定變化的桌椅模型(圖5)。
圖5 文本生成桌椅類目結(jié)果[12]
在這一階段的研究中,實現(xiàn)了由文本生成三維形狀。但由于只能生成較少類別的物體,很難實現(xiàn)多樣性的生成結(jié)果,難以滿足實際應(yīng)用中對不同三維模型種類的需求,且由于訓(xùn)練數(shù)據(jù)帶來的限制,紋理及貼圖的生成仍然需要進(jìn)一步完善。
近年來,有幾項技術(shù)為現(xiàn)階段的Text-to-3D 方法研究拓展了新的方向。
NeRF[13]利用神經(jīng)網(wǎng)絡(luò)從稀疏的多視角二維視圖中學(xué)習(xí)連續(xù)的三維場景表示,生成任意新視角的渲染視圖。其基本原理為將三維場景表示為連續(xù)5D 函數(shù),并可以使用多層感知器(Multi-layer Perceptrons, MLPs)表現(xiàn)此映射,從空間位置和觀看方向得到該位置的體積密度和發(fā)射輻射量,之后進(jìn)行體渲染(Volume Rendering),最終對得到的值進(jìn)行合成,得到新視角的圖像。NeRF 成為了三維重建和生成的新范式,在三維重建領(lǐng)域有著巨大影響。
Text-to-Image 方法已經(jīng)有了較為成熟的解決方案,可以結(jié)合對比文本-圖像預(yù)訓(xùn)練模型(Contrastive Language-Image Pre-training, CLIP)對齊多模態(tài)的語義信息,基于自回歸模型或擴(kuò)散模型生成多樣化的符合文本語義的圖像。由文本生成圖像的研究有了非常優(yōu)秀的結(jié)果,研究團(tuán)隊開始關(guān)注利用Text-to-Image 的相關(guān)技術(shù)輔助文本生成三維物體。基于CLIP和Text-to-Image 方法的研究減少了訓(xùn)練集不足帶來的限制,且在語義關(guān)系對齊上有了更好的效果。作為輸入條件,文本會讓生成物體的形狀、顏色、風(fēng)格更具創(chuàng)造性和多樣性。
由于匹配三維模型的文本數(shù)量較少,Jain 等人[14]提出了利用CLIP 來生成三維物體且不需要三維數(shù)據(jù)監(jiān)督(圖6),利用NeRF,根據(jù)給定的文字描述與在正則化器指導(dǎo)下對物體的顏色和幾何體形狀進(jìn)行學(xué)習(xí),通過CLIP 對隨機(jī)角度渲染得到的物體圖像進(jìn)行評分,來對齊三維模型與文字語義的關(guān)系。
圖6 Dream Fields 的結(jié)構(gòu)[14]
DreamFusion[15]在Dream Fields 的基礎(chǔ)上進(jìn)行了改進(jìn),采用從文本到圖像的模型,對不同角度渲染出的圖像進(jìn)行擴(kuò)散渲染,并用條件圖像模型進(jìn)行重建渲染,預(yù)測注入的噪聲,使得生成結(jié)果更加具有保真性。Magic3D[16]由一個從粗到細(xì)的策略租場,利用低分辨率和高分辨率的擴(kuò)散先驗來學(xué)習(xí)目標(biāo)內(nèi)容的三維表示。相比DreamFusion 而言,Magic3D 能夠生成更高分辨率的三維模型,在生成效率上也優(yōu)于DreamFusion。Magic3D 可以給定一個使用文本提示生成的粗糙模型,再通過修改提示中的部分文本,從而基于原本輸入微調(diào)生成的三維模型。之后使用高分辨率潛在擴(kuò)散模型(LDM),不斷抽樣和渲染第一階段的粗略模型,生成具有細(xì)節(jié)紋理的高質(zhì)量三維網(wǎng)格(圖7)。
圖7 由文本生成的三維模型[16]
Make-It-3D[17]結(jié)合Text-to-Image 模型,從單個圖像實現(xiàn)三維模型創(chuàng)建,采用兩階段優(yōu)化管道:第一階段通過結(jié)合參考圖像正面視圖的約束和新視圖的擴(kuò)散先驗來優(yōu)化NeRF;第二階段將粗模型轉(zhuǎn)換為紋理點(diǎn)云,并在利用參考圖像高質(zhì)量紋理的同時,結(jié)合擴(kuò)散先驗進(jìn)一步提高真實感。Make-It-3D 提升了紋理的生成質(zhì)量,在前景視圖的呈現(xiàn)上擁有更好的效果,但是在生成背面不可見內(nèi)容時仍然缺少細(xì)節(jié)。
為了提升三維數(shù)字內(nèi)容的創(chuàng)作效率,已有使用人工智能技術(shù)的各類產(chǎn)品及研究融入創(chuàng)建流程中,減少繁瑣的重復(fù)性工作,為創(chuàng)作者們提供更加自由的創(chuàng)作空間。以傳統(tǒng)建模流程為例,自動拓?fù)?、自動展UV、紋理程序化生成已經(jīng)成為較為成熟的應(yīng)用,三維藝術(shù)家可以利用這些工具輔助建模流程,提升工作效率。ZBrush 在軟件中提供了自動布線的工具ZRemesher,用于識別模型的硬表面邊緣,并且根據(jù)邊緣對模型表面的網(wǎng)格進(jìn)行自動拓?fù)洌筛偾揖哂懈呔鹊亩噙呅?,讓模型表面的網(wǎng)格分布更加均勻、合理,以此滿足高精度模型轉(zhuǎn)低精度模型或動畫的需求;針對角色動畫制作,也出現(xiàn)了更加便利的方法以取代傳統(tǒng)流程。Mosella-Montoro 等人[18]提出了一種新的神經(jīng)網(wǎng)絡(luò)架構(gòu),該架構(gòu)通過聯(lián)合學(xué)習(xí)網(wǎng)格和骨架之間的最佳關(guān)系,自動提取最佳特征來預(yù)測蒙皮權(quán)重并自動生成更加準(zhǔn)確的蒙皮權(quán)重。Chen 等人[19]利用深度學(xué)習(xí)對光學(xué)動作捕捉數(shù)據(jù)進(jìn)行清洗,可以得到更加準(zhǔn)確的動作,從而大大減小清洗數(shù)據(jù)的工作量。
隨著跨模態(tài)技術(shù)及Text-to-3D 技術(shù)的發(fā)展,在實際三維內(nèi)容的創(chuàng)建流程中,文本引導(dǎo)生成也出現(xiàn)了相應(yīng)應(yīng)用。本節(jié)將從紋理貼圖、虛擬角色、三維場景三個方向闡述現(xiàn)有應(yīng)用情況。
在Text-to-Image 相關(guān)技術(shù)發(fā)展的背景下,作為三維模型的要素之一,紋理貼圖也可以通過文本引導(dǎo)生成。如果將紋理貼圖僅視作圖像信息,則可以利用Text-to-Image 的流程進(jìn)行生成,生成過程可以劃分為兩個環(huán)節(jié),一是通過Text-to-Image 模型生成無縫顏色貼圖,二是根據(jù)單張顏色圖分析生成對應(yīng)的法線貼圖(Normal Map)、環(huán)境光遮蔽貼圖(Ambient Occlusion Map)、高度圖(Height Map)等。Midjourney 與Stable Diffusion 都可以支持顏色貼圖的生成,但仍有可能無法得到無縫效果,且不含其他基于物理渲染(Physically Based Rendering, PBR)的貼圖,因此,還需要利用其他軟件來進(jìn)行相應(yīng)計算。軟件Materialize 支持根據(jù)導(dǎo)入的圖像,調(diào)整不同參數(shù),使材質(zhì)更加接近預(yù)期效果。
同時,更加便利的方法是將上述兩步直接結(jié)合,直接通過文本生成一系列紋理貼圖。Poly 支持根據(jù)輸入的文本在庫中搜索符合描述的紋理貼圖,如果沒有合適的貼圖,可以輸入文本進(jìn)行相應(yīng)紋理的生成,此外,網(wǎng)站提供了有機(jī)自然、啞光、有光澤的、織物類等不同材質(zhì)選擇,以便生成更準(zhǔn)確的PBR 貼圖,使材質(zhì)更加真實,接近想要的質(zhì)感。經(jīng)過測試,在官網(wǎng)輸入文本“broken blue tiles”后得到的紋理效果如圖8所示。
圖8 根據(jù)文本生成的紋理貼圖[20]
作為實現(xiàn)針對網(wǎng)格模型生成高質(zhì)量紋理的新方法,Text2Tex[21]利用深度感知擴(kuò)散模型逐步更新紋理圖案,逐步生成多視點(diǎn)的局部紋理,再反向投影至紋理空間。為了消除旋轉(zhuǎn)視點(diǎn)時的拉伸和不連續(xù)偽影,該研究提出了一個可以計算可見紋理的法向量以及與當(dāng)前視圖方向間相似性映射的視圖劃分技術(shù),允許在不同的區(qū)域應(yīng)用不同的擴(kuò)散強(qiáng)度。實驗最終得到了較好的效果(圖9)。
圖9 根據(jù)網(wǎng)格生成紋理[21]
數(shù)字角色是三維數(shù)字內(nèi)容的一個重要分類,無論影視行業(yè)還是游戲行業(yè),都對虛擬角色內(nèi)容有著大量需求。在虛擬角色內(nèi)容創(chuàng)建流程中,利用文本引導(dǎo)虛擬角色生成,可以更快速地獲得虛擬角色,且不需要額外的建模技巧。虛幻引擎(Unreal Engine,UE)發(fā)布的MetaHuman 工具為創(chuàng)作者提供創(chuàng)建數(shù)字人類角色的完整框架,支持用多種面部混合模式制作需要的面部形狀,同時結(jié)合膚色和紋理細(xì)節(jié),可以實現(xiàn)自動的多層次細(xì)節(jié),降低了創(chuàng)建數(shù)字人類角色的難度。
AvatarCLIP[22]結(jié)合大規(guī)模預(yù)訓(xùn)練模型,提出了一個可以由文本引導(dǎo)生成虛擬角色的框架,包含形狀、紋理和動作生成。AvatarCLIP 生成靜態(tài)模型的管線分為兩個環(huán)節(jié):第一環(huán)節(jié)是由形狀變分自編碼器(Variational Autoencoder, VAE)構(gòu)成的碼本,用于CLIP 引導(dǎo)的查詢,生成粗顆粒度形狀模型;第二環(huán)節(jié)則通過網(wǎng)格模型的多視角圖像對NeuS[23]進(jìn)行優(yōu)化、形狀雕刻和紋理生成。
DreamFace[24]是由文本生成數(shù)字角色面部的解決方案,主要包括三個模塊:幾何體生成、基于物理的材質(zhì)擴(kuò)散和動畫能力生成?;诖搜芯?,該團(tuán)隊發(fā)布了專門針對數(shù)字人的生成工具ChatAvatar。該工具生成的三維模型能夠?qū)BR 材質(zhì)下載至本地,并支持導(dǎo)入到引擎中,其拓?fù)湟?guī)整度和綁定能夠滿足CG 流程要求。使用者可以通過官網(wǎng)和聊天機(jī)器人對話得到生成的提示詞(Prompt),通過不斷的對話式引導(dǎo)豐富提示詞,再進(jìn)行生成,降低了對輸入Prompt 能力的要求;系統(tǒng)會根據(jù)文字Prompt 快速生成幾個備選的幾何體模型,用戶選擇更符合期待的模型后,系統(tǒng)將進(jìn)一步生成PBR 材質(zhì)貼圖(圖10)。目前ChatAvatar 僅支持對人臉的生成,暫時不支持添加發(fā)型,但是這已經(jīng)為Text-to-3D 類型的創(chuàng)作產(chǎn)品提供了一個更加明確的方向。
圖10 ChatAvatar 生成樣例[25]
DreamAvatar[26]可以從文本提示和形狀先驗生成高質(zhì)量的、具有可控姿勢的三維數(shù)字人類角色,利用一個預(yù)訓(xùn)練的Text-to-Image 模型提供二維自我監(jiān)督,用可訓(xùn)練的NeRF 預(yù)測三維點(diǎn)的密度和顏色特征,可以得到更加具有細(xì)節(jié)和生動的數(shù)字角色,經(jīng)過評估生成結(jié)果優(yōu)于現(xiàn)有方法,生成效果如圖11所示。
圖11 根據(jù)文本引導(dǎo)生成的數(shù)字角色[26]
三維場景的生成可以在電影籌備環(huán)節(jié)提高動態(tài)預(yù)覽效率,呈現(xiàn)更加準(zhǔn)確的空間關(guān)系,進(jìn)而獲得更接近成片的視覺效果。三維場景包含的三維數(shù)字內(nèi)容往往非常豐富,相較于獨(dú)立的三維物體而言,還需要確保各個物體具有合理的空間關(guān)系。文本生成三維場景既應(yīng)該提高創(chuàng)建效率,又應(yīng)該具備一定的可控性與可編輯性。
正如第三節(jié)所述,目前眾多有關(guān)文本到三維場景的研究是基于已有的模型庫,根據(jù)對輸入文本進(jìn)行語義分析和特征提取,從模型庫提取對應(yīng)模型,將模型按照符合語義且合理的空間關(guān)系組合成三維場景。SceneSeer[27]提出的交互生成系統(tǒng),允許用戶使用簡單文本命令添加、刪除、替換和操作模型對象,不斷迭代細(xì)化所創(chuàng)建的場景。
Text2NeRF[28]能夠僅從自然語言描述生成多樣化和連續(xù)的三維場景。首先通過一個文本到圖像的擴(kuò)散模型來生成初始視圖,根據(jù)此視圖,利用基于深度圖的渲染方法為NeRF 重建提供不同視角的支持集。在對這個初始化的NeRF 模型進(jìn)行訓(xùn)練后,引入了一個圖像補(bǔ)全的更新策略以擴(kuò)展新的場景視圖,補(bǔ)全缺失部分,之后再更新NeRF。該方法可以生成具有復(fù)雜幾何結(jié)構(gòu)和精細(xì)紋理的三維場景,但其生成的三維場景仍然局限在一定角度內(nèi),且沒有生成單獨(dú)三維對象。
Set-the-Scene[29]提出了全局—局部的訓(xùn)練框架,即利用代理對象確定物體生成場景中的空間位置,并可以選擇定義為粗模型。每一個對象表示為獨(dú)立的NeRF,在進(jìn)行優(yōu)化時,交叉進(jìn)行單對象優(yōu)化與場景優(yōu)化,創(chuàng)建合理的場景。該系統(tǒng)還提供了修改與編輯方式,可實現(xiàn)編輯代理對象的幾何形狀,對生成場景進(jìn)行微調(diào)。生成場景合成結(jié)果如圖12 所示,由代理對象生成更為合理、具備整體性的場景。
圖12 場景合成結(jié)果[29]
AIGC 技術(shù)發(fā)展是當(dāng)前的熱門話題,尤其是跨模態(tài)生成方法能夠使用戶使用工具時更加輕松,但是在進(jìn)入實際應(yīng)用時,仍然存在一些實際問題。近幾年出現(xiàn)的Text-to-3D 應(yīng)用研究,如DreamFusion、Dream Fields 等,為三維生成提出了一個富有前景的應(yīng)用落地空間,Text-to-Image 模型應(yīng)用的大范圍落地讓人們對三維模型的自動生成有了更多期待。
Text-to-3D 在三維數(shù)字內(nèi)容創(chuàng)建過程中已有針對不同使用場景、不同創(chuàng)作環(huán)節(jié)的技術(shù)方案出現(xiàn),部分紋理生成工具、數(shù)字人臉生成產(chǎn)品能夠生成較好的結(jié)果;場景和數(shù)字角色的高效生成可以滿足動態(tài)預(yù)演的基本需求。但目前大部分生成結(jié)果的精細(xì)程度及過程可控性,還難以達(dá)到工業(yè)級標(biāo)準(zhǔn)。如今相關(guān)研究的技術(shù)管線仍然無法很好地融入到電影傳統(tǒng)制作管線中,無論是在最終成果還是可用性上,距離實際落地仍然存在一定差距。正如Midjourney 和ChatGPT 是經(jīng)過了一段較長時間的多種算法積累與發(fā)展后,才實現(xiàn)了質(zhì)的飛躍,成為了能夠與實際工作流相結(jié)合的工具。相信Text-to-3D 技術(shù)也在不斷迭代發(fā)展中逐漸助力實際創(chuàng)作流程,釋放創(chuàng)作者的想象力,提升前期預(yù)覽效果和后期視效工作效率,使創(chuàng)作者對電影整體制作流程有更好的把握。?