謝 韻 曾可依 李 秀
清華大學(xué)深圳國(guó)際研究院,深圳 518000
數(shù)字人是一種通過(guò)計(jì)算機(jī)技術(shù)模擬和復(fù)制人類構(gòu)造、形態(tài)和行為的虛擬實(shí)體。隨著科技的不斷進(jìn)步和創(chuàng)新,電影制作團(tuán)隊(duì)能夠利用數(shù)字人技術(shù)為觀眾呈現(xiàn)出更加逼真和震撼的視覺(jué)效果。這種技術(shù)的飛速發(fā)展為電影行業(yè)帶來(lái)了無(wú)限的可能性,許多優(yōu)秀的電影作品都運(yùn)用了數(shù)字人技術(shù),使歷史人物、虛構(gòu)角色和神奇生物在銀幕上栩栩如生。比如,詹姆斯·卡梅隆執(zhí)導(dǎo)的科幻巨作《阿凡達(dá):水之道》就采用了先進(jìn)的數(shù)字人技術(shù),將人類與納美族的虛構(gòu)世界相融合,為觀眾提供了逼真的視覺(jué)享受?!稄?fù)仇者聯(lián)盟4:終局之戰(zhàn)》這部漫威超級(jí)英雄大片則利用數(shù)字人技術(shù)成功實(shí)現(xiàn)了許多角色的復(fù)刻和重塑,使觀眾能夠看到年輕版的托尼·斯塔克、史蒂夫·羅杰斯和索爾·奧丁森等角色,這些數(shù)字人角色與真實(shí)演員的表演無(wú)縫銜接,為電影增添了情感沖擊和戲劇張力。
2012 年深度學(xué)習(xí)(DL)技術(shù)進(jìn)入大眾視野,數(shù)字人產(chǎn)業(yè)從費(fèi)用高且耗時(shí)較長(zhǎng)的動(dòng)畫(huà)制作開(kāi)始逐步向人工智能(AI)制作過(guò)渡,大幅降低了數(shù)字人的制作成本并提升了制作效率。在人工智能生成內(nèi)容(AIGC)技術(shù)的有力賦能下,虛擬數(shù)字人作為多個(gè)跨領(lǐng)域技術(shù)的集成體,在顯著提升電影制作效能與質(zhì)量的同時(shí),為往后的應(yīng)用發(fā)展提供了更多的可能性。
真人數(shù)字替身和虛擬創(chuàng)造角色是數(shù)字人發(fā)展的兩個(gè)階段。真人數(shù)字替身利用數(shù)字技術(shù)代替真實(shí)演員進(jìn)行場(chǎng)景拍攝,而虛擬創(chuàng)造角色是完全由計(jì)算機(jī)程序生成的數(shù)字人。隨著技術(shù)的發(fā)展,真人數(shù)字替身和虛擬創(chuàng)造角色的制作精度與技術(shù)不斷提升,為電影創(chuàng)作提供了更廣闊的創(chuàng)作空間,也使數(shù)字人的表演更加逼真。
真人數(shù)字替身是數(shù)字人發(fā)展的早期類型,替身是指利用數(shù)字技術(shù)制作的人物,代替真實(shí)演員出現(xiàn)在電影中。傳統(tǒng)的電影拍攝由于涉及到武打爆炸與特效等危險(xiǎn)性較大的情節(jié)設(shè)計(jì),往往會(huì)采用數(shù)字替身的形式降低風(fēng)險(xiǎn)與成本。數(shù)字替身最早可追溯到1985年的電影《少年福爾摩斯》,工業(yè)光魔公司(ILM)創(chuàng)造了電影史上第一個(gè)CG 角色,通過(guò)對(duì)騎士的數(shù)字替身制作實(shí)現(xiàn)了戰(zhàn)斗的鏡頭。1997 年,電影《泰坦尼克號(hào)》的水下場(chǎng)景首次使用了完全由計(jì)算機(jī)技術(shù)制造的數(shù)字替身演員,使得水下片段更真實(shí)、震撼。
通過(guò)掃描真實(shí)演員構(gòu)建對(duì)應(yīng)的數(shù)字人替身是電影工業(yè)中的常用做法,電影制作公司通過(guò)光臺(tái)拍攝獲得高保真的三維采集重建演員形象,通過(guò)模擬環(huán)境光、膚色重建、面部綁定等將真實(shí)演員的形象數(shù)字化,再將數(shù)字形象與實(shí)際演員的表演結(jié)合在一起,實(shí)現(xiàn)數(shù)字替身進(jìn)行拍攝的效果,從而規(guī)避很多電影無(wú)法避免的拍攝挑戰(zhàn),如時(shí)間進(jìn)度、拍攝難度、影片質(zhì)量等[1]。
當(dāng)電影全面進(jìn)入數(shù)字時(shí)代后,數(shù)字替身便進(jìn)入了以二維圖像換臉與三維動(dòng)作捕捉換臉的階段。例如,電影《速度與激情7》中的主演保羅·沃克在影片拍攝過(guò)程中遭遇嚴(yán)重車禍不幸去世,為了保證電影的順利制作,劇組選擇了二維數(shù)字圖像換臉技術(shù),通過(guò)保羅·沃克生前存留的影像資料及其弟弟的替身表演完成了最終拍攝。而數(shù)字替身在三維動(dòng)作捕捉換臉技術(shù)的應(yīng)用則更為廣泛,無(wú)論是《雙子殺手》中角色與自身克隆體遭遇的場(chǎng)景,亦或是突破年齡限制、出演不同年齡段的同一角色的電影《銀翼殺手2049》《金剛狼3:殊死一戰(zhàn)》等,三維動(dòng)作捕捉換臉技術(shù)讓真人數(shù)字替身的演出更為精湛逼真,也為導(dǎo)演提供了更多的創(chuàng)作空間。
隨著技術(shù)的發(fā)展,真人數(shù)字替身技術(shù)的制作成本及實(shí)現(xiàn)效果都獲得了顯著優(yōu)化。早在2008 年,為電影《本杰明·巴頓奇事》制作特效的特效公司就已經(jīng)運(yùn)用面部捕捉技術(shù)將主角的表演與3D 數(shù)字模型結(jié)合,實(shí)現(xiàn)了讓主角跨越老年、中年、青少年和嬰兒四個(gè)人生階段的“返老還童”般演繹,并斬獲了2009年奧斯卡最佳視覺(jué)效果獎(jiǎng)。2019 年奧斯卡最佳影片《綠皮書(shū)》中主角彈奏鋼琴鏡頭的拍攝也是通過(guò)替身鋼琴師與AI換臉技術(shù)進(jìn)行后期合成。
在技術(shù)優(yōu)化上,AI 深度合成技術(shù)門檻正在不斷降低,該類技術(shù)的發(fā)展迭代為系列電影中保持演員外觀不變的難題提供了解決方案。漫威電影《蜘蛛俠:英雄無(wú)歸》中就利用AI換臉合成技術(shù)讓章魚(yú)博士和綠魔看起來(lái)更年輕;《愛(ài)爾蘭人》里羅伯特·德尼羅、阿爾·帕西諾和喬·佩西三位年逾七旬演員實(shí)現(xiàn)了無(wú)痕減齡扮演年輕版的自己。繼2020 年發(fā)布高分辨率版本Deepfake 工具后[2],迪士尼近期又發(fā)布了首個(gè)可適用于真實(shí)場(chǎng)景、自動(dòng)化的AI 視頻人臉處理模型FRAN(Face Re-Aging Network)[3],該模型進(jìn)一步提升了AI 改變演員外貌視覺(jué)效果的能力。FRAN 能夠使用數(shù)據(jù)信息來(lái)預(yù)測(cè)真人演員面部會(huì)老化的區(qū)域,以及實(shí)現(xiàn)將皺紋和下巴疊加到既有視頻片段上,或者從既有畫(huà)面的人物臉上刪除皺紋。FRAN 算法的出現(xiàn)為數(shù)字替身的使用擴(kuò)展了創(chuàng)作空間。
在實(shí)時(shí)反饋上,英國(guó)生成式AI 代表公司Metaphysic 提出了Metaphysic Live 產(chǎn)品,該產(chǎn)品能夠在演員現(xiàn)場(chǎng)表演的基礎(chǔ)上實(shí)時(shí)創(chuàng)建高分辨率、逼真的換臉和去老化效果,無(wú)需進(jìn)一步合成或視效(VFX)工作,并能夠以30FPS 的速度將AI 生成的逼真內(nèi)容流傳輸?shù)浆F(xiàn)實(shí)世界場(chǎng)景。電影《Here》就是通過(guò)AIGC快速實(shí)時(shí)展現(xiàn)現(xiàn)場(chǎng)演員表演驅(qū)動(dòng)的超真實(shí)換臉和去老化技術(shù),讓導(dǎo)演、演員和制片人得以實(shí)時(shí)查看并調(diào)整表演,極大地縮短了影片制作周期,同樣的減齡工作在2019年的《雙子殺手》中曾花去制作公司兩年的時(shí)間。
虛擬創(chuàng)造角色是數(shù)字人發(fā)展的中期類型,它們是指完全由計(jì)算機(jī)程序生成的數(shù)字人,沒(méi)有實(shí)際的物理形體與現(xiàn)實(shí)身份,只存在于計(jì)算機(jī)的虛擬空間中。CG技術(shù)的發(fā)展讓數(shù)字人不再局限于真人演員的生物模型,而是可以通過(guò)藝術(shù)家創(chuàng)造和計(jì)算機(jī)合成等形式創(chuàng)造出無(wú)法在電影中進(jìn)行實(shí)拍的人物及生物。
早期的虛擬創(chuàng)造角色可以追溯到1989 年詹姆斯·卡梅隆的《深淵》,該影片中外星智慧生物操控水柱運(yùn)動(dòng)到男女主角面前,水柱呈現(xiàn)出了與男女主角一樣的面容。2001 年,彼得·杰克遜的《指環(huán)王1:護(hù)戒使者》創(chuàng)造了一個(gè)具有里程碑意義的虛擬創(chuàng)造角色咕嚕姆。后來(lái),維塔數(shù)碼推出“金剛”和《猩球崛起》系列中的“凱撒”等虛擬角色形象。2006 年,電影特效公司工業(yè)光魔在《加勒比海盜2:亡靈的寶藏》里創(chuàng)造了一位會(huì)彈管風(fēng)琴的章魚(yú)船長(zhǎng),徹底開(kāi)啟了虛擬創(chuàng)造角色在電影制作中的應(yīng)用。
動(dòng)作捕捉技術(shù)的發(fā)展讓虛擬創(chuàng)造角色在電影制作中更顯自然。2001 年,由游戲衍生的科幻電影《最終幻想:靈魂深處》作為動(dòng)作捕捉史上的一部標(biāo)桿性作品,不僅女主角Aki的全程動(dòng)畫(huà)都由動(dòng)作捕捉技術(shù)進(jìn)行驅(qū)動(dòng),同時(shí)也讓她擁有了一頭纖毫畢現(xiàn)、輕柔飄逸的頭發(fā),這是虛擬創(chuàng)造角色首次實(shí)現(xiàn)毛發(fā)在CG 世界里甩動(dòng)、旋轉(zhuǎn),并對(duì)其進(jìn)行光線動(dòng)態(tài)處理。2004年,執(zhí)導(dǎo)過(guò)《阿甘正傳》的羅伯特·澤米吉斯拍攝了好萊塢第一部全真人CG 電影《極地特快》,奧斯卡影帝湯姆·漢克斯在影片中先后飾演了包括圣誕老人在內(nèi)的6個(gè)虛擬數(shù)字角色,所有的數(shù)字人動(dòng)畫(huà)均由動(dòng)作捕捉技術(shù)實(shí)現(xiàn)。
在AI 技術(shù)的加持下,虛擬創(chuàng)造角色無(wú)論在制作精度上還是在效果呈現(xiàn)上都有了飛速提升。2019年《阿麗塔:戰(zhàn)斗天使》影片的主角阿麗塔就是第一位完全采用數(shù)字人技術(shù)制作的超高精度角色。工程師們?yōu)榱藢?shí)現(xiàn)阿麗塔臉上細(xì)小絨毛的自然毛發(fā)效果,利用AI算法設(shè)計(jì)了全新的毛孔生長(zhǎng)技術(shù),使阿麗塔擁有超寫實(shí)的數(shù)字人形象。在驅(qū)動(dòng)方面,《阿麗塔:戰(zhàn)斗天使》將動(dòng)作捕捉升級(jí)到了“表演捕捉”,維塔工作室通過(guò)演員“羅莎·薩拉查——CG 羅莎·薩拉查——阿麗塔”的流程重定向表演,讓阿麗塔的面部表情追蹤更能真實(shí)帶入表達(dá)演員的情感和表演。同樣,在《復(fù)仇者聯(lián)盟3:無(wú)限戰(zhàn)爭(zhēng)》中,迪士尼使用了AI算法對(duì)演員的臉部進(jìn)行高分辨率掃描,并自動(dòng)將人臉圖像映射到滅霸的身體上,使滅霸能夠展現(xiàn)出逼真擬人化的表演。在《阿凡達(dá):水之道》中,維塔工作室開(kāi)發(fā)出了全新的APFS 系統(tǒng)(Anatomically Plausible Facial System)為虛擬創(chuàng)造角色的表演提升了質(zhì)量。這個(gè)系統(tǒng)在輔助工作人員繪制面部動(dòng)畫(huà)的同時(shí),還會(huì)收集大量的面部掃描數(shù)據(jù)以用于之后的神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練,通過(guò)AI深度學(xué)習(xí)模型與算法,學(xué)習(xí)演員的潛在肌肉行為,快速輔助納美人的面部動(dòng)畫(huà)生成,并結(jié)合納美人的獨(dú)特外形修復(fù)彌補(bǔ)牙齒和頭骨解剖的偏差[4]。
高成本投入和較長(zhǎng)的制作周期一直是數(shù)字人在電影制作中面臨的兩大挑戰(zhàn)。傳統(tǒng)的數(shù)字人生產(chǎn)流程幾乎全部依賴人工實(shí)現(xiàn),從人物建模到動(dòng)畫(huà)制作再到語(yǔ)音合成,各個(gè)環(huán)節(jié)都需要大量的時(shí)間成本和人力投入。而隨著生成算法、預(yù)訓(xùn)練模型和多模態(tài)等技術(shù)的不斷創(chuàng)新,AIGC 的發(fā)展大幅加速數(shù)字人的生產(chǎn)流程,并顯著降低數(shù)字人的制作成本,極大提高數(shù)字人的制作效能。
數(shù)字人生產(chǎn)制作流程主要可分成三個(gè)板塊,分別為形象生成、語(yǔ)音合成、動(dòng)畫(huà)驅(qū)動(dòng)。在AIGC 技術(shù)的加持下,形象生成可利用算法模型快速生成高精度的數(shù)字人形象,語(yǔ)音合成能夠利用語(yǔ)音轉(zhuǎn)換等技術(shù)生成逼真的語(yǔ)音表達(dá),動(dòng)畫(huà)驅(qū)動(dòng)則可利用深度學(xué)習(xí)模型驅(qū)動(dòng)數(shù)字人的表情和動(dòng)作。
(1)數(shù)字人形象的智能化生成
傳統(tǒng)的寫實(shí)數(shù)字人生成過(guò)程依賴于設(shè)計(jì)師使用諸如Maya、3ds Max 和CAD 等3D 建模軟件手動(dòng)創(chuàng)建人體的三維模型。然而,由于這些軟件的學(xué)習(xí)成本高且建模效率低,很難快速批量生成數(shù)字人形象。
隨著AI 生成算法的提速迭代,針對(duì)寫實(shí)虛擬人的形象生成,現(xiàn)階段出現(xiàn)了兩種主要的模型生成方式:第一種是基于圖像和視頻的生成,已經(jīng)初步實(shí)現(xiàn)產(chǎn)品化,并能夠達(dá)到次時(shí)代游戲人物的精度水平。用戶可以通過(guò)上傳照片或視頻來(lái)生成寫實(shí)類型的數(shù)字人。這種生成方式的代表性應(yīng)用有英偉達(dá)的Omniverse Avatar 和Unreal Engine 的MetaHuman Creator,用戶可以通過(guò)自定義方式快速生成對(duì)應(yīng)的數(shù)字人形象。第二種方式是基于參數(shù)化模型進(jìn)行數(shù)字人生成,此領(lǐng)域也是近年來(lái)學(xué)術(shù)界的研究熱點(diǎn)。該類方法通過(guò)參數(shù)化模型將原本復(fù)雜的數(shù)字人空間解耦,將數(shù)字人抽象為規(guī)則約束下一定數(shù)目的參數(shù),這也是近年來(lái)學(xué)術(shù)界的研究熱點(diǎn)。
基于圖片和視頻的數(shù)字人形象生成已經(jīng)具備較為成熟的制作流程。以MetaHuman Creator 為例,它是基于云端的在線編輯器,可以選擇混合取樣庫(kù)中的元素或自定義建模來(lái)實(shí)現(xiàn)所需的結(jié)果。根據(jù)圖片生成寫實(shí)數(shù)字人的過(guò)程從圍繞真實(shí)人物進(jìn)行拍照開(kāi)始,通過(guò)多張臉部拍攝照片,將其導(dǎo)入RealityCapture等軟件中生成高質(zhì)量的網(wǎng)格體和貼圖。接下來(lái)再通過(guò)將網(wǎng)格體導(dǎo)入U(xiǎn)nreal Engine 中進(jìn)行面部標(biāo)記幀追蹤,并運(yùn)行身份解析,將模型的網(wǎng)格體提交到Meta-Human 后端,即可快速生成對(duì)應(yīng)的人物模型。此外,還可以在MetaHuman Creator 中繼續(xù)編輯數(shù)字人的皮膚、眼睛等五官細(xì)節(jié)和服裝、發(fā)型、身材比例等。
而基于參數(shù)化模型的數(shù)字人生成也是AIGC 在數(shù)字人建模領(lǐng)域的研究熱點(diǎn)。該類方法的思路是通過(guò)大型真實(shí)人體掃描模型數(shù)據(jù)庫(kù),學(xué)習(xí)人體結(jié)構(gòu)的共性,構(gòu)建統(tǒng)一的參數(shù)化模型,將原本復(fù)雜的人體網(wǎng)格空間解耦為有限的參數(shù)表達(dá)。這些參數(shù)覆蓋了身高、體型、肌肉定義、臉部特征等人體信息,通過(guò)調(diào)整這些參數(shù)的數(shù)值,可以實(shí)現(xiàn)對(duì)人體模型的變形和定制。2015 年基于線性的混合模型SMPL[5]實(shí)現(xiàn)了通過(guò)少量的參數(shù)來(lái)表示和改變?nèi)梭w的姿勢(shì)和形狀。SMPL-X[6]在其基礎(chǔ)上引入了人臉和手勢(shì)的參數(shù)化表示,該類參數(shù)化模型被廣泛應(yīng)用于ICON[7]等人體重建任務(wù)中。除了真實(shí)人體外,RaBit[8]模型對(duì)卡通人物的參數(shù)化模型進(jìn)行了探索,可通過(guò)更改參數(shù)得到卡通人、熊、兔子等多種卡通生物的個(gè)性化3D 模型,其提出的SVR 方法可以通過(guò)單張卡通圖片重建得到相同模樣與姿勢(shì)的卡通模型。
(2)數(shù)字人語(yǔ)音的智能化合成
高自然度和個(gè)性化語(yǔ)音合成也是數(shù)字人制作中的重要模塊,相較于數(shù)字人生產(chǎn)的其他板塊,語(yǔ)音AI合成技術(shù)已進(jìn)入成熟期,現(xiàn)被廣泛應(yīng)用于廣播電視、網(wǎng)絡(luò)視聽(tīng)等多個(gè)領(lǐng)域。語(yǔ)音合成技術(shù)是AIGC 領(lǐng)域中的重要分支之一,能夠快速將文本轉(zhuǎn)化為音頻,使計(jì)算機(jī)實(shí)時(shí)自動(dòng)生成高質(zhì)量的語(yǔ)音音頻。
2016 年谷歌提出WaveNet[9],其利用膨脹因果卷積解決語(yǔ)音的大跨度時(shí)間依賴問(wèn)題,使得模型能在短時(shí)間內(nèi)完成高質(zhì)量語(yǔ)音合成。2017 年,在WaveNet 基礎(chǔ)上,谷歌提出首個(gè)端到端的TTS 語(yǔ)音合成模型Tacotron[10],并于2018 年發(fā)布Tacotron 2。Tacotron 2 由聲譜預(yù)測(cè)網(wǎng)絡(luò)和聲碼器組成,其中聲譜預(yù)測(cè)網(wǎng)絡(luò)將輸入的字符序列映射為梅爾頻譜的幀序列,聲碼器則負(fù)責(zé)將預(yù)測(cè)得到的梅爾頻譜幀序列還原為波形[11]。2019 年,浙江大學(xué)聯(lián)合微軟提出Fast-Speech 模型[12],F(xiàn)astSpeech 是一個(gè)非回歸模型,較于之前的自回歸TTS 模型,其具有更快的生成速度和更好的語(yǔ)音質(zhì)量,一年后FastSpeech 2 發(fā)布,能直接從文本生成預(yù)測(cè)音頻波形,且訓(xùn)練速度達(dá)到Fast-Speech 的3 倍[13]。近年來(lái),語(yǔ)音合成任務(wù)開(kāi)始轉(zhuǎn)向表現(xiàn)力語(yǔ)音合成(Expressive TTS),相比TTS,其更關(guān)注如何合成語(yǔ)音的風(fēng)格、韻律、情感等。由于該類訓(xùn)練所需的標(biāo)注數(shù)據(jù)較少,因此此類方法通常采用無(wú)監(jiān)督學(xué)習(xí)方式,從參考音頻中解耦出情感和韻律特征,然后將這種特征與文本向量結(jié)合,實(shí)現(xiàn)風(fēng)格可控化[14][15]。
(3)數(shù)字人動(dòng)畫(huà)的智能化驅(qū)動(dòng)
除了外形表現(xiàn),身體動(dòng)作的自然性和面部表情的靈活性對(duì)于虛擬人的真實(shí)感至關(guān)重要。與虛擬人形象生成不同,動(dòng)畫(huà)驅(qū)動(dòng)數(shù)字人不僅需要具備流暢性、真實(shí)感,還對(duì)交互反饋的實(shí)時(shí)性有一定要求,該類動(dòng)畫(huà)制作復(fù)雜,短短幾分鐘的動(dòng)畫(huà)便需要一個(gè)經(jīng)驗(yàn)豐富的動(dòng)畫(huà)師花費(fèi)幾小時(shí)。而隨著AIGC 技術(shù)的發(fā)展與應(yīng)用,迭代更新后AI 算法已經(jīng)可以生成符合人體運(yùn)動(dòng)學(xué)的動(dòng)作和表情。
真人驅(qū)動(dòng)依賴動(dòng)作捕捉技術(shù)。動(dòng)作捕捉技術(shù)可分為慣性式動(dòng)作捕捉、光學(xué)式動(dòng)作捕捉及基于視頻的動(dòng)作捕捉三類。業(yè)內(nèi)通常采用光學(xué)式動(dòng)作捕捉,利用攝像機(jī)陣列和傳感器來(lái)記錄和跟蹤人體的運(yùn)動(dòng)數(shù)據(jù),但該類方法成本較高,讓不少人望而卻步。隨著AIGC 技術(shù)的發(fā)展,基于視頻的低成本動(dòng)作捕捉技術(shù)越發(fā)成熟。Zhang提出的實(shí)時(shí)面部捕捉系統(tǒng)能利用固定的數(shù)字人頭部結(jié)合輸入的任意視角的人臉視頻實(shí)現(xiàn)精細(xì)到微表情級(jí)別的人臉視頻輸出[16]。而DeepMotion等基于視頻的全身動(dòng)作捕捉應(yīng)用的出現(xiàn)使得全身動(dòng)作捕捉門檻大大降低,用戶上傳的視頻通過(guò)姿態(tài)估計(jì)等AI算法計(jì)算出視頻中人體的全局位置及關(guān)節(jié)旋轉(zhuǎn)信息,從而得到一段與視頻對(duì)應(yīng)的骨骼動(dòng)畫(huà)序列。
隨著動(dòng)作捕捉技術(shù)和視頻內(nèi)容數(shù)據(jù)的豐富,動(dòng)作數(shù)據(jù)的積累變得更加簡(jiǎn)單,這為AI 算法驅(qū)動(dòng)數(shù)字人動(dòng)畫(huà)提供了龐大的數(shù)據(jù)基礎(chǔ)。目前AI算法驅(qū)動(dòng)的數(shù)字人主要是通過(guò)文本、音樂(lè)和視頻的形式跨模態(tài)生成數(shù)字人動(dòng)畫(huà),根據(jù)生成內(nèi)容也分為三個(gè)方向:唇部動(dòng)畫(huà)生成、面部動(dòng)畫(huà)生成與身體動(dòng)作生成。
唇部動(dòng)畫(huà)根據(jù)輸入的不同,可分為文本驅(qū)動(dòng)和語(yǔ)音驅(qū)動(dòng)。無(wú)論是文本特征或是語(yǔ)音特征,在指定語(yǔ)言限制下其與唇部運(yùn)動(dòng)之間是一對(duì)一的簡(jiǎn)單映射關(guān)系,這種映射關(guān)系易從數(shù)據(jù)中學(xué)習(xí)到,相對(duì)簡(jiǎn)單,目前該類模型在行業(yè)內(nèi)已經(jīng)廣泛應(yīng)用。
面部動(dòng)畫(huà)生成主要是通過(guò)對(duì)3D 模型對(duì)應(yīng)的Blendshape 的向量表達(dá)。截至目前,國(guó)內(nèi)外科技企業(yè)在數(shù)字人面部動(dòng)畫(huà)智能合成方面都有一定進(jìn)展,國(guó)際上如Reallusion 公司研究的利用語(yǔ)音生成面部表情的Craytalk 技術(shù)已在動(dòng)畫(huà)制作中被成功商用,國(guó)內(nèi)搜狗、相芯科技等公司也有部分項(xiàng)目落地應(yīng)用。
動(dòng)作生成主要指由動(dòng)作序列或文本、音樂(lè)、視頻等跨模態(tài)信息驅(qū)動(dòng)生成的骨骼動(dòng)畫(huà)。這類輸入與骨骼動(dòng)畫(huà)之間都是多對(duì)多的映射關(guān)系,同一個(gè)輸入對(duì)應(yīng)真實(shí)空間可能包含各種各樣的肢體動(dòng)作,這給3D化身動(dòng)畫(huà)提出了兩大挑戰(zhàn):個(gè)性化動(dòng)作生成和可控制的動(dòng)作生成。以文本驅(qū)動(dòng)為例,用戶通過(guò)給定文本腳本生成身體動(dòng)作,需要對(duì)輸入文本進(jìn)行特征提取,再利用提取到的文本特征指導(dǎo)動(dòng)作生成模塊工作。人體動(dòng)作生成擴(kuò)散模型(Human Motion Diffusion Model)[17]利用CLIP提取文本描述特征,結(jié)合擴(kuò)散模型生成動(dòng)作序列,而Action-GPT[18]則基于GPT-3 的架構(gòu),采用了自回歸的方式生成動(dòng)作序列,通過(guò)生成細(xì)粒度高的動(dòng)作描述指導(dǎo)解碼器生成動(dòng)作。上述模型都得到了較好的短時(shí)動(dòng)作生成效果,但生成長(zhǎng)時(shí)動(dòng)作序列時(shí)易出現(xiàn)動(dòng)作凍結(jié)、動(dòng)作模糊等情況,離落地應(yīng)用還有一段距離。
在AIGC 技術(shù)支撐下,數(shù)字人的批量化生成和智能化交互為其在電影制作中的應(yīng)用發(fā)展提供了更多可能性。
隨著數(shù)字人制作流程的優(yōu)化加強(qiáng),這類數(shù)字資產(chǎn)的生產(chǎn)必將變得成本更低且更加高效[19]。利用批量化生成替代真人背景演員是數(shù)字人在電影制作中一個(gè)可行的發(fā)展方向。首先,相比于真實(shí)演員,生成的虛擬數(shù)字人具有高靈活性和高可控性,可以根據(jù)導(dǎo)演需求進(jìn)行實(shí)時(shí)調(diào)整和控制。他們可以在不同的場(chǎng)景和角色之間快速切換,無(wú)需擔(dān)心時(shí)間限制或合同問(wèn)題。而制作人員可以根據(jù)具體需要隨時(shí)調(diào)整虛擬數(shù)字人的數(shù)量、外貌和動(dòng)作,以實(shí)現(xiàn)更好的視覺(jué)效果。其次,虛擬數(shù)字人完美解決了與真實(shí)演員相關(guān)的人力資源管理問(wèn)題,減輕管理和協(xié)調(diào)工作,且具有額外的保密性優(yōu)勢(shì),可以避免潛在的信息泄露問(wèn)題。
同時(shí),愈加智能化的“獨(dú)化數(shù)字人”也成為繼真人數(shù)字替身、虛擬創(chuàng)造角色后數(shù)字人在電影制作中新的發(fā)展階段。獨(dú)化數(shù)字人指的是具有完整的人格和意識(shí),擁有自主思考和行動(dòng)能力的數(shù)字人,它們具有人類的智慧和意識(shí),能夠自主思考、學(xué)習(xí)和行動(dòng),它們具備智能體(Agent),依托于先進(jìn)的人工智能技術(shù),例如深度學(xué)習(xí)(DL)、自然語(yǔ)言處理(NLP)、神經(jīng)網(wǎng)絡(luò)等[20]。在交互性更強(qiáng)的“引擎電影”以及在傳統(tǒng)電影技術(shù)的持續(xù)深挖中,計(jì)算機(jī)驅(qū)動(dòng)數(shù)字人應(yīng)用嘗試逐漸增多已成事實(shí)。
早期的獨(dú)化數(shù)字人概念主要存在于元宇宙電影中,它們體現(xiàn)了導(dǎo)演對(duì)于人工智能技術(shù)在未來(lái)與人類關(guān)系的一切遐想,《銀翼殺手》《終結(jié)者》《我,機(jī)器人》中均出現(xiàn)了具有獨(dú)立意識(shí)的數(shù)字人。隨著自然語(yǔ)言處理(NLP)、多模態(tài)轉(zhuǎn)化等領(lǐng)域的不斷突破,數(shù)字人的智能化得到顯著提升,獨(dú)化數(shù)字人不再以單純的概念存在于電影內(nèi)容中,而是以真實(shí)形象出現(xiàn)在現(xiàn)實(shí)世界里。
以曾出品獲得奧斯卡提名的《至愛(ài)梵高·星空之謎》的Bondit Media Capital 公司投資拍攝的科幻電影《b》為例,由日本AI 機(jī)器人Erica 擔(dān)任主演,開(kāi)發(fā)團(tuán)隊(duì)為Erica 進(jìn)行了電影演技培訓(xùn)。Erica 在片中本色出演AI 機(jī)器人,突破傳統(tǒng)以特效制作機(jī)器人的拍攝模式,引起了國(guó)內(nèi)外觀眾的關(guān)注和討論,成為第一部由人工智能擔(dān)任主演的電影。2022 年,一位由北京蔚領(lǐng)時(shí)代科技有限公司推出的虛擬數(shù)字人演員春草正式面世,在其背后的AI算法支撐下,春草能夠?qū)θ祟惖闹噶钭龀黾皶r(shí)反饋,同時(shí)也能在與人類的溝通中不斷學(xué)習(xí)。正如其CEO 宋震在訪談中提到:“春草的定位除了游戲《春草傳》外,導(dǎo)演也可以直接與這位演員互動(dòng)講戲,然后讓她現(xiàn)場(chǎng)表演?!?/p>
由此觀之,AIGC 技術(shù)為數(shù)字人在電影制作的應(yīng)用帶來(lái)了更多可能性,包括批量化生成的虛擬數(shù)字人替代背景演員和智能獨(dú)化數(shù)字人的交互應(yīng)用。這些數(shù)字人技術(shù)的進(jìn)步發(fā)展為電影創(chuàng)作提供了新機(jī)遇,也為今后電影行業(yè)的發(fā)展提供了更多創(chuàng)造性與可能性。
數(shù)字人作為電影制作的關(guān)鍵要素,已經(jīng)成為電影敘事過(guò)程中不可或缺的重要組成部分。本研究主要介紹了數(shù)字人在電影行業(yè)中的應(yīng)用現(xiàn)狀和未來(lái)發(fā)展趨勢(shì),在形象生成、語(yǔ)音合成以及動(dòng)畫(huà)驅(qū)動(dòng)方面對(duì)現(xiàn)有AIGC 技術(shù)進(jìn)行梳理總結(jié),為電影行業(yè)的數(shù)字人制作效能優(yōu)化流程提供一些參考,并在批量化生成與智能化交互方面,為數(shù)字人對(duì)電影行業(yè)的創(chuàng)新變革應(yīng)用提供了一些啟示。
隨著AIGC 技術(shù)的不斷發(fā)展和支持,數(shù)字人的應(yīng)用將超越過(guò)去僅僅在特效方面的應(yīng)用,擴(kuò)展到更廣泛的領(lǐng)域,如自主劇情發(fā)展、實(shí)時(shí)情感反饋等方面。未來(lái),數(shù)字人的進(jìn)一步發(fā)展將為電影制作帶來(lái)更多創(chuàng)造性和技術(shù)上的突破,豐富電影體驗(yàn)并引領(lǐng)電影行業(yè)向著新的輝煌時(shí)代邁進(jìn)。