陳 軍 趙建軍 魯夢河
北京電影學院影視技術(shù)系,北京 100088
近年來,人工智能(Artificial Intelligence,AI)技術(shù)的爆發(fā)式躍進,使電影的制作方式、技術(shù)流程、創(chuàng)作思路都面臨著革命性改變。在制作端,AI 可以輔助創(chuàng)作者在前期籌備階段進行劇本創(chuàng)作、概念設(shè)計、市場預測;在拍攝和后期制作階段提高制作效率;在發(fā)行放映階段,AI 可以通過全方位的信息處理,提供更加科學合理的排片,使制作方獲得最大收益;在影片修復與增強處理方面,AI 極大提高了效率和質(zhì)量??傊裉斓碾娪靶袠I(yè)已經(jīng)無處不“AI”了。
AI 的概念是隨著時間不斷演進的。1956 年,美國計算機科學家約翰·麥卡錫將AI定義為“研制智能機器的科學與工程”[1]。1996 年,英國認知科學家瑪格麗特·博登認為AI旨在“研究如何構(gòu)建或編程計算機,使其能夠完成人腦所能完成的工作”[2]。2019年,歐洲學者卡普蘭和海恩萊因?qū)I解釋為“系統(tǒng)正確解釋外部數(shù)據(jù),從這些數(shù)據(jù)中學習,并利用這些知識通過靈活適應(yīng)實現(xiàn)特定目標和任務(wù)的能力”[3]。上述定義強調(diào)AI的目標是使計算機能夠模擬人類的智能行為過程,包括感知、分析、理解、思考、決策等。當前,AI 的研究分支十分廣泛,包括機器學習(ML)、自然語言處理(NLP)、計算機視覺(CV)、語音識別(SR)、決策系統(tǒng)(DMS)等。
AI 的形態(tài)也在不斷變化,隨著算力的快速發(fā)展,AI 正從弱人工智能、強人工智能向超人工智能過渡。弱人工智能(Weak AI)又稱狹義人工智能(Narrow AI),是指專門設(shè)計和訓練用來執(zhí)行特定任務(wù)的人工智能系統(tǒng),可在特定任務(wù)或領(lǐng)域內(nèi)表現(xiàn)出智能行為,但不具備真正的認知與自我改進能力。強人工智能(Strong AI)又稱通用人工智能(Artificial General Intelligence,AGI),是指能夠像人類一樣具備智能、意識和自我意識的人工智能系統(tǒng),能夠執(zhí)行任何人類智能可以執(zhí)行的任務(wù)。超人工智能(Artificial Super Intelligence,ASI)又稱超級智能(Superintelligence),最早由英國哲學家尼克·博斯特羅姆定義為“一種幾乎在每一個領(lǐng)域都勝過人類大腦的智慧”[4]。強人工智能算法可與人類大腦媲美,而超人工智能則是超越人類智慧的存在。
AI 的核心分支是機器學習(ML),其基本思想是使用特定算法和模型針對大量數(shù)據(jù)進行自動化學習訓練,使計算機程序獲得識別模式、完成任務(wù)、預測結(jié)果等模擬人類智能的能力。根據(jù)監(jiān)督信息的多少與反饋機制的差異,可將機器學習方法分為無監(jiān)督學習、監(jiān)督學習、強化學習等類別。深度學習(Deep Learning,DL)是近年來發(fā)展迅速的一種實現(xiàn)機器學習的技術(shù),是以模仿人腦神經(jīng)元系統(tǒng)的神經(jīng)網(wǎng)絡(luò)(Neural Network)模型為架構(gòu),采用分層特征提取算法對數(shù)據(jù)進行特征學習的方法,可用于識別數(shù)據(jù)中的復雜模式,從而生成準確的認知和預測。近年來最具代表性的深度學習框架包括深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)、深度信念網(wǎng)絡(luò)(Deep Belief Network,DBN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)等。大規(guī)模預訓練模型(Largescale Pretrained Model)是一類基于深度神經(jīng)網(wǎng)絡(luò)和自監(jiān)督學習技術(shù)的,在大規(guī)模、廣泛來源數(shù)據(jù)集上訓練的AI 模型,其通過微調(diào)(Fine-tuning)等手段可直接在一系列下游任務(wù)上使用。自2017 年谷歌翻譯團隊提出基于“編碼器-解碼器”結(jié)構(gòu)和自注意力機制的自然語言處理模型Transformer[5]以來,以大語言模型(Large Language Model,LLM)為代表的大規(guī)模預訓練模型迎來高速發(fā)展期。近年來大語言模型發(fā)展[6]的主要分支包括在Transformer 基礎(chǔ)上僅保留編碼器的BERT 模型、僅保留解碼器的GPT 和LLaMA 模型等。Transformer 模型也因其高效性,很快應(yīng)用于語言、語音、圖像、視覺等多個領(lǐng)域,并催生了生成式人工智能(Generative AI)的發(fā)展。
當前,AI 在電影制作中的應(yīng)用以弱人工智能為主,強人工智能為輔。弱人工智能通過大量數(shù)據(jù)訓練使計算機完成特定任務(wù),可以輔助或部分取代制作流程中的重復勞動,提高制作效率,也可以基于智能分析為創(chuàng)意、市場營銷等環(huán)節(jié)提供信息參考,輔助創(chuàng)意決策。近年來,強人工智能在電影制作中開始初步應(yīng)用,隨著大型預訓練模型等深度學習方法的成熟,各類人工智能生成內(nèi)容(AI Generated Content,AIGC)技術(shù)呈爆發(fā)式發(fā)展,可以清晰預見,以多模態(tài)為典型特征的強人工智能創(chuàng)意工具,將進一步滲透并革新電影的制作流程與創(chuàng)作思路,催生電影智能制作的新范式[7]。
近年來,電影行業(yè)逐漸提出了電影智能制作的概念,但是目前還沒有統(tǒng)一的定義來明確什么是電影智能制作。要明確定義電影智能制作,首先要研究清楚其概念、內(nèi)涵及特征。
電影智能制作概念的產(chǎn)生是一個漸進的過程。初期時并沒有提出電影智能制作的概念,是因為AI只介入個別制作環(huán)節(jié),當很多環(huán)節(jié)都開始采用AI 技術(shù),從制作技術(shù)到創(chuàng)意手段都引入AI后,人們自然想到了電影智能制作的概念。
從行業(yè)一般認知看,電影智能制作是一種利用人工智能技術(shù)來輔助、優(yōu)化和創(chuàng)新電影制作過程的方法。它涵蓋了從劇本創(chuàng)作、角色設(shè)計、場景生成,到后期特效制作、音頻處理等多個環(huán)節(jié),通過引入機器學習(ML)、圖像識別(IR)、自然語言處理(NLP)等技術(shù),以更高效、創(chuàng)新、個性化的方式參與電影制作的各個階段。電影智能制作旨在提升電影創(chuàng)作的質(zhì)量、效率和創(chuàng)新度,同時為創(chuàng)作者和制片方提供更多的創(chuàng)意和技術(shù)手段。
傳統(tǒng)上,電影制作中的智能技術(shù)主要用于后期制作,如特效處理、音頻編輯等,以提高效率和質(zhì)量。但隨著AI 和計算機技術(shù)的發(fā)展,電影制作開始探索如何將智能技術(shù)引入到創(chuàng)作階段,從而更直接地影響電影的故事構(gòu)建、角色發(fā)展和創(chuàng)意產(chǎn)生[8]。因此,從發(fā)展角度看,電影智能制作可以分為三個階段,從AI 技術(shù)僅僅輔助制作的初級階段開始,發(fā)展到今天已經(jīng)進入輔助創(chuàng)意和創(chuàng)作的中級階段,而未來的超人工智能技術(shù)能夠根據(jù)市場需求直接創(chuàng)作電影作品,而這將是電影智能制作的高級階段。
電影智能制作是電影與科技的交叉融合,隨著科技的發(fā)展,電影與科技的交叉融合將會更加深入。AI 在電影制作中應(yīng)用的初期階段,是弱人工智能在感知與記憶存儲等單一環(huán)節(jié)的應(yīng)用,AI 可以輔助進行圖像識別與處理等相關(guān)操作,其處理信息是單一性質(zhì)的簡單數(shù)據(jù),而在強人工智能應(yīng)用的當下,AI 可以學習多模態(tài)信息以及強關(guān)聯(lián),并進行簡單的藝術(shù)特征識別和模仿,如智能調(diào)色、智能剪輯等。在未來的電影智能制作中,超人工智能將廣泛應(yīng)用,AI 可以學習藝術(shù)風格等高維信息,甚至是獨立創(chuàng)新,生成特定風格的電影(圖1)。電影作為特定的藝術(shù)形式和媒介,對科技的應(yīng)用場景提出了特異的需求,電影智能制作就是使用AI 技術(shù),理解并輔助這種特異性的藝術(shù)表達。
圖1 電影智能制作的內(nèi)涵
總結(jié)電影智能制作的共性,具備下列幾個特征。首先是自動化,借助AI技術(shù),實現(xiàn)電影制作過程中一些繁瑣手動操作的自動化,減少人工成本。其次是自我學習和優(yōu)化,通過機器學習(ML)和深度學習(DL)等方法,從用戶反饋和數(shù)據(jù)中學習,并不斷優(yōu)化自身的能力,提升制作質(zhì)量。另一個特性是快捷高效,可以大幅度減少制作時間,極大地提高制作效率,降低制作成本,使更多的電影項目得以實現(xiàn)。電影智能制作最后還有個特性是大數(shù)據(jù)驅(qū)動——利用大數(shù)據(jù)、機器學習(ML)等技術(shù),分析電影、觀眾偏好、市場行情等,提供可靠的數(shù)據(jù)支持,幫助制作團隊進行決策和優(yōu)化。
研究了電影智能制作的概念、內(nèi)涵和特征后,我們可以給電影智能制作這樣的定義:以人工智能為核心技術(shù)的電影工業(yè)化制作(Artificial Intelligence Industrial Production,AIIP),包含AI 輔助制作(Artificial Intelligence Aided Production,AIAP)、AI 輔助創(chuàng)作(Artificial Intelligence Aided Creation,AIAC)和AI 自主創(chuàng)作(Artificial Intelligence Autonomous Creation,AIAC),它以自動化制作和自我學習優(yōu)化為典型特征,極大提高了電影的生產(chǎn)能力。
當前,人工智能技術(shù)和工具已經(jīng)廣泛應(yīng)用于電影制作的各個環(huán)節(jié),電影智能制作也從AI 輔助制作的初級階段進入AI 輔助創(chuàng)作和制作的中級階段,下面梳理一下具體的應(yīng)用情況。
在電影的前期開發(fā)環(huán)節(jié),人工智能當前主要應(yīng)用于分析劇本內(nèi)容、預測市場收益和觀眾反饋等。如比利時的ScriptBook(2015)集成數(shù)據(jù)分析、機器學習(ML)、自然語言處理(NLP)、特征選擇算法(FSA)等技術(shù),對用戶輸入的劇本進行分析,以可視化方式輸出角色和情緒特征、商業(yè)可行性、票房和觀眾評級預測等,從而輔助制片人進行創(chuàng)意決策[9]。該系統(tǒng)使用超過6500 個劇本及其市場反饋作為訓練數(shù)據(jù),可認為是監(jiān)督式機器學習的應(yīng)用。同類企業(yè)和產(chǎn)品還包括美國Cinelytic(2016)[10],迪士尼研發(fā)的StoryPrint(2019)[11],我國海馬輕帆智能創(chuàng)作平臺[12](2021)、安捷秀(AgileShot)制片管理系統(tǒng)[13]等。這些產(chǎn)品強調(diào)通過智能化拆分劇本元素、可視化分析劇本內(nèi)容,輸出內(nèi)容評價與市場反饋預測等結(jié)果,輔助而非代替主創(chuàng)進行創(chuàng)意決策、制片管理等。
隨著以O(shè)penAI 公司ChatGPT(2021)、百度“文心一言”(2023)為代表的基于大語言模型(LLM)的文字生成產(chǎn)品不斷成熟,未來的電影劇本創(chuàng)作將更多引入人工智能生成內(nèi)容。生成式人工智能可在輸入文字源素材及提示詞的基礎(chǔ)上,按照編劇要求生成多種劇情走向、豐富構(gòu)思、填充細節(jié),并可以進一步生成分鏡頭腳本等,其功能已經(jīng)從輔助決策過渡為直接參與創(chuàng)意生成,實現(xiàn)對編劇行業(yè)的賦能[14]。
在美術(shù)設(shè)計與數(shù)字資產(chǎn)制作環(huán)節(jié),生成式人工智能工具(圖2)在二維圖像、三維資產(chǎn)、紋理、動畫、場景生成領(lǐng)域均取得飛速發(fā)展,已開始應(yīng)用于電影數(shù)字資產(chǎn)、美術(shù)場景、概念圖等素材生成流程中。
圖2 生成式人工智能在圖形圖像領(lǐng)域的應(yīng)用[15]
在二維圖像生成方面,Stable Diffusion、DALL·E、Midjourney 等產(chǎn)品[16],采用流模型(Flow-based Model)、擴散模型(Diffusion Model)、生成式對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)、變分自編碼器(Variational Auto-Encoder,VAE)等基于深度學習(DL)的圖像生成方法,基于對大規(guī)模標簽化圖像數(shù)據(jù)的監(jiān)督學習,實現(xiàn)生成符合給定文本描述的真實圖像(Text-to-Image)、對輸入圖像進行擴展填充等任務(wù),輔助美術(shù)設(shè)計、概念圖生成、故事板繪制等工作[17](圖3)。此外,基于上述技術(shù)的AIGC 工具也集成在平面圖像處理軟件中,如Adobe Photoshop 新增人工智能工具Firefly(2023),可實現(xiàn)基于文字生成圖像、生成式填充等功能,提升了對二維圖像生成內(nèi)容的再加工自由度。
圖3 使用Stable Diffusion、DALL·E、Midjourney 生成場景與人物概念圖
在三維數(shù)字資產(chǎn)生成方面,三維數(shù)字資產(chǎn)分為模型、貼圖、骨骼、動畫等,其中三維模型分為網(wǎng)格(Mesh)、體素(Voxel)等。當前主流三維數(shù)字資產(chǎn)生成工具中,Barium AI、Spline 等產(chǎn)品可生成平面貼圖,Leornado.Ai、Polyhive 等產(chǎn)品可在UV 空間生成貼圖,而Meshy、Kaedim 等工具可根據(jù)文字提示或二維草圖直接生成三維模型[18](圖4)。Luma AI 發(fā)布英偉達(NVIDIA)插件[19],基于神經(jīng)輻射場(NeRF)與體渲染(Volume Rendering)技術(shù),從圖片或視頻快速創(chuàng)建真實對象的三維數(shù)字模型,并導入虛幻引擎5(UE5)作為數(shù)字資產(chǎn)使用,無需對幾何結(jié)構(gòu)或材質(zhì)等進行修改。
圖4 Kaedim 從二維草圖生成三維模型
近年來,人工智能技術(shù)的引入使動作和表演捕捉流程向著無標記、智能化、便捷化發(fā)展。知名動作捕捉技術(shù)廠商Vicon 與視效企業(yè)Artanium 及VR 企業(yè)Dreamscape 合作,在SIGGRAPH 2023 發(fā)布其基于機器學習方法的無標記、多模式、同時支持6 人的實時動作捕捉解決方案[20](圖5)。MOVE AI 發(fā)布無標記動作捕捉工具Invisible(2023)[21](圖6),并與Disguise達成合作,該工具基于人工智能與計算機視覺算法,可從任何視頻、高清攝影機、移動設(shè)備中提取人物運動軌跡,并綁定至模型或角色身上,實現(xiàn)高保真效果的動作捕捉。Wonder Dynamics 公司開發(fā)Wonder Studio 云平臺(2023)[22](圖7),使用機器學習算法創(chuàng)建人臉和身體動作的逼真3D 模型,并直接在實時視頻片段中無縫替換。
圖5 Vicon 在SIGGRAPH 2023展示其無標記動作捕捉方案
圖6 MOVE AI無標記動作捕捉與傳統(tǒng)光學動作捕捉的對比
圖7 Wonder Studio 在視頻片段中將真實人物替換為虛擬數(shù)字人
在角色視效制作流程中,基于深度學習(DL)和神經(jīng)網(wǎng)絡(luò)(Neural Network)的人工智能技術(shù),可以減少繁復的人工操作,在提升效率的同時增強各類效果制作的真實性。Wētā FX 視效總監(jiān)Joe Letteri 團隊在《阿凡達:水之道》(2022)面部捕捉工作中,開發(fā)新的解剖學上可信的面部系統(tǒng)(APFS)[23]取代FACS 管線,基于真實肌肉運動與連接建立神經(jīng)網(wǎng)絡(luò),對來自80 個動態(tài)運動剪輯的6000~8000 幀掃描進行機器學習,更逼真地模擬符合解剖學的178條面部肌肉纖維曲線(圖8)。視覺特效公司MOREVFX 在《流浪地球2》(2023)中使用吳京年輕時的視頻素材訓練AI 模型,基于Deepfake 算法并結(jié)合手動調(diào)整,實現(xiàn)“劉培強”角色減齡(De-aging)[24](圖9),相關(guān)算法也被應(yīng)用于人物換臉等視效制作中。
圖8 APFS 系統(tǒng)用于《阿凡達:水之道》面部特效制作
圖9 《流浪地球2》基于Deepfake 算法的角色減齡
電影后期制作是以現(xiàn)場拍攝階段的工作結(jié)果為起點,以產(chǎn)出完整的影片為目標而開展的一系列電影生產(chǎn)工作,包含剪輯、視效合成、調(diào)色、聲音和音樂制作、母版制作等工序。人工智能工具在上述各個環(huán)節(jié)都有著廣泛的應(yīng)用。
人工智能工具在剪輯方面的應(yīng)用已有較長歷史,可實現(xiàn)根據(jù)劇本內(nèi)容自動組接鏡頭與轉(zhuǎn)場效果,生成初步或最終剪輯版本。2016 年,基于人工智能的計算機系統(tǒng)IBM Watson 為恐怖電影《摩根》剪輯了6 分鐘的預告片[25],該模型接受了100 多部恐怖電影預告片的訓練,從而學習了類似作品獨有的結(jié)構(gòu)和模式。IBM AI Vision“視覺大腦”(2018)應(yīng)用于騰訊等平臺體育賽事智能剪輯流程中,通過機器學習(ML)識別球星、動作、得分,可生成高光集錦等視頻素材[26]。Adobe 系列后期制作工具應(yīng)用Sensei AI 插件(2018),可實現(xiàn)智能剪輯等功能[27]。Anthropic 公司推出Premiere Pro 插件“AutoPod”(2023),可判斷視頻語境,自動完成多至10 機位的音視頻剪輯工作[28]。
人工智能在視效合成工具中的應(yīng)用,也可以顯著提升動態(tài)遮罩制作(Rotoscope)等傳統(tǒng)特效流程的效率。2021 年,Nuke 13.0 推出機器學習工具集AIR,其中的CopyCat 節(jié)點允許視效制作者根據(jù)少量示例幀進行神經(jīng)網(wǎng)絡(luò)訓練,批量自動生成動態(tài)遮罩,并結(jié)合Inference、Upscale、Deblur 等節(jié)點實現(xiàn)跨序列應(yīng)用與效果調(diào)整,節(jié)省大量的手動摳像時間[29]。
在后期調(diào)色工作中引入人工智能工具,可提升鏡頭匹配等流程的工作效率,使調(diào)色師更加專注于創(chuàng)意環(huán)節(jié)。在影像修復與畫質(zhì)增強方面,國家中影數(shù)字制作基地自主研發(fā)的“中影·神思”(2018)人工智能圖像處理系統(tǒng),采用GAN、DenseNet、CycleGAN等神經(jīng)網(wǎng)絡(luò)模型開發(fā)了分辨率提升畫質(zhì)增強處理單元、標清圖像去場處理單元、圖像數(shù)字修復處理單元等模塊,實現(xiàn)視頻資料畫質(zhì)修復[30]。中國電影資料館與火山引擎合作(2023),在膠片物理修復和數(shù)字化處理的基礎(chǔ)上,對百部港片進行人工智能修復,實現(xiàn)4K 分辨率上變換與畫質(zhì)修復[31]。
在聲音與音樂制作方面,人工智能的應(yīng)用模式從輔助制作向內(nèi)容生成轉(zhuǎn)變。iZotope 系列軟件使用人工智能工具檢測和修復音頻噪聲,并實現(xiàn)基于風格學習的自動混音。人工智能聲音修復技術(shù)也應(yīng)用于《流浪地球2》(2023)中,基于李雪健早期作品音頻訓練AI 模型實現(xiàn)聲音修復。在內(nèi)容生成方面,微軟發(fā)布“神經(jīng)編解碼器語言模型”VALL-E(2023)[32],基于Meta EnCodec 技術(shù)將語音輸入生成聲學令牌,可根據(jù)僅3 秒的語音輸入模擬人聲音色、情感音調(diào)、聲學環(huán)境。Google 發(fā)布AI 音樂大模型MusicLM(2023)[33],直接實現(xiàn)由文本生成音樂(Text-to-Music),可指定風格、時長、樂器等,實現(xiàn)為圖片和視頻自動配樂。其他人工智能音樂生成工具和平臺還有iMyFone MusicAI[34]、Mubert[35]等。
隨著多模態(tài)AIGC 工具進一步發(fā)展,影視創(chuàng)作者已可以直接實現(xiàn)基于風格化遷移與多模態(tài)生成活動影像內(nèi)容的制作。如英偉達(NVIDIA)于2023 年發(fā)布AI視頻生成模型Video LDM[36],可以根據(jù)用戶的文本描述自動生成視頻(Text-to-Video),最高分辨率可達2048×1280 24FPS,時長最長可達4.7 秒(圖10)。2022 戛納短片電影節(jié)最佳電影《烏鴉》(The Crow),由人工智能藝術(shù)家格倫·馬歇爾(Glenn Marshall)將舞蹈短片《Painted》輸入OpenAI 創(chuàng)建的神經(jīng)網(wǎng)絡(luò)CLIP 中,指導生成式對抗網(wǎng)絡(luò)(GAN)或擴散模型生成視頻幀序列。2023 年,Runway Research 公司發(fā)布視頻生成工具Runway Gen-2,可根據(jù)文字或圖片素材直接生成短視頻,標志著多模態(tài)生成式人工智能發(fā)展到達新的階段[37](圖11)。
圖10 Video LDM 生成的視頻片段截圖
圖11 Runway Gen-2從文字或圖片直接生成視頻
可以看到,當前的電影智能制作是傳統(tǒng)制作各個環(huán)節(jié)對于弱人工智能和強人工智能技術(shù)手段的綜合運用,AI 直接生成的活動影像還只能實現(xiàn)低質(zhì)量和短時間的畫面,離電影復雜敘事、長時間及大銀幕放映還有很大距離。
每一次技術(shù)革命,都給現(xiàn)有的制作流程和藝術(shù)創(chuàng)作帶來機遇,但也帶來了巨大的挑戰(zhàn)。電影智能制作除了需要不斷解決技術(shù)問題外,同樣也帶來了一些嶄新的問題。
電影智能制作依賴AI 技術(shù)的支撐,AI 技術(shù)存在的問題自然影響到電影智能制作,如生成結(jié)果不可控性、傾向性等,制作過程算力消耗巨大,另外,目前制作的畫面技術(shù)質(zhì)量不能滿足大銀幕放映要求,無法生成長時間的活動影像等。
當前,AI 系統(tǒng)普遍缺乏透明性和可解釋性,可調(diào)試能力差,特定研究對應(yīng)的應(yīng)用效果也缺乏可預見性。由于深度學習(DL)等技術(shù)的復雜性,生成式對抗網(wǎng)絡(luò)(GAN)等AI 模型參數(shù)的意義不明,AI 的訓練和決策往往是黑箱操作,沒有可表述的邏輯和明確的原因,這使得人們難以理解AI系統(tǒng)輸出,也不易進行調(diào)試。如ChatGPT 等大語言模型的“涌現(xiàn)現(xiàn)象”是科研人員所無法預料且難以解釋的。在三維重建中,深度學習(DL)可以提升傳統(tǒng)三維重建性能,完成圖像中不可見部分的建模,甚至Magic123 等算法直接基于單張圖像進行三維重建。理論上講,單張圖像不包含物體的三維信息,不能恢復深度信息,但AI學習人難以解釋的經(jīng)驗可以大致估計物體的距離。這種直觀上不易理解的“合理性”在具體應(yīng)用中也不易進行調(diào)試,而一旦面對不同對象和應(yīng)用場景,AI 系統(tǒng)需要重新選擇AI算法、模型與參數(shù)進行訓練,且其最終效果難以保證。
AI 系統(tǒng)在訓練和學習中需要用到大量數(shù)據(jù),其數(shù)據(jù)依賴性強,容易產(chǎn)生數(shù)據(jù)偏見或數(shù)據(jù)不平衡,這也使得其抗干擾性差,易受攻擊。AI 人臉識別系統(tǒng)中,如果其訓練數(shù)據(jù)存在性別、地區(qū)、文化、面部疾病等方面的偏見或缺失,將會顯著影響人臉識別系統(tǒng)的性能和公平性。此外,AI 系統(tǒng)的結(jié)構(gòu)性漏洞,導致了其“對抗樣本攻擊”風險不可預知。如對抗性攻擊通過對輸入數(shù)據(jù)進行微小的、精心設(shè)計的改變,可使AI 系統(tǒng)產(chǎn)生錯誤的結(jié)果或不安全的行為。這也是人臉識別和人體識別應(yīng)用中的典型問題:比利時魯汶大學研究人員借助簡單圖案,可以躲過YOLO(v2)開源對象識別系統(tǒng)的識別,莫斯科國立大學和華為莫斯科研究中心研究人員也利用對抗攻擊技術(shù)攻破了公共Face ID 系統(tǒng)——ArcFace。另外,對抗性攻擊在自然語言處理(NLP)領(lǐng)域,特別是像GPT 這樣的大語言模型(LLM)上也是非常典型的問題和重要的挑戰(zhàn)。由于GPT 依賴于數(shù)據(jù),系統(tǒng)的攻擊者向訓練數(shù)據(jù)注入干擾數(shù)據(jù),將可能導致模型產(chǎn)生非常大的誤導性或不準確,甚至不正確的輸出,很大程度上影響GPT 的表現(xiàn)。
傳統(tǒng)意義上,計算機軟硬件輔助創(chuàng)作人員制作的作品版權(quán)和所有權(quán)是沒有問題的,因為計算機只是一種技術(shù)工具,像畫家手中的筆、演奏家的樂器一樣。然而,隨著強AI 的爆發(fā)式發(fā)展,AI 已經(jīng)可以在沒有人為干預的情況下,生成很多具有“創(chuàng)造性”的內(nèi)容。像很多AIGC 應(yīng)用領(lǐng)域一樣,電影智能制作在版權(quán)方面也面臨著具體的挑戰(zhàn),主要涉及到創(chuàng)作權(quán)、使用權(quán)和產(chǎn)權(quán)等方面的問題。版權(quán)通常要求作品具有原創(chuàng)性和獨創(chuàng)性,而如果AI 生成的內(nèi)容是基于已有素材和數(shù)據(jù),那么其原創(chuàng)性和獨創(chuàng)性如何界定;當使用AI 生成創(chuàng)作內(nèi)容時,誰應(yīng)該擁有由AI 生成的內(nèi)容的創(chuàng)作權(quán)也需要進行明確界定。
大多數(shù)國家對原創(chuàng)的定義都需要是人類作者,如包括西班牙和德國在內(nèi)的大多數(shù)國家都規(guī)定,只有人類創(chuàng)作的作品才能受到版權(quán)保護。而在一些國家,雖然未明確禁止對AI生成的作品授予版權(quán),其具體執(zhí)行也非常慎重。2023 年8 月美國法官貝利爾·豪威爾(Beryl A.Howell)駁回了AI 企業(yè)家斯蒂芬·塞勒(Stephen Thaler)對美國版權(quán)局的訴訟,裁定由AI生成的藝術(shù)作品不受版權(quán)保護,并強調(diào)人類創(chuàng)作是“有效版權(quán)主張的重要組成部分”。同樣,澳大利亞一家法院宣布,由于計算機生成的作品不是人類完成的,故不受版權(quán)保護[38]。
此外,AI 可能使用大量的數(shù)據(jù)和素材進行學習和生成,但這些數(shù)據(jù)的版權(quán)和合法性該如何保護。同理,如果電影智能制作生成的內(nèi)容是其他作品的改編、轉(zhuǎn)化或衍生,需要確保符合法律規(guī)定的派生作品條件。然而難點在于,由于電影智能制作所涉及的AI 模型的復雜性和大數(shù)據(jù)特性,從技術(shù)上調(diào)查取證十分困難。
電影智能制作有藝術(shù)創(chuàng)作者和AI協(xié)同創(chuàng)新工作的巨大空間,但是如何界定兩者之間的版權(quán)權(quán)益和責任分配也是一個問題。
電影作為一門藝術(shù)形式,其中包含著不可或缺的人類情感。隨著強人工智能技術(shù)開始介入內(nèi)容創(chuàng)作,引發(fā)了其是否可能替代人類創(chuàng)作者并對電影敘事倫理性產(chǎn)生何種影響的深刻思考。這個問題是行業(yè)內(nèi)需要慎重對待和思考的問題,ScriptBook 首席執(zhí)行官Nadira Azermai 介紹,制片公司開始采用其AI 技術(shù),同時必須簽署保密協(xié)議。2020 年1 月,華納兄弟宣布采用Cinelytic 的AI 項目管理系統(tǒng),這是好萊塢公司首次公開宣布采用AI 替代人進行創(chuàng)造性工作。ScriptBook 和Cinelytic 這些電影AI 創(chuàng)作應(yīng)用的先行者,強調(diào)用大數(shù)據(jù)建模的AI 模型是客觀體現(xiàn)創(chuàng)造力的工具,可以進行人工調(diào)整,而且AI技術(shù)是對創(chuàng)作的客觀評價或者參考啟發(fā),并不會影響藝術(shù)的人文性[39]。然而使用AI 生成的劇本、短片或者電影是否是從人性的角度和情感出發(fā),其作品是否缺乏人類創(chuàng)作者的情感和獨特視角,這一定會引發(fā)有關(guān)電影藝術(shù)性和現(xiàn)實性的倫理考慮。
AI 需要大量數(shù)據(jù)來學習和生成內(nèi)容。因此,電影制作中使用的數(shù)據(jù)可能涉及到個人隱私,如何合理使用并保護這些數(shù)據(jù),是電影智能制作中的一大難點。AI 可以根據(jù)觀眾數(shù)據(jù)生成個性化的電影內(nèi)容,個人的隱私性和合規(guī)性如何保護,此外,AI 個性化推薦是一種形式的信息過濾,有可能導致“信息繭房”問題。
解決這些問題需要制定倫理準則和監(jiān)管政策。同時,電影從業(yè)者需要積極參與倫理討論,以確保電影制作既具有創(chuàng)新性,又能夠維護藝術(shù)和社會價值。
近年來AIGC 技術(shù)發(fā)展迅猛,這一斷裂式的技術(shù)創(chuàng)新(Discontinued Technology)將會帶來階躍式的產(chǎn)業(yè)變革,給電影制作的未來帶來無限可能性。
未來,AI 技術(shù)將可能在軟硬件以及應(yīng)用模式上取得更大的發(fā)展,從而為電影智能制作提供更多可能性。AI 系統(tǒng)可能極大程度上增強自主決策和學習能力,并且持續(xù)進行自我學習,從而在藝術(shù)創(chuàng)作中會有更多風格鮮明的內(nèi)容生成?;谔囟〝?shù)據(jù)集、快速自適應(yīng)算法,通過經(jīng)驗來優(yōu)化學習算法本身,這將使得同一AI系統(tǒng)在不同風格的電影制作時能夠更快地進行學習和適應(yīng)。此外,AI 技術(shù)將會在多模態(tài)融合感知上取得更大突破,并應(yīng)用于電影智能制作,這樣通過多種感知方式,如圖像、語音、自然語言等,能綜合性地輔助電影創(chuàng)作。
此外,當前大模型和大數(shù)據(jù),都存在不可解釋性和潛在的偏見問題,未來的AI 技術(shù)可能會更加強調(diào)可解釋性,確保算法的公平性和透明性,并讓人能夠更加深入,以更加可理解的方式進行創(chuàng)作,AI 系統(tǒng)將更多地與人類進行緊密合作,從而提供更好的輔助和支持,而不僅僅是替代人類工作。
下一步電影智能制作有潛力在多個方面助力藝術(shù)創(chuàng)作,提供更多創(chuàng)意,提高創(chuàng)作效率。未來的電影智能制作可能更多地關(guān)注如何協(xié)助創(chuàng)作者釋放創(chuàng)意潛能,成為一個創(chuàng)意伙伴,為創(chuàng)作者提供靈感、場景設(shè)定、角色構(gòu)建等建議,從而促進更富創(chuàng)造力的電影創(chuàng)作。
首先,AI 可以學習分析創(chuàng)作者大量的電影作品和創(chuàng)意數(shù)據(jù),從中提取模式和趨勢,為創(chuàng)作者提供創(chuàng)意啟發(fā)和輔助,如生成情節(jié)故事、角色設(shè)定和視覺效果,為創(chuàng)作者提供新的創(chuàng)意方向。
其次,電影智能制作實時、沉浸式幫助創(chuàng)作者將想法可視化,通過簡單的語義描述或問題提示即可實時生成場景草圖、虛擬模型、動畫甚至是真實感三維場景,幫助導演和攝影師更好地規(guī)劃和預演鏡頭。
再者,AI 技術(shù)不斷進步,可以學習藝術(shù)作品的情感和情緒表達。電影智能制作中,可以通過音樂、音效和圖像處理輔助創(chuàng)作者表達情感和情緒,這些音樂生成和情感識別技術(shù)可以使電影更具感染力和共鳴。
最后,AI 可以方便進行大規(guī)模創(chuàng)作和生成,這種短時間內(nèi)生成大量的創(chuàng)意效果,可以激發(fā)擴展創(chuàng)作者的創(chuàng)作能力,借助AI的“頭腦風暴”,能夠快速制作和嘗試新穎的創(chuàng)意。
未來電影智能制作最終將借助超人工智能技術(shù),徹底打破今天電影制作的流程和各個技術(shù)環(huán)節(jié),最終實現(xiàn)從創(chuàng)意構(gòu)思直接生成高質(zhì)量電影成片的終極理想,即AIGF(Artificial Intelligence Generated Film),進入電影智能制作的高級階段(圖12)。
圖12 電影智能制作的未來發(fā)展
面對迅猛發(fā)展的電影智能制作,我國電影行業(yè)應(yīng)該如何應(yīng)對,如何抓住這次蝶變的契機,迎接數(shù)字化、虛擬化之后更大的一次挑戰(zhàn),是電影人不得不面對和深入思考的問題。過去20 多年,我國成功完成了電影數(shù)字化轉(zhuǎn)型之路,對于接下來的電影智能化發(fā)展之路如何走,筆者建議從以下幾個方面入手(圖13)。
圖13 我國電影行業(yè)應(yīng)對及產(chǎn)業(yè)升級思路
電影智能制作涉及到諸多的硬件,包括專業(yè)攝影設(shè)備、渲染服務(wù)器、云服務(wù)器、高性能圖形處理器,也需要AI 軟件和算法支撐,如大數(shù)據(jù)、大模型、云計算和存儲,還涉及到大量電影專業(yè)應(yīng)用軟件。當前電影智能制作的硬件,尤其是AI 的核心基礎(chǔ)CPU 與GPU 以及服務(wù)器等,主要以國外產(chǎn)品為主,而在通用人工智能的算法和應(yīng)用領(lǐng)域方面,我國則具有很強競爭力。但是在電影制作具體領(lǐng)域的軟硬件方面,產(chǎn)業(yè)應(yīng)用以國外產(chǎn)品為主,我國自主可控的AI 制作體系還處于起步階段,急需開拓研究。當前背景下,進行自主知識產(chǎn)權(quán)的關(guān)鍵性電影科技研究,開展關(guān)鍵技術(shù)和裝備的國產(chǎn)化替代技術(shù)體系研究,為構(gòu)建符合國情的體系打好電影智能化基礎(chǔ)。
加快標準和規(guī)范建設(shè),構(gòu)建電影智能制作學科體系和學術(shù)話語體系。近年來,以AI 為核心的科技戰(zhàn)略競爭,是影響甚至決定大國發(fā)展走勢的重要因素,其在電影領(lǐng)域,勢必引發(fā)新一輪電影智能制作的競賽。2023 年8 月發(fā)布的《中國電影數(shù)字制作規(guī)范》對于規(guī)范我國電影數(shù)字制作、提升我國電影質(zhì)量、推動我國獨立自主電影技術(shù)創(chuàng)新具有重要意義,由于電影智能制作相關(guān)概念、技術(shù)流程等尚未統(tǒng)一,在規(guī)范中尚未涉及。如何把握未來電影AI 科技發(fā)展趨勢,梳理AI 技術(shù)在電影制作不同階段統(tǒng)一的技術(shù)標準和操作規(guī)范,有助于整個電影制作產(chǎn)業(yè)的標準化。此外,未來的電影智能制作將是全新的電影制作范式,其中電影作品的著作權(quán)歸屬、版權(quán)分紅比例、人與AI的倫理等也是需要業(yè)界全面考慮的問題。我們還要積極參與國際電影智能制作的相關(guān)標準制定,主導制定國際社會普遍接受的國際電影智能制作規(guī)范,增強我國電影制作的國際話語權(quán)。
當前,科技創(chuàng)新范式正在發(fā)生深刻變化和持續(xù)演進,學科領(lǐng)域間交叉滲透跨界發(fā)展態(tài)勢更加明顯,基礎(chǔ)科學理論革命性突破發(fā)展,將可能直接誘發(fā)電影這一應(yīng)用領(lǐng)域的巨大突破,重大科技設(shè)施和新算法技術(shù)等成為電影技術(shù)革命式發(fā)展的利器。我國要發(fā)展電影智能制作技術(shù),必須打破行業(yè)壁壘,借助我國在AI、虛擬現(xiàn)實(VR)、智能圖形學等科技領(lǐng)域的競爭優(yōu)勢,在AI 芯片、AI 云服務(wù)器、面向電影制作的AI 大模型、渲染引擎等領(lǐng)域發(fā)力。只有堅持交叉融合創(chuàng)新,才能在電影制作領(lǐng)域自主研發(fā),只有掌握電影智能制作核心技術(shù),才能在未來國際電影市場競爭中立于不敗之地。
重點建設(shè)幾家相關(guān)科研和應(yīng)用示范機構(gòu),發(fā)揮專業(yè)研究機構(gòu)、科研院所和高校的業(yè)務(wù)示范作用,支持電影企業(yè)的應(yīng)用推廣。精良的影視制作尤其是大制作電影,其投資收益高,但是投資大、風險高,潛力巨大的電影智能制作,同樣也面臨巨大的投資風險。電影智能制作研發(fā)周期和研發(fā)投入都是未知數(shù)。華為云人工智能領(lǐng)域首席科學家田奇表示“大模型研究資本門檻高,大模型開發(fā)和訓練一次1200萬美元;技術(shù)門檻高,需要對AI 框架深度優(yōu)化和超強的并行計算能力?!蔽覈娪翱萍嫉那把靥剿髦?,相關(guān)專業(yè)研究機構(gòu)、科研院所和高校肩負引領(lǐng)電影行業(yè)科技進步、支撐產(chǎn)業(yè)提質(zhì)升級的職責和使命,要深化電影智能制作的科技自主創(chuàng)新,推動關(guān)鍵核心技術(shù)與軟硬件系統(tǒng)研發(fā)與突破。在此基礎(chǔ)上,建立電影企業(yè)產(chǎn)業(yè)應(yīng)用示范,支持相關(guān)電影企業(yè)的電影智能制作推廣應(yīng)用,建立健全市場和產(chǎn)業(yè)體系,加快推動電影智能制作的多場景應(yīng)用落地,推動我國電影高質(zhì)量發(fā)展。
電影智能制作將是未來電影技術(shù)創(chuàng)新的主要陣地,可能會對電影制作產(chǎn)生一百多年來從創(chuàng)作到制作最大的一次變革,中國電影人只有選擇積極面對,中國電影產(chǎn)業(yè)只有自立自強,才能走好電影智能化之路。