2022年11月,ChatGPT的出現(xiàn)引起了廣泛關(guān)注。在過去一年里,人工智能大模型取得的進展,大家有目共睹,特別是多模態(tài)的人工智能基礎(chǔ)模型,對一個國家未來的通用人工智能發(fā)展至關(guān)重要。因此,大語言模型領(lǐng)域競爭日趨激烈。
AI為視頻產(chǎn)業(yè)高質(zhì)量發(fā)展賦能
從2023年7月起,基于ChatGPT-4的發(fā)布,幾乎每三個月便出現(xiàn)一次技術(shù)革新。微軟、谷歌等公司呈現(xiàn)日趨激烈的競爭態(tài)勢,谷歌相繼發(fā)布了1.0和1.5版本,大語言模型的參數(shù)規(guī)模已從千億級躍升至萬億級,其能力亦從幾百K提升至百萬級水平,充分展現(xiàn)了大語言模型的發(fā)展態(tài)勢,突顯了大語言模型的重要性。
如今,大語言模型領(lǐng)域正在發(fā)生顯著變化,生成式人工智能對個人、組織和公司生產(chǎn)力的影響日益凸顯。國內(nèi)人工智能大模型發(fā)展目前有三個明顯趨勢。首先,基礎(chǔ)模型的參數(shù)規(guī)模正由千億級逐步向萬億級過渡,這對從事大模型研發(fā)的企業(yè)來說,將面臨嚴峻挑戰(zhàn)。其次,大模型正在從單一的文字模態(tài)向多模態(tài)時代發(fā)展,涵蓋視頻、3D、圖片、聲音等多種模態(tài)。第三,與國外大語言模型領(lǐng)域的技術(shù)相比仍存在差距。
從AI視頻方面看,人工智能為視頻產(chǎn)業(yè)賦能,構(gòu)成了其潛在價值高達萬億元級別的龐大市場,其內(nèi)容涵蓋了影視劇、動畫片、短劇及直播等多方面。短視頻制作通常需要經(jīng)過前期拍攝與后期制作,這需要優(yōu)秀的劇本、創(chuàng)意、演員、導(dǎo)演、道具及專業(yè)工具支持。這一流程往往伴隨高成本、長周期、技術(shù)難度高等問題。AI技術(shù)的賦能,將會為視頻產(chǎn)業(yè)帶來深刻變革。未來,用戶和導(dǎo)演能夠更加個性化地表達自己的創(chuàng)意與想法,互動性的增強也將為演繹方式帶來更多可能性。這將使我們能夠制作更高質(zhì)量、海量且多元化的內(nèi)容,無疑將是視頻產(chǎn)業(yè)未來的發(fā)展趨勢。
AI為技術(shù)商業(yè)化帶來無限可能
2024年2月16日,OpenAI發(fā)布首個視頻生成大模型Sora。首先,Sora與ChatGPT之間的主要區(qū)別在于它們的核心功能和生成內(nèi)容的類型不同。其次,Sora是一個專注于視頻生成的AI模型,它能夠從文本或靜態(tài)圖像生成動態(tài)視頻,并展現(xiàn)較高性價比。第三,Sora生成的視頻具有高度一致性和逼真度。在文本理解、單鏡頭連貫性和畫質(zhì)精細度等方面都處于行業(yè)領(lǐng)先位置。
但Sora也有很多不足。其可控性相對較弱,目前僅限于單鏡頭應(yīng)用,無法支持多鏡頭故事性呈現(xiàn)。同時,Sora模型尚未具備超清功能,以及多人交互和物理世界建模的能力。
任何一種技術(shù)走向商業(yè)化,都需要考慮三個元素:成本、效率、體驗。成本方面,據(jù)我們了解,Sora的模型成本至少是1萬張顯卡,其每秒鐘粒度成本高達1.5美元。這僅是在每次抽取盲盒均成功的情況下的成本估算,若需多次嘗試才能成功,則成本將更高。在效率方面,Sora渲染一個1秒鐘的視頻需要等待15至20秒。這顯示了無論是從成本、效率還是用戶體驗的角度來看,Sora模型與商業(yè)化產(chǎn)品之間仍存在一定距離。
因此,我們將AIGC賦能與內(nèi)容創(chuàng)作劃分為L1至L5共五個階段,這與自動駕駛技術(shù)發(fā)展的L1至L5階段形成對標。目前,無論是Sora,還是我們自身,都尚處于L2階段,主要聚焦于單鏡頭內(nèi)容生成,后續(xù)有望逐步邁向L3階段,即從分鏡到連續(xù)故事再到完整故事的生成。雖然與用AI生成完整的故事這個目標還有一定距離,但這并不意味著我們必須等到最后一個階段才開始商業(yè)化進程,實際上,每個階段都有其獨特的商業(yè)化路徑。
當下,技術(shù)商業(yè)化還面臨三個痛點,首先要解決單鏡頭內(nèi)容的確定性。導(dǎo)演在制作單鏡頭內(nèi)容時,主要考慮鏡頭類型、意境營造、人物刻畫及運鏡等因素,缺少任何一個環(huán)節(jié),無法把單鏡頭制作的內(nèi)容落地。其次是多鏡頭的主體一致性,這要求我們在保持鏡頭連貫性的同時,維持角色或物體的ID不變。最后,還要保持多鏡頭故事的連貫性,這對于構(gòu)建一分鐘、兩分鐘乃至一兩個小時的敘事作品至關(guān)重要。只有滿足以上三點,AI才能有效賦能影視劇、短劇和短視頻的創(chuàng)作。
AI為視頻產(chǎn)業(yè)帶來巨大變革
視頻生成模型涉及三大路徑,主要包括GAN、自回歸模型和擴散模型,其中擴散模型(Diffusion model)為當前主流生成模型。視頻生成模型屬于多模態(tài)模型,主要包括算法、算力等。我們目前收集了60多萬個數(shù)據(jù),以及20萬小時的視頻數(shù)據(jù),目標是能夠充分利用我們掌握的1000萬3D數(shù)據(jù),通過模型的持續(xù)迭代和優(yōu)化,形成一個龐大的萬億級數(shù)據(jù)集,這將成為我們模型中的核心資源。
在AI時代,創(chuàng)作者的工作流程呈現(xiàn)顯著變化。與傳統(tǒng)制作模式不同的是,現(xiàn)在可以把劇本利用文字語言模型進行分鏡處理,確定劇本基本框架。創(chuàng)作者基于這個框架制作單鏡頭內(nèi)容。在此過程中,創(chuàng)作者與生成流程緊密結(jié)合,最終利用工具將各個鏡頭連貫起來,形成完整的視頻作品。這樣就極大提高了創(chuàng)作效率并降低了成本。
目前,我們正與咪咕公司合作,將這種技術(shù)應(yīng)用于視頻彩鈴制作領(lǐng)域。例如,我們曾制作了一部展示成都歷史風(fēng)貌的豎屏彩鈴作品。這部作品完全由文字生成,沒有涉及任何拍攝過程。相較于傳統(tǒng)制作方法,其制作成本降低了十分之一,而效率則提升了十倍以上。
在AI時代,計算設(shè)備、硬件和軟件都發(fā)生了深刻變化。過去50年,我們依賴于CPU和軟件構(gòu)建個人計算設(shè)備;未來50年,計算設(shè)備和硬件將逐漸從CPU轉(zhuǎn)向GPU,軟件則將演變?yōu)榻裉斓腁I大模型,成為計算平臺。創(chuàng)作者只需輸入腳本,即可得到完整作品。因此,AI在視頻創(chuàng)作領(lǐng)域具有巨大潛力和可能性。W
(作者梅濤系上海智象未來科技有限公司創(chuàng)始人兼CEO)