姜奇平
2024年2月15日,OpenAI正式發(fā)布的AI視頻生成模型Sora吸引了全球大眾與媒體的目光。屏幕上,一位時(shí)尚女士走過(guò)雨后的街頭,地面的積水倒映出街頭廣告的斑斕色彩,并隨鏡頭推近不時(shí)變幻。這不是真實(shí)的攝像,而是由Sora生成的一段以假亂真的視頻。OpenAI自己并不認(rèn)為Sora只是視頻模型,而稱之為“世界模擬器”。Sora的問(wèn)世,改變了世人“眼見(jiàn)為實(shí)”的定見(jiàn),變成把人們心中所想用AI變成虛擬的現(xiàn)象。Sora是技術(shù)邁出的一大步和人類邁出的一小步。
Sora是一個(gè)由不同時(shí)長(zhǎng)、分辨率和寬高比的視頻及圖像訓(xùn)練而成的擴(kuò)散模型,同時(shí)采用了Transformer架構(gòu),可以根據(jù)用戶的文本提示(prompt)創(chuàng)建一分鐘的高清視頻。該模型可以通過(guò)理解仿真物體在物理世界中的存在方式,為模型提供多幀的預(yù)測(cè),深度模擬真實(shí)物理世界,能生成具有多個(gè)角色、包含特定運(yùn)動(dòng)的復(fù)雜場(chǎng)景。
Sora在一些專家和投資界看來(lái),是技術(shù)發(fā)展的一大步。有專家認(rèn)為這一數(shù)據(jù)驅(qū)動(dòng)的物理引擎,堪比視頻生成領(lǐng)域的GPT-3。對(duì)于Sora即將引領(lǐng)的新技術(shù)潮流來(lái)說(shuō),OpenAI首席執(zhí)行官山姆·奧特曼認(rèn)為,人工智能有望在推理能力和可靠性、多模態(tài)、可定制化和個(gè)性化三個(gè)領(lǐng)域大幅提升。
但對(duì)于人類對(duì)智能的探索來(lái)說(shuō),Sora仍只是一小步。因?yàn)檫@更像是量變,而非質(zhì)變。
首先,Sora是算力增強(qiáng)的結(jié)果,而非算法的飛躍。按照傳媒學(xué)原理,同面積的圖像與文字相比,信息量要大9倍,因?yàn)槠渲须[含了大量感性的非語(yǔ)言信息。這就是所謂“一幅圖勝過(guò)千言萬(wàn)語(yǔ)”。如此看來(lái),計(jì)算圖像要比計(jì)算語(yǔ)言需要成倍的算力。反過(guò)來(lái)說(shuō),算力增強(qiáng),也必然會(huì)帶來(lái)圖像計(jì)算能力提高。據(jù)紐約大學(xué)助理教授謝賽寧推算,Sora可能有大約30億個(gè)參數(shù)。在現(xiàn)有算法下,算力突破帶來(lái)圖像處理能力提高,有其順理成章之處。事實(shí)上,天氣預(yù)報(bào)云圖預(yù)測(cè),也需要大量算力,只是不如計(jì)算一段時(shí)尚女性的視頻更吸引眼球。
其次,算法還是已有技術(shù)的常規(guī)性、累積性的進(jìn)步。Sora處理視頻數(shù)據(jù),還是傳統(tǒng)物理范式下的還原法,通過(guò)分解最小粒子還原圖像。OpenAI把視頻和圖像分解為較小的數(shù)據(jù)單元Patches(補(bǔ)片),每個(gè)patches相當(dāng)于GPT中的一個(gè)token(詞元);Sora在讓語(yǔ)言“理解”圖像上,還是采取標(biāo)注技術(shù)(DALL·E 3),把對(duì)圖像的理解,簡(jiǎn)化為對(duì)語(yǔ)言的理解,遵循用戶的文本指令生成視頻。
至于靜態(tài)圖像轉(zhuǎn)化成視頻,擴(kuò)展現(xiàn)有視頻或補(bǔ)全缺失的幀,還是在已有技術(shù)基礎(chǔ)上發(fā)展起來(lái)的。Sora可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理原理,并且可能無(wú)法理解因果關(guān)系,可能難以精確描述隨著時(shí)間推移發(fā)生的事件,這些都有待更進(jìn)一步的技術(shù)突破。
當(dāng)然,即使是這樣的一小步,也會(huì)對(duì)人們的生活產(chǎn)生巨大的影響。誠(chéng)如有專家所說(shuō):“在AI視頻構(gòu)建的世界中,‘眼見(jiàn)為實(shí)行不通了,眼睛看到的東西或許無(wú)法作為判斷依據(jù)。”將來(lái)人們?cè)诰W(wǎng)上看到一個(gè)聲稱“真人真事”的夸張影像時(shí),恐怕要先問(wèn)一句,這不是合成的吧?好處也會(huì)有許多,例如,一個(gè)人不可能走遍天下,歷盡美景,這時(shí)只要把YouTube和TikTok上的景區(qū)視頻都當(dāng)作語(yǔ)料訓(xùn)練一遍,就可以親臨其境一樣置身其中。周鴻祎說(shuō):“Sora工作原理像人做夢(mèng)。”在眼見(jiàn)為實(shí)失效后,說(shuō)不定夢(mèng)想成真倒會(huì)變?yōu)楝F(xiàn)實(shí)。