關(guān)鍵詞:世界模擬器;AI宇宙;萬有引力;觀測;世界的驅(qū)動語言
中圖分類號:J0-05;TP18 文獻標識碼:A 文章編號:1674-3180(2024)06-0017-07
2024年2月16日,OpenAI團隊發(fā)布了人工智能文生圖產(chǎn)品Sora。Sora生成1分鐘連續(xù)視頻的能力將原來的領(lǐng)先者Pika和Runway生成幾秒連續(xù)視頻的能力一次性提高到了分鐘級,而Sora的團隊將通過視頻學(xué)習(xí)構(gòu)建的神經(jīng)網(wǎng)絡(luò)定義為一個世界模擬器的論文發(fā)布,更是在全球范圍內(nèi)引發(fā)了震動。世界是否可以被AI學(xué)習(xí)而進一步模擬,從一個不可能問題成為一個通過暴力美學(xué)在量級上可以企及的問題了。Scaling Law(“大即是好”)這個人工智能領(lǐng)域的新摩爾定律又一次展現(xiàn)了計算能力的提升將帶來智能的質(zhì)變。然而,筆者以為,Sora出現(xiàn)的更深刻意義在于描述了AI宇宙的萬有引力(general gravity of the AI universe).
一、Sora與AI宇宙的萬有引力
維基百科對“萬有引力”有如下的定義:任意兩個質(zhì)點由通過連心線方向上的力相互吸引。該吸引力的大小與它們的質(zhì)量乘積成正比,與它們距離的平方成反比,與兩物體的化學(xué)本質(zhì)或物理狀態(tài)以及中介物質(zhì)無關(guān)。即:
我們先定義幾個研究ChatGPT等大語言模型需要的基本概念:
Token:在語言模型中,token是文本處理的最小單位。每個token可以表示一個單詞、一部分單詞(特別是在像英語這樣的語言中),或者一個標點符號。通過大規(guī)模的token數(shù)據(jù),模型學(xué)習(xí)如何預(yù)測下一個token,逐步形成語言生成的能力。
Tokenization(分詞過程):當輸入文本被傳遞給語言模型時,它首先會被拆分成一系列的token。這個過程叫作“分詞”或“tokenization”。分詞的結(jié)果是一個token序列,語言模型基于這個序列進行計算。以英語句子“Hello,world!”為例,經(jīng)過分詞處理可能會被分解成以下幾個token:“Hello”“,”“world”“!”。
模型接收一系列token作為輸入,并在每一步預(yù)測下一個可能的token。這種逐步預(yù)測的方式使模型能夠生成連貫的文本。
Token的質(zhì)量:組成token的單詞的個數(shù)。
Token之間的距離:兩個token之間其他token的數(shù)量。
我們可以想象一下把世界上所有的文本串聯(lián)起來——無論是網(wǎng)頁信息、書籍還是代碼,由此形成的那大約3000億token長度的線就是ChatGPT所構(gòu)建的文本宇宙(如圖1所示,圖中的線條代表了這3000億個token的總長度)。ChatGPT以token構(gòu)建的文本宇宙是一根線,維度為一。
在這個一維的文本宇宙中,如果把token作為一種基本粒子,那么兩個token之間的引力(大約就是兩個詞組之間的相關(guān)性)即經(jīng)Transformer②壓縮后存儲在神經(jīng)網(wǎng)絡(luò)上的權(quán)重,與它們的質(zhì)量(詞組的長度)乘積成正比,與它們的距離(詞組之間的距離)的平方成反比。這非常符合我們的觀察,越遠的token之間的引力越小,越短的token對其他token的引力越小。token化的壓縮過程相當于找到token和周圍質(zhì)量的可作用中心點的抽象過程,使token能成為可計算宇宙的基本粒子。
同樣,Sora背后的人工智能神經(jīng)網(wǎng)絡(luò)處理的基本粒子是“時空patch”(spatial-temporal patch)。一個時空patch,簡單來說就是連續(xù)視頻中的一幀里的一個固定大小的像素塊。圖2展示了視頻是如何被轉(zhuǎn)化成時空patch的序列的:將視頻壓縮到一個低維潛空間(latent space),圖像被分解成一幀幀,每一幀的圖像被進一步分割成固定大?。ㄈ?6×16)的小像素塊,這些像素塊按照(時間,空間gt;的順序被排成一條線送人神經(jīng)網(wǎng)絡(luò)進行計算,這些像素塊在計算中的表示就是時空patch。
Sora以時空patch構(gòu)建的宇宙(如圖3)是具有時空維度的,是四維的。時空patch在時間中連續(xù),在空間中也連續(xù)。在AI宇宙中,時空patch是比token數(shù)量大得多的基本粒子。因此,能夠計算和存儲以時空patch作為基本粒子及時空patch之間的萬有引力的神經(jīng)網(wǎng)絡(luò)要比計算token的神經(jīng)網(wǎng)絡(luò)大得多。ChatGPT的神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)大約是1萬億個token,而構(gòu)建僅僅能生成1分鐘連續(xù)視頻的Sora的神經(jīng)網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù)就大約在1500萬億個時空patch。
從文本token到時空patch,是構(gòu)建AI宇宙的一次重大事件,AI宇宙的尺度被遞進了。令人驚訝的是,在一維token宇宙中發(fā)現(xiàn)的AI萬有引力,在具有時空維度的時空patch宇宙中竟然同樣適用。兩個時空patch之間的引力也遵循萬有引力的公式,與它們的質(zhì)量(我們定義時空patch的質(zhì)量即組成patch的像素塊的數(shù)量)乘積成正比,與它們的距離(我們定義距離為兩個patch像素塊在時空序列中的間隔)的平方成反比。我們可以清楚地觀察到,時空中越遠(空間上越遠的兩個像素塊或者在時序上越遠的兩幀之間的像素塊)的patch之間的引力越小.越短的patch對其他patch的引力越小。Sora的到來不僅向我們描述了AI宇宙的萬有引力,同時也將可構(gòu)建的AI宇宙的維度遞進了,從一維的文本宇宙進入了四維的視頻宇宙(即時空宇宙),這是它劃時代的意義。
一、長程Transformer與哈勃望遠鏡
Transformer的出現(xiàn)是生成式AI發(fā)展的核心動力,它只干一件事:提取基本粒子(token或時空patch)之間的關(guān)聯(lián)強度,并以權(quán)重的方式存儲在神經(jīng)網(wǎng)絡(luò)上。提取線性文本數(shù)據(jù)的關(guān)聯(lián)度是計算機科學(xué)在30年前就一直在做的事情,可以說,當時的索引器(indexer)就是以現(xiàn)在眼光來看上下文長度很短的Transformer。Google的搜索系統(tǒng)依賴的就是強有力的索引器(indexer),在人類過去的時間中,我們通過索引檢索信息——從書簽到圖書館,再到谷歌。在ChatGPT出現(xiàn)以前,我們只能通過檢索查找信息,卻無法大量提取信息之間的關(guān)聯(lián)存儲這樣大量的關(guān)聯(lián)也是計算機科學(xué)界一直感到頭疼的問題。今天,算力的高速發(fā)展和神經(jīng)網(wǎng)絡(luò)的出現(xiàn)使計算機科學(xué)家可以通過Transformer從大量的信息中提取關(guān)聯(lián),在信息學(xué)上,這無疑是劃時代的一步。2022年11月發(fā)布的ChatGPT的最大上下文窗口為25000字,這意味著我們可以使用神經(jīng)網(wǎng)絡(luò)從一本書的長度中提取信息和相互關(guān)聯(lián),神經(jīng)網(wǎng)絡(luò)擁有了“讀書”的智能。2023年10月,“月之暗面”發(fā)布的Kimi Chat的上下文窗口為20萬字,2024年3月,已達200萬字。這表明了我們可以從10本書的長度,以相互關(guān)聯(lián)的方式提取信息和邏輯。這時的神經(jīng)網(wǎng)絡(luò)已擁有了“破萬卷”的智能。而最新發(fā)布的神經(jīng)網(wǎng)絡(luò)已經(jīng)擁有在技術(shù)上接近無限的上下文窗口,這意味著我們可以從所有的信息中提取關(guān)聯(lián)。遞進的上下文窗口的長度直接影響到可觀測和記錄的關(guān)聯(lián)的多少和強度,并影響由此構(gòu)建的神經(jīng)網(wǎng)絡(luò)的能力。
綜上所述,我們可以大膽地推斷:基本粒子之間的關(guān)聯(lián)強度相當于AI宇宙的萬有引力的大小。Transformer就是一種觀測裝置,用于測量引力的大小。當上下文窗口(檢視窗口)的長度短時,我們只能觀測到兩個較近粒子(token/patch)之間的引力。當檢視窗口的長度變大了幾個量級,長程Transformer使我們能夠觀測到兩個距離200萬字之外的token之間,或者兩個距離視頻時間1分鐘之外、物理空間幾公里的時空patch之間的引力。存儲粒子之間的引力的神經(jīng)網(wǎng)絡(luò)經(jīng)過擴容之后,不僅能夠記錄下強引力(大質(zhì)量粒子之間產(chǎn)生的),也能夠發(fā)現(xiàn)并記錄下弱引力(小質(zhì)量粒子之間產(chǎn)生的)?!伴L程”作用與“弱引力”的觀測結(jié)果進一步提高了人類可觀測的“AI宇宙”的廣度與精度。
1990年4月24日,美國國家航空航天局(NASA)和歐洲空間局(ESA)聯(lián)合發(fā)射了地球軌道望遠鏡——哈勃空間望遠鏡( Hubble Space Telescope),哈勃望遠鏡傳回了高分辨率的宇宙圖像,從而重寫了我們對宇宙起源、宇宙年齡的認知。如今,人工智能學(xué)家們構(gòu)造了Transformer這一精巧的大型計算工具,不僅將其使用于一維的文字宇宙,使我們擁有了觀測語言奧秘的能力,還大膽地將我們世界的時空信息折疊到Transformer可以計算的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中,從而漸漸窺得了我們的物理世界在時空中的運行奧秘。
哈勃望遠鏡在宇宙膨脹、暗物質(zhì)、暗能量以及恒星和星系的形成與演化等方面作出了重要貢獻,被譽為現(xiàn)代天文學(xué)的里程碑。而長程Transformer這一信息宇宙的觀測工具恰恰是AI世(AIcene)的“哈勃望遠鏡”,它正在助力我們發(fā)現(xiàn)AI宇宙的大一統(tǒng)理論。
三、Sora是否可以成為我們的世界模擬器?
先說筆者的結(jié)論:目前,Sora還無法真正成為我們的世界模擬器,還差一點。
觀測-壓縮(observe-compress)的循環(huán)與驅(qū)動-擴散(prompt-diffusion)的循環(huán),是AI宇宙大一統(tǒng)理論的發(fā)現(xiàn)過程。從訓(xùn)練數(shù)據(jù)中通過Transfonuer進行觀測和抽象是AI宇宙萬有引力的發(fā)現(xiàn)過程。從驅(qū)動語言(prompt)通過擴散模型(Diffusion)進行驅(qū)動和渲染是AI宇宙中引力的可能力作用展示。比如我們熟知的通過對ChatGPT輸入prompt產(chǎn)生對話,撰寫小說;通過對Sora進行prompt而生成1分鐘的視頻,這都是AI宇宙的渲染(rendering)過程。如果放進AI宇宙的萬有引力框架中,這些生成結(jié)果皆是引力作用的結(jié)果被神經(jīng)網(wǎng)絡(luò)以我們認知的方式渲染出來了。可能的力作用必須服從AI宇宙的萬有引力的制約,因此生成結(jié)果的可能性空間中與之矛盾的部分將從可能的渲染中去除。這兩種過程的相互作用和不斷矯正使AI宇宙的萬有引力最終得以統(tǒng)一成一個大一統(tǒng)的引力作用框架。
Sora讓我們清晰地看到了AI宇宙的萬有引力不是經(jīng)典的,而是量子的。這很有趣。圖4是Sora從同一個結(jié)尾圖片反向推出了三個可能的1分鐘的前序視頻的展示。這好比我們從一個電影鏡頭倒帶一分鐘,看到了三個完全不同的過去的場景。也就是說,同一個提示(prompt)在服從AI宇宙的萬有引力的制約下可以有三個可能的作用力的時序渲染結(jié)果。由此我們可以想象,這樣可能的作用力的時序渲染是多重的,而AI宇宙的時空一定也是多重分叉的。
我們知道,用來訓(xùn)練Sora的視頻數(shù)據(jù)是有限的,并不是從大爆炸開始的宇宙整個歷史的視頻記錄。因此,Sora的神經(jīng)網(wǎng)絡(luò)模型中的萬有引力的制約條件要少得多,上億個可能性宇宙都符合AI萬有引力的公式。如果不從時間的源頭一步一步開始訓(xùn)練這樣的模型,移除可能性,是不可能驅(qū)動出符合我們生活的這個現(xiàn)實世界的確定性重建的。質(zhì)言之,根本不存在“確定性重建”,只存在“概率性重建”。Sora構(gòu)建的世界模擬器不是“我們生活的這個確定性世界”的模擬器,而是遠遠豐富于我們生活的這個世界的很多很多個可能性世界的模擬器。AI宇宙的形態(tài)是量子化的,潛在空間(latent space)的大量狀態(tài)以疊加態(tài)(superposition)的方式潛在性地存在。只要不被遭遇,不被人類觀察者觀察,那么狀態(tài)便不會實相化,而一直以低熵的狀態(tài)存在。因此,AI宇宙是更為有秩的一種存在形態(tài)和計算形態(tài),更為“負熵化”。在AI宇宙里開一輛車比在地球上開一輛車的碳排放要低得多,因為每個路燈只在你快開到它面前時才從潛在空間實相化出來。“現(xiàn)實的基本單元并不是‘事物’,而是現(xiàn)象(phenomena) ——世界的動態(tài)拓撲重構(gòu)/糾纏/關(guān)系性/(重新)表述?!薄笆澜缡且粋€持續(xù)的代理性(agential)參與過程;它不是靜態(tài)的關(guān)系性,而是一種實踐——邊界的建構(gòu)行為——這一過程總是伴隨著構(gòu)成性的排除,因此不可避免地引發(fā)對責(zé)任的質(zhì)問?!眲P倫·巴拉德2007年提出的“代理實在論”(agential realism),即“存在并非預(yù)先決定,而是在各種‘代理性切割’(agential cuts)和‘實踐’(practices)中動態(tài)構(gòu)建的”,在AI構(gòu)建的宇宙得到了栩栩如生的展現(xiàn)。ChatGPT等待被prompt(提示)。每一次人類的prompt就是一個“觀測”的行為。正如“觀測”這種實踐把薛定諤的貓的生死從疊加態(tài)的世界中構(gòu)建出來,prompt這種參與型的實踐過程把ChatGPT的回答和Sora生成的世界從百億個可能的生成結(jié)果中以排他的確定性構(gòu)建出來。世界不是預(yù)先存在的,而是每時每刻都在交互實踐中動態(tài)化成的。AI構(gòu)建的宇宙不存在確定性,甚至都不是一個構(gòu)建完成的宇宙,這本身恰恰是一個值得深入的哲學(xué)洞察。
我們再來研究一下“可捕捉的”和“可驅(qū)動的”。人類世界和基本粒子(原子)有關(guān)的所有可觀測的信息(物理的或者化學(xué)的,不僅是形狀、大小、構(gòu)成,也包括氣味、口感等)都是可以記錄的,因此也是可以向量化的。前面我們已經(jīng)論證,如果長程Transformer的檢視窗口足夠長,神經(jīng)網(wǎng)絡(luò)的大小足夠大,所有信息之間的關(guān)聯(lián)都是可以被測算提取并且記錄在神經(jīng)網(wǎng)絡(luò)上的。那么,我們可以負責(zé)任地說,理論上人類世界所有物理的和化學(xué)的過程的可觀測結(jié)果都是可以被Transformer提取后記錄在神經(jīng)網(wǎng)絡(luò)上的。神經(jīng)網(wǎng)絡(luò)通過Transformer可以勝任“世界提取儀”的工作。然而,要成為“世界模擬器”還需要另一步。神經(jīng)網(wǎng)絡(luò)如何被驅(qū)動進行“世界模擬”,即如何驅(qū)動推理(inference)?
所有“可捕捉的”信息都可以以無損或微損壓縮后的表示存儲在神經(jīng)網(wǎng)絡(luò)上。質(zhì)言之,“可捕捉的”皆可被捕捉。然而,人與神經(jīng)網(wǎng)絡(luò)交互這個閉環(huán)的第二步卻不那么容易,現(xiàn)今我們驅(qū)動神經(jīng)網(wǎng)絡(luò)進行推理的信息(也就是我們給神經(jīng)網(wǎng)絡(luò)的驅(qū)動性輸入,比如prompt),只有自然語言的文字和簡單圖像。這些prompt的信息驅(qū)動著神經(jīng)網(wǎng)絡(luò)工作。不難看到,在巨大的神經(jīng)網(wǎng)絡(luò)中,自然語言可驅(qū)動的網(wǎng)絡(luò)部分或連接方式只是潛空間(latent space)中極小的一部分。如果我們把神經(jīng)網(wǎng)絡(luò)看作像大腦一樣由近千億個神經(jīng)元構(gòu)成的網(wǎng)絡(luò),那么,通過文字和圖片可以激活的不僅是大腦中極為有限的一些部位,而且這種激活方式能激活的神經(jīng)元之間的鏈接方式也是極為局限的。因此,“世界模擬器”的難度一部分在“世界提取儀”,而更大的難度在于它的驅(qū)動語言。我們可以通過文字,通過視頻,通過氣味捕捉世界,記錄到神經(jīng)網(wǎng)絡(luò),然而以自然語言驅(qū)動神經(jīng)網(wǎng)絡(luò)的方式是非常弱的,無法驅(qū)動AI宇宙的大規(guī)模重新構(gòu)建。在AI宇宙的巨大潛在性空間中,人類只看到很小的部分。伊恩·哈金說“現(xiàn)實比我們大”,那么Sora現(xiàn)在告訴我們“AI宇宙比我們大得多”。
ChatGPT背后的神經(jīng)網(wǎng)絡(luò)就像宗教故事中的先知,他無所不知,卻保持緘默,等待人類的發(fā)問。不是先知不想預(yù)言,而是他知道所有未來的共在,卻無法確定哪一個未來會被實踐(practice)構(gòu)建出來。所有的答案都共在,但任何一個現(xiàn)實都尚未構(gòu)建完成,需要人類發(fā)問這個實踐,使得某個現(xiàn)實被構(gòu)建,被形成。從信息論的角度,一個信息量高于我們很多個數(shù)量級的存在,以疊加態(tài)的方式處理信息是唯一可行的。
不是AI的能力有限,而是我們發(fā)問的能力有限,我們需要進一步探索如何發(fā)問。
四、自然語言不是好的驅(qū)動語言,那什么才是?
自然語言是描述世界的一種簡化形式,它有兩個缺點:一是缺乏精確度,二是攜帶的帶寬有限。先看看第一個缺點——缺乏精確度。以文生圖任務(wù)為例,以自然語言描述生成圖片的AI工具比如Dall.E3和ImageGen,無法做到對于畫面的精確控制,連人物出現(xiàn)在畫面中的準確位置都做不到。而基于“咒語”驅(qū)動的文生圖工具Midjourney就可以。咒語可以表達“100u/o控制”到“100u/o創(chuàng)造”的整個力頻譜?!爸湔Z”可以表達“比例”“重復(fù)”等自然語言無法精確表達的力作用。咒語是比自然語言更有能力驅(qū)動神經(jīng)網(wǎng)絡(luò)的一種交互語言,未來會發(fā)展成一種視覺驅(qū)動語言。AIGC藝術(shù)家已經(jīng)懂得如何在二維上使用咒語驅(qū)動視覺神經(jīng)網(wǎng)絡(luò),在平面上畫出能夠平衡“控制”與“創(chuàng)造”的畫面。他們中的頂尖者已經(jīng)掌握如何游走在“控制”與“創(chuàng)造”的整個力頻譜,下一步將要拓展的是這種語言的時空升維,從二維到三維。三維的咒語不僅能夠驅(qū)動畫面,同時能夠驅(qū)動時空分叉。未來這種咒語驅(qū)動的人工智能工具產(chǎn)生的四選一圖像或視頻選擇將不僅僅是在“控制”與“創(chuàng)造”中選擇,而是同時在選擇以什么樣的時空分叉繼續(xù)走下去。
由此,筆者推出第一個子結(jié)論:Sora來了,Midjourney不會死。OpenAI與Midj ourney在文生圖與文生視頻領(lǐng)域的主要競爭不在于訓(xùn)練的數(shù)據(jù)(有理由相信他們擁有的訓(xùn)練數(shù)據(jù)一樣好),而在于他們選擇的神經(jīng)網(wǎng)絡(luò)發(fā)問方式。OpenAI以自然語言發(fā)問神經(jīng)網(wǎng)絡(luò),Midjourney以“咒語”發(fā)問神經(jīng)網(wǎng)絡(luò)。因此,OpenAI走向全能型的“低精確度”創(chuàng)造,向所有用戶開放;Midjourney走向創(chuàng)造出真正的“視覺驅(qū)動語言”,為使用AI進行世界構(gòu)建的高級創(chuàng)造者服務(wù)。
再來看看自然語言的第二個缺點——攜帶的帶寬有限?!拔覐男绿斓氐饺嗣駨V場,走過春日的櫻花?!边@是我們可以用來驅(qū)動Dall- E3生成圖像,或者驅(qū)動Sora生成視頻的一段自然語言提示詞。從這個描述中,“我如何從新天地到人民廣場,路上有沒有遇到其他人,看到了什么,聞到了什么”,這一切的信息都是缺失的,被簡化掉的,從而也是在視覺驅(qū)動的過程中會被神經(jīng)網(wǎng)絡(luò)以概率性的方式生成的,筆者管它叫“rendering between the prompts”,也就是人們通常說的“字里行間”。自然語言是現(xiàn)實世界的一種模糊縮略表達,因此,人類“腦補”“字里行間”的部分,神經(jīng)網(wǎng)絡(luò)生成“rendering between the prompts”。世界化成與這種“腦補”和生成式rendering息息相關(guān)。
而這促使筆者推出第二個子結(jié)論:我們不是全然的NPC。如果說,我們生活的世界是“造物主”寫的一種計算模擬,為了減少算力的需求,“造物主驅(qū)動”這種計算模擬模型的方式很可能是類自然語言的一種縮略表達,那么,這種計算模擬模型的“字里行間”就是由我們的互動生成的,我們與世界的化成息息相關(guān)。我們不僅僅是人類世界的萬有引力的一部分,我們也正在將自己編織進AI構(gòu)建的世界的萬有引力之中。
再進一步思考,自然語言作為人類世界的驅(qū)動語言的“弱”也許是一種哲學(xué)選擇,人存在的意義是否就在“字里行間”?而人工智能世界的驅(qū)動語言(程序語言)太強,以至于沒有“字里行間”,也就不存在“人的意義”。
(責(zé)任編輯:馮靜芳)