• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    AI新紀(jì)元

    2023-04-14 00:54:10陳銳
    第一財(cái)經(jīng) 2023年4期
    關(guān)鍵詞:薯?xiàng)l像素語言

    陳銳

    人工智能正在把我們帶入一個(gè)新紀(jì)元,從很多維度看都是如 此。

    首先是一個(gè)叫作“人工智能生成內(nèi)容”(Artificial IntelligenceGenerated Content,AIGC)的概念開始得到認(rèn)可。它區(qū)別于之前的用戶生產(chǎn)內(nèi)容(User Generated Content,UGG),也不同于更早期的專業(yè)機(jī)構(gòu)生產(chǎn)內(nèi)容(Professionally Generated Content,PGC)。這個(gè)歷程既表明了內(nèi)容生產(chǎn)主體的切換,意味著具備生產(chǎn)能力和掌握發(fā)布權(quán)力的主體,正在從象征著“內(nèi)容民主化”的個(gè)人,轉(zhuǎn)移到善用AI輔助創(chuàng)作的“超級個(gè)體”—甚至可以是獨(dú)立工作的AI本身;同時(shí),它也意味著,AI能施展魔法的疆域正在跨越一個(gè)分界點(diǎn):從“判別式領(lǐng)域”邁入“生成式領(lǐng)域”。

    過去,AI被認(rèn)為只能做好判別性的工作。比如,判斷一張圖片中的人臉是不是特定的某人,一封來自未知地址的郵件是否為垃圾郵件,一篇分享到社交網(wǎng)絡(luò)中的文章是否帶有負(fù)面情緒,或者在一輛自動(dòng)駕駛汽車前面晃動(dòng)的到底是需要避開的真人還是無須在意的樹 影。

    2022年面世的兩個(gè)文生圖產(chǎn)品改變了人們對AI的能力偏見。一個(gè)是DALL·E 2,發(fā)布者是后來因推出ChatGPT聞名的硅谷初創(chuàng)公司OpenAI。另一個(gè)是Stable Diffusion,出自位于倫敦、同樣是初創(chuàng)公司的Stability AI之手。兩個(gè)產(chǎn)品的圖片生成水平第一次讓業(yè)界看到商用可能。此前,業(yè)界最優(yōu)秀的圖像生成工具是生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN),只能生成特定圖片—比如人臉,換成小狗就不行,得重新訓(xùn)練—DALL·E 2和StableDiffusion沒有這種局限性。

    上一個(gè)讓業(yè)界看到商用可能并大獲成功的AI技術(shù)是圖像識(shí)別。2015年,基于深度學(xué)習(xí)的計(jì)算機(jī)視覺算法在ImageNet數(shù)據(jù)庫里的識(shí)別準(zhǔn)確率首次超過人類。此后,人臉識(shí)別系統(tǒng)迅速取代數(shù)字密碼,成為最新潮的身份標(biāo)識(shí);可識(shí)別商品的自助結(jié)算系統(tǒng)也很快進(jìn)入各類線下門店;連追求安全至上的自動(dòng)駕駛都用上了AI的視覺判斷。

    Stable Diffusion和DALL·E2的商業(yè)前景毋庸置疑,但它們關(guān)于AI新時(shí)代的開啟充其量只是報(bào)幕員,ChatGPT才是主角,因?yàn)橹挥兴鉀Q了語言問題—起碼看起來如此。

    語言問題的解決意味著新的交互革命,這是AI新紀(jì)元的另一個(gè)涵義。

    科幻作家特德·姜(Te dChiang)體驗(yàn)ChatGPT后,將其背后的AI模型(GPT)比作互聯(lián)網(wǎng)的“有損壓縮”,意思是,當(dāng)它學(xué)習(xí)了所有網(wǎng)上文字的統(tǒng)計(jì)規(guī)律后,就相當(dāng)于獲得了一個(gè)互聯(lián)網(wǎng)信息的壓縮版本—信息有所損失,但沒那么多,重要的是,我們需要保存的文件更小了。假使外星人襲來,互聯(lián)網(wǎng)毀滅,只要GPT還在,理論上我們能通過詢問它獲得原本存儲(chǔ)在互聯(lián)網(wǎng)上的所有東西。

    事實(shí)上,不用幻想外星人入侵,特德·姜想象的這一天可能在不久之后就會(huì)到來。當(dāng)人們可以用自然語言與機(jī)器交流,而機(jī)器不僅聽得懂這些自然語言,還能與人對話、按照人的話語行事—回答人的問題、畫一幅畫或者創(chuàng)作一個(gè)視頻、生成一款游戲,根據(jù)反饋意見再次修改,直到提出需求的人滿意為止—這時(shí)候,每個(gè)人的電腦、手機(jī)上還需不需要安裝那么多應(yīng)用軟件就值得重新考慮。也許,只留一個(gè)ChatGPT就夠了。

    此刻,相信你對無論ChatGPT還是更大范疇的AIGC到底意味著什么已有足夠感知,可能也聽過不少業(yè)界的溢美之詞,比如英偉達(dá)創(chuàng)始人黃仁勛稱現(xiàn)在為“AI的iPhone時(shí)刻”,比爾·蓋茨認(rèn)為AI革命的重要性不亞于互聯(lián)網(wǎng)的誕生,微軟CEO納德拉則表示這種技術(shù)擴(kuò)散堪比工業(yè)革命。

    我們打算就此打住,不再過多陳述包括ChatGPT在內(nèi)的生成式AI可能掀起的產(chǎn)業(yè)革命—隨后的幾篇文章會(huì)繼續(xù)從不同視角討論它。這里,我們后退一步,走到AIGC尤其ChatGPT的背后,看看這些最新出圈的AI明星究竟站在怎樣的基石之上。

    ChatGPT發(fā)布之后,OpenAI團(tuán)隊(duì)成員接受采訪,說公眾的熱情程度讓他們意外,因?yàn)椤癈hatGPT背后的大部分技術(shù)并不新鮮”。這一說法屬實(shí),外界與之類似的總結(jié)是:ChatGPT是一種新時(shí)代的“煉金術(shù)”,把一個(gè)語言統(tǒng)計(jì)模型和基于人類反饋的強(qiáng)化學(xué)習(xí)放在一起,然后就是用可以拿到的語料、估計(jì)可行的人工神經(jīng)網(wǎng)絡(luò)層數(shù)放在一起“煉丹”。

    但相較于2018年以前的AI模型,ChatGPT背后的GPT至少有一樣?xùn)|西是新的,那就是看待語言問題的視角。

    人下一個(gè)會(huì)說出口的詞,往往是統(tǒng)計(jì)學(xué)上下一個(gè)最可能出現(xiàn)的詞—這個(gè)理念在語言學(xué)界早已有之,但將這種想法開發(fā)成對話語言模型是第一次。在此之前,幾乎所有號稱使用自然語言與人對話的機(jī)器人,從百度小度到微軟小冰,從亞馬遜Alexa到蘋果Siri,甚至拿到日本公民身份的Sophia,本質(zhì)上都是基于搜索樹的查詢系統(tǒng)。而自然語言處理(Natural language processing,NLP)領(lǐng)域也被工程化地劃分為文本分類、機(jī)器翻譯、閱讀理解、文章分級等數(shù)十種任務(wù),每種任務(wù)都對應(yīng)一種或幾種算法模型。

    注:黃色標(biāo)注為Diffusion Model模型,其余為Transformer模型。數(shù)據(jù)來源:根據(jù)公開資料整理

    這些看似不同的問題背后其實(shí)是同一個(gè)問題。比如,如果一個(gè)對話機(jī)器人“足夠聰明”,聰明到可以在電影評論中預(yù)測下一個(gè)單詞,那么它一定能完成一個(gè)簡單的正或負(fù)分類—成為一個(gè)電影分類器。

    通關(guān)密碼就是2017年Google Brain團(tuán)隊(duì)寫在論文里的Transformer(轉(zhuǎn)換器),GPT的歷代模型都基于這一算法架構(gòu)。工作時(shí),它會(huì)計(jì)算每個(gè)詞與之前輸入和生成的其他詞之間的依賴關(guān)系(通常被稱作“自注意機(jī)制”)。在最新發(fā)布的版本GPT-4中,模型能夠注意到的單詞量多達(dá)24576個(gè)。

    Transfor mer認(rèn)為,語言的內(nèi)部數(shù)據(jù)之間長跨度地相互依賴,Transformer所做的工作,就是將既有文字的“內(nèi)部依賴關(guān)系”轉(zhuǎn)換到未來的文字中去,也就是“生成”。

    信息內(nèi)部的基本要素之間相互依賴,且具有預(yù)測功能— 這種看待語言的視角之后也被用到了圖片上。2021年,Google Brain團(tuán)隊(duì)再次推出一個(gè)叫“視覺轉(zhuǎn)換器”(VisionTransformer,ViT)的模型,通過計(jì)算同一圖像中像素與像素之間的依賴關(guān)系來識(shí)別圖像。

    在此之前,語言和視覺被視為不同的東西。語言是線性的、序列的,視覺則是一種有空間結(jié)構(gòu)的、并行的數(shù)據(jù)。但Transformer證明,圖片也可以當(dāng)成序列問題來解決,一張圖片就是由像素起承轉(zhuǎn)合地構(gòu)成的句 子。

    不僅圖片,大部分問題都可以轉(zhuǎn)化為序列問題。不要小看這種思維的轉(zhuǎn)變。2018年,DeepMind發(fā)布的AlphaFold具有預(yù)測蛋白質(zhì)結(jié)構(gòu)的能力,靠的就是對氨基酸序列的學(xué)習(xí),其背后架構(gòu)也是Transformer。

    語言在人類智能中是圣杯,在人工智能中同樣如此。無論AIGC這個(gè)詞現(xiàn)在多么火熱,在ChatGPT解決語言問題之前,人們對于AIGC的態(tài)度跟之前對待元宇宙沒什么差別:熱情,但持疑。至少2022年年底前的AIGC浪潮中,沒有什么人提起過通用人工智能(Artificial General Intelligence,AGI)這個(gè) 詞。

    “涌現(xiàn)”也好,“質(zhì)變”也罷,ChatGPT證明,機(jī)器可以從語言中得到的東西比我們預(yù)想的多。首先,它讓我們看到推理能力部分可以通過“見得足夠多”而模仿出來。就此宣稱ChatGPT有理解能力當(dāng)然是種錯(cuò)覺,我們明白它只是基于統(tǒng)計(jì)學(xué)上的關(guān)聯(lián)在推論。但“真正在思考”與“表現(xiàn)得像是在思考”,有時(shí)候只是哲學(xué)上的區(qū)別。

    其次,基于Let’s think step by step的“思維鏈”(Chain-of-Thought prompting,CoT)技術(shù)表明,只要更富邏輯性地使用語言,機(jī)器就能學(xué)到更正確的東西,而不只是玩文字游戲。一個(gè)亞馬遜在其CoT相關(guān)論文中使用過的例子是,給AI看一張畫有餅干和薯?xiàng)l的圖片,然后問它兩者的共同點(diǎn)是什么,題目給出兩個(gè)選項(xiàng),A.都是軟的;B.都是咸的。訓(xùn)練時(shí),工程師并不會(huì)訓(xùn)練AI直接作出選A或者選B這樣的簡單關(guān)聯(lián),而是訓(xùn)練它生成一段邏輯充分的文字:對于餅干和薯?xiàng)l,AI都要被訓(xùn)練說出它們各自的特性,比如薯?xiàng)l是咸的,有的餅干也是咸的;薯?xiàng)l捏的時(shí)候會(huì)變形,所以薯?xiàng)l是軟的,餅干捏的時(shí)候不會(huì)變形,所以餅干不是軟的;所以薯?xiàng)l和餅干的共同點(diǎn)是都是咸的,答案是B。

    相似的一步步拆解問題的邏輯,你應(yīng)該已經(jīng)在ChatGPT的回答中看到過很多次,它們都基于提示詞工程師(Prompt Engineer)對足夠多問題的拆解。邏輯跳躍的教育常會(huì)讓學(xué)生不得要領(lǐng),邏輯縝密的解題思路則讓兒童也能舉一反三。用人類語言學(xué)習(xí)的AI同樣如此。

    語言能力本身是種智能,而它攜帶的智能更多—從推理能力到數(shù)學(xué),這是語言學(xué)家們此前低估的東西。如果把各AI模型看作一個(gè)大家族,此前的AI多數(shù)只能從信息和智能都有限的數(shù)據(jù)中學(xué)習(xí),比如商品圖片、人臉、交通信號燈,即使做文字識(shí)別或翻譯,它們也只是把文字當(dāng)成圖片或成對信號,只有GPT這樣基于Transformer的語言模型,第一次直接從語言的內(nèi)在結(jié)構(gòu)中學(xué)習(xí)。只要語言中有的東西,幾何、色彩、味覺、速度、情感……假以時(shí)日和正確教育(比如更好的prompt),GPT這樣的模型都能學(xué)到,除非語言中沒有。

    ChatGP T與Transformer讓人分別從使用體驗(yàn)和算法兩個(gè)層面看到了通用人工智能的希望。尤其多模態(tài)的GPT-4推出之后,AI似乎變成了真正的全能助手—至少在網(wǎng)絡(luò)上:理解人的自然語言,能幫人做會(huì)議總結(jié)、做PPT、分析股票市場、想廣告文案、創(chuàng)作小說,還能根據(jù)意見不斷修改圖片,甚至一鍵生成與草圖相似的網(wǎng)頁代碼。似乎用不了多久,AI與AI之間就要開始用人的語言交流了。

    但請注意,這些都不等于通用人工智能已經(jīng)到來。所有基于Transformer的大型語言模型(Large Language Model),本質(zhì)仍是文字游戲。它們無法在生成式技術(shù)內(nèi)部解決事實(shí)性錯(cuò)誤問題,也無法僅靠語言就掌握所有邏輯推理能力,比如“如果某事沒有發(fā)生會(huì)怎樣”的反事實(shí)推理。

    涉及到文字外部的世界,基于Transformer的多模態(tài)模型(比如GPT-4)能多大程度地做好各種模態(tài)間的信息轉(zhuǎn)換,同樣是個(gè)問題。過去,圖與文、聲音與畫面、觸覺、嗅覺等等之間的信息轉(zhuǎn)換,在AI里面是個(gè)黑盒。電商場景中,一張圖片能獲得的文字描述的適配程度,取決于用于訓(xùn)練的成對圖文語料質(zhì)量。一旦圖片是新奇的,是否能獲得適配的文字描述就有待商榷。雖然已經(jīng)將模態(tài)間的成對學(xué)習(xí)打碎到了像素級,Transformer無法足夠好地轉(zhuǎn)換文與圖的問題仍然存在。

    假如要讓ChatGP T制作一幅海報(bào),你擬定需要寫在海報(bào)上的標(biāo)題和部分文字并確定海報(bào)風(fēng)格,ChatGPT生成的東西可能看起來很像海報(bào),但上面的每一個(gè)字都不是真正的字,而是筆畫錯(cuò)亂的怪物。很簡單,當(dāng)ChatGPT開始制作海報(bào),它就進(jìn)入了理解像素關(guān)系和搬運(yùn)像素的作畫模式,而非輸出文字的語言模式。一個(gè)不錯(cuò)的想象是,也許經(jīng)過更多訓(xùn)練,ChatGP T能夠?qū)W會(huì)寫漢字,畢竟中文字畫同源,而英語是表音文字,ChatGP T要學(xué)會(huì)可能就沒那么容易。

    無論如何,一個(gè)會(huì)把文字轉(zhuǎn)換成怪物的AI很難稱得上是AGI。所以Transformer也并非一定是AI的未來。

    和Transformer 一樣正在受追捧的算法是擴(kuò)散模型(Diffusion Model),目前文生圖領(lǐng)域的幾個(gè)明星產(chǎn)品,從Stability AI的Stable Diffusion到Google的Imagen和Parti,以及產(chǎn)品與公司同名的Midjourney,背后的算法都不是Transformer,而是擴(kuò)散模型。

    3月初,通過在功能性磁共振成像(f MR I)數(shù)據(jù)上加載擴(kuò)散模型,來自日本的兩位學(xué)者重建了包含在f MRI數(shù)據(jù)中的視覺圖像,初步表明擴(kuò)散模型—而非Transformer—的生物合理 性。

    “人并不會(huì)像現(xiàn)在的A I體系一樣,往右邊一套生成式系統(tǒng)),往左邊又是一套(判別式系統(tǒng)),人只有一套閉環(huán)系統(tǒng)。那就是在內(nèi)部建構(gòu)一套‘世界模型’,然后對所有問題作出預(yù)測。”香港大學(xué)同心基金數(shù)據(jù)科學(xué)研究院院長馬毅在3月的一次線上論壇中說。早在1950年,圖靈第一次提出用隨意提問來判斷機(jī)器能否像人一樣回答問題的時(shí)候,“是否像人一樣”就是衡量AI智能程度的標(biāo)準(zhǔn),這個(gè)標(biāo)準(zhǔn)永遠(yuǎn)不會(huì)過時(shí)。

    猜你喜歡
    薯?xiàng)l像素語言
    趙運(yùn)哲作品
    藝術(shù)家(2023年8期)2023-11-02 02:05:28
    像素前線之“幻影”2000
    解鎖“夾薯?xiàng)l”游戲
    語言是刀
    文苑(2020年4期)2020-05-30 12:35:30
    “像素”仙人掌
    讓語言描寫搖曳多姿
    薯?xiàng)l外傳
    薯?xiàng)l外傳(3)
    薯?xiàng)l外傳(2)
    累積動(dòng)態(tài)分析下的同聲傳譯語言壓縮
    正阳县| 临海市| 昌都县| 公安县| 虎林市| 建德市| 鄂托克前旗| 江津市| 新昌县| 汶上县| 颍上县| 托克逊县| 舟曲县| 武强县| 息烽县| 朝阳县| 岳池县| 获嘉县| 民和| 江永县| 乌海市| 新干县| 江门市| 芜湖县| 扶绥县| 大英县| 巴彦淖尔市| 山阳县| 许昌市| 泉州市| 调兵山市| 遂溪县| 迁安市| 孙吴县| 马鞍山市| 枝江市| 迁西县| 樟树市| 花莲县| 镇沅| 梅河口市|