彭丹妮
2023年4月8日,上海人工智能實(shí)驗(yàn)室聯(lián)合中國科學(xué)技術(shù)大學(xué)、上海交通大學(xué)、南京信息工程大學(xué)、中國科學(xué)院大氣物理研究所及上海中心氣象臺,發(fā)布全球中期天氣預(yù)報(bào)大模型“風(fēng)烏”?;谠俜治鰯?shù)據(jù)驗(yàn)證表明,“風(fēng)烏”比傳統(tǒng)物理模型的10天預(yù)報(bào)誤差降低了19.4%。
“風(fēng)烏”取名自我國東漢時(shí)期張衡所制的“相風(fēng)銅烏”,這是世界上最早的風(fēng)向測定設(shè)備。上海人工智能實(shí)驗(yàn)室領(lǐng)軍科學(xué)家歐陽萬里表示:天氣預(yù)報(bào)大模型“風(fēng)烏”不僅承載了中國古人的智慧,也寓意實(shí)驗(yàn)室致力于在以氣象為代表的AIforScience領(lǐng)域勇于突破、不懈探索。
全球中期天氣預(yù)報(bào)以預(yù)測未來14天內(nèi)的天氣狀態(tài)為目標(biāo)。此前有研究表明,因?yàn)榇髿庀到y(tǒng)中物理過程的復(fù)雜性,以及求解大氣模型所需資源規(guī)模巨大,全球中期天氣預(yù)報(bào)的有效性每10年才提高1天。
上海人工智能實(shí)驗(yàn)室科學(xué)家白磊在回應(yīng)記者采訪時(shí)介紹,“風(fēng)烏”將全球中期氣象預(yù)報(bào)任務(wù)建模為一個(gè)多模態(tài)、多任務(wù)學(xué)習(xí)的問題,并以此為基礎(chǔ)來設(shè)計(jì)AI的預(yù)報(bào)方法。基于回溯預(yù)報(bào)表明,“風(fēng)烏”的性能超過了世界著名人工智能公司DeepMind最新發(fā)布的模型GraphCast,并突破性地達(dá)到了10.75天的可用預(yù)報(bào)性能。
用人工智能算法建模全球大氣系統(tǒng),只是AIforScience(人工智能驅(qū)動(dòng)的科學(xué)研究)的應(yīng)用之一。在很多領(lǐng)域,AI正以較以往數(shù)倍甚至數(shù)萬倍的效率改變多學(xué)科的研究。受訪科學(xué)家指出,現(xiàn)代科學(xué)日益復(fù)雜化,而AI相關(guān)技術(shù)近年來有了快速突破,使得AIforScience成為國際科研的一個(gè)前沿方向。
2023年3月末,我國科學(xué)技術(shù)部、國家自然科學(xué)基金委聯(lián)合啟動(dòng)AIforScience專項(xiàng)部署工作??萍疾坑嘘P(guān)負(fù)責(zé)人表示,中國在人工智能技術(shù)、科研數(shù)據(jù)和算力資源等方面有良好基礎(chǔ),需要進(jìn)一步加強(qiáng)系統(tǒng)布局和統(tǒng)籌指導(dǎo),以促進(jìn)人工智能與科學(xué)研究深度融合,推動(dòng)資源開放匯聚,提升相關(guān)創(chuàng)新能力。
“從蛋白質(zhì)結(jié)構(gòu)預(yù)測到氣候系統(tǒng)建模,從引力波探測到理解宇宙,人工智能對科學(xué)探索的長期影響才剛剛開始。”數(shù)據(jù)科學(xué)領(lǐng)域的知名機(jī)構(gòu)Dataconomy在2022年11月的一篇文章中寫道。
過去完全無法想象的效率
處理數(shù)據(jù)的方式會(huì)改變科學(xué)研究的行為,中國科學(xué)院物理研究所研究員劉淼對此感受很深。作為一名材料科學(xué)家,十多年前他讀博期間,完成三四個(gè)材料的研究就算順利。如今,基于人工智能、超級計(jì)算等技術(shù)的進(jìn)步,在幾十萬種可能性中篩選甚至預(yù)測不同元素組成的材料,判斷其材料屬性,不必再一個(gè)一個(gè)去計(jì)算、做實(shí)驗(yàn),只需點(diǎn)幾下鼠標(biāo)。
劉淼說,5年前,包括他在內(nèi)的一些科學(xué)家預(yù)判,隨著技術(shù)的進(jìn)步,材料學(xué)的下一步不應(yīng)僅盯著個(gè)別材料去進(jìn)行計(jì)算、驗(yàn)證,而是應(yīng)該運(yùn)用數(shù)據(jù)去幫助科學(xué)研究。他所在團(tuán)隊(duì)開發(fā)了一個(gè)名為Atomly的材料數(shù)據(jù)庫,已經(jīng)囊括30余萬個(gè)無機(jī)晶體材料的數(shù)據(jù)。
他介紹,自然界幾乎所有物質(zhì)的屬性,都是電子的某種行為。早至20世紀(jì)60年代,學(xué)界已經(jīng)發(fā)現(xiàn)可以通過求解量子力學(xué)方程的方式,計(jì)算電子的行為,預(yù)測材料的性質(zhì)。得益于超級計(jì)算機(jī)帶來的算力提升,對材料性質(zhì)的計(jì)算速度大大加快,這些奠定了Atomly的數(shù)據(jù)基礎(chǔ)。此外,數(shù)據(jù)庫里很多無機(jī)晶體材料的結(jié)構(gòu),是先利用人工智能模型進(jìn)行預(yù)測,有了初步判斷后再進(jìn)入下一步的精確計(jì)算。
有了強(qiáng)大數(shù)據(jù)庫和高通量計(jì)算,劉淼說,在任何一組元素的組合中,科學(xué)家都可以快速搜索出可能的新化合物,并預(yù)知其物理性質(zhì)。在Atomly數(shù)據(jù)庫,如果點(diǎn)擊氧和鈦兩個(gè)元素,就會(huì)出現(xiàn)280種由這兩個(gè)元素可能構(gòu)成的化合物;如果點(diǎn)擊其中一個(gè),就能進(jìn)一步看到這種化合物的原子空間排列結(jié)構(gòu)、介電性、力學(xué)性能等具體數(shù)據(jù)。如果有學(xué)者想在這種化合物中找尋一種新材料,可以先查看這些指標(biāo)、性質(zhì),再進(jìn)行下一步的研究。
這對材料科學(xué)研究的效率提升之大,在他看來,如果說以前尋找理想的材料是釣魚,如今就像是“撒了網(wǎng),一下子把魚都撈上來的那種感覺”。
2023年3月8日,來自美國羅切斯特大學(xué)的助理教授蘭加·迪亞斯宣稱,該團(tuán)隊(duì)發(fā)現(xiàn)了一種由氫、氮和一種名為镥的稀土元素混合制成的材料,可以在21℃和大約1吉帕(約等于1萬個(gè)標(biāo)準(zhǔn)大氣壓)的壓力下實(shí)現(xiàn)室溫超導(dǎo)電性。這一成果在圈內(nèi)外引起巨大轟動(dòng)。
為了驗(yàn)證這一結(jié)果,劉淼團(tuán)隊(duì)在3月9日就快速開展了計(jì)算。利用前述數(shù)據(jù)庫,他們用了不到一周時(shí)間就計(jì)算出1500多個(gè)相關(guān)化合物,3月21日就提交了論文,結(jié)果發(fā)現(xiàn),氫、氮、镥無法形成穩(wěn)定的三元化合物。也就是說,該室溫超導(dǎo)論文的結(jié)果有待商榷。劉淼說,這是過去完全不敢想象的速度。
2022年年末,一篇發(fā)表在TheGradient雜志上的文章寫道,預(yù)測蛋白質(zhì)折疊,尋找新的超導(dǎo)體材料、疫苗或任何其他滿足特定需求的材料時(shí),它們背后的母科學(xué)都是化學(xué)。該雜志于2017年創(chuàng)刊,創(chuàng)辦者為美國斯坦福大學(xué)AI實(shí)驗(yàn)室的一群學(xué)生和研究人員。
傳統(tǒng)概念中,化學(xué)研究通常在配有試管、燒瓶的實(shí)驗(yàn)室中完成。這篇文章寫道,隨著當(dāng)前人工智能、以數(shù)據(jù)為中心的技術(shù)進(jìn)步及數(shù)據(jù)量的不斷增長,我們可能正目睹一種變化:計(jì)算不僅可以用于協(xié)助實(shí)驗(yàn),還可以用于指導(dǎo)實(shí)驗(yàn)。
不僅如此,AI還能成為實(shí)打?qū)嵉摹盎瘜W(xué)家”。比如,2020年7月,英國利物浦大學(xué)的研究人員開發(fā)了一款人工智能機(jī)器人化學(xué)家。這款機(jī)器人具有人形特征,可以在標(biāo)準(zhǔn)實(shí)驗(yàn)室中獨(dú)立工作,像人類一樣使用各種實(shí)驗(yàn)儀器。首次測試中,這個(gè)1.75米高的AI機(jī)器人在8天里獨(dú)立完成了668個(gè)實(shí)驗(yàn),并研發(fā)出了一種全新的化學(xué)催化劑。這一成果在當(dāng)時(shí)以封面文章形式發(fā)表在Nature雜志上。
在藥物研發(fā)領(lǐng)域,AI的崛起帶動(dòng)了一批AI制藥公司的興起。咨詢公司麥肯錫估計(jì),目前全球有近270家公司致力于AI驅(qū)動(dòng)的藥物研發(fā)。
2014年,3位在麻省理工學(xué)院從事量子物理學(xué)方向研究的博士后在深圳創(chuàng)立了一家科技公司。創(chuàng)始人溫書豪說,AI可以在大、小分子藥物發(fā)現(xiàn),藥物自動(dòng)化合成等多個(gè)環(huán)節(jié)上提升效率。比如,AI機(jī)器人可以用算法將400臺機(jī)器連接在一起,同時(shí)開展實(shí)驗(yàn),每小時(shí)就能探索幾千種反應(yīng)條件,篩選催化劑,可以24小時(shí)無間斷完成標(biāo)準(zhǔn)化的實(shí)驗(yàn)操作和數(shù)據(jù)收集分析。它的效率是并發(fā)式的、規(guī)?;?,對此,人類實(shí)驗(yàn)員難以做到。
而ChatGPT的發(fā)布,無疑是2023年科技領(lǐng)域最令人興奮的成果之一,也掀起了新一撥兒AI浪潮。
在中國科學(xué)院自動(dòng)化研究所所長徐波看來,AIforScience、預(yù)訓(xùn)練大模型等正在引發(fā)新一輪AI創(chuàng)新熱潮。如果將AIforScience比作一個(gè)專業(yè)理科生,那么,ChatGPT類似于文字能力很強(qiáng)的通才式文科生。不過,ChatGPT對科學(xué)研究的開展也有很大促進(jìn)作用。除了幫人們潤色論文、撰寫摘要等,多位受訪者都談到,ChatGPT還可以對各個(gè)學(xué)科的文獻(xiàn)進(jìn)行很好的歸納、總結(jié),甚至給科學(xué)研究帶來啟發(fā)。
北京大學(xué)定量生物學(xué)中心研究員裴劍鋒指出,過去我國對建立數(shù)據(jù)體系重視不足,今后,依靠ChatGPT強(qiáng)大的自然語言處理能力,可以加速相關(guān)知識體系和數(shù)據(jù)庫的建立。雖然ChatGPT目前還達(dá)不到人類專家閱讀文獻(xiàn)的水平,但隨著專業(yè)自然語言處理AI的發(fā)展,將有可能自動(dòng)完成文獻(xiàn)數(shù)據(jù)摘取和分析等工作,效率比人類高出很多。
徐波也提到,ChatGPT等大模型可以幫助領(lǐng)域內(nèi)的科學(xué)家快速找到其感興趣的知識、文獻(xiàn)和一些關(guān)鍵的實(shí)驗(yàn)結(jié)果。
人工智能在科學(xué)領(lǐng)域的應(yīng)用不勝枚舉。比如,在腦科學(xué)領(lǐng)域,據(jù)《華爾街日報(bào)》2023年4月初的報(bào)道,美國科技巨頭之一的Meta公司正在開發(fā)一個(gè)能夠讀取人腦想法的系統(tǒng)。這是MetaAI實(shí)驗(yàn)室一個(gè)名為BrainSignalReading(大腦信號讀?。┑捻?xiàng)目。研究人員利用腦電圖和腦磁圖兩種非入侵式技術(shù)獲取大腦數(shù)據(jù),并讓自主監(jiān)督學(xué)習(xí)AI工具對這些轉(zhuǎn)化為聲音的數(shù)據(jù)進(jìn)行訓(xùn)練。訓(xùn)練數(shù)據(jù)集包含169名志愿者在聽到有聲讀物和單句時(shí)的大腦活動(dòng)信息。通過近150個(gè)小時(shí)的聲音數(shù)據(jù),算法能夠像讀心術(shù)一樣推斷出人們最有可能聽到的詞
目前,數(shù)據(jù)是驅(qū)動(dòng)AI發(fā)展的重要材料,深度神經(jīng)網(wǎng)絡(luò)通常需要大量數(shù)據(jù)才能避免過度擬合。但許多需要應(yīng)用AI的場景無法提供足夠的訓(xùn)練數(shù)據(jù),例如醫(yī)學(xué)圖像分析。因此,減少深度學(xué)習(xí)對數(shù)據(jù)的依賴,就成為AI研究人員最重要的探索方向之一。
自主監(jiān)督學(xué)習(xí)(Self-supervisedLearning)的基本思路,是開發(fā)出一種能夠填補(bǔ)當(dāng)前數(shù)據(jù)空白的深度學(xué)習(xí)系統(tǒng),人們只需要向其提供部分?jǐn)?shù)據(jù)內(nèi)容,系統(tǒng)就可以通過數(shù)據(jù)間的聯(lián)系,自行預(yù)測數(shù)據(jù)中缺失的部分,繼而恢復(fù)秩序完成學(xué)習(xí)。它使機(jī)器能夠直接從世界上大量可用的信息中學(xué)習(xí),而不僅是從專門為人工智能研究創(chuàng)建的訓(xùn)練數(shù)據(jù)中學(xué)習(xí)。這推動(dòng)了人工智能最近的許多重大進(jìn)展。MetaAI實(shí)驗(yàn)室一直將自主監(jiān)督學(xué)習(xí)作為其研發(fā)的一個(gè)重點(diǎn)。
2022年十大自主監(jiān)督學(xué)習(xí)模型中,來自中國的清華大學(xué)、北京大學(xué)和香港中文大學(xué)(深圳)均有合作項(xiàng)目入選。微軟公司成為其中上榜最多的公司,共有3項(xiàng)成果。
AIforScience:為什么是現(xiàn)在?
徐波說,我國科學(xué)技術(shù)部“AIforScience”專項(xiàng)部署工作將布局前沿科技研發(fā)體系,建立一些面向重大科學(xué)問題的人工智能模型與算法,利用人工智能技術(shù)帶動(dòng)科學(xué)研究的知識發(fā)現(xiàn)。在這一過程中,將建設(shè)一些多學(xué)科可用的計(jì)算平臺,用于跨尺度建模、高精度仿真、微分方程求解等。
科學(xué)研究中,AI有多火?一位理論化學(xué)背景出身的科學(xué)家介紹,現(xiàn)在哪怕是在純基礎(chǔ)的科學(xué)領(lǐng)域,比如理論化學(xué)、理論物理領(lǐng)域,“大家都覺得,AI是個(gè)超級工具,如果沒有用上,對研究的理解深度和效率,可能都會(huì)造成影響”。
2022年,在中關(guān)村論壇的首屆科學(xué)智能峰會(huì)“AIforScience:共創(chuàng)新未來”上,中國科學(xué)院院士、北京大學(xué)前沿交叉學(xué)科研究院執(zhí)行院長湯超,分享了國內(nèi)提出這一概念的經(jīng)過。他說,幾年前,中國科學(xué)院院士、北京科學(xué)智能研究院院長、北京大學(xué)國際機(jī)器學(xué)習(xí)研究中心主任鄂維南找到他,商量有沒有可能在北大設(shè)立一個(gè)學(xué)科交叉項(xiàng)目,來探索機(jī)器學(xué)習(xí)在不同科學(xué)和工程領(lǐng)域的應(yīng)用,他們?yōu)槠淙×艘粋€(gè)名字,叫“AIforScience”。2018年8月,一場有關(guān)AIforScience的會(huì)議在北大召開。
裴劍鋒是2018年參會(huì)的科學(xué)家之一。其研究方向是用計(jì)算的方法做藥物設(shè)計(jì),屬于國內(nèi)最早從事計(jì)算機(jī)輔助藥物設(shè)計(jì)的學(xué)者之一。他說,北大這場會(huì)議之前,人工智能與科學(xué)的結(jié)合已有一段時(shí)間。
以他所在的交叉學(xué)科領(lǐng)域?yàn)槔釀︿h說,2012年,國際上已經(jīng)開始有一些關(guān)于AI、化學(xué)、藥物設(shè)計(jì)相結(jié)合的初步摸索。2014年,他所在團(tuán)隊(duì)也開始做相關(guān)工作,并且在2015年發(fā)表了國內(nèi)第一篇將AI用于藥物設(shè)計(jì)的論文,實(shí)際上已經(jīng)是AIforScience的一種實(shí)踐。
從2020年開始,AIforScience進(jìn)入集中爆發(fā)階段。在國內(nèi),已有一些公司致力開發(fā)科學(xué)計(jì)算平臺、科研AI模型等。
如今,AI幾乎可以和深度學(xué)習(xí)畫等號,AI的幾大領(lǐng)域,包括自然語言處理和計(jì)算機(jī)視覺等,都繞不開深度學(xué)習(xí)。盡管深度學(xué)習(xí)的基礎(chǔ)——人工神經(jīng)網(wǎng)絡(luò)在20世紀(jì)50年代已經(jīng)提出,但是,直到近十多年,高性能算力的實(shí)現(xiàn)和互聯(lián)網(wǎng)上大量數(shù)據(jù)的產(chǎn)生,才使得AI領(lǐng)域從業(yè)者能大量訓(xùn)練神經(jīng)網(wǎng)絡(luò),不斷拓展機(jī)器學(xué)習(xí)的深度。
另一邊,基礎(chǔ)科學(xué)的發(fā)展也亟待一個(gè)更強(qiáng)大的工具。歐陽萬里談道,地球科學(xué)領(lǐng)域積累了非常多的觀測數(shù)據(jù),涉及大量計(jì)算問題。然而,由于地球系統(tǒng)的復(fù)雜性,很多方向的機(jī)制和原理都還不夠清晰。人工智能技術(shù)強(qiáng)大的非線性擬合能力和靈活的建模能力,為解決領(lǐng)域中的一些“硬骨頭”問題提供了強(qiáng)大的新工具。比如,大氣模擬、地震監(jiān)測和預(yù)測就非常適合使用人工智能來解決。
以上海人工智能實(shí)驗(yàn)室發(fā)布的“風(fēng)烏”大模型為例,歐陽萬里表示,運(yùn)用AI模型進(jìn)行全球中期氣象預(yù)報(bào),過去受限于算力和高效并行的深度學(xué)習(xí)架構(gòu),“其難度是我們在兩三年前不敢想象的”,但如今可以取得很好的效果。
AIforScience興起背后,更重要的是它順應(yīng)了現(xiàn)代科學(xué)復(fù)雜化、交叉化的趨勢。徐波指出,依靠科學(xué)家人腦思維可以解決的科學(xué)問題,很多已經(jīng)解決了。如今,科學(xué)要面對的是生物、物理、化學(xué)等基礎(chǔ)科學(xué)中跨尺度的復(fù)雜系統(tǒng)。過去以人作為認(rèn)知基準(zhǔn)的范式需要向更高維度邁進(jìn),人工智能在其中發(fā)揮著關(guān)鍵作用。
比如,當(dāng)前在對大腦的研究中,微觀上,關(guān)于每個(gè)神經(jīng)元的結(jié)構(gòu)、功能等具體信息已經(jīng)研究得比較透徹;宏觀上,大腦的分區(qū)以及不同腦區(qū)間的連接機(jī)制也已研究得比較清楚。然而,在最為復(fù)雜的、介于微觀與宏觀之間的尺度上,即這些神經(jīng)元如何在整體上產(chǎn)生了人類的智能,還未得到充分的解答。
2020年3月,中央機(jī)構(gòu)編制委員會(huì)辦公室下發(fā)文件,批復(fù)同意自然科學(xué)基金委員會(huì)設(shè)立交叉科學(xué)部,負(fù)責(zé)統(tǒng)籌交叉科學(xué)領(lǐng)域整體資助政策、組織擬定發(fā)展戰(zhàn)略等方面的工作。湯超指出,交叉科學(xué)部成立以來的第一個(gè)重大研究計(jì)劃,就是AIforScience方向。
受訪學(xué)者指出,AIforScience以前所未有的方式,將不同學(xué)科、不同背景的研究者們聯(lián)系在一起,進(jìn)一步弱化了科學(xué)和技術(shù)的界限。裴劍鋒談到,AI與科學(xué)的結(jié)合突出了工程技術(shù)在科學(xué)研究當(dāng)中的作用,比如AlphaFold(DeepMind公司開源的人工智能系統(tǒng),用于更加準(zhǔn)確地預(yù)測蛋白質(zhì)結(jié)構(gòu))能產(chǎn)生科學(xué)突破,工程團(tuán)隊(duì)在里面起了很大作用。
上海交通大學(xué)科學(xué)史與科學(xué)文化研究院院長李俠曾在采訪中指出,從20世紀(jì)60年代開始,隨著科學(xué)問題變得越來越復(fù)雜,以及整個(gè)科技知識生產(chǎn)條件的變化,科學(xué)研究越來越需要更多團(tuán)隊(duì)合作?!拔矣X得小規(guī)模、自由的科學(xué)探索依然非常重要,但是,當(dāng)面臨復(fù)雜和較大的科學(xué)問題時(shí),大團(tuán)隊(duì)緊密的聯(lián)合攻關(guān),在AIforScience時(shí)代可能會(huì)成為更常用的方式?!迸釀︿h表示。
AI能帶來真正的創(chuàng)新嗎?
憑借其日益強(qiáng)大的能力,AI已經(jīng)深刻地影響了科學(xué)的進(jìn)展。鄂維南認(rèn)為,這是“一場正在發(fā)生的科技革命”。一個(gè)根本性問題是,這種數(shù)據(jù)驅(qū)動(dòng)的研究方法,會(huì)成為一種新的科研范式、帶來真正的創(chuàng)新嗎?抑或它只會(huì)強(qiáng)化已知的理論,甚至阻礙知識邊界的突破?
2009年,美國著名理論物理學(xué)家、諾貝爾獎(jiǎng)獲得者菲利普·安德森在Science雜志上發(fā)表了題為《機(jī)器離科學(xué)革命還有距離》的文章。他指出,科學(xué)實(shí)踐分為兩類,一類是大部分科學(xué)家大部分時(shí)間都在做的常規(guī)科學(xué),它只是在充實(shí)、完善已有科學(xué)范式的結(jié)果;還有一類就是偶爾發(fā)生的科學(xué)革命,帶來新的科學(xué)范式。安德森認(rèn)為,機(jī)器也許可以對前者有貢獻(xiàn),但他沒有看到有任何機(jī)制足以讓機(jī)器來創(chuàng)造一場科學(xué)革命。
湯超對此并不十分認(rèn)同,他認(rèn)為,AI是否能發(fā)現(xiàn)新的科學(xué)規(guī)律、引發(fā)科學(xué)革命,是一個(gè)值得探索的問題。他說,AIforScience應(yīng)該有3個(gè)層次的含義:第一個(gè)層次就是大家當(dāng)下在做的事情,即將深度學(xué)習(xí)用于不同的場景、不同的學(xué)科,解決的是比較具體的問題,影響比較大,見效也比較快;第二個(gè)層次,是利用AI來發(fā)現(xiàn)新的科學(xué)問題,比如,用大量的行星運(yùn)動(dòng)數(shù)據(jù)來訓(xùn)練AI,AI應(yīng)該很容易就能預(yù)測出行星的軌道,以及將來任何時(shí)刻行星在軌道上的位置;最后,也就是第三個(gè)層次,AIforScience還意味著去探索人工智能背后的科學(xué)原理。
在溫書豪看來,AIforScience正呈加速度發(fā)展,當(dāng)技術(shù)跨過一個(gè)閾值點(diǎn)的時(shí)候,可能所使用的科學(xué)研究方法、發(fā)現(xiàn)問題的方式就和現(xiàn)在不一樣了,能為研發(fā)工作帶來根本性的轉(zhuǎn)變,也會(huì)帶來全新的可能。
徐波認(rèn)為:“ChatGPT可能會(huì)啟發(fā)研究人員產(chǎn)生新的、意想不到的實(shí)驗(yàn)方案、實(shí)驗(yàn)步驟等,有時(shí)甚至?xí)蚱茖W(xué)者的思維定式?!?/p>
不過,現(xiàn)實(shí)是骨感的,AIforScience的科學(xué)研究目前依然存在挑戰(zhàn)。AI推動(dòng)科學(xué)研究最知名的成果,當(dāng)屬AlphaFold,它不僅讓蛋白質(zhì)結(jié)構(gòu)預(yù)測研究跨入了一個(gè)新階段,也將人們對AIforScience的關(guān)注推向高潮。
2022年7月,DeepMind公司與歐洲生物信息研究所的合作團(tuán)隊(duì)公布,他們利用人工智能系統(tǒng)AlphaFold預(yù)測出超過100萬個(gè)物種的2.14億個(gè)蛋白質(zhì)結(jié)構(gòu),幾乎涵蓋了地球上所有已知的蛋白質(zhì)。在它出現(xiàn)之前,科學(xué)家解析的蛋白結(jié)構(gòu)只覆蓋了17%的人類蛋白序列;它出現(xiàn)后,98.5%的人類蛋白的結(jié)構(gòu)已被其預(yù)測出來。
然而,以藥物研發(fā)為例,裴劍鋒說,這是一個(gè)遠(yuǎn)比蛋白質(zhì)結(jié)構(gòu)預(yù)測復(fù)雜得多的問題。在化學(xué)和藥學(xué)領(lǐng)域,AI正在發(fā)揮重要作用,但目前還沒有誕生像AlphaFold這樣極具突破性的里程碑式的成果。
諸多困難使得AI制藥至今仍面臨低成功率的瓶頸。一位不愿具名的制藥界學(xué)者表示,首先,因?yàn)樯矬w系太復(fù)雜,要使用AI模型對其進(jìn)行模擬,去了解一款藥物對人體產(chǎn)生的影響,就需要做很多簡化,這會(huì)導(dǎo)致很多實(shí)驗(yàn)的精度和準(zhǔn)確性丟失。很多藥物研發(fā)的AI模型,在大規(guī)模的數(shù)據(jù)統(tǒng)計(jì)中,并沒有產(chǎn)生具有顯著統(tǒng)計(jì)學(xué)意義的結(jié)果。
其次,ChatGPT大模型之所以成功,一個(gè)關(guān)鍵原因是引入了強(qiáng)化學(xué)習(xí)的機(jī)制,對AI的回答進(jìn)行人類打分,訓(xùn)練它在眾多可能的回答中選擇那些更加符合人類預(yù)期的答案。然而,在藥物研發(fā)領(lǐng)域,要判斷一個(gè)分子的優(yōu)劣,情況要復(fù)雜得多。2023年年初,藥物研發(fā)科技公司水木未來的CEO郭春龍?jiān)诮邮苊襟w采訪時(shí)說過,不像ChatGPT的強(qiáng)化學(xué)習(xí),給一個(gè)蛋白質(zhì)的序列加上標(biāo)簽往往需要大量的實(shí)驗(yàn),成本要高很多。
數(shù)據(jù)是更加嚴(yán)峻的限制。前述制藥界學(xué)者指出,即使是一個(gè)大型藥廠積累幾十年的數(shù)據(jù),對一個(gè)AI大數(shù)據(jù)模型來說,數(shù)據(jù)量還是不足。因?yàn)榛衔锓N類太廣了,大約是10200,即便人類能積累100億個(gè)數(shù)據(jù),也只是1010,相較之下簡直是“九牛一毛”,嚴(yán)重不足的數(shù)據(jù)使得AI制藥模型的泛化能力受到很大限制。
2023年的一場論壇上,創(chuàng)新藥物研發(fā)平臺百圖生科的副總裁瞿佳潤談道,相比算力和算法,在AIforScience中,最重要的挑戰(zhàn)還是數(shù)據(jù),尤其是在生物行業(yè)。AI只是一個(gè)工具上的變化,并不能扭轉(zhuǎn)一些本質(zhì)問題。
劉淼也強(qiáng)調(diào),就拿他所在的材料科學(xué)領(lǐng)域來說,現(xiàn)在業(yè)界開展材料數(shù)據(jù)研發(fā)的機(jī)構(gòu)很多,但多數(shù)都是基于一些公有的數(shù)據(jù)集,并沒有自己的核心競爭力。
就在2023年4月18日,AI制藥先驅(qū)公司RelayTherapeutics披露了其在研抗腫瘤抑制劑RLY-2608的初步臨床數(shù)據(jù)。從這款在研藥物的初步臨床數(shù)據(jù)來看,其安全性比較有優(yōu)勢,但療效遠(yuǎn)未達(dá)到預(yù)期,16例受試患者中僅1例有陽性結(jié)果。
不管效率如何提升,業(yè)內(nèi)達(dá)成共識的是:AI不會(huì)取代科學(xué)家。正如溫書豪所說,偉大的數(shù)學(xué)家會(huì)問為什么1+1=2,然而AI不會(huì)。AI會(huì)成為超級工具,會(huì)幫助人類記住無法記住的龐雜知識、計(jì)算無法計(jì)算的復(fù)雜方程,但是,深度思考和提問,依然是人獨(dú)特而不可替代的能力。
2023年2月,發(fā)表在Nature網(wǎng)站的《AI如何改變數(shù)學(xué)》一文中,美國圣塔菲研究所(世界知名的復(fù)雜性科學(xué)研究中心)的計(jì)算機(jī)科學(xué)家和認(rèn)知科學(xué)家梅蘭妮·米切爾表示,數(shù)學(xué)家暫時(shí)還不會(huì)因?yàn)锳I而丟飯碗,除非AI的一個(gè)主要缺陷被攻克——目前,它們還無法從具體信息中提取抽象概念?!癆I系統(tǒng)或許能證明定理,但你首先要提出這些定理背后有意思的抽象數(shù)學(xué)概念,這比證明定理難多了?!泵诽m妮·米切爾說。