許林玉/編譯
科學(xué)發(fā)現(xiàn)能否實(shí)現(xiàn)自動化?
許林玉/編譯
● 科學(xué)進(jìn)步的速度只能與人類思考的速度保持同步,而將這一工作外包給人工智能也許能改變這一狀況。
科學(xué)正在遭遇一場數(shù)據(jù)危機(jī)。去年,僅生物醫(yī)學(xué)領(lǐng)域就發(fā)表了120多萬篇新論文,使經(jīng)同行評議的生物醫(yī)學(xué)論文總數(shù)超過2600萬篇。然而,一名普通的科學(xué)家一年閱讀的論文只有250篇左右。與此同時(shí),科學(xué)文獻(xiàn)的質(zhì)量一直呈下降趨勢。最近的一些研究表明,大多數(shù)生物醫(yī)學(xué)論文無法復(fù)制。
科學(xué)論文面臨的數(shù)量太多而質(zhì)量欠佳的雙重挑戰(zhàn)根源于人類心智的有限神經(jīng)容量??茖W(xué)家們在我們集體知識的越來越小的部分上形成假說,因此,他們所探究的很多問題本身就是錯(cuò)誤的,或者已經(jīng)有了答案。此外,人類的創(chuàng)造力似乎越來越多地依賴于以往經(jīng)驗(yàn)的隨機(jī)性——能夠讓研究人員注意到別人沒能注意到的特殊生活事件。盡管契機(jī)一直是科學(xué)發(fā)現(xiàn)的一大因素,但目前它所發(fā)揮的作用大大超出了應(yīng)有的作用。
化解當(dāng)前危機(jī)的一個(gè)有前景的策略是將機(jī)器和人工智能應(yīng)用于科學(xué)過程。機(jī)器的存儲能力和計(jì)算能力均高于人腦。科學(xué)過程的自動化可大幅加快科學(xué)發(fā)現(xiàn)的速度,甚至可能開啟一場新的科學(xué)革命。這種巨大的可能性取決于一個(gè)同樣重大的問題:科學(xué)發(fā)現(xiàn)真的可以實(shí)現(xiàn)自動化嗎?
通過使用一種我們在幾個(gè)世紀(jì)以前就熟悉的方法,我相信可以做到這一點(diǎn)。這個(gè)問題的答案可以從17世紀(jì)英國哲學(xué)家和現(xiàn)代科學(xué)先驅(qū)弗朗西斯·培根爵士(SirFrancisBacon)的著作中找到。
早在幾百年前,強(qiáng)調(diào)經(jīng)驗(yàn)主義和實(shí)驗(yàn)的伊本·艾爾-海什木(Ibnal-Haytham)等思想家就率先重申了這種科學(xué)方法。然而,最先正式構(gòu)建這種科學(xué)方法并使其成為研究主題的人卻是培根。在培根所著的《新工具論》(1620)中,他提出了一個(gè)現(xiàn)在仍被稱作培根法(Baconianmethod,又作培根歸納法)的發(fā)現(xiàn)模式。他反對用演繹推理的邏輯進(jìn)行科學(xué)綜合,認(rèn)為這種方法并不可靠。相反,他提出了一種方法——使用歸納邏輯生成可概括的思想,系統(tǒng)收集有關(guān)某一特定現(xiàn)象的觀察結(jié)果,然后將其列成表格并進(jìn)行客觀分析。在他看來,只有當(dāng)思想不被殘缺(因此是錯(cuò)誤的)的公理禁錮時(shí),真理才會顯現(xiàn)。
培根法試圖通過描述科學(xué)綜合的步驟并且分別對其進(jìn)行優(yōu)化,去除觀察和概念化過程中出現(xiàn)的邏輯偏見。培根希望利用一個(gè)觀察者群體收集大量關(guān)于自然的信息,并將其匯總為可以進(jìn)行歸納分析的重要記錄。在《新工具論》中,他寫道:“經(jīng)驗(yàn)主義者好比螞蟻,它們只是收集物品加以利用。理性主義者如同蜘蛛,它們只是吐絲結(jié)網(wǎng)。而蜜蜂的方法最好,它們采取一種折中的辦法:采用現(xiàn)成材料并對其加以利用。
如今,培根法已經(jīng)鮮有人使用。事實(shí)證明,這種方法太過費(fèi)力,而且代價(jià)高昂,技術(shù)應(yīng)用也都不甚明朗。然而,在當(dāng)時(shí),這樣一種科學(xué)方法的規(guī)范化可謂是革命性的進(jìn)步。此前,科學(xué)屬于形而上學(xué),只有少數(shù)知識淵博的人才能涉足其中,而他們大多出身貴族。培根否認(rèn)了古希臘人的權(quán)威,并對發(fā)現(xiàn)的步驟進(jìn)行了闡釋,描繪出一幅無論出身貴賤,人人皆可成為科學(xué)家的藍(lán)圖。
培根的見解還揭示了一個(gè)隱藏的重要真相:發(fā)現(xiàn)過程具備固有的算法。它是數(shù)量有限的步驟的結(jié)果,這些步驟會不斷重復(fù),直到出現(xiàn)有意義的結(jié)果。在描述他的方法時(shí),培根明確使用了“機(jī)器”一詞。他的科學(xué)算法有三個(gè)基本要素:第一,必須將觀察結(jié)果收集起來,并整合到整個(gè)知識語料庫中。第二,新的觀察結(jié)果要用于生成新的假設(shè)。第三,通過精心設(shè)計(jì)的實(shí)驗(yàn)對假設(shè)進(jìn)行檢驗(yàn)。
如果科學(xué)是算法,那么它肯定具有實(shí)現(xiàn)自動化的潛力。幾十年來,這個(gè)未來主義的夢想一直被信息和計(jì)算機(jī)科學(xué)家無視。在很大程度上,這是因?yàn)榭茖W(xué)發(fā)現(xiàn)的三個(gè)重要步驟處于不同的層面。觀察屬于感覺層面,假設(shè)的生成屬于精神層面,而實(shí)驗(yàn)屬于機(jī)械層面。科學(xué)過程的自動化要求機(jī)器在每一個(gè)步驟中都能夠有效配合,并且三個(gè)層面能毫無摩擦地互相傳輸。沒有人知道如何做到這一點(diǎn)。
近來,實(shí)驗(yàn)已經(jīng)取得了重大進(jìn)展。例如,制藥行業(yè)普遍使用自動化的高通量藥物設(shè)計(jì)平臺。設(shè)在美國加州的Transcriptic和EmeraldCloudLab等初創(chuàng)公司正在構(gòu)建系統(tǒng),讓每一個(gè)生物醫(yī)學(xué)科學(xué)家從事的體力活都實(shí)現(xiàn)自動化。科學(xué)家可以在線提交他們的實(shí)驗(yàn),而這些實(shí)驗(yàn)會在網(wǎng)絡(luò)上轉(zhuǎn)換成代碼,并被輸送至可開展一系列生物實(shí)驗(yàn)的機(jī)器人平臺。這些解決方案與需要進(jìn)行密集實(shí)驗(yàn)的相關(guān)學(xué)科(如分子生物學(xué)和化學(xué)工程)存在極大的關(guān)聯(lián)性,但類似的方法也可以應(yīng)用于其他數(shù)據(jù)密集型領(lǐng)域,甚至延伸至理論學(xué)科。
自動化的假設(shè)生成并沒有那么先進(jìn),但唐·斯旺森(DonSwanson)在20世紀(jì)80年代開展的工作向前推進(jìn)了重要的一步。他證明了科學(xué)文獻(xiàn)中的不相關(guān)概念之間隱藏聯(lián)系的存在。他利用簡單的演繹邏輯框架,在引文無重疊的各個(gè)領(lǐng)域的論文之間建立了聯(lián)系。通過這種方式,斯旺森在未進(jìn)行任何實(shí)驗(yàn),自己也不是食用魚油和雷諾綜合癥領(lǐng)域的專家的情況下,做出了這樣的假設(shè):食用魚油和雷諾綜合癥之間存在新奇的聯(lián)系。最近出現(xiàn)的其他方法,如芝加哥大學(xué)安德烈·柴斯基(AndreyRzhetsky)和東北大學(xué)阿爾伯特-拉斯洛·巴拉巴斯(Albert-LászlóBarabási)使用的方法,均建立在數(shù)學(xué)建模和圖論的基礎(chǔ)之上。他們將巨大的數(shù)據(jù)集合并在一起,數(shù)據(jù)集里的知識被設(shè)計(jì)成網(wǎng)絡(luò),其中節(jié)點(diǎn)表示概念,而鏈接表示它們之間的關(guān)系。新的假設(shè)將會展現(xiàn)為節(jié)點(diǎn)之間未被發(fā)現(xiàn)的鏈接。
在自動化過程中,最具挑戰(zhàn)性的步驟是如何收集大量可靠的科學(xué)觀察結(jié)果。目前,人們尚未從觀察層面建立可容納人類所有科學(xué)知識的中心數(shù)據(jù)庫。自然語言處理已經(jīng)發(fā)展到了一個(gè)臨界點(diǎn),它不僅可以自動提取出關(guān)系,還可以從科學(xué)論文中提取語境。然而,主要的科學(xué)出版商已經(jīng)對文本挖掘加以嚴(yán)格限制。更重要的是,論文的文本偏向于科學(xué)家的解釋(或誤解),而且包含難以提取和量化的復(fù)雜合成概念和方法。
然而,最近在計(jì)算機(jī)和網(wǎng)絡(luò)數(shù)據(jù)庫方面的進(jìn)展使培根法在歷史上第一次成為現(xiàn)實(shí)。甚至在科學(xué)發(fā)現(xiàn)能夠?qū)崿F(xiàn)自動化之前,只要純粹的還原論超出適用范圍,那么培根法就是極具價(jià)值的。
在大數(shù)據(jù)時(shí)代,人類的思維無法有效重建高度復(fù)雜的自然現(xiàn)象。結(jié)合還原理念的現(xiàn)代培根歸納法,可以通過數(shù)據(jù)挖掘(再以歸納計(jì)算模型分析這些信息)改變我們對自然界的理解。通過這樣的方法,我們可生成更有可能是正確的新奇假設(shè),填補(bǔ)人類知識的空白。它還提供了一個(gè)人們所急需的提醒,即科學(xué)應(yīng)該追求真理、反對權(quán)威并享有無限自由。
[資料來源:TheAtlantic][責(zé)任編輯:朝 云]