Mrten R.Doelere , Pieter P.Plehiers , Ruen Vn de Vijver , Christin V.Stevens ,Kevin M.Vn Geem ,*
a Laboratory for Chemical Technology, Department of Materials, Textiles and Chemical Engineering, Ghent University, Ghent 9052, Belgium
b S ynBioC Research Group, Department of Green Chemistry and Technology, Faculty of Bioscience Engineering, Ghent University, Ghent 9000, Belgium
在化學(xué)工程130年的發(fā)展中,數(shù)學(xué)建模對于工程師理解和設(shè)計(jì)化學(xué)過程而言非常寶貴。Octave Levenspiel甚至指出建模是化學(xué)工程中的主要發(fā)展[1]。如今世界快速發(fā)展,挑戰(zhàn)比以往任何時(shí)候都要多。預(yù)測某些事件結(jié)果的能力是必要的,無論這些事件是否與新疾病活性藥物成分的發(fā)現(xiàn)或合成有關(guān),或者是否與為滿足更嚴(yán)格的環(huán)境立法而提高工藝效率有關(guān)。這些事件的范圍包括從表面反應(yīng)的反應(yīng)速率、反應(yīng)器中反應(yīng)的選擇性到反應(yīng)器中熱量供應(yīng)的控制??梢允褂靡呀?jīng)建立了幾百年的理論模型進(jìn)行預(yù)測。描述黏性流體行為的Navier-Stokes 方程[2?3]就是這種理論模型的一個(gè)例子。然而,這些模型大多數(shù)都不能對現(xiàn)實(shí)系統(tǒng)進(jìn)行分析求解,并且需要相當(dāng)大的計(jì)算能力來進(jìn)行數(shù)值求解。這一缺陷使大多數(shù)工程師首先選用簡單的模型來描述現(xiàn)實(shí)情況。歷史上,一個(gè)重要且對如今而言仍然相關(guān)的例子是普朗特邊界層模型[4]。在計(jì)算化學(xué)中,科學(xué)家和工程師愿意為了縮短計(jì)算時(shí)間而放棄一些精度。與更高層次的理論模型相比,這種意愿解釋了密度泛函理論的流行。然而,在許多情況下仍然需要更高的精度。
幾十年的建模、模擬和實(shí)驗(yàn)為化學(xué)工程界提供了大量的數(shù)據(jù),這些數(shù)據(jù)作為額外的建模工具包增加了根據(jù)經(jīng)驗(yàn)進(jìn)行預(yù)測的選擇。機(jī)器學(xué)習(xí)模型是統(tǒng)計(jì)和數(shù)學(xué)模型,其可以從經(jīng)驗(yàn)中“學(xué)習(xí)”,并在數(shù)據(jù)中發(fā)現(xiàn)模式,并且不需要顯式的、基于規(guī)則的編程。作為一個(gè)研究領(lǐng)域,機(jī)器學(xué)習(xí)是人工智能(AI)研究領(lǐng)域下的子領(lǐng)域。人工智能是指機(jī)器執(zhí)行任務(wù)的能力,這些任務(wù)通常與智能生物(如人類)的行為有關(guān)。如圖1 所示,這并不是一個(gè)全新的領(lǐng)域。“人工智能”一詞創(chuàng)造于1956年在美國達(dá)特茅斯學(xué)院為數(shù)學(xué)家舉辦的一個(gè)夏季研討會(huì)上,該研討會(huì)旨在開發(fā)更多具有認(rèn)知能力的機(jī)器。從那時(shí)起,經(jīng)過十?dāng)?shù)年的努力,人工智能技術(shù)才首次應(yīng)用于化學(xué)工程中[5]。在20世紀(jì)80年代,更多的關(guān)注偏向于規(guī)則式專家系統(tǒng),因?yàn)檫@被認(rèn)為是人工智能最簡單的形式。在那時(shí),機(jī)器學(xué)習(xí)領(lǐng)域的研究已經(jīng)開始興起。但在化學(xué)工程領(lǐng)域,除去個(gè)別例外,機(jī)器學(xué)習(xí)的發(fā)展滯后了大約10年。20世紀(jì)90年代,隨著聚類算法、遺傳算法和最為成功的人工神經(jīng)網(wǎng)絡(luò)(ANN)的采用,關(guān)于人工智能在化學(xué)工程中應(yīng)用的論文著述出版量突然增多。然而,這種趨勢并非可持續(xù)的。Venkatasubra‐manian[6]認(rèn)為這種興趣的喪失可能是由于機(jī)器學(xué)習(xí)缺乏強(qiáng)大的計(jì)算能力和創(chuàng)建算法任務(wù)的困難性所致。
過去十年中,一個(gè)標(biāo)志性的突破是深度學(xué)習(xí)的發(fā)展,深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究領(lǐng)域的子領(lǐng)域,它構(gòu)建人工神經(jīng)網(wǎng)絡(luò)來模仿人類大腦。正如上文所提及的,人工神經(jīng)網(wǎng)絡(luò)從20 世紀(jì)90 年代開始在化學(xué)工程師中流行起來:然而,深度學(xué)習(xí)時(shí)代的不同之處在于,深度學(xué)習(xí)為多層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練提供了計(jì)算手段,即所謂的深度神經(jīng)網(wǎng)絡(luò)。這些新發(fā)展激發(fā)了化學(xué)工程師的靈感,這從關(guān)于該主題的論文著述出版數(shù)量的指數(shù)級(jí)增長上也可以反映出來。過去,人工智能技術(shù)永遠(yuǎn)不會(huì)作為標(biāo)準(zhǔn)工具用于化學(xué)工程中;因此,對于當(dāng)前是否是將之最終納入標(biāo)準(zhǔn)工具箱的合適時(shí)機(jī),是值得討論的。本文將首先概述當(dāng)今機(jī)器學(xué)習(xí)應(yīng)用于化學(xué)工程的三個(gè)主要環(huán)節(jié)。本文接下來將批判性地討論機(jī)器學(xué)習(xí)在化學(xué)工程中不斷增長的潛力;文中將調(diào)查其利弊,并列出可能的原因來討論為什么機(jī)器學(xué)習(xí)在化學(xué)工程中仍是“熱門”的話題或?yàn)槭裁此罱K會(huì)“不再熱門”。
如圖2所示,機(jī)器學(xué)習(xí)方法由三個(gè)重要環(huán)節(jié)組成:數(shù)據(jù)、表示和模型。機(jī)器學(xué)習(xí)方法的第一個(gè)環(huán)節(jié)是用來訓(xùn)練模型的數(shù)據(jù)。正如后面將要討論的,所使用的數(shù)據(jù)也被證實(shí)是機(jī)器學(xué)習(xí)過程中最薄弱的環(huán)節(jié)。實(shí)際上,任何包含實(shí)驗(yàn)、第一性原理計(jì)算或復(fù)雜仿真模型結(jié)果的數(shù)據(jù)集都可以用來訓(xùn)練模型。然而,由于收集大量準(zhǔn)確數(shù)據(jù)的成本很高,習(xí)慣上使用“大數(shù)據(jù)”的方法,即使用來自各種現(xiàn)有來源的大型數(shù)據(jù)庫。由于真實(shí)實(shí)驗(yàn)的成本高昂,這些大量的數(shù)據(jù)通常是通過快速模擬或從專利和已發(fā)表的作品中進(jìn)行文本挖掘獲得的。數(shù)字化研究的增加為科學(xué)界提供了大量的公開資源和商業(yè)數(shù)據(jù)庫。常用的化學(xué)信息來源有Reaxys [7]、SciFinder [8],用于反應(yīng)化學(xué)和性質(zhì)研究的ChemSpace[9],用于小的藥物分子的GDB-17[10],以及美國國家標(biāo)準(zhǔn)與技術(shù)研究所(NIST)[11]和對溶解度等分子性質(zhì)進(jìn)行研究的國際純粹與應(yīng)用化學(xué)聯(lián)合會(huì)(IUPAC)[12]。此外,還創(chuàng)建了幾個(gè)基準(zhǔn)數(shù)據(jù)集,以便在不同的機(jī)器學(xué)習(xí)模型之間進(jìn)行比較。這些基準(zhǔn)測試集的例子有用于量子化學(xué)性質(zhì)的QM9 和Alchemy [13],以及用于溶解度的ESOL[14]和FreeSolv [15]。在使用任何數(shù)據(jù)集進(jìn)行基于機(jī)器學(xué)習(xí)的建模之前,應(yīng)該采取幾個(gè)步驟來確保使用的數(shù)據(jù)質(zhì)量足夠高。確保數(shù)據(jù)質(zhì)量的一般方面——從生成到存儲(chǔ)——被稱為數(shù)據(jù)管理。關(guān)于數(shù)據(jù)管理必要性和結(jié)果的更多細(xì)節(jié)將在下文進(jìn)一步討論。
圖1.人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的發(fā)展時(shí)間表。關(guān)于人工智能在化學(xué)工程領(lǐng)域應(yīng)用的出版物的發(fā)展表明,出版物數(shù)量上升之后是一個(gè)興趣淡漠的階段。目前,化工領(lǐng)域的人工智能研究再次處于“火熱”階段,然而現(xiàn)在尚不清楚曲線是否會(huì)很快回落。
機(jī)器學(xué)習(xí)(更具體地說是深度學(xué)習(xí)方法)與傳統(tǒng)建模之間存在一些關(guān)于數(shù)據(jù)使用的差異。首先,人工神經(jīng)網(wǎng)絡(luò)從數(shù)據(jù)中學(xué)習(xí)并自我訓(xùn)練,而這樣做需要大量的數(shù)據(jù)。因此,訓(xùn)練數(shù)據(jù)集通常包含數(shù)萬到數(shù)十萬個(gè)數(shù)據(jù)點(diǎn)。其次,數(shù)據(jù)集被分成三個(gè)而不是兩個(gè)集:訓(xùn)練集、驗(yàn)證集和測試集。訓(xùn)練集和驗(yàn)證集都用于訓(xùn)練階段,而只有訓(xùn)練集中的數(shù)據(jù)用于擬合。驗(yàn)證集是一個(gè)獨(dú)立的數(shù)據(jù)集,為訓(xùn)練階段提供對模型擬合的公正評估。測試集用不可見數(shù)據(jù)評估最終的模型擬合,并且通常是模型質(zhì)量的主要指標(biāo)。
機(jī)器學(xué)習(xí)方法的第二個(gè)重要環(huán)節(jié)是如何在模型中表示數(shù)據(jù)。即使數(shù)據(jù)已經(jīng)是數(shù)字格式的,輸入模型的變量或特征的選擇也會(huì)對模型的結(jié)果產(chǎn)生重大影響。這一過程被稱為特征選擇,并且已經(jīng)成為許多研究的熱點(diǎn)話題[16?19]。對所選擇特征的數(shù)量進(jìn)行限制可以減少訓(xùn)練和執(zhí)行模型所需的計(jì)算成本,同時(shí)提高整體精度。這種特征選擇過程在所謂的深度學(xué)習(xí)方法中相對不那么重要,因?yàn)樯疃葘W(xué)習(xí)方法被假定在內(nèi)部已選擇了那些被認(rèn)為是重要的特征[20]。然后,一個(gè)由基本工藝參數(shù)(如壓力、溫度、停留時(shí)間等)、原料表征(如蒸餾曲線、原料組成等)或催化劑性能(如比表面積、煅燒時(shí)間等)組成的輸入層通常是足夠的[21?27]。然而,在非數(shù)值數(shù)據(jù)(如分子和反應(yīng))的情況下,表征數(shù)據(jù)這一任務(wù)變得更具挑戰(zhàn)性。
化學(xué)工程的任務(wù)通常涉及分子和(或)化學(xué)反應(yīng)。為這些數(shù)據(jù)類型創(chuàng)建合適的數(shù)字化表征本身就是一個(gè)正在發(fā)展的領(lǐng)域。在計(jì)算機(jī)應(yīng)用中,分子構(gòu)成通常由基于線的標(biāo)識(shí)符表示,如簡化分子輸入線性輸入系統(tǒng)(SMILES)[28]或IUPAC國際化學(xué)標(biāo)識(shí)符(InChIs)[29]或三維(3D)坐標(biāo)。最近,自引用嵌入字符串(SELFIES)[30]是一種為機(jī)器學(xué)習(xí)應(yīng)用設(shè)計(jì)開發(fā)的分子字符串表征。分子信息被轉(zhuǎn)換成特征向量或張量,并輸入到深度神經(jīng)網(wǎng)絡(luò)或其他機(jī)器學(xué)習(xí)模型中去。第一種表示分子的方法是選用一組分子描述符,如相對分子質(zhì)量、偶極矩或介電常數(shù)[31?33]。另一種生成分子特征向量的方法是從3D幾何開始。基于幾何表示的例子有庫侖矩陣[34]、化學(xué)鍵分組(分子向量化表示)[35]以及距離、角度和二面角的直方圖[36]。然而,在許多應(yīng)用程序中,3D坐標(biāo)或計(jì)算屬性通常不可用。在這種情況下,可以從一個(gè)分子圖開始創(chuàng)建表征,從而產(chǎn)生所謂的基于拓?fù)涞谋硎痉椒ā?/p>
基于拓?fù)涞谋硎痉椒ㄖ豢墒褂没诰€的標(biāo)識(shí)符。編碼器可以使用自然語言處理技術(shù)直接將基于線的標(biāo)識(shí)符轉(zhuǎn)換為表示形式[37?41],但通常是將基于線的標(biāo)識(shí)符以類似于基于幾何表征的方式轉(zhuǎn)換為特征向量[42?60]。這是通過向分子圖中添加簡單的原子和鍵的特征,然后在原子和鍵之間迭代傳輸信息來實(shí)現(xiàn)的?;谀Ω惴╗61]的圓形指紋[42?46],如擴(kuò)展連通性指紋[62],是機(jī)器學(xué)習(xí)應(yīng)用的第一批分子表示形式之一。這些指紋就是所謂的固定分子表示,因?yàn)樗鼈冊跈C(jī)器學(xué)習(xí)模型的訓(xùn)練過程中不會(huì)發(fā)生改變。固定分子表示在藥物設(shè)計(jì)中仍然流行,因?yàn)槠淇梢钥焖兕A(yù)測候選藥物的物理、化學(xué)和生物學(xué)特性[63]。由于在每個(gè)預(yù)測任務(wù)中,一個(gè)固定的表示向量代表一個(gè)分子,這種類型的輸入層似乎與深度神經(jīng)網(wǎng)絡(luò)的定義相沖突,因?yàn)樯疃壬窠?jīng)網(wǎng)絡(luò)被假定為是從重要特征[64]中學(xué)習(xí)的。人們越來越傾向于學(xué)習(xí)如何表示一個(gè)分子[47,52],而不是聚焦在人類工程中的特征向量,因?yàn)槿藗冋J(rèn)為,在數(shù)據(jù)更少、計(jì)算成本更低的情況下,更好地捕捉特征能確保更高的精度[53,58]。
圖2.化學(xué)工程機(jī)器學(xué)習(xí)的三個(gè)主要環(huán)節(jié);每個(gè)部分都對最終預(yù)測結(jié)果有影響,應(yīng)該謹(jǐn)慎處理。
已學(xué)習(xí)的分子表征會(huì)被設(shè)計(jì)為預(yù)測模型的一部分。從幾個(gè)初始的分子特征,如重原子、鍵類型和環(huán)特征開始創(chuàng)建分子表示方法,并且在訓(xùn)練期間進(jìn)行更新。這種選擇也表明,根據(jù)預(yù)測任務(wù)的不同,分子會(huì)有不同的表示方法??梢允褂肎ilmer等[59]綜述的消息傳遞神經(jīng)網(wǎng)絡(luò)框架來描述廣泛已學(xué)習(xí)的基于拓?fù)涞谋硎痉椒╗47?58]。分子圖中原子和鍵信息的加權(quán)轉(zhuǎn)移是信息傳遞神經(jīng)網(wǎng)絡(luò)的特征。盡管有許多不同的表示形式存在,其復(fù)雜性各不相同,但值得注意的是,尚未開發(fā)出一種適用于所有類型分子性質(zhì)的統(tǒng)一表示形式[65]。關(guān)于分子表示更詳細(xì)的概述,讀者可以參考David等[60]的綜述。
就數(shù)據(jù)類型而言,化學(xué)反應(yīng)比分子更為復(fù)雜。與基于線的分子標(biāo)識(shí)符相似,化學(xué)反應(yīng)可以通過反應(yīng)SMILES[66]和反應(yīng)InChI(RInChI)[67]來識(shí)別,而SMIRKS[66]可以識(shí)別反應(yīng)機(jī)制。類似于分子,化學(xué)反應(yīng)也應(yīng)該被向量化以便在機(jī)器學(xué)習(xí)模型中發(fā)揮作用。最直接的方法是從反應(yīng)物的分子描述符(如指紋)開始,對其求和[68]、相減[50,69],或進(jìn)行串聯(lián)[70?72]。另一種方法是對于積極參與反應(yīng)的原子和鍵,學(xué)習(xí)其反應(yīng)表示[73]。反應(yīng)也可以保存為文本(通常是InChI),通過神經(jīng)機(jī)器翻譯后,有機(jī)反應(yīng)產(chǎn)物被視為反應(yīng)產(chǎn)物的翻譯[58,74?78]。
機(jī)器學(xué)習(xí)方法的最后一個(gè)前提是建模策略??晒┻x擇的機(jī)器學(xué)習(xí)模型種類很多。模型可以按不同的方式分類,可以根據(jù)其目的(分類或回歸)或?qū)W習(xí)方法(無監(jiān)督、有監(jiān)督、主動(dòng)或遷移學(xué)習(xí))來分類。一般來說,術(shù)語“機(jī)器學(xué)習(xí)”可以應(yīng)用于研究任何隱式建模數(shù)據(jù)集內(nèi)相關(guān)性的方法[79,80]。因此,許多目前被稱為機(jī)器學(xué)習(xí)方法的技術(shù)在被稱為機(jī)器學(xué)習(xí)之前就已經(jīng)開始使用了。其中兩個(gè)例子是高斯混合建模和主成分分析(PCA),它們分別起源于19世紀(jì)下半葉[81]和20 世紀(jì)初[82?83]。這兩個(gè)例子現(xiàn)在都被認(rèn)為是無監(jiān)督機(jī)器學(xué)習(xí)算法。其他類似的無監(jiān)督聚類方法有t分布隨機(jī)鄰域嵌入(t-SNE)[84]和基于密度的空間聚類(DBSCAN)在噪聲場景下的應(yīng)用[85]。圖3 顯示了監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)技術(shù)之間的區(qū)別,并給出了非詳盡的針對特定任務(wù)的有用算法的列表。在無監(jiān)督學(xué)習(xí)中,算法不需要任何“解”或標(biāo)簽來學(xué)習(xí);它會(huì)自己發(fā)現(xiàn)模式。無監(jiān)督學(xué)習(xí)技術(shù)已經(jīng)被用于化學(xué)工程的各種目的。Palko‐vits R 和Palkovits S[86]使用k-means 算法[87]根據(jù)催化劑的特征對其進(jìn)行聚類,并使用t-SNE將催化劑的高維表示可視化。t-SNE不僅可用于催化,還是高維數(shù)據(jù)可視化的首選方法;它還被用于診斷化學(xué)過程的故障[88?89]和預(yù)測反應(yīng)條件[69,90]。主成分分析(PCA)是另一種降維算法,已多次被化學(xué)工程師用來確定訓(xùn)練集中占最大方差的特征[91?97]。此外,PCA 還被用于異常值檢測[93,98]。其他用于異常檢測的算法包括DBSCAN 和長短期記憶(LSTM)[99?100]。有興趣的讀者可以參考閱讀Géron[101]的書以進(jìn)一步了解機(jī)器學(xué)習(xí)算法。
圖3.無監(jiān)督和有監(jiān)督機(jī)器學(xué)習(xí)算法的綜述;非詳盡列舉了有用算法。ANN:人工神經(jīng)網(wǎng)絡(luò);GMM:高斯混合建模;LSTM:長短期記憶。
當(dāng)數(shù)據(jù)集被標(biāo)記時(shí),即已知每個(gè)數(shù)據(jù)點(diǎn)的正確分類時(shí),可以使用如決策樹(及其擴(kuò)展方法隨機(jī)森林)的監(jiān)督分類方法[102?103]。支持向量機(jī)是另一種可行的監(jiān)督分類方法[104]。雖然支持向量機(jī)通常用于目的分類,但是也已經(jīng)進(jìn)行了擴(kuò)展以允許通過支持向量機(jī)進(jìn)行回歸?;貧w問題需要使用有監(jiān)督或主動(dòng)學(xué)習(xí)方法,盡管原則上來說,任何有監(jiān)督學(xué)習(xí)方法都可以歸入主動(dòng)學(xué)習(xí)方法中。人工神經(jīng)網(wǎng)絡(luò)(ANN)及其所有可能的變體[105?113]是最常與機(jī)器學(xué)習(xí)聯(lián)系在一起的方法。根據(jù)應(yīng)用的不同,可以選擇前饋神經(jīng)網(wǎng)絡(luò)(用于基于特征的分類或回歸)、卷積神經(jīng)網(wǎng)絡(luò)(用于圖像處理)或循環(huán)神經(jīng)網(wǎng)絡(luò)(用于異常檢測)?;瘜W(xué)工程師可能會(huì)遇到用于表示分子的卷積神經(jīng)網(wǎng)絡(luò)(見第2.2 節(jié))[42?60]、人工神經(jīng)網(wǎng)絡(luò)[32?33,47,91,114?117]、支持向量機(jī)[32]或用于預(yù)測表示性質(zhì)的核嶺回歸[36,118]。人工神經(jīng)網(wǎng)絡(luò)已被作為黑箱建模工具應(yīng)用于催化[23]、化工過程控制[119]和化工過程優(yōu)化[120]等眾多應(yīng)用中。當(dāng)已知標(biāo)簽時(shí),對數(shù)據(jù)點(diǎn)進(jìn)行分類的一種流行算法是k-最近鄰算法,該算法已被用于化學(xué)過程監(jiān)控[121?122]和催化劑聚類[86,123?124]。
本節(jié)和接下來的幾個(gè)小節(jié)將對化學(xué)工程師使用機(jī)器學(xué)習(xí)方法時(shí)的優(yōu)勢、限制、機(jī)會(huì)和挑戰(zhàn)進(jìn)行詳盡的綜述。圖4概述了下面將描述的內(nèi)容。
機(jī)器學(xué)習(xí)技術(shù)在化學(xué)和化學(xué)工程領(lǐng)域很受歡迎,因?yàn)樗梢越沂救祟惪茖W(xué)家無法發(fā)現(xiàn)的數(shù)據(jù)模式。與明確依賴于物理方程(由已知模式推導(dǎo)出)的物理模型不同,機(jī)器學(xué)習(xí)模型并不只依賴編程來解決某個(gè)問題。對于分類問題,這意味著沒有明確定義的決策函數(shù)必須被預(yù)先設(shè)計(jì)。對于回歸問題,這意味著不需要推導(dǎo)或參數(shù)化詳細(xì)的模型方程[80]。這些優(yōu)點(diǎn)能有效地升級(jí)大型系統(tǒng)和數(shù)據(jù)集,而不需要耗費(fèi)大量的計(jì)算資源。目前使用機(jī)器學(xué)習(xí)預(yù)測量子化學(xué)性質(zhì)的熱潮例證了機(jī)器學(xué)習(xí)技術(shù)的這些優(yōu)點(diǎn)[32?33,35?37,39?40,47,49?50,52,55,65,68,71,73,115]。通常的從頭計(jì)算方法往往需要花費(fèi)數(shù)小時(shí)或數(shù)天來計(jì)算單個(gè)分子的性質(zhì),而訓(xùn)練好的機(jī)器學(xué)習(xí)模型可以在幾分之一秒的時(shí)間內(nèi)做出準(zhǔn)確的預(yù)測。當(dāng)然,其他能夠準(zhǔn)確預(yù)測的快速技術(shù)也已經(jīng)開發(fā)出來了,但與機(jī)器學(xué)習(xí)模型相比,它們的應(yīng)用范圍有限[125]。機(jī)器學(xué)習(xí)的主要弱點(diǎn)是無法進(jìn)行外推,但通過簡單地添加新的數(shù)據(jù)點(diǎn),可以很容易地?cái)U(kuò)展機(jī)器學(xué)習(xí)的應(yīng)用范圍。主動(dòng)學(xué)習(xí)[126?127]使得用最少的新數(shù)據(jù)擴(kuò)展范圍成為可能,這對于標(biāo)記樣本代價(jià)非常大的情況(如尋找數(shù)據(jù)點(diǎn)的真實(shí)值)是理想的,如量子化學(xué)計(jì)算[116]或化學(xué)實(shí)驗(yàn)[72,128?129]。此外,現(xiàn)有的機(jī)器學(xué)習(xí)模型,如ChemProp[47]和SchNet[130?131],可以隨時(shí)使用,不需要經(jīng)驗(yàn)??偟膩碚f,機(jī)器學(xué)習(xí)在諸如scikit-learn [132]和TensorFlow [133]等軟件包以及Keras [134](現(xiàn)在是TensorFlow [133]的一部分)或PyTorch [135]等框架下變得非常容易使用,這些框架將深度學(xué)習(xí)模型的訓(xùn)練限制在幾行代碼中。這樣的軟件包和框架使科學(xué)家有機(jī)會(huì)將他們的研究重點(diǎn)聚焦在研究的實(shí)際物理意義上,而不是把寶貴的時(shí)間花在開發(fā)高階計(jì)算機(jī)模型上。
圖4.在化學(xué)工程中使用機(jī)器學(xué)習(xí)作為建模工具的優(yōu)勢、限制、機(jī)會(huì)和挑戰(zhàn)。
機(jī)器學(xué)習(xí)方法的主要弱點(diǎn)之一是它們的黑箱本質(zhì)。當(dāng)給定某個(gè)輸入時(shí),機(jī)器學(xué)習(xí)方法將提供一個(gè)輸出,如圖5所示?;谀P驮跍y試數(shù)據(jù)集上的統(tǒng)計(jì)性能,它可以對其輸出的精度和可靠性做出某些陳述。模型超參數(shù)(如人工神經(jīng)網(wǎng)絡(luò)中的節(jié)點(diǎn)數(shù))的詳細(xì)分析可能是乏味的,但可以對模型已學(xué)習(xí)的相關(guān)性提供一些見解。然而,為某些行為提取物理上有意義的解釋是不可行的。因此,無論其速度和精度如何,機(jī)器學(xué)習(xí)模型對于解釋性研究而言不是一個(gè)很好的選擇。
可解釋性的缺乏增加了設(shè)計(jì)合適的機(jī)器學(xué)習(xí)模型的難度。與任何模型一樣,機(jī)器學(xué)習(xí)模型會(huì)過擬合或欠擬合數(shù)據(jù),而適當(dāng)?shù)哪P臀挥趦烧咧g。對于機(jī)器學(xué)習(xí)模型來說,過擬合的風(fēng)險(xiǎn)通常高于欠擬合的風(fēng)險(xiǎn),這取決于訓(xùn)練數(shù)據(jù)的質(zhì)量、數(shù)量和模型的復(fù)雜性。過擬合是模型結(jié)構(gòu)的固有屬性,并不依賴于超參數(shù)的實(shí)際值,這可以類比于用高階多項(xiàng)式擬合(噪聲)去擬合帶噪聲的線性數(shù)據(jù)集。在深度學(xué)習(xí)中,過擬合通常表現(xiàn)為過度訓(xùn)練,當(dāng)模型多次顯示相同的數(shù)據(jù)時(shí),就會(huì)出現(xiàn)過度訓(xùn)練的現(xiàn)象。這導(dǎo)致模型記憶噪聲而不是捕捉一般本質(zhì)模式。通過將模型在訓(xùn)練數(shù)據(jù)上的性能與在驗(yàn)證和測試數(shù)據(jù)集上的性能進(jìn)行比較,可以鑒別出過度訓(xùn)練。如果測試集的效果明顯好于驗(yàn)證集的效果,那么模型可能訓(xùn)練過度。確定訓(xùn)練周期的數(shù)量往往很困難。為了避免過擬合,機(jī)器學(xué)習(xí)模型和其他優(yōu)化問題一樣需要一個(gè)停止準(zhǔn)則。在傳統(tǒng)建模中,模型通常涉及一些關(guān)于現(xiàn)實(shí)的至少某種形式的簡化。由于包含簡化,取得高精度的訓(xùn)練數(shù)據(jù)集是傳統(tǒng)建模的主要挑戰(zhàn),所以這種停止準(zhǔn)則通?;谟?xùn)練數(shù)據(jù)集表現(xiàn)的變化而定。對于機(jī)器學(xué)習(xí)模型來說,實(shí)現(xiàn)訓(xùn)練數(shù)據(jù)集的精度通常不是問題;相反,挑戰(zhàn)主要是當(dāng)模型處于沒有直接訓(xùn)練的情況下時(shí),如何取得高精度的數(shù)據(jù)。因此,停止準(zhǔn)則應(yīng)該基于模型對“不可見”數(shù)據(jù)(即所謂的驗(yàn)證數(shù)據(jù)集)的表現(xiàn)而定。為了嚴(yán)格測試優(yōu)化的數(shù)據(jù)集,需要一個(gè)完全獨(dú)立的數(shù)據(jù)集——測試數(shù)據(jù)集,這也是傳統(tǒng)建模方法中的常見做法。
機(jī)器學(xué)習(xí)方法的最后(但往往是最關(guān)鍵的)一個(gè)弱點(diǎn)是所使用的數(shù)據(jù)本身。如果數(shù)據(jù)集中存在過多的系統(tǒng)錯(cuò)誤,網(wǎng)絡(luò)本身也會(huì)產(chǎn)生系統(tǒng)錯(cuò)誤,這就是所謂的“垃圾進(jìn)—垃圾出”(GIGO)原則[136]。一些形式或來源的錯(cuò)誤可以相對容易地被識(shí)別,而另一些錯(cuò)誤一旦出現(xiàn)則很難被找到。如同每種統(tǒng)計(jì)方法一樣,可能會(huì)出現(xiàn)異常值。相較于大的數(shù)據(jù)集,在小數(shù)據(jù)集上進(jìn)行訓(xùn)練的模型更容易受到一些異常值的影響。這就是為什么在機(jī)器學(xué)習(xí)中不僅數(shù)據(jù)的質(zhì)量很重要,數(shù)量也很重要。一種可能的解決系統(tǒng)性錯(cuò)誤的方法是從數(shù)據(jù)集中手動(dòng)刪除這些數(shù)據(jù)點(diǎn);也可以使用算法進(jìn)行異常檢測,如PCA[69,92]、t-SNE [137?138]、DBSCAN[139?140],或循環(huán)神經(jīng)網(wǎng)絡(luò)(長短期記憶網(wǎng)絡(luò))[111,141?142]。近年來,基于自學(xué)習(xí)無監(jiān)督神經(jīng)網(wǎng)絡(luò)的異常檢測方法[143]已被開發(fā)出來[144?146]。除了簡單的異常值外,數(shù)據(jù)點(diǎn)也有可能是錯(cuò)誤的。這種錯(cuò)誤數(shù)據(jù)點(diǎn)可能來自一個(gè)測量錯(cuò)誤實(shí)驗(yàn)中的樣本,也可能來自一組不正確實(shí)驗(yàn)。例如,化學(xué)分析實(shí)驗(yàn)中儀器沒有校準(zhǔn)而產(chǎn)生的數(shù)據(jù)就是錯(cuò)誤數(shù)據(jù)。在一組系統(tǒng)錯(cuò)誤數(shù)據(jù)上進(jìn)行訓(xùn)練尤其危險(xiǎn),因?yàn)槟P蜁?huì)將錯(cuò)誤趨勢視為正確。通過對公開數(shù)據(jù)的認(rèn)真審查,有可能發(fā)現(xiàn)上述問題。這個(gè)例子說明了數(shù)據(jù)管理的重要性,它確保所使用的數(shù)據(jù)是準(zhǔn)確、可靠和可重復(fù)的。
圖5.解開黑箱模型的結(jié)果。不好的結(jié)果通常與所使用的訓(xùn)練集有關(guān)。當(dāng)測試超出應(yīng)用范圍時(shí),應(yīng)發(fā)出警告信號(hào)。對好的結(jié)果需要加以驗(yàn)證,以了解模型學(xué)習(xí)到了什么。
顯然,只有當(dāng)數(shù)據(jù)可用時(shí)才能對其進(jìn)行管理。盡管幾十年的建模、模擬和實(shí)驗(yàn)為化學(xué)工程界提供了大量的數(shù)據(jù),但這些數(shù)據(jù)通常存儲(chǔ)于研究實(shí)驗(yàn)室或公司,因此不容易獲得。即使可以訪問數(shù)據(jù),例如,讀取內(nèi)部數(shù)據(jù)庫,獲得的數(shù)據(jù)對機(jī)器學(xué)習(xí)而言可能也并非完全有用。使用文本挖掘技術(shù)從研究論文或?qū)@刑崛〉臄?shù)據(jù)[147]也存在同樣的情況。這些數(shù)據(jù)可能沒有用處的原因是一般情況下只會(huì)發(fā)表成功的實(shí)驗(yàn),而失敗的實(shí)驗(yàn)不會(huì)被發(fā)表出來[148]。此外,在人類化學(xué)工程師(具有洞察力和科學(xué)知識(shí))看來毫無意義的實(shí)驗(yàn)或操作條件數(shù)據(jù)不會(huì)被執(zhí)行。然而,機(jī)器學(xué)習(xí)算法卻不具備這些知識(shí),不包括這些“瑣碎”的數(shù)據(jù)可能會(huì)導(dǎo)致預(yù)測錯(cuò)誤。
機(jī)器學(xué)習(xí)方法的許多優(yōu)勢提供了各種各樣的應(yīng)用機(jī)會(huì),其最近的發(fā)展也緩和了一些針對機(jī)器學(xué)習(xí)的最重要的批評。幾乎所有經(jīng)過訓(xùn)練的機(jī)器學(xué)習(xí)方法都具有極高的執(zhí)行速度,這使得這些方法非常適配于在預(yù)定義系統(tǒng)邊界內(nèi)需要精度和速度的應(yīng)用程序。這類應(yīng)用的例子包括前饋過程控制和高頻實(shí)時(shí)優(yōu)化[149?151]。雖然對這些應(yīng)用場景來說經(jīng)驗(yàn)?zāi)P屯惹芳?,但詳?xì)的本質(zhì)模型卻因難以快速運(yùn)算而使得計(jì)算延遲無法被避免?;诒举|(zhì)模型訓(xùn)練的機(jī)器學(xué)習(xí)模型可以提供類似的精度,但需要付出經(jīng)驗(yàn)?zāi)P偷挠?jì)算成本。在這種情況下,模型是基于高等級(jí)數(shù)據(jù)訓(xùn)練的,并試圖預(yù)測經(jīng)驗(yàn)結(jié)果和真實(shí)值之間的差異[152?153]。無監(jiān)督算法可用于過程控制應(yīng)用以發(fā)現(xiàn)實(shí)時(shí)數(shù)據(jù)中的異常值[93]。機(jī)器學(xué)習(xí)方法是更準(zhǔn)確、更快速預(yù)測與可靠的工業(yè)數(shù)據(jù)的結(jié)合,為創(chuàng)造數(shù)字孿生和更好的控制提供了機(jī)會(huì),使得化學(xué)過程更為有效。
在多尺度建模方法中也可以得出類似的觀察結(jié)果,在這種方法中,可以對各種不同尺度的現(xiàn)象進(jìn)行建模,得到一組復(fù)雜且強(qiáng)耦合的方程組。機(jī)器學(xué)習(xí)在這類應(yīng)用中的潛力很大程度上取決于多尺度方法的目標(biāo)。如果目標(biāo)是獲得對低尺度現(xiàn)象的基本見解,那么機(jī)器學(xué)習(xí)就不可取,因?yàn)樗哂泻谙涮匦?。然而,如果將較小的尺度納入該方法,以獲得更精確的大尺度現(xiàn)象模型,那么機(jī)器學(xué)習(xí)可以用來替代較小尺度的緩慢的基本模型,而不影響大尺度現(xiàn)象的可解釋性。
機(jī)器學(xué)習(xí)的最后一個(gè)機(jī)會(huì)在于解決其主要缺陷:不可解釋性??山忉寵C(jī)器學(xué)習(xí)系統(tǒng)的問題并不是化學(xué)工程問題所獨(dú)有的,它幾乎存在于任何決策系統(tǒng)中[154?157]。在催化領(lǐng)域,有人試圖使機(jī)器模型所學(xué)習(xí)的內(nèi)容可理解化[158]。然而,這種嘗試仍然沒有為模型結(jié)果提供任何層級(jí)的直白解釋。圖5顯示了用于解釋為什么會(huì)得到某個(gè)結(jié)果的工作流。當(dāng)模型輸出一個(gè)好的結(jié)果時(shí),比如一個(gè)化學(xué)反應(yīng)預(yù)測器給出了正確的產(chǎn)品,只有在檢驗(yàn)了預(yù)測所憑借的基礎(chǔ)之后,這個(gè)模型才應(yīng)該是可信的。解釋模型結(jié)果的第一步是量化個(gè)體預(yù)測的不確定性[159?160],因?yàn)檫@提供了模型對其自身決策的置信度[115,161?164]。一個(gè)相對簡單的方法是通過集成建模。這種方法已經(jīng)在天氣預(yù)報(bào)中使用了幾十年,并且可以與幾乎任何類型的模型結(jié)合使用[165?167]。人們還創(chuàng)建了一些算法來確定某些輸入特征對輸出的影響程度[168],或查看模型對某個(gè)輸出使用了哪些訓(xùn)練點(diǎn)[169?170]。當(dāng)結(jié)果在化學(xué)或物理上看起來不合理時(shí),應(yīng)該尋找對抗性的例子來證偽模型而非驗(yàn)證模型[159]。而且,原因通常是在存在錯(cuò)誤數(shù)據(jù)或偏差的數(shù)據(jù)集中發(fā)現(xiàn)的[171?172]。
另一種使機(jī)器學(xué)習(xí)模型更具可解釋性的方法是在模型中加入與化學(xué)相關(guān)且有充分根據(jù)的信息。雖然解釋仍然需要大量的后續(xù)處理,但是如果使用人類可讀的輸入并且模型架構(gòu)不是太復(fù)雜的話,這仍然是可行的。使用分子指紋作為輸入的復(fù)雜遞歸神經(jīng)網(wǎng)絡(luò)幾乎不可能被解釋,因?yàn)槿祟惡茈y破譯這種模型輸入。在風(fēng)險(xiǎn)管理中,經(jīng)常采用“盡可能低的合理可行”(ALARP)原則[173]。類似地,為了讓機(jī)器學(xué)習(xí)模型盡可能具有解釋性,人們可以提出“盡可能簡單合理”的原則。
機(jī)器學(xué)習(xí)模型的可訪問性既是研究的主要優(yōu)勢,也是其主要挑戰(zhàn)。雖然任何有基本編程技能的人都可以使用機(jī)器學(xué)習(xí),但由于缺乏算法知識(shí)也可能導(dǎo)致誤用。今天,有大量的機(jī)器學(xué)習(xí)算法可用,有可能有大量的參數(shù)和超參數(shù)組合。即使對有經(jīng)驗(yàn)的用戶來說,機(jī)器學(xué)習(xí)仍然是一種合乎邏輯的試錯(cuò)方法。由于研究人員經(jīng)常無法解釋為什么一種算法有效而另一種無效,一些人將機(jī)器學(xué)習(xí)視為一種現(xiàn)代“煉金術(shù)”[174]。此外,大多數(shù)已發(fā)表的文章不提供源代碼,或僅提供偽代碼,這使得研究人員不可能再現(xiàn)其算法[175?176]。盡管機(jī)器學(xué)習(xí)在化學(xué)和化學(xué)工程領(lǐng)域不像社會(huì)科學(xué)那樣面臨許多可重復(fù)性問題[177],但由于該領(lǐng)域機(jī)器學(xué)習(xí)研究的增加,對其持懷疑態(tài)度的人可能也會(huì)相應(yīng)增長。從Gartner 成熟度曲線[178]來看,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)超過了膨脹預(yù)期的峰值[179],而且存在進(jìn)入興趣幾乎消失的幻滅期的風(fēng)險(xiǎn)。除了不負(fù)責(zé)地任意使用算法之外,更危險(xiǎn)的可能是對結(jié)果的錯(cuò)誤解釋。這種算法的黑箱特性使得很難甚至幾乎不可能解釋為什么會(huì)得到某種結(jié)果。此外,模型也可能因?yàn)殄e(cuò)誤的原因給出正確的結(jié)果[159]。因此,研究人員在使用機(jī)器學(xué)習(xí)時(shí)應(yīng)該牢記統(tǒng)計(jì)學(xué)的一條重要規(guī)則:這是相關(guān)性的而非因果性的。
在應(yīng)用超出模型所建立的范圍時(shí),就發(fā)生了另一種不合理地使用機(jī)器學(xué)習(xí)的情況。應(yīng)用范圍由訓(xùn)練數(shù)據(jù)集決定,并且是有限的。在測試未知數(shù)據(jù)點(diǎn)時(shí),研究人員應(yīng)檢查這些數(shù)據(jù)點(diǎn)是否在應(yīng)用范圍內(nèi)。當(dāng)數(shù)據(jù)點(diǎn)超出范圍時(shí),用戶應(yīng)該會(huì)看到一個(gè)警告信號(hào),提醒他們模型將表現(xiàn)不佳[92]。圖5 的下半部分描述了如何通過查看訓(xùn)練集找到獲得不當(dāng)結(jié)果的原因。使用聚類算法的開源應(yīng)用程序可以評估數(shù)據(jù)的精度及其應(yīng)用范圍[180]。
將機(jī)器學(xué)習(xí)應(yīng)用于化學(xué)工程研究領(lǐng)域的最后一個(gè)挑戰(zhàn)是,在機(jī)器學(xué)習(xí)技術(shù)方面,研究者受教育程度的差距越來越大。當(dāng)在化學(xué)和化學(xué)工程中使用計(jì)算機(jī)和數(shù)據(jù)科學(xué)時(shí),重要的是不僅要了解所使用的工具,還要了解其應(yīng)用的過程。因此,在不久的將來,關(guān)于如何使用機(jī)器學(xué)習(xí)算法的簡單培訓(xùn)可能會(huì)顯得不足。相反,良好的人工智能和統(tǒng)計(jì)方法教育將在化學(xué)工程本科課程中變得至關(guān)重要。另外,在研究課題上,計(jì)算機(jī)科學(xué)家和化學(xué)專家之間需要更多的合作。訓(xùn)練不足的研究人員可能會(huì)錯(cuò)誤地使用計(jì)算工具,而當(dāng)計(jì)算機(jī)和數(shù)據(jù)專家不完全熟悉正在研究的主題時(shí),他們可能無法得到最好的結(jié)果。更多的跨學(xué)科研究,以及機(jī)器學(xué)習(xí)專家和化學(xué)專家之間的合作關(guān)系,可能是避免對機(jī)器學(xué)習(xí)的興趣進(jìn)入幻滅期的一種方法。
在過去的十年里,機(jī)器學(xué)習(xí)已經(jīng)成為化學(xué)工程師工具箱中的一個(gè)新工具。事實(shí)上,由于其具有執(zhí)行速度快、靈活和用戶友好的應(yīng)用優(yōu)勢,化學(xué)工程師對機(jī)器學(xué)習(xí)的興趣愈發(fā)濃厚。這種流行的另一面是誤用機(jī)器學(xué)習(xí)或誤解黑箱結(jié)果的風(fēng)險(xiǎn),這可能會(huì)導(dǎo)致化學(xué)工程界對機(jī)器學(xué)習(xí)的不信任。以下三點(diǎn)建議可以幫助提高機(jī)器學(xué)習(xí)模型的可信度,使其成為一種更有價(jià)值、更可靠的建模方法。
第一,在化學(xué)工程界中保持對數(shù)據(jù)和模型簡單、開放的訪問非常重要。高質(zhì)量的數(shù)據(jù)和開源模型鼓勵(lì)研究人員將機(jī)器學(xué)習(xí)作為一種工具,使他們能夠更專注于自己的主題,而不是花時(shí)間在編程和收集數(shù)據(jù)上。第二,且與第一點(diǎn)相關(guān),是創(chuàng)建可解釋模型。由于其他研究領(lǐng)域已經(jīng)建立起機(jī)器學(xué)習(xí),化學(xué)應(yīng)用的新模型往往受到現(xiàn)有算法的啟發(fā)。因此,研究為什么某個(gè)輸出是由給定的輸入生成的,而不是維護(hù)其黑箱特性,將有利于該領(lǐng)域的研究。第三條建議是對長遠(yuǎn)的算法教育進(jìn)行投資。雖然化學(xué)工程師通常有很強(qiáng)的數(shù)學(xué)和建模技能,但理解圖形界面背后的計(jì)算機(jī)科學(xué)是成為建模人員的前提。這也使定義模型的應(yīng)用范圍成為可能,這對于理解模型什么時(shí)候是插值,什么時(shí)候是外推至關(guān)重要。最后一點(diǎn)絕對是最為關(guān)鍵的:機(jī)器學(xué)習(xí)模型應(yīng)該是可信的模型,這種可信度只有模型在多次訓(xùn)練集外的謹(jǐn)慎使用后方能獲得。
Acknowledgements
The authors acknowledge funding from the European Research Council (ERC) under the European Union’s Hori‐zon 2020 research and innovation(818607).Pieter P.Plehiers and Ruben Van de Vijver acknowledge financial support, re‐spectively, from a doctoral (1150817N) and a postdoctoral(3E013419) fellowship from the Research Foundation—Flan‐ders(FWO).
Compliance with ethics guidelines
Maarten R.Dobbelaere,Pieter P.Plehiers,Ruben Van de Vijver, Christian V.Stevens, and Kevin M.Van Geem declare that they have no conflict of interest or financial conflicts to disclose.