文/Melanie Weber
本文作者系德國微軟化學、制藥和生命科學行業(yè)總經(jīng)理。
德國微軟化學、制藥和生命科學行業(yè)總經(jīng)理Melanie Weber在本文中講解了機器學習和人工智能在制藥行業(yè)的應(yīng)用
藥物研發(fā)的過程正越發(fā)精簡——然而,要想找到正確的“先導化合物”仍如大海撈針。如今,人們發(fā)現(xiàn)人工智能(AI)不僅能夠加速先導化合物的優(yōu)化過程,還可以幫助研究人員掌握和分析海量的數(shù)據(jù)。 來自微軟的Melanie Weber在本文中解釋了它的工作原理。
過去,尋找活性成分(API)通常基于偶然。幸運的巧合與機智的推理往往會產(chǎn)生意想不到的發(fā)現(xiàn)。例如,1928年,一個被人遺忘的培養(yǎng)皿促使英國細菌學家亞歷山大·弗萊明發(fā)現(xiàn)了人類歷史上的第一種抗生素——青霉素。這種抗生素至今仍被用于對抗細菌感染。
每一種藥物的核心成分都是活性成分。換言之,在人體內(nèi)真正起到治療或緩解作用的正是這種分子化合物。在進行藥物研發(fā)時,需要檢測的有機分子估計有100萬的10次方(1060)個,由此可以想象出要準確找到對疾病治療進程有積極作用的化合物有多難——如此多的分子,足以用來制造數(shù)十億個地球;要從其中找到正確的化合物,遠比大海撈針更困難。
隨著現(xiàn)代化學和分子生物學的不斷進步,制藥行業(yè)已經(jīng)逐漸發(fā)展成為一個高科技行業(yè)。人們做了很多新的嘗試與試驗,藥物的發(fā)現(xiàn)已不再基于偶然,活性成分的開發(fā)往往基于合理的多階段過程,且愈發(fā)需要現(xiàn)代技術(shù)的支持。
近年來,人們發(fā)現(xiàn)數(shù)字技術(shù)可以用于先導化合物的優(yōu)化過程。在藥物研發(fā)階段,研究人員會在實驗室對活性成分進行測試。很多活性成分會被認為是潛在的適合候選物,但也可能會由于具有不良副作用而被淘汰。在先導化合物優(yōu)化過程中,經(jīng)驗豐富的藥物化學家會致力于改進這些“命中”分子。
專家們會通過測試調(diào)整這些分子的結(jié)構(gòu),以提高它們的生物有效性并減少產(chǎn)生副作用的可能性。先導化合物的優(yōu)化是一個迭代過程。在此過程中需要找出新化合物并在體外對其進行測試。然而,這一過程由于需要在實驗室中合成很多新化合物,因此非常昂貴且耗時,并且還非常依賴研究人員的經(jīng)驗、知識、創(chuàng)造力以及直覺。
為了加速先導化合物的優(yōu)化過程,有人開發(fā)了計算建模技術(shù)來預(yù)測分子在實驗室中的表現(xiàn)。通過使用計算機模型,研究人員可以在計算機上快速進行新分子的設(shè)計:首先在計算機中模擬所有模型,然后僅篩選出最有希望的分子在實驗室中進行合成,最后再進行體內(nèi)測試。
這使得昂貴且耗時的實驗可以集中在最有希望的化合物上。這些化合物有望具有較好的效力和較少的副作用。然而,在使用建模技術(shù)時,微軟遇到了兩個沒有專家協(xié)助便無法解決的問題:(1)計算機模型的研究不能只局限于探索特定的、有成功希望的結(jié)構(gòu);(2)模型難以復(fù)制一些關(guān)鍵結(jié)構(gòu)(如復(fù)雜的環(huán)系統(tǒng)等),這是因為該軟件是在原子水平上進行生成,所以在構(gòu)建新的復(fù)雜分子結(jié)構(gòu)時遇到了困難。
為了改進建模技術(shù),微軟的生成化學(Generative Chemistry)團隊與瑞士生物技術(shù)和制藥公司諾華的專家合作開發(fā)了“MoLeR模型”,一種基于圖形的機器學習神經(jīng)網(wǎng)絡(luò)。它可以在計算機上自動構(gòu)建有效分子,使藥物開發(fā)更快、更有效。
通過MoLeR模型,計算機建模技術(shù)得以脫離單個原子水平,并能立即處理更大的結(jié)構(gòu)。它的工作方式有點類似于人們的寫作方式:用熟知的一個個單詞組成句子,而不是用隨機的字母序列組成句子。因此,MoLeR模型構(gòu)建類藥物分子所需的步驟更少。此外,這種工作方式更像化學家思考分子構(gòu)造的方式,所以更為實用。
此外,人工智能非常有助于藥物研發(fā)人員應(yīng)對呈指數(shù)增長的數(shù)據(jù)量。它能夠編譯全球每天出版長度從8~1萬頁不等的專業(yè)文章和其他科學文獻。智能文本識別如微軟的語言認知服務(wù)(Cognitive Service for Language)能夠幫助研究人員對重要的信息進行分類。
瑞士的分子建模實驗室(mml)公司的一個應(yīng)用案例表明,人工智能還可以幫助研究人員對臨床試驗期間產(chǎn)生的數(shù)據(jù)進行更快地搜索和更好地分類。
mml致力于研究無定形固體分散體(ASD)。它用于藥物和有效成分的代謝,即用于人體內(nèi)藥物的生化轉(zhuǎn)化或降解。藥物活性成分的分子結(jié)構(gòu)正變得越來越復(fù)雜,通過使用ASD則可以降低最終到達體內(nèi)病灶的活性成分的含量。
在實驗室進行的一些復(fù)雜研究表明,ASD 有助于提高藥物遞送系統(tǒng)的溶解度、溶出速率和生物利用度。但是,如果活性成分的濃度超過了溶解度極限,那么ASD就會完全降解或斷裂。
長期以來,人們認為預(yù)測ASD的均衡穩(wěn)定性對于建模算法來說過于復(fù)雜,因此藥物研發(fā)人員大多只限于對其進行人工測試。
不過,通過模擬分子,研發(fā)人員能夠發(fā)現(xiàn)許多藥物組合和聚合物在各種分散體以及各種條件下的表現(xiàn)。因此,mml的研究人員認為這或許也可以用于發(fā)現(xiàn)新的、可能未預(yù)料到的ASD 組合,從而提高藥物安全性并減少開發(fā)新化合物的時間和成本。
然而,在擴展這一革命性的解決方案時,mml的研究人員意識到,它的計算和模擬過于復(fù)雜和龐大,在自己公司的計算機上無法進行。因此,他們決定依靠高性能計算 (HPC) 以及云端的人工智能和虛擬機來提高公司模擬建模的能力。憑借著從Microsoft Azure獲得的大量計算資源,該公司能夠快速為各種條件下的 ASD 結(jié)構(gòu)建模。最終,這使得這家初創(chuàng)公司節(jié)省了大量的硬件投資,迅速成長為一家能與世界領(lǐng)先的制藥商合作的成熟公司。