• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    機器學習在創(chuàng)新藥物研發(fā)中的應用進展

    2020-02-22 16:06:55張心苑毛雪石
    醫(yī)學信息學雜志 2020年8期
    關鍵詞:配體機器化合物

    周 玥 張心苑 毛雪石

    (中國醫(yī)學科學院藥物研究所信息中心 北京 100050)

    1 引言

    傳統(tǒng)藥物研發(fā)面臨研發(fā)周期長、經(jīng)費投入大、臨床批準成功率低等方面的挑戰(zhàn),同時藥物研發(fā)人員需要處理和分析海量信息[1]。隨著計算機軟硬件的進步,人工智能理論的發(fā)展和藥理學數(shù)據(jù)的積累,人工智能技術的重要分支機器學習作為一種強大的數(shù)據(jù)挖掘工具已經(jīng)應用于藥物設計各個領域,如靶點識別、藥物設計和結構優(yōu)化、藥物重新利用、性質評估和臨床試驗等[2]。本文將從機器學習重要算法、藥物設計基本理論和機器學習在基于配體和受體虛擬篩選中的應用幾個方面進行闡述。

    2 人工智能及其在藥物設計領域應用發(fā)展歷程

    2.1 人工智能

    人工智能概念始于1930年艾倫·圖靈的通用圖靈機并在1956年達特茅斯會議上由約翰·麥卡錫正式提出。作為一個交叉學科,人工智能整合計算機、數(shù)學、心理學和語言學等眾多學科知識,已應用于文字語言處理、圖像影像分析及自主智能領域[2]。從誕生至今人工智能共經(jīng)歷3個發(fā)展高峰期。20世紀50和60 年代,邏輯推理和啟發(fā)式搜索概念的出現(xiàn)使人機交互成為可能。20世紀80年代,前饋神經(jīng)網(wǎng)絡和反向傳播算法的創(chuàng)立成功實現(xiàn)人工智能在化學和分子生物學領域的首次探索,完成基于序列信息的蛋白質二級結構預測。2012年至今,深層網(wǎng)絡模型的成熟使人工智能應用拓展到醫(yī)學圖像分析和自動駕駛車輛等領域[1-2]。

    2.2 人工智能在藥物設計領域應用

    聚焦藥物設計領域,藥物化學家基于定量構效關系Hansh模型,逐漸開始應用人工智能方法以評估和預測化學與生物效應的核心問題[3]。20世紀90年代,神經(jīng)網(wǎng)絡、支持向量機和隨機森林等方法已開始應用于抗癌藥物篩選、蛋白序列設計和藥物設計[4-5]。21世紀以來,人工智能在先導化合物優(yōu)化、活性和毒性預測等領域取得成功[6]?;谌斯ぶ悄茉谒幬镅邪l(fā)領域的快速發(fā)展,制藥公司開始與人工智能公司開展合作,促進該領域的進一步發(fā)展[7]。

    3 機器學習在藥物設計中的應用

    3.1 藥物設計中的主要機器學習方法

    3.1.1 概述 人工智能在藥物設計中的應用即學習和解釋與藥物相關的大數(shù)據(jù)以發(fā)現(xiàn)新藥物算法,以更加綜合和自動的方式結合機器學習的發(fā)展[8]。與傳統(tǒng)方法相比,基于機器學習的藥物設計方法不依賴于基礎原理和理論進步,而是更加注重從龐大生物醫(yī)學大數(shù)據(jù)中提取新知識。

    3.1.2 分類 目前藥物研發(fā)使用最多的機器學習方法大致可分為5類:監(jiān)督學習(監(jiān)督、半監(jiān)督、非監(jiān)督)、主動學習、強化學習、遷移學習和多任務學習[2]。(1)監(jiān)督學習。根據(jù)已知的輸入和輸出數(shù)據(jù)關系訓練模型,以預測新樣本數(shù)據(jù)分類和數(shù)值結果,主要用于藥物療效和ADMET預測等[1]。具體而言,可以對給定化合物庫中的分子進行活性和非活性標記,通過分析分子特征與生物活性之間的關系預測新分子生物活性。(2)非監(jiān)督學習。通過識別輸入數(shù)據(jù)中的隱藏模式或固有結構來進行聚類和特征查找,已應用于疾病靶點的發(fā)現(xiàn)[1, 9]。(3)主動學習。通過關注結構空間新穎性及最大可能化學空間領域來輔助選擇過程,同時識別具有針對特定疾病靶標的潛在活性新型化合物[7, 10]。(4)強化學習。在某種程度上模仿獎勵驅動的學習方式,通過獎勵和懲罰模式來設計和優(yōu)化系統(tǒng),主要用于從頭藥物設計領域[1-2]。(5)遷移學習和多任務學習。已應用于藥物設計領域[2]。

    3.1.3 具體實現(xiàn)算法 包括用于預測活性的回歸算法,用于分類的隨機森林、樸素貝葉斯和聚類算法,以及用于圖像識別和結構創(chuàng)建的人工神經(jīng)網(wǎng)絡和深度學習等[1-2, 11]。相對于傳統(tǒng)學習方法,深度學習可以自動從輸入數(shù)據(jù)中學習特征,通過多層特征提取將簡單特征轉換為復雜特征。目前比較流行的深度學習算法主要有深度神經(jīng)網(wǎng)絡、卷積神經(jīng)網(wǎng)絡、循環(huán)神經(jīng)網(wǎng)絡、深度自動編碼器神經(jīng)網(wǎng)絡和生成對抗網(wǎng)絡,已在生物活性預測、全新藥物設計與合成及生物圖像分析領域展現(xiàn)出巨大優(yōu)勢[1-2, 11]。

    3.2 機器學習應用于藥物設計基本步驟

    3.2.1 遵循藥物研發(fā)過程 藥物研發(fā)過程主要包括潛在藥物靶標發(fā)現(xiàn)與驗證、苗頭化合物發(fā)現(xiàn)、先導化合物結構優(yōu)化和候選化合物確認以及臨床前與臨床研究等[6]。機器學習在藥物設計中的應用是一個順序過程,包括研究問題的提出、機器學習方法結構設計、數(shù)據(jù)準備、模型訓練與評估,以及結果理解和解釋等[1-2]。

    3.2.2 具體步驟 一是提出研究問題。確認特定問題屬于回歸預測活性任務、分類區(qū)分活性和非活性任務或產(chǎn)生新分子的結構性任務。二是根據(jù)問題和數(shù)據(jù)類型及數(shù)量選擇合適算法并設置合理初始值。對于回歸預測任務多使用邏輯回歸方法;分類區(qū)分任務則較多使用支持向量機、隨機森林和人工神經(jīng)網(wǎng)絡等算法;而對于生成性任務,深度學習網(wǎng)絡則更為適用,如深度玻爾茲曼機和深度信念網(wǎng)絡等。三是數(shù)據(jù)收集準備,初始數(shù)據(jù)的代表性、質量和數(shù)量對人工智能模型質量至關重要。為最大程度地提高可預測性,用于訓練的數(shù)據(jù)需準確、合理且完整。四是模型訓練和評估。通過訓練搜尋一組參數(shù)以達到減小誤差的目的。基于上述機器學習步驟,科研人員可以解決藥物設計中絕大多數(shù)的問題。但是目前機器學習在藥物領域的應用還處于早期階段,應重視結果的可解釋性和可重復性,否則將制約機器學習在該領域的進一步發(fā)展。

    4 機器學習在虛擬篩選中的應用

    4.1 原理與步驟

    4.1.1 原理 虛擬篩選已成為藥物研發(fā)過程中一種重要的技術手段,通過該方法可對大批量化合物進行有效搜索,獲得針對潛在靶標的苗頭或先導化合物。虛擬篩選技術雖然克服了傳統(tǒng)高通量篩選在時間及資源消耗上的不足,但其僅是高通量篩選的補充,減少后期篩選化合物數(shù)量,仍必須與實驗相結合[12]。

    4.1.2 步驟 常規(guī)虛擬篩選流程主要包括3大步驟。首先,基于自創(chuàng)、開源或商用數(shù)據(jù)庫構建初始化合物庫,依據(jù)類藥性和假陽性評價標準過濾無法成藥的化合物,進而構建篩選化合物庫。其次,依據(jù)靶點結構是否已知,選擇基于結構或配體的虛擬篩選技術,根據(jù)篩選條件獲得理論上具有活性的化合物。最后,通過體外實驗驗證獲得苗頭或先導化合物。在上述過程中涉及大量的參數(shù)擬合、模型評價等工作,這正是機器學習優(yōu)勢所在,此外還可以提升整體運算速度,這些優(yōu)點促使研究人員開始使用機器學習來完成虛擬篩選相關工作。

    4.2 基于機器學習的虛擬篩選及其應用

    4.2.1 基于機器學習的虛擬篩選 將機器學習算法和策略有機融合到基于結構和配體的虛擬篩選技術之中,可以自主完成相關模型構建及參數(shù)擬合工作,提高整體虛擬篩選完成速度、準確度和客觀性,近年來越來越受到科研人員青睞。應用機器學習開展虛擬篩選工作,首先要構建化學基因數(shù)據(jù)庫,根據(jù)篩選條件獲得數(shù)據(jù)集。其次要根據(jù)k倍交叉驗證方法和最小化結構風險原則以合理方式將數(shù)據(jù)集分為訓練集和測試集。之后訓練模型并依據(jù)混淆矩陣評價模型性能。最終將訓練好的模型應用于虛擬篩選[12-14]。

    4.2.2 應用模型 基于配體的虛擬篩選方法包括相似性搜索、化合物分類和回歸活性預測3大技術。應用于配體虛擬篩選的機器學習方法以分類器為主。具有代表性的模型主要有:樸素貝葉斯、k最近鄰居、支持向量機、隨機森林和人工神經(jīng)網(wǎng)絡等。樸素貝葉斯模型適用于虛擬篩選分類和獲取特異性結合于靶點的分子骨架[15]。k最近鄰居模型對于預測多靶點結合活性等多任務學習具有明顯優(yōu)勢[12]。支持向量機則可用于化合物分類和合成可及性或水溶性等化合物屬性值預測[16]。隨機森林可以改善定量構效關系數(shù)據(jù)預測,也可用于對接打分函數(shù)以及預測蛋白質-配體結合親和力研究[14]。人工神經(jīng)網(wǎng)絡常應用于潛在藥物靶標識別、化合物分類、定量構效關系以及蛋白質-配體結合親和力等研究[6]。

    4.2.3 基于結構的藥物設計 這是一個復雜過程,主要涉及靶點結構預測、活性位點識別、配體和受體相互作用識別、對接打分函數(shù)和結合親和力計算等[2]。靶點結構預測方面,機器學習已用于靶標蛋白質同源性檢測,扭轉角,二級結構、理化性質及翻譯后修飾預測,區(qū)分活性和非活性構象以及模型評估等[17-18]。預測蛋白質二級結構的軟件包主要有:基于分類器的ASAP和refineD以及基于深度學習網(wǎng)絡算法的MUFOLD-SS等?;钚晕稽c與相互作用識別方面,機器學習可以基于卷積神經(jīng)網(wǎng)絡預測結合位點或聯(lián)合決策樹與人工神經(jīng)網(wǎng)絡識別別構位點[19-20]。關于靶標蛋白結合位點識別的經(jīng)典方法和機器學習策略可參考相關綜述[21-23]。針對活性位點識別的相關軟件包有:基于3D卷積神經(jīng)網(wǎng)絡DeepSite和基于隨機森林算法的P2Rank。對接打分函數(shù)和結合親和力計算方面,主要是通過結構分類、回歸模型和深度學習算法來預測[24-25]。此外深度學習網(wǎng)絡還可應用于化合物的反向找靶[25]。Khamis和Colwell[26-27]詳盡闡述有關機器學習在分子對接中的主要應用和該領域研究成果,以及深度神經(jīng)網(wǎng)絡面臨的挑戰(zhàn)。目前關于親和力計算的軟件包主要有:OnionNet、gnina、KDEEP、DeepAffinity、DeepConv-DTI和 GraphDTA等。

    5 結語

    創(chuàng)新藥物設計雖然克服了傳統(tǒng)藥物設計中研發(fā)周期長和經(jīng)費投入大等問題,但仍面臨著海量數(shù)據(jù)挖掘與分析的難題。人工智能憑借其技術優(yōu)勢逐步應用于藥物設計領域,虛擬篩選技術作為發(fā)現(xiàn)先導化合物的重要來源已成為藥物設計中的重要組成部分。機器學習應用于虛擬篩選,可有效提升大量模型構建和參數(shù)擬合工作效率,從而獲得更為理想的先導化合物或潛在藥物分子。不同機器學習模型適用于虛擬篩選的不同問題,目前比較成熟的應用主要集中于基于配體虛擬篩選中的活性預測與化合物分類,基于受體虛擬篩選的新位點識別與結合親和力計算。人工智能在創(chuàng)新藥物研發(fā)中的應用還涉及先導化合物優(yōu)化、全新藥物設計和化合物性質預測等。目前越來越多的制藥公司或人工智能公司開始與科研院所合作,共同促進人工智能在藥物研發(fā)中的應用與發(fā)展。中國醫(yī)學科學院藥物研究所已與元氣制藥合作創(chuàng)建協(xié)和知藥人工智能實驗室。聯(lián)合創(chuàng)建實驗室將發(fā)揮各自優(yōu)勢,有利于醫(yī)藥事業(yè)發(fā)展,對我國創(chuàng)新藥物研發(fā)領域起到推動作用,為生物醫(yī)藥領域做出一定貢獻。

    猜你喜歡
    配體機器化合物
    機器狗
    機器狗
    碳及其化合物題型點擊
    碳及其化合物題型點擊
    未來機器城
    電影(2018年8期)2018-09-21 08:00:06
    例析高考中的鐵及其化合物
    中學化學(2017年6期)2017-10-16 17:22:41
    基于配體鄰菲啰啉和肉桂酸構筑的銅配合物的合成、電化學性質及與DNA的相互作用
    新型三卟啉醚類配體的合成及其光學性能
    合成化學(2015年4期)2016-01-17 09:01:11
    無敵機器蛛
    新型三氮烯類化合物的合成與表征
    云和县| 大竹县| 普格县| 手游| 浦县| 南涧| 锡林郭勒盟| 措美县| 唐山市| 平泉县| 深泽县| 安福县| 阿克苏市| 万荣县| 东至县| 永靖县| 贵阳市| 黑龙江省| 崇仁县| 新田县| 五华县| 珲春市| 遂昌县| 连州市| 嵩明县| 上饶市| 汝南县| 青龙| 永年县| 霸州市| 巴南区| 子长县| 南靖县| 边坝县| 新丰县| 利津县| 南雄市| 惠安县| 南澳县| 秦安县| 天等县|