于明珠,張鵬莉,呂思凡,杜尚民,高艷鋒,杜江峰
1)鄭州大學(xué)生命科學(xué)學(xué)院 鄭州 450001 2)三門峽職業(yè)技術(shù)學(xué)院醫(yī)護(hù)學(xué)院 河南三門峽 472143
高通量藥物篩選在現(xiàn)代藥物研發(fā)中發(fā)揮著舉足輕重的作用,然而,該方法存在成本高、效率低、陽性率低等難以克服的缺點[1],無法應(yīng)對現(xiàn)代藥物研發(fā)的需要。隨著計算機(jī)計算能力的大幅提升和藥物設(shè)計算法的發(fā)展,計算機(jī)輔助虛擬篩選得到廣泛應(yīng)用[2],該策略既降低了發(fā)現(xiàn)活性先導(dǎo)化合物的成本,又避免了盲目篩選[3-4]。目前有許多商業(yè)化小分子化合物數(shù)據(jù)庫用于虛擬篩選,如ChemBridge、ChemDiv等,然而,這些數(shù)據(jù)庫都以2D結(jié)構(gòu)的形式儲存數(shù)據(jù),且不同的數(shù)據(jù)庫在分子組成方面也存在差異,因而在數(shù)據(jù)庫的選擇上存在一定的不確定性,并且2D結(jié)構(gòu)的數(shù)據(jù)庫不適合直接用于以分子對接為主的虛擬篩選。因而,本研究對一些比較常用的數(shù)據(jù)庫中小分子化合物的2D數(shù)據(jù)進(jìn)行處理,同時分析其屬性,從而構(gòu)建一個具有3D結(jié)構(gòu)的數(shù)據(jù)庫,以期為研究者提供一個直觀的藥物篩選平臺。
1.1小分子化合物的收集從6個常用的小分子化合物公司的官方網(wǎng)站上下載小分子化合物庫(ChemBridge、ChemDiv、InterBioScreen、LifeChemicals、Specs和Vitas-m)。其中ChemBridge數(shù)據(jù)庫包括2部分:核心庫(CORE library)與精選庫(EXPRESS-Pick library),共2個sdf文件,經(jīng)過冗余檢索,無冗余分子。ChemDiv數(shù)據(jù)庫包含3個化合物數(shù)據(jù)集:公開可用化合物集(DC)、新化合物集(NC)和創(chuàng)新化合物集(IC),共6個sdf文件,經(jīng)過冗余檢索,發(fā)現(xiàn)1個冗余分子并去除。InterBioScreen數(shù)據(jù)庫無明確分類,共4個sdf文件,經(jīng)冗余檢索,有少量重復(fù)并去除。LifeChemicals數(shù)據(jù)庫包含2個sdf文件,冗余檢索結(jié)果表明有近10%的重復(fù)并去除冗余。Specs包含1個sdf文件,刪除冗余分子。 Vitas-m包含7個sdf文件,冗余檢索顯示無重復(fù)。除了上述商業(yè)數(shù)據(jù)庫,我們通過文獻(xiàn)檢索和數(shù)據(jù)庫查詢整理獲得毒理庫、片段庫、上市藥物庫和天然產(chǎn)物庫。毒理庫是一類具有體內(nèi)代謝毒性的化合物集合,片段庫包含相對分子質(zhì)量較小的化合物,上市藥物庫是美國食品藥品監(jiān)督管理局(FDA)批準(zhǔn)的上市藥物的集合,天然產(chǎn)物庫包含從植物、真菌、細(xì)菌等分離純化得到的化合物[5]。
1.2過濾使用小分子化合物數(shù)據(jù)庫之前需要對數(shù)據(jù)庫中所有分子做優(yōu)化,除去不相關(guān)的鹽離子或者是調(diào)整質(zhì)子化狀態(tài)[6],使之處于合適的形式而用于后續(xù)建模過程,確保在構(gòu)象計數(shù)或分子對接過程中得到準(zhǔn)確優(yōu)良的結(jié)果。利用MOE(2016版)軟件計算工具對每個小分子化合物進(jìn)行清洗過濾,在pH值為7時使所有氨基酸質(zhì)子化,并使當(dāng)前帶電粒子總體呈中性進(jìn)而構(gòu)建中性體系。通過使用MOE中Computer-Molecular-Wash模塊對所獲得的數(shù)據(jù)庫分子過濾去除雜原子如水、離子、微小片段等。數(shù)據(jù)庫中所有小分子化合物均以相同步驟進(jìn)行優(yōu)化,并以mdb文件格式保存。
1.3 3D結(jié)構(gòu)的生成通過能量函數(shù)計算某個構(gòu)象的內(nèi)部原子相互作用的能量總和,依能量最小化尋找某個分子最穩(wěn)定的空間構(gòu)象。本研究中所有化合物3D結(jié)構(gòu)的生成通過MOE中能量最小化模塊(Energy Minimization)實現(xiàn)。該計算過程需要依托于特定的力場。該研究中選擇AMBER-EHT10力場,對小分子化合物進(jìn)行質(zhì)子化處理并使分子達(dá)到pH值為7.0,在能量最小化之前計算化學(xué)結(jié)構(gòu)的電荷,將所有水分子定義為剛性,能量最小化過程將會在滿足條件(均方根梯度為0.1)下停止,從而獲得小分子化合物在特定條件下能量最佳的3D構(gòu)象。保存每一個小分子化合物的最小能量的3D構(gòu)象,并把結(jié)果儲存于獨立的文件中,其中小分子化合物順序及編號不變。
1.4指紋圖譜的計算分子指紋可以有效描述分子的化學(xué)結(jié)構(gòu),并在分子聚類和相似性搜索中得到廣泛的應(yīng)用[7]。本實驗通過MOE軟件中的指紋模型插件構(gòu)建所有分子的指紋圖譜,其中構(gòu)建圖譜的算法選擇FP:BIT_MACCS。通過該算法構(gòu)建的指紋圖譜以6個字符形式存儲。我們以相似性(similarity)和重疊度(overlap)閾值為85%對所有分子進(jìn)行聚類。
1.5物理性質(zhì)的計算2D分子物理性質(zhì)的計算值可作為其他計算如定量構(gòu)效關(guān)系(QSAR)[8]、多樣性分析等的分子特征。為了有效傳遞分子的類藥性信息,本實驗參考“類藥五原則”[9],根據(jù)具有類藥性的小分子化合物的物理屬性表征選擇6個物理屬性進(jìn)行計算:相對分子質(zhì)量、氫鍵供體、氫鍵受體、脂水分配系數(shù)、可旋轉(zhuǎn)鍵數(shù)、極性表面積。
1.6統(tǒng)計作圖
1.6.1 商用小分子化合物庫 使用Origin 9.1統(tǒng)計6個商用小分子化合物庫中化合物的6個物理屬性值的頻數(shù)分布,繪制正態(tài)分布圖,并通過調(diào)整橫軸范圍進(jìn)行截尾,除去超出95%置信區(qū)間的無意義的值。
1.6.2 其他數(shù)據(jù)庫 使用origin 9.1針對毒理庫、片段庫、上市藥物庫和天然產(chǎn)物庫中小分子化合物的6個物理屬性值,繪制頻數(shù)統(tǒng)計直方圖。
2.1數(shù)據(jù)庫文件的獲得通過對6個商用小分子化合物庫子文件合并去冗余,得到各數(shù)據(jù)庫小分子化合物總數(shù),見表1。去重前共計4 832 735個小分子化合物,去重后為4 779 100個。通過文獻(xiàn)及各種數(shù)據(jù)庫搜索整理得到了天然產(chǎn)物庫、上市藥物庫、片段庫和毒理庫,它們包含的小分子化合物的數(shù)量分別為9 150、1 537、25 174、160。
2.2 3D虛擬篩選數(shù)據(jù)庫的結(jié)構(gòu)該數(shù)據(jù)庫平臺信息示例見圖1。
表1 6個商用小分子化合物庫文件的獲得
mol:小分子化合物結(jié)構(gòu)信息;(FP:BIT_MACCS):分子指紋;a_don:氫鍵供體;a_acc:氫鍵受體;b_rotN:可旋轉(zhuǎn)鍵數(shù); logP:脂水分配系數(shù);TPSA:極性表面積;Weight:相對分子質(zhì)量
圖1小分子化合物數(shù)據(jù)庫平臺的信息示例
2.3 6個商用小分子化合物庫化合物物理屬性的統(tǒng)計分析見圖2。結(jié)果顯示,6個商用小分子化合物庫中的化合物屬性在氫鍵數(shù)、可旋轉(zhuǎn)鍵數(shù)及極性表面積分布上基本一致,而相對分子質(zhì)量和脂水分配系數(shù)的分布有差異。其中大部分化合物的氫鍵受體數(shù)為4個,氫鍵供體數(shù)為1個。
2.4其他類別數(shù)據(jù)庫化合物物理屬性的統(tǒng)計分析見圖3。除了脂水分配系數(shù)分布相似外,毒理庫、上市藥物庫、天然產(chǎn)物庫和片斷庫在氫鍵數(shù)、相對分子質(zhì)量、可旋轉(zhuǎn)鍵數(shù)及極性表面積上均存在差異。
圖2 ChemBridge(紅)、ChemDiv(綠)、InterBioScreen(藍(lán))、LifeChemicals(藍(lán)綠)、Specs(洋紅)、Vitas-m(黃)中的小分子化合物物理屬性的分布
圖3 上市藥物庫(黑)、片段庫(紅)、天然產(chǎn)物庫(綠)、毒理庫(藍(lán))中的小分子化合物物理屬性的分布
本研究分為3部分。首先,整合市場常用的6個虛擬篩選數(shù)據(jù)庫和上市藥物庫、毒理庫、天然產(chǎn)物庫、片段庫,共獲得了4 815 121個可用于虛擬篩選且便于購買的小分子化合物。其次,過濾洗滌所有化合物,計算特定條件下最佳3D構(gòu)象并生成指紋圖譜,用于之后虛擬篩選、分子對接、相似化合物搜索以及構(gòu)效關(guān)系研究。最后,分析化合物物理屬性,為有特定需要的藥物研究者提供更加友好的選擇策略。
氫鍵相互作用是藥物設(shè)計過程中需要考慮的關(guān)鍵作用。氫鍵受體數(shù)可由N原子數(shù)和O原子數(shù)粗略衡量。進(jìn)行藥物設(shè)計時,含有太多氫鍵受體會影響小分子化合物在體內(nèi)穿過細(xì)胞膜的能力。對6個商用小分子化合物庫的統(tǒng)計發(fā)現(xiàn),其氫鍵受體數(shù)分布集中度較為一致且集中于4,即在氫鍵受體數(shù)的屬性上,對不同數(shù)據(jù)庫無選擇性,且不同數(shù)據(jù)庫分子氫鍵受體數(shù)都滿足類藥原則。
統(tǒng)計氫鍵供體數(shù)具有重要意義。氫鍵供體數(shù)太多會阻止小分子化合物穿過生物膜,太少會降低其活性。和氫鍵受體數(shù)的分布范圍不同,絕大多數(shù)分子的氫鍵供體數(shù)小于4,不同數(shù)據(jù)庫分子氫鍵供體數(shù)峰值也具有一致性。因為配受體的氫鍵相互作用具有明確的方向,比起氫鍵供體,氫鍵受體具有更大的可變性,因而氫鍵受體數(shù)目整體偏大。另外我們注意到,除InterBioScreen數(shù)據(jù)庫之外,其他數(shù)據(jù)庫分子集中分布在含有1個氫鍵供體數(shù)的位置。就分布趨勢來說,在ChemDiv數(shù)據(jù)庫中分子氫鍵供體數(shù)更加集中,而InterBioScreen數(shù)據(jù)庫分子氫鍵供體數(shù)分布更為均勻。
脂水分配系數(shù)描述分子的親脂/親水能力,其值越大,說明該分子越親脂,過高或者過低都會影響藥效。6個商用小分子化合物庫化合物分子的脂水分配系數(shù)具有一定的差異,具體體現(xiàn)在ChemBridge和LifeChemicals數(shù)據(jù)庫中的化合物分子脂水分配系數(shù)值主要集中在2和3之間,而其他數(shù)據(jù)庫則集中在3和4之間,故就整體上來說,ChemBridge和LifeChemicals數(shù)據(jù)庫的化合物分子親脂性較小,較難透過生物膜。另外,Specs數(shù)據(jù)庫脂水分配系統(tǒng)較其他數(shù)據(jù)庫化合物分子的分布范圍略窄,因而利用其虛擬篩選出的可適用的藥物分子要比其他數(shù)據(jù)庫少。
可旋轉(zhuǎn)鍵數(shù)描述的是分子柔性,可預(yù)測藥物的口服利用度。6個商用小分子化合物庫中絕大多數(shù)化合物含有6個可旋轉(zhuǎn)鍵數(shù),不同數(shù)據(jù)庫中分布范圍和分布趨勢大致相同。
極性表面積衡量了一個分子在體內(nèi)的可運輸性,所以也是類藥性的重要指標(biāo)。6個商用小分子化合物庫的極性表面積分布范圍、峰值、趨勢大致相同,并且絕大部分?jǐn)?shù)據(jù)庫的分子都滿足小于140 ?。對于神經(jīng)類藥物,需要通過血腦屏障,其極性表面積需小于60 ?。根據(jù)各數(shù)據(jù)庫峰值分布情況判斷可用于開發(fā)神經(jīng)類藥物的分子接近分子總量的40%。
這6個數(shù)據(jù)庫的相對分子質(zhì)量具有一定的差異。ChemBridge數(shù)據(jù)庫分子的相對分子質(zhì)量整體偏小,絕大多數(shù)分布于350,而ChemDiv數(shù)據(jù)庫分子的相對分子質(zhì)量整體偏大,集中分布于425附近,其他數(shù)據(jù)庫的分布多集中于400。ChemBridge數(shù)據(jù)庫分子的相對分子質(zhì)量分布范圍相對較窄,大多數(shù)相對分子質(zhì)量都在550以下。
上市藥物庫、毒理庫的物理屬性和其他商業(yè)數(shù)據(jù)庫具有很高的相似性,因而利用該平臺進(jìn)行虛擬篩選的小分子化合物極大程度上具有類藥性,但也不排除分子同時具有毒性。片段庫中的化合物的相對分子質(zhì)量小(<250),這造成該數(shù)據(jù)庫的物理屬性統(tǒng)計值普遍偏小,如氫鍵供體/受體數(shù)分布小于5。天然產(chǎn)物庫的分子相對于上市藥物庫分子,其屬性值分布范圍更廣,而集中性和分布趨勢都大致相同,因而利用該庫分子進(jìn)一步設(shè)計藥物具有相當(dāng)程度的合理性。
虛擬篩選依賴優(yōu)質(zhì)合理的小分子化合物數(shù)據(jù)庫。其中小分子化合物數(shù)目越大,獲得理想分子的機(jī)會就越大。本實驗所構(gòu)建的篩選平臺擴(kuò)大了虛擬篩選數(shù)據(jù)庫的數(shù)據(jù)量,包含上市藥物庫等其他化合物,同時保留初始分子分類信息,因而也可根據(jù)需要類型來選擇。該平臺包含化合物的2D及3D結(jié)構(gòu),研究者可根據(jù)不同實驗需求,自定義與本實驗不同的力場或者其他參數(shù)從而生成3D構(gòu)象,也可根據(jù)需要直接利用本實驗中得到的3D構(gòu)象進(jìn)行分子柔性對接。該平臺上可供下載的文件中包含分子指紋,可用于比較分子相似度、分子聚類,提高遍歷速度和效率。今后,我們將定時維護(hù)該平臺,并根據(jù)補(bǔ)充的小分子化合物進(jìn)一步調(diào)整類藥屬性的統(tǒng)計,以提高選擇數(shù)據(jù)庫以及小分子化合物的效率。另外,對片段庫、天然產(chǎn)物庫、上市藥物庫和毒理庫的屬性分析進(jìn)一步擴(kuò)大了該平臺的實用性。
該小分子化合物3D結(jié)構(gòu)數(shù)據(jù)庫可提供小分子化合物的3D結(jié)構(gòu),為藥物篩選、藥物設(shè)計提供一個小分子化合物信息的標(biāo)準(zhǔn)化數(shù)據(jù)平臺,簡化虛擬篩選的流程,避免對數(shù)據(jù)庫進(jìn)行復(fù)雜及重復(fù)的處理,從而為發(fā)現(xiàn)具有特定結(jié)構(gòu)和屬性的先導(dǎo)化合物節(jié)省成本。