汪偉亮, 鄧衛(wèi)平
(華東理工大學(xué)藥學(xué)院,上海新藥設(shè)計(jì)重點(diǎn)實(shí)驗(yàn)室,上海 200237)
新藥研發(fā)是一個(gè)資源密集、時(shí)間周期長(zhǎng)(10~20 a)、投資高(5~26億美元)的過程[1-2]。如何提高開發(fā)效率、降低開發(fā)成本是大家關(guān)心的問題。在先導(dǎo)化合物(或已知藥物)的基礎(chǔ)上,設(shè)計(jì)與先導(dǎo)化合物有類似的空間結(jié)構(gòu)、帶有相同藥效基團(tuán)的“me-too”化合物,這樣的化合物可以與先導(dǎo)化合物作用于同一個(gè)酶,產(chǎn)生類似的藥效。這種方式顯然可以降低開發(fā)難度,提高新藥開發(fā)的效率和成功率。如何確切把握先導(dǎo)化合物的空間結(jié)構(gòu),設(shè)計(jì)結(jié)構(gòu)新穎、價(jià)鍵合理、空間結(jié)構(gòu)與先導(dǎo)化合物相同或相似的骨架是設(shè)計(jì)“me-too”化合物的關(guān)鍵問題。
目前發(fā)展的藥物設(shè)計(jì)方法多是針對(duì)某一個(gè)蛋白結(jié)合位點(diǎn)來生成可能的藥物分子結(jié)構(gòu),包括:蛋白質(zhì)結(jié)合位點(diǎn)的原子或片段連接法:LUDI (Ludwigshafen)[3];片段生長(zhǎng)連接法:LEA3D (Ligand by Evolutionary Algorithm of 3 Dimensions)[4], LigBuilder (Ligand Builder)[5-6], eSynth (electrical Synthesis)[7];按順序構(gòu)建法:LEGEND[8],SPROUT[9];隨機(jī)連接法:CoG(Compound Generator)[10], Flux (Fragment-based Ligand bUilder reaXions)[11];分解已知活性分子后再拼接的方法:eMolFrag (electrical Molecular Fragments)[12],molBLOCKS[13], SPARK[14]等。為解決設(shè)計(jì)“me-too”化合物的新型骨架的問題,本文開發(fā)了一個(gè)可以提取結(jié)構(gòu)式的長(zhǎng)鏈,用已知的簡(jiǎn)單片段對(duì)長(zhǎng)鏈進(jìn)行匹配,最后進(jìn)行拼接的全新藥物骨架的設(shè)計(jì)軟件:ChemCloser。該軟件通過提取先導(dǎo)化合物的一條長(zhǎng)鏈的3D坐標(biāo)獲得先導(dǎo)化合物空間信息,并在這條長(zhǎng)鏈的基礎(chǔ)上拼接空間合理的片段,生成與原活性化合物空間形狀相似的新型結(jié)構(gòu)骨架。此方法不需要蛋白質(zhì)的結(jié)合位點(diǎn)信息,只需要一個(gè)先導(dǎo)化合物就可以開始設(shè)計(jì)新骨架。
ChemCloser用Python 3.6語言編寫,使用RDKit軟件(http://www.rdkit.org)作為化學(xué)支持庫,在64位Win 7系統(tǒng)上編譯運(yùn)行。ChemCloser以輸入先導(dǎo)化合物的3D數(shù)據(jù)(pdb文件和mol文件)開始,經(jīng)過獲取活性化合物的3D結(jié)構(gòu)和長(zhǎng)鏈、將長(zhǎng)鏈與片段庫中的片段進(jìn)行匹配獲得符合要求的片段、拼接片段生成新結(jié)構(gòu)等步驟,最后輸出新結(jié)構(gòu)的3D數(shù)據(jù)(pdb文件)。總體流程如圖1所示。
ChemCloser解析活性化合物、并生成新結(jié)構(gòu)的流程具體可以分為5部分:
(1) 讀取活性化合物的pdb文件和mol文件,得到活性化合物的3D結(jié)構(gòu)。
圖1 ChemCloser的流程圖Fig. 1 Flow chart of ChemCloser
(2)根據(jù)活性化合物的空間結(jié)構(gòu)、原子間的連接關(guān)系,獲得指定的兩個(gè)點(diǎn)之間的所有路徑,并提取其中一條路徑(默認(rèn)提取最長(zhǎng)路徑,也可以人工指定路徑)作為長(zhǎng)鏈。
(3)將片段庫中的片段與長(zhǎng)鏈進(jìn)行匹配。保持長(zhǎng)鏈不動(dòng),平移和旋轉(zhuǎn)片段,使片段與長(zhǎng)鏈盡量接近。片段與長(zhǎng)鏈重疊(兩個(gè)點(diǎn)之間的距離 < 0.1×10?10m就認(rèn)為是重疊)的原子數(shù)大于3則認(rèn)為匹配成功。用戶可以設(shè)置需要使用的片段庫、在匹配時(shí)是否要匹配片段和長(zhǎng)鏈的雜化方式等超參數(shù)。匹配雜化方式會(huì)導(dǎo)致得到的片段數(shù)變少,但準(zhǔn)確率提高。
(4) 將長(zhǎng)鏈和匹配成功的片段進(jìn)行組合并產(chǎn)生新結(jié)構(gòu)。ChemCloser提供了兩種組合拼接方式,默認(rèn)的方式為:從片段庫中取2 ~ 3個(gè)片段與長(zhǎng)鏈進(jìn)行拼接,就可以得到新結(jié)構(gòu)。
(5)把新結(jié)構(gòu)的3D坐標(biāo)、元素符號(hào)等信息保存到pdb文件中。
ChemCloser采用片段拼接算法生成新分子,這里的“片段”指的是5 ~ 6元的單環(huán)、8 ~ 10元的并環(huán)、5 ~ 7元的橋環(huán)、10 ~ 12元的螺環(huán)等結(jié)構(gòu)。ChemCloser利用RDKit軟件生成6個(gè)不同規(guī)模的片段 庫,這 些 片 段 庫 分 別 有101、5.5×102、8.4×102、3.2×104、1.36×105、3.93×105個(gè)結(jié)構(gòu)。這些基本片段最多可包含C、H、O、N、S等5種元素,其中H元素不顯示標(biāo)注,其余元素用原子的3D坐標(biāo)、元素符號(hào)、原子雜化方式等內(nèi)容表示。本軟件一般采用含有550個(gè)結(jié)構(gòu)式的片段庫進(jìn)行匹配、拼接。
化合物1[15]是DPP-IV抑制劑(二肽基肽酶-4抑制劑)的先導(dǎo)化合物(半抑制濃度IC50= 5.41 μmol/L)。以化合物1作為種子分子為例給出ChemCloser的具體工作流程(圖2):從化合物1中提取長(zhǎng)鏈2,并在長(zhǎng)鏈2的基礎(chǔ)上拼接得到香豆素并四氫吡喃結(jié)構(gòu)3、萘酚并四氫吡喃結(jié)構(gòu)4的骨架。其中萘酚并四氫吡喃結(jié)構(gòu)是一個(gè)長(zhǎng)效DPP-IV抑制劑的核心骨架[16]。
圖2 提取化合物1的長(zhǎng)鏈并進(jìn)行片段拼接Fig. 2 Extract the long chain of compound 1 and perform fragment splicing
長(zhǎng)鏈2中所有原子間的化學(xué)鍵均為單鍵,元素種類、化學(xué)鍵信息不會(huì)影響每個(gè)點(diǎn)的空間坐標(biāo); 藥物化學(xué)家可以根據(jù)自己的需要,在長(zhǎng)鏈2中增加或刪除結(jié)點(diǎn),得到鏈狀、樹狀甚至環(huán)狀的結(jié)構(gòu),這些結(jié)構(gòu)中的點(diǎn)均來自于原始的化合物1,選擇不同的點(diǎn)不影響其空間坐標(biāo)。 結(jié)構(gòu)式3中顯然有2-萘酚結(jié)構(gòu),但是結(jié)構(gòu)式顯示軟件PyMol將其顯示為酮式。
化合物1[15]作為DPP-IV抑制劑的一個(gè)先導(dǎo)化合物,它的穩(wěn)定性、溶解性、ADME (吸收、分布、代謝和排泄)等方面可能存在問題。直接在化合物1的核心骨架(香豆素并四氫吡喃)上進(jìn)行衍生或修飾可能會(huì)把這些問題帶入新藥中。
ChemCloser的意義:在保留化合物1的空間結(jié)構(gòu)的基礎(chǔ)上對(duì)核心骨架進(jìn)行改變,為研究人員提供所有合理的核心骨架。這些骨架中可能包含完美解決上述問題的新結(jié)構(gòu),使用這些新結(jié)構(gòu)可以保持原有的藥效活性,并獲得良好的物理化學(xué)性質(zhì)。例如化合物4中的萘并四氫吡喃與化合物1的香豆素并四氫吡喃具有幾乎一樣的空間形狀,且化合物4不含酯基,不容易被酶水解而破壞其三環(huán)結(jié)構(gòu),因此具有更好的穩(wěn)定性;同時(shí)將香豆素中的酯羰基改為酚羥基(PyMol將其顯示為酮式)后,為新結(jié)構(gòu)提供進(jìn)一步衍生和修改的可能。
ChemCloser在讀取活性化合物的pdb文件、mol文件、提取活性化合物的長(zhǎng)鏈等過程時(shí)運(yùn)行較快,一般不超過1 s。片段與長(zhǎng)鏈進(jìn)行匹配過程的運(yùn)行時(shí)間取決于片段庫的選擇和長(zhǎng)鏈的原子數(shù),一般耗時(shí)20 ~300 s。組合拼接過程是軟件運(yùn)行中耗時(shí)最長(zhǎng)的部分,依據(jù)不同的化合物庫和不同的長(zhǎng)鏈,軟件在片段拼接步驟消耗的時(shí)間變化較大,時(shí)間范圍為10 min ~10 d,甚至更長(zhǎng)。例如,用550個(gè)片段庫拼接2次大約需要10 min,按照這個(gè)速度估計(jì),用3.93×105個(gè)結(jié)構(gòu)的片段庫拼接2次大約需要3 540 d。
ChemCloser采用含有550個(gè)片段的片段庫與長(zhǎng)鏈2進(jìn)行匹配,一共匹配成功881個(gè)狀態(tài)。每一輪拼接都需要進(jìn)行881次排列組合。第n輪需要881n次排列組合。顯然,排列組合的次數(shù)取決于片段庫的大小、片段庫中的片段與長(zhǎng)鏈的匹配程度。如果修改超參數(shù),使用其他較大的片段庫或者不要求匹配原子的雜化方式,則匹配成功的片段狀態(tài)將明顯增加,ChemCloser的排列組合性能會(huì)明顯降低。基于計(jì)算機(jī)的計(jì)算性能,目前只能使用550個(gè)片段的片段庫,且只能拼接2個(gè)片段。
經(jīng)過兩輪片段拼接、并刪除價(jià)鍵不合理的結(jié)構(gòu),共剩余28 265個(gè)結(jié)構(gòu)。用SHAFTS (Shape Feature Similarity)[17]對(duì)ChemCloser生成的結(jié)構(gòu)與化合物1進(jìn)行相似性打分。結(jié)果見表1。
表1 ChemCloser生成的新結(jié)構(gòu)與化合物1的結(jié)構(gòu)相似性Table 1 Similarity between the new structure generated by ChemCloser and the structure of compound 1
從表1可以得出,有71.1%的新結(jié)構(gòu)與化合物1的形狀得分在0.80 ~ 1.00之間,說明ChemCloser產(chǎn)生的結(jié)構(gòu)可以較好地保留原活性化合物的空間形狀,預(yù)期它們?cè)谔砑铀幮Щ鶊F(tuán)之后能與原活性化合物產(chǎn)生相似的藥效活性。
ChemCloser采用片段與原活性化合物的長(zhǎng)鏈進(jìn)行匹配的方式產(chǎn)生新結(jié)構(gòu),總體的空間形狀被長(zhǎng)鏈嚴(yán)格限定,所以用ChemCloser產(chǎn)生的新結(jié)構(gòu)可以得到較高的形狀相似性得分。如果選取的活性化合物較大,長(zhǎng)鏈較長(zhǎng),則片段覆蓋長(zhǎng)鏈的部分比較少,產(chǎn)生的新結(jié)構(gòu)的相似性會(huì)有所降低。另一個(gè)因素是活性化合物的長(zhǎng)鏈的選擇。選擇不同的起點(diǎn)、終點(diǎn)、不同的路徑都會(huì)導(dǎo)致ChemCloser得到不同的長(zhǎng)鏈,進(jìn)而得到不同的新結(jié)構(gòu),這些新結(jié)構(gòu)也會(huì)影響形狀相似性得分。
相比LigBuilder軟件[5]只使用57個(gè)片段就可以進(jìn)行新藥設(shè)計(jì),ChemCloser使用包含550個(gè)片段的片段庫,在這個(gè)規(guī)模下進(jìn)行排列組合顯然可以得到較好的多樣性。但是ChemCloser產(chǎn)生的結(jié)構(gòu)無法跳出長(zhǎng)鏈2的限制,因此幾乎無法生成其他類似形狀的結(jié)構(gòu)。另外,正如前面提到的,同一個(gè)活性化合物選擇不同的起點(diǎn)、終點(diǎn)和路徑會(huì)導(dǎo)致產(chǎn)生不同的新結(jié)構(gòu),因此只基于某一條路徑生成新結(jié)構(gòu)會(huì)導(dǎo)致多樣性降低。如果在多條路徑的基礎(chǔ)上進(jìn)行計(jì)算,就可以獲得更多的結(jié)構(gòu)式和多樣性。
化合物5[18]是一個(gè)人鼻病毒外殼蛋白抑制劑(圖3(a))、化合物6[19]是一個(gè)人類間變性淋巴瘤激酶抑制劑(圖3(b))。ChemCloser在它們的基礎(chǔ)上生成一系列新結(jié)構(gòu)。這些新結(jié)構(gòu)與原活性化合物的結(jié)構(gòu)相似性對(duì)比見表2。
圖3 化合物5(a)和化合物6(b)的化學(xué)結(jié)構(gòu)式Fig. 3 Chemical structure of compound 5(a) and compound 6(b)
從表2可以得出,有63.90%的新生成的結(jié)構(gòu)與化合物5有較好的形狀相似性(得分0.80 ~ 1.00),說明在長(zhǎng)鏈限制下生成的新結(jié)構(gòu)確實(shí)能較好地保持原化合物的空間結(jié)構(gòu)。
化合物6是一個(gè)環(huán)狀結(jié)構(gòu),選擇不同的起點(diǎn)和終點(diǎn)會(huì)得到截然不同的路徑,進(jìn)而生成不同的結(jié)構(gòu)。例如當(dāng)起點(diǎn)和終點(diǎn)分別為28和29時(shí),生成的結(jié)構(gòu)中有99.4%與化合物6有較好的形狀相似性。而起點(diǎn)和終點(diǎn)分別為1和28時(shí),沒有得分為0.80 ~1.00之間的結(jié)構(gòu)式,74.0%的結(jié)構(gòu)與化合物6的相似性得分為0.70 ~ 0.80之間;起點(diǎn)和終點(diǎn)分別為1和21時(shí),僅有1.16%的結(jié)構(gòu)式與化合物6的相似性得分在0.80 ~ 0.90的區(qū)間,24.3%的結(jié)構(gòu)式在0.70 ~0.80之間。這3組數(shù)據(jù)說明選擇不同的起點(diǎn)和終點(diǎn)(即不同的路徑)對(duì)生成的結(jié)構(gòu)有較大影響,也再一次印證了選擇合適的起點(diǎn)和終點(diǎn)(即合適的路徑)的重要性。
表2 基于化合物5和6生成的新結(jié)構(gòu)的相似性值分布Table 2 Similarity value distribution of the new generated structures based on compound 5 and 6
2.7.1 計(jì)算性能和優(yōu)化方式 ChemCloser生成新結(jié)構(gòu)的方式本質(zhì)上是片段的排列組合。因此,當(dāng)數(shù)據(jù)量較大時(shí),一定會(huì)發(fā)生“組合爆炸”,原因是生成的中間結(jié)構(gòu)無論質(zhì)量好壞都進(jìn)行下一輪拼接,浪費(fèi)了大量CPU(Central Processing Unit)性能,由此導(dǎo)致ChemCloser的計(jì)算性能欠佳。這個(gè)問題將在下一個(gè)版本中解決。
2.7.2 修改原化合物的骨架對(duì)原有生物活性的影響
活性化合物的藥效基團(tuán)是真正產(chǎn)生活性的關(guān)鍵基團(tuán),而活性化合物的骨架只是提供安放藥效基團(tuán)的基本結(jié)構(gòu)。當(dāng)活性化合物(基本結(jié)構(gòu) + 藥效基團(tuán))放到酶的結(jié)合位點(diǎn)時(shí),這些藥效基團(tuán)可以“擺放”在合理的位置,使活性化合物與酶結(jié)合。如果活性化合物的骨架改變了,但是新骨架仍然能保持所有的藥效基團(tuán)“擺放”在合理的位置,那么這個(gè)新化合物的藥效基團(tuán)還是能與酶結(jié)合,能發(fā)揮與原化合物相同或相似的活性。ChemCloser可以保證新生成的骨架與原活性化合物有相同或相似的空間結(jié)構(gòu),且在這些骨架上連接藥效基團(tuán)后,這些藥效基團(tuán)仍然能“擺放”在合理的位置,并與酶結(jié)合。這樣的化合物將會(huì)與原活性化合物具有相同或相似的生物活性。
2.7.3 新結(jié)構(gòu)優(yōu)劣的判斷 作為藥物的核心骨架,應(yīng)該具有較好的穩(wěn)定性、適中的剛性等物理、化學(xué)特性。如果核心骨架上存在酯基、酰胺、醛基、(半)縮醛、(半)縮酮等容易變化的基團(tuán),則該骨架很容易被降解(破壞);如果核心骨架是大的芳環(huán),則會(huì)導(dǎo)致藥物剛性太強(qiáng),溶解性降低,導(dǎo)致化合物無法突破人體內(nèi)的各種屏障,到達(dá)作用位點(diǎn)并發(fā)揮藥效。我們對(duì)片段庫中的基本結(jié)構(gòu)進(jìn)行篩選,刪除化學(xué)性質(zhì)不穩(wěn)定、剛性太強(qiáng)的片段,使生成的新骨架有較好物理、化學(xué)性質(zhì)。但是,即使片段庫中的基本結(jié)構(gòu)都是化學(xué)性質(zhì)穩(wěn)定、剛性適中的片段,在進(jìn)行片段拼接后仍然可能生成不穩(wěn)定、剛性過強(qiáng)的結(jié)構(gòu)。目前只能人工判斷新骨架的優(yōu)劣,而無法讓ChemCloser自動(dòng)判斷,這個(gè)問題需要在下一個(gè)版本中嘗試解決。
2.7.4 提高生成結(jié)構(gòu)質(zhì)量的方式 ChemCloser生成的骨架質(zhì)量差別較大,需要通過多方面對(duì)新骨架進(jìn)行考察。例如用SHAFTS[17]對(duì)新骨架與原活性化合物進(jìn)行空間相似性打分、查找是否存在不穩(wěn)定的基團(tuán)、通過引入受體的結(jié)構(gòu),計(jì)算新化合物與受體的結(jié)合數(shù)據(jù),對(duì)比原化合物與受體的結(jié)合數(shù)據(jù),可以進(jìn)一步確定新骨架是否合理。綜合應(yīng)用這些方法可以在所有結(jié)構(gòu)中篩選出質(zhì)量最好的一個(gè)或幾個(gè)骨架。
2.7.5 判斷生成的化合物新穎性的方法 ChemCloser
只負(fù)責(zé)生成包括原活性化合物的骨架,以及新骨架在內(nèi)的所有骨架,不負(fù)責(zé)判斷新骨架是不是“新穎的”。對(duì)于ChemCloser生成的新骨架,必須要由藥物設(shè)計(jì)者通過全面查閱文獻(xiàn)、專利等資料后判斷該骨架是不是具有新穎性。
2.7.6 路徑的選擇方式 ChemCloser是一個(gè)半經(jīng)驗(yàn)的藥物設(shè)計(jì)軟件,并不能全自動(dòng)地設(shè)計(jì)活性化合物的新骨架。選擇不同的起點(diǎn)和終點(diǎn),活性化合物會(huì)有多條路徑,ChemCloser默認(rèn)選取活性化合物中最長(zhǎng)的一條長(zhǎng)鏈。但最長(zhǎng)的路徑并不一定是(最)合理的路徑。我們認(rèn)為在藥物設(shè)計(jì)之前,先要研究活性化合物中哪些是藥效基團(tuán),哪些是輔助基團(tuán),活性化合物的關(guān)鍵骨架是什么,在確定這些信息之后,再進(jìn)行有取舍的路徑選擇。合理的路徑應(yīng)該保證路徑上能夠放置所有的藥效基團(tuán),并獲得活性化合物的空間信息。而這樣的路徑可能不再是鏈狀結(jié)構(gòu),有可能是樹狀結(jié)構(gòu)、甚至是圖(包含環(huán))。如果依靠計(jì)算機(jī)的路徑規(guī)劃算法可能很難區(qū)分哪些是必須的片段,哪些是不重要的片段,由此很難獲得真正合理的路徑(長(zhǎng)鏈)。
(1) 開發(fā)了一款基于片段拼接、空間結(jié)構(gòu)匹配的全新藥物骨架的設(shè)計(jì)軟件:ChemCloser,它能提取活性化合物的一條長(zhǎng)鏈的3D坐標(biāo),并在該長(zhǎng)鏈的基礎(chǔ)上拼接空間合理的片段,得到結(jié)構(gòu)新穎、空間形狀與活性化合物相似的分子骨架,可以為藥物設(shè)計(jì)人員提供更多、更優(yōu)秀的核心骨架。
(2) 以DPP-IV抑制劑的先導(dǎo)化合物1為設(shè)計(jì)模型,分析了ChemCloser的性能、性能影響的因素、生成結(jié)構(gòu)式的多樣性。考察了ChemCloser在人鼻病毒外殼蛋白抑制劑和人類間變性淋巴瘤激酶抑制劑方面的應(yīng)用,新結(jié)構(gòu)同樣顯示出較好的結(jié)構(gòu)相似性,并且再一次印證了選擇不同的長(zhǎng)鏈對(duì)新結(jié)構(gòu)有較大影響。
(3) 分析了ChemCloser存在的幾個(gè)問題。ChemCloser采用排列組合的方式拼接生成新結(jié)構(gòu)式,這種方式在數(shù)據(jù)量較大時(shí)會(huì)發(fā)生“組合爆炸”的問題。目前ChemCloser不能自動(dòng)判斷新結(jié)構(gòu)的優(yōu)劣,也不能判斷生成的結(jié)構(gòu)是不是新穎,這些都需要人工判斷。分析了修改原化合物的骨架對(duì)原有生物活性的影響、提高生成結(jié)構(gòu)的質(zhì)量的方式、路徑的選擇方式等問題。