魯鵬薇,張明
(上海海事大學(xué)信息工程學(xué)院,上?!?01306)
Hedgehog信號(hào)通路抑制劑的構(gòu)效關(guān)系研究
魯鵬薇,張明
(上海海事大學(xué)信息工程學(xué)院,上海201306)
Hedgehog信號(hào)通路在細(xì)胞的分化、生長(zhǎng)以及細(xì)胞的發(fā)育中扮演著一個(gè)很重要的角色[1],持續(xù)激活此通路能使成年人致癌,誘發(fā)基底細(xì)胞癌、成神經(jīng)管細(xì)胞瘤、橫紋肌肉瘤、乳腺癌和前列腺癌、胰腺癌[2~5]。而在上世紀(jì)90年代人們發(fā)現(xiàn)一種異甾體類生物堿——環(huán)巴胺,它能抑制該通路并能誘導(dǎo)多種腫瘤細(xì)胞死亡,而對(duì)正常細(xì)胞無影響[6~7]。但是其在自然界中含量很低,人工合成方法不僅耗費(fèi)財(cái)力和物力,而且效率極低。因此對(duì)環(huán)巴胺衍生物進(jìn)行有效的定量構(gòu)效關(guān)系(Quantitative Structure-Activity Relationship,QSAR)建模,利用計(jì)算機(jī)技術(shù)對(duì)其進(jìn)行研究就具有極大地意義[8],不但降低了巨大的成本消費(fèi),而且減少了大量的人力。
本文在前人研究的二進(jìn)制分類方法比線性擬合的方法在進(jìn)行QSAR研究要好的基礎(chǔ)上,通過對(duì)相同實(shí)驗(yàn)數(shù)據(jù)進(jìn)行試驗(yàn),最后比較得出一種較好的機(jī)器學(xué)習(xí)分類方法來對(duì)環(huán)巴胺衍生物的QSAR進(jìn)行建模。QSAR模型是一種借助分子的理化性質(zhì)參數(shù)或結(jié)構(gòu)參數(shù),以數(shù)學(xué)和統(tǒng)計(jì)學(xué)手段定量研究有機(jī)小分子與生物大分子相互作用、有機(jī)小分子在生物體內(nèi)吸收、分布、代謝、排泄等生理相關(guān)性質(zhì)的方法[9]。
環(huán)巴胺的結(jié)構(gòu)如圖1所示。
圖1 環(huán)巴胺的結(jié)構(gòu)
在對(duì)Hedgehog信號(hào)通路抑制劑研究的發(fā)展與過程中,癌癥研究者致力于找到多種Hedgehog信號(hào)通路抑制劑,從而對(duì)一系列的惡性腫瘤進(jìn)行有效的治療[10~12],但到現(xiàn)在,發(fā)現(xiàn)的種類還是很少;此外,在對(duì)環(huán)巴胺進(jìn)行合成的研究過程中,由于環(huán)巴胺在水中或者其他極性溶劑中溶解度低,因而也就沒有有效的方法去合成環(huán)巴胺[13~14];Janardanannair等[15]在研究環(huán)巴胺衍生物的QSAR中起到了帶頭的作用,采用羥基對(duì)二級(jí)胺和氧化銅進(jìn)行修飾,研究結(jié)果定量地表明了此方法能對(duì)環(huán)巴胺衍生物的活性產(chǎn)生影響,但是其試驗(yàn)樣本總共不到30個(gè),因此對(duì)于QSAR的研究遠(yuǎn)遠(yuǎn)沒有產(chǎn)生令人滿意的效果;朱瑞新等[16]對(duì)環(huán)巴胺衍生物的QSAR進(jìn)行了研究,表明在對(duì)環(huán)巴胺衍生物進(jìn)行QSAR的研究中,機(jī)器學(xué)習(xí)方法比線性回歸方法好,但并沒有對(duì)機(jī)器學(xué)習(xí)方法進(jìn)行比較研究。本文研究重點(diǎn)在于,在樣本較大的情況下得到較好的QSAR建模方法。
在本實(shí)驗(yàn)中,主要是利用已合成的93種環(huán)巴胺衍生物以及四組靶點(diǎn)活性細(xì)胞系 (BxPC-3、NCI-H446、SW1990和NCI-H157)為實(shí)驗(yàn)數(shù)據(jù),依據(jù)不同方法進(jìn)行實(shí)驗(yàn)數(shù)據(jù)分類,然后再采用不同特征描述符對(duì)環(huán)巴胺衍生物進(jìn)行描述,最后利用不同機(jī)器學(xué)習(xí)方法進(jìn)行QSAR實(shí)驗(yàn),圖2所示為算法的流程圖。對(duì)93種環(huán)巴胺衍生物分別用通用描述符和類藥性指數(shù)描述符進(jìn)行特征描述,然后在不同特征描述符下分別采用兩種分類方法進(jìn)行訓(xùn)練集與測(cè)試集的劃分,最后在每種分類結(jié)果中,再分別利用兩種機(jī)器學(xué)習(xí)算法進(jìn)行建模。
圖2 算法流程圖
(1)訓(xùn)練集與測(cè)試集分類方法
首先是對(duì)數(shù)據(jù)進(jìn)行分類,分為訓(xùn)練集與測(cè)試集。在本文中,選取訓(xùn)練集與測(cè)試集的比例65%:35%。在分子操作環(huán)境(Molecular Operating Environment,MOE)中,多樣性子集分類[17]對(duì)化合物進(jìn)行排列的方法是依據(jù)多樣性的性質(zhì),為了比較機(jī)器學(xué)習(xí)分類方法對(duì)QSAR研究的影響,本文又采用了聚簇多樣性子集分類方法,也就是在進(jìn)行多樣性子集分類之前先進(jìn)行聚類,然后在每一類中再進(jìn)行多樣性子集分類。在MOE中有基于指紋的聚類方法以及基于描述的聚類方法,在本文研究中,采用基于描述的聚類方法,因?yàn)榇怂惴〞r(shí)間復(fù)雜度較小。
(2)特征描述符方法
描述符方法有很多,包括電子描述符、拓?fù)渲笖?shù)、量子化學(xué)描述符等,描述符間沒有一種描述符更優(yōu)于另一種描述符,因此本文采用最常用的通用描述符[16],為了對(duì)比,在實(shí)驗(yàn)中加入了類藥性指數(shù)描述符[18]。通用描述符對(duì)于QSAR模型的建立有很大的作用。而類藥性指數(shù)描述符剛開始是用于衡量類藥性化合物的,后來則在MOE中進(jìn)行使用成為一套描述符的[19]。前者傾向描述化合物的物理特性,而后者傾向描述化合物的拓?fù)渲笖?shù)性質(zhì),因而兩者有一定的互補(bǔ)作用。
(3)采用機(jī)器學(xué)習(xí)方法的QSAR研究
①機(jī)器學(xué)習(xí)方法介紹
在本文中,采用支持向量機(jī)(Support Vector Ma chine,SVM)算法[20]和人工神經(jīng)網(wǎng)絡(luò)(Artifical Neural Network,ANN)算法兩種方法,主要目的是對(duì)Hed-gehog信號(hào)通路抑制劑進(jìn)行QSAR的研究中比較兩者的性能,找到合適的統(tǒng)計(jì)建模方法。SVM是建立在統(tǒng)計(jì)學(xué)習(xí)理論中的機(jī)器學(xué)習(xí)技術(shù),已應(yīng)用到科學(xué)研究的各個(gè)領(lǐng)域中,例如文本識(shí)別、圖像分類以及語音識(shí)別等。本文利用其進(jìn)行QSAR研究,把訓(xùn)練數(shù)據(jù)通過核函數(shù)映射到一個(gè)特征空間,并利用最優(yōu)超平面對(duì)數(shù)據(jù)進(jìn)行分類,下圖即為最優(yōu)線性超平面:
SVM解決非線性可分問題的基本思想是將非線性不可分問題通過核函數(shù)映射到高維空間,使其在高維空間可分,通過在高維空間尋找最優(yōu)超平面進(jìn)行數(shù)據(jù)分類。本文采用徑向基核函數(shù):
圖3 最優(yōu)線性超平面
ANN是由大量簡(jiǎn)單的基本元件——神經(jīng)元件相互連接,模擬人的大腦信息處理方式,進(jìn)行信息并行處理和非線性轉(zhuǎn)換的復(fù)雜網(wǎng)絡(luò)系統(tǒng)。主要包括輸入端、隱含層以及輸出端,其結(jié)構(gòu)如圖4所示:
圖4 人工神經(jīng)算法結(jié)構(gòu)圖
其算法的數(shù)學(xué)表達(dá)式為:
其中,wij為神經(jīng)元i與神經(jīng)元j間的結(jié)強(qiáng),即結(jié)加權(quán)值,xi為從神經(jīng)元i傳來的輸入訊號(hào),茲j為神經(jīng)元j的門檻值,f為轉(zhuǎn)換函數(shù),通常為一個(gè)階梯函數(shù)。
其定義如下:
(2)實(shí)驗(yàn)過程介紹
在本文試驗(yàn)中分別把93種環(huán)巴胺衍生物的通用描述符結(jié)果以及類藥性描述符結(jié)果作為機(jī)器學(xué)習(xí)方法的輸入,這兩種描述符結(jié)果可以通過MOE 2008軟件來實(shí)現(xiàn),然后對(duì)訓(xùn)練集中的數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),以93種環(huán)巴胺衍生物的活性或者非活性作為輸出,此過程采用MATLAB 2010b實(shí)現(xiàn),最后把機(jī)器學(xué)習(xí)得出的數(shù)學(xué)模型再應(yīng)用到測(cè)試集中,通過對(duì)93種環(huán)巴胺衍生物的總的準(zhǔn)確率數(shù)值進(jìn)行比較 (包括活性數(shù)據(jù)的準(zhǔn)確率以及非活性的準(zhǔn)確率)來判斷兩種機(jī)器學(xué)習(xí)方法中哪種較優(yōu)。
采用93種環(huán)巴胺衍生物以及四組靶點(diǎn)活性細(xì)胞系,采用四種細(xì)胞系的原因是:NCI-H157(人非小細(xì)胞肺腺癌)是對(duì)Hedgehog信號(hào)通路低表達(dá)的細(xì)胞,而NCI-H446(人小細(xì)胞肺癌細(xì)胞)是對(duì)Hedgehog信號(hào)通路高表達(dá)的細(xì)胞。BxPC-3(人原位胰腺腺癌細(xì)胞)和SW1990(人胰腺癌細(xì)胞)也分別是低、高表達(dá)的細(xì)胞。
表1中列出了本次實(shí)驗(yàn)所采用的環(huán)境以及所用到的編程工具。
表1 實(shí)驗(yàn)平臺(tái)及環(huán)境
表2中At代表訓(xùn)練數(shù)據(jù)集的自擬合結(jié)果的準(zhǔn)確率,Av代表訓(xùn)練數(shù)據(jù)集的交叉驗(yàn)證擬合結(jié)果的準(zhǔn)確率,Ap代表測(cè)試數(shù)據(jù)集的自擬合結(jié)果的準(zhǔn)確率,δ是類藥性指數(shù)描述符準(zhǔn)確率與通用描述符下的準(zhǔn)確率之差。
(1)訓(xùn)練集與測(cè)試集分類方法比較
研究看來,提供一個(gè)魯棒性好的、偏差小的以及足夠大的訓(xùn)練集數(shù)據(jù)對(duì)于模型的構(gòu)建是很重要的。在本文中,提出采用兩種分類方法來對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分類。為了比較兩種分類方法對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分類的影響,提出利用t檢驗(yàn)法來計(jì)算得到兩表間的p_value值是0.88>(0.05),這表明對(duì)于QSAR的研究中,兩種分類方法沒有統(tǒng)計(jì)上的差異。也就是說,兩種分類方法對(duì)訓(xùn)練集以及測(cè)試集的分布結(jié)果的影響是不大的,差異性很小。
(2)兩種特征描述符方法比較
在本文中,提出采用兩種特征描述符,分別對(duì)93種化合物衍生物進(jìn)行描述。由實(shí)驗(yàn)數(shù)據(jù)可以知道,在QSAR建模中,對(duì)于訓(xùn)練集的自擬合結(jié)果,物理性質(zhì)描述符比拓?fù)渲笖?shù)描述符效果要好,因?yàn)槲覀兛梢钥吹讲钪到Y(jié)果是負(fù)值(紅色);而對(duì)于測(cè)試集的數(shù)據(jù),則類藥性描述符的魯棒性要比普通描述符好,因?yàn)椴钪到Y(jié)果是正值(藍(lán)色);在交叉驗(yàn)證結(jié)果中,有正值也有負(fù)值。總之,類藥性描述符在訓(xùn)練集或者測(cè)試集中都能保持較好的穩(wěn)定性,而普通描述符在獨(dú)立的測(cè)試集數(shù)據(jù)中則不能保證穩(wěn)定性。
(3)統(tǒng)計(jì)數(shù)據(jù)分類方法比較
在此前已有研究者們得出結(jié)論,二值分類效果相對(duì)于線性擬合結(jié)果較好,在連續(xù)的活性數(shù)據(jù)中,采用閾值標(biāo)準(zhǔn)來將其轉(zhuǎn)化為二值數(shù)值,其研究采用藥物化合物的IC50值作為截止數(shù)值,IC50值是使癌細(xì)胞死亡一半時(shí)所對(duì)應(yīng)的抑制劑的濃度,也就是說這個(gè)值越小越好。本文采用SVM算法與ANN算法兩種機(jī)器學(xué)習(xí)分類方法來對(duì)QSAR進(jìn)行研究。實(shí)驗(yàn)結(jié)果表明SVM算法比ANN算法對(duì)于這些實(shí)驗(yàn)數(shù)據(jù)的QSAR研究更好一些,原因是ANN算法實(shí)驗(yàn)不太穩(wěn)定,需要大量的數(shù)據(jù),而SVM算法有嚴(yán)格的計(jì)算基礎(chǔ),算法具有全局最優(yōu)性,在小樣本下能達(dá)到很好的計(jì)算結(jié)果。
表2 多樣性子集分類的定量構(gòu)效關(guān)系實(shí)驗(yàn)結(jié)果
表3 聚簇多樣性子集分類的定量構(gòu)效關(guān)系實(shí)驗(yàn)結(jié)果
在本文研究中,采用不同的特征描述符,不同的訓(xùn)練集以及測(cè)試集的分類方法,并利用不同的二值分類方法來對(duì)種環(huán)巴胺衍生物的QSAR進(jìn)行研究,通過實(shí)驗(yàn)結(jié)果的比較,我們得出了較好的機(jī)器學(xué)習(xí)分類方法。在四種細(xì)胞系中,NCI-H446是Hedgehog信號(hào)通路抑制劑進(jìn)行活性測(cè)試的最適合的細(xì)胞系,因?yàn)樵诖思?xì)胞系的研究中,實(shí)驗(yàn)結(jié)果準(zhǔn)確率很高,其他細(xì)胞系準(zhǔn)確率都在左右。最后的研究結(jié)果表明,本文所采用的兩種分類實(shí)驗(yàn)數(shù)據(jù)方法對(duì)數(shù)據(jù)的分類結(jié)果影響不是很大;兩種描述符中,類藥性描述符較普通描述符來說魯棒性要好;對(duì)QSAR進(jìn)行建模的研究過程中,SVM算法比ANN算法要好。
[1]Ingham PW,McMahon AP.Hedgehog Signaling in Animal Development:Paradigms and Principles[J].Genes Dev 2001,15:3059~3087
[2]Oro AE,Higgins KM,Hu Z,et al.Basal Cell Carcinomas in Mice over Expressing Sonic Hedgehog[J].Science,1997,276:817~821
[3]Kinzler KW,Bigner SH,Bigner DD,et al.Identification of an Amplified,Highly Expressed Gene in a Human Glioma[J].Science 1987,236:70~73
[4]Dahmane N,Lee J,Robins P,et al.Activation of the Transcription Factor Gli1 and the Sonic Hedgehog Signalling pathway in Skin Tumours[J].Nature,1997,389:876~881
[5]Grachtchouk M,Mo R,Yu S,et al.Basal Cell Carcinomas in Mice Overexpressing Gli2 in Skin[J].Nature Genet 2000;24:216~217
[6]周劍俠,康露,畢京博等.異甾體類生物堿——環(huán)巴胺的研究進(jìn)展[J].中國(guó)天然藥物,2006,4(6):468~472
[7]Lee J,Wu X,et al.A Small-Molecule Antagonist of Hedgehog Signaling Pathway[J].Biochemstry,2007,8(16):1916~1919
[8]Zhang J,Garrossian M,Gardner D,et al.Synthesis and Anticancer Activity Studies of Cyclopamine Derivatives[J].Bioorg Med Chem Lett,2008,18:1359~1363
[9]定量構(gòu)效關(guān)系.http://baike.so.com/doc/6609150.html
[10]Reifenberger J,Wolter M,Weber RG,et al.Missense Mutations in SMOH in Sporadic Basal Cell Carcinomas of the Skin and Primitive neuroectodermal tumors of the central nervous system[J].Cancer Res 1998;58:1798-1803.
[11]Dahmane N,Sánchez P,Gitton Y,et al.The Sonic Hedgeho-Gli pathway Regulates Dorsal Brain Growth and Tumorigenesis[J]. Development,2001,128:5201~5212
[12]Chen JK,Taipale J,Young KE,et al.Small Molecule Modulation of Smoothened Activity[J].Proc.Natl.Acad.Sci.USA,2002,99:14071~14076
[13]For example:Beachy et al[D].U.S.Patent No.6911528,2005
[14]Taipale J,Chen JK,Cooper MK,et al.Effects of Oncogenic Mutations in Smoothened and Patched can be Reversed by Cyclopamine [J].Nature,2000,406:1005~1009
[15]Janardanannair S,Adams J,Ripka AS,et al.Methods for Preparation Cyclopamine Analogs and Use Thereof in Treating Cancers[J]. 2005,-US30406;2006026430,20050826,2006
[16]Ruixin Zhu,Qi Liu,Jian Tang,Huiliang,ZW Cao.Investigations on Inhibitors of Hedgehog Signal Pathway:A QSAR Study[J].Int.J. Mol.Sci.,2011(12):3018~3033
[17]Labute P.A Widely Applicable Set of Descriptors[J].J Mol Graph Model 2000;18:464~477
[18]Xu J,Stevenson J.Drug-like index:A New Approach To Measure Drug-like Compounds and Their Diversity[J].J Chem.Inf.Comput. Sci.2000;40:1177~1187
[19]q_dli.svl.Small Molecule Drug-Like Index Descriptors.www.chemcomp.com
[20]Vapnik.The Nature of Statistical Learning Theory[M].New York:Springer,1995
Cyclopamine;Inhibitors of Hedgehog Signaling Pathway;Quantitative Structure-Activity Relationship
Research on the Structure-Activity Relationship of the Hedgehog Signaling Pathway Inhibitor
LU Peng-wei,ZHANG Ming
(College of Information Engineering,Shanghai Maritime University,Shanghai 201306)
1007-1423(2015)17-0022-06
10.3969/j.issn.1007-1423.2015.17.005
魯鵬薇(1989-),女,河南焦作人,碩士,研究方向?yàn)槟J阶R(shí)別、多媒體信息處理、蛋白質(zhì)分子反向?qū)?,Email:zhyzhaihuiyan@163.com
張明(1957-),男,博士,教授,研究方向?yàn)槎嗝襟w信息處理、分布式多媒體技術(shù)、多媒體數(shù)據(jù)庫、視覺信息檢索與分析、網(wǎng)絡(luò)信息安全、人工智能、航運(yùn)信息化技術(shù)等
2015-04-17
2015-05-21
研究表明環(huán)巴胺是一種Hedgehog信號(hào)通路抑制劑,對(duì)多種腫瘤有良好的抑制作用。提出一種可靠的定量構(gòu)效關(guān)系模型,對(duì)93種環(huán)巴胺衍生物(共四組靶點(diǎn)活性數(shù)據(jù):BxPC-3、NCI-H446、SW1990和NCI-H157)采用不同方式劃分訓(xùn)練集與測(cè)試集,以及采用不同特征描述符和使用不同機(jī)器學(xué)習(xí)分類方法來建模,從而得到建立定量構(gòu)效關(guān)系模型較好的機(jī)器學(xué)習(xí)分類方法。研究表明,支持向量機(jī)的統(tǒng)計(jì)分類方法是對(duì)Hedgehog信號(hào)通路抑制劑建立定量構(gòu)效關(guān)系模型的一個(gè)較好的選擇。
環(huán)巴胺;Hedgehog信號(hào)通路抑制劑;定量構(gòu)效關(guān)系
The study has shown that cyclopamine is a kind of inhibitors of Hedgehog signal pathway and has a good effect on a wide variety of tumor.Proposes a solid QSAR model.The data contains 93 cyclopamine derivatives as well as their activities against four different cell lines (NCI-H446,BxPC-3,SW1990 and NCI-H157).And proposes different machine learning ways in order to get a better way to build a good Quantitative Structure-Activity Relationship.The testing indicates that the SVM is a better choice for building the QSAR model of inhibitors of Hedgehog signaling pathway.