陳 艷,馮 惠,周 俊,堵錫華
(徐州工程學(xué)院 材料與化學(xué)工程學(xué)院,江蘇 徐州 221018)
整合酶(Integrase,IN)是人類免疫缺陷病毒1型(Human immunodeficiency virus-1)完整生命周期的必須催化酶之一,其機(jī)理是將逆轉(zhuǎn)錄酶產(chǎn)生的病毒脫氧核糖核酸(Deoxyribonucleic acid,DNA)整合到宿主染色體中,從而使HIV-1完成生命周期,所以以整合酶為靶點(diǎn)的抗HIV-1藥物的研究成為了近幾年的熱點(diǎn)。目前整合酶抑制劑的篩選主要以鏈轉(zhuǎn)移反應(yīng)為靶標(biāo),稱為整合酶鏈轉(zhuǎn)移抑制劑(Integrase strand transfer inhibitors,INSTIs)。然而,用INSTIs治療時,IN會發(fā)生突變,使HIV-1病毒產(chǎn)生耐藥性,因此進(jìn)一步開發(fā)抗突變性、抗耐藥性、安全有效的新型HIV INSTIs變得迫在眉睫[1]。Zhao等[2]設(shè)計(jì)合成了一系列1,8-二氮雜萘-3-甲酰胺衍生物,并修飾了該系列化合物4號位和7號位,同時探索了6位取代基對抗病毒效應(yīng)和抗耐藥性2個方面的影響,得到了一系列活性數(shù)據(jù)。劉冬琳等[3]采用三維定量構(gòu)效關(guān)系(Three dimensions-quantitative structure-activity relationship,3D-QSAR)、分子對接和分子動力學(xué)模擬等方法研究了該類化合物結(jié)構(gòu)與活性的關(guān)系,取得了較好的結(jié)果。
本文在文獻(xiàn)[4-10]工作的基礎(chǔ)上,基于INSTIs的活性,運(yùn)用多元線性回歸中最佳變量子集回歸的方法,篩選變量的最佳組合,建立多元線性定量構(gòu)效關(guān)系(QSAR)模型,并把該最佳變量組合作為人工神經(jīng)網(wǎng)絡(luò)的輸入層,建立反向傳播(Back propagation,BP)算法模型,以期使相關(guān)性、預(yù)測能力更優(yōu),籍以探討影響HIV-1 INSTIs生物活性的主要因素。
32個INSTIs(1,8-二氮雜萘-3-甲酰胺類衍生物)的分子結(jié)構(gòu)及活性均來自于文獻(xiàn)[3](活性值IC50的單位為nmol/L),其骨架見圖1,其中R4、R6和R7分別代表4位、6位和7位上的取代基,具體分子構(gòu)成見表1。
圖1 INSTIs的分子骨架圖
1.2.1 分子描述符的計(jì)算
通常1個指數(shù)反映分子結(jié)構(gòu)的信息量是有限的,往往需要多種指數(shù)聯(lián)合。電拓?fù)錉顟B(tài)指數(shù)Ei能夠表征分子中所蘊(yùn)含的電子與拓?fù)涮卣?電性距離矢量Mj是基于每一個非氫原子的拓?fù)洵h(huán)境及成鍵原子的電子信息通過矩陣運(yùn)算得到的1組數(shù)值,所以這2個指數(shù)聯(lián)合全面表征了分子的拓?fù)?、幾何及電性特征。具體的計(jì)算方法是用ChemDraw Ultra 9.0 軟件分別構(gòu)建32個1,8-二氮雜萘-3-甲酰胺類衍生物的分子結(jié)構(gòu),應(yīng)用文獻(xiàn)[11,12]的方法編制程序進(jìn)行計(jì)算,得到46種電拓?fù)錉顟B(tài)指數(shù)和91種電性距離矢量,去掉全為0的自變量,還剩57種分子描述符來表征INSTIs的分子結(jié)構(gòu)。
表1 INSTIs的分子結(jié)構(gòu)及活性值表
*為設(shè)計(jì)的分子
1.2.2 多元線性回歸分析和神經(jīng)網(wǎng)絡(luò)分析
將INSTIs的抑制活性(pIC50)和上文得到的57個分子描述符組成數(shù)據(jù)集,采用最佳變量子集回歸的方法篩選最佳變量組合,建立多元線性回歸模型,以Kubinyi函數(shù)(Kubinyi function,FIT)[13,14]做為選擇最佳變量組合的依據(jù),其計(jì)算公式為
(1)
式中:y為化合物數(shù);b為變量數(shù)。FIT值的大小與模型的穩(wěn)定性及預(yù)測能力成正比。
采用多元線性回歸中的最佳變量組合作為神經(jīng)網(wǎng)絡(luò)的輸入層,利用目前應(yīng)用最為廣泛的基于誤差BP算法的人工神經(jīng)網(wǎng)絡(luò)建立模型,所建模型的相關(guān)性和預(yù)測能力均顯著提高。
表2 INSTIs抑制活性與En、Mj的最佳變量子集回歸結(jié)果表
由表2可知,隨著進(jìn)入模型的自變量數(shù)目的增加,F和FIT逐漸增加,但后面4項(xiàng)指標(biāo)均在第6個模型處出現(xiàn)拐點(diǎn),說明(M57,M14,E7,E13,E21,M36)為最佳變量組合,最佳模型為
pIC50=(2.771±0.627)-(3.298±0.419)M57-
(0.192±0.026)M14+(0.401±0.082)E7+
(0.111±0.022)E13+(19.127±4.840)E21-
(4.628±1.573)M36
(2)
用模型式(2)計(jì)算32個INSTIs的抑制活性,得到的預(yù)測值1列于表1,該預(yù)測值和實(shí)驗(yàn)值基本接近,平均誤差為0.264。
用Jackknife法[15]對模型進(jìn)行穩(wěn)健性檢驗(yàn)。每次從32個化合物中去掉化合物序數(shù)中個位分別是0,1,2,3,…,9的分子,剩余化合物為建模組,根據(jù)模型式(2)進(jìn)行回歸,重復(fù)10次,得到10個R值,對這10個R值做控制圖,見圖2??梢钥闯?這10個點(diǎn)均在控制區(qū)域內(nèi),說明模型式(2)具有一定的穩(wěn)定性。
圖2 Jackknifed相關(guān)系數(shù)控制圖
模型式(2)的交叉驗(yàn)證相關(guān)系數(shù)已經(jīng)超過文獻(xiàn)[3],但相關(guān)系數(shù)還略低,且用多元線性回歸模型得到的預(yù)測值和實(shí)驗(yàn)值的平均誤差偏大,所以用神經(jīng)網(wǎng)絡(luò)予以提升。
本研究采用BP算法構(gòu)建預(yù)測INSTIs的抑制活性的神經(jīng)網(wǎng)絡(luò)模型,其輸入層為6個最佳變量組合(M57,M14,E7,E13,E21,M36),輸出層為INSTIs的抑制活性pIC50,為了避免出現(xiàn)過擬合、過訓(xùn)練現(xiàn)象,采用許碌規(guī)則[16]尋找最佳隱蔽層的單元數(shù)H,即
2.2>ρ(=N/M)≥1.4
(3)
式中:N、M分別是樣本數(shù)和網(wǎng)絡(luò)總權(quán)重。
M=(I+1)H+(H+1)Q
(4)
式中:I、H、Q分別是輸入層、隱蔽層和輸出層的單元數(shù)。本文的I=6,Q=1,N=32,可得1.693 圖3 INSTIs分子抑制活性的實(shí)驗(yàn)值與預(yù)測值關(guān)系圖 在建模時將數(shù)據(jù)分成3個集:每5個數(shù)據(jù)為1組,其中每組的第2、4、5個數(shù)據(jù)構(gòu)成訓(xùn)練集,第1個數(shù)據(jù)構(gòu)成測試集,第3個數(shù)據(jù)構(gòu)成驗(yàn)證集,這樣3個集的樣本數(shù)分別為19、7和6。由此建立的BP模型為:Rtr=0.996,Rte=0.996,Rv=0.998,整體的R=0.996,可以看出訓(xùn)練集、測試集和驗(yàn)證集的相關(guān)系數(shù)均與總體的相關(guān)系數(shù)非常接近,說明所建模型穩(wěn)健性較理想。給出的預(yù)測值2見表2,與實(shí)驗(yàn)值接近,平均誤差為0.117,預(yù)測精度優(yōu)于多元線性回歸。2種方法所得到的預(yù)測值和實(shí)驗(yàn)值的相關(guān)圖見圖3,可以看出紅點(diǎn)比黑點(diǎn)更接近對角線。 基于電拓?fù)錉顟B(tài)指數(shù)和分子電性距離矢量,通過多元線性回歸的方法對32個INSTIs分子抑制活性進(jìn)行了定量構(gòu)效研究,得到如下結(jié)論: (1)電拓?fù)錉顟B(tài)指數(shù)和分子電性距離矢量聯(lián)合共同表征了INSTIs分子的結(jié)構(gòu)特征。 (2)采用最佳變量子集回歸的方法,確定了(M57,M14,E7,E13,E21,M36)為最佳變量組合,BP神經(jīng)網(wǎng)絡(luò)模型得到的相關(guān)系數(shù)高于多元線性回歸得到的相關(guān)系數(shù),說明INSTIs分子的抑制活性(pIC50)與(M57,M14,E7,E13,E21,M36)之間具有良好的非線性關(guān)系。2.3 模型的分析及分子設(shè)計(jì)
3 結(jié)束語