王園寧,劉會會,楊先海
南京理工大學(xué)環(huán)境與生物工程學(xué)院,江蘇省化工污染控制與資源化高校重點實驗室,南京 210094
環(huán)境內(nèi)分泌干擾物(EDCs)引發(fā)的內(nèi)分泌干擾效應(yīng),嚴重威脅著人類和野生動物安全,正成為人類面臨的全球性環(huán)境問題[1-2]。為應(yīng)對EDCs帶來的生態(tài)和健康威脅,自20世紀90年代以來,美國環(huán)境保護局、歐盟、日本環(huán)境省、經(jīng)濟合作與發(fā)展組織、世界衛(wèi)生組織和聯(lián)合國環(huán)境規(guī)劃署等就針對EDCs實施了國家級的EDCs篩選計劃和或國家/國際EDCs相關(guān)的行動計劃[3]。如美國環(huán)境保護局實施了內(nèi)分泌干擾物篩選計劃(EDSP)[4],歐盟制定了EDCs識別標準[5-6],經(jīng)濟合作與發(fā)展組織開發(fā)了系列的測試導(dǎo)則/方法[7],世界衛(wèi)生組織和聯(lián)合國環(huán)境規(guī)劃署組織出版了《內(nèi)分泌干擾物的科學(xué)現(xiàn)狀》等EDCs方面的科學(xué)研究進展報告[8]等。在我國《水污染防治行動計劃》(國發(fā)〔2015〕17號)中也提出“到2017年底前完成EDCs生產(chǎn)使用情況調(diào)查,監(jiān)控評估水源地、農(nóng)產(chǎn)品種植區(qū)及水產(chǎn)品集中養(yǎng)殖區(qū)風險,實施EDCs淘汰、限制、替代等措施”的管控要求[9]。因此,面向EDCs的環(huán)境管理,如何科學(xué)、高效地從商用化學(xué)品中識別、評估潛在EDCs是各國化學(xué)品管理部門需解決的首要問題。
近30年來,歐美發(fā)達國家開發(fā)了大量的實驗測試方法,也實施了多項國家級EDCs篩選計劃來具體篩選、評估潛在EDCs。但是經(jīng)過多年的實踐,發(fā)現(xiàn)僅采用實驗方法來篩選、評估潛在EDCs面臨巨大的挑戰(zhàn)。比如,美國環(huán)境保護局通過實施EDSP發(fā)現(xiàn)現(xiàn)有測試方法通量低(每年50~100種化學(xué)品)、成本高(每種化學(xué)品需耗費100萬美元),導(dǎo)致很難按現(xiàn)有測試體系對商用化學(xué)品進行一一測試(商用化學(xué)品已超過14萬種)。基于此,美國環(huán)境保護局于2012年提出了“21世紀的內(nèi)分泌干擾物篩選計劃”(EDSP21)[10]。EDSP21的核心是主要依賴高通量預(yù)測技術(shù)等進行潛在EDCs篩選。因此,發(fā)展內(nèi)分泌干擾效應(yīng)指標的預(yù)測模型對于實施EDCs管控具有重要意義[11-12]。
研究表明,內(nèi)分泌相關(guān)疾病和功能紊亂通常與EDCs對激素受體、轉(zhuǎn)運蛋白等生物大分子的干擾作用有關(guān)[13]。在過去較長時間里,激活或抑制激素受體介導(dǎo)的信號轉(zhuǎn)導(dǎo)過程被認為是EDCs的主要作用機制,因而許多工作均集中于研究EDCs與雌激素、雄激素和甲狀腺素等激素受體的作用[14-18]。在雌激素受體方面,目前所建的預(yù)測模型主要是針對人、牛、大鼠和小鼠等物種[19],而對水生生物雌激素受體的預(yù)測模型研究還較少。最近,筆者課題組構(gòu)建了有機污染物對8種魚雌激素受體干擾效應(yīng)的預(yù)測模型[20]。這些模型均是基于定量數(shù)據(jù)而構(gòu)建的定量預(yù)測模型,可用于填補有機污染物對這8種魚缺失的激素干擾效應(yīng)數(shù)據(jù)。但是,在前人的研究中,除了獲得定量數(shù)據(jù)外,還發(fā)現(xiàn)一些化合物不具有雌激素干擾活性,而這部分數(shù)據(jù)未在我們之前的研究中使用。考慮到預(yù)測模型的應(yīng)用域與所采用的模型化合物種類和數(shù)量相關(guān),因此可以通過引入更多模型化合物的方式來擴展模型應(yīng)用域[21]?;诖?,本文的研究目的是通過查詢文獻中關(guān)于有機化學(xué)品與魚類雌激素受體相互作用的定量和定性數(shù)據(jù),構(gòu)建能夠區(qū)分有機化學(xué)品是否具有魚類雌激素受體干擾活性的定性分類模型,為篩選潛在魚類雌激素受體干擾物提供技術(shù)支撐。
從文獻中查詢了62種有機化學(xué)品的斑馬魚(Danio rerio)雌激素受體干擾效應(yīng)數(shù)據(jù)[22-23],其中,具有斑馬魚雌激素受體干擾效應(yīng)的化合物有39個,以A表示;無活性的物質(zhì)23個,以I表示。模型化合物信息列于表1。建模時,數(shù)據(jù)集按4∶1的比例隨機拆分為訓(xùn)練集(49個化合物)和驗證集(13個化合物),訓(xùn)練集用于構(gòu)建模型,而驗證集用于評估模型。
首先從美國環(huán)境保護局開發(fā)的EPI SuiteTM軟件數(shù)據(jù)庫查詢并下載目標化合物的分子結(jié)構(gòu)[24]。對于EPI SuiteTM軟件數(shù)據(jù)庫沒有分子結(jié)構(gòu)的化合物,采用ChemBioOffice 2010軟件生成其分子結(jié)構(gòu)。然后,用MOPAC 2016軟件優(yōu)化模型化合物分子結(jié)構(gòu)(關(guān)鍵詞:PM6 eps=78.6, CHARGE=1, EF GNORM=0.01, POLAR MULLIK SHIFT=80)[25]?;趦?yōu)化的分子結(jié)構(gòu),采用Dragon 6軟件計算描述符[26]。依據(jù)以下原則對計算的4 885種Dragon描述符進行初步篩選:去除常數(shù)和近似常數(shù)的描述符,去掉至少有一個缺失值的描述符及相關(guān)系數(shù)大于0.95的描述符[27]。最終,描述符集包含1 175個描述符。
表1 模型化合物信息、斑馬魚雌激素干擾效應(yīng)實驗及預(yù)測數(shù)據(jù)Table 1 Information of model compounds, their observed and predicted estrogenic activity data of zebrafish
續(xù)表1序號No.名稱Chemical nameCAS號CAS No.雌激素干擾效應(yīng)數(shù)據(jù)Estrogenic activity data觀測值Observed模型ⅠModelⅠ模型ⅡModelⅡ49山奈酚 Kaempherol000520-18-3AAA50尼魯米特? Nilutamide?063612-50-0III514-羥基他莫昔芬? 4-Hydroxytamoxifen?068047-06-3AAA52酮康唑? Ketoconazole?065277-42-1III53佛波醇12-十四酸酯13-乙酸酯?12-o-Tetradecanoylphorbol-13-acetate?016561-29-8III54雄諾龍? 5α-Dihydrotestosterone?000521-18-6AAA554-肉桂苯酚? 4-Cumylphenol?000599-64-4AAA56雌酚酮? Estrone?000053-16-7AAA57利谷隆? Linuron?000330-55-2III58匹莫齊特? Pimozide?002062-78-4III59芹菜素? Apigenin?000520-36-5AAA60螺內(nèi)酯? Spiromolactone?000052-01-7III61鄰仲丁基苯酚? 2-sec-Butylphenol?000089-72-5AAA62己烯雌酚? Diethylstilbestrol?006898-97-1AAA
注:*驗證集化合物。
Note: * Compounds selected as the external validation set.
采用基于歐幾里德距離的K最近鄰(kNN)分類算法構(gòu)建了二元分類模型。歐幾里德距離計算方法為:
(1)
式中:DE是歐幾里德距離;x和y是不同的化學(xué)品;xi和yi分別是化學(xué)品x和y的第i個描述符。使用自編的python程序進行kNN二元分類模型構(gòu)建,該程序已成功應(yīng)用于構(gòu)建有機化學(xué)品水生毒性模型[28]、內(nèi)分泌干擾效應(yīng)模型[27,29]。
根據(jù)經(jīng)濟合作與發(fā)展組織關(guān)于模型構(gòu)建與驗證的導(dǎo)則對模型進行內(nèi)部和外部預(yù)測能力、應(yīng)用域等方面的表征[30]。具體而言,采用預(yù)測準確度(Q)、敏感性(Sn)和特異性(Sp)參數(shù)表征模型內(nèi)部和外部預(yù)測能力[27-32]。
(2)
(3)
(4)
式中:TP (true positive,真陽性)和TN (true negative,真陰性)分別是正確分類為毒性和非毒性的化合物數(shù)量;FN (false negative,假陰性)和FP (false positive,假陽性)分別是錯誤分類為非毒性和毒性的化合物數(shù)量。此外,還采用受試者工作特征曲線(ROC曲線)及ROC曲線下的面積(AUC)來表征分類性能[33]。采用基于歐幾里德距離的方法法表征模型應(yīng)用域。使用AMBIT Discover (version 0.04) (http://ambit.sourceforge.net/download_ambitdiscovery.html) 軟件繪制基于歐幾里德距離的模型應(yīng)用域。
本研究得到2個最優(yōu)模型,模型Ⅰ包含2個描述符,即Mor23m和B06[C-N];模型Ⅱ包含3個描述符,即F02[C-N]、VE2_Dt和Mor22m。2個模型的表征參數(shù)如表2所示。
從表2可以看出,2個最優(yōu)模型訓(xùn)練集和驗證集的預(yù)測準確度(Q)、敏感性(Sn)和特異性(Sp)參數(shù)均大于0.93,即意味著93%以上的化合物均能被正確分類為有斑馬魚雌激素受體干擾活性或無干擾活性,說明模型具有較好的預(yù)測能力。此外,ROC曲線表明(圖1),2個模型的訓(xùn)練集和驗證集ROC曲線的AUC均大于等于0.98,說明模型具有較好的分類性能。
表2 模型表征結(jié)果Table 2 Statistical results of developed models
基于歐幾里德距離的模型應(yīng)用域表征結(jié)果如圖2所示。模型Ⅰ無化合物處于模型結(jié)構(gòu)域外;而模型Ⅱ中有2個驗證集化合物在模型結(jié)構(gòu)域外,說明2個模型的訓(xùn)練集具有較好的代表性。模型Ⅱ驗證集中處于模型結(jié)構(gòu)域外的化合物為酮康唑和匹莫奇特,雖然其處于訓(xùn)練集所定義的結(jié)構(gòu)域外,但是模型Ⅱ能正確將其分類為無斑馬魚雌激素受體干擾活性。
2個分類模型共篩選出Mor23m、B06[C-N]、F02[C-N]、VE2_Dt和Mor22m這5個描述符。其中Mor23m和Mor22m是原子質(zhì)量加權(quán)的3D-MoRSE描述符,表征了分子質(zhì)量的影響[34]。B06[C-N]和F02[C-N]是2D原子對描述符。B06[C-N]是指分子中是否存在拓撲距離6的碳-氮原子對[35];而F02[C-N]是指分子中碳-氮原子對在拓撲距離2的頻數(shù)[36],它們均表征了分子中存在氮原子對化合物與斑馬魚雌激素受體相互作用的影響。通過比對數(shù)據(jù),發(fā)現(xiàn)存在碳-氮原子對不利于化合物與斑馬魚雌激素受體相互作用,例如,在模型Ⅰ中,B06[C-N]數(shù)值不為0的22個物質(zhì)中,僅5個具有干擾效應(yīng)(22.7%),在B06[C-N]數(shù)值為0的40個物質(zhì)中,僅34個具有干擾效應(yīng)(85.0%);在模型Ⅱ中,F(xiàn)02[C-N]數(shù)值不為0的24個物質(zhì)中,僅6個具有干擾效應(yīng)(25.0%),在B06[C-N]數(shù)值為0的38個物質(zhì)中,僅33個具
圖1 分類模型Ⅰ(A)和模型Ⅱ(B)的受試者工作特征(ROC)曲線注:AUC表示ROC曲線下的面積。Fig. 1 Receiver operating characteristics (ROC) graphs of the classification model Ⅰ (A) and model Ⅱ (B)Note: AUC stands for area under ROC curve.
圖2 基于歐幾里德距離的分類模型Ⅰ (A)和模型Ⅱ (B)應(yīng)用域表征圖Fig. 2 Characterization of application domain for classification model Ⅰ (A) and model Ⅱ (B) based on the Euclidean distance
有干擾效應(yīng)(86.8%)。VE2_Dt是2D矩陣相關(guān)的描述符[37]。
本論文針對水生生物雌激素效應(yīng)預(yù)測模型缺乏的問題,以構(gòu)建有機污染物斑馬魚雌激素受體干擾效應(yīng)分類預(yù)測模型為目標,根據(jù)經(jīng)濟合作與發(fā)展組織關(guān)于模型構(gòu)建與驗證的導(dǎo)則,構(gòu)建了具有較好內(nèi)部和外部預(yù)測能力的斑馬魚雌激素受體干擾效應(yīng)二元分類預(yù)測模型,可為篩選潛在魚類雌激素受體干擾物提供支撐。