雷蕾,張廣平,楊樂,李晗,李小陽,葉祖光*,王晰
1.中國中醫(yī)科學(xué)院 中醫(yī)藥信息研究所,北京 100700;
2.中國中醫(yī)科學(xué)院 中藥研究所,北京 100700
中藥保健食品是指以中醫(yī)藥理論為指導(dǎo)的,在天然食物中加入中華人民共和國國家衛(wèi)生健康委員會(以下簡稱衛(wèi)健委)頒布的既是食品又是藥品的可食藥材,經(jīng)過適當(dāng)加工而成的具有某些調(diào)節(jié)人體生理功能、有益于健康的保健食品[1]。保健食品是一類適宜于特定人群食用,不以治療疾病為目的,并且一般認(rèn)為對人體不會產(chǎn)生急性、亞急性或者慢性危害,是具有調(diào)節(jié)機體功能的食品[2]。然而,中藥作為保健食品的原料比作為藥物的食用時間更長、受用人群更廣。若中藥保健食品中的原料有不安全因素,則對人類健康影響更大。近年來,有諸多中藥保健食品原料典型風(fēng)險物質(zhì)及其潛在毒性作用的報道,如三七含有三七總皂苷,具有肝毒性,三七總皂苷450 mg·kg-1組動物體質(zhì)量顯著下降,肝功能指標(biāo)天門冬氨酸氨基轉(zhuǎn)移酶(AST)和丙氨酸氨基轉(zhuǎn)移酶(ALT)顯著升高[3];何首烏、決明子、番瀉葉和大黃等所含的蒽醌類成分具有肝腎毒性,大黃提取物的毒性劑量范圍10~12 g·kg-1,大黃總蒽醌的毒性劑量范圍在135~4500 mg·kg-1[4];吳茱萸中的吳茱萸堿和吳茱萸次堿等都具有肝毒性,吳茱萸次堿使肝細(xì)胞上清液中的AST、堿性磷酸酶(ALP)和乳酸脫氫酶(LDH)水平均升高[5]。如何做到對中藥肝毒性的早期預(yù)測是亟待解決的問題。
使用計算機輔助新藥篩選方法(CADD)構(gòu)建定量構(gòu)效關(guān)系(QSAR)已經(jīng)應(yīng)用在中藥保健食品評價中[6]。QSAR 通過使用數(shù)學(xué)模型來描述分子結(jié)構(gòu)和分子的某種生物活性特別是毒性效應(yīng)之間的聯(lián)系,用來預(yù)測其他已知結(jié)構(gòu)化合物的潛在毒性,有效節(jié)省時間、資金和人力。然而,目前中藥肝毒性預(yù)測模型的準(zhǔn)確率普遍不高,葉立等[7]構(gòu)建了3 種樹形算法模型,內(nèi)部交叉驗證準(zhǔn)確率為78%~85%。He 等[8]建立了由1254個化合物組成的大規(guī)模多樣的DⅠLⅠ數(shù)據(jù)集,通過集成方法獲得最佳模型,準(zhǔn)確度(ACC)為78.3%。Zhao 等[9]基于已發(fā)表的數(shù)據(jù)和美國食品藥品監(jiān)督管理局(FDA)的肝毒性知識庫(LTKB)構(gòu)建了QSAR模型,準(zhǔn)確率為80.2%。
本研究充分考慮中藥分子的化學(xué)空間,將訓(xùn)練集先進行聚類分析,然后針對不同的聚類構(gòu)建中藥化學(xué)成分的肝毒性QSAR 預(yù)測模型,并對衛(wèi)健委公布的113 個中藥保健食品原料成分可能的肝毒性進行了預(yù)測,為中藥保健食品安全性評價提供參考,技術(shù)路線見圖1。
圖1 中藥保健食品原料肝毒性預(yù)測技術(shù)路線
本研究使用的肝毒性數(shù)據(jù)以He 等[8]發(fā)表的建立肝毒性預(yù)測模型的1254 個化合物數(shù)據(jù)集(該數(shù)據(jù)集收集了DⅠLⅠrank、LiverTox、LTKB 等14個肝毒模型訓(xùn)練集數(shù)據(jù)并使用機器學(xué)習(xí)的方法進行優(yōu)化)為基礎(chǔ),增加了Zhao 等[9]用來建立和驗證肝毒性預(yù)測模型的31 個中藥成分。同時在中國知網(wǎng)、萬方和維普數(shù)據(jù)庫中以“中藥”“肝毒”為檢索詞檢索2010 年以來的文獻,收集了43 個中藥成分肝毒性數(shù)據(jù)。合并以上數(shù)據(jù),刪除重復(fù)項以后,共得到1271 個化合物作為訓(xùn)練集,其中具有肝毒性的化合物653 個、無肝毒性的化合物618 個。從PubChem(https://pubchem.ncbi.nlm.nih.gov/)下載分子2D 結(jié)構(gòu),保存為.sdf格式文件。
中藥保健食品原料目錄來自《衛(wèi)生部關(guān)于進一步規(guī)范保健食品原料管理的通知》(衛(wèi)法監(jiān)發(fā)〔2002〕51 號),共113 個中藥[10]。中藥化學(xué)成分庫來自中藥系統(tǒng)藥理學(xué)數(shù)據(jù)庫與分析平臺(TCMSP,https://tcmsp-e.com/tcmsp.php)[11]、中醫(yī)藥百科全書數(shù)據(jù)庫(ETCM,http://www.tcmip.cn/ETCM/index.php/Home/)[12]、中藥化學(xué)數(shù)據(jù)庫TCMD(https://www.neotrident.com/)[13]3個數(shù)據(jù)庫。采集113個中藥包含的化學(xué)成分,合并查重后得到3540個化合物。同樣從PubChem下載分子2D結(jié)構(gòu),保存為.sdf格式文件。
使用Discovery Studio 4.5 中的Small Molecules-Property Calculation-Calculate Molecular Properties 計算了分子的ALogP、Molecular_Weight、Num_H_Donors、Num_H_Acceptors、Num_Rotatable Bonds、Num_ Rings、Num_Aromatic Rings、Molecular_Fractional Polar Surface Area 8 個性質(zhì),使用Small Molecules-Cluster-Cluster Ligands 對1271 個化合物進行了聚類;使用Small Molecules-Analyze-Calculate Principal Component 進行了主成分分析,并使用Origin 2018進行了分類結(jié)果的可視化。如果沒有特殊說明,均采用系統(tǒng)默認(rèn)值。
本研究使用FDA 公布的Mold2 軟件[14]對每個化合物的2D 結(jié)構(gòu)計算777 個分子描述符。在建立QSAR 模型時,對描述符的挑選是非常重要的。使用Python按以下步驟進行篩選:1)去掉全零和零占比超過80%的數(shù)列;2)篩選出皮爾遜相關(guān)系數(shù)>0.8 的數(shù)列,保留1 個數(shù)列;3)計算歐氏距離,取距離最大的前60 個;4)計算余弦相似度,取夾角最小的前60 個;5)將第3 步和第4 步篩選的數(shù)列取并集。
在預(yù)測模型構(gòu)建階段,對于2.1項下聚類得到的每一類,均使用9 種算法,包括樸素貝葉斯(NB)、邏輯回歸(LR)、鄰近算法(KNN)、隨機森林(RF)、支持向量機(SVM)、交叉驗證的支持向量機(SVMCV)、梯度提升迭代決策樹(GBDT)、自適應(yīng)增強(AdaBoost)、布袋法(Bagging)分別構(gòu)建模型,并利用交叉驗證方法對模型構(gòu)建方法進行內(nèi)部評估,使用準(zhǔn)確率、精度和召回率評價模型。
計算113 個中藥保健食品原料包含3540 個化學(xué)成分的ALogP、Molecular_Weight、Num_H_Donors、Num_H_Acceptors 等8 個分子性質(zhì),然后根據(jù)這些性質(zhì)按公式(1)計算每個成分到聚類中心化合物的歐式距離(d)。根據(jù)距離遠近,判斷待預(yù)測的化合物屬于哪類,進而使用這個類對應(yīng)的QSAR 模型進行中藥成分的肝毒性預(yù)測。
式中x和y為每個化學(xué)成分性質(zhì)投映到到多維空間后的坐標(biāo)值。
3.1.1模型訓(xùn)練集的主成分分析和聚類分析 對QSAR模型訓(xùn)練集的1271個化合物進行聚類分析,得到3個聚類,每一類的有毒成分?jǐn)?shù)量、無毒成分?jǐn)?shù)量、成分總數(shù)、聚類的中心化合物及結(jié)構(gòu)詳細(xì)信息見表1。對1271 個化合物進行主成分分析,結(jié)果得到4個主成分表達式(表2)。以PC1、PC2 和PC3 分別為坐標(biāo)軸來構(gòu)建化學(xué)空間,進一步可視化聚類結(jié)果(圖2)。第1 類和第3 類的化合物數(shù)量分別為1080、181 個,在化學(xué)空間中顯示聚類效果較好,可以用于下一步構(gòu)建QSAR 模型。第2 類化合物數(shù)量較少,在化學(xué)空間上也比較分散,不利于構(gòu)建模型。
圖2 肝毒性預(yù)測模型訓(xùn)練集化合物的聚類結(jié)果
表1 肝毒性預(yù)測模型訓(xùn)練集聚類分析詳細(xì)信息
表2 肝毒性預(yù)測模型訓(xùn)練集化學(xué)成分主成分分析
3.1.2第1 類訓(xùn)練集和第3 類訓(xùn)練集QSAR 模型的構(gòu)建和評價 使用Mold2 軟件分別對第1 類訓(xùn)練集(1080 個成分)和第3 類訓(xùn)練集(181 個成分)進行了分子描述符計算,然后根據(jù)2.2項下方法對描述符進行了初步篩選,分別得到170、106 個分子描述符。使用2.3項下方法分別構(gòu)建了2 個QSAR 模型,得到的模型準(zhǔn)確率、精確度和召回率見表3。從均值可以看出第3 類的QSAR 模型準(zhǔn)確率和精確度均高于第1類的QSAR模型。
表3 肝毒性預(yù)測模型第1類訓(xùn)練集和第3類訓(xùn)練集構(gòu)建的QSAR模型
根據(jù)2.4項下方法,通過比較每個成分到類中心的歐式距離,將這些成分歸到了QSAR 模型第1類(2767 個化學(xué)成分)和第3 類(783 個化學(xué)成分)中。第3 類的QSAR 模型優(yōu)于第1 類的QSAR 模型,因此,對使用第3類QSAR 模型預(yù)測的783個成分的結(jié)果進行統(tǒng)計分析。
為了更加合理地表達預(yù)測結(jié)果,本研究使用多模型加權(quán)預(yù)測方法,按公式(2)計算加權(quán)平均概率。
在783 個成分中,肝毒性加權(quán)平均概率排列前5位的化合物見表4,中藥保健食品原料成分肝毒性預(yù)測加權(quán)平均概率分布見圖3。
圖3 中藥保健食品原料成分肝毒性預(yù)測加權(quán)平均概率分布
表4 中藥保健食品原料中的肝毒性加權(quán)平均概率排列前5位的化合物
預(yù)測結(jié)果中有肝毒性成分比例較大的10 個中藥和預(yù)測無肝毒性成分比例較大的10 個中藥見圖4。可以看到茜草包含了14 個預(yù)測有肝毒性的成分和7個預(yù)測無肝毒性的成分。
圖4 部分中藥成分的肝毒性預(yù)測統(tǒng)計結(jié)果
為了進一步驗證QSAR 模型的準(zhǔn)確率,采用文獻驗證的方法,即從預(yù)測的結(jié)果中找出目前有文獻報道的結(jié)果進行比較,得出一致結(jié)果的比例。研究結(jié)果發(fā)現(xiàn),在預(yù)測的783 個化合物中,有文獻報道毒理性質(zhì)的很少。經(jīng)過逐一檢索,具有肝保護作用的成分有10個,包括白芍苷[15]、人參皂苷人參皂苷Rb2[17]、野漆樹苷[18]、連翹酯苷[19]、山茱萸新苷[20]、絞股藍皂苷[21]、木犀草素[22]、芍藥苷[23]、芒柄花苷[24],表明這些成分均無肝毒性,與預(yù)測結(jié)果一致。本研究預(yù)測阿魏酸的肝毒性概率0.566 9,為有肝毒,與實驗結(jié)果相反[25]。
在113 種中藥中,肝毒性所占比例較高的中藥有茜草、番瀉葉、當(dāng)歸、大黃、丹參、厚樸、川芎、桑枝、桑白皮、五味子等,其中實驗已經(jīng)證實具有肝毒性的有5 味藥,包括番瀉葉可引起胃腸、肝膽、神經(jīng)、泌尿等多系統(tǒng)損害,其中肝膽系統(tǒng)損害以黃疸為主,臨床表現(xiàn)為頭昏不適、發(fā)熱、尿黃等癥狀[26],大黃中的大黃蒽醌具有潛在的肝腎毒性和致癌性[4]。茜草的70%乙醇提取物長期給藥劑量≥5 g·kg-1時具有輕微的肝、腎毒性[27]。當(dāng)歸提取物對正常小鼠無明顯急性肝毒性,但不同濃度劑量的提取液可能引起肝功能異常,在一定范圍內(nèi)呈劑量正相關(guān)[28]。厚樸葉、厚樸皮和厚樸花對大鼠的食物利用率、腎功能都有所影響,也影響肝、卵巢、睪丸的臟體系數(shù)[29]。
肝毒性是指藥物在肝臟代謝時,藥物本身或其代謝產(chǎn)物對肝臟造成的損害。在藥物開發(fā)和使用過程中,藥物肝毒性往往是導(dǎo)致新藥研發(fā)失敗或者撤市的主要原因之一。中藥在我國臨床上已經(jīng)使用了幾千年,隨著中藥現(xiàn)代化的發(fā)展,中藥不良反應(yīng)逐漸被人們重視。對中藥肝毒性的預(yù)測將會成為輔助以中藥為原料的保健食品毒性評價的一個重要途徑。QSAR 是化藥新藥研發(fā)階段的毒性預(yù)測的常用方法之一,其可以在沒有實驗信息的情況下,利用已知毒性的化合物,對未知化合物進行初步預(yù)測。然而,目前構(gòu)建QSAR 模型來預(yù)測中藥肝毒性的例子不多[4,9],同時由于中藥化合物與化藥分子結(jié)構(gòu)的差異,基于化藥結(jié)構(gòu)為基礎(chǔ)的預(yù)測模型預(yù)測中藥準(zhǔn)確率也不高。
本研究考慮到QSAR 主要基于分子結(jié)構(gòu)和分子特性與毒性效應(yīng)之間的聯(lián)系來建立機器學(xué)習(xí)模型,因此首先在訓(xùn)練集的化學(xué)空間上做了聚類分析,使得每一類的內(nèi)部化合物化學(xué)空間性質(zhì)比較相似,類之間的化合物化學(xué)空間性質(zhì)差異較大,然后對每一個類分別建模,可以提高模型準(zhǔn)確率。通過研究發(fā)現(xiàn),本研究將訓(xùn)練集在化學(xué)空間上分為3類,第3類模型的準(zhǔn)確率為85%~91%,相比之前的報道有大幅度的提高。
在模型構(gòu)建上為了使預(yù)測的結(jié)果更加合理,本研究還提出了多模型加權(quán)預(yù)測方法,充分考慮到機器學(xué)習(xí)模型預(yù)測的概率性,綜合考慮多個模型的準(zhǔn)確率和預(yù)測概率,加權(quán)平均后得到總體值。最后,本研究對113種中藥保健食品原料的成分計算到第1類中心和第3類中心的歐式距離,選擇與第3類中心較近的783 個化學(xué)成分進行預(yù)測,根據(jù)加權(quán)平均概率最終預(yù)測得到肝毒性化合物48 個,不具有肝毒性的化合物735 個,肝毒性預(yù)測概率為0.15~0.30。為進一步驗證預(yù)測結(jié)果,筆者進行了相關(guān)文獻調(diào)查。文獻數(shù)據(jù)設(shè)計中藥成分共有10 個,其肝毒性均與預(yù)測結(jié)果一致。
綜上所述,本研究在傳統(tǒng)的QSAR 建模方法上進行了2 點改進,其一是對訓(xùn)練集化合物進行了聚類分析,然后對每一類分別使用NB、LR、KNN 等9種機器學(xué)習(xí)的方法構(gòu)建QSAR模型,并利用交叉驗證方法對模型構(gòu)建方法進行評估,得到了準(zhǔn)確率為85%~91%的最優(yōu)模型。其二是建立多模型加權(quán)預(yù)測方法,并預(yù)測了113 種中藥保健食品原料包含的783個化學(xué)成分的肝毒性,丹參、川芎、桑枝、桑白皮、五味子等預(yù)測肝毒性成分比重較高,有待進一步驗證。