孫飛飛,雷樂成,朱京科
(浙江大學化學工程與生物工程學院,生物質(zhì)化工教育部重點試驗室,浙江 杭州310027)
溶解度是化合物的一種基本性質(zhì),由化合物的分子結構所決定,在化工過程、藥物和環(huán)境中化學物質(zhì)遷移等研究方面都具有重要作用,因此建立快捷、可靠、普適的溶解度預測方法引起了人們極大興趣。自20世紀70年代后,研究者們相繼提出各種理論模型預測溶解度。1975年,Amidon等[1]基于分子表面積法建立理論模型,用于預測158個有機化合物的溶解度。之后,研究者們又相繼提出了基團貢獻法[2]、分子連接性指數(shù)法[3]以及人工神經(jīng)網(wǎng)絡法[4]等方法。此類方法均可歸結為定量結構-性質(zhì)構效關系(QSPR)方法,即根據(jù)化合物的分子結構參數(shù)(分子描述符)與某一性質(zhì)(如溶解度)之間的定量關系建立預測模型。進行溶解度的QSPR研究主要包括兩大步驟:①分子描述符的計算與優(yōu)化;②模型的建立與評價。分子描述符通常根據(jù)所解決的問題從化合物的一系列理化參數(shù)中篩選,針對化合物溶解度的預測問題,研究者們相繼提出了3類分子描述符:①組成描述符;②試驗參數(shù);③理論計算描述符。而相關的建模方法主要有:①線性建模法;②非線性建模法;③線性與非線性聯(lián)合建模法。本文基于文獻報道的溶解度預測方法的研究進展,分別評述了三類分子描述符所具有的特點,并介紹了三類最常用的建模方法,最后歸納總結溶解度預測方法所面臨的挑戰(zhàn),并展望其未來發(fā)展趨勢。
分子描述符是指分子在某一方面性質(zhì)的度量,既可以是分子的物理化學性質(zhì),也可以是根據(jù)分子結構通過各種算法計算的數(shù)值指標[5-6]。這些性質(zhì)可分為宏觀與微觀兩類:前者包括化合物沸點、熔點、折光率和脂水分配系數(shù)(Kow)等,后者涉及分子尺寸形貌、偶極矩、分子能量、鍵能及氫鍵等。
此類描述符主要是基于基團貢獻法計算得到的描述符,主要有:分子中各類原子、片段、指紋和化學鍵的相對或絕對數(shù)目、分子量、不同類型的環(huán)數(shù)等。在總結前人的基礎上,Klopman等[7]提出了一套較為全面的包括118個官能團的描述符體系,包括52個常見的基本組成參數(shù)以及66個通過CASE法找出的額外組成參數(shù),并應用于1168個化合物的溶解度預測[決定系數(shù)(R2)=0.95,標準偏差(SD)=0.50],證明了這組描述符能夠較好地表達化合物分子結構?;鶊F組成描述符計算簡單,且無需借助其他理論計算方法,因而成為溶解度預測研究中最常使用的一類描述符。但基團貢獻法不能反映化合物整體分子結構信息。
試驗參數(shù)指由試驗測定的一類參數(shù),與溶解度相關的經(jīng)驗描述符主要是化合物分子的集合性質(zhì),如Kow、熔沸點和折射率等。而Kow是化合物在水和辛醇中溶解能力的反映,與溶解度存在最直接的關系。如2001年,Jain和Yalkowsky[8]首次提出只包含Kow和熔點(Tm)兩個參數(shù)的GSE方程(general solubilityequation)預測580個化合物溶解度,其預測結果的平均絕對誤差值(AUE)達到0.42,具有很好的預測效果。然而,這類參數(shù)通常需要試驗測定,相比與測定溶解度并未簡化。
理論計算描述符指一類無需借助于試驗測定,只需根據(jù)分子的結構信息就能計算得到的參數(shù)。隨著計算機技術的發(fā)展,Dragon、MOE、Cerius2等軟件包可計算得到近5000個涵蓋化合物分子的電子結構(如分子軌道、鍵能及電荷分布等)與空間結構(分子拓撲結構、幾何構象等)各類理化參數(shù),原則上均可作為分子描述符。理論計算描述符對化合物結構描述全面,物化意義明確,理論性較強。
由軟件計算得到的此類描述符數(shù)量眾多,若全部用于建模將導致計算量大且模型不穩(wěn)定,因此利用理論計算描述符建模必須先進行變量篩選。目前,常見的變量篩選方法主要有逐步回歸法(SRM)、遺傳算法(GA)以及替換法(RM)等[9]。目前在QSPR研究中,SRM是使用最多的一種變量篩選方法,Jiao等[10]利用SRM篩選出11個描述符建立模型,成功預測了23個二英類物質(zhì)溶解度值[R2=0.9753,均方根誤差(RMSE)=0.041]。盡管該方法簡單易于實現(xiàn),但該方法并不適用于大量的分子描述符量篩選。1992年Leardi等[11]提出用于變量篩選的GA法,之后GA在解決溶解度預測問題上得到了廣泛應用。如Yin等[12]利用GA挑選出3個理論計算描述符(范德華面積,羧基中碳氧原子上電荷之和,溶質(zhì)溶劑最高最低能級差),建立了71個含硫芳香酯溶解度的QSPR模型[R2=0.92,預測殘差平方和(PRESS)=13.18]。與逐步回歸法相比,GA適用范圍更廣。2008年Duchowicz等[13]首次提出了RM法,并成功運用該方法從Dragon計算的1497個分子描述符篩選出3個(X1sol、MLOGP、RDF060u)建立了預測145個藥物溶解度的QSPR模型(R2=0.76,RMSE=1.2)。與GA相比,基于兩種方法建立的模型精度相當,但RM法計算量較小。
對比三類分子描述符可知,從參數(shù)獲得難易角度,組成描述符計算量小,最易獲得,而試驗參數(shù)需通過試驗測定,涉及多種復雜測試方法,工作量大。理論計算描述符參數(shù)眾多,需要對參數(shù)進行優(yōu)化,計算量較組成描述符更大;從參數(shù)準確性角度,試驗參數(shù)直接由試驗測定,而組成描述符和理論計算描述符均通過分子結構信息計算得到,因此試驗參數(shù)的準確性明顯優(yōu)于另兩種描述符;從參數(shù)全面性角度考慮,理論計算描述符包含各類理化參數(shù),對化合物結構的描述更全面細致,理論性更強。而試驗參數(shù)需通過試驗測定,對不易獲得的化合物,無法得到相應試驗參數(shù)。組成描述符通常伴有成分缺失問題,因而不能很好地表達化合物整體分子結構信息。由此可見,描述分子結構的三類描述符各有其優(yōu)缺點,在溶解度的QSPR研究中,應根據(jù)具體情況選擇描述符。
目前在溶解度的QSPR研究中,已發(fā)展了各種建模方法,一般可分為線性和非線性模型,或是線性和非線性方法的組合??捎酶鞣N統(tǒng)計軟件來實現(xiàn)建 模,如SPSS[14],SAS[15],Matlab[16]和STATISTICA[17]等。
常見溶解度預測的線性方法有偏最小二乘法(PLS)、主成分回歸(PCR)以及多元線性回歸法(MLR)等。PLS法是通過同時考慮分子描述符X與溶解度Y并折衷各自空間內(nèi)的因子,從而建立能夠同時描述兩者的模型,尤其適合溶解度樣本較少的情況。潘善飛等[18]采用PLS法對84個有機物在離子液體中的溶解度進行QSPR研究(R2=0.98,SD=0.17),獲得了很好的預測效果。PCR法是通過主成分分析法(PCA)從計算得到的大量分子描述符中選取對溶解度影響最大的幾個主成分以建立相應的QSPR模型。
MLR法是建立多個分子描述符X與溶解度Y之間的關系,并為進一步了解影響化合物溶解度的本質(zhì)因素提供有用信息,因此MLR法是使用最廣泛的建立溶解度預測模型的方法[6]。王振東等[19]基于分子連接性指數(shù)建立了MLR模型,對鹵代烷、環(huán)烷烴、烷基苯和鹵代苯等有機污染物的溶解度進行預測,結果表明該模型具有良好的預測能力(R2=0.99)。Hewitt等[20]建立了基于理論計算描述符MLR模型,并對139個化合物進行了溶解度預測(R2=0.74,均方根誤差RMSE=0.95),其預測結果表明:對于溶解度預測,MLR法要優(yōu)于其他更復雜的建模方法。2001年,Yalkowsky等[8]建立了基于經(jīng)驗描述符Kow和Tm的MLR模型,如式(1)。
式(1)(即GSE方程)預測溶解度時需要試驗值Kow和Tm,實際應用中具有局限性。近年來,一些研究者對GSE方程作了改進,提出用其他變量來替換Tm,即EGSE方程[21-22]。盡管近年EGSE方程不斷改進,但仍未完全避免使用試驗值,尤其對于較難獲得的化合物,因得不到Kow值而不能預測相應的溶解度。
采用線性方法建立溶解度預測模型,過程較為簡單,但比較適用于處理簡單體系、樣本量少的情況,且體系干擾嚴重時,易導致模型失真。
化合物溶解度與分子結構之間關系復雜,采用線性法建立的QSPR模型往往過于簡單,模型的預測精度通常不及非線性方法建立的模型。Wang等[6]總結了近年來建立的溶解度預測模型,發(fā)現(xiàn)非線性方法的預測精度通常優(yōu)于線性方法。近年來計算機技術的不斷成熟使得基于“機器學習”的非線性建模方法得以飛速發(fā)展,目前常用的非線性建模方法主要有人工神經(jīng)網(wǎng)絡(ANN)、支持向量機(SVM)以及高斯過程(GP)等。
ANN是由數(shù)目眾多、功能相對簡單的神經(jīng)元相互連接而成的復雜非線性系統(tǒng),在溶解度預測領域,其地位僅次于MLR[6]。由于其吸取了生物神經(jīng)網(wǎng)絡的許多特點,因而具有較強的非線性映射能力、容錯性、自學習和自適應能力。此外還兼有動態(tài)、處理模糊信息和不連續(xù)數(shù)值等特點[23]。人工神經(jīng)網(wǎng)絡的種類繁多,其中在溶解度預測領域,前饋神經(jīng)網(wǎng)絡(FFNN)使用最為廣泛,其基本結構如圖1所示[24]。網(wǎng)絡的輸入層接收外部信號,其神經(jīng)元個數(shù)對應于輸入?yún)?shù)的個數(shù);一個神經(jīng)元的輸出層對應化合物溶解度;隱含層個數(shù)則根據(jù)具體情況優(yōu)化得到。Farhad等[25]建立了基于基團組成描述符的ANN模型,成功預測了室溫下3585個有機化合物在水溶液中的溶解度(R2=0.86,RMSE=0.4)。Piliszek等[26]以GA優(yōu)化后的理論計算描述符,建立了預測209個偶氮苯溶解度的ANN模型(R2>0.9,RMSE<0.6)。
圖1 關聯(lián)預測化合物溶解度的FFNN結構
近年來,SVM作為一種由機器學習算法發(fā)展的新算法在關于溶解度QSPR研究領域引起人們廣泛的關注。蘭州大學劉滿倉教授課題組[27]基于理論計算描述符,運用SVM方法建立了溶解度預測模型,成功預測了217個烴類化合物在飽和鹽水中的溶解度(R2=0.987,RMSE=0.192),同時還闡明了與烴類化合物溶解度相關的結構特征以及驗證了SVM方法的靈活性。此外,GP作為一種新近提出的QSPR研究方法,目前也被用來構建溶解度預測模型。如Rostami等[28]成功運用GP建立了關于原油中瀝青的溶解度預測模型(RMSE=0.37),并通過比較表明該模型預測精度優(yōu)于之前的模型。
與線性建模方法相比,非線性方法建立溶解度預測模型具有一定優(yōu)勢,其適用范圍廣,預測精度高,具有容錯性、自適性等優(yōu)點,但該方法也存在不足之處:第一,非線性方法建模類似于“黑箱”操作,無法像線性建模法一樣得到明確的輸入輸出關系;第二,若樣本量過少,易造成過擬合;第三,結果重復性不如線性方法。
在QSPR研究中,盡管使用線性或非線性建模法建立的溶解度預測模型已達到較好的預測精度,但近年發(fā)展的線性與非線性結合方法具有更好的建模結果。使用較多的是先利用線性法篩選出分子描述符的最優(yōu)子集,然后以該最優(yōu)子集為輸入變量建立非線性模型。GA-MLR和ANN聯(lián)用建模是一種典型的方式,其中GA-MLR主要用于篩選最優(yōu)子集表達化合物分子結構,而ANN則以該最優(yōu)子集為輸入?yún)?shù),樣本溶解度值為輸出變量建立QSPR模型。如Gharagheizi等[29]利用GA-MLR從Dragon軟件計算的1259個分子描述符中篩選出5個分子描述符表達溶劑分子結構,以此為基礎構建的ANN模型成功預測了富勒烯在128種不同溶劑中的溶解度(R2=0.943,RMSE=0.071)。PLS和PCR等線性建模方法也被用來篩選分子描述符,與非線性建模方法聯(lián)用建模。如Liu等[30]利用主成分分析法找出與溶解度最相關的主成分,并以此作為ANN模型的輸入,達到了很好的預測效果(R2=0.90,RMSE=0.68)。
此外,Hansen等[31]則基于HH方程[32](Henderson-Hasselbalchequation)提出了線性和非線性組合方法預測有機化合物在不同pH值水溶液中的溶解度。針對4548個有機化合物,該方法首先分別建立分子結構與本征溶解度及與化合物酸解離系數(shù)pKa的非線性QSPR模型(RMSE分別為0.7和0.71),然后根據(jù)線性的HH方程預測不同pH值水溶液中化合物的溶解度。經(jīng)已知27個化合物不同pH值的溶解度數(shù)據(jù)驗證,預測精度RMSE達到0.79。
線性和非線性組合方法更適合復雜問題,能處理前兩類方法無法直接使用的體系。具有擬合能力強的明顯優(yōu)勢,但是由于同時采用兩類方法,一般模型擁有相對較多的參數(shù),更易過擬合,尤其在兩類方法的偏差存在疊加效應時,容易產(chǎn)生較大的預測誤差。
隨著QSPR研究溶解度的不斷深入,相應建立的溶解度預測模型也發(fā)生變化。2004年之后,研究者們普遍傾向于研究大量化合物在室溫、純水中的溶解度。如Wang等[33]建立了以基團組成描述符為輸入的溶解度預測模型,很好地預測了3664個化合物的水溶液中的溶解度(AUE=0.631,RMSE=0.850),并將該模型用于預測Huuskonen報道的溶解度值[34],也達到了較好的預測效果(AUE=0.54,RMSE=0.72)。而近兩三年來,研究者們逐漸開始考慮化合物在pH值、溫度、溶劑等外在條件參數(shù)改變時的溶解度值(即表觀溶解度)。如Valenzuela等[35]研究了30個化合物在超臨界CO2中的溶解度并建立了相應的QSPR模型(R2>0.91)。
盡管目前已經(jīng)報道過的一些溶解度預測模型具有不錯的預測精度,但是關于溶解度的QSPR研究,依舊任重而道遠。Hewitt等[20]通過32個已知溶解度的化合物對自己建立的MLR、ANN等溶解度預測模型以及其他一些商業(yè)來源的預測模型進行評估,這些模型的RMSE值在0.82~1.56,且模型的平均預測誤差達到1.1(lgS)。說明目前進行溶解度預測仍舊面臨巨大挑戰(zhàn)??偨Y報道的溶解度預測模型不難看出,關于室溫水溶液中溶解度的QSPR研究日趨成熟,而由于化合物表觀溶解度很難獲得,因此目前關于化合物的表觀溶解度值及其變化情況的QSPR研究較少,且涉及的化合物種類單一。
隨著近年來計算機技術的飛速發(fā)展,研究者們依托編程及軟件開發(fā)提出大量用于預測化合物溶解度的模型,這些模型的建立除了對化合物溶解度的預測具有指導性意義外,同時對了解化合物分子結構與溶解度之間的關系也提供了一定參考。目前,關于溶解度的QSPR研究仍存在不足,如何提高溶解度預測模型的預測精確是未來仍需解決的問題。此外,研究者們將更關注不同pH值、溫度、溶劑等條件下化合物分子結構與溶解度的構效關系。為此,在未來的溶解度預測模型建立過程中,從數(shù)據(jù)采集、描述符計算和篩選、模型方法的選擇及建立,到模型的驗證每一個建模步驟都需要采取恰當?shù)拇胧┘右愿倪M,以提高最終建立模型的預測可靠性。
[1]Amidon G,Yalkowsky S,Anik S,etal.Solubility of nonelectrolytes in polar solvents.V.Estimation of the solubility of aliphatic monofunctional compounds in water using amolecular surface area approach[J].TheJournalofPhysicalChemistry,1975,79(21):2239-2246.
[2]van Krevelen D W.Properties of Polymers:Their Estimation and Correlation w ith Chem ical Structure[M].Amsterdam:Elsevier Scientific Publ.,1976.
[3]Bicerano J.Prediction of Polymer Properties[M].New York:Marcel Dekker,1993.
[4]Ebube N K,Owusu-Ababio G,Adeyeye CM.Preformulation studies and characterization of the physicochem ical properties of amorphous polymers using artificial neural networks[J].InternationalJournalof Pharmaceutics,2000,196(1):27-35.
[5]任偉,孔德信.定量構效關系研究中分子描述符的相關性[J].計算機與應用化學,2009(11):1455-1458.
[6]Wang J,Hou T.Recentadvances on aqueous solubility prediction[J].CombinatorialChemistry&HighThroughputScreening,2011,14(5):328-338.
[7]Klopman G,Zhu H.Estimation of the aqueous solubility of organic molecules by the group contribution approach[J].Journalof ChemicalInformationandComputerSciences,2001,41(2):439-445.
[8]Jain N,Yalkowsky SH.Estimation of the aqueous solubilityⅠ:Application to organic nonelectrolytes[J].JournalofPharmaceutical Sciences,2001,90(2):234-252.
[9]Jouyban A,Shayanfar A,Ghafourian T,etal.Solubility prediction of pharmaceuticals in dioxane+waterm ixtures at various temperatures:Effects of different descriptors and feature selection methods[J].JournalofMolecularLiquids,2014,195:125-131.
[10]Jiao L,LiH.QSPR studieson theaqueous solubility of PCDD/Fsby using artificial neural network combined w ith stepw ise regression[J].ChemometricsandIntelligentLaboratorySystems,2010,103(2):90-95.
[11]LeardiR,Boggia R,Terrile M.Genetic algorithms as a strategy for feature selection[J].JournalofChemometrics,1992,6(5):267-281.
[12]Yin C,Liu X,GuoW,etal.Prediction and application in QSPR of aqueous solubility of sulfur-containing aromatic esters using GA-based MLRwith quantum descriptors[J].WaterResearch,2002,36(12):2975-2982.
[13]Duchow icz PR,TaleviA,Bruno-Blanch LE,etal.New QSPR study for the prediction of aqueous solubility of drug-like compounds[J].Bioorganic&MedicinalChemistry,2008,16(17):7944-7955.
[14]Noru?is Marija J.SPSS Inc.SPSS Professional Statistics 6.1[M].Prentice Hall,1994.
[15]SASVisualAnalytics6.1:User’sGuide[M].Sas Institute,2012.
[16]GuideM U.TheMathworks[M].Inc.,Natick,MA,1998.
[17]StatSoftH.Statistica 6[M].Springer,2002.
[18]潘善飛,胡桂香,呂楊,等.離子液體中有機物溶解度的QSPR模型分析[J].物理化學學報,2010,26(9):2494-2502.
[19]王振東,楊鋒,周培疆.分子連接性指數(shù)對部分有機污染物溶解度及疏水參數(shù)的預測[J].環(huán)境化學,2003,22(4):380-384.
[20]Hew itt M,Cronin M T,Enoch S J,et al.In silico prediction of aqueous solubility:The solubility challenge[J].JournalofChemical InformationandModeling,2009,49(11):2572-2587.
[21]Hughes LD,Palmer D S,Nigsch F,etal.Why are some properties more difficult to predict than others?A study of QSPR models of solubility,melting point,and Log P[J].JournalofChemical InformationandModeling,2008,48(1):220-232.
[22]Zhou D,Alelyunas Y,Liu R.Scores of extended connectivity fingerprintas descriptors in QSPR study ofmelting pointand aqueous solubility[J].JournalofChemicalInformationandModeling,2008,48(5):981-987.
[23]王洪元,史國棟.人工神經(jīng)網(wǎng)絡技術及其應用[M].北京:中國石化出版社,2002.
[24]Mehrpooya M,MohammadiA H,Richon D.Extension of an artificial neural network algorithm for estimating sulfur content of sour gases at elevated temperatures and pressures[J].Industrial&Engineering ChemistryResearch,2009,49(1):439-442.
[25]Gharagheizi F,Eslam imanesh A,Mohammadi A H,et al.Representation/prediction of solubilities of pure compounds in water using artificial neural network——Group contribution method[J].JournalofChemical&EngineeringData,2011,56(4):720-726.
[26]Wilczyńska Piliszek A J,Piliszek S,F(xiàn)alandysz J.QSAR and ANN for the estimation of water solubility of 209 polychlorinated trans-azobenzenes[J].JournalofEnvironmentalScienceandHealth,PartA,2012,47(2):155-166.
[27]馬衛(wèi)平.線性和非線性方法在QSAR/QSPR研究中的應用[D].蘭州:蘭州大學,2007.
[28]Rostam i H,Khaksar Manshad A.Prediction of asphaltene precipitation in live and tank crude oil using gaussian process regression[J].PetroleumScienceandTechnology,2013,31(9):913-922.
[29]Gharagheizi F,Alamdari R F.A molecular‐based model for prediction of solubility of C60 fullerene in various solvents[J].Fullerenes,Nanotubes,andCarbonNonstructures,2008,16(1):40-57.
[30]Liu Y,Sun X,Ouyang A.Nondestructivemeasurement of soluble solid content of navel orange fruit by visible-NIR spectrometric technique w ith PLSR and PCA-BPNN[J].LWT-FoodScienceand Technology,2010,43(4):602-607.
[31]Hansen N T,Kouskoumvekaki I,J?rgensen FS,etal.Prediction of pH-dependent aqueous solubility of druglikemolecules[J].Journalof ChemicalInformationandModeling,2006,46(6):2601-2609.
[32]Hasselbalch K.Calculation of blood pH based on the free and bound carbonic acid,and oxygen binding of blood as function of pH[J].Die Biochem.Z,1916,78:112-144.
[33]Wang J,Hou T,Xu X.Aqueous solubility prediction based on weighted atom type counts and solvent accessible surface areas[J].JournalofChemicalInformationandModeling,2009,49(3):571-581.
[34]Huuskonen J,Rantanen J,Livingstone D.Prediction of aqueous solubility for a diverse set of organic compounds based on atom-type electrotopological state indices[J].EuropeanJournalofMedicinal Chemistry,2000,35(12):1081-1088.
[35]Valenzuela LM,Reveco A,del Valle JM.Modelling solubility in supercritical carbon dioxide using quantitative structure-property relationships[J].TheJournalofSupercriticalFluids,2014,94(10):113-122.