杜嘉輝,廖 康,洪本坤,王鐘燁,馬 晶,李 偉,黎書華
(南京大學(xué)化學(xué)化工學(xué)院,理論與計算化學(xué)研究所,介觀化學(xué)教育部重點實驗室,南京210023)
利用量子化學(xué)方法計算電子激發(fā)態(tài)是研究和預(yù)測物質(zhì)光化學(xué)性質(zhì)的重要手段.近50年以來,提出和發(fā)展了多種激發(fā)態(tài)方法并廣泛應(yīng)用于中小體系的激發(fā)態(tài)計算,如含時密度泛函理論(TD-DFT)[1,2]、運動方程單雙激發(fā)耦合簇(EOM-CCSD)[3,4]和完全活性空間二階微擾理論(CASPT2)[5]等.這些方法可以較為準確地預(yù)測體系的吸收光譜和熒光光譜.然而,傳統(tǒng)激發(fā)態(tài)方法的計算標度過高,如基于線性相應(yīng)理論的含時密度泛函理論(LR-TD-DFT)的時間標度為O(N4),高精度的EOM-CCSD的時間標度為O(N6),高計算量限制了這些方法在大型體系中的應(yīng)用[6].因此,大體系的激發(fā)態(tài)計算仍然是量子化學(xué)領(lǐng)域的重要挑戰(zhàn).
為了降低大體系激發(fā)態(tài)的計算時間,提出了多種理論方法,可以分為4類.(1)半經(jīng)驗激發(fā)態(tài)方法,主要通過實驗數(shù)據(jù)擬合或其它近似手段快速構(gòu)建哈密頓矩陣元,典型的有用于激發(fā)態(tài)的間略微分重疊(Intermediate neglect of differential overlap,INDO)方法,包括Zerner’s INDO(ZINDO)[7]和INDO for eXcited states(INDO/X)[8],簡化的Tamm-Dancoff近似(Simplified Tamm-Dancoff approximation,sTDA)[9]方法等.(2)量子力學(xué)(QM)與分子力學(xué)(MM)結(jié)合的QM/MM激發(fā)態(tài)方法[10~13],該方法將特定的激發(fā)中心區(qū)域用量子力學(xué)處理,周圍環(huán)境則利用分子力場處理,通過避免整個體系的QM計算來降低計算量.盡管上述兩類方法能夠有效降低計算時間,但對于具有較強長程靜電和極化相互作用的復(fù)雜體系,如溶劑與溶質(zhì)之間存在較強相互作用的團簇[14]或分子間產(chǎn)生π-π堆積的分子晶體[15]等需要對較大的中心區(qū)域或模型體系使用全量子力學(xué)的激發(fā)態(tài)計算以獲得更高的精度.(3)基于局域軌道的方法,通過僅考慮激發(fā)中心區(qū)域的激發(fā)來降低計算量,可以處理大體系局域激發(fā)的情形,這類方法包括局域激發(fā)近似方法(Local excitation approach,LEA)[16]、局域框架激發(fā)方法(Local framework for calculating excitation energies,LoFEx)[17]、重整化激子方法(Renormalized excitonic method,REM)[18]等.(4)基于分塊的激發(fā)態(tài)方法,包括分塊分子軌道方法(Fragment molecular orbital,F(xiàn)MO)[19]、分而治之方法(Divide-and-conquer,D&C)[20]、分塊局域分子軌道方法(Fragment localized molecular orbitals,F(xiàn)LMO)[21]、普適的基于能量的分塊方法(Generalized energy-based fragmentation,GEBF)[22]、靜電嵌入的擴展化的分子碎片共軛帽方法(Electrostatically embedded generalized molecular fractionation with conjugate caps,EEGMFCC)[23]、多層的基于能量的分塊方法(Multi-layer energy-based fragment,MLEBF)[24]等,這類方法將大體系的局域激發(fā)能近似表示為一系列子體系激發(fā)能的組合.已經(jīng)被運用到蛋白質(zhì)、分子團簇等多種體系.
2007年,我們[25]提出了用于基態(tài)計算的GEBF方法.首先將目標大體系按照一定規(guī)則切割為若干分子片段(塊),并給每塊加上其周圍的環(huán)境塊從而產(chǎn)生初始子體系,再根據(jù)容斥原理產(chǎn)生衍生子體系;為了考慮遠程和靜電相互作用,在子體系周圍其余原子處引入全背景電荷(在同類方法中首次);最終整個大體系的能量可以被近似表示為一系列背景電荷嵌入的子體系能量的線性組合.經(jīng)過十幾年的發(fā)展,GEBF方法不僅能夠成功重現(xiàn)多種傳統(tǒng)電子結(jié)構(gòu)方法下的單點能量,還被推廣到了各種大分子和凝聚相體系的結(jié)構(gòu)優(yōu)化、振動光譜和核磁等[22,25~31],相關(guān)程序被包含在免費的LSQC軟件中[32,33].2016年,GEBF方法被成功推廣到大體系的局域激發(fā)態(tài)能量的計算[22].在局域激發(fā)GEBF(LE-GEBF)方法中,體系的激發(fā)中心區(qū)域(如溶液或生物體系中心區(qū)域的生色團等)被定義為活性區(qū)域,對應(yīng)的塊被稱為“活性塊”.在構(gòu)建子體系時,包含活性塊的子體系被定義為“活性子體系”,其余子體系為“非活性子體系”.對于前者采用激發(fā)態(tài)方法計算其激發(fā)態(tài)能量,后者仍然計算基態(tài)能量.總體系的激發(fā)態(tài)能量可表示為所有活性子體系的激發(fā)態(tài)能量與所有非活性子體系的基態(tài)能量的線性組合.LE-GEBF方法已經(jīng)成功應(yīng)用于團簇及熒光蛋白等體系中[22,29,31].
盡管LE-GEBF方法可成功預(yù)測一些大體系的局域激發(fā)態(tài)能量,但是該方法在實際應(yīng)用中的魯棒性卻仍待提高,對于某些多重激發(fā)態(tài)體系組合得到的激發(fā)能可能不正確.歸因于每個活性子體系激發(fā)中心周圍的環(huán)境不同,可能會導(dǎo)致相同的局域激發(fā)在每個子體系中的能級位置不同,使得在組合激發(fā)能時不易選出對應(yīng)的激發(fā)態(tài),從而難以正確地組合得到總體系的激發(fā)能.在前期的LE-GEBF方法[22]中,采用了將活性子體系的激發(fā)能按照其對應(yīng)的諧振強度由大到小排序,將排序后每個活性子體系位于相同位次的激發(fā)能進行線性組合的方法.EE-GMFCC方法則是直接取每個子體系諧振強度最大的能量進行組合[23].由于諧振強度可以在一定程度上反映激發(fā)態(tài)的特性,并且許多局域激發(fā)具有較強的諧振強度,前期的組合方式存在一定的合理性.但是,考慮到電子激發(fā)的本質(zhì)是電子態(tài)之間的躍遷,涉及電子密度的轉(zhuǎn)移,僅從諧振強度這個特征來判斷電子激發(fā)的特性仍然不足.如果子體系中出現(xiàn)其它諧振強度較大但其它激發(fā)特性明顯不同的激發(fā)態(tài)就可能產(chǎn)生錯誤的能量組合,導(dǎo)致最終的結(jié)果出現(xiàn)定性錯誤.此外,以上激發(fā)能組合方式雖然處理具有單個較強吸收峰的體系有一定的成功率,但對于含有多個局域激發(fā)特征的體系往往只能得到其中一個激發(fā)特征對應(yīng)的激發(fā)態(tài)能量,無法很好地預(yù)測其它特征對應(yīng)的激發(fā)態(tài)能量.
在LE-GEBF方法[22]基礎(chǔ)上,本文提出了一種有效的算法來自動地組合激發(fā)態(tài).該方法可以自動分析活性子體系的激發(fā)特征,通過機器學(xué)習(xí)中的基于密度的聚類算法(Density-based spatial clustering of applications with noise,DBSCAN)來組合活性子體系中的激發(fā)能.并使用新的LE-GEBF方法計算了熒光分子衍生物、溶劑中的染料分子、綠色熒光蛋白等多種復(fù)雜體系的激發(fā)態(tài),并與傳統(tǒng)方法進行了比較.結(jié)果表明,新算法有效地改善了LE-GEBF方法在計算局域激發(fā)態(tài)時的穩(wěn)定性,并且可以在有多種激發(fā)特性的情形下仍然對每個激發(fā)態(tài)給出較好的結(jié)果,成功重現(xiàn)了傳統(tǒng)方法下的激發(fā)態(tài)能量.
在LE-GEBF方法[22]中,(1)首先將目標大體系的激發(fā)中心區(qū)域定義為活性塊,將其余部分劃分為多個互不重疊的塊.(2)為了考慮環(huán)境對塊的影響,對于每一塊(稱為中心塊),在其周圍加上與之距離(塊-塊之間的最近距離)在閾值ξ(ξ通常取0.3~0.4 nm)以內(nèi)的塊(稱為環(huán)境塊)構(gòu)建初始子體系.(3)為了限制初始子體系的大小以降低計算量,可設(shè)置最大塊參數(shù)λ,當(dāng)某個中心塊周圍的環(huán)境塊的數(shù)量超過λ-1時,只取相距最近的λ-1塊作為環(huán)境塊(λ一般取4~8).如果某個初始子體系被完全包含在了另一個更大的初始子體系中,則刪除該較小的子體系.(4)為了考慮更多的多體效應(yīng),如果體系中存在一些距離較近的三塊項(互相距離小于1.5ξ)或兩塊項(距離小于2ξ),且未被包含在之前產(chǎn)生的初始子體系中,則可以將這些項構(gòu)建為額外的初始子體系.(5)將所有初始子體系的系數(shù)均設(shè)置為1,根據(jù)容斥原理算法,產(chǎn)生衍生子體系及相應(yīng)的系數(shù),對子體系末端斷鍵的部分使用氫原子進行飽和,從而總體系可以近似表示為全部子體系通過其系數(shù)的線性組合.(6)通過子體系的基態(tài)密度泛函理論(DFT)的自然布居數(shù)分析(Natural population analysis,NPA)[34,35]組合得到的自然電荷作為目標體系的背景電荷,并嵌入每個子體系中,替代原先總體系中原子的位置,得到靜電嵌入的子體系.(7)將包含活性塊的子體系(M個)定義為活性子體系并進行激發(fā)態(tài)TD-DFT計算,其余子體系(N個)定義為非活性子體系并進行基態(tài)DFT計算.(8)目標體系的激發(fā)態(tài)總能量(EES)可以通過組合活性子體系的激發(fā)態(tài)能量、非活性子體系的基態(tài)能量及庫倫矯正項得到[22]:
為了準確地組合激發(fā)態(tài)能量,需要將LE-GEBF中各個活性子體系中具有相似特征的激發(fā)態(tài)進行組合.整個組合算法的流程如Scheme 1所示.首先需要對所有活性子體系的所有激發(fā)態(tài)進行分析.使用了空穴-電子分析[36]來對所有的激發(fā)態(tài)進行特征分析.該方法考慮了所有的軌道躍遷對激發(fā)的貢獻,有效克服了單獨的躍遷軌道對往往不能夠完全描述激發(fā)特征的問題,并且還能夠有效考慮退激發(fā)的情形,對不同類型的激發(fā)具有較強的適應(yīng)性.利用Multiwfn程序[37]對子體系的所有激發(fā)態(tài)進行空穴-電子分析并自動使用Mulliken布居[38]計算該子體系中的每個原子i對空穴(或電子)的貢獻對于激發(fā)態(tài)α,設(shè)原子i對空穴的貢獻值為則構(gòu)造以為元素的P維向量Aα[其中P為貢獻值大于閾值(取0.5%)的原子數(shù)].由于所有P個原子對空穴的貢獻值之和近似為100%,因此Aα的模近似為1.同理對于激發(fā)態(tài)β構(gòu)造P維向量Aβ.則兩個激發(fā)態(tài)空穴分布的差異可用余弦相似度計算:
式中:第2項為向量Aα和Aβ夾角的余弦值,因此r A體現(xiàn)了兩個激發(fā)態(tài)的空穴在原子貢獻分布上的差異.類似地,可以計算激發(fā)態(tài)電子分布的差異:
利用式(4)可以計算出所有子體系中全部激發(fā)態(tài)之間的差異程度.
再利用DBSCAN算法來找出所有子體系中具有相似特征的激發(fā)態(tài).該算法是一種基于密度進行聚類的算法,可以有效地處理噪聲,找出空間中形狀不規(guī)則的簇,并且不用指定簇的數(shù)量[39].該算法已經(jīng)在理論化學(xué)其它領(lǐng)域取得了應(yīng)用,如尋找分子動力學(xué)的介穩(wěn)構(gòu)象[40]以及表征超臨界流體局部密度不均勻性[41]等.由于DBSCAN無需預(yù)先指定簇的數(shù)目(在激發(fā)態(tài)分類中難以提前獲知),采用該算法對所有子體系的全部激發(fā)態(tài)進行聚類.首先,設(shè)定一個較小的鄰域半徑eps和核心點閾值n作為參數(shù)并且用DBSCAN算法進行聚類,如果其中存在某個簇,其中包含的M個元素一一對于全部M個活性子體系的激發(fā)態(tài)特征,則將其視作一個合格的簇并從所有數(shù)據(jù)點中取出并刪去,否則以步長δ(一般取0.01)增加eps的值并進行新一輪聚類.重復(fù)此過程直到當(dāng)前數(shù)據(jù)集為空或eps超出上限.經(jīng)過上述聚類流程,得到了多個簇,其中每個簇包含全部M個活性子體系中具有最高相似度的激發(fā)態(tài).將簇中的M個激發(fā)態(tài)對應(yīng)的激發(fā)態(tài)能量代入式(1)中進行組合即可得到總體系相應(yīng)特征的激發(fā)態(tài)能量.
總之,在LE-GEBF中采用了空穴-電子分析方法得到每個子體系的所有激發(fā)態(tài)對應(yīng)的電子和空穴的分布情況,并計算態(tài)-態(tài)間的差異度,最后利用DBSCAN算法對具有高相似度的激發(fā)態(tài)進行聚類,最終組合得到總體系的激發(fā)能.
使用改進的LE-GEBF方法計算多種復(fù)雜大體系的局域激發(fā)態(tài),這些體系包括熒光染料分子的衍生物、分子團簇以及綠色熒光蛋白(Green fluorescent protein,GFP).所有體系的傳統(tǒng)激發(fā)態(tài)以及所有子體系的激發(fā)態(tài)計算均使用Gaussian 16程序[42].所有體系的空穴-電子分析使用了Multiwfn-3.8程序[37].團簇體系的動力學(xué)和半經(jīng)驗優(yōu)化則使用xtb-6.4.0程序[43]計算得到.LE-GEBF方法是利用LSQC程序包[32,33]實現(xiàn).所有體系的結(jié)構(gòu)和空穴-電子分析等值面圖均是利用VMD-1.9.3[44]結(jié)合Multiwfn-3.8繪制.在DBSCAN算法中,初始鄰域半徑eps和核心點閾值n分別設(shè)為0.01和2.在計算過程中每完成一輪聚類后會以0.01為步長增大eps,進行下一次聚類(迭代)直到數(shù)據(jù)集中沒有元素或達到上限0.3為止.所有輪聚類結(jié)束后,對每個合格簇中的元素(激發(fā)能)分別組合即得到目標體系的所有局域激發(fā)能.
首先,研究了一系列具有多個局域激發(fā)特性的熒光染料小分子衍生物的吸收光譜,包括3種典型的熒光染料分子咪唑啉、香豆素以及芴的衍生物體系.每個體系均在原來的分子基礎(chǔ)上添加長碳鏈而成.3個體系的基態(tài)結(jié)構(gòu)如圖1所示,圖中紅色虛框標注部分為活性中心區(qū)域(生色團).所有體系的結(jié)構(gòu)都是在ωB97XD/6-31G(d)水平下優(yōu)化得到,并在TD-ωB97XD/6-31G(d)下分別使用傳統(tǒng)方法與LE-GEBF方法計算激發(fā)態(tài).在LE-GEBF計算中,活性中心區(qū)域作為完整的活性塊,其余部分使用LSQC程序自動分塊,計算中的距離閾值取0.3 nm.
識字量大,學(xué)生任務(wù)重,對識字不感興趣,回生快,識字教學(xué)方法單一,效果不好,使識字成了學(xué)生的難點,也成了教師教學(xué)中最頭疼的問題。
Fig.1 Derivatives of fluorescent dyes of imidazoline derivative(A),coumarin derivative(B)and fluorine derivative(C)
對于咪唑啉的衍生物,傳統(tǒng)TD-DFT方法計算的前5個態(tài)中,所有激發(fā)態(tài)均是以體系中央的生色團為激發(fā)中心的局域激發(fā),且所有態(tài)都存在激發(fā)特征和能量上的差異,電子-空穴分析的結(jié)果如圖2所示.第一、二、四、五激發(fā)態(tài)為π→π*躍遷,且其中第二激發(fā)態(tài)存在一定的從咪唑環(huán)向苯基的電荷轉(zhuǎn)移.第三激發(fā)態(tài)則是從五元環(huán)上氮原子的孤對電子到整個咪唑啉的n→π*躍遷.其計算結(jié)果與傳統(tǒng)方法計算結(jié)果列于表1,結(jié)合了新的激發(fā)態(tài)組合算法的LE-GEBF方法成功地復(fù)現(xiàn)了所有不同的局域激發(fā)特征所對應(yīng)的激發(fā)能.該體系中不同激發(fā)態(tài)對應(yīng)的LE-GEBF與傳統(tǒng)TD-DFT激發(fā)能的偏差均不超過0.02 eV.如對于較高的第五激發(fā)態(tài),LE-GEBF和傳統(tǒng)TD-DFT的激發(fā)能非常接近,分別為6.44和6.45 eV.
Fig.2 Hole-electron analyses of the first five excited states of imidazoline derivative
Table 1 Comparisons of the conventional TD-DFT and LE-GEBF-TD-DFT excitation energies(eV)of three types of fluorescent dyes
類似的,對于香豆素衍生物和芴衍生物體系,傳統(tǒng)方法計算了每個體系的前5個態(tài),體系的激發(fā)中心區(qū)域也均分別存在5個局域激發(fā).兩個體系所有激發(fā)態(tài)的空穴-電子分析結(jié)果分別如圖3和圖4所示.對于香豆素衍生物,其第一、二、四、五激發(fā)態(tài)為π→π*的躍遷,第三激發(fā)態(tài)則表現(xiàn)出了明顯的從氧原子到整個生色團的n→π*躍遷性質(zhì).對于芴衍生物體系所有的5個激發(fā)態(tài)均表現(xiàn)為整體生色團上的π→π*躍遷.相應(yīng)傳統(tǒng)TD-DFT方法和LE-GEBF計算的局域激發(fā)能結(jié)果見表1,兩者的誤差都在0.02 eV以內(nèi).可見,改進后的LE-GEBF算法對這兩個體系所有的局域激發(fā)能均能夠給出很好的預(yù)測.
Fig.3 Hole-electron analyses of the first five excited states of coumarin derivative
Fig.4 Hole-electron analyses of the first five excited states of fluorine derivative
通過對比上述所有的計算結(jié)果不難看出,對于上述所有體系,改進了激發(fā)態(tài)組合算法后的非曲直LE-GEBF方法可以成功地復(fù)現(xiàn)出體系所有可能出現(xiàn)的局域激發(fā)能.即使體系存在兩個或更多局域激發(fā)態(tài),新的算法也可以有效地將其分別識別出來并自動進行組合得到相應(yīng)的準確激發(fā)能,克服了以往的組合方案往往只能預(yù)測一個較強吸收峰的缺陷,使LE-GEBF方法可以有效處理激發(fā)中心存在多個局域激發(fā)態(tài)的體系.
除了以上3種模型體系,該算法的另一個潛在應(yīng)用是能夠更好地預(yù)測分子在溶液中的吸收光譜.在計算分子的構(gòu)象平均下的吸收光譜時,往往需要計算得到體系大量構(gòu)象對應(yīng)的所有激發(fā)能和對應(yīng)強度并進行統(tǒng)計平均.在計算顯示溶劑模型體系的情況下,LE-GEBF方法雖然能夠大大降低具有較大溶劑-溶質(zhì)團簇的激發(fā)態(tài)的計算耗時,但是在之前排序方法下的LE-GEBF方法往往僅能夠預(yù)測每種構(gòu)象中最強的吸收峰,對于每個構(gòu)象的一些較弱的峰有時需要手動挑選對應(yīng)激發(fā)態(tài)進行組合,這在活性子體系較多的團簇類體系需要耗費較多時間.而新的組合算法則可以自動地尋找并組合所有子體系中相似度最高的激發(fā)態(tài).
利用改進的LE-GEBF方法分別計算了尿嘧啶[29]、HN12分子[45]和3HAB分子[46]在水溶液中團簇的激發(fā)能.每個團簇均在取自于相應(yīng)溶液的分子動力學(xué)模擬(GFNFF力場[47])后,并在GFN2-xTB[48]下優(yōu)化得到結(jié)構(gòu).優(yōu)化后的團簇結(jié)構(gòu)如圖5所示.3個團簇均在TD-ωB97XD/6-311G(d,p)水平下分別使用傳統(tǒng)方法和LE-GEBF方法計算了激發(fā)能,結(jié)果見表2.
Fig.5 Clusters of uracil(A),HN12(B)and 3HAB(C)in aqueous solutions
Table 2 Comparisons of the conventional TD-DFT and LE-GEBF-TD-DFT excitation energies(eV)of three clusters in aqueous solutions
首先,對比尿嘧啶-水團簇的空穴-電子分析結(jié)果,可見在該體系的前5個激發(fā)態(tài)均是位于中心尿嘧啶分子上的局域激發(fā)(圖6),其中第一和第三激發(fā)態(tài)均是從氧原子到六元環(huán)上的n→π*躍遷,其余則對應(yīng)于整個環(huán)上的π→π*躍遷.其激發(fā)能計算結(jié)果(表2)表明,所有5個激發(fā)均被新的算法成功找出并組合得到與傳統(tǒng)方法相近的激發(fā)能,誤差均≤0.05 eV.其中偏差最大的為第四激發(fā)態(tài),LE-GEBF和傳統(tǒng)TD-DFT激發(fā)能分別為6.32和6.37 eV,其余4個激發(fā)態(tài)的LE-GEBF計算偏差均≤0.03 eV.
Fig.6 Hole-electron analyses of the first five excited states of uracil-water cluster
第2個團簇為HN12分子在水中的團簇,該體系在傳統(tǒng)方法下計算所得到的前8個激發(fā)態(tài)中共有4個態(tài)的激發(fā)中心區(qū)域位于溶質(zhì)分子,空穴-電子分析如圖7所示,其中S0→S2的躍遷是從氧原子到醛基上的n→π*躍遷,其它3個態(tài)均是在整個生色團上的π→π*躍遷.激發(fā)能對比結(jié)果表明,改進的LEGEBF方法也能夠比較好地復(fù)現(xiàn)出傳統(tǒng)方法下的局域激發(fā)能結(jié)果,最大偏差僅為0.03 eV(對應(yīng)于第四個局域激發(fā)態(tài))(表2).
Fig.7 Hole-electron analyses of the first five excited states of HN12-water cluster
最后一個團簇為3HBA分子在水溶液中的團簇,TD-ωB97XD/6-311G(d,p)水平下計算的前5個激發(fā)態(tài)均是位于生色團上的局域激發(fā),空穴-電子分析結(jié)果如圖8所示.其中第三激發(fā)態(tài)表現(xiàn)為明顯的從氧原子到苯基和羧基的n→π*激發(fā),其余激發(fā)態(tài)則表現(xiàn)為π→π*的激發(fā).激發(fā)能對比顯示,對于該體系,改進的LE-GEBF方法仍能給出與傳統(tǒng)方法相當(dāng)?shù)慕Y(jié)果(表2).其中最大偏差出現(xiàn)在第三激發(fā)態(tài),相應(yīng)的LE-GEBF和傳統(tǒng)的TD-DFT激發(fā)能分別為5.95和6.00 eV.而對于最低激發(fā)態(tài),LE-GEBF-TDDFT給出的激發(fā)能(4.67 eV)與傳統(tǒng)結(jié)果一致.
Fig.8 Hole-electron analyses of the first five excited states of 3HBA-water cluster
綜上,對于溶液團簇體系,改進的LE-GEBF方法可以非常準確地復(fù)現(xiàn)與傳統(tǒng)方法結(jié)果相當(dāng)?shù)募ぐl(fā)能,且其結(jié)果對于具有多個位置和強度的吸收峰均能給出較好的結(jié)果,未來可以應(yīng)用于預(yù)測如熱激發(fā)延遲熒光材料(TADF)、金屬雜多酸等具有多重吸收峰結(jié)構(gòu)的分子在溶液中的吸收光譜.
熒光蛋白是一類具有重要發(fā)光性質(zhì)的生物大分子體系.其中綠色熒光蛋白(GFP)及其衍生物的研究引起了廣泛關(guān)注.GFP呈β-桶狀結(jié)構(gòu)[圖9(A)],存在于許多發(fā)光的水生生物中[49,50].其生色團是位于GFP結(jié)構(gòu)中央的Ser65,Tyr66和Gly67 3個殘基.由于其顯著的生物光化學(xué)性質(zhì),GFP作為重要研究工具被廣泛應(yīng)用于分子生物學(xué)等領(lǐng)域,在基因表達及熒光成像等方面有著重要的應(yīng)用價值.使用改進后的LE-GEBF方法計算了兩個GFP模型體系的局域激發(fā)能.第一個模型體系結(jié)構(gòu)(模型I)來自于Kaila等[51]的研究[圖9(B)],初始構(gòu)型來自于PDB數(shù)據(jù)庫[52](ID:1EMB),包含了T62,Q69,Q94,R96,H148,V150,T203,S205,E222殘基以及生色團和附近水分子.在LE-GEBF-TD-B3LYP/6-31G(d)水平下,計算得到其激發(fā)能為3.18 eV,與相應(yīng)TD-DFT計算的激發(fā)能(3.17 eV)及實驗值(3.12~3.14 eV)[50]均相符.
Fig.9 Structures of green fluorescent protein(GFP)of whole system(PDB ID:1EMB)(A),GFP model I(161 atoms)(B)and GFP model II(733 atoms)(C)
為了更好地考慮周圍環(huán)境對激發(fā)的影響,還對取自相同蛋白中的更大的GFP模型體系(模型II)[圖9(C)][31]在GEBF-TD-ωB97XD/def2-TZVP水平下進行了計算.該模型體系包含生色團周圍環(huán)境0.7 nm內(nèi)的殘基,共733個原子.該體系在其計算水平下有13204個基函數(shù),傳統(tǒng)TD-DFT單點激發(fā)態(tài)能量計算在常規(guī)服務(wù)器上難以實現(xiàn).因此使用改進的LE-GEBF方法計算了其吸收光譜,所得結(jié)果為3.15 eV,與實驗值更加接近.對于GFP模型Ⅱ體系無法進行傳統(tǒng)的激發(fā)態(tài)計算,故對以生色團為中心的活性子體系進行空穴-電子分析(圖10),結(jié)果顯示,該體系的局域激發(fā)是位于五元環(huán)上的π→π*激發(fā).因此,改進的LE-GEBF方法對于具有局域激發(fā)的較大的實際生物體系也能給出穩(wěn)定并令人滿意的結(jié)果.
Fig.10 Hole-electron analyses of the first excited state of a GEBF active subsystem(centered on chromophore)in GFP modelⅡ
在普適的基于能量的分塊局域激發(fā)態(tài)計算方法框架下,利用機器學(xué)習(xí)中的聚類算法,提出了一種新的子體系激發(fā)能組合算法,可以在原有LE-GEBF方法的基礎(chǔ)上自動地比較子體系各激發(fā)態(tài)的相似程度,并進行分類線性組合,進而得到目標體系所有可能的局域激發(fā)態(tài)的能量和相應(yīng)的激發(fā)能.該方法利用空穴-電子分析的分布特征作為描述符,并利用DBSCAN密度聚類機器學(xué)習(xí)算法,在子體系中找到具有高度相似特征的激發(fā)態(tài),克服了以往GEBF方法在計算具有多個局域激發(fā)體系時的組合困難.測試了包括熒光染料分子衍生物、染料-水團簇和綠色熒光蛋白模型在內(nèi)的各種體系,激發(fā)能計算結(jié)果顯示,新的組合算法可以有效地識別并分類子體系中各種不同的局域激發(fā)態(tài)并進行組合,得到目標體系局域在生色團上多個激發(fā)態(tài)能量和相應(yīng)的激發(fā)能.當(dāng)前的激發(fā)態(tài)聚類算法雖然已經(jīng)可以自動計算多種類型大體系的吸收光譜,但尚未考慮相位因素對激發(fā)態(tài)的影響,對于一些包含高對稱性生色團的體系未必能完全表征激發(fā)態(tài)的特性.此外,原子對空穴或電子部分的貢獻基于Mulliken布居數(shù)分析,不適用于彌散函數(shù)的基組.需要進一步改進算法,引入相位因素并拓展至彌散基組,并實現(xiàn)激發(fā)態(tài)能量導(dǎo)數(shù)的計算,以進行激發(fā)態(tài)的結(jié)構(gòu)優(yōu)化、發(fā)射光譜及振動光譜預(yù)測,從而將LE-GEBF方法應(yīng)用于更多復(fù)雜體系的電子光譜.