林源清,張光亞
(華僑大學(xué) 化工學(xué)院,福建 廈門361021)
木聚糖酶(EC3.2.1.8)是一種重要的工業(yè)用酶,可廣泛應(yīng)用于飼料、造紙、食品等行業(yè).木聚糖酶的使用可大大減少造紙工業(yè)漂白過程中氯化物的用量,從而有效降低制漿造紙工業(yè)對環(huán)境的污染[1].用于造紙工業(yè)的木聚糖酶需滿足耐熱和耐堿條件,目前滿足所需條件的酶來源于兩種途徑:一是從極端環(huán)境中篩選產(chǎn)酶菌株[2];二是通過基因工程對酶進行遺傳改造[3].鑒于菌株篩選耗時長,效率低,基因工程改造越來越受研究者的關(guān)注.木聚糖酶可分為F/10和G/11家族,由于G/11家族的木聚糖酶分子較小,而且其結(jié)構(gòu)更為簡單,因此比較適合作為理論研究的分子模型[4].對于蛋白質(zhì)的改造主要有兩種策略:一是理性設(shè)計(rational design),即定點突變;二是非理性設(shè)計(irrational design),定向進化.定點突變目的明確,但需要事先了解蛋白質(zhì)的結(jié)構(gòu);定向進化不需事先了解蛋白質(zhì)的結(jié)構(gòu),但其篩選困難.本文利用木聚糖酶序列的信息和最適p H值,構(gòu)建了氨基酸組成和最適p H值關(guān)系的模型.旨在探索影響酶最適p H值的氨基酸及其位置,為木聚糖酶的改造提供可靠的信息,以期提高研究效率.本課題組曾利用木聚糖酶的氨基酸與最適p H值關(guān)系構(gòu)建BP神經(jīng)網(wǎng)絡(luò)模型,并且取得較好的預(yù)測結(jié)果[5].采用均勻設(shè)計(UD)方法,構(gòu)建氨基酸組成和最適p H值關(guān)系的模型.
G/11家族木聚糖酶的序列來源于 UniProt(http://www.uniprot.org/),木聚糖酶數(shù)據(jù)來源于文獻[6].73個木聚糖酶ID號及最適p H值,如表1所示.表1中:ID為木聚糖酶在UniProt數(shù)據(jù)庫中的收錄號;p Hopt為文獻中報道的木聚糖酶的最適p H值.
對于最適p H值在一定范圍的,取其中間值.木聚糖酶的氨基酸組成分析由自行設(shè)計的軟件完成.該軟件不僅可以計算全段序列的氨基酸組成,還可以計算分段氨基酸組成.主成分分析由MVSP軟件完成,神經(jīng)網(wǎng)絡(luò)及支持向量機由weka3.6.8軟件完成.以各個木聚糖酶中全段序列及分段序列(將酶蛋白序列均分為3段,分別表示為序列的N端,C端及中間端)的20種氨基酸的組成百分比作為神經(jīng)網(wǎng)絡(luò)和支持向量機的輸入,其對應(yīng)的最適p H值作為結(jié)果輸出.
表1 G/11木聚糖酶ID號及最適p H值Tab.1 Xylanase ID in family G/11 and the optimum p H value
在運算時,支持向量機(SVM)[7]模型和BP神經(jīng)網(wǎng)絡(luò)[8]模型都需要選擇參數(shù),以達到最佳擬合結(jié)果.因此,采用均勻設(shè)計法(UD)[9]來選擇適當(dāng)?shù)倪\行參數(shù).定義兩個特征指標[5],即均方根誤差RMSE和平均絕對誤差MAE.模型預(yù)測的結(jié)果采用常用的“留一法”,即對n組數(shù)據(jù),每次取1組作測試,其他n-1組作為訓(xùn)練樣本,共進行n次循環(huán),使得樣本中所有數(shù)據(jù)都能進行預(yù)測.
主成分分析(principal components analysis,PCA)又稱主分量分析,把多指標轉(zhuǎn)化為少數(shù)幾個綜合指標,在許多領(lǐng)域有著有效而廣泛的應(yīng)用[10],是一種較為客觀的綜合評價方法.運用MVSP軟件,可直接獲得20個氨基酸變量的主成分荷載和73個個案的主成分得分.利用主成分得分與最適p H值進行擬合,擬合結(jié)果可在一定程度上綜合反映氨基酸組成與最適p H值的關(guān)系.
利用均勻設(shè)計法,對兩種不同核函數(shù)(Linear和RBF)的支持向量機運算參數(shù)進行優(yōu)化,10倍交叉驗證結(jié)果,如表2,3所示.表2,3中:MAE為平均絕對誤差;RMSE為均方根誤差.限于篇幅,僅列出最優(yōu)預(yù)測結(jié)果.
表2 基于Linear核函數(shù)的支持向量機預(yù)測結(jié)果Tab.2 Result of SVM prediction based on linear kernel
由表3可知:在RBF核函數(shù)支持向量機模型中,以I端氨基酸組成作為輸入,得到的預(yù)測結(jié)果最佳,即C=1,ε=0.1,γ=0.5時,其 MAE和RMSE值均最小,分別為0.84和1.17.此時,所建立的模型對木聚糖酶最適p H值預(yù)測準確率最高,故為最佳方案.
表3 基于RBF核函數(shù)的支持向量機預(yù)測結(jié)果Tab.3 Result of SVM prediction based on RBF kernel
通過比較兩種核函數(shù)的預(yù)測結(jié)果,可以得知RBF核函數(shù)的整體預(yù)測結(jié)果優(yōu)于Linear核函數(shù).盡管在Linear核函數(shù)中,當(dāng)懲罰值C=1,ε=0.005,其MAE為0.83,是所有預(yù)測結(jié)果中最小的.這個結(jié)果說明,在Linear核函數(shù)中運行參數(shù)取得了比較理想的結(jié)果.如果對RBF核函數(shù)進一步優(yōu)化,可能會取得更好的結(jié)果.根據(jù)表3中的最優(yōu)化參數(shù)C=1,ε=0.1,γ=0.5,使用支持向量機法建立最適p H值模型.通過該模型對實際測得的數(shù)據(jù)(p Hexp)進行預(yù)測,預(yù)測結(jié)果(p Hpre)如圖1所示.從圖1可知:該模型預(yù)測結(jié)果與實際測得結(jié)果的相關(guān)性為0.67,說明該模型可行.
圖1 預(yù)測值和實測值的關(guān)系Fig.1 Relationship between experimental andpredicted transition temperature obtained
為了科學(xué)地確定神經(jīng)網(wǎng)絡(luò)中連接權(quán)的初始值、最佳的隱含層神經(jīng)元的個數(shù)、學(xué)習(xí)速度等參數(shù),選擇一個隱含層的神經(jīng)網(wǎng)絡(luò),對學(xué)習(xí)速率、動態(tài)參數(shù)和隱含層結(jié)點數(shù)3個因素15水平進行均勻設(shè)計,所得的均勻設(shè)計表和訓(xùn)練結(jié)果,如表4所示(僅列出最優(yōu)預(yù)測結(jié)果).
由表4可知:當(dāng)學(xué)習(xí)速率(v)為0.06,動態(tài)參數(shù)(MP)為0.2,隱含層結(jié)點數(shù)(NHL)為8時,以I端氨基酸組成為輸入的模型,對最適p H值擬合的均方根誤差為1.49個p H值單位,平均絕對誤差為1.09個p H值單位,具有很好的擬合效果.
表4 BP神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果Tab.4 Result of BP neural network
由表2~4可知:構(gòu)建的3種模型中,基于RBF核函數(shù)的支持向量機模型的整體預(yù)測結(jié)果最佳;I端的預(yù)測結(jié)果在分段預(yù)測模型中均最佳;其次是C端;最后是N端(表5).這個結(jié)果說明I端與木聚糖酶的最適p H值相關(guān)性最高.
表5 3種模型3端最佳優(yōu)化結(jié)果Tab.5 Optimum result of 3 segments in the three different models
原始數(shù)據(jù)運用MVSP軟件做主成分分析(PCA)分析后,可得到20個氨基酸變量的主成分和73個個案主成分.根據(jù)個案得分主成分(z),做主成分與實測最適p H值的相關(guān)性圖,如圖2所示.
圖2 主成分與最適p H值相關(guān)性圖Fig.2 Relationship between principal components and optimum p H value
由圖2可知:全段序列的相關(guān)性最好,R值為0.69.N端、I端、C端與最適p H值的相關(guān)性大小分別為-0.33,-0.68,0.40,其中負值表示負相關(guān).它們與最適p H值影響的大小順序依次為I端、C端、N端.這個結(jié)果和前文的支持向量機和BP神經(jīng)網(wǎng)絡(luò)的結(jié)果一致,驗證了前文所構(gòu)建模型的可靠性.值得注意的是全段序列和I端序列的R值數(shù)值相近,但是方向卻相反.
由于I端序列氨基酸組成對于木聚糖酶的最適p H值影響較大.因此,僅列出I端分析結(jié)果.原始數(shù)據(jù)運用MVSP軟件PCA分析后,得到20個氨基酸變量的5個主成分.
各氨基酸與5個主成分之間的關(guān)系,如表6所示.表6中:相關(guān)系數(shù)只保留一位小數(shù),且僅列出絕對值大于0.2的氨基酸.從表6可知:第1主成分與絲氨酸(S)相關(guān)性最強,相關(guān)性高達0.8,該結(jié)果表明絲氨酸(S)是木聚糖酶的關(guān)鍵氨基酸;第2主成分與甘氨酸(G)、第3主成分與甘氨酸(G)、第4主成分與酪氨酸(Y)及天冬酰胺(N)的相關(guān)性顯著,表明這3種氨基酸是木聚糖酶比較重要的氨基酸.Liu等[11]研究結(jié)果表明:G/11家族主成分分析的前7個主成分所代表的是該家族木聚糖酶的2級結(jié)構(gòu),分別為:卷曲、轉(zhuǎn)角、折疊、轉(zhuǎn)角、轉(zhuǎn)角、螺旋和折疊.
表6 木聚糖酶20種氨基酸與各主成分的關(guān)系Tab.6 Relationship between 20 amino acids and principle components in xylanase
構(gòu)建了不同的最適p H值預(yù)測模型,其中基于RBF核函數(shù)的支持向量機模型預(yù)測木聚糖酶的最適p H值的精度,比使用BP神經(jīng)網(wǎng)絡(luò)及Linear核函數(shù)的支持向量機模型更好,可做為木聚糖酶模擬的后續(xù)使用模型.采用了均勻設(shè)計的方法對構(gòu)建的模型進行了參數(shù)優(yōu)化,但在各因素水平的選擇上仍帶有一定的隨意性,如果經(jīng)過精心的選擇,模型的預(yù)測效果還會有所改善.此外,由于木聚糖酶分子量較小、結(jié)構(gòu)比較簡單,只有一條多肽鏈,基于此酶所建立的模型對于其他具有4級結(jié)構(gòu)的復(fù)雜酶類是否仍然適用仍有待探討.
[1] 聶國興,王俊麗,明紅.木聚糖酶的應(yīng)用現(xiàn)狀與研發(fā)熱點[J].工業(yè)微生物,2008,38(1):53-59.
[2] 包怡紅,劉偉豐,毛愛軍,等.耐堿性木聚糖酶高產(chǎn)菌株的篩選、產(chǎn)酶條件優(yōu)化及其在麥草漿生物漂白中的應(yīng)用[J].農(nóng)業(yè)生物技術(shù)學(xué)報,2005,13(2):235-240.
[3] UMEMOTO H,YATSUNAMI R,INAMI M,et al.Improvement of alkaliphily of bacillus alkaline xylanase by introducing amino acid substitutions both on catalytic cleft and protein surface[J].Bioscience Biotechnology and Biochemistry,2009,73(4):965-967.
[4] SAPAG A,WOUTERS J,LAMBERT C,et al.The endoxylanases from family 11:Computer analysis of protein sequences reveals important structural and phylogenetic relationships[J].Journal of Biotechnology,2002,95(2):109-131.
[5] 張光亞,方柏山.木聚糖酶氨基酸組成與其最適p H 值的神經(jīng)網(wǎng)絡(luò)模型[J].生物工程學(xué)報,2005,21(4):658-661.
[6] PAES G,BERRIN J G,BEAUGRAND J.GH11 xylanases:Structure/function/properties relationships and applications[J].Biotechnology Advances,2012,30(3):564-592.
[7] VAPNIK V N.The nature of statistical learning theory[M].New York:Springer-Verlag,2000:138-167.
[8] 王軼夫,孫玉軍,郭孝玉.基于BP神經(jīng)網(wǎng)絡(luò)的馬尾松立木生物量模型研究[J].北京林業(yè)大學(xué)學(xué)報,2013,35(2):17-21.
[9] 方開泰.均勻設(shè)計-數(shù)論方法在試驗設(shè)計的應(yīng)用[J].應(yīng)用數(shù)學(xué)學(xué)報,1980(4):363-372.
[10] 王志江.主成分分析法在地區(qū)企業(yè)經(jīng)濟效益評價中的應(yīng)用[J].華僑大學(xué)學(xué)報:自然科學(xué)版,2004,25(3):322-325.
[11] LIU Liang-wei,ZHANG Jue,CHEN Bin,et al.Principle component analysis in F/10 and G/11 xylanase[J].Biochemical and Biophysical Research Communications,2004,322(1):277-280.