G／11木聚糖酶最適p H值的預(yù)測及其與氨基酸位置的關(guān)系

2014-03-03 05:27:34林源清張光亞

華僑大學(xué)學(xué)報(自然科學(xué)版) 2014年3期

林源清，張光亞

（華僑大學(xué) 化工學(xué)院，福建廈門361021）

木聚糖酶（EC3.2.1.8）是一種重要的工業(yè)用酶，可廣泛應(yīng)用于飼料、造紙、食品等行業(yè).木聚糖酶的使用可大大減少造紙工業(yè)漂白過程中氯化物的用量，從而有效降低制漿造紙工業(yè)對環(huán)境的污染［1］.用于造紙工業(yè)的木聚糖酶需滿足耐熱和耐堿條件，目前滿足所需條件的酶來源于兩種途徑：一是從極端環(huán)境中篩選產(chǎn)酶菌株［2］；二是通過基因工程對酶進行遺傳改造［3］.鑒于菌株篩選耗時長，效率低，基因工程改造越來越受研究者的關(guān)注.木聚糖酶可分為F／10和G／11家族，由于G／11家族的木聚糖酶分子較小，而且其結(jié)構(gòu)更為簡單，因此比較適合作為理論研究的分子模型［4］.對于蛋白質(zhì)的改造主要有兩種策略：一是理性設(shè)計（rational design），即定點突變；二是非理性設(shè)計（irrational design），定向進化.定點突變目的明確，但需要事先了解蛋白質(zhì)的結(jié)構(gòu)；定向進化不需事先了解蛋白質(zhì)的結(jié)構(gòu)，但其篩選困難.本文利用木聚糖酶序列的信息和最適p H值，構(gòu)建了氨基酸組成和最適p H值關(guān)系的模型.旨在探索影響酶最適p H值的氨基酸及其位置，為木聚糖酶的改造提供可靠的信息，以期提高研究效率.本課題組曾利用木聚糖酶的氨基酸與最適p H值關(guān)系構(gòu)建BP神經(jīng)網(wǎng)絡(luò)模型，并且取得較好的預(yù)測結(jié)果［5］.采用均勻設(shè)計（UD）方法，構(gòu)建氨基酸組成和最適p H值關(guān)系的模型.

1 材料與方法

1.1 數(shù)據(jù)來源

G／11家族木聚糖酶的序列來源于 UniProt（http：／／www.uniprot.org／），木聚糖酶數(shù)據(jù)來源于文獻［6］.73個木聚糖酶ID號及最適p H值，如表1所示.表1中：ID為木聚糖酶在UniProt數(shù)據(jù)庫中的收錄號；p Hopt為文獻中報道的木聚糖酶的最適p H值.

對于最適p H值在一定范圍的，取其中間值.木聚糖酶的氨基酸組成分析由自行設(shè)計的軟件完成.該軟件不僅可以計算全段序列的氨基酸組成，還可以計算分段氨基酸組成.主成分分析由MVSP軟件完成，神經(jīng)網(wǎng)絡(luò)及支持向量機由weka3.6.8軟件完成.以各個木聚糖酶中全段序列及分段序列（將酶蛋白序列均分為3段，分別表示為序列的N端，C端及中間端）的20種氨基酸的組成百分比作為神經(jīng)網(wǎng)絡(luò)和支持向量機的輸入，其對應(yīng)的最適p H值作為結(jié)果輸出.

表1 G／11木聚糖酶ID號及最適p H值Tab.1 Xylanase ID in family G／11 and the optimum p H value

1.2 均勻設(shè)計的支持向量機

在運算時，支持向量機（SVM）［7］模型和BP神經(jīng)網(wǎng)絡(luò)［8］模型都需要選擇參數(shù)，以達到最佳擬合結(jié)果.因此，采用均勻設(shè)計法（UD）［9］來選擇適當(dāng)?shù)倪\行參數(shù).定義兩個特征指標［5］，即均方根誤差RMSE和平均絕對誤差MAE.模型預(yù)測的結(jié)果采用常用的“留一法”，即對n組數(shù)據(jù)，每次取1組作測試，其他n-1組作為訓(xùn)練樣本，共進行n次循環(huán)，使得樣本中所有數(shù)據(jù)都能進行預(yù)測.

1.3 主成分分析

主成分分析（principal components analysis，PCA）又稱主分量分析，把多指標轉(zhuǎn)化為少數(shù)幾個綜合指標，在許多領(lǐng)域有著有效而廣泛的應(yīng)用［10］，是一種較為客觀的綜合評價方法.運用MVSP軟件，可直接獲得20個氨基酸變量的主成分荷載和73個個案的主成分得分.利用主成分得分與最適p H值進行擬合，擬合結(jié)果可在一定程度上綜合反映氨基酸組成與最適p H值的關(guān)系.

2 結(jié)果與分析

2.1 基于均勻設(shè)計的支持向量機

利用均勻設(shè)計法，對兩種不同核函數(shù)（Linear和RBF）的支持向量機運算參數(shù)進行優(yōu)化，10倍交叉驗證結(jié)果，如表2，3所示.表2，3中：MAE為平均絕對誤差；RMSE為均方根誤差.限于篇幅，僅列出最優(yōu)預(yù)測結(jié)果.

表2 基于Linear核函數(shù)的支持向量機預(yù)測結(jié)果Tab.2 Result of SVM prediction based on linear kernel

由表3可知：在RBF核函數(shù)支持向量機模型中，以I端氨基酸組成作為輸入，得到的預(yù)測結(jié)果最佳，即C＝1，ε＝0.1，γ＝0.5時，其 MAE和RMSE值均最小，分別為0.84和1.17.此時，所建立的模型對木聚糖酶最適p H值預(yù)測準確率最高，故為最佳方案.

表3 基于RBF核函數(shù)的支持向量機預(yù)測結(jié)果Tab.3 Result of SVM prediction based on RBF kernel

通過比較兩種核函數(shù)的預(yù)測結(jié)果，可以得知RBF核函數(shù)的整體預(yù)測結(jié)果優(yōu)于Linear核函數(shù).盡管在Linear核函數(shù)中，當(dāng)懲罰值C＝1，ε＝0.005，其MAE為0.83，是所有預(yù)測結(jié)果中最小的.這個結(jié)果說明，在Linear核函數(shù)中運行參數(shù)取得了比較理想的結(jié)果.如果對RBF核函數(shù)進一步優(yōu)化，可能會取得更好的結(jié)果.根據(jù)表3中的最優(yōu)化參數(shù)C＝1，ε＝0.1，γ＝0.5，使用支持向量機法建立最適p H值模型.通過該模型對實際測得的數(shù)據(jù)（p Hexp）進行預(yù)測，預(yù)測結(jié)果（p Hpre）如圖1所示.從圖1可知：該模型預(yù)測結(jié)果與實際測得結(jié)果的相關(guān)性為0.67，說明該模型可行.

圖1 預(yù)測值和實測值的關(guān)系Fig.1 Relationship between experimental andpredicted transition temperature obtained

2.2 基于均勻設(shè)計的BP神經(jīng)網(wǎng)絡(luò)

為了科學(xué)地確定神經(jīng)網(wǎng)絡(luò)中連接權(quán)的初始值、最佳的隱含層神經(jīng)元的個數(shù)、學(xué)習(xí)速度等參數(shù)，選擇一個隱含層的神經(jīng)網(wǎng)絡(luò)，對學(xué)習(xí)速率、動態(tài)參數(shù)和隱含層結(jié)點數(shù)3個因素15水平進行均勻設(shè)計，所得的均勻設(shè)計表和訓(xùn)練結(jié)果，如表4所示（僅列出最優(yōu)預(yù)測結(jié)果）.

由表4可知：當(dāng)學(xué)習(xí)速率（v）為0.06，動態(tài)參數(shù)（MP）為0.2，隱含層結(jié)點數(shù)（NHL）為8時，以I端氨基酸組成為輸入的模型，對最適p H值擬合的均方根誤差為1.49個p H值單位，平均絕對誤差為1.09個p H值單位，具有很好的擬合效果.

表4 BP神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果Tab.4 Result of BP neural network

由表2～4可知：構(gòu)建的3種模型中，基于RBF核函數(shù)的支持向量機模型的整體預(yù)測結(jié)果最佳；I端的預(yù)測結(jié)果在分段預(yù)測模型中均最佳；其次是C端；最后是N端（表5）.這個結(jié)果說明I端與木聚糖酶的最適p H值相關(guān)性最高.

表5 3種模型3端最佳優(yōu)化結(jié)果Tab.5 Optimum result of 3 segments in the three different models

2.3 氨基酸與最適p H值的相關(guān)性

原始數(shù)據(jù)運用MVSP軟件做主成分分析（PCA）分析后，可得到20個氨基酸變量的主成分和73個個案主成分.根據(jù)個案得分主成分（z），做主成分與實測最適p H值的相關(guān)性圖，如圖2所示.

圖2 主成分與最適p H值相關(guān)性圖Fig.2 Relationship between principal components and optimum p H value

由圖2可知：全段序列的相關(guān)性最好，R值為0.69.N端、I端、C端與最適p H值的相關(guān)性大小分別為-0.33，-0.68，0.40，其中負值表示負相關(guān).它們與最適p H值影響的大小順序依次為I端、C端、N端.這個結(jié)果和前文的支持向量機和BP神經(jīng)網(wǎng)絡(luò)的結(jié)果一致，驗證了前文所構(gòu)建模型的可靠性.值得注意的是全段序列和I端序列的R值數(shù)值相近，但是方向卻相反.

由于I端序列氨基酸組成對于木聚糖酶的最適p H值影響較大.因此，僅列出I端分析結(jié)果.原始數(shù)據(jù)運用MVSP軟件PCA分析后，得到20個氨基酸變量的5個主成分.

各氨基酸與5個主成分之間的關(guān)系，如表6所示.表6中：相關(guān)系數(shù)只保留一位小數(shù)，且僅列出絕對值大于0.2的氨基酸.從表6可知：第1主成分與絲氨酸（S）相關(guān)性最強，相關(guān)性高達0.8，該結(jié)果表明絲氨酸（S）是木聚糖酶的關(guān)鍵氨基酸；第2主成分與甘氨酸（G）、第3主成分與甘氨酸（G）、第4主成分與酪氨酸（Y）及天冬酰胺（N）的相關(guān)性顯著，表明這3種氨基酸是木聚糖酶比較重要的氨基酸.Liu等［11］研究結(jié)果表明：G／11家族主成分分析的前7個主成分所代表的是該家族木聚糖酶的2級結(jié)構(gòu)，分別為：卷曲、轉(zhuǎn)角、折疊、轉(zhuǎn)角、轉(zhuǎn)角、螺旋和折疊.

表6 木聚糖酶20種氨基酸與各主成分的關(guān)系Tab.6 Relationship between 20 amino acids and principle components in xylanase

3 結(jié)束語

構(gòu)建了不同的最適p H值預(yù)測模型，其中基于RBF核函數(shù)的支持向量機模型預(yù)測木聚糖酶的最適p H值的精度，比使用BP神經(jīng)網(wǎng)絡(luò)及Linear核函數(shù)的支持向量機模型更好，可做為木聚糖酶模擬的后續(xù)使用模型.采用了均勻設(shè)計的方法對構(gòu)建的模型進行了參數(shù)優(yōu)化，但在各因素水平的選擇上仍帶有一定的隨意性，如果經(jīng)過精心的選擇，模型的預(yù)測效果還會有所改善.此外，由于木聚糖酶分子量較小、結(jié)構(gòu)比較簡單，只有一條多肽鏈，基于此酶所建立的模型對于其他具有4級結(jié)構(gòu)的復(fù)雜酶類是否仍然適用仍有待探討.

［1］聶國興，王俊麗，明紅.木聚糖酶的應(yīng)用現(xiàn)狀與研發(fā)熱點［J］.工業(yè)微生物，2008，38（1）：53-59.

［2］包怡紅，劉偉豐，毛愛軍，等.耐堿性木聚糖酶高產(chǎn)菌株的篩選、產(chǎn)酶條件優(yōu)化及其在麥草漿生物漂白中的應(yīng)用［J］.農(nóng)業(yè)生物技術(shù)學(xué)報，2005，13（2）：235-240.

［3］ UMEMOTO H，YATSUNAMI R，INAMI M，et al.Improvement of alkaliphily of bacillus alkaline xylanase by introducing amino acid substitutions both on catalytic cleft and protein surface［J］.Bioscience Biotechnology and Biochemistry，2009，73（4）：965-967.

［4］ SAPAG A，WOUTERS J，LAMBERT C，et al.The endoxylanases from family 11：Computer analysis of protein sequences reveals important structural and phylogenetic relationships［J］.Journal of Biotechnology，2002，95（2）：109-131.

［5］張光亞，方柏山.木聚糖酶氨基酸組成與其最適p H 值的神經(jīng)網(wǎng)絡(luò)模型［J］.生物工程學(xué)報，2005，21（4）：658-661.

［6］ PAES G，BERRIN J G，BEAUGRAND J.GH11 xylanases：Structure／function／properties relationships and applications［J］.Biotechnology Advances，2012，30（3）：564-592.

［7］ VAPNIK V N.The nature of statistical learning theory［M］.New York：Springer-Verlag，2000：138-167.

［8］王軼夫，孫玉軍，郭孝玉.基于BP神經(jīng)網(wǎng)絡(luò)的馬尾松立木生物量模型研究［J］.北京林業(yè)大學(xué)學(xué)報，2013，35（2）：17-21.

［9］方開泰.均勻設(shè)計-數(shù)論方法在試驗設(shè)計的應(yīng)用［J］.應(yīng)用數(shù)學(xué)學(xué)報，1980（4）：363-372.

［10］王志江.主成分分析法在地區(qū)企業(yè)經(jīng)濟效益評價中的應(yīng)用［J］.華僑大學(xué)學(xué)報：自然科學(xué)版，2004，25（3）：322-325.

［11］ LIU Liang-wei，ZHANG Jue，CHEN Bin，et al.Principle component analysis in F／10 and G／11 xylanase［J］.Biochemical and Biophysical Research Communications，2004，322（1）：277-280.