王 偉,何華勤
(福建農(nóng)林大學,福建 福州 350002)
引言
由于蛋白質領域研究的日益進步以及基因測序、編碼技術的普及,各大數(shù)據(jù)庫中已經(jīng)大量收集了各種蛋白質的氨基酸序列。因為蛋白質組學研究的重要領域是蛋白質功能,因此研究蛋白質序列已經(jīng)成為生物信息學中不可或缺的部分[1][3]。Vapnik和Cortes于1995年首先提出支持向量機(全名Support Vector Machine)這一概念,它的基本原理是在線性可分的基礎上,通過自身的算法將線性可分變?yōu)榫€性不可分[2]。通過此轉變我們可以在非線性函數(shù)中進行使用和計算,這種分類算法被稱為支持向量機,即SVM。將支持向量機算法應用到水稻蛋白質磷酸化位點的預測當中去,是現(xiàn)在研究水稻蛋白質磷酸化的一個重要方向。
將一條蛋白質表示為S=R1R1R2R3…RL,其中Ri表示蛋白質序列中 i個位置上的氨基酸,L表示的是蛋白質序列的長度;20種氨基酸用單字母表示如下:
AA={A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}
CKSAAP的定義如下:
(1)
其中 i和j 各自表示二十種各不相同的氨基酸;若序列中 n位置上為氨基酸,并且位置n+K 同為氨基酸j時, Hi,j(n,n+K)=1;否則為零。序列片斷中殘基對的K個間隔的組成情況通過該編碼來表示,同時展示了序列或者序列片斷間殘基的小范圍互作[4]。
而序列片段中K個間隔的殘基對個數(shù)我們用Vi 來表示,特征向量的維數(shù)用i來表示。對應K的取值各不相同,那么i也會相應變化。在特征值的轉換過程中,把每條序列的Vi值分別算出,即在序列中每個殘基對的總數(shù)[5]。
特征向量被定義為:
(2)
其中,Ai表示特征值, MaxVi為序列中Vi的最大值, MinVi為序列中Vi的最小值。
根據(jù)上述CKSAAP算法原理,我們利用Python編程環(huán)境,將從swiss-prot下載下來進行整理的序列轉換成Libsvm可以識別的格式。構建完數(shù)據(jù)集合之后,我們選取部分數(shù)據(jù)來進行訓練。對于要進行預測的數(shù)據(jù),我們分別從總數(shù)據(jù)集合的數(shù)據(jù)中隨機抽取十次正負樣本,選取的正負樣本比例為1:1。
在利用libSVM進行預測之前,使用交叉驗證對所提取的特征值進行評估和測試,得到不同的Cost值和Gamma值后,從中選取模型所需的最優(yōu)參數(shù)。通過比對我們選取rbf核類型和c-svc類型來創(chuàng)建模型。SVM中模型是通過正負樣本集來構建的,并且正負樣本比例為1:1。對于易為磷酸化的S(絲氨酸)、T(蘇氨酸)和Y(酪氨酸)的子集,分別從相應總訓練集的正負位點數(shù)據(jù)中隨機抽取十次正負樣本[6]。
分別對每個序列子集的10個SVM模型進行交叉驗證,通過對結果的比對和分析分別從中選取交叉驗證性能最高的模型作為SVM的子模型。通過libsvm中的grid.py進行參數(shù)優(yōu)選得出最優(yōu)參數(shù)訓練出最終模型。再通過此模型,應用svm_predict進行預測。
預測結果:
參數(shù)優(yōu)選中的最佳準確率accuracy=80.2218%,而實際中預測的準確率為80.638%。
磷酸化位點預測工具有很多,本文應用自己構建的測試數(shù)據(jù)集來對本文工具與PlantPhos和Musite的預測性能進行對比。
我們將本文的預測工具和PlantPhos、Musite對同一測試集數(shù)據(jù)進行預測,首先將數(shù)據(jù)分成1:1的正負樣本集,即磷酸化和非磷酸化位點。然后算出這三種方法的Sn(靈敏度)、Sp(特異性)、ACC(準確度)和MCC(馬修斯系數(shù))來比較各自的預測性能。
由表1可知,本文的預測工具對絲氨酸預測的準確性ACC和馬修斯系數(shù)MCC分別為80.8%和0.621,plantPhos的ACC為61.2%和MCC為0.311,而Musite預測的ACC和MCC分別為72.1%和0.426。而本文的預測工具對蘇氨酸位點預測的準確性ACC和馬修斯系數(shù)MCC分別為79.9%和0.597,plantPhos的ACC為59.3%和MCC為0.276,而Musite預測的ACC和MCC分別為60.2%和0.206。表明本文的預測工具對磷酸化絲氨酸、蘇氨酸位點的預測性能高于PlantPhos及Musite。
本文的預測方法在預測酪氨酸位點的ACC和MCC分別為81.3%和0.616,顯著高于PlantPhos的57.0%和0.182,以及Musite的ACC值50%。說明本文的預測工具對磷酸化酪氨酸位點的預測性能顯著高于PlantPhos及Musite。
表1 預測結果對比表
參考文獻:
[1] 趙凌志,劉穎,等.Weighted SVM在蛋白質磷酸化位點預測中的應用[D].北京:清華大學軟件學院,2006.
[2] 蔡津津.蛋白質磷酸化位點預測與規(guī)則抽取方法研究[D].北京:中國科學院計算技術研究所, 2006.
[3] 張穎,羅遼復,呂軍.使用多樣性增量預測磷酸化位點[J].內(nèi)蒙古大學學報(自然科學報),2008,(1).
[4] 朱玉賢,李毅,鄭曉峰.現(xiàn)代分子生物學(第三版)[M].北京:高等教育出版社,2011.
[5] 白海燕,呂軍,張穎,等.蛋白質磷酸化位點的識別[J].內(nèi)蒙古工業(yè)大學學報,2011,(2).
[6] Koenig M ,Grade N. Highly specific prediction of phosphorylation sites in proteins[J], Bioinformatics, 2004.