劉智新, 楊洪強(qiáng), 包麗華
1.山東農(nóng)業(yè)大學(xué)信息科學(xué)與工程學(xué)院,應(yīng)用物理系,泰安 271018;
2.山東農(nóng)業(yè)大學(xué)作物生物學(xué)國家重點(diǎn)實(shí)驗(yàn)室,園藝科學(xué)與工程學(xué)院,泰安 271018;
3.山東農(nóng)業(yè)大學(xué)化學(xué)與材料科學(xué)學(xué)院,泰安 271018
蛋白質(zhì)氨基酸序列對蛋白質(zhì)立體空間結(jié)構(gòu)的形成及蛋白質(zhì)功能的實(shí)現(xiàn)起著關(guān)鍵的作用,所以,蛋白質(zhì)氨基酸序列的分析及其應(yīng)用是蛋白質(zhì)研究的重要內(nèi)容之一。目前,雖然實(shí)驗(yàn)技術(shù)是蛋白質(zhì)研究領(lǐng)域的主要手段,但是,蛋白質(zhì)序列分析的手段在蛋白質(zhì)研究、蛋白質(zhì)組學(xué)研究及系統(tǒng)生物學(xué)研究中仍起著重要的作用。這是因?yàn)椋?)在后基因組時(shí)代,產(chǎn)生了大量生物學(xué)數(shù)據(jù),數(shù)據(jù)之間的關(guān)系復(fù)雜,僅通過生物學(xué)實(shí)驗(yàn)手段來完成這些研究任務(wù)是不現(xiàn)實(shí)的;2)生物學(xué)實(shí)驗(yàn)對具體實(shí)驗(yàn)環(huán)境、實(shí)驗(yàn)條件依賴性相對要強(qiáng)一些,而且做實(shí)驗(yàn)要消耗較多的時(shí)間,往往還需要大量的經(jīng)費(fèi)支持,因而制約了一些大規(guī)模研究的開展;3)雖然蛋白質(zhì)氨基酸序列的研究與分析已開展了較長時(shí)間,許多技術(shù)也已經(jīng)比較成熟,且在生命科學(xué)研究與實(shí)踐中得到了廣泛應(yīng)用,但是,依然不能滿足科研與實(shí)踐的需求,而且,蛋白質(zhì)氨基酸序列的研究與分析屬于生物學(xué)基礎(chǔ)研究領(lǐng)域,在這方面進(jìn)行一些探索可能會產(chǎn)生新的生物理論突破點(diǎn)。
蛋白質(zhì)序列分析與應(yīng)用研究在技術(shù)層面主要從兩個(gè)方向展開,一個(gè)是以氨基酸序列本身的排列為中心,探索蛋白質(zhì)序列之間的相似性、同源性;一個(gè)是以蛋白質(zhì)的氨基酸組成及各級結(jié)構(gòu)為中心,探索蛋白質(zhì)的生物學(xué)功能。當(dāng)然,這兩個(gè)方向有時(shí)是難以截然分開的。在第二個(gè)方向上,一般與蛋白質(zhì)的各種預(yù)測結(jié)合得比較緊密。例如,蛋白質(zhì)的二級結(jié)構(gòu)類預(yù)測[1]、酶家族分類預(yù)測[2]、蛋白質(zhì)的折疊速率預(yù)測[3]、蛋白質(zhì)的亞細(xì)胞定位預(yù)測[4]、蛋白質(zhì)的亞葉綠體定位預(yù)測[5]、凋亡蛋白定位預(yù)測[6]等。本文從蛋白質(zhì)氨基酸序列的組成出發(fā),借鑒物理學(xué)中粒度的思想,提出了蛋白質(zhì)氨基酸序列的粒度概念,使用蛋白粒度對氨基酸序列進(jìn)行分析,進(jìn)一步給出了蛋白粒度的階、蛋白粒度的界、蛋白粒度的極限、蛋白粒度增量等概念,得到了一些有益的結(jié)論。然后,把蛋白粒度的概念和知識應(yīng)用到蛋白質(zhì)二級結(jié)構(gòu)類預(yù)測和凋亡蛋白的亞細(xì)胞定位預(yù)測中,取得了很好的結(jié)果。
設(shè)集合B={A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y},其中,A表示丙氨酸、C表示半胱氨酸、…、Y表示酪氨酸,即集合B由20種氨基酸組成。設(shè)集合Z={z1,z2,…,zm}(1≤m≤20),且Z是B的一個(gè)子集。令集合X={x1,x2,…,xn},n是正整數(shù)。如果集合X和Z中的元素是有序的,且滿足x1<x2<…<xn和z1<z2<…<zm,那么,映射f:X→Z對應(yīng)一個(gè)n字母排列:f(x1)f(x2)…f(xn),且f(xi)∈Z。這個(gè)排列被稱為一個(gè)字,它由從集合Z中隨機(jī)選擇的n個(gè)字母組成。當(dāng)f(x1)≤f(x2)≤…≤f(xn)時(shí),稱f(x1)f(x2)…f(xn)為一個(gè)蛋白粒度 (protein granularity)。
在上面的集合X={x1,x2,…,xn}中,n稱為蛋白粒度的階 (order)。如果在集合X中有一個(gè)元素,則稱蛋白粒度的階為1階;如果在集合X中有兩個(gè)元素,則稱蛋白粒度的階為2階;如果在集合X中有三個(gè)元素,則稱蛋白粒度的階為3階,依次類推。
對于一個(gè)蛋白質(zhì)序列,在n階水平上可以得到蛋白粒度的總類型數(shù),同時(shí),在同階水平上,還可以得到具體一個(gè)蛋白粒度出現(xiàn)的頻次。為了具體說明,以一蛋白質(zhì)結(jié)構(gòu)域序列(PDB:1RDH_A)的片段為例,這是HIV酶的一部分,由PFHGYQLEKEP這11個(gè)氨基酸組成。各階蛋白粒度的具體提取結(jié)果見表1。
以2階粒度提取過程為例進(jìn)行說明,從序列開頭首先得到第一個(gè)2階粒度FP,然后得到第二個(gè)2階粒度FH、第三個(gè)2階粒度GH,如此進(jìn)行下去,直到得到最后一個(gè)2階粒度EP。其中,EK出現(xiàn)兩次,所以,二階粒度的總類型數(shù)等于9,F(xiàn)P的頻次為1,EK的頻次為2。
表1 蛋白結(jié)構(gòu)域(PDB:1RDH_A)片段的粒度提取結(jié)果Table 1 The granularity extraction results of the protein domain sequence(PDB:1RDH_A)fragment
從粒度提取過程可以看出,蛋白粒度包含了氨基酸在序列中的排列信息,也包含了蛋白質(zhì)序列的氨基酸組成信息。從表1中可以發(fā)現(xiàn)一個(gè)有趣的現(xiàn)象,10階粒度EEFGHKLPQY的頻次是2(對于序列片段“PFHGYQLEKEP”,取前10個(gè)字母,以字母表字母順序進(jìn)行排列,得到“EEFGHKLPQY”;再從第2個(gè)字母開始取后10個(gè)字母,以字母表字母順序進(jìn)行排列,得到“EEFGHKLPQY”,可以看出這兩個(gè)蛋白粒度是相同的,所以,這個(gè)蛋白粒度的頻次是2),這是因?yàn)榈诙€(gè)脯氨酸 (P)與第一個(gè)脯氨酸 (P)隔9個(gè)氨基酸相鄰,所以,可以推出這種蛋白粒度反映同種氨基酸的互鄰信息。
那么,一般情況下,一條蛋白質(zhì)氨基酸序列的粒度分布 (頻次分布亦可稱為粒度譜)情況是怎樣的呢?我們以CAS1A_XENLA(Swiss-Prot:P55865)這一蛋白序列為例。CAS1A_XENLA由386個(gè)氨基酸 (本文在不引起混淆的情況下,為簡便起見,使用氨基酸稱呼對應(yīng)的氨基酸殘基)組成。沿序列分別提取2階、3階粒度,結(jié)果見圖1和圖2。
從圖1可以看出,2階粒度的頻次變化范圍在1到8之間,顯然粒度并不是被均勻使用的,蛋白質(zhì)序列對2階粒度使用具有偏好性,但是,沒有一個(gè)2階粒度的頻次處于絕對的優(yōu)勢地位。從圖2可以看出,3階粒度的頻次變化范圍在1到4之間,蛋白質(zhì)序列對3階粒度的使用也具有一定的偏好性,但也沒有一個(gè)3階粒度的頻次處于絕對的優(yōu)勢地位。同2階粒度相比,3階粒度的頻次最大值變小了,頻次為1的粒度增多了,蛋白粒度類型的總數(shù)從153變到309,這說明蛋白質(zhì)更傾向于選擇不同的粒度來構(gòu)成蛋白質(zhì)序列,而不是靠粒度頻次的變化來構(gòu)成蛋白質(zhì)序列。蛋白粒度類型的增加意味著蛋白質(zhì)序列所攜帶的信息量的增大,這與蛋白質(zhì)序列變長更容易形成復(fù)雜的高級空間結(jié)構(gòu)的趨勢相吻合。
把CAS1A_XENLA從中間分成等長的兩段,然后考察每段的2階粒度情況。為了方便比對,把每段的粒度按字母表的順序重新排列,結(jié)果見圖3(為方便比對,第二段粒度的頻次被統(tǒng)一加上6)。從圖3可以看出,兩段的最大粒度頻次值都是5,粒度的離散程度基本相似,有些粒度只在一段出現(xiàn)。計(jì)算發(fā)現(xiàn)第一段的2階粒度類型數(shù)是105,第二段的2階粒度類型數(shù)是120,這說明2階粒度的分布在整條蛋白質(zhì)序列上是不均勻、不對稱的,這些性質(zhì)同時(shí)為蛋白質(zhì)預(yù)測提供了有益的信息。
定理1:給出一個(gè)n元有序集合X={x1,x2,…,xn}(x1<x2<…<xn),n是正整數(shù)。同時(shí)給出20元有序集合Z={A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y},集合Z中的20個(gè)元素即20種氨基酸。對應(yīng)粒度的映射為f:X→Z,則n階粒度水平的總粒度類型數(shù)等于從20個(gè)氨基酸中可重復(fù)選取n個(gè)氨基酸的組合數(shù),并且這個(gè)數(shù)目為,這里,表示n階粒度所形成的集合的元素?cái)?shù)目,是組合數(shù) (證明見參考文獻(xiàn)[7])。
給定一個(gè)蛋白質(zhì)序列,在n階粒度水平下進(jìn)一步可以得到n階粒度類型數(shù)與n階粒度上界的比率,則稱這個(gè)比率為在n階粒度水平下的蛋白粒度增量 (granularity increment),即
對于一個(gè)具體的蛋白質(zhì)序列,在不同階粒度水平下可以得到一系列粒度類型總數(shù),進(jìn)一步研究發(fā)現(xiàn),這些數(shù)目會有一個(gè)最大值,稱這個(gè)最大值為這條序列蛋白粒度的極限(granularity limit)。下面用一個(gè)例子進(jìn)行說明。POLG_HCVEV(Swiss-Prot:O39928)由3014個(gè)氨基酸組成 (選一個(gè)長蛋白序列是為了把情況說明得更清楚一些)。計(jì)算結(jié)果表明POLG_HCVEV的蛋白粒度極限是2807,此時(shí)對應(yīng)的粒度的階是15(見圖4中的×,為方便比對,圖4中的第一個(gè)數(shù)據(jù)點(diǎn)是該蛋白序列的長度)。從圖4可以看出,隨著粒度階的增大,對應(yīng)的粒度總數(shù)迅速增大,然后到達(dá)蛋白粒度的極限2807,之后緩慢變小,變小的原因是隨著粒度階的增大整條蛋白序列相對變短。2階粒度的點(diǎn)是整條曲線的最低點(diǎn),值為210,說明該蛋白序列已經(jīng)使用了所有的2階蛋白粒度。
當(dāng)?shù)鞍踪|(zhì)序列的長度發(fā)生變化時(shí),蛋白粒度類型數(shù)是如何變化的呢?下面通過新選的四條不同長度的蛋白質(zhì)序列,并結(jié)合上面給出的POLG_HCVEV蛋白序列一起來進(jìn)行說明。這四條新選的蛋白質(zhì)序列是:CASP6_HUMAN(Swiss-Prot:P55212)、RN216_HUMAN(Swiss-Prot:Q9NWF9)、DCC_MOUSE(Swiss-Prot:P70211)和 DIDO1_MOUSE(Swiss-Prot:Q8C9B9)。CASP6_HUMAN由293個(gè)氨基酸組成,RN216_HUMAN由866個(gè)氨基酸組成,DCC_MOUSE由1447個(gè)氨基酸組成,DIDO1_MOUSE由2256個(gè)氨基酸組成,比對結(jié)果見圖5(為方便比對,圖5中的第一個(gè)數(shù)據(jù)點(diǎn)是該蛋白序列的長度)。從圖5可以看出,5條蛋白序列在2階粒度達(dá)到最低點(diǎn),值分別為143、187、199、198和210,CASP6_HUMAN序列使用了143個(gè)2階粒度,POLG_HCVEV序列使用了所有的2階蛋白粒度。5條曲線的極值點(diǎn)分別為 276(4th-order)、800(6th-order)、1350(9th-order)、2052(15th-order)和 2807(15th-order)(見圖5中“×”點(diǎn))。
圖5還顯示,隨著粒度階的增加,曲線上升的總體趨勢隨蛋白質(zhì)序列長度的增加而變得緩慢,但是在同階粒度水平下,長序列的粒度類型數(shù)要大于短序列的粒度類型數(shù)??傮w來看,隨著蛋白質(zhì)序列的變長,蛋白粒度的極限在更高的粒度階水平才能達(dá)到。同時(shí)也可以得出,在同階水平下,長序列的蛋白粒度增量要大于短序列的蛋白粒度增量,這說明粒度增量與蛋白質(zhì)序列長度呈正相關(guān)效應(yīng)。
由于蛋白粒度等有關(guān)概念和知識能夠反映蛋白質(zhì)序列的多種組成信息,所以,可以應(yīng)用蛋白粒度的有關(guān)知識對蛋白質(zhì)序列進(jìn)行特征抽提,抽提的特征向量在蛋白質(zhì)預(yù)測中具有多種應(yīng)用。下面給出一種構(gòu)建蛋白質(zhì)序列特征向量的具體方法。
對于一個(gè)蛋白質(zhì)預(yù)測數(shù)據(jù)集,第k條蛋白ψ為第s類的特征向量可以表示為
從上面的分析可以得到,蛋白粒度在一條蛋白質(zhì)序列的不同片段有不同的分布,所以,可以把整條蛋白序列分成多個(gè)等長的片段以增加向量的信息含量。用表示在 n 階粒度水平下的粒度類型數(shù),具體的粒度特征提取方法和各符號含義見圖6。
假設(shè)分別取2階、3階、4階粒度,同時(shí)對整條蛋白質(zhì)序列等長切割0次、1次和2次,則等式(2)中的g=18。按定理1中的結(jié)論,有
這樣,最終獲得了一種代表蛋白質(zhì)氨基酸序列的38維特征向量
從前面的分析可以得出,這種特征向量包含了蛋白質(zhì)序列的氨基酸組成信息、氨基酸排列信息、氨基酸的互鄰信息、序列長度信息、蛋白粒度沿序列不對稱分布等信息,所以,它能很好地代表蛋白質(zhì)序列。同時(shí),我們知道蛋白質(zhì)序列的2肽表示向量是400維,3肽表示向量是8000維,4肽表示向量是160 000維,而2階粒度表示向量是210維,3階粒度表示向量是1540維,4階粒度表示向量是8855維,顯然,如果用粒度表示向量比用多肽表示向量具有明顯的降維作用,這也是用粒度方式代表蛋白質(zhì)序列所獨(dú)有的優(yōu)勢。我們進(jìn)一步推測,這種新型的表示向量在蛋白質(zhì)序列同源性的高精度區(qū)分,以及由于樣品不足所形成的小樣品高精度區(qū)分上,將具有獨(dú)特優(yōu)勢,而這恰恰是基因本體 (gene ontology)和蛋白質(zhì)功能域 (protein function domain)等特征提取方法還略顯不足的地方。
考慮到實(shí)際蛋白質(zhì)預(yù)測的需要,可以對粒度向量的各個(gè)權(quán)重因子進(jìn)行進(jìn)一步的優(yōu)化,而不是賦予等值的權(quán)重,例如在等式(3)中,是2階粒度增量,是3階粒度增量,是4階粒度增量,那么對應(yīng)的權(quán)重因子可以分別設(shè)為λ1、λ2和λ3,則等式(3)變換為被賦予權(quán)重的新的38維特征向量,如(4)式。
標(biāo)準(zhǔn)數(shù)據(jù)集與特征提取
為了驗(yàn)證粒度向量對同源蛋白具有高的區(qū)分性能的推測,我們選擇了Chou的蛋白質(zhì)二級結(jié)構(gòu)類359標(biāo)準(zhǔn)數(shù)據(jù)集[8],簡寫為C359集。C359集是高同源 (高于95%)蛋白質(zhì) (域)數(shù)據(jù)集,包含82個(gè)全α類蛋白質(zhì)、85個(gè)全β類蛋白質(zhì)、99個(gè)α/β類蛋白質(zhì)和93個(gè)α+β類蛋白質(zhì)。其蛋白質(zhì)序列的特征提取方法見等式(4)。預(yù)測算法與評價(jià)方法
預(yù)測算法采用基于統(tǒng)計(jì)學(xué)習(xí)理論的支持向量機(jī) (support vector machine,SVM)[9]。SVM被廣泛用于生物數(shù)據(jù)的分析,例如基因表達(dá)數(shù)據(jù)分析[10]、蛋白質(zhì)折疊識別[11]、凋亡蛋白亞細(xì)胞定位[12,13]、蛋白質(zhì)分類[14]等。本實(shí)驗(yàn)中,支持向量機(jī)具體程序用LIBSVM[15];同時(shí),由于SVM是二分類算法,我們采用一對一 (one-versus-one)方式來實(shí)現(xiàn)本實(shí)驗(yàn)的四分類預(yù)測。通過蛋白粒度增量和支持向量機(jī)相結(jié)合 (protein granularity increment and SVM,PGI-SVM)的方式,從而完成了蛋白質(zhì)二級結(jié)構(gòu)類的預(yù)測。
評價(jià)方法采用蛋白質(zhì)預(yù)測中常用的Jackknife檢驗(yàn)方法,它也是最嚴(yán)格、最客觀的評價(jià)檢驗(yàn)方法之一[16]。敏感系數(shù) (Sn)、特異系數(shù) (Sp)、Matthew相關(guān)系數(shù) (MCC)、總體預(yù)測精度(Ac)采用蛋白質(zhì)預(yù)測通用定義式[5,17]:
其中,TP表示真陽性數(shù)目,TN表示真陰性數(shù)目,F(xiàn)P表示假陽性數(shù)目,F(xiàn)N表示假陰性數(shù)目,L表示樣品總數(shù),i表示第i類樣品。
采用等式(4)構(gòu)造特征向量,經(jīng)過計(jì)算分析,發(fā)現(xiàn)當(dāng)權(quán)重因子λ1=0.02、λ2=0.5、λ3=9時(shí)效果較好。對于支持向量機(jī),采用徑向基函數(shù),然后,使用網(wǎng)格尋優(yōu)的方式來確定最優(yōu)的懲罰因子C和徑向基函數(shù)的系數(shù)γ,當(dāng)=1.25、log2γ=6.62時(shí),PGI-SVM的總體預(yù)測精度 (Ac)達(dá)到了97.2%,各子集的敏感系數(shù) (Sn)、特異系數(shù) (Sp)、Matthew相關(guān)系數(shù) (MCC)均達(dá)到了很高的百分比,見表2。
表2 PGI-SVM在C359蛋白結(jié)構(gòu)類數(shù)據(jù)集的Jackknife檢驗(yàn)結(jié)果Table 2 PGI-SVM results by the Jackknife test in the C359 protein structure class dataset
把PGI-SVM的結(jié)果與C359集Chou等的最初預(yù)測結(jié)果比對,各子集和總集的Jackknife檢驗(yàn)精度結(jié)果列于表3。結(jié)果發(fā)現(xiàn),在各個(gè)子集和總集上的預(yù)測精度都有大幅度提高,總體預(yù)測精度超過最初預(yù)測精度的13.1%。這說明粒度增量的方法在高同源的蛋白質(zhì)二級結(jié)構(gòu)類的預(yù)測上能夠達(dá)到高精度區(qū)分的效果。
表3 不同方法在C359蛋白結(jié)構(gòu)類數(shù)據(jù)集的Jackknife檢驗(yàn)結(jié)果比對Table 3 Result comparisons of different methods by the Jackknife test in the C359 protein structure class dataset
標(biāo)準(zhǔn)數(shù)據(jù)集與特征提取
為了驗(yàn)證粒度向量在由于樣品不足所形成的小樣品蛋白數(shù)據(jù)集上的高精度區(qū)分能力,我們選擇了Zhou和Doctor建立的包含98條蛋白質(zhì)序列的凋亡蛋白標(biāo)準(zhǔn)數(shù)據(jù)集[18],簡寫為ZD98集。ZD98集是凋亡蛋白集,這類功能蛋白集由于總體蛋白數(shù)目不多或新發(fā)現(xiàn)的蛋白序列較少而形成小的數(shù)據(jù)集,這類小數(shù)據(jù)集往往由于GO(gene ontology)條目的不完善及功能域難以確定,用基于GO等預(yù)測方法有時(shí)不如基于蛋白質(zhì)序列的方法。
ZD98集包含43條細(xì)胞質(zhì)蛋白 (cytoplasmic protein)、30條膜蛋白 (plasma membrane-bound protein)、13條線粒體蛋白 (mitochondrial protein)和12條其它類蛋白(other protein)。蛋白質(zhì)序列的特征提取方法見等式(4)。
預(yù)測算法與評價(jià)方法
為了體現(xiàn)蛋白粒度特征向量具有普適性,預(yù)測算法使用K-近鄰 (KNN)算法代替上面的SVM算法。K-近鄰算法已經(jīng)被用于各種蛋白質(zhì)預(yù)測,例如:預(yù)測酶的亞家族結(jié)構(gòu)類[19]、預(yù)測蛋白的亞核定位[20]、預(yù)測蛋白的亞葉綠體定位[5]等。
這里所用的是蛋白粒度增量與K-近鄰算法相結(jié)合 (protein granularity increment and KNN,PGI-KNN)的預(yù)測方法。
評價(jià)方法采用蛋白質(zhì)預(yù)測中常用的Jackknife檢驗(yàn)方法,它也是最嚴(yán)格的評價(jià)檢驗(yàn)方法之一[16]。敏感系數(shù) (Sn)、特異系數(shù) (Sp)、Matthew相關(guān)系數(shù) (MCC)、總體預(yù)測精度 (Ac)采用蛋白質(zhì)預(yù)測通用定義式 (同上)。
采用等式(4)構(gòu)造特征向量,經(jīng)計(jì)算分析發(fā)現(xiàn),當(dāng)權(quán)重因子λ1=0.028571、λ2=0.066667、λ3=0.090909時(shí)效果較好。對于K-近鄰算法,采用Cityblock距離函數(shù),當(dāng)K=2時(shí),PGI-KNN的總體預(yù)測精度 (Ac)達(dá)到94.9%,各子集的敏感系數(shù) (Sn)、特異系數(shù) (Sp)、Matthew相關(guān)系數(shù) (MCC)均達(dá)到了很高的百分比,見表4。
把PGI-KNN的結(jié)果與Zhou和Doctor的最初預(yù)測結(jié)果比對,各子集和總集的Jackknife檢驗(yàn)精度結(jié)果列于表5。結(jié)果發(fā)現(xiàn),在各個(gè)子集和總集上的預(yù)測精度都有大幅度提高,總體預(yù)測精度超過了最初預(yù)測精度的22.4%。這說明粒度增量的方法在這種小的蛋白功能集上能夠達(dá)到高精度區(qū)分的效果。
表4 PGI-KNN在ZD98凋亡蛋白數(shù)據(jù)集的Jackknife檢驗(yàn)結(jié)果Table 4 PGI-KNN results by the Jackknife test in the ZD98 apoptosis protein dataset
表5 不同方法在ZD98凋亡蛋白數(shù)據(jù)集的Jackknife檢驗(yàn)結(jié)果比對Table 5 Result comparisons of the different methods by the Jackknife test in the ZD98 apoptosis protein dataset
從蛋白質(zhì)氨基酸序列的組成出發(fā),借鑒物理學(xué)中粒度的思想,提出了蛋白質(zhì)氨基酸序列的粒度概念;使用蛋白粒度對氨基酸序列進(jìn)行分析,進(jìn)一步給出了蛋白粒度的階、蛋白粒度的界、蛋白粒度的極限、蛋白粒度增量等概念。主要結(jié)論有:1)蛋白粒度等概念和知識能夠?qū)Φ鞍踪|(zhì)序列的組成特性進(jìn)行描述和刻畫,蛋白質(zhì)序列的組成具有粒度偏好;2)蛋白粒度在蛋白質(zhì)序列上的分布是不均勻的,但沒有一個(gè)特殊的粒度在蛋白質(zhì)序列中占絕對優(yōu)勢地位;3)隨著蛋白粒度階的增加,蛋白質(zhì)在構(gòu)成序列時(shí)更傾向于選擇不同的粒度,而不是復(fù)用粒度;4)在同階粒度水平上,蛋白粒度的種類有上界,是個(gè)固定值,文中給出了上界值的具體算法;5)每條蛋白質(zhì)序列都有各自的蛋白粒度種類的極限。
對于蛋白粒度在蛋白質(zhì)預(yù)測中的應(yīng)用,通過實(shí)驗(yàn)證明,蛋白粒度的方法在數(shù)據(jù)降維上效果明顯,在蛋白質(zhì)序列同源性的高精度區(qū)分,以及由于樣品不足所形成的小樣品的高精度區(qū)分上,具有獨(dú)特優(yōu)勢。
理論分析結(jié)論和預(yù)測實(shí)際結(jié)果都表明,蛋白粒度及有關(guān)概念的提出是合理的,它從物質(zhì)凝聚成粒這個(gè)角度出發(fā),對氨基酸形成蛋白質(zhì)序列的過程進(jìn)行了揭示和刻畫,具有一定的生物學(xué)理論與實(shí)踐價(jià)值。
1. Chen C,Chen LX,Zou XY,Cai PX.Predicting protein structural class based on multi-features fusion.J Theor Biol,2008,253(2):388~392
2.Wang YC,Wang XB,Yang ZX,Deng NY.Prediction of enzyme subfamily class via pseudo amino acid composition by incorporating the conjoint triad feature. Protein Pept Lett,2010,17(11):1441~1449
3.Xi LL,Li SY,Liu HX,Li JH,Lei BL,Yao XJ.Global and local prediction of protein folding rates based on sequence autocorrelation information.J Theor Biol,2010,264(4):1159~1168
4. Wan SB,Mak MW,Kung SY.mGOASVM:Multi-label protein subcellular localization based on gene ontology and support vector machines.BMC Bioinformatics,2012,13:290.DOI:10.1186/1471-2105-13-290
5. Du PF,Cao SJ,Li YD.SubChlo:Predicting protein subchloroplast locations with pseudo-amino acid composition and the evidence-theoretic K-nearest neighbor(ET-KNN)algorithm.J Theor Biol,2009,261(2):330~335
6. Zhang ZH,Wang ZH,Zhang ZR,Wang YX.A novel method for apoptosis protein subcellular localization prediction combining encoding based on grouped weight and support vector machine.FEBS Letters,2006,580(26):6169~6174
7.林翠琴.組合學(xué)與圖論.北京:清華大學(xué)出版社,2009 Lin CQ.Combinatorics and graph theory.Beijing:Tsinghua University Press,2009
8.Chou KC,Magglora GM.Domain structural class prediction.Protein Eng,1998,11(7):523~538
9.Vapnik V.Statistical learning theory.New York:Wiley-Interscience,1998
10.Brown MPS.Knowledge-based analysis of microarray gene expression data by using support vector machines.Proc Natl Acad Sci USA,2000,97(1):262~267
11.Ding CHQ,Dubchak I.Multi-class protein fold recognition using support vector machines and neural networks.Bioinformatics,2001,17(4):349~358
12.Chen LY,Li QZ.Prediction of the subcellular locatin of apoptosis proteins.J Theor Biol,2007,245(4):775~783
13.Kandaswamy KK,Pugalenthi G,Moller S,Hartmann E,Kalies KU, Suganthan PN, Martinetz T. Prediction of apoptosis protein locations with genetic algorithms and support vector machines through a new mode of pseudo amino acid composition.Protein Pept Lett,2010,17(12):1473~1479
14.Nanni L,Brahnam S,Lumini A.Wavelet images and Chou's pseudo amino acid composition for protein classification.Amino Acids,2012,43(2):657~665
15.Chang CC,Lin CJ.LIBSVM:A library for support vector machines.ACM TIST,2011,2:1~27
16. Chou KC,Zhang CT. Review:Prediction of protein structural classes.Crit Rev Biochem Mol Biol,1995,30(4):275~349
17.Mei SY.Multi-kernel transfer learning based on Chou's PseAAC formulation for protein submitochondria localization.J Theor Biol,2012,293:121~130.DOI:10.1016/j.jtbi.2011.10.015
18.Zhou GP,Doctor K.Subcellular loeation prediction of apoptosis proteins.Proteins:Struct Funct Genet,2003,50(l):44~48
19.Huang WL,Tung CW,Huang HL,Hwang SF,Ho SY.Accurate prediction of enzyme subfamily class using an adaptive fuzzy k-nearest neighbor method. Biosystem,2007,90(2):405~413
20.Shen HB,Chou KC.Predicting protein subnuclear location with optimized evidence-theoretic K-nearest classifier and pseudo amino acid composition.Biochem Biophys Res Commun,2005,337(3):752~756