鄭 斌 厲力華
(杭州電子科技大學(xué)生命信息與儀器工程學(xué)院,杭州 310018)
人類基因組計(jì)劃的順利實(shí)施帶來了蛋白質(zhì)數(shù)據(jù)庫中海量的序列信息,面對(duì)浩瀚的蛋白質(zhì)序列數(shù)據(jù),傳統(tǒng)通過實(shí)驗(yàn)方法測定蛋白質(zhì)結(jié)構(gòu)已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足人類的需求。因此,探討通過理論計(jì)算方法來預(yù)測蛋白質(zhì)結(jié)構(gòu)類別顯得尤為重要。
蛋白質(zhì)功能的確定有助于闡明生命體在生理或病理?xiàng)l件下的變化機(jī)制,并且對(duì)于疾病預(yù)防和藥物開發(fā)等方面都有十分重要的推動(dòng)作用??茖W(xué)研究表明,蛋白質(zhì)的結(jié)構(gòu)和功能是相統(tǒng)一的,因此要研究蛋白質(zhì)的功能就需要深入了解其結(jié)構(gòu)。英國學(xué)者Levitt根據(jù)蛋白質(zhì)序列中二級(jí)結(jié)構(gòu)片段的排列和其拓?fù)浣Y(jié)構(gòu)的不同,將蛋白質(zhì)分為全α、全β、α/β和α+β四種結(jié)構(gòu)類型[1],目前已報(bào)道的對(duì)蛋白質(zhì)結(jié)構(gòu)類的研究主要集中在這四種類型上。蛋白質(zhì)序列特征表示和機(jī)器學(xué)習(xí)算法是影響蛋白質(zhì)結(jié)構(gòu)類預(yù)測效果好壞的兩個(gè)重要方面。對(duì)于第一個(gè)方面,我們的工作就是用數(shù)字參量把從氨基酸序列中提取到的信息用特征參數(shù)合理地描述出來,最大程度地挖掘氨基酸序列之間的關(guān)系。這方面眾多學(xué)者已經(jīng)做了大量的研究工作。比如Nakashima等用20維的特征信息表示20種氨基酸在蛋白質(zhì)序列中出現(xiàn)的頻率[2];Zhang等將自相關(guān)函數(shù)應(yīng)用于蛋白質(zhì)結(jié)構(gòu)類型預(yù)測研究中,其主要是描述一種基于氨基酸指數(shù)的特征提取方法[3];Chou在2001年首次提出了偽氨基酸組成方法,它是(20+λ)維的特征信息[4]。但是上述工作僅基于單一性質(zhì)的特征信息進(jìn)行蛋白質(zhì)結(jié)構(gòu)類預(yù)測研究,從而導(dǎo)致提取的特征信息所包含的信息量非常有限,不能全面描述蛋白質(zhì)序列特征。
對(duì)于第二個(gè)方面,機(jī)器學(xué)習(xí)算法的基本過程就是通過對(duì)樣本數(shù)據(jù)訓(xùn)練總結(jié)出一整套判別體系及參數(shù)后,進(jìn)而對(duì)測試樣本數(shù)據(jù)進(jìn)行預(yù)測。Chris等運(yùn)用的 ANN 算法[5],Liu 等運(yùn)用的 KNN 算法[6],Wu等運(yùn)用的SVM算法[7],都取得了較好的結(jié)果。但是傳統(tǒng)的單分類器算法存在著一定的缺陷,因?yàn)闆]有任何一個(gè)分類器算法能夠在所有的樣本特征上進(jìn)行很好的區(qū)分。為了解決這一問題,研究者們提出了一種新的分類技術(shù)——多分類器融合算法。多分類器融合算法是指先利用多個(gè)分類器進(jìn)行分類,然后通過一定的組合機(jī)制把多個(gè)分量分類器的結(jié)果進(jìn)行融合,達(dá)到對(duì)目標(biāo)進(jìn)行識(shí)別的目的。近年來,越來越多的研究者開始把多分類器融合算法應(yīng)用于蛋白質(zhì)結(jié)構(gòu)類預(yù)測領(lǐng)域,比如Cai等和Feng等分別把LogitBoost算法和Boosting算法應(yīng)用于蛋白質(zhì)結(jié)構(gòu)類預(yù)測[8-9],都取得了比單分類器更加理想的效果。但這些多分類器融合算法沒有考慮各個(gè)單分類器關(guān)于樣本的具體情況,即置信度,對(duì)樣本數(shù)據(jù)信息挖掘不充分,丟失了很多有用的信息,導(dǎo)致分類效果還是達(dá)不到令人滿意的程度。
在本課題組前期研究中,提出了k-字統(tǒng)計(jì)頻率和 k-片段位置分布兩種特征提取方法[7,10],但其特征信息融合的效果還有待提高。為了進(jìn)一步提高蛋白質(zhì)結(jié)構(gòu)類的預(yù)測精度,本研究將這兩種特征提取方法得到的氨基酸序列信息和物理化學(xué)性質(zhì)信息同蛋白質(zhì)二級(jí)結(jié)構(gòu)信息進(jìn)行融合,并嘗試在Adaboost.M1 算法[11]中引入 Multi-Agent(MA)多智能體融合的思想[12-13],提出了一種 Ma-Ada 多分類器融合算法,該算法可以挖掘單分類器度量層信息以及各個(gè)單分類器之間的交互融合信息,以進(jìn)一步改進(jìn)預(yù)測的準(zhǔn)確性。
1.1.1 k-字統(tǒng)計(jì)頻率特征
k-字統(tǒng)計(jì)頻率特征提取方法主要是統(tǒng)計(jì)長度為k的氨基酸片段頻率信息。其具體方法是,對(duì)于任一條長度為 L 的氨基酸序列 S=R1,R2,R3,…,RL,通過移動(dòng)長度為k的滑動(dòng)窗口來統(tǒng)計(jì)k-字氨基酸片段在給定氨基酸序列中出現(xiàn)的頻率。與傳統(tǒng)統(tǒng)計(jì)氨基酸序列頻率特征的方法相比,此方法可以通過變化的k-字獲得更為全面的氨基酸序列頻率信息。
1.1.2 k-片段位置分布特征
k-片段位置分布特征提取方法主要是統(tǒng)計(jì)氨基酸序列的位置分布信息。其具體方法是,給定任一條長度為 L 的氨基酸序列 S=R1,R2,R3,…,RL,將其看作是首尾相連,用O(y)對(duì)各氨基酸片段出現(xiàn)的位置分別進(jìn)行標(biāo)記。其中,y表示某一氨基酸片段。用變量ξ表示某一特定氨基酸片段y的位置間隔差,然后對(duì)變量ξ進(jìn)行統(tǒng)計(jì)可以得到概率P(y)(ξ),進(jìn)而可以得出其均值E(y)(ξ)以及方差D(y)(ξ)。最后由統(tǒng)計(jì)學(xué)概念計(jì)算出變異系數(shù)的倒數(shù)C(y)(ξ)變量的值來表征氨基酸序列位置分布信息。
式中,C(y)(ξ)較好地反映了氨基酸片段位置分布信息,其值越大表示變量分布較為密集,反之則表示變量分布較為分散。
1.1.3 多特征信息融合
早期研究中僅基于單一性質(zhì)的特征信息進(jìn)行蛋白質(zhì)結(jié)構(gòu)類預(yù)測研究,如果將不同特征提取方法得到的多種特征信息加以聯(lián)系和有機(jī)的融合,將為分類預(yù)測提供更多的信息量。在本課題組的前期研究中,當(dāng)取k=1時(shí),能降低特征信息維數(shù)和減少特征信息冗余,從而能夠獲得更高的分類率[10]。利用1-字統(tǒng)計(jì)頻率分布和1-片段位置分布兩種特征提取方法,在包含20種氨基酸的蛋白質(zhì)一級(jí)序列上分別提取20維氨基酸頻率分布信息和20維氨基酸序列位置分布信息,分別記為AAC和AAP。
氨基酸自身及之間的物理化學(xué)特性決定了蛋白質(zhì)的折疊構(gòu)象以及最終的結(jié)構(gòu)。在本研究中,根據(jù)氨基酸的物理化學(xué)性質(zhì),把20種氨基酸分為疏水類I、親水類E以及中性類A等3類。
通過式(2),可以把蛋白質(zhì)一級(jí)序列整合成只包含三種氨基酸組成的序列,然后利用1-字統(tǒng)計(jì)頻率分布和1-片段位置分布兩種特征提取方法,分別提取3維氨基酸頻率分布信息和3維氨基酸序列位置分布信息,分別記為IEAC和IEAP。考慮到蛋白質(zhì)結(jié)構(gòu)類與蛋白質(zhì)二級(jí)結(jié)構(gòu)序列的組分及其空間排列息息相關(guān),因此,采用Liu等設(shè)計(jì)的11維二級(jí)結(jié)構(gòu)特征信息[14],記為SSI。通過融合以上不同性質(zhì)的特征信息,組成17維和57維的特征信息集。其組成如表1所示。
表1 特征信息集的組成Tab.1 The composition of the feature information set
1.2.1 融合算法原理
在多分類器融合領(lǐng)域,Adaboost.M1是一種比較成功的多分類器集成學(xué)習(xí)算法,已經(jīng)廣泛應(yīng)用于人臉檢測和文本分類等領(lǐng)域[15-16]。它的核心思想是通過對(duì)訓(xùn)練樣本集重復(fù)采樣,訓(xùn)練出多個(gè)具有差異性的弱分類器集,然后將多個(gè)弱分類器集成得到一個(gè)強(qiáng)分類器,最后采用投票規(guī)則輸出最終的分類結(jié)果。不過,該算法只是簡單地把屬于每一類的弱分類器權(quán)重求和,再把樣本歸于和值最大的那一類。這樣處理的后果就是丟掉了很多弱分類器輸出的有用信息,比如弱分類器對(duì)樣本的輸出類別以及樣本屬于每個(gè)類別的后驗(yàn)概率。
成員分類器之間的差異性是多數(shù)融合算法要求的前提,它對(duì)融合系統(tǒng)的性能有著重要影響。Ma-Ada多分類器融合算法的主要思想是首先通過Adaboost.M1算法,對(duì)訓(xùn)練集樣本進(jìn)行訓(xùn)練獲得一系列具有差異性的單分類器,然后使用這一系列具有差異性的單分類器對(duì)訓(xùn)練集樣本進(jìn)行測試,得到訓(xùn)練樣本的分類信息。
借鑒Multi-Agent(MA)多智能體的融合思想,把統(tǒng)計(jì)得到的分類信息引入決策共現(xiàn)矩陣。其定義如下:
式中,k代表樣本類別數(shù),n代表單分類器個(gè)數(shù)。其元素 djk1,jk2,i,k1,k2定義為
式中,A1表示訓(xùn)練樣本集中屬于第i類的樣本被單分類器k1分為jk1類的個(gè)數(shù);A2表示訓(xùn)練樣本集中屬于第i類的樣本被單分類器k2分為jk2類的個(gè)數(shù);A3表示訓(xùn)練樣本中屬于第i類的樣本被單分類器k1分為jk1類,并且被單分類器k2分為jk2類的個(gè)數(shù)。
當(dāng)有待測樣本需要進(jìn)行分類時(shí),就可以通過已經(jīng)訓(xùn)練好的一系列單分類器,獲得待測樣本在每個(gè)單分類器上屬于每一類別的后驗(yàn)概率信息,即可信度矩陣。其定義如下:
式中,K代表樣本類別數(shù),n代表單分類器個(gè)數(shù)??尚哦染仃嘊的行值為1,元素bij表示單分類器i認(rèn)為樣本x屬于類別j的后驗(yàn)概率值。
最后把可信度矩陣作為初始狀態(tài)輸入溯源矩陣,通過引入決策共現(xiàn)矩陣以及權(quán)重矩陣,在溯源矩陣中使各個(gè)單分類器之間進(jìn)行信息交互,從而改變各個(gè)單分類器向不同類別溯源的概率,最終得到群體決策,也就是得到相應(yīng)的多分類器融合結(jié)果。與其它多分類器融合算法相比,Ma-Ada多分類器融合算法是一個(gè)集成系統(tǒng),它把各個(gè)弱分類器信息集成在一起,從而使信息量更加豐富。并且,它通過定義單分類器的個(gè)體行為和個(gè)體之間的交互協(xié)商,實(shí)現(xiàn)了多個(gè)個(gè)體所組成的群體行為,最大程度實(shí)現(xiàn)各自的目標(biāo)[17],有效提高了解決問題的能力。Ma-Ada算法工作流程圖如圖1所示。
圖1 Ma-Ada多分類器融合算法流程圖Fig.1 Flow chart of the Ma-Ada multi-classifier fusion algorithm
1.2.2 融合算法實(shí)現(xiàn)
假定進(jìn)行融合的訓(xùn)練集上包含N個(gè)樣本,樣本的類別數(shù)為K,Ma-Ada融合算法實(shí)現(xiàn)步驟如下:
步驟1 初始化訓(xùn)練集上樣本權(quán)重分布為D1(i)=1/N。
步驟2 用單分類器學(xué)習(xí)算法迭代運(yùn)算n次,每次迭代運(yùn)算后都按照分類結(jié)果更新訓(xùn)練集數(shù)據(jù)權(quán)重分布,對(duì)于分類失敗的個(gè)體賦予較大的權(quán)重,下一次迭代運(yùn)算時(shí)更加關(guān)注這些訓(xùn)練個(gè)體。單分類器學(xué)習(xí)算法通過反復(fù)迭代得到n個(gè)單分類器集,分類結(jié)果越好的單分類器,其對(duì)應(yīng)的權(quán)重也越大。
步驟3 經(jīng)過步驟2可以統(tǒng)計(jì)得到權(quán)重矩陣W以及各個(gè)單分類器對(duì)訓(xùn)練集樣本分類所產(chǎn)生的類標(biāo)號(hào)信息,然后根據(jù)式(5)計(jì)算得到?jīng)Q策共現(xiàn)矩陣D。
步驟4 對(duì)于一個(gè)待分類樣本x,經(jīng)過已經(jīng)訓(xùn)練完成的n個(gè)單分類器決策判斷,會(huì)得到屬于每個(gè)單分類器關(guān)于各個(gè)類別的后驗(yàn)概率值,即可信度矩陣B。通過引入權(quán)重矩陣W體現(xiàn)不同單分類器分類性能的差異性。用WB初始化溯源矩陣 S=[ski]n×K。
步驟5 定義溯源矩陣S中元素最大值為V,表示各個(gè)單分類器對(duì)待測樣本的決策置信度,L表示決策閾值。若V>L,表示各個(gè)單分類器基本上達(dá)成共識(shí),則進(jìn)行步驟7。否則調(diào)用(9)式調(diào)整溯源矩陣S中各個(gè)元素的值。步驟6 將更新的溯源矩陣S每一行歸一化,保證每行和為1,轉(zhuǎn)步驟5,重新計(jì)算V值。
步驟7 各個(gè)單分類器最終達(dá)成一致意見,即可輸出最終的分類決策結(jié)果。
SCOP(structure classification of protein)數(shù)據(jù)庫是目前國際上包含蛋白質(zhì)比較全面和分類比較客觀的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫之一,也是蛋白質(zhì)結(jié)構(gòu)類預(yù)測研究中基本的數(shù)據(jù)來源。為了保證在比較衡量時(shí)的科學(xué)性及公平公正性,本研究采用的數(shù)據(jù)集都是基于研究者們?cè)谝延谐晒袠?gòu)建和廣泛采用的4個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集。由Zhou構(gòu)建的Z277和Z498兩個(gè)數(shù)據(jù)集分別包括277條和498條氨基酸序列,1189和D640數(shù)據(jù)集分別包括1092條和640條氨基酸序列。數(shù)據(jù)集中詳細(xì)的數(shù)據(jù)構(gòu)成參見表2。
表2 4個(gè)數(shù)據(jù)集的構(gòu)成Tab.2 The composition of four datasets
支持向量機(jī)(SVM)是近年來發(fā)展起來建立在統(tǒng)計(jì)學(xué)習(xí)VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的學(xué)習(xí)算法[21],具有比其他分類算法收斂速度快、準(zhǔn)確性高等優(yōu)點(diǎn),在生物信息學(xué)中已經(jīng)得到了廣泛的應(yīng)用[22-23]。所以,選用以徑向基函數(shù)(RBF)為核函數(shù)的SVM算法作為Ma-Ada單分類器學(xué)習(xí)算法。由于蛋白質(zhì)結(jié)構(gòu)類預(yù)測是四分類問題,而傳統(tǒng)的SVM算法只適用于兩分類問題,在本研究中采用一對(duì)一組合策略(one-against-one)來解決四分類問題。
經(jīng)過前期實(shí)驗(yàn)表明,把Ma-Ada融合算法中參數(shù)λ和決策閾值L值分別設(shè)為1/3和0.95,可以取得較好的分類效果。
2.1.1 方法性能評(píng)價(jià)
在蛋白質(zhì)結(jié)構(gòu)類預(yù)測研究中,Z277、Z498、1189和D640等4個(gè)數(shù)據(jù)集被多種方法用來驗(yàn)證效果,具有很高的可信度。為了保證結(jié)果的可比性,本文和其他研究方法一樣,采用蛋白質(zhì)分類研究中被認(rèn)為最合理、應(yīng)用最為廣泛的Jackknife交叉驗(yàn)證策略。其具體構(gòu)造方法是假設(shè)樣本數(shù)據(jù)集有N個(gè)樣本,依次將每個(gè)樣本單獨(dú)作為測試集,其余的N-1個(gè)樣本作為訓(xùn)練集,所以Jackknife交叉驗(yàn)證策略會(huì)得到N個(gè)模型,用這N個(gè)模型最終測試集的分類率的平均數(shù)作為分類器的性能指標(biāo)。選用以上四個(gè)數(shù)據(jù)集的57維特征信息集進(jìn)行本次試驗(yàn),分類結(jié)果見表3。
表3 不同方法的分類率—Jackknife交叉驗(yàn)證Tab.3 Classification accuracies for different methods based on Jackknife cross-validation
從表3中可以看出,在使用相同的數(shù)據(jù)集和Jackknife交叉驗(yàn)證策略的前提下,本方法在Z277、Z498、1189和D640等4個(gè)數(shù)據(jù)集上的分類率分別達(dá)到了91.3%、96.8%、85.3%和87.2%,比表中其他方法的最好值分別高出3.9%、1.4%、0.1%和0.2%,可以說明本方法對(duì)提高這4個(gè)數(shù)據(jù)集的分類率是富有成效的。
2.1.2 分類融合算法評(píng)價(jià)
本次試驗(yàn)中,在各種分類算法都使用相同的特征信息集的情況下,探討Ma-Ada多分類器融合算法與支持向量機(jī)(SVM)、最近鄰(KNN)、決策樹(DT)、樸素貝葉斯(NB)、人工神經(jīng)網(wǎng)絡(luò)(BP)五種分類算法的優(yōu)缺點(diǎn)。由于Jackknife交叉驗(yàn)證策略需要建立的分類模型數(shù)量和總樣本數(shù)量相等,當(dāng)總樣本數(shù)量相當(dāng)多時(shí),會(huì)導(dǎo)致計(jì)算成本偏高,故本次試驗(yàn)采用十折交叉驗(yàn)證策略。其具體構(gòu)造方法是將數(shù)據(jù)集均分為10份,然后依次將每份樣本數(shù)據(jù)分別做一次測試集,其余的9份樣本數(shù)據(jù)作為訓(xùn)練集,這樣會(huì)得到10個(gè)模型,用這10個(gè)模型最終測試集的分類率的平均數(shù)作為十折交叉驗(yàn)證下分類器的性能指標(biāo)。Z277、Z498、1189和D640等4個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果見表4。
表4 不同方法的分類率(%)—十折交叉驗(yàn)證Tab.4 Classification accuracies(%)for different methods based on 10-fold cross-validation
在表4的Z277、Z498、1189和D640這4個(gè)數(shù)據(jù)集中,通過縱向比較可以看出,,在17維特征信息集的情況下,Ma-Ada算法的預(yù)測結(jié)果分別為90.6%、95.8%、84.8%和88.3%,優(yōu)于表中其他分類算法最好結(jié)果的2.2%、0.8%、1.2%和1.4%。在57維特征信息集的情況下,Ma-Ada算法的預(yù)測結(jié)果分別為92.1%、97.0%、83.9%和87.8%,比其他分類算法的最好值分別高出1.8%、1.0%、1.8%和0.9%。
2.1.3 分類穩(wěn)定性評(píng)價(jià)
穩(wěn)定性是衡量分類器性能的一個(gè)重要指標(biāo)。本次試驗(yàn)中,使用17維和57維這兩個(gè)特征信息集,在 Z277、Z498、1189、D640 等 4 個(gè)樣本數(shù)據(jù)集上采用十折交叉驗(yàn)證策略,對(duì)100次不同的數(shù)據(jù)組合的分類精度計(jì)算標(biāo)準(zhǔn)差來表示分類結(jié)果的穩(wěn)定性,如果其值越大,代表這100次結(jié)果的數(shù)據(jù)波動(dòng)越大,說明分類算法的穩(wěn)定性越差。結(jié)果如表5所示。
表5 不同方法的穩(wěn)定性(%)Tab.5 The stability of different methods
從表5可以看出,Ma-Ada多分類器融合算法在Z277和Z498這兩個(gè)數(shù)據(jù)集上穩(wěn)定性最好,在17維特征信息集上標(biāo)準(zhǔn)差分別為0.49%和0.33%,在57維特征信息集上標(biāo)準(zhǔn)差分別為0.54%和0.22%。
表3中分類率提高的原因可以從以下兩個(gè)方面來進(jìn)行解釋。其一,本方法組合了不同類型的特征信息,并將其融合為57維特征信息集。提取的這些特征信息較有代表性,覆蓋范圍廣,既考慮了蛋白質(zhì)序列中氨基酸頻率及位置特征,又考慮了氨基酸疏水性屬性這一物理化學(xué)特征,還考慮了蛋白質(zhì)二級(jí)結(jié)構(gòu)序列特征信息,從而有效地反映了蛋白質(zhì)序列短、中、長程之間的關(guān)系。其二,本方法使用Ma-Ada多分類器融合算法,從而能比其它的分類算法表現(xiàn)出更好的性能。而且,Ma-Ada多分類器融合算法在分類決策時(shí),引入了多智能體思想。通過決策共現(xiàn)矩陣,利用單分類器之間的決策相關(guān)信息,在各個(gè)單分類器之間進(jìn)行信息交流,指導(dǎo)各個(gè)單分類器向不同類別溯源,通過各個(gè)單分類器之間的信息交互改變溯源概率,最終得到群體決策。
通過表4中的數(shù)據(jù)可以看出,Ma-Ada多分類器融合算法的性能超過了表4中多數(shù)的分類算法,因此有望成為蛋白質(zhì)結(jié)構(gòu)類的預(yù)測工具。從蛋白質(zhì)結(jié)構(gòu)類每類的預(yù)測結(jié)果上看,基本上每種分類算法在類α和類β這兩類的分類效果最好,在類α+β的分類率最低,這說明在這4種結(jié)構(gòu)類別中,類α+β比其他結(jié)構(gòu)類更難預(yù)測。這是由于類α+β在蛋白質(zhì)結(jié)構(gòu)類定義中,具有比其他三種結(jié)構(gòu)類更復(fù)雜的形式,是α-螺旋和β-折疊相隔分布的形式,這也說明蛋白質(zhì)序列越復(fù)雜,預(yù)測難度越大,從而造成預(yù)測的分類率偏低。
通過橫向比較,在Z277和Z498兩個(gè)數(shù)據(jù)集上,同一種分類算法在57維特征信息集的分類效果要優(yōu)于17維特征信息集。但在1189和D640兩個(gè)數(shù)據(jù)集上,結(jié)果恰好相反。主要原因是當(dāng)特征維數(shù)增加到某一臨界點(diǎn)后,繼續(xù)增加的特征維數(shù)不僅會(huì)造成維數(shù)災(zāi)難,而且過高的特征維數(shù)會(huì)使噪聲對(duì)分類器的負(fù)面影響更加明顯,影響分類性能。
在表5中可以看出,與其它方法相比,本研究提出的方法整體上呈現(xiàn)較好的穩(wěn)定性。這主要是因?yàn)镸a-Ada多分類器融合算法采用了多分類器之間的信息融合交互機(jī)制,在決策的過程中將各個(gè)分類器的相關(guān)性引入進(jìn)來,擴(kuò)大了信息源,從而能夠獲得穩(wěn)定性較好的分類結(jié)果。在其他五個(gè)分類器中,BP分類器穩(wěn)定性最差,這主要是由于每次初始化BP網(wǎng)絡(luò)時(shí)都是隨機(jī)的,而且訓(xùn)練終止時(shí)的誤差也不完全相同,導(dǎo)致網(wǎng)絡(luò)訓(xùn)練完成后的權(quán)植和閾值也不相同,從而造成分類結(jié)果的穩(wěn)定性較差。
探討理論計(jì)算方法預(yù)測蛋白質(zhì)結(jié)構(gòu)類是后基因組時(shí)代生物信息學(xué)的核心課題之一。本研究將k-字統(tǒng)計(jì)頻率和k-片段位置分布兩種特征提取方法得到的氨基酸序列信息和物理化學(xué)信息,與蛋白質(zhì)二級(jí)結(jié)構(gòu)信息進(jìn)行融合,得到有效的融合特征信息集,并提出了Ma-Ada多分類器融合算法,用于蛋白質(zhì)結(jié)構(gòu)類分類預(yù)測研究。在 Z277、Z498、1189和D640等4個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提出的57維融合特征信息集和Ma-Ada多分類器融合算法的分類率優(yōu)于大部分已發(fā)表的實(shí)驗(yàn)結(jié)果。而在相同的融合特征信息集上,Ma-Ada多分類器融合算法更能有效地提高蛋白質(zhì)結(jié)構(gòu)類的預(yù)測精度。因此,本方法是蛋白質(zhì)結(jié)構(gòu)類預(yù)測研究的一次有意義嘗試,對(duì)提高蛋白質(zhì)結(jié)構(gòu)類的預(yù)測精度具有一定的研究參考價(jià)值。
[1]Levitt M,Chothia C.Structural patterns in globular proteins[J].Nature,1976,261(5561):552-558.
[2]Nakashima H,Nishikawa K.Discrimination of intracellular and extracellular proteins using amino acid composition and residuepair frequencies[J].Journal of Molecular Biology,1994,238(1):54-61.
[3]Bu Weishu,F(xiàn)eng Zhiping,Zhang Ziding,et al.Prediction of protein(domain)structural classes based on amino-acid index[J].European Journal of Biochemistry,1999,266(3):1043 -1049.
[4]Chou Kuochen.Prediction of protein cellular attributes using pseudo-amino acid composition [J]. Proteins:Structure,F(xiàn)unction,and Bioinformatics,2001,43(3):246 -255.
[5]Ding CHQ,Dubchak I.Multi-class protein fold recognition using support vector machines and neural networks [J].Bioinformatics,2001,17(4):349-358.
[6]Liu Taigang,Zheng Xiaoqi,Wang Jun.Prediction of protein structural class using a complexity-based distance measure[J].Amino Acids,2010,38(3):721-728.
[7]Wu Li,Dai Qi,Han Bin,et al.Prediction of protein structural class using a combined representation ofprotein-squence information and support vector machine[C]//Bioinformatics and Biomedicine Workshops(BIBMW).HongKong:IEEE,2010:101-106.
[8]Cai YD,F(xiàn)eng KY,Lu WC,et al.Using logitboost classifier to predict protein structural classes[J].Journal of Theoretical Biology[J].2006,238(1):172 -176.
[9]Feng KY,Cai YD,Chou KC.Boosting classifier for predicting protein domain structural class[J].Biochemical and Biophysical Research Communications,2005,334(1):213-217.
[10]Dai Qi,Wu Li,Li Lihua.Improving protein structural class prediction using novelcombined sequenceinformation and predicted secondary structural features[J]. Journal of Computational Chemistry,2011,32(16):3393 -3398.
[11]Freund Y,Schapire RE.Experiment with a new boosting algorithm [C]//Machine Learning-InternationalWorkshop.Morgan:Kaufmann Publishers,1996:148-156.
[12]彭芳青,厲力華,徐偉棟,等.基于Multi-Agent的乳腺鉬靶圖像腫塊分類方法[J].傳感技術(shù)學(xué)報(bào),2010,23(2):153-157.
[13]趙浣萍,徐偉棟,厲力華,等.一種基于改進(jìn)型Multi-Agent多分類器融合的乳腺鉬靶腫塊分類算法[J].儀器儀表學(xué)報(bào),2011,32(9):2034-2040.
[14]Liu Tian,Jia Cangzhi.A high-accuracy protein structural class prediction algorithm using predicted secondary structural information[J].Journal of Theoretical Biology,2010,267(3):272-275.
[15]武勃,黃暢,艾海舟,等.基于連續(xù)Adaboost算法的多視角人臉檢測[J].計(jì)算機(jī)研究與發(fā)展,2005,42(9):1612-1621.
[16]江林升,朱學(xué)芳.一種基于新特征的車牌檢測方法[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(20):188-190.
[17]寇忠寶,張長水.基于Multi-Agent的分類器融合[J].計(jì)算機(jī)學(xué)報(bào),2003,26(2):174-179.
[18]Kurgan LA,Homaeian L.Prediction of structural classes for protein sequences and domains—Impact of prediction algorithms,sequence representation and homology,and test procedures on accuracy[J].Pattern Recognition,2006,39(12):2323 -2343.
[19]Chen Ke,Kurgan LA,Ruan Jishou.Prediction of protein structuralclass using novel evolutionary collocation-based sequence representation[J].Journal of computional chemistry,2008,29(10):1596-1604.
[20]Zhou Guoping.An intriguing controversy over protein structural class prediction[J].Journal of Protein Chemistry,1998,17(8):729-738.
[21]Vapnik VN.An overview of statistical learning theory[J].IEEE Transactions on Neural Networks,1999,10(5):988-999.
[12]Sun XD,Huang RB.Prediction of protein structural classes using support vector machines[J].Amino Acids,2006,30(4):469-475.
[23]Cai YD,Liu XJ,Xu X,et al.Support vector machines for predicting protein structural class[J].BMC Bioinformatics,2001,2(1):1-5.
[24]Cao Youfang,Liu Shi,Zhang Lida,et al.Prediction of protein structural class with rough sets[J].BMC bioinformatics.BMC Bioinformatics,2006,7(1):7-20.
[25]Yang Jianyi,Peng Zhenling,Chen Xin.Prediction of protein structural classes for low-h(huán)omology sequences based on predicted secondary structure[J].BMC Bioinformatics,2010,11(Suppl 1):S9.