• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于支持向量機(jī)集成的蛋白質(zhì)與維生素綁定位點(diǎn)預(yù)測(cè)

      2015-04-12 00:00:00朱非易
      現(xiàn)代電子技術(shù) 2015年9期

      摘 要: 在蛋白質(zhì)與維生素綁定位點(diǎn)預(yù)測(cè)問(wèn)題中,小類(lèi)樣本和大類(lèi)樣本之間存在顯著的不平衡性,傳統(tǒng)的機(jī)器學(xué)習(xí)方法將不再適用。針對(duì)此問(wèn)題,在多重隨機(jī)下采樣的基礎(chǔ)上結(jié)合支持向量機(jī)(SVM)集成來(lái)預(yù)測(cè)蛋白質(zhì)與維生素的綁定位點(diǎn),采用了一種改進(jìn)的AdaBoost集成方法,稱為MAdaBoost集成。通過(guò)實(shí)驗(yàn)比較了不同的集成策略,其中MAdaBoost集成效果最優(yōu)。實(shí)驗(yàn)結(jié)果表明,采用隨機(jī)下采樣結(jié)合SVM集成將有效提高蛋白質(zhì)維生素綁定位點(diǎn)預(yù)測(cè)的精度。

      關(guān)鍵詞: 蛋白質(zhì)?維生素相互作用; 綁定位點(diǎn)預(yù)測(cè); 多重隨機(jī)下采樣; SVM集成; Adaboost算法

      中圖分類(lèi)號(hào): TN911?34; TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2015)09?0090?06

      Abstract: Since the obvious imbalance exists between small samples and large samples in protein?vitamin binding site prediction problem, the traditional machine learning approach is not suitable for this problem. To tackle this problem, protein?vitamin binding site is predict by combining multiple random sampling with SVM ensemble, an improved AdaBoost algorithm which is called MAdaBoost ensemble is adopted. Different ensemble strategies are compared by experiments, the MAdaBoost ensemble strategy is optimal. The experimental results show that the accuracy of protein?vitamin binding site prediction is improved by applying random sampling with SVM ensemble method.

      Keywords: protein?vitamin interaction; binding site prediction; multiple random sampling; SVM ensemble; AdaBoost algorithm

      0 引 言

      酶是具有生物催化功能的生物大分子,主要由蛋白質(zhì)組成,對(duì)于生物化學(xué)變化起催化作用。輔酶是一類(lèi)可以將化學(xué)基團(tuán)從一個(gè)酶轉(zhuǎn)移到另一個(gè)酶上的有機(jī)小分子,與酶松散地結(jié)合,許多酶的催化活動(dòng)中都需要輔酶的參與。維生素有很多不同的生化功能,如維生素D有抗傳染和抗炎的作用,而維生素E和一些維生素C有抗氧化的作用[1],但是它們最主要的功能是作為酶的輔助因子參與到酶的基底作用中。有些維生素有類(lèi)似荷爾蒙的功能,調(diào)節(jié)礦物質(zhì)的代謝(如維生素D)或者調(diào)節(jié)細(xì)胞和組織的生長(zhǎng)(如某些維生素A)。

      在健康的人體內(nèi),維生素通過(guò)與酶分子在合適的綁定位點(diǎn)進(jìn)行綁定,參與到人體的生化反應(yīng)中。但對(duì)于病人而言,維生素與酶的位點(diǎn)綁定活動(dòng)不能正常的進(jìn)行。這些酶便成了許多疾病的藥物靶點(diǎn),因此研究蛋白質(zhì)與維生素的綁定位點(diǎn)預(yù)測(cè)問(wèn)題對(duì)于生物制藥等相關(guān)行業(yè)具有非常重要的意義。但是傳統(tǒng)的實(shí)驗(yàn)室測(cè)定方式存在實(shí)驗(yàn)工作量大、周期長(zhǎng)、代價(jià)高等缺點(diǎn),可見(jiàn)傳統(tǒng)的實(shí)驗(yàn)室測(cè)定的方式已不能滿足當(dāng)下行業(yè)發(fā)展的迫切需求,利用智能計(jì)算方法來(lái)預(yù)測(cè)維生素作用位點(diǎn)能夠加快預(yù)測(cè)的速度,提高實(shí)驗(yàn)效率,因此當(dāng)前這類(lèi)研究具有相當(dāng)重要的意義。

      本文主要針對(duì)蛋白質(zhì)維生素綁定位點(diǎn)預(yù)測(cè)展開(kāi)研究?!敖壎ā币辉~的意思就是蛋白質(zhì)序列上的某個(gè)氨基酸殘基與配體發(fā)生生物化學(xué)作用,該氨基酸殘基被稱作“綁定位點(diǎn)”,相反,不發(fā)生作用的氨基酸殘基稱為“非綁定位點(diǎn)”。在蛋白質(zhì)的序列中只有少數(shù)的殘基能夠與維生素發(fā)生綁定作用,而蛋白質(zhì)序列中不與維生素綁定的殘基數(shù)量比綁定殘基的數(shù)量多得多,因此可以將蛋白質(zhì)與維生素綁定位點(diǎn)預(yù)測(cè)問(wèn)題歸結(jié)為典型的不平衡學(xué)習(xí)問(wèn)題[2]。解決不平衡問(wèn)題的方法有很多,Mohamed Bekkar[3]將解決方法歸納為以下幾類(lèi):

      (1) 通過(guò)采樣方法對(duì)不平衡數(shù)據(jù)進(jìn)行預(yù)處理;

      (2) 通過(guò)分類(lèi)器集成的方法提高預(yù)測(cè)的效果;

      (3) 代價(jià)敏感學(xué)習(xí)方法;

      (4) 特征選擇方法。

      本研究中,將綁定位點(diǎn)稱為小類(lèi)樣本,也是令人感興趣的類(lèi)別,不妨稱為正類(lèi)樣本,而將非綁定位點(diǎn)稱為大類(lèi)樣本(負(fù)類(lèi)樣本)。采用隨機(jī)下采樣的方法對(duì)大類(lèi)樣本進(jìn)行采樣,但是隨機(jī)下采樣可能會(huì)造成大類(lèi)樣本中有用信息的丟失。相關(guān)研究表明分類(lèi)器集成能夠有效地降低隨機(jī)下采樣帶來(lái)的負(fù)面影響[4]。在本研究中,使用多重隨機(jī)下采樣并結(jié)合分類(lèi)器集成的方法以提高蛋白質(zhì)?維生素綁定位點(diǎn)的預(yù)測(cè)精度。首先,在大類(lèi)樣本中進(jìn)行多次隨機(jī)下采樣得到多個(gè)數(shù)量與小類(lèi)樣本數(shù)量相同的大類(lèi)樣本子集;然后,將這些大類(lèi)樣本子集和小類(lèi)樣本集結(jié)合成訓(xùn)練集,在這些訓(xùn)練集上分別訓(xùn)練出基分類(lèi)器,最后將基分類(lèi)器進(jìn)行集成。本研究中采用了最大集成(Maximum Ensemble)、最小集成(Minimum Ensemble)、平均集成(Mean Ensemble)等,此外根據(jù)所研究問(wèn)題本身的特點(diǎn),采用了一種改進(jìn)的AdaBoost集成(稱之為MAdaBoost Ensemble)方法[5]。根據(jù)分類(lèi)器的集成結(jié)果,得到蛋白質(zhì)序列中每個(gè)氨基酸(殘基)屬于綁定位點(diǎn)的可能性,并采用基于閾值的方法對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行處理,得出最終的預(yù)測(cè)結(jié)果及其各項(xiàng)評(píng)價(jià)指標(biāo)。在國(guó)際標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果顯示,采用隨機(jī)下采樣結(jié)合支持向量機(jī)集成的方法能顯著提高預(yù)測(cè)精度,其中以改進(jìn)的AdaBoost集成效果最優(yōu)。

      1 數(shù)據(jù)和研究方法

      1.1 數(shù)據(jù)集來(lái)源

      本文采用Bharat Panwar等提供的蛋白質(zhì)序列數(shù)據(jù)集[5],這里稱之為VIRs,該數(shù)據(jù)集中包含187條蛋白質(zhì)維生素綁定位點(diǎn)相關(guān)的蛋白質(zhì)序列,其中包含3 016個(gè)蛋白質(zhì)維生素作用殘基。在VIRs中,任意兩條蛋白質(zhì)序列的相似度低于25%,同時(shí),使用了一個(gè)包含46條蛋白質(zhì)序列且任兩條序列相似性低于25%的獨(dú)立測(cè)試集(稱之為V?IND?46)來(lái)驗(yàn)證本文所述方法的泛化能力,并且該獨(dú)立測(cè)試集與訓(xùn)練集VIRs中的任意一條序列之間的相似性也低于25%。

      1.2 數(shù)據(jù)特征

      1.2.1 位置特異性得分矩陣

      一個(gè)具有N個(gè)殘基的蛋白質(zhì)序列的進(jìn)化信息可以用一個(gè)大小為N×20的位置特異性得分矩陣(Position Specific Scoring Matrix,PSSM)來(lái)表示。其中矩陣的每行對(duì)應(yīng)于該蛋白質(zhì)序列的某個(gè)氨基酸殘基,每列對(duì)應(yīng)于20種常見(jiàn)氨基酸的某一種,則該矩陣的第i行、第j列的元素表示蛋白質(zhì)序列中的第i個(gè)氨基酸進(jìn)化為第j種常見(jiàn)氨基酸的原始得分,分值越大表示進(jìn)化的可能性越大。在Swiss?Port數(shù)據(jù)庫(kù)上通過(guò)執(zhí)行PSI?BLAST程序搜索可行的非同源數(shù)據(jù)庫(kù)[7]。經(jīng)過(guò)3次迭代,PSI?BLAST產(chǎn)生PSSM數(shù)據(jù)文件,該P(yáng)SSM數(shù)據(jù)文件包含所有氨基酸在每個(gè)位置發(fā)生變異的可能性,并且為所有氨基酸提供了進(jìn)化信息。最后,使用邏輯斯蒂函數(shù)對(duì)PSSM數(shù)據(jù)文件進(jìn)行標(biāo)準(zhǔn)化,邏輯斯蒂函數(shù)定義如下:

      1.2.2 滑動(dòng)窗口模式

      本文采用滑動(dòng)窗口模式[8?9],經(jīng)過(guò)實(shí)驗(yàn)總結(jié)得知當(dāng)窗口大小[W=17]時(shí)能得到最佳的預(yù)測(cè)結(jié)果。如果窗口中間的殘基是作用殘基,那么將得到的這個(gè)滑動(dòng)窗口模式定義為作用的(小類(lèi)樣本),否則定義為非作用的(大類(lèi)樣本)。本文對(duì)蛋白質(zhì)序列中首尾[W2]個(gè)殘基采取去除的方法來(lái)處理,因此這里去除每條蛋白質(zhì)序列中首尾8個(gè)殘基。

      1.3 多重隨機(jī)下采樣和SVM集成

      隨機(jī)下采樣能夠有效地平衡不同類(lèi)中樣本數(shù)據(jù)集,提供一個(gè)較小的訓(xùn)練數(shù)據(jù)集,同時(shí)能夠加快訓(xùn)練和預(yù)測(cè)的速度。然而,隨機(jī)下采樣的過(guò)程中可能會(huì)丟失大類(lèi)樣本中的一些有效信息,這會(huì)使預(yù)測(cè)精度下降。為了解決該問(wèn)題,一個(gè)有效的方法就是綜合使用隨機(jī)下采樣和分類(lèi)器集成技術(shù)。具體的做法如下:首先,在大類(lèi)樣本中進(jìn)行K(本研究中K=5)次無(wú)重復(fù)地抽樣,每次抽取的樣本數(shù)量和小類(lèi)樣本數(shù)量相同,從而得到K個(gè)大類(lèi)樣本子集。將得到的K個(gè)大類(lèi)樣本子集和小類(lèi)樣本集分別合并成為K個(gè)新的平衡的訓(xùn)練集。接下來(lái)使用得到的合成數(shù)據(jù)集作為輸入進(jìn)行訓(xùn)練,可以得到K個(gè)機(jī)器學(xué)習(xí)模型;在接下來(lái)的預(yù)測(cè)階段,使用上面得到的K個(gè)模型預(yù)測(cè)出蛋白質(zhì)序列中的每個(gè)殘基屬于綁定殘基的概率值,作為每個(gè)基分類(lèi)器的輸出。最后,對(duì)K個(gè)基分類(lèi)器的輸出使用合適的分類(lèi)器集成策略。這樣做不僅能夠利用隨機(jī)下采樣的優(yōu)點(diǎn)構(gòu)造出平衡的數(shù)據(jù)集,而且可以降低隨機(jī)下采樣中有效信息丟失造成的不利影響。本研究中,采用支持向量機(jī)(Support Vector Machine,SVM)作為分類(lèi)器集成中的基分類(lèi)器。

      支持向量機(jī)由Vapnik提出[10],在生物信息學(xué)領(lǐng)域得到了廣泛的應(yīng)用并取得了很大成功。不同于傳統(tǒng)的基于最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)的模式識(shí)別方法,支持向量機(jī)是基于最小化結(jié)構(gòu)風(fēng)險(xiǎn)的。本研究中采用LIBSVM[11],其中核函數(shù)采用徑向基(RBF)核函數(shù),在十重交叉驗(yàn)證的基礎(chǔ)上使用LIBSVM網(wǎng)格搜索得到最優(yōu)正則化參數(shù)[γ]和核寬參數(shù)[σ。]

      分類(lèi)器集成的方法在生物信息學(xué)研究中有著廣泛地應(yīng)用,例如蛋白質(zhì)折疊預(yù)測(cè)、蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)、蛋白質(zhì)結(jié)構(gòu)類(lèi)預(yù)測(cè)等。這里將在蛋白質(zhì)與維生素綁定位點(diǎn)預(yù)測(cè)問(wèn)題中探究分類(lèi)器集成方法的應(yīng)用及效果。分類(lèi)器集成方法的基本思路類(lèi)似于人類(lèi)作決策的過(guò)程,在決策過(guò)程中一般不能只采納一個(gè)人的意見(jiàn),而是綜合大家的意見(jiàn),最后得出一個(gè)全方位多視角的最優(yōu)決策方案。分類(lèi)器集成方法是將多個(gè)分類(lèi)器組合在一起得到一個(gè)新的分類(lèi)器,這個(gè)新的分類(lèi)器的性能比任何組成它的單個(gè)分類(lèi)器的性能都好。分類(lèi)器集成的主要目的是提高基分類(lèi)器的泛化能力,因?yàn)槊總€(gè)基分類(lèi)器都可能會(huì)發(fā)生錯(cuò)分現(xiàn)象,但是由于每個(gè)基分類(lèi)器之間的差異性(例如:在不同的訓(xùn)練集上訓(xùn)練產(chǎn)生基分類(lèi)器,或者采用不同的機(jī)器學(xué)習(xí)方法訓(xùn)練基分類(lèi)器),錯(cuò)分樣本不會(huì)完全相同,這樣能夠降低過(guò)學(xué)習(xí)的影響,從而提高泛化能力。

      研究表明不同的集成策略會(huì)得到不同的集成結(jié)果,每種集成策略都有各自的優(yōu)點(diǎn)和缺點(diǎn),沒(méi)有一種策略是對(duì)所有應(yīng)用都是最優(yōu)的[12]。對(duì)于特定的應(yīng)用,比如本文中的蛋白質(zhì)與維生素綁定位點(diǎn)預(yù)測(cè),可以選擇合適的集成策略但是理論上最優(yōu)的集成策略仍然很難得到?;诖?,選擇四種常用的集成策略[12?13] ,具體包括:最大集成(Maximum Ensemble)、最小集成(Minimum Ensemble)和平均集成(Mean Ensemble)以及改進(jìn)的AdaBoost集成。為了適應(yīng)蛋白質(zhì)維生素綁定位點(diǎn)的預(yù)測(cè)問(wèn)題的特殊性,這里采用改進(jìn)的AdaBoost集成方法[5]的主要意圖是要避免蛋白質(zhì)同源性對(duì)蛋白質(zhì)與維生素綁定位點(diǎn)預(yù)測(cè)造成的過(guò)適應(yīng)的影響。下面分別對(duì)這些基礎(chǔ)策略進(jìn)行描述。

      通過(guò)上述三種集成方法之一得到一個(gè)集成結(jié)果向量[?x=?1,?2,…,?MT,]使用合適的判別閾值,即可將預(yù)測(cè)樣本[x]判別為[M]類(lèi)中的某一類(lèi),從而完成分類(lèi)。

      (1) 改進(jìn)的AdaBoost集成

      AdaBoost(Adaptive Boosting)算法由Freund和Schapire提出[14?15],是為了證明在PAC學(xué)習(xí)理論下一個(gè)弱學(xué)習(xí)算法能夠被“提升”為一個(gè)強(qiáng)學(xué)習(xí)算法,之后AdaBoost算法在機(jī)器學(xué)習(xí)領(lǐng)域受到了極大的關(guān)注,相關(guān)的實(shí)驗(yàn)表明AdaBoost可以顯著提高機(jī)器學(xué)習(xí)算法的性能[16?17]。

      傳統(tǒng)的AdaBoost算法中采用基于樣本分布的抽樣策略,而MAdaBoost算法中用隨機(jī)下采樣來(lái)構(gòu)建訓(xùn)練集;另一個(gè)不同點(diǎn)是在傳統(tǒng)的AdaBoost算法中,整個(gè)訓(xùn)練集的樣本都被用來(lái)作為每個(gè)分類(lèi)器的分類(lèi)錯(cuò)誤率評(píng)估樣本,而在MAdaBoost算法中用獨(dú)立測(cè)試集來(lái)進(jìn)行評(píng)估,這樣做是要保證訓(xùn)練集和測(cè)試集的樣本不來(lái)自同一條蛋白質(zhì)序列,減少同源性問(wèn)題對(duì)實(shí)驗(yàn)效果的影響。

      MAdaBoost算法的詳細(xì)過(guò)程如圖1所示[5]。在k-重交叉驗(yàn)證的每重交叉驗(yàn)證的過(guò)程中應(yīng)用MAdaBoost,在k個(gè)子集中,取其中一個(gè)子集用來(lái)做測(cè)試集,另一個(gè)子集用來(lái)構(gòu)建評(píng)估集剩下的k-2個(gè)子集用來(lái)構(gòu)建訓(xùn)練集。

      2 實(shí)驗(yàn)分析

      2.1 評(píng)價(jià)參數(shù)

      式中:TP表示正確預(yù)測(cè)小類(lèi)樣本數(shù);TN表示正確預(yù)測(cè)大類(lèi)樣本數(shù);相應(yīng)地,F(xiàn)P表示錯(cuò)誤預(yù)測(cè)小類(lèi)樣本數(shù);FN則表示錯(cuò)誤預(yù)測(cè)大類(lèi)樣本數(shù)。AUC是獨(dú)立于閾值的,它的值和分類(lèi)器的預(yù)測(cè)效果成正比。

      本研究中采用軟分類(lèi)的方法,各個(gè)基分類(lèi)器輸出樣本被分為不同類(lèi)別的可能性矩陣,逐步調(diào)整分類(lèi)閾值會(huì)產(chǎn)生一系列的混淆矩陣[2]。根據(jù)每一個(gè)混淆矩陣可以計(jì)算出相應(yīng)的Spe, Sen, Acc和MCC,可見(jiàn)這四個(gè)評(píng)價(jià)指標(biāo)是閾值相關(guān)的,相關(guān)研究[5]根據(jù)不平衡學(xué)習(xí)的特殊性提出了合理報(bào)道這些評(píng)價(jià)指標(biāo)的方法:

      (1) 平衡評(píng)價(jià):當(dāng)錯(cuò)誤預(yù)測(cè)小類(lèi)樣本率(False Positive Rate,F(xiàn)PR)等于錯(cuò)誤預(yù)測(cè)大類(lèi)樣本率(False Negative Rate,F(xiàn)NR)時(shí),得到相關(guān)評(píng)價(jià)參數(shù),使用這些參數(shù)評(píng)價(jià)預(yù)測(cè)效果;

      (2) 不平衡評(píng)價(jià):使用FPR不等于FNR時(shí)得到的評(píng)價(jià)參數(shù)對(duì)預(yù)測(cè)效果進(jìn)行評(píng)價(jià)。

      本文中,在對(duì)交叉驗(yàn)證和獨(dú)立測(cè)試集的結(jié)果分別采用了平衡的評(píng)價(jià)方式和不平衡的評(píng)價(jià)方式。

      2.2 實(shí)驗(yàn)結(jié)果分析

      為避免訓(xùn)練殘基和測(cè)試殘基來(lái)自同一條蛋白質(zhì),采用蛋白質(zhì)水平上的交叉驗(yàn)證方法[5],在數(shù)據(jù)集VIRs上進(jìn)行了5重交叉驗(yàn)證,在每次交叉驗(yàn)證的過(guò)程中分別對(duì)數(shù)據(jù)進(jìn)行非集成(No Ensemble)、最大集成、最小集成、平均集成以及改進(jìn)的AdaBoost集成。為了與同類(lèi)型的方法進(jìn)行合理的比較,分別采用了平衡和非平衡的評(píng)價(jià)方式,在數(shù)據(jù)集VIRs上進(jìn)行平衡評(píng)估,實(shí)驗(yàn)數(shù)據(jù)如表1所示,在數(shù)據(jù)集VIRs上進(jìn)行非平衡評(píng)估,實(shí)驗(yàn)數(shù)據(jù)如表2所示,通過(guò)表1和表2能夠清楚地看到,采用集成的方法要比不采用集成的方法效果好。同時(shí),改進(jìn)的AdaBoost集成策略下分類(lèi)器的分類(lèi)效果最佳。

      3 結(jié) 語(yǔ)

      本文根據(jù)蛋白質(zhì)序列信息,通過(guò)邏輯斯蒂標(biāo)準(zhǔn)化后的PSSM特征提取方法,采用滑動(dòng)窗口參數(shù)優(yōu)化提高預(yù)測(cè)精度,利用SVM集成的方法以減少隨機(jī)下采樣造成的小類(lèi)樣本信息丟失的影響,選取閾值最優(yōu)對(duì)預(yù)測(cè)值判別蛋白質(zhì)維生素是否綁定,最終得到預(yù)測(cè)結(jié)果。采用不同的集成策略,通過(guò)實(shí)驗(yàn)結(jié)果可知改進(jìn)的AdaBoost集成方法的分類(lèi)效果較好。

      在本研究的基礎(chǔ)上,對(duì)蛋白質(zhì)維生素綁定位點(diǎn)預(yù)測(cè)的研究有了一定了解,未來(lái)的工作包括:在特征提取的過(guò)程中可以加入蛋白質(zhì)的其他特征信息,例如蛋白質(zhì)的二級(jí)結(jié)構(gòu)信息、蛋白質(zhì)的水溶性信息等。針對(duì)維生素這一類(lèi)配體,可以將配體進(jìn)行進(jìn)一步分類(lèi),對(duì)不同種類(lèi)的維生素進(jìn)行具體的分析,如維生素A、維生素B、維生素B6等。

      參考文獻(xiàn)

      [1] ADAMS J S, HEWISON M. Unexpected actions of vitamin D: new perspectives on the regulation of innate and adaptive immunity [J]. Nature Clinical Practice Endocrinology Metabolism, 2008, 4(2):80?90.

      [2] HE Hai?bo, GARCIA E A. Learning from imbalanced data [J]. IEEE Transactions on Knowledge and Data Engineering, 2009, 21(9): 1263?1284.

      [3] MOHAMED B, ALITOUCHE T A. Imbalanced data learning approaches review [J]. International Journal of Data Mining Knowledge Management Process (IJDKP), 2013, 3(4): 15?18.

      [4] LIU Xu?ying, WU Jian?xin, ZHOU Zhi?hua. Exploratory undersampling for class?imbalance learning [J]. IEEE Transactions on System, Man and Cybernetics, Part B: Cybernetics, 2009, 39(2): 539?550.

      [5] YU Dong?jun, HU Jun, TANG Z M, et al. Improving protein?ATP binding residues prediction by boosting SVMs with random under?sampling [J]. Neurocomputing, 2013, 104: 180?190.

      [6] PANWAR B, GUPTA S, RAGHAVA G P S. Prediction of vitamin interacting residues in a vitamin binding protein using evolutionary information [J]. BMC bioinformatics, 2013,14(1): 44?58.

      [7] ALTSCHUL S F, MADDEN T L, SCHAFFER A, et al. Gapped BLAST and PSI?BLAST: a new generation of protein database search programs [J]. Nucleic Acids Res., 1997, 25(17): 3389?3402.

      [8] KUMAR M, GROMIHA M M, RAGHAVA G P. Prediction of RNA binding sites in a protein using SVM and PSSM profile [J]. Proteins: Structure, Function and Bioinformatics, 2008, 71(1): 189?194.

      [9] AGARWAL S, MISHRA N K, SINGH H, et al. Identification of mannose interacting residues using local composition [J]. PLoS ONE, 2011, 6(9): 1?8.

      [10] VAPNIK V N. The nature of statistical learning theory [M]. New York: Springer, 2000.

      [11] FAN R E, CHEN P H, LIN C J. Working set selection using second order information for training support vector machines [J]. The Journal of Machine Learning Research, 2005, 6: 1889?1918.

      [12] XU Lei, AMARI S. Combining classifiers and learning mixture?of?experts [J]. IGI Global, 2009, 3: 218?326.

      [13] KUNCHEVA L I. Combining pattern classifiers: methods and algorithms [M]. New York: Wiley?Interscience, 2004.

      [14] FREUND Y, SCHAPIRE R E. A short introduction to Boosting [J]. Journal of Japanese Society for Artificial Intelligence, 1990, 14(5): 771?780.

      [15] FREUND Y, SCHAPIRE R E. Experiments with a new boosting algorithm [C]// Machine Learning: Proceedings of the Thirteenth International Conference. [S.l.]: ICML, 1996, 96: 148?156.

      [16] DIETTERICH T G. An experimental comparison of three methods for constructing ensembles of decision trees: bagging, boosting, and randomization [J]. Machine learning, 2000, 40(2): 139?157.

      [17] MEIR R, RATSCH G. An introduction to boosting and leve?raging [J]. Advanced Lectures on Machine Learning, 2003, 2600: 118?183.

      [18] BHASIN M, RAGHAVA G P. GPCRpred: an SVM?based method for prediction of families and subfamilies of G?protein coupled receptors [J]. Nucleic Acids Research, 2004, 32(2): 383?389.

      [19] YU Dong?jun, HU Jun, YAN Hui, et al. Enhancing protein?vitamin binding residues prediction by multiple heterogeneous subspace SVMs ensemble [J]. BMC Bioinformatics, 2014, 15(1): 297?311.

      万盛区| 漯河市| 固原市| 宁海县| 弥渡县| 临安市| 高安市| 普定县| 洛宁县| 水富县| 定襄县| 临澧县| 陆丰市| 荔浦县| 简阳市| 城口县| 灵台县| 元朗区| 鸡泽县| 蛟河市| 孝义市| 金寨县| 平和县| 星子县| 台安县| 阿拉善左旗| 石泉县| 永川市| 祁门县| 鄂尔多斯市| 神木县| 松溪县| 陵水| 昌图县| 玉山县| 紫阳县| 四川省| 阜城县| 酒泉市| 开鲁县| 章丘市|