• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于氨基酸約化和統(tǒng)計(jì)特征的蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)

      2016-01-15 02:06:16楊紅,徐慧敏,嚴(yán)壽江
      生物信息學(xué) 2015年2期
      關(guān)鍵詞:支持向量機(jī)

      基于氨基酸約化和統(tǒng)計(jì)特征的蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)

      楊紅1,2,徐慧敏2,嚴(yán)壽江2,陳靜2,耿麗麗2,姚玉華2*

      (1.青島濱海學(xué)院,青島 266555;

      2.浙江理工大學(xué)生命科學(xué)學(xué)院,杭州 310018)

      摘要:蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)對(duì)蛋白質(zhì)的功能、相互作用及調(diào)控機(jī)制的研究具有重要意義。本文基于物化性質(zhì)和結(jié)構(gòu)性質(zhì)對(duì)氨基酸的約化,描述序列局部和全局信息的“組成”、“轉(zhuǎn)換”和“分布”特征,并利用氨基酸親疏水性的數(shù)值統(tǒng)計(jì)特征,提出了一種新的蛋白質(zhì)特征表示方法(NSBH)。分別使用三種分類(lèi)器KNN、SVM及BP神經(jīng)網(wǎng)絡(luò)進(jìn)行蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè),比較了幾種方法和特征融合方法的預(yù)測(cè)結(jié)果,顯示融合特征表示及結(jié)合SVM分類(lèi)器時(shí)能夠達(dá)到更好的預(yù)測(cè)準(zhǔn)確率。同時(shí),還詳細(xì)討論了不同參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響,具體的實(shí)驗(yàn)及比較結(jié)果顯示了該方法的有效性。

      關(guān)鍵詞:蛋白質(zhì)亞細(xì)胞定位;氨基酸物化性質(zhì);支持向量機(jī)

      中圖分類(lèi)號(hào):Q811文獻(xiàn)標(biāo)志碼:A

      收稿日期:2015-03-05;修回日期:2015-04-08.

      基金項(xiàng)目:生物信息學(xué)數(shù)據(jù)庫(kù)技術(shù)課程教學(xué)改革,福建農(nóng)林大學(xué)研究生教學(xué)改革項(xiàng)目(No.112501234)。

      作者簡(jiǎn)介:鄭珂暉,男,講師,博士研究生,研究方向:生物信息學(xué);E-mail:zhkehui@tom.com.

      doi:10.3969/j.issn.1672-5565.2015.02.06

      Protein subcellular localization prediction based on reduced representation of

      amino acid and statistical characteristic

      YANG Hong1,2,XU Huimin2,YAN Shoujiang2,CHEN Jing2,GENG Lili2,YAO Yuhua2*

      (1.QingdaoBinhaiUniversity,Qingdao266555,China;

      2.CollegeofLifeSciences,ZhejiangSci-TechUniversity,Hangzhou310018,China)

      Abstract:The protein subcellular localization prediction is important to study the protein function, protein interaction and their regulation mechanism. In this paper, based on four amino acids physicochemical properties and structural properties,We describe the local and global information of sequence by ‘component’, ‘transition’ and ‘distribution’. Using the numerical statistical characteristic of hydrophobic/hydrophilic amino acid, we proposed a new protein feature representation. We compare the prediction results between the proposed methods and fusion method with the classification algorithm KNN, SVM and BP. The results show that fusion method with SVM can get better prediction accuracies. Meantime, we also discuss the effects of different parameters on the experimental results. The detailed experimental and comparison results show the effectiveness of the proposed method.

      Keywords:Subcellular localization; Physicochemical properties; Support vector machine (SVM)

      蛋白質(zhì)是生命的物質(zhì)基礎(chǔ),是構(gòu)成細(xì)胞的基本有機(jī)物,是生命活動(dòng)的主要承擔(dān)者。然而,蛋白質(zhì)只有在特定的亞細(xì)胞位置中才能行使其特定的功能。隨著高通量技術(shù)的發(fā)展,很大數(shù)量的蛋白質(zhì)序列正日益增長(zhǎng)并被整理和存入到公共的生物數(shù)據(jù)庫(kù)。根據(jù)2014年2月發(fā)布的統(tǒng)計(jì)表明,UniProtKB/Swiss-Prot包含542 258條序列,然而在1986年僅僅是3 939條[1]。采用實(shí)驗(yàn)方法確定蛋白質(zhì)的亞細(xì)胞定位需要耗費(fèi)大量的人力、物力、財(cái)力,已經(jīng)無(wú)法滿(mǎn)足數(shù)據(jù)庫(kù)中蛋白質(zhì)序列爆炸性增長(zhǎng)的現(xiàn)實(shí)需要,從已積累的知識(shí)和數(shù)據(jù)出發(fā),開(kāi)發(fā)蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的計(jì)算機(jī)方法就成為了當(dāng)前的重要研究任務(wù)。

      在使用計(jì)算方法來(lái)確定蛋白質(zhì)亞細(xì)胞位置的研究方面,人們已經(jīng)做出了很多的嘗試[2-7],近年來(lái)這方面已經(jīng)做的更加完善。在最近幾年的文章中,這方面的大部分貢獻(xiàn)是由Chou和Shen做出的。其他相關(guān)的作者也提供了一些在線(xiàn)的服務(wù)平臺(tái)來(lái)幫助解決蛋白質(zhì)亞細(xì)胞定位的相關(guān)問(wèn)題[8-18]。最初Nakashima和Nishikawa提出氨基酸組成信息用于判別細(xì)胞內(nèi)和細(xì)胞外的蛋白質(zhì)[19]。隨后基于序列的方法,人們又提出二肽組成,間隔氨基酸對(duì)組成和偽氨基酸組成[20-22]。為了研究序列的進(jìn)化信息,隨后人們又提出序列的位置特異性得分矩陣(PSSM)[23-24]。近幾年隨著基因本體論(GO)數(shù)據(jù)庫(kù)的不斷更新,人們提出基于基因本體論的計(jì)算方法來(lái)預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位等問(wèn)題[25-27]。不僅是蛋白質(zhì)序列信息,分類(lèi)算法也能夠影響蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)。到目前為止許多計(jì)算技術(shù)如隱馬氏模型(HMM)[28],神經(jīng)網(wǎng)絡(luò)[29],K-近鄰(KNN)[27, 30]和支持向量機(jī)(SVM)被用于分類(lèi)預(yù)測(cè)[31-33]。

      本文提出了四種氨基酸物化性質(zhì)和結(jié)構(gòu)性質(zhì)并提出新的蛋白質(zhì)特征表示方法——基于氨基酸親疏水性的數(shù)值統(tǒng)計(jì)特征(NSBH)。特征信息的融合與支持向量機(jī)的結(jié)合達(dá)到了較好的實(shí)驗(yàn)結(jié)果。

      1數(shù)據(jù)和方法

      1.1數(shù)據(jù)集

      本文使用了兩組數(shù)據(jù)集,兩組數(shù)據(jù)集在同一個(gè)亞細(xì)胞位置子集中蛋白質(zhì)之間的序列一致性≤25%。第一組數(shù)據(jù)集是NNPSL數(shù)據(jù)集,這個(gè)數(shù)據(jù)集最先是由Reinhardt和Hubbar建立的[34]。它包含997條原核蛋白,分為三個(gè)亞細(xì)胞位點(diǎn)和2 427條真核蛋白,分為四個(gè)亞細(xì)胞位點(diǎn)。數(shù)據(jù)集里的所有蛋白質(zhì)都是從SWISS-PROT 33.0中提取的,并且沒(méi)有跨膜蛋白。在每一個(gè)亞細(xì)胞位置中,沒(méi)有一條序列與其他任何一條序列的相似度大于90%。第二組數(shù)據(jù)集是Cell-PLoc 2.0包其包含下列六個(gè)子數(shù)據(jù)集:Euk-mPLoc、Hum-mPLoc、Plant-mPLoc、Gpos-mPLoc、Gneg-mPLoc和Virus-mPLoc[12]。它們適用于真核、人類(lèi)、植物、革蘭氏陽(yáng)性菌、革蘭氏陰性菌和病毒蛋白質(zhì)。另外,Cell-PLoc 2.0中基準(zhǔn)數(shù)據(jù)集的構(gòu)建是基于SWISS-PROT 55.3。數(shù)據(jù)集涵蓋22個(gè)亞細(xì)胞位點(diǎn),在同一個(gè)亞細(xì)胞位置子集中蛋白質(zhì)序列之間的一致性≤25%。Cell-PLoc 2.0包可以從http://www.csbio.sjtu.edu.cn/bioinf/Cell-PLoc-2/中免費(fèi)得到。

      1.2方法

      蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)的關(guān)鍵步驟是有效的數(shù)學(xué)表達(dá)式把蛋白質(zhì)符號(hào)特征轉(zhuǎn)換為與預(yù)測(cè)任務(wù)相關(guān)的特征向量以及分類(lèi)算法辨別特征向量。因此,我們將重點(diǎn)介紹這兩部分。

      1.2.1序列特征信息提取

      本文使用了關(guān)于氨基酸序列的局部和全局信息。主要包括四種常用的氨基酸物化性質(zhì),氨基酸組分信息(Amino acid composition)以及我們提出的一種基于氨基酸親疏水性的數(shù)值統(tǒng)計(jì)特征(NSBH)。

      (1)常用的氨基酸物化性質(zhì)和結(jié)構(gòu)性質(zhì)

      在文中,我們用到了四種常見(jiàn)的氨基酸物化性質(zhì)和結(jié)構(gòu)性質(zhì)分別為疏水性(Hydrophobicity)、歸一化范德華體積(Normalized van der Waals volume)、極性(Polarity)和極化性(Polarizability)。

      一條蛋白質(zhì)序列由基于不同物化性質(zhì)和結(jié)構(gòu)性質(zhì)的參數(shù)向量所表示,這些參數(shù)向量包含“組成”(Composition),“轉(zhuǎn)換”(Transition)和“分布”(Distribution)三種描述符[35],具體見(jiàn)表1。他們分別用來(lái)描述一條蛋白質(zhì)中一個(gè)給定氨基酸性質(zhì)的全局組成,沿著整條蛋白質(zhì)的性質(zhì)改變的頻率,以及沿著序列的性質(zhì)的模式分布。

      表1 氨基酸屬性和每一種性質(zhì)的特征維數(shù)

      (2)氨基酸組份

      氨基酸組份與蛋白質(zhì)亞細(xì)胞定位有一定的關(guān)聯(lián)。不同類(lèi)型的蛋白質(zhì)通常需要不同的氨基酸組成對(duì)應(yīng)于特定的生理功能。因此,對(duì)于細(xì)胞核的定位,組氨酸的豐富含量可以看作是一個(gè)特征。

      給定一條蛋白質(zhì)序列P,序列可以表示為

      (1)

      其中,fi(i=1,2,…,20)是蛋白質(zhì)P中20種氨基酸的歸一化的發(fā)生頻率,T是轉(zhuǎn)置運(yùn)算符。許多預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位的方法是基于氨基酸組份信息。

      (3)NSBH特征方法

      這里我們考慮一個(gè)與蛋白質(zhì)結(jié)構(gòu)有重要關(guān)系的物化性質(zhì):氨基酸的疏水性。首先,每一個(gè)氨基酸被它自己的物化性質(zhì)所特征化。20種氨基酸被約化為兩種類(lèi)型:疏水氨基酸H={F,L,I,Y,M,W,V,A,P,C};親水氨基酸:P={S,N,K,D,R,T,H,Q,E,G}。然后20種氨基酸進(jìn)一步約化為四種類(lèi)型:強(qiáng)疏水氨基酸:SH={F,L,I,Y,W};弱疏水氨基酸:WH={M,V,A,P,C};強(qiáng)親水氨基酸:SP={S,N,K,D,R};弱親水氨基酸:WP={T,H,Q,E,G}。

      (2)

      對(duì)于一條數(shù)值序列,我們計(jì)算u個(gè)連續(xù)數(shù)值的和,這些和被看作振幅。為了得到蛋白質(zhì)序列的數(shù)值表示,我們計(jì)算振幅的頻率。因此,一條蛋白質(zhì)序列可以被一個(gè)向量特征化。例如當(dāng)u=2時(shí),振幅是-4,-3,-2,-1,0,1,2,3,4。通過(guò)計(jì)算振幅的頻率,一條蛋白質(zhì)序列可以被一個(gè)9維的向量特征化。

      最后,基于以上六種特征信息,我們構(gòu)建其融合模型。在融合模型中,每一條蛋白序列被表示為113維的向量。

      1.2.2預(yù)測(cè)方案

      本文使用了三種分類(lèi)器:支持向量機(jī)(SVM),K近鄰(KNN),BP神經(jīng)網(wǎng)絡(luò)。下面將一一詳細(xì)介紹。

      (1)本文首先采用了Vapnik的支持向量機(jī)來(lái)預(yù)測(cè)亞細(xì)胞定位[40]。然而蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)是一個(gè)多分類(lèi)問(wèn)題。因此,我們采用了多類(lèi)預(yù)測(cè)方法。支持向量機(jī)采用“one-versus-rest”策略,給定一條未知測(cè)試蛋白序列,提取其特征向量之后輸入SVM。SVM首先把輸入向量映射到一個(gè)特征空間,然后SVM尋找一個(gè)最優(yōu)線(xiàn)性決策來(lái)解決特征空間中兩類(lèi)或多類(lèi)問(wèn)題,最后,一個(gè)預(yù)測(cè)標(biāo)簽被分配給測(cè)試蛋白。在我們的研究中,我們使用LIBSVM來(lái)實(shí)行SVM分類(lèi),選擇徑向基函數(shù)(RBF)作為核函數(shù)。

      對(duì)于SVM,我們選擇徑向基函數(shù)作為核函數(shù)是因?yàn)橄啾扔谄渌撕瘮?shù)它優(yōu)越于解決非線(xiàn)性問(wèn)題[41]。這里,為了盡可能的得到最高的預(yù)測(cè)準(zhǔn)確率,我們選擇了參數(shù)。對(duì)于每一個(gè)數(shù)據(jù)集,基于10倍交叉驗(yàn)證,我們使用網(wǎng)格搜索策略選擇參數(shù)c和g的值。則c與g值的范圍是2-5到25。

      (2)K近鄰(K-Nearest Neighbor,KNN)分類(lèi)算法是一個(gè)比較成熟的算法,該算法的方法原理也十分簡(jiǎn)單。KNN分類(lèi)算法的思路是:假如一個(gè)樣本在特征空間中的K個(gè)最相似的樣本中的大多數(shù)屬于同一個(gè)類(lèi)別,那么這個(gè)樣本也屬于此類(lèi)別。這里我們將使用的KNN準(zhǔn)則用于分類(lèi)預(yù)測(cè)[42-43]。

      (3)目前,研究人員構(gòu)建了許多不同的神經(jīng)網(wǎng)絡(luò)模型,本文應(yīng)用的是反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network,即BP神經(jīng)網(wǎng)絡(luò))[29]。在人工神經(jīng)網(wǎng)絡(luò)之中,反向傳播神經(jīng)網(wǎng)絡(luò)是一種穩(wěn)定性和魯棒性較強(qiáng)的人工神經(jīng)網(wǎng)絡(luò),另外。它也屬于有監(jiān)督學(xué)習(xí)的網(wǎng)絡(luò)模型。本文構(gòu)建的BP網(wǎng)絡(luò),隱層節(jié)點(diǎn)參數(shù)值為9,隱層和輸出層皆采用Sigmoid傳輸函數(shù),輸出維數(shù)由各數(shù)據(jù)集所含亞細(xì)胞位點(diǎn)數(shù)決定,其它參數(shù)采用默認(rèn)值。

      1.2.3評(píng)價(jià)方法

      本文中,我們使用留一法驗(yàn)證來(lái)評(píng)估我們方法的預(yù)測(cè)結(jié)果。留一法是指僅選擇原樣本中的一項(xiàng)作為測(cè)試樣本,而剩余的留作訓(xùn)練樣本。這個(gè)樣本一直持續(xù)到每個(gè)樣本都被作為一次測(cè)試樣本。我們使用Overall accuracy作為本文的預(yù)測(cè)結(jié)果評(píng)價(jià)指標(biāo):

      (3)

      2結(jié)果與分析

      2.1NSBH方法中不同u值結(jié)果比較

      從圖1中可以看出,當(dāng)u從1變化到10時(shí),除了病毒數(shù)據(jù)集的預(yù)測(cè)結(jié)果準(zhǔn)確率變化幅度大一點(diǎn)外,其他數(shù)據(jù)集的結(jié)果都處于一個(gè)平緩狀態(tài)。RH997,RH2427,革蘭氏陽(yáng)性菌和革蘭氏陰性菌的結(jié)果相對(duì)較好;病毒,人類(lèi),真核和植物的預(yù)測(cè)結(jié)果相對(duì)就差一點(diǎn)。

      圖1 每個(gè)數(shù)據(jù)集上不同 u值SVM分類(lèi)器結(jié)果比較

      從圖1中明顯看出,隨著u值在1~10范圍內(nèi)的變化,除了病毒數(shù)據(jù)集外其他各數(shù)據(jù)集的總體準(zhǔn)確率呈平穩(wěn)狀態(tài)。病毒數(shù)據(jù)集隨著u值的變化呈現(xiàn)波浪式變化,但總的趨勢(shì)還是隨著u值的增大而下降??赡苁怯捎谳^其他數(shù)據(jù)集病毒數(shù)據(jù)集數(shù)據(jù)個(gè)數(shù)較少,而蛋白質(zhì)位點(diǎn)個(gè)數(shù)相對(duì)偏多,從而導(dǎo)致預(yù)測(cè)結(jié)果不是很穩(wěn)定??紤]到病毒數(shù)據(jù)集在u=2時(shí)準(zhǔn)確率較其他k值要高出許多,且向量的維數(shù)偏低,降低實(shí)驗(yàn)運(yùn)行的時(shí)間,因此,我們可認(rèn)為u=2時(shí)總體達(dá)到較好的結(jié)果。此時(shí),病毒數(shù)據(jù)集的準(zhǔn)確率為46.43%。

      2.2不同特征信息提取方法的比較

      表2列出了八個(gè)數(shù)據(jù)集中不同的特征信息提取方法的結(jié)果比較?;谏鲜龇治?,在NSBH方法中,當(dāng)u=2時(shí)總體預(yù)測(cè)結(jié)果較好,所以在此部分只需考慮u=2時(shí)與其他方法的比較。從表中可以明顯看出融合后的信息準(zhǔn)確率明顯高于單個(gè)性質(zhì)的預(yù)測(cè)準(zhǔn)確率,該現(xiàn)象可能是由于融合信息包比單個(gè)特征信息含了更多蛋白質(zhì)序列的核心特征。

      從總體數(shù)據(jù)集的單個(gè)特征信息預(yù)測(cè)結(jié)果來(lái)看,AAC結(jié)果相對(duì)較好,其次是疏水性、極性。而極化性和歸一化范德華體積的預(yù)測(cè)結(jié)果就相對(duì)差點(diǎn)。本文新提出的方法NSBH,其預(yù)測(cè)結(jié)果相比于傳統(tǒng)的氨基酸組成來(lái)說(shuō)不是很理想,但這也是蛋白質(zhì)序列特征表示的一種新穎的方法。

      表2 每一個(gè)數(shù)據(jù)集中不同特征提取方法SVM分類(lèi)器結(jié)果比較(%)

      2.3KNN分類(lèi)器中不同k值結(jié)果比較

      對(duì)兩組數(shù)據(jù)集中的每一條序列進(jìn)行本文使用的5種氨基酸的物化性質(zhì)信息以及氨基酸組份信息進(jìn)行融合,最后得到113維的向量。由表5分析得到,融合后的特征表示比單個(gè)特征表示預(yù)測(cè)結(jié)果要好,在此,我們分析了基于融合特征表示的不同類(lèi)型的KNN分類(lèi)器對(duì)預(yù)測(cè)結(jié)果的影響如圖2所示。

      圖2 基于融合特征表示的不同類(lèi)型的KNN分類(lèi)器比較

      從圖2可以得出與圖1相一致的結(jié)論:RH997,RH2427,革蘭氏陽(yáng)性菌和革蘭氏陰性菌的結(jié)果相對(duì)較好;病毒,人類(lèi),真核和植物的預(yù)測(cè)結(jié)果相對(duì)差一點(diǎn)。對(duì)于RH997和RH2427,隨著k值的增加,預(yù)測(cè)結(jié)果有下降的趨勢(shì)并趨于平緩。對(duì)于其他六個(gè)數(shù)據(jù)集的結(jié)果,隨著k值的增加,預(yù)測(cè)結(jié)果有上升的趨勢(shì)并趨于平緩。對(duì)于每個(gè)數(shù)據(jù)集,從整體預(yù)測(cè)結(jié)果及實(shí)驗(yàn)運(yùn)行耗時(shí)來(lái)看,當(dāng)k=7時(shí)總體預(yù)測(cè)結(jié)果較好。

      2.4不同分類(lèi)器預(yù)測(cè)結(jié)果比較

      表3給出的是每個(gè)數(shù)據(jù)集在相應(yīng)的k值下取得的最好預(yù)測(cè)結(jié)果與SVM預(yù)測(cè)結(jié)果的比較。括號(hào)中的k值是相應(yīng)的數(shù)據(jù)集在KNN分類(lèi)器中取得最好預(yù)測(cè)結(jié)果時(shí)的值。

      表3 基于融合特征下的KNN, SVM和BP預(yù)測(cè)結(jié)果比較

      從表3可以明顯得出,對(duì)于病毒數(shù)據(jù)集,BP的預(yù)測(cè)結(jié)果是最高的,KNN的最好預(yù)測(cè)結(jié)果稍微高于SVM預(yù)測(cè)結(jié)果。而其他數(shù)據(jù)集中,SVM的預(yù)測(cè)結(jié)果都比KNN中的最好預(yù)測(cè)結(jié)果和BP的預(yù)測(cè)結(jié)果要高,高出值范圍分別為5~6.4個(gè)百分點(diǎn)和4.2~9.9個(gè)百分點(diǎn)。因此,總體來(lái)說(shuō),SVM分類(lèi)器的表現(xiàn)更加的優(yōu)異。

      2.5結(jié)果比較分析

      為了論證本文提出的方法的可靠性,對(duì)于RH997和RH2427這兩個(gè)數(shù)據(jù)集,我們的方法與其他方法結(jié)果進(jìn)行了比較。這里給出的是SVM預(yù)測(cè)結(jié)果與其他方法通過(guò)留一法檢驗(yàn)對(duì)NNPSL數(shù)據(jù)集的預(yù)測(cè)結(jié)果比較。

      從表格4中明顯看出本文方法的預(yù)測(cè)總體準(zhǔn)確率除了比Chou and Cai的結(jié)果低3.1%和比Niu等人略低外,比其他方法高了2.5~5.1個(gè)百分點(diǎn)。

      表4 RH997上不同預(yù)測(cè)模型的預(yù)測(cè)結(jié)果

      同樣的,從表格5中可以得到除了Chou and Cai方法的結(jié)果高于本文結(jié)果外,其他研究者方法的結(jié)果均低于本文方法結(jié)果的3.6~11.4個(gè)百分點(diǎn)。

      以上兩個(gè)表格的結(jié)果比較得出基于本文提出的新方法NSBH與其他方法的融合再結(jié)合常用的SVM分類(lèi)器能夠得到較好的分類(lèi)效果。因此,本文的方法也可用于蛋白質(zhì)等其他方面的應(yīng)用。

      表5 RH2427上不同預(yù)測(cè)模型的預(yù)測(cè)結(jié)果

      3討論

      到目前為止,有許多信息提取算法都是基于氨基酸殘基的物化性質(zhì),然而單純的使用這些物化性質(zhì)進(jìn)行序列的特征信息提取難免會(huì)丟失許多序列的核心特征,所以通常情況下我們都是結(jié)合其他特征一起使用。本文嘗試使用常見(jiàn)氨基酸的物化性質(zhì)和結(jié)構(gòu)性質(zhì)的結(jié)合進(jìn)行蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)研究。當(dāng)然,本文提出的方法也可以應(yīng)用到其他方面,比如蛋白質(zhì)結(jié)構(gòu)類(lèi)預(yù)測(cè),蛋白質(zhì)功能預(yù)測(cè)方面等。

      在K近鄰算法中,關(guān)鍵問(wèn)題主要有確定距離函數(shù)和決定k的取值。然而距離函數(shù)的確定比較困難且分類(lèi)的結(jié)果與參數(shù)有關(guān),在進(jìn)行訓(xùn)練時(shí),K近鄰還需要大量的訓(xùn)練數(shù)據(jù),這些都導(dǎo)致K近鄰算法在實(shí)際應(yīng)用中存在許多問(wèn)題。BP神經(jīng)網(wǎng)絡(luò)可變參數(shù)太多,訓(xùn)練時(shí)間需求很大,對(duì)固定訓(xùn)練樣本的過(guò)度擬合會(huì)使得預(yù)測(cè)性能降低。而支持向量機(jī)屬于一般化線(xiàn)性分類(lèi)器,SVM的特點(diǎn)是可以同時(shí)最小化經(jīng)驗(yàn)誤差和最大化幾何邊緣。因此與K近鄰和BP神經(jīng)網(wǎng)絡(luò)相比,SVM分類(lèi)器更能達(dá)到精確值。

      參考文獻(xiàn)(References)

      [1]LI L, YU S, XIAO W, et al. Prediction of bacterial protein subcellular localization by incorporating various features into Chou′s PseAAC and a backward feature selection approach[J]. Biochimie, 2014, 104: 100-107.

      [2]CHOU G, WU Z, XIAO X i.Loc-Euk: a multi-label classifier for predicting the subcellular localization of singleplex and multiplex eukaryotic proteins[J]. PLoS One, 2011, 6(3):e18258.

      [3]LI L, ZHANG Y, ZOU L, et al. An ensemble classifier for eukaryotic protein subcellular location prediction using gene ontology categories and amino acid hydrophobicity[J]. PLoS One, 2012, 7(1): e31057.

      [4]CAI Y, HE J, LI X, et al. Prediction of Protein Subcellular Locations with Feature Seclection and Analysis[J]. Protein &Peptide Letters, 2010, 17(4): 464-472.

      [5]WAN S, MAK M, KUNG S. HybridGO-Loc: mining hybrid features on gene ontology for predicting subcellular localization of multi-location proteins[J]. PLoS One, 2014, 9(3): e89545.

      [6]MEI S. Predicting plant protein subcellular multi-localization by Chou′s PseAAC formulation based multi-label homolog knowledge transfer learning[J]. Journal of Theoretical Biology, 2012, 310: 80-87.

      [7]DEHZANQI A, HEFFERNAN R, SHARMA A, et al. Gram-positive and Gram-negative protein subcellular localization by incorporating evolutionary-based descriptors into Chou's general PseAAC[J]. Journal of Theoretical Biology, 2015, 364: 284-294.

      [8]EMANUELSSON O, NIELSEN H, BRUNAK S. Predicting sub-cellular localization of proteins based on their N-terminal amino acid sequence[J]. Journal of Molecular Biology, 2000, 300(4): 1016.

      [9]CHOU K, CAI Y. A new hybrid approach to predict subcellular localization of proteins by incorporating gene ontology[J]. Biochemical and Biophysical Research Communications, 2003, 311: 743-747.

      [10]YU C, LIN C, HWANG J. Predicting subcellular localization of protein for Gram-negative bacteria by support vector machines based on n-peptide compositions[J]. Protein Science, 2004, 13(5): 1402-1406.

      [11]HORTON P, OBAYASHI T. WoLF PSORT:protein subcellulur localization predictor[J]. Nucleic Acids Research, 2007, 35: W587.

      [12]CHOU K, SHEN H. Cell-PLoc 2.0: An improved package of web-servers for predicting subcellular localization of proteins in various organisms[J]. Natural Science, 2010, 2: 1090.

      [13]BRIESEMEISTER S, RAHNENFUHRER J, KOHLBACHER O. Going from where to why-interpretable prediction of protein subcellular localization[J]. Bioinformatics, 2010, 26(9): 1232-1238.

      [14]YUN N, WAQNER J, LAIRD M, et al. PSORTB 3.0: improved protein subcellular localization prediction with refined localization sub-categories and predictive capabilities for all prokaryotes[J]. Bioinformatics, 2010, 26(13): 1608-1615.

      [15]PIERIEONI A, MARTELLI P, CASADIO R. MemLoci: predicting subcellular localization of membrance proteins in eukaryotes[J]. Bioinformatics, 2011, 27(9): 1224-1230.

      [16]WAN S, MAK M, KUNG S. mGOASVM:multi-label protein subcellular localization based on gene ontology and support vector machines[J]. BMC Bioinformatics, 2012, 13(11): 290.

      [17]CHANG T, WU L, LEE T, et al. EuLoc: a Web-server for accurately predict protein subcellular localization in enkaryotes by incorporating various features of sequence segments into the general form of Chou's PseAAC[J]. Journal of Computer-Aided Molecular Design, 2013, 27(1): 91-103.

      [18]WANG X, LI G, LU W. Virus-ECC-mPLoc: a multi-label predictor for predicting the subcellular localization of virus proteins with both single and multiple sites based on a general form of Chou′s pseudo amino acid composition [J]. Protein and Peptide Letters, 2013, 20(3): 309-317.

      [19]NAKASHIMA H, NISHIKAWA K. Discrimination of intracellular and extracellular proteins using amino acid composition and residue-pair frequencies[J]. Journal of Molecular Biology, 1994, 238: 54-61.

      [20]ZUO Y, PENG Y, LIU L, et al. Predicting peroxidase subcellular location by hybridizing different descriptors of Chou’ pseudo amino acid patterns[J]. Analytical Biochemistry, 2014, 458: 14-19.

      [21]DU P, GU S, JIAO Y. PseAAC-General: Fast Building Various Modes of GeneralForm of Chou’s Pseudo-Amino Acid Composition forLarge-Scale Protein Datasets[J]. International Journal of Molecular Sciences, 2014, 15: 3495-3506.

      [22]MANDAL M, MUKHOPADHYAY A, MAULIK U. Prediction of protein subcellular localization by incorporating multiobjective PSO-based feature subset selection into the general form of Chou’s PseAAC[J]. Medical & Biological Engineering & Computing, 2015, 53: 331-344.

      [23]JEONG J, LIN X, CHEN X. On Position-Specific Scoring Matrix for Protein Function Prediction[J]. IEEE Transactions on Computational Biology and Bioinformatics, 2011, 8: 308-315.

      [24]HUANG C, YUAN J. Using radial basis function on the general form of Chou’s pseudoamino acid composition and PSSM to predict subcellular locations ofproteins with both single and multiple sites[J]. BioSystems, 2013, 113: 50-57.

      [25]WAN S, MAK M, KUNG S. GOASVM: A subcellular location predictor by incorporating term-frequencygene ontology into the general form of Chou’s pseudo-aminoacid composition[J]. Journal of Theoretical Biology, 2013, 323: 40-48.

      [26]MAZANDU G, MULDER N. The use of semantic similarity measures for optimally integrating heterogeneous Gene Ontology data from large scale annotation pipelines[J]. Frontiers in Genetics, 2014, 5: 264.

      [27]XIAO X, WU Z, CHOU K. iLoc-Virus: A multi-label learning classifier for identifying the subcellular localization of virus proteins with both single and multiple sites[J]. Journal of Theoretical Biology, 2011, 284: 42-51.

      [28]LIN T, MURPHY R, BAR-JOSEPH Z. Discriminative motif finding forpredicting protein subcellular localization[J]. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2011, 8(2): 441-451.

      [29]ZOU L, WANG Z, HUANG J. Prediction of subcellular localization ofeukaryotic proteins using position-specific profiles and neural network withweighted inputs[J]. Journal of Genetics and Genomics, 2007, 34(12): 1080-1087.

      [30]XIAO X, WU Z, CHOU K. A Multi-Label Classifier for Predicting the Subcellular Localization of Gram-Negative Bacterial Proteins with Both Single and Multiple Sites[J]. PLoS One, 2011, 6: e20592.

      [31]CAI Y, LIU X, XU X, et al. Support vector machines for prediction of protein subcellular location by incorporating quasi-sequence-order effect[J]. Journal of Cellular Biochemistry, 2002, 84: 343-348.

      [32]LIANG R, HUANG S, SHI S, et al. A novel algorithm combining support vector machine with the discretewavelet transform for the predict ion of protein subcellular localization[J]. Computers in Biology and Medicine, 2012, 42: 180-187.

      [33]LIU T, TAO P, LI X, et al. Prediction of subcellular location of apoptosis proteins combing trigram encoding based on PSSM and recursive feature elimination[J]. Journal of Theoretical Biology, 2015, 366: 8-12.

      [34]REINHARDT A, HUBBARD T. Using neural networks for prediction of the subcellular location of proteins[J]. Nucleic Acids Research, 1998, 26: 2230-2236.

      [35]DUBCHAK I, MUCHNIK I, HOLBROOK S, et al. Prediction of protein folding class using global description of amino acid sequence[J]. Proceedings of the National Academy of Sciences, 1995, 92: 8700-8704.

      [36]CHOTHIA C, FINKELSTEIN A. The classification and origins of protein folding patterns[J]. Annual Review of Biochemistry, 1990, 59: 1007-1035.

      [37]FAUCHERE J, CHARTON M, KIER L, et al. Amino acid side chain parameters for correlation studies in biology and pharmacology[J]. International Journal of Peptide and Protein Research, 1988, 32: 269-278.

      [38]GRANTHAM R. Amino acid difference formula to help explain protein evolution[J]. Science, 1974, 185: 862-864.

      [39]CHARTON M, CHARTON B. The structural dependence of amino acid hydrophobicity parameters[J]. Journal of Theoretical Biology, 1982, 99: 629-644.

      [40]CORTES C, VAPNIK V. Support-Vector Networks[J]. Machine Learning, 1995, 20(3):273-297.

      [41]YUAN Z. Better prediction of protein contact number using a support vector regression analysis of amino acid sequence[J]. BMC Bioinformatics, 2005, 6: 248.

      [42]COVER T, HART P. Nearest neighbour pattern classification[J]. IEEE Transactionon Information Theory, 1967, 13: 21-27.

      [43]DENOEUX T. A k-nearest neighbor classification rule based onDempster-Shafer theory[J]. IEEE Transactions on Systems Man and Cybernetics, 1995, 25: 804-813.

      [44]NIU N, JIN Y, FENG K, et al. Using AdaBoost for the predicting of subcellular location of prokaryotic and eukaryotic proteins[J]. Molecular Diversity, 2008, 12: 41-45.

      [45]HUA S, SUN Z. Support vector machine approach for protein subcellularlocalization prediction[J]. Bioinformatics, 2001, 17: 721-728.

      [46]YUAN Z. Prediction of protein subcellular locations using Markov chainmodels[J]. FEBS Letters, 1999, 451: 23-26.

      [47]CHOU K, ELROD D. Using discriminant function for prediction of subcellular location of prokaryotic proteins[J]. Biochemistry and Biological Physics Research Communications, 1998, 252: 63-68.

      [48]CHOU K, CAI Y. A new hybrid approach to predict subcellular localizationof proteins by incorporating gene ontology[J]. Biochemistry and Biological Physics Research Communications, 2003, 311: 743-747.

      *通信作者:溫永仙,女,教授,博士生導(dǎo)師,研究方向:生物信息學(xué);E-mail:wen9681@sina.com.

      猜你喜歡
      支持向量機(jī)
      基于支持向量回歸機(jī)的電能質(zhì)量評(píng)估
      基于智能優(yōu)化算法選擇特征的網(wǎng)絡(luò)入侵檢測(cè)
      數(shù)據(jù)挖掘技術(shù)在電廠經(jīng)濟(jì)性分析系統(tǒng)中的應(yīng)用Q
      基于改進(jìn)支持向量機(jī)的船舶縱搖預(yù)報(bào)模型
      基于SVM的煙草銷(xiāo)售量預(yù)測(cè)
      動(dòng)態(tài)場(chǎng)景中的視覺(jué)目標(biāo)識(shí)別方法分析
      論提高裝備故障預(yù)測(cè)準(zhǔn)確度的方法途徑
      基于熵技術(shù)的公共事業(yè)費(fèi)最優(yōu)組合預(yù)測(cè)
      基于支持向量機(jī)的金融數(shù)據(jù)分析研究
      管理類(lèi)研究生支持向量機(jī)預(yù)測(cè)決策實(shí)驗(yàn)教學(xué)研究
      考試周刊(2016年53期)2016-07-15 09:08:21
      佳木斯市| 福泉市| 霸州市| 南丹县| 武山县| 吐鲁番市| 婺源县| 巨野县| 馆陶县| 大港区| 峨山| 泗阳县| 林口县| 进贤县| 三台县| 大姚县| 乐至县| 钦州市| 伽师县| 万盛区| 长丰县| 商都县| 墨竹工卡县| 澄城县| 武胜县| 沙洋县| 凌云县| 云安县| 嘉禾县| 张家界市| 罗山县| 芜湖县| 定日县| 建德市| 万载县| 阜康市| 仙桃市| 襄垣县| 东乡县| 磴口县| 富源县|