• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    凋亡蛋白亞細(xì)胞定位預(yù)測(cè)的新方法

    2015-11-05 02:21:30王愛(ài)華褚威威于曉慶渤海大學(xué)a大學(xué)基礎(chǔ)教研部數(shù)理學(xué)院遼寧錦州11013上海應(yīng)用技術(shù)學(xué)院應(yīng)用數(shù)學(xué)系上海01418
    關(guān)鍵詞:氨基酸向量蛋白質(zhì)

    王愛(ài)華,楊 閆,劉 歡,褚威威,于曉慶,李 春(1.渤海大學(xué)a.大學(xué)基礎(chǔ)教研部;b.數(shù)理學(xué)院,遼寧錦州11013;.上海應(yīng)用技術(shù)學(xué)院應(yīng)用數(shù)學(xué)系,上海01418)

    凋亡蛋白亞細(xì)胞定位預(yù)測(cè)的新方法

    王愛(ài)華1a,楊閆1b,劉歡1b,褚威威1b,于曉慶2,李春1b
    (1.渤海大學(xué)a.大學(xué)基礎(chǔ)教研部;b.數(shù)理學(xué)院,遼寧錦州121013;2.上海應(yīng)用技術(shù)學(xué)院應(yīng)用數(shù)學(xué)系,上海201418)

    基于頻率位置信息與頻率本身相結(jié)合的思想,并結(jié)合氨基酸的分類(lèi)模型、理化性質(zhì)和替換矩陣構(gòu)造了蛋白質(zhì)序列的特征向量;以最近鄰方法作為分類(lèi)器,利用ZW225和CL317兩個(gè)經(jīng)典數(shù)據(jù)集對(duì)該方法進(jìn)行了檢驗(yàn),所得結(jié)果同其他亞細(xì)胞定位預(yù)測(cè)方法做了比較。結(jié)果表明該方法是有效的。

    凋亡蛋白;亞細(xì)胞定位;氨基酸;最近鄰方法

    凋亡蛋白在生物體的生長(zhǎng)發(fā)育和動(dòng)態(tài)平衡中有著重要的作用,但其作用能否有效地發(fā)揮則取決于是否處于合適的亞細(xì)胞位置。在實(shí)驗(yàn)室確定蛋白質(zhì)亞細(xì)胞位置的方法早已遠(yuǎn)遠(yuǎn)不能滿(mǎn)足生物序列數(shù)據(jù)急劇增長(zhǎng)的需要。因此,發(fā)展有效的計(jì)算方法進(jìn)行蛋白質(zhì)亞細(xì)胞定位預(yù)測(cè)便成為生物信息學(xué)中的一個(gè)重要課題。

    近20年,已經(jīng)涌現(xiàn)了很多從蛋白質(zhì)序列出發(fā)預(yù)測(cè)其亞細(xì)胞位置的算法[1-7]。這些預(yù)測(cè)方法主要包括3個(gè)步驟:蛋白質(zhì)特征信息的選取—→分類(lèi)算法的選擇—→預(yù)測(cè)結(jié)果的評(píng)價(jià)。其中特征信息的選取不同對(duì)于亞細(xì)胞定位預(yù)測(cè)的精度有較大的影響。

    基于氨基酸的兩種分類(lèi)模型、理化性質(zhì)、氨基酸替換矩陣和自協(xié)方差變換,借鑒筆者在DNA序列分析中提出的頻率與其位置(序)信息相結(jié)合的思想[8],本文提出了蛋白質(zhì)序列的一種新的特征向量表示,并利用最近鄰分類(lèi)器,進(jìn)行凋亡蛋白亞細(xì)胞定位研究。利用夾克刀檢驗(yàn)對(duì)ZW225數(shù)據(jù)集進(jìn)行訓(xùn)練,總預(yù)測(cè)準(zhǔn)確度達(dá)到87.1%。為了進(jìn)一步評(píng)估該方法的性能,以CL317作為獨(dú)立數(shù)據(jù)集,利用上述訓(xùn)練得到的參數(shù)進(jìn)行檢驗(yàn),總預(yù)測(cè)準(zhǔn)確度為90.2%。

    1 數(shù)據(jù)來(lái)源

    采用Zhang等[4]以及Chen等[9]構(gòu)建的數(shù)據(jù)集ZW225和CL317來(lái)驗(yàn)證所提方法的有效性。這兩個(gè)數(shù)據(jù)集分別包括4類(lèi)和6類(lèi)亞細(xì)胞位點(diǎn),凋亡蛋白序列總數(shù)分別為225條和317條,序列相似性分布情況見(jiàn)表1。

    表1 兩個(gè)數(shù)據(jù)集中序列相似性的分布

    2 蛋白質(zhì)序列的特征向量

    2.1派生序列

    正如Cheon和Chang[10]指出的,20種氨基酸可以被分組或者僅用一部分氨基酸就可以提取有效的蛋白質(zhì)特征。通過(guò)氨基酸的特性將它們分組并且每組用一個(gè)字母代替,這樣簡(jiǎn)化了組成蛋白質(zhì)序列的字母種類(lèi),這是一種粗?;乃枷?,這種思想可以使人們想要的特征更為突出。最簡(jiǎn)單的模型就是HP模型,它將氨基酸分成了兩組:疏水性組(H)和極性組(P)。如果將蛋白質(zhì)原始序列中屬于H的元素記為1,屬于P的元素記為0,那么就能將該蛋白質(zhì)原始序列轉(zhuǎn)化一條(0,1)-序列。此外,文獻(xiàn)[10]還給出了氨基酸的另一種二元分類(lèi)模型:(CDFGNSW)(APVTILQKEMHRY)。與上述利用HP模型一樣,據(jù)此可將蛋白質(zhì)序列轉(zhuǎn)化為另一條(0,1)-序列。

    氨基酸的物理和化學(xué)性質(zhì)對(duì)蛋白質(zhì)非常重要。表2列出了氨基酸的3種重要性質(zhì):側(cè)鏈體積(VSC)、極性(pl)、溶劑可及表面積(SASA)。

    對(duì)于一條長(zhǎng)為n的蛋白質(zhì)序列:S=a1,a2,…,an,根據(jù)側(cè)鏈體積,將序列S通過(guò)映射φ轉(zhuǎn)變?yōu)橐?/p>

    類(lèi)似的,根據(jù)另外2種性質(zhì),能得到另兩條(0,1)-序列。

    為了方便,將上述5條(0,1)-序列統(tǒng)稱(chēng)為“派生(0,1)-序列”。

    2.2基于頻率及其位置的特征

    借鑒文獻(xiàn)[8]中提出的思想構(gòu)造向量。設(shè)Ω={ω1,ω2,…,ωk}是一個(gè)字母集,S∈Ωm是Ω上的一條長(zhǎng)為m的序列,則ωi在序列S中的頻率f(ωi)=c(ωi)/m,其中c(ωi)為ωi在序列S中出現(xiàn)的次數(shù)??梢詷?gòu)造向量F:

    其分量滿(mǎn)足如下的全序關(guān)系:

    因此,對(duì)于每一個(gè)f(ωi),在Fs中都有唯一的一個(gè)“位置”與之對(duì)應(yīng),記為g(ωi)。將這個(gè)頻率位置的信息與頻率自身相結(jié)合,可以得到一個(gè)k維特征向量UF:

    對(duì)于(0,1)-序列而言,k=2。因而,由5條派生(0,1)-序列可以得到5×2=10個(gè)量。而對(duì)于蛋白質(zhì)原始序列而言,k=20,由其可得到20個(gè)量,從而有

    2.3基于氨基酸替換矩陣的特征

    氨基酸的替換矩陣能很好地反映蛋白質(zhì)序列中的一些有用信息,下面通過(guò)它來(lái)提取蛋白質(zhì)序列的特征。

    給定一個(gè)20×20氨基酸替換矩陣A,其中元素ai,j表示對(duì)應(yīng)氨基酸i進(jìn)化突變成氨基酸j的概率(i,j=1,2,…,20)。矩陣A每列看成一個(gè)元素,則A被簡(jiǎn)記為一個(gè)20維向量,

    其中:MAAj=(a1,AAj,a2,AAj,…,a20,AAj)T;AAj表示第j列對(duì)應(yīng)的氨基酸。對(duì)于一條給定的蛋白質(zhì)序列S=s1s2...sL,用Msi代替si,則可得到一個(gè)維數(shù)為20×L的矩陣D,記為

    自協(xié)方差變換(AC)方法是一種分析序列特征表示的有效統(tǒng)計(jì)工具,在許多領(lǐng)域中都有廣泛應(yīng)用[6-7]。用此方法將上述矩陣D轉(zhuǎn)變成一個(gè)固定長(zhǎng)度的向量。AC的計(jì)算公式如下:

    其中:L表示蛋白質(zhì)序列的長(zhǎng)度;i表示第i個(gè)氨基酸;Di,j表示矩陣中第j個(gè)位置氨基酸的得分;lg表示氨基酸間的間隔;ˉDi表示整條序列中第i個(gè)氨基酸的平均得分,

    這樣就能得到20×LG維向量AC:

    其中LG表示距離lg的最大值(lg=1,2,…,LG)。

    綜上所述,一條蛋白質(zhì)序列可由如下向量來(lái)刻畫(huà):

    3 最近鄰分類(lèi)器

    最近鄰法是原理上最為直觀(guān)的一種分類(lèi)方法。對(duì)于一個(gè)c類(lèi)問(wèn)題,假設(shè)已知樣本集IN={ x1,x2,…,x}N,如果待測(cè)樣本x與IN中的xi的距離最小,即

    那么就認(rèn)為樣本x屬于樣本xi所在的類(lèi)別ci,其中ci∈{1,2,…,c}。本文采用的距離公式如下:

    其中:cos(x,y)為向量x和y之間的夾角余弦;d(x,y)為x和y之間的歐式距離。

    4 應(yīng)用

    首先將ZW225數(shù)據(jù)集做為訓(xùn)練集,替換矩陣由文獻(xiàn)[11]公式計(jì)算得到,利用夾克刀檢驗(yàn)最終確定出LG=3,h1=1.0,h2=2.3,結(jié)果見(jiàn)表3。表3中圓括號(hào)內(nèi)的數(shù)字代表相應(yīng)類(lèi)別的蛋白質(zhì)序列數(shù)目,例如Cyto(70)表示該數(shù)據(jù)集中cytoplasmic類(lèi)蛋白質(zhì)序列共有70條。為了方便比較,表3中還列出其他方法的預(yù)測(cè)精度,相應(yīng)結(jié)果都是基于夾克刀檢驗(yàn)的。本文方法對(duì)于Cyto、Memb、Nucl類(lèi)蛋白的預(yù)測(cè)精度較高,分別是90.0%,89.9%,82.9%,總精確度達(dá)到87.1%。這比EN_FKNN[2]略低,與YU_SVM[6]精度一樣,比其余3個(gè)都高。與EN_FKNN[2]相比較而言,其在Cyto和Memb類(lèi)蛋白上預(yù)測(cè)精度比本文方法高,而本文方法在Mito和Nucl類(lèi)蛋白上預(yù)測(cè)能力比EN_FKNN強(qiáng)。

    為了進(jìn)一步評(píng)估本文方法的性能,以CL317作為獨(dú)立數(shù)據(jù)集,利用上述訓(xùn)練得到的參數(shù)進(jìn)行檢驗(yàn),結(jié)果見(jiàn)表4,其中第一行為本文方法的結(jié)果。本文方法預(yù)測(cè)的總精確度達(dá)到90.2%,特別是,Cyto、Memb、Mito、Nucl、Endo類(lèi)蛋白的精確度較高,分別為93.8%,89.1%,82.4%,90.4%,95.7%。在總精確度上,比FKNN[13],PseAAC_SVM[14],EN_ FKNN[2]略低,但是這些方法都是“自測(cè)”,而本研究采用的是獨(dú)立數(shù)據(jù)集。此外,與FKNN[12]持平,EN_FKNN與其余4個(gè)方法相比,本文方法優(yōu)勢(shì)明顯。

    表3 不同方法對(duì)數(shù)據(jù)集ZW225的預(yù)測(cè)結(jié)果比較

    表4 不同的方法測(cè)試對(duì)數(shù)據(jù)集CL317的預(yù)測(cè)結(jié)果比較

    [1]Chen Y L,Li Q Z.Prediction of the subcellular location apoptosis proteins using the algorithm of measure of diversity[J].Acta Sci Natur Univ NeiMongol,2004,25:413-417.

    [2]Gu Q,Ding Y S,Jiang X Y,et al.Prediction of subcellu-lar location apoptosis proteins with ensemble classifier and feature selection[J].Amino Acids,2010,38:975-983.

    [3]Chou K C.Prediction of protein cellular attributes using pseudo amino acid composition[J].PROTEINS:Structure,F(xiàn)unction and Genetics,2001,43:246-255.

    [4]Zhang Z H,Wang ZH,Zhang ZR,et al.A novelmethod for apoptosis protein subcellular localization prediction combining encoding based on grouped weightand support vectormachine[J].FEBSLett,2006,580:6169-6174.

    [5]Zhang L,Liao B,Li D,et al.A novel representation for apoptosis protein subcellular localization prediction using support vector machine[J].J Theor Biol,2009,259:361-365.

    [6]Yu X Q,Zheng X Q,Liu TG,etal.Prediction of apoptosis protein subcellular location based on amino acid substitution matrix and auto covariance transformation[J]. Amino Acids,2012,42:1619-1625.

    [7]于曉慶.基于支持向量機(jī)的生物數(shù)據(jù)分析方法研究[D].上海:上海師范大學(xué),2012.

    [8]Li C,Yang Y,Jia M D,et al.Phylogenetic analysis of DNA sequences based on k-word and rough set theory[J].Physica A,2014,398:162-171.

    [9]Chen Y L,LiQ Z.Prediction of apoptosis protein subcellular location using improved hybrid approach and pseudo amino acid composition[J].J Theor Biol,2007,248:377-381.

    [10]Cheon M,Chang I.Clustering of protein design alphabet by using hierarchical self-organizing map[J].Journal of Korean Physical Society,2004(6):1577-1580.

    [11]Mirny L A,Shakhnovich E I.How to derive a protein folding potential?A new approach to an old problem[J]. JMol Biol,1996,264:1164-1179.

    [12]Jiang X,Wei R,Zhang T,et al.Using the comcept of Chou's pseudo aminoacid composition to predictapoptosis proteins subcellular location:an approach by approximate entropy[J].Prot Pept Lett,2008(15):392-396.

    [13]Ding Y S,Zhang T L.Using Chou's pseudo amino acid composition to predictsubcellular localization of apoptosis proteins:An approach with immune genetic algorithmbased ensemble classifier[J].Pattern Recogn Lett,2008,29:1887-1892.

    [14]Lin H,Wang H,Ding H,et al.Prediction of subcellular localization of apoptosis protein using Chou's pseudo amino acid composition[J].Acta Biotheor,2009,57:321-330.

    (責(zé)任編輯何杰玲)

    New M ethod for Predicting Subcellular Location of Apoptosis Proteins

    WANG Ai-hua1a,YANG Yan1b,LIU Huan1b,CHUWei-wei1b,YU Xiao-qing2,LIChun1b
    (1.a.Teaching and Research Institute of Basic Courses;b.School of Mathematics and Physics,Bohai University,Jinzhou 121013,China;2.Department of Applied Mathematics,Shanghai Institute of Technology,Shanghai201418,China)

    Bymeans of the idea of combining the position information with the frequency itself and taking into account the classifications of the amino acids,physical chemical properties and the amino acid substitutionmatrix,the feature vectorwas constructed for a protein sequence.The nearestneighbor classifier was used as the prediction engine.We selected two widely used datasets(ZW225 and CL317)to provide a comprehensive and unbiased comparison with previous studies of protein subcellular location.The result shows that ourmethod is effective.

    apoptosis proteins;subcellular location;amino acid;the nearest neighbor classifier

    O29;Q71

    A

    1674-8425(2015)05-0061-05

    10.3969/j.issn.1674-8425(z).2015.05.011

    2015-03-26

    國(guó)家自然科學(xué)基金項(xiàng)目(11171042)

    王愛(ài)華(1970—),遼寧錦州人,碩士,主要從事應(yīng)用數(shù)學(xué)研究。

    王愛(ài)華,楊閆,劉歡,等.凋亡蛋白亞細(xì)胞定位預(yù)測(cè)的新方法[J].重慶理工大學(xué)學(xué)報(bào):自然科學(xué)版,2015(5):61-65.

    format:WANG Ai-hua,YANG Yan,LIU Huan,etal.New Method for Predicting Subcellular Location of Apoptosis Proteins[J].Journal of Chongqing University of Technology:Natural Science,2015(5):61-65.

    猜你喜歡
    氨基酸向量蛋白質(zhì)
    蛋白質(zhì)自由
    肝博士(2022年3期)2022-06-30 02:48:48
    向量的分解
    人工智能與蛋白質(zhì)結(jié)構(gòu)
    海外星云(2021年9期)2021-10-14 07:26:10
    聚焦“向量與三角”創(chuàng)新題
    月桂酰丙氨基酸鈉的抑菌性能研究
    UFLC-QTRAP-MS/MS法同時(shí)測(cè)定絞股藍(lán)中11種氨基酸
    中成藥(2018年1期)2018-02-02 07:20:05
    蛋白質(zhì)計(jì)算問(wèn)題歸納
    向量垂直在解析幾何中的應(yīng)用
    向量五種“變身” 玩轉(zhuǎn)圓錐曲線(xiàn)
    一株Nsp2蛋白自然缺失123個(gè)氨基酸的PRRSV分離和鑒定
    南木林县| 嵊州市| 永仁县| 盐津县| 西华县| 施甸县| 沐川县| 前郭尔| 文成县| 东港市| 友谊县| 准格尔旗| 高阳县| 泸定县| 岚皋县| 乃东县| 三门峡市| 锡林郭勒盟| 池州市| 宁城县| 车险| 安远县| 建湖县| 巴彦淖尔市| 西盟| 从化市| 普兰县| 高青县| 大理市| 竹北市| 临沂市| 临泽县| 景东| 康保县| 云南省| 古浪县| 延边| 迁安市| 北票市| 鞍山市| 博兴县|