• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于壓縮氨基酸和支持向量機進行膜蛋白類型識別

      2013-11-14 07:10:30管翠萍徐惠娟
      生物信息學 2013年4期
      關(guān)鍵詞:膜蛋白特征提取氨基酸

      管翠萍,石 晶,徐惠娟

      (寧夏大學生命科學學院,寧夏銀川750021)

      膜蛋白是一類結(jié)構(gòu)獨特的蛋白質(zhì),它處于細胞與外界的交界部位,是細胞執(zhí)行各種功能的物質(zhì)基礎(chǔ),同時也是很多藥物作用的靶點,如最典型的 G蛋白偶聯(lián)受體家族,它雖然只占人類基因組編碼序列的1%,但在藥物研發(fā)中卻有60% ~70% 的目標蛋白是G蛋白偶聯(lián)受體家族成員[1]。目前隨著基因組學和蛋白組學的發(fā)展,對膜蛋白結(jié)構(gòu)和功能的研究刻不容緩,而對膜蛋白進行類型預測則是以上工作的一個重要基礎(chǔ)。膜蛋白根據(jù)其在細胞膜上的不同存在方式,可分為六大類:A.Type I跨膜蛋白,只含有一段α螺旋構(gòu)成的跨膜區(qū),N末端在細胞外,C末端在細胞內(nèi);B.Type II跨膜蛋白,與Type I的方向剛好相反;C.Multipass跨膜蛋白,具有多個跨膜區(qū);D.Lipid Chain錨定膜蛋白,通過脂質(zhì)錨鏈與脂雙層相結(jié)合;E.GPI錨定膜蛋白,通過甘氨酰甘氨酸二肽酶與脂雙層相結(jié)合;F.外周蛋白,通過與其它膜蛋白之間的非共價鍵結(jié)合,而不是直接與脂雙層發(fā)生相互作用[2-3]。

      目前利用分子生物學方法來驗證膜蛋白類型已經(jīng)不能滿足日益增長的膜蛋白序列的需求,而生物信息學則可利用海量的生物數(shù)據(jù),進行分類預測。因此,通過膜蛋白的初級序列結(jié)合生物信息手段來預測其所屬類型,以獲取相關(guān)的結(jié)構(gòu)和功能信息是目前的一個研究趨勢。現(xiàn)已提出了一些預測方法,并取得了較好的預測結(jié)果,如Chou等先后提取氨基酸組分、偽氨基酸組成、蛋白質(zhì)進化等特征進行分類研究[3-8];Feng和Zhang提出了氨基酸指數(shù)的自相關(guān)函數(shù)方法[9];Cai等分別利用部分序列順序作用和功能結(jié)構(gòu)域方法結(jié)合支持向量機(SVM)實現(xiàn)分類預測[10-11];Yang等[12]采用單氨酸和二肽組成方法獲取序列順序信息進行預測;Jiang等融合氨基酸組成和氨基酸位置特征利用支持向量機進行分類預測等[13]。本文將利用壓縮的氨基酸對原始膜蛋白序列進行信息壓縮,對壓縮序列進行氨基酸組成和順序特征的提取,同時采用SVM構(gòu)建分類器,實現(xiàn)六種分類模型的構(gòu)建,利用五疊交叉驗證的方法進行驗證。

      1 材料與方法

      1.1 數(shù)據(jù)集的構(gòu)建

      早期的研究大多數(shù)基于 Chou等人[3]構(gòu)建的CE2059和CE2625兩個通用數(shù)據(jù)集來進行分類模型的構(gòu)建。這兩個數(shù)據(jù)集中的數(shù)據(jù)來源于SWISSPROT1997年11月發(fā)布的Release 37,建立年限較早,且隨著現(xiàn)在數(shù)據(jù)的不斷更新,其中有些信息已經(jīng)變更。2007年,Chou和 Shen基于 SWISS-PROT Release 51對該數(shù)據(jù)集做了進一步擴充,其中訓練集包含3 249個膜蛋白序列;獨立檢驗集包含4 333個膜蛋白序列[8]。2009年,Zeng又對現(xiàn)有數(shù)據(jù)集進行改進,收集了5 750條膜蛋白序列[14]。目前,隨著數(shù)據(jù)庫中數(shù)據(jù)的不斷增長,膜蛋白序列信息也在不斷補充中,采用新的數(shù)據(jù)集來做分類模型是有必要的,但這樣又缺乏了與以往研究的可比較性。所以在本研究中,將采用兩個數(shù)據(jù)集A、B,分別作分類模型構(gòu)建來對預測結(jié)果進行比較。數(shù)據(jù)集A即采用通用的CE2059和CE2625。數(shù)據(jù)集B將根據(jù)最新的2013年1月發(fā)布的uniprotKB/swiss-prot版本進行構(gòu)建,構(gòu)建原則參見CE2059和CE2625等通用數(shù)據(jù)集的建立準則[3,14]:

      (1)選擇uniprotKB/swiss-prot數(shù)據(jù)庫中清楚明確標示和注釋的蛋白質(zhì),如出現(xiàn)“fragment”、“probable”、“potential”或“by similarity”的篩除掉;

      (2)來自不同物種卻同名的蛋白質(zhì)只入數(shù)據(jù)集一次;

      (3)選擇只有唯一類型的蛋白序列入數(shù)據(jù)集。

      經(jīng)篩選,共選出6 069條膜蛋白序列。其中A.Type I 907 條,B.Type II 273,C.Multipass 4 385 條,D.Lipid Chain 268條,E.GPI 183條,F(xiàn).Peripheral 53條。以上作為真樣本集,相應的假樣本集則由除該類型外的其他五組類型數(shù)據(jù)隨機產(chǎn)生,具體分布見表1。

      表1 膜蛋白類型數(shù)據(jù)集Table 1 Database of membrane protein types

      1.2 序列特征的提取與轉(zhuǎn)化

      1.2.1 由原始序列轉(zhuǎn)換為壓縮序列

      引入壓縮氨基酸的概念,即將原始的20種氨基酸 AA={A,R,N,D,C,Q,E,G,H,I,L,M,K,F(xiàn),P,S,T,W,Y,V}根據(jù)理化性質(zhì)的不同進行壓縮分類,性質(zhì)相近的歸為一類,這樣20種氨基酸根據(jù)不同的壓縮方式[15]形成了不同的壓縮種類(見表2)。對表2中所列的11種壓縮方式分別進行測試,比較不同的壓縮方式對膜蛋白類型識別效果的優(yōu)劣。

      表2 不同的壓縮方法對20種氨基酸進行壓縮分類Table 2 Compressed alphabets produced by different methods

      針對每一種壓縮方式,一條原始的由20種氨基酸組成的蛋白質(zhì)序列,利用壓縮的氨基酸轉(zhuǎn)換為壓縮序列。

      1.2.2 對壓縮序列進行氨基酸組分特征提取

      蛋白質(zhì)序列的特征已被普遍用于蛋白質(zhì)的家族分類、結(jié)構(gòu)預測、信號位點識別等方面,且取得了較好的效果,目前比較常用的序列特征有單氨基酸組成和二肽組成,僅考慮單氨基酸的組成,往往會漏掉許多序列次序信息,二肽的組成分析能很好的補充氨基酸序列之間順序的特征,考慮了鄰近殘基之間的耦合作用。通過對壓縮序列進行單氨基酸和二肽組成頻率的統(tǒng)計,將壓縮序列轉(zhuǎn)換為維數(shù)固定的特征向量。具體步驟:

      其中,F(xiàn)i表示在壓縮序列中氨基酸i的出現(xiàn)頻率,Ai表示壓縮序列中氨基酸i出現(xiàn)的總次數(shù),n表示壓縮序列的長度;Fij表示壓縮序列中相鄰兩個氨基酸ij的出現(xiàn)頻率,depij表示壓縮序列中相鄰兩個氨基酸ij出現(xiàn)的總次數(shù),m表示所有兩兩氨基酸出現(xiàn)的可能組合,N屬于表2中所列的11種壓縮后的氨基酸種類。最后,根據(jù)不同的壓縮方式,由公式(1)和公式(2)計算得到的特征向量總維數(shù)也是不同的,應為N+N2。

      1.3 基于SVM的分類模型構(gòu)建

      支持向量機最大的特點就是泛化能力比較強,即由有限的訓練集樣本得到的小誤差仍能夠保證對獨立的測試集的小誤差,同時也可以防止模型構(gòu)建過程中問題的產(chǎn)生。以往的研究表明使用支持向量機方法可以很好的對膜蛋白類型進行預測[11-13]。本文采用libsvm3.13軟件包[16],選擇徑向基核函數(shù)進行多類分類器的構(gòu)建,以實現(xiàn)對膜蛋白類型的識別預測。

      1.4 五疊交叉驗證和評價標準

      利用五疊交叉驗證的方法隨機劃分數(shù)據(jù)集對分類模型進行測試。即將真、假樣本數(shù)據(jù)分別隨機分為5個大致相等的子集,依次各取出一個子集合作為測試集,而各自其余4個子集合作為訓練集,如此交替反復5次后,將各次的準確度作平均。為了避免隨機取樣產(chǎn)生的偏好性,將此驗證過程重復10次。最后,利用靈敏度(Sensitivity)、特異性(Specificity)和總體準確度(Accuracy)這3個指標來評價模型的性能。具體定義如下:

      其中,TP為真陽性的數(shù)目,TN為真陰性的數(shù)目,F(xiàn)P為假陽性的數(shù)目,F(xiàn)N為假陰性的數(shù)目。

      2 結(jié)果分析

      根據(jù)表2所列的不同壓縮方法將膜蛋白序列進行壓縮,轉(zhuǎn)換為壓縮序列;利用單氨基酸和二肽組成的序列信息對序列進行特征提取,根據(jù)壓縮方式不同最終得到不同維數(shù)的特征向量,利用支持向量機(SVM)方法進行分類器構(gòu)建;采用五疊交叉驗證和3個評價指標來衡量不同壓縮方法對分類預測結(jié)果的影響(見表3)。

      表3 采用不同壓縮方法進行分類模型構(gòu)建的預測結(jié)果Table 3 Prediction results of classifiers which construct on different compressed methods

      由表3可知,從整體水平來看,采用Li-B(10)的壓縮方式可以較好地實現(xiàn)對六種膜蛋白類型的分類。為進一步與以往研究進行比較,我們選取Li-B(10)的壓縮方式,再用通用數(shù)據(jù)集A進行測試(數(shù)據(jù)集A中只包括5種膜蛋白類型),結(jié)果見表4。

      由表4結(jié)果可知,采用Li-B(10)的壓縮方式對通用數(shù)據(jù)集A進行特征提取同樣是有效的,比其他基于數(shù)據(jù)集A的預測方法效果要好。

      表4 采用Li-B(10)的壓縮方式對數(shù)據(jù)集A進行測試Table 4 Test the database A with Li-B(10)compressed method

      3 討論

      本研究中采用了與通用數(shù)據(jù)集CE2059和CE2625同樣的構(gòu)建準則來構(gòu)建新的膜蛋白類型數(shù)據(jù)集,與早期通用的數(shù)據(jù)集 CE2059和CE2625相比,該數(shù)據(jù)集包含了更為全面的膜蛋白類型(新增的外周蛋白類型)和序列信息,另外在假樣本的選取上,我們隨機抽取了不同比例的類型數(shù)據(jù)進行組合,并重復10次隨機組成假樣本,避免了隨機抽樣以及假樣本過多所引起的結(jié)果偏差,有效保證了數(shù)據(jù)集的全面性與可靠性。其次,有效特征的選取也是成功構(gòu)建分類器的關(guān)鍵,基于氨基酸組成、氨基酸位置,偽氨基酸以及氨基酸理化性質(zhì)等特征構(gòu)建的分類器均取得了較好的分類效果。本研究利用了壓縮的氨基酸,將原始序列所包含的信息進行有效壓縮,這種方法最早是用在序列比對上,可將序列間的局部相似性最大化,從而發(fā)現(xiàn)序列間保守的區(qū)域或是鑒定序列的同源性關(guān)系等,這里將它應用到分類問題上,再綜合氨基酸組成和順序特征,進行特征提取,由表3和表4結(jié)果可知,該方法在膜蛋白類型分類上是有效的。不同的壓縮方法得到的結(jié)果是有區(qū)別的,如對Type I分類預測時,SE-B(14)的壓縮方式較好,而SE-V(10)對Lipid Chain和Peripheral的分類效果較好。但從整體上來看,則是Li-B(10)的壓縮方式對六種膜蛋白的分類更為合適,平均準確度在85%以上,但對個別類型如Lipid Chain、GPI和Peripheral的分類效果偏低。原因主要有兩點:一是這三種類型的數(shù)據(jù)集所包含的序列數(shù)目較少,使如上方法在對該類型進行特征提取時不能很好的體現(xiàn);二是從類型上分析,Type I、Type II和 Multipass均屬于跨膜蛋白,具有跨膜螺旋特征,而Lipid Chain和GPI屬于錨定蛋白,還有特殊的一類外周蛋白,這三類與跨膜蛋白差異較大,利用如上方法的特征提取對于跨膜蛋白類型的分類效果較為顯著,而對于Lipid Chain、GPI和外周蛋白的區(qū)分還需考慮更為有效的特征,如氨基酸的理化性質(zhì)、序列末端特征等。

      4 結(jié)論

      綜上所述,利用壓縮的氨基酸結(jié)合氨基酸組分和二肽順序特征來預測膜蛋白類型是一種有效的方法。該方法操作簡單,但是僅限于對類型的預測,如要進一步對膜蛋白功能和結(jié)構(gòu)進行分析,還需考慮更多的一些屬性特征,挖掘這些特性有待于進一步的研究,為更深入的探討膜蛋白功能奠定基礎(chǔ)。

      References)

      [1] Oren M.Becker,Yael Marantz,Sharon Shacham,Boaz Inbal,Alexander Heifetz,Ori Kalid,Shay Bar-Haim,Dora Warshaviak,Merav Fichman and Silvia Noiman.G protein coupled receptors:In silico drug discovery in 3D [J].Proceedings of the National Academy of Sciences of the United States of America,2004,101(31):11304-11309.

      [2] 張振慧.蛋白質(zhì)分類問題的特征提取算法研究[D].湖南長沙:國防科學技術(shù)大學,2006.

      [3] Kuo-Chen Chou,David W.Elrod.Prediction of membrane protein types and subcellular locations[J].Proteins,1999,34(1):137 -153.

      [4] Kuo-Chen Chou.Prediction of Protein Cellular Attributes Using Pseudo-amino Acid Com position [J].Proteins,2001,43(3):246-255.

      [5] Kuo-Chen Chou,David W.Elrod.Protein Subcellular Locations Prediction[J].Protein Engineering design& selection,1999,12(2):107-118.

      [6] Hong-Bin Shen,Kuo-Chen Chou.Using optimized evidence theoretic K-nearest neighbor classifier and pseudo-amino acid composition to predict membrane protein types[J].Biochemical and Biophysical Research Communications,2005,334(1):288 -292.

      [7] Hong-Bin Shen,Jie Yang,Kuo-Chen Chou.Fuzzy KNN for predicting membrane protein types from pseudo-amino acid composition [J].Journal of Theoretical Biology,2006,240(1):9 -13.

      [8] Kuo-Chen Chou,Hong-Bin Shen.MemType-2L:a web server for predicting membrane proteins and their types by incorporating evolution information through Pse-PSSM[J].Biochemical and Biophysical Research Communications,2007,360(2):339 -345.

      [9] Zhi-Ping Feng,Chun-Ting Zhang.Prediction of membrane protein types based on the hydrop-hobic index of amino acids[J].Journal of Protein Chemistry,2000,19(4):269 -275.

      [10] Yu-Dong Cai,Xiao-Jun Liu,Xue-Biao Xu and Kuo-Chen Chou.SVM for predicting membrane protein types by incorporating quasisequence-order effect[J].Internet Electronic Journal of Molecular Design,2002,1(4):219 -226.

      [11] Yu-Dong Cai,Guo-Ping Zhou and Kuo-Chen Chou.Support vector machines for predicting membrane protein types by using functional domain composition[J].Biophysical Journal,2003,84(5):3257-3263.

      [12] Xiao-Guang Yang,Rui-Yan Luo and Zhi-Ping Feng.Using amino acid and peptide composition to predict membrane protein types[J].Biochemical and Biophysical Research Communications,2007,353(1):164-169.

      [13]姜彬,王正華,王勇獻,賀細平.多特征融合提取算法結(jié)合支持向量機預測膜蛋白類型[J].上海交通大學學報,2009,7:1172-1176.

      [14]曾聰.蛋白分類的特征提取算法和數(shù)據(jù)集構(gòu)建技術(shù)研究[D].湖南長沙:國防科學技術(shù)大學,2010.

      [15] Robert C.Edgar.Local homology recognition and distance measures in linear time using compressed amino acid alphabets[J].Nucleic Acids Research,2004,32(1):380 -385.

      [16] Chih-Chung Chang and Chih-Jen Lin.LIBSVM:a library for support vector machines[J].ACM Transactions on Intelligent Systems and Technology,2011,2(3):1 -27.

      猜你喜歡
      膜蛋白特征提取氨基酸
      月桂酰丙氨基酸鈉的抑菌性能研究
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      UFLC-QTRAP-MS/MS法同時測定絞股藍中11種氨基酸
      中成藥(2018年1期)2018-02-02 07:20:05
      Bagging RCSP腦電特征提取算法
      干擾素誘導跨膜蛋白抑制小兒流感病毒作用及其機制研究
      一株Nsp2蛋白自然缺失123個氨基酸的PRRSV分離和鑒定
      EB病毒潛伏膜蛋白1基因多態(tài)性與NK/T細胞淋巴瘤的相關(guān)性
      梅毒螺旋體四種膜蛋白克隆重組表達和ELISA法建立的應用研究
      基于MED和循環(huán)域解調(diào)的多故障特征提取
      氨基酸分析儀測定玉米漿中17種游離氨基酸的不確定度評定
      岑溪市| 唐河县| 吉木萨尔县| 东台市| 玉屏| 班玛县| 鄢陵县| 沭阳县| 余干县| 宾川县| 金溪县| 萨嘎县| 临江市| 青河县| 炉霍县| 顺平县| 武川县| 崇左市| 中山市| 金山区| 祥云县| 晋宁县| 墨脱县| 筠连县| 汕尾市| 浪卡子县| 连平县| 浮山县| 双流县| 霍州市| 仁怀市| 平安县| 军事| 安远县| 玛多县| 南涧| 鲁甸县| 苏尼特右旗| 宿迁市| 比如县| 吉林省|