• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于K-mer扭轉(zhuǎn)角偏好的蛋白質(zhì)結(jié)構(gòu)類型預(yù)測(cè)

      2021-05-06 02:01:16
      生物信息學(xué) 2021年1期
      關(guān)鍵詞:氨基酸聚類向量

      萬 曉 耕

      (北京化工大學(xué) 數(shù)理學(xué)院,北京 100029)

      蛋白質(zhì)是生命過程中的重要有機(jī)物,其序列、結(jié)構(gòu)和功能多種多樣。蛋白質(zhì)由20種氨基酸通過肽鍵結(jié)合形成肽鏈,這些肽鏈通過折疊形成多種多樣的結(jié)構(gòu)[1]。蛋白質(zhì)的序列決定結(jié)構(gòu),而序列和結(jié)構(gòu)又決定了它的功能[1]。研究蛋白質(zhì)的結(jié)構(gòu)分類和預(yù)測(cè)對(duì)深入了解蛋白質(zhì)的作用和功能具有重要意義。蛋白質(zhì)結(jié)構(gòu)的研究分為蛋白質(zhì)二級(jí)結(jié)構(gòu)的研究和對(duì)其空間結(jié)構(gòu)的研究,其中蛋白質(zhì)的二級(jí)結(jié)構(gòu)指的是其骨干肽鏈的結(jié)構(gòu)。蛋白質(zhì)的二級(jí)結(jié)構(gòu)可以分為不同的結(jié)構(gòu)類型。例如,在CATH數(shù)據(jù)庫中,蛋白質(zhì)的二級(jí)結(jié)構(gòu)分為三個(gè)主要結(jié)構(gòu)類型:主要α結(jié)構(gòu)(Mainlyαstructures)類,主要β結(jié)構(gòu)(Mainlyβstructures)類,和混合α與β結(jié)構(gòu)(Mixedαandβstructures)類[1]。蛋白質(zhì)二級(jí)結(jié)構(gòu)的預(yù)測(cè)通常利用蛋白質(zhì)的氨基酸序列信息預(yù)測(cè)其可能形成的二級(jí)結(jié)構(gòu)類型。常用的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法包括人工神經(jīng)網(wǎng)絡(luò)法、最近鄰法和支持向量機(jī)法等[1]。一些經(jīng)典的蛋白質(zhì)二級(jí)結(jié)構(gòu)預(yù)測(cè)方法包括Chou-Fasman[2]、GOR[3]、 PHD[4]、CONCORD[5]、 I-TASSER[6], 以及Robetta[7]等方法。

      蛋白質(zhì)的二級(jí)結(jié)構(gòu)可以進(jìn)一步分為不同的折疊結(jié)構(gòu)。Ding和Dubchak提出了一種基于支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)的多類蛋白質(zhì)折疊識(shí)別方法[8]。Edler和Grassmann做出了關(guān)于統(tǒng)計(jì)學(xué)方法在蛋白質(zhì)折疊類預(yù)測(cè)中的角色和結(jié)果的研究[9]。 Huang等提出了一種基于分層學(xué)習(xí)體系結(jié)構(gòu)的帶自動(dòng)特征選擇的蛋白質(zhì)折疊分類方法[10]。Jo等做出了利用深度學(xué)習(xí)網(wǎng)絡(luò)來改進(jìn)蛋白質(zhì)折疊識(shí)別的研究[11]。Khan和Shahzad提出了一種新的受螞蟻啟發(fā)的基于關(guān)聯(lián)規(guī)則分類器的蛋白質(zhì)分類方法[12]。Markowetz、Edler和Vingron做出了一項(xiàng)基于支持向量機(jī)的關(guān)于蛋白質(zhì)折疊類預(yù)測(cè)的研究[13]。Tan, Gilbert和Deville提出了一種基于新的集成機(jī)器學(xué)習(xí)方法的多類蛋白質(zhì)折疊分類方法[14]。Wei等提出了一種基于新特征提取技術(shù)的增強(qiáng)的蛋白質(zhì)折疊識(shí)別方法[15]。Wei和Zou總結(jié)了關(guān)于基于機(jī)器學(xué)習(xí)的蛋白質(zhì)折疊識(shí)別方法研究進(jìn)展綜述[16]。

      蛋白質(zhì)的二級(jí)結(jié)構(gòu)也可以通過氨基酸的物理、化學(xué)性質(zhì)來進(jìn)行分類。Rackovsky在文獻(xiàn)[17]中提出利用氨基酸的物理屬性對(duì)蛋白質(zhì)二級(jí)結(jié)構(gòu)類型進(jìn)行分類的研究。該研究利用10種主要的氨基酸物理屬性將CATH數(shù)據(jù)按三種主要結(jié)構(gòu)類型(主要α類、主要β類、混合α和β結(jié)構(gòu)類)進(jìn)行分類。該研究表明蛋白質(zhì)的結(jié)構(gòu)與氨基酸的物理屬性具有一定的聯(lián)系[17]。

      蛋白質(zhì)序列的特征提取對(duì)研究蛋白質(zhì)的結(jié)構(gòu)具有重要應(yīng)用[18]。自然向量通過計(jì)算氨基酸的成分和排序?qū)⒌鞍踪|(zhì)序列映射成60維實(shí)空間中的向量,每一個(gè)序列的自然向量與該序列是一一對(duì)應(yīng)的[18]。由自然向量法可以導(dǎo)出一系列其它的序列特征提取方法[19],如:K-串字典法[20]、蛋白質(zhì)映射[21-22]等。這些特征提取法可用于提取蛋白質(zhì)的序列特征,進(jìn)而用于對(duì)其結(jié)構(gòu)的分類和預(yù)測(cè)。

      利用5-mer中間氨基酸的扭轉(zhuǎn)角統(tǒng)計(jì)偏好來對(duì)蛋白質(zhì)序列進(jìn)行結(jié)構(gòu)類型的預(yù)測(cè)和分類是一種新的蛋白質(zhì)二級(jí)結(jié)構(gòu)分類方法。該方法從PDB數(shù)據(jù)庫中獲取5-mer的統(tǒng)計(jì)信息,并通過對(duì)5-mer中間氨基酸扭轉(zhuǎn)角的統(tǒng)計(jì)和聚類,經(jīng)過組合、打分、篩選和拼接實(shí)現(xiàn)對(duì)蛋白質(zhì)序列的結(jié)構(gòu)類型預(yù)測(cè),即將蛋白質(zhì)序列按CATH的分類分為三種主要結(jié)構(gòu)類型:主要α結(jié)構(gòu)類、主要β結(jié)構(gòu)類,混合α和β結(jié)構(gòu)類。該新方法源于I-TASSER和Robetta這兩種服務(wù)器式預(yù)測(cè)方法,與I-TASSER和Robetta的主要區(qū)別在于,新方法基于局部序列環(huán)境對(duì)扭轉(zhuǎn)角偏好的影響,即通過統(tǒng)計(jì)局部序列單元即5-mer的扭轉(zhuǎn)角偏好,實(shí)現(xiàn)蛋白質(zhì)二級(jí)結(jié)構(gòu)類型的預(yù)測(cè),而I-TASSER與Robetta則是通過同源模板的匹配來進(jìn)行結(jié)構(gòu)預(yù)測(cè)和分類。

      在研究方法中,詳細(xì)介紹該新方法的實(shí)現(xiàn)過程和步驟,并提供方法實(shí)現(xiàn)的流程圖。在結(jié)果中,展示5-mer的統(tǒng)計(jì)分析結(jié)果,以及兩組隨機(jī)抽取的CATH數(shù)據(jù)的結(jié)構(gòu)分類結(jié)果,所有分類結(jié)果均與四種基于序列特征的結(jié)構(gòu)預(yù)測(cè)或分類方法進(jìn)行比較,這四種方法分別為:(1)基于平均屬性因子和自然向量特征提取的最小平方誤差(MSE)超平面[2]分類方法;(2)PseAAC的支持向量機(jī)分類方法;(3)Chou-Fasman方法。在討論部分,詳細(xì)總結(jié)和討論了新方法的特點(diǎn)和有效性。

      1 研究方法

      分步介紹5-mer扭轉(zhuǎn)角分類方法的實(shí)現(xiàn)步驟。主要分為兩部分:(1)PDB數(shù)據(jù)庫中5-mer中間氨基酸扭轉(zhuǎn)角結(jié)構(gòu)偏好的統(tǒng)計(jì)分析;(2)利用5-mer中間氨基酸結(jié)構(gòu)統(tǒng)計(jì)偏好對(duì)蛋白質(zhì)序列的結(jié)構(gòu)類型進(jìn)行預(yù)測(cè)。

      1.1 5-mer扭轉(zhuǎn)角的統(tǒng)計(jì)分析與聚類

      1.1.1 5-mer中間氨基酸扭轉(zhuǎn)角的統(tǒng)計(jì)分析

      首先統(tǒng)計(jì)PDB數(shù)據(jù)庫中5-mer中間氨基酸的扭轉(zhuǎn)角結(jié)構(gòu)類型。從PDB數(shù)據(jù)庫中提取氨基酸扭轉(zhuǎn)角的統(tǒng)計(jì)信息。PDB數(shù)據(jù)庫中包含超過100 000 條X-Ray實(shí)驗(yàn)獲取的PDB結(jié)構(gòu),通過數(shù)據(jù)庫中的這些PDB結(jié)構(gòu)信息來獲取5-mer的統(tǒng)計(jì)信息。所謂5-mer即是由5個(gè)相鄰氨基酸組成的長(zhǎng)度為5的局部序列。對(duì)5-mer進(jìn)行統(tǒng)計(jì)分析不僅可以獲取充足的統(tǒng)計(jì)數(shù)據(jù),而且5-mer是能體現(xiàn)局部結(jié)構(gòu)的最小序列單元。在文獻(xiàn)[23]中, Morikawa提出長(zhǎng)度為5的氨基酸序列可用于表示蛋白質(zhì)序列的局部結(jié)構(gòu)分布。一方面,長(zhǎng)度為5的局部序列已經(jīng)能夠充分表示蛋白質(zhì)的局部結(jié)構(gòu)傾向,更短的序列無法充分表達(dá)局部序列對(duì)結(jié)構(gòu)的影響。另一方面,表達(dá)局部結(jié)構(gòu)的氨基酸序列不應(yīng)過長(zhǎng),過長(zhǎng)的序列會(huì)導(dǎo)致無法獲取足夠數(shù)量的統(tǒng)計(jì)數(shù)據(jù)。長(zhǎng)度為5的局部序列既保證了充足數(shù)量的統(tǒng)計(jì)數(shù)據(jù),又能夠體現(xiàn)局部序列對(duì)結(jié)構(gòu)的影響。

      給定一條長(zhǎng)度為L(zhǎng)的氨基酸序列a1a2…aL,該序列中共含有L-4個(gè)5-mer:ai-2ai-1aiai+1ai+2, 3≤i≤L-3。為了預(yù)測(cè)這條氨基酸序列的結(jié)構(gòu)類型, 統(tǒng)計(jì)PDB數(shù)據(jù)庫中通過X-Ray實(shí)驗(yàn)獲得的PDB結(jié)構(gòu)中5-mer中間氨基酸的扭轉(zhuǎn)角信息,并通過聚類獲取5-mer中間氨基酸扭轉(zhuǎn)角的統(tǒng)計(jì)偏好。

      1.1.2 拉氏圖中扭轉(zhuǎn)角的聚類分析

      從PDB數(shù)據(jù)庫中獲取所有可能出現(xiàn)的5-mer序列,以及其出現(xiàn)頻數(shù)和中間氨基酸的(φ,ψ) 扭轉(zhuǎn)角列表。每一種5-mer都對(duì)應(yīng)一個(gè)記錄其中間氨基酸扭轉(zhuǎn)角值的列表,通過對(duì)列表中扭轉(zhuǎn)角值的聚類分析來獲取5-mer中間氨基酸扭轉(zhuǎn)角的結(jié)構(gòu)偏好。

      將每一種5-mer扭轉(zhuǎn)角列表中的(φ,ψ)值畫在同一張拉氏圖中,圖中所有的(φ,ψ)點(diǎn)都落在[-180,180]×[-180,180] 區(qū)域內(nèi)。使用下列方法來獲取每種5-mer中間氨基酸扭轉(zhuǎn)角的聚類。

      首先,在拉氏圖中[-180,180]×[-180,180]區(qū)域內(nèi)的整坐標(biāo)點(diǎn)上定義濃度:

      (1)

      其中Nr(φ,ψ) 表示該拉氏圖中落入圓心為(φ,ψ)半徑為r的閉圓域內(nèi)的扭轉(zhuǎn)角個(gè)數(shù),N表示整個(gè)拉氏圖中總的扭轉(zhuǎn)角點(diǎn)數(shù),即5-mer扭轉(zhuǎn)角列表中的(φ,ψ)扭轉(zhuǎn)角個(gè)數(shù),也即該5-mer在PDB數(shù)據(jù)庫中出現(xiàn)的次數(shù)。該濃度值即為給定5-mer的扭轉(zhuǎn)角列表中落入整坐標(biāo)點(diǎn)(φ,ψ)的閉圓域內(nèi)的扭轉(zhuǎn)角比例。計(jì)算拉氏圖中[-180,180]×[-180,180]區(qū)域內(nèi)361x361個(gè)整坐標(biāo)點(diǎn)對(duì)應(yīng)的濃度值。扭轉(zhuǎn)角的聚類即為拉氏圖中扭轉(zhuǎn)角的局部聚集區(qū)域。將拉氏圖中局部濃度峰值所在坐標(biāo)定義為聚類的中心。

      為了研究圓域半徑r對(duì)濃度的影響,將r從1 到20進(jìn)行遍歷并計(jì)算相應(yīng)的濃度值。給出了一個(gè)在不同圓域半徑下進(jìn)行聚類分析的例子(見圖1),當(dāng)r較小時(shí),聚類較為離散;而當(dāng)r增大時(shí),聚類的分布變得較為平坦。通過比較發(fā)現(xiàn),不同圓域半徑對(duì)應(yīng)的聚類相似。發(fā)現(xiàn)r=10左右為識(shí)別聚類的理想值。為了避免圓域半徑對(duì)聚類的影響,對(duì)r從1到20變化時(shí)計(jì)算得到的扭轉(zhuǎn)角聚類中心取平均作為最終的聚類中心,該聚類中心代表了相應(yīng)5-mer中間氨基酸扭轉(zhuǎn)角的統(tǒng)計(jì)偏好。

      圖1 不同濃度半徑下的聚類情況Fig.1 Clustering situations with different density radius

      圖1顯示了濃度半徑r=1,3,5,10,15,20對(duì)應(yīng)的扭轉(zhuǎn)角聚類情況。以5-mer ‘NLYFQ’為例計(jì)算不同濃度半徑下的聚類情況??梢钥闯霾煌霃綄?duì)應(yīng)的聚類位置不變,而聚類隨著半徑的增加變得更加平坦。用Ω表示PDB數(shù)據(jù)庫中所有5-mer的集合。記S為Ω中的一個(gè)5-mer,其中間氨基酸扭轉(zhuǎn)角的聚類個(gè)數(shù)為MS,用Ci(s) 表示S中間氨基酸扭轉(zhuǎn)角的聚類中心(i=1,…,Ms)。5-mer中間氨基酸扭轉(zhuǎn)角的聚類反映了在該5-mer:ai-2ai-1aiai+1ai+2序列環(huán)境下,中間氨基酸ai的扭轉(zhuǎn)角取值傾向。用上述濃度分析5-mer集合Ω中每一個(gè)5-mer中間氨基酸的扭轉(zhuǎn)角聚類情況。

      1.2 蛋白質(zhì)序列結(jié)構(gòu)類型的預(yù)測(cè)

      利用已經(jīng)獲取Ω中所有5-mer中間氨基酸的扭轉(zhuǎn)角聚類來實(shí)現(xiàn)蛋白質(zhì)序列的結(jié)構(gòu)類型預(yù)測(cè)。整個(gè)預(yù)測(cè)過程分為三個(gè)階段:(1)分段與聚類,(2)打分和分組,(3)拼接與篩選。

      1.2.1 序列分段與扭轉(zhuǎn)角的聚類

      (1)序列分段 設(shè)a1a2…aL是一條長(zhǎng)度為L(zhǎng)的氨基酸序列。在該序列中,除了開頭兩個(gè)和結(jié)尾兩個(gè)氨基酸外,每個(gè)氨基酸都可以看成序列中某個(gè)5-mer的中間氨基酸。例如,a3是5-mer:a1a2a3a4a5的中間氨基酸。一般情況下,ai是5-mer:ai-2ai-1aiai+1ai+2的中間氨基酸,3≤i≤L-2。

      由于利用5-mer中間氨基酸的扭轉(zhuǎn)角統(tǒng)計(jì)偏好來預(yù)測(cè)蛋白質(zhì)序列的結(jié)構(gòu)類型,因此對(duì)于序列a1a2…aL來說,實(shí)際上預(yù)測(cè)的是子序列a3a4…aL-3aL-2的結(jié)構(gòu)類型。開頭和結(jié)尾各兩個(gè)氨基酸作為第一個(gè)和最后一個(gè)5-mer的背景氨基酸。將a3a4…aL-3aL-2分成首尾相接的5-mer序列段:a3a4a5a6a7,a8a9a10a11a12,…,a5i-2a5i-1a5ia5i+1a5i+2,…, 最后一個(gè)序列段可能長(zhǎng)度不足5,因此不一定是一個(gè)完整的5-mer。

      表1 序列段Si對(duì)應(yīng)的5-mer中間氨基酸扭轉(zhuǎn)角聚類中心 Table 1 Torsion angle cluster centers for the middle amino acids of 5-mers in sequence segment Si

      1.2.2 結(jié)構(gòu)類型的預(yù)測(cè)

      (1)打分策略 在序列段Si:a5i-2a5i-1a5ia5i+1a5i+2的Mi種聚類組合中,每一種聚類組合可以表示為:

      pk1k2k3k4k5(Si)=Ck1(si,1)Ck2(si,2)Ck3(si,3)
      Ck4(si,4)Ck5(si,5),

      (2)

      其中1≤kj≤Msi,j為第j個(gè)(j=1,2,3,4,5)氨基酸的聚類索引,Msi,j為第j個(gè)氨基酸的聚類總個(gè)數(shù),Ckj(si,j)∈{Ck(si,j)|k=1,…,Msi,j}表示每個(gè)5-mersi,j中間氨基酸的扭轉(zhuǎn)角聚類中心。定義閾值T>0 和一個(gè) 1×4維距離向量dk1k2k3k4k5(Si)=(d1,d2,d3,d4),其中dj表示聚類中心Ckj(si,j)和Ckj+1(si,j+1)之間的歐氏距離, 即dj=|Ckj(si,j)-Ckj+1(si,j+1)|,j=1,2,3,4。利用閾值T來過濾距離向量dk1k2k3k4k5(Si)=(d1,d2,d3,d4), 并獲得一個(gè)邏輯值向量bk1k2k3k4k5(Si)=(b1,b2,b3,b4),其中邏輯值bj定義如下:

      (3)

      給定聚類組合pk1k2k3k4k5(Si)=Ck1(si,1)Ck2(si,2)Ck3(si,3)Ck4(si,4)Ck5(si,5), 邏輯值向量bk1k2k3k4k5(Si)=(b1,b2,b3,b4)表示序列段Si中相鄰兩個(gè)氨基酸扭轉(zhuǎn)角聚類中心之間的距離。若bj=1, 則相鄰氨基酸的(φ,ψ)扭轉(zhuǎn)角聚類中心Ckj(si,j)與Ckj+1(si,j+1)之間的距離不超過閾值T。

      統(tǒng)計(jì)邏輯值向量bk1k2k3k4k5(Si)=(b1,b2,b3,b4)中連續(xù)1串的長(zhǎng)度和個(gè)數(shù)。例如, 邏輯值向量bk1k2k3k4k5(Si)=(1,0,1,1) 有兩個(gè)1串,一個(gè)(第一個(gè)分量)長(zhǎng)度為1,另一個(gè)(最后兩個(gè)分量)長(zhǎng)度為2。對(duì)于序列段Si,用ni表示其邏輯值向量中1串的個(gè)數(shù),用lk,k=1,2,…,ni表示每個(gè)1串的長(zhǎng)度,則序列段Si中聚類組合pk1k2k3k4k5(Si)的分值定義為:

      (4)

      其中kj=1,2,…,Msi,j(j=1,2,3,4,5) 表示序列段Si中第j個(gè)氨基酸對(duì)應(yīng)5-mer的聚類索引,ni表示這個(gè)聚類組合邏輯值向量中1串的個(gè)數(shù),lk(k=1,2,…,ni)表示邏輯值向量中第k個(gè)1串的長(zhǎng)度。

      (2)分組 按上述方法計(jì)算序列段Si中每一種聚類組合pk1k2k3k4k5(Si)的分值Ωk1k2k3k4k5(Si) ,并通過下述方法將其分為不同的結(jié)構(gòu)類型。對(duì)序列段Si的任意一個(gè)聚類組合pk1k2k3k4k5(Si) ,定義為:

      (5)

      將每個(gè)結(jié)構(gòu)類Gk(Si),k=1,2,…,Ng(Si),中打分最高的扭轉(zhuǎn)角聚類組合選為該結(jié)構(gòu)類的代表,即當(dāng):

      (6)

      時(shí),選擇聚類組合pk'1k'2k'3k'4k'5(Si)=Ck'1(si,1)Ck'2(si,2)Ck'3(si,3)Ck'4(si,4)Ck'5(si,5)為該結(jié)構(gòu)類的代表。從每個(gè)結(jié)構(gòu)類中選取打分最高的扭轉(zhuǎn)角聚類組合作為該結(jié)構(gòu)類的代表,因此獲得一個(gè)預(yù)測(cè)結(jié)構(gòu)的列表:

      (7)

      在拼接與篩選階段,使用一個(gè)迭代的拼接策略。從第一個(gè)序列段S1開始,將序列段S1與S2的結(jié)構(gòu)拼接在一起形成序列段S1S2的結(jié)構(gòu)。記NP(Si) 為序列段Si的預(yù)測(cè)結(jié)構(gòu)數(shù),則序列段S1與S2拼接后的預(yù)測(cè)結(jié)構(gòu)數(shù)為NP(S1)·NP(S2)。

      將列段S1S2的所有Np(S1)·Np(S2)個(gè)預(yù)測(cè)結(jié)構(gòu)的扭轉(zhuǎn)角聚類組合記為集合{p(S1S2)}。為序列段S1S2相鄰扭轉(zhuǎn)角聚類中心計(jì)算一個(gè)1×9維的距離向量d(S1S2)=(d1,d2,d3,d4,d5,d6,d7,d8,d9)以及相應(yīng)的1×9維邏輯值向量b(S1S2)=(b1,b2,b3,b4,b5,b6,b7,b8,b9)。接下來,從邏輯值向量出發(fā)來計(jì)算每個(gè)結(jié)構(gòu)組合的分值:

      (8)

      其中n表示邏輯值向量中1-串的個(gè)數(shù),lk表示每個(gè)1串的長(zhǎng)度。為所有NP(S1)·NP(S2) 種結(jié)構(gòu)組合計(jì)算分值,獲得一個(gè)相應(yīng)于集合{p(S1S2)}的結(jié)構(gòu)組合打分列表{Ω(S1S2)}。從打分列表中選取分值最高的5個(gè)結(jié)構(gòu)為序列段S1S2的預(yù)測(cè)結(jié)構(gòu)。

      在第i個(gè)迭代循環(huán)中,獲得序列段S1S2…Si的5個(gè)最優(yōu)預(yù)測(cè)結(jié)構(gòu){p(S1S2…Si)}。接下來,將序列段S1S2…Si與Si+1進(jìn)行拼接。類似于上述步驟,總共獲得Np(S1S2…Si)·Np(Si+1)種組合結(jié)構(gòu){p(S1S2…Si+1)}。通過計(jì)算相鄰氨基酸扭轉(zhuǎn)角聚類中心的距離向量d(S1S2…Si+1)=(d1,d2,…,d5*(i+1)-1)和邏輯值向量b(S1S2…Si+1)=(b1,b2,…,b5*(i+1)-1)來為拼接結(jié)構(gòu)進(jìn)行打分。對(duì)所有的結(jié)構(gòu)組合{p(S1S2…Si+1)}計(jì)算打分列表{Ω(S1S2…Si+1)},并選取其中分值最高的5個(gè)拼接結(jié)構(gòu)作為序列段S1S2…Si+1的預(yù)測(cè)結(jié)構(gòu)。

      迭代過程一直到所有序列段都拼接起來為止。最后,從整條序列的打分列表中選取分值最高的5個(gè)結(jié)構(gòu)作為最終的預(yù)測(cè)結(jié)構(gòu)。預(yù)測(cè)方法的流程圖(見圖2)。

      圖2 5-mer扭轉(zhuǎn)角結(jié)構(gòu)預(yù)測(cè)法流程圖Fig.2 Flow chart for the structural prediction method based on torsion angle of 5-mers

      圖2顯示了5-mer扭轉(zhuǎn)角結(jié)構(gòu)預(yù)測(cè)方法的流程圖。流程圖主要分為兩部分:(1)5-mer扭轉(zhuǎn)角的統(tǒng)計(jì)與聚類分析;(2)氨基酸扭轉(zhuǎn)角聚類的組合、拼接與篩選。

      (4) 結(jié)構(gòu)的分類與準(zhǔn)確率 通過上述步驟,每一條蛋白質(zhì)序列得到5個(gè)最優(yōu)(分值最高)預(yù)測(cè)結(jié)構(gòu),利用這5個(gè)最優(yōu)結(jié)構(gòu)來判斷蛋白質(zhì)的結(jié)構(gòu)類型。對(duì)于每個(gè)預(yù)測(cè)結(jié)構(gòu)來說,它的結(jié)構(gòu)類型取決于該結(jié)構(gòu)中不同結(jié)構(gòu)類型扭轉(zhuǎn)角的統(tǒng)計(jì)頻率。在拉氏圖中,α螺旋和β平面這兩種不同結(jié)構(gòu)的(φ,ψ)扭轉(zhuǎn)角位于拉氏圖中的不同區(qū)域[25-29]。α螺旋對(duì)應(yīng)的扭轉(zhuǎn)角集中于(-60°,-45°)附近的區(qū)域內(nèi)[25-29]。更一般地,在α螺旋結(jié)構(gòu)中,一個(gè)氨基酸殘基的ψ角和下一個(gè)氨基酸殘基的φ角之和大致接近于-105°[25-29]。因此,α螺旋的扭轉(zhuǎn)角在拉氏圖中一般散布于由(-90°,-15°) 到 (-35°,-70°)的對(duì)角線(斜率為-1)區(qū)域內(nèi)[25-29]。α螺旋既有右手α螺旋,也有左手α螺旋,其中最普遍的為右手α螺旋。左手α螺旋的扭轉(zhuǎn)角在拉氏圖中分布于與右手α螺旋關(guān)于原點(diǎn)對(duì)稱的區(qū)域。將右手和左手α螺旋統(tǒng)稱為α螺旋,并將落在左手或右手α螺旋區(qū)域及附近的扭轉(zhuǎn)角通稱為α類扭轉(zhuǎn)角。

      β平面的扭轉(zhuǎn)角通常落在 (-135°,135°) 附近的區(qū)域內(nèi)(大致來說,在拉氏圖的左上角區(qū)域),并且明顯偏離構(gòu)象(-180°,180°)[26-29]。在平行β平面中,扭轉(zhuǎn)角接近于 (-120°,115°), 而在反平行β平面中(φ,ψ)扭轉(zhuǎn)角接近于(-140°,135°)??紤]平行和反平行的β平面,并將兩種β平面結(jié)構(gòu)統(tǒng)稱為β平面,落在β平面扭轉(zhuǎn)角區(qū)域及附近的扭轉(zhuǎn)角通稱為β類扭轉(zhuǎn)角[27-30]。落在α類和β類扭轉(zhuǎn)角區(qū)域外的扭轉(zhuǎn)角則被分為第三類,該類扭轉(zhuǎn)角對(duì)應(yīng)于無規(guī)則的“環(huán)”[31]。

      統(tǒng)計(jì)每個(gè)最優(yōu)結(jié)構(gòu)中上述三種類型扭轉(zhuǎn)角出現(xiàn)的頻率。若α類扭轉(zhuǎn)角頻率最高且α類扭轉(zhuǎn)角頻率明顯高于其它類扭轉(zhuǎn)角時(shí),認(rèn)為該預(yù)測(cè)結(jié)構(gòu)為主要α結(jié)構(gòu)類(C=1);若β類扭轉(zhuǎn)角的頻率最高且β類扭轉(zhuǎn)角的頻率明顯高于其它類扭轉(zhuǎn)角時(shí),該預(yù)測(cè)結(jié)構(gòu)被認(rèn)為屬于主要β結(jié)構(gòu)類(C=2);若不滿足前兩種情況,則認(rèn)為該預(yù)測(cè)結(jié)構(gòu)為α與β的混合類(C=3)。

      統(tǒng)計(jì)數(shù)據(jù)集中每種結(jié)構(gòu)類型下獲得正確分類的蛋白質(zhì)序列數(shù)并記為vi,角標(biāo)i=1,2,3分別對(duì)應(yīng)CATH的三種主要結(jié)構(gòu)類型。我們將該頻數(shù)除以數(shù)據(jù)集中該結(jié)構(gòu)類下真實(shí)的蛋白質(zhì)序列數(shù)Ni,得到該結(jié)構(gòu)類型的分類正確率為:

      (9)

      2 結(jié)果分析

      分析和總結(jié)PDB數(shù)據(jù)庫中5-mer中間氨基酸的扭轉(zhuǎn)角統(tǒng)計(jì)偏好,并利用兩組隨機(jī)抽取的CATH數(shù)據(jù)來驗(yàn)證新方法的有效性。

      2.1 5-mer扭轉(zhuǎn)角的偏好統(tǒng)計(jì)

      統(tǒng)計(jì)PDB數(shù)據(jù)庫中蛋白質(zhì)序列的5-mer及其中間氨基酸的扭轉(zhuǎn)角列表,并對(duì)得到的5-mer扭轉(zhuǎn)角列表進(jìn)行聚類分析。在聚類分析中,使用不同的圓域半徑來計(jì)算扭轉(zhuǎn)角的聚類并取平均。以5-mer ‘NLYFQ’為例, 圖1顯示了用不同半徑r得到的濃度矩陣彩圖。從圖1可以看出,不同半徑r得到的聚類位置不變;當(dāng)半徑增大時(shí),聚類變得較為平坦。分別計(jì)算半徑r=1,2,…, 20對(duì)應(yīng)的聚類中心,并對(duì)不同半徑下的聚類中心取平均作為最終聚類中心。

      對(duì)PDB數(shù)據(jù)庫中的5-mer扭轉(zhuǎn)角聚類進(jìn)行結(jié)構(gòu)分類。根據(jù)拉氏圖中的區(qū)域,將扭轉(zhuǎn)角分為三種類型,即:α螺旋(包括左手和右手α螺旋)、β平面(平行和反平行β平面)、環(huán)(既非α螺旋又非β平面的扭轉(zhuǎn)角被分為第三類)。對(duì)5-mer數(shù)據(jù)集Ω中的每一個(gè)5-mer的扭轉(zhuǎn)角列表進(jìn)行分類,根據(jù)扭轉(zhuǎn)角列表中三種類型扭轉(zhuǎn)角所占比例來確定該5-mer中間氨基酸的結(jié)構(gòu)類型。如果該5-mer扭轉(zhuǎn)角列表中主要為α類扭轉(zhuǎn)角則認(rèn)為該5-mer中間氨基酸為α類;若主要為β類扭轉(zhuǎn)角,則認(rèn)為該5-mer中間氨基酸為β類;若扭轉(zhuǎn)角列表中的扭轉(zhuǎn)角既非α類又非β類,則認(rèn)為該5-mer中間氨基酸為環(huán)類;若α類和β類扭轉(zhuǎn)角各半,則認(rèn)為該5-mer中間氨基酸為α和β的混合類;類似地,還可以定義α、β和環(huán)三種結(jié)構(gòu)的混合類,α和環(huán)的混合類,β和環(huán)的混合類。表2列出了PDB數(shù)據(jù)庫中所有5-mer中間氨基酸扭轉(zhuǎn)角的統(tǒng)計(jì)信息。在所有5-mer中,中間氨基酸為α螺旋類的5-mer占比最高(29.21%), 其中以右手α螺旋居多;中間氨基酸為β平面類的5-mer占比為23.62%;中間氨基酸為α、β和環(huán)的混合類的5-mer占20.91%。α螺旋類5-mer的中間氨基酸主要為A,R,Q,E,L,K;β平面類5-mer的中間氨基酸主要為V,I,F,T,Y;α、β和環(huán)的混合類5-mer的中間氨基酸主要為S,L,D,A,E,T。

      表2列出了PDB數(shù)據(jù)庫中所有5-mer中間氨基酸的扭轉(zhuǎn)角類型,第1列為5-mer的類型,第2、第3列分別為每種類型5-mer的數(shù)量和該種類型5-mer在整個(gè)5-mer數(shù)據(jù)集中所占比例,第4列為每種類型5-mer出現(xiàn)頻率最高的中間氨基酸。

      表2 5-mer中間氨基酸的類型統(tǒng)計(jì)Table 2 Structural type statistics for the middle amino acids of 5-mers

      表3和表4總結(jié)了二十種常見氨基酸作為5-mer中間氨基酸時(shí)在每種類型5-mer中所占比例。表3和表4中第4~8列為每種類型5-mer對(duì)應(yīng)二十種氨基酸所占比例,每一類的百分比之和均為100%。如表3的第4列所示,在所有的α類型5-mer中,丙氨酸(A)作為中間氨基酸出現(xiàn)時(shí)的比例為8.49%,精氨酸(R) 作為中間氨基酸出現(xiàn)時(shí)的比例為6.35%,天冬氨酸(D)作為中間氨基酸出現(xiàn)時(shí)的比例為5.25%,其它氨基酸的情況如表3所示。從表3可以看出每種氨基酸偏好哪種類型的扭轉(zhuǎn)角。例如,在α螺旋類5-mer中,丙氨酸(A)的比例最高(8.49%),說明當(dāng)5-mer中間氨基酸為丙氨酸時(shí),其扭轉(zhuǎn)角傾向于α螺旋類,或者說在α螺旋類的5-mer中,中間氨基酸為丙氨酸(A)的情況居多。類似地,從表3第5列可以看出,左手α螺旋類的5-mer中,天冬氨酸(D)和天冬酰胺(N)比例最高,天冬氨酸(D)和天冬酰胺(N)在左手α螺旋類的5-mer中分別占比11.68%和26.11%,該比例明顯高于其它氨基酸在左手α螺旋5-mer中所占的比例。

      表3 二十種氨基酸在每種5-mer類型中所占比例I Table 3 Proportions of 20 amino acids in each 5-mer type(I ) %

      表中列出了每種5-mer類型中,對(duì)應(yīng)20種常見氨基酸作為中間氨基酸出現(xiàn)時(shí)所占的比例。表中第1~8列,每一列的比例之和為100%。第1~3列分別為20氨基酸的名稱、英文符號(hào)和縮寫,第4~8列分別表示每種5-mer類型中,20種氨基酸作為5-mer中間氨基酸出現(xiàn)時(shí)所占比例。表3中的5-mer類型分別為α螺旋、左手α螺旋、右手α螺旋、β平面和環(huán)。如第4列所示,所有α類5-mer中,丙氨酸(A)占8.49%,精氨酸(R)占6.35%,天冬氨酸(D)占5.25%,其它氨基酸的情況如表中所示。表中所示比例均為每種氨基酸作為5-mer中間氨基酸出現(xiàn)時(shí)的統(tǒng)計(jì)結(jié)果。

      表4 二十種氨基酸在每種5-mer類型中所占比例IITable 4 Proportions of 20 amino acids in each 5-mer type(II) %

      表4中列出了每種5-mer類型中,20種常見氨基酸作為5-mer中間氨基酸出現(xiàn)時(shí)所占的比例。表4第4~8列中,每一列的比例之和為100%。第1~3列分別為20種氨基酸的名稱、英文符號(hào)和縮寫,第4~8列分別為每種5-mer類型中,20種氨基酸作為5-mer中間氨基酸出現(xiàn)時(shí)所占比例。 表4中的5-mer類型分別為α和β的混合類、α和環(huán)的混合類、β和環(huán)的混合類,以及α、β和環(huán)的混合類。所有α和β的混合類5-mer中,丙氨酸(A)占7.29%,精氨酸(R)占5.61%,天冬氨酸(D)占3.61%,其它氨基酸的情況見表4。

      2.2 蛋白質(zhì)的結(jié)構(gòu)類型預(yù)測(cè)

      利用蛋白質(zhì)的序列信息和PDB數(shù)據(jù)庫中5-mer扭轉(zhuǎn)角統(tǒng)計(jì)信息來預(yù)測(cè)蛋白質(zhì)的結(jié)構(gòu)類型。以兩組隨機(jī)抽取的CATH數(shù)據(jù)為例來闡述本方法的有效性。將蛋白質(zhì)序列分為主要α類(C=1)、主要β類(C=2)、混合α和β類(C=3)這三種結(jié)構(gòu)類型。

      2.2.1 9組CATH數(shù)據(jù)的分類

      從CATH數(shù)據(jù)庫中隨機(jī)抽取9組CATH數(shù)據(jù)進(jìn)行結(jié)構(gòu)分類研究。這9組CATH數(shù)據(jù)分別來自CATH的三個(gè)主要結(jié)構(gòu)類,從每個(gè)結(jié)構(gòu)類中隨機(jī)抽取3組數(shù)據(jù)。在保證每個(gè)結(jié)構(gòu)類的蛋白質(zhì)數(shù)量是均勻分布的前提下,CATH組的抽取是隨機(jī)。這里所說的CATH組是指按CATH編號(hào)記錄的組。整個(gè)數(shù)據(jù)集含有233條蛋白質(zhì)序列,這9組CATH數(shù)據(jù)在每個(gè)結(jié)構(gòu)類中的分布情況如表5所示。下面僅通過蛋白質(zhì)的序列信息來進(jìn)行結(jié)構(gòu)類型的預(yù)測(cè)。

      表5中前兩列為CATH的三個(gè)主要結(jié)構(gòu)類型與本例中每個(gè)結(jié)構(gòu)類下的CATH組數(shù),第3列為每個(gè)結(jié)構(gòu)類下的蛋白質(zhì)個(gè)數(shù),第4~8列分別為蛋白質(zhì)序列在5種不同分類方法下的分類準(zhǔn)確率。

      表5 九組CATH數(shù)據(jù)的分類Table 5 Classification of 9 CATH groups

      使用5-mer扭轉(zhuǎn)角法對(duì)數(shù)據(jù)集中的蛋白質(zhì)序列進(jìn)行最優(yōu)結(jié)構(gòu)預(yù)測(cè),并根據(jù)預(yù)測(cè)結(jié)果中氨基酸扭轉(zhuǎn)角的偏好,將蛋白質(zhì)序列分為3種結(jié)構(gòu)類型。分類結(jié)果如表5所示。將該方法所獲得的分類結(jié)果與平均屬性因子[17]、自然向量[18]、PseAAC[32]、Chou-Fasman[2]的分類結(jié)果進(jìn)行比較,表中第4~8列分別為每種方法的分類準(zhǔn)確率。表5中的分類準(zhǔn)確率是將每個(gè)結(jié)構(gòu)類的蛋白質(zhì)序列正確分類個(gè)數(shù)除以該類中蛋白質(zhì)總個(gè)數(shù)而得到的。從表4中可以看出該新方法可以有效地將這9組CATH數(shù)據(jù)進(jìn)行結(jié)構(gòu)分類,三種結(jié)構(gòu)類型的分類準(zhǔn)確率分別為87.18%、73.26%、79.71%,結(jié)構(gòu)類型的預(yù)測(cè)效果較好。

      平均屬性因子和自然向量是兩種蛋白質(zhì)序列特征提取方法,其中平均屬性因子是根據(jù)蛋白質(zhì)的序列信息提取氨基酸物理屬性的平均值作為蛋白質(zhì)序列的特征向量[17],而自然向量提取的是蛋白質(zhì)序列的氨基酸構(gòu)成和排序,其中自然向量與氨基酸序列是一一對(duì)應(yīng)的[18]。利用[17]中所述的最小平方誤差MSE超平面對(duì)不同結(jié)構(gòu)類型的蛋白質(zhì)序列的平均屬性因子向量和自然向量進(jìn)行劃分,從而實(shí)現(xiàn)對(duì)結(jié)構(gòu)的分類。平均屬性因子的分類準(zhǔn)確率如表5所示,其中第1類(C=1)的準(zhǔn)確率為 75.64%,第2類(C=2) 的準(zhǔn)確率為74.42%,第3類(C=3)的準(zhǔn)確率為76.81%。自然向量的分類結(jié)果為,第1類(C=1)準(zhǔn)確率為84.62%,第2類(C=2)為91.76%,第3類(C=3)為82.61%。

      PseAAC是支持向量機(jī)分類中常用的氨基酸序列特征提取方法,用多類支持向量機(jī)來對(duì)PseAAC特征進(jìn)行分類,其分類結(jié)果如表5所示。在PseAAC的分類結(jié)果中,三個(gè)結(jié)構(gòu)類的分類準(zhǔn)確率分別為第1類(C=1): 74.36%, 第2類(C=2): 67.44%, 第3類(C=3):69.57%。Chou-Fasman的分類結(jié)果為,第1類(C=1): 65.38%, 第2類(C=2): 82.43%, 第3類(C=3):62.69%。

      上述所比較的五種分類方法都是通過蛋白質(zhì)的氨基酸序列特征提取來進(jìn)行結(jié)構(gòu)分類或預(yù)測(cè)的,其中5-mer扭轉(zhuǎn)角法是根據(jù)5-mer局部序列的扭轉(zhuǎn)角統(tǒng)計(jì)偏好來進(jìn)行結(jié)構(gòu)類型的預(yù)測(cè),而其它方法是通過對(duì)整條蛋白質(zhì)序列進(jìn)行特征提取來進(jìn)行結(jié)構(gòu)類型的預(yù)測(cè)的。通過比較這5種方法可以看出, 5-mer扭轉(zhuǎn)角法取得了較好的分類效果。

      2.2.2 60組CATH數(shù)據(jù)的分類

      使用另一組隨機(jī)抽取的CATH數(shù)據(jù)來驗(yàn)證新方法的有效性。這組數(shù)據(jù)含有60個(gè)CATH組共821條蛋白質(zhì)序列[17]。這60組CATH數(shù)據(jù)取自CATH數(shù)據(jù)庫的三個(gè)主要結(jié)構(gòu)類:主要α結(jié)構(gòu)(C=1);主要β結(jié)構(gòu)(C=2);α與β混合結(jié)構(gòu)(C=3)。本數(shù)據(jù)集來源于文獻(xiàn)[17]中的結(jié)構(gòu)分類,這60個(gè)CATH組的CATH編號(hào)詳見本文附件材料。所使用的數(shù)據(jù)集與第1個(gè)例子中所使用的數(shù)據(jù)集是隨機(jī)抽取的兩組不同數(shù)據(jù)集,兩個(gè)數(shù)據(jù)集之間沒有交叉。利用 5-mer扭轉(zhuǎn)角法來對(duì)這60個(gè)CATH組的蛋白質(zhì)序列進(jìn)行結(jié)構(gòu)類型的預(yù)測(cè),并將預(yù)測(cè)結(jié)果與平均屬性因子、自然向量、PseAAC和Chou-Fasman的結(jié)果進(jìn)行比較。

      為數(shù)據(jù)集中每一個(gè)蛋白質(zhì)序列計(jì)算最優(yōu)預(yù)測(cè)結(jié)構(gòu),并根據(jù)預(yù)測(cè)結(jié)構(gòu)的扭轉(zhuǎn)角偏好來進(jìn)行結(jié)構(gòu)類型的預(yù)測(cè)。 CATH數(shù)據(jù)的信息和分類結(jié)果如表6所示。在表6中,5-mer扭轉(zhuǎn)角法的分類結(jié)果最優(yōu),其分類準(zhǔn)確率為:第1類(C=1): 98.97%;第2類(C=2): 77.24%;第3類(C=3): 67.57%。扭轉(zhuǎn)角法的分類準(zhǔn)確率較其它分類方法的準(zhǔn)確率高,其中平均屬性因子的分類準(zhǔn)確率為:第1類(C=1): 66.15%;第2類(C=2): 56.55%;第3類(C=3): 73.18%。自然向量法的分類準(zhǔn)確率為:第一1類(C=1): 57.44%;第2類(C=2): 40.69%; 第3類(C=3): 86.90%。PseAAC的分類準(zhǔn)確率為:第1類(C=1): 76.53%, 第二類(C=2): 66.90%, 第三類(C=3): 67.29%;Chou-Fasman的分類準(zhǔn)確率為:第1類(C=1): 75.84%, 第2類(C=2): 64.93%, 第3類(C=3): 58.47%。

      表6中前3列分別為CATH的3個(gè)主要結(jié)構(gòu)類以及每個(gè)結(jié)構(gòu)類下的CATH組數(shù)和蛋白質(zhì)個(gè)數(shù)。第4~8列分別為蛋白質(zhì)序列在5種不同分類方法下的分類結(jié)果。

      表 6 60 個(gè)CATH組的分類結(jié)果Table 6 Classification results of 60 CATH groups

      本例中,平均屬性因子和自然向量在分類效果上與第1個(gè)例子存在差異,主要原因在于這兩種方法利用最小平方誤差超平面對(duì)高維實(shí)空間中的特征向量進(jìn)行分類,由于不同數(shù)據(jù)集中的特征向量分布不同,因此得到的分類結(jié)果也不同。5-mer扭轉(zhuǎn)角法的整體分類效果最好,其原因在于扭轉(zhuǎn)角法利用5-mer局部序列的扭轉(zhuǎn)角統(tǒng)計(jì)偏好來進(jìn)行分類,在數(shù)據(jù)集較大時(shí)該方法充分利用了5-mer扭轉(zhuǎn)角的統(tǒng)計(jì)特征,因此分類效果較好。

      3 討 論

      基于5-mer中間氨基酸扭轉(zhuǎn)角統(tǒng)計(jì)偏好的蛋白質(zhì)結(jié)構(gòu)類型預(yù)測(cè)方法是利用5-mer中間氨基酸的扭轉(zhuǎn)角統(tǒng)計(jì)信息來進(jìn)行蛋白質(zhì)結(jié)構(gòu)類型的預(yù)測(cè)。通過利用5-mer扭轉(zhuǎn)角的統(tǒng)計(jì)特征進(jìn)行結(jié)構(gòu)預(yù)測(cè),印證了局部蛋白質(zhì)序列對(duì)結(jié)構(gòu)的影響。通過CATH數(shù)據(jù)集的分析驗(yàn)證了新方法的有效性。所述該新方法可以通過MATLAB程序?qū)崿F(xiàn),能夠僅通過蛋白質(zhì)的序列信息來實(shí)現(xiàn)蛋白質(zhì)結(jié)構(gòu)類型的快速預(yù)測(cè)。

      許多蛋白質(zhì)分類方法通過蛋白質(zhì)序列特征提取來實(shí)現(xiàn)結(jié)構(gòu)和功能的分類。例如,自然向量法[18],k-串字典法[20],蛋白質(zhì)映射[21-22],PseAAC等[32]。這些方法利用蛋白質(zhì)序列中的氨基酸成分和排序來實(shí)現(xiàn)分類。其它分類方法,如LIBSVM等[33]機(jī)器學(xué)習(xí)方法,是監(jiān)督型的分類方法,需要使用訓(xùn)練數(shù)據(jù)才能夠進(jìn)行分類。對(duì)于蛋白質(zhì)的結(jié)構(gòu)分類,機(jī)器學(xué)習(xí)分類方法占有很重要的地位[8-16,33-37]。其它分類方法還有基于信息理論和網(wǎng)絡(luò)分支的分類方法[38],該方法利用互信息和網(wǎng)絡(luò)分支來對(duì)蛋白質(zhì)的結(jié)構(gòu)和序列進(jìn)行分類。此外,平均屬性因子[17]利用氨基酸的10種物理屬性在序列中的平均值,來實(shí)現(xiàn)對(duì)蛋白質(zhì)結(jié)構(gòu)類型的分類[17,39]。該方法從氨基酸物理屬性的角度闡釋了蛋白質(zhì)序列與結(jié)構(gòu)的關(guān)系。

      其它蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)方法還有I-TASSER和Robetta等。這兩種方法利用同源序列模板來實(shí)現(xiàn)蛋白質(zhì)結(jié)構(gòu)的預(yù)測(cè)[6-7],并以網(wǎng)絡(luò)服務(wù)器的形式提供方法對(duì)應(yīng)的服務(wù) 。

      利用最小序列單元即5-mer的扭轉(zhuǎn)角統(tǒng)計(jì)偏好來進(jìn)行蛋白質(zhì)結(jié)構(gòu)類型預(yù)測(cè)是一種新方法。該方法利用PDB數(shù)據(jù)庫中5-mer中間氨基酸的扭轉(zhuǎn)角統(tǒng)計(jì)偏好,驗(yàn)證了局部序列環(huán)境對(duì)結(jié)構(gòu)的影響。該方法可以通過MATLAB編程實(shí)現(xiàn),通過兩組CATH數(shù)據(jù)驗(yàn)證了新方法的有效性。

      研究表明,每種分類算法都具有一定的準(zhǔn)確率,盡管隨著科技的發(fā)展,分類的準(zhǔn)確率會(huì)有所提高,然而由于計(jì)算誤差以及序列和結(jié)構(gòu)之間關(guān)系的復(fù)雜性,準(zhǔn)確率上限仍然難以達(dá)到100%[40-43]。通過與平均屬性因子、自然向量、PseAAC,以及Chou-Fasman的分類結(jié)果進(jìn)行比較發(fā)現(xiàn),該新方法的分類準(zhǔn)確率整體優(yōu)于其它分類方法,尤其是在大數(shù)據(jù)集的分類時(shí)優(yōu)勢(shì)明顯,這是因?yàn)樵摲椒ǔ浞掷昧伺まD(zhuǎn)角的統(tǒng)計(jì)特征來實(shí)現(xiàn)分類,當(dāng)數(shù)據(jù)集較大時(shí)統(tǒng)計(jì)特征較明顯。平均屬性因子和自然向量法利用MSE超平面實(shí)現(xiàn)對(duì)序列特征向量的劃分,其中MSE超平面是通過矩陣偽逆計(jì)算得到的,對(duì)每一個(gè)固定數(shù)據(jù)集來說,超平面的分類結(jié)果是唯一確定的。PseAAC方法利用支持向量機(jī)來進(jìn)行分類,其分類結(jié)果較好;Chou-Fasman方法則通過計(jì)算氨基酸構(gòu)象傾向因子來進(jìn)行結(jié)構(gòu)類型的預(yù)測(cè),當(dāng)數(shù)據(jù)集較大時(shí)其分類結(jié)果與PseAAC的結(jié)果相似。 所比較的5種方法均利用氨基酸序列的特征來實(shí)現(xiàn)對(duì)結(jié)構(gòu)的分類,每種方法的差異在于提取的序列特征角度不同。5-mer扭轉(zhuǎn)角法側(cè)重于利用局部序列環(huán)境對(duì)扭轉(zhuǎn)角統(tǒng)計(jì)偏好的影響來進(jìn)行分類,而其它方法則是對(duì)整個(gè)序列進(jìn)行特征提取和分類。

      研究結(jié)果表明局部序列環(huán)境對(duì)氨基酸扭轉(zhuǎn)角的偏好具有一定影響,該結(jié)果可用于蛋白質(zhì)序列的快速結(jié)構(gòu)類型預(yù)測(cè)。在局部序列環(huán)境中,氨基酸扭轉(zhuǎn)角的統(tǒng)計(jì)偏好與其相鄰氨基酸的扭轉(zhuǎn)角偏好有關(guān)。例如,在同一個(gè)α域中,相鄰氨基酸傾向于具有相近的扭轉(zhuǎn)角值,即骨干肽鏈中相鄰氨基酸的扭轉(zhuǎn)角具有相似的值,從而使得α螺旋形成一個(gè)穩(wěn)定的結(jié)構(gòu)。相鄰氨基酸的扭轉(zhuǎn)角偏好,以及在拼接過程中最優(yōu)預(yù)測(cè)結(jié)構(gòu)的選擇,有助于蛋白質(zhì)結(jié)構(gòu)類型的正確分類。相反,在混合α和β結(jié)構(gòu)類中,環(huán)和連接α(螺旋)和β(平面)區(qū)域的內(nèi)聚部分不具有類似規(guī)律的模式,即混合結(jié)構(gòu)的規(guī)律不如單純?chǔ)粱騿渭儲(chǔ)陆Y(jié)構(gòu)的規(guī)律明顯。因此,通過規(guī)律模式來對(duì)混合結(jié)構(gòu)進(jìn)行分類時(shí),其準(zhǔn)確率不如其它純?chǔ)粱蚣儲(chǔ)陆Y(jié)構(gòu)的分類準(zhǔn)確率高。盡管如此,三種結(jié)構(gòu)類型仍然能夠通過本文所述方法進(jìn)行合理的分類。

      蛋白質(zhì)結(jié)構(gòu)分類方法表明,局部序列環(huán)境對(duì)結(jié)構(gòu)的選擇具有重要影響??梢酝ㄟ^該新方法實(shí)現(xiàn)對(duì)新蛋白質(zhì)序列結(jié)構(gòu)類型的快速預(yù)測(cè)。

      4 結(jié) 論

      通過研究局部序列對(duì)氨基酸扭轉(zhuǎn)角統(tǒng)計(jì)偏好的影響,提出了一種新的蛋白質(zhì)結(jié)構(gòu)類型預(yù)測(cè)方法,該方法利用5-mer中間氨基酸的扭轉(zhuǎn)角統(tǒng)計(jì)偏好來預(yù)測(cè)蛋白質(zhì)序列的結(jié)構(gòu)類型。新方法可以快速地通過氨基酸序列實(shí)現(xiàn)結(jié)構(gòu)類型的預(yù)測(cè)。研究驗(yàn)證了蛋白質(zhì)局部序列對(duì)結(jié)構(gòu)的影響,在一定程度上反映了蛋白質(zhì)序列與結(jié)構(gòu)之間的聯(lián)系。

      致謝:感謝北京化工大學(xué)提供研究場(chǎng)所和相關(guān)設(shè)施。

      猜你喜歡
      氨基酸聚類向量
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      月桂酰丙氨基酸鈉的抑菌性能研究
      UFLC-QTRAP-MS/MS法同時(shí)測(cè)定絞股藍(lán)中11種氨基酸
      中成藥(2018年1期)2018-02-02 07:20:05
      基于DBSACN聚類算法的XML文檔聚類
      向量垂直在解析幾何中的應(yīng)用
      基于改進(jìn)的遺傳算法的模糊聚類算法
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      一株Nsp2蛋白自然缺失123個(gè)氨基酸的PRRSV分離和鑒定
      一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
      镇赉县| 林芝县| 中超| 石阡县| 西和县| 泰宁县| 平泉县| 离岛区| 永靖县| 兰溪市| 瑞安市| 永修县| 玉环县| 佛坪县| 丹东市| 龙州县| 台江县| 扬州市| 深圳市| 黄龙县| 泌阳县| 博白县| 敦化市| 读书| 巴青县| 濮阳县| 陆河县| 改则县| 齐河县| 绥阳县| 南木林县| 怀集县| 元阳县| 甘洛县| 涪陵区| 罗山县| 南皮县| 镇原县| 盐城市| 永仁县| 蓝山县|