薛曉麗,劉俊宏,張偉
(華東交通大學理學院,江西 南昌 330013)
蛋白質(zhì)是構(gòu)成細胞和組織結(jié)構(gòu)必不可少的成分,它是生理功能的執(zhí)行者,也是生命活動的體現(xiàn)者.關(guān)鍵蛋白質(zhì)在生物體的生命活動中占據(jù)著舉足輕重的地位,它的缺失或者功能失常都將導致機體特定功能的喪失,甚至死亡[1-2].因此,識別關(guān)鍵蛋白質(zhì)能夠促進對細胞的生長過程的認識以及診斷疾病、設(shè)計藥物和治療疾病等工作的進行與發(fā)展[3].傳統(tǒng)的預測方法,如RNA干擾[4]、單基因敲除[5]、條件性基因剔除[6]等,這些生物學實驗方法雖然預測準確率高,但其成本高昂、效率較低,而且僅能用于有限的物種,顯然已無法滿足日益增長的需求.隨著生物信息學和高通量技術(shù)的不斷發(fā)展與創(chuàng)新,蛋白質(zhì)之間相互作用的數(shù)據(jù)不斷累積,將蛋白質(zhì)之間的相互作用抽象成復雜網(wǎng)絡中節(jié)點間的關(guān)聯(lián)關(guān)系,借助復雜網(wǎng)絡相關(guān)理論識別關(guān)鍵蛋白質(zhì)已成為一個有效的途徑.
最早提出的關(guān)鍵蛋白質(zhì)識別算法是依據(jù)蛋白質(zhì)相互作用(protein-protein interaction,簡稱PPI,下同)網(wǎng)絡的拓撲結(jié)構(gòu),如度中心性(degree centrality,DC)[7]、接近度中心性(closeness centrality,CC)[8]、鄰居中心性(neighborhood centrality,NC)[9]、介數(shù)中心性(betweenness centrality,BC)[10]和子圖中心性(subgraph centrality,SC)[11],這些方法的識別精度嚴重依賴PPI網(wǎng)絡的拓撲結(jié)構(gòu)的準確性.由于現(xiàn)有的高通量測序技術(shù)的限制,獲得的蛋白質(zhì)相互作用數(shù)據(jù)具有很高的陽性率,即使是廣泛使用的釀酒酵母PPI網(wǎng)絡[12-13]也深受噪聲的影響.例如,通過“酵母兩次雜交”(Y2H)分析獲得的數(shù)據(jù)的假陽性率可能高達64%,而假陰性率則可能在43%到71%之間[14].因而,僅基于挖掘PPI網(wǎng)絡的拓撲性質(zhì)來識別關(guān)鍵蛋白質(zhì)很難達到滿意的精確度.
隨著高通量生物學技術(shù)的快速發(fā)展,各種類型的生物學數(shù)據(jù)不斷豐富,如蛋白質(zhì)復合物信息[15-16]、基因本體注釋信息(gene ontology annotation,GO)[17-19]、基因表達數(shù)據(jù)[20-22]、蛋白質(zhì)同源性信息[23-24]、亞細胞定位數(shù)據(jù)(subcellular localization)[25-26]、蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)(protein domain)[27-28]等.因此,結(jié)合PPI網(wǎng)絡的拓撲性質(zhì)和蛋白質(zhì)的其他生物學數(shù)據(jù)共同挖掘關(guān)鍵蛋白質(zhì)成為了新的研究重點.例如,Pec[20]算法結(jié)合PPI網(wǎng)絡的拓撲結(jié)構(gòu)屬性和蛋白質(zhì)對應的基因表達相關(guān)性來預測關(guān)鍵蛋白質(zhì).WDC[22]算法在Pec基礎(chǔ)上改進,過濾PPI網(wǎng)絡中的假陽性數(shù)據(jù).LBCC[29]算法結(jié)合局部密度、介數(shù)中心性和蛋白質(zhì)復合物的內(nèi)度中心性有效地提高了預測精度.NIE[30]算法首先通過融合基因本體信息與RNA序列數(shù)據(jù)的相關(guān)性來構(gòu)建加權(quán)網(wǎng)絡,然后通過刻畫網(wǎng)絡中二階鄰居信息以及復合物和亞細胞定位信息的信息熵來度量蛋白質(zhì)的關(guān)鍵性.TEO[19]、TEGS[25]和CEGSO[31]等算法通過有效融合基因本體信息注釋信息、蛋白質(zhì)同源性信息、基因時序表達數(shù)據(jù)等多種生物學信息,通過挖掘不同數(shù)據(jù)源的特征大大提高了預測準確度.例如,TEO不僅應用了PPI網(wǎng)絡的拓撲性質(zhì),還使用了基因表達信息和基因本體注釋數(shù)據(jù),從而提高了預測關(guān)鍵蛋白質(zhì)的預測數(shù)目;TEGS在此基礎(chǔ)上融入了亞細胞定位信息,認為只有處在同一場所的蛋白質(zhì)之間才可能存在相互作用.生物學信息與網(wǎng)絡拓撲結(jié)構(gòu)的巧妙融合有效的彌補了中心性預測算法的不足,而利用多源信息設(shè)計出來的算法,有效地避免了單一數(shù)據(jù)自身噪聲對預測效果的影響,也能夠更加全面的來度量蛋白質(zhì)的關(guān)鍵性.
蛋白質(zhì)結(jié)構(gòu)域是構(gòu)成蛋白質(zhì)三級結(jié)構(gòu)的基本單位,是蛋白質(zhì)生理功能的基礎(chǔ),不同結(jié)構(gòu)域的重組和排列產(chǎn)生了自然界中眾多蛋白質(zhì)[32-33].Deng[34]等指出,盡管有些蛋白質(zhì)屬于關(guān)鍵蛋白質(zhì),但并不是該蛋白質(zhì)包含的所有結(jié)構(gòu)域都具有關(guān)鍵性.基于上述研究結(jié)果,Peng[27]等通過假設(shè)驗證關(guān)鍵蛋白質(zhì)往往含有其他蛋白質(zhì)很少出現(xiàn)的蛋白質(zhì)結(jié)構(gòu)域類型,而非關(guān)鍵蛋白質(zhì)則更有可能由頻繁出現(xiàn)的結(jié)構(gòu)域構(gòu)成,提出了一種結(jié)合蛋白質(zhì)結(jié)構(gòu)域信息和PPI網(wǎng)絡拓撲結(jié)構(gòu)的特征來識別關(guān)鍵蛋白質(zhì)的UDoNC算法,雖然UDoNC算法一定程度上提高了關(guān)鍵蛋白質(zhì)的預測率,但該算法挖掘的生物特性有限,而且嚴重依賴于PPI網(wǎng)絡的拓撲結(jié)構(gòu),導致識別正確率有限.
為了進一步提高關(guān)鍵蛋白質(zhì)的預測正確率,本文中基于PPI網(wǎng)絡的拓撲結(jié)構(gòu),結(jié)合應用廣泛的基因本體注釋數(shù)據(jù)和亞細胞定位數(shù)據(jù),并恰當?shù)厝谌氲鞍踪|(zhì)結(jié)構(gòu)域信息,提出一種新的算法TGSD來識別關(guān)鍵蛋白質(zhì).TGSD算法首先結(jié)合邊聚類系數(shù)、基因本體注釋信息和亞細胞定位信息來量化蛋白質(zhì)的關(guān)鍵性,然后融入蛋白質(zhì)結(jié)構(gòu)域信息數(shù)據(jù),利用蛋白質(zhì)結(jié)構(gòu)域信息來減小噪聲對數(shù)據(jù)的影響.數(shù)值模擬結(jié)果表明,TGSD的預測效果與DC,BC,NC,Pec,WDC,LBCC,TEGS相比都有很大程度的提升.
1.1 蛋白質(zhì)結(jié)構(gòu)域的關(guān)鍵性設(shè)計蛋白質(zhì)結(jié)構(gòu)域是構(gòu)成蛋白質(zhì)的基本單位,一個蛋白質(zhì)通常包含一個或多個結(jié)構(gòu)域信息,為了度量蛋白質(zhì)中結(jié)構(gòu)域的重要性,我們結(jié)合已知的關(guān)鍵蛋白質(zhì)信息來統(tǒng)計分析蛋白質(zhì)結(jié)構(gòu)域的重要性,定義第i個蛋白質(zhì)結(jié)構(gòu)域的關(guān)鍵性值 (protein domain value,PDV)為:
PDV(i)=VK(i)*VU(i)/Max(PDV)
(1)
其中,
(2)
其中,PDV(i)表示蛋白質(zhì)結(jié)構(gòu)域i的分數(shù),分數(shù)高的蛋白質(zhì)結(jié)構(gòu)域關(guān)鍵性更強,N表示該網(wǎng)絡中蛋白質(zhì)的總數(shù),N(key)表示該網(wǎng)絡中關(guān)鍵蛋白質(zhì)的數(shù)目.DP(i)由所有包含蛋白質(zhì)結(jié)構(gòu)域i的蛋白質(zhì)構(gòu)成,KKP是由已知的關(guān)鍵蛋白質(zhì)構(gòu)成的集合,P是由所有已知蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)的蛋白質(zhì)構(gòu)成的集合.
根據(jù)蛋白質(zhì)結(jié)構(gòu)域的關(guān)鍵性值,定義蛋白質(zhì)u的結(jié)構(gòu)重要性(relative critical index,RCI)為:
(3)
其中,PD(u)表示包含蛋白質(zhì)u的蛋白質(zhì)結(jié)構(gòu)域集合.
1.2 新的算法TGSD文獻[19,25,30]表明,關(guān)鍵蛋白質(zhì)在分子網(wǎng)絡中并不是隨機分布,而是趨向于聚集在一起形成稠密的子網(wǎng)絡,相互連接的關(guān)鍵蛋白質(zhì)之間具有較高的共表達特性和相似的生物學功能.為了刻畫這些特性,我們采用邊聚類系數(shù)(edge clustering coefficient,ECC)來度量兩個相互連接的蛋白質(zhì)對在拓撲結(jié)構(gòu)上的緊密程度.相互作用的蛋白質(zhì)對(u,v)之間的邊聚類系數(shù)定義為:
(4)
其中D(u)和D(v)分別表示表示蛋白質(zhì)u和v的度,N3(u,v)表示PPI網(wǎng)絡中以(u,v)為一條邊構(gòu)成的三元組的數(shù)目.即該邊在網(wǎng)絡中實際參與構(gòu)成的三元組個數(shù)與該邊最多可能參與構(gòu)成的三元組個數(shù)之比.
基因本體注釋信息是描述基因和基因產(chǎn)品之間功能相似性的工具,基于基因本體的語義相似性度量常被用于從基因?qū)用婵坍嫷鞍踪|(zhì)之間的功能相似性.本文中采用Wang[35]等提出的方法分別計算了在“生物過程(biological process,BP)”、“細胞組件(cellular component,CC)”和“分子功能(molecular function,MF)”3種本體下的基因本體語義相似性值,并取其三者的平均值作為最終的基因本體語義相似性值.
假設(shè)基因X,Y的功能注釋語義信息集合分別為:
GOX={gox1,gox2,…,goxm}
GOY={goy1,goy2,…,goym}
(5)
其中,goxi、goyi分別表示注解基因X和基因Y的術(shù)語,m表示這個集合中術(shù)語的個數(shù),詳情請見參考文獻[35].
基因X,Y對應的GO語義集合之間的相似性定義為:
(6)
其中,TX、TY分別是基因X,Y對應的GO語義構(gòu)成的集合.SX(r)是基因X中GO術(shù)語r對應的S值,SY(r)是基因Y中GO術(shù)語r對應的S值.
基因X,Y之間的GO功能相似性定義為:
(7)
其中,
(8)
同時,我們假設(shè)只有處于同一亞細胞位置的蛋白質(zhì)對才能發(fā)生相互作用,采用文獻[31]中刻畫蛋白質(zhì)所處亞細胞定位信息的度量SLL(u,v)來刻畫蛋白質(zhì)對(u,v)是否真正存在相互作用關(guān)系,
(9)
其中,SL(u)、SL(v)分別表示蛋白質(zhì)u和v所處的亞細胞位置.
綜合上述3種度量,采用如下指標(functional critical index,FCI)來度量蛋白質(zhì)u的功能重要性:
(10)
其中,Nu是由蛋白質(zhì)u的鄰居構(gòu)成的集合.
結(jié)合前面定義的結(jié)構(gòu)重要性RCI,本研究提出一種新的計算蛋白質(zhì)u關(guān)鍵性值的算法TGSD,
TGSD(u)=α×FCI(u)+(1-α)×RCI(u)
(11)
其中,參數(shù)α∈[0,1],用來調(diào)整兩部分所占的比例.當α取1時,該算法考慮網(wǎng)絡拓撲結(jié)構(gòu)、基因注釋信息和亞細胞定位信息;當α取0時,則只考慮蛋白質(zhì)結(jié)構(gòu)域信息.FCI用于量化蛋白質(zhì)的功能重要性,RCI則通過蛋白質(zhì)結(jié)構(gòu)域的重要性來刻畫蛋白質(zhì)的關(guān)鍵性.
2.1 PPI網(wǎng)絡數(shù)據(jù)酵母的蛋白質(zhì)相互作用在所有物種中研究最為廣泛,而且積累了大量實驗驗證的關(guān)鍵蛋白質(zhì)數(shù)據(jù)信息.因此,本文中選取YDIP、DIP-PPI、Krogan和Krogan-Extended這4個酵母PPI數(shù)據(jù)集進行實驗.刪除原始數(shù)據(jù)中的孤立節(jié)點和重復相互作用關(guān)系數(shù)據(jù)后得到的數(shù)據(jù)集的詳細信息如表1所示.
表1 數(shù)據(jù)集的詳細信息
2.2 生物信息數(shù)據(jù)本實驗所用到的蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)從PFAM數(shù)據(jù)庫[32]中下載 (版本為Pfam 31.0,2017年3月更新),并按照楊增光等[28]提出的方法對原始數(shù)據(jù)進行預處理,預處理后的數(shù)據(jù)集中包含3 630個蛋白質(zhì),這些蛋白質(zhì)涉及1 107個蛋白質(zhì)域的信息數(shù)據(jù),構(gòu)成了4 936條蛋白質(zhì)對應的結(jié)構(gòu)域的數(shù)據(jù)集合.基因本體注釋數(shù)據(jù)下載自酵母Gene Ontology Annotation Database數(shù)據(jù)庫(2020年9月10日版本).亞細胞定位數(shù)據(jù)和關(guān)鍵蛋白質(zhì)數(shù)據(jù)從文獻[31]中獲得.
為了評估新提出的算法TGSD的有效性,分別計算TGSD與7種代表性算法(DC,BC,NC,Pec,WDC,LBCC和TEGS)在4組酵母測試數(shù)據(jù)集下蛋白質(zhì)的關(guān)鍵性值,然后按照蛋白質(zhì)的關(guān)鍵性值從大到小的順序排序,認為排序越靠前的蛋白質(zhì)是關(guān)鍵蛋白質(zhì)的概率越大.分別統(tǒng)計8種方法在排序前N個蛋白質(zhì)中識別正確關(guān)鍵蛋白質(zhì)的數(shù)目、識別精度、準確率等,比較各種方法的識別效果.
3.1 比較TGSD算法與其他算法的預測正確的關(guān)鍵蛋白質(zhì)數(shù)目圖1中給出了TGSD算法與7種比較算法(DC,BC,NC,Pec,WDC,LBCC和TEGS)在預測排序前100,200,…,600的蛋白質(zhì)中識別正確的關(guān)鍵蛋白質(zhì)的個數(shù).
圖1 TGSD算法和其他7種算法在排序前100,200,300,400,500,600的蛋白質(zhì)中識別正確的關(guān)鍵蛋白質(zhì)數(shù)目
圖1 (a)展示了在YDIP數(shù)據(jù)集下的預測效果,圖像顯示,TGSD算法預測正確的關(guān)鍵蛋白質(zhì)個數(shù)最多,特別是在排序前100和200的蛋白質(zhì)情況下,關(guān)鍵蛋白質(zhì)的預測準確率達到了92%和90.5%,相比DC算法的預測準確率46%和41%以及TEGS算法的預測準確率79%和79%,TGSD算法具有明顯的優(yōu)勢,并且在排序前600的蛋白質(zhì)中,TGSD算法的正確識別數(shù)目是420,遠超過識別數(shù)目為391的TEGS算法.
圖1(b)給出了在DIP-PPI數(shù)據(jù)集下各種算法的預測結(jié)果.從圖中可以看到,在排序前600的蛋白質(zhì)中,相較于TEGS實現(xiàn)的390個正確預測值、WDC實現(xiàn)的350個正確預測值,TGSD算法正確預測出422個關(guān)鍵蛋白質(zhì),預測準確率較TEGS方法提高了8.9%.
類似地,圖2中給出了Krogan和Krogan- Extended數(shù)據(jù)集下8種方法分別在排序前100-600的蛋白質(zhì)中識別正確的關(guān)鍵蛋白質(zhì)數(shù)目.在這兩個數(shù)據(jù)集中,我們同樣看到,TGSD算法的預測數(shù)目相較其他7種算法都有很大提升,這也說明在改進TEGS算法的基礎(chǔ)上,融入蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)是一個正確的選擇.
圖2 TGSD算法和其他7種方法在排序前100,200,300,400,500,600的蛋白質(zhì)中識別正確的關(guān)鍵蛋白質(zhì)數(shù)目
3.2 使用Jackknife方法進行驗證使用Jackknife方法繪制曲線來來評估TGSD算法的有效性.
仿真結(jié)果如圖3所示,圖3(a)和圖3(b)分別表示Krogan和DIP-PPI數(shù)據(jù)集的統(tǒng)計結(jié)果.其中,y軸表示排序靠前的蛋白質(zhì)數(shù)量,y軸表示累計識別正確的關(guān)鍵蛋白質(zhì)數(shù)目.從圖中可以看出,在8種預測算法中,TGSD算法的曲線排在最高,意味著該方法識別正確的數(shù)目最多,這也說明TGSD算法的識別效果最好.
圖3 TGSD算法和其他7種算法Jackknife曲線比較結(jié)果
3.3 ROC(receiver operating characteristic)曲線ROC曲線分析是評價診斷性試驗優(yōu)劣以及確定臨界值的一種方法.其中,x軸表示假陽性率,也稱作靈敏度,即非關(guān)鍵蛋白質(zhì)被錯誤識別的比例;y軸表示真陽性率,也可看作是1-特異度,即關(guān)鍵蛋白質(zhì)被正確識別的比例,曲線下方面積越大意味著該方法預測準確度越高.假設(shè)每個數(shù)據(jù)集在相應的8種算法下排序前25%的是關(guān)鍵蛋白質(zhì),其余的均為非關(guān)鍵蛋白質(zhì).在Krogan和YDIP兩個數(shù)據(jù)集下,如圖4所示,TGSD算法對應的ROC曲線所圍面積AUC都是最大的,這也意味著TGSD算法的預測效果優(yōu)于其他7種方法.
圖4 TGSD算法和其他7種算法下的ROC曲線和所圍面積
3.4 統(tǒng)計評價指標為了進一步評價TGSD算法的性能,本文中采用如下6個統(tǒng)計指標來度量該方法的預測效果并和其他7種算法的預測效果進行比較.這6個統(tǒng)計指標分別為:
1) 靈敏度(sensitivity,SN)表示正確識別關(guān)鍵蛋白質(zhì)的比例.
(12)
其中,TP(true positive)表示正確識別關(guān)鍵蛋白質(zhì)的數(shù)量,F(xiàn)N(false negative)表示關(guān)鍵蛋白質(zhì)被誤判為非關(guān)鍵蛋白質(zhì)的數(shù)量.
2) 特異性(specificity, SP)表示正確排除非關(guān)鍵蛋白質(zhì)的比例.
(13)
其中,FP(false positive)表示非關(guān)鍵蛋白質(zhì)被錯誤預測為關(guān)鍵蛋白質(zhì)的數(shù)量,TN(true negative)表示非關(guān)鍵蛋白質(zhì)被正確識別的數(shù)量.
3) 陽性預測值(positive prediction value, PPV)表示把候選蛋白質(zhì)集中的蛋白質(zhì)正確識別為關(guān)鍵蛋白質(zhì)的比例.
(14)
4) 陰性預測值(negative prediction value, NPV)表示把排除的蛋白質(zhì)正確識別為非關(guān)鍵蛋白質(zhì)的比例.
(15)
5)F-測度(F-measure,F)表示敏感度和陽性預測值的調(diào)和平均值.
(16)
6) 正確率(accuracy, ACC)表示正確識別結(jié)果的比例.
(17)
以YDIP數(shù)據(jù)集為例,同樣將每種算法下排在前25%的看作是關(guān)鍵蛋白質(zhì),其余的看作非關(guān)鍵蛋白質(zhì),計算SN、SP、PPV、NPV、F和ACC這6種統(tǒng)計指標. 從表2中可以看出TGSD算法在這6種指標下的識別精度比其他7種算法更高,這進一步說明本研究提出的TGSD算法能夠更準確、更有效地識別關(guān)鍵蛋白質(zhì).
表2 YDIP數(shù)據(jù)集下TGSD與其他7種方法的統(tǒng)計指標比較
3.5 參數(shù)敏感性分析由于所定義的計算公式(11)中涉及權(quán)重參數(shù),選擇一個合理的參數(shù)值是一個具有挑戰(zhàn)性的工作,參數(shù)值的大小將直接影響蛋白質(zhì)結(jié)構(gòu)域信息在TGSD算法中所占的比重.為了驗證參數(shù)對算法的影響,本文中設(shè)置α∈[0,1],步長為0.1,使用Kappa[36]指標作為準則來尋找最優(yōu)參數(shù)值.Kappa指標是檢測模型預測結(jié)果和實際分類結(jié)果是否一致的準則.
(18)
其中,TP、FP、TN、FN定義如上文中所示.
圖5 Kappa指標隨參數(shù)α變化曲線圖
同樣地,以YDIP數(shù)據(jù)集為例,選擇TGSD算法識別出的排序前25%的為關(guān)鍵蛋白質(zhì),結(jié)合已知的關(guān)鍵蛋白質(zhì)信息,計算相應的Kappa指標,做出Kappa指標隨參數(shù)α變化的曲線圖.從圖5中可以直觀地看出,在參數(shù)α取0.1時,TGSD的預測結(jié)果與實際分類結(jié)果契合度最高.同樣,在其他3個數(shù)據(jù)集中也做出Kappa指標隨參數(shù)變化的曲線圖,結(jié)果發(fā)現(xiàn)在參數(shù)α取0.1或者0.2時,預測結(jié)果與實際分類結(jié)果契合度最高.
表3和表4分別展示了在YDIP和Krogan-Extended測試集上,在參數(shù)α的變化范圍內(nèi),TGSD算法在排序前100~600的蛋白質(zhì)中預測正確的關(guān)鍵蛋白質(zhì)數(shù)目.從表3中可以看出在α取值較小時,正確預測的關(guān)鍵蛋白質(zhì)數(shù)目較多,特別是在α取0.1時,排序前300~600的蛋白質(zhì)中識別正確的關(guān)鍵蛋白質(zhì)數(shù)目最多.在表4中可以看到類似的結(jié)果.因此,設(shè)置參數(shù)α的取值為0.1.
表3 YDIP數(shù)據(jù)集下TGSD在不同參數(shù)α下識別正確的關(guān)鍵蛋白質(zhì)數(shù)目
表4 Krogan-Extended數(shù)據(jù)集下TGSD在不同參數(shù)α下識別正確的關(guān)鍵蛋白質(zhì)數(shù)目
設(shè)計有效的計算方法從PPI網(wǎng)絡中預測關(guān)鍵蛋白質(zhì)是近些年來計算生物學領(lǐng)域的研究熱點.雖然已有學者提出了一系列的算法來預測分子網(wǎng)絡中的關(guān)鍵蛋白質(zhì),但是由于高通量技術(shù)得到的數(shù)據(jù)具有較高的假陽性且容易受到噪聲的影響,目前已有的方法在預測關(guān)鍵蛋白質(zhì)的精度和效率方面仍有待提高.
本文中將PPI網(wǎng)絡的拓撲結(jié)構(gòu)信息與蛋白質(zhì)亞細胞定位信息、基因本體注釋信息以及蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)進行有效整合,提出了一種識別關(guān)鍵蛋白質(zhì)的新算法TGSD.為了測試TGSD算法的有效性,選取常用的酵母PPI數(shù)據(jù)集作為測試集,并將TGSD與其他7種算法進行比較.結(jié)果表明無論是正確識別數(shù)目還是其他統(tǒng)計指標,TGSD算法都具有明顯的優(yōu)勢.因此,將蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)融入到識別關(guān)鍵蛋白質(zhì)的方法中是一個正確的選擇.隨著蛋白質(zhì)結(jié)構(gòu)域資源的增加,今后我們可以方便地利用結(jié)構(gòu)域信息、蛋白質(zhì)相互作用網(wǎng)絡數(shù)據(jù)以及其他生物學信息來識別其他物種的關(guān)鍵蛋白質(zhì).