李 敏 孟祥茂
(中南大學(xué)信息科學(xué)與工程學(xué)院 長(zhǎng)沙 410083)
動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建、分析及應(yīng)用研究進(jìn)展
李 敏 孟祥茂
(中南大學(xué)信息科學(xué)與工程學(xué)院 長(zhǎng)沙 410083)
(limin@mail.csu.edu.cn)
蛋白質(zhì)組學(xué)的快速發(fā)展,特別是高通量技術(shù)的發(fā)展產(chǎn)生了大量的蛋白質(zhì)相互作用數(shù)據(jù),為人們從更深層次理解蛋白質(zhì)之間的相互作用及其在復(fù)雜疾病的作用機(jī)理提供了基礎(chǔ).一個(gè)生物體內(nèi)所有的蛋白質(zhì)與蛋白質(zhì)之間的相互作用組成的網(wǎng)絡(luò)稱為蛋白質(zhì)網(wǎng)絡(luò).傳統(tǒng)的研究多是基于靜態(tài)的蛋白質(zhì)網(wǎng)絡(luò)模型.然而,由于蛋白質(zhì)自身表達(dá)的動(dòng)態(tài)性及蛋白質(zhì)間相互作用的動(dòng)態(tài)性,真實(shí)的蛋白質(zhì)網(wǎng)絡(luò)會(huì)隨著時(shí)間和條件不斷變化,與疾病的發(fā)生和發(fā)展有關(guān)的蛋白質(zhì)功能模塊也與這種動(dòng)態(tài)變化密切相關(guān).因此,研究者已經(jīng)把注意力從關(guān)注蛋白質(zhì)網(wǎng)絡(luò)的靜態(tài)屬性轉(zhuǎn)移到動(dòng)態(tài)屬性上,提出了一系列的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建方法.在介紹靜態(tài)蛋白質(zhì)網(wǎng)絡(luò)的基礎(chǔ)上,分類討論了動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建方法,將現(xiàn)有的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建方法歸納為基于蛋白質(zhì)表達(dá)動(dòng)態(tài)性的方法、基于多狀態(tài)下表達(dá)及相關(guān)性變化的方法和基于時(shí)空動(dòng)態(tài)變化的方法這3類:第1類體現(xiàn)的是蛋白質(zhì)自身表達(dá)隨時(shí)間演化的動(dòng)態(tài)性,第2類則表現(xiàn)為不同條件下蛋白質(zhì)之間表達(dá)相關(guān)性的改變,第3類則體現(xiàn)了蛋白質(zhì)及蛋白質(zhì)相互作用在時(shí)間和空間上的動(dòng)態(tài)變化.然后,對(duì)動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)的蛋白質(zhì)節(jié)點(diǎn)和相關(guān)子網(wǎng)絡(luò)進(jìn)行了動(dòng)態(tài)分析并詳細(xì)介紹了動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)在復(fù)雜疾病中的一些主流應(yīng)用,如蛋白質(zhì)復(fù)合物識(shí)別、蛋白質(zhì)功能預(yù)測(cè)、生物標(biāo)志物識(shí)別、疾病基因預(yù)測(cè)等.最后,對(duì)動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)所面臨的挑戰(zhàn)與未來的研究方向進(jìn)行了探討.
蛋白質(zhì)網(wǎng)絡(luò);動(dòng)態(tài);基因表達(dá);蛋白質(zhì)復(fù)合物;復(fù)雜疾病
細(xì)胞是由大量的、不同性質(zhì)的分子通過高度復(fù)雜的機(jī)制協(xié)調(diào)作用,從而完成自我復(fù)制及對(duì)外部擾動(dòng)的適應(yīng)等生物過程.蛋白質(zhì)(protein)是細(xì)胞中關(guān)鍵的功能實(shí)體,是構(gòu)成一切細(xì)胞和組織結(jié)構(gòu)必不可少的成分,它是生理功能的執(zhí)行者,也是生命現(xiàn)象的直接體現(xiàn)者[1].隨著人類基因組等大量生物體全基因組序列的破譯和功能基因組研究的展開,生命科學(xué)家越來越關(guān)注如何用基因組研究的模式開展蛋白質(zhì)組學(xué)的研究.蛋白質(zhì)組學(xué)(proteomics)指在一個(gè)特定細(xì)胞或組織或個(gè)體中全部蛋白質(zhì)表達(dá)圖譜,研究的內(nèi)容包含蛋白質(zhì)結(jié)構(gòu)、功能以及相互作用.細(xì)胞的生理過程和生命活動(dòng)(如DNA的復(fù)制、基因的調(diào)控表達(dá)、細(xì)胞信號(hào)的傳導(dǎo)、新陳代謝、細(xì)胞增殖與凋亡等)一般都是由多個(gè)蛋白質(zhì)在特定條件下通過復(fù)雜的相互作用來實(shí)現(xiàn)的[2].在不同周期或者條件下,一個(gè)蛋白質(zhì)可以和不同的蛋白質(zhì)發(fā)生相互作用(protein-protein interaction, PPI)或者同時(shí)參與到不同的生命活動(dòng)中.蛋白質(zhì)組學(xué)的快速發(fā)展,特別是高通量技術(shù)的發(fā)展,使得人們從網(wǎng)絡(luò)水平深入理解蛋白質(zhì)的功能、相互作用及其在復(fù)雜疾病機(jī)理中的作用成為可能.
網(wǎng)絡(luò)科學(xué)理論[3-5]的快速發(fā)展為探索復(fù)雜的生物體系統(tǒng)提供了新的研究方式.研究者將復(fù)雜的生物體系統(tǒng)抽象為生物分子網(wǎng)絡(luò),通過構(gòu)建網(wǎng)絡(luò)并分析網(wǎng)絡(luò)的成分關(guān)系和網(wǎng)絡(luò)特性,進(jìn)而達(dá)到對(duì)生物體系統(tǒng)深入理解的目的.一個(gè)生物體內(nèi)所有的蛋白質(zhì)及蛋白質(zhì)之間的相互作用組成的網(wǎng)絡(luò)稱為蛋白質(zhì)網(wǎng)絡(luò)(protein-protein interaction network, PIN),它是我們了解生命活動(dòng)規(guī)律、詮釋生命奧秘的基礎(chǔ).基于蛋白質(zhì)網(wǎng)絡(luò),研究人員已經(jīng)提出了許多方法來挖掘蛋白質(zhì)組學(xué)數(shù)據(jù)中的信息,其中包括預(yù)測(cè)蛋白質(zhì)的功能、預(yù)測(cè)和推斷蛋白質(zhì)相互作用、識(shí)別關(guān)鍵蛋白質(zhì)、挖掘蛋白質(zhì)復(fù)合物和功能模塊、尋找致病候選基因以及識(shí)別復(fù)雜疾病的生物標(biāo)志物等.
目前,大部分關(guān)于蛋白質(zhì)網(wǎng)絡(luò)的研究是基于靜態(tài)網(wǎng)絡(luò)模型.然而,靜態(tài)蛋白質(zhì)網(wǎng)絡(luò)是高度平均和理想化的網(wǎng)絡(luò)結(jié)構(gòu),包含了在不同條件、不同時(shí)間、甚至不同空間發(fā)生的各種相互作用.而真實(shí)情況是隨著外界條件的改變,某些蛋白質(zhì)會(huì)被降解,另一些蛋白質(zhì)會(huì)被翻譯出來,由此造成一些蛋白質(zhì)相互作用的消失和新的蛋白質(zhì)相互作用形成.蛋白質(zhì)之間只有在特性條件下,在相同的時(shí)間相同的細(xì)胞位置才能發(fā)生相互作用來完成某種生物過程.顯然,傳統(tǒng)的靜態(tài)蛋白質(zhì)網(wǎng)絡(luò)沒有辦法體現(xiàn)這種動(dòng)態(tài)性.如何利用獲得的蛋白質(zhì)相關(guān)的生物信息構(gòu)建和分析動(dòng)態(tài)的蛋白質(zhì)網(wǎng)絡(luò)模型是當(dāng)今生物信息學(xué)和系統(tǒng)生物學(xué)領(lǐng)域一個(gè)很有挑戰(zhàn)性的工作.
基因表達(dá)有條件和時(shí)序地打開和關(guān)閉,基因表達(dá)數(shù)據(jù)在生物過程的不同條件或不同階段能反映蛋白質(zhì)存在的動(dòng)態(tài)性[6].特別是基因微陣列技術(shù)、新一代測(cè)序技術(shù)產(chǎn)生了海量基因表達(dá)數(shù)據(jù),為研究不同周期和不同條件下不同的細(xì)胞類型的基因表達(dá)建立了基礎(chǔ).另外高通量技術(shù)的發(fā)展,使得產(chǎn)生的蛋白質(zhì)亞細(xì)胞定位數(shù)據(jù)、質(zhì)譜數(shù)據(jù)等其他數(shù)據(jù)從原來的低通量變?yōu)楦咄?在多元數(shù)據(jù)的推動(dòng)下,動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建成為可能.
本文對(duì)現(xiàn)有的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建方法進(jìn)行了詳細(xì)的分類總結(jié),介紹了動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)中蛋白質(zhì)節(jié)點(diǎn)以及相關(guān)子網(wǎng)的動(dòng)態(tài)分析的研究進(jìn)展,并詳細(xì)介紹了動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)在復(fù)雜疾病中的一些主流應(yīng)用,最后對(duì)動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)所面臨的挑戰(zhàn)與未來的研究方向進(jìn)行了探討.
1.1 蛋白質(zhì)相互作用
蛋白質(zhì)之間的相互作用根據(jù)其作用方式的不同,可以分為物理相互作用(physical interaction)和遺傳相互作用(genetic interaction).物理相互作用是指2個(gè)蛋白質(zhì)物理上相互綁定在一起,是一種直接的相互作用關(guān)系;而遺傳相互作用是在物理上沒有發(fā)生相互作用,更多地體現(xiàn)在基因之間的功能關(guān)聯(lián),是一種間接的相互作用關(guān)系.通常情況下蛋白質(zhì)相互作用主要是前者類型.
目前,大規(guī)模蛋白質(zhì)相互作用獲取的方式主要有3種:1)高通量實(shí)驗(yàn)篩選技術(shù);2)生物信息學(xué)計(jì)算方法;3)文獻(xiàn)挖掘技術(shù).獲取蛋白質(zhì)相互作用的高通量實(shí)驗(yàn)方法主要有酵母雙雜交技術(shù)(yeast two hybrid, Y2H)[7]、串聯(lián)親和純化-質(zhì)譜分析技術(shù)(tandem affinity purification-mass spectrometry, TAP-MS)[8]、蛋白質(zhì)芯片技術(shù)(protein chip technique)[9]等.酵母雙雜交技術(shù)可以快速、直接分析已知蛋白質(zhì)之間的相互作用,分離新的與已知蛋白質(zhì)相互作用的配體及其編碼基因.酵母雙雜交技術(shù)具有高度的敏感性,能夠檢測(cè)到瞬時(shí)或較弱的蛋白質(zhì)相互作用,但它僅能分析細(xì)胞核內(nèi)的蛋白質(zhì)間的相互作用[10],同時(shí)具有較高的假陽(yáng)性(被檢測(cè)到的蛋白質(zhì)相互作用數(shù)據(jù)在實(shí)際中并不存在)和假陰性(潛在的未被檢測(cè)到蛋白質(zhì)相互作用數(shù)據(jù)).串聯(lián)親和純化利用2個(gè)親和標(biāo)簽不同時(shí)序來純化蛋白組件,它能夠在真實(shí)的生理?xiàng)l件下研究蛋白質(zhì)的相互作用,同時(shí)結(jié)合質(zhì)譜技術(shù)的自動(dòng)化特性,使得大規(guī)模地分析相互作用的蛋白質(zhì)在技術(shù)上成為可能[11].相比于酵母雙雜交技術(shù),串聯(lián)親和純化質(zhì)譜分析技術(shù)降低了數(shù)據(jù)的假陽(yáng)性和假陰性水平[12].蛋白質(zhì)芯片技術(shù)是一種強(qiáng)有力的蛋白質(zhì)組學(xué)研究的新方法,能夠進(jìn)行高通量的蛋白功能分析,它具有特異性、敏感性高等特性,可有效減少藥物研發(fā)周期并提高醫(yī)療診斷效率[13].
生物學(xué)家通過這些技術(shù)能夠方便、大規(guī)模地驗(yàn)證蛋白質(zhì)間的相互作用信息,但是這類技術(shù)往往成本費(fèi)用較高.由于受實(shí)驗(yàn)條件等諸多因素的限制,導(dǎo)致不同類型的高通量實(shí)驗(yàn)技術(shù)以及來自不同實(shí)驗(yàn)室相同的高通量實(shí)驗(yàn)技術(shù)產(chǎn)生了相互作用重疊率較低等問題[14].
相比于高通量實(shí)驗(yàn)的方法,利用計(jì)算方法預(yù)測(cè)蛋白質(zhì)相互作用數(shù)據(jù)具有周期短、開銷少等優(yōu)勢(shì).它綜合利用數(shù)學(xué)、物理和信息學(xué)等多學(xué)科的理論知識(shí),通過計(jì)算機(jī)建模來預(yù)測(cè)未知的蛋白質(zhì)相互作用數(shù)據(jù).基于計(jì)算預(yù)測(cè)的方法可以歸納為5種[15-16]:
1) 基因組信息關(guān)聯(lián)推斷;
2) 基于遺傳進(jìn)化關(guān)系的方法;
3) 基于蛋白質(zhì)一級(jí)序列信息推斷;
4) 基于蛋白質(zhì)三維結(jié)構(gòu)信息的方法;
5) 蛋白質(zhì)網(wǎng)絡(luò)分析法.
由于計(jì)算預(yù)測(cè)方法采用不同的蛋白質(zhì)相互作用數(shù)據(jù)庫(kù),往往預(yù)測(cè)結(jié)果也有較大的差異性,目前還沒有比較好的統(tǒng)一評(píng)價(jià)標(biāo)準(zhǔn).
基于文獻(xiàn)挖掘的蛋白質(zhì)相互作用獲取方式主要是依賴于海量的關(guān)于蛋白質(zhì)相互作用的文獻(xiàn)報(bào)道.這些文獻(xiàn)不僅包括了蛋白質(zhì)相互作用數(shù)據(jù)信息,有的還給出了實(shí)驗(yàn)的條件、環(huán)境及蛋白質(zhì)注釋、亞細(xì)胞定位等多種信息,并且這些信息還在不斷地增加與更新.豐富的文獻(xiàn)信息為挖掘蛋白質(zhì)相互作用數(shù)據(jù)提供了基礎(chǔ),目前主要采用基于自然語言處理(natural language processing, NLP)的文本挖掘技術(shù)[17-18].文獻(xiàn)挖掘的蛋白質(zhì)相互作用數(shù)據(jù)信息得到了生物學(xué)實(shí)驗(yàn)的支撐,可靠性較高,同時(shí)也能為高通量實(shí)驗(yàn)篩選技術(shù)和計(jì)算預(yù)測(cè)得到的蛋白質(zhì)相互作用數(shù)據(jù)提供文獻(xiàn)參考依據(jù).但受限于科學(xué)文本的復(fù)雜性和人類語言表述的多樣性,如何有效地提取文獻(xiàn)中的蛋白質(zhì)相互作用數(shù)據(jù)信息仍然是很有挑戰(zhàn)的工作.
目前,已經(jīng)產(chǎn)生了大量可用的蛋白質(zhì)相互作用數(shù)據(jù),而且這些數(shù)據(jù)還在持續(xù)不斷地增加.研究者已經(jīng)成功地構(gòu)建了多個(gè)不同的蛋白質(zhì)相互作用數(shù)據(jù)庫(kù),為蛋白質(zhì)組學(xué)的相關(guān)研究提供了海量的數(shù)據(jù)來源.Pathguide網(wǎng)站*http://pathguide.org提供了豐富的蛋白質(zhì)相互作用數(shù)據(jù)庫(kù)的相關(guān)信息,本文選取部分常用的蛋白質(zhì)相互作用數(shù)據(jù)庫(kù),如表1所示:
Table 1 The Commonly Used PPI Databases表1 部分常用的蛋白質(zhì)相互作用數(shù)據(jù)庫(kù)
1.2 靜態(tài)蛋白質(zhì)網(wǎng)絡(luò)
通常情況下,靜態(tài)蛋白質(zhì)網(wǎng)絡(luò)可以用一個(gè)無向圖G=(V,E)表示,其中V表示圖中節(jié)點(diǎn)集合,E表示圖中邊的集合.映射到蛋白質(zhì)網(wǎng)絡(luò)中,每個(gè)節(jié)點(diǎn)就是一個(gè)蛋白質(zhì),每條邊則是蛋白質(zhì)之間的相互作用.根據(jù)邊取值的差異,無向圖又可分為加權(quán)圖和非加權(quán)圖.非加權(quán)圖中的每條邊權(quán)重相同,反映蛋白質(zhì)之間的相互作用視為同等地位,通常簡(jiǎn)單地用二進(jìn)制值0和1表示2個(gè)蛋白質(zhì)間是否存在相互作用關(guān)系(1表示存在,0表示不存在).加權(quán)圖中的每條邊權(quán)重不同,說明蛋白質(zhì)之間的相互作用具有差異性.
對(duì)于蛋白質(zhì)網(wǎng)絡(luò)早期的研究,研究者重點(diǎn)分析了網(wǎng)絡(luò)的拓?fù)涮匦?,如連接度、網(wǎng)絡(luò)直徑、中心性和集聚系數(shù)等[27-30].同時(shí),這些網(wǎng)絡(luò)分析發(fā)現(xiàn)蛋白質(zhì)網(wǎng)絡(luò)具有無標(biāo)度特性[31-33]、小世界性質(zhì)[34-36]、功能模塊化結(jié)構(gòu)[37-39]等.無標(biāo)度特性表現(xiàn)為蛋白質(zhì)節(jié)點(diǎn)的度服從冪律分布,即蛋白質(zhì)網(wǎng)絡(luò)中大部分蛋白質(zhì)只有少量鄰居相連,而個(gè)別蛋白質(zhì)卻有眾多的鄰居節(jié)點(diǎn)相連接.這些有大量鄰居節(jié)點(diǎn)的蛋白質(zhì)稱為hub節(jié)點(diǎn),這些hub節(jié)點(diǎn)影響著整個(gè)蛋白質(zhì)網(wǎng)絡(luò),對(duì)于細(xì)胞生存至關(guān)重要.利用這種特性,研究者可以根據(jù)蛋白質(zhì)在網(wǎng)絡(luò)中的拓?fù)渲行男詠碜R(shí)別關(guān)鍵蛋白質(zhì)[40-44].而小世界特性和功能模塊結(jié)構(gòu)則表現(xiàn)為網(wǎng)絡(luò)具有較高的集聚系數(shù),往往形成模塊化結(jié)構(gòu),這些模塊通常對(duì)應(yīng)于蛋白質(zhì)復(fù)合物或者功能模塊.一般情況下,生命活動(dòng)的發(fā)生與發(fā)展都需要多個(gè)蛋白質(zhì)共同協(xié)作形成的大分子蛋白質(zhì)復(fù)合物或者功能模塊來完成.這些蛋白質(zhì)復(fù)合物或者功能模塊中有一部分是穩(wěn)定的,參與生命周期中的多個(gè)生理過程,還有一部分是臨時(shí)形成、動(dòng)態(tài)的.蛋白質(zhì)在不同的外在條件或刺激下,具有不同的功能.生物信息學(xué)中常用圖聚類的方法,識(shí)別蛋白質(zhì)網(wǎng)絡(luò)中的一組相互作用且具有一定功能的子圖作為蛋白質(zhì)復(fù)合物或者功能模塊(一般都稱為cluster)[45-48].目前主要的蛋白質(zhì)網(wǎng)絡(luò)圖聚類方法可分為識(shí)別稠密子圖的聚類方法、層次化的聚類方法以及融合多元信息的聚類方法等[46].大部分蛋白質(zhì)網(wǎng)絡(luò)分析的圖聚類算法都是基于無向圖模型的,其中有些方法是基于非加權(quán)圖的,有些方法是基于加權(quán)圖的,還有些方法既可以用于加權(quán)圖又可用于非加權(quán)圖.
基于蛋白質(zhì)網(wǎng)絡(luò),另一個(gè)重要的研究方向是網(wǎng)絡(luò)比對(duì)問題[49-50]和子網(wǎng)絡(luò)查詢問題[51-52].蛋白質(zhì)網(wǎng)絡(luò)的比對(duì)主要是依據(jù)網(wǎng)絡(luò)的相似性計(jì)算,從待比較的2個(gè)或多個(gè)蛋白質(zhì)網(wǎng)絡(luò)中找出保守的子網(wǎng),進(jìn)一步預(yù)測(cè)蛋白質(zhì)復(fù)合物以及特定功能的通路,預(yù)測(cè)新的蛋白質(zhì)相互作用以及不同物種間的保守進(jìn)化關(guān)系等[53-55].蛋白質(zhì)子網(wǎng)絡(luò)查詢目標(biāo)是從一個(gè)大規(guī)模蛋白質(zhì)網(wǎng)絡(luò)中識(shí)別出一個(gè)與給定的查詢網(wǎng)絡(luò)高度相似的子網(wǎng)區(qū)域[56].針對(duì)查詢模式的比對(duì)問題,研究者們已開展了大量的研究工作,提出了很多有效的解決方法[57-58].
目前,基于靜態(tài)蛋白質(zhì)網(wǎng)絡(luò)的研究已取得了較大的進(jìn)展,但在實(shí)際的生物系統(tǒng)中分子網(wǎng)絡(luò)是時(shí)刻在變化的,因此構(gòu)建動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)才能模擬真實(shí)的生物系統(tǒng)的運(yùn)行規(guī)律.接下來本文將對(duì)現(xiàn)有的一系列動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建方法進(jìn)行系統(tǒng)的分類總結(jié).
Fig. 1 Schematic diagram of the time course dynamic PIN construction圖1 一種時(shí)序動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建示意圖[60]
動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)可以用一個(gè)無向圖集合G={G1,G2,…,Gi,…,Gn}表示,其中Gi=(Vi,Ei)表示第i時(shí)刻或條件下的子網(wǎng),Vi表示圖中第i時(shí)刻或條件下的節(jié)點(diǎn)集合,Ei表示圖中第i時(shí)刻或條件下的邊集合.蛋白質(zhì)和蛋白質(zhì)間的相互作用都會(huì)隨著外界刺激或條件改變而變化,因此由蛋白質(zhì)和蛋白質(zhì)間的相互作用構(gòu)成的蛋白質(zhì)網(wǎng)絡(luò)也應(yīng)該是受到外界環(huán)境條件約束的,是一個(gè)時(shí)刻在動(dòng)態(tài)發(fā)展的.根據(jù)蛋白質(zhì)網(wǎng)絡(luò)所包含組件(蛋白質(zhì)節(jié)點(diǎn)和蛋白質(zhì)間的相互作用邊)屬性的動(dòng)態(tài)性,本文把現(xiàn)有的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建方法歸納為3類:基于蛋白質(zhì)表達(dá)動(dòng)態(tài)性的方法、基于多狀態(tài)下表達(dá)及相關(guān)性變化的方法和基于時(shí)空動(dòng)態(tài)變化的方法.
2.1 基于蛋白質(zhì)表達(dá)動(dòng)態(tài)性的方法
蛋白質(zhì)的表達(dá)具有時(shí)空動(dòng)態(tài)的特性:從時(shí)間維度上分析,蛋白質(zhì)表達(dá)動(dòng)態(tài)性主要表現(xiàn)為蛋白質(zhì)在某些特定的時(shí)刻表達(dá),而在其他時(shí)刻沒有表達(dá);從空間維度上來看,蛋白質(zhì)的表達(dá)動(dòng)態(tài)性體現(xiàn)在蛋白質(zhì)只在某些特定的組織中表達(dá),而在其他組織中不表達(dá).因此,如果在一個(gè)細(xì)胞中或者某個(gè)時(shí)刻,2個(gè)蛋白質(zhì)都不表達(dá),那么它們之間的相互作用就不會(huì)發(fā)生[59].靜態(tài)的蛋白質(zhì)網(wǎng)絡(luò)能夠提供細(xì)胞內(nèi)蛋白質(zhì)間的相互作用行為的定性描述,為動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建提供了一個(gè)的支架;而基因表達(dá)數(shù)據(jù)能夠反映出不同時(shí)刻/組織/條件下細(xì)胞中被轉(zhuǎn)錄的mRNA定量信息.由中心性法則可知,蛋白質(zhì)是由mRNA翻譯而來,從而可以從基因表達(dá)信息中獲得蛋白質(zhì)表達(dá)的動(dòng)態(tài)性信息.有效結(jié)合這2種定性和定量信息,能夠闡述細(xì)胞內(nèi)蛋白質(zhì)之間的動(dòng)態(tài)組織形式.基于蛋白質(zhì)表達(dá)動(dòng)態(tài)性的方法的基本思路是:1)根據(jù)基因的表達(dá)信息判斷蛋白質(zhì)在各個(gè)時(shí)刻/組織/條件下表達(dá)或未表達(dá);2)結(jié)合靜態(tài)蛋白質(zhì)網(wǎng)絡(luò),構(gòu)建每個(gè)時(shí)刻/組織/條件的蛋白質(zhì)子網(wǎng);3)由這些反映蛋白質(zhì)表達(dá)動(dòng)態(tài)性的子網(wǎng)構(gòu)成了動(dòng)態(tài)變化的蛋白質(zhì)網(wǎng)絡(luò).其中每個(gè)時(shí)刻/組織/條件的蛋白質(zhì)子網(wǎng)由這個(gè)時(shí)刻/組織/條件下表達(dá)的蛋白質(zhì)及其相互作用構(gòu)成.圖1給出了一種時(shí)序動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建的示意圖.
由于微陣列技術(shù)或新一代測(cè)序技術(shù)產(chǎn)生的高通量基因表達(dá)數(shù)據(jù)存在不可避免的背景噪音,因此這類構(gòu)建方法的關(guān)鍵在于如何判斷蛋白質(zhì)在各個(gè)時(shí)刻/條件下/組織中的表達(dá)動(dòng)態(tài)性.在已有的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建中,判斷蛋白質(zhì)表達(dá)動(dòng)態(tài)性的方法不盡相同,表2給出了6個(gè)主要的基于閾值的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建方法.本文把基于閾值的方法分為2類:固定閾值(fixed threshold)和動(dòng)態(tài)閾值(active threshold).
Table 2 Dynamic PIN Construction Methods Based on Protein Presence Dynamics表2 基于蛋白質(zhì)表達(dá)動(dòng)態(tài)性的動(dòng)態(tài)網(wǎng)絡(luò)構(gòu)建方法
2005年,De Lichtenberg等人[61]構(gòu)建了基于時(shí)序基因表達(dá)數(shù)據(jù)的酵母動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò).基于時(shí)序基因表達(dá)數(shù)據(jù),蛋白質(zhì)被分為周期性表達(dá)蛋白質(zhì)和持續(xù)性表達(dá)蛋白質(zhì)2類[66],他們認(rèn)為僅周期性表達(dá)的蛋白質(zhì)存在動(dòng)態(tài)性,且僅在基因表達(dá)數(shù)據(jù)中峰值所對(duì)應(yīng)的時(shí)刻表達(dá).對(duì)于周期性表達(dá)的蛋白質(zhì),蛋白質(zhì)p的活性出現(xiàn)時(shí)刻T(p)為
T(p)={i|Max(Exp(p,i)),i=1,2,…,t},
(1)
其中,Exp(p,i)是蛋白質(zhì)p在時(shí)刻i的基因表達(dá)值;對(duì)于持續(xù)性表達(dá)的蛋白質(zhì),蛋白質(zhì)活性出現(xiàn)時(shí)刻如式(2)所示:
T(p)={i|i=1,2,…,t}.
(2)
因此,每個(gè)時(shí)刻的動(dòng)態(tài)蛋白質(zhì)子網(wǎng)由該時(shí)刻出現(xiàn)的周期性表達(dá)蛋白質(zhì)和所有持續(xù)性表達(dá)的蛋白質(zhì)以及它們之間的相互作用組成.基于預(yù)處理得到的小規(guī)模高可靠性的蛋白質(zhì)相互作用以及周期性表達(dá)蛋白質(zhì)識(shí)別策略,對(duì)比包含5 000多個(gè)蛋白質(zhì)的酵母蛋白質(zhì)網(wǎng)絡(luò),這個(gè)酵母動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)只包含300多個(gè)蛋白質(zhì),丟失了大量的蛋白質(zhì)及其動(dòng)態(tài)信息.另外,僅將基因表達(dá)數(shù)據(jù)中峰值所對(duì)應(yīng)的時(shí)刻作為周期性表達(dá)蛋白質(zhì)的表達(dá)時(shí)刻不符合生物事實(shí),從而導(dǎo)致大量的蛋白質(zhì)表達(dá)動(dòng)態(tài)性信息的丟失.后續(xù)的很多研究者都開始采用閾值的方法來確定蛋白質(zhì)的表達(dá)動(dòng)態(tài)性.Hegde等人[62]構(gòu)建了大腸桿菌在4個(gè)不同條件下的蛋白質(zhì)網(wǎng)絡(luò)來研究不同條件下蛋白質(zhì)相互作用的動(dòng)態(tài)改變.他們將基因芯片中每一個(gè)區(qū)域的平均表達(dá)水平作為該區(qū)域的閾值來區(qū)別噪音值和真實(shí)表達(dá)值.對(duì)于某個(gè)條件i下的某個(gè)j扇區(qū)s(i,j),其包含基因數(shù)記為ns(i,j),則其活性閾值θ(s(i,j))為
(3)
蛋白質(zhì)活性出現(xiàn)時(shí)刻為
T(p)={i|Exp(p,i)≥θ(s(i,j)),i=1,2,…,t}.
(4)
2011年,Tang等人[60]基于大量周期性表達(dá)的基因在酵母代謝周期中表達(dá)峰值都會(huì)大于一個(gè)常量這一現(xiàn)象[67],采用一個(gè)固定閾值來判斷蛋白質(zhì)的表達(dá)動(dòng)態(tài)性,并基于此構(gòu)建了酵母的時(shí)序動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò),其蛋白質(zhì)活性出現(xiàn)的時(shí)刻計(jì)算為
T(p)={i|Exp(p,i)≥θ,i=1,2,…,t},
(5)
其中,閾值θ是一個(gè)常量.這種固定閾值的選取依賴于對(duì)酵母周期性表達(dá)基因在某個(gè)具體的基因表達(dá)數(shù)據(jù)中峰值分布的研究,因此很難應(yīng)用在同一物種的其他基因表達(dá)數(shù)據(jù)以及其他物種的基因表達(dá)數(shù)據(jù)上.另外,許多在酵母細(xì)胞周期轉(zhuǎn)錄水平一直很低的mRNA很容易被這個(gè)固定閾值過濾掉,而實(shí)際上這些mRNA也可能會(huì)被翻譯成蛋白質(zhì)[68],這會(huì)使得構(gòu)建的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)不可避免地丟失一些蛋白質(zhì)以及它們的動(dòng)態(tài)表達(dá)信息.從這些問題出發(fā),考慮到不可避免的背景噪音和每個(gè)基因各自的表達(dá)特性,Wang等人[63]提出了一個(gè)基于3-sigma法則的方法來根據(jù)每個(gè)基因的表達(dá)曲線為基因?qū)?yīng)的蛋白質(zhì)設(shè)計(jì)一個(gè)閾值,用于判斷該蛋白質(zhì)在什么時(shí)刻表達(dá)并處于活性狀態(tài).活性閾值由式(6)求出:
(6)
其中,μ(p)和σ(p)是蛋白質(zhì)p的基因表達(dá)的算術(shù)平均值及標(biāo)準(zhǔn)差;蛋白質(zhì)活性出現(xiàn)時(shí)刻如式(7)所示:
T(p)={i|Exp(p,i)≥θ(p),i=1,2,…,t}.
(7)
基于識(shí)別的每個(gè)蛋白質(zhì)活性表達(dá)時(shí)刻點(diǎn),構(gòu)建了動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò).每個(gè)時(shí)刻上的動(dòng)態(tài)蛋白質(zhì)子網(wǎng)由該時(shí)刻的處于活性的蛋白質(zhì)及其相互作用組成.Xiao等人[69]則采用一個(gè)動(dòng)態(tài)模型方法,將基因表達(dá)數(shù)據(jù)分為時(shí)間相關(guān)的和時(shí)間不相關(guān)的2類.和時(shí)間相關(guān)的基因表達(dá)數(shù)據(jù)更有可能是動(dòng)態(tài)表示的,而不是隨機(jī)的;而和時(shí)間不相關(guān)的基因表達(dá)數(shù)據(jù)則更有可能是隨機(jī)性的.如果基因是時(shí)間獨(dú)立性的,并且它們的平均值是非常小的,那么這些基因表達(dá)數(shù)據(jù)就被認(rèn)為是噪聲,通過這種動(dòng)態(tài)模型來過濾基因表達(dá)數(shù)據(jù)中的無效數(shù)據(jù).同時(shí)在3-sigma方法的基礎(chǔ)上,設(shè)計(jì)了新的閾值函數(shù)來計(jì)算確定過濾了噪聲后的基因(蛋白質(zhì))活性時(shí)間點(diǎn),從而構(gòu)建酵母的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò).而Shen等人[64]認(rèn)為3-sigma方法雖然能夠取得相對(duì)較好的結(jié)果,但是會(huì)過濾掉一些一直有較高表達(dá)信息的蛋白質(zhì),造成有用數(shù)據(jù)的丟失.在3-sigma基礎(chǔ)上,他們提出了偏差度(deviation degree)的方法來判斷蛋白質(zhì)的活性時(shí)刻,進(jìn)而構(gòu)建時(shí)間演化的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò),其活性閾值為
θ(p)=μ(p)+σ(p).
(8)
蛋白質(zhì)活性出現(xiàn)時(shí)刻為
T(p)={i|Exp(p,i)≥θ(p),i=1,2,…,t}.
(9)
由于蛋白質(zhì)間相互作用強(qiáng)度的異質(zhì)性,定量描述動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)中的相互作用強(qiáng)度對(duì)于真實(shí)反映細(xì)胞進(jìn)程的作用機(jī)制有重要作用.他們采用連接親密度來量化蛋白質(zhì)之間相互作用的強(qiáng)度,構(gòu)建了加權(quán)的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò),從而降低了假陽(yáng)性數(shù)據(jù)以及假陰性數(shù)據(jù)(瞬時(shí)PPI數(shù)據(jù)的丟失)對(duì)網(wǎng)絡(luò)可靠性的影響.Zhang等人[65]認(rèn)為簡(jiǎn)單的描述蛋白質(zhì)是表達(dá)狀態(tài)或未被表達(dá)狀態(tài)不符合實(shí)際蛋白質(zhì)表達(dá)的過程,而應(yīng)該是蛋白質(zhì)在不同的時(shí)刻組織條件下表現(xiàn)為具有不同水平的表達(dá)活性.基于3-sigma方法,他們?cè)O(shè)計(jì)了k-sigma(k=1,2,3)的閾值方法.當(dāng)k取不同數(shù)值時(shí),判斷蛋白質(zhì)是否表達(dá)的活性閾值也隨之變化.當(dāng)?shù)鞍踪|(zhì)實(shí)際的表達(dá)量處于不同的閾值區(qū)間,則其對(duì)應(yīng)的處于活性狀態(tài)的概率值也不同.基于蛋白質(zhì)在不同時(shí)刻的活性概率,他們構(gòu)建了基于概率的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò),其活性閾值為
(10)
其中,k=1,2,3.當(dāng)k=1時(shí),活性閾值θk(p)記為θ1(p);當(dāng)k=2時(shí),活性閾值θk(p)記為θ2(p);當(dāng)k=3時(shí),活性閾值θk(p)記為θ3(p).基于3-sigma法則,Zhang等人[65]將蛋白質(zhì)p在時(shí)刻i的活性概率Proi(p)分為4個(gè)等級(jí),具體計(jì)算為
(11)
蛋白質(zhì)p的活性概率表示其在某時(shí)刻的活躍水平,可以根據(jù)活性概率判定p在該時(shí)刻是否是活性的.
目前,基于表達(dá)動(dòng)態(tài)性的蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建方法主要采用閾值來區(qū)分基因表達(dá)數(shù)據(jù)中噪音和真實(shí)表達(dá),從而提取蛋白質(zhì)的表達(dá)動(dòng)態(tài)性信息.然而,大多數(shù)閾值方法缺少對(duì)噪音的系統(tǒng)性分析和必要的理論支持,使得在不同的基因表達(dá)數(shù)據(jù)上有較大的應(yīng)用局限性.
2.2 基于多狀態(tài)下表達(dá)及相關(guān)性變化的方法
蛋白質(zhì)表達(dá)水平的改變可能導(dǎo)致蛋白質(zhì)之間相互作用強(qiáng)度的增加或減少,也會(huì)引起蛋白質(zhì)之間表達(dá)相關(guān)性的改變,從而導(dǎo)致生理狀態(tài)的改變.表達(dá)方差(EV)可以用來衡量蛋白質(zhì)的動(dòng)態(tài)性,具有小EV值的蛋白質(zhì)的動(dòng)態(tài)性很低,反之,蛋白質(zhì)的動(dòng)態(tài)性較高.利用相關(guān)性計(jì)算方法(例如皮爾遜相關(guān)系數(shù)PCC)可以衡量一對(duì)蛋白質(zhì)的表達(dá)相關(guān)性,表達(dá)相關(guān)性越高,它們?cè)诩?xì)胞中同時(shí)表達(dá)的機(jī)會(huì)越多,更容易發(fā)生相互作用;反之,表達(dá)相關(guān)性越小,它們?cè)诩?xì)胞中同時(shí)表達(dá)的機(jī)會(huì)越少,那么它們發(fā)生相互作用的可能性就越小.目前主要的基于多狀態(tài)下表達(dá)及相關(guān)性變化的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建方法如表3所示:
Table 3 Dynamic PIN Construction Methods Based on Multiple States Expression and Correlation Alteration表3 基于多狀態(tài)下表達(dá)及相關(guān)性變化的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建方法
基于包含多種狀態(tài)的基因表達(dá)數(shù)據(jù),通過計(jì)算表達(dá)相關(guān)性,可以研究同種細(xì)胞不同狀態(tài)下的蛋白質(zhì)網(wǎng)絡(luò)的動(dòng)態(tài)性.例如Komurov等人[70]在6個(gè)不同數(shù)據(jù)集上的272個(gè)基因表達(dá)數(shù)據(jù)上計(jì)算各個(gè)蛋白質(zhì)的EV,并基于EV將蛋白質(zhì)分為動(dòng)態(tài)蛋白質(zhì)(EV>0.75)和靜態(tài)蛋白質(zhì)(EV<0.25)兩類.他們提出動(dòng)態(tài)蛋白質(zhì)更趨向于處在一個(gè)高度表達(dá)相關(guān)的環(huán)境中,從而構(gòu)建了一個(gè)由PCC計(jì)算的表達(dá)相關(guān)性大于或等于0.65的相互作用蛋白質(zhì)對(duì)組成的簡(jiǎn)單的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò),其中動(dòng)態(tài)蛋白質(zhì)占絕大多數(shù).為研究人類蛋白質(zhì)網(wǎng)絡(luò)的動(dòng)態(tài)特性,Xia等人[71]基于26~106歲年齡階段的30個(gè)人的大腦基因表達(dá)數(shù)據(jù)建立了一個(gè)由正相關(guān)(PCC>0.4)和負(fù)相關(guān)(PCC<-0.4)的相互作用蛋白質(zhì)對(duì)組成的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò).這個(gè)動(dòng)態(tài)網(wǎng)絡(luò)包含了衰老過程中表達(dá)相關(guān)性較高的蛋白質(zhì)以及它們之間的蛋白質(zhì)相互作用.在Xia等人研究的基礎(chǔ)上,Xue等人[75]構(gòu)建了類似的人類和果蠅的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò),用來研究在人類和果蠅衰老過程中蛋白質(zhì)網(wǎng)絡(luò)結(jié)構(gòu)的動(dòng)態(tài)變化.在這些動(dòng)態(tài)網(wǎng)絡(luò)中,大多數(shù)相關(guān)性高的相互作用的蛋白質(zhì)擁有較高的EV值,但是并非所有的動(dòng)態(tài)蛋白質(zhì)都包含在這種動(dòng)態(tài)網(wǎng)絡(luò)中.另外,在這種動(dòng)態(tài)網(wǎng)絡(luò)中,包含的只是在多狀態(tài)下表達(dá)相關(guān)性高的蛋白質(zhì)之間的相互作用,這些相互作用不一定都是同時(shí)發(fā)生的.因?yàn)楸磉_(dá)相關(guān)性是通過蛋白質(zhì)的表達(dá)來間接刻畫它們之間相互作用會(huì)發(fā)生的可能性,而這些相互作用到底什么時(shí)候發(fā)生就不得而知了.
近年來,一些研究者開始關(guān)注基于表達(dá)相關(guān)性的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建,特別是不同病理狀態(tài)下的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò).例如Zhang等人[72]基于2組不同發(fā)展?fàn)顟B(tài)下的神經(jīng)膠質(zhì)瘤病人的基因表達(dá)數(shù)據(jù)(短存活的樣本和長(zhǎng)存活的樣本),計(jì)算了與膠質(zhì)瘤相關(guān)的蛋白質(zhì)分別在2組不同發(fā)展?fàn)顟B(tài)下的表達(dá)相關(guān)性,構(gòu)建了膠質(zhì)瘤動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò),其動(dòng)態(tài)性主要體現(xiàn)為表達(dá)相關(guān)性的變化及表達(dá)信息的變化.類似于Zhang等人的構(gòu)建方法,為了研究二型糖尿病,Sun等人[73]利用2組正常小鼠和疾病小鼠在3個(gè)二型糖尿病相關(guān)組織上的時(shí)序基因表達(dá)數(shù)據(jù)以及小鼠的蛋白質(zhì)網(wǎng)絡(luò),分別計(jì)算每個(gè)組織在每個(gè)時(shí)刻點(diǎn)上相互作用的蛋白質(zhì)的表達(dá)相關(guān)性,識(shí)別出各個(gè)時(shí)刻點(diǎn)上顯著性差異表達(dá)的蛋白質(zhì)以及相關(guān)性具有顯著性差異的相互作用,構(gòu)建了差異性的動(dòng)態(tài)蛋白質(zhì)子網(wǎng).與Zhang等人不同的是,Sun等人采用了斯皮爾曼相關(guān)系數(shù)(SCC)來計(jì)算2個(gè)相互作用的蛋白質(zhì)的表達(dá)相關(guān)性,并且動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)不僅包含了在相關(guān)性上具有顯著性差異的相互作用和具有顯著性表達(dá)差異的蛋白質(zhì),還包含了顯著性表達(dá)差異的蛋白質(zhì)之間的相互作用.Shang等人[74]采用RNA-seq數(shù)據(jù)代替基因表達(dá)數(shù)據(jù)來構(gòu)建動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò),他們認(rèn)為相互作用的蛋白質(zhì)對(duì)具有一致的表達(dá)模式.通過基因的共表達(dá)模式過濾具有一定噪聲的相互作用,然后再選取表達(dá)相關(guān)性PCC≥ 0.95的相互作用蛋白質(zhì)對(duì)構(gòu)建動(dòng)態(tài)的蛋白質(zhì)網(wǎng)絡(luò).RNA-seq數(shù)據(jù)背景噪聲更小,同時(shí)還能夠檢測(cè)未知的轉(zhuǎn)錄物和亞型[76].因此,利用RNA-seq數(shù)據(jù)構(gòu)建動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)是今后的重要研究方向.
Fig. 2 Overview of the paradigm for constructing the spatial and temporal active PIN圖2 一種時(shí)空動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建示意圖[84]
在上述基于多狀態(tài)下表達(dá)及相關(guān)性變化的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建中,不同的相關(guān)性計(jì)算方法和差異顯著性分析方法影響動(dòng)態(tài)網(wǎng)絡(luò)的規(guī)模,對(duì)動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建非常關(guān)鍵.不同樣本下的不同背景噪音不可避免地會(huì)對(duì)相關(guān)性計(jì)算以及顯著性分析造成影響.不同的物種,顯著性差異判斷的閾值顯然也不同.目前,多狀態(tài)下的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)的構(gòu)建還處于初步研究階段,只刻畫了多狀態(tài)下的表達(dá)及相關(guān)性差異.由于缺少新的描述模型和構(gòu)建方法,不能對(duì)各種狀態(tài)下蛋白質(zhì)網(wǎng)絡(luò)的整體變化等進(jìn)行研究.因此,提出新的精確刻畫多狀態(tài)下蛋白質(zhì)網(wǎng)絡(luò)的描述方法非常必要.
2.3 基于時(shí)空動(dòng)態(tài)變化的方法
基于蛋白質(zhì)表達(dá)動(dòng)態(tài)性的方法體現(xiàn)的是蛋白質(zhì)自身表達(dá)隨時(shí)間演化的動(dòng)態(tài)性;基于多狀態(tài)下表達(dá)及相關(guān)性變化的方法則表現(xiàn)為不同條件下蛋白質(zhì)之間表達(dá)相關(guān)性的改變;而基于時(shí)空動(dòng)態(tài)變化的方法則體現(xiàn)了蛋白質(zhì)及蛋白質(zhì)相互作用在時(shí)間和空間上的動(dòng)態(tài)變化.現(xiàn)階段動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建的研究主要體現(xiàn)了蛋白質(zhì)在時(shí)間動(dòng)態(tài)性上的信息,并且取得了一系列相關(guān)研究成果.隨著蛋白質(zhì)組學(xué)研究的快速發(fā)展,體現(xiàn)蛋白質(zhì)空間動(dòng)態(tài)性上的信息數(shù)據(jù)也越來越多.結(jié)合不同組織的基因表達(dá)數(shù)據(jù)構(gòu)造的組織特異性蛋白質(zhì)網(wǎng)絡(luò),能夠反映蛋白質(zhì)在空間上的表達(dá)動(dòng)態(tài)性:在不同的組織中,某些蛋白質(zhì)只能在特定的組織細(xì)胞中表達(dá),從而影響相互作用的發(fā)生.例如,Bossi等人[77]基于79個(gè)不同的人體細(xì)胞或組織的基因表達(dá)數(shù)據(jù)[78]和人類蛋白質(zhì)網(wǎng)絡(luò),構(gòu)建了79個(gè)組織特異性的蛋白質(zhì)網(wǎng)絡(luò).他們也利用固定閾值的方法來區(qū)分所有基因表達(dá)數(shù)據(jù)中的噪音和真實(shí)表達(dá)[79].但蛋白質(zhì)的空間動(dòng)態(tài)性準(zhǔn)確來說,是指在不同的細(xì)胞生長(zhǎng)條件下和應(yīng)對(duì)外部刺激時(shí)蛋白質(zhì)在細(xì)胞中的位置會(huì)發(fā)生變化,從而影響相互作用的發(fā)生.例如,當(dāng)細(xì)胞應(yīng)對(duì)DNA損壞時(shí),Boisvert等人[80]觀察到蛋白質(zhì)的位置發(fā)生了改變.Zhao等人[81]和胡賽等人[82]結(jié)合時(shí)序基因表達(dá)數(shù)據(jù)、結(jié)構(gòu)域信息和復(fù)合物信息,構(gòu)建了動(dòng)態(tài)加權(quán)蛋白質(zhì)網(wǎng)絡(luò).他們認(rèn)為蛋白質(zhì)在某時(shí)刻的表達(dá)水平超過自身的平均表達(dá),則蛋白質(zhì)在該時(shí)刻表達(dá).不同于3-sigma方法,他們認(rèn)為取消了閾值能夠提高算法的適應(yīng)性.
根據(jù)蛋白質(zhì)受到時(shí)間和空間的約束,蛋白質(zhì)之間只有在相同時(shí)間和相同細(xì)胞位置才能發(fā)生相互作用[83],我們構(gòu)建了具有時(shí)空特性的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)[84],該網(wǎng)絡(luò)具體的構(gòu)建流程如圖2所示.首先,我們采用改進(jìn)的3-sigma動(dòng)態(tài)閾值方法判斷時(shí)序基因表達(dá)數(shù)據(jù)中蛋白質(zhì)活性信息;然后利用蛋白質(zhì)亞細(xì)胞定位數(shù)據(jù)獲得蛋白質(zhì)在細(xì)胞中的位置信息;最后結(jié)合發(fā)生在相同時(shí)間相同位置的相互作用信息,構(gòu)建成時(shí)空動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò).相比于靜態(tài)的蛋白質(zhì)網(wǎng)絡(luò),我們構(gòu)建的時(shí)空動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)體現(xiàn)了蛋白質(zhì)及蛋白質(zhì)之間相互作用隨時(shí)間和空間位置變化的特性.
現(xiàn)有的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建方法主要還是蛋白質(zhì)自身表達(dá)水平的動(dòng)態(tài)變化過程,而蛋白質(zhì)相互作用強(qiáng)度的動(dòng)態(tài)變化過程研究尚處于基礎(chǔ)研究階段.因此,如何同時(shí)結(jié)合時(shí)間、空間動(dòng)態(tài)性信息構(gòu)建更加有效的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)還需要投入大量的研究精力.
蛋白質(zhì)以高效的、精確的、特異性的方式來發(fā)揮功能,同時(shí)蛋白質(zhì)結(jié)構(gòu)與功能的動(dòng)態(tài)變化使得蛋白質(zhì)具有很強(qiáng)的適應(yīng)性和進(jìn)化性[85].在靜態(tài)蛋白質(zhì)網(wǎng)絡(luò)分析中我們可知,蛋白質(zhì)網(wǎng)絡(luò)中存在少量hub類型的蛋白質(zhì)節(jié)點(diǎn),這些蛋白質(zhì)連接度較大,往往是在不同時(shí)刻或不同條件下形成的相互作用關(guān)系.而Han等人[86]則發(fā)現(xiàn)酵母動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)中的這個(gè)hub類型的蛋白質(zhì)又可分為party hub和date hub.party hub類型的蛋白質(zhì)往往處于蛋白質(zhì)功能模塊的中心位置,與多個(gè)蛋白質(zhì)同時(shí)發(fā)生相互作用且具有較高的共表達(dá)水平;而date hub類型的蛋白質(zhì)則處于功能模塊之間,在不同時(shí)刻或細(xì)胞位置與多個(gè)蛋白質(zhì)發(fā)生相互作用且共表達(dá)水平相對(duì)較低.Taylor等人[87]受此啟發(fā)將hub類型的蛋白質(zhì)分為intermodular hub和intramodular hub.他們的研究發(fā)現(xiàn)intermodular hub類型的蛋白質(zhì)表現(xiàn)出較高的集聚系數(shù),intramodular hub類型的蛋白質(zhì)則表現(xiàn)出較高的介數(shù).
區(qū)分蛋白質(zhì)網(wǎng)絡(luò)中的動(dòng)態(tài)節(jié)點(diǎn)和靜態(tài)節(jié)點(diǎn),并對(duì)網(wǎng)絡(luò)中動(dòng)態(tài)性最強(qiáng)的節(jié)點(diǎn)及屬性進(jìn)行分析有助于理解蛋白質(zhì)的功能和蛋白質(zhì)網(wǎng)絡(luò)的組織結(jié)構(gòu)[88].例如,在不同條件下,考慮網(wǎng)絡(luò)中基因表達(dá)水平的變化,可以篩選出一些差異性表達(dá)的基因,這些基因往往跟疾病的發(fā)生與發(fā)展密切相關(guān).
在細(xì)胞中,實(shí)際的蛋白質(zhì)之間的相互作用也不是一成不變的,而是隨著時(shí)間和條件不斷變化的,這就體現(xiàn)了蛋白質(zhì)的相互作用動(dòng)態(tài)性[89-90].而由蛋白質(zhì)和蛋白質(zhì)之間的相互作用構(gòu)建的蛋白質(zhì)子網(wǎng)也具有動(dòng)態(tài)性,在不同條件下所構(gòu)建的蛋白質(zhì)子網(wǎng)稱為條件特異性子網(wǎng),如蛋白質(zhì)復(fù)合物/功能模塊、組織特異性子網(wǎng)、內(nèi)容相關(guān)子網(wǎng)等[88].從不同層面動(dòng)態(tài)分析條件特性子網(wǎng)有利于整體或局部理解蛋白質(zhì)網(wǎng)絡(luò)的組織結(jié)構(gòu)和生物體系統(tǒng)功能機(jī)制[91-92].傳統(tǒng)研究都是從全局角度去識(shí)別靜態(tài)的蛋白質(zhì)復(fù)合物或功能模塊,并且難以精確區(qū)分二者.而實(shí)際的蛋白質(zhì)復(fù)合物更多的是動(dòng)態(tài)單元,特別是一些瞬時(shí)形成的蛋白質(zhì)復(fù)合物在靜態(tài)蛋白質(zhì)網(wǎng)絡(luò)中難以檢測(cè)到.部分基因只能在特定的細(xì)胞組織中表達(dá),只有2個(gè)基因在相同的組織中,它們才能夠發(fā)生相互作用.基于組織特異性子網(wǎng)能夠發(fā)現(xiàn)組織特異性蛋白質(zhì)與廣泛表達(dá)蛋白質(zhì)具有顯著性的差別[77,93-94].而內(nèi)容相關(guān)子網(wǎng)的研究重點(diǎn)關(guān)注的是如何識(shí)別出特定復(fù)雜疾病的生物標(biāo)志物或者篩選出疾病組和對(duì)照組差異性的基因集合,這對(duì)于疾病的早期診斷、藥物設(shè)計(jì)和臨床應(yīng)用具有很強(qiáng)的實(shí)用性[95-96].常用基于圖搜索的內(nèi)容相關(guān)子網(wǎng)識(shí)別方法[97-99],主要分2個(gè)步驟實(shí)現(xiàn):1)定義打分函數(shù)來量化不同條件下網(wǎng)絡(luò)結(jié)構(gòu)的改變程度;2)設(shè)計(jì)搜索算法提取得分最高的條件特異性子網(wǎng)[88].
網(wǎng)絡(luò)的動(dòng)態(tài)模擬可以反映出生物細(xì)胞對(duì)于外界刺激時(shí)的響應(yīng)過程,以及分子網(wǎng)絡(luò)隨時(shí)間的演化過程.蛋白質(zhì)網(wǎng)絡(luò)的動(dòng)態(tài)模擬可以呈現(xiàn)蛋白質(zhì)及蛋白質(zhì)之間的相互作用在細(xì)胞中所參與的生命活動(dòng)過程規(guī)律,有助于理解蛋白質(zhì)復(fù)合物/功能模塊的形成機(jī)制以及差異性表達(dá)基因及異常通路在疾病病變中所扮演的角色[100-101].基于計(jì)算的方法為蛋白質(zhì)網(wǎng)絡(luò)的動(dòng)態(tài)模擬提供了有效手段.常用的模擬分子網(wǎng)絡(luò)動(dòng)態(tài)的數(shù)學(xué)模型有布爾模型、邏輯模型、貝葉斯模型和微分方程模型等[88],這些模型同樣適用于蛋白質(zhì)網(wǎng)絡(luò)的動(dòng)態(tài)建模分析.小規(guī)模蛋白質(zhì)網(wǎng)絡(luò),可采用微分方程模型來進(jìn)行動(dòng)態(tài)模擬;而對(duì)于大規(guī)模的蛋白質(zhì)網(wǎng)絡(luò)則需借助不需要反應(yīng)參數(shù)的不太精確的模型,如智能建模[88,102].
網(wǎng)絡(luò)可視化技術(shù)作為一種重要的輔助手段,可以幫助研究人員直觀地觀察網(wǎng)絡(luò)的結(jié)構(gòu)并有助于進(jìn)一步挖掘隱藏的信息.Cytoscape[103]是一個(gè)十分重要開源的支持插件開發(fā)的軟件系統(tǒng),可用于大規(guī)模蛋白質(zhì)相互作用等復(fù)雜生物網(wǎng)絡(luò)的可視化分析.由于Cytoscape界面友好、功能齊全、數(shù)據(jù)庫(kù)整合較好,同時(shí)還可以通過簡(jiǎn)易插件對(duì)其功能進(jìn)行擴(kuò)展,Cytoscape軟件包的功能日益豐富和完善.基于Cytoscape的蛋白質(zhì)網(wǎng)絡(luò)分析的插件有很多,例如分析節(jié)點(diǎn)拓?fù)涮匦缘牟寮﨏ytoNCA*http://apps.cytoscap-e.org/apps/cytonca[104],以及用于網(wǎng)絡(luò)聚類分析的插件MCODE*http://apps.cytoscape.org/apps/mcode[105],ClusterViz*http://apps.cytos-cape.org/apps/clusterviz[106]、CytoCluster*http://apps.cytoscape.org/apps/cytocluster,Cluster-ONE*http://apps.cytoscape.org/apps/clusterone[107],clusterMaker2*http://apps.cytoscape.o-rg/apps/clustermaker2等.基于Cytoscape的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)可視化插件有DyNet*http://apps.cytoscape.org/apps/dynet[108],DynNetwork*http://apps.cytoscape.org/apps/dy-nnetwork.DyNet是一個(gè)功能十分強(qiáng)大的動(dòng)態(tài)網(wǎng)絡(luò)分析工具,能夠?qū)Χ酄顟B(tài)的動(dòng)態(tài)分子網(wǎng)絡(luò)提供實(shí)時(shí)同步的動(dòng)態(tài)可視化分析,能夠識(shí)別出不同網(wǎng)絡(luò)狀態(tài)下的最大保守子網(wǎng)模塊.DynNetwork提供了多種網(wǎng)絡(luò)中心性測(cè)量指標(biāo),比如度中心性(degree centrality)[109]、接近中心性(closeness centrality)[110]、介數(shù)中心性(betweenness centrality)[111]等.
此外,其他一些復(fù)雜網(wǎng)絡(luò)的可視化分析工具也可以對(duì)動(dòng)態(tài)網(wǎng)絡(luò)的子網(wǎng)進(jìn)一步分析.Gephi[112]可用于動(dòng)態(tài)和分層圖的交互可視化與探測(cè).Osprey[113]使用不同顏色標(biāo)識(shí)基因的功能和相互作用數(shù)據(jù),還可以讓用戶通過基因名稱進(jìn)行文本搜索和它相關(guān)的蛋白質(zhì)等功能信息.Pajek[114]是大型復(fù)雜網(wǎng)絡(luò)分析工具,不僅實(shí)現(xiàn)了一整套快速有效的用來分析復(fù)雜網(wǎng)絡(luò)的算法,而且提供了一個(gè)用于可視化分析的界面.Pajek不僅可以對(duì)普通網(wǎng)絡(luò)進(jìn)行可視化,還支持多關(guān)系網(wǎng)絡(luò)的可視化呈現(xiàn).C-DEVA[115]基于Java的綜合生物網(wǎng)絡(luò)分析平臺(tái),集成了多種算法應(yīng)用于生物網(wǎng)絡(luò)功能模塊的預(yù)測(cè)、評(píng)估、可視化以及功能富集分析等,且具有很好的擴(kuò)展性.
動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建方法的發(fā)展,有效克服了基于靜態(tài)蛋白質(zhì)網(wǎng)絡(luò)分析方法的局限,在蛋白復(fù)合物/功能模塊識(shí)別、生物標(biāo)志物識(shí)別、疾病相關(guān)研究方面都起到了很好的作用.另外,復(fù)雜疾病藥物研究也開始由標(biāo)靶某個(gè)蛋白質(zhì)或基因轉(zhuǎn)向系統(tǒng)地標(biāo)靶蛋白質(zhì)及蛋白質(zhì)間的相互作用構(gòu)成的子網(wǎng).
5.1 蛋白質(zhì)復(fù)合物識(shí)別
蛋白質(zhì)復(fù)合物和網(wǎng)絡(luò)功能模塊都是一組相互作用的蛋白質(zhì)集合,它們的區(qū)別在于蛋白質(zhì)復(fù)合物中的蛋白質(zhì)是在同一時(shí)間同一地點(diǎn)發(fā)生的相互作用,而網(wǎng)絡(luò)功能模塊中的蛋白質(zhì)是在不同時(shí)間不同地點(diǎn)(如細(xì)胞不同階段或條件、不同細(xì)胞位置等)發(fā)生相互作用來完成某一生物進(jìn)程.靜態(tài)的蛋白質(zhì)網(wǎng)絡(luò)沒有涉及時(shí)間和空間的信息,不能夠?qū)Φ鞍踪|(zhì)復(fù)合物和功能模塊精確區(qū)分.另外,靜態(tài)的蛋白質(zhì)網(wǎng)絡(luò)帶來的噪聲也會(huì)影響算法檢測(cè)結(jié)果的準(zhǔn)確性.動(dòng)態(tài)的蛋白質(zhì)網(wǎng)絡(luò)體現(xiàn)了真實(shí)的蛋白質(zhì)復(fù)合物/功能模塊形成過程中體現(xiàn)的動(dòng)態(tài)性,在動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)上進(jìn)行蛋白質(zhì)復(fù)合物/功能模塊識(shí)別具有重大的優(yōu)勢(shì).
De Lichtenberg等人[61]在他們所構(gòu)建的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)的上下文中,對(duì)MIPS數(shù)據(jù)庫(kù)[23]的已知蛋白質(zhì)復(fù)合物進(jìn)行分析,發(fā)現(xiàn)大部分復(fù)合物由周期性表達(dá)和持續(xù)性表達(dá)的蛋白質(zhì)構(gòu)成,并且這些復(fù)合物的形成機(jī)制符合一種即時(shí)組合機(jī)制(just-in-time).Tang等人[60]和Wang等人[63]分別在動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)上預(yù)測(cè)蛋白質(zhì)復(fù)合物,發(fā)現(xiàn)在動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)上預(yù)測(cè)的蛋白質(zhì)復(fù)合物更加準(zhǔn)確、更加具有功能一致性.在人類蛋白質(zhì)網(wǎng)絡(luò)中,Calvano等人[116]研究人體血液白細(xì)胞在不同時(shí)間點(diǎn)對(duì)內(nèi)毒素的反應(yīng),且鑒別出被次內(nèi)毒素刺激擾亂的重要蛋白質(zhì)功能模塊.Luo等人[117]提出了一個(gè)基于條件的共調(diào)控蛋白復(fù)合物識(shí)別框架,并在細(xì)胞周期、DNA損傷等條件下對(duì)酵母數(shù)據(jù)集進(jìn)行了測(cè)試.為了研究動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)的模塊化結(jié)構(gòu),Xia等人[71]在只包含正相關(guān)或負(fù)相關(guān)的蛋白質(zhì)對(duì)的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)中,運(yùn)用層次聚類的方法識(shí)別蛋白質(zhì)復(fù)合物,發(fā)現(xiàn)了轉(zhuǎn)錄反相關(guān)模塊是一種細(xì)胞狀態(tài)切換的開關(guān).在有關(guān)衰老過程的研究中,Xue等人[75]分析了果蠅、人類在動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)中的模塊化結(jié)構(gòu),發(fā)現(xiàn)只有小部分蛋白質(zhì)功能模塊在表達(dá)中的變化與老化有關(guān).Ou-Yang等人[118]利用3-sigma方法判斷每個(gè)蛋白質(zhì)的活性,同時(shí)根據(jù)PCC閾值把相互作用分為瞬態(tài)相互作用(動(dòng)態(tài)部分)和穩(wěn)態(tài)相互作用(靜態(tài)部分)來構(gòu)建動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò).結(jié)果發(fā)現(xiàn)在構(gòu)建的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)上預(yù)測(cè)的重疊的動(dòng)態(tài)蛋白質(zhì)復(fù)合物更能體現(xiàn)真實(shí)的蛋白質(zhì)復(fù)合物及其動(dòng)態(tài)特征.Shen等人[64]在其構(gòu)建的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)上,根據(jù)連接親密度的思想,進(jìn)行動(dòng)態(tài)蛋白質(zhì)復(fù)合物的預(yù)測(cè),找到具有生物意義功能的蛋白質(zhì)復(fù)合物.Lei等人[119]基于3-sigma方法和改進(jìn)的MCL聚類算法及優(yōu)化思想,在構(gòu)建的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)上進(jìn)行蛋白質(zhì)復(fù)合物預(yù)測(cè).相比于靜態(tài)蛋白質(zhì)網(wǎng)絡(luò),動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)能夠預(yù)測(cè)出更加精確的蛋白質(zhì)復(fù)合物,這有助于我們理解蛋白質(zhì)復(fù)合物的形成機(jī)制及其在細(xì)胞中所發(fā)揮的功能作用.
5.2 蛋白質(zhì)的關(guān)鍵性及功能預(yù)測(cè)
關(guān)鍵蛋白質(zhì)是維持生物體生命活動(dòng)必不可少的生物大分子,沒有了它們生物體將不能存活或生長(zhǎng)[120-121].關(guān)鍵蛋白質(zhì)的研究對(duì)合成生物學(xué)的基礎(chǔ)研究、設(shè)計(jì)新的抗菌藥物等具有很重要的幫助.基于網(wǎng)絡(luò)水平的關(guān)鍵蛋白質(zhì)預(yù)測(cè)及其應(yīng)用研究已經(jīng)成為生物信息學(xué)和系統(tǒng)生物學(xué)領(lǐng)域研究的熱點(diǎn)方向.目前,已有的大量的關(guān)鍵蛋白質(zhì)預(yù)測(cè)方法被提出.如基于拓?fù)涮匦缘姆椒ㄓ卸戎行男?degree centrality)[109]、接近中心性(closeness centrality)[110]、介數(shù)中心性(bet-weenness centrality)[111]、子圖中心性(subgraph centra-lity)[122]、節(jié)點(diǎn)的局部平均連通性(local average connec-tivity)[123]、鄰居中心性(neighborhood centrality)[124]和集成復(fù)合物中心性(united complex centrality)[125]等;還有融合其他生物信息的方法ION[126],SON[127]等.這些方法在一定程度上都取得了較好的效果,但還遠(yuǎn)遠(yuǎn)不夠,其主要原因是這些方法都是基于靜態(tài)的蛋白質(zhì)網(wǎng)絡(luò)分析的.Xiao等人[128]結(jié)合靜態(tài)蛋白質(zhì)網(wǎng)絡(luò)和時(shí)序基因表達(dá)數(shù)據(jù)構(gòu)建了一個(gè)時(shí)序動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò),并在此網(wǎng)絡(luò)上進(jìn)行關(guān)鍵蛋白質(zhì)預(yù)測(cè),結(jié)果發(fā)現(xiàn)動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)比靜態(tài)蛋白質(zhì)網(wǎng)絡(luò)能夠更加有效地預(yù)測(cè)關(guān)鍵蛋白質(zhì).我們基于3-sigma構(gòu)建了動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò),然后再結(jié)合亞細(xì)胞定位信息對(duì)動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)進(jìn)行了凈化處理,最后在凈化的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)上進(jìn)行關(guān)鍵蛋白質(zhì)預(yù)測(cè),同樣發(fā)現(xiàn)動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)比靜態(tài)蛋白質(zhì)網(wǎng)絡(luò)能夠更加有效地預(yù)測(cè)關(guān)鍵蛋白質(zhì)[129].
基于蛋白質(zhì)網(wǎng)絡(luò)預(yù)測(cè)未知的蛋白質(zhì)功能是生物信息學(xué)中一個(gè)十分重要的研究課題.特別是動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)的快速發(fā)展,通過融合多元生物信息,能夠提供一個(gè)更加有效的網(wǎng)絡(luò),提高蛋白質(zhì)功能預(yù)測(cè)的準(zhǔn)確率.Zhao等人[81]認(rèn)為減少假陽(yáng)性和假陰性造成的負(fù)面影響是提高蛋白質(zhì)功能預(yù)測(cè)性能的關(guān)鍵和瓶頸,利用蛋白質(zhì)結(jié)構(gòu)域信息、蛋白質(zhì)復(fù)合物信息及蛋白質(zhì)網(wǎng)絡(luò)拓?fù)涮匦詷?gòu)建加權(quán)動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)來進(jìn)行蛋白質(zhì)功能預(yù)測(cè),實(shí)驗(yàn)結(jié)果驗(yàn)證了動(dòng)態(tài)加權(quán)網(wǎng)絡(luò)的有效性.Greene等人[130]構(gòu)建了一個(gè)包含144個(gè)人類組織和細(xì)胞類型的組織特異性交互網(wǎng)絡(luò),從全基因關(guān)聯(lián)的角度預(yù)測(cè)蛋白質(zhì)功能.
5.3 生物標(biāo)志物識(shí)別
生物標(biāo)志物是一種在正常生理過程、病理或治療過程中能夠客觀測(cè)量的生物信號(hào),能夠?qū)膊∵M(jìn)行早期的診斷并預(yù)測(cè)和監(jiān)測(cè)治療反應(yīng)和不良反應(yīng),也是生物體受到損害時(shí)的重要預(yù)警指標(biāo)[131-133].傳統(tǒng)的生物標(biāo)志物多是篩選差異性表達(dá)的單個(gè)的生物大分子[134].然而,單個(gè)蛋白質(zhì)或者單個(gè)基因表達(dá)數(shù)據(jù)的傳統(tǒng)統(tǒng)計(jì)方法,經(jīng)常不能識(shí)別具有生物意義的生物標(biāo)志物,導(dǎo)致預(yù)測(cè)性能低下和有限的臨床應(yīng)用.疾病的發(fā)生往往是一群相關(guān)聯(lián)的分子相互作用的結(jié)果[135],因此,網(wǎng)絡(luò)生物標(biāo)志物作為一種新型生物標(biāo)志物[136-137]被提出.相比于生物分子標(biāo)志物,網(wǎng)絡(luò)生物標(biāo)志物考慮了生物分子間的關(guān)聯(lián)性,能夠更加精確地對(duì)病人進(jìn)行診斷、風(fēng)險(xiǎn)評(píng)估等.動(dòng)態(tài)網(wǎng)絡(luò)生物標(biāo)志物是在疾病發(fā)展過程中,從疾病的不同階段進(jìn)行檢測(cè)和評(píng)估,表現(xiàn)為時(shí)間依賴性改變的網(wǎng)絡(luò)生物標(biāo)志物[138].Chen等人[139-143]提出了一系列的動(dòng)態(tài)網(wǎng)絡(luò)生物標(biāo)志物的篩選方法,他們把疾病的發(fā)病過程分為3種狀態(tài):正常狀態(tài)(normal state)、發(fā)病前狀態(tài)或臨界狀態(tài)(pre-disease state or critical state)和疾病狀態(tài)(disease state).正常狀態(tài)是健康階段的穩(wěn)態(tài),疾病尚處在控制中;發(fā)病前狀態(tài)是正常狀態(tài)的臨界點(diǎn),這個(gè)階段是不穩(wěn)定的狀態(tài),采取合適的治療,臨界狀態(tài)到正常狀態(tài)是可逆的;疾病狀態(tài)就是越過臨界點(diǎn)后的另一個(gè)穩(wěn)態(tài),疾病狀態(tài)到正常狀態(tài)就不可逆.動(dòng)態(tài)網(wǎng)絡(luò)生物標(biāo)志物不僅考慮了生物分子間的關(guān)系,還關(guān)注了分子網(wǎng)絡(luò)隨時(shí)間演化的動(dòng)態(tài)特性,這有助于更全面地精確挖掘生物標(biāo)識(shí)物.基于動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)的生物標(biāo)志物能夠在疾病發(fā)展不同的階段和時(shí)間點(diǎn)被監(jiān)控和估計(jì)[138],因此動(dòng)態(tài)網(wǎng)絡(luò)的生物標(biāo)志物被認(rèn)為是有效的檢測(cè)疾病分水嶺相關(guān)的基因或蛋白質(zhì)相互作用的方式之一.Zhang等人[72]基于2組不同發(fā)展?fàn)顟B(tài)的膠質(zhì)瘤動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò),發(fā)現(xiàn)了與神經(jīng)膠質(zhì)瘤預(yù)后有關(guān)的生物標(biāo)志物.Li等人[144]識(shí)別了與流感、急性肺炎以及二型糖尿病相關(guān)的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)標(biāo)志物,為揭示復(fù)雜疾病的早期診斷以及惡化機(jī)制提供了新視角.
5.4 疾病基因預(yù)測(cè)與疾病研究
大多數(shù)疾病可以在基因?qū)用娣从吵鰜?,現(xiàn)有的一些研究證實(shí)了功能相似的基因或者在生物網(wǎng)絡(luò)中有相互作用關(guān)系的基因會(huì)導(dǎo)致相同或者相似的疾病[145-149].基于網(wǎng)絡(luò)的疾病基因識(shí)別是發(fā)現(xiàn)疾病基因的重要方法,從拓?fù)浣Y(jié)構(gòu)相似性和功能相似性來分析疾病基因間的關(guān)系,對(duì)候選基因排序,進(jìn)而篩選、推斷判別出疾病基因[150-152].
相比于靜態(tài)蛋白質(zhì)網(wǎng)絡(luò),結(jié)合蛋白質(zhì)相互作用數(shù)據(jù)和基因表達(dá)數(shù)據(jù)構(gòu)建的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)能夠反映出疾病隨時(shí)間和外在環(huán)境動(dòng)態(tài)變化的過程.在二型的糖尿病研究中,Sun等人[73]通過比較小鼠3個(gè)組織的動(dòng)態(tài)網(wǎng)絡(luò),發(fā)現(xiàn)當(dāng)發(fā)生早期肥胖機(jī)能障礙時(shí),肝臟和肌肉組織在整個(gè)細(xì)胞周期都發(fā)生了功能紊亂.Taylor等人[87]研究了人類蛋白質(zhì)網(wǎng)絡(luò)的動(dòng)態(tài)結(jié)構(gòu),并對(duì)2組乳腺癌病人進(jìn)行比較分析,發(fā)現(xiàn)人類蛋白質(zhì)網(wǎng)絡(luò)的模塊化結(jié)構(gòu)的改變將很可能成為乳腺癌預(yù)測(cè)的一個(gè)新指標(biāo).Faisal等人[153]研究了年齡特異性的動(dòng)態(tài)網(wǎng)絡(luò),結(jié)果發(fā)現(xiàn)隨年齡變化,網(wǎng)絡(luò)的全局拓?fù)涮匦圆⑽从泻艽蟮母淖?,但是局部有改?與這種變化關(guān)聯(lián)的基因稱為年齡相關(guān)基因(aging-related genes),這些基因被驗(yàn)證和多種與年齡相關(guān)疾病的發(fā)生有關(guān)系.Yu等人[154]基于動(dòng)態(tài)差異性表達(dá)網(wǎng)絡(luò)研究了糖尿病有關(guān)生物通路問題,相比于靜態(tài)網(wǎng)絡(luò),動(dòng)態(tài)網(wǎng)絡(luò)能夠找到更精確的生物通路.
因此,基于動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)識(shí)別出疾病基因和疾病通路,有助于疾病治療藥物的開發(fā);同時(shí)還能夠篩選出更加精確地生物標(biāo)志物,能夠?yàn)榧膊〉脑\斷和分類提供必要的技術(shù)手段.
動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)可以為生物信息學(xué)和系統(tǒng)生物學(xué)的研究提供一個(gè)更綜合、更全面的框架.特別是在臨床疾病研究和個(gè)性化醫(yī)療中,為特殊研究目的而構(gòu)建動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)將變得越來越普及.然而,由于目前能夠獲得的蛋白質(zhì)相互作用數(shù)據(jù)的不完整性,以及基因表達(dá)數(shù)據(jù)中存在的噪聲,如何構(gòu)建更加有效的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)仍面臨諸多挑戰(zhàn).
1) 數(shù)據(jù)降噪處理
目前常用的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建方法使用的數(shù)據(jù)主要是PPI數(shù)據(jù)和基因表達(dá)數(shù)據(jù),由于諸多因素的影響,這2類數(shù)據(jù)存在著顯著比例的噪聲,如何降低蛋白質(zhì)網(wǎng)絡(luò)中的假陽(yáng)性問題?如何分析微陣列基因表達(dá)數(shù)據(jù)中的噪音,提出系統(tǒng)的方法來提取蛋白質(zhì)表達(dá)的動(dòng)態(tài)信息?這些問題都還有待深入研究并解決.
2) 多源數(shù)據(jù)融合
這里的多源有2種含義:①同種數(shù)據(jù)類型,不同平臺(tái)和技術(shù)產(chǎn)生的;②不同種數(shù)據(jù)類型,如多組學(xué)數(shù)據(jù)有PPI數(shù)據(jù)、基因本體(gene ontology, GO)數(shù)據(jù)、時(shí)間序列RNA-seq數(shù)據(jù)、時(shí)間序列的基因表達(dá)數(shù)據(jù)、亞細(xì)胞定位信息、疾病相關(guān)數(shù)據(jù)庫(kù)等多元信息.目前仍缺乏有效的計(jì)算方法能夠整合這些數(shù)據(jù)用于構(gòu)建更加精確的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)的研究.如何對(duì)不同來源不同類型的數(shù)據(jù)進(jìn)行有效的關(guān)聯(lián)分析與整合,構(gòu)建有效的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)仍需深入研究.
3) 網(wǎng)絡(luò)可靠性評(píng)估
動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建后,一個(gè)十分重要的挑戰(zhàn)就是如何提出有效的評(píng)估指標(biāo)來判斷網(wǎng)絡(luò)的可靠性,而目前尚未有統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn).已知的蛋白質(zhì)網(wǎng)絡(luò)可靠性評(píng)估手段主要分為2個(gè)方面:①結(jié)合具體的應(yīng)用(如蛋白質(zhì)復(fù)合物識(shí)別等),對(duì)結(jié)果進(jìn)行評(píng)價(jià).將實(shí)驗(yàn)結(jié)果和已知數(shù)據(jù)庫(kù)中的參考數(shù)據(jù)相比較,比較不同方法在蛋白質(zhì)網(wǎng)絡(luò)上的敏感性和特異性.②對(duì)結(jié)果做富集性分析,統(tǒng)計(jì)顯著性水平,說明結(jié)果的生物學(xué)意義.在實(shí)際應(yīng)用時(shí)如何對(duì)動(dòng)態(tài)蛋白質(zhì)相互網(wǎng)絡(luò)進(jìn)行量化分析以及如何有效評(píng)估動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)的優(yōu)劣至關(guān)重要.
4) 小樣本問題
目前動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建及后續(xù)疾病應(yīng)用研究都不同程度存在小樣本問題.例如,目前能夠獲得的時(shí)間序列的基因表達(dá)數(shù)據(jù)或者RNA-seq數(shù)據(jù)的時(shí)間點(diǎn)一般都比較少,這對(duì)于基于蛋白質(zhì)表達(dá)動(dòng)態(tài)性構(gòu)建方法的準(zhǔn)確性有一定的影響.此外,基于多狀態(tài)下表達(dá)及相關(guān)性變化的方法往往需要足夠的樣本才能比較準(zhǔn)確地度量2個(gè)生物分子間的相關(guān)性.在真實(shí)數(shù)據(jù)中,特別涉及到疾病的臨床數(shù)據(jù)時(shí),這樣的多樣本數(shù)據(jù)往往是難以獲得的,只能獲取小樣本甚至是單樣本數(shù)據(jù)(如手術(shù)前抽血采樣等).因此,如何利用能夠獲取的小樣本甚至是單樣本數(shù)據(jù)構(gòu)建有效的動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)或動(dòng)態(tài)生物分子網(wǎng)絡(luò)是亟需待解決的重要生物計(jì)算問題.
動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建是一個(gè)循環(huán)漸進(jìn)、不斷優(yōu)化的過程.動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)構(gòu)建應(yīng)該以實(shí)際應(yīng)用為目的.目前,動(dòng)態(tài)蛋白質(zhì)網(wǎng)絡(luò)已經(jīng)在蛋白質(zhì)復(fù)合物的識(shí)別、蛋白質(zhì)功能預(yù)測(cè)、生物標(biāo)志物識(shí)別等方面取得了很好的成果,正逐步應(yīng)用于特定復(fù)雜疾病的分類、早期診斷與后續(xù)治療等.基于復(fù)雜網(wǎng)絡(luò)理論,判斷網(wǎng)絡(luò)是否可控、篩選可靠的藥物靶標(biāo),將為新的藥物設(shè)計(jì)以及實(shí)現(xiàn)精準(zhǔn)化醫(yī)療提供重要幫助.
[1]Eisenberg D, Marcotte E M, Xenarios I, et al. Protein function in the post-genomic era[J]. Nature, 2000, 405(6788): 823-826
[2]Von Mering C, Krause R, Snel B, et al. Comparative assessment of large-scale data sets of protein-protein interactions[J]. Nature, 2002, 417(6887): 399-403
[3]Albert R, Barabási A L. Statistical mechanics of complex networks[J]. Reviews of Modern Physics, 2002, 74(1): 47-97
[4]Bullmore E, Sporns O. Complex brain networks: Graph theoretical analysis of structural and functional systems[J]. Nature Reviews Neuroscience, 2009, 10(3): 186-198
[5]Pastor-Satorras R, Castellano C, Van Mieghem P, et al. Epidemic processes in complex networks[J]. Reviews of Modern Physics, 2015, 87(3): 925-979
[6]Ocone A, Haghverdi L, Mueller N S, et al. Reconstructing gene regulatory dynamics from high-dimensional single-cell snapshot data[J]. Bioinformatics, 2015, 31(12): i89-i96
[7]Vidalain P O, Boxem M, Ge H, et al. Increasing specificity in high-throughput yeast two-hybrid experiments[J]. Methods, 2004, 32(4): 363-370
[8]Bauer A, Kuster B. Affinity purification-mass spectrometry[J]. European Journal of Biochemistry, 2003, 270(4): 570-578
[9]Hu Bin, Petela N, Kurze A, et al. Biological chromodynamics: A general method for measuring protein occupancy across the genome by calibrating ChIP-seq[J]. Nucleic Acids Research, 2015, 43(20): e132
[10]Stynen B, Tournu H, Tavernier J, et al. Diversity in genetic in vivo methods for protein-protein interaction studies: From the yeast two-hybrid system to the mammalian split-luciferase system[J]. Microbiology and Molecular Biology Reviews, 2012, 76(2): 331-382
[11]Xing S, Wallmeroth N, Berendzen K W, et al. Techniques for the analysis of protein-protein interactions in vivo[J]. Plant Physiology, 2016, 171(2): 727-758
[12]Fukao Y. Protein-protein interactions in plants[J]. Plant and Cell Physiology, 2012, 53(4): 617-625
[13]Zhu H, Qian J. Applications of functional protein microarrays in basic and clinical research[J]. Advances in Genetics, 2012, 79: 123-155
[14]Peng Xiaoqing, Wang Jianxin, Peng Wei, et al. Protein-protein interactions: Detection, reliability assessment and applications[J]. Briefings in Bioinformatics, 2016: bbw066
[15]Li Zhoujun, Chen Yiming, Liu Junwan, et al. A survey of computational method in protein-protein interaction research[J]. Journal of Computer Research and Development, 2008, 45(12): 2129-2137 (in Chinese)
(李舟軍, 陳義明, 劉軍萬, 等. 蛋白質(zhì)相互作用研究中的計(jì)算方法綜述[J]. 計(jì)算機(jī)研究與發(fā)展, 2008, 45(12): 2129-2137)
[16]Keskin O, Tuncbag N, Gursoy A. Predicting protein-protein interactions from the molecular to the proteome level[J]. Chemical Reviews, 2016, 116(8): 4884-4909
[17]Papanikolaou N, Pavlopoulos G A, Theodosiou T, et al. Protein-protein interaction predictions using text mining methods[J]. Methods, 2015, 74(2015): 47-53
[18]Badal V D, Kundrotas P J, Vakser I A. Text mining for protein docking[J]. PLoS Computational Biology, 2015, 11(12): e1004630
[19]Salwinski L, Miller C S, Smith A J, et al. The database of interacting proteins: 2004 update[J]. Nucleic Acids Research, 2004, 32(suppl 1): D449-D451
[20]Licata L, Briganti L, Peluso D, et al. MINT, the molecular interaction database: 2012 update[J]. Nucleic Acids Research, 2012, 40(D1): D857-D861
[21]Szklarczyk D, Franceschini A, Wyder S, et al. STRING v10: Protein-protein interaction networks, integrated over the tree of life[J]. Nucleic Acids Research, 2015, 43(D1): D447-D452
[22]Kerrien S, Aranda B, Breuza L, et al. The IntAct molecular interaction database in 2012[J]. Nucleic Acids Research, 2012, 40(D1): D841-D846
[23]Pagel P, Kovac S, Oesterheld M, et al. The MIPS mammalian protein-protein interaction database[J]. Bioinformatics, 2005, 21(6): 832-834
[24]Prasad T S K, Goel R, Kandasamy K, et al. Human protein reference database—2009 update[J]. Nucleic Acids Research, 2009, 37(suppl 1): D767-D772
[25]Kotlyar M, Pastrello C, Sheahan N, et al. Integrated interactions database: Tissue-specific view of the human and model organism interactomes[J]. Nucleic Acids Research, 2016, 44(D1): D536-D541
[26]Chatr-Aryamontri A, Breitkreutz B J, Oughtred R, et al. The BioGRID interaction database: 2015 update[J]. Nucleic Acids Research, 2015, 43(D1): D470-D478
[27]Maslov S, Sneppen K. Specificity and stability in topology of protein networks[J]. Science, 2002, 296(5569): 910-913
[28]Jonsson P F, Bates P A. Global topological features of cancer proteins in the human interactome[J]. Bioinformatics, 2006, 22(18): 2291-2297
[29]Bu Dongbo, Zhao Yi, Cai Lun, et al. Topological structure analysis of the protein-protein interaction network in budding yeast[J]. Nucleic Acids Research, 2003, 31(9): 2443-2450
[30]Yook S H, Oltvai Z N, Barabási A L. Functional and topological characterization of protein interaction networks[J]. Proteomics, 2004, 4(4): 928-942
[31]Barabasi A L, Oltvai Z N. Network biology: Understanding the cell’s functional organization[J]. Nature Reviews Genetics, 2004, 5(2): 101-113
[32]Giot L, Bader J S, Brouwer C, et al. A protein interaction map of Drosophila melanogaster[J]. Science, 2003, 302(5651): 1727-1736
[33]Han H W W, Ohn J H H, Moon J, et al. Yin and Yang of disease genes and death genes between reciprocally scale-free biological networks[J]. Nucleic Acids Research, 2013, 41(20): 9209-9217
[34]Watts D J, Strogatz S H. Collective dynamics of ‘small-world’ networks[J]. Nature, 1998, 393(6684): 440-442
[35]Del Sol A, Fujihashi H, O’Meara P. Topology of small-world networks of protein-protein complex structures[J]. Bioinformatics, 2005, 21(8): 1311-1315
[36] Leventhal G E, Hill A L, Nowak M A, et al. Evolution and emergence of infectious diseases in theoretical and real-world networks[J]. Nature Communications, 2015, 6: 6101
[37]Newman M E J, Girvan M. Finding and evaluating community structure in networks[J]. Physical Review E, 2004, 69(2): 026113
[38]Barabási A L, Gulbahce N, Loscalzo J. Network medicine: A network-based approach to human disease[J]. Nature Reviews Genetics, 2011, 12(1): 56-68
[39]Gustafsson M, Nestor C E, Zhang H, et al. Modules, networks and systems medicine for understanding disease and aiding diagnosis[J]. Genome Medicine, 2014, 6(10): 1-11
[40]Sun Huiyan, Liang Yanchun, Chen Liang, et al. An improved sum of edge clustering coefficient method for essential protein identification[J]. Journal of Bionanoscience, 2013, 7(4): 386-390
[41]Jiang Yuexu, Wang Yan, Pang Wei, et al. Essential protein identification based on essential protein-protein interaction prediction by integrated edge weights[J]. Methods, 2015, 83: 51-62
[42]Li Min, Lu Yu, Wang Jianxin, et al. A topology potential-based method for identifying essential proteins from PPI networks[J]. IEEE/ACM Trans on Computational Biology and Bioinformatics, 2015, 12(2): 372-383
[43]Li Min, Lu Yu, Niu Zhibei, et al. United complex centrality for identification of essential proteins from PPI networks[J]. IEEE/ACM Trans on Computational Biology and Bioinformatics, 2017, 14(2): 370-380
[44]Tang Xiwei, Wang Jianxin, Zhong Jiancheng, et al. Predicting essential proteins based on weighted degree centrality[J]. IEEE/ACM Trans on Computational Biology and Bioinformatics, 2014, 11(2): 407-418
[45]Wang Jie, Liang Jiye, Zheng Wenping. A graph clustering method for detecting protein complexes[J]. Journal of Computer Research and Development, 2015, 52(8): 1784-1793 (in Chinese)
(王杰, 梁吉業(yè), 鄭文萍. 一種面向蛋白質(zhì)復(fù)合體檢測(cè)的圖聚類方法[J]. 計(jì)算機(jī)研究與發(fā)展, 2015, 52(8): 1784-1793)
[46]Wang Jianxin, Li Min, Deng Youping, et al. Recent advances in clustering methods for protein interaction networks[J]. BMC Genomics, 2010, 11(Suppl 3): S10
[47]Srihari S, Leong H W. A survey of computational methods for protein complex prediction from protein interaction networks[J]. Journal of Bioinformatics and Computational Biology, 2013, 11(02): 1230002
[48]Srihari S, Yong C H, Patil A, et al. Methods for protein complex prediction and their contributions towards understanding the organisation, function and dynamics of complexes[J]. FEBS Letters, 2015, 589(19): 2590-2602
[49]Guo Xingli, Gao Lin, Chen Xin. Models and algorithms for alignment of biological networks[J]. Journal of Software, 2010, 21(9): 2089-2106 (in Chinese)
(郭杏莉, 高琳, 陳新. 生物網(wǎng)絡(luò)比對(duì)的模型與算法[J]. 軟件學(xué)報(bào), 2010, 21(9): 2089-2106)
[50]Kelley B P, Sharan R, Karp R M, et al. Conserved pathways within bacteria and yeast as revealed by global protein network alignment[J]. Proceedings of the National Academy of Sciences, 2003, 100(20): 11394-11399
[51]Zhang Shihua, Zhang Xiangsun, Chen Luonan. Biomolecular network querying: A promising approach in systems biology[J]. BMC Systems Biology, 2008, 2(1): 5
[52]Xie Jiang, Zhang Wu, Zhang Shihua, et al. A parallel method for querying target subnetwork in a biomolecular molecular network[J]. Int Journal of Numerical Analysis and Modeling, 2012, 9(2): 326-337
[53]Sharan R, Suthram S, Kelley R M, et al. Conserved patterns of protein interaction in multiple species[J]. Proceedings of the National Academy of Sciences, 2005, 102(6): 1974-1979
[54]Clark C, Kalita J. A comparison of algorithms for the pairwise alignment of biological networks[J]. Bioinformatics, 2014, 30(16): 2351-2359
[56]Zhang Xiaochi, Yu Hua, Gong Xiujun. A random walk based iterative weighted algorithm for sub-graph query[J]. Journal of Computer Research and Development, 2015, 52(12): 2824-2833 (in Chinese)
(張小馳, 于華, 宮秀軍. 一種基于隨機(jī)游走的迭代加權(quán)子圖查詢算法[J]. 計(jì)算機(jī)研究與發(fā)展, 2015, 52(12): 2824-2833)
[57]Blum T, Kohlbacher O. MetaRoute: Fast search for relevant metabolic routes for interactive network navigation and visualization[J]. Bioinformatics, 2008, 24(18): 2108-2109
[58]Tian Y, McEachin R C, Santos C, et al. SAGA: A subgraph matching tool for biological graphs[J]. Bioinformatics, 2007, 23(2): 232-239
[59]Wang Jianxin, Peng Xiaoqing, Peng Wei, et al. Dynamic protein interaction network construction and applications[J]. Proteomics, 2014, 14(4/5): 338-352
[60]Tang Xiwei, Wang Jianxin, Liu Binbin, et al. A comparison of the functional modules identified from time course and static PPI network data[J]. BMC Bioinformatics, 2011, 12(1): 339
[61]De Lichtenberg U, Jensen L J, Brunak S, et al. Dynamic complex formation during the yeast cell cycle[J]. Science, 2005, 307(5710): 724-727
[62]Hegde S R, Manimaran P, Mande S C. Dynamic changes in protein functional linkage networks revealed by integration with gene expression data[J]. PLoS Comput Biology, 2008, 4(11): e1000237
[63]Wang Jianxin, Peng Xiaoqing, Li Min, et al. Construction and application of dynamic protein interaction network based on time course gene expression data[J]. Proteomics, 2013, 13(2): 301-312
[64]Shen Xianjun, Yi Li, Jiang Xingpeng, et al. Mining temporal protein complex based on the dynamic PIN weighted with connected affinity and gene co-expression[J]. PLoS ONE, 2016, 11(4): e0153967
[65]Zhang Yijia, Lin Hongfei, Yang Zhihao, et al. Construction of dynamic probabilistic protein interaction networks for protein complex identification[J]. BMC Bioinformatics, 2015, 17(1): 186-186
[66]De Lichtenberg U, Jensen L J, Fausb?ll A, et al. Comparison of computational methods for the identification of cell cycle-regulated genes[J]. Bioinformatics, 2005, 21(7): 1164-1171
[67]Tu B P, Kudlicki A, Rowicka M, et al. Logic of the yeast metabolic cycle: Temporal compartmentalization of cellular processes[J]. Science, 2005, 310(5751): 1152-1158
[68]Greenbaum D, Colangelo C, Williams K, et al. Comparing protein abundance and mRNA expression levels on a genomic scale[J]. Genome Biology, 2003, 4(9): 117
[69]Xiao Qianghua, Wang Jianxin, Peng Xiaoqing, et al. Detecting protein complexes from active protein interaction networks constructed with dynamic gene expression profiles[J]. Proteome Science, 2013, 11(S1): S20
[70]Komurov K, White M. Revealing static and dynamic modular architecture of the eukaryotic protein interaction network[J]. Molecular Systems Biology, 2007, 3(1): 110
[71]Xia Kai, Xue Huiling, Dong Dong, et al. Identification of the proliferation/differentiation switch in the cellular network of multicellular organisms[J]. PLoS Computa-tional Biology, 2006, 2(11): e145
[72]Zhang Xiaoyu, Yang Hongbin, Gong Binsheng, et al. Combined gene expression and protein interaction analysis of dynamic modularity in glioma prognosis[J]. Journal of Neuro-Oncology, 2012, 107(2): 281-288
[73]Sun Shaoyan, Liu Zhiping, Zeng Tao, et al. Spatio-temporal analysis of type 2 diabetes mellitus based on differential expression networks[J]. Scientific Reports, 2013, 3(2): 468-473
[74]Shang Xuequn, Wang Yu, Chen Bolin. Identifying essential proteins based on dynamic protein-protein interaction networks and RNA-Seq datasets[J]. Science China Information Sciences, 2016, 59(7): 1-11
[75]Xue Huiling, Xian Bo, Dong Dong, et al. A modular network model of aging[J]. Molecular Systems Biology, 2007, 3(1): 147
[76]Oh S, Song S, Grabowski G, et al. Time series expression analyses using RNA-seq: A statistical approach[J]. BioMed Research International, 2013(3): 203681
[77]Bossi A, Lehner B. Tissue specificity and the human protein interaction network[J]. Molecular Systems Biology, 2009, 5(1): 260
[78]Su A I, Cooke M P, Ching K A, et al. Large-scale analysis of the human and mouse transcriptomes[J]. Proceedings of the National Academy of Sciences, 2002, 99(7): 4465-4470
[79]Su A I, Wiltshire T, Batalov S, et al. A gene atlas of the mouse and human protein-encoding transcriptomes[J]. Proceedings of the National Academy of Sciences, 2004, 101(16): 6062-6067
[80]Boisvert F M, Lam Y W, Lamont D, et al. A quantitative proteomics analysis of subcellular proteome localization and changes induced by DNA damage[J]. Molecular & Cellular Proteomics, 2010, 9(3): 457-470
[81]Zhao Bihai, Wang Jianxin, Li Min, et al. A new method for predicting protein functions from dynamic weighted interactome networks[J]. IEEE Trans on Nanobioscience, 2016, 15(2): 131-139
[82]Hu Sai, Xiong Huijun, Zhao Bihai, et al. Construction of dynamic-weighted protein interactome network and its application[J]. Acta Automatica Sinica, 2015, 41(11): 1893-1900 (in Chinese)
(胡賽, 熊慧軍, 趙碧海, 等. 動(dòng)態(tài)加權(quán)蛋白質(zhì)相互作用網(wǎng)絡(luò)構(gòu)建及其應(yīng)用研究[J]. 自動(dòng)化學(xué)報(bào), 2015, 41(11): 1893-1900)
[83]Yang J, Wagner S A, Beli P. Illuminating spatial and temporal organization of protein interaction networks by mass spectrometry-based proteomics[J]. Frontiers in Genetics, 2015, 6: 344
[84]Meng Xiangmao, Li Min, Wang Jianxin, et al. Construction of the spatial and temporal active protein interaction network for identifying protein complexes[C] //Proc of 2016 IEEE Int Conf on Bioinformatics and Biomedicine(BIBM). Piscataway, NJ: IEEE, 2016: 631-636
[85]Tokuriki N, Tawfik D S. Protein dynamism and evolvability[J]. Science, 2009, 324(5924): 203-207
[86]Han J D J, Bertin N, Hao T, et al. Evidence for dynamically organized modularity in the yeast protein-protein interaction network[J]. Nature, 2004, 430(6995): 88-93
[87]Taylor I W, Linding R, Warde-Farley D, et al. Dynamic modularity in protein interaction networks predicts breast cancer outcome[J]. Nature Biotechnology, 2009, 27(2): 199-204
[88]Liu Wei, Xie Hongwei. Construction and analysis of dynamic molecular networks[J]. Progress in Biochemistry and Biophysics, 2014, 41(2): 115-125 (in Chinese)
(劉偉, 謝紅衛(wèi). 動(dòng)態(tài)分子網(wǎng)絡(luò)的構(gòu)建與分析[J]. 生物化學(xué)與生物物理進(jìn)展, 2014, 41(2): 115-125)
[89]Przytycka T M, Singh M, Slonim D K. Toward the dynamic interactome: It’s about time[J]. Briefings in Bioinformatics, 2010, 11(1): 15-29
[90]Hegele A, Kamburov A, Grossmann A, et al. Dynamic protein-protein interaction wiring of the human spliceosome[J]. Molecular Cell, 2012, 45(4): 567-580
[91]Schaefer M H, Lopes T J S, Mah N, et al. Adding protein context to the human protein-protein interaction network to reveal meaningful interactions[J]. PLoS Computational Biology, 2013, 9(1): e1002860
[92]Will T, Helms V. PPIXpress: Construction of condition-specific protein interaction networks based on transcript expression[J]. Bioinformatics, 2016, 32(4): 571-578
[93]Dezs? Z, Nikolsky Y, Sviridov E, et al. A comprehensive functional analysis of tissue specificity of human gene expression[J]. BMC Biology, 2008, 6(1): 49
[94]Fagerberg L, Hallstr?m B M, Oksvold P, et al. Analysis of the human tissue-specific expression by genome-wide integration of transcriptomics and antibody-based proteomics[J]. Molecular & Cellular Proteomics, 2014, 13(2): 397-406
[95]Lichtenstein I, Charleston M A, Caetano T S, et al. Active subnetwork recovery with a mechanism-dependent scoring function; with application to angiogenesis and organogenesis studies[J]. BMC Bioinformatics, 2013, 14(1): 59
[96]Mitra K, Carvunis A R, Ramesh S K, et al. Integrative approaches for finding modular structure in biological networks[J]. Nature Reviews Genetics, 2013, 14(10): 719-732
[97]Wu G, Stein L. A network module-based method for identifying cancer prognostic signatures[J]. Genome Biology, 2012, 13(12): R112
[98]Zhang W, Ota T, Shridhar V, et al. Network-based survival analysis reveals subnetwork signatures for predicting outcomes of ovarian cancer treatment[J]. PLoS Computational Biology, 2013, 9(3): e1002975
[99]Zhang Xindong, Gao Lin, Liu Zhiping, et al. Identifying module biomarker in type 2 diabetes mellitus by discriminative area of functional activity[J]. BMC Bioinformatics, 2015, 16(1): 92
[100]Bisson N, James D A, Ivosev G, et al. Selected reaction monitoring mass spectrometry reveals the dynamics of signaling through the GRB2 adaptor[J]. Nature Biotechnology, 2011, 29(7): 653-658
[101]Lu Xingyu, Zhao B S, He Chuan. TET family proteins: Oxidation activity, interacting molecules, and functions in diseases[J]. Chemical Reviews, 2015, 115(6): 2225-2239
[102]Hinkelmann F, Brandon M, Guang B, et al. ADAM: Analysis of discrete models of biological systems using computer algebra[J]. BMC Bioinformatics, 2011, 12(1): 295
[103]Killcoyne S, Carter G W, Smith J, et al. Cytoscape: A community-based framework for network modeling[J]. Methods in Molecular Biology, 2009, 563: 219-239
[104]Tang Yu, Li Min, Wang Jianxin, et al. CytoNCA: A cytoscape plugin for centrality analysis and evaluation of protein interaction networks[J]. Biosystems, 2015, 127: 67-72
[105]Bader G D, Hogue C W V. An automated method for finding molecular complexes in large protein interaction networks[J]. BMC Bioinformatics, 2003, 4(1): 2
[106]Wang Jianxin, Zhong Jiancheng, Chen Gang, et al. ClusterViz: A cytoscape APP for cluster analysis of biological network[J]. IEEE/ACM Trans on Computational Biology and Bioinformatics, 2015, 12(4): 815-822
[107]Nepusz T, Yu Haiyuan, Paccanaro A. Detecting overlapping protein complexes in protein-protein interaction networks[J]. Nature Methods, 2012, 9(5): 471-472
[108]Goenawan I H, Bryan K, Lynn D J. DyNet: Visualization and analysis of dynamic molecular interaction networks[J]. Bioinformatics, 2016, 32(17:btw187)
[109]Jeong H, Mason S P, Barabási A L, et al. Lethality and centrality in protein networks[J]. Nature, 2001, 411(6833): 41-44
[110]Wuchty S, Stadler P F. Centers of complex networks[J]. Journal of Theoretical Biology, 2003, 223(1): 45-53
[111]Joy M P, Brock A, Ingber D E, et al. High-betweenness proteins in the yeast protein interaction network[J]. BioMed Research International, 2005, 2005(2): 96-103
[112]Bastian M, Heymann S, Jacomy M. Gephi: An open source software for exploring and manipulating networks[J]. ICWSM, 2009, 8: 361-362
[113]Breitkreutz B J, Stark C, Tyers M. Osprey: A network visualization system[J]. Genome Biology, 2003, 4(3): R22[114]Batagelj V, Mrvar A. Pajek—Analysis and visualization of large networks[G] //LNCS 2265: Graph Drawing Software. Berlin: Springer, 2004: 77-103
[115]Li Min, Tang Yu, Wu Xuehong, et al. C-DEVA: Detection, evaluation, visualization and annotation of clusters from biological networks[J]. Biosystems, 2016, 150: 78-86
[116]Calvano S E, Xiao Wenzhong, Richards D R, et al. A network-based analysis of systemic inflammation in humans[J]. Nature, 2005, 437(7061): 1032-1037
[117]Luo Fei, Liu Juan, Li Jinyan. Discovering conditional co-regulated protein complexes by integrating diverse data sources[J]. BMC Systems Biology, 2010, 4(Suppl 2): S4
[118]Ou-Yang Le, Dai Daoqing, Li Xiaoli, et al. Detecting temporal protein complexes from dynamic protein-protein interaction networks[J]. BMC Bioinformatics, 2014, 15(1): 335
[119]Lei Xiujuan, Wang Fei, Wu Fangxiang, et al. Protein complex identification through Markov clustering with firefly algorithm on dynamic protein-protein interaction networks[J]. Information Sciences, 2016, 329(6): 303-316
[120]Clark W, Radivojac P. Analysis of protein function and its prediction from amino acid sequence[J]. Proteins, 2011, 79(7): 2086-2096
[121]Gaudet P, Livstone M, Lewis S, et al. Phylogenetic-based propagation of functional annotations within the gene ontology consortium[J]. Briefings in Bioinformatics, 2011, 12(5): 449-462
[122]Estrada E, Rodríguez-Velázquez J A. Subgraph centrality in complex networks[J]. Physical Review E, 2005, 71(5): 056103
[123]Li Min, Wang Jianxin, Chen Xiang, et al. A local average connectivity-based method for identifying essential proteins from the network level[J]. Computational Biology and Chemistry, 2011, 35(3): 143-150
[124]Wang Jianxin, Li Min, Wang Huan, et al. Identification of essential proteins based on edge clustering coefficient[J]. IEEE/ACM Trans on Computational Biology and Bioinformatics, 2012, 9(4): 1070-1080
[125]Li Min, Lu Yu, Niu Zhibei, et al. United complex centrality for identification of essential proteins from PPI networks[J]. IEEE/ACM Trans on Computational Biology and Bioinformatics, 2017, 14(2): 370-380
[126]Peng Wei, Wang Jianxin, Wang Weiping, et al. Iteration method for predicting essential proteins based on orthology and protein-protein interaction networks[J]. BMC Systems Biology, 2012, 6(1): 87
[127]Li Gaoshi, Li Min, Wang Jianxin, et al. Predicting essential proteins based on subcellular localization, orthology and PPI networks[J]. BMC Bioinformatics, 2016, 17(Suppl 8): 279
[128]Xiao Qianghua, Wang Jianxin, Peng Xiaoqing, et al. Identifying essential proteins from active PPI networks constructed with dynamic gene expression[J]. BMC Genomics, 2015, 16(Suppl 3): S1
[129]Li Min, Chen Xiaopei, Ni Peng, et al. Identifying essential proteins by purifying protein interaction networks[C] //Proc of Int Symp on Bioinformatics Research and Applications. Berlin: Springer, 2016: 106-116
[130]Greene C S, Krishnan A, Wong A K, et al. Understanding multicellular function and disease with human tissue-specific networks[J]. Nature Genetics, 2015, 47(6): 569-576
[131]Wang Jian, Wu Xiaodan, Chen Luonan, et al. Network biomarkers, interaction networks and dynamical network biomarkers in respiratory diseases[J]. Translational Medicine Research(Electronic Edition), 2014, 4(3): 40-47 (in Chinese)
(王堅(jiān), 吳曉丹, 陳羅南, 等. 網(wǎng)絡(luò)生物標(biāo)志物, 交互網(wǎng)絡(luò)和動(dòng)態(tài)網(wǎng)絡(luò)生物標(biāo)志物在呼吸系統(tǒng)疾病中的研究進(jìn)展[J]. 轉(zhuǎn)化醫(yī)學(xué)研究(電子版), 2014, 4(3): 40-47)
[132]Simon R. Development and validation of therapeutically relevant multi-gene biomarker classifiers[J]. Journal of the National Cancer Institute, 2005, 97(12): 866-867
[133]Ludwig J A, Weinstein J N. Biomarkers in cancer staging, prognosis and treatment selection[J]. Nature Reviews Cancer, 2005, 5(11): 845-856
[134]Rhodes D R, Sanda M G, Otte A P, et al. Multiplex biomarker approach for determining risk of prostate-specific antigen-defined recurrence of prostate cancer[J]. Journal of the National Cancer Institute, 2003, 95(9): 661-668
[135]Schadt E E. Molecular networks as sensors and drivers of common human diseases[J]. Nature, 2009, 461(7261): 218-223
[136]Wang Y C, Chen B S. A network-based biomarker approach for molecular investigation and diagnosis of lung cancer[J]. BMC Medical Genomics, 2011, 4(1): 2
[137]Jin Nana, Wu Hao, Miao Zhengqiang, et al. Network-based survival-associated module biomarker and its crosstalk with cell death genes in ovarian cancer[J]. Scientific Reports, 2015, 5: 1566
[138]Wang Xiangdong. Role of clinical bioinformatics in the development of network-based biomarkers[J]. Journal of Clinical Bioinformatics, 2010, 1(1): 28
[139]Chen Luonan, Liu Rui, et al. Detecting early-warning signals for sudden deterioration of complex diseases by dynamical network biomarkers[J]. Scientific Reports, 2012, 2: 342
[140]Liu Rui, Li Meiyi, et al. Identifying critical transitions and their leading biomolecular networks in complex diseases[J]. Scientific Reports, 2012, 2: 813
[141]Liu Rui, Wang Xiangdong, Aihara K, et al. Early diagnosis of complex diseases by molecular biomarkers, network biomarkers, and dynamical network biomarkers[J]. Medicinal Research Reviews, 2014, 34(3): 455-478
[142]Li Meiyi, Zeng Tao, Liu Rui, et al. Detecting tissue-specific early warning signals for complex diseases based on dynamical network biomarkers: Study of type 2 diabetes by cross-tissue analysis[J]. Briefings in Bioinformatics, 2014, 15(2): 229-243
[143]Liu Rui, Yu Xiangtian, Liu Xiaoping, et al. Identifying critical transitions of complex diseases based on a single sample[J]. Bioinformatics, 2014, 30(11): 1579-1586
[144]Li Yuanyuan, Jin Suoqin, Lei Lei, et al. Deciphering deterioration mechanisms of complex diseases based on the construction of dynamic networks and systems analysis[J]. Scientific Reports, 2015, 5: 9283
[145]Liu C C, Tseng Y T, Li Wenyun, et al. DiseaseConnect: A comprehensive Web server for mechanism-based disease-disease connections[J]. Nucleic Acids Research, 2014, 42(W1): W137-W146
[146]Zeng Tao, Zhang Chuanchao, Zhang Wanwei, et al. Deciphering early development of complex diseases by progressive module network[J]. Methods, 2014, 67(3): 334-343
[147]Cho D Y, Kim Y A, Przytycka T M. Network biology approach to complex diseases[J]. PLoS Computational Biology, 2012, 8(12): e1002820
[148]Chakravarti A, Clark A G, Mootha V K. Distilling pathophysiology from complex disease genetics[J]. Cell, 2013, 155(1): 21-26
[149]Hormozdiari F, Penn O, Borenstein E, et al. The discovery of integrated gene networks for autism and related disorders[J]. Genome Research, 2015, 25(1): 142-154
[150]Li Min, Li Qi, Ganegoda G U, et al. Prioritization of orphan disease-causing genes using topological feature and GO similarity between proteins in interaction networks[J]. Science China Life Sciences, 2014, 57(11): 1064-1071
[151]Ganegoda G U,Wang Jianxin, Wu Fangxiang, et al. Prediction of disease genes using tissue-specified gene-gene network[J]. BMC Systems Biology, 2014, 8(Suppl 3): S3
[152]Lan Wei, Wang Jianxin, Li Min, et al. Computational approaches for prioritizing candidate disease genes based on PPI networks[J]. Tsinghua Science and Technology, 2015, 20(5): 500-512
[154]Yu Xiangtian, Zeng Tao, Li Guojun. Integrative enrichment analysis: A new computational method to detect dysregulated pathways in heterogeneous samples[J]. BMC Genomics, 2015, 16(1): 918
Li Min, born in 1978. Professor and PhD supervisor. Member of CCF. She is an awardee of the NSFC Excellent Young Scholars Program in 2016. Her main research interests include bioinformatics, data mining, and deep learning.
Meng Xiangmao, born in 1989. PhD candidate at Central South University. His main research interests include bioin-formatics, complex network analysis, data mining.
The Construction, Analysis, and Applications of Dynamic Protein-Protein Interaction Networks
Li Min and Meng Xiangmao
(SchoolofInformationScienceandEngineering,CentralSouthUniversity,Changsha410083)
The rapid development of proteomics and high-throughput technologies, has produced a large amount of protein-protein interaction (PPI) data, which provides a foundation for further understanding the interactions between proteins and the biomedical mechanism of complex diseases. In an organism, a protein-protein interaction network (PIN) consists of all the proteins and their interactions. Most of the traditional studies on PINs are based on static networks. However, due to the dynamics of protein expressions and the dynamics of PPIs, the real PINs change with time and conditions. Protein function modules related with the occurrence and development of diseases are also bound with this dynamic change. Researchers have shifted their attentions from the static properties to dynamic properties, and proposed a series of methods for the construction of dynamic PINs. This paper is to review the construction, analysis and applications of dynamic PINs. Firstly, the existing dynamic PIN construction methods are discussed in three categories: the methods based on dynamic protein expressions, the methods based on multi-state expression and correlation changes and the methods based on spatial-temporal dynamic changes. The first category embodies the protein dynamic expression varying with time; the second category reflects the changes in the expression-related relationship between proteins under different conditions; while the third category describes the dynamic of proteins and the interactions in time and space. Then, the dynamic analysis of the proteins and the related subnetworks of the dynamic PINs are reviewed. Furthermore,the main applications in the complex diseases of dynamic PINs are discussed in details, such as the identification of protein complexes/functional modules, the detection of biomarkers, and the prediction of disease genes, etc. Finally, the challenges and future research directions of dynamic PINs are discussed.
protein-protein interaction network; dynamic; gene expression; protein complexes; complex diseases
2016-11-25;
2017-03-24
國(guó)家自然科學(xué)基金優(yōu)秀青年科學(xué)基金項(xiàng)目(61622213);國(guó)家自然科學(xué)基金項(xiàng)目(61232001,61370024);湖南省研究生科研創(chuàng)新項(xiàng)目(CX2017B063) This work was supported by the National Natural Science Foundation of China for Excellent Young Scientists (61622213), the National Natural Science Foundation of China (61232001, 61370024), and the Hunan Provincial Innovation Foundation for Postgraduate (CX2017B063).
TP399; Q811