李敏,王建新,劉彬彬,陳建二
(中南大學(xué) 信息科學(xué)與工程學(xué)院,湖南 長沙,410083)
隨著人類基因組計劃和許多物種全基因組測序的完成,生命科學(xué)研究的重點(diǎn)逐漸從基因組學(xué)轉(zhuǎn)移到蛋白質(zhì)組學(xué)[1-2]。蛋白質(zhì)是一切生命活動的物質(zhì)基礎(chǔ)[3]。但細(xì)胞中每個蛋白質(zhì)并不是孤立存在的,而是通過與其他蛋白質(zhì)相互作用形成大的蛋白質(zhì)復(fù)合物來行使其功能的[4]。1個生物體內(nèi)所有蛋白質(zhì)相互作用被稱為蛋白質(zhì)相互作用網(wǎng)絡(luò)(Protein interaction network)。從大規(guī)模相互作用網(wǎng)絡(luò)中識別蛋白質(zhì)復(fù)合物對預(yù)測蛋白質(zhì)功能、解釋特定的生物進(jìn)程具有重要作用。目前,出現(xiàn)了一些較有效的蛋白質(zhì)復(fù)合物識別算法,如:基于圖劃分的 RNSC算法[5],基于密度的局部搜索算法MCODE[6],基于邊介數(shù)的G-N算法[7]和在其基礎(chǔ)上改進(jìn)的 MoNet算法[8]等。雖然這些算法各有各的優(yōu)點(diǎn),但都存在1個共同的缺點(diǎn),就是不能識別交疊蛋白質(zhì)復(fù)合物(Overlapping protein complexes)。而在實(shí)際的蛋白質(zhì)相互作用網(wǎng)絡(luò)中,每個蛋白質(zhì)可能屬于多個蛋白質(zhì)復(fù)合物。例如,在CYGD數(shù)據(jù)庫[9]中由2 750個蛋白質(zhì)組成的復(fù)合物中蛋白質(zhì)的數(shù)量之和為8 932。所以,研究交疊蛋白質(zhì)復(fù)合物的識別算法具有實(shí)際意義。Palla等[10]研究了一種基于團(tuán)滲透的算法(Clique percolation method,CPM),用來分析包括蛋白質(zhì)相互作用網(wǎng)絡(luò)在內(nèi)的復(fù)雜網(wǎng)絡(luò)的交疊和嵌套結(jié)構(gòu)。2006年,該團(tuán)隊開發(fā)了基于 CPM 算法的復(fù)雜網(wǎng)絡(luò)分析工具 CFinder[11],這是目前識別交疊蛋白質(zhì)復(fù)合物最有效的工具。但是,算法CPM的識別結(jié)果與參數(shù)k的取值密切相關(guān),識別的蛋白質(zhì)復(fù)合物數(shù)量有限,特別是k取值比較大時能夠識別的蛋白質(zhì)復(fù)合物數(shù)量就更少,而當(dāng)k取值較小時,CPM算法通常會產(chǎn)生規(guī)模比較龐大的復(fù)合物,而這樣的復(fù)合物往往包含了規(guī)模遠(yuǎn)大于k的團(tuán)結(jié)構(gòu)和比較稀疏的k-團(tuán)鏈。在實(shí)際應(yīng)用中,更希望將這種復(fù)合物分割成多個比較稠密的子圖。為解決這一問題,本文作者提出了1種基于極大團(tuán)擴(kuò)展的蛋白質(zhì)復(fù)合物識別算法(IPC-MCE),將極大團(tuán)看作蛋白質(zhì)復(fù)合物的核,通過考查核的鄰居頂點(diǎn)與核內(nèi)頂點(diǎn)的作用概率決定鄰居頂點(diǎn)是否屬于該復(fù)合物。將算法應(yīng)用于酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)。實(shí)驗結(jié)果表明:算法 IPC-MCE能夠識別較多的具有生物意義的蛋白質(zhì)復(fù)合物,且對參數(shù)不敏感。
蛋白質(zhì)相互作用網(wǎng)絡(luò)可以被表示成為1個無向簡單圖G=(V,E),V和E分別為圖G的頂點(diǎn)集和邊集,圖G中的每個頂點(diǎn)表示1個蛋白質(zhì),每條邊表示1對蛋白質(zhì)之間的相互作用。Palla等[10]提出的CPM算法將蛋白質(zhì)復(fù)合物看作圖中相互連通的若干k-團(tuán)集合。k-團(tuán)是指包含k個頂點(diǎn)的全連通圖。若2個k-團(tuán)有k-1個公共頂點(diǎn),則稱這2個k-團(tuán)是鄰接的。一系列鄰接的k-團(tuán)組成1個k-團(tuán)鏈。若2個k-團(tuán)出現(xiàn)在1個k-團(tuán)鏈中,則稱這2個k-團(tuán)是連通的。CPM算法通過迭代遞歸得到圖中所有的k-團(tuán),然后,建立這些團(tuán)的交疊矩陣,通過分析交疊矩陣得到各個連通的k-團(tuán)集合。顯然,k的取值越大,CPM算法得到的每個k-團(tuán)集合中所包含的k-團(tuán)個數(shù)就越少;相反,當(dāng)k取值很小時,則很容易形成巨大的k團(tuán)集合。鑒于此,本文提出了1種新的基于極大團(tuán)擴(kuò)展的蛋白質(zhì)復(fù)合物識別算法IPC-MCE。
與CPM算法不同,IPC-MCE算法將蛋白質(zhì)復(fù)合物看作1個以極大團(tuán)為核、其他頂點(diǎn)與核緊密相連的稠密子圖,并提出用作用概率來量化其他頂點(diǎn)與核連接的緊密程度,定義如下。
定義1 作用概率IPvk:頂點(diǎn)v與極大團(tuán)k的作用概率|表示極大團(tuán)的頂點(diǎn)數(shù),|Evk|表示頂點(diǎn)v與極大團(tuán)k內(nèi)頂點(diǎn)之間存在的邊數(shù)。
算法IPC-MCE的描述如圖1所示。
圖1 IPC-MCE算法描述Fig.1 Description of IPC-MCE algorithm
算法 IPC-MCE的輸入是蛋白質(zhì)相互作用信息(PPI)。算法首先根據(jù)這些蛋白質(zhì)相互作用信息建立網(wǎng)絡(luò)圖G??紤]到蛋白質(zhì)相互作用網(wǎng)絡(luò)中存在大量的度為1的頂點(diǎn),而這些度為1的頂點(diǎn)只能構(gòu)成規(guī)模為2的極大團(tuán),對其進(jìn)行擴(kuò)展只能生成以其鄰居頂點(diǎn)為中心的HUB結(jié)構(gòu)子圖。所以,IPC-MCE算法在枚舉圖中所有極大團(tuán)之前先對這些度為 1的頂點(diǎn)進(jìn)行預(yù)處理,在原圖G中刪除這些度為1的頂點(diǎn)及其連接的邊,并將這些1度頂點(diǎn)及對應(yīng)的鄰居頂點(diǎn)組成的HUB結(jié)構(gòu)子圖輸出。圖2給出了幾個HUB結(jié)構(gòu)子圖的實(shí)例。
圖2 蛋白質(zhì)相互作用網(wǎng)絡(luò)中的HUB結(jié)構(gòu)子圖實(shí)例Fig.2 Examples for subgraphs of protein interaction networks which have HUB structures
預(yù)處理后,IPC-MCE算法枚舉殘圖中所有的極大團(tuán)。采用Tsukiyama等[12]提出的基于深度優(yōu)先的極大團(tuán)枚舉算法,首先選擇圖中度最大的頂點(diǎn),尋找其對應(yīng)的所有極大團(tuán),然后選擇度次大的頂點(diǎn),尋找其對應(yīng)的所有極大團(tuán),依此類推。該極大團(tuán)枚舉算法可以通過橫向和縱向剪枝來提高算法效率,其時間復(fù)雜度為)(μnmΟ,其中:n為圖的頂點(diǎn)個數(shù);m為圖邊數(shù);μ為極大團(tuán)個數(shù)。
然后,根據(jù)定義1的作用概率IPvk,IPC-MCE算法對枚舉得到的所有極大團(tuán)進(jìn)行局部擴(kuò)展??紤]每個極大團(tuán)的一階鄰居頂點(diǎn)(即那些與極大團(tuán)內(nèi)的頂點(diǎn)有直接相互作用且不在極大團(tuán)內(nèi)的頂點(diǎn)),判斷這些鄰居頂點(diǎn)是否滿足IPvk≥t,將滿足條件的鄰居頂點(diǎn)擴(kuò)展進(jìn)來,得到擴(kuò)展后的稠密子圖。對擴(kuò)展得到的所有稠密子圖,過濾掉其中重復(fù)的稠密子圖,得到最終的稠密子圖集合DS并輸出,整個IPC-MCE算法運(yùn)行結(jié)束。
算法中步驟(1)的時間復(fù)雜度為 O(m);步驟(2)的時間復(fù)雜度為O(n);步驟(3)枚舉極大團(tuán)的時間復(fù)雜度為)(μnmΟ;步驟(4)極大團(tuán)擴(kuò)展的時間復(fù)雜度為Ο(nsμ);步驟(5)的時間復(fù)雜度為Ο(μ2d2)。其中:μ為規(guī)模大于等于3的極大團(tuán)個數(shù);s為最大的極大團(tuán)規(guī)模;d為最大的稠密子圖規(guī)模。
用C++語言實(shí)現(xiàn)IPC-MCE算法,從http://angel.elte.hu/clustering/下載基于CPM算法開發(fā)的交疊蛋白質(zhì)復(fù)合物識別工具CFinder。這2個算法的測試是在1臺安裝了Windows XP Professional操作系統(tǒng)的工作站(Intel Pentium 1.73 GHz,內(nèi)存為512 MB)上進(jìn)行。
實(shí)驗以酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)作為研究對象,因為酵母是所有物種中蛋白質(zhì)相互作用數(shù)據(jù)最為完備的。實(shí)驗所用的蛋白質(zhì)相互作用數(shù)據(jù)和用于評估的標(biāo)準(zhǔn)蛋白質(zhì)復(fù)合物數(shù)據(jù)集來源于MIPS數(shù)據(jù)庫[13]。在數(shù)據(jù)預(yù)處理階段,去除了蛋白質(zhì)相互作用網(wǎng)絡(luò)中自相互作用和冗余的相互作用,最終的相互作用網(wǎng)絡(luò)包括4 546個酵母蛋白質(zhì)和12 319對相互作用。將包含2個及以上蛋白質(zhì)的216個復(fù)合物作為標(biāo)準(zhǔn)復(fù)合物數(shù)據(jù)集。最小的復(fù)合物包括2個蛋白質(zhì),最大的復(fù)合物包括81個蛋白質(zhì),平均每個復(fù)合物包括6.31個蛋白質(zhì)。
目前,對蛋白質(zhì)復(fù)合物識別算法的性能主要是從算法標(biāo)識已知復(fù)合物的能力,以及算法的敏感度和特異性這幾個方面進(jìn)行評價[6,11]。下面從這幾個方面對算法IPC-MCE和CFinder的性能進(jìn)行對比分析。
2.2.1 已知蛋白質(zhì)復(fù)合物被標(biāo)識的數(shù)量
算法識別的蛋白質(zhì)復(fù)合物(Predicted complexes,Pc)與已知蛋白質(zhì)復(fù)合物(Known complexes, Kc)的匹配程度OS(Pc, Kc)的計算公式[5,9-10]為:
其中:a和b分別表示Pc和Kc所包含的蛋白質(zhì)個數(shù),i表示Pc和Kc中公共蛋白質(zhì)個數(shù)。
若 2個蛋白質(zhì)復(fù)合物的匹配程度 OS(Pc,Kc)超過給定的閾值,則稱這2個復(fù)合物匹配。對于標(biāo)準(zhǔn)復(fù)合物數(shù)據(jù)集中的已知復(fù)合物,若識別出的復(fù)合物與之匹配程度OS(Pc, Kc)超過給定閾值,則稱該已知復(fù)合物被標(biāo)識,若OS(Pc, Kc)=1,則稱該已知復(fù)合物被完全標(biāo)識。算法標(biāo)識的已知復(fù)合物數(shù)量越多,說明算法識別復(fù)合物的能力越強(qiáng)。
圖 3描述了不同匹配閾值下已知復(fù)合物被 IPCMCE算法和CFinder標(biāo)識的數(shù)量。圖3中CFinder (k=3)和CFinder (k=4)分別表示CFinder在參數(shù)k為3和4時標(biāo)識的已知復(fù)合物數(shù)量;IPC-MCE(DS, t=*)表示算法IPC-MCE在參數(shù)t取不同值時輸出的稠密子圖標(biāo)識的已知復(fù)合物數(shù)量。IPC-MCE(HUB&DS, t=0.8)表示算法IPC-MCE在參數(shù)t=0.8時輸出的HUB結(jié)構(gòu)子圖和稠密子圖一起標(biāo)識的已知復(fù)合物數(shù)量。
圖3 不同匹配閾值下已知復(fù)合物被標(biāo)識的數(shù)量Fig.3 Number of matched known complexes with respect to different overlapping score thresholds
從圖3可以看出:在不同匹配程度閾值下,算法IPC-MCE在t=0.6,0.7,0.8和0.9時產(chǎn)生的稠密子圖結(jié)果數(shù)據(jù)集標(biāo)識的已知復(fù)合物數(shù)量相差不多,說明算法的結(jié)果數(shù)據(jù)集對輸入的參數(shù)不敏感。
CFinder在k=3時標(biāo)識的已知復(fù)合物數(shù)量最大,隨著k增大,CFinder在不同匹配程度閾值下能夠標(biāo)識的已知復(fù)合物數(shù)量逐漸下降。這是因為隨著k增大,基本的拓?fù)鋯卧猭-團(tuán)隨之減少,能夠識別的蛋白質(zhì)復(fù)合物數(shù)量也隨之減少。ZHANG等[14-15]利用 CFinder分析蛋白質(zhì)相互作用網(wǎng)絡(luò)也給出了相同的結(jié)論。在實(shí)驗中,CFinder在k=3,4,5,6和7時識別出來的蛋白質(zhì)復(fù)合物數(shù)量分別為178,61,18,9和8。從圖3可以看出:算法 IPC-MCE標(biāo)識的已知復(fù)合物數(shù)量明顯高于Cfinder標(biāo)識的數(shù)量。此外,算法IPC-MCE預(yù)處理產(chǎn)生的 HUB結(jié)構(gòu)子圖對標(biāo)識已知復(fù)合物也有貢獻(xiàn)。幾乎所有 CFinder能夠識別的蛋白質(zhì)復(fù)合物IPC-MCE都能夠準(zhǔn)確地識別出來。圖4給出了幾個具體的實(shí)例。
圖4(a)中,算法IPC-MCE 在t=0.8時完全標(biāo)識的1個規(guī)模為10的蛋白質(zhì)復(fù)合物,CFinder在k=3時識別的與該已知復(fù)合物最佳匹配程度OS(Pc,Kc) =0.556。對圖4(a)中CFinder識別的復(fù)合物,算法IPC-MCE將其分割為幾個相互交疊的復(fù)合物。
圖4(b)中算法IPC-MCE 在t=0.8時識別的1個規(guī)模為 14的蛋白質(zhì)復(fù)合物與已知復(fù)合物的匹配程度OS(Pc, Kc)=0.875,CFinder在k=3時識別的所有復(fù)合物與該已知復(fù)合物匹配程度OS(Pc, Kc)<0.1,在k=4時識別的復(fù)合物與該已知復(fù)合物最佳匹配程度OS(Pc,Kc) =0.583。這說明CFinder識別的復(fù)合物的稠密程度與k的取值密切相關(guān),隨著k增大,CFinder更容易識別比較稠密的復(fù)合物。
圖4(c)中算法IPC-MCE 在t=0.5時識別的1個規(guī)模為 7的蛋白質(zhì)復(fù)合物與已知復(fù)合物的匹配程度OS(Pc, Kc)= 0.735,CFinder在k=3時識別的與該已知復(fù)合物最佳匹配程度 OS(Pc, Kc)=0.643。這說明:對于比較稀疏的復(fù)合物,算法IPC-MCE比CFinder更有效地識別。
為進(jìn)一步測試算法IPC-MCE和CFinder識別復(fù)合物的能力,將這2個算法識別的復(fù)合物與Gavin等[16-18]使用串聯(lián)親和純化和大規(guī)模質(zhì)譜分析等系統(tǒng)分析方法得到的復(fù)合物進(jìn)行對比分析。Gavin,Ho和 Krogan所得的數(shù)據(jù)集分別包含232,552和91個蛋白質(zhì)復(fù)合物。在判斷2個復(fù)合物是否匹配時,通常將匹配程度OS(Pc, Kc)的閾值設(shè)置為0.2[6]。圖5描述了MIPS等數(shù)據(jù)集中被算法IPC-MCE和CFinder識別的復(fù)合物所匹配(OS(Pc, Kc)≥0.2)的已知復(fù)合物數(shù)量。從圖5可以看出:算法IPC-MCE不僅能夠標(biāo)識出大量的MIPS數(shù)據(jù)庫中人工注釋的蛋白質(zhì)復(fù)合物,而且也能夠標(biāo)識出比較多的大規(guī)模系統(tǒng)分析得到的蛋白質(zhì)復(fù)合物,并且算法IPC-MCE在t=0.8時識別的復(fù)合物所匹配的4個數(shù)據(jù)集中復(fù)合物的數(shù)量遠(yuǎn)高于CFinder在k=3時識別的復(fù)合物所匹配的數(shù)量。這說明:算法 IPC-MCE比CFinder 具有更強(qiáng)的蛋白質(zhì)復(fù)合物識別能力。
2.2.2 算法的特異性和敏感度
算法的特異性P和敏感度R是用來評估蛋白質(zhì)復(fù)合物識別算法的另外 2個重要指標(biāo)[6]。特異性是指算法識別的蛋白質(zhì)復(fù)合物中識別正確的部分所占比例,如式(2)所示;敏感度是指已知蛋白質(zhì)復(fù)合物中被算法識別出來的部分所占比例,如式(3)所示。式中:T (True positive)表示算法識別的復(fù)合物中與已知復(fù)合物匹配程度值OS(Pc, Kc)≥0.2的個數(shù);F (False positive)等于識別的復(fù)合物總數(shù)減去T;N (False negative)表示已知復(fù)合物中沒有識別的復(fù)合物與之匹配程度OS(Pc, Kc)≥0.2的個數(shù)。
圖4 算法IPC-MCE和CFinder在參數(shù)不同取值下識別的復(fù)合物以及標(biāo)識出來的已知復(fù)合物Fig.4 Examples for protein complexes identified by IPC-MCE and CFiner and corresponding matched known complexes
圖5 OS(Pc, Kc)≥0.2時已知復(fù)合物被標(biāo)識的數(shù)量Fig.5 Number of matched known complexes with respect to OS(Pc, Kc)≥0.2
Li等[19]綜合考慮敏感度和特異性2個方面,提出綜合評價指標(biāo)f,其計算公式[19]如下:
算法IPC-MCE和CFinder的特異性P、敏感度R和綜合評價f的比較結(jié)果如表1所示。
從表1可以看出:算法IPC-MCE在t=0.6,0.7,0.8和0.9時識別的復(fù)合物的敏感度在0.8以上,說明識別出來的復(fù)合物與已知復(fù)合物匹配閾值大于等于0.2的數(shù)量(T)遠(yuǎn)高于已知復(fù)合物在該閾值下沒有被標(biāo)識的數(shù)量(N),前者是后者的4倍多。T越大,N越小,敏感度就越高,說明算法識別出來的復(fù)合物可靠性越高。CFinder的敏感度最高只有0.213 6。算法IPC-MCE在t=0.6,0.7,0.8和0.9時識別的復(fù)合物的特異性大于0.23,而CFinder的特異性都大于0.24,明顯高于算法IPC-MCE的特異性。雖然CFinder的特異性高于IPC-MCE的特異性,但CFinder識別的復(fù)合物中與已知復(fù)合物匹配的數(shù)量(T)卻遠(yuǎn)小于 IPC-MCE匹配的數(shù)量。此外,由于目前試驗測定的已知蛋白質(zhì)復(fù)合物數(shù)據(jù)不完整,算法識別的蛋白質(zhì)復(fù)合物中可能存在一定比例的復(fù)合物還未被試驗測定但是真實(shí)存在。從2個算法的綜合評價指標(biāo)f可以看出:算法IPC-MCE的f值要遠(yuǎn)高于Cfinder的f值,說明算法IPC-MCE在識別蛋白質(zhì)復(fù)合物方面比CFinder的性能好。
表1 算法 IPC-MCE與CFinder的敏感度R、特異性P和綜合評價f的比較結(jié)果Table 1 Comparison of IPC-MCE and CFinder under Sensitivity, Specificity, and f-measure
很多研究者根據(jù)超幾何聚集分布的 P-value來注釋識別復(fù)合物的主要功能,其計算式[8]如下:
其中:n1和n2分別表示識別的復(fù)合物和功能注釋復(fù)合物的規(guī)模;i表示他們交集的規(guī)模;N表示網(wǎng)絡(luò)的規(guī)模。
P-value 體現(xiàn)了識別復(fù)合物中蛋白質(zhì)功能富集的概率。一般,將 P-value的最小值對應(yīng)的功能作為該復(fù)合物的主要功能。但很多蛋白質(zhì)復(fù)合物的注釋功能至少對應(yīng)于2種功能類。這里,采取文獻(xiàn)[5, 14]中所用的Pol計算方法,通過最小化識別復(fù)合物與功能注釋復(fù)合物的隨機(jī)交疊概率來獲得識別復(fù)合物的最佳匹配功能注釋復(fù)合物:
其中:n1和n2分別表示識別的復(fù)合物和功能注釋復(fù)合物的規(guī)模;i表示他們交集的規(guī)模;N表示網(wǎng)絡(luò)的規(guī)模。
將IPC-MCE算法在t=0.8時識別的規(guī)模大于5的442個蛋白質(zhì)復(fù)合物與功能注釋復(fù)合物進(jìn)行比較,計算Pol,發(fā)現(xiàn)超過98.4%的Pol小于0.01,其中約86.2%的Pol小于0.001,超過72.6%的Pol更小,小于1×10-10。CFinder在k=3時識別的規(guī)模大于5的蛋白質(zhì)復(fù)合物只有 29個,Pol小于 0.01的占 93.1%,而 Pol小于1×10-10的僅有16個,占55.2%。上述分析說明算法IPC-MCE識別的蛋白質(zhì)復(fù)合物不僅從統(tǒng)計上證明是具有生物意義的,并且較 CFidner具有更強(qiáng)的生物意義。
(1) 與交疊蛋白質(zhì)復(fù)合物識別工具 CFinder的識別結(jié)果比較,提出的 IPC-MCE算法在相同條件下能夠更精確地標(biāo)識已知蛋白質(zhì)復(fù)合物。在最優(yōu)參數(shù)設(shè)置下,IPC-MCE算法標(biāo)識的已知蛋白質(zhì)復(fù)合物數(shù)量是CFinder標(biāo)識的已知蛋白質(zhì)復(fù)合物數(shù)量的2倍多,說明算法IPC-MCE具有更好的識別性能。
(2) 基于Pol的統(tǒng)計分析表明:算法IPC-MCE能夠識別出蛋白質(zhì)網(wǎng)絡(luò)中具有生物意義的蛋白質(zhì)復(fù)合物。統(tǒng)計分析規(guī)模大于5的蛋白質(zhì)復(fù)合物的Pol發(fā)現(xiàn),98.4%的Pol小于0.01。
(3) 算法IPC-MCE不需要其他任何輔助信息,簡單有效,且對輸入?yún)?shù)不敏感,能夠為蛋白質(zhì)復(fù)合物識別和蛋白質(zhì)功能預(yù)測提供有益的參考。
[1] Graves P R, Haystead T A. Molecular biologist’s guide to proteomics[J]. Microbiol Mol Biol Rev, 2002, 66(1): 39-63.
[2] 向亞莉, 易紅, 李萃, 等. 鼻咽癌細(xì)胞系5-8F和6-10B的差異蛋白質(zhì)組學(xué)研究[J]. 中南大學(xué)學(xué)報: 醫(yī)學(xué)版, 2007, 32(6):978-984.XIANG Ya-li, YI Hong, LI Cui, et al. Differential proteomic analysis of naspharyngeal carcinoma cell lines 5-8F and 6-10B[J]. Journal of Central South University: Medicine Science,2007, 32(6): 978-984.
[3] CHENG Yun-hui, WANG Zhang, XU Shi-ying. Antioxidant properties of wheat germ protein hydrolysates evaluated in vitro[J]. Journal of Central South University of Technology,2006, 13(2): 160-165.
[4] Gavin A C, Superti-Furga G. Protein complexes and proteome organization from yeast to man[J]. Curr Opin Chem Biol, 2003,7(1): 21-27.
[5] King A D, Pr?ulj N, Jurisica I. Protein complex prediction via cost-based clustering[J]. Bioinformatics, 2004, 20(17):3013-3020.
[6] Bader G D, Hogue C W. An automated method for finding molecular complexes in large protein interaction networks[J].BMC Bioinformatics, 2003, 4: 2.
[7] Girvan M, Newman M. Community structure in social and biological networks[J]. PNAS, 2002, 99: 7821-7826.
[8] LUO Feng, YANG Yue-feng, CHEN Chin-fu, et al. Modular organization of protein interaction networks[J]. Bioinformatics,2007, 23(2): 207-214.
[9] Güldener U, Münsterk?tter M, Kastenmüller G, et al. CYGD: the comprehensive yeast genome database[J]. Nucleic Acids Res,2005, 33: D364-D368.
[10] Palla G, Dernyi I, Farkas I, et al. Uncovering the overlapping community structure of complex networks in nature and society[J]. Nature, 2005, 435: 814-818.
[11] Adamcsek B, Palla G, Farkas I, et al. CFinder: locating cliques and overlapping modules in biological networks[J].Bioinformatics, 2006, 22(8): 1021-1023.
[12] Tsukiyama S, Ide M, Ariyoshi H, et al. A new algorithm for generating all the maximal independent sets[J]. SIAM Journal on Computing, 1977, 6(3): 505-517.
[13] Mewes H W. MIPS: analysis and annotation of proteins from whole genome in 2005[J]. Nucleic Acid Research, 2006, 34:169-172.
[14] ZHANG Shi-hua, NING Xue-mei, ZHANG Xing-sun.Identification of functional modules in a PPI network by clique percolation clustering[J]. Computational Biology and Chemistry.2006, 30(6): 445-451.
[15] Jonsson P, Cavanna T, Zicha D, et al. Cluster analysis of networks generated through homology: Automatic identification of important protein communities involved in cancer metastasis[J]. BMC Bioinformatics, 2006, 7: 2.
[16] Gavin A C, Bosche M, Krause R, et al. Functional organization of the yeast proteome by systematic analysis of protein complexes[J]. Nature, 2002, 415: 141-147.
[17] Ho Y, Gruhler A, Heilbut A, et al. Systematic identification of protein complexes in saccharomyces cerevisiae by mass spectrometry[J]. Nature, 2002, 415: 180-183.
[18] Krogan N J, Peng N J, Cagney G, et al. High-definition macromolecular composition of yeast RNA- processing complexes[J]. Molecular Cell, 2004, 13: 225-239.
[19] Li X L, Tan S H, Foo C S, et al. Interaction graph mining for protein complexes using local clique merging[J]. Genome Informatics, 2005, 16(2): 260-269.