王雷 王穎 李春香 李剛 穆偉斌*
(1.齊齊哈爾醫(yī)學(xué)院 黑龍江省齊齊哈爾市 161006 2.常熟理工學(xué)院 江蘇省常熟市 215500)
癌癥是全世界首要死因,是一種發(fā)病率高,死亡率高,嚴(yán)重危害人類健康的無形殺手,它不僅給患者帶來身體上的病痛,還給家庭帶來沉重的負(fù)擔(dān)。我國截止到2020 年有大約451 萬癌癥病例和304 萬人因癌癥死亡。隨著生命科學(xué)技術(shù)的不斷發(fā)展,從基因水平了解癌細(xì)胞的發(fā)病機(jī)理越來越受到重視,并且許多大規(guī)模癌癥工程獲得了海量數(shù)據(jù),隨著后基因時代的到來和分子生物學(xué)的發(fā)展,研究人員發(fā)現(xiàn),基因結(jié)構(gòu)的差異、基因功能的改變和基因產(chǎn)物的異常表達(dá)與腫瘤的發(fā)生、發(fā)展密切相關(guān),進(jìn)而把癌基因、抑癌基因以及其產(chǎn)物也列為腫瘤標(biāo)志物,而關(guān)鍵基因為癌癥預(yù)防、診斷和治療生物標(biāo)志物提供關(guān)鍵信息。為推進(jìn)癌細(xì)胞精確醫(yī)療,快速識別癌癥關(guān)鍵基因,本研究基于此從癌癥基因組的大量基因中挖掘癌細(xì)胞的關(guān)鍵基因展開研究。
本研究所用的mRNA 表達(dá)譜芯片數(shù)據(jù)取自美國國立生物技術(shù)信息中心(National Center for Biotechnology Information, NCBI) 的基因表達(dá)數(shù)據(jù)庫(Gene Expression Omnibus, GEO)。分別為GSE54236 和GSE25097 的癌細(xì)胞mRNA 表達(dá)譜芯片數(shù)據(jù)。其中GSE54236 共有161 個包括癌細(xì)胞組織樣本和相鄰的非惡性組織樣本,其中GSE25097共有50 個包括癌細(xì)胞組織樣本和相鄰的非惡性組織樣本。下載國際腫瘤基因組協(xié)作組數(shù)據(jù)庫(the International Cancer Genome Consortium, ICGC)的癌細(xì)胞突變組數(shù)據(jù),檢索關(guān)鍵詞為“Liver Hepatocellular carcinoma - TCGA, US”,共有105 個突變數(shù)據(jù)樣本,包括了患者所有的突變數(shù)據(jù)信息。
1.2.1 表達(dá)譜數(shù)據(jù)處理
(1)根據(jù)癌細(xì)胞表達(dá)譜芯片注釋信息,對各芯片中的樣本進(jìn)行分組(包括癌癥組和對照組);
(2)利用“perl”腳本將下載的基因芯片表達(dá)原始數(shù)據(jù)整理為基因-樣本表達(dá)矩陣。
(3)經(jīng)“l(fā)imma”包將矩陣數(shù)據(jù)進(jìn)行過濾、歸一化、缺失值估計等處理,選癌組織和對照組間倍數(shù)變化大于2,P小于0.05 的基因作差異基因。
1.2.2 突變數(shù)據(jù)處理
(1)搜索genecode 網(wǎng)站(www.gencodegenes.org)下載基因注釋文件GTF/GFF3 完成對基因注釋。
(2)讀入突變數(shù)據(jù),對數(shù)據(jù)文件進(jìn)行基因注釋,生成突變矩陣。
(3)去除突變矩陣?yán)飿颖緸榭盏牟糠?,對突變矩陣中某樣本?biāo)注為“Mutation”的設(shè)為“1”,表示基因在此樣本中發(fā)生突變,對突變矩陣中某樣本標(biāo)注為“Wild”的設(shè)為“0”,表示基因在此樣本未發(fā)生突變。
(4)計算所有基因所有突變類型的背景突變數(shù)據(jù),將突變因子分?jǐn)?shù)作為網(wǎng)絡(luò)中基因的權(quán)重。
患者特異基因突變率:
計算每個突變類型突變頻率和每個病人突變頻率與總突變頻率的比值:
計算每種突變類型和每個病人的堿基總數(shù)與總堿基數(shù)的比值:
圖2:細(xì)胞組分富集柱狀圖
使用鄰近基因的背景突變數(shù)據(jù)x、X和突變頻率計算每個基因、每個病人、每種突變類型對應(yīng)的背景突變數(shù)據(jù):
1.3.1 癌細(xì)胞差異基因加權(quán)網(wǎng)絡(luò)構(gòu)建
從String 數(shù)據(jù)庫導(dǎo)出“9606.protein.links.detailed.v11.5.txt.gz”蛋白質(zhì)互作網(wǎng)絡(luò)文件,其中蛋白質(zhì)互作網(wǎng)絡(luò)文件中的combined score 為綜合評分值,代表網(wǎng)絡(luò)中基因之間功能相關(guān)性的程度大小。將癌細(xì)胞突變數(shù)據(jù)集與差異基因集、蛋白質(zhì)互作網(wǎng)絡(luò)文件取交集,得到包含有突變數(shù)據(jù)的差異基因。然后以差異基因的突變頻率和差異基因表達(dá)水平相關(guān)性定義網(wǎng)絡(luò)節(jié)點和邊,以突變因子分?jǐn)?shù)值 和綜合評分值分別作為網(wǎng)絡(luò)節(jié)點和邊的權(quán)重,建立癌細(xì)胞差異基因加權(quán)網(wǎng)絡(luò)。
1.3.2 模塊分析
為了提取關(guān)鍵基因,我們采用Cytoscape 3. 8. 2 軟件內(nèi)置插件MCODE 方法先對此網(wǎng)絡(luò)進(jìn)行基因功能模塊的提取。篩選標(biāo)準(zhǔn)為:MCODE 評分≥4 分,同時基因節(jié)點數(shù)量≥15 個。具體步驟為:
(1)癌細(xì)胞基因加權(quán)網(wǎng)絡(luò)模型以“csv”文件格式導(dǎo)入到Cytoscape 中。
(2)參數(shù)設(shè)置:Degree Cutoff為7,Node Score Cutoff為0.05,K-core 為5,Max.Depth 為50。
(3)點擊 Analyze Current Network 開始運(yùn)行。
利用Cytoscape 3. 8. 2 軟件內(nèi)置插件BINGO 對所獲得的MCODE 模塊中的基因進(jìn)行GO(Gene Ontology, GO) 分析和KEGG (Kyoto Encyclopedia of Genes and Genomes, KEGG)通路富集分析以證明其生物學(xué)意義。設(shè)置p 值為0.05,導(dǎo)入GO 功能分類文件開始分析。然后利用Metascape 在線工具中的ggplot2 程序包對差異顯著的結(jié)果進(jìn)行可視化。
利用Cytoscape 3. 8. 2 軟件內(nèi)置插件中的Cytohubba 算法找到基因功能模塊中的關(guān)鍵基因,使用Oncomine 數(shù)據(jù)庫和GEPIA(Gene Expression Profiling Interactive Analysis) 數(shù)據(jù)庫驗證篩選出的關(guān)鍵基因在腫瘤組織和正常組織中的表達(dá)以及表達(dá)程度的評價。
圖3:分子功能富集柱狀圖
使用GEPIA 數(shù)據(jù)庫對其所獲得的關(guān)鍵基因進(jìn)行生存分析,評價關(guān)鍵基因在癌細(xì)胞患者中的預(yù)后價值。
利用Cytoscape 3. 8. 2 軟件內(nèi)置插件MCODE 工具共篩選出五個模塊,其中符合MCODE 評分≥4 分,同時基因節(jié)點數(shù)量≥15 個的模塊一共有兩個,共篩選出基因94 個。
A 和B 圖為基因功能模塊圖,A 圖顯示了50 個基因,243 條邊,B 圖顯示了44 個基因,160 條邊,從圖中的密集程度可以看出每個模塊富集到的基因相互之間的關(guān)聯(lián)度較強(qiáng),說明它們之間功能相關(guān)性程度較大,具有生物學(xué)意義。
GO 分析結(jié)果顯示,模塊基因主要富集在泛素蛋白連接酶活性、ATP 結(jié)合等分子功能中;同時,差異基因也富集在細(xì)胞蛋白質(zhì)代謝過程、蛋白K11 連接泛素化、有絲分裂姐妹染色單體分離的調(diào)節(jié)等生物過程中;KEGG 分析結(jié)果顯示,主要富集在卵母細(xì)胞減數(shù)分裂、細(xì)胞周期、孕酮介導(dǎo)的卵母細(xì)胞成熟等通路中,如圖1-3 所示。
圖1:生物過程富集柱狀圖
利用Cytoscape 軟件的內(nèi)置插件Cytohubba 找到上述兩個基因功能模塊中的關(guān)鍵基因并將其可視化,下圖列出排名靠前的10 個的關(guān)鍵基因,包括PRC1、 KIF4A 、KIF14、ASPM、ANLN、KIF23、 CEP55、ECT2、HMMR和TPX2,顏色越深,代表所連接的節(jié)點數(shù)越多,也說明了其與癌細(xì)胞的發(fā)生關(guān)聯(lián)度越大,具體如圖4 所示。
圖4:利用CytoHubba 算法進(jìn)行關(guān)鍵基因的篩選
利用Oncomine 數(shù)據(jù)庫驗證篩選出的10 個關(guān)鍵基因在腫瘤組織和正常組織中的表達(dá)情況,發(fā)現(xiàn)PRC1、KIF4A 、KIF14、ASPM、ANLN、KIF23、 CEP55、ECT2、HMMR和TPX2 在腫瘤組織中均明顯表達(dá)增高,差異有統(tǒng)計學(xué)意義(P<0. 01),說明了這10 個基因均與癌細(xì)胞的發(fā)生發(fā)展密切相關(guān),間接驗證了本文所構(gòu)建的癌細(xì)胞差異基因加權(quán)網(wǎng)絡(luò)能夠高效捕捉到關(guān)鍵基因。
10 個關(guān)鍵基因其中發(fā)現(xiàn)PRC1、KIF4A 、ASPM、ANLN、KIF23、 CEP55、ECT2、HMMR 和TPX2 高表達(dá)與癌細(xì)胞在總生存率呈負(fù)相關(guān)(P<0.05),具有統(tǒng)計學(xué)意義,而KIF14 高表達(dá)與癌細(xì)胞總生存率呈負(fù)相關(guān)(P>0.05),差異無統(tǒng)計學(xué)意義。除KIF14 外,其余基因的高表達(dá)均顯著縮短癌細(xì)胞患者的無病生存時間。
癌細(xì)胞的發(fā)生是多種病因、多類途徑、多種基因共同導(dǎo)致的結(jié)果,其發(fā)生機(jī)制的復(fù)雜性更是尚未明朗。隨著醫(yī)療技術(shù)水平的提升,癌細(xì)胞的診治水平雖有了較大提升,但其預(yù)后效果仍不理想。因此,利用各種方法篩選和鑒定出與之相關(guān)聯(lián)的潛在生物學(xué)標(biāo)志物對明晰癌細(xì)胞的作用機(jī)制以及診治依據(jù)具有十分重要的作用。
本研究通過分析GSE54236、GSE25097 芯片數(shù)據(jù)集和ICGC 數(shù)據(jù)庫下載的突變數(shù)據(jù)集經(jīng)過處理后與蛋白質(zhì)網(wǎng)絡(luò)文件取交集,以差異基因的突變頻率和差異基因表達(dá)水平相關(guān)性定義網(wǎng)絡(luò)的節(jié)點和邊,建立了癌細(xì)胞差異基因加權(quán)網(wǎng)絡(luò)模型并用MCODE 插件對其進(jìn)行功能模塊的提取。MCODE 可以尋找到網(wǎng)絡(luò)中互相作用的密度較高的區(qū)域位置,通常情況下高密度區(qū)域參與到生物調(diào)節(jié)中的概率更高,發(fā)揮關(guān)鍵作用。通過GO 分析顯示,模塊里的基因在生物過程中主要富集在蛋白酶泛素化、細(xì)胞分裂、細(xì)胞蛋白質(zhì)代謝過程、蛋白K11連接泛素化、有絲分裂等通路中,在細(xì)胞組成中主要富集在泛素連接酶復(fù)合物、細(xì)胞核、紡錘體、細(xì)胞溶膠、細(xì)胞質(zhì)微管及細(xì)胞間橋,在分子功能中主要富集在泛素蛋白連接酶活性、ATP 結(jié)合、微管運(yùn)動活性及微管結(jié)合。KEGG 分析主要富集在卵母細(xì)胞減數(shù)分裂、細(xì)胞周期、孕酮介導(dǎo)的卵母細(xì)胞成熟等通路中,這些基因所富集到的通路經(jīng)研究發(fā)現(xiàn)均與多種癌癥的發(fā)生有極為密切的關(guān)聯(lián),如果能夠進(jìn)一步探索出上述通路具體作用的機(jī)制,不管是在降低癌細(xì)胞患者死亡率或是在提高患者生存質(zhì)量方面都可能發(fā)揮重要作用。
利用Cytoscape 插件的Cytohubba 算法篩選出10 個關(guān)鍵基因,包括PRC1、 KIF4A 、KIF14、ASPM、ANLN、KIF23、 CEP55、ECT2、HMMR 和TPX2,并驗證了上述基因在多種癌癥中均出現(xiàn)高表達(dá)。這些關(guān)鍵基因可區(qū)分肝細(xì)胞癌和非癌組織,有潛力成為肝細(xì)胞癌診斷的分子標(biāo)記物,其中PRC1 與肝細(xì)胞癌預(yù)后不良關(guān)系密切。PRC1 主要影響細(xì)胞分裂不穩(wěn)定性,導(dǎo)致細(xì)胞基因發(fā)生變異,并且通過參與p53 通路間接導(dǎo)致腫瘤的發(fā)生。可見,PRC1 在腫瘤的作用較大但具體機(jī)制尚未完全清楚,未來可作為肝癌基因靶向治療的關(guān)鍵靶點。KIF4A 和KIF23 都是隸屬于癌癥驅(qū)動蛋白家族成員,驅(qū)動蛋白主要參與微管活動并且與紡錘體和中間體的形成具有密切關(guān)系,其中KIF4A 通過與轉(zhuǎn)錄因子FOXM1的結(jié)合來直接促進(jìn)肝癌細(xì)胞的增殖以及惡性生長,并且在肝癌組織中呈現(xiàn)明顯的高表達(dá)。但KIF23 基因具體作用機(jī)制仍不明確,未來很有可能作為肝癌基因治療新靶點。
隨后的研究中,我們使用GEPIA 數(shù)據(jù)庫對這10 個篩選的關(guān)鍵基因進(jìn)行預(yù)后分析,發(fā)現(xiàn)PRC1、KIF4A 、KIF23、CEP55 在肝腫瘤組織中均明顯表達(dá)增高,與預(yù)后不良密切相關(guān),提示這些基因可能在肝細(xì)胞癌的發(fā)生、發(fā)展中起著不可或缺的作用,可作為肝細(xì)胞癌的潛在預(yù)后分析標(biāo)志物。
綜上所述,本文通過構(gòu)建差異基因加權(quán)網(wǎng)絡(luò)的方法篩選出了10 個與癌細(xì)胞有關(guān)的關(guān)鍵基因,并且通過驗證證明了結(jié)果的有效性,也證明了本文所采用的方法可以較為準(zhǔn)確的篩選出關(guān)鍵基因,從而進(jìn)一步為其他癌癥診療與預(yù)后篩選提供理論依據(jù)和方法借鑒。