石勝軍,田斌群
(武漢大學中南醫(yī)院泌尿外科,湖北武漢 430071)
腎癌是最常見泌尿系統(tǒng)腫瘤之一,研究顯示2015年我國新診斷腎癌約66 800例,占新診斷癌癥的1.6%;約23 400人死于腎癌,占所有癌癥死亡人數(shù)的0.8%[1]。90%腎癌為腎細胞癌,而腎透明細胞癌是腎細胞癌最常見的類型,占腎細胞癌80%~90%[2]。腎透明細胞癌的發(fā)病機制目前尚不明確,缺乏早期診斷方法,約30%患者被診斷時已伴有轉移,有研究顯示一些基因突變如VHL、PBRM1、BAP1等與腎透明細胞癌發(fā)生發(fā)展有很大關系[3-4]。關于腎透明細胞癌的治療,若為局限性則手術治療為主要治療方式;但對于轉移性腎透明細胞癌,由于腎透明細胞癌對于放化療不敏感,靶向治療為其主要治療方式,但是由于腫瘤異質性,靶向治療療效因人而異[2,5-6]。因此,鑒別腎透明細胞癌潛在基因靶點,為腎透明細胞癌診斷以及個性化治療提供生物靶點是具有重要意義。
基于基因組學的快速發(fā)展,腫瘤相關基因不斷被發(fā)現(xiàn),極大地促進了腫瘤研究的發(fā)展[7]。但目前許多研究主要專注于差異基因的篩選而忽視了基因間的可能相關性。而共表達網(wǎng)絡能夠將高度相關的基因歸于同一模塊,并能通過引入臨床信息等方式來篩選樞紐基因[8]。本研究通過加權基因共表達網(wǎng)絡分析(weighted gene co-expression network analysis,WGCNA)構建共表達網(wǎng)絡篩選與腎透明細胞癌進展(grade)相關的樞紐基因并進行一系列生物信息學分析。
1.1數(shù)據(jù)下載從GEO 數(shù)據(jù)庫(http://www.ncbi.nlm.nih.gov/geo/)下載所需基因芯片集。其中GSE36895作為訓練集用來構建共表達網(wǎng)絡并篩選樞紐基因,包括29例腎透明細胞癌、21例癌旁以及26例腫瘤小鼠移植物,選取其中腎透明細胞及癌旁樣本進行進一步研究。另外GSE73731作為測試集用來驗證所得到的結果,包括265例腎透明細胞癌。
1.2數(shù)據(jù)預處理利用 R 軟件Affy包[9]讀取原始文件,對芯片質量進行初步評估。然后使用Affy 包的 RMA 一體化算法對數(shù)據(jù)進行背景校正、歸一化、匯總處理,得到表達矩陣,計算樣本之間的 Pearson 相關系數(shù)并進行聚類分析,剔除明顯離群樣本。
1.3差異表達基因篩選利用R軟件limma包[10]篩選差異表達基因,得到腎透明細胞癌與正常腎組織間差異表達基因用于共表達網(wǎng)絡的構建,篩選條件為:FDR<0.05,| log2 FC|≥1.0,其中FC為fold change即兩組間差異表達倍數(shù)。
1.4加權共表達網(wǎng)絡構建首先將差異基因在腎透明細胞癌樣本中的表達數(shù)據(jù)導入R軟件,對其進行檢驗并移除缺失值過多的樣本、基因及明顯離群的樣本。然后使用R軟件WGCNA包構建共表達網(wǎng)絡。第一步,計算各基因間Pearson相關系數(shù)。第二步,構建加權鄰接矩陣amn= |cmn|β,其中amn代表基因m與基因n的鄰接系數(shù);cmn代表基因m與基因n的Pearson相關系數(shù);β為一軟閾值,選擇一個合適的β值可以使網(wǎng)絡更符合無尺度網(wǎng)絡。第三步,將鄰接矩陣轉化為拓撲重疊矩陣TOM,并計算基因間相異度矩陣dissTOM=1-TOM。第四步,對dissTOM進行層次聚類使表達相近的基因置于同一基因模塊。第五步,設置最少模塊基因數(shù)為30,使用動態(tài)混合切割算法得到基因模塊,合并相似度較高的模塊。
1.5樞紐模塊篩選通過引入臨床信息的方法來篩選樞紐模塊。計算基因顯著性(gene significance,GS)以及模塊顯著性(module significance,MS),其中GS用以衡量基因與臨床信息的關聯(lián)程度;而相應的MS為模塊中所有基因GS的平均值,用來衡量模塊與臨床信息的關聯(lián)程度。一般而言,MS越大表示該模塊與該臨床信息越相關,通過比較各模塊MS得到樞紐模塊。
1.6樞紐基因篩選計算樞紐模塊各基因模塊身份(module membership,MM),其用來衡量基因在模塊中的重要性。樞紐模塊中|GS|>0.2、|MM|>0.8的基因被認為是備選樞紐基因。另外將樞紐模塊中的基因上傳至STRING數(shù)據(jù)庫構建蛋白互作網(wǎng)絡[11],本研究選取點度中心性(degree)≥68的基因作為備選樞紐基因。綜合以上篩選結果,二者共有的基因即為樞紐基因。
1.7樞紐基因驗證使用測試集GSE73731數(shù)據(jù)對各樞紐基因進行線性回歸分析驗證其表達量與腎透明細胞癌進展關系。另外繪制各備選樞紐基因ROC曲線并計算AUC,當AUC>0.7時,該樞紐基因被認為對于區(qū)分低級別(grade Ⅰ、Ⅱ)及高級別(grade Ⅲ、Ⅳ)腎透明細胞癌有較高的靈敏度及特異度。進一步利用GEPIA 數(shù)據(jù)庫[12](http://GEPIA.cancer-pku.cn/)對樞紐基因與腎透明細胞癌病理分期及預后相關性進行驗證。
1.8GO、KEGG富集分析及GSEA利用R軟件clusterProfiler包[13]對得到的樞紐模塊中基因進行GO富集及KEGG通路分析,錯誤發(fā)現(xiàn)率(false discovery rate,F(xiàn)DR)<0.05被認為具有統(tǒng)計學意義。另外將測試集GSE73731中265例腎透明細胞癌樣本根據(jù)樞紐基因表達值中位數(shù)分成高低表達兩組進行GSEA[14],選擇c2.cp.kegg.v6.0.symbols.gmt作為參考基因集,F(xiàn)DR<0.05被認為具有統(tǒng)計學意義。
2.1差異表達基因篩選在FDR<0.05,|log2 FC|≥1.0篩選條件下,得到2 173個差異表達基因,其中上調基因1 007個,下調基因1 166個。
2.2加權共表達網(wǎng)絡構建及樞紐模塊確定總共29例腎透明細胞癌樣本用于構建共表達網(wǎng)絡。選擇β=7(R2=0.88)作為軟閾值(圖1A),確定8個不同的基因模塊(圖1B)。引入臨床信息,顯示棕色模塊與腎透明細胞癌進展(grade)相關性最大(圖1C),選擇棕色模塊作為樞紐模塊以進一步分析。
圖1 軟閾值β確定、基因模塊獲取以及樞紐模塊篩選
2.3樞紐基因確定在棕色樞紐模塊中,通過|GS|>0.2、|MM|>0.8篩選得到59個備選樞紐基因。另外將該模塊中的基因上傳至STRING構建蛋白互作網(wǎng)絡,以degree≥68篩選得到9個備選樞紐基因。綜上,取二者交集最終得到TOP2A、CDK1、CDC20、KIF11、CCNB2、BUB1這6個在共表達網(wǎng)絡及蛋白互作網(wǎng)絡均重要的樞紐基因(表1)。
表1棕色樞紐模塊中篩選得到的樞紐基因
基因名基因顯著性基因模塊身份點度中心性TOP2A0.2567480.89593587CDK10.2656670.89189175CDC200.525840.91973370KIF110.4379430.87056469CCNB20.3799430.9294869BUB10.506540.93614269
2.4樞紐基因驗證使用測試集GSE73731數(shù)據(jù)進行線性回歸分析,結果顯示各樞紐基因表達量與腎透明細胞癌進展(grade)均呈顯著正相關(P<0.000 1,圖2)。ROC曲線顯示CDC20、BUB1對于低級別(grade Ⅰ、Ⅱ)及高級別(grade Ⅲ、Ⅳ)腎透明細胞癌有較高的診斷效能(AUC>0.7,P<0.000 1);而TOP2A、CDK1、KIF11、CCNB2診斷效能較前二者較弱(AUC>0.6,P<0.000 1,圖3)。進一步查詢GEPIA數(shù)據(jù)庫驗證各樞紐基因與腎透明細胞癌進展的關系,結果顯示各樞紐基因表達量與腎透明細胞癌病理分期顯著相關(圖4)。同樣通過GEPIA得到各樞紐基因的總生存期及無病生存期,除了KIF11外的各樞紐基因高表達均顯示較短的總生存期及無病生存期,表明它們與腎透明細胞癌預后顯著相關;而KIF11高表達顯示有較短的無病生存期,但總生存期無明顯差異(圖5)。
2.5GO、KEGG富集分析及GSEA為了解樞紐模塊可能功能,對樞紐模塊中基因進行GO富集及KEGG通路分析。GO富集顯示模塊中基因主要富集于有絲分裂核分裂、細胞周期相變、染色體分離等生物過程(圖6A);KEGG通路分析顯示這些基因最顯著富集于細胞周期通路(圖6B)。為進一步了解樞紐基因作用,使用測試集GSE73731數(shù)據(jù)進行GSEA,結果顯示各樞紐基因高表達組均富集到的基因組有17個,包括“KEGG_CELL_CYCLE”“KEGG_DNA_REPLICATION”“KEGG_MISMATCH_REPAIR”“KEGG_HOMOLOGOUS_RECOMBINATION”等。
圖2 測試集GSE73731中各樞紐基因表達水平與核分級(grade)的關系
圖3 基于測試集GSE73731各樞紐基因ROC曲線
圖4 GEPIA數(shù)據(jù)庫中各樞紐基因表達水平與病理分期的關系
圖5 GEPIA數(shù)據(jù)庫中各樞紐基因對腎透明細胞癌生存時間的影響
圖6 樞紐模塊中基因GO富集及KEGG通路分析
本研究通過構建共表達網(wǎng)絡得到與腎透明細胞癌進展最相關的棕色模塊,進一步篩選得到在共表達網(wǎng)絡及蛋白互作網(wǎng)絡中均重要的6個樞紐基因:TOP2A、CDK1、CDC20、KIF11、CCNB2、BUB1。通過測試集GSE73731數(shù)據(jù)對樞紐基因進行驗證,結果顯示:①各樞紐基因表達量與腎透明細胞癌進展(fuhrman grade)均呈顯著正相關(P<0.000 1);②CDC20、BUB1對于低級別(grade Ⅰ、Ⅱ)及高級別(grade Ⅲ、Ⅳ)腎透明細胞癌有較高的診斷效能(AUC>0.7,P<0.000 1)。進一步查詢GEPIA數(shù)據(jù)庫驗證,顯示各樞紐基因表達量與腎透明細胞癌病理分期及預后均顯著相關。
TOP2A,編碼一種DNA拓撲異構酶,參與調控和改變DNA轉錄過程中的拓撲狀態(tài)。JAIN 等[15]證實TOP2A在腎上腺皮質癌處于過表達狀態(tài),敲減TOP2A能夠抑制腫瘤增殖、侵襲。也有研究發(fā)現(xiàn)TOP2A能夠用于鼻咽癌及前列腺癌的預后判斷[16-17]。CDK1編碼一種細胞周期蛋白依賴性激酶,是細胞周期G2/M檢查點不可或缺的;研究顯示其可能作為腫瘤治療靶點及預后判斷指標[18-20]。CDC20編碼的蛋白作為調節(jié)蛋白在細胞周期中有著重要作用。WU等[21]發(fā)現(xiàn)CDC20與結直腸癌進展及預后顯著相關。WANG等[22]研究也顯示CDC20可能成為腫瘤治療靶點。KIF11編碼一種驅動蛋白,主要參與細胞周期中紡錘體的組成。VENERE等[23]研究發(fā)現(xiàn)KIF11在膠質母細胞瘤增殖、侵襲以及自我更新中有著重要作用,可能成為膠質母細胞瘤預后判斷及治療的生物靶點。CCNB2為細胞周期蛋白的一員,在細胞周期G2/M轉變中起關鍵作用。研究顯示CCNB2表達量與一些腫瘤的預后相關,能夠用于腫瘤預后判斷[24-25]。BUB1為有絲分裂檢查點激酶,TAKAGI等[26]研究發(fā)現(xiàn)BUB1與乳腺癌分期、分級等相關,能夠作為預后判斷的有效指標。另外也有研究發(fā)現(xiàn)抑制BUB1能夠減弱膠質母細胞瘤的增殖并提高放療敏感性,可作為膠質母細胞瘤治療靶點[27]。
為了解樞紐模塊可能作用,對得到的樞紐模塊進行GO富集及KEGG通路分析,結果顯示基因顯著富集于細胞周期相關生物過程及通路。另外GSEA顯示樞紐基因高表達組主要富集于細胞周期及免疫相關通路。許多研究顯示腫瘤發(fā)生發(fā)展與細胞周期密切相關,細胞周期相關通路可能成為腫瘤診斷、預后判斷及治療靶點[28-29]。綜上,本研究篩選得到的樞紐基因可能通過細胞周期相關通路來影響腎透明細胞癌進展及預后。
總之,本研究使用WGCNA構建加權共表達網(wǎng)絡,篩選得到與腎透明細胞癌進展相關的6個樞紐基因(TOP2A、CDK1、CDC20、KIF11、CCNB2、BUB1)并對其進行初步驗證,同時發(fā)現(xiàn)樞紐基因可能通過細胞周期相關通路來影響腎透明細胞癌進展及預后。