石勝軍,田斌群
(武漢大學中南醫(yī)院泌尿外科,武漢 430071)
據(jù)統(tǒng)計2012年全世界新診斷前列腺癌約1 100 000例,居男性腫瘤第二位;同時約30 700人死于前列腺癌,居男性腫瘤死亡率第五位[1]。相對于歐美國家,中國前列腺癌患病率較低,但也有逐年上升的趨勢[2]。目前對于前列腺癌的初篩主要依靠前列腺腫瘤標志物(prostate-specific antigen,PSA),但特異性不高,可能導致許多不必要的前列腺穿刺活檢[3],另外也有研究表明PSA的篩查并不能明顯降低前列腺癌死亡率[4]。同時在晚期前列腺癌治療方面目前仍存在巨大挑戰(zhàn)[5],因此對前列腺癌早期診斷標志物及治療靶標的研究是具有重要意義的。
本研究利用生物信息學對GEO(Gene Expression Omnibus)數(shù)據(jù)庫中有關基因芯片數(shù)據(jù)進行分析,篩選出樞紐基因,并通過生物信息學方法初步驗證,以期為進一步研究提供線索。
1.1數(shù)據(jù)下載從GEO 數(shù)據(jù)庫(http://www.ncbi.nlm.nih.gov/geo/)下載編號為GSE55945的芯片數(shù)據(jù)集,該芯片數(shù)據(jù)集基于GPL570平臺,共21例樣本,包括13例前列腺癌組織及8例良性前列腺增生組織。另外從癌癥和腫瘤基因圖譜(the Cancer Genome Atlas,TCGA)數(shù)據(jù)庫下載前列腺癌相關表達數(shù)據(jù),包括498例前列腺癌組織及52例癌旁組織。
1.2數(shù)據(jù)預處理利用R軟件Affy包[6]讀取原始文件,然后使用Affy 包的MAS5.0算法標準化數(shù)據(jù)后得到基因的表達矩陣,計算樣本之間的 Pearson 相關系數(shù),對所有樣本進行聚類分析,剔除明顯離群樣本。
1.3差異表達基因篩選利用R軟件limma包[7]來對預處理后的基因表達矩陣進行分析并且應用貝葉斯檢驗方法進行多重檢驗校正,得到前列腺癌組織與良性前列腺組織間差異表達基因(differentially expressed genes,DEGs),篩選條件為:FDR<0.05,| log2 FC|≥1.0,其中FC為fold change即兩組間差異表達倍數(shù)。
1.4GO與KEGG富集分析為進一步了解差異基因可能功能,利用R軟件clusterProfiler包[8]對得到的差異表達基因進行基因本體功能(gene ontology,GO)富集分析,并進行京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路分析。P<0.05為具有統(tǒng)計學意義。
1.5蛋白互作網絡構建及樞紐基因的篩選利用R軟件STRINGdb包[9]分析差異表達基因得到蛋白互作網絡。然后運用R軟件進一步分析計算點度中心性(degree)等并繪制簡化蛋白互作網絡圖。其中每個節(jié)點均代表一個蛋白,而點度中心性表示與該節(jié)點蛋白相連的節(jié)點數(shù),值越大則該節(jié)點在網絡中越重要,點度中心性最多的節(jié)點對應的基因即為樞紐基因。
1.6樞紐蛋白(基因)驗證利用基因表達譜交互式分析(Gene Expression Profiling Interactive Analysisi,GEPIA) 數(shù)據(jù)庫[10](http://GEPIA.cancer-pku.cn/)對樞紐基因在前列腺癌與正常組織間的表達量進行進一步驗證篩選,其中前列腺癌組織數(shù)據(jù)來自TCGA數(shù)據(jù)而正常組織數(shù)據(jù)則來自TCGA及GTEx數(shù)據(jù)。進一步利用HPA(the Human Protein Atlas)數(shù)據(jù)庫驗證樞紐基因的翻譯水平。另外基于TCGA數(shù)據(jù)繪制各備選樞紐受試者工作特征曲線 (receiver operating characteristic curve,ROC)曲線并計算AUC驗證其診斷效能,當AUC>0.7時,該樞紐基因被認為對于前列腺的診斷有較高的靈敏度及特異度。
2.1差異表達基因篩選結果在FDR<0.05,|log2 FC|≥1.0的篩選條件下,共得到差異表達基因共462個,其中上調基因114個,下調基因348個。差異表達基因熱圖如圖1所示,前列腺癌組織與良性前列腺組織間基因表達差異明顯且分組聚類良好。
2.2差異表達基因GO功能富集分析和KEGG通路分析為了解差異基因可能功能,對差異基因進行GO功能富集分析和KEGG通路分析。將GO功能富集分析和KEGG通路分析結果最顯著的前15條列于圖2。GO功能富集分析顯示差異表達基因主要參與肌肉系統(tǒng)、系統(tǒng)生物過程調節(jié)、循環(huán)系統(tǒng)等生物過程(圖2A);KEGG通路分析顯示這些差異表達基因主要涉及粘著斑、蛋白聚糖、cAMP信號通路、鈣離子信號通路及cGMP-PKG信號通路等相關通路(圖2B)。
2.3蛋白互作網絡構建及備選樞紐基因的篩選利用R軟件STRINGdb包分析差異表達基因得到蛋白互作網絡,根據(jù)每個基因的點度中心性排序,節(jié)點最多的基因即備選樞紐基因有6個,分別為VCL、RND3、RRAS、 MET、BMP2、RAP1A。
2.4樞紐基因驗證通過查詢GEPIA數(shù)據(jù)庫得到備選樞紐基因在前列腺癌組織與正常組織的表達量,結果顯示VCL、RND3、RRAS在前列腺癌組織中表達量較正常組織均存在明顯下調;而MET、BMP2、RAP1A則無明顯差異(圖3),綜上篩選得到3個樞紐基因:VCL、RND3、RRAS。利用The Human Protein Atlas數(shù)據(jù)庫進一步驗證,結果顯示VCL、RND3、RRAS在前列腺癌組織中蛋白翻譯水平較正常組織均降低(圖4)。通過繪制ROC曲線顯示各樞紐基因AUC值均大于0.7(P<0.001,圖5),表明各樞紐基因均能夠區(qū)分前列腺癌及正常前列腺。
圖2差異表達基因GO功能富集分析和KEGG通路分析
A:GO功能富集分析;B:KEGG通路分析。
圖3 基于TCGA及GTEx數(shù)據(jù)的GEPIA中各備選樞紐基因的表達量(*P<0.01)
圖4 The Human Protein Atlas數(shù)據(jù)庫中各樞紐基因蛋白翻譯水平
圖5 基于TCGA數(shù)據(jù)各備選樞紐基因ROC曲線
本研究利用生物信息學對基因芯片數(shù)據(jù)集GSE55945進行分析,共篩選出差異表達基因共462個,其中上調基因114個,下調基因348個。通過蛋白互作網絡篩選出6個備選樞紐基因,使用GEPIA 數(shù)據(jù)庫進一步驗證篩選得到3個樞紐基因:VCL、RND3、RRAS。另外進一步使用The Human Protein Atlas數(shù)據(jù)庫驗證顯示各樞紐基因在前列腺癌組織中蛋白翻譯水平較正常組織均降低;繪制ROC曲線驗證其診斷效能顯示各樞紐基因均能夠區(qū)分前列腺癌及正常組織(AUC>0.7,P<0.001)。
VCL,主要編碼粘著斑蛋白,參與細胞骨架的形成及粘著斑的構成并聯(lián)系細胞與細胞外基質,在細胞粘附、生長增殖、凋亡、腫瘤的發(fā)生及侵襲中有著重要作用[11]。LI 等[12]研究發(fā)現(xiàn):①結直腸腫瘤細胞系及轉移組織中VCL的表達均處于明顯下調狀態(tài);②過表達VCL能夠抑制腫瘤的侵襲與轉移;③VCL的低表達與結直腸腫瘤的預后相關。朱等[13]通過免疫組化證實VCL在前列腺癌組織中是低表達的,但有趣的是在前列腺癌轉移組織中VCL的表達明顯高于原位前列腺癌組織。另外KAWAKAMI等[14]通過研究發(fā)現(xiàn)與未出現(xiàn)紫杉醇耐藥的PC-3細胞相比,VCL在紫杉醇耐藥的PC-3細胞系中的表達量出現(xiàn)明顯上調,認為VCL的表達量能夠作為晚期前列腺癌進展的一個指標。綜上,VCL表達量在前列腺癌不同階段可能有所不同,VCL有成為前列腺癌診斷、預后判斷指標的可能,但需要大量的研究去驗證。RND3編碼的蛋白屬于小G蛋白的一種,在細胞生長、細胞粘附等有重要作用。RND3表達的下調會促進肺癌、肝癌等多種腫瘤的侵襲、轉移[15-18]。BEKTIC等[19]發(fā)現(xiàn)RND3表達量在前列腺癌中明顯下降,過表達能夠誘導細胞周期停止及凋亡,但其中機制尚不清楚。RRAS編碼的蛋白同樣屬于小G蛋白的一種,主要參與血管生成、血管穩(wěn)態(tài)及再生、細胞粘附等生物過程。RRAS最初作為癌基因被認識,但近來有研究顯示RRAS的表達量在乳腺癌組織中呈低表達狀態(tài)且RRAS的過表達會抑制腫瘤細胞的生長、粘附及細胞周期[20],至于RRAS與前列腺癌的聯(lián)系目前尚無明確報道,仍有待進一步研究。
為了解差異基因可能功能,對篩選得到差異基因進行GO功能富集及KEGG通路富集分析。GO功能富集分析顯示這些差異表達基因主要參與肌肉系統(tǒng)、系統(tǒng)生物過程調節(jié)、循環(huán)系統(tǒng)等生物過程;KEGG通路富集分析顯示差異表達基因主要涉及粘著斑、蛋白聚糖、cAMP信號通路、鈣離子信號通路及cGMP-PKG信號通路等通路。其中VCL主要富集于細胞-基底粘附、細胞運動的負調節(jié)等生物過程以及粘著斑信號通路,VCL可能通過粘著斑通路來調節(jié)細胞的粘附及運動,這在前列腺癌的發(fā)生發(fā)展中可能有著重要作用。另外RRAS主要富集于細胞運動的負調節(jié)生物過程以及cAMP信號通路,RRAS可能通過cAMP信號通路實現(xiàn)對細胞運動的負調節(jié)來影響前列腺癌的發(fā)生發(fā)展。而RND3未被發(fā)現(xiàn)富集至得到的生物過程或通路中,其可能作用機制仍有待進一步研究。
總之,我們通過對基因芯片進行分析篩選出相關樞紐基因并對其進行生物信息學分析,可能為前列腺癌的進一步研究提供線索,并且這些基因作為潛在生物標志物將來可能成為前列腺癌早期診斷、治療及預后判斷的靶點。