孔鈺琳,榮勝忠,王慧單,高 夢,李曉霞
(牡丹江醫(yī)學(xué)院流行病與統(tǒng)計學(xué)教研室,黑龍江 牡丹江 157011)
膀胱癌是泌尿系統(tǒng)中最常見的惡性腫瘤之一。據(jù)WHO全球腫瘤流行病統(tǒng)計數(shù)據(jù)(GLOBOCAN 2020)顯示,2020年世界范圍內(nèi)新發(fā)膀胱癌約有573278例,死亡約212536例,在男性人群中,膀胱癌的發(fā)病率高居第6位且居癌癥相關(guān)性死亡原因的第9位[1]。目前,膀胱癌的治療以手術(shù)為主,但其復(fù)發(fā)率和轉(zhuǎn)移率較高,嚴重影響了患者的預(yù)后[2]。因此,探索通過研究膀胱癌在分子水平的發(fā)生發(fā)展機制,篩選具備診斷和預(yù)后潛力的分子標志物、研發(fā)新型基因藥物及改善患者預(yù)后至關(guān)重要。
本研究通過從GEO數(shù)據(jù)庫獲取膀胱癌基因芯片數(shù)據(jù)進行分析,篩選出差異表達基因(differentially expressed genes,DEGs),并利用基因本體論(gene ontology,GO)富集分析注釋基因功能,采用京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路分析對DEGs的信號通路進行富集,然后構(gòu)建蛋白互作網(wǎng)絡(luò)(protein-protein interaction network,PPI network),同時結(jié)合Kaplan-Meier plotter數(shù)據(jù)庫對關(guān)鍵基因的生存預(yù)后情況進行分析,以期發(fā)現(xiàn)膀胱癌潛在的治療靶點。
1.1 基因芯片數(shù)據(jù)的獲取進入GEO數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/geo/),在搜索框內(nèi)輸入“Bladder Cancer”進行檢索,納入標準為:(1)樣品來自人膀胱癌組織標本;(2)研究對象包含膀胱癌患者和正常對照;(3)研究類型為“Expression profiling by array”。從GEO數(shù)據(jù)庫中篩選下載數(shù)據(jù)集(GSE7476,GSE37815和GSE13507),其中GSE7476基于GPL570平臺,GSE37815與GSE13507基于GPL6102平臺。GSE7476包括9例癌組織,3例正常組織;GSE37815包括18例癌組織,6例正常組織;GSE13507包括188例癌組織,68例正常組織。
1.2 方法
1.2.1 數(shù)據(jù)處理及差異基因的篩選 利用GEO數(shù)據(jù)庫自帶的在線分析工具GEO2R(https://www.ncbi.nlm.nih.gov/geo/geo2r/)處理原始數(shù)據(jù),將數(shù)據(jù)分為膀胱癌組和正常組進行分析。以|log FC(foldchange)|≥1.5且校正后P值<0.05為篩選標準分別對三組數(shù)據(jù)集進行DEGs篩選。log FC≥1.5的基因作為上調(diào)差異基因(UDEGs),log FC≤-1.5的基因作為下調(diào)差異基因(DDEGs)。篩選出各數(shù)據(jù)集中DEGs后,通過Venny在線工具(http://bioinfogp.cnb.csic.es/tools/venny/)確定GSE7476、GSE37815和GSE13507三個數(shù)據(jù)集的相交部分。
1.2.2 DEGs的GO富集分析與KEGG通路分析 通過DAVID在線分析工具(The Database for Annotation,Visualization and Integrated Discovery,https://david.ncifcrf.gov/,version 6.8)對篩選出的DEGs 進行GO和KEGG分析。按照P<0.05為截取標準篩選GO分析和 KEGG通路分析結(jié)果。
1.2.3 PPI網(wǎng)絡(luò)的構(gòu)建和關(guān)鍵基因的篩選 通過String(Search Tool for the Retrieval of Interacting Genes,https://string-db.org/,version 11.0)在線工具構(gòu)建DEGs的PPI網(wǎng)絡(luò)。將PPI網(wǎng)絡(luò)導(dǎo)入Cytoscape(version 3.7.1)軟件進行可視化,利用Cytohubba插件,基于四種拓撲算法:最大聚集中心(MCC)、最大鄰域組件(MNC)、度(Degree)、邊緣滲透組件(EPC)分別篩選出PPI網(wǎng)絡(luò)中前十個重要節(jié)點,最后將上述四種算法所獲得的結(jié)果取交集,將重疊的差異表達基因作為關(guān)鍵樞紐基因。
1.2.4 關(guān)鍵基因的預(yù)后分析 通過Kaplan-Meier plotter(http://kmplot.com/analysis/)數(shù)據(jù)庫進行評估關(guān)鍵基因的預(yù)后價值。每個基因根據(jù) mRNA表達值自動將癌癥患者分為高表達和低表達兩組進行比較,生存分析采用Log-rank檢驗,以P<0.05為差異有統(tǒng)計學(xué)意義。
2.1 DEGs的篩選對GSE7476、GSE37815和GSE13507三個數(shù)據(jù)集中的DEGs取交集,最終篩選出101個DEGs,其中95個UDEGs(表1),6個DDEGs(表2)。不同數(shù)據(jù)集的DEGs篩選結(jié)果的火山圖見圖1。
圖1 膀胱癌中的差異表達基因
表1 膀胱癌上調(diào)表達基因
表2 膀胱癌下調(diào)表達基因
2.2 DEGs的GO分析和KEGG信號通路分析GO富集分析,膀胱癌DEGs在細胞學(xué)過程(biological processes,BP)方面主要是參與肌肉收縮、細胞黏附、肌絲滑動等生物過程(圖2A)。在細胞成分(cell component,CC)方面,主要分布于細胞外區(qū)、蛋白質(zhì)細胞外基質(zhì)、細胞外基質(zhì)、黏著斑等組織(圖2B)。分子功能(molecular function,MF)方面,DEGs主要有肌肉結(jié)構(gòu)成分、細胞骨架蛋白綁定、肌動蛋白結(jié)合、鈣調(diào)蛋白的結(jié)合等分子功能(圖2C)。DEGs的KEGG信號通路分析顯示,DEGs在心肌收縮、肥厚型心肌病、擴張型心肌病、黏著斑等通路中富集表達(圖2D)。
圖2 DEGs的GO分析和KEGG通路分析
2.3 PPI網(wǎng)絡(luò)構(gòu)建及關(guān)鍵基因篩選為了進一步確定篩選出的101個DEGs之間的關(guān)系,通過STRING11.0進行分析。PPI網(wǎng)絡(luò)共涉及節(jié)點101個,邊數(shù)157個,平均節(jié)點度為3.11,蛋白質(zhì)相互作用富集P值小于1.0e-16。將PPI網(wǎng)絡(luò)導(dǎo)入Cytoscape軟件進行可視化,標注PPI網(wǎng)絡(luò)的上調(diào)基因(橙色)及下調(diào)基因(綠色)(圖3),并利用MCODE插件篩選PPI網(wǎng)絡(luò)中的關(guān)鍵功能模塊,包括10個節(jié)點和45條邊(圖4)。利用Cytohubba插件,根據(jù)MCC,MNC,Degree和EPC這四種拓撲算法篩選出排名前十的關(guān)鍵基因(表3和圖5),確定了9個重疊差異表達基因為關(guān)鍵基因,即TPM1、ACTC1、ACTA2、TPM2、TAGLN、CALD1、LMOD1、MYH11、CNN1。
圖3 膀胱癌差異表達基因編碼蛋白作用網(wǎng)絡(luò)圖
圖4 PPI網(wǎng)絡(luò)中的關(guān)鍵模塊
表3 基于Cytohubba插件篩選差異表達關(guān)鍵基因
圖5 基于Cytohubba插件篩選差異表達關(guān)鍵基因的韋恩圖
2.4 關(guān)鍵基因的預(yù)后分析利用Kaplan-Meier plotter數(shù)據(jù)庫進行預(yù)后分析,對于每個基因根據(jù)mRNA表達值自動將癌癥患者分為高表達和低表達兩組進行比較,P<0.05表示對膀胱癌患者有顯著影響。在Kaplan-Meier plotter數(shù)據(jù)庫中共有405例膀胱癌患者用于分析總生存率,分析結(jié)果顯示9個關(guān)鍵基因(TPM1、ACTC1、ACTA2、TPM2、TAGLN、CALD1、LMOD1、MYH11、CNN1)的上調(diào)差異表達均顯著影響膀胱癌患者的總生存率,見圖6。
圖6 膀胱癌關(guān)鍵基因的預(yù)后分析
膀胱癌是我國男性泌尿生殖系統(tǒng)最常見的惡性腫瘤,其中根據(jù)是否侵犯逼尿肌分為肌層浸潤性膀胱癌和非肌層浸潤性膀胱癌,盡管有經(jīng)尿道膀胱腫瘤切除術(shù)、放療、化療和BCG免疫療法等多種治療手段,但膀胱癌的生存率在近三十年里都未有改善[2]。膀胱癌作為一種異質(zhì)性疾病,已造成巨大的社會負擔(dān)。因此,膀胱癌的早期篩查以及早期診斷顯得尤為重要,探索有效的腫瘤標志和治療靶點對膀胱癌的診療十分必要。
本研究從GSE7476、GSE37815和GSE13507三個數(shù)據(jù)集中共篩選出101個DEGs,基于生物信息學(xué)對膀胱癌DEGs的功能和信號通路進行分析,并通過構(gòu)建PPI網(wǎng)絡(luò)以及利用Cytoscape軟件獲得與膀胱癌密切相關(guān)的9個關(guān)鍵基因,Kaplan-Meier plotter數(shù)據(jù)庫探究關(guān)鍵基因與膀胱癌預(yù)后之間的關(guān)系,發(fā)現(xiàn)9個關(guān)鍵基因皆與病人的預(yù)后顯著相關(guān)?;谝陨辖Y(jié)果,推測這9個關(guān)鍵基因可能作為腫瘤基因參與了膀胱癌的發(fā)生發(fā)展。
本研究的KEGG信號通路分析表明,DEGs在心肌收縮、肥厚型心肌病、擴張型心肌病、黏著斑等通路中富集表達。研究發(fā)現(xiàn)ACTC1、TPM1的突變與肥厚型心肌病的發(fā)展密切相關(guān)[3-4],主要因為ACTC1、ACTA2、TPM1、TPM2、TAGLN都屬于肌動蛋白家族,肌動蛋白是一類廣泛分布于生物界的高度保守的蛋白質(zhì),對細胞增殖、細胞遷移、細胞凋亡具有調(diào)控作用[5],且肌動蛋白裝配動力學(xué)介導(dǎo)的細胞突起是細胞侵襲的關(guān)鍵步驟[6]。
TAGLN是一種肌動蛋白結(jié)合蛋白和腫瘤抑制因子[7],此前已被報道參與了膀胱癌的發(fā)生發(fā)展過程,TAGLN在體外能抑制膀胱癌細胞的增殖和侵襲能力,在體內(nèi)能抑制腫瘤發(fā)生[8-9]。
而ACTA2、ACTC1、TPM1、TPM2、CALD1、LMOD1、MYH11和CNN1雖在膀胱癌中尚未見報道,但它們的致癌作用在部分腫瘤中已被證實。ACTC1在膠質(zhì)母細胞瘤中表達顯著上調(diào),可抑制癌細胞的遷移[10]。并且ACTC1與膠質(zhì)母細胞瘤的預(yù)后相關(guān),可作為神經(jīng)膠質(zhì)瘤中的一種新型的預(yù)后標志物[11]。CALD1作為一種細胞骨架蛋白[12],它的錯配導(dǎo)致的1-CAD表達上調(diào)會引發(fā)膠質(zhì)瘤新生血管功能異常[13]。另外研究發(fā)現(xiàn)LMOD1可作為一種新的胃癌生物標志物和治療靶點,通過調(diào)控FAK-Akt/mTOR通路誘導(dǎo)EMT[14]。
CNN1在乳腺癌中起腫瘤抑制作用,作為miR-106b-5p的下游靶標,其表達水平在乳腺癌組織和細胞系中下調(diào),與miR-106b-5p的表達呈負相關(guān)。miR-106b-5p可以通過靶向CNN1和Rho / ROCK1通路促進乳腺癌細胞癌變[15]。
綜上所述,本研究分析了TPM1,ACTC1,ACTA2,TPM2,TAGLN,CALD1,LMOD1,MYH11,CNN1這9個基因的上調(diào)差異表達均顯著影響膀胱癌患者的總生存率。因此,本研究將為今后膀胱癌發(fā)生發(fā)展以及預(yù)后的分子機制研究提供初步的理論依據(jù)。但本研究尚有局限性,仍需要結(jié)合細胞實驗和臨床樣本來進一步驗證這些關(guān)鍵基因在體內(nèi)外的作用機制。