劉馨璥,范苗苗,趙 奇,畢佳欣,宋 潔
(牡丹江醫(yī)學院基礎醫(yī)學院生物學教研室,黑龍江 牡丹江 157011)
乳腺癌是起源于乳腺導管或小葉的惡性腫瘤,在全球女性中發(fā)病率最高[1]。影響乳腺癌發(fā)病率的因素非常復雜,主要包括更年期,家族遺傳,飲食,肥胖和過量攝入外源雌激素。乳腺癌是一種高度異質(zhì)性疾病,細胞內(nèi)抑癌基因和原癌基因的失衡是引起腫瘤的主要原因。盡管許多基因與乳腺癌的發(fā)生和發(fā)展有關,但正確的乳腺癌早期精準診斷和預后評估仍然非常困難。隨著微陣列技術和生物信息學分析的迅猛發(fā)展,基因表達綜合(Gene Expression Omnibus,GEO)數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/)中豐富的信息成為了發(fā)現(xiàn)差異表達基因(Differentially Expressed Genes,DEG)及其通路的重要途徑[2]。因此,本項目從GEO數(shù)據(jù)庫下載并分析數(shù)據(jù)集,鑒定乳腺癌中的DEG,構建蛋白質(zhì)-蛋白質(zhì)相互作用(protein-protein interaction,PPI)網(wǎng)絡分析,從DEG中識別出TOP10樞紐基因,GO功能分析和KEGG通路分析樞紐基因的功能和通路。使用Human Protein Atlas、UALCAN以及Kaplan-Meier plotter數(shù)據(jù)庫來研究篩選基因在乳腺癌預后中的作用,并實驗驗證篩選基因在正常乳腺細胞和乳腺癌細胞中的差異表達,確定乳腺癌的生物標志物。
1.1 數(shù)據(jù)采集通過GEO數(shù)據(jù)庫(http://www.ncbi.nlm.nih.gov/geo/)獲取3個乳腺癌的基因表達數(shù)據(jù)集,分別為GSE42568、GSE45827和GSE15852。GSE42568包含104例乳腺癌樣本和17例正常樣本。GSE45827包含了142例乳腺癌樣本和13例正常樣本。GSE15852包含了43例乳腺癌樣本和43例正常樣本。
1.2 篩選差異表達基因首先在NCBI中(https://www.ncbi.nlm.nih.gov/genome/)加載上述3個乳腺癌數(shù)據(jù)集,并通過GEO2R分析并下載上述3個乳腺癌數(shù)據(jù)集。隨后對差異基因進行篩選,篩選標準為|log2FC|>1且P<0.05。
1.3 PPI網(wǎng)絡構建及篩選樞紐基因通過將差異表達基因列表導入STRING數(shù)據(jù)庫的方式,評估差異表達基因之間的相互作用關系,設定信度為0.15;隨后,將數(shù)據(jù)導入Cytoscape軟件,構建PPI網(wǎng)絡,最終使用CytoHubba模塊計算網(wǎng)絡中每一個基因的最大團中心性分數(shù),根據(jù)得分記前10的基因作為樞紐基因[8-10]。
1.4 腫瘤樣本差異表達基因的功能通過DAVID進行GO和KEGG分析。將P<0.05作為篩選標準。
1.5 樞紐基因的驗證通過UALCAN(http://ualcan.path.uab.edu)和HPA(https://www.proteinatlas.org)數(shù)據(jù)庫分析mRNA和蛋白表達水平,Kaplan-Meier plotter數(shù)據(jù)庫對其進行生存曲線分析。
1.6 細胞系RNA的提取及實時熒光定量PCR檢測4種細胞系:人乳腺癌細胞MCF-7、MDA-MB-231、SKBR3和人正常乳腺上皮細胞MCF-10A(購自武漢普利萊)。RPMI-1640培養(yǎng)基購自美國Gibco BRL公司;胎牛血清購自美國Gibco BRL公司;雙抗購自上海碧云天生物技術有限公司。培養(yǎng)液:血清:雙抗比例為100∶10∶1,每T25培養(yǎng)瓶中加入5 mL培養(yǎng)液進行細胞培養(yǎng),待細胞生長達到80%左右時,1 mL胰酶37 ℃消化3 min,加入培養(yǎng)液終止消化獲取細胞進行總RNA的提取。TRizol試劑盒提取總RNA(Invitrogen公司),以3.5 μg RNA為模板, M-MLV Reverse Transcription Kit試劑盒(TaKaRa公司)配制反轉(zhuǎn)錄反應液,進行反轉(zhuǎn)錄。實時熒光定量PCR:50 μL體系,每份樣品做3個復孔,取平均值;以β-actin為內(nèi)參,內(nèi)參引物序列為β-actin F:5′-TGACGTGGACATCCGCAAAG-3′,β-actin R:5′-CTGGAAGGTGGACAGCGAGG-3′;HMMR引物序列為HMMR F:5′-GGA GTC TTG CTC TGT GCT CTG TTG-3′,HMMR R:5′-GAG GCA GGA GAA TCG CTT GAA CC-3′,mRNA的表達水平以2-ΔΔCt表示,并進行乳腺癌細胞系和正常乳腺細胞系基因表達差異性分析。
1.7 統(tǒng)計學分析數(shù)據(jù)分析采用SPSS 18.0統(tǒng)計軟件分析。計量資料以“均數(shù)±標準差”表示,用t檢驗分析,P<0.05為差異有統(tǒng)計學意義。
2.1 篩選差異表達基因通過TBtools繪制火山圖確定上、下調(diào)差異表達基因,設定|log2FC|>1且P<0.05為篩選條件。結(jié)果顯示,GSE15852、GSE42568和GSE45827分別得到差異表達基因377個、5358個、6344個;其中GSE15852上調(diào)基因為244個,下調(diào)基因為133個;GSE42568中上調(diào)基因為805個,下調(diào)基因為2553個;GSE45827中上調(diào)基因為1677個,下調(diào)基因為4667個(見圖1A~圖C)。然后利用聯(lián)川生物云平臺(https://www.omicstudio.cn/tool?order=complex)繪制venn圖,篩選得到了217個共同差異基因(見圖1D)。
圖1 3個乳腺癌數(shù)據(jù)集差異基因表達火山圖及Venn圖
2.2 PPI 網(wǎng)絡構建及乳腺癌中樞紐基因的鑒定將差異表達基因列表上傳至STRING(信度0.4)判斷相互作用是否有意義的標準,構建了PPI網(wǎng)絡(圖2)。使用Cytoscape中的插件Cytohubba,通過MCC法對其差異表達基因進行評分,其中評分前10的基因為CDK1、TOP2A、AURKA、RRM2、MCM4、PRC1、HMMR、SMC4、RAD51AP1、GINS2(圖3)。并對10個關鍵基因進行富集分析。
圖2 差異表達基因的 PPI 網(wǎng)絡
圖3 通過MCC法得到的10個樞紐基因及其相互作用圖
2.3 乳腺癌中樞紐基因的功能分析使用DAVID分析了評分TOP10的樞紐基因在乳腺癌中潛在的功能和相關機制。KEGG路徑分析表明,這10個關鍵基因參與了p53信號通路(圖4A)。10個關鍵基因的GO主要包括分子功能(Molecular Function,MF),細胞成分(Cellular Components,CC)和生物過程(Biological Processes,BP)。GO分析表明,TOP10的樞紐基因的MF主要為"蛋白質(zhì)結(jié)合”(圖4B);CC為“核原生質(zhì)”“紡錘體微管”“細胞核”“細胞中間體”(圖4C);主要參與的BP為“DNA復制”“有絲分裂細胞周期的G1/S轉(zhuǎn)變”“有絲分裂細胞周期的G2/M轉(zhuǎn)變”“DNA解旋參與DNA復制”(圖D)。細胞周期內(nèi)有2個重要的階段:G1期到S期和G2期到M期,這2個過渡期正處于活躍而復雜的分子水平變化期,信號轉(zhuǎn)導途徑相關的調(diào)節(jié)基因可以調(diào)控周期中細胞的增殖、分裂與分化。因此,與有絲分裂細胞周期的G2/M轉(zhuǎn)變顯著相關CDK1,AURKA,和HMMR特別值得關注。在乳腺癌中,關于CDK1和AURKA的研究有許多,但是關于HMMR的卻很少,因此我們隨后專注對乳腺癌中HMMR的研究。
圖4 TOP10樞紐基因 GO 功能分析和 KEGG 通路分析
2.4 乳腺癌中HMMR的差異性表達及生存分析為了研究HMMR在乳腺癌患者中的預后和治療價值,通過UALCAN(http://ualcan.path.uab.edu)和HPA(https://www.proteinatlas.org)數(shù)據(jù)庫分析了mRNA和蛋白表達水平,Kaplan-Meier plotter數(shù)據(jù)庫對其進行生存分析。通過UALCAN檢測乳腺癌中HMMR的mRNA表達水平,結(jié)果顯示,與正常樣品相比,乳腺癌組織中HMMR mRNA表達水平顯著上調(diào)(圖5A),并且HMMR的mRNA表達與患者的個體癌癥分期顯著相關,與第一期相比,處于癌癥第二期和第三期的患者傾向于較高的HMMR mRNA表達(圖5B)。進一步通過HPA數(shù)據(jù)庫分析乳腺癌癌中HMMR的蛋白表達水平,結(jié)果顯示,與正常樣品相比,乳腺癌組織中HMMR蛋白表達水平顯著上調(diào)(圖5C)。Kaplan-Meier plotter數(shù)據(jù)庫結(jié)果顯示,HMMR的高表達與患者的總生存時間負相關(圖5D)。
圖5 HPA,UALCAN和Kaplan-Meier plotter數(shù)據(jù)庫中對HMMR進行分析
2.5 HMMR在乳腺癌細胞系中的表達分別提取人乳腺癌細胞MCF-7、MDA-MB-231、SKBR3和人正常乳腺上皮細胞MCF-10A四種細胞系的總RNA,進行反轉(zhuǎn)錄,QRT-PCR檢測HMMR在乳腺癌細胞中的表達水平。如圖6結(jié)果所示,與正常乳腺細胞MCF-10A相比,HMMR mRNA在乳腺癌細胞MCF-7、MDA-MB-231、SKBR3的表達水平明顯上調(diào)(P<0.05)。
圖6 QRT-PCR檢測HMMR在人乳腺癌細胞和正常乳腺細胞中表達結(jié)果圖
在本項研究中,提取三個乳腺癌數(shù)據(jù)集數(shù)據(jù)。然后利用聯(lián)川生物繪制venn圖,篩選得到了217個的差異表達基因。使用STRING數(shù)據(jù)庫構建PPI網(wǎng)絡,并使用Cytoscape識別關鍵基因。從PPI網(wǎng)絡的模塊中篩選了前10個關鍵基因,分別為CDK1、TOP2A、AURKA、RRM2、MCM4、PRC1、HMMR、SMC4、RAD51AP1、GINS2。隨后DAVID使用分析了評分TOP10的樞紐基因在乳腺癌中潛在的功能和相關機制。結(jié)果顯示,CDK1,AURKA,和HMMR與有絲分裂細胞周期的G2/M轉(zhuǎn)變顯著相關。細胞周期內(nèi)有2個重要的階段:G1期到S期和G2期到M期,這2個過渡期正處于活躍而復雜的分子水平變化期,信號轉(zhuǎn)導途徑相關的調(diào)節(jié)基因可以調(diào)控周期中細胞的增殖、分裂與分化。因此,與有絲分裂細胞周期的G2/M轉(zhuǎn)變顯著相關CDK1,AURKA,和HMMR特別值得關注。在乳腺癌中,關于CDK1和AURKA的研究有許多[3-4],但是關于HMMR的卻很少,因此我們隨后專注對乳腺癌中HMMR的分析。
HMMR作為以透明質(zhì)酸為底物,與微管蛋白互相作用的細胞外蛋白,調(diào)節(jié)細胞運動,細胞分裂,血管的生成等[5]。文獻報道,HMMR的表達對腫瘤的發(fā)生、發(fā)展及預后關系并不一致,如MELE等人[6]研究發(fā)現(xiàn),HMMR的過表達,促進結(jié)直腸癌細胞的生長,侵襲。而在肺腺癌細胞中的HMMR的表達水平的下調(diào),抑制肺腺癌細胞的遷移能力[7],另外,也有一些實驗研究表明,卵巢癌的進展與HMMR的過表達也存在相關性[8]。HMMR可以通過GFβ/Smad2影響胃癌患者化療的敏感性[9]。我們通過HPA,UALCAN和Kaplan-Meier plotter數(shù)據(jù)庫來研究HMMR在乳腺癌中的表達以及生存分析。結(jié)果顯示,HMMR在乳腺癌中表達上調(diào),并且與臨床分期以及生存率負相關。同時,細胞實驗研究結(jié)果也顯示,與正常乳腺細胞MCF-10A相比,HMMR 在MCF-7、MDA-MB-231、SKBR3細胞系的mRNA表達水平明顯上調(diào)。此外,我們利用蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡來研究與HMMR相作蛋白,通過KEGG和GO對HMMR進行通路和生物學分析,結(jié)果顯示,HMMR參與微管細胞骨架構成,涉及細胞周期調(diào)控,這可能是HMMR參與調(diào)控腫瘤進展的機制。
綜上所述,生物信息學和細胞實驗鑒定了與細胞周期相關的HMMR在乳腺癌中過表達,HMMR的過表達對于乳腺癌患者的病程產(chǎn)生影響,而且伴較差的生存期。HMMR可能成為乳腺癌的預后生物標志物和潛在治療靶點,值得進一步探討作用的分子機制。