譚玉靚 唐 標(biāo) (湖南中醫(yī)藥大學(xué)醫(yī)學(xué)院,長沙410208)
乳腺癌是全球女性發(fā)病率最高的惡性腫瘤,對女性健康具有極大的威脅,我國每年死于乳腺癌的人數(shù)超過120 萬,占全球乳腺癌死亡病例的9.6%,對國民經(jīng)濟(jì)造成了嚴(yán)重的負(fù)擔(dān)[1-2]。三陰性乳腺癌(triple negative breast cancer,TNBC)是一種特殊的乳腺癌亞型,占浸潤性乳腺癌的10%~20%,以雌激素受體(estrogen receptor,ER)、孕激素受體(proges?tin receptor,PR)和人表皮生長因子受體(human epidermal growth factor 2,HER-2)表達(dá)均為陰性為特點(diǎn)[3]。相比其他類型的乳腺癌,TNBC 的侵襲性更高,易早期復(fù)發(fā),預(yù)后較差[4]。TNBC 的病理過程非常復(fù)雜,且其對現(xiàn)有分子靶向治療反應(yīng)較差,因此探討TNBC 的分子機(jī)制,尋找新的生物標(biāo)志對于疾病的早期診斷和治療非常重要[5-6]。目前,利用生物信息學(xué)對疾病進(jìn)行分析成為探討疾病機(jī)制的重要手段[7]?;谏镄畔W(xué)理論,能從基因、通路以及蛋白質(zhì)等多種層面全面了解疾病的發(fā)病機(jī)制,為疾病的診斷和治療提供方向[8]。本研究通過GEO數(shù)據(jù)庫獲得與TNBC 相關(guān)的差異表達(dá)基因(differentially expressed genes,DEGs),對 DEGs 進(jìn)行富集分析和網(wǎng)絡(luò)分析,得到TNBC 的致病關(guān)鍵基因,并進(jìn)一步對關(guān)鍵基因進(jìn)行生存分析。旨在通過生物信息學(xué)方法,分析TNBC 發(fā)病的分子機(jī)制,尋找TNBC 的關(guān)鍵基因,為TNBC的診治與評估提供參考信息。
1.1 材料 GEO 數(shù)據(jù)庫(https:/ /www. ncbi. nlm.nih. gov/gds/)用于獲取TNBC 芯片信息;GEO2R(https:/ /www. ncbi. nlm. nih. gov/geo/geo2r/)用于分 析 芯 片 ,確 定 DEGs;David 在 線 分 析 平 臺[9](https:/ /david. ncifcrf. gov/)用于進(jìn)行基因本體(gene ontology,GO)功能富集分析;KOBAS v3.0 在線分 析平 臺[10](http:/ /kobas. cbi. pku. edu. cn/ko?bas3)用于進(jìn)行京都基因與基因組百科全書(kyoto encyclopedia of genes and genomes,KEGG)通路富集分 析 ;String[11](https:/ /string-db. org/cgi/input. pl)和Cytoscape[12](https:/ /cytoscape.org/)用于構(gòu)建蛋白質(zhì)相互作用(protein-protein interaction,PPI)網(wǎng)絡(luò),篩選關(guān)鍵基因;GEPIA 在線平臺[13](http:/ /ge?pia. cancer-pku. cn/index. html)用于分析關(guān)鍵基因的差異表達(dá);Kaplan-Meier Plotter 在線分析工具(http:/ /kmplot.com/private/)用于對關(guān)鍵基因進(jìn)行預(yù)后分析;Omicshare 在線分析平臺(https:/ /www.omicshare.com)用于繪制可視化圖形。
1.2 方法
1.2.1 獲取TNBC 芯片 通過GEO 數(shù)據(jù)庫的條件檢索:輸入“triple negative breast cancer”,將篩選條件限定為“Homo Sapiens”,確定適合本研究的芯片。芯片選用標(biāo)準(zhǔn)為:①測序來源于臨床TNBC 患者的細(xì)胞,排除單純實(shí)驗(yàn)細(xì)胞或動物來源;②目標(biāo)芯片包含對照;③僅為mRNA 芯片;④芯片平臺包括基因類型和基因ID信息。
1.2.2 確定DEGs 利用GEO2R 分析1.2.1 所獲得的芯片,下載該芯片的所有分析數(shù)據(jù)、matrix 矩陣文件以及對應(yīng)的平臺信息,以便后續(xù)操作。根據(jù)篩選條件:P<0.01 且|log2FC|>0.8,確定與 TNBC 發(fā)病相關(guān)的DEGs。然后,將matrix 矩陣文件中的芯片信息,上傳至Omicshare 在線分析平臺,將其轉(zhuǎn)化為熱圖,分析該芯片基因的表達(dá)差異性。
1.2.3 GO 功能富集分析 在David 在線分析平臺的Function Annotion 模塊,輸入DEGs 的基因類型,進(jìn)行GO分析,對這些DEGs介導(dǎo)的生物過程(biolog?ical process,BP)、分子功能(molecular function,MF)和細(xì)胞組分(cellular component,CC)進(jìn)行相應(yīng)的注釋。基于篩選條件:P<0.05 且錯誤發(fā)現(xiàn)率(false discovery rate,F(xiàn)DR)>2,獲得差異性顯著的GO條目。
GO 是基因本體論聯(lián)合會建立的一個(gè)數(shù)據(jù)庫,能對多種物種的基因和蛋白功能進(jìn)行限定和描述,對一個(gè)基因的功能進(jìn)行多方面的注釋(包括MF、BP和CC)。且隨著研究不斷深入,GO 能及時(shí)更新語義詞匯標(biāo)準(zhǔn),滿足用戶需求。
1.2.4 KEGG 通路富集分析 利用KOBAS v3.0 在線分析平臺,對篩選獲得的DEGs進(jìn)行KEGG通路富集分析。將P<0.05 且FDR>2 作為篩選的閾值,獲得差異基因介導(dǎo)的主要通路。
1.2.5 構(gòu)建PPI網(wǎng)絡(luò) 在String 數(shù)據(jù)庫輸入所獲得的DEGs,構(gòu)建PPI 網(wǎng)絡(luò),并下載tsv 格式的文本。利用Cytoscape 分析在String 數(shù)據(jù)庫獲得的PPI 信息,利用Cytohubba 軟件,根據(jù)中心性高低篩選得到關(guān)鍵致病基因。
1.2.6 關(guān)鍵基因的表達(dá)分析 為分析關(guān)鍵基因在正常組織與癌變組織中的表達(dá)情況,在GEPIA 在線平臺依次輸入5 個(gè)關(guān)鍵基因進(jìn)行分析。GEPIA 將對目標(biāo)樣本的| log2FC | 以及P值進(jìn)行計(jì)算,繪制關(guān)鍵基因在正常組織和癌變組織差異表達(dá)的箱型圖。為進(jìn)一步探索關(guān)鍵基因在TNBC 不同病理階段的表達(dá)情況,以病理分期為變量計(jì)算關(guān)鍵基因的差異表達(dá)。GEPIA 將對此進(jìn)行單因素方差分析(one-way ANOVA),繪制關(guān)鍵基因在不同病理階段表達(dá)的小提琴圖。
GEPIA 數(shù)據(jù)庫基于UCSC Xena 計(jì)劃,能根據(jù)用戶需求,針對檢索基因進(jìn)行差異表達(dá)分析、生存分析和降維分析,并繪制可視化圖形。
1.2.7 關(guān)鍵基因的生存分析 在Kaplan Meierplotter 網(wǎng)頁的“breast cancer”版塊,選擇 ER、PR 和HER-2均為陰性的樣本,輸入5個(gè)關(guān)鍵致病基因,進(jìn)行生存分析。Kaplan Meier-plotter 能通過乘積極限法,將各時(shí)點(diǎn)生存概率累積,根據(jù)用戶的需求繪制目標(biāo)基因的生存曲線圖。
2.1 基因芯片與差異表達(dá)基因信息 根據(jù)1.2.1的芯片選入標(biāo)準(zhǔn),篩選出符合要求的mRNA 微矩陣數(shù)據(jù)集合,即 GSE133608 芯片[10]。GSE133608 屬于GPL10558 平臺,取自 TNBC 患者的 MDA-MB-231 細(xì)胞系,樣本數(shù)量為8。根據(jù)篩選條件獲得差異表達(dá)基因共61 個(gè)(其中基因SPP1 和NECTIN3 在不同探針下都具有顯著差異性),如表1所示。將芯片信息上傳至OmicShare進(jìn)行聚類分析,得到如圖1所示的熱圖。其橫軸為基因ID,縱軸為樣本的組別名稱,紅色表明基因高表達(dá),綠色表明基因低表達(dá),顏色不同表明基因表達(dá)量不同。熱圖顯示,TNBC 不同基因之間的表達(dá)量存在差異。
表1 MDA-MB-231乳腺癌細(xì)胞差異表達(dá)基因的具體信息Tab.1 Details of differentially expressed genes in MDAMB-231 cell
圖1 GSE133608芯片的熱圖Fig.1 Heatmap of GSE133608 chip
2.2 差異表達(dá)基因的GO 功能富集分析 根據(jù)篩選條件:P<0.05 且 FDR>2,得到 11 條具有顯著性的GO 條目,如表 2 所示。其中,3 條 MF 條目,2 條 CC條目,6 條BP 條目。GO 功能富集分析結(jié)果顯示,DEGs 主要在神經(jīng)元連接處和細(xì)胞外間隙發(fā)揮功能,介導(dǎo)的分子功能主要是蛋白質(zhì)相互作用以及異源二聚體活動,參與的生物過程主要有正向調(diào)控血管內(nèi)皮生長因子、胚胎植入、細(xì)胞遷移、G1/S期轉(zhuǎn)換以及細(xì)胞應(yīng)答。
表2 MDA-MB-231細(xì)胞差異表達(dá)基因的GO功能富集分析Tab.2 GO analysis of differentially expressed genes in MDA-MB-231 cell
2.3 差異表達(dá)基因的KEGG 通路富集分析 通過KOBAS v3.0 在線分析平臺對61 個(gè)DEGs 進(jìn)行KEGG 通路富集分析,得到107 條相關(guān)的通路?;赑<0.05篩選得到顯著性突出的45條通路,如表3所示。利用Omicshare 工具,處理KEGG 通路富集分析結(jié)果,得到KEGG 通路富集分析差異性排名前20的可視化圖,如圖2 所示。結(jié)果表明,DEGs 介導(dǎo)的通路主要富集在:卵巢類固醇生成、催乳素生成、PI3K/Akt信號通路、癌癥通路、P53信號通路、PPAR信號通路、Toll 樣受體信號通路、TNF 信號通路、NF-kappa B信號通路以及NOD樣受體信號通路等。
表3 MDA-MB-231 細(xì)胞差異表達(dá)基因的KEGG 通路富集分析Tab.3 KEGG analysis of DEGs in MDA-MB-231 cell
圖2 排名前20的KEGG通路富集分析結(jié)果可視圖Fig.2 Visibility figure of top 20 KEGG pathway enrich?ment analysis
2.4 核心基因網(wǎng)絡(luò)分析 利用在線工具STRING v10 構(gòu)建 DEGs 的 PPI 網(wǎng)絡(luò),如圖 3 所示。選用 Cyto?scape 的 cytoHubba 軟件分析 PPI信息,確定 PPI網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn),得到5 個(gè)關(guān)鍵基因,分別是IL1B、CXCL8、FOS、PTGS2以及SPP1。
圖3 TNBC相關(guān)DEGs的蛋白質(zhì)相互作用網(wǎng)絡(luò)Fig.3 PPI network of DEGs in TNBC
2.5 關(guān)鍵基因的表達(dá)分析 利用GEPIA 數(shù)據(jù)庫,對5個(gè)關(guān)鍵基因進(jìn)行分析,得到關(guān)鍵基因的箱型圖。其中FOS 和SPP1 基因的箱型圖具有顯著統(tǒng)計(jì)學(xué)意義,如圖4 所示。結(jié)果顯示,在腫瘤組織中,F(xiàn)OS 表達(dá)下調(diào),SPP1 表達(dá)上調(diào)。進(jìn)一步分析,得到FOS 和SPP1 基因在TNBC 不同病理階段的表達(dá)情況,如圖5 所示。結(jié)果表明,F(xiàn)OS 在TNBC 的不同病理階段的表達(dá)具有差異,而SPP1無明顯差異。
圖4 FOS和SPP1在正常組織和腫瘤組織中的基因表達(dá)情況Fig.4 Expression level in normal and tumor tissue of FOS and SPP1
圖5 關(guān)鍵基因在不同病理階段的表達(dá)情況Fig.5 Expression level in various stages of key genes
2.6 關(guān)鍵基因的預(yù)后分析 利用Kaplan-Meier Plotter 在線分析工具,依次鍵入5 個(gè)關(guān)鍵基因,得到相應(yīng)的生存曲線圖。其中,F(xiàn)OS 基因和SPP1 基因的生存曲線圖具有臨床意義,如圖6 所示。結(jié)果顯示,SPP1 高表達(dá)的患者生存率低于SPP1 低表達(dá)患者;對于生存率相同的患者,SPP1 低表達(dá)患者的生存時(shí)間延長。相反地,生存曲線圖提示,F(xiàn)OS基因?qū)NBC患者具有保護(hù)作用,F(xiàn)OS高表達(dá)能在一定程度上延長患者的生存時(shí)間。
圖6 關(guān)鍵基因生存曲線圖Fig.6 Effects of key genes on TNBC patients survival
TNBC 作為乳腺癌最易復(fù)發(fā)的亞型,其發(fā)生發(fā)展是一個(gè)多因素、多基因以及多通路的病理過程。大量研究表明,炎癥浸潤、細(xì)胞周期、腫瘤血管生成甚至飲食等,都會在不同程度上影響TNBC 的發(fā)生和預(yù)后[14-17]。
本研究通過GEO 數(shù)據(jù)庫,獲得了TNBC 細(xì)胞系MDA-MB-231 的基因芯片信息,經(jīng)篩選得到61 個(gè)DEGs。然后,對DEGs 進(jìn)行GO 功能富集分析和KEGG 通路富集分析。為分析這些基因之間的相互作用,構(gòu)建PPI 網(wǎng)絡(luò),并分析得到與TNBC 病理過程密切相關(guān)的致病基因。進(jìn)一步考察關(guān)鍵基因在TN?BC 不同病理階段的差異表達(dá),以及與TNBC 患者生存率的關(guān)系。
GO 功能富集分析結(jié)果顯示,DEGs 介導(dǎo)的生物過程主要富集在正向調(diào)控VEGFs 的生成、細(xì)胞遷移、G1/S期轉(zhuǎn)換以及炎癥應(yīng)答。VEGFs生成又是腫瘤血管生成的必要條件,對腫瘤細(xì)胞的生長、增殖和遷移具有重要作用[14]。相關(guān)研究表明,促進(jìn)VEG?Fs生成可加快腫瘤的惡變進(jìn)程,而抑制VEGFs 生成可阻礙腫瘤的發(fā)生發(fā)展[18]。靶向藥物貝伐珠單抗和索拉菲尼類似物SC-60 都能在一定程度上抑制VEGFs 的生成,提高TNBC 患者的病理緩解率,從而減慢TNBC 的進(jìn)展[18-20]。惡性腫瘤細(xì)胞增殖失控與細(xì)胞周期紊亂密切相關(guān),其中DNA 合成前期(G1期)至DNA 合成期(S 期)的轉(zhuǎn)換尤為關(guān)鍵[16]。有研究表明,香豆雌酚能誘導(dǎo)MDA-MB-231 細(xì)胞停滯于G1/S 期,降低細(xì)胞活力,發(fā)揮抗癌作用[21]。以上結(jié)果表明,正向調(diào)控VEGFs 的生成和G1/S 期轉(zhuǎn)換可能在TNBC的發(fā)生發(fā)展中,發(fā)揮重要作用。
KEGG 通路富集分析結(jié)果顯示,DEGs 介導(dǎo)的通路主要有:PI3K/Akt 信號通路、P53 信號通路、炎癥相關(guān)因子信號通路、多種活性物質(zhì)的合成(催乳素、卵巢類固醇以及脂肪酸等)和細(xì)胞凋亡。p53 是各類癌癥中最常見的突變基因,在TNBC 中突變率較高,且可作為治療靶點(diǎn)[22]。有臨床研究表明,p53(+)TNBC患者比p53(?)TNBC患者對化療更敏感,化療后生存風(fēng)險(xiǎn)明顯降低[23]。乳腺細(xì)胞既是催乳素(PRL)的作用靶點(diǎn),也是PRL 的分泌細(xì)胞,而PRL與 TNBC 的發(fā)生發(fā)展相關(guān)[24]。在體外 TNBC 異體移植動物模型中發(fā)現(xiàn),PRL能促進(jìn)癌細(xì)胞分化,導(dǎo)致乳腺癌干細(xì)胞樣細(xì)胞(breast cancer stem-like cells,BCSC)耗竭,進(jìn)而限制腫瘤發(fā)生,發(fā)揮抗腫瘤作用[25]。炎癥相關(guān)因子是預(yù)測乳腺癌復(fù)發(fā)、進(jìn)展和生存的一種生物標(biāo)志物[26]。利用 qPCR 和 ELISA 在體外細(xì)胞實(shí)驗(yàn)中檢測到炎癥相關(guān)基因(CXCL1、IL-6、IL-8)及其相應(yīng)蛋白在TNBC 細(xì)胞中的表達(dá)上調(diào),而抑制炎癥蛋白的表達(dá),能有效抑制TNBC 細(xì)胞的增殖[27]。與其他乳腺癌亞型一樣,TNBC 細(xì)胞中存在PI3K/Akt 信號通路異常[28]。PI3K/Akt 信號軸與TNBC 多項(xiàng)生物活動失調(diào)相關(guān),包括細(xì)胞增殖、細(xì)胞代謝和基因組不穩(wěn)定性等,而抑制PI3K/Akt信號通路,能抑制TNBC 的發(fā)生發(fā)展[29]。國內(nèi)有學(xué)者發(fā)現(xiàn),漢防己甲素通過抑制PI3K/Ak/t mTOR 信號通路,能減少M(fèi)DA-MB-231 細(xì)胞的增殖,并誘導(dǎo)MDA-MB-231 細(xì)胞發(fā)生自噬,達(dá)到抗腫瘤作用[30]。以上研究表明,PI3K/Akt信號通路、P53信號通路和炎癥相關(guān)因子通路可能是介導(dǎo)TNBC病理的重要通路。
本研究結(jié)果顯示,IL1B、CXCL8、FOS、PTGS2 以及SPP1是TNBC 的關(guān)鍵基因。其中,F(xiàn)OS 和SPP1在TNBC 患者中與TNBC 的預(yù)后密切相關(guān),可能介導(dǎo)了腫瘤進(jìn)展的核心環(huán)節(jié)。FOS是細(xì)胞核磷酸化蛋白和JUN/AP-1 轉(zhuǎn)錄因子以非共價(jià)鍵緊密連接形成的復(fù)合物,在調(diào)節(jié)細(xì)胞發(fā)育方面具有重要作用[31]。FOS的活動狀態(tài)與TNBC 密切相關(guān),抑制FOS 的表達(dá)可抑制TNBC 癌細(xì)胞的增殖、侵襲和轉(zhuǎn)移。在體外實(shí)驗(yàn)中,RSK2 或ELK3 敲除通過調(diào)節(jié)FOS 啟動子的活性,抑制MDA-MB-231細(xì)胞增殖,從而抑制軟瓊脂中癌灶的形成和癌細(xì)胞集落的生長[32]。此外,在TNBC 異體移植小鼠模型中,四環(huán)素-A 通過下調(diào)黏附分子A(junctional adhesion molecule-A,JAM-A)的表達(dá),促進(jìn)c-FOS 磷酸化,降低TNBC 細(xì)胞存活率,從而改善 TNBC 患者的預(yù)后[33]。ZHANG 等[34]研究表明,在體外小鼠模型和MDA-MB-231細(xì)胞模型中,青藤堿能通過抑制c-Fos/NFATc1信號通路,有效減少M(fèi)DA-MB-231 細(xì)胞中蛋白質(zhì)的表達(dá),改善乳腺癌骨轉(zhuǎn)移導(dǎo)致的骨破壞和骨溶解。SPP1 是與羥基磷灰石緊密結(jié)合的磷酸化糖蛋白,又稱人骨橋蛋白(osteopontin,OPN),能發(fā)揮細(xì)胞黏附、信號轉(zhuǎn)導(dǎo)等生物功能[35]。當(dāng) SPP1 基因在 TNBC 癌細(xì)胞中過表達(dá)時(shí),可促進(jìn)乳腺癌細(xì)胞的轉(zhuǎn)移和侵襲,加快TNBC 的惡性進(jìn)程[30]。但是,當(dāng)敲除 SPP1 基因時(shí),乳腺癌細(xì)胞的侵襲性大大降低,骨轉(zhuǎn)移被抑制,患者的預(yù)后得到改善[36]。以上結(jié)果表明,F(xiàn)OS 和 SPP1 可能在TNBC 的進(jìn)展中發(fā)揮重要作用,可作為TNBC 患者預(yù)后評估的生物標(biāo)志。
綜上所述,本研究利用生物信息學(xué)理論和技術(shù),篩選出了與TNBC 發(fā)病相關(guān)的DEGs,這些DEGs參與正向調(diào)控VEGFs 和G1/S 期轉(zhuǎn)換等生物過程,參與介導(dǎo)PI3K/Akt、p53 以及炎癥相關(guān)因子等多條信號通路。PPI 網(wǎng)絡(luò)顯示,DEGs 之間具有聯(lián)系,共同介導(dǎo)DEGs 的發(fā)生發(fā)展。PPI 網(wǎng)絡(luò)的關(guān)鍵節(jié)點(diǎn)FOS 和SPP1 與TNBC 患者預(yù)后密切相關(guān),可能是TNBC 的核心環(huán)節(jié),能為TNBC 的靶向治療和預(yù)后評估提供理論依據(jù)。但本研究所采用的樣本量仍不夠大,且只研究了TNBC 的一個(gè)細(xì)胞系,故仍需進(jìn)一步實(shí)驗(yàn)和臨床驗(yàn)證。