毛昀,蔡亞芳,謝飛宇,薛鵬,朱世杰
1 中國(guó)中醫(yī)科學(xué)院望京醫(yī)院,北京100102;2 北京中醫(yī)藥大學(xué)研究生院
乳腺癌是全球女性發(fā)病率最高的惡性腫瘤,全球新診斷為乳腺癌患者人數(shù)占女性新發(fā)惡性腫瘤的24.2%,病死率占女性惡性腫瘤病死率的15%[1]。早期乳腺癌常常因癥狀不明顯而被忽視,大部分患者在確診時(shí)為中晚期,出現(xiàn)骨、肺、腦等部位的轉(zhuǎn)移[2]。研究[3]顯示,溶骨性骨轉(zhuǎn)移為晚期乳腺癌的常見并發(fā)癥,多伴有疼痛、病理性骨折等骨相關(guān)事件,嚴(yán)重影響患者生活質(zhì)量。目前對(duì)晚期乳腺癌的轉(zhuǎn)移機(jī)制有了一定的探索。研究[4]發(fā)現(xiàn),乳腺癌細(xì)胞分泌的Dkk1蛋白表達(dá)水平的高低能夠調(diào)控腫瘤細(xì)胞轉(zhuǎn)移到不同的靶器官,Dkk1蛋白處于高表達(dá)狀態(tài)時(shí)腫瘤細(xì)胞傾向于轉(zhuǎn)移到骨,而Dkk1蛋白處于低表達(dá)狀態(tài)時(shí)腫瘤細(xì)胞傾向于轉(zhuǎn)移至肺。近年來,生物信息學(xué)廣泛應(yīng)用于基因組學(xué)的研究,這有助于探索惡性腫瘤的發(fā)病機(jī)制。本研究收集GEO數(shù)據(jù)庫(kù)中乳腺癌相關(guān)數(shù)據(jù),利用生物信息學(xué)對(duì)相關(guān)基因進(jìn)行篩選并構(gòu)建轉(zhuǎn)移性乳腺癌患者的預(yù)后預(yù)測(cè)模型,為乳腺癌轉(zhuǎn)移患者的個(gè)體化治療策略提供依據(jù)。
1.1 轉(zhuǎn)移性乳腺癌組織基因表達(dá)數(shù)據(jù)集的選取與收集 利用NCBI平臺(tái)的GEO數(shù)據(jù)庫(kù)(http://www.ncbi.nlm.nih.gov/geo/)進(jìn)行基因芯片篩選,關(guān)鍵詞設(shè)置為“轉(zhuǎn)移性乳腺癌”,下載有關(guān)數(shù)據(jù)集芯片GSE124648[5]。目標(biāo)芯片納入標(biāo)準(zhǔn)為數(shù)據(jù)集應(yīng)有正常乳腺組織標(biāo)本、Ⅰ~Ⅲ期乳腺癌組織標(biāo)本以及Ⅳ期轉(zhuǎn)移性乳腺癌組織標(biāo)本,并有生存狀態(tài)和生存時(shí)間等數(shù)據(jù),排除細(xì)胞株和動(dòng)物實(shí)驗(yàn)數(shù)據(jù)。GSE124648整合GSE124647、GSE129551、GSE124646等多個(gè)數(shù)據(jù)集的數(shù)據(jù),并已進(jìn)行標(biāo)準(zhǔn)化,包含10例正常乳腺組織標(biāo)本、138例Ⅰ~Ⅲ期乳腺癌原發(fā)灶組織(HR+/HER2-)標(biāo)本和140例Ⅳ期轉(zhuǎn)移性乳腺癌組織(HR+/HER2-)標(biāo)本。140例Ⅳ期乳腺癌女性患者的平均年齡為55(32~82)歲,平均生存時(shí)間為24(0.16~126)個(gè)月,包含骨、肝、皮膚、肺、軟組織等部位的轉(zhuǎn)移。
1.2 轉(zhuǎn)移性乳腺癌組織差異表達(dá)基因(DEGs)的篩選及基因本體(GO)功能富集、京都基因和基因組百科全書(KEGG)信號(hào)通路分析 確定目標(biāo)芯片后,利用在線工具GEO2R[6]分別尋找轉(zhuǎn)移性乳腺癌組織與乳腺癌原發(fā)灶組織、轉(zhuǎn)移性乳腺癌組織與正常乳腺組織之間的DEGs,利用Venny 2.1在線工具篩選上述DEGs的交集,找出轉(zhuǎn)移性乳腺癌組織特異性DEGs。篩選標(biāo)準(zhǔn)為:錯(cuò)誤發(fā)現(xiàn)率(FDR)<0.01,|log FC|>1.5(FC,差異倍數(shù)),并將目標(biāo)基因探針名稱轉(zhuǎn)化為標(biāo)準(zhǔn)基因名稱。通過DAVID[7](https://david.ncifcrf.gov/)網(wǎng)站在線分析轉(zhuǎn)移性乳腺癌組織特異性DEGs的基因簇和信號(hào)通路,以人源基因?yàn)楸尘斑M(jìn)行GO功能富集、KEGG信號(hào)通路分析,明確轉(zhuǎn)移性乳腺癌作用位點(diǎn)和信號(hào)通路。
1.3 轉(zhuǎn)移性乳腺癌患者預(yù)后相關(guān)關(guān)鍵基因的篩選 將140例Ⅳ期乳腺癌患者數(shù)據(jù)集隨機(jī)分為訓(xùn)練集(72例)和測(cè)試集(68例)兩個(gè)隊(duì)列,訓(xùn)練集用于構(gòu)建轉(zhuǎn)移性乳腺癌患者的預(yù)后預(yù)測(cè)模型,測(cè)試集用于檢驗(yàn)預(yù)后預(yù)測(cè)模型的預(yù)測(cè)效能。將轉(zhuǎn)移性乳腺癌組織DEGs結(jié)合72例訓(xùn)練集樣本中的生存數(shù)據(jù)通過R語(yǔ)言“survival”函數(shù)包進(jìn)行單因素COX分析,篩選出與患者預(yù)后顯著相關(guān)的基因。將單因素COX分析得到的結(jié)果納入LASSO回歸分析,LASSO回歸通過構(gòu)建懲罰函數(shù)對(duì)自變量的回歸系數(shù)進(jìn)行壓縮控制,實(shí)現(xiàn)基因數(shù)據(jù)的降維,進(jìn)而獲得與轉(zhuǎn)移性乳腺癌患者預(yù)后相關(guān)度更高的基因。隨后將LASSO回歸分析得到的基因通過多因素COX分析,得到與患者預(yù)后相關(guān)的關(guān)鍵基因。
1.4 轉(zhuǎn)移性乳腺癌患者預(yù)后預(yù)測(cè)模型的構(gòu)建及驗(yàn)證
1.4.1 訓(xùn)練集轉(zhuǎn)移性乳腺癌患者預(yù)后預(yù)測(cè)模型的構(gòu)建 通過LASSO&COX回歸分析確定每個(gè)與預(yù)后相關(guān)關(guān)鍵基因的回歸系數(shù),從而構(gòu)建出訓(xùn)練集轉(zhuǎn)移性乳腺癌患者預(yù)后預(yù)測(cè)模型[8]:風(fēng)險(xiǎn)值=β1Exp1+β2Exp2+……+βnExpn。其中Exp為基因表達(dá)量,β指基因的多因素COX回歸分析中的回歸系數(shù),N為與患者預(yù)后相關(guān)的基因數(shù)量。根據(jù)公式計(jì)算出訓(xùn)練集每例患者的風(fēng)險(xiǎn)值,然后取風(fēng)險(xiǎn)值的中位數(shù)為截?cái)嘀?,依?jù)截?cái)嘀祵⒂?xùn)練集患者區(qū)分為高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組,采用R語(yǔ)言“survival”包進(jìn)行高、低風(fēng)險(xiǎn)組的Kaplan-Meier生存曲線分析,以“survival ROC”包繪制ROC曲線對(duì)預(yù)后預(yù)測(cè)模型進(jìn)行預(yù)測(cè)效能評(píng)價(jià)。
1.4.2 測(cè)試集轉(zhuǎn)移性乳腺癌患者預(yù)后預(yù)測(cè)模型的驗(yàn)證 為驗(yàn)證預(yù)后預(yù)測(cè)模型的準(zhǔn)確性,本研究以訓(xùn)練集構(gòu)建的預(yù)后預(yù)測(cè)模型計(jì)算出測(cè)試集(68例)每例患者的風(fēng)險(xiǎn)值,取風(fēng)險(xiǎn)值的中位數(shù)為截?cái)嘀担瑢y(cè)試集患者分為高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組,采用R語(yǔ)言“survival”包進(jìn)行高、低風(fēng)險(xiǎn)組的Kaplan-Meier生存曲線分析,以“survival ROC”包繪制ROC曲線對(duì)預(yù)后預(yù)測(cè)模型進(jìn)行預(yù)測(cè)效能評(píng)價(jià)。
2.1 轉(zhuǎn)移性乳腺癌組織DEGs的篩選及GO功能富集、KEGG信號(hào)通路分析結(jié)果 轉(zhuǎn)移性乳腺癌組織與乳腺癌原發(fā)灶組織之間存在421個(gè)DEGs,轉(zhuǎn)移性乳腺癌組織與正常乳腺組織之間存在1114個(gè)DEGs,其中287個(gè)DEGs為兩者共表達(dá)基因,屬于轉(zhuǎn)移性乳腺癌組織DEGs,包含29個(gè)高表達(dá)基因、258個(gè)低表達(dá)基因。|log FC|最大的30個(gè)基因分別為HBA、HBG、HBB、ALAS2、HBD、GAS1、CTGF、S100A8、KRT14、MFAP5、COL6A1、FBN1、SPON1、NID1、PPBP、IGH、EMILIN1、DKK3、ADAM12、DCN、COL5A2、SERPINE1、COL10A1、IGFBP7、POSTN、COL6A2、FBLN1、COL3A1、COL4A1和LAMB1。GO功能富集結(jié)果顯示,轉(zhuǎn)移性乳腺癌組織特異性DEGs在生物學(xué)過程中包括膠原蛋白分解代謝過程、血管生成、細(xì)胞黏附、細(xì)胞外基質(zhì)分解、成纖維細(xì)胞增殖的調(diào)節(jié)、骨化等,在細(xì)胞組分中包括細(xì)胞外基質(zhì)、胞外區(qū)、細(xì)胞外間隙、內(nèi)質(zhì)網(wǎng)腔等,在分子功能中包括細(xì)胞外基質(zhì)結(jié)構(gòu)成分、與整合素綁定、與鈣離子結(jié)合、與細(xì)胞外基質(zhì)結(jié)合、與膠原結(jié)合等。KEGG信號(hào)通路分析結(jié)果顯示,DEGs主要涉及到細(xì)胞增殖、遷移、細(xì)胞外基質(zhì)、免疫炎癥等方面,如黏著斑、細(xì)胞外基質(zhì)及受體相互作用、PI3K-Akt信號(hào)通路、癌癥的途徑、p53信號(hào)通路、雌激素信號(hào)通路、MAPK信號(hào)通路等。
2.2 轉(zhuǎn)移性乳腺癌患者預(yù)后相關(guān)關(guān)鍵基因的篩選結(jié)果 訓(xùn)練集的單因素COX回歸分析結(jié)果顯示,DEGs中有15個(gè)基因可能與患者預(yù)后相關(guān),分別為PTPRB、MET、ZBTB20、LHFP、LAMA4、RNF144A、RARRES1、GEM、MMP7、NFIB、NFAT5、OLFML3、EGFR、SERPINB5和MAP4。隨后LASSO、多因素COX回歸分析發(fā)現(xiàn),EGFR、GEM、PTPRB、RARRES1、LAMA4、NFAT5、LHFP等7個(gè)基因是轉(zhuǎn)移性乳腺癌患者預(yù)后相關(guān)關(guān)鍵基因(P<0.05),可作為獨(dú)立預(yù)后因素,其中LAMA4、LHFP基因是乳腺癌患者轉(zhuǎn)移的保護(hù)因素,而EGFR、GEM、PTPRB、RARRES1、NFAT5基因是轉(zhuǎn)移性乳腺癌患者的危險(xiǎn)因素。
2.3 轉(zhuǎn)移性乳腺癌患者預(yù)后預(yù)測(cè)模型的構(gòu)建及驗(yàn)證結(jié)果
2.3.1 訓(xùn)練集轉(zhuǎn)移性乳腺癌患者預(yù)后預(yù)測(cè)模型的構(gòu)建結(jié)果 通過LASSO&COX回歸模型構(gòu)建由7個(gè)預(yù)后相關(guān)關(guān)鍵基因組成的轉(zhuǎn)移性乳腺癌患者預(yù)后預(yù)測(cè)模型:風(fēng)險(xiǎn)值=(0.279×EGFR)+(0.704×GEM)+(0.326×PTPRB)+(0.138×RARRES1)+(-0.570×LAMA4)+(0.262×NFAT5)+(-0.555×LHFP)。根據(jù)公式計(jì)算出訓(xùn)練集每例患者的風(fēng)險(xiǎn)值,取風(fēng)險(xiǎn)值的中位數(shù)1.22為截?cái)嘀?,?2例患者分為高風(fēng)險(xiǎn)組(風(fēng)險(xiǎn)值>1.22,36例)和低風(fēng)險(xiǎn)組(風(fēng)險(xiǎn)值<1.22,36例)。Kaplan-Meier生存曲線分析結(jié)果顯示,高風(fēng)險(xiǎn)組患者的中位生存時(shí)間明顯低于低風(fēng)險(xiǎn)組患者,分別為18.22個(gè)月和49.97個(gè)月(P<0.001),見圖1。ROC對(duì)預(yù)后預(yù)測(cè)模型3年生存率的預(yù)測(cè)效能評(píng)價(jià)結(jié)果顯示,轉(zhuǎn)移性乳腺癌患者3年生存率的曲線下面積為0.787,見圖2,表明該模型可用于乳腺癌轉(zhuǎn)移患者預(yù)后的評(píng)估。
圖2 ROC對(duì)訓(xùn)練集患者預(yù)后預(yù)測(cè)模型3年生存率的預(yù)測(cè)效能
圖1 訓(xùn)練集轉(zhuǎn)移性乳腺癌轉(zhuǎn)移患者高、低風(fēng)險(xiǎn)組Kaplan-Meier生存曲線
2.3.2 測(cè)試集轉(zhuǎn)移性乳腺癌患者預(yù)后預(yù)測(cè)模型的驗(yàn)證結(jié)果 測(cè)試集68例患者中,高風(fēng)險(xiǎn)組38例、低風(fēng)險(xiǎn)組30例。Kaplan-Meier生存曲線分析結(jié)果顯示,高風(fēng)險(xiǎn)組患者的中位生存時(shí)間明顯低于低風(fēng)險(xiǎn)組患者,分別為17.48個(gè)月和47.34個(gè)月(P<0.05)。ROC對(duì)預(yù)后預(yù)測(cè)模型3年生存率的預(yù)測(cè)效能評(píng)價(jià)結(jié)果顯示,轉(zhuǎn)移性乳腺癌患者3年生存率的曲線下面積為0.785,表明該模型在乳腺癌轉(zhuǎn)移患者預(yù)后評(píng)估中具有良好的預(yù)測(cè)效能。
乳腺癌的轉(zhuǎn)移是一個(gè)復(fù)雜的過程,可通過Paget的“種子與土壤”[9]理論進(jìn)行闡述:腫瘤細(xì)胞在腫瘤組織局部侵襲、滲透入血管,隨之進(jìn)入循環(huán)系統(tǒng)和/或淋巴細(xì)胞播散,滲入遠(yuǎn)隔器官或組織,導(dǎo)致微轉(zhuǎn)移灶的發(fā)生,最終出現(xiàn)一系列轉(zhuǎn)移瘤的癥狀和體征,分子機(jī)制涉及上皮細(xì)胞間充質(zhì)轉(zhuǎn)化、細(xì)胞外基質(zhì)降解、組織缺氧、血管生成等多個(gè)環(huán)節(jié)。
本研究通過GEO數(shù)據(jù)庫(kù)檢索獲得GSE124648數(shù)據(jù)集,分析獲得287個(gè)乳腺癌轉(zhuǎn)移相關(guān)的DEGs,包含編碼基質(zhì)蛋白的基因(COL1A2、COL15A1、COL11A1等)、趨化因子及其受體基因(CXCL12、CXCL14、CXCR2等)、基質(zhì)金屬蛋白酶基因(MMP2、MMP7、MMP14等),通過GO功能富集和KEGG信號(hào)通路分析發(fā)現(xiàn),DEGs涉及的作用機(jī)制包括乳腺癌細(xì)胞增殖和遷移、細(xì)胞外基質(zhì)調(diào)節(jié)降解、血管生成等方面。在細(xì)胞增殖和遷移方面,趨化因子在轉(zhuǎn)移形成中具有重要作用,如CXCL12促進(jìn)腫瘤細(xì)胞向靶向器官歸巢,而骨及骨髓系統(tǒng)表達(dá)CXCR4,CXCL12/CXCR4軸協(xié)同促進(jìn)乳腺癌細(xì)胞種植于骨,腫瘤細(xì)胞經(jīng)歷定植、休眠、再活化、增殖與侵襲等四個(gè)階段,加速骨溶解與骨吸收過程,進(jìn)入“骨惡性循環(huán)”狀態(tài)[10]。本研究亦發(fā)現(xiàn),多個(gè)趨化因子及其受體基因呈異常表達(dá)狀態(tài)。此外,最近研究[11]顯示,E-鈣黏蛋白在乳腺癌的轉(zhuǎn)移過程中具有重要作用,在不同情況下扮演不同的角色。在乳腺癌早期,E-鈣黏蛋白的缺乏有利于癌細(xì)胞的增殖,促進(jìn)腫瘤在局部快速生長(zhǎng),但轉(zhuǎn)移能力較弱;而轉(zhuǎn)移瘤或循環(huán)腫瘤細(xì)胞常高表達(dá)E-鈣黏蛋白,其作用機(jī)制為E-鈣黏蛋白能夠限制活性氧介導(dǎo)的細(xì)胞凋亡作用,促進(jìn)癌細(xì)胞的存活,從而加速浸潤(rùn)性導(dǎo)管癌的轉(zhuǎn)移進(jìn)程。細(xì)胞外基質(zhì)是腫瘤組織的重要組成部分,包含成纖維細(xì)胞(CAF)、脂肪細(xì)胞等,而腫瘤細(xì)胞亦分泌各類生長(zhǎng)因子,兩者相互影響促進(jìn)乳腺癌細(xì)胞的生長(zhǎng)、侵襲和轉(zhuǎn)移[9]。研究[12,13]顯示,乳腺癌組織中CAF高表達(dá)的MMP-9通過激活TGF-β/SMAD通路顯著增強(qiáng)癌細(xì)胞的侵襲性;亦能夠通過高表達(dá)MMP-2、MMP7等基因直接降解細(xì)胞外基質(zhì),從而促進(jìn)乳腺癌細(xì)胞侵入血液和淋巴管系統(tǒng)等。
本研究發(fā)現(xiàn),EGFR、GEM、PTPRB、RARRES1和NFAT5的表達(dá)水平與預(yù)后呈負(fù)相關(guān),屬于乳腺癌轉(zhuǎn)移的危險(xiǎn)因素。EGFR是存在于細(xì)胞膜表面的酪氨酸激酶受體,在乳腺癌轉(zhuǎn)移過程中占有重要地位[14];15%~30%乳腺癌患者中存在EGFR過表達(dá)的現(xiàn)象,這部分患者預(yù)后較差[15]。GEM是在人類外周血T細(xì)胞中被發(fā)現(xiàn)的小GTP結(jié)合蛋白,能夠影響肌動(dòng)蛋白的細(xì)胞骨架重塑和細(xì)胞的黏附功能、導(dǎo)致黏著斑數(shù)量的減少[16]。研究[17]表明,GEM在膀胱癌和神經(jīng)母細(xì)胞瘤中呈異常表達(dá)狀態(tài)。在惡性腫瘤中,PTPRB的過表達(dá)能夠減少波形蛋白的分泌、促進(jìn)E-鈣黏蛋白的表達(dá),并有利于腫瘤細(xì)胞的上皮間充質(zhì)轉(zhuǎn)化,從而促進(jìn)腫瘤的侵襲和轉(zhuǎn)移,亦能夠誘導(dǎo)新生血管的形成[18]。RARRES1在三陰性乳腺癌中是抑癌基因,但在部分乳腺癌患者中呈高表達(dá)狀態(tài),并與較差的臨床結(jié)局存在相關(guān)性,其機(jī)制可能是通過促進(jìn)致癌基因Axl的表達(dá),達(dá)到促進(jìn)乳腺癌的生長(zhǎng)和侵襲的目的[19,20]?;罨疶 細(xì)胞核因子(NFAT)家族包括NFAT1、NFAT2、NFAT3、NFAT4和NFAT5,能夠促進(jìn)腫瘤的發(fā)生、血管形成等,在浸潤(rùn)性導(dǎo)管癌中過表達(dá)的主要是NFAT1和NFAT5兩種亞型,其中NFAT5夠調(diào)節(jié)乳腺癌上皮細(xì)胞的侵襲、遷移。本研究發(fā)現(xiàn),LAMA4和LHFP的表達(dá)水平與患者的預(yù)后呈正比,發(fā)揮著保護(hù)作用。研究[21]顯示,LAMA4廣泛分布于間充質(zhì)來源的組織和某些上皮基底部,過表達(dá)的LAMA4預(yù)示著ER陰性患者的無復(fù)發(fā)生存率較差,但在HR+/HER2-乳腺癌人群中的研究較少。本研究結(jié)果表明,LAMA4是保護(hù)性因素,該結(jié)論尚需進(jìn)一步實(shí)驗(yàn)驗(yàn)證。關(guān)于LHFP與腫瘤的相關(guān)性研究較少。有研究[22]指出,LHFP是HMGIC在脂肪瘤中的易位伴侶基因。
本研究通過LASSO&COX回歸模型分析287個(gè)DEGs與轉(zhuǎn)移性乳腺癌患者預(yù)后的相關(guān)性,通過訓(xùn)練集構(gòu)建了由7個(gè)基因組成的預(yù)后預(yù)測(cè)模型。依照該模型計(jì)算每例患者的風(fēng)險(xiǎn)值,發(fā)現(xiàn)風(fēng)險(xiǎn)評(píng)分越高的患者預(yù)后越差,并成功地在訓(xùn)練集中將乳腺癌轉(zhuǎn)移患者分為高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組。采用Kaplan-Meier生存曲線分析的結(jié)果表明,高風(fēng)險(xiǎn)組患者中位生存時(shí)間明顯低于低風(fēng)險(xiǎn)組患者;而訓(xùn)練集的3年生存率AUC為0.787亦表明該模型可用于乳腺癌轉(zhuǎn)移患者預(yù)后的評(píng)估,該點(diǎn)同樣在測(cè)試集中得到證實(shí),說明該模型具有較好的預(yù)測(cè)效能。
綜上所述,本研究通過GEO數(shù)據(jù)庫(kù)中的芯片數(shù)據(jù)深入挖掘DEGs,探索相關(guān)基因在轉(zhuǎn)移性乳腺癌發(fā)生過程中的作用,并篩選出EGFR、GEM、PTPRB、RARRES1、LAMA4、NFAT5、LHFP等7個(gè)基因與患者的預(yù)后具有密切關(guān)系,基于上述7個(gè)基因構(gòu)建的預(yù)后預(yù)測(cè)模型能夠?yàn)橥砥谌橄侔┗颊叩膫€(gè)體化治療策略提供一定依據(jù)。