孫晨, 夏云紅
安徽醫(yī)科大學(xué)第一附屬醫(yī)院北區(qū) 安徽省公共衛(wèi)生臨床中心腫瘤科,安徽合肥 230000
胃癌(gastric cancer,GC)是最常見的消化系統(tǒng)惡性腫瘤,其病死率在惡性腫瘤中位居第二位[1]。由于早期胃癌多為輕度或無癥狀,故以晚期胃癌最為常見,平均5年生存率低于20%[2]。若在胃癌侵襲胃肌層前進(jìn)行根治性手術(shù)化療,術(shù)后5年生存率可達(dá)90%[3]。由于用于診斷胃癌的生物標(biāo)志物數(shù)量有限,早期胃癌的檢出率較低[4];因此,臨床迫切需要能夠有效識別和準(zhǔn)確預(yù)測預(yù)后的分子標(biāo)記物,用以改善胃癌患者的早期檢測和治療,并為開發(fā)胃癌靶點治療提供策略[5]。本文從癌癥基因組圖譜(the cancer genome atlas,TCGA)數(shù)據(jù)庫下載胃癌測序數(shù)量和臨床樣本,探討GC發(fā)生發(fā)展中的關(guān)鍵基因和構(gòu)建胃癌患者預(yù)后風(fēng)險模型,為胃癌患者靶向治療提供參考。
從TCGA(https://portal.gdc.cancer.gov/)下載胃癌高通量表達(dá)數(shù)據(jù),去掉臨床信息存在缺失項的樣本,共獲得321例樣本的mRNA轉(zhuǎn)錄測序信息和臨床數(shù)據(jù),其中包括胃癌組織293例,癌旁正常組織28例?;虮磉_(dá)數(shù)據(jù)用于差異基因分析和功能富集分析等,得到的差異表達(dá)基因結(jié)合患者臨床信息用于構(gòu)建比例風(fēng)險回歸模型(Cox)。
利用R語言軟件limma包對胃癌組織和癌旁正常組織的基因表達(dá)數(shù)據(jù)進(jìn)行差異分析,以錯誤發(fā)現(xiàn)率<0.05和基因表達(dá)差異倍數(shù)取對數(shù)絕對值>2.0為基因差異顯著性閾值,獲得差異表達(dá)基因。利用pheatmap包繪制熱圖顯示差異分析結(jié)果。采用R語言軟件clusterProfile包的非中心超幾何分布完成GO和KEGG富集分析,并用ggplot2包和GOplot包顯示分析結(jié)果。
提取TCGA數(shù)據(jù)庫患者臨床信息,根據(jù)患者年齡、性別、臨床T分期、N分期、M分期及美國癌癥聯(lián)合委員會胃癌臨床病理分期以及組織病理分級等臨床指標(biāo),利用R語言軟件Survival、Survminer包,對差異表達(dá)基因進(jìn)行單因素Cox比例風(fēng)險回歸初步分析篩選(P<0.001),進(jìn)一步利用雙向逐步回歸法進(jìn)行多因素Cox比例風(fēng)險回歸分析,獲得胃癌患者預(yù)后基因(P<0.05),構(gòu)建總體生存期(overall survival,OS)預(yù)測模型,計算預(yù)后風(fēng)險評分(risk score,RS),根據(jù)RS中位值將患者分為高、低風(fēng)險組。采用Kaplan-Meier法進(jìn)行Log-rank檢驗多基因預(yù)后模型的預(yù)后預(yù)測價值;計算ROC曲線下面積(area under the curve,AUC)評價多基因預(yù)后模型的有效性和敏感性。繪制列線圖預(yù)測患者預(yù)后情況。P<0.05為差異具有統(tǒng)計學(xué)意義。
從TCGA胃癌高通量測序數(shù)據(jù)中最終獲得930個差異表達(dá)基因。相較于癌旁正常組織,胃癌組織中表達(dá)上調(diào)基因436個,表達(dá)下調(diào)基因494個(P<0.05;圖1)。
圖1 TCGA胃癌數(shù)據(jù)集差異表達(dá)基因分層聚類熱圖
KEGG功能富集分析顯示,上調(diào)表達(dá)基因主要富集在細(xì)胞周期、白細(xì)胞介素(interleukin,IL)-17信號通路、細(xì)胞因子-細(xì)胞因子受體相互作用等通路;下調(diào)表達(dá)基因主要富集在神經(jīng)活性配體-受體相互作用、細(xì)胞色素P450對外源性物質(zhì)的代謝、cAMP信號通路(圖2)。
圖2 KEGG功能富集分析
GO功能富集分析顯示,上調(diào)表達(dá)基因主要富集在核分裂、著絲粒區(qū)染色體、細(xì)胞外基質(zhì)結(jié)構(gòu)成分等注釋項中;下調(diào)表達(dá)基因主要富集在肌肉系統(tǒng)過程、突觸膜、離子門控通道活性等注釋項中(圖3)。
圖3 差異表達(dá)基因的GO功能富集分析
利用單因素Cox比例風(fēng)險回歸分析共篩選到73個可能影響患者總體生存期的基因;通過多因素Cox比例風(fēng)險回歸分析得到10個基因,并建立多基因預(yù)后預(yù)測模型。其中,SRMS、CTLA4、MFAP2、ADAMTS18和PPEF1在胃癌組織中顯著高表達(dá),ACADL、AR、MFAP5、RORB和DCHS2則顯著低表達(dá)(P<0.001)。
依據(jù)預(yù)后模型(PI=-0.119×SRMS-0.299×CTLA4+0.114×ACADL+0.082×MFAP2+0.065×ADAMTS18-0.104×AR-0.028×MFAP5+0.162×RORB+0.099×DCHS2+0.172×PPEF1)中位RS值(1.028)將293例患者分別納入高、低風(fēng)險組,低風(fēng)險組生存率顯著高于高風(fēng)險組(P<0.001;圖4A)。ROC曲線AUC為0.628;患者1年、3年和5年ROC曲線AUC分別為0.627、0.713和0.847(圖4B)。預(yù)后評分越高(圖4C),死亡風(fēng)險越大(圖4D)。多基因預(yù)后模型各基因在高、低風(fēng)險組的表達(dá)量見圖3E。通過列線圖中差異基因表達(dá)評分可以定量預(yù)測胃癌患者1、3、5年總體生存率(圖5)。
圖4 胃癌預(yù)后模型在TCGA整體數(shù)據(jù)集中高風(fēng)險和低風(fēng)險患者分布情況A為生存率;B為ROC曲線;C為風(fēng)險評分;D為生存期;E為各基因的表達(dá)。
圖5 胃癌患者預(yù)后模型列線圖
高風(fēng)險組和低風(fēng)險組病理分期、腫瘤大小、遠(yuǎn)處轉(zhuǎn)移、腫瘤分級比較,差異均有顯著性(P<0.05;表1)。
表1 預(yù)后模型不同風(fēng)險胃癌患者臨床特征比較 例(%)
將多基因預(yù)后模型和TCGA胃癌數(shù)據(jù)集患者臨床指標(biāo)納入Cox回歸分析,其中多基因預(yù)后模型風(fēng)險評分為連續(xù)變量,整理后的患者臨床指標(biāo)為分類變量。單因素Cox回歸分析顯示病理分期、淋巴結(jié)轉(zhuǎn)移、腫瘤大小、年齡和預(yù)后模型風(fēng)險評分是影響胃癌患者總體生存期的危險因素(P<0.001;表2)。多因素Cox回歸分析顯示年齡和預(yù)后模型風(fēng)險評分是影響胃癌患者預(yù)后的獨立因素(P<0.001;表3)。
表2 單因素Cox回歸分析TCGA胃癌患者總體生存期的影響因素
表3 多因素Cox回歸分析結(jié)果
胃癌的治療效果和策略取決于診斷的癌癥階段。早期胃癌多為輕度或無癥狀,故早期診斷非常具有挑戰(zhàn)性。本研究對胃癌數(shù)據(jù)集進(jìn)行生物信息學(xué)分析,利用雙向逐步回歸法對930個差異表達(dá)基因進(jìn)行Cox風(fēng)險回歸分析,構(gòu)建了一個由10個基因構(gòu)成的預(yù)后風(fēng)險評分模型。模型對胃癌患者的預(yù)后有良好的預(yù)測價值和預(yù)測效能,且與胃癌患者的腫瘤分期、大小、分級和遠(yuǎn)處轉(zhuǎn)移有關(guān)。
模型基因與腫瘤的進(jìn)展和預(yù)后相關(guān),SRMS、CTLA4、MFAP2、ADAMTS18和PPEF1在胃癌組織中顯著高表達(dá),ACADL、AR、MFAP5、RORB和DCHS2則顯著低表達(dá)。SRMS是一種非受體酪氨酸激酶,調(diào)節(jié)信號通路,可作為結(jié)直腸癌患者潛在治療靶點[6]。研究胃癌蛋白質(zhì)組發(fā)現(xiàn)SRMS是唯一的差異表達(dá)激酶[7]。胃癌組織CTLA4相對于正常黏膜顯著上調(diào),CTLA4的激活導(dǎo)致胃癌患者的總生存期縮短[8],與本研究分析結(jié)果一致。MFAP2促進(jìn)胃癌和甲狀腺乳頭狀癌的增殖、遷移、侵襲和上皮-間質(zhì)轉(zhuǎn)化[9-10],shRNA沉默能夠抑制裸鼠致瘤性和腫瘤轉(zhuǎn)移[11]。PPEF1參與乳腺癌發(fā)生的分子機制,可作為預(yù)后和診斷標(biāo)志物[12]。本研究發(fā)現(xiàn),ADAMTS18在胃癌組織中高表達(dá),然而在其他多腫瘤中表達(dá)顯著下調(diào),且與啟動子高度甲基化有關(guān),被認(rèn)定為腫瘤抑制基因[13-15]。ADAMTS18在胃癌中的功能還有待進(jìn)一步研究。ACADL在肝細(xì)胞癌與臨床預(yù)后不良相關(guān),抑制Hippo/YAP通路,恢復(fù)ACADL表達(dá)導(dǎo)致癌細(xì)胞周期阻滯和生長抑制[16]。AR誘導(dǎo)和促進(jìn)G1周期素依賴性激酶的活性,是前列腺癌的關(guān)鍵因子[17]。MFAP5是一種細(xì)胞外基質(zhì)糖蛋白,顯著降低膀胱癌細(xì)胞增殖、遷移和侵襲能力[18]。在胃癌和結(jié)直腸癌中,DCHS2非常規(guī)移碼突變可導(dǎo)致癌細(xì)胞黏附和極性功能失活[19]。
本研究構(gòu)建的多基因預(yù)后風(fēng)險模型尚未見報道,其功能值得進(jìn)一步研究。該模型在臨床預(yù)測胃癌的預(yù)后方面具有較好的效果,可以作為預(yù)測胃癌預(yù)后潛在標(biāo)志物組合,并為尋找靶向治療藥物提供數(shù)據(jù)支持。本研究尚需進(jìn)一步收集大樣本臨床數(shù)據(jù)驗證模型的有效性和可靠性。