戴玉樑 舒鵬 李文杰 張冉冉
胃癌(Gastric cancer,GC)是最常見的惡性腫瘤之一,每年約一百萬(wàn)新發(fā)胃癌病例[1-2]。東亞地區(qū)每年的新發(fā)病例占全球50%之多[1,3-4],男性的發(fā)病率高于女性[5]。由多種因素導(dǎo)致胃癌發(fā)生,包括幽門螺桿菌感染[6]、EB病毒感染[7]等。手術(shù)的提升及放療、化療等輔助治療技術(shù)的應(yīng)用一定程度改善胃癌患者的預(yù)后,然而5年生存率提高有限,可至30%左右[8]。胃癌可被聚類為四種共識(shí)分子亞型,分別為微衛(wèi)星不穩(wěn)定亞型、TP53活性亞型、TP53失活亞型和間充質(zhì)亞型,其中囊括彌漫性亞型胃癌在內(nèi)的間充質(zhì)樣亞型預(yù)后最差[9]。傳統(tǒng)的TNM分期在用于胃癌患者的預(yù)后預(yù)測(cè)方面日趨乏力[10-11]。許多證據(jù)表明,胃癌患者對(duì)治療的反應(yīng)和生存表現(xiàn)很大程度上依賴于一些遺傳分子特征[12-13]?;诨虮磉_(dá)譜數(shù)據(jù),研究人員陸續(xù)開發(fā)了一些用于胃癌預(yù)后預(yù)測(cè)的分子標(biāo)志物[14-15]。然而,受限于胃癌異質(zhì)性,大部分標(biāo)志物的預(yù)后預(yù)測(cè)效果不佳。自噬廣泛參與細(xì)胞質(zhì)成分的降解和細(xì)胞內(nèi)穩(wěn)定性的維持,在許多腫瘤的發(fā)生、發(fā)展中發(fā)揮重要作用[16-17]。已有大量關(guān)于自噬在胃癌的發(fā)生、發(fā)展和耐藥性方面的機(jī)制研究[18-19]。本研究對(duì)間充質(zhì)亞型胃癌內(nèi)在特征和自噬相關(guān)基因進(jìn)行整合研究,旨在開發(fā)出穩(wěn)定可靠的預(yù)后標(biāo)志物。
1.1 患者隊(duì)列 使用“GEOquery”包從GEO(Gene Expression Omnibus)數(shù)據(jù)庫(kù)中獲取患者的基因表達(dá)譜和相應(yīng)的臨床信息,并經(jīng)過RMA(robust multiarray analysis)進(jìn)行標(biāo)準(zhǔn)化處理。5組獨(dú)立GSE(GEO Series)數(shù)據(jù)集被納入本研究,共包含1,099例GC患者的基因表達(dá)譜。分別是:GSE15459(n=192),GSE26901(n=109),GSE13861(n=65),GSE84437(n=433),GSE62254(n=300)?;虮磉_(dá)譜中的探針I(yè)D被轉(zhuǎn)換為基因符號(hào);若有多個(gè)探針I(yè)D對(duì)應(yīng)同一個(gè)基因符號(hào),則保留平均值最高的ID用于表示相應(yīng)的基因。GSE15459和GSE62254數(shù)據(jù)集的分子亞型信息檢索自Cristescu等的研究[9]。納入患者的詳細(xì)臨床特征見表1。本研究的設(shè)計(jì)和分析流程如圖1所示。
圖1 本研究的設(shè)計(jì)和分析流程
表1 患者臨床信息統(tǒng)計(jì)
1.2 整合網(wǎng)絡(luò)分析 從HADb數(shù)據(jù)庫(kù)(http://autophagy.lu/autophagy.html)中獲取232個(gè)自噬基因。GSE15459作為訓(xùn)練數(shù)據(jù)集,本研究發(fā)現(xiàn)與其他三種亞型相比(MSI,TP53-,TP53+),在間充質(zhì)亞型中有17種ATGs(log 2FC>1,adjP<0.05)和1,865種靶基因(log 2FC>0.15,adjP<0:05)差異表達(dá)。通過主調(diào)控分析,計(jì)算每個(gè)自噬基因與其靶基因中的上皮間充質(zhì)轉(zhuǎn)化相關(guān)基因的超幾何檢驗(yàn)P值,篩選自噬標(biāo)志基因。
1.3 構(gòu)建和驗(yàn)證基于自噬基因的胃癌預(yù)后標(biāo)志物(autophagy gene-based signature for gastric cancer,APSGC) 整合自噬標(biāo)志基因與患者總體生存期,通過COX風(fēng)險(xiǎn)回歸分析構(gòu)建一個(gè)自噬相關(guān)預(yù)后模型用于患者風(fēng)險(xiǎn)賦分,命名為“基于自噬基因的胃癌預(yù)后標(biāo)志物(APSGC)”,該模型的計(jì)分方程如下:風(fēng)險(xiǎn)評(píng)分=Xi×Yi(X:每個(gè)基因的表達(dá)水平,Y:每個(gè)基因的Cox回歸系數(shù))。同時(shí),在GSE26901、GSE13861、GSE84437及GSE62254四組數(shù)據(jù)集中進(jìn)行APSGC賦分并驗(yàn)證預(yù)后預(yù)測(cè)效能。
1.4 基因集富集分析 從MSigDB數(shù)據(jù)庫(kù)下獲取hallmark和kegg基因集,使用“fgsea”包完成,表型定義相關(guān)基因集數(shù)目設(shè)定為1,000。設(shè)定P<0.05篩選顯著的基因集。
1.5 統(tǒng)計(jì)學(xué)方法 采用R 3.6.1統(tǒng)計(jì)軟件。使用Student′st-test計(jì)算組間基因表達(dá)差異。使用Kaplan-Meier生存曲線比較高危組和低危組間生存差異,“survival”R包中的log-rank檢驗(yàn)統(tǒng)計(jì)顯著性。使用Cox模型進(jìn)行單變量比例風(fēng)險(xiǎn)回歸分析。對(duì)于所有的檢驗(yàn)分析,P<0.05為差異具有統(tǒng)計(jì)學(xué)意義。
2.1 整合網(wǎng)絡(luò)分析發(fā)現(xiàn)間充質(zhì)樣亞型的5個(gè)自噬標(biāo)志基因 GSE15459作為訓(xùn)練數(shù)據(jù)集,234個(gè)自噬基因中有54個(gè)基因的單變量風(fēng)險(xiǎn)比>1。差異分析表明,與其他三種亞型相比,間充質(zhì)亞型中存在1,412個(gè)差異靶基因(log2FC>1;adjP<0.05)和17個(gè)差異自噬標(biāo)志基因(log2FC>0.15;adjP<0.05)。經(jīng)過網(wǎng)絡(luò)分析和主調(diào)控分析的篩選(表2),保留了5個(gè)主調(diào)控間充質(zhì)亞型的自噬基因(CCL2,SPHK1,ITGB1,PEA15,DLC1)(圖1)。相較于其他亞型,這5個(gè)自噬標(biāo)志基因在間充質(zhì)樣亞型中顯著高表達(dá)(圖2)?;谶@5個(gè)自噬基因的表達(dá),能夠較好地預(yù)測(cè)間充質(zhì)樣亞型(圖3A),且每個(gè)基因皆是患者的RFS風(fēng)險(xiǎn)因素(圖3B)。
圖2 整合網(wǎng)絡(luò)分析篩選出5個(gè)自噬標(biāo)志基因。A. 訓(xùn)練數(shù)據(jù)集中不同亞型胃癌間5個(gè)自噬基因的表達(dá)情況;B. GSE15459和GSE62254數(shù)據(jù)集中這5個(gè)基因在不同亞型間的表達(dá)情況
圖3 5個(gè)自噬標(biāo)志基因的亞型識(shí)別和預(yù)測(cè)效能。A:基于這5個(gè)基因的表達(dá),在訓(xùn)練數(shù)據(jù)集中可以較好地鑒定間充質(zhì)樣亞型;B:?jiǎn)巫兞糠治鲋?,這5個(gè)基因?qū)颊逺FS的預(yù)測(cè)效果
表2 主調(diào)控分析結(jié)果
2.2 自噬相關(guān)預(yù)后模型(APSGC)的構(gòu)建與驗(yàn)證 整合這5個(gè)自噬標(biāo)志基因與患者的總體生存期,通過多因素Cox構(gòu)建了一個(gè)自噬相關(guān)預(yù)后模型(APSGC)。風(fēng)險(xiǎn)評(píng)分=(0.074,7×CCL2)+(0.121,4×SPHK1)+(0.996,6×ITGB1)+(0.150,3×PEA15)+(-0.131,5×DLC1)。對(duì)數(shù)據(jù)集中的患者進(jìn)行風(fēng)險(xiǎn)賦分。在每個(gè)數(shù)據(jù)集中,風(fēng)險(xiǎn)賦值的上四分位數(shù)設(shè)定為閾值,依此將患者分為高危組和低危組。在訓(xùn)練數(shù)據(jù)集中,高危組的總體生存期顯著低于低危組(P<0.05)(圖4A)。
圖4 不同風(fēng)險(xiǎn)組之間的生存差異。A-F. 不同風(fēng)險(xiǎn)組之間總體生存期方面的差異;G-I. 不同風(fēng)險(xiǎn)組之間無(wú)復(fù)發(fā)生存期方面的差異
進(jìn)一步在4組驗(yàn)證數(shù)據(jù)集上評(píng)估APSGC的預(yù)后預(yù)測(cè)效能。結(jié)果表明,在驗(yàn)證數(shù)據(jù)集中,高危組的總體生存期顯著低于低危組(P<0.05)(圖4B、C、D、E)。在將所有驗(yàn)證數(shù)據(jù)集整合后,發(fā)現(xiàn)在合集中高危組和低危組的總體生存期仍有顯著差異(圖4F)。而在無(wú)復(fù)發(fā)生存期方面,高危組也顯著低于低危組(P<0.05)(圖4G、H、I)。此外,在納入年齡、性別、分期等臨床因素后,單變量和多變量Cox分析表明,APSGC是一個(gè)獨(dú)立預(yù)后因素(表3)。
表3 自噬標(biāo)志及臨床風(fēng)險(xiǎn)特征的單變量和多變量分析
2.3 APSGC功能分析 結(jié)果表明,在高危組中,許多和間充質(zhì)相關(guān)的通路,如TGF-β通路、上皮-間充質(zhì)轉(zhuǎn)化(EMT)、mTOR通路等顯著上調(diào)(P<0.05)(圖5)。
圖5 高危和低危組的GESA結(jié)果
胃癌是癌癥相關(guān)死亡的第三大病因[2],早期胃癌治療效果好,而中晚期胃癌則由于切除后的遠(yuǎn)端轉(zhuǎn)移而預(yù)后較差,其五年整體生存率<5%[20]。目前研究人員已開發(fā)出若干種基于多基因的預(yù)后標(biāo)志物[21-22],但其預(yù)測(cè)效果仍不明確。需要開發(fā)出一類優(yōu)于TNM分期的預(yù)后標(biāo)志物,對(duì)胃癌患者實(shí)現(xiàn)風(fēng)險(xiǎn)分層,指導(dǎo)個(gè)體化和精準(zhǔn)治療。
本研究中,作者整合分析了間充質(zhì)樣亞型胃癌的分子亞型信息和自噬基因,篩選出間充質(zhì)樣亞型中的主調(diào)控自噬基因,構(gòu)建了自噬相關(guān)的胃癌預(yù)后標(biāo)志物(APSGC),利用癌癥組織轉(zhuǎn)錄譜的獨(dú)特性質(zhì)來推斷腫瘤自噬狀態(tài),用于患者風(fēng)險(xiǎn)分層。大量的研究表明,這5個(gè)基因在腫瘤的發(fā)生、進(jìn)展、轉(zhuǎn)移等過程中發(fā)揮重要作用。例如CCL2的激活促進(jìn)了肺癌的轉(zhuǎn)移[23],SPHK1在POTEE的驅(qū)動(dòng)下促進(jìn)了結(jié)直腸癌的進(jìn)展[24]。ITGB1的抑制導(dǎo)致卵巢癌細(xì)胞凋亡,并減少癌組織內(nèi)血管生成[25],胃癌順鉑類藥物耐藥性的產(chǎn)生和PEA15的高表達(dá)相關(guān)[26],DCL1的表達(dá)和卵巢癌的進(jìn)展和淋巴轉(zhuǎn)移相關(guān)[27]。這些證據(jù)反映了作者構(gòu)建的預(yù)后標(biāo)志物蘊(yùn)含著可靠的生物學(xué)意義。經(jīng)過APSGC的分層,可觀測(cè)到相較于低危組,高危組的整體生存期和無(wú)復(fù)發(fā)生存期更差,在幾個(gè)獨(dú)立的驗(yàn)證隊(duì)列中也觀察到同樣的結(jié)果。基因富集分析表明,與間充質(zhì)相關(guān)的通路,如TGF-β信號(hào)通路、上皮-間充質(zhì)轉(zhuǎn)化(EMT)、自噬正調(diào)控等通路在高危組中顯著上調(diào)。此外,在將患者性別、年齡、分期等變量納入多因素回歸分析后,表明APSGC是一個(gè)獨(dú)立預(yù)后預(yù)測(cè)因素。這些結(jié)果表明APSGC是一種可靠的胃癌預(yù)后模型。本研究將自噬狀態(tài)與患者預(yù)后聯(lián)系起來,為胃癌患者的臨床精準(zhǔn)治療提供指導(dǎo)。
然而本研究的缺陷和不足仍不容忽視。首先,納入的數(shù)據(jù)集均來自于微陣列和測(cè)序的轉(zhuǎn)錄組數(shù)據(jù),高昂的檢測(cè)價(jià)格、復(fù)雜的數(shù)據(jù)前處理過程以及專業(yè)的生物信息學(xué)分析要求限制了其在臨床一線的推廣應(yīng)用。其次,本研究是一項(xiàng)回顧性分析,進(jìn)一步的驗(yàn)證需要納入更多的前瞻性隊(duì)列。在未來的研究中,作者將進(jìn)一步通過分子生物學(xué)實(shí)驗(yàn)探究模型的內(nèi)在分子機(jī)制,同時(shí)納入多中心樣本,對(duì)模型進(jìn)行提升和完善。