羅 安,朱欣彥,胡曄東,劉雁冰,冉晨曦,劉 菲
(同濟(jì)大學(xué)附屬東方醫(yī)院消化內(nèi)科,上海 200120)
胃癌(gastric cancer, GC)是消化系統(tǒng)常見(jiàn)的惡性腫瘤之一。我國(guó)每年新發(fā)病例約40萬(wàn),占世界總發(fā)病例的42%[1]。胃癌的發(fā)生和進(jìn)展與多種因素有關(guān),如飲食習(xí)慣、幽門(mén)螺旋桿菌感染、環(huán)境因素、遺傳因素等。治療效果及預(yù)后與腫瘤的浸潤(rùn)、轉(zhuǎn)移密切相關(guān)[2]。胃癌患者早期主要通過(guò)內(nèi)鏡下治療和手術(shù)治療,5年生存率可以達(dá)到90%[3]。但是大多數(shù)患者確診時(shí)已為晚期且多已發(fā)生遠(yuǎn)處轉(zhuǎn)移,總體治療效果差,患者的生活質(zhì)量低。目前對(duì)于胃癌的預(yù)后預(yù)測(cè)是臨床醫(yī)師和科研工作者面臨的一個(gè)難題。根據(jù)腫瘤病理(T)、淋巴結(jié)活檢(N)、遠(yuǎn)處器官轉(zhuǎn)移(M)來(lái)判斷患者的預(yù)后被普遍認(rèn)為是用于預(yù)測(cè)胃癌的治療實(shí)踐的主要工具[4]。然而,通過(guò)TNM系統(tǒng)預(yù)測(cè)患者的預(yù)后,往往存在很大的差異。因此,需要一些其他的手段去補(bǔ)充。
腫瘤微環(huán)境是指腫瘤所在的細(xì)胞環(huán)境,基質(zhì)細(xì)胞和免疫細(xì)胞是兩種主要的非腫瘤成分,其中腫瘤基質(zhì)細(xì)胞被報(bào)道在對(duì)腫瘤的診斷和預(yù)后評(píng)估有價(jià)值[5]?;|(zhì)免疫評(píng)估數(shù)據(jù)庫(kù)(estimation of stromal and immune cells in malignant tumor tissues using expression data, ESTIMATE)可通過(guò)分析腫瘤微環(huán)境中基質(zhì)細(xì)胞和免疫細(xì)胞的特異性基因表達(dá)特征,計(jì)算免疫和基質(zhì)評(píng)分來(lái)預(yù)測(cè)非腫瘤細(xì)胞的浸潤(rùn)程度[6]。基于算法的科學(xué)性,研究者們很快將這種算法運(yùn)用在乳腺癌[7]和結(jié)腸癌[8]中,說(shuō)明該算法的實(shí)用價(jià)值。Wang等[9]將此類(lèi)評(píng)分方法運(yùn)用到胃癌中,通過(guò)分析在胃癌腫瘤基質(zhì)和腫瘤免疫中均差異表達(dá)的基因,來(lái)判斷這些基因在胃癌預(yù)后預(yù)測(cè)上的作用,具有一定的指導(dǎo)作用。本研究通過(guò)癌癥基因組圖譜數(shù)據(jù)庫(kù)(the cancer genome atals, TCGA)保存的大規(guī)模多中心的胃癌數(shù)據(jù),獲取胃癌患者的臨床資料和相關(guān)組織的轉(zhuǎn)錄組測(cè)序(ribonucleic acid sequencing, RNAseq)表達(dá)數(shù)據(jù),篩選出胃癌組織中與基質(zhì)評(píng)分最為相關(guān)的基因,建立一個(gè)立足于胃癌腫瘤基質(zhì)評(píng)分的胃癌基因預(yù)后模型,篩選出預(yù)示胃癌預(yù)后不良的相關(guān)基因,提示胃癌腫瘤基質(zhì)與預(yù)后關(guān)系相關(guān)研究的進(jìn)一步方向。
從TCGA數(shù)據(jù)庫(kù)(http:∥cancergenome.nih.gov/)下載胃癌患者的臨床信息(包括性別、年齡、生存時(shí)間、腫瘤組織類(lèi)型、TNM等)和組織RNAseq表達(dá)譜數(shù)據(jù)。從ESTIMATA網(wǎng)站(https:∥bioinformatics.mdanderson.org/estimate/)下載對(duì)TCGA數(shù)據(jù)庫(kù)中胃癌患者的腫瘤基質(zhì)評(píng)分。本研究獲取了胃癌患者的臨床數(shù)據(jù)、ESTIMATE基質(zhì)評(píng)分、RNAseq表達(dá)譜3類(lèi)信息,保證數(shù)據(jù)的單一性、完整性。將這些患者按照ESTIMATE基質(zhì)評(píng)分分為高基質(zhì)評(píng)分組(H1組:0~1000;H2組: 1000~2000)和低基質(zhì)評(píng)分組(L1組:-1000~0;L2組:-2000~-1000)。其中低基質(zhì)組130例(其中L1組102例,L2組28例),高基質(zhì)組140例(其中H1組105例,H2組35例)。
根據(jù)270例患者的臨床信息,分析不同胃癌lauren分型(腸型和彌漫型)、不同胃癌分期上(Ⅰ期和Ⅱ+Ⅲ+Ⅳ期)的基質(zhì)評(píng)分差異。用R語(yǔ)言survival包比較高低基質(zhì)評(píng)分組的患者在生存時(shí)間上的差異。
DEseq2程序包對(duì)高基質(zhì)評(píng)分組和低基質(zhì)評(píng)分組患者組織RNAseq數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理和差異表達(dá)分析篩選閾值(cut off)為P<0.05,|log2FC|>2。對(duì)篩選出來(lái)的差異基因重新構(gòu)建表達(dá)矩陣,WGCNA包進(jìn)行權(quán)重共表達(dá)分析,找出其中與胃癌基質(zhì)評(píng)分最為相關(guān)的基因群,為后續(xù)構(gòu)建模型的初始基因。
構(gòu)建整合模型初始基因與患者生存狀態(tài)、生存時(shí)間的表達(dá)矩陣。單因素COX回歸模型初步篩選出與患者生存周期具有相關(guān)性的基因(P<0.05)。LASSO模型通過(guò)懲罰機(jī)制篩選出其中與患者生存周期相關(guān)的關(guān)鍵基因。多因素COX回歸模型以關(guān)鍵基因?yàn)榻;A(chǔ),構(gòu)建關(guān)鍵基因的基因臨床預(yù)測(cè)模型。計(jì)算模型C指數(shù),繪制校準(zhǔn)圖、ROC曲線以評(píng)價(jià)模型的靈敏度和特異度。生成列線圖量化基因表達(dá)與生存周期的關(guān)系。在模型內(nèi)部總結(jié)出生存分析曲線,評(píng)價(jià)基因作為單個(gè)獨(dú)立危險(xiǎn)因素,對(duì)患者生存周期的影響。
Oncomine(https:∥www.oncomine.org/resource/login.html)數(shù)據(jù)庫(kù)驗(yàn)證基因在胃癌組織中的表達(dá)情況。km-plotter數(shù)據(jù)庫(kù)(http:∥kmplot.com/analysis/)驗(yàn)證大數(shù)據(jù)中基因的臨床預(yù)后。
統(tǒng)計(jì)學(xué)分析使用GraphPad Prism 7.0軟件,進(jìn)行獨(dú)立樣本t檢驗(yàn)。P<0.05為差異有統(tǒng)計(jì)學(xué)意義。生物信息學(xué)分析均使用R語(yǔ)言(version 3.6.1)(http:∥www.R-project.org)及其相應(yīng)的包?;|(zhì)和免疫評(píng)分使用默認(rèn)參數(shù)的estimate包計(jì)算。使用DEseq2包進(jìn)行矩陣標(biāo)準(zhǔn)化處理和差異表達(dá)分析(cut off |log2FC|>2,P<0.05)。使用WGCNA包進(jìn)行加權(quán)共表達(dá)分析。使用survival包(單因素COX,以P<0.05為差異有統(tǒng)計(jì)學(xué)意義)、glmnet包、rms包、timeROC包構(gòu)建最佳COX回歸模型并繪制基因生存分析曲線。
根據(jù)患者臨床信息將270例患者分為兩組,腸型胃癌組和彌漫性胃癌組。按照胃癌lauren分級(jí),彌漫性胃癌患者表現(xiàn)為低分化且預(yù)后更差[10]。比較兩組胃癌的基質(zhì)評(píng)分,彌漫性胃癌的基質(zhì)評(píng)分更高(P<0.001),見(jiàn)圖1A。用同樣的方法分析早期胃癌(Ⅰ期)和進(jìn)展期胃癌(Ⅱ+Ⅲ+Ⅳ期)的基質(zhì)評(píng)分差異,進(jìn)展期胃癌表現(xiàn)為更高的基質(zhì)評(píng)分(P<0.001),見(jiàn)圖1B。不同基質(zhì)評(píng)分的4個(gè)組中,即基質(zhì)評(píng)分L2組(-2000~-1000)、L1組(-1000~0)、H1組(0~1000)、H2組(1000~2000),生存分析表明隨著基質(zhì)評(píng)分的升高,患者的生存期呈現(xiàn)下降趨勢(shì)(P<0.05),見(jiàn)圖1C。
圖1 基質(zhì)評(píng)分的高低與胃癌患者預(yù)后的關(guān)系
DEseq2程序包中用于RNAseq表達(dá)矩陣的分析[11],對(duì)比低基質(zhì)組與高基質(zhì)組的差異,標(biāo)準(zhǔn)化處理后得到1581個(gè)差異表達(dá)基因。將|log2FC|變化最大的20個(gè)基因做了熱圖,見(jiàn)圖2A。WGCNA程序包中分析1581個(gè)基因表達(dá)矩陣與基質(zhì)評(píng)分的相關(guān)性[12],僅關(guān)注與胃癌基質(zhì)評(píng)分關(guān)系最為密切的基因群,其中藍(lán)綠色相關(guān)性最高為0.7(P<0.001),該基因群共計(jì)1015個(gè)基因,為后續(xù)建模的初始基因。將各個(gè)顏色的基因群在樹(shù)狀圖和熱圖中顯示,見(jiàn)圖2B。
圖2 1581個(gè)差異表達(dá)基因中篩選與基質(zhì)評(píng)分密切相關(guān)的基因
利用單因素COX回歸模型初步定位出胃癌預(yù)后相關(guān)的基因,共計(jì)377個(gè)(P<0.05)。LASSO回歸模型篩選377個(gè)基因中影響胃癌預(yù)后的關(guān)鍵基因,當(dāng)納入模型的基因變量為12個(gè)時(shí),模型為最佳(λ最小為12),見(jiàn)圖3A,此12個(gè)基因?yàn)榕c胃癌患者預(yù)后相關(guān)的關(guān)鍵基因,即ACAT1、ADAMTS12、LINCO614、MATN3、MTUS2、PLCL1、MEGF10、POSTN、SERPINE1、TPTEP1、GAD1、MMP16。構(gòu)建這12個(gè)基因多因素COX回歸模型[13],C指數(shù)[14]為0.68,顯示具有較強(qiáng)的預(yù)測(cè)能力。預(yù)測(cè)值貼近實(shí)際值,見(jiàn)圖3B、C。受試者工作曲線(receiver operator curve, ROC)表明3年生存時(shí)間曲線下面積(area under curve, AUC)為0.693,5年生存時(shí)間AUC為0.725,模型預(yù)測(cè)的準(zhǔn)確性較強(qiáng),見(jiàn)圖3D。本研究大致量化了這12個(gè)基因的表達(dá)量與生存時(shí)間的關(guān)系,其中ACAT1、ADAMTS12、LINCO1614、MATN3、MTUS2、PLCL1、POSTN、SERPINE1、TPTEP1、MEGF10相對(duì)表達(dá)量越高,患者生存時(shí)間越短;GAD1和MMP16相對(duì)表達(dá)量越低,患者生存期越短,見(jiàn)圖3E。在模型中(n=270)繪制了這12個(gè)基因的生存曲線,得到6個(gè)與胃癌預(yù)后相關(guān)性較強(qiáng)(P<0.05)的基因:ADAMTS12、MATN3、MEGF10、PLCL1、POSTN、SERPINE1。同時(shí)作為差異表達(dá)基因,相對(duì)于低基質(zhì)組患者,這6個(gè)基因均在胃癌患者高基質(zhì)組中高表達(dá),作為獨(dú)立危險(xiǎn)因素,6個(gè)基因均與胃癌患者預(yù)后呈負(fù)相關(guān),見(jiàn)圖4。
圖3 回歸分析構(gòu)建的基因預(yù)后模型
圖4 預(yù)測(cè)模型內(nèi)部6個(gè)最佳預(yù)測(cè)基因與患者的生存分析曲線
KM-plotter數(shù)據(jù)庫(kù)(http:∥kmplot.com/analysis/)顯示這6個(gè)基因與本研究模型所預(yù)測(cè)的一致(n=375),均表現(xiàn)為表達(dá)量越高,預(yù)后越差,生存周期越短(P=0.0037、0.000091、0.0047、0.00019、0.00003、0.0000066),見(jiàn)圖5。獲取Oncomine數(shù)據(jù)庫(kù)(https:∥www.oncomine.org/resource/login.html)數(shù)據(jù)集GSE27342(n=160)中這6個(gè)基因的相對(duì)表達(dá)量,ADAMTS12、MATN3、POSTN、SERPINE和本研究的結(jié)果相符。MEGF10數(shù)據(jù)差異無(wú)統(tǒng)計(jì)學(xué)意義(P>0.05)。PCLC1與預(yù)期結(jié)果相反,見(jiàn)圖6。
圖5 6個(gè)最佳預(yù)測(cè)潛力基因在KM-plotter數(shù)據(jù)庫(kù)中的生存分析
圖6 6個(gè)最佳預(yù)測(cè)潛力基因在GSE27342數(shù)據(jù)集中的驗(yàn)證與本研究預(yù)測(cè)模型一致
腫瘤的進(jìn)展不僅受其腫瘤本身特征的影響,還受腫瘤基質(zhì)細(xì)胞的影響。越來(lái)越多的證據(jù)表明腫瘤基質(zhì)在預(yù)測(cè)腫瘤進(jìn)展和預(yù)后中的重要作用[15-16]。因此,本研究提出了一個(gè)結(jié)合腫瘤基質(zhì)評(píng)分和胃癌預(yù)后的模型,篩選出與胃癌預(yù)后密切相關(guān)的基因。本研究中采取了很多“篩選”的步驟:(1)差異表達(dá)篩選出差異基因;(2)共表達(dá)網(wǎng)絡(luò)篩選差異基因中與基質(zhì)關(guān)系最為密切的基因;(3)單因素COX回歸去掉了與胃癌患者預(yù)后無(wú)相關(guān)性的基因(P>0.05);(4)LASSO回歸給出了最小λ,納入12個(gè)基因時(shí)模型的預(yù)測(cè)功能最佳,此12個(gè)基因?yàn)樵撃P拖骂A(yù)測(cè)胃癌預(yù)后的關(guān)鍵基因;(5)得到一個(gè)較為準(zhǔn)確的臨床預(yù)測(cè)模型(c指數(shù)=0.68),同時(shí)將單個(gè)基因作為獨(dú)立危險(xiǎn)因素,繪制基因在模型內(nèi)部的生存分析曲線,進(jìn)一步優(yōu)化了與胃癌預(yù)后密切相關(guān)的基因(P<0.05)。最終得到6個(gè)基因,MATN3、MEGF10、ADAMTS12、PLCL1、POSTN、SERPINE。作為基于基質(zhì)評(píng)分的胃癌獨(dú)立危險(xiǎn)因素的臨床預(yù)后分析,患者腫瘤基質(zhì)評(píng)分越高,6個(gè)基因均表達(dá)量越高,患者生存期越短,預(yù)后越差。6個(gè)基因各自具有良好的胃癌預(yù)后預(yù)測(cè)能力。
與同類(lèi)型文章相比[9,17]本文的創(chuàng)新點(diǎn)在于將RNAseq數(shù)據(jù)差異表達(dá)分析后,并未直接以差異基因作為后續(xù)分析的初始基因,而是用WGCNA分析差異基因的表達(dá)矩陣。固然本研究是以低基質(zhì)評(píng)分組為對(duì)照組,高基質(zhì)評(píng)分組為實(shí)驗(yàn)組,但單純的差異表達(dá)并不能直接說(shuō)明差異基因與基質(zhì)評(píng)分之間的相關(guān)性,通過(guò)WGCNA可以找到與基質(zhì)評(píng)分密切相關(guān)的基因群。
本研究得到的這6個(gè)基因,MATN3作為一種常見(jiàn)于細(xì)胞外基質(zhì)的蛋白,Wu等[18]收集病例并分析總結(jié)出MATN3可用來(lái)預(yù)測(cè)胃癌預(yù)后,其在胃癌組織中表達(dá)越高,患者預(yù)后越差;目前對(duì)MEGF10的研究局限于膠質(zhì)瘤。研究表明MEGF10的甲基化水平與膠質(zhì)瘤常見(jiàn)的IDH突變相關(guān)。其甲基化水平越高,患者的預(yù)后越差[19]。ADAMTS12是金屬蛋白酶家族一員,其在上皮惡性細(xì)胞周?chē)M織中的表達(dá)明顯高于正常配對(duì)組織[20],提示其可能參與到腫瘤的發(fā)生發(fā)展中。Wang等[21]通過(guò)收集112例結(jié)腸癌患者,用免疫組化染色的方法檢測(cè)ADAMTS12的表達(dá)量,發(fā)現(xiàn)ADAMTS12的表達(dá)與結(jié)腸癌的病例分級(jí)、腫瘤浸潤(rùn)、淋巴結(jié)轉(zhuǎn)移具有明顯的相關(guān)性。表達(dá)越高,預(yù)示著結(jié)腸癌患者的預(yù)后越差。目前對(duì)PLCL1的研究較少,僅發(fā)現(xiàn)其可以通過(guò)介導(dǎo)脂質(zhì)褐變而抑制腫瘤進(jìn)程,具體機(jī)制未被闡明[22]。OH等[23]用免疫組化的方法檢測(cè)了結(jié)腸癌患者的腫瘤基質(zhì),發(fā)現(xiàn)高表達(dá)POSTN的患者的預(yù)后明顯更差。一項(xiàng)基礎(chǔ)研究表明SERPINE可以促進(jìn)SGC-7901細(xì)胞的侵襲性,提示SERPINE可以作為胃癌的一種新的預(yù)后因子和抗癌靶點(diǎn)[24]。結(jié)合本研究所構(gòu)建的多因素COX回歸模型以及基因表達(dá)與生存狀態(tài)、生存時(shí)間之間的相關(guān)性,從腫瘤基質(zhì)預(yù)后基因分析的角度講,本研究預(yù)測(cè)的6個(gè)基因,基本符合現(xiàn)有的臨床和基礎(chǔ)研究事實(shí),具有一定的臨床預(yù)測(cè)能力。
本研究選擇了兩個(gè)數(shù)據(jù)庫(kù):Oncomine數(shù)據(jù)庫(kù)和KM-plotter數(shù)據(jù)庫(kù)。前者病例資料來(lái)源于GEO(gene expression omnibus)數(shù)據(jù)庫(kù),選擇的數(shù)據(jù)集為GSE 27342(n=160),作為一個(gè)獨(dú)立的病例資料,與本文研究的TCGA數(shù)據(jù)庫(kù)病例資料(n=270)不存在數(shù)據(jù)重疊。后者數(shù)據(jù)來(lái)源于包括GEO、TCGA、EGA在內(nèi)的多個(gè)腫瘤學(xué)數(shù)據(jù)庫(kù),此數(shù)據(jù)庫(kù)設(shè)計(jì)的目的即為對(duì)目的基因進(jìn)行生存分析驗(yàn)證,從而佐證實(shí)驗(yàn)結(jié)果,本文選擇其中的胃癌模塊(n=375),本研究無(wú)法判斷此375例病患資料是否與前述GSE27342以及本文TCGA數(shù)據(jù)庫(kù)270例病患資料存在重疊性,但是可以肯定的是KM-plotter數(shù)據(jù)庫(kù)設(shè)計(jì)的科學(xué)性。因此,作為驗(yàn)證,兩個(gè)數(shù)據(jù)庫(kù)是合理的。
本研究發(fā)現(xiàn)大數(shù)據(jù)庫(kù)的生存分析與本研究的預(yù)測(cè)結(jié)果是完全一致的。在胃癌組織內(nèi)的表達(dá)和本研究的預(yù)測(cè)基本一致,顯示本研究的模型具有很高的準(zhǔn)確性。但本研究從腫瘤基質(zhì)評(píng)分的角度出發(fā),經(jīng)過(guò)差異表達(dá)分析、WGCNA“純化”、COX回歸模型預(yù)測(cè)得到的這6個(gè)基因,均是從生信分析的角度得到的結(jié)果,尚有待后續(xù)實(shí)驗(yàn)研究進(jìn)一步驗(yàn)證。