王雨芊,陳亞玫,楊 潔,林 媛,駱盈盈,張少森,吳 晨*
(1.國家癌癥中心 國家腫瘤臨床醫(yī)學研究中心 中國醫(yī)學科學院北京協(xié)和醫(yī)學院腫瘤醫(yī)院 分子腫瘤學國家重點實驗室病因及癌變研究室 癌發(fā)生及預防分子機理北京市重點實驗室,北京 100021;2.北京大學北京未來基因診斷高精尖創(chuàng)新中心 生物醫(yī)學前沿創(chuàng)新中心,北京 100871)
胃癌與食管癌在2020年全球惡性腫瘤發(fā)病率中分別排第5和第8位,全球范圍內每年有超過130萬死亡病例。胃食管交界處腺癌(adenocar-cinoma at the gastroesophageal junction, ACGEJ)是一種位于食管與胃交界處的惡性腫瘤。雖然近40年來胃癌的發(fā)病率逐年下降[1],ACGEJ的發(fā)病率卻仍在驚人地增加[2]。目前,ACGEJ的治療方式仍以手術為主,術后5年的生存率僅為20%~25%,低于食管癌和胃癌[3-4]。因此,全面了解ACGEJ發(fā)生和進展過程中的分子特征,發(fā)現(xiàn)與預后相關的分子標志物對改善患者預后十分重要。
惡性腫瘤發(fā)生發(fā)展中的重要基因會影響一系列關鍵細胞功能穩(wěn)態(tài),全面鑒定影響腫瘤演變的關鍵基因及其通路。能夠為建立預警、早診和指導靶向精準治療奠定基礎[5]。研究人員在本研究中獲得了58例ACGEJ患者的轉錄組測序數據,鑒定出癌與癌旁組織間差異表達的關鍵基因,分析了差異基因在腫瘤進展中的促進作用和臨床潛在價值,將差異基因與患者預后進行了系統(tǒng)的關聯(lián)分析,鑒定出9個與預后顯著相關的關鍵基因,并結合患者臨床信息建立了nomogram生存預測模型。
研究中樣本取自2016年5月至11月于河南省林州腫瘤醫(yī)院和林州食管癌醫(yī)院接受手術切除治療的ACGEJ患者。共獲得58例ACGEJ患者的腫瘤組織和癌旁組織樣本(距離腫瘤邊緣位置5 cm以上),患者均未進行手術前放射治療及化學治療。每位患者的病理資料由病案系統(tǒng)查詢獲得,臨床分期依據UICC/AJCC癌分期手冊第七版(胃癌)進行判定,患者的總生存時間由電話隨訪收集。本研究已獲得中國醫(yī)學科學院腫瘤醫(yī)院倫理委員會的審查批準(批準文號:20/069-2265),并且所有患者均簽署知情同意書。
1.2.1 轉錄組測序:每個樣本的病理信息由2名病理醫(yī)生評判,并保證測序的腫瘤樣本中腫瘤細胞含量>60%,壞死組織<20%,癌旁樣本不含腫瘤細胞。研究提取腫瘤與癌旁組織的RNA并于Illumina HiSeq 2000平臺上進行雙端測序,獲得58對ACGEJ腫瘤組織與癌旁組織配對的轉錄組數據。
1.2.2 差異表達基因的分析:通過HISAT2軟件將轉錄組測序數據匹配到Ensembl GRCh37版本的人類基因組,使用StringTie軟件[6]對RNA進行組裝,獲得具體基因的表達量,并對轉錄組數據進行對數轉換的標準化。
采用R包limma對58對腫瘤與其配對癌旁組織的RNA數據進行差異顯著性檢驗,并采用Benjamini-Hochberg方法進行校正分析,避免假陽性結果的發(fā)生,并以|log2fold change (FC)|>1.2且Q<0.05作為顯著差異表達基因(differentially expressed genes,DEGs)的判斷標準。
1.2.3 通路富集的分析:為計算癌與癌旁組織間通路或者特定基因集的表達活性,將顯著差異表達的基因進行了基因集變化分析(gene set variation analysis,GSVA)。具體來說,研究使用R語言的GSVA包進行計算,得到樣本間的GSVA 分數,并用R 包limma對GSVA分數進行差異分析,獲得在腫瘤與癌旁組織間通路對比分數(t值)。GSVA分析中納入的通路均來自MSigDB數據庫,包括50條Hallmark通路和代表生物學過程的基因本體論(gene ontology,GO)功能基因集。
1.2.4 生存期分析:研究基于LASSO回歸對在腫瘤組織與癌旁組織中差異表達的基因進行篩選,得到與ACGEJ患者總生存相關的基因,并構建預后相關基因集。研究使用多因素cox風險回歸分析評估預后基因集在ACGEJ中預測總生存期(overall survival,OS)的能力,根據3年受試者操作特性曲線(receiver operating characteristic curve,ROC)轉折點進行風險劃分,將患者劃分成高風險(22例)和低風險(14例)兩組,并計算ROC曲線下面積(area under curve,AUC)。通過R包survminer對兩組樣本的OS進行Kaplan-Meier圖可視化和對數秩檢驗的差異分析。研究綜合臨床病理信息和預后相關基因集的風險特征,使用R包rms構建預測ACGEJ生存的nomogram[7]。為評估預測模型的預測精度,研究計算了模型的一致性指數(concordance index,c-index),以及使用圖形校準法繪制關于患者的模型預測概率與實際生存概率的標準曲線。
58例ACGEJ患者年齡為42~80歲,中位年齡65歲;其中,男性44例(75.9%),女性14例(24.1%)。這些患者中包含Ⅰ期患者6例,Ⅱ期患者10例,III期患者42例,無IV期患者。全組患者中已死亡病例15例,目前生存患者21例,失訪22例,中位隨訪時間為45個月(表1)。
表1 ACGEJ臨床特征的cox單因素回歸分析結果
在58例ACGEJ患者腫瘤組織和癌旁組織對照HR.hazard ratio;CI.confidence interval.
中發(fā)現(xiàn)558個顯著上調表達的基因和179個顯著下調表達的基因。按照差異倍數排序,在腫瘤組織中表達上調前5位的關鍵基因為:CST1、INHBA、CLDN3、SPP1和SFRP4[8-12]。在腫瘤組織中表達下調前5位的關鍵基因為PGA5、LIPF、PGA4、CBLIF和ATP4B(圖1)。
圖1 ACGEJ中的差異表達基因Fig 1 Differentially expression genes in ACGEJ
與癌旁組織相比,ACGEJ腫瘤組織中蛋白質磷酸化、mTORC1信號、G2M檢查點、紡錘體有絲分裂、KRAS相關基因激活等通路具有顯著富集。而維持細胞穩(wěn)態(tài)、KRAS相關基因抑制等通路在腫瘤組織中顯著下調(圖2)。
圖2 GSVA通路富集分析Fig 2 GSVA enrichment analysis
在LASSO回歸分析中,篩選出9個與ACGEJ預后顯著相關的差異表達基因:ASF1B、ACTN1、KNL1、SAPCD2、TP53I11、DMBT1、CNFN、ID2和DPT。研究將預后相關基因構建多因素生存預測模型,該模型AUC為0.79。Kaplan-Meier 生存分析顯示低風險組的總生存期顯著高于高風險組(Log-rank檢驗P<0.01)(圖3)。
圖3 預后特征基因集的生存曲線Fig 3 Kaplan-Meier curves of 3-year overall survival for the prognosis gene set
選取腫瘤樣本臨床病理特征中的年齡、臨床分期和預后相關基因的風險情況建立了nomogram生存預測模型(圖4)。該nomogram圖中每個預測變量的評分相加的總分值,可以預測ACGEJ患者未來3年的生存情況。該模型的c-index為0.81,同時標準曲線圖顯示該模型的預測值與實際觀測值的吻合度較好(圖5)。
圖4 ACGEJ nomogram 3年生存預測模型Fig 4 Nomogram predicts 3-year overall survival for ACGEJ patients
圖5 ACGEJ預測模型calibration圖Fig 5 The calibration curves for predicting ACGEJ survival at 3 years
近年來,ACGEJ的發(fā)病率在全球持續(xù)增高,尤其是在中國地區(qū)[13],需要更多為ACGEJ的臨床靶向治療提供理論基礎的研究。在本研究中利用轉錄組數據,深入挖掘了在ACGEJ與癌旁組織中差異表達的基因,并基于這些差異基因構建了一個多基因生存預測模型。通過結合臨床特征繪制nomogram,利用這一模型可較好地預測ACGEJ患者的生存狀況,說明該模型有潛在的臨床價值。
基因表達失調是腫瘤發(fā)生中的主要標志,研究分析轉錄組在腫瘤組織中的改變能夠為臨床治療提供更多的機會[14],本研究獲得的在腫瘤組織中表達上調前5位的關鍵基因均被作為胃癌或其他腫瘤的腫瘤標志物進行過相關研究,能夠促進腫瘤細胞的增殖、遷移和侵襲,在上皮-間充質轉化中發(fā)揮作用等。此外,在腫瘤顯著下調的基因中,PGA5和PGA4為編碼胃蛋白酶原I(PGI)的基因,PGI的降低常作為胃癌篩查的重要指標[15]。據此推測臨床上可參考PGI指標輔助ACGEJ篩查與診斷。
本研究對ACGEJ的差異基因進行了系統(tǒng)的功能富集分析,發(fā)現(xiàn)一類差異基因顯著富集在與細胞增殖相關的通路上,與腫瘤的發(fā)生發(fā)展密切相關。此外,另一類差異基因富集在上皮間充質轉換(EMT)通路上,EMT是腫瘤細胞獲得遷移和侵襲能力的重要過程,說明這些差異基因參與了腫瘤的侵襲轉移過程。還有一類基因富集在KRAS上調激活通路,KRAS蛋白能夠激活多種細胞內信號傳導途徑,從而誘導細胞增殖、遷移、轉化和存活,說明KRAS通路的激活在ACGEJ的發(fā)展過程中起到重要作用。
現(xiàn)有的研究對ACGEJ的預后分析多以單因素為主[16],而應用多因素分析構建預測ACGEJ的生存模型報道較少。本研究鑒定出9個基因的表達與ACGEJ患者的預后顯著相關,這個預后相關基因集構建的多因素生存預測模型能夠較好地對ACGEJ進行生存預測。根據以上9個基因構成預后相關基因集的風險評估值并結合患者臨床特征建立的nomogram模型,可以進一步提高預后基因集的生存預測能力,nomogram也可以轉換成易于使用的臨床檢測方法。該模型將為探索ACGEJ的預后標志物和建立新的臨床生存預測模型提供參考。