包德榮 朱鑫杰 毛夢暉 陳文波 趙思哲 王琳 徐笑飛 宋斌斌*
胃腺癌(STAD)是全球第五大常見癌癥和第四大常見癌癥死亡原因[1]。在過去10 年中,雖然個體化靶向治療已在胃腺癌中取得進展[2],但已經(jīng)落后于某些其他腫瘤類型(如非小細胞肺癌)[3],一些患者從靶向治療中獲益顯著,仍有較大一部分患者在接受靶向治療后效果不顯著、副作用大甚至出現(xiàn)不良反應(yīng),這突顯對胃腺癌預(yù)后和新治療靶點的準確預(yù)測模型的迫切需求。因此,確定潛在的胃腺癌治療靶點和建立準確的預(yù)后模型對胃腺癌個性化治療具有重要意義。RNA 編輯是指一種在RNA由聚合酶生成之后其轉(zhuǎn)錄自DNA的核酸序列又發(fā)生改變的分子生物學(xué)過程[4],其可以改變RNA序列,RNA 編輯比基因表達更具腫瘤特異性[5],且不受分離的RNA 數(shù)量和參考基因選擇的個體間差異的影響。因此,作為一種生物標志物,RNA 編輯在穩(wěn)定性和可靠性方面優(yōu)于基因表達。本研究應(yīng)用癌癥基因組圖譜(TCGA)建立預(yù)測模型預(yù)測STAD 患者總生存期(OS),并根據(jù)ATIRE 風(fēng)險評分和臨床病理特征構(gòu)建預(yù)測STAD OS 的列線圖。
1.1 數(shù)據(jù)收集 從TCGA 數(shù)據(jù)庫(https://portal.gdc.cancer.gov/)下載STAD 患者腫瘤組織和正常組織的轉(zhuǎn)錄組數(shù)據(jù)和臨床信息。TCGA 胃腺癌數(shù)據(jù)庫有32 個為正常樣本,375 個為腫瘤樣本。用PERL 軟件提取臨床信息,包括:樣品名稱、生存時間、生存狀態(tài)、年齡、性別、分級、分期以及TNM 分期。從Synapse 網(wǎng)站(https://www.synapse.org/#!Synapse:syn2374375/files/)下載TCGA-STAD 樣品的RNA 編輯數(shù)據(jù),采用PERL軟件刪除缺失值>30%的數(shù)據(jù)。然后將RNA 編輯數(shù)據(jù)和生存數(shù)據(jù)合并。
1.2 預(yù)后模型構(gòu)建 僅有282 個樣本擁有現(xiàn)有的ATIRE 數(shù)據(jù)被納入本研究,并以6 ∶4 隨機分為訓(xùn)練集(n=170)和驗證集(n=112)。通過單因素COX 回歸分析初篩STAD 患者預(yù)后相關(guān)RNA 編輯,再通過套索算法(least absolute shrinkage and selection operator,LASSO)回歸對訓(xùn)練集的胃腺癌患者預(yù)后相關(guān)RNA 編輯進行降維,并應(yīng)用多元Cox 回歸模型篩選出最優(yōu)的RNA 編輯構(gòu)建胃腺癌的預(yù)后模型,得到模型的公式,并獲得每個樣本的風(fēng)險評分(Riskscore)。基于獲得Riskscore 的中位數(shù),將訓(xùn)練集患者分為高風(fēng)險組及低風(fēng)險組。同時將驗證集的樣品根據(jù)Riskscore 的中位數(shù),將驗證集的數(shù)據(jù)也劃分為高低風(fēng)險兩組。應(yīng)用驗證集數(shù)據(jù)對預(yù)測模型進行檢驗,并采用ROC 曲線及校正曲線顯示預(yù)測模型在訓(xùn)練集和驗證集中預(yù)測模型的效能。采用Kaplan-Meier 法對訓(xùn)練集、驗證集進行生存分析。
1.3 列線圖(Nomogram)構(gòu)建 采用單因素及多因素Cox 風(fēng)險回歸,將上述獲得的Riskscore 與患者的臨床特征(年齡、性別、腫瘤分級、分期)進行獨立預(yù)后分析,獲得胃腺癌患者獨立預(yù)后因子并構(gòu)建列線圖。采用校正曲線、ROC 曲線、決策曲線分析該聯(lián)合模型的效能及臨床實用性。
1.4 差異基因與富集分析 采用高、低風(fēng)險組間的差異表達基因(DEGs)進行富集分析,包括基因本體論(GO)分析和京都基因與基因組百科全書(KEGG)分析。分析RNA 編輯與基因表達的相關(guān)性,Riskscore 與ADAR 基因表達的相關(guān)性,腫瘤組織和正常組織中選定ATIRE 位點編輯水平的差異。
1.5 統(tǒng)計學(xué)方法 采用R(4.2.1)語言統(tǒng)計軟件。差異分析使用Wilcoxon 秩和檢驗,相關(guān)性分析采用Pearson相關(guān)。P<0.05 為差異有統(tǒng)計學(xué)意義。
2.1 基線臨床病理特征 TCGA-STAD 病例的臨床病理特征見表1。訓(xùn)練集與驗證集在年齡、性別、分級、TNM 分期等方面差異無統(tǒng)計學(xué)意義(P>0.05)。
表1 TCGA數(shù)據(jù)集中STAD患者臨床資料[n(%)]
2.2 預(yù)后模型的構(gòu)建 通過訓(xùn)練集的單變量CoxpH 分析,共發(fā)現(xiàn)5 個ATIRE 位點與STAD OS 相關(guān)(P<0.001)。ZNF91|chr19:23542060、RNF149|chr2:101891615、KRIT1|chr7 :91829808、ARSD|chrX :2824214、OSGEPL1|chr2:190612029 這5 個位點作為最優(yōu)預(yù)后位點,并用Lasso 分析法進行ATIRE 風(fēng)險評分,見圖1。利用LASSO 分析得到ATIRE 各位點的系數(shù),得到ATIRE 風(fēng)險評分:(11.98×ZNF91|chr19:23542060)+(9.77×ARSD|chrX:2824214)+(-14.13×RNF149|chr2:101891615)+(12.54×OSGEPL1|chr2:190612029)+(11.31×KRIT1|chr7:91829808)。5 個ATIRE 站點的風(fēng)險評分、生存狀態(tài)和編輯水平分布,ZNF91|chr19:23542060、ARSD|chrX:2824214、OSGEPL1|chr2:190612029、KRIT1|chr7:91829808 在高風(fēng)險組中高表達,RNF149|chr2:101891615 在高風(fēng)險組中低表達。高風(fēng)險組OS 在訓(xùn)練集(P<0.001)、驗證集(P=0.0014)和所有患者組(P<0.001)中均明顯降低。高低風(fēng)險組在年齡、性別、分級、分期、TNM 分期差異無統(tǒng)計學(xué)意義(P>0.05)。見圖2-3。
圖1 STAD患者生存相關(guān)ATIRE位點的鑒定 A. 曼哈頓圖描繪了所有ATIRE位點與STAD生存間的聯(lián)系,以單變量Cox-PH模型中-Log 10尺度的P值為x軸,以ATIRE位點的染色體位置為y軸。點橙色線表示P=0.001的顯著性截斷。B. LASSO回歸的結(jié)果;C. 選擇最佳ATIRE位點(λ)和虛線垂直線的交叉驗證
圖2 ATIRE風(fēng)險評分與STAD患者預(yù)后的關(guān)系。訓(xùn)練集(A)和驗證集(B)7個ATIRE位點的ATIRE風(fēng)險評分、生存狀態(tài)和編輯水平的分布,以及在訓(xùn)練集(C)和驗證集(D)中按風(fēng)險評分分組的生存概率的可視化Kaplan-Meier圖
圖3 不同臨床特征患者ATIRE風(fēng)險評分的差異,A-G:年齡、性別、分級、分期、T分期、N分期、M分期
2.3 基于ATIRE 列線圖的建立及預(yù)測性能評價 Cox單變量分析臨床特征和風(fēng)險評分對患者生存率的影響。除性別、年齡、分級外,分期和Riskscore 可影響預(yù)后;多變量分析結(jié)果表明Riskscore 和分期是獨立預(yù)后因素,見圖4。根據(jù)ATIRE 風(fēng)險評分和臨床病理特征,包括年齡、性別、分級、分期、T 分期、N 分期和M 分期建立列線圖。校準圖顯示出在1 年、2 年和3 年觀察到OS 率與列線圖預(yù)測OS 率之間有更好的一致性。ROC曲線和決策曲線顯示Risk(AUC=0.802)和Nomogram(AUC=0.800)遠大于單一臨床病理特征。表明建立的模型比單一臨床病理特征具有更高的凈效益,能夠更準確預(yù)測患者OS 率。見圖5。
圖5 基于ATIRE風(fēng)險評分和臨床病理特征的預(yù)后列線圖的性能。A:預(yù)測STAD患者1、3、5年OS概率的列線圖;B:校正曲線顯示,在1年、2年和3年觀察到的OS率與列線圖預(yù)測的OS率一致;決策曲線(C)和ROC曲線(D)描述了簡單ATIRE風(fēng)險評分、臨床病理特征以及ATIRE風(fēng)險評分和臨床病理特征相結(jié)合的不同列線圖在預(yù)測1年OS率的凈效益方面的比較
2.4 富集分析 比較高低風(fēng)險組中基因的表達水平,并篩選出差異表達基因(DEGs)。2 個組共鑒定出210個DEGs,高風(fēng)險組中189 個基因上調(diào),21 個基因下調(diào)。GO 功能富集分析表明,差異表達基因影響腫瘤發(fā)生發(fā)展的機制主要涉及細胞黏附及突觸相關(guān)的通路,如:突觸組織、通過質(zhì)膜黏附分子的細胞-細胞黏附、細胞連接組裝、通過質(zhì)膜黏附分子的嗜同質(zhì)細胞黏附、突觸前、谷氨酸能突觸、不對稱突觸、神經(jīng)元間突觸。KEGG 功能富集分析表明,差異表達基因富含鈣信號通路、肌動蛋白細胞骨架的調(diào)節(jié)、類固醇激素生物合成通路。見圖6。
圖6 與ATIRE風(fēng)險評分相關(guān)的差異表達基因和相關(guān)生物學(xué)途徑。A. 用火山圖顯示高危患者與低?;颊叩牟町惐磉_基因。B. 基于TCGA數(shù)據(jù)的ATIRE相關(guān)基因GO途徑富集分析;C. 基于TCGA數(shù)據(jù)的ATIRE相關(guān)基因KEGG途徑富集分析
2.5 RNA 編輯和基因表達相關(guān)性分析 RNA 編輯與KRIT1 存在相關(guān)性(P<0.05)。ATIRE 風(fēng)險評分和ADAR1 在TCGA-STAD 腫瘤組織中的表達存在相關(guān)性(P<0.05)。RNF149|chr2:101891615 和ZNF91|chr19:23542060 在腫瘤組織和正常組織間差異有統(tǒng)計學(xué)意義(P<0.05)。見圖7。
圖7 ATIRE位點選擇對基因表達的影響。A-E. STAD腫瘤組織中ATIRE位點編輯水平與宿主基因表達的相關(guān)性;F. 風(fēng)險評分與ADAR基因表達的相關(guān)性;G-K. STAD腫瘤組織和正常組織中選定ATIRE位點編輯水平的差異
建立胃腺癌預(yù)后預(yù)測模型不僅可以預(yù)測癌癥預(yù)后結(jié)果,還可以對治療方案進行優(yōu)化。近年來,胃腺癌預(yù)后預(yù)測模型雖然有較大進展。因此,探索新的模型,特別是基于新型分子標記的模型,對于提高預(yù)測模型的可用性和準確性仍然具有研究價值和現(xiàn)實意義。這個研究成功確定了5 個ATIRE 位點,生成了一個ATIRE 風(fēng)險評分,用于STAD 預(yù)后風(fēng)險分層,與STAD OS 相關(guān)。結(jié)合風(fēng)險評分和臨床病理特征的列線圖對STAD OS 具有較好的預(yù)測性能。
最近,ATIRE 越來越多被用來表征癌癥。本文通過Cox-pH 回歸和Lasso 算法,確定5 個與OS 相關(guān)的ATIRE 位點是LUSC 的最佳預(yù)后因素。除OSGEPL1 外,這些位點大多數(shù)位于已被認為與胃腺癌發(fā)展有關(guān)的基因中。ZNF91 基因被鑒定為胃腺癌新的重要突變驅(qū)動基因[6]。癌癥分泌的外體miR-21-5p 通過靶向KRIT1誘導(dǎo)血管生成和血管通透性[7]。此外,ARSD 表達與乳腺癌細胞中的ERα 狀態(tài)呈正相關(guān),這與良好的預(yù)后相關(guān),ARSD 可能作為預(yù)測預(yù)后的潛在標志物和作為治療靶點[8]。RNF149 作為E3 連接酶參與蛋白質(zhì)泛素化[9],引起蛋白酶體介導(dǎo)的底物蛋白降解[10-11],與鼻咽癌細胞惡性進展有關(guān)[12]。這些證據(jù)是支持這些ATIRE 位點與STAD 預(yù)后間的功能基礎(chǔ)。
關(guān)于這些位點如何與STAD 生存相關(guān)的潛在機制仍然完全未知。據(jù)報道,ATIRE 可能導(dǎo)致非同義氨基酸突變、選擇性剪接的錯誤調(diào)節(jié)、密碼子偏好紊亂以及microRNA-mRNA 重定向或RNA 結(jié)合蛋白-mRNA 重定向,從而影響基因的表達或功能[13]。此外,在STAD腫瘤組織和正常組織間觀察到RNF149|chr2:101891615和ZNF91|chr19:23542060 的編輯水平差異有統(tǒng)計學(xué)意義,表明這些位點可能涉及STAD 發(fā)生。
GO 分析表明,可能參與GC 的DEGs 主要富含突觸、細胞黏附和囊泡的調(diào)節(jié),這些均是腫瘤增殖,侵襲和轉(zhuǎn)移的重要參與者[14-15]。外泌體作為小細胞外囊泡(sEVs),可將生物活性分子傳遞給受體細胞,是重組腫瘤行為、重塑腫瘤微環(huán)境和賦予治療耐藥性的重要介質(zhì),為胃腺癌的診斷和治療提供新的靶點[16-17]。KEGG分析表明,可能參與GC 的DEGs 主要富含鈣信號通路和肌動蛋白細胞骨架的調(diào)節(jié),鈣信號通路是促進癌細胞生長,侵襲和代謝的細胞內(nèi)和細胞間信號傳導(dǎo)途徑中的關(guān)鍵第二信使[18]。
根據(jù)上述ATIRE 風(fēng)險評分和臨床病理特征,包括年齡、性別、分級、分期、T 分期、N 分期和M 分期建立列線圖。列線圖和Risk 在預(yù)測STAD 的OS 方面具有中等精度,在預(yù)測OS 率方面顯示出比Stage 和Grade更好的總體凈效益。在有效性方面,之前發(fā)布的基于基因表達的列線圖的Harrell C 指數(shù)范圍為0.55~0.888[19],與之相比,基于ATIRE 列線圖展現(xiàn)出相對優(yōu)越的性能。
總之,本研究首次生成了與STAD 患者的OS 相關(guān)的ATIRE 風(fēng)險評分。結(jié)合ATIRE 風(fēng)險評分和臨床病理特征的列線圖對STAD OS 具有良好的預(yù)測性能。這需要大量前瞻性集合來驗證該模型的穩(wěn)健性,以評估其在臨床中的應(yīng)用價值。