王沐淇,田 燕,李亞萍,黨雙鎖,賈曉黎
(西安交通大學(xué)第二附屬醫(yī)院感染科,陜西西安 710004)
肝癌是全球多發(fā)的惡性腫瘤,尤其在中國,肝癌的發(fā)生占世界總數(shù)的50%以上,是我國致死率第二位的惡性腫瘤[1-2]。肝細(xì)胞癌(hepatocellular carcinoma, HCC)是原發(fā)性肝癌的主要病理類型,存在起病隱匿、進(jìn)展快的特點(diǎn),多數(shù)患者診斷時即肝癌晚期,預(yù)后差,現(xiàn)有治療手段療效有限且代價巨大。因此,積極探索預(yù)測肝癌患者預(yù)后的模型有助于指導(dǎo)臨床制定個體化治療方案,改善患者生存期及預(yù)后。
長鏈非編碼RNA(long non-coding RNA, LncRNA)是轉(zhuǎn)錄本長度超過200個堿基的RNA,可通過調(diào)控表觀遺傳、轉(zhuǎn)錄水平、遺傳水平及蛋白質(zhì)修飾等參與個體發(fā)育、細(xì)胞分化等重要生命過程,表達(dá)異常則可能造成各種疾病的發(fā)生進(jìn)展[3]。目前,研究發(fā)現(xiàn)多種LncRNA在肝癌中表達(dá)異常,并影響肝癌的發(fā)生與進(jìn)展,具體的機(jī)制可能與介導(dǎo)細(xì)胞自噬、細(xì)胞凋亡調(diào)控細(xì)胞周期、維持肝癌干細(xì)胞自我更新等有關(guān)[4-8]。而細(xì)胞自噬是人體中廣泛存在的生理過程,可以將細(xì)胞質(zhì)中的受損、變性或衰老的蛋白質(zhì)和細(xì)胞器運(yùn)輸至溶酶體降解,不僅可以維持細(xì)胞穩(wěn)態(tài),降解產(chǎn)物還可為細(xì)胞提供能量[9]。自噬已被證明可以通過調(diào)控肝癌免疫、氧化應(yīng)激及細(xì)胞代謝等影響肝癌發(fā)生進(jìn)展,包括早期抑制肝癌發(fā)生、進(jìn)展期促進(jìn)腫瘤生長,并可提高腫瘤細(xì)胞放化療抗性[10-12]?,F(xiàn)已有多種LncRNA被發(fā)現(xiàn)可通過調(diào)節(jié)自噬影響多種疾病進(jìn)展,包括肝癌在內(nèi)的惡性腫瘤、心腦血管疾病、糖尿病、細(xì)菌感染以及神經(jīng)退行性疾病等[13-17]。因此,調(diào)控自噬可能是LncRNA影響肝癌發(fā)生進(jìn)展的重要環(huán)節(jié),自噬相關(guān)的LncRNA在肝癌預(yù)后預(yù)測中具有潛在的探索價值。
本研究擬通過生物信息學(xué)分析的方法對癌癥基因組圖譜(the Cancer Genome Atlas, TCGA)中肝細(xì)胞癌患者的轉(zhuǎn)錄組數(shù)據(jù)和臨床數(shù)據(jù)分析,構(gòu)建并驗證肝癌預(yù)后預(yù)測模型,期待為肝癌患者個體化治療提供依據(jù)。
1.1 數(shù)據(jù)獲取與處理截至2020年4月20日,從TCGA數(shù)據(jù)庫(https://portal.gdc.cancer.gov/)TCGA-LIHC project下載肝細(xì)胞癌374例癌組織和50例癌旁組織的轉(zhuǎn)錄本數(shù)據(jù)和相對應(yīng)的患者臨床信息,其中具有完整的臨床信息的患者共235例。將轉(zhuǎn)錄本數(shù)據(jù)注釋后分為mRNA和LncRNA兩部分,從mRNA中提取出自噬相關(guān)基因表達(dá)量(自噬相關(guān)基因來源為Human Autophagy Database, http://www.autophagy.lu/)。通過共表達(dá)分析得到與自噬相關(guān)基因表達(dá)高度相關(guān)的LncRNA,篩選標(biāo)準(zhǔn)為相關(guān)系數(shù)r≥0.6,P<0.001。
1.2 預(yù)后模型的構(gòu)建將上述得到的共表達(dá)的自噬相關(guān)LncRNA的表達(dá)量,與患者臨床預(yù)后信息合并,經(jīng)單因素Cox回歸分析得到肝癌預(yù)后相關(guān)的自噬LncRNA,篩選標(biāo)準(zhǔn)為單因素Cox回歸分析和Kaplan-Meier生存分析兩種方法均有經(jīng)FDR校正后的P<0.01。將預(yù)后相關(guān)的自噬LncRNA進(jìn)行癌組織和癌旁組織差異表達(dá)分析得到與肝癌預(yù)后相關(guān)且在肝癌組織差異表達(dá)的自噬LncRNA,篩選標(biāo)準(zhǔn)為LogFoldchange >1或<-1,P<0.05。將得到的自噬LncRNA作為因變量進(jìn)行曲線擬合篩選出最佳Cox比例風(fēng)險回歸模型,根據(jù)赤池信息量(akaike information criterion, AIC)準(zhǔn)則選擇AIC值最小的模型。AIC值越小,則表示該模型越能更好地解釋數(shù)據(jù)且包含更少自由參數(shù)。
1.3 預(yù)后模型驗證得到上述最優(yōu)模型后,按照risk score=Σcoef基因i×基因i表達(dá)量計算出所有患者的風(fēng)險值,根據(jù)受試者工作曲線(receiver operating characteristic curve, ROC)中約登指數(shù)最大時的風(fēng)險值將患者分為高、低風(fēng)險組。驗證風(fēng)險值是否能夠預(yù)測肝癌預(yù)后的方式主要采?。孩俜菂?shù)檢驗檢測患者不同臨床病理特征因素(年齡、性別、病理分期及TNM分期等)分組中risk score是否具有差異;②生存分析得到預(yù)測模型在肝癌患者中的生存曲線;③R軟件繪制時間依賴的ROC曲線評估預(yù)測模型預(yù)測肝癌預(yù)后的準(zhǔn)確性;④Cox回歸分析驗證risk score和其他臨床病理因素是否是肝癌患者預(yù)后不佳的危險因素。
1.4 基因富集分析(gene set enrichment analysis, GSEA)整理上述模型中6個預(yù)后相關(guān)的自噬LncRNA的表達(dá)量及對應(yīng)患者risk score,再進(jìn)行GSEA分析得到高低風(fēng)險組中基因富集的信號通路,使用GSEA 4.0.3軟件進(jìn)行GSEA分析。
1.5 統(tǒng)計學(xué)分析采用SPSS 22.0、R軟件(版本3.6.1)和Graphpad prism 5.0進(jìn)行統(tǒng)計分析和畫圖,使用的R包有Limma、Survival包等?;颊吣挲g、自噬相關(guān)基因和LncRNA表達(dá)量為計量資料,均為偏態(tài)分布,以中位數(shù)(25%,75%)表示。自噬相關(guān)基因與LncRNA的相關(guān)性采用Pearson相關(guān)性分析。非參數(shù)檢驗(Mann-WhitneyU檢驗)分析不同患者臨床病理特征分組中風(fēng)險值是否有差異。采用KM法分析高、低風(fēng)險組及自噬LncRNA高低表達(dá)組患者總生存期,log-rank法檢驗P值。單因素和多因素Cox回歸分析評估風(fēng)險值和其他臨床因素是否是肝癌預(yù)后不佳的風(fēng)險因素。通過Graphpad prism 5.0畫出生存分析圖和森林圖,通過SPSS 22.0畫出ROC曲線圖。P<0.05為差異有統(tǒng)計學(xué)意義。
2.1 自噬相關(guān)LncRNA的提取原始數(shù)據(jù)中包含19 658個mRNA,14 142個LncRNA,從中將Human Autophagy Database中獲取的232個人類自噬相關(guān)基因表達(dá)量提取出來,根據(jù)相關(guān)系數(shù)r≥0.6,P<0.001的標(biāo)準(zhǔn)得到582個與自噬相關(guān)基因相關(guān)的LncRNA。
2.2 預(yù)后預(yù)測模型構(gòu)建將上述582個自噬LncRNA表達(dá)量與相應(yīng)患者臨床預(yù)后信息整合,單因素Cox回歸分析得到38個與肝癌預(yù)后相關(guān)的LncRNA,將在癌組織和癌旁組織差異表達(dá)超過2倍、且校正P<0.05的23個納入Cox比例風(fēng)險回歸模型建模,23個差異表達(dá)的預(yù)后相關(guān)自噬LncRNA表達(dá)量箱線圖如圖1所示。經(jīng)Schoenfeld殘差圖示法和線性相關(guān)檢驗證實23個協(xié)變量均不隨時間變化而變化,得到最佳模型由6個LncRNA構(gòu)成,據(jù)此得到的風(fēng)險指數(shù)risk score=MKLN1-AS×0.004 9+AC012360.3×(-0.004 8)+AC145207.5×0.002 7+AL513320.1×0.017 6+AC099850.3×0.004 6+AL049840.2×0.012 4。
圖1 23個差異表達(dá)的肝癌預(yù)后相關(guān)自噬LncRNA表達(dá)
2.3 預(yù)后預(yù)測模型驗證
2.3.1不同臨床病理特征分組中患者risk score比較 上述預(yù)后模型構(gòu)建后,根據(jù)上述公式計算出每個肝癌患者的風(fēng)險指數(shù),分析患者不同臨床病理特征因素(年齡、性別、病理分期、TNM分期等)分組中risk score差異,如表1所示。不同病理分級分期的患者風(fēng)險值不同,風(fēng)險值可能與肝癌疾病進(jìn)展有關(guān)。
表1 預(yù)后預(yù)測模型風(fēng)險值在肝癌患者中的臨床意義
2.3.2預(yù)后預(yù)測模型中自噬LncRNA和risk score生存分析 根據(jù)ROC曲線坐標(biāo)點(diǎn)提供的敏感度和特異度信息,得到風(fēng)險值最佳截斷點(diǎn)(約登指數(shù)=靈敏度+特異度最大時risk score值)為0.812,據(jù)此將患者分為高、低風(fēng)險2組,以中位數(shù)為截斷點(diǎn)將自噬LncRNA表達(dá)量分為高、低表達(dá)2組,KM分析得到生存曲線見圖2。圖2為自噬LncRNA高、低表達(dá)時的生存曲線,圖3為高、低風(fēng)險組的生存曲線,均有P<0.05,表示這6種自噬LncRNA和其構(gòu)建的模型均可作為預(yù)測肝癌預(yù)后的因子。高、低風(fēng)險組患者中位生存時間分別為6.937、2.323年,圖4為該預(yù)后預(yù)測模型1、2、3、4、5、6年生存時間對應(yīng)的ROC曲線,曲線下面積分別為0.760、0.729、0.731、0.722、0.696和0.685,表示risk score作為肝癌預(yù)后預(yù)測因子準(zhǔn)確性較高。
2.3.3高riskscore是肝癌預(yù)后不佳的危險因素如表2所示,通過單因素和多因素Cox回歸分析risk core和年齡、性別、病理分級、臨床分期等臨床病理因素對肝癌患者生存期的影響,可看到排除臨床混雜因素后,risk score仍可作為肝癌預(yù)后預(yù)測的獨(dú)立因子,是肝癌患者預(yù)后不佳的危險因素。
圖2 與肝癌預(yù)后有關(guān)的自噬LncRNA生存曲線
2.4 GSEA分析GSEA分析得到高風(fēng)險組基因主要富集在細(xì)胞周期、細(xì)胞自噬、腫瘤、泛素介導(dǎo)的蛋白水解作用、RNA降解、基本轉(zhuǎn)錄因子、多糖生物合成、神經(jīng)營養(yǎng)素信號通路等,低風(fēng)險組在基因集中富集則未見明顯差異(表3)。
圖3 基于預(yù)后預(yù)測模型的risk score繪制的生存曲線
生物信息學(xué)是一門集生物學(xué)、應(yīng)用數(shù)學(xué)、信息學(xué)、計算機(jī)科學(xué)、統(tǒng)計學(xué)為一身的多學(xué)科交叉科學(xué)[18]。它以基因組DNA序列信息分析為基礎(chǔ),闡明基因序列中的編碼區(qū)和非編碼區(qū)的信息實質(zhì),歸納、整理與分析生物學(xué)數(shù)據(jù),從而認(rèn)識代謝、發(fā)育、分化、疾病的規(guī)律,在實際應(yīng)用中則可進(jìn)行蛋白質(zhì)空間結(jié)構(gòu)的模擬和蛋白質(zhì)功能的預(yù)測,最終達(dá)到分子設(shè)計、藥物設(shè)計和個體化醫(yī)療方案設(shè)計。
圖4 預(yù)后預(yù)測模型不同生存時間節(jié)點(diǎn)的ROC曲線
隨著生物信息學(xué)技術(shù)的發(fā)展,已有多個LncRNA相關(guān)模型被構(gòu)建用來預(yù)測惡性腫瘤患者的預(yù)后,如胰腺癌、乳腺癌、結(jié)直腸癌、肝癌等[19-22],但自噬相關(guān)LncRNA的肝癌預(yù)測模型尚未構(gòu)建。鑒于自噬在肝癌進(jìn)展中的重要作用,本研究用生物信息學(xué)技術(shù)構(gòu)建了肝癌的自噬相關(guān)LncRNA預(yù)后預(yù)測模型,由6種在肝癌中特異表達(dá)且最具有預(yù)后預(yù)測意義的LncRNA構(gòu)成,分別是MKLN1-AS、AC012360.3、AC145207.5、AL513320.1、AC099850.3和AL049840.2。其中已有2項研究將MKLN1-AS納入構(gòu)建肝癌的預(yù)后預(yù)測模型[23-24], AC099850.3則被納入舌鱗狀細(xì)胞癌預(yù)后預(yù)測模型中[25],其他幾種LncRNA相關(guān)研究較少。本研究數(shù)據(jù)分析發(fā)現(xiàn),這6種LncRNA在肝癌組織中均高表達(dá),生存分析發(fā)現(xiàn)高表達(dá)與肝癌預(yù)后相關(guān)。根據(jù)構(gòu)建的預(yù)后模型得到的risk score將患者分為高、低風(fēng)險兩組,高風(fēng)險組與低風(fēng)險組中位生存時間分別為6.937、2.323年,高風(fēng)險組預(yù)后不佳。預(yù)測模型1、2、3、4、5、6年生存的ROC曲線下面積分別為0.760、0.729、0.731、0.722、0.696和0.685,說明該預(yù)測模型具有較好的靈敏度和特異度,但結(jié)果可能受采用的TCGA數(shù)據(jù)庫中的肝癌患者數(shù)據(jù)影響,該模型仍需在其他肝癌患者數(shù)據(jù)中進(jìn)行驗證,且隨著生存時間延長該模型的靈敏度和特異度下降。此外,本研究發(fā)現(xiàn),預(yù)后預(yù)測模型風(fēng)險值與疾病分期、病理分級
表2 風(fēng)險值與其他臨床病理特征因素Cox回歸分析
表3 基于6個自噬LncRNA構(gòu)建的預(yù)后模型得到高、低風(fēng)險組基因富集分析
和T分期有關(guān),表明這6種自噬LncRNA構(gòu)建的模型可能與肝癌進(jìn)展有關(guān)。GSEA分析得到高風(fēng)險組基因主要富集在細(xì)胞周期、細(xì)胞自噬、腫瘤、泛素介導(dǎo)的蛋白水解作用、RNA降解等,表明這6種自噬LncRNA的功能可能與上述有關(guān),但這仍需進(jìn)一步實驗證明。后續(xù)將開展前瞻性實驗驗證該預(yù)后預(yù)測模型是否可以在一定程度上評估患者預(yù)后,以及這6種LncRNA影響肝癌進(jìn)展的具體機(jī)制。
本研究建立了由MKLN1-AS、AC012360.3、AC145207.5、AL513320.1、AC099850.3和AL049840.2構(gòu)成的肝癌自噬相關(guān)LncRNA預(yù)后預(yù)測模型,并認(rèn)為這個模型在預(yù)測肝癌患者預(yù)后方面具有較好的靈敏度和特異度,并準(zhǔn)備后續(xù)進(jìn)行前瞻性實驗繼續(xù)驗證該模型的穩(wěn)定性。