李孟祥,程維剛,陳 攀,馮笑山,高社干,齊義軍
(河南科技大學(xué) a.信息工程學(xué)院,b.臨床醫(yī)學(xué)院第一附屬醫(yī)院,中國(guó) 洛陽(yáng) 471023)
食管癌是全球最常見(jiàn)的惡性腫瘤之一,發(fā)病率和死亡率分別位居所有惡性腫瘤的第七位和第六位[1]。2015年,中國(guó)食管癌的新發(fā)病例和死亡病例分別為24.6萬(wàn)例和18.8萬(wàn)例[2],占全球新發(fā)病例和死亡病例的43%和36.9%。從組織學(xué)上看,中國(guó)食管癌90%以上為食管鱗狀細(xì)胞癌(Esophageal squamous cell carcinoma,ESCC)[3]。ESCC具有高度的侵襲和轉(zhuǎn)移能力,導(dǎo)致大部分ESCC患者初次確診時(shí)已發(fā)生腫瘤轉(zhuǎn)移,而腫瘤轉(zhuǎn)移是ESCC患者高死亡率、預(yù)后極差的主要原因之一。
食管黏膜及黏膜下層具有豐富的淋巴管網(wǎng),并具有獨(dú)特的淋巴引流方式,極易發(fā)生食管內(nèi)廣泛或跳躍性轉(zhuǎn)移及頸、胸、腹三野淋巴結(jié)轉(zhuǎn)移。淋巴結(jié)轉(zhuǎn)移與腫瘤浸潤(rùn)深度和腫瘤分化程度密切相關(guān),術(shù)中淋巴結(jié)清掃數(shù)目、淋巴結(jié)轉(zhuǎn)移陽(yáng)性數(shù)目、淋巴結(jié)轉(zhuǎn)移陽(yáng)性率等是判定ESCC預(yù)后的重要獨(dú)立危險(xiǎn)因素[4-6]。此外,淋巴結(jié)轉(zhuǎn)移也是ESCC TNM分期中重要的病理特征之一,直接影響ESCC患者術(shù)后治療方案的選擇[7]。因此,通過(guò)基因差異表達(dá)譜分析,確定與淋巴結(jié)轉(zhuǎn)移高度相關(guān)的分子變異,對(duì)于ESCC個(gè)體化精準(zhǔn)治療極其重要。
極端梯度提升(Extreme gradient boosting,XGBoost)是基于Boosting集成的一種機(jī)器學(xué)習(xí)算法,適用于大規(guī)模數(shù)據(jù)的分布式并行運(yùn)算。該算法具有高維數(shù)據(jù)處理、分析缺失值、運(yùn)算效率高及可遷移性強(qiáng)等優(yōu)點(diǎn),近年來(lái)被廣泛應(yīng)用于數(shù)據(jù)挖掘。本研究利用XGBoost算法分析基因表達(dá)數(shù)據(jù)庫(kù)(Gene expression omnibus,GEO)中ESCC mRNA轉(zhuǎn)錄組數(shù)據(jù),鑒定ESCC淋巴結(jié)轉(zhuǎn)移關(guān)鍵mRNA分子譜,構(gòu)建淋巴結(jié)轉(zhuǎn)移分類模型。
從GEO下載數(shù)據(jù)集GSE53624和GSE53622,這兩個(gè)數(shù)據(jù)集分別包括119例和60例ESCC和配對(duì)癌旁組織基因表達(dá)譜數(shù)據(jù),基因芯片平臺(tái)為GPL18109(Agilent-038314 CBC Homo sapiens lncRNA + mRNA microarray V2.0)。從https://www.agilent.com/下載平臺(tái)GPL18109的探針組序列,利用GENCODE和SeqMap進(jìn)行序列比對(duì),重新注釋數(shù)據(jù),提取mRNA表達(dá)譜數(shù)據(jù)。
根據(jù)文獻(xiàn)報(bào)道方法[8],為減少不同樣本之間異質(zhì)性的影響,將ESCC與配對(duì)癌旁組織表達(dá)值的差值作為ESCC mRNA表達(dá)譜數(shù)據(jù)。根據(jù)淋巴結(jié)轉(zhuǎn)移與否,將ESCC樣本分為淋巴結(jié)轉(zhuǎn)移陰性組(N0組)和淋巴結(jié)轉(zhuǎn)移陽(yáng)性組(N1組,包括臨床分期中N1,N2和N3),篩選淋巴結(jié)轉(zhuǎn)移相關(guān)mRNA分子。將GSE53624中119例ESCC樣本隨機(jī)分為訓(xùn)練集(60例)和測(cè)試集(59例),GSE53622中60例ESCC樣本作為獨(dú)立驗(yàn)證組。表1顯示了3個(gè)數(shù)據(jù)集中ESCC樣本的人口統(tǒng)計(jì)學(xué)和臨床病理特征,包括年齡、性別、腫瘤部位、腫瘤分級(jí)、T stage及TNM stage等。在60例訓(xùn)練集中,以student’s T檢驗(yàn)P<0.05和淋巴結(jié)轉(zhuǎn)移陽(yáng)性組與陰性組間表達(dá)值之差大于0.5為篩選標(biāo)準(zhǔn),鑒定ESCC淋巴結(jié)轉(zhuǎn)移相關(guān)的差異表達(dá)mRNA分子。
XGBoost算法以CART分類樹(shù)為基學(xué)習(xí)器,來(lái)源于Boosting方法。在迭代過(guò)程中,后一個(gè)模型對(duì)前一個(gè)模型的誤差進(jìn)行校正,通過(guò)擬合殘差優(yōu)化目標(biāo)函數(shù),提高預(yù)測(cè)分類準(zhǔn)確率。XGBoost對(duì)損失函數(shù)進(jìn)行二階泰勒展開(kāi),并在損失函數(shù)中加入正則項(xiàng)以控制目標(biāo)函數(shù)的下降和模型復(fù)雜度,防止模型過(guò)擬合[9]。邏輯回歸(Logistic regression,LR)是一種廣義的線性模型,是在線性回歸的基礎(chǔ)上外加一層Sigmoid函數(shù)映射。支持向量機(jī)(Support vector machine,SVM)算法通過(guò)非線性映射將輸入空間映射到一個(gè)高維空間,進(jìn)而在高維空間中構(gòu)造最優(yōu)分類超平面,利用支持向量最大化幾何間隔,降低分類誤差。本研究分別使用R 語(yǔ)言中bestglm,e1701和xgboost等程序包實(shí)現(xiàn)LR,SVM和XGBoost模型構(gòu)建。
本文應(yīng)用R 3.63進(jìn)行統(tǒng)計(jì)學(xué)分析。使用受試者操作特征(Receiver operating characteristic,ROC)曲線比較每個(gè)預(yù)測(cè)模型的敏感性和特異性,并以ROC曲線下面積(Area under ROC curve,AUC)值評(píng)價(jià)作為預(yù)測(cè)結(jié)果,AUC值反映分類模型預(yù)測(cè)的精準(zhǔn)度。所有ROC曲線應(yīng)用pROC函數(shù)包進(jìn)行計(jì)算。K-S(Kolmogorov-Smirnov)值是另一種分類模型效能的評(píng)價(jià)指標(biāo),K-S曲線將選定的閾值作為橫軸,分類模型的真陽(yáng)性率(True positive rate,TPR)和假陽(yáng)性率(False positive rate,FPR)均繪制到縱軸,K-S值為所有TPR和FPR差值的絕對(duì)值中的最大值,K-S值的大小與分類模型區(qū)分特征的準(zhǔn)確性呈正相關(guān)。
對(duì)ESCC淋巴結(jié)轉(zhuǎn)移關(guān)鍵基因進(jìn)行Gene Ontology(GO)富集分析,包括細(xì)胞成分(Cellular component,CC)、生物學(xué)過(guò)程(Biological process,BP)和分子功能(Molecular function,MF),根據(jù)超幾何分布檢驗(yàn)的錯(cuò)誤發(fā)現(xiàn)率(False Discovery Rate,FDR),確定關(guān)鍵基因的細(xì)胞定位、分子功能及參與的生物學(xué)過(guò)程。使用ClusterProfiler程序包進(jìn)行富集分析及相關(guān)繪圖[10]。
采用Kaplan-Meier法繪制生存曲線,對(duì)數(shù)秩和檢驗(yàn)(Log-Rank test)進(jìn)行生存期差異顯著性檢驗(yàn)。連續(xù)變量用survminer包中函數(shù)surv_cutpoint確定最佳截?cái)嘀?,將連續(xù)變量簡(jiǎn)化為二分類變量。再用單因素和多因素Cox比例風(fēng)險(xiǎn)回歸模型確定預(yù)后的影響因素,似然比檢驗(yàn)(Likelihood ratio test)確定模型顯著性,并根據(jù)多變量分析結(jié)果繪制森林圖。應(yīng)用survival函數(shù)包進(jìn)行生存分析。
分析GSE53624訓(xùn)練集中60例ESCC樣本mRNA表達(dá)譜數(shù)據(jù),根據(jù)t檢驗(yàn)P<0.05且兩組之間mRNA表達(dá)值均數(shù)之差>0.5為篩選條件,鑒定了ESCC淋巴結(jié)轉(zhuǎn)移相關(guān)的159個(gè)差異表達(dá)基因,包括淋巴結(jié)轉(zhuǎn)移陽(yáng)性組中31個(gè)高表達(dá)和128個(gè)低表達(dá)的mRNA分子(圖1a)。
以上述的159個(gè)ESCC淋巴結(jié)轉(zhuǎn)移相關(guān)mRNA分子作為XGBoost模型的初始特征集合,網(wǎng)格搜索和5倍交叉驗(yàn)證方法確定XGBoost模型超參數(shù),包括最大迭代次數(shù)(nrounds=200)、學(xué)習(xí)率(eta=0.1)、單棵樹(shù)最大深度(max_depth=4)、最小減損函數(shù)下降值(gamma=0.2)、隨機(jī)采樣特征比率(colsample_bytree=0.3)以及葉子節(jié)點(diǎn)最小權(quán)重(min_child_weight=0.7)等,用GSE53624訓(xùn)練集60例ESCC樣本建立ESCC淋巴結(jié)轉(zhuǎn)移預(yù)測(cè)模型。根據(jù)Gain值評(píng)價(jià)159個(gè)mRNA分子重要性,圖1b顯示了159個(gè)差異表達(dá)mRNA的重要性分布,其中18個(gè)mRNA分子的重要性分值大于0.02,其余mRNA分子的重要性分值小于0.02。因此,本研究將重要性分值>0.02的18個(gè)mRNA分子作為ESCC淋巴結(jié)轉(zhuǎn)移的關(guān)鍵mRNA分子,將其納入分類模型。18個(gè)mRNA分子及其Gain值分別為:MASP1(0.068 5),ANOS1(0.063 2),CENPP(0.058 5),ABCG2(0.043 8),GALNT12(0.035 1),IP6K3(0.034 5),SLC16A5(0.032 6),MMP27(0.030 7),C6orf15(0.030 5),KRT6C(0.028 6),CXCL10(0.028 1),RIMS2(0.027 3),RPTN(0.026),LIMA1(0.025 1),KRT6B(0.024 9),TNC(0.022 6),LCE3D(0.021 8)和APLF(0.021 5)。
為構(gòu)建ESCC淋巴結(jié)轉(zhuǎn)移分類器,從重要性分值最大的兩個(gè)mRNA分子開(kāi)始依次增加mRNA分子,構(gòu)成逐漸增大的mRNA分子集合,用XGBoost,LR和SVM算法計(jì)算2~20個(gè)mRNA組合在測(cè)試集中預(yù)測(cè)ESCC淋巴結(jié)轉(zhuǎn)移的AUC值。在XGBoost算法中,重要性分值最高的兩個(gè)mRNA分子模型在測(cè)試集中診斷ESCC淋巴結(jié)轉(zhuǎn)移的AUC值為0.618 3,隨著特征性mRNA分子增加,分類模型的診斷效能逐漸升高,18個(gè)mRNA分子模型的AUC值最大(0.793 7,圖1c);而LR與SVM算法在特征分子增加過(guò)程中,最大的AUC值分別為0.713和0.714,預(yù)測(cè)結(jié)果不穩(wěn)定(圖1c)。
為比較本研究建立的18個(gè)mRNA分子預(yù)測(cè)ESCC淋巴結(jié)轉(zhuǎn)移的效能(XGB-18 mRNA),應(yīng)用同樣的18個(gè)mRNA分子,建立了LR-18 mRNA和SVM-18 mRNA的分類模型。LR-18 mRNA和SVM-18 mRNA在同一的訓(xùn)練集上進(jìn)行超參數(shù)及核函數(shù)選擇。XGB-18 mRNA,LR-18 mRNA和SVM-18 mRNA 3種模型在測(cè)試集中診斷ESCC淋巴結(jié)轉(zhuǎn)移的AUC值分別為0.793 7,0.676 0和0.695 8,XGB-18 mRNA模型預(yù)測(cè)ESCC淋巴結(jié)轉(zhuǎn)移的效能顯著高于LR模型(Z=2.35,P=0.018)和SVM模型(Z=1.60,P=0.11),其ROC曲線見(jiàn)圖1d。在外部驗(yàn)證集(GSE53622)中,XGB-18 mRNA,LR-18 mRNA和SVM-18 mRNA 3個(gè)模型的ROC曲線如圖1e所示,AUC值分別為0.711,0.669和0.673,可見(jiàn)XGB-18 mRNA模型的AUC值最高。此外,利用模型區(qū)分度評(píng)價(jià)指標(biāo)K-S值對(duì)XGB-18 mRNA,LR-18 mRNA和SVM-18 mRNA 3個(gè)模型進(jìn)行評(píng)估(圖1f-h),其K-S值分別為0.468,0.242和0.300,表明XGB-18 mRNA模型預(yù)測(cè)ESCC淋巴結(jié)轉(zhuǎn)移的準(zhǔn)確性最高。
注:紅色和綠色分別代表在淋巴結(jié)轉(zhuǎn)移陽(yáng)性組中表達(dá)量高于和低于淋巴結(jié)轉(zhuǎn)移陰性組的mRNA。圖1 特征mRNA選擇、模型建立與模型效果評(píng)價(jià)(a)訓(xùn)練集中差異表達(dá)mRNA火山圖;(b)XGBoost模型中159個(gè)mRNA的重要性評(píng)分;(c)不同mRNA特征子集的預(yù)測(cè)性能;(d)3種預(yù)測(cè)模型在測(cè)試集上的ROC曲線比較;(e)3種模型在外部驗(yàn)證集中的ROC曲線比較;(f-h)3個(gè)模型的K-S(Kolmogorov-Smirnov)值Fig. 1 Feature selection,model construction and prediction efficiency (a)Volcano plot for the differential expression of mRNAs in the training set,(b)the importance scores of 159 mRNAs assessed by the XGBoost algorithm,(c)prediction performances of different mRNA feature subsets,(d and e)receiver operating characteristic curves of three prediction models in the testing set and the external validation set,and (f-h)Kolmogorov Smirnov values of the three models
為明確XGB-18 mRNA分類模型的臨床意義,本實(shí)驗(yàn)分析了XGB-18 mRNA分類模型在ESCC生存預(yù)后中的作用。在59例測(cè)試集和60例外部驗(yàn)證集中,以XGB-18 mRNA預(yù)測(cè)值的最佳界值將樣本分為高風(fēng)險(xiǎn)組和低風(fēng)險(xiǎn)組。XGB-18 mRNA高低風(fēng)險(xiǎn)組ESCC患者生存曲線表明,XGB-18 mRNA高風(fēng)險(xiǎn)組ESCC患者的總體生存時(shí)間低于低風(fēng)險(xiǎn)組,GSE53624測(cè)試集中XGB-18 mRNA高、低風(fēng)險(xiǎn)組ESCC患者的中位生存時(shí)間分別為12.6和56.2月,生存分析顯示該模型預(yù)測(cè)值為預(yù)后危險(xiǎn)因素(HR 3.91,95%CI 1.95~7.84;P<0.000 1,圖2a)。進(jìn)一步做亞組分析,淋巴結(jié)轉(zhuǎn)移陰性患者中XGB-18 mRNA高風(fēng)險(xiǎn)組ESCC患者生存時(shí)間也明顯低于低風(fēng)險(xiǎn)組(HR 6.75,95%CI 1.59~28.76;P=0.003 3,圖2b),淋巴結(jié)轉(zhuǎn)移陽(yáng)性患者中,XGB-18 mRNA高風(fēng)險(xiǎn)組ESCC患者生存時(shí)間明顯較低風(fēng)險(xiǎn)組短(HR 3.11,95%CI 1.24~7.82;P=0.012,圖2c)。在外部驗(yàn)證集中,高、低風(fēng)險(xiǎn)組中位生存時(shí)間分別為10.2和39.8月,生存分析顯示模型預(yù)測(cè)值為預(yù)后風(fēng)險(xiǎn)因素(HR 2.27,95%CI 0.99~5.25;P=0.048 9,圖2d);亞組分析結(jié)果與測(cè)試集中類似。
圖2 測(cè)試集和驗(yàn)證集ESCC患者的生存分析(a)測(cè)試集59例ESCC患者中,高和低XGB-18 mRNA score組的生存曲線;(b-c)測(cè)試集中分別以淋巴結(jié)轉(zhuǎn)移陰性、陽(yáng)性分組做亞組分析,高和低XGB-18 mRNA score組的生存曲線;(d)外部驗(yàn)證集60例ESCC中,高和低XGB-18 mRNA score組的生存曲線;(e-f)驗(yàn)證集中分別以淋巴結(jié)轉(zhuǎn)移陽(yáng)性、陰性分組做亞組分析,高和低XGB-18 mRNA score組的生存曲線Fig. 2 Survival analysis of ESCC in the testing set and validation set (Survival curves of 59 ESCC patients with high-and low-XGB-18 mRNA scores in the testing set (a),and the subsets of N0 (b)and N1 (c);survival curves of 60 ESCC patients with high-and low-XGB-18 mRNA scores in the validation set (d),and the subsets of N0 (e)and N1 (f))
將測(cè)試集和驗(yàn)證集中ESCC患者的人口學(xué)、臨床病理特征及XGB-18 mRNA模型預(yù)測(cè)值score進(jìn)行單因素Cox回歸模型分析,發(fā)現(xiàn)N stage、TNM stage和XGB-18 mRNA預(yù)測(cè)值是ESCC預(yù)后影響因子(P<0.05,表2)。多因素Cox回歸模型分析結(jié)果表明,XGB-18 mRNA預(yù)測(cè)值score(HR 3.3,95%CI 1.48~7.6;P=0.004,表3)是影響ESCC預(yù)后的獨(dú)立因子。在GSE53622驗(yàn)證集中,多因素Cox回歸模型分析結(jié)果與測(cè)試數(shù)據(jù)集類似(HR 4.0,95%CI 1.52~10.7;P=0.005,表3)。
表2 測(cè)試集和驗(yàn)證集ESCC患者的人口學(xué)特征、臨床病理特征和XGB-18 mRNA預(yù)測(cè)值score的單因素Cox回歸模型分析Tab. 2 Univariate Cox regression analyses of the demographics characteristics,clinicopathological characteristics and XGBoost-18 mRNA scores of ESCC from the test set and the validation set
表3 測(cè)試集和驗(yàn)證集上ESCC患者的多因素Cox回歸模型分析Tab. 3 Multivariate Cox regression analyses of ESCC from the test set and the validation set
對(duì)XGB-18 mRNA模型納入的18個(gè)mRNA 進(jìn)行GO富集分析,在生物學(xué)過(guò)程中,上皮角化過(guò)程顯著富集,參與該生物學(xué)過(guò)程的有4個(gè)mRNA分子,分別是KRT6B,KRT6C,LCE3D和RPTN等(圖3a)。這4個(gè)mRNA分子在ESCC中均為低表達(dá),并且在淋巴結(jié)轉(zhuǎn)移陽(yáng)性ESCC中的表達(dá)進(jìn)一步降低,提示淋巴結(jié)轉(zhuǎn)移陽(yáng)性的ESCC癌細(xì)胞角化過(guò)程受阻,使癌細(xì)胞不同程度地失去上皮特征性分子表達(dá),可能發(fā)生了上皮間質(zhì)轉(zhuǎn)化(圖3d-g)。細(xì)胞定位富集分析結(jié)果表明,18個(gè)mRNA分子主要位于細(xì)胞內(nèi)不溶性膜、角質(zhì)微絲、突觸周圍和突觸相關(guān)細(xì)胞骨架(圖3b)。分子功能富集分析結(jié)果表明,18個(gè)mRNA分子的功能主要包括己烷基磷酸肌醇6,1,3,5等激酶活性、CXCR3受體結(jié)合、異生型跨膜ATP酶活性和cAMP依賴的蛋白激酶調(diào)節(jié)活性(圖3c)。
由于食管黏膜及黏膜下層具有豐富的淋巴管網(wǎng),因此淋巴結(jié)轉(zhuǎn)移是食管癌轉(zhuǎn)移的主要方式,浸潤(rùn)至黏膜下層的食管癌細(xì)胞發(fā)生淋巴結(jié)轉(zhuǎn)移陽(yáng)性率可達(dá)20%~30%,而局限于黏膜層的食管癌較少發(fā)生淋巴結(jié)轉(zhuǎn)移。淋巴結(jié)轉(zhuǎn)移是食管癌進(jìn)展期的主要特征,與食管癌患者的術(shù)后生存預(yù)后密切相關(guān),多學(xué)科綜合治療是進(jìn)展期食管癌最佳治療方案,而預(yù)后預(yù)測(cè)及分型是食管癌患者進(jìn)行個(gè)體化治療的關(guān)鍵,故而精準(zhǔn)診斷ESCC淋巴結(jié)轉(zhuǎn)移是ESCC臨床治療的關(guān)鍵[11,12]。
本研究基于ESCC mRNA表達(dá)譜數(shù)據(jù),通過(guò)差異分析確定了與ESCC淋巴結(jié)轉(zhuǎn)移相關(guān)的159個(gè)mRNA分子,并將其作為輸入特征結(jié)合機(jī)器學(xué)習(xí)算法建立模型。根據(jù)這些mRNA分子特征在模型中的重要性,最終建立了由18個(gè)mRNA分子組成的XGB-18 mRNA ESCC淋巴結(jié)轉(zhuǎn)移診斷模型。18個(gè)mRNA分子的生物學(xué)功能富集分析表明(圖3a-c),發(fā)生淋巴結(jié)轉(zhuǎn)移的ESCC細(xì)胞角質(zhì)化過(guò)程受阻,KRT6B,KRT6C,LCE3D及RPTN等與細(xì)胞角質(zhì)化相關(guān)的4個(gè)基因在淋巴結(jié)轉(zhuǎn)移陽(yáng)性ESCC中表達(dá)均下調(diào)。正常食管鱗狀上皮細(xì)胞表達(dá)上皮細(xì)胞粘附分子(Ep-CAM)、鈣粘附蛋白(E-cadherin)、緊密連接蛋白(Occludin,ZO-1)和細(xì)胞骨架相關(guān)(Keratin,ezrin),維系上皮組織結(jié)構(gòu)完整性,防止物理、化學(xué)、微生物、炎癥分子等有害因子的損傷作用。在食管上皮癌變過(guò)程中,癌變細(xì)胞失去這些結(jié)構(gòu)性分子,使細(xì)胞間粘附力降低,獲得遷移和侵襲能力。由此可見(jiàn),參與細(xì)胞角質(zhì)化過(guò)程的基因可能作為淋巴結(jié)轉(zhuǎn)移陽(yáng)性ESCC的診斷和臨床治療的靶分子。
圖3 18個(gè)ESCC淋巴結(jié)轉(zhuǎn)移關(guān)鍵分子的GO富集分析與4個(gè)角質(zhì)化相關(guān)分子在ESCC和癌旁組織中的表達(dá)(a)生物過(guò)程(BP)富集分析結(jié)果;(b)細(xì)胞組成(CC)富集分析結(jié)果;(c)分子功能(MF)富集分析結(jié)果;(d-g)分子KRT6B,KRT6C,LCE3D和RPTN在淋巴結(jié)轉(zhuǎn)移陰性組(N0)、淋巴結(jié)轉(zhuǎn)移陽(yáng)性組(N1)以及所有179例樣本中的表達(dá)量
由于病變部位、手術(shù)難度等因素影響,不同ESCC患者在手術(shù)過(guò)程中淋巴結(jié)清掃數(shù)目和區(qū)域存在較大差異。癌癥基因圖譜數(shù)據(jù)庫(kù)(The Cancer genome atlas,TCGA)中,92例ESCC中包括53例ESCC患者進(jìn)行了手術(shù)淋巴結(jié)清掃,淋巴結(jié)清掃數(shù)目從1到83個(gè)不等。2015年鄭州大學(xué)附屬腫瘤醫(yī)院胸外科的一項(xiàng)研究表明[13],2010—2014年治療的313例胸段ESCC患者中有122例(38.97%)發(fā)生了淋巴結(jié)轉(zhuǎn)移,313例患者共清掃淋巴結(jié)4 461枚(平均14.2枚/人),其中癌轉(zhuǎn)移的淋巴結(jié)有294枚,淋巴結(jié)轉(zhuǎn)移率為6.59%。其中,喉返神經(jīng)旁淋巴結(jié)轉(zhuǎn)移率最高(25.5%),賁門胃左動(dòng)脈旁次之(18.2%)。另一項(xiàng)南京醫(yī)科大學(xué)一附院腫瘤科分析了1 791例食管癌樣本淋巴結(jié)轉(zhuǎn)移情況[14],其中1 693例ESCC(占94.5%)樣本中發(fā)生淋巴結(jié)轉(zhuǎn)移的患者有586例(34.61%),術(shù)中共清掃淋巴結(jié)17 674枚(平均10.4枚/人),淋巴結(jié)轉(zhuǎn)移陽(yáng)性為1 409枚,淋巴結(jié)轉(zhuǎn)移率為7.97%。以上研究表明,ESCC術(shù)中淋巴結(jié)清掃數(shù)目和清掃區(qū)域具有較大的異質(zhì)性,淋巴結(jié)清掃數(shù)目過(guò)少、陽(yáng)性淋巴結(jié)未被檢測(cè)出等導(dǎo)致淋巴結(jié)轉(zhuǎn)移陰性患者可能存在假陰性。2017年關(guān)于食管癌根治術(shù)胸部淋巴結(jié)清掃的中國(guó)專家共識(shí)中指出,2016版NCCN建議的二野或三野淋巴結(jié)清掃數(shù)目須達(dá)到11~15枚[15],才能提供較為準(zhǔn)確的N分期和TNM分期判斷,正確指導(dǎo)術(shù)后治療。此外,本研究包含的病例資料中未提供淋巴結(jié)轉(zhuǎn)移區(qū)域信息,可能導(dǎo)致預(yù)后預(yù)測(cè)結(jié)果存在誤差。
目前,XGBoost算法在生物醫(yī)學(xué)領(lǐng)域應(yīng)用廣泛,據(jù)此建立的生物學(xué)模型的診斷效果較為理想[16-18]。有研究表明[16],經(jīng)過(guò)數(shù)據(jù)歸一化、超參數(shù)選優(yōu)后,用XGBoost算法以肝功能、血脂、腎功能、乙肝、血常規(guī)指標(biāo)等為特征建立血糖值的回歸模型,以均方根誤差和平均絕對(duì)百分比誤差作為模型評(píng)價(jià)指標(biāo),結(jié)果表明基于XGBoost算法的模型具有精度高、運(yùn)行快、穩(wěn)定性強(qiáng)等優(yōu)勢(shì),較基于SVM的模型和隨機(jī)森林模型預(yù)測(cè)精確。另一研究[17]利用XGBoost算法挖掘與N2-3期淋巴結(jié)轉(zhuǎn)移相關(guān)的因素,通過(guò)交叉驗(yàn)證和多次隨機(jī)化實(shí)驗(yàn)得到最佳變量組合,該組合包括腫瘤大小、組織學(xué)類型、多灶性、淋巴管浸潤(rùn)、ER陽(yáng)性細(xì)胞百分比和前哨淋巴結(jié)陽(yáng)性數(shù)目等,結(jié)果表明,基于XGBoost算法的預(yù)測(cè)模型優(yōu)于邏輯回歸算法模型,達(dá)到0.80 (95%CI 0.65~0.92)。
總之,本文利用XGBoost算法鑒定了18個(gè)ESCC淋巴結(jié)轉(zhuǎn)移關(guān)鍵基因,并建立了XGB-18 mRNA分類模型,其預(yù)測(cè)ESCC淋巴結(jié)轉(zhuǎn)移的準(zhǔn)確性高于LR模型和SVM模型,并且XGB-18 mRNA模型預(yù)測(cè)的風(fēng)險(xiǎn)值,是ESCC預(yù)后獨(dú)立危險(xiǎn)因素,為ESCC患者臨床個(gè)體化治療策略及方案制定提供理論依據(jù)和指導(dǎo)。