張 珂,張開炯,吳立春,陳 莉
四川省腫瘤醫(yī)院·研究所/四川省癌癥防治中心/電子科技大學(xué)醫(yī)學(xué)院附屬腫瘤醫(yī)院:1.輸血科;2.檢驗科,四川成都 610041
乳腺癌是全球女性最常見的惡性腫瘤,其發(fā)病率位居第一[1]。世界衛(wèi)生組織2020年最新癌癥報告顯示,乳腺癌新增人數(shù)達(dá)226萬,正式取代肺癌成為全球第一大癌癥。盡管近年來乳腺癌的治療方法已有很大改善,但由于個體差異,預(yù)后仍然不理想[2]。因此,有必要找到敏感而精確的生物標(biāo)志物,以更好地預(yù)測乳腺癌患者的生存和預(yù)后。微小RNA(miRNA)是一種由21~23個核苷酸組成的高度保守的內(nèi)源性短鏈非編碼RNA分子[3]?,F(xiàn)已證明miRNA可靶向超過60%的人類基因[4],幾乎參與了每個生物學(xué)過程,包括發(fā)育,血管生成,細(xì)胞分化、增殖、存活、侵襲、凋亡,傷口愈合和免疫細(xì)胞功能等[5]。既往研究證實,miRNA在腫瘤的發(fā)生、發(fā)展、轉(zhuǎn)移和患者存活中起重要作用,其能夠作為腫瘤的潛在治療工具和診斷生物標(biāo)志物[6-7]。近年來,許多集中于乳腺癌miRNA表達(dá)譜的研究發(fā)現(xiàn),miRNA在預(yù)測患者預(yù)后中已顯示出巨大希望[8]。然而,miRNA在乳腺癌中的生物學(xué)功能仍不為人所知,為提高乳腺癌預(yù)后的預(yù)測準(zhǔn)確性,仍需要系統(tǒng)地研究多種miRNA的表達(dá),利用整體的危險評分進(jìn)行預(yù)后評價。因此,鑒定出更強大和實用的miRNA信號具有重要的臨床意義。本研究通過開發(fā)和驗證基于癌癥基因組圖譜(TCGA)數(shù)據(jù)庫的miRNA預(yù)后模型,并進(jìn)一步系統(tǒng)地評估該模型對乳腺癌患者總體生存的預(yù)測價值,以明確miRNA作為乳腺癌預(yù)后生物標(biāo)志物的可靠性。
1.1數(shù)據(jù)來源 從TCGA數(shù)據(jù)庫 (https://portal.gdc.cancer.gov/)下載1 086例乳腺癌組織和804例正常組織的miRNA測序數(shù)據(jù)和臨床信息。
1.2方法
1.2.1差異表達(dá)miRNA篩選 采用R語言edgeR程序包篩選腫瘤組織與正常組織之間差異表達(dá)的miRNA,以FDR<0.05和log2|fold change|>1作為篩選標(biāo)準(zhǔn)。
1.2.2預(yù)后相關(guān)miRNA篩選 將1 086例乳腺癌患者表達(dá)矩陣和臨床信息進(jìn)行清洗,剔除連續(xù)表達(dá)量低的數(shù)據(jù),將清洗后剩余的1 033例乳腺癌患者按照7∶3比例分為訓(xùn)練組(723例)與驗證組(310例),首先使用R程序包survival進(jìn)行單因素Cox回歸分析,其次采用glmnet程序包進(jìn)行LASSO回歸分析,再次使用survival包進(jìn)行逐步多因素Cox回歸分析,以赤池信息準(zhǔn)則(AIC)為準(zhǔn),選取AIC信息統(tǒng)計量最小的模型為最終模型,以P<0.05作為篩選標(biāo)準(zhǔn),P<0.05說明該變量為獨立的預(yù)后影響因素。
1.2.3miRNA風(fēng)險模型構(gòu)建與驗證 將單因素Cox回歸分析與LASSO回歸分析篩選出的miRNA進(jìn)行逐步多因素Cox回歸分析,建立預(yù)后風(fēng)險模型。根據(jù)風(fēng)險得分中值將訓(xùn)練組的患者分為低風(fēng)險組和高風(fēng)險組,使用Kaplan-Meier計算高低風(fēng)險組患者之間的生存差異。使用R軟件包survival 受試者工作特征(ROC)曲線計算模型1年、3年和5年的曲線下面積(AUC)。將訓(xùn)練組構(gòu)建的預(yù)后風(fēng)險模型納入驗證組進(jìn)行驗證,并計算高低風(fēng)險組患者之間生存差異和模型1年、3年和5年的AUC。
2.1乳腺癌差異表達(dá)miRNA篩選 共發(fā)現(xiàn)269個差異表達(dá)的miRNA,其中204個miRNA表達(dá)上調(diào),65個miRNA表達(dá)下調(diào)。
2.2乳腺癌總體生存相關(guān)miRNA篩選 單因素Cox回歸分析發(fā)現(xiàn),35個miRNA與乳腺癌總體生存相關(guān)。進(jìn)一步通過LASSO回歸分析發(fā)現(xiàn),以最小λ值作為篩選準(zhǔn)則,篩選出18個miRNA與乳腺癌患者總體生存相關(guān)。逐步多因素Cox回歸分析發(fā)現(xiàn),8個miRNA(hsa-miR-3923、hsa-miR-105-2、hsa-miR-3927、hsa-miR-449c、hsa-miR-106a、hsa-miR-1262、hsa-miR-605和hsa-miR-3929)與乳腺癌患者總體生存情況相關(guān)。
2.3乳腺癌miRNA預(yù)后風(fēng)險模型的構(gòu)建 基于逐步多因素Cox回歸分析篩選出的8個miRNA,將每個miRNA的多因素Cox回歸系數(shù)和每個miRNA的表達(dá)值構(gòu)建了1個由8個miRNA組成的風(fēng)險評分模型:風(fēng)險得分=0.361×hsa-miR-3923+0.097×hsa-miR-105-2+0.724×hsa-miR-3927-0.333×hsa-miR-449c-0.232×hsa-miR-106a-0.366×hsa-miR-1262+0.288×hsa-miR-605+0.979×hsa-miR-3929,根據(jù)風(fēng)險得分中位值將訓(xùn)練組患者分為高低風(fēng)險兩組(圖1A),結(jié)果顯示,高風(fēng)險組患者的總體生存率明顯低于低風(fēng)險組患者(P<0.001);ROC曲線分析顯示,風(fēng)險模型1年、3年和5年的AUC分別為0.779、0.688和0.728(圖1B)。
注:A為訓(xùn)練組高低風(fēng)險組Kaplan-Meier生存曲線;B為訓(xùn)練組采用ROC曲線評估預(yù)測模型1年、3年和5年的預(yù)測效能。
2.4乳腺癌miRNA預(yù)后風(fēng)險模型的驗證 在驗證組中低風(fēng)險組患者的總體生存率顯著高于高風(fēng)險組(P<0.05,圖2A),風(fēng)險模型1年、3年和5年的AUC分別為0.777、0.768和0.806(圖2B)。
注:A為驗證組高低風(fēng)險組Kaplan-Meier生存曲線;B為驗證組采用ROC曲線評估預(yù)測模型1年、3年和5年的預(yù)測效能。
目前,越來越多的研究表明,差異表達(dá)的miRNA與乳腺癌的發(fā)生發(fā)展密切相關(guān),其可作為乳腺癌診斷、預(yù)后判斷和治療的潛在生物標(biāo)志物[9-10]。與單個生物標(biāo)志物相比,多個生物標(biāo)志物的綜合判別可以提高預(yù)測準(zhǔn)確性。本研究先后通過單因素Cox、LASSO回歸和多因素Cox比例風(fēng)險回歸,確定了8個miRNA(hsa-miR-3923、hsa-miR-105-2、hsa-miR-3927、hsa-miR-449c、hsa-miR-106a、hsa-miR-1262、hsa-miR-605和hsa-miR-3929)可作為乳腺癌獨立的預(yù)后預(yù)測指標(biāo)。然后,根據(jù)它們的表達(dá)譜和回歸系數(shù)構(gòu)建了一個由8個miRNA組成的風(fēng)險模型,并用于預(yù)測乳腺癌患者的總體生存率。為了明確所構(gòu)建模型預(yù)后預(yù)測價值的可靠性,本研究設(shè)置了訓(xùn)練組和驗證組兩個獨立的研究隊列。在訓(xùn)練組中,根據(jù)患者的風(fēng)險評分將患者分為高風(fēng)險組和低風(fēng)險組,Kaplan-Meier生存曲線表明兩組患者的總體生存率差異有統(tǒng)計學(xué)意義(P<0.001),高風(fēng)險組患者的總體生存率明顯低于低風(fēng)險組患者。ROC曲線分析顯示,miRNA模型在預(yù)測乳腺癌患者存活風(fēng)險方面具有較高的預(yù)測準(zhǔn)確性,可作為預(yù)測乳腺癌患者預(yù)后的可靠生物標(biāo)志物。
在既往的研究中,研究者主要通過單個基因和通路的分析探究miRNA作為乳腺癌或其他腫瘤的生物標(biāo)志物的價值[11-12]。例如,LI等[11]發(fā)現(xiàn),miR-106b-5p和miR-93-5p在乳腺癌細(xì)胞中表達(dá)水平增高,其高表達(dá)可抑制抑癌基因PTEN的表達(dá)水平,從而促進(jìn)乳腺癌細(xì)胞的遷移、侵襲和增殖,同時增強乳腺癌細(xì)胞磷脂酰肌醇3激酶(PI3K)/蛋白激酶B(Akt)途徑的活性;ZHAO等[12]通過多變量分析發(fā)現(xiàn),miR-106a是膠質(zhì)母細(xì)胞瘤(GBM)患者總體生存的獨立預(yù)后生物標(biāo)志物,可用于預(yù)測單個GBM患者的預(yù)后和治療反應(yīng)。BERTOLI等[13]研究發(fā)現(xiàn),與單個miRNA相比,循環(huán)體液中多個miRNA圖譜顯示出更好的診斷和預(yù)后預(yù)測性能以及更高的靈敏度。因此,多基因多模型綜合分析在腫瘤診斷和治療中顯得尤為重要。
近年來,亦有研究者將多基因綜合分析用于腫瘤診斷和預(yù)后分析。WANG等[14]通過TCGA數(shù)據(jù)庫構(gòu)建了由4個miRNA(hsa-miR-126,hsa-miR-3613,hsa-miR-424和hsa-miR-4772)組成的用于預(yù)測胰腺腺癌(PAAD)總體生存率的模型,該模型2年生存率AUC為0.789,其可作為預(yù)測PAAD患者生存的有效獨立預(yù)后生物標(biāo)志物。SIRIWARDHANA等[15]采用單因素Cox和逐步多因素Cox回歸篩選出5個miRNA(miR-375,miR-582-3p,miR-326,miR-181c-5p和miR-99a-5p)用于肺腺癌預(yù)后模型的構(gòu)建,其模型可作為預(yù)測肺腺癌預(yù)后的可靠工具。最近,LUO等[16]采用LASSO Cox的方法篩選出包括miR130b,miR-18a和miR-223在內(nèi)的3個miRNA。根據(jù)3個miRNA特征性危險評分的最佳臨界值,將所有患者分為高危組和低危組。兩組患者的生存率差異有統(tǒng)計學(xué)意義(P<0.000 1),并且3個miRNA標(biāo)志物具有良好的預(yù)后預(yù)測準(zhǔn)確性,可作為腎透明細(xì)胞癌獨立的預(yù)后預(yù)測因素。這些結(jié)果表明,多基因模型的構(gòu)建在腫瘤預(yù)后的預(yù)測準(zhǔn)確性方面具有重要意義。
盡管本研究構(gòu)建了由8個miRNA組合的預(yù)后分子標(biāo)志物,其在乳腺癌預(yù)后預(yù)測中具有良好的準(zhǔn)確性和可靠性,顯示了其可作為乳腺癌預(yù)后生物標(biāo)志物的巨大潛能,但也存在一些局限性。首先,雖然本研究設(shè)置了驗證組以驗證所構(gòu)建模型的可靠性,但沒有進(jìn)行臨床試驗;第二,本研究所構(gòu)建的預(yù)后風(fēng)險模型雖然能夠明顯區(qū)分高低風(fēng)險組,但1年、3年和5年風(fēng)險得分的AUC僅能達(dá)到75%左右,其預(yù)測效能欠佳。后續(xù)研究將進(jìn)一步納入該8個miRNA進(jìn)行臨床驗證,同時納入其他數(shù)據(jù)庫進(jìn)行功能分析和探究。
綜上所述,本研究構(gòu)建了1個由8個miRNA組成的與乳腺癌患者總體生存顯著相關(guān)的預(yù)測模型,可以從高預(yù)后風(fēng)險的患者中準(zhǔn)確識別出低預(yù)后風(fēng)險的患者,并在驗證組中評估了該模型的準(zhǔn)確性和可靠性。這些結(jié)果表明,整合的8個miRNA組合可以作為預(yù)測乳腺癌患者預(yù)后的潛在標(biāo)志物。