吳安山,艾紅艷,廖 妮,易堅勝,譚米多*
(1.湖南省株洲市中心醫(yī)院腫瘤科,湖南 株洲 412007;2.湖南省株洲市中心醫(yī)院日間手術(shù)中心,湖南 株洲 412007;3.湖南省株洲市中心醫(yī)院乳腺外科,湖南 株洲 412007)
乳腺癌是女性最常見的惡性腫瘤,其發(fā)病率呈逐年上升的趨勢,研究顯示,2018年全球乳腺癌新發(fā)病例約208萬,死亡63萬[1];在我國2015年乳腺癌發(fā)病率占女性腫瘤的15%,病死率達69.5/1 000人[2]。治療后復(fù)發(fā)轉(zhuǎn)移仍是乳腺癌死亡的主要原因。隨著對乳腺癌研究的深入,免疫治療和靶向治療的發(fā)展,乳腺癌的病死率明顯下降,但復(fù)發(fā)和轉(zhuǎn)移仍是目前臨床治療中急需解決問題之一。因此深入研究乳腺癌發(fā)生發(fā)展分子生物學(xué)機制,尋找乳腺癌早期診斷及預(yù)后評估的分子生物學(xué)標志物至關(guān)重要。隨著基因芯片技術(shù)、高通量測序和精準醫(yī)學(xué)的快速發(fā)展,研究發(fā)現(xiàn)長非編碼RNA(long noncoding RNA,LncRNA)在腫瘤的發(fā)生發(fā)展中發(fā)揮著重要作用,對腫瘤的早期診斷及預(yù)后評估具有重要的臨床應(yīng)用價值[3]。并且在腫瘤中LncRNA對免疫細胞浸潤、抗原識別、腫瘤細胞清除等免疫應(yīng)答中發(fā)揮十分重要的調(diào)控作用[4]。既往研究顯示多種LncRNA如SNHG12、CCHE1、LINC01833、LINC00536和LINC02725的表達與乳腺癌發(fā)生發(fā)展及預(yù)后密切相關(guān),可作為乳腺癌預(yù)后標志物[5-7]。最近也有研究報道在乳腺癌中LncRNA表達譜預(yù)測模型的構(gòu)建,并證實與乳腺癌預(yù)后顯著相關(guān)[6]。本研究通過下載癌癥基因組圖譜(the cancer genome atlas,TCGA)中1 041例乳腺癌患者轉(zhuǎn)錄組測序數(shù)據(jù)和臨床預(yù)后信息,探討乳腺癌中免疫相關(guān)LncRNA表達與腫瘤預(yù)后的關(guān)系,通過篩選乳腺癌患者預(yù)后相關(guān)免疫LncRNA,構(gòu)建準確預(yù)測乳腺癌患者預(yù)后的預(yù)后風(fēng)險模型,為乳腺癌患者預(yù)后評估提供指導(dǎo)。
1.1材料來源 本研究從TCGA 數(shù)據(jù)庫(https://cancergenome.nih.gov/)下載1 041例乳腺癌組織樣本轉(zhuǎn)錄組數(shù)據(jù),所有樣本均包含完整的高通量測序counts數(shù)據(jù),同時下載乳腺癌患者的臨床數(shù)據(jù)。包括:年齡、TNM分期、腫瘤分期、淋巴結(jié)轉(zhuǎn)移、遠處轉(zhuǎn)移、總生存時間和生存狀態(tài);排除生存期<30 d、臨床分期不明確以及預(yù)后信息不詳?shù)娜橄侔┗颊?。?shù)據(jù)下載截止日期到2020年10月11日TCGA收錄的乳腺癌轉(zhuǎn)錄組數(shù)據(jù)。
1.2獲取LncRNA表達矩陣 從TCGA 數(shù)據(jù)庫(https://cancergenome.nih.gov/)下載1 041例乳腺癌轉(zhuǎn)錄組數(shù)據(jù)相應(yīng)的manifest和metadata文件,使用Perl軟件及語言腳本提取乳腺癌原始的counts數(shù)據(jù),從Ensembl數(shù)據(jù)庫(https://asia.ensembl.org/index.html)下載Homo-sapiens.GRCh38.95.chr.gtf.gz文件,進行轉(zhuǎn)錄組數(shù)據(jù)表達譜id轉(zhuǎn)換,得到gene symbol乳腺癌基因表達譜矩陣,使用Perl語言腳本提取其中的乳腺癌LncRNA的表達譜矩陣。
1.3獲取乳腺癌免疫相關(guān)LncRNA 從GSEA數(shù)據(jù)庫(https://www.gsea-msigdb.org/gsea/index.jsp)下載免疫相關(guān)基因集(Immune response M19817,Immune system process M13664),使用Perl語言腳本獲取乳腺癌免疫相關(guān)基因,進一步通過R語言的“l(fā)imma”包使用共表達方法,以相關(guān)系數(shù)Cor>0.6和P<0.001提取乳腺癌免疫相關(guān)LncRNA[8]。
1.4獲取乳腺癌預(yù)后相關(guān)LncRNA構(gòu)建預(yù)后風(fēng)險模型 使用R軟件中的survival包對1 041例乳腺癌免疫相關(guān)LncRNA表達矩陣進行單因素Cox回歸篩選免疫預(yù)后相關(guān)LncRNA,進一步納入多因素Cox回歸分析,根據(jù)Akaike Information Criterion(AIC)確定最佳LncRNA建立多基因預(yù)后風(fēng)險模型,基于所選擇的LncRNA基因表達量乘以多因素Cox回歸系數(shù)之和計算每例患者的風(fēng)險值(risk score),根據(jù)中位風(fēng)險值將乳腺癌患者分為低風(fēng)險組和高風(fēng)險組。
1.5統(tǒng)計學(xué)方法 應(yīng)用R軟件(4.0.4版),采用Kaplan-Meier生存分析對兩個亞組預(yù)后差異進行檢驗,并繪制生存曲線,同時繪制生存預(yù)測的ROC曲線,并計算曲線下面積AUC值對預(yù)后風(fēng)險模型進行驗證。同時結(jié)合臨床病理信息及每例患者的risk score值進行單因素和多因素Cox回歸分析,并繪制森林圖,對預(yù)后風(fēng)險模型進行驗證。P<0.05為差異有統(tǒng)計學(xué)意義。
2.1病例特征 本研究共納入1 041例乳腺癌患者,年齡26~90歲,平均(58.19±13.20)歲。臨床病理特征見表1。
表1 1 041例乳腺癌患者臨床病理特征Table 1 Clinicopathological characteristics of 1 041 breast cancer patients
2.2免疫相關(guān)LncRNA與乳腺癌患者預(yù)后關(guān)系 從Ensembl數(shù)據(jù)庫下載Homo-sapiens.GRCh38.95.chr.gtf.gz文件,進行id轉(zhuǎn)換,得到gene symbol乳腺癌基因表達譜矩陣,使用Perl語言腳本提取其中的乳腺癌14 142個LncRNA的表達譜矩陣。從GSEA數(shù)據(jù)庫下載免疫相關(guān)基因集Immune response M19817和Immune system process M13664,使R語言的“l(fā)imma”包以共表達方法,設(shè)定相關(guān)系數(shù)Cor>0.6和P<0.001提取乳腺癌免疫相關(guān)LncRNA共644個。使用R軟件中的“survival”包對644個乳腺癌免疫相關(guān)LncRNA表達矩陣進行單因素Cox回歸篩選免疫預(yù)后相關(guān)LncRNA 14個。見表2。
表2 單因素Cox回歸分析篩選乳腺癌免疫預(yù)后相關(guān)LncRNATable 2 Univariate Cox regression analysis to screen breast cancer immune prognosis-related LncRNA
表2 (續(xù))
2.3預(yù)后風(fēng)險模型的構(gòu)建和評價 使用R軟件中的“survival”包對免疫相關(guān)LncRNA表達矩陣進行單因素Cox回歸篩選免疫預(yù)后相關(guān)LncRNA14個,進一步納入多因素Cox回歸進一步進分析,根據(jù)最佳AIC值確定6個LncRNA建立多基因預(yù)后風(fēng)險模型(圖1,表3),基于所選擇的LncRNA基因表達量乘以多因素Cox回歸系數(shù)之和計算每例患者的風(fēng)險值(risk score),根據(jù)中位風(fēng)險值將乳腺癌患者分為低風(fēng)險組和高風(fēng)險組(圖1)。采用Kaplan-Meier法對兩組患者進行生存分析,并繪制生存曲線,兩組乳腺癌患者預(yù)后差異有統(tǒng)計學(xué)意義(圖2,P<0.05)。同時繪制生存預(yù)測的ROC曲線,曲線下面積AUC值為0.703(圖3),顯示該預(yù)后風(fēng)險模型對乳腺癌患者的生存預(yù)后具有較好的預(yù)測能力。
表3 多因素Cox回歸分析篩選構(gòu)建預(yù)后風(fēng)險模型的免疫相關(guān)LncRNATable 3 Multivariate Cox regression analysis to screen immune-related LncRNAs for constructing prognostic risk models
圖1 預(yù)后風(fēng)險模型
圖2 兩組乳腺癌患者預(yù)后風(fēng)險模型Kaplan-Meier生存曲線
圖3 乳腺癌預(yù)后風(fēng)險模型的ROC曲線
2.4預(yù)后風(fēng)險模型的臨床應(yīng)用 進一步驗證預(yù)后風(fēng)險模型在臨床中的應(yīng)用,結(jié)合臨床病理信息及每例患者的risk score值進行單因素和多因素Cox回歸分析,并繪制森林圖,結(jié)果顯示患者年齡和患者風(fēng)險評分為乳腺癌預(yù)后的獨立危險因素(P<0.05)。見圖4。
圖4 乳腺癌臨床病理參數(shù)及風(fēng)險值Cox回歸森林圖
在我國乳腺癌的發(fā)病率已居女性惡性腫瘤的首位[2]。目前,對乳腺癌的治療以手術(shù)、內(nèi)分泌治療、放療、化療和靶向治療為主的綜合治療,使得乳腺癌的病死率較前得到明顯的控制,但經(jīng)過綜合治療后轉(zhuǎn)移和復(fù)發(fā)仍是乳腺癌死亡的主要原因。研究顯示乳腺癌是一種基因高度異質(zhì)的惡性腫瘤,使得常規(guī)的臨床病理評估無法精準的預(yù)測乳腺癌患者的生存預(yù)后[9]。因此尋找乳腺癌早期診斷、評估風(fēng)險及預(yù)后評估的分子標志物對乳腺癌的臨床治療至關(guān)重要。隨著大數(shù)據(jù)時代的到來,基因芯片技術(shù)和高通量測序獲得飛速發(fā)展,精準醫(yī)學(xué)也得以慢慢實現(xiàn),對于腫瘤的發(fā)生發(fā)展規(guī)律也逐漸揭露。
LncRNA是指長度>200 bp并且不具備蛋白編碼功能的RNA,研究發(fā)現(xiàn)LncRNA在腫瘤的發(fā)生、發(fā)展和腫瘤細胞的浸潤轉(zhuǎn)移過程中扮演著十分重要的角色,對腫瘤的早期診斷及預(yù)后評估具有重要的價值[3]。同時在多種腫瘤中研究發(fā)現(xiàn)免疫相關(guān)LncRNA是其生物標志物,可作為其潛在的治療靶點,與腫瘤的生存預(yù)后顯著相關(guān)[10-11]。最近在乳腺癌中也研究發(fā)現(xiàn)多種LncRNA 表達異常且參與其發(fā)生發(fā)展及轉(zhuǎn)移的過程[5-7]。
本研究通過下載癌癥基因組圖譜(the cancer genome atlas,TCGA)中1 041例乳腺癌患者轉(zhuǎn)錄組測序數(shù)據(jù)和臨床預(yù)后信息,進行全面分析,建立基因6個免疫相關(guān)LncRNA的預(yù)后風(fēng)險模型。并且研究發(fā)現(xiàn)該模型可以較好的預(yù)測乳腺癌患者的生存預(yù)后,同時發(fā)現(xiàn)風(fēng)險評分為乳腺癌患者預(yù)后的獨立危險因素。其中6個免疫相關(guān)LncRNA中LINC00668和SP2-AS1為危險基因,BAIAP2-DT、AL122010.1、AL606834.2和LINC01871為保護基因。既往研究顯示LINC00668在乳腺癌組織中高表達,通過抑制乳腺癌細胞凋亡和加速細胞周期進程來促進乳腺癌的發(fā)生發(fā)展[12]。并且有學(xué)者研究發(fā)現(xiàn)LINC00668通過與SND1相互作用促進乳腺癌的轉(zhuǎn)移和化療耐藥性,可作為乳腺癌的潛在治療靶點。同樣也有研究發(fā)現(xiàn)LINC00668與乳腺癌預(yù)后顯著相關(guān)[13]。Ruiz-Narvez等[14]也研究發(fā)現(xiàn)BAIAP2-DT與乳腺癌單核苷酸多態(tài)性顯著相關(guān)。同樣Li 等[13]在乳腺癌研究中發(fā)現(xiàn)AL122010.1出現(xiàn)低表達,為乳腺癌保護基因,與其預(yù)后顯著相關(guān)。在肝癌預(yù)后風(fēng)險模型的研究發(fā)現(xiàn)LINC01871為其保護基因,作為模型構(gòu)建基因與肝癌預(yù)后顯著相關(guān)[15]。同樣在乳腺癌的研究中也發(fā)現(xiàn)LINC01871為其保護基因,與其預(yù)后顯著相關(guān)[13]。而SP2-AS1和AL606834.2目前尚無相關(guān)研究報道,在乳腺癌中的作用機制也尚不明確,有待進一步研究。
基于TCGA數(shù)據(jù)庫,篩選出6個免疫相關(guān)LncRNA與乳腺癌患者預(yù)后的顯著相關(guān),并構(gòu)建預(yù)后風(fēng)險模型用于預(yù)測乳腺癌患者的生存預(yù)后,結(jié)合臨床信息進行驗證顯示預(yù)后風(fēng)險模型可作為乳腺癌獨立危險因子,為乳腺癌獨立預(yù)后生物標志物??捎行У脑u估乳腺癌患者的生存預(yù)后,為臨床醫(yī)師評估乳腺癌患者治療療效提供參考指標。并且預(yù)后風(fēng)險模型中的6個LncRNA可能為探索乳腺癌的免疫治療提供新的治療靶點,同時本研究也一定的局限性,首先,這是一項回顧性研究,使用了來自TCGA數(shù)據(jù)庫的數(shù)據(jù),該數(shù)據(jù)缺乏有關(guān)治療的信息;其次研究基于可公開獲取的TCGA數(shù)據(jù)庫中1 041例患者,臨床數(shù)據(jù)有效從而限制了模型的預(yù)測性能;最后目前6個LncRNA在乳腺癌中分子作用機制和相關(guān)信號通路尚不清楚,仍需進一步研究。