張文 李少軍 郭楠楠 趙英男
肺癌是目前對(duì)人類健康和生命威脅最嚴(yán)重的腫瘤之一。肺腺癌(lung adenocarcinoma)是肺癌的一種,屬于非小細(xì)胞肺癌(non-small cell lung cancer, NSCLC),在女性及不抽煙者中較為常見[1,2]。lincRNA是一類長(zhǎng)度大于200個(gè)堿基的具有生物學(xué)功能的非編碼RNA,已發(fā)現(xiàn)有大量的lincRNA在腫瘤組織中的異常表達(dá)以及癌變或者腫瘤的抑制存在一定的聯(lián)系,可被用作癌癥的生物標(biāo)志物[3,4]。在肺腺癌中已經(jīng)發(fā)現(xiàn)有一些lincRNA如EINCR1、MALAT1、HOTAIR和P21等的異常表達(dá)影響癌癥的進(jìn)程[5-8],然而其具體的調(diào)控機(jī)制目前還需進(jìn)一步研究。
DNA甲基化是染色質(zhì)修飾的一種,在不改變DNA序列的情況下,能改變?nèi)旧|(zhì)結(jié)構(gòu),進(jìn)而影響周圍基因的表達(dá)。DNA甲基化能對(duì)原癌基因和抑癌基因的表達(dá)進(jìn)行調(diào)控,在腫瘤發(fā)生過程中起十分重要的作用。原癌基因啟動(dòng)子的DNA去甲基化能激活原癌基因的表達(dá),進(jìn)而導(dǎo)致癌癥的發(fā)生。如原癌基因MYC的啟動(dòng)子DNA去甲基化與很多癌癥的發(fā)生發(fā)展有關(guān)[9-11]。而抑癌基因啟動(dòng)子區(qū)域DNA甲基化水平的升高會(huì)抑制p53和Rb等抑癌基因的表達(dá),進(jìn)而促進(jìn)了癌癥的發(fā)生發(fā)展[12,13]。
啟動(dòng)子DNA甲基化能調(diào)控lincRNA基因的表達(dá),與很多疾病的發(fā)生發(fā)展有關(guān)。在多種腫瘤細(xì)胞中發(fā)現(xiàn)lincRNA基因MEG3的表達(dá)顯著低于正常組織,其啟動(dòng)子區(qū)域有DNA甲基化現(xiàn)象[14,15]。在肝癌細(xì)胞中,MEG3受mir-29a的間接調(diào)控。mir-29a能抑制甲基轉(zhuǎn)移酶的活性從而調(diào)控MEG3的表達(dá)。當(dāng)用脫氧胞苷或RNA干擾的方法抑制甲基轉(zhuǎn)移酶時(shí),MEG3的表達(dá)明顯上升[16]。另外在結(jié)直腸癌細(xì)胞系中發(fā)現(xiàn),一些lincRNA基因在細(xì)胞用去甲基化試劑處理后,表達(dá)明顯上升[17]。肺腺癌中,系統(tǒng)研究DNA甲基化與lincRNA基因表達(dá)的關(guān)系及其對(duì)癌癥的影響相對(duì)較少。因此,本研究利用TCGA網(wǎng)站肺腺癌全基因組DNA甲基化芯片(infinium human methylation 450 beadChip)數(shù)據(jù)和轉(zhuǎn)錄組數(shù)據(jù),分析兩者的關(guān)系及其在肺腺癌的變化和對(duì)預(yù)后的影響,為闡明lincRNA在肺腺癌中的可能調(diào)控機(jī)制提供參考。
1.1 數(shù)據(jù)來源 從TCGA網(wǎng)站下載507例基于Illumina全基因組DNA甲基化芯片的肺腺癌DNA甲基化數(shù)據(jù)及594例肺腺癌RNA-seq轉(zhuǎn)錄組數(shù)據(jù)(2017年5月),同時(shí)下載患者的臨床結(jié)果數(shù)據(jù)。
1.2 方法
1.2.1 lincRNA基因周圍DNA甲基化水平的分析 DNA甲基化水平用芯片每個(gè)探針的?值表示。?值越高,表示甲基化水平越高,?的最大值為1,最小值為0。從Ensembl下載人類基因組注釋數(shù)據(jù)(GRCh38),根據(jù)lincRNA在基因組上的注釋數(shù)據(jù),對(duì)于啟動(dòng)子上游2,000 bp和基因下游2,000 bp區(qū)域,每100 bp計(jì)算癌旁組織中探針的平均DNA甲基化水平。在基因區(qū)域,平均分成20個(gè)相同長(zhǎng)度區(qū)域后,計(jì)算每個(gè)區(qū)域的平均甲基化水平。
1.2.2 轉(zhuǎn)錄組數(shù)據(jù)處理 下載RNAseq數(shù)據(jù)后,基因的表達(dá)值為FPKM,用分位數(shù)歸一化(quantile normalization)對(duì)數(shù)據(jù)進(jìn)一步進(jìn)行處理,計(jì)算癌旁組織每個(gè)基因的平均表達(dá)水平,然后按表達(dá)值高低把基因平均分成3類,計(jì)算不同表達(dá)水平基因的DNA甲基化水平。
1.2.3 DNA甲基化差異分析 對(duì)于每個(gè)基因轉(zhuǎn)錄起始位點(diǎn)上游1,000 bp區(qū)域,用配對(duì)t檢驗(yàn)的方法計(jì)算每個(gè)探針在腫瘤組織和癌旁組織間DNA甲基化水平的差異。P值用Bonferroni進(jìn)行多重矯正后得到Q值同時(shí)計(jì)算兩種組織間平均?值差異。對(duì)于每個(gè)探針,如果Q<0.05以及Δ?>0.1,則認(rèn)為該探針在兩種組織中DNA甲基化水平有顯著差異。如果一個(gè)基因上游區(qū)域有DNA甲基化差異的探針的甲基化水平都向同一方向變化,則認(rèn)為該基因的啟動(dòng)子DNA甲基化水平在兩種組織中有顯著差異
1.2.4 基因表達(dá)差異分析 用配對(duì)t檢驗(yàn)的方法計(jì)算每個(gè)基因在腫瘤組織和癌旁組織間基因表達(dá)水平的變化,P值用Bonferroni進(jìn)行多重矯正后得到Q值,Q<0.05作為基因顯著差異的閾值。
1.2.5 生存分析 對(duì)356例既有DNA甲基化數(shù)據(jù),也有臨床病理特征及預(yù)后信息的標(biāo)本,根據(jù)lincRNA基因啟動(dòng)子區(qū)域的DNA甲基化水平,對(duì)肺腺癌患者的預(yù)后進(jìn)行生存分析??偵鏁r(shí)間定義為手術(shù)至患者死亡或末次隨訪的時(shí)間。生存分析在R中進(jìn)行,采用的工具包為Survival包,不同DNA甲基化水平患者的生存時(shí)間差異用survdiff進(jìn)行統(tǒng)計(jì)。
2.1lincRNA基因DNA甲基化分析 從TCGA下載人類肺腺癌的全基因組450 K DNA甲基化芯片數(shù)據(jù),根據(jù)Ensembl的基因注釋,計(jì)算癌旁組織lincRNA基因周圍DNA甲基化的分布情況。與以前的結(jié)果類似,在蛋白基因的基因區(qū)域有著較高的DNA甲基化水平,而離轉(zhuǎn)錄起始位點(diǎn)較近的上游區(qū)域DNA甲基化水平相對(duì)較低(圖1A)。DNA甲基化在lincRNA基因的分布情況與蛋白基因相近,其基因區(qū)域的DNA甲基化水平較高,而轉(zhuǎn)錄起始位點(diǎn)附近的啟動(dòng)子區(qū)域DNA甲基化水平較低(圖1A)。然而,DNA甲基化在這兩種基因上的分布情況存在一定的差異,在基因區(qū)域蛋白基因的DNA甲基化水平顯著高于lincRNA基因,而在靠近轉(zhuǎn)錄起始位點(diǎn)的啟動(dòng)子區(qū)域蛋白基因的DNA甲基化水平低于lincRNA基因(圖1A)。
為了研究DNA甲基化對(duì)lincRNA基因表達(dá)的影響,從TCGA下載507個(gè)包括肺腺癌腫瘤組織和癌旁組織的RNA-seq數(shù)據(jù),用分位數(shù)歸一化后計(jì)算腫瘤組織和癌旁組織的lincRNA基因平均表達(dá)水平,同時(shí)利用癌旁組織計(jì)算不同表達(dá)水平的lincRNA基因DNA甲基化情況。從圖1B可以看出,不同表達(dá)水平的lincRNA基因在轉(zhuǎn)錄位點(diǎn)上游區(qū)域的DNA甲基化存在明顯差別,該處的DNA甲基化對(duì)lincRNA的基因表達(dá)有抑制作用。不同表達(dá)水平的lincRNA基因區(qū)域的甲基化水平?jīng)]有明顯的差異,表明該位置的DNA甲基化并不影響lincRNA的表達(dá)。
圖 1 lincRNA基因周圍DNA甲基化分布分析。A:lincRNA基因和蛋白基因周圍DNA甲基化分布;B:不同表達(dá)水平的lincRNA基因DNA甲基化分布。Fig 1 Distribution of DNA methylation around lincRNA.A: Distribution of DNA methylation around lincRNAs and proteins; B: Distribution of DNA methylation in lincRNAs with different expression levels.
2.2 腫瘤組織和癌旁組織間lincRNA存在DNA甲基化差異 為了研究lincRNA的DNA甲基化對(duì)肺腺癌的影響,對(duì)23例同時(shí)含有腫瘤組織和癌旁組織的肺腺癌患者lincRNA基因的啟動(dòng)子DNA甲基化進(jìn)行差異分析。用配對(duì)t檢驗(yàn)的方法計(jì)算每個(gè)探針在腫瘤組織和癌旁組織間DNA甲基化水平的差異,共發(fā)現(xiàn)420個(gè)lincRNA基因啟動(dòng)子區(qū)域DNA甲基化水平存在顯著差異(矯正后的P<0.05,Δ?>0.1)。其中有280個(gè)lincRNA基因在腫瘤組織中啟動(dòng)子的DNA甲基化水平明顯高于癌旁組織。如圖2所示,420個(gè)基因的啟動(dòng)子區(qū)域DNA甲基化熱圖聚類分析表明,腫瘤組織和癌旁組織的樣本分別聚在不同的分支上,表明兩者的DNA甲基化存在明顯差別。同時(shí),大部分腫瘤組織的DNA甲基化水平明顯高于癌旁組織。
2.3 DNA甲基化影響肺腺癌患者的lincRNA基因表達(dá)在420個(gè)有啟動(dòng)子DNA甲基化變化的lincRNA中,比較23例同時(shí)含有腫瘤組織和癌旁組織肺腺癌病人的lincRNA基因表達(dá)變化時(shí)發(fā)現(xiàn),有270個(gè)基因的表達(dá)變化趨勢(shì)與甲基化相反。用配對(duì)t檢驗(yàn)的方法計(jì)算表明,在兩種組織中,這270個(gè)lincRNA有15個(gè)基因的表達(dá)有十分顯著的差異(Bonferroni多重矯正后結(jié)果),其中有5個(gè)lincRNA基因的啟動(dòng)子DNA甲基化水平變高,而其基因表達(dá)水平變低,另外10個(gè)lincRNA基因的啟動(dòng)子DNA甲基化水平變低,而其基因表達(dá)水平變高(圖3)。表明這15個(gè)lincRNA基因中啟動(dòng)子DNA甲基化的變化影響基因的表達(dá)。
圖 2 腫瘤組織和癌旁組織lincRNA基因啟動(dòng)子DNA甲基化聚類分析Fig 2 Heatmap analysis of DNA methylation in promoter region of lincRNA in tumor and adjacent tissues
圖 3 腫瘤組織和癌旁組織lincRNA基因啟動(dòng)子DNA甲基化變化與基因表達(dá)變化關(guān)系Fig 3 Comparative analysis of DNA methylation in the promoter region of lincRNA and its contribution to gene expression between tumor and adjacent tissues
2.4lincRNA基因啟動(dòng)子DNA甲基化水平的變化與肺腺癌患者生存時(shí)間有關(guān) 在15個(gè)啟動(dòng)子有DNA甲基化變化同時(shí)基因表達(dá)受到影響的lincRNA基因中,F(xiàn)GF14-AS2是一個(gè)抑癌基因,其表達(dá)降低與乳腺癌的發(fā)生發(fā)展有關(guān)[18]。另一個(gè)lincRNA基因FENDRR也是一個(gè)抑癌基因,其表達(dá)降低與胃癌的發(fā)生發(fā)展有關(guān)[19]。為了進(jìn)一步研究lincRNA基因啟動(dòng)子DNA甲基化對(duì)肺腺癌患者的影響,對(duì)于這15個(gè)基因,按其啟動(dòng)子DNA甲基化水平,把含有完整預(yù)后信息的356個(gè)患者分成高甲基化和低甲基化兩組,用R軟件中的Survival包計(jì)算兩者的生存曲線。在這15個(gè)lincRNA基因中,有2個(gè)基因的DNA甲基化水平與生存時(shí)間相關(guān),為AC092171.5和FENDRR基因。在這兩個(gè)基因中,低甲基化患者相對(duì)于高甲基化患者有較長(zhǎng)的生存期(圖4A,P<0.05),該趨勢(shì)剛好與基因表達(dá)相反(圖4B,P<0.05)。
本研究應(yīng)用生物信息學(xué)手段,通過分析公用數(shù)據(jù)庫(kù)TCGA的人肺腺癌全基因組DNA甲基化數(shù)據(jù)和RNA-seq數(shù)據(jù),發(fā)現(xiàn)lincRNA基因啟動(dòng)子區(qū)域與基因組區(qū)域相比有較低的DNA甲基化現(xiàn)象,一部分lincRNA基因啟動(dòng)子區(qū)域的DNA甲基化水平在腫瘤組織和癌旁組織間存在明顯差別,能調(diào)控基因的表達(dá)。本研究中,在420個(gè)有DNA甲基化水平差異的lincRNA中,有270個(gè)基因的表達(dá)變化趨勢(shì)相反。通過統(tǒng)計(jì)檢驗(yàn)雖然只有15個(gè)變化趨勢(shì)相反的基因在兩種組織中表達(dá)值有顯著差異,這可能與我們的統(tǒng)計(jì)檢驗(yàn)方法較為嚴(yán)格有關(guān)。當(dāng)用較為寬松的Benjamini-Hochberg多重矯正方法時(shí),我們發(fā)現(xiàn)130個(gè)基因有顯著表達(dá)差異(矯正后P<0.05)。另外,一些lincRNA基因啟動(dòng)子DNA甲基化水平與患者的預(yù)后有關(guān),包括FENDRR和AC092171.5。
FENDRR基因位于16q24.1,能結(jié)合到PRC2蛋白復(fù)合體(polycomb repressive complex 2)上,調(diào)控目標(biāo)基因的表達(dá)[20]。在多種腫瘤中發(fā)現(xiàn),F(xiàn)ENDRR的表達(dá)顯著低于正常組織,且與腫瘤的發(fā)生發(fā)展有關(guān),然而其具體的調(diào)控機(jī)制并不清楚[19,21]。最近有研究[22]發(fā)現(xiàn),在肺癌中,F(xiàn)ENDRR能調(diào)控腫瘤抑制基因FOXF1的表達(dá),與肺癌的發(fā)生發(fā)展有重要聯(lián)系。通過本文的研究發(fā)現(xiàn),腫瘤組織中該基因啟動(dòng)子區(qū)域的DNA甲基化顯著升高,因而抑制了基因的表達(dá),從而導(dǎo)致其下游所調(diào)控的與癌癥發(fā)生發(fā)展相關(guān)的基因表達(dá)發(fā)生了變化。另外,該基因啟動(dòng)子DNA甲基化水平越高的患者預(yù)后越差,因此該基因的啟動(dòng)子甲基化可能跟肺腺癌的發(fā)生發(fā)展以及預(yù)后都有關(guān)系,可以作為肺腺癌診斷和預(yù)后的一個(gè)潛在標(biāo)志物。AC092171.5啟動(dòng)子DNA甲基化水平在腫瘤組織中顯著低于癌旁組織,然而,高甲基化患者預(yù)后較差,表明該基因的DNA甲基化與預(yù)后也有一定的聯(lián)系。
越來越多的數(shù)據(jù)表明DNA甲基化與肺癌的發(fā)生發(fā)展密切相關(guān)。在肺癌患者中已發(fā)現(xiàn)一部分蛋白基因的啟動(dòng)子區(qū)域存在甲基化現(xiàn)象。p16基因是一種重要的抑癌基因,參與細(xì)胞周期蛋白調(diào)控。在腫瘤組織中,該基因啟動(dòng)子區(qū)CpG島甲基化能降低其表達(dá)水平,在肺癌發(fā)生發(fā)展中起重要作用[23,24]。研究發(fā)現(xiàn),隨著癌癥的發(fā)展,肺腺癌中一些基因的DNA甲基化水平也會(huì)產(chǎn)生明顯的改變。從正常組織到肺腺癌的發(fā)展過程中,這些基因的甲基化程度明顯增加[25]。因此,檢測(cè)DNA甲基化的變化在肺腺癌早期診斷和風(fēng)險(xiǎn)評(píng)估有著十分重要的意義。另外,細(xì)胞的高轉(zhuǎn)移特性可能與一些基因的高甲基化相關(guān),DNA甲基化的變化對(duì)預(yù)測(cè)疾病的復(fù)發(fā)具有一定的意義,可作為預(yù)后效果的一個(gè)重要指標(biāo)[26]。
圖 4 lincRNA基因啟動(dòng)子DNA甲基化和基因表達(dá)水平與肺腺癌患者的生存時(shí)間關(guān)系。A:DNA甲基化;B:基因表達(dá)。Fig 4 Survival analysis of patients with different methylation levels in lung adenocarcinoma.A: DNA methylation; B: Gene expression.
綜上,一些lincRNA基因啟動(dòng)子區(qū)域的高甲基化會(huì)抑制基因的表達(dá),是其表達(dá)的重要調(diào)控機(jī)制之一。FENDRR基因啟動(dòng)子區(qū)域的甲基化可以作為肺腺癌診斷及預(yù)后的一個(gè)重要指標(biāo),該結(jié)果同時(shí)為進(jìn)一步研究肺腺癌發(fā)病機(jī)制提供新的線索。