寇瑞環(huán),謝俞寧,李佳瑩,金葉,張志,張雪梅
1華北理工大學附屬唐山市工人醫(yī)院腫瘤科,河北 唐山 063210
2華北理工大學生命科學學院,河北 唐山 063210
肺癌是世界范圍內(nèi)病死率較高的一種惡性腫瘤,其發(fā)生發(fā)展涉及復(fù)雜的遺傳和表觀遺傳變異[1]。肺癌可以分為小細胞肺癌和非小細胞肺癌(nonsmall cell lung cancer,NSCLC)兩種亞型,其中約80%為NSCLC,而肺腺癌是NSCLC的重要亞型[2]。目前,臨床治療肺癌的技術(shù)不斷提高,包括新藥物的應(yīng)用及外科手術(shù)水平的提高,但肺癌患者的5年總體生存率仍不理想[3]。因此,尋找一種肺癌發(fā)展進程中的相關(guān)標志物對肺癌的早期診斷及預(yù)后預(yù)測十分重要。相關(guān)研究表明,細胞分裂周期蛋白6(cell division cycle protein 6,CDC6)在腫瘤發(fā)生發(fā)展中起到著重要作用,并具有預(yù)后生物標志物的潛力,但其與肺癌的關(guān)系尚未明確[4]。CDC6是真核細胞DNA復(fù)制過程中的一種重要調(diào)節(jié)因子,在S期中,其對檢查點的激活和維持具有重要作用;CDC6過表達干擾了細胞周期蛋白依賴性激酶抑制劑2A(INK4)-生長素反應(yīng)因子(auxin response factor,ARF)腫瘤抑制機制,可能增加致癌風險[5]。因此,通過理解CDC6基因在肺癌發(fā)生發(fā)展中的作用,有可能為肺癌的早期診斷、治療及改善患者預(yù)后提供新思路??截悢?shù)變異(copy number variation,CNV)是人類基因組內(nèi)從1 kb到幾個Mb的DNA片段拷貝數(shù)的不同,CNV是結(jié)構(gòu)變異的一種形式,指與參照基因組相比,存在大小不等片段的缺失、插入、復(fù)制和復(fù)雜多位點變異。目前研究中,3p26-p11.1染色體(缺失)、3q26.2-29染色體(增加)和6q25.3-24.3染色體(缺失)的CNV在支氣管內(nèi)鱗狀上皮化生患者中作為診斷腫瘤的預(yù)測因子,且準確度達97%,表明CNV的檢查已在肺癌的臨床診斷中表現(xiàn)出了獨特潛力[6-7]。本研究通過公共數(shù)據(jù)庫對CDC6基因進行研究,由癌癥基因組圖譜(The Cancer Genome Atlas,TCGA)數(shù)據(jù)庫挖掘CDC6在肺癌中的拷貝數(shù)變化及拷貝數(shù)對CDC6轉(zhuǎn)錄的影響,并結(jié)合基因表達譜動態(tài)分析(Gene Expression Profiling Interactive Analysis,GEPIA)數(shù)據(jù)庫研究CDC6基因在肺癌組織中的表達水平及與患者預(yù)后的關(guān)系,以期為肺癌的診療提供新的有效生物標志物。
從TCGA數(shù)據(jù)庫中獲取肺腺癌(TCGALUAD)的轉(zhuǎn)錄譜(mRNA)數(shù)據(jù)、CNV數(shù)據(jù)及臨床資料,篩選1991—2013年上述3組數(shù)據(jù)資料均齊全的經(jīng)病理學檢查確診的肺腺癌者共512例,其中男性237例,女性275例;左側(cè)肺腺癌199例,右側(cè)肺腺癌298例,部位未知15例。mRNA-seq counts level3數(shù)據(jù)來源于下一代測序(next-generation sequence,NGS)數(shù)據(jù),CNV 數(shù)據(jù)來自于 Affymetrix Genome-Wide Human SNP Array 6.0,針對TCGA數(shù)據(jù),使用官方提供的下載軟件進行下載。GEPIA是一種基于web的基因表達譜分析交互式分析工具,其可以根據(jù)TCGA和GTEx(Genotype-Tissue Expression)數(shù)據(jù)庫數(shù)據(jù),進行基因間的相關(guān)分析、患者生存分析、類似基因檢測和降維分析[8]。使用GEPIA數(shù)據(jù)庫對CDC6基因在肺癌組織中的表達情況,及與CDC6基因CNV和患者預(yù)后的關(guān)系進行研究。
由TCGA下載的表達譜數(shù)據(jù)使用R語言軟件edgR包進行數(shù)據(jù)標準化,表達差異基因閾值設(shè)置為|Log2FC|=1,P=0.01進行篩選。下載CNV數(shù)據(jù),包括512例肺腺癌患者的腫瘤組織數(shù)據(jù)和512例癌旁對照組織數(shù)據(jù),根據(jù)GRCh38基因組位置信息對Affymetrix Genome-Wide Human SNP Array 6.0芯片結(jié)果進行注釋,對注釋后的結(jié)果進行分析,尋找肺腺癌中的拷貝數(shù)差異基因。
采用京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)、基因本體(gene ontology,GO)分析基因功能和基因組信息。
采用R語言軟件(Rv3.5.0)進行數(shù)據(jù)分析。計數(shù)資料以例數(shù)和率(%)表示;計量資料多組間比較采用方差分析,進一步兩兩比較采用Bonferroni法;CDC6基因CNV與CDC6基因表達、CDC6基因的共表達基因的相關(guān)性分析采用Spearman相關(guān)性分析,以Spearman≥0.3,P<0.01篩選CDC6基因的共表達基因。采用Kaplan-Meier法繪制生存曲線,生存率的比較采用Log-rank檢驗。使用在線分析軟件DAVID 6.8[10]對差異基因的共表達基因進行GO功能富集分析,使用在線數(shù)據(jù)庫KOBAS 3.0軟件[9]對差異基因的共表達基因進行KEGG通路分析,GO/KEGG使用超幾何檢驗。以P<0.05為差異有統(tǒng)計學意義。
對512例肺腺癌患者的CNV數(shù)據(jù)進行分析,結(jié)果顯示:CDC6基因拷貝數(shù)單個缺失3例,占0.59%(3/512);正常 461例,占 90.04%(461/512);單個增加43例,占8.40%(43/512);擴增5例,占0.98%(5/512)。Spearman相關(guān)性分析結(jié)果顯示,肺腺癌患者腫瘤組織中CDC6基因CNV與CDC6mRNA的表達量呈正相關(guān)(rs=0.271,P<0.01)。根據(jù)CDC6基因拷貝數(shù)不同將肺腺癌患者分為單個缺失組(n=3)、正常組(n=461)、單個增加組(n=43)和擴增組(n=5)。4組肺腺癌患者的CDC6mRNA表達量比較,差異有統(tǒng)計學意義(F=827408.55,P<0.01);兩兩比較結(jié)果顯示,單個缺失組與正常組肺腺癌患者的CDC6mRNA表達量比較,差異無統(tǒng)計學意義(P>0.05);單個缺失組與單個增加組、擴增組肺腺癌患者的CDC6mRNA表達量比較,差異均有統(tǒng)計學意義(P<0.01);正常組、單個增加組和擴增組肺腺癌患者的CDC6mRNA表達量,組間兩兩比較,差異均有統(tǒng)計學意義(P<0.01)(表1)。
表1 不同組別肺腺癌患者CDC6 mRNA表達量的兩兩比較
以CDC6基因表達量的中位數(shù)(838.76)為分界值,將512例肺腺癌患者分為CDC6高表達組(n=256)和CDC6低表達組(n=256),CDC6低表達組肺腺癌患者的生存結(jié)局明顯優(yōu)于CDC6高表達組,差異有統(tǒng)計學意義(HR=1.5,P=0.0049);CDC6基因高表達可能是肺腺癌患者的不利預(yù)后因素。(圖1)
KEGG通路分析結(jié)果顯示:CDC6基因與多數(shù)共表達基因的表達水平呈正相關(guān);其中,TOP2A、EXO1、CDCA5、BUB1B、MCM10、ORC1、NCAPH、BRCA1、RRM2基因均是CDC6基因的共表達的基因,且均與細胞分裂增殖有密切關(guān)聯(lián)(表2)。對CDC6基因的共表達基因進行通路富集分析,結(jié)果發(fā)現(xiàn):CDC6基因的共表達基因主要富集在修復(fù)相關(guān)通路(DNA復(fù)制、錯配修復(fù)、核苷酸切除修復(fù))、糖酵解通路和小細胞肺癌相關(guān)通路(表3)。GO功能富集分析結(jié)果顯示,在細胞構(gòu)成層面,CDC6基因的共表達基因參與了T復(fù)合物、透明帶受體復(fù)合物、驅(qū)動蛋白復(fù)合體、DNA復(fù)制因子C復(fù)合物的形成;在分子功能層面,CDC6基因的共表達基因參與了四鏈體DNA結(jié)合;在生物學過程層面,CDC6基因的共表達基因參與了DNA鏈的延伸、核酸切除修復(fù)、蛋白質(zhì)去甲?;?、轉(zhuǎn)錄偶聯(lián)切除修復(fù)、WNT信號通路、平面細胞極性通路、核因子-κB誘導(dǎo)激酶(nuclear factor of kappa-B binducing kinase,NIK)/核因子-κB(nuclear factor of kappa-B,NF-κB)信號通路(表4)。
表2 CDC6基因的共表達基因分析
表3 CDC6共表達基因的KEGG通路富集分析
表4 CDC6共表達基因的GO功能富集分析
肺癌是世界范圍內(nèi)腫瘤相關(guān)死亡的最常見原因,每年約有1800例肺癌新發(fā)病例,且約有1600萬例患者死亡,根據(jù)患者的病情階段和地區(qū)差異,肺癌患者的5年生存率為4%~17%[8]。手術(shù)切除是目前臨床治療肺癌的優(yōu)先選擇手段,而對于Ⅲ期肺癌患者,放化療聯(lián)合使用是一種有效的治療手段;血管生成素、表皮生長因子受體抑制劑等其他抗腫瘤藥物的引入為肺癌的治療提供了多種治療方案,并使肺癌患者受益[11]。目前,關(guān)于肺癌的研究,預(yù)后生物標志物的篩選仍然是研究的重要方向。
CNV是肺癌發(fā)生、發(fā)展的重要影響因素;在NSCLC中,肺腺癌和肺鱗狀細胞癌的CNV存在差異,其差異被研究用來區(qū)分NSCLC的亞型,同時,通過對不同腫瘤之間拷貝數(shù)差異的研究,發(fā)現(xiàn)CNV具有識別起源未知的腫瘤起源的潛力[12]。
CDC6在染色體17上編碼,包含細胞周期蛋白依賴性激酶磷酸化位點,核苷酸結(jié)合腺苷三磷酸酶結(jié)構(gòu)域等元件[13]。已有研究表明,CDC6受到miRNA-26a/b的調(diào)控,可以抑制肺癌細胞的增殖、遷移和侵襲[14],并且是前列腺癌和卵巢癌的不良預(yù)后指標[15-16]。本研究結(jié)果顯示,在肺腺癌中,CDC6基因CNV與CDC6mRNA表達量呈正相關(guān),表明CDC6基因的CNV極有可能在其表達的調(diào)控中扮演重要角色。CDC6低表達組肺腺癌患者的生存結(jié)局明顯優(yōu)于CDC6基因高表達組(P<0.01);CDC6基因的共表達基因TOP2A、EXO1、CDCA5與細胞分裂和周期調(diào)節(jié)有著密切的關(guān)系。在對CDC6基因的共表達基因集進行分析時,發(fā)現(xiàn)CDC6基因的共表達基因參與了WNT信號通路、NIK/NF-κB信號通路,此兩個信號通路與腫瘤的發(fā)生發(fā)展關(guān)系密切[17-19]。
綜上所述,本研究主要采用生物信息的方法,由公共數(shù)據(jù)庫TCGA獲得相應(yīng)資料,結(jié)合GEPIA數(shù)據(jù)庫及配套分析方案,探討了CDC6在肺腺癌發(fā)展中的作用及其對預(yù)后的影響,鑒定CDC6作為肺腺癌預(yù)后標志物的潛力,然而CDC6在肺腺癌的真實作用究竟如何,仍需大量的臨床和實驗室證據(jù)佐證。