魏 超,張 曉*,高 杰
(東南大學(xué)公共衛(wèi)生學(xué)院,江蘇 南京 210009)
胰腺癌(pancreatic cancer,PC)是一種惡性消化系統(tǒng)腫瘤,全球每年因患胰腺癌而死亡的患者超過(guò)200萬(wàn)例[1-2],在我國(guó)胰腺癌的發(fā)病率也位居惡性腫瘤中的第10位,死亡率高居第6位,且每年均呈上升趨勢(shì)[3],其發(fā)病隱匿、早期診斷困難、易發(fā)生轉(zhuǎn)移、預(yù)后較差[4]。因此尋找更有效的臨床指標(biāo)對(duì)胰腺癌患者的診斷和治療顯得非常重要。
長(zhǎng)鏈非編碼RNA(long non-coding RNA,lncRNA)是指一組核苷酸數(shù)量大于200的RNA,缺乏蛋白質(zhì)編碼潛力[5]。研究發(fā)現(xiàn)lncRNA可以通過(guò)促進(jìn)或抑制癌癥的發(fā)展進(jìn)而在診斷和治療腫瘤的過(guò)程中發(fā)揮作用[6-11]。
近年來(lái),生物信息學(xué)的快速發(fā)展為診斷和挖掘疾病治療靶點(diǎn)提供了一個(gè)新的方向。因此,本文試圖通過(guò)使用生物信息學(xué)方法,從基因芯片表達(dá)匯編(gene expression omnibus,GEO)數(shù)據(jù)庫(kù)和癌癥基因組圖譜(the cancer genome atlas,TCGA)數(shù)據(jù)庫(kù)中下載獲得胰腺癌基因相關(guān)數(shù)據(jù),對(duì)其進(jìn)行分析整合,從而為診斷和治療胰腺癌提供新的治療靶點(diǎn)和分子標(biāo)志物。
本研究在美國(guó)國(guó)立生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)的GEO數(shù)據(jù)庫(kù)中檢索胰腺癌芯片數(shù)據(jù)。選用樣本量較多的GSE15471、GSE16515、GSE71989數(shù)據(jù)集下載并進(jìn)行后續(xù)分析。其中GSE15471包括39例胰腺癌和39例癌旁正常標(biāo)本,GSE16515包括37例胰腺癌和36例癌旁正常標(biāo)本,GSE71989包括13例胰腺癌和8例癌旁正常標(biāo)本。
通過(guò)Gencode數(shù)據(jù)庫(kù)V15(http://www.gencodegenes.org/releases/current.htm l)進(jìn)行l(wèi)ncRNA注釋,利用blast程序,通過(guò)U133PLUS 2.0技術(shù)將lncRNA數(shù)據(jù)庫(kù)與mRNA測(cè)序數(shù)據(jù)進(jìn)行比對(duì),獲得lncRNA;運(yùn)用GEO數(shù)據(jù)庫(kù)中自帶的GEO 2R在線分析軟件分析GSE15471、GSE16515、GSE71989中胰腺癌與正常組織的差異表達(dá)基因和 lncRNA,篩選標(biāo)準(zhǔn)為|log2FC|>2且 P<0.05。選取在3個(gè)數(shù)據(jù)芯片中的交集mRNA和lncRNA。
利用生物學(xué)信息注釋數(shù)據(jù)庫(kù)DAVID(https://david.ncifcrf.gov/)對(duì)差異基因進(jìn)行基因本體(gene ontology,GO)生物學(xué)過(guò)程富集分析和京都基因與基因組百科全書(shū)(Kyoto encyclopedia of genes and genomes,KEGG)通路富集分析,富集標(biāo)準(zhǔn)為P<0.05。
基于KEGG中Pathway的基因調(diào)控關(guān)系,解構(gòu)數(shù)據(jù)庫(kù),在全KEGG-Pathway數(shù)據(jù)庫(kù)的范圍內(nèi)篩選某個(gè)蛋白的上游或下游蛋白,從而得到數(shù)據(jù)庫(kù)中任何一個(gè)基因的表達(dá)產(chǎn)物和其他基因表達(dá)產(chǎn)物的相互作用關(guān)系,并通過(guò)Cytoscape 2.8.2進(jìn)行圖標(biāo)繪制。
取3個(gè)數(shù)據(jù)集GSE15471、GSE16515、GSE71989中共表達(dá)關(guān)系的交集,即將在3個(gè)數(shù)據(jù)集中均存在的lncRNA-mRNA共表達(dá)關(guān)系對(duì)納入網(wǎng)絡(luò)。通過(guò)計(jì)算lncRNA與mRNA的皮爾森相關(guān)系數(shù)r,選取相關(guān)系數(shù)的絕對(duì)值(|r|)≥0.85,且P<0.05的lncRNA-mRNA對(duì),構(gòu)建lncRNA-mRNA共表達(dá)網(wǎng)絡(luò),并通過(guò)網(wǎng)絡(luò)作圖軟件Cytoscape 2.8.2繪制網(wǎng)絡(luò)圖。
在KEGG數(shù)據(jù)庫(kù)中將lncRNA與它對(duì)應(yīng)的mRNA,以及參與重要通路的基因和通路名稱的關(guān)系對(duì),導(dǎo)入Cytoscape 2.8.2軟件中進(jìn)行可視化,構(gòu)建信號(hào)通路的調(diào)節(jié)網(wǎng)絡(luò)。
對(duì)尋找到的lncRNA-mRNA調(diào)控網(wǎng)絡(luò)中的編碼蛋白基因,通過(guò)STRING軟件(https://string-db.org/)尋找基因?qū)?yīng)蛋白質(zhì)之間的相互作用關(guān)系。設(shè)置最小相互調(diào)控作用預(yù)測(cè)得分(minimum required interaction score)>0.4,得到基因產(chǎn)物蛋白之間的調(diào)控關(guān)系,然后構(gòu)建蛋白調(diào)控網(wǎng)絡(luò)。
從TCGA數(shù)據(jù)庫(kù)中(https://tcga-data.nci.nih.gov/)提取177例胰腺癌患者生存數(shù)據(jù),使用R語(yǔ)言“Survival”軟件包,對(duì)篩選出的差異mRNA、lncRNA和胰腺癌患者生存時(shí)間進(jìn)行相關(guān)性分析,檢驗(yàn)方法為L(zhǎng)og-rank χ2檢驗(yàn),以α=0.05為檢驗(yàn)水準(zhǔn)。
根據(jù)圖1可以發(fā)現(xiàn),根據(jù)篩選條件,在芯片GSE15471中得到差異mRNA 3 864個(gè),其中上調(diào)基因1 509個(gè),下調(diào)基因2 345個(gè);差異lncRNA 1 873個(gè),其中上調(diào)基因197個(gè),下調(diào)基因1 676個(gè)。在芯片GSE16515中得到差異mRNA 3 019個(gè),其中上調(diào)基因1 020個(gè),下調(diào)基因1 999個(gè);差異lncRNA 1 330個(gè),其中上調(diào)基因98個(gè),下調(diào)基因1 232個(gè)。在芯片GSE71989中得到差異mRNA 3 631個(gè),其中上調(diào)基因1 479個(gè),下調(diào)基因2 152個(gè);差異lncRNA 1 625個(gè),其中上調(diào)基因208個(gè),下調(diào)基因1 417個(gè)。對(duì)3個(gè)芯片篩選出的差異mRNA、lncRNA取交集并通過(guò)韋恩圖(圖2)展現(xiàn),得到與胰腺癌相關(guān)可信度高的差異mRNA 1 147個(gè)、lncRNA 336個(gè)。
圖1 胰腺癌中差異lncRNA和m RNA的熱圖
圖2 胰腺癌中異常表達(dá)的差異lncRNA和mRNA的韋恩圖
通過(guò)DAVID對(duì)上述得到的1 147個(gè)差異mRNA基因進(jìn)行GO分析發(fā)現(xiàn),上調(diào)的差異mRNA基因主要參與細(xì)胞外基質(zhì)組織、細(xì)胞黏附、細(xì)胞因子介導(dǎo)的信號(hào)通路、膠原分解等過(guò)程,下調(diào)的差異mRNA基因主要參與信號(hào)轉(zhuǎn)導(dǎo)、G蛋白偶聯(lián)受體信號(hào)通路、蛋白水解、細(xì)胞鋅離子穩(wěn)態(tài)等過(guò)程。KEGG分析發(fā)現(xiàn),上調(diào)差異mRNA基因主要涉及腫瘤通路、人類乳頭瘤病毒感染、細(xì)胞外基質(zhì)受體相互作用、蛋白質(zhì)消化吸收等通路,下調(diào)差異mRNA基因涉及鈣信號(hào)通路、代謝通路、神經(jīng)活性配體-受體相互作用、胰液分泌等通路。排名前20位的差異mRNA基因顯著性功能和通路如圖3所示。
圖3 差異表達(dá)基因GO分析和KEGG分析結(jié)果
差異表達(dá)基因信號(hào)轉(zhuǎn)導(dǎo)網(wǎng)中共有62個(gè)上調(diào)mRNA和79個(gè)下調(diào)mRNA,上調(diào)mRNA中調(diào)控?cái)?shù)量前3位的是 GNA15(13 個(gè))、SMAD3(9 個(gè))、ITGA2(9 個(gè))、STAT1(7個(gè))、SDC1(7個(gè))、CXCR4(7個(gè)),下調(diào)mRNA中調(diào)控?cái)?shù)量前3位的是GNAS(13個(gè))、PLCB1(11個(gè))、CALML5(10個(gè)),見(jiàn)圖4。
通過(guò)lncRNA-mRNA共表達(dá)網(wǎng)絡(luò)發(fā)現(xiàn)有7個(gè)lncRNA與61個(gè)mRNA具有高度的共表達(dá)關(guān)系。NONHSAT166626.1、ENST00000536141.1與NONHSAT 138174.2居于lncRNA-mRNA共表達(dá)網(wǎng)絡(luò)的核心位置,與眾多mRNA均具有共表達(dá)關(guān)系。見(jiàn)圖5。
調(diào)控網(wǎng)絡(luò)包括3個(gè)上調(diào)lncRNA和11個(gè)下調(diào)lncRNA,13個(gè)上調(diào)mRNA和16個(gè)下調(diào)mRNA及46條通路,其中調(diào)控?cái)?shù)量前3位的lncRNA是NONHSAT166626.1(10個(gè))、ENST00000536141.1(7個(gè))、NONHSAT138174.2(6個(gè)),調(diào)控網(wǎng)絡(luò)中的mRNA前5位分別是 HLA-F(12個(gè))、HLA-G(12個(gè))、FN1(11個(gè))、COL1A1(10個(gè))、COL1A2(10個(gè)),排名前3位的通路是蛋白質(zhì)消化吸收(8個(gè))、人類乳頭瘤病毒感染(6個(gè))、代謝途徑(5個(gè))。見(jiàn)圖6。
在差異mRNA間的蛋白質(zhì)相互作用網(wǎng)絡(luò)中COL1A1、COL3A1、COL5A2居于重要節(jié)點(diǎn),具體見(jiàn)圖7。
對(duì)TCGA數(shù)據(jù)集中胰腺癌的生存分析發(fā)現(xiàn),12個(gè)lncRNA與胰腺癌的生存預(yù)后密切相關(guān)。它們的生存曲線見(jiàn)圖8,其中基因ATP1A1-AS1、CBR3-AS1、CTD-3080P12.3、 FAM66D、 FAM87A、 FLJ38576、 LINC 00476、LINC00574、LINC01554、PYY2高表達(dá)的胰腺癌患者生存時(shí)間延長(zhǎng),而基因LINC00857、OVOL1-AS1的高表達(dá)會(huì)使胰腺癌患者的生存時(shí)間縮短(P<0.05)。
圖4 差異表達(dá)基因信號(hào)轉(zhuǎn)導(dǎo)網(wǎng)絡(luò)
圖5 lncRNA-m RNA共表達(dá)網(wǎng)絡(luò)
胰腺癌是一種惡性程度較高的消化系統(tǒng)腫瘤,其病死率位居惡性腫瘤死亡的第4位。目前手術(shù)治療仍是胰腺癌常規(guī)治療手段,胰腺癌手術(shù)患者如能早期診斷并進(jìn)行手術(shù)治療,其5年生存率可達(dá)24%[12]。但由于其起病隱匿、侵襲性強(qiáng)、進(jìn)展迅速且預(yù)后較差,所以目前胰腺癌治愈性切除率僅為5%[13],其5年整體生存率低于6%[14-15]。而近年來(lái)隨著分子醫(yī)學(xué)的迅速發(fā)展,生物信息學(xué)為診斷疾病和挖掘疾病治療靶點(diǎn)提供了一項(xiàng)新的技術(shù)手段[16]。
圖6 lncRNA-m RNA-pathway調(diào)控網(wǎng)絡(luò)
圖7差異m RNA及其蛋白質(zhì)相互作用網(wǎng)絡(luò)
因此,本文運(yùn)用生物信息學(xué)技術(shù),通過(guò)對(duì)GEO數(shù)據(jù)庫(kù)和TCGA數(shù)據(jù)庫(kù)中的胰腺癌相關(guān)數(shù)據(jù)進(jìn)行分析,篩選出胰腺癌相關(guān)可信度高的差異mRNA 1 147個(gè)、lncRNA 336個(gè),對(duì)mRNA進(jìn)行功能富集分析發(fā)現(xiàn)上調(diào)的差異基因主要參與細(xì)胞外基質(zhì)組織、細(xì)胞黏附、細(xì)胞因子介導(dǎo)的信號(hào)通路、膠原分解等過(guò)程,下調(diào)的差異基因主要參與信號(hào)轉(zhuǎn)導(dǎo)、G蛋白偶聯(lián)受體信號(hào)通路、蛋白水解、細(xì)胞鋅離子穩(wěn)態(tài)等過(guò)程。信號(hào)通路分析發(fā)現(xiàn),上調(diào)差異基因主要涉及癌癥通路、人類乳頭瘤病毒感染、細(xì)胞外基質(zhì)受體相互作用、蛋白質(zhì)消化吸收等通路,下調(diào)差異基因涉及鈣信號(hào)通路、代謝通路、神經(jīng)活性配體-受體相互作用、胰液分泌等通路。之后通過(guò)構(gòu)建信號(hào)轉(zhuǎn)導(dǎo)網(wǎng)絡(luò)及蛋白質(zhì)相互作用網(wǎng)絡(luò)表明差異基因?qū)σ认侔┑陌l(fā)生發(fā)展有重要影響。并通過(guò)lncRNA-mRNA共表達(dá)網(wǎng)絡(luò)找到7個(gè)與mRNA具有高度的共表達(dá)關(guān)系lncRNA,通過(guò)lncRNA-mRNA-pathway網(wǎng)絡(luò)發(fā)現(xiàn)了14個(gè)對(duì)mRNA及通路具有重要調(diào)控價(jià)值的lncRNA。最后通過(guò)與TCGA數(shù)據(jù)庫(kù)信息結(jié)合進(jìn)行生存分析發(fā)現(xiàn)有12個(gè)lncRNA與胰腺癌的預(yù)后相關(guān),分別是 ATP1A1-AS1、CBR3-AS1、CTD-3080P12.3、 FAM66D、 FAM87A、 FLJ38576、 LINC 00476、 LINC00574、 LINC01554、 PYY2、 LINC 00857、OVOL1-AS1。
圖8 lncRNA生存分析結(jié)果
以往的研究發(fā)現(xiàn)這些lncRNA對(duì)其他疾病也有著顯著的影響。ATP1A1-AS1基因作為Na/K-ATPaseα1的中度負(fù)調(diào)控因子,可以調(diào)節(jié)人腎細(xì)胞中Na/KATPase相關(guān)信號(hào)通路[17];研究發(fā)現(xiàn)CBR3-AS1對(duì)骨肉瘤細(xì)胞增殖、遷移、侵襲和凋亡具有致癌作用,是骨肉瘤患者獨(dú)立的不良預(yù)后影響因素[18];FAM66D在促性腺激素腺瘤的分子調(diào)控中起著至關(guān)重要的作用[19];LINC00476可以在某種程度上揭示尼古丁依賴治療靶點(diǎn)的生物學(xué)機(jī)制和發(fā)展[20];LINC00574和LINC01554分別對(duì)乳腺癌、食管癌的預(yù)后有著顯著影響[21-22];PYY2主要是在睪丸和前列腺中差異表達(dá)[23];LINC 00857通過(guò)細(xì)胞周期調(diào)控介導(dǎo)腫瘤進(jìn)展,進(jìn)而影響肺腺癌的診斷和預(yù)后[24]。除此以外,本研究還發(fā)現(xiàn)了其他幾個(gè)影響胰腺癌預(yù)后的lncRNA,但這些lncRNA對(duì)疾病的作用及其機(jī)制大多不明,還需要更加深入的研究加以證實(shí)。
之前有學(xué)者對(duì)芯片GSE15471、GSE16515、GSE 71989進(jìn)行研究[25-27],但以往基于芯片的研究大多局限于通過(guò)對(duì)胰腺癌的mRNA進(jìn)行生物信息學(xué)分析,并通過(guò)生存分析篩選顯著的mRNA;而針對(duì)lncRNA對(duì)胰腺癌影響的研究更多是集中在分析單個(gè)lncRNA對(duì)于胰腺癌的影響[28-30]。而本文利用GEO數(shù)據(jù)庫(kù)和TCGA數(shù)據(jù)庫(kù)篩選出了相關(guān)可信度高的差異mRNA 1 147個(gè)、lncRNA 336個(gè),不僅比較系統(tǒng)的分析了mRNA和lncRNA對(duì)胰腺癌的影響,更通過(guò)構(gòu)建lncRNA-mRNA共表達(dá)網(wǎng)絡(luò)分析了lncRNA與mRNA的相互作用關(guān)系,找到7個(gè)與mRNA具有高度共表達(dá)關(guān)系的lncRNA,展現(xiàn)了lncRNA的功能和調(diào)控機(jī)制[31-32],通過(guò)lncRNA-mRNA-pathway網(wǎng)絡(luò)發(fā)現(xiàn)了14個(gè)lncRNA,確定了3個(gè)核心lncRNA,揭示了其對(duì)mRNA及通路具有重要調(diào)控價(jià)值[33]。
綜上所述,本文通過(guò)生物信息學(xué)方法研究了lncRNA和mRNA對(duì)胰腺癌的發(fā)生發(fā)展所產(chǎn)生的作用,并通過(guò)生存分析發(fā)現(xiàn)12個(gè)lncRNA和若干個(gè)mRNA會(huì)對(duì)胰腺癌的預(yù)后產(chǎn)生影響。這些lncRNA可能會(huì)成為新的胰腺癌治療靶點(diǎn)和分子標(biāo)志物,用以指導(dǎo)胰腺癌的靶向治療和預(yù)后判斷。