馬清珠,季 昆 ,王 焱*
(1.聊城市人民醫(yī)院 消化內(nèi)科,山東 聊城 252000;2.聊城市人民醫(yī)院 呼吸內(nèi)科,山東 聊城 252000)
胃癌是最常見(jiàn)的惡性腫瘤之一,在全球范圍內(nèi)疾病致死率排名中胃癌排名第三位[1]。我國(guó)是胃癌的高發(fā)國(guó)家,胃癌的發(fā)病率高于世界平均水平。胃癌的惡性程度高,侵襲性強(qiáng),據(jù)統(tǒng)計(jì)胃癌的五年生存率僅為10%[2]。胃癌的發(fā)生發(fā)展是一個(gè)長(zhǎng)期復(fù)雜的過(guò)程,多種因素共同作用才導(dǎo)致其形成。目前,胃癌相關(guān)的一系列風(fēng)險(xiǎn)因子已經(jīng)被研究者們發(fā)現(xiàn),比如:飲食習(xí)慣、病毒病菌感染等。此外,越來(lái)越多的研究發(fā)現(xiàn),遺傳因素也是胃癌發(fā)生的一個(gè)重要風(fēng)險(xiǎn)因素,通過(guò)影響細(xì)胞進(jìn)程從而導(dǎo)致胃癌的發(fā)生。但是胃癌的致病過(guò)程非常復(fù)雜,目前其致病機(jī)制還未能尚未研究透徹[3]。因此,迫切需要尋找到有效的胃癌生物標(biāo)記物,為胃癌的診斷和治療提供有效的靶點(diǎn)。傳統(tǒng)的生物學(xué)研究往往僅以單個(gè)分子為研究對(duì)象,雖然這種研究在分子水平上揭示疾病的致病機(jī)制作用顯著[4-5]。但是在復(fù)雜致病機(jī)制的研究中,不僅需要了解單個(gè)分子對(duì)疾病的影響,還要分析這些分子間是如何相互作用、相互影響的,從而全面的了解疾病的發(fā)生機(jī)制?,F(xiàn)階段的研究發(fā)現(xiàn)很多蛋白編碼基因如:FGFR2、APC、CASP10、IRF1等均為已知的胃癌致病基因,這些編碼基因在腫瘤患者中不但異常表達(dá),甚至?xí)绊懟颊叩念A(yù)后[6-8]。目前研究發(fā)現(xiàn)微小非編碼RNA(microRNA, miRNA)可以調(diào)控mRNA,抑制mRNA表達(dá)或者降解mRNA[9]。長(zhǎng)非編碼RNA(Long non-coding RNA, lncRNA)可以作為miRNA“海綿”吸附miRNA,使得miRNA對(duì)靶基因的抑制減小,間接調(diào)控mRNA表達(dá)升高[10-11]。本研究的樣本是從加利福尼亞大學(xué)圣克魯斯大學(xué)(UCSC)xena數(shù)據(jù)庫(kù)中下載的mRNA、miRNA、lncRNA表達(dá)數(shù)據(jù)以及臨床數(shù)據(jù),通過(guò)miRNA調(diào)控mRNA/lncRNA關(guān)系數(shù)據(jù)結(jié)合三者的共表達(dá)關(guān)系,識(shí)別出lncRNA-miRNA-mRNA三元組,不同的三元組相互關(guān)聯(lián)形成胃癌相關(guān)的共表達(dá)網(wǎng)絡(luò),從網(wǎng)絡(luò)中篩選出已知致病的且差異表達(dá)胃癌相關(guān)基因關(guān)聯(lián)的lncRNA,識(shí)別出新的生物標(biāo)記物,并且分析三元組關(guān)系對(duì)患者預(yù)后的影響。
本研究中的所有樣本表達(dá)數(shù)據(jù)均從加利福尼亞大學(xué)圣克魯斯大學(xué)(UCSC)xena(https://xenabrowser.net)的數(shù)據(jù)庫(kù)中下載。共407個(gè)樣本,其中胃癌樣本375個(gè),正常樣本32個(gè)。所有樣本都檢測(cè)了mRNA、miRNA、lncRNA的表達(dá)數(shù)據(jù),均使用Illumina Hiseq 高通量測(cè)序平臺(tái),其中mRNA和lncRNA的表達(dá)數(shù)據(jù)為基因的Reads count值,miRNA的表達(dá)數(shù)據(jù)為L(zhǎng)og(Reads count+1)值。使用Ensembl[12]數(shù)據(jù)庫(kù)內(nèi)的ENSG ID和基因類(lèi)型對(duì)應(yīng)關(guān)系數(shù)據(jù),將mRNA和lncRNA的表達(dá)進(jìn)行區(qū)分。使用miRBase[13]數(shù)據(jù)庫(kù)將miRNA數(shù)據(jù)的ID對(duì)應(yīng)為成熟miRNA名稱。所有的患者樣本均包含樣本的生存狀態(tài)、總體生存、性別、年齡及腫瘤病理學(xué)狀態(tài)等信息。miRNA和mRNA/lncRNA的互作信息來(lái)源于RNA互作數(shù)據(jù)庫(kù)ENCORI[14],數(shù)據(jù)庫(kù)包含超過(guò)2 500 000條miRNA-mRNA互作關(guān)系,1 100 000條miRNA-lncRNA互作關(guān)系。已知胃癌(Gsatric cancer)相關(guān)的編碼基因來(lái)源于MalaCards[15]數(shù)據(jù)庫(kù),共有296個(gè)基因和胃癌相關(guān),本次研究選取關(guān)系最緊密的31個(gè)基因進(jìn)行接下來(lái)的分析。
為了全面的研究胃癌相關(guān)編碼基因受哪些非編碼基因的調(diào)控,不僅需要整理收集疾病已知基因,也需要整合胃癌差異表達(dá)基因。本研究通過(guò)胃癌數(shù)據(jù)篩選出差異表達(dá)的編碼基因,使用R包edgeR[16]分析mRNA的差異表達(dá)情況,錯(cuò)誤發(fā)現(xiàn)率(False discovery rate, FDR) , 腫瘤樣本和正常樣本差異倍數(shù)(Fold change, FC) 。然后使用DAVID對(duì)差異表達(dá)的胃癌相關(guān)基因進(jìn)行生物學(xué)功能富集分析,顯著的功能富集結(jié)果如圖1所示。
圖1 差異表達(dá)基因功能富集分析結(jié)果Fig.1 Functional enrichment of differentially expressed genes
mRNA和lncRNA共同競(jìng)爭(zhēng)miRNA形成互作三元組。首先提取所有已知基因和篩選后的差異表達(dá)基因互作的miRNA,根據(jù)提取后的miRNA篩選與其互作的lncRNA,得到潛在的三元組互作關(guān)系對(duì)。然后使用xena下載的表達(dá)數(shù)據(jù)進(jìn)行三者的相關(guān)性計(jì)算,計(jì)算方法使用的是斯皮爾曼相關(guān),選取P<0.01的miRNA與mRNA/lncRNA負(fù)相關(guān)(R<0)關(guān)系對(duì)以及mRNA與lncRNA正相關(guān)(R>0)關(guān)系對(duì),這樣就從潛在的三元組中進(jìn)一步計(jì)算得到了存在關(guān)聯(lián)關(guān)系的三元組。然后使用軟件Cytoscape 3.7.2進(jìn)行三元組構(gòu)建的網(wǎng)絡(luò)進(jìn)行可視化。
根據(jù)得到的三元組關(guān)系對(duì),得到多個(gè)連通的模塊。所有三元組關(guān)系對(duì)均為miRNA介導(dǎo),通過(guò)miR2Disease、HMDD[17]數(shù)據(jù)庫(kù)以及文獻(xiàn)檢索,獲取已知胃癌相關(guān)miRNA,對(duì)模塊內(nèi)的miRNA進(jìn)行超幾何檢驗(yàn),找到檢驗(yàn)結(jié)果顯著的模塊。超幾何檢驗(yàn)公式如下:
(1)
公式中N為網(wǎng)絡(luò)內(nèi)所有的miRNA數(shù)量,M為網(wǎng)絡(luò)內(nèi)HMDD數(shù)據(jù)庫(kù)內(nèi)獲取胃癌相關(guān)miRNA數(shù)量,n為模塊內(nèi)miRNA數(shù)量,k為模塊內(nèi)胃癌相關(guān)miRNA數(shù)量,模塊的顯著性按照P值由小到大進(jìn)行排序。
分析使用R語(yǔ)言進(jìn)行,在分析過(guò)程中使用的R包分別為:ggplot2、edgeR、TCGAbiolinks、forestplot、clusterProfiler、pheatmap、survival。使用患者的基因表達(dá)的高低,將樣本分為兩組。使用Kaplan-Meier 曲線和log-rank檢驗(yàn)來(lái)評(píng)估兩組患者生存時(shí)間的差異。
收集整理目前研究已經(jīng)證實(shí)的胃癌相關(guān)基因以及胃癌表達(dá)譜內(nèi)顯著差異表達(dá)的基因作為候選的疾病相關(guān)基因,從MalaCards數(shù)據(jù)庫(kù)獲得了31個(gè)目前研究最為重要的基因,包括FGFR2、APC、CASP10、IRF1等在胃癌發(fā)生發(fā)展中起作用的關(guān)鍵基因。根據(jù)下載數(shù)據(jù)的樣本編號(hào),把疾病和正常樣本進(jìn)行分類(lèi),使用R軟件的edgeR方法對(duì)375個(gè)疾病樣本和32個(gè)正常樣本進(jìn)行差異表達(dá)分析,共分析了22 686個(gè)編碼基因,根據(jù)設(shè)定的差異基因型篩選尺度,獲取了237個(gè)顯著差異表達(dá)的基因,其中上調(diào)的基因95個(gè),下調(diào)的基因142個(gè)。將得到的差異表達(dá)基因進(jìn)行聚類(lèi),如圖2所示,從聚類(lèi)結(jié)果上可以看出,差異表達(dá)基因可以有效的將正常和疾病樣本區(qū)分開(kāi)。
圖2 差異表達(dá)基因熱圖及火山圖Fig.2 Heatmap and volcano plot of differentially expressed genes
基于RNA互作數(shù)據(jù)庫(kù)ENCORI(https://starbase.sysu.edu.cn/index.php),篩選出miRNA和mRNA/lncRNA的互作關(guān)系對(duì),然后對(duì)已疾病相關(guān)基因同miRNA關(guān)系對(duì)、miRNA和lncRNA關(guān)系對(duì)、共享miRNA的mRNA和lncRNA關(guān)系對(duì)進(jìn)行相關(guān)性計(jì)算,共計(jì)算了2 201對(duì)miRNA和mRNA/lncRNA的相關(guān)性,獲得了顯著負(fù)相關(guān)的關(guān)系對(duì)279條,2 615對(duì)mRNA和lncRNA的相關(guān)性,獲得了顯著正相關(guān)關(guān)系對(duì)1 220條。整合以上顯著的關(guān)系對(duì),保留能形成互作三元組的關(guān)系對(duì),最終共得到包含146條關(guān)系對(duì)的三元組網(wǎng)絡(luò),網(wǎng)絡(luò)內(nèi)包含32個(gè)mRNA,40個(gè)miRNA,44個(gè)lncRNA,如圖3所示。
圖3 胃癌相關(guān)mRNA-miRNA-lncRNA共表達(dá)網(wǎng)絡(luò)Fig.3 Co-expression network of mRNA-miRNA-lncRNA
由三元組關(guān)系對(duì)構(gòu)建的網(wǎng)絡(luò)并不是全連通的網(wǎng)絡(luò),本研究想識(shí)別出哪些小的獨(dú)立的模塊是胃癌相關(guān)三元組網(wǎng)絡(luò)中最為重要的模塊,哪些三元組關(guān)系對(duì)在模塊中起到關(guān)鍵作用。模塊內(nèi)所有的三元組關(guān)系對(duì)均通過(guò)miRNA介導(dǎo),所以使用已知的疾病相關(guān)數(shù)據(jù)庫(kù),對(duì)每個(gè)模塊內(nèi)的miRNA進(jìn)行統(tǒng)計(jì)學(xué)顯著性檢驗(yàn),已知胃癌相關(guān)miRNA越能顯著富集在模塊內(nèi),那么模塊越可能在胃癌的發(fā)生發(fā)展中起到關(guān)鍵作用。三元組互作關(guān)系網(wǎng)內(nèi)共40個(gè)miRNA,其中7個(gè)是已知胃癌相關(guān)基因,對(duì)每個(gè)模塊進(jìn)行超幾何檢驗(yàn),通過(guò)檢驗(yàn)結(jié)果發(fā)現(xiàn),9號(hào)模塊結(jié)果最為顯著(P=0.02)。繼續(xù)分析里模塊內(nèi)唯一的編碼基因BGN,發(fā)現(xiàn)在很多研究中已經(jīng)發(fā)現(xiàn)了BGN在胃癌患者中的異常表達(dá),在胃癌發(fā)生發(fā)展中起到重要作用[18]。但以往研究并未發(fā)現(xiàn)BGN表達(dá)異常的原因,本研究認(rèn)為BGN高表達(dá)的原因是與其形成三元組的lncRNA吸附了抑制BGN表達(dá)的miRNA,從而導(dǎo)致了BGN的高表達(dá),lncRNA LINC01354和AC092279.1與BGN相關(guān)性如圖4所示 。胃癌患者中BGN顯著高表達(dá),而且將胃癌患者通過(guò)BGN表達(dá)值高低分為兩組,高表達(dá)患者的預(yù)后顯著低于低表達(dá)的患者,如圖5所示。
圖4 BGN與lncRNA LINC01354、AC092279.1相關(guān)性Fig.4 Correlation between BGN,lncRNA LINC01354,and AC092279.1
在過(guò)去的十幾年中,已經(jīng)發(fā)現(xiàn)了miRNA和lncRNA能在人類(lèi)的癌癥中其關(guān)鍵作用,而且與癌癥的發(fā)生發(fā)展密切相關(guān)[19]。miRNA是最著名的非編碼RNA,它參與調(diào)控編碼基因的表達(dá),主要是參與降解mRNA或者抑制其表達(dá),從而削弱相應(yīng)編碼蛋白的功能[20]。近年來(lái)另一個(gè)非編碼RNA,lncRNA的研究也越來(lái)越多,lncRNA是一種長(zhǎng)度大于200 bp的非編碼RNA,隨著研究的不斷進(jìn)展發(fā)現(xiàn)了lncRNA的功能范圍很廣,最為研究人員所認(rèn)可的是lncRNA通過(guò)miRNA介導(dǎo)與mRNA互作,調(diào)控mRNA的表達(dá),這種相互競(jìng)爭(zhēng)關(guān)系的互作的發(fā)現(xiàn),為研究者發(fā)現(xiàn)新的癌癥生物標(biāo)記物提供了幫助[21-22]。作為人類(lèi)最為常見(jiàn)的實(shí)體腫瘤之一,胃癌的發(fā)病機(jī)制的研究還不清晰[23],盡管研究者們大量的研究已經(jīng)很大程度改善了疾病的治療效果,但是對(duì)于晚期的胃癌患者預(yù)后還是很差[24]。胃癌早期不易被發(fā)現(xiàn),因?yàn)樵缙跊](méi)有顯著癥狀出現(xiàn),多數(shù)患者在出現(xiàn)厭食、消化不良、腹痛的時(shí)候才會(huì)進(jìn)一步進(jìn)行醫(yī)學(xué)檢查,一旦確診為胃癌,大部分已經(jīng)是胃癌中晚期,這時(shí)候胃癌已經(jīng)開(kāi)始快速發(fā)展了。胃癌能夠得到更好的治療的前提是清晰的了解胃癌的致病機(jī)制,只有明確了胃癌發(fā)生發(fā)展的詳細(xì)分子機(jī)制,才能找到更好治療方案,調(diào)整最優(yōu)的治療策略,才能幫助研發(fā)出更適合的藥物[3]。
本研究中,從胃癌已知的疾病相關(guān)編碼基因以及差異表達(dá)基因出發(fā),找到在轉(zhuǎn)錄過(guò)程中能調(diào)控這些重要的胃癌基因表達(dá)的miRNA以及l(fā)ncRNA,lncRNA通過(guò)"吸附"miRNA,從而使得miRNA對(duì)mRNA的抑制能力減弱,導(dǎo)致mRNA的表達(dá)上升。致癌基因的高表達(dá)以及抑癌基因的低表達(dá)都是胃癌發(fā)生發(fā)展的原因,在本研究中發(fā)現(xiàn)了23個(gè)mRNA-miRNA-lncRNA三元組關(guān)系對(duì)模塊,通過(guò)進(jìn)一步分析,發(fā)現(xiàn)第9組模塊是研究結(jié)果中最為顯著和胃癌相關(guān)的,同時(shí)也發(fā)現(xiàn)了,這個(gè)模塊中的核心基因在胃癌患者中顯著高表達(dá),而且在胃癌患者中,表達(dá)值越高的患者預(yù)后越差。在這一模塊中所有的miRNA都是以往研究已經(jīng)發(fā)現(xiàn)的胃癌相關(guān)miRNA,基于研究發(fā)現(xiàn)的這一模塊結(jié)構(gòu),本研究認(rèn)為lncRNA LINC01354和AC092279.1很可能在胃癌發(fā)生發(fā)展中扮演了重要的角色,是新的潛在的生物標(biāo)記物。研究發(fā)現(xiàn)了多個(gè)三元組關(guān)系模塊,而且多個(gè)模塊內(nèi)包含目前研究已知的疾病相關(guān)非編碼RNA,比如lcnRNA MALTA1及MEG3[25-26],諸多研究中已經(jīng)發(fā)現(xiàn)這兩個(gè)基因的異常表達(dá)影響胃癌患者的預(yù)后,在本研究的模塊內(nèi),這兩個(gè)lncRNA也是模塊內(nèi)的核心基因,在模塊中起到關(guān)鍵作用。通過(guò)這些已知的胃癌相關(guān)lncRNA調(diào)控的mRNA也可能在胃癌致病過(guò)程中起到關(guān)鍵作用,希望在后續(xù)的研究中繼續(xù)驗(yàn)證。
本研究從胃癌已知的疾病相關(guān)編碼基因以及差異表達(dá)基因出發(fā),構(gòu)建了胃癌mRNA-miRNA-lncRNA三元組關(guān)系組成得ceRNA調(diào)控網(wǎng)絡(luò),通過(guò)對(duì)網(wǎng)絡(luò)的挖掘,識(shí)別出與胃癌發(fā)生發(fā)展相關(guān)的調(diào)控lncRNA。LINC01354和AC092279.1很可能在胃癌發(fā)病機(jī)制中發(fā)揮了重要的調(diào)控作用,是新的潛在的生物標(biāo)記物。
mRNA-miRNA-lncRNA三元組關(guān)系對(duì)構(gòu)建的模塊能夠影響胃癌患者的預(yù)后,為以往研究中無(wú)法解釋的胃癌患者中mRNA表達(dá)異常提供了一種理論依據(jù)。但本研究仍有不足之處,沒(méi)能整理完整的胃癌相關(guān)lncRNA,沒(méi)有從其它角度繼續(xù)對(duì)三元組關(guān)系加以驗(yàn)證。后續(xù)計(jì)劃將包括疾病相關(guān)非編碼RNA信息在內(nèi)的所有的疾病相關(guān)信息進(jìn)行整合,并且將胃癌數(shù)據(jù)進(jìn)行分型,研究不同亞型的胃癌患者相關(guān)的三元組關(guān)系模塊,以及重要的調(diào)控基因,為胃癌治療方法提供研究基礎(chǔ)。