翟西華,李霞,孫秋文,白津,馬凱
221000江蘇 徐州,徐州醫(yī)科大學(xué) 醫(yī)學(xué)信息與工程學(xué)院(翟西華、馬凱);221000江蘇 徐州,徐州醫(yī)科大學(xué)附屬醫(yī)院 腫瘤科(李霞);221000江蘇 徐州,徐州醫(yī)科大學(xué) 醫(yī)學(xué)影像學(xué)院(孫秋文);221000江蘇 徐州,徐州醫(yī)科大學(xué) 腫瘤防治研究所(白津)
肺癌是對人類生命威脅最大的惡性腫瘤之一。肺癌分為非小細(xì)胞肺癌和小細(xì)胞肺癌兩種[1],其中非小細(xì)胞肺癌包括腺癌、大細(xì)胞癌和鱗狀細(xì)胞癌。近年來,盡管在肺癌的診斷、分類和治療方面的研究逐步有了新的進(jìn)展,但肺癌患者的總體生存率仍然很低,晚期或轉(zhuǎn)移性肺癌患者的預(yù)后更差[2]。肺癌已成為全球公共衛(wèi)生的挑戰(zhàn)。因此,進(jìn)一步了解肺癌的分子機(jī)制,尋找新的治療靶標(biāo)對于肺癌的治療非常重要[3]。
CircRNA是一類特殊的非編碼RNA,具有閉合環(huán)狀結(jié)構(gòu),類似于長鏈非編碼RNA[4],被認(rèn)為是轉(zhuǎn)錄物異常剪接產(chǎn)生的環(huán)狀結(jié)構(gòu)中的RNA分子。越來越多的數(shù)據(jù)表明,circRNA在許多生物學(xué)過程中都可以發(fā)揮重要作用。例如:細(xì)胞增殖[5]、侵襲[6]和分化[7]。相關(guān)報(bào)道表明,circRNA在肺癌、結(jié)直腸癌及肝癌等多種腫瘤中具有重要功能。Zong等[8]研究表明,circRNA_102231在肺癌組織表達(dá)上調(diào),并可能成為肺癌患者的潛在生物標(biāo)志物和治療靶標(biāo)。Yao等[9]報(bào)道在非小細(xì)胞肺癌組織中circRNA_100876表達(dá)顯著上調(diào),并與淋巴結(jié)轉(zhuǎn)移和腫瘤分期密切相關(guān)。Wan等[10]提出circRNA-ITCH通過抑制Wnt/β-catenin途徑抑制肺癌細(xì)胞的增殖。本文利用生物信息學(xué)方法分析肺癌的circRNA表達(dá)譜芯片,對比肺癌組織與正常組織,尋找差異表達(dá)circRNA并預(yù)測其潛在靶基因,為circRNA在肺癌中的作用機(jī)制與臨床治療提供新方向。
從美國生物技術(shù)信息中心的基因表達(dá)數(shù)據(jù)庫(Gene Expression Omnibus,GEO)[11]中下載肺癌組織的circRNA 芯片數(shù)據(jù),GSE101684包含4例肺癌患者的組織樣本與4例肺癌癌旁正常組織的樣本。GSE112214包含3例肺癌患者的組織樣本與3例肺癌癌旁正常組織的樣本。共有7例肺癌患者的組織樣本(癌癥組)與7例肺癌癌旁正常組織的樣本(正常組)。
利用Perl腳本文件將芯片矩陣數(shù)據(jù)中安捷倫(Agilent)私有的circRNA名稱轉(zhuǎn)換為標(biāo)準(zhǔn)的circRNA 標(biāo)志號(identity document,ID)(本文轉(zhuǎn)化為:hsa_circ_0039908)。接著,利用R軟件讀取芯片矩陣數(shù)據(jù),對其中circRNA的表達(dá)值進(jìn)行l(wèi)og2對數(shù)轉(zhuǎn)換[12]。表達(dá)矩陣中相同的circRNA通過取平均表達(dá)值的方法合并數(shù)據(jù)。CircRNA探針信息均通過平臺文件GPL21825(芯片數(shù)據(jù)集的平臺文件)注釋。
利用R語言中“l(fā)imma”算法包對上述處理后的芯片數(shù)據(jù)進(jìn)行差異表達(dá)circRNA的篩選。首先,對circRNA芯片數(shù)據(jù)進(jìn)行歸一化處理[13],并在二維坐標(biāo)系中繪制火山圖。癌癥組和正常組之間的circRNA表達(dá)值通過t檢驗(yàn)計(jì)算P值,BH法校正P值[14]。差異circRNA的篩選條件為差異倍數(shù)|log2FoldChange|>1且校正后的P值<0.05。根據(jù)火山圖找到差異表達(dá)的circRNAs,并展示分析結(jié)果。同時,使用R語言中的“pheatmap”繪圖方法繪制熱圖,展現(xiàn)篩選出的circRNA表達(dá)量的差異性。
環(huán)狀RNA數(shù)據(jù)庫(CircBase)[15]統(tǒng)一了成套的circRNA,能夠在基因組環(huán)境中訪問、下載和瀏覽支持它們表達(dá)的證據(jù)。數(shù)據(jù)庫中收錄了人類、小鼠等多個物種的circRNA序列信息[16]。根據(jù)circRNA的ID可以在該數(shù)據(jù)庫中得到該circRNA所在的基因名稱和染色體的位置,circRNA所在的樣品名以及fasta堿基序列,便于尋找與circRNA相結(jié)合的miRNA。
CircRNA可通過吸附miRNA,導(dǎo)致miRNA不能與其他線性RNA結(jié)合,其他線性RNA表達(dá)變高,從而間接調(diào)控基因的表達(dá)[17]。根據(jù)circBase數(shù)據(jù)庫得到的circRNA所在染色體的位置信息,在CSCD在線分析軟件中,可得到circRNA相對應(yīng)部分結(jié)合的miRNA ID及結(jié)合位置。利用Perl腳本文件在軟件預(yù)測的哺乳動物miRNA靶基因數(shù)據(jù)庫(Search for Predicted MicroRNA Targets in Mammals,TargetScan)、實(shí)驗(yàn)驗(yàn)證的miRNA靶基因數(shù)據(jù)庫(Experimentally Validated MicroRNA-target Interactions Database,miRTarBase)與miRNA靶基因數(shù)據(jù)庫(MicroRNA Target Prediction Database,miRDB)中進(jìn)一步篩選,得到與circRNA結(jié)合的miRNA靶基因。
首先利用Perl腳本文件將上述得到的miRNA的靶基因名轉(zhuǎn)化為靶基因ID,利用R軟件中“Cluster Profiler”包對其靶基因分別進(jìn)行基因本體論(gene ontology,GO)生物學(xué)功能富集分析與京都基因與基因組大百科全書(Kyoto Encyclopedia for Genes and Genomes,KEGG)信號通路富集分析。GO富集包括分子功能、生物過程與細(xì)胞組成3個類別[18]。P<0.05為富集有統(tǒng)計(jì)學(xué)意義。KEGG由系統(tǒng)信息、基因組信息、化學(xué)信息與健康信息四類數(shù)據(jù)庫組成,利用KEGG數(shù)據(jù)庫[19]對差異轉(zhuǎn)錄本進(jìn)行通路分析(結(jié)合KEGG注釋結(jié)果),得到肺癌發(fā)展過程中關(guān)鍵的通路。
如圖1所示,對GSE101684與GSE112214進(jìn)行數(shù)據(jù)處理,聚類分析表明兩組樣本中circRNA的表達(dá)存在差異。對比癌癥組與正常組篩選出350個差異circRNA,其中上調(diào)的circRNA有169個,下調(diào)的circRNA有181個,如圖2差異表達(dá)circRNA火山圖所示。此外,如表1所示,在差異circRNA上調(diào)與下調(diào)最顯著的前10個circRNA中,hsa_circ_0039908上調(diào)最明顯。
圖1 GSE101684與GSE112214數(shù)據(jù)集中差異表達(dá)基因熱圖Figure 1. Differentially Expressed Genes in Dataset GSE101684 and GSE112214
圖2 差異表達(dá)circRNA火山圖Figure 2. Differentially Expressed CircRNAs in the Subjects
對上述差異最顯著的circRNA,即hsa_circ_0039908,進(jìn)一步分析。首先,根據(jù)hsa_circ_0039908的ID信息在CSCD在線軟件中確定與該circRNA結(jié)合的miRNA。經(jīng)軟件分析,共有35個miRNA與hsa_circ_0039908結(jié)合,包括:hsa-miR-136-5p、hsa-miR-3119與hsa-miR-375等。基于miRDB、miRTarBase與TargetScan三個數(shù)據(jù)庫,利用Perl腳本,得到這35個miRNA的靶基因。表2所示為與hsa_circ_0039908結(jié)合的35個miRNA中的10個代表性miRNA及其靶基因。通過構(gòu)建競爭內(nèi)源性RNA調(diào)控網(wǎng)絡(luò)(ceRNA regulation network,ceRNA)與進(jìn)一步分析,得到了關(guān)鍵的幾對“circRNA-miRNA-mRNA”信息,具體包括:“hsa_circ_0039908”-“hsa-miR-136-5p”-“SOCS7”,“hsa_circ_0039908”-“hsa-miR-3119”-“BTG2”與“hsa_circ_0039908”-“hsa-miR-375”-“RLF”(圖3)。
圖3 ceRNA調(diào)控網(wǎng)絡(luò)圖Figure 3. ceRNA Regulatory Network
對與hsa_circ_0039908結(jié)合的miRNA靶基因進(jìn)行GO富集分析。如圖4靶基因GO富集分析圖所示,靶基因主要參與肌肉組織發(fā)育、對類固醇激素的反應(yīng)和細(xì)胞酰胺代謝過程的負(fù)調(diào)控等生物學(xué)過程。
圖4 靶基因GO富集分析Figure 4. GO Enrichment Analysis of the Target GenesGO: Gene Ontology.
DUS2基因與肺癌發(fā)生有關(guān),DUS2L基因由DUS2編碼,是hsa_circ_0039908的來源基因。DUS2編碼的蛋白可以通過抑制干擾素誘導(dǎo)的蛋白激酶來提高翻譯速率。由GO富集結(jié)果分析圖可知,hsa_circ_0039908的靶基因主要富集于細(xì)胞質(zhì)應(yīng)激顆粒和蛋白激酶復(fù)合物。從而進(jìn)一步說明,hsa_circ_0039908可能影響蛋白激酶參與的生物學(xué)過程,調(diào)控肺癌的發(fā)生發(fā)展。
對與hsa_circ_0039908結(jié)合的miRNA靶基因進(jìn)行KEGG富集分析。如圖5靶基因KEGG富集分析圖所示,共得到7條KEGG統(tǒng)計(jì)結(jié)果,靶基因主要與調(diào)節(jié)干細(xì)胞多能性的信號通路、FoxO信號通路、AMPK信號通路和催乳素信號通路等有關(guān)。
圖5 靶基因KEGG富集分析Figure 5. KEGG Enrichment Analysis of the Target GenesKEGG: Kyoto Encyclopedia of Genes and Genomes.
FoxO信號通路包含circ-FoxO3基因。實(shí)驗(yàn)表明,circ-FoxO3在肺癌細(xì)胞中高表達(dá)。P53充當(dāng)誘導(dǎo)細(xì)胞周期停滯并促進(jìn)由于DNA損傷引起的細(xì)胞凋亡修復(fù)的介質(zhì)。Circ-FoxO3可以促進(jìn)癌基因MDM2與p53之間的結(jié)合,促進(jìn)MDM2誘導(dǎo)的p53泛素化和降解,抑制p53的表達(dá),進(jìn)而抑制腫瘤細(xì)胞的增殖。由此說明,hsa_circ_0039908可以通過影響FoxO信號通路,影響肺癌的進(jìn)展。
傳統(tǒng)分子生物學(xué)方法對circRNA數(shù)量和豐度的檢測能效有限。因此,一直以來circRNA被認(rèn)為是異常剪切的副產(chǎn)物。近年隨著RNA測序技術(shù)和生物信息分析的發(fā)展,通過高通量測序和生物信息學(xué)方法已經(jīng)鑒定了大量的circRNA,同時發(fā)現(xiàn)circRNA能夠間接調(diào)控基因的表達(dá)。隨著基因芯片技術(shù)的發(fā)展,越來越多地將生物信息學(xué)方法用于尋找癌癥治療靶點(diǎn)和診斷標(biāo)志物,以實(shí)現(xiàn)對惡性腫瘤的診斷與治療。研究發(fā)現(xiàn)大多數(shù)circRNA包含有miRNA結(jié)合位點(diǎn),能吸附miRNA從而調(diào)控miRNA的靶基因[20]。
本研究選取GEO數(shù)據(jù)庫的肺癌芯片數(shù)據(jù),包括7例肺癌患者樣本與7例癌旁正常組織樣本。通過比較2組circRNA表達(dá)水平,共找出350個差異表達(dá)的circRNA,其中上調(diào)的circRNA有169個,下調(diào)的circRNA有181個。結(jié)果顯示,與癌旁組織相比,hsa_circ_0039908在肺癌組患者中上調(diào)最顯著,提示該基因可能在肺癌中具有一定特異性。
利用miRDB、miRTarBase與TargetScan三個數(shù)據(jù)庫對hsa_circ_0039908進(jìn)行miRNA靶基因預(yù)測。CircRNA富含miRNA結(jié)合位點(diǎn),能作為miRNA海綿,間接調(diào)控miRNA靶基因的表達(dá)。因此,為了研究hsa_circ_0039908的功能,利用“Cluster Profiler”軟件包對hsa_circ_0039908 的miRNA靶基因進(jìn)行GO與KEGG富集分析。結(jié)果表明,靶基因參與肌肉組織發(fā)育、對類固醇激素的反應(yīng)與細(xì)胞酰胺代謝過程的負(fù)調(diào)控等生物學(xué)過程。神經(jīng)酰胺[21]與腫瘤的發(fā)生發(fā)展有密切的關(guān)系。研究表明[22],神經(jīng)酰胺通過不同信號途徑,能促進(jìn)或者抑制細(xì)胞增殖?!凹?xì)胞酰胺代謝過程的負(fù)調(diào)控”是hsa_circ_0039908的miRNA靶基因參與的生物學(xué)過程。因此,hsa_circ_0039908的表達(dá)失??赡芘c癌細(xì)胞代謝異常高度相關(guān)。KEGG富集分析結(jié)果表明,miRNA靶基因富集的信號通路有調(diào)節(jié)干細(xì)胞多能性的信號通路、FoxO信號通路與AMPK信號通路。AMPK信號通路可以調(diào)控癌細(xì)胞自噬過程,在肺癌發(fā)生發(fā)展過程中自噬有兩種作用方式,其一,“自噬”能清除細(xì)胞內(nèi)有毒物質(zhì),預(yù)防肺癌;其二,“自噬”能為壓力狀態(tài)下的肺癌細(xì)胞提供能量,促進(jìn)肺癌細(xì)胞存活。因此推測hsa_circ_0039908的上調(diào)可能會間接激活A(yù)MPK信號通路從而影響癌細(xì)胞“自噬過程”。
綜上所述,利用生物信息學(xué)方法確定可能參與肺癌發(fā)生發(fā)展的circRNA,通過GO與KEGG分析確定了細(xì)胞酰胺代謝過程的負(fù)調(diào)控、AMPK信號通路與調(diào)節(jié)干細(xì)胞多能性的信號通路可能參與肺癌的發(fā)生發(fā)展。當(dāng)前,circRNA在癌癥發(fā)展過程中的作用機(jī)制與生物學(xué)功能尚不明確。需要更多深層次的研究探索circRNA在肺癌中的功能機(jī)制。由于樣本數(shù)據(jù)的限制,無法根據(jù)肺癌的類型,針對性地研究circRNA對鱗狀上皮細(xì)胞癌、小細(xì)胞未分化癌、大細(xì)胞未分化癌與腺癌等的作用機(jī)制。所以本研究存在一定局限性,仍需融合更多類型數(shù)據(jù),進(jìn)一步研究circRNA在不同類型肺癌發(fā)生發(fā)展中的作用機(jī)制。
作者聲明:本文全部作者對于研究和撰寫的論文出現(xiàn)的不端行為承擔(dān)相應(yīng)責(zé)任;并承諾論文中涉及的原始圖片、數(shù)據(jù)資料等已按照有關(guān)規(guī)定保存,可接受核查。
學(xué)術(shù)不端:本文在初審、返修及出版前均通過中國知網(wǎng)(CNKI)科技期刊學(xué)術(shù)不端文獻(xiàn)檢測系統(tǒng)的學(xué)術(shù)不端檢測。
同行評議:經(jīng)同行專家雙盲外審,達(dá)到刊發(fā)要求。
利益沖突:所有作者均聲明不存在利益沖突。
文章版權(quán):本文出版前已與全體作者簽署了論文授權(quán)書等協(xié)議。