楊 淼 杜 菁* 李冬果 楊秋英 劉文艷 姚紅串
近年來,非編碼核糖核酸(ribonucleic acid,RNA),尤其是微小RNA(microRNA,miRNA)的研究越來越引人關(guān)注。miRNA是在真核生物中廣泛存在的一類重要的非編碼RNA,目前有超過2 500種miRNA已經(jīng)在人類中注釋[1]。成熟的miRNA是一類大小約21~23個核苷酸的非編碼RNA,miRNA通過調(diào)節(jié)靶基因的表達(dá)水平影響到各種生物過程,包括發(fā)育、病毒防御、造血過程、器官形成、細(xì)胞增殖和凋亡以及脂肪代謝等。一個miRNA可以同時調(diào)控多個靶基因的表達(dá),多個miRNA通過協(xié)同或組合關(guān)系調(diào)節(jié)靶基因[2]。因此miRNA與靶基因錯綜復(fù)雜的相互作用構(gòu)成一種復(fù)雜的調(diào)控網(wǎng)絡(luò)(regulatory network),稱為MiRNA-Target調(diào)控網(wǎng)絡(luò)。在這個調(diào)控網(wǎng)絡(luò)中,通過有向邊,描述miRNA與靶基因之間的調(diào)控與被調(diào)控關(guān)系。
有研究表明,miRNA在調(diào)節(jié)癌癥基因表達(dá)程序中具有重要作用,一些miRNA起腫瘤抑制劑的作用,而另一些miRNA異常過表達(dá)可促進(jìn)腫瘤的發(fā)生、生長或進(jìn)展[3]。因此,miRNA在調(diào)控網(wǎng)絡(luò)中的作用有助于理解高等真核生物的基因組的復(fù)雜性[4]。
隨著miRNA調(diào)控基因表達(dá)研究的逐步深入,在MiRNA-Target調(diào)控網(wǎng)絡(luò)中的節(jié)點數(shù)日趨龐大,要了解miRNA和靶基因之間復(fù)雜的“多對多”關(guān)系,最直觀方式是使用基于網(wǎng)絡(luò)的可視化方法,借助圖論理論進(jìn)行分析。
Cytoscape是一個基于Java技術(shù)的開放源代碼的網(wǎng)絡(luò)可視化軟件平臺,主要用于復(fù)雜生物網(wǎng)絡(luò)分析研究設(shè)計,其可以繪制基因表達(dá)調(diào)控網(wǎng)絡(luò)、蛋白互作網(wǎng)絡(luò)等任何與網(wǎng)絡(luò)結(jié)構(gòu)、層級有關(guān)系的內(nèi)容。Cytoscape軟件為數(shù)據(jù)集成、分析和可視化提供了一套基本的功能,同時Cytoscape軟件擁有大量的插件,這些插件提供了豐富的生物網(wǎng)絡(luò)分析功能,目前Cytoscape軟件的版本已經(jīng)更新到3.6.1版。
乳腺癌(breast cancer,BC)是迄今為止婦女中最常見的癌癥。近年來,人們對在BC中表達(dá)異常的miRNA表達(dá)機制的研究已經(jīng)取得了相當(dāng)大的進(jìn)展,并且發(fā)現(xiàn)了一些miRNA或miRNA家族作為BC標(biāo)記的關(guān)鍵調(diào)控器[5-6]。盡管可以通過實驗查找miRNA靶標(biāo)基因,但是實驗既耗時又昂貴,因此開發(fā)了大量的預(yù)測工具來預(yù)測miRNA的靶基因。
本研究選用BC與hsa-miR-125b-2-3p、hsamiR-125b-5p、hsa-miR-139-5p、hsa-miR-195-3p、hsa-miR-195-5p、hsa-miR-204-5p、hsa-miR-497-3p、hsa-miR-497-5p、hsa-miR-99a-3p和hsa-miR-99a-5p 10個最有差異性表達(dá)的下調(diào)miRNAs作為診斷BC的miRNA標(biāo)志物,構(gòu)建miRNA預(yù)測靶基因的調(diào)控網(wǎng)絡(luò)[7]。采用生物網(wǎng)絡(luò)分析軟件Cytoscape3.6.1可視化乳腺癌的miRNA與預(yù)測靶基因之間的調(diào)控關(guān)系,并對靶基因進(jìn)行基因本體(gene ontology,GO)富集分析和京都基因和基因組百科全書(kyoto encyclopedia of genes and genomes,KEGG)信號通路分析。
miRWalk是迄今為止唯一自由開放,有關(guān)miRNA靶標(biāo)相互作用的最大的數(shù)據(jù)庫在線資源,目前miRWalk2.0提供了智人、小鼠和大鼠的miRNA靶基因信息。miRWalk數(shù)據(jù)內(nèi)容分為預(yù)測模塊和驗證模塊。預(yù)測模塊提供了預(yù)測miRNA靶基因的功能,并與12個miRNA靶基因預(yù)測程序的預(yù)測結(jié)果進(jìn)行比對。本研究使用miRWalk數(shù)據(jù)庫獲取miRNA的預(yù)測靶基因,采用TargetScan、Pictar2、miRanda以及RNA22預(yù)測工具[8]和miRWalk完成預(yù)測。為了降低假陽性率,同時被這5種方法預(yù)測標(biāo)記的靶基因被選為調(diào)控網(wǎng)絡(luò)中miRNA的預(yù)測靶基因。
Cytoscape軟件支持多種格式輸入,選擇Cytoscape軟件菜單“File|import|network|File”輸入調(diào)控網(wǎng)絡(luò)數(shù)據(jù),并設(shè)置源點Source列和目標(biāo)Target列及其屬性列。生成初步的調(diào)控網(wǎng)絡(luò)。
Cytoscape軟件可用于設(shè)置節(jié)點(Node)、邊(Edge)和網(wǎng)絡(luò)(Network)的樣式。選擇Cytoscape軟件“Control Panel”控制面板中的“Style”選項卡可對節(jié)點、邊和網(wǎng)絡(luò)進(jìn)行樣式設(shè)置。
網(wǎng)絡(luò)布局主要設(shè)置節(jié)點和邊在視圖中的幾何位置,根據(jù)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)計算出各節(jié)點的幾何位置,直觀顯示網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。Cytoscape軟件提供了多種布局算法,本研究選擇力導(dǎo)向算法布局miRNA調(diào)控網(wǎng)絡(luò)。力導(dǎo)向布局算法模擬力學(xué)物理,將節(jié)點建模為物理對象,將邊作為將這些對象連接在一起的彈簧來布局整個網(wǎng)絡(luò)。該算法可以快速的布局復(fù)雜網(wǎng)絡(luò)中的節(jié)點,繪制一個清晰的網(wǎng)絡(luò)布局圖。選擇Cytoscape軟件菜單命令“Layout|Prefuse Force Directed Layout”,運行力導(dǎo)向布局,其中彈性系數(shù)為“1E-5”,彈性長度為“6”。
Cytoscape軟件提供的插件生物網(wǎng)絡(luò)基因本體論工具(biological networks gene ontology tool,BiNGO),將識別的靶基因映射到GO的注釋庫中,對預(yù)測靶基因集合進(jìn)行GO富集分析,實現(xiàn)靶基因的生物學(xué)功能識別。BiNGO可以構(gòu)建基于基因集合的生物過程(biological process,BP)、分子功能(molecular function,MF)、細(xì)胞組分(cell component,CC)的網(wǎng)絡(luò)結(jié)構(gòu)圖,并找出富集的生物學(xué)注釋。本研究對預(yù)測靶基因進(jìn)行生物過程富集分析。在Cytoscape軟件中,打開miRNA調(diào)控網(wǎng)絡(luò),選中需要映射的基因節(jié)點;選擇Cytoscape菜單“Apps|BiNGO”,打開BiNGO對話框進(jìn)行設(shè)置;選擇統(tǒng)計學(xué)檢驗“Hypergenometric test”,以P<0.05為顯著性閾值,分別選擇GO的BP作為映射文件,選擇物種“Homo Sapiens”后,點擊“Start BiNGO”按鈕,運行BiNGO。
KEGG通路分析可用于發(fā)現(xiàn)共享相同通路的共表達(dá)基因簇,通過miRWalk數(shù)據(jù)庫完成KEGG通路分析,顯著性閾值P<0.05。
Cytoscape軟件采用力導(dǎo)向布局繪制的MiRNATarget調(diào)控網(wǎng)絡(luò)中大圓角矩形為miRNA,小圓形為預(yù)測的靶基因。調(diào)控網(wǎng)絡(luò)中一共預(yù)測了791個靶基因,1062對調(diào)控關(guān)系。從miRNA調(diào)控網(wǎng)絡(luò)可直觀地看出,一個miRNA可調(diào)控多個靶基因,多個靶基因又同時被多個miRNA所調(diào)控(如圖1所示)。
使用Cytoscape軟件的插件BiNGO做GO富集分析,通過鏈接GO數(shù)據(jù)庫得到靶基因的注釋信息。結(jié)果顯示,10個miRNA標(biāo)志物中hsa-miR-195-3p、hsa-miR-139-5P、hsa-miR-195-5p和hsa-miR-497-5p在BiNGO富集分析中,有顯著性差異。靶基因顯著性富集的前5個生物學(xué)過程為生物調(diào)節(jié),細(xì)胞過程調(diào)節(jié),大分子代謝過程的調(diào)節(jié)和翻譯后蛋白質(zhì)的修飾。同時構(gòu)建GO富集的生物學(xué)過程有向無環(huán)圖,本研究僅列出hsa-miR-497-5p的靶基因的生物學(xué)過程有向無環(huán)圖,其中有顏色的代表有顯著性富集,顏色越深代表富集程度越高(如圖2所示)。
圖2 hsa-miR-497-5p預(yù)測靶基因富集分析生物學(xué)過程層次網(wǎng)絡(luò)圖
對靶基因的KEGG通路進(jìn)行分析,結(jié)果得到303個基因富集在85條通路上。其中,有7條通路與乳腺癌有關(guān),分別是p53信號通路,Hedgehog信號通路,Wnt信號通路,Notch信號通路,Jak STAT信號通路,Toll樣受體信號通路和ErbB信號通路[9-12]。
本研究通過5種預(yù)測方法預(yù)測出791個靶基因,利用預(yù)測的調(diào)控數(shù)據(jù),建立了乳腺癌的腫瘤標(biāo)志物MiRNA-Target調(diào)控網(wǎng)絡(luò),該網(wǎng)絡(luò)中包含801個節(jié)點,791個預(yù)測靶基因,1062對調(diào)控關(guān)系,并用可視化工具Cytoscape軟件構(gòu)建并布局MiRNA-Target調(diào)控網(wǎng)絡(luò),對miRNA與靶基因之間的調(diào)控關(guān)系有了初步的了解。分析結(jié)果顯示,10個miRNA標(biāo)志物中,預(yù)測的靶基因在生物學(xué)過程中主要富集在調(diào)節(jié)功能上。KEGG通路分析中,預(yù)測的靶基因主要富集在7種信號通路中,這些通路與乳腺癌存在一定關(guān)系。
從生物信息角度,預(yù)測miRNA靶基因的算法,BiNGO富集分析,KEGG通路分析有助于找出要研究的基因和通路,為乳腺癌靶基因的實驗驗證及生物學(xué)功能的研究提供了理論指導(dǎo),有助于乳腺癌的靶向治療。