楊啟航,王希胤
(華北理工大學(xué),河北 唐山 063210)
禾本科(Gramineae)是單子葉開花植物中一個較大的類群,可以分為620 多個屬和1 萬多個種,覆蓋了地球20%的陸地面積,是高等植物中數(shù)量最多的類群之一。禾本科植物具有極高的經(jīng)濟價值和研究價值,是人類主要的食物來源,提供了人類生命活動所需要的大部分熱量和蛋白質(zhì)。
基因家族(Gene family)是來源于同一祖先,由一個基因經(jīng)過不同重復(fù)類型產(chǎn)生的一組基因,在結(jié)構(gòu)和功能上具有相似性[1]。不同的基因家族具有不同的表達調(diào)控模式,并可以行使不同的功能。例如WRKY 基因家族是植物前十大蛋白質(zhì)家族之一,其許多成員參與調(diào)控植物的生長發(fā)育、形態(tài)建成與抗病蟲等[2],這些基因為基因家族功能進化提供了原材料。研究重要基因家族的變化規(guī)律對禾本科植物育種有重要的意義。
利用生物信息學(xué)方法對29 個禾本科物種62 個基因家族成員進行鑒定,并分析了其序列、系統(tǒng)進化、基因家族差異、基因結(jié)構(gòu),以揭示禾本科物種不同基因家族序列特點和表達特性。將研究結(jié)果分析匯總后構(gòu)建禾本科植物基因家族數(shù)據(jù)庫,為進一步研究禾本科物種基因家族功能提供參考。
在確定GGFDB 中所包含的禾本科物種時,共選擇了來源于NCBI 數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/)和JGI 數(shù)據(jù)庫(https://phytozome-next.jgi.doe.gov/)中的29個禾本科物種。
從Pfam 數(shù)據(jù)庫(http://pfam.xfam.org/)中獲得了這62 個基因家族的隱馬爾可夫模型,利用PF 號對應(yīng)的隱馬爾可夫模型文件進行Hmmersearch 搜索,期望值設(shè)定為1e-5。
使用共線性比對工具MCScanX 推斷不同類型的復(fù)制基因,并將加倍事件產(chǎn)生的基因篩選出來[3]。使用Perl 程序統(tǒng)計各個基因家族中因不同重復(fù)類型擴增的基因,將統(tǒng)計所得的結(jié)果儲存在MySql 數(shù)據(jù)庫中。
將收集到的29 個禾本科物種62 個基因家族序列信息以壓縮文件的形式儲存在數(shù)據(jù)庫中,當(dāng)接收到用戶的下載命令時,將結(jié)果以Zip 格式發(fā)送到瀏覽器。
將各物種中基因家族的信息以圖表的形式展現(xiàn)在頁面中。使用Java Script 中的Echart 插件實現(xiàn)用戶和動態(tài)圖的交互。在接受到用戶的查詢命令時,GGFDB會自動搜索所需物種的基因家族統(tǒng)計數(shù)據(jù),將查詢結(jié)果儲存在PHP 腳本中,最終以交互式圖表的形式展現(xiàn)在HTML 頁面中。
使用R 程序中的gggens 包,利用基因位置文件,繪制各基因家族的基因結(jié)構(gòu)分析圖。GGFDB 使用PHP程序調(diào)用R 語言程序包,實現(xiàn)在線繪制基因結(jié)構(gòu)分析圖的功能。最終結(jié)果以PDF 格式的文件返回到網(wǎng)頁端。
數(shù)據(jù)庫調(diào)用了MEME 軟件中可本地分析的MEME-suite 模塊,對29 個禾本科物種中62 個基因家族進行保守基序分析,Motif 參數(shù)選擇10[4]。用戶選擇需要分析的物種和基因家族名稱,提交到數(shù)據(jù)庫中。在接收到查詢命令后,GGFBD 會直接跳轉(zhuǎn)到包含用戶所需要保守基序分析中全部結(jié)果的HTML 頁面。
通過開發(fā)的GGFDB 數(shù)據(jù)庫,提供禾本科植物的基因家族信息。該數(shù)據(jù)庫目前已安裝在CentOS 操作系統(tǒng)上,有一個3 層的體系結(jié)構(gòu),即客戶端層、中間層和數(shù)據(jù)庫層。用戶直接訪問的客戶端層是使用PHP 和Java Script 開發(fā)的。在數(shù)據(jù)庫層中,與GGFDB 相關(guān)的數(shù)據(jù)存儲在MySQL 數(shù)據(jù)庫中。中間層接收HTTP 請求,并由Apacheweb 服務(wù)器進行處理。
在GGFDB 的主頁上,提供了一個包括上述29 個禾本科物種的交互式進化樹。主頁上的菜單欄界面提供了網(wǎng)站所有功能模塊的鏈接,包括基因家族擴增信息展示模塊、基因家族序列下載模塊、基因家族圖表信息模塊、基因結(jié)構(gòu)分析模塊和基因保守基序分析模塊,具體見圖1。
圖1 GGFDB 數(shù)據(jù)庫模塊結(jié)構(gòu)
基因家族擴增類型模塊展示了不同基因家族在禾本科物種進化過程中的變化情況。用戶選擇禾本科物種并提交,可以獲得該物種62 個基因家族的擴增列表。列表總共分為7 列,分別為基因家族ID、非重復(fù)基因、其他類型重復(fù)基因、染色體附件重復(fù)基因、串聯(lián)重復(fù)基因、基因組加倍導(dǎo)致的重復(fù)基因和基因家族總基因數(shù)。用戶可以根據(jù)需要搜索基因家族的ID 查詢其基因的變化情況,生成的列表支持導(dǎo)出Excel、CSV 和PDF 格式。
基因家族下載界面有29 個禾本科物種中62 個基因家族的序列下載信息。用戶選擇特定的禾本科物種并提交,即可跳轉(zhuǎn)到物種基因家族信息下載界面。在該界面選擇想要下載的基因家族執(zhí)行下載即可。
圖表主頁上的圖表界面提供了來自所有物種的染色體的交互式視圖,包括來自每個物種的染色體的數(shù)量和長度,以及每個物種中不同重復(fù)類型產(chǎn)生基因數(shù)量。主頁使用柱狀圖和折線圖顯示這些信息,用戶可以選擇添加或關(guān)閉某些物種來控制統(tǒng)計圖的生成,這使用戶更容易比較其差異。這些交互式圖表可以下載,也為每一個物種單獨制作了圖表界面,以圖表的形式展示了基因組中不同類型重復(fù)基因的比例、各基因家族中不同類型重復(fù)基因的比例、各基因家族的基因數(shù)量、各基因家族中不同氨基酸數(shù)量。
以二穗短柄草為例,統(tǒng)計了基因組中不同類型重復(fù)基因的比例,其中串聯(lián)重復(fù)基因的比例最多(49.41%),其次是全基因組加倍事件(20.25%)。在不同重復(fù)類型統(tǒng)計中可以發(fā)現(xiàn),二穗短柄草基因家族擴增以全基因組加倍和串聯(lián)重復(fù)為主。
在基因家族基因數(shù)量統(tǒng)計中發(fā)現(xiàn),大部分基因家族的基因個數(shù)在10~50 個,也有部分大型基因家族的基因數(shù)量比較多,達到了100 多個。在對基因家族氨基酸組成統(tǒng)計中發(fā)現(xiàn),丙氨酸(A)在各個基因家族中最多,與丙氨酸可以增加葉綠素的合成、調(diào)節(jié)葉片氣孔、抵抗病菌入侵有關(guān),具體見圖2。
圖2 二穗短柄草中基因家族圖表結(jié)果展示
在基因結(jié)構(gòu)分析模塊中,提供了禾本科物種各基因家族中每個基因的基因結(jié)構(gòu)圖。用戶通過選擇某一禾本科物種中的任意基因家族ID,即可獲得該基因家族成員的基因結(jié)構(gòu)圖。在結(jié)構(gòu)圖中可以看到基因家族中各基因所在的染色體位置、外顯子、內(nèi)含子、基因長度、基因方向等信息。
在Motif 分析模塊中內(nèi)嵌了MEME 插件。用戶通過選擇某一禾本科物種中的任意基因家族ID,即可跳轉(zhuǎn)至MEME 分析結(jié)果頁面。GGFBD 在服務(wù)器上已經(jīng)將這些基因家族分析結(jié)果分類儲存,用戶可以直接以THML 的形式調(diào)用,減少用戶等待時間。
以二穗短柄草BES1 基因家族為例,通過保守基序分析檢測到了最保守的10 個基序(Motif 1~Motif 10),結(jié)果顯示,所有被檢測的基因都含有Motif 1,只有兩個基因沒有Motif 2 和Motif 10。Motif 3~Motif 9 是成組出現(xiàn)的,這些Motif 可能是由一次事件產(chǎn)生。
隨著高通量測序技術(shù)以及生物信息技術(shù)的發(fā)展,大量不同功能和特性的基因家族被不斷挖掘出來。這些基因家族在植物的生長發(fā)育過程中起著至關(guān)重要的作用。禾本科植物作為人類糧食的主要來源,研究其基因家族的結(jié)構(gòu)與功能對禾本科植物育種可以起到指導(dǎo)作用。在此,通過收集29 個禾本科物種中62 個基因家族并對其結(jié)構(gòu)和功能進行分析,構(gòu)建了禾本科基因家族數(shù)據(jù)庫(GGFDB,www.ggfdb.com),為這些基因家族之間橫向與縱向的比較提供方法。
本數(shù)據(jù)庫為用戶提供了友好的工具,可以在物種水平顯示其各基因家族擴增的主要原因,為對其進化和功能創(chuàng)新進行深入研究提供了機會。數(shù)據(jù)庫中可以下載各基因家族序列、在線繪制不同物種間染色體信息圖譜、在線進行不同物種之間基因重復(fù)類型比較、在線繪制同一物種內(nèi)不同基因家族比較圖譜、基因結(jié)構(gòu)圖譜和在線進行基因保守結(jié)構(gòu)分析。這些功能為研究人員分析禾本科物種基因家族的功能提供了便利。