張軍,宋麗莉,郭東林,郭長(zhǎng)虹,束永俊
(黑龍江省分子細(xì)胞遺傳與遺傳育種重點(diǎn)實(shí)驗(yàn)室 哈爾濱師范大學(xué)生命科學(xué)與技術(shù)學(xué)院,黑龍江 哈爾濱150025)
MADS-box基因家族是一類(lèi)轉(zhuǎn)錄因子,廣泛地存在于動(dòng)物、植物和真菌等真核生物,它們?cè)贜端含有一個(gè)由58~60個(gè)氨基酸組成的保守結(jié)構(gòu)域,稱為 MADS-box結(jié)構(gòu)域[1-2]。MADS-box是一個(gè)可以結(jié)合DNA序列的結(jié)構(gòu)域,它可以識(shí)別結(jié)合CArG基序(CC[A/T]6GG),并激活下游基因的表達(dá)[3]。根據(jù)分子系統(tǒng)進(jìn)化分析,MADS-box基因家族可以分為兩大類(lèi):I型和Ⅱ型,其中:Ⅰ型主要是指含有SRF結(jié)構(gòu)域,Ⅱ型主要含有MEF2類(lèi)似結(jié)構(gòu)域和植物中特異的MIKC類(lèi)MADS-box基因。結(jié)合MADS-box基因的結(jié)構(gòu)特征,可以將MADS-box家族分成5個(gè)小類(lèi):Ⅰ型的 Mα、Mβ和 Mγ;Ⅱ型的 MIKC和 MIKC*[1-2]。
在植物基因組中,MIKC類(lèi)MADS-box轉(zhuǎn)錄因子的結(jié)構(gòu)和功能研究比較清楚,它們通常含有4個(gè)結(jié)構(gòu)域,分別為:MADS-box(M)、Intervening domain(I)、Kertain-like domain(K)和 C-terminal domain(C)[3]。這些轉(zhuǎn)錄因子在植物基因組特有的,在各種植物基因組之間是非常保守的,在植物生長(zhǎng)、發(fā)育等過(guò)程起到重要的調(diào)控作用,比如:SOC1(SUPPRESSOR OF OVERESPRESSION OF CONSTANS1)、FLC1(FLOWERING LOCUS c),AGL24(AGAMOUS-LIKE GENE 24)、MAF1/FLM (MADS AFFECTING FLOWERING)和SVP (SHORT VEGETATIVE PHASE)等 MADS-box基因調(diào)控植物的開(kāi)花時(shí)間[4-9];AP1(APETALA 1)、FUL(FRUITFUL)和CAL(CAULIFLOWER)等 MADS-box基因調(diào)控花芽組織的形成[10-12];AP1、SEP1-3(SEPALLATA 1-3)、AP3(APETALA 3)、PI(PISTILLATA)和 AG(AGAMOUS)等 MADS-box基因控制植物花器官的形成和種子的發(fā)育[13-15]。
根據(jù)分類(lèi)學(xué)定義:苜蓿屬含有4個(gè)亞屬,56個(gè)種,其中最受科研人員關(guān)注的有:紫花苜蓿(Medicagosativa)和蒺藜苜蓿(Medicagotruncatula)兩個(gè)種。紫花苜蓿是四倍體植物,具有優(yōu)良的農(nóng)藝性狀,是全世界種植范圍最廣的牧草作物;蒺藜苜蓿是二倍體植物,其基因組較?。s470Mb),已經(jīng)完成基因組測(cè)序,成為研究豆科,特別是苜蓿屬(如紫花苜蓿)的模式植物[16-18]。在紫花苜蓿長(zhǎng)期種植生產(chǎn)過(guò)程中,科研人員多重視苜蓿營(yíng)養(yǎng)體性狀,如產(chǎn)量、品質(zhì)、抗性等,對(duì)苜蓿生殖過(guò)程性狀關(guān)注較少,導(dǎo)致紫花苜蓿的種子生產(chǎn)水平一直低下,嚴(yán)重制約了紫花苜蓿的種植推廣[17],同時(shí),其他草類(lèi)植物也存在類(lèi)似的問(wèn)題[19-20]。
本研究將對(duì)蒺藜苜蓿的基因組測(cè)序數(shù)據(jù)進(jìn)行結(jié)構(gòu)域搜索,鑒定MADS-box基因家族成員。通過(guò)序列比對(duì)和系統(tǒng)進(jìn)化分析,完成MADS-box基因家族成員的分類(lèi),同時(shí),根據(jù)MADS-box基因家族的染色體定位信息,明確其在基因組的分布特征。最后,結(jié)合蒺藜苜蓿的RNA-seq數(shù)據(jù),分析MADS-box家族在蒺藜苜蓿心皮和花等生殖器官發(fā)育過(guò)程的表達(dá)譜,為解析蒺藜苜蓿中MADS-box基因家族的重要作用提供參考。
蒺藜苜?;蚪M測(cè)序數(shù)據(jù)、基因轉(zhuǎn)錄序列、CDS序列、蛋白質(zhì)序列及其注釋信息[18](版本為:Mt4.0v1)均下載自JCVI(http://www.jcvi.org/medicago/)。
MADS-box基因的結(jié)構(gòu)域信息(PF00319)下載自Pfam 數(shù)據(jù)庫(kù)[21],利用軟件 HMMER[22](V3.0)搜索蒺藜苜蓿的蛋白質(zhì)序列,運(yùn)行參數(shù)為:-E 0.01。將挖掘的MADS-box基因比對(duì)擬南芥的 MADS-box基因,根據(jù)擬南芥的MADS-box基因分類(lèi)信息對(duì)蒺藜苜蓿MADS-box基因家族進(jìn)行分類(lèi)。同時(shí),提取蒺藜苜蓿 MADS-box基因的注釋信息,確定其內(nèi)含子分布信息。
提取蒺藜苜蓿MADS-box基因家族的蛋白質(zhì)序列,利用ClustalW2[23]進(jìn)行多重序列比較,比對(duì)結(jié)果采用MEGA4[24]進(jìn)行系統(tǒng)進(jìn)化分析,系統(tǒng)進(jìn)化分析參數(shù)如下:1)建樹(shù)方法為鄰近法(neighbor-joining,NJ);2)遺傳距離為泊松距離(Poisson correction);3)抽樣次數(shù)為1000(bootstrap:1000replications)。
從蒺藜苜?;蚪M中提取MADS-box基因的基因組序列和CDS序列,利用BLAST[25]進(jìn)行兩兩比對(duì)。當(dāng)2個(gè)MADS-box基因的一致性超過(guò)85%時(shí),則將這2個(gè) MADS-box基因之間存在基因復(fù)制(gene duplication)。提取所有MADS-box基因在蒺藜苜?;蛑械奈恢眯畔?,結(jié)合MADS-box基因間的基因復(fù)制情況,利用軟件CIRCOS[26]繪制MADS-box基因家族在蒺藜苜?;蚪M中的分布情況。
蒺藜苜蓿的轉(zhuǎn)錄組測(cè)序(RNA-seq)數(shù)據(jù)[18]下載自 NCBI的SRA 數(shù)據(jù)庫(kù)(http://www.ncbi.nlm.nih.gov,登錄號(hào)為:SRR350517-SRR350521,SRR350538和SRR349692)。轉(zhuǎn)錄組數(shù)據(jù)包含蒺藜苜蓿的根部(root),根部結(jié)瘤(nodule),葉片(blade),芽(bud),心皮(seedpod)和花(flower)6個(gè)組織和部位。轉(zhuǎn)錄組數(shù)據(jù)采用 TopHat[27]和Cufflink[28]進(jìn)行分析,獲得蒺藜苜?;虻谋磉_(dá)量(fragments per kilobase of exon per million fragments mapped,F(xiàn)PKM值)。利用MATLAB(R2008B)提取 MADS-box基因的表達(dá)量,去除表達(dá)量較低的 MADS-box基因(FPKM值小于1),然后,對(duì)剩下的 MADS-box基因表達(dá)量進(jìn)行對(duì)數(shù)轉(zhuǎn)換和標(biāo)準(zhǔn)化,最后,對(duì)蒺藜苜蓿MADS-box基因的表達(dá)情況進(jìn)行聚類(lèi)分析。
通過(guò)HMMER搜索,蒺藜苜?;蚪M總共鑒定出138個(gè)MADS-box基因家族成員,如表1所示。這些MADS-box基因主要分成兩大類(lèi),即Ⅰ型和Ⅱ型MADS-box基因,其中:Ⅱ型MADS-box基因有46個(gè),包含有MIKC(41個(gè))和 MIKC*(5個(gè))兩類(lèi);Ⅰ型 MADS-box基因有92個(gè),包含有 Mα(49個(gè))、Mβ(7個(gè))和 Mγ(36個(gè))3類(lèi)。兩類(lèi)MADS-box基因中,Ⅱ型MADS-box基因大多數(shù)都含有多個(gè)內(nèi)含子,多數(shù)為6~8個(gè),甚至超過(guò)10個(gè),如MtMADS044,45和46都含有10~11個(gè)內(nèi)含子;而Ⅰ型MADS-box基因大多數(shù)不含有內(nèi)含子或者含有1個(gè)內(nèi)含子。與其他植物相比,蒺藜苜?;蚪M中MADS-box基因家族成員總數(shù)差別不大,如擬南芥為107,水稻為75,大豆為106,但是,成員組成差異較大,蒺藜苜蓿Ⅱ型與Ⅰ型分別為46和92個(gè),Ⅱ型占總MADS-box基因家族的33%,擬南芥為42%,水稻為57%[29],大豆為68%[30],蒺藜苜蓿的Ⅱ型MADS-box基因比例明顯偏低。
表1 蒺藜苜?;蚪M中鑒定的MADS-box基因Table 1 The MADS-box genes identified in M. truncatula
續(xù)表1 Continued
利用ClustalW2和MEGA進(jìn)行系統(tǒng)進(jìn)化分析,如圖1所示。結(jié)果顯示,在系統(tǒng)進(jìn)化上,Ⅱ型和Ⅰ型MADS-box基因是各自獨(dú)立系統(tǒng)演化,兩種之間沒(méi)有交叉。其中:Ⅱ型中的MIKC類(lèi)保守性較好,獨(dú)自分成一支;MIKC*類(lèi)保守性稍微弱一些,分成兩鄰近的兩支;Ⅰ型的3個(gè)類(lèi):Mα、Mβ和Mγ,總體上系統(tǒng)分類(lèi)良好,大多數(shù)成員都可以正確的分類(lèi),只有MtMADS073、130和134這3個(gè)成員進(jìn)化關(guān)系出現(xiàn)不一致。這也說(shuō)明通過(guò)MADS-box基因在植物中保守性較強(qiáng),可以通過(guò)擬南芥的分類(lèi)信息鑒定蒺藜苜蓿MADS-box基因家族的分類(lèi)情況。
通過(guò)提取蒺藜苜蓿MADS-box基因的染色體定位信息,發(fā)現(xiàn)4個(gè)(MtMADS001、47、48和96)定位在尚未完全組裝的長(zhǎng)片段上,剩下的134個(gè)成員定位在8條染色體上,如圖2所示。每條染色體分布有5~27個(gè)MADS-box基因,其中:1號(hào)染色體最多為27個(gè),其次為3號(hào)和4號(hào)染色體,分別為26和23個(gè);6號(hào)染色體最少,只有5個(gè)。此外,MADS-box基因家族在蒺藜苜蓿染色體組上不是均勻分布,它們呈聚集形式分布,如1,3,4和5號(hào)染色體上都有多個(gè)MADS-box的基因簇。通過(guò)兩兩比對(duì)分析發(fā)現(xiàn):多數(shù)蒺藜苜蓿MADS-box基因都擁有2個(gè)或以上的拷貝,即存在基因復(fù)制情況,其中:Ⅱ型MADS-box基因成員復(fù)制較少,如圖2中紅色(MIKC)和淺紅色(MIKC*)線條所示,Ⅰ型的基因復(fù)制較多,如圖2中藍(lán)色(Mα)、淺藍(lán)色(Mβ)和紫色(Mγ)線條所示。
通過(guò)下載NCBI數(shù)據(jù)庫(kù)中蒺藜苜蓿的RNA-seq數(shù)據(jù),分析得到蒺藜苜蓿MADS-box基因家族在6種組織的表達(dá)譜。蒺藜苜蓿的表達(dá)譜顯示,多數(shù)MADS-box基因(91/138,66%)FPKM都小于1,說(shuō)明這些MADS-box基因在6種組織中的表達(dá)量極低或者不表達(dá),其中:Ⅰ型MADS-box基因有75個(gè),Ⅱ型MADS-box基因有26個(gè)。剩下47個(gè)MADS-box基因的表達(dá)譜進(jìn)行聚類(lèi)分析,如圖3所示。根據(jù)表達(dá)譜信息,47個(gè)基因主要可以分成3組:A組含有13個(gè)基因,其中Ⅰ型8個(gè),Ⅱ型5個(gè),主要在蒺藜苜蓿的心皮和花等生殖器官中表達(dá);B組含有16個(gè)基因,其中Ⅰ型9個(gè),Ⅱ型7個(gè),這些MADS-box基因雖然表達(dá),但是在各種組織中表達(dá)量都不高;C組含有12個(gè)基因,其中Ⅰ型4個(gè),Ⅱ型8個(gè),主要在蒺藜苜蓿的根部、結(jié)瘤、葉片和芽中表達(dá),在心皮和花組織中表達(dá)量較低。
圖1 蒺藜苜蓿MADS-box基因家族的系統(tǒng)進(jìn)化分析Fig.1 Phylogenetic tree of MADS-box gene family in M. truncatula
圖2 蒺藜苜蓿MADS-box基因在染色體定位Fig.2 Chromosomal locations of MADS-box genes in M. truncatula
圖3 蒺藜苜蓿MADS-box基因表達(dá)的聚類(lèi)分析Fig.3 Heat map of MADS-box gene expression obtained from RNA-seq in M. truncatula
通過(guò)全基因組分析,從蒺藜苜蓿中鑒定了138個(gè)MADS-box基因,其中Ⅱ型MADS-box基因46個(gè),這與擬南芥(Arabidopsisthaliana,45個(gè))和水稻(Oryzasativa,43個(gè))等植物的報(bào)導(dǎo)一致,但是比大豆(Glycinemax)中Ⅱ型MADS-box基因(72個(gè))要少,這可能是由于大豆基因組發(fā)生加倍,是古四倍體造成。同時(shí),Ⅱ型MADS-box基因一般含有多個(gè)內(nèi)含子,Ⅰ型一般不含有或者只含有1個(gè)內(nèi)含子,通常含有多個(gè)內(nèi)含子的基因一般比較保守,而不含有內(nèi)含子的基因保守性較差[1,9]。此外,蒺藜苜蓿的Ⅰ型和Ⅱ型MADS-box基因在基因組分布模式也有差異,Ⅱ型基本上遍布基因組各條染色體上(2~10個(gè)),比較均勻;Ⅰ型只是集中在少數(shù)染色體上,如:1號(hào)染色體(22個(gè))和3號(hào)染色體(19個(gè)),其他染色體(6號(hào)染色體,3個(gè))上極少,呈基因簇狀分布。最后,比較基因組學(xué)和表達(dá)譜分析結(jié)果顯示,蒺藜苜蓿的Ⅰ型MADS-box基因含有大量的復(fù)制基因,大多基因都不表達(dá)或者表達(dá)量極低;而Ⅰ型MADS-box基因的復(fù)制較少,且表達(dá)模式較為穩(wěn)定。綜合上面可以發(fā)現(xiàn),在蒺藜苜?;蚪M中,Ⅰ型MADS-box基因處于積極復(fù)制的“擴(kuò)張期”,雖然基因數(shù)量較多,但是參與調(diào)控的過(guò)程較少;而Ⅱ型MADS-box基因基本進(jìn)入“穩(wěn)定期”,基因復(fù)制較少,家族成員數(shù)量也較少,但是,這些基因保守性好,積極參與蒺藜苜蓿器官形成和發(fā)育等過(guò)程的調(diào)控。
通過(guò)蒺藜苜蓿的RNA-seq數(shù)據(jù)分析發(fā)現(xiàn),大多數(shù)Ⅰ型MADS-box基因成員不表達(dá)或者表達(dá)量極低,而Ⅱ型MADS-box的表達(dá)量相對(duì)較高,這也為Ⅱ型MADS-box基因在蒺藜苜蓿的器官發(fā)育和形態(tài)建成過(guò)程中的重要調(diào)控作用奠定了基礎(chǔ)。在蒺藜苜蓿MADS-box基因家族的表達(dá)譜中,A組基因(圖3)主要是調(diào)控蒺藜苜蓿生殖器官花和心皮的發(fā)育和形成,其中Ⅱ型MADS-box基因有5個(gè)。通過(guò)同源搜索和系統(tǒng)進(jìn)化分析發(fā)現(xiàn),它們分別屬于SEP(MtMADS012和 MtMADS020)、AP3/PI(MtMADS014和 MtMADS044)和 AP1(MtMADS039)等亞家族,在擬南芥、水稻等植物中,這3個(gè)亞家族也參與花等生殖器官的發(fā)生和形成,說(shuō)明這些MADS-box基因的功能高度保守,在蒺藜苜蓿中也通過(guò)這些MADS-box基因的表達(dá)調(diào)控控制花等生殖器官的形態(tài)發(fā)生。此外,C組基因主要調(diào)控蒺藜苜蓿根部、葉片和芽等組織的分化和形態(tài)形成,其中Ⅱ型MADS-box基因有8個(gè),分別屬于SOC1(MtMADS017、MtMADS035和 MtMADS036)、ANR1(MtMADS019、MtMADS023和 MtMADS029)以及SVP(MtMADS018和MtMADS028),它們?cè)诟鱾€(gè)組織中表達(dá)量都較高,參與植物各個(gè)器官的發(fā)育,這與其他植物中的報(bào)道類(lèi)似,這就意味著蒺藜苜蓿的Ⅱ型MADS-box基因無(wú)論從結(jié)構(gòu)上,還是表達(dá)模式上,甚至是生物學(xué)功能上都非常保守[1,3,29-30]。
本研究采用結(jié)構(gòu)域搜索的方法,在蒺藜苜?;蚪M中鑒定了MADS-box基因家族的全部基因成員,并通過(guò)序列比對(duì)和系統(tǒng)進(jìn)化方法,確定了MADS-box基因家族的分類(lèi)和進(jìn)化關(guān)系。通過(guò)染色體定位分析,研究了蒺藜苜蓿中MADS-box基因家族的演化特點(diǎn)。同時(shí),結(jié)合RNA-seq的表達(dá)譜,闡述了MADS-box基因家族在植物器官發(fā)育,特別是生殖器官發(fā)育過(guò)程中的重要調(diào)控作用,這將為揭示蒺藜苜蓿種子形成機(jī)制提供參考,也為解析紫花苜蓿種子生長(zhǎng)過(guò)程提供重要的借鑒作用。
[1]Theiβen G,Becker A,Di Rosa A,etal.A short history of MADS-box genes in plants[J].Plant Molecular Biology,2000,42(1):115-149.
[2]Becker A,Winter K-U,Meyer B,etal.MADS-box gene diversity in seed plants 300million years ago[J].Molecular Biology and Evolution,2000,17(10):1425-1434.
[3]De Bodt S,Raes J,Van de Peer Y,etal.And then there were many:MADS goes genomic[J].Trends in Plant Science,2003,8(10):475-483.
[4]Michaels S D,Amasino R M.FLOWERING LOCUS C encodes a novel MADS domain protein that acts as a repressor of flowering[J].The Plant Cell,1999,11(5):949-956.
[5]Hartmann U,Hhmann S,Nettesheim K,etal.Molecular cloning of SVP:a negative regulator of the floral transition inArabidopsis[J].The Plant Journal,2000,21(4):351-360.
[6]Samach A,Onouchi H,Gold S E,etal.Distinct roles ofCONSTANStarget genes in reproductive development ofArabidopsis[J].Science,2000,288:1613-1616.
[7]Scortecci K C,Michaels S D,Amasino R M.Identification of a MADS-box gene,F(xiàn)LOWERING LOCUS M,that represses flowering[J].The Plant Journal,2001,26(2):229-236.
[8]Michaels S D,Ditta G,Gustafson-Brown C,etal.AGL24acts as a promoter of flowering inArabidopsisand is positively regulated by vernalization[J].The Plant Journal,2003,33(5):867-874.
[9]Kaufmann K,Melzer R,Theiβen G.MIKC-type MADS-domain proteins:structural modularity,protein interactions and network evolution in land plants[J].Gene,2005,347(2):183-198.
[10]Alejandra Mandel M,Gustafson-Brown C,Savidge B,etal.Molecular characterization of theArabidopsisfloral homeotic geneAPETALA1[J].Nature,1992,360:273-277.
[11]Bowman J L,Alvarez J,Weigel D,etal.Control of flower development inArabidopsisthalianabyAPETALA1and interacting genes[J].Development,1993,119(3):721-743.
[12]Gu Q,F(xiàn)errandiz C,Yanofsky M F,etal.The FRUITFULL MADS-box gene mediates cell differentiation duringArabidopsisfruit development[J].Development,1998,125(8):1509-1517.
[13]Pelaz S,Ditta G S,Baumann E,etal.B and C floral organ identity functions require SEPALLATA MADS-box genes[J].Nature,2000,405:200-203.
[14]Liljegren S J,Ditta G S,Eshed Y,etal.SHATTERPROOF MADS-box genes control seed dispersal inArabidopsis[J].Nature,2000,404:766-770.
[15]Nesi N,Debeaujon I,Jond C,etal.The TRANSPARENTTESTA16locus encodes the ARABIDOPSIS BSISTER MADS domain protein and is required for proper development and pigmentation of the seed coat[J].The Plant Cell,2002,14(10):2463-2479.
[16]江騰,林勇祥,劉雪,等.苜蓿全基因組 WRKY轉(zhuǎn)錄因子基因的分析[J].草業(yè)學(xué)報(bào),2011,20(3):211-218.
[17]劉志鵬,張吉宇,王彥榮.紫花苜蓿配子體發(fā)育遺傳調(diào)控的研究進(jìn)展[J].草業(yè)學(xué)報(bào),2011,20(4):270-278.
[18]Young N D,Debelle F,Oldroyd G E,etal.TheMedicagogenome provides insight into the evolution of rhizobial symbioses[J].Nature,2011,480:520-524.
[19]呂奉菊,崔美辰,陳明林.蠶繭草的繁殖生物學(xué)研究[J].草業(yè)學(xué)報(bào),2013,22(3):196-203.
[20]黃利春,金樑,張樹(shù)振,等.蝶形花亞科植物花粉釋放機(jī)制[J].草業(yè)學(xué)報(bào),2013,22(6):305-314.
[21]Finn R D,Mistry J,Schuster-Bckler B,etal.Pfam:clans,web tools and services[J].Nucleic Acids Research,2006,34(S1):247-251.
[22]Finn R D,Clements J,Eddy S R.HMMER web server:interactive sequence similarity searching[J].Nucleic Acids Research,2011,39(S2):29-37.
[23]Thompson J D,Higgins D G,Gibson T J.CLUSTAL W:improving the sensitivity of progressive multiple sequence alignment through sequence weighting,position-specific gap penalties and weight matrix choice[J].Nucleic Acids Research,1994,22(22):4673-4680.
[24]Tamura K,Dudley J,Nei M,etal.MEGA4:molecular evolutionary genetics analysis(MEGA)software wersion 4.0[J].Molecular Biology and Evolution,2007,24(8):1596-1599.
[25]Altschul S F,Madden T L,Schaffer A A,etal.Gapped BLAST and PSI-BLAST:a new generation of protein database search programs[J].Nucleic Acids Res,1997,25(17):3389-3402.
[26]Krzywinski M I,Schein J E,Birol I,etal.Circos:An information aesthetic for comparative genomics[J].Genome Research,2009,19(9):1639-1645.
[27]Trapnell C,Pachter L,Salzberg S L.TopHat:discovering splice junctions with RNA-Seq[J].Bioinformatics,2009,25(9):1105-1111.
[28]Trapnell C,Williams B A,Pertea G,etal.Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation[J].Nat Biotech,2010,28(5):511-515.
[29]Zhao Y,Li X,Chen W,etal.Whole-genome survey and characterization of MADS-box gene family in maize and sorghum[J].Plant Cell,Tissue and Organ Culture,2011,105(2):159-173.
[30]Shu Y,Yu D,Wang D,etal.Genome-wide survey and expression analysis of the MADS-box gene family in soybean[J].Molecular Biology Reports,2013,40(6):3901-3911.