馬宇馨,李永國,張瑋煜,朱倩潔,周 帆,邢繼紅,張 康,董金皋
(1. 華北作物改良與調(diào)控國家重點(diǎn)實(shí)驗(yàn)室/河北省植物生理與分子病理學(xué)重點(diǎn)實(shí)驗(yàn)室,河北農(nóng)業(yè)大學(xué),河北 保定 071000;2. 河北農(nóng)業(yè)大學(xué) 教學(xué)實(shí)驗(yàn)農(nóng)場,河北 保定 071000)
組蛋白是染色體基本結(jié)構(gòu)蛋白,因富含堿性氨基酸Arg 和lys 而呈堿性,可與酸性的DNA 緊密結(jié)合。組蛋白包含5 個組分,按照分子量由大到小分別稱為H1、H3、H2A、H2B 和H4。在生物體中,H3 和H4 先結(jié)合形成四聚體,之后結(jié)合H2A 和H2B 形成八聚體,最后結(jié)合上H1,形成完整的組蛋白,其中H1 起到了穩(wěn)定染色質(zhì)的作用[1-2]。組蛋白進(jìn)行α 螺旋、β 折疊、β 轉(zhuǎn)角和無規(guī)則卷曲慢慢變成發(fā)揮功能的蛋白質(zhì)[3]。組蛋白在物種中是高度保守的,這種穩(wěn)定性讓遺傳物質(zhì)穩(wěn)定的遺傳下去。當(dāng)進(jìn)行DNA 修復(fù)、重組和轉(zhuǎn)錄時,組蛋白和DNA 之間的靜電相互作用會被暫時破壞,核小體暫時分解,組蛋白以H2A-H2B 的形式從八聚體形式中出來,這時仍有核小體組裝蛋白(NAP)、核質(zhì)蛋白(NPM)、酸性核磷蛋白(Anp32e)等組蛋白伴侶保護(hù)H2AH2B 的穩(wěn)定性[4]。但是根據(jù)一系列的組蛋白變體的研究發(fā)現(xiàn)組蛋白在某些基因區(qū)域的沉積不依賴于DNA 的復(fù)制,但它同樣影響著基因的表達(dá)[5]。這使分析組蛋白及其變體的功能成為一項重要的工作。
組蛋白變體是常規(guī)組蛋白的變異體,具有與常規(guī)組蛋白不同的編碼基因,它們的氨基酸序列及大小亦有別于常規(guī)組蛋白[6],目前的報道多集中于H2A 的變異體,包括H2A.Z、H2A.X 和H2A.W[7]。H2A.Z 與H2A 主要在C 末端結(jié)構(gòu)存在差異,H2A.Z 的C 末端尾部短于H2A,且其40%的氨基酸序列不同于H2A[8]。H2A.Z 在核小體中的裝載主要由SWR1 (SWi2 / snf2-related 1)蛋白復(fù)合物負(fù)責(zé),該復(fù)合物成員主要包括ARP6 (actin-related protein 6)、PIE1 (photoperiodindependent early flowering 1)、SEF (serrated leaves and early flowering)、SWC4(SWR complex subunit 4)、MBD9 (methyl-CpGbinding domain 9)、ATPase 亞基和YAF9 (yeast all1-fused gene from chromosome 9)[9-13]。H3K4me3 和H3K27me3 是常見的組蛋白甲基化修飾標(biāo)記,在轉(zhuǎn)錄激活和轉(zhuǎn)錄抑制中作用[14-16]。H2A.Z 能夠促進(jìn)基因啟動子區(qū)H3K4me3 的富集,誘導(dǎo)基因表達(dá);同時可以通過促進(jìn)H3K27me3 富集并抑制H3K4me3來抑制增強(qiáng)子活性,進(jìn)而影響基因表達(dá)[17]。組蛋白變體H2A.Z 參還與了許多重要的生命活動,例如開花時間、脅迫應(yīng)答、細(xì)胞周期和磷饑餓響應(yīng)等[18]。組蛋白變體H2A.X 是H2A 發(fā)生磷酸化修飾形成的組蛋白變體,其C-末端含有保守的SQEF 基序[21]。組蛋白變體H2A.X 在核小體中的組裝,需要組蛋白伴侶FACT (Facilitates chromatin transcription)等的幫助,與DNA 損傷修復(fù)等生物學(xué)過程具有重要聯(lián)系[19]。組蛋白變體H2A.W 蛋白的C 末端尾部長于H2A,且含有特異的KSPKK 基序,KSPKK 基序特別影響染色質(zhì)的組成,因此H2A.W 有促進(jìn)染色質(zhì)凝聚的功能[20]。
目前,除了H2A 的變體,其他組蛋白也存在一些變體,比如H3.1 和H3.3,H3.1 在基因組的沉默區(qū)域富集,包括H3K27 甲基化和H3K9 甲基化等一些重要的染色質(zhì)修飾。相比之下,H3.3 在基因組的轉(zhuǎn)錄活躍區(qū)域富集,尤其是在基因的N 末端達(dá)到峰值,并與基因激活相關(guān)的組蛋白修飾相關(guān),例如H3K4 甲基化和H2B 泛素化等[21]。H4 的變異體在植物中研究較少,在癌癥中研究較多,比如H4G,它通過在乳腺癌細(xì)胞中形成不穩(wěn)定的核小體來松弛核仁染色質(zhì)并增強(qiáng)rRNA 轉(zhuǎn)錄[22]。組蛋白在植物生長發(fā)育、脅迫響應(yīng)等生命活動中發(fā)揮著重要的作用。但是,玉米中還未見關(guān)于組蛋白編碼基因的系統(tǒng)性報道。因此,本研究從基因組范圍對玉米組蛋白編碼基因進(jìn)行鑒定與表達(dá)分析,明確玉米組蛋白編碼基因,對其理化性質(zhì)和不同條件下的表達(dá)規(guī)律進(jìn)行分析,將對玉米組蛋白的功能研究奠定了重要的理論基礎(chǔ)。
供試玉米自交系為B73,來源于河北農(nóng)業(yè)大學(xué)真菌毒素與植物分子病理學(xué)實(shí)驗(yàn)室。
在玉米基因組數(shù)據(jù)庫MaizeGDB(https://www.maizegdb.org,基因組版本:Zm-B73-REFERENCEGRAMENE-4.0)下載玉米(Zea mays)完整的蛋白質(zhì)序列數(shù)據(jù)信息,從擬南芥信息資源數(shù)據(jù)庫TAIR(www.arabidopsis.org)和水稻基因組注釋計劃數(shù)據(jù)庫RGAP(http://rice.plantbiology.msu.edu/)獲得擬南芥及水稻HATs 家族成員的蛋白質(zhì)序列信息。以玉米所有蛋白序列為庫,利用BLAST 軟件對擬南芥和水稻種的HATs 家族成員進(jìn)行分析,鑒定玉米組蛋白成員,另外利用Pfam(http://pfam.xfam.org/)和Ensemble(http://plants.ensembl.org/index.html)找出玉米組蛋白成員。綜合這3 種方法,最終確定H1、H2A、H2B、H3 和H4 家族成員。
通過ClustalX 軟件對擬南芥、水稻和玉米的組蛋白成員的蛋白質(zhì)序列進(jìn)行多重序列比對,利用MEGA7.0 中的臨近法構(gòu)建系統(tǒng)發(fā)育樹,bootstrap 值設(shè)置為1 000。利用玉米蛋白質(zhì)數(shù)據(jù)通過在線網(wǎng)站SMART(http://smart.embl-heidelberg.de/)和Pfam(http://pfam.xfam.org)共同確定玉米組蛋白的結(jié)構(gòu)域,并利用IBS1.0.3 工具繪制基因的保守結(jié)構(gòu)域。
利用從NCBI(https://www.ncbi.nlm.nih.gov/)中的SRA 數(shù)據(jù)庫下載的數(shù)據(jù),使用具有默認(rèn)參數(shù)的Hisat2 將轉(zhuǎn)錄組數(shù)據(jù)集比對到下載的玉米的參考基?因組上。Cufflinks 軟件通過基因長度和讀取數(shù)量標(biāo)準(zhǔn)化參數(shù)計算基因表達(dá)值,以 FPKM(每百萬映射讀取每千堿基轉(zhuǎn)錄物的片段)代表基因表達(dá)水平。利用Heml 軟件繪制玉米組蛋白成員在不同組織以及生物和非生物脅迫下的表達(dá)熱圖,挖掘玉米組蛋白編碼基因表達(dá)規(guī)律。
從玉米基因組數(shù)據(jù)庫MaizeGDB 獲得玉米組蛋白成員的位置信息、序列長度及其編碼蛋白的氨基酸;利用在線服務(wù)器ExPASy(http://web.expasy.org/protparam) 中的生物信息學(xué)軟件ExPASy-ProtParam tool 對玉米組蛋白成員所編碼的蛋白質(zhì)的分子質(zhì)量和等電點(diǎn)等理化性質(zhì)進(jìn)行分析。結(jié)果發(fā)現(xiàn),玉米組蛋白編碼基因共有54 個,其中H2A 家族16個,H2B 家族13 個,H3 家族12 個,H4 家族9 個,H1 家族4 個。理化性質(zhì)分析結(jié)果表明,組蛋白等電點(diǎn)都呈堿性且分子量比較相近,這可能與其在染色質(zhì)中的功能相關(guān)(見表1)。
表1 玉米組蛋白編碼基因信息Table 1 List of maize histone coding genes
續(xù)表:
為了明確玉米組蛋白成員之間的系統(tǒng)發(fā)育關(guān)系,將擬南芥、水稻中已經(jīng)鑒定的組蛋白成員與玉米中組蛋白的蛋白質(zhì)序列進(jìn)行多序列比對,并以水稻組蛋白亞分類為標(biāo)準(zhǔn),利用MEGA7.0 軟件,選取臨近法構(gòu)建系統(tǒng)發(fā)育樹(見圖1)。結(jié)果表明,組蛋白在植物進(jìn)化過程中非常保守,說明其在功能上可能也十分相近。
為了進(jìn)一步研究組蛋白H2A 的進(jìn)化關(guān)系,對H2A 及其變體進(jìn)行分析發(fā)現(xiàn)H2A 又可以被分為4 個亞組,其中經(jīng)典H2A、H2A.Z、H2A.X、H2A.W 在不同物種中均有分布(見圖1),表明玉米組蛋白H2A 及其變體在協(xié)同發(fā)揮作用的同時,又具有明顯的分工。對H2B 亞家族單獨(dú)構(gòu)建系統(tǒng)發(fā)育樹并分析,發(fā)現(xiàn)H2B 能夠進(jìn)一步分成兩組,且相同物種的H2B在兩組中均有分布。由此推斷,玉米H2A、H2B 及其變體在不同物種之間進(jìn)化有差異,在相同物種之間進(jìn)化關(guān)系更為緊密。
圖1 擬南芥、水稻和玉米組蛋白系統(tǒng)發(fā)育樹Fig.1 Phylogenetic tree analysis of histone in Arabidopsis,rice and maize
目前發(fā)現(xiàn)組蛋白H3 上能發(fā)生的組蛋白修飾類型最多,功能最全面。對玉米組蛋白H3 亞家族進(jìn)行分析,發(fā)現(xiàn)H3 中存在組蛋白變體,例如H3.3 等。相較于擬南芥,玉米的H3 組蛋白編碼基因更多一些,可能是由于基因組擴(kuò)張導(dǎo)致H3 組蛋白編碼基因增加(圖1)。此外,組蛋白H4 可以與H3 形成二聚體并參與到核小體的組裝過程中,對玉米、水稻和擬南芥H4 亞家族進(jìn)行分析,發(fā)現(xiàn)組蛋白H4 是以上幾種中結(jié)構(gòu)變體最少,保守性最強(qiáng)的一個亞家族(圖1)。玉米組蛋白H4 基本都分在一組中且進(jìn)化關(guān)系緊密,且沒有在玉米基因組中找到組蛋白變體H4 Variant。
通過SMART(http://smart.embl heidelberg.de)和Pfam(http://pfam.xfam.org)數(shù)據(jù)庫對玉米組蛋白保守結(jié)構(gòu)域進(jìn)行分析,然后利用IBS1.0.3 工具對蛋白質(zhì)保守結(jié)構(gòu)域進(jìn)行繪制。結(jié)果顯示,玉米組蛋白保守結(jié)構(gòu)域主要分為5 組,分別為H2A、H2B、H3、H4 和H1(圖2)。組蛋白H2A、H2B、H3 和H4 的重要組蛋白代表性結(jié)構(gòu)域的位置和長度均相似,這證明H2A、H2B、H3、H4 的保守性極強(qiáng)(見圖2)。組蛋白H1 雖然在長度上有著差異,但是仍然具有特異的保守結(jié)構(gòu)域。
圖2 玉米組蛋白成員的保守結(jié)構(gòu)域分析Fig.2 Conserve domain analysis of histone proteins in maize
對公共數(shù)據(jù)平臺SRA 數(shù)據(jù)庫中的玉米不同組織的轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)玉米組蛋白基因普遍在玉米發(fā)育階段表達(dá)量高,比如在胚中Zm00001d020580、Zm00001d002546、Zm00001d002543等都表現(xiàn)出較高的水平,在玉米生長和成熟階段稍有降低,比如在種子發(fā)芽后,以上3 個基因表達(dá)量均下調(diào),且在衰老的玉米組織中表達(dá)量呈最低水平(見圖3)。
圖3 玉米組蛋白基因在不同組織中的表達(dá)譜Fig.3 The expression pattern of maize histone genes in maize different tissues
這些結(jié)果說明,玉米中組蛋白編碼基因雖然具有多個拷貝,但不同組蛋白編碼基因在不同組織中表達(dá)水平具有一定差異,暗示同一種組蛋白的不同編碼基因可能在不同組織中分別發(fā)揮重要的作用。
對玉米高溫、低溫、鹽、紫外線和干旱脅迫下的轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)玉米組蛋白基因在不同非生物脅迫下呈現(xiàn)出不同的表達(dá)規(guī)律。結(jié)果表明,部分基因在冷脅迫和紫外線脅迫下表達(dá)水平升高,但在鹽脅迫、干旱脅迫和熱脅迫下表達(dá)量較低,其中還有一些基因在這些脅迫中均保持較低的表達(dá)量(見圖4)。
圖4 玉米組蛋白基因在熱、冷、鹽、紫外線和干旱脅迫下的表達(dá)模式Fig.4 The expression pattern of histone genes under heat,cold, salt, UV and drought stress
例如,Zm00001d006547在冷脅迫和紫外脅迫下表達(dá)量升高,Zm00001d021706、Zm00001d026015、Zm00001d013300在冷脅迫下表達(dá)量均有明顯升高,Zm00001d039790、Zm00001d036250、Zm00001d009769等鹽脅迫、干旱脅迫和熱脅迫下表達(dá)量明顯下降。此外,H2A 和H2B 亞家族的一些組蛋白編碼基因在非生物脅迫中均保持較低表達(dá)水平,例如Zm00001d050100和Zm00001d012837。
對玉米組蛋白編碼基因在禾谷鐮孢侵染過程中的表達(dá)規(guī)律進(jìn)行分析,發(fā)現(xiàn)隨著病菌侵染時間增長,一些玉米組蛋白編碼基因表達(dá)水平逐漸升高,例如Zm00001d013067、Zm00001d047787、Zm00001d051478、Zm00001d032070、Zm00001d026015(見圖5)。結(jié)果說明,這些組蛋白編碼基因可能在抵抗禾谷鐮孢侵染的過程中發(fā)揮著重要的作用。但是,也有一些基因保持著較低的表達(dá)量,例如組蛋白H2A 和H2B 的編碼基因Zm00001d009769、Zm00001d035619、Zm00001d005322。
圖5 玉米組蛋白基因在禾谷鐮孢菌侵染玉米莖后的表達(dá)模式Fig.5 The expression pattern of histone genes with Fusarium graminearum infection in maize stem
在真核生物中,核小體是染色質(zhì)的最基本單位,它是由約147 bp 的DNA 纏繞在核心組蛋白H2A、H2B、H3 和H4 構(gòu)成的組蛋白八聚體周圍共同組成,每2 個核小體之間還包含了另外一種連接性組蛋白H1。這些構(gòu)成八聚體的組蛋白在進(jìn)化中是十分保守的,但是它們在每一個生物體中并不是靜態(tài)存在的。組蛋白是最高度保守的蛋白質(zhì)之一,它們與基因表達(dá)和基因組的穩(wěn)定性密切相關(guān),在生長發(fā)育和對環(huán)境脅迫的響應(yīng)過程中發(fā)揮著關(guān)鍵的作用[4]。組蛋白上的氨基酸殘基可以發(fā)生多種修飾,例如甲基化、乙?;?、泛素化、糖基化以及近些年發(fā)現(xiàn)的巴豆酰化,丁?;鹊龋?8]。擬南芥、水稻組蛋白基因的研究較為深入。在擬南芥和水稻中,相對于H2A 和H2B,H3 和H4 更保守,H3 的氨基酸序列與H4 的氨基酸序列幾乎沒有差異。一組組蛋白在幼小組織或分裂細(xì)胞中表現(xiàn)出相似的表達(dá)模式,具有相對較高的表達(dá)水平。一些組蛋白基因在響應(yīng)各種脅迫時被下調(diào),相對于H3 和H4,H2A 和H2B 在應(yīng)急反應(yīng)中表現(xiàn)更為突出[8,21]。但是,玉米組蛋白編碼基因的系統(tǒng)性研究至今尚未見報道。
本研究對玉米基因組進(jìn)行了系統(tǒng)的分析,鑒定出54 個玉米組蛋白編碼基因,其中16 個H2A,13個H2B,12 個H3,9 個H4 和4 個H1。進(jìn)一步對組蛋白H2A、H2B、H3、H4 分析,發(fā)現(xiàn)玉米組與擬南芥和水稻在各個亞家族分布類似,且玉米組蛋白的保守結(jié)構(gòu)域的數(shù)量和排列在同一亞族中相對保守。本研究表明,玉米組蛋白編碼基因在不同組織和響應(yīng)生物和非生物脅迫過程中的表達(dá)水平呈現(xiàn)出明顯的差異。在熱和鹽脅迫下,大多數(shù)組蛋白編碼基因表現(xiàn)為下調(diào),在干旱、冷和紫外脅迫下,部分組蛋白編碼基因表達(dá)上調(diào),說明在不同的非生物脅迫下,不同的組蛋白編碼基因發(fā)揮不同的功能。在受到禾谷鐮孢侵染時,組蛋白編碼基因在侵染后期表達(dá)水平顯著上升,表明這些基因在相應(yīng)生物脅迫的過程中發(fā)揮重要作用。此外,為什么在不同條件下組蛋白編碼基因表達(dá)水平具有明顯差異,其調(diào)控機(jī)制還需要深入探索。本研究表明,組蛋白編碼基因在玉米生長發(fā)育以及響應(yīng)生物和非生物脅迫過程發(fā)揮重要的作用,并且在抵抗生物脅迫中發(fā)揮更重要的功能,為闡明玉米組蛋白編碼基因的功能及其調(diào)控機(jī)制奠定了重要的理論基礎(chǔ)。