盧成達(dá),李 陽,孫 迪,牛學(xué)謙,昌秦湘
(1.山西農(nóng)業(yè)大學(xué) 農(nóng)學(xué)院,山西太谷 030801;2.太原學(xué)院 園林科學(xué)研究所,太原 030032)
轉(zhuǎn)錄因子(TFs)是通過識(shí)別并結(jié)合靶基因啟動(dòng)子的順式元件來調(diào)控基因表達(dá)[1],根據(jù)植物發(fā)育過程中,轉(zhuǎn)錄因子參與激素信號(hào)傳導(dǎo)并在抗病脅迫響應(yīng)中起關(guān)鍵作用。根據(jù)轉(zhuǎn)錄因子結(jié)合DNA特定序列的不同,發(fā)現(xiàn)了多種功能各異的家族,主要包括WRKY[2-3]、bZIP[4]、MYB[5]、MADS-box和GATA等。其中,GATA轉(zhuǎn)錄因子被認(rèn)為是生物學(xué)過程的重要調(diào)控蛋白,如在調(diào)控花朵發(fā)育、碳、氮代謝[6]、葉綠素水平[7]、抗逆脅迫[8]等方面起著關(guān)鍵的作用。GATA轉(zhuǎn)錄因子可識(shí)別并特異性結(jié)合(T/A)GATA(A/G)序列,從而調(diào)節(jié)下游基因的轉(zhuǎn)錄水平[9-10]。GATA蛋白的DNA結(jié)合結(jié)構(gòu)域包含Ⅳ類鋅指結(jié)構(gòu)C-X2-C-X17-20-C-X2-C和一個(gè)保守基本跟隨區(qū),且多數(shù)具有C-X2-C-X18-C-X2-C或C-X2-C-X20-C-X2-C特征的鋅指結(jié)構(gòu)域[11-12]。據(jù)研究報(bào)道,GATA家族基因在擬南芥(Arabidopsisthaliana)[13]、水稻(OryzasativaL.)[14]、葡萄(VitisviniferaL.)[15]、棉花(Gossypiumspp)[16]、蓖麻(RicinuscommunisL.)[17]中分別鑒定30、28、19、179、19個(gè)GATA基因成員,為研究其他作物GATA全基因組的生物學(xué)功能提供了參考。
谷子(Setariaitalica)在中國(guó)有著古老的栽培歷史,富含維生素、胡蘿卜素等營(yíng)養(yǎng)價(jià)值,在抗旱、耐熱機(jī)理方面具有重要研究用途[18]。谷子作為北方主要的糧食之一,近年來頻繁地受到干旱、高溫極端天氣的影響,導(dǎo)致谷子生長(zhǎng)發(fā)育受阻、品質(zhì)下降、產(chǎn)量降低。因此,挖掘谷子逆境脅迫相關(guān)基因,對(duì)提高作物抗旱耐逆性及產(chǎn)量具有重要的指導(dǎo)意義。當(dāng)前基于作物GATA基因的報(bào)道[16,19-20],谷子SiGATA基因功能的研究很少。本試驗(yàn)通過生物學(xué)技術(shù)在全基因組水平上分析鑒定SiGATA家族成員,對(duì)SiGATAs的蛋白理化性質(zhì)、三級(jí)結(jié)構(gòu)、進(jìn)化系統(tǒng)、基因結(jié)構(gòu)及順式調(diào)控元件等分析,以期為谷子SiGATA家族基因的功能提供參考。
從植物轉(zhuǎn)錄因子數(shù)據(jù)庫Plant TFDB(http://planttfdb.gao-lab.org/)獲取谷子GATA蛋白序列,以來自Pfam數(shù)據(jù)庫(http://pfam.xfam.org/)GATA鋅指結(jié)構(gòu)域(PF00320)的HMM模型為探針序列,用于執(zhí)行本地HMMER 3.0(http://www.hmmer.org/download.html)及CDD保守結(jié)構(gòu)域網(wǎng)站(https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi)搜索,對(duì)E-value≤e-10蛋白序列刪除冗余,篩選出38個(gè)GATA編碼轉(zhuǎn)錄因子,再手動(dòng)剔除來自同一編碼基因的冗余序列,保留對(duì)應(yīng)基因的第一個(gè)或者最長(zhǎng)的蛋白序列,最終得到33個(gè)SiGATA家族成員。使用ExPASy(http://www..expasy.org/protparam/)計(jì)算GATA蛋白的氨基酸數(shù)量、脂肪系數(shù)、分子質(zhì)量(ku)、等電點(diǎn)(pI)等理化性質(zhì)。使用WoLF PSORT(https://wolfpsort.hgc.jp/)進(jìn)行亞細(xì)胞定位的預(yù)測(cè)。
分別比對(duì)擬南芥、水稻、蓖麻GATA的蛋白序列,通過ClustalX(http://www.clustal.org/)軟件進(jìn)行多序列比對(duì),通過本地DNAMAN軟件(https://www.lynnon.com/)分析保守結(jié)構(gòu)序列。利用在線網(wǎng)站MEME(http://meme-suite.org/tools/meme)預(yù)測(cè)保守基序。在MEGA 7.0中采用最大似然法(ML,Maximum likelihood)構(gòu)建系統(tǒng)進(jìn)化樹,Bootstrap參數(shù)設(shè)定為1 000。
將鑒定出的谷子GATA蛋白序列,通過SWISS-MODEL網(wǎng)站(https://swissmodel.expasy.org/interactive)預(yù)測(cè)蛋白三級(jí)結(jié)構(gòu)。
從Ensembl植物數(shù)據(jù)庫(http://plants.ensembl.org/)下載谷子GATA基因組序列及CDS序列,利用CSDS 2.0 在線網(wǎng)站(http://gsds.gao-lab.org/index.php)進(jìn)行基因結(jié)構(gòu)分析。通過NCBI谷子數(shù)據(jù)庫獲取GATA家族成員染色體信息,使用MapInspect軟件繪制谷子SiGATA基因的染色體位置。
為鑒定位于GATA基因啟動(dòng)子區(qū)域的順式元件,從NCBI基因組數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/gene/)獲取每個(gè)SiGATA基因起始密碼子的2.0 kb上游序列。使用PlantCARE服務(wù)器(http://bioinformatics.psb.ugent.be/webtools/plantcare/html/)進(jìn)行搜索預(yù)測(cè)。
通過本地HMMER 3.0及CDD預(yù)測(cè)網(wǎng)站搜索,刪除冗余蛋白序列,得到33個(gè)谷子GATA家族成員,依次命名為SiGATA1~SiGATA33(表1)。在33個(gè)谷子GATA轉(zhuǎn)錄因子中,氨基酸數(shù)量為122~729 aa,分子質(zhì)量為13 817.77~ 82 166.04 ku,脂肪指數(shù)介于47.36~ 72.04。等電點(diǎn)結(jié)果顯示從4.74到10.52,有4個(gè)轉(zhuǎn)錄因子為酸性蛋白(PI<7.0),34個(gè)轉(zhuǎn)錄因子為堿性蛋白(PI>7.0),表明谷子SiGATA蛋白多數(shù)為堿性且較穩(wěn)定。不穩(wěn)定系數(shù)結(jié)果顯示,范圍從 43.35到83.95,均為不穩(wěn)定蛋白質(zhì)(>40);總平均親水性顯示,在-1.185到-0.205之間,表明谷子GATA蛋白均為親水性蛋白;亞細(xì)胞定位顯示,大多數(shù)SiGATA蛋白位于細(xì)胞核或細(xì)胞質(zhì)上,其中SiGATA2定位的亞細(xì)胞數(shù)量最多,SiGATA4定位最少。
表1 SiGATA家族理化性質(zhì)分析Table 1 Analysis of physical and chemical properties of SiGATA family
為研究谷子SiGATAs蛋白的系統(tǒng)進(jìn)化關(guān)系,使用MEGA 7.0對(duì)谷子GATA蛋白序列比對(duì),采用鄰位相接法(泊松校正,Bootstrap= 1 000)構(gòu)建進(jìn)化發(fā)育圖,進(jìn)化分支結(jié)果顯示,可以將谷子GATA家族蛋白分為3組,其中第Ⅰ組包含的轉(zhuǎn)錄因子做多,共計(jì)13個(gè),第Ⅱ組包含的最少,有8個(gè)。進(jìn)一步分析谷子GATA轉(zhuǎn)錄因子的蛋白序列結(jié)構(gòu),使用DNAMAN軟件進(jìn)行氨基酸序列比對(duì),分析結(jié)果表明:第Ⅱ、Ⅲ組的GATA蛋白均含有CX2CX18CX2C鋅指結(jié)構(gòu)域(圖1),第Ⅰ組的SiGATA25、SiGATA26、SiGATA27、SiGATA30、SiGATA31成員缺失CX2CX18CX2C鋅指結(jié)構(gòu)域,其他GATA蛋白含有保守結(jié)構(gòu)域。
利用GSDS 2.0在線網(wǎng)站,對(duì)獲得的谷子GATA基因組序列與CDS序列進(jìn)行基因結(jié)構(gòu)預(yù)測(cè)(圖2),由于在Ensembl植物數(shù)據(jù)庫沒有查詢到SiGATA10、SiGATA11、SiGATA16、SiGATA29、SiGATA30、SiGATA31、SiGATA33完整的基因全長(zhǎng)度,因此繪制了其余26個(gè)家族成員的基因結(jié)構(gòu)圖。結(jié)果顯示,SiGATA家族成員均含有外顯子,個(gè)數(shù)多在2~7,SiGATA15含有外顯子數(shù)量最多;內(nèi)含子個(gè)數(shù)差異較大,其中SiGATA27具有較長(zhǎng)的UTR結(jié)構(gòu)。
根據(jù)NCBI數(shù)據(jù)庫獲取已鑒定谷子GATA家族成員的染色體位置信息,使用MapInspect軟件繪制谷子SiGATA基因的染色體位置(圖3)。結(jié)果顯示,谷子GATA基因家族成員不均勻地分布在8條染色體上,chrom6染色體上沒有SiGATA基因成員的分布。其中chrom9染色體上的基因數(shù)量最多,共計(jì)9個(gè),chrom2、chrom4和chrom8染色體上都只分布有2個(gè)基因。
利用Plant TFDB 網(wǎng)站(http://planttfdb.gao-lab.org/)分析水稻(28個(gè))、擬南芥(30個(gè))、蓖麻(19個(gè))蛋白序列,在MEGA 7.0采用ML法構(gòu)建4種不同作物的進(jìn)化系統(tǒng)發(fā)育樹(圖4)。參考擬南芥GATA家族分類法加以改動(dòng),可將GATA家族分為3大分支,每個(gè)大分支又分為兩個(gè)部分,其中第Ⅰ分支包含的水稻GATA蛋白與谷子GATA蛋白數(shù)量最多,分別有19個(gè)、16個(gè);第Ⅲ分支含有擬南芥GATA蛋白與蓖麻GATA蛋白數(shù)量最多,分別為24個(gè)、12個(gè)。結(jié)果表明,谷子GATA家族蛋白與單子葉植物水稻GATA的親緣關(guān)系較近,與雙子葉植物擬南芥、蓖麻的親緣關(guān)系較遠(yuǎn),這一研究符合植物的進(jìn)化關(guān)系。
使用MEME在線軟件對(duì)谷子SiGATA蛋白序列進(jìn)行保守基序分析(圖5、71圖6),結(jié)果顯示,同一組別的谷子GATA轉(zhuǎn)錄因子具有相似的保守基序,Motif1含有CX2CX18CX2C鋅指結(jié)構(gòu)域。除SiGATA33轉(zhuǎn)錄因子未含有Motif1外,其余轉(zhuǎn)錄因子均有Motif1,且出現(xiàn)的次數(shù)最多,進(jìn)一步驗(yàn)證谷子SiGATA基因家族蛋白保守的真確性。此外,在3大組別中,除Motif1外還含有Motif2、Motif3、Motif4、Motif5、Motif6基序,表明不同蛋白基序的不同是其功能差異化的動(dòng)力或原因。
運(yùn)用SWISS-MODEL網(wǎng)站對(duì)谷子GATA蛋白家族三級(jí)結(jié)構(gòu)進(jìn)行預(yù)測(cè)(圖7),結(jié)果顯示,谷子GATA蛋白包含α-螺旋、β-折疊、β-轉(zhuǎn)角及無規(guī)則卷曲等空間構(gòu)象,整體結(jié)構(gòu)相似度存在差異,復(fù)雜程度一般,同組進(jìn)化序列基因的結(jié)構(gòu)相似度較高。例如,在第Ⅰ組中,SiGATA9、SiGATA14、SiGATA18、SiGATA30家族成員的三級(jí)結(jié)構(gòu)高度相似,均含有典型的Zn結(jié)構(gòu)域,表明蛋白結(jié)構(gòu)與物種進(jìn)化同源性有一定的關(guān)聯(lián)。
從NCBI基因組數(shù)據(jù)庫下載SiGATAs啟動(dòng)子序列(翻譯起始點(diǎn)上游2 000 bp),使用PlantCARE軟件進(jìn)行順式調(diào)控元件分析(圖8)。脅迫相關(guān)順式元件主要包括ABRE(ABA響應(yīng)元件)、ARE(厭氧誘導(dǎo)響應(yīng)元件)、 GARE-motif(赤霉素響應(yīng)元件)、CAT(分生組織表達(dá))、G-box(光響應(yīng)元件)、MBS(干旱誘導(dǎo)響應(yīng))、AuxRR(生長(zhǎng)素響應(yīng)元件)等。
33個(gè)SiGATAs家族成員中檢測(cè)到653個(gè)主要順式調(diào)控元件,其中G-box(光響應(yīng)元件)檢測(cè)數(shù)量最多,共計(jì)116個(gè);其次為ABRE(ABA響應(yīng)元件)檢測(cè)到99個(gè),SiGATA15、SiGATA22、SiGATA32中ABRE(ABA響應(yīng)元件)檢測(cè)量高于其他家族成員;SiGATA15在ARE、CAT、GARE-motif、MBS的檢測(cè)數(shù)量也明顯高于其他家族成員。此外,在SiGATA14、SiGATA16、SiGATA20、SiGATA31、SiGATA32中檢測(cè)到Circadian(晝夜節(jié)律控制元件),在SiGATA5、SiGATA15、SiGATA22中檢測(cè)到RY-element(種子特異調(diào)控元件)等。表明谷子GATA家族成員可以響應(yīng)多種逆境條件,如干旱脅迫、缺氧脅迫、光強(qiáng)及光周期。
通過生物信息學(xué)的方法,從谷子基因組中鑒定到33個(gè)SiGATA成員,不均勻分布在8條染色體上,多數(shù)蛋白序列包含CX2CX18CX2C鋅指結(jié)構(gòu)域,這一結(jié)果與在擬南芥[21]、水稻[22]、油菜[19]基本一致,其他缺少鋅指結(jié)構(gòu)域的GATA蛋白,可能是在進(jìn)化過程中缺失或改變。谷子GATA蛋白的氨基酸數(shù)量、分子質(zhì)量、等電點(diǎn)存在差異,可能是在發(fā)育過程中功能各異的體現(xiàn),但大多數(shù)蛋白序列穩(wěn)定、呈堿性且具有親水性。系統(tǒng)進(jìn)化分析顯示,可將谷子GATA家族成員分為3類,其中谷子與單子葉植物水稻親緣關(guān)系較近,與雙子葉植物擬南芥、蓖麻的親緣關(guān)系較遠(yuǎn),這與它們?cè)谙到y(tǒng)進(jìn)化樹中的位置關(guān)系一致?;蚪Y(jié)構(gòu)和蛋白保守基序表明,同一組別的谷子GATA成員蛋白保守基序高度相似,內(nèi)含子數(shù)量差異較大,UTR結(jié)構(gòu)長(zhǎng)度差異明顯,可能是不同家族成員在進(jìn)化中發(fā)生改變?cè)斐傻摹?/p>
谷子GATA蛋白三級(jí)結(jié)構(gòu)顯示,整體結(jié)構(gòu)相似度存在差異,但同組進(jìn)化序列基因的結(jié)構(gòu)相似度較高,表明同組家族成員在進(jìn)化過程中結(jié)構(gòu)上有很大的同源性。谷子GATA啟動(dòng)子順式調(diào)控元件分析,SiGATAs蛋白可以在厭氧、干旱、光等非生物脅迫下轉(zhuǎn)錄調(diào)控,參與生長(zhǎng)素、赤霉素、水楊酸等激素信號(hào)傳導(dǎo)調(diào)控。部分基因在愈傷組織響應(yīng)元件、胚乳組織表達(dá)及種子特異調(diào)控元件表達(dá)量有響應(yīng)位點(diǎn),但不一定都是可以有效結(jié)合并影響表達(dá),而且即使影響表達(dá)也不一定是正調(diào)控,也有可能是負(fù)調(diào)控。有研究表明,GATA因子結(jié)構(gòu)域中發(fā)現(xiàn)兩個(gè)與光信號(hào)相關(guān)的蛋白TOC1和CO,TOC1對(duì)晝夜節(jié)律的調(diào)節(jié)起著重要作用[23],CO蛋白又調(diào)控分生組織表達(dá),進(jìn)而通過光周期調(diào)節(jié)作物開花時(shí)間[24]。GATA轉(zhuǎn)錄因子中特異性鋅指蛋白結(jié)構(gòu)域?qū)χ参锏目鼓嫘哉{(diào)控具有重要的作用[25-26],驗(yàn)證了谷子GATA蛋白結(jié)構(gòu)功能的正確性。Zhang等[27]在玉米中利用胚乳特異性啟動(dòng)子調(diào)控bg17A基因,顯示轉(zhuǎn)基因玉米產(chǎn)量顯著提高;Doshi等[28]選用種子特異性啟動(dòng)子表達(dá)hADA基因,轉(zhuǎn)化到豌豆、煙草和羽扇豆中的產(chǎn)量有所增加,以期可以進(jìn)一步探究谷子GATA中特異性調(diào)控元件對(duì)谷子產(chǎn)量、品質(zhì)等的提升作用。