李 媛,多杰措,熊輝巖,段瑞君,3
(1.青海大學(xué)生態(tài)環(huán)境工程學(xué)院,青海西寧 8 10016;2.青海大學(xué)農(nóng)牧學(xué)院,青海西寧810016;3.青海省青稞遺傳育種重點實驗室,青海西寧 810016)
同源異型域-亮氨酸拉鏈(homeodomain-leucine zipper,HD-Zip)蛋白是高等植物所特有的轉(zhuǎn)錄因子,根據(jù)HD-Zip轉(zhuǎn)錄因子家族基因序列特征和生物功能將其劃分為4個亞家族(Ⅰ、Ⅱ、Ⅲ、Ⅳ)[1],每個家族成員都含有高度保守的同源異型結(jié)構(gòu)域(homeodomain,HD) 和亮氨酸拉鏈結(jié)構(gòu)域(leucine zipper,LZ)構(gòu)成的特征結(jié)構(gòu)[2]。HD-Zip在植物的生長發(fā)育和適應(yīng)性抗逆過程中起著至關(guān)重要的調(diào)控作用,在多種植物中已經(jīng)被廣泛研究[3-6],尤其在水稻(Oryzasativa)[7]、木薯(Manihotesculenta)[8]、陸地棉(Gossypiumarboreum)[9]、番茄(Solanumlycopersicum)[10]、大豆(Glycinemax)[11]等植物有關(guān)抗逆方面的報道較多。
密碼子是遺傳信息從DNA到蛋白質(zhì)的過程中不可或缺的組份,生物體內(nèi)普遍存在的同義密碼子不均衡使用的現(xiàn)象稱為密碼子偏好性(codon bias)[12]。密碼子偏好性現(xiàn)象存在物種及基因差異[13],其形成主要是物種在長期進化過程中受到了突變壓力(密碼子偏好性與序列GC含量有關(guān))[14]和自然選擇壓力(密碼子偏好性與翻譯過程有關(guān))[15]的影響。分析密碼子偏好性特征有助于理解生物體的環(huán)境適應(yīng)性和分子進化過程[16]。
大麥(HordeumvulgareL.)是世界上最古老的糧食和飼料作物之一,也是中國重要的谷類作物之一,具有較高的經(jīng)濟價值和較強的抗逆性[17]。大麥作為非生物脅迫抗性的代表作物,其基因組的最新物理、遺傳和功能序列組裝分別于2012年[18]和2016年[19]完成,為作物育種和改良提供了重要參考資料。目前大麥個別HD-Zip基因的研究有所報道,而大麥HD-Zip基因家族密碼子偏好性分析尚未見報道。因此,本研究擬針對大麥HD-Zip轉(zhuǎn)錄因子家族進行密碼子偏好性特征分析,同時為HvHD-Zip IV 5選擇最適異源受體,以期為大麥HD-Zip家族基因密碼子使用模式和分子進化及功能研究提供參考。
本研究所分析的32個大麥HD-Zip家族成員(HvHD-Zip)均為本課題組篩選所得,參考柏錫等[20]的5條篩選原則進行目的基因序列篩選,HvHD-Zip IV 5序列(HORVU7Hr1G073440.1)下載自IPK數(shù)據(jù)庫(https://www.ipk-gatersleben.de/),其余煙草(XM_016659678.1,Nicotianatabacum)、水稻(EU847516.1,O.sativa)、小麥(JF332037.1,Triticumaestivum)、擬南芥(AJ431182.2,Arabidopsisthaliana)、玉米(NM_001352895.1,Zeamays)、大豆(NM_001361192.1,G.max)、山羊草(XM_020321809.1,Aegilopstauschii)、番茄(NM_001247304.2,S.lycopersicum)等的HD-Zip基因序列均來自NCBI數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/)。擬南芥、煙草、水稻、大腸桿菌、酵母菌基因組密碼子使用頻率數(shù)據(jù)來源于Codon Usage Database(http://www.kazusa.or.jp/codon/)。
使用EMBOSS在線服務(wù)(http://www.bioinformatics.nl/emboss-explorer/)的CUSP程序?qū)π蛄蠫C、GC1、GC2、GC3和密碼子使用頻率進行分析,GC代表密碼子的平均GC含量,GC1、GC2、GC3分別代表三聯(lián)密碼子第一、第二和第三位堿基的GC含量,GC12代表GC1、GC2平均值,GC3值反映密碼子偏好性影響因素(選擇壓力和突變壓力),分布范圍越集中則受自然選擇壓力影響越大[21]。用CHIPS程序?qū)τ行艽a子數(shù)(effective number of codon,ENC)進行統(tǒng)計,該值越靠近20說明密碼子偏好性越強,反之則越弱[22]。
使用CodonW 1.4.2軟件分析密碼子適用指數(shù)(codon adaptation index,CAI)、密碼子偏好性指數(shù)(codon bias index,CBI)、最優(yōu)密碼子使用頻率(frequency of optimal codons,F(xiàn)OP)和相對同義密碼子使用度(relative synonymous codon usage,RSCU)等參數(shù)。CAI取值越靠近1則代表密碼子偏好性越強[23]。RSCU>1表明該密碼子使用頻率較高,反之則較低,RSCU=1時無偏好性[24]。
在Excel中將各基因按ENC值大小排列,兩端各選出3個(10%)基因,分別作為高表達和低表達基因建立偏好性庫,計算ΔRSCU值,選取ΔRSCU>0.08的密碼子作為高表達優(yōu)化密碼子,為了避免單一分析方法引起結(jié)果偏差,從高表達優(yōu)化密碼子和高頻密碼子中選出共有的作為最優(yōu)密碼子[25]。
中性繪圖分析(Neutrality plot)以GC12為縱坐標(biāo)作圖,GC3為橫坐標(biāo), GC12和GC3相關(guān)性越高則密碼子偏好性受突變壓力影響越強,反之則受選擇壓力影響較強[26]。
ENC-plot繪圖分析以ENC值為縱坐標(biāo),GC3為橫坐標(biāo)作散點圖,參考楊國鋒等[27]的方法繪制標(biāo)準(zhǔn)曲線。散點分布越靠近標(biāo)準(zhǔn)曲線范圍,則說明密碼子偏好性受突變壓力影響越大,反之則受自然選擇壓力影響較大[28]。
利用ClustalX軟件對不同植物HD-Zip基因編碼氨基酸序列進行完全比對分析,采用MEGA7.0軟件的組間鄰接法(Neighbor joining)構(gòu)建系統(tǒng)發(fā)育樹,參數(shù)bootstrap值設(shè)為1 000。
參考劉漢梅等[29]的報道,利用SPSS 20軟件對除編碼精氨酸(Arg)、亮氨酸(Leu)和絲氨酸(Ser)的密碼子及三個終止密碼子外的9個物種的HD-Zip基因的RSCU進行聚類分析。
32個大麥HD-Zip家族蛋白共含14 942個密碼子(包括終止密碼子),其中RSCU>1的密碼子有10 675個,沒有以A或U結(jié)尾的密碼子,以C結(jié)尾的密碼子有5 943個,以G結(jié)尾的密碼子有4 732個,分別占RSCU>1的密碼子總數(shù)的55.67%、44.33%。這表明以C或G結(jié)尾的密碼子是大麥HD-Zip基因家族的偏好性密碼子,其中CUG密碼子的RSCU值為2.59,使用頻率最高 (表1)。
表1 大麥HD-Zip基因家族各氨基酸相對同義密碼子使用度
根據(jù)△RSCU>0.08的范圍確定了大麥HD-Zip家族基因高表達優(yōu)化密碼子為33個,其中只有1個以C結(jié)尾,2個以G結(jié)尾,其余均以A或U結(jié)尾。從33個高表達優(yōu)化密碼子中挑選出與高頻密碼子共有的密碼子作為最優(yōu)密碼子,發(fā)現(xiàn)大麥HD-Zip轉(zhuǎn)錄因子家族基因有2個最優(yōu)密碼子,分別為AUC和AGG。
大麥HD-Zip家族基因經(jīng)CHIPS程序和CodonW軟件分析得CAI、CBI和FOP平均值分別為0.253、0.170、0.519(表2)。ENC平均值為40.19,最小值為28.05(HvHD-ZipI7),最大值為57.17(HvHD-ZipⅢ1),32個HvHD-Zip基因中有20個基因(62.5%)的ENC值小于35。GC1、GC2、GC3和GC平均含量分別為 64.37%、48.35%、82.36%和65.03%,GC3值分布在 0.48~0.98之間,分布較分散。說明大麥HD-Zip家族基因密碼子使用偏好性較弱,在進化過程中主要受突變壓力的影響。
表2 大麥HD-Zip基因家族密碼子偏好性
由表3可知,GC3與GC1、ENC與GC1和GC3、GC與GC1、GC3和ENC的相關(guān)性均達極顯著水平(P<0.01);其余指標(biāo)間的相關(guān)性均達顯著水平(P<0.05),其中,ENC與其他指標(biāo)均呈顯著或極顯著負相關(guān)性。
表3 各參數(shù)相關(guān)性
大麥HD-Zip基因家族中性繪圖(圖1A)顯示,橫坐標(biāo)GC3值分布在0.48~0.98之間,縱坐標(biāo)GC12值分布在0.48~0.64之間, GC12與GC3相關(guān)性達到顯著水平(P<0.05),說明大麥HD-Zip家族基因密碼子偏好性主要受突變壓力的影響。ENC與GC3關(guān)聯(lián)分析(ENC-plot)如圖1B所示,有24個HvHD-Zip基因(75%)的GC3值分布在0.79~0.95之間,相應(yīng)的ENC值分布范圍較廣。
圖1 大麥HD-Zip家族基因GC12與GC3、ENC與GC3的相關(guān)性
各點均分布于標(biāo)準(zhǔn)曲線下方,為了更直觀的顯示預(yù)期ENC與實際ENC值的偏離程度,參考楊國鋒等[27]的方法計算了ENC比值頻數(shù)。由比值頻數(shù)分布(表4)可以看出,大多數(shù)ENC比值頻數(shù)處于0.03~0.11間,說明實際ENC值與預(yù)期ENC值較相近,大多數(shù)HvHD-Zip基因在進化過程中受到較強的突變壓力影響,同時也可能受到其他因素尤其是選擇壓力的影響。
表4 ENC比值頻數(shù)分布
經(jīng)過前期研究發(fā)現(xiàn),大麥HD-Zip IV 5基因在大麥HD-Zip家族中具有代表性,因其密碼子偏好性參數(shù)均接近于大麥HD-Zip家族偏好性參數(shù)均值,所以選擇HD-ZipIV5對9個物種進行基于所編碼蛋白序列的系統(tǒng)發(fā)育分析及基于RSCU值的聚類分析?;诘鞍仔蛄羞M行的系統(tǒng)發(fā)育分析結(jié)果(圖2B)顯示,9個物種聚類成兩大分支,其中大麥與山羊草親緣關(guān)系最近,并與小麥一起單獨形成一支。另一個分支則聚集了擬南芥、大豆、煙草、番茄等4個雙子葉植物及親緣關(guān)系較遠的玉米、水稻等2個單子葉植物?;赗SCU值的聚類結(jié)果(圖2A)顯示,大麥與玉米單獨歸為一類,大豆、山羊草、小麥、水稻同類,煙草、番茄、擬南芥聚為一類。這表明基于同義密碼子相對使用度的HD-Zip基因聚類與物種進化沒有必然關(guān)系。
圖2 不同物種HD-Zip基因聚類分析
密碼子使用頻率是各密碼子占編碼該氨基酸的密碼子的比例,是衡量物種間密碼子使用偏性差異的重要指標(biāo)。兩個物種間密碼子使用頻率比值在0.5~2.0之間,則表示兩個物種的密碼子偏好性接近;比值≤0.5或比值≥2.0,表示兩個物種間密碼子偏性差異較大[30]。由表5可知,HvHD-Zip IV 5與大腸桿菌、酵母菌的基因組密碼子使用頻率比值具明顯差異的分別有30和43個,表明大腸桿菌真核異源表達系統(tǒng)較酵母菌原核表達系統(tǒng)更適合HvHD-Zip IV 5異源表達。HvHD-Zip IV 5與遺傳轉(zhuǎn)化模式植物擬南芥、水稻和煙草基因組密碼子使用頻率比值具有明顯差異的密碼子分別有41、23、44個,說明水稻是HvHD-Zip IV 5遺傳轉(zhuǎn)化的最適異源 受體。
表5 大麥HD-Zip IV 5與不同物種間基因組密碼子使用頻率比較
在物種適應(yīng)性進化過程中,密碼子形成了一定的偏好使用模式且這種偏好性具有物種和基因差異。已有研究表明,密碼子偏性現(xiàn)象以非隨機的方式廣泛存在于生物體中,這種現(xiàn)象反映了細胞在適應(yīng)環(huán)境期間的進化事件[31]。密碼子偏性分析是分子進化及基因功能研究的重要補充。本研究通過密碼子偏性特征分析發(fā)現(xiàn),大麥HD-Zip家族基因偏愛以C或G結(jié)尾的密碼子,使用頻率最高的是CUG,這一結(jié)果再次證明單子葉植物偏愛使用G或C結(jié)尾的密碼子[12]。通常被偏好使用的特定的一種或幾種同義密碼子稱為最優(yōu)密碼子[23]。本研究中使用高表達優(yōu)化密碼子和高頻密碼子共有密碼子的挑選方法確定了2個大麥HD-Zip家族基因最優(yōu)密碼子,分別是AUC和AGG。進一步分析得到大麥HD-Zip家族基因CAI、CBI和FOP平均值分別為0.253、0.170、 0.519,GC3值分布在0.48~0.98范圍內(nèi),ENC平均值為40.19,有20個基因(62.5%)的ENC值小于35,表明大麥HD-Zip家族基因密碼子使用偏好性較弱,在香蕉Aux/IAA家族研究中也有類似結(jié)果[32]。中性繪圖分析發(fā)現(xiàn),GC12與GC3的相關(guān)性較強,ENC-plot繪圖分析顯示,ENC值散點均分布于標(biāo)準(zhǔn)曲線下方,且實際ENC值與預(yù)期ENC值較相近,這都表明大麥HD-Zip家族基因密碼子偏好性形成主要受到突變壓力影響。這與蒺藜苜蓿WRKY轉(zhuǎn)錄因子基因(MtWRKY)密碼子偏好性受突變壓力影響一致[33]。當(dāng)然,不同物種密碼子偏好性影響因素并不一致,例如在谷子類甜蛋白基因家族密碼子偏性主要受到自然選擇壓力影響[34]。
大麥HD-Zip基因家族共有32個成員,根據(jù)序列結(jié)構(gòu)特征可分為4個亞家族,其中HvHD-Zip IV 5基因?qū)儆诖篼淗D-Zip IV亞家族[35],通過密碼子偏好性分析發(fā)現(xiàn),HvHD-Zip IV 5基因各項參數(shù)均接近大麥HD-Zip家族各參數(shù)均值,因此在后續(xù)分析中選擇了具有代表性的HvHD-Zip IV 5基因。對包括HvHD-Zip IV 5在內(nèi)的9個不同物種來源的HD-Zip聚類分析表明,基于同義密碼子相對使用度的HD-Zip基因聚類關(guān)系與物種親緣關(guān)系無必然聯(lián)系。晁岳恩等[36]對11種植物psbA基因進行密碼子偏好性分析,發(fā)現(xiàn)基于RSCU的聚類并不能反映出植物之間的親緣關(guān)系,這與本研究結(jié)果相似;也有研究認為,基于密碼子偏好性分類能反映出基因進化規(guī)律,如龍眼生長素受體基因TIR1[37]和小麥CBL4基因[38]。造成不同結(jié)果的原因可能是密碼子偏好性具有物種和基因間的差異。
大麥HvHD-Zip IV 5基因與大腸桿菌及酵母菌基因組密碼子使用頻率比較分析發(fā)現(xiàn),大腸桿菌更適合作為HvHD-Zip IV 5異源表達受體,這與小麥抗逆轉(zhuǎn)錄因子DREB最優(yōu)受體系統(tǒng)分析結(jié)果不同[39]。HvHD-Zip IV 5與遺傳轉(zhuǎn)化模式植物擬南芥、水稻和煙草基因組密碼子使用頻率比較分析發(fā)現(xiàn),HvHD-Zip IV 5與水稻基因組密碼子使用頻率差異較小,表明水稻是該基因的最適異源受體。但密碼子使用頻率差異的存在表明,想要以高效率進行異源表達,還需要對HvHD-Zip IV 5基因密碼子進行改造和優(yōu)化。
本研究利用生物信息學(xué)分析方法,首次分析了大麥HD-Zip轉(zhuǎn)錄因子家族基因密碼子偏好性特征,并找到了該家族代表基因HvHD-Zip IV 5較合適的異源表達受體,為后續(xù)大麥HD-Zip轉(zhuǎn)錄因子家族的分子進化和功能研究奠定基礎(chǔ)。