周佩娜,黨靜潔,邵永芳,石遵睿,張 琳,劉潺潺,吳啟南,3
(1.南京中醫(yī)藥大學 藥學院,江蘇 南京 210023;2.南京中醫(yī)藥大學 江蘇省中藥資源產業(yè)化過程協同創(chuàng)新中心,江蘇 南京 210023;3.南京中醫(yī)藥大學 中藥資源產業(yè)化與方劑創(chuàng)新藥物國家地方聯合工程研究中心,江蘇 南京 210023)
中藥荊芥是唇形科Labiatae植物荊芥Schizonepeta tenuifolia干燥后的地上部分,有解表祛風、透疹止血等功效[1]。荊芥的揮發(fā)油、黃酮等活性成分被廣泛用于醫(yī)藥、食品和化工等領域[2?3]。
HD-Zip (Homeodomain-leucine zipper protein)基因家族是植物界一類特有的轉錄因子,在植物的生長發(fā)育、適應環(huán)境及脅迫應答等方面起到重要作用。HD (Homeodomain)蛋白是由Homeobox(HB)基因編碼的高度保守的蛋白質結構域,由60個氨基酸組成。該蛋白中存在1個特征性的三螺旋結構,可以特異結合DNA序列,以此對基因進行調控[4?5]。此外,HD-Zip基因家族還有1個亮氨酸拉鏈保守結構域(leucine zipper-loop-zipper,LZ),這是蛋白形成二聚體所必需的結構。根據蛋白的序列保守性、蛋白功能、基因結構等,將該家族分為4個亞家族:HD-Zip Ⅰ ~Ⅳ[6]。Ⅰ亞家族主要參與非生物脅迫及環(huán)境適應性;Ⅱ亞家族主要與生長素響應相關;Ⅲ亞家族主要參與不同的發(fā)育事件,例如頂端分生組織、維管束的發(fā)育,還與植物激素調控相關;Ⅳ亞家族主要在植物的表皮中特異性表達,主要調節(jié)表皮的分化、毛狀體形成等[7]。
目前,HD-Zip基因家族在多種植物中被鑒定并表征,例如擬南芥Arabidopsis thaliana[8]、水稻Oryza sativa[9]、小麥Triticum aestivum[10]等,但尚未有荊芥HD-Zip基因家族的相關研究。本研究以荊芥的基因組作為基礎,利用生物信息學方法系統鑒定荊芥HD-Zip基因家族成員,并對其蛋白質理化性質、染色體定位、基因結構、共線性分析以及不同時期的表達規(guī)律進行分析,為今后深入研究荊芥基因家族的功能和調控機制奠定基礎。
基于已知的HD-Zip基因家族的保守結構域,在荊芥基因組數據中進行初步篩選,利用TBtools(v1.98741)的“Blast Compare Two Seqs”,下載的蛋白序列為 Query Seq,荊芥基因組的蛋白序列為Subject Seq,設置E-value為10?10進行比對[11]。根據HD-Zip基因家族在美國國家生物技術信息中心(NCBI)中的比對結果,得到目的基因編碼蛋白的保守結構域,使用“Visualize NCBI CDD Domain Pattern”進行保守結構域的可視化。利用在線網站ExPASy (https://www.expasy.org/)對蛋白序列的基本理化性質,如氨基酸數目、等電點和分子質量等進行預測。
在NCBI在線網站上下載已被表征的HD-Zip基因家族的蛋白序列。將經過篩選的荊芥HD-Zip蛋白序列與下載的蛋白序列利用MEGA X進行最大似然 (ML)進化樹的構建。選擇最優(yōu)氨基酸替代模型,根據氨基酸模型結果構建ML樹,設置bootstrap為1 000,partial deletion為80%。利用在線網站iTOL(https://itol.embl.de/#)對進化樹進行美化。
在荊芥基因組中搜索HD-Zip基因在染色體上的具體位置和每條染色體的總長度,利用TBtools中的“Visualize Gene Structure (Basic)”功能,對篩選的基因ID進行基因結構的可視化。利用在線網站MEME (https://meme-suite.org/meme/tools/meme)對篩選的荊芥HD-Zip基因編碼的蛋白序列進行蛋白保守基序預測,設置基序數量為 10 個,選擇“Zero or One Occurence Per Sequence (zoops)”分布基序。采用TBtools中的“Visualize MEME/MSAT Motif Pattern”進行保守基序的可視化處理。
利用TBtools的“Gene Location Visualize from GTF/GFF”進行基因在染色體分布的可視化。將篩選的基因序列利用 TBtools中的“Gene Location Visualize fron GTF/GFF”功能進行染色體定位分析;提取荊芥 HD-Zip基因序列的啟動子部分 (5′UTR上游 2 000 bp),利用 PlantCARE在線網站 (http://bioin formatics.psb.ugent.be/webtools/plantcare/html/)預測順式元件并整理結果,再利用TBtools中的“Gene Structure View (Advanced)”對其進行可視化處理。使用MCScanX軟件進行基因組內荊芥HD-Zip基因的共線性分析以及與擬南芥基因組間的共線性分析,并利用Circos軟件繪制基因組內和基因組之間的共線性圖譜。
根據HD-Zip基因ID于不同時期荊芥葉片(10、20、35 d)及根(35 d)的轉錄組數據中進行搜索,得到基因的 FPKM (fragments per kilobase per million)值,利用 TBtools的“HeatMap”繪制基因表達熱圖,探究HD-Zip基因家族的表達模式。
荊芥基因組大小為798 Mb,Q20(堿基被測錯的概率為1%)為94.67%,Q30(堿基被測錯的概率為1‰)為89.41%,說明測序質量較好(Q20≥93%、Q30≥86%),GC含量為39.34%,經過Hi-C組裝后,共有696 Mb的基因組序列被定位到6條染色體上(Chr 01~06),占比91.38%。以上數據說明荊芥的基因組質量較好,有助于完整地挖掘HD-Zip基因家族。為了鑒定荊芥中HD-Zip基因,根據4個亞家族HDZip Ⅰ、Ⅱ、Ⅲ、Ⅳ的蛋白保守結構域進行篩選,共篩選到42條可能的HD-Zip基因家族序列,其中HD-Zip Ⅰ亞家族16條,HD-Zip Ⅱ亞家族7條,HD-Zip Ⅲ亞家族5條,HD-Zip Ⅳ亞家族14條,并通過在線網站Expasy網站進行蛋白分子量和等電點的預測(表1)。其中40條基因全部定位到對應染色體(Chr 01~06),Sch000029960和Sch000004651未錨定在染色體上(圖1)。荊芥HD-Zip基因僅在2~4號染色體上集中分布,說明該基因家族在染色體上分布不均勻。荊芥HD-Zip的基因長度為528~2 586 bp;分子量為20.33~94.18 kDa;等電點為4.59~9.05。因此,HD-Zip的基因和蛋白長度跨度較大,HD-Zip Ⅲ和Ⅳ的基因長度約2 000 bp,HD-Zip Ⅰ和Ⅱ在1 000 bp以下,該結果與分子量具有相關性,而等電點主要取決于氨基酸中酸性氨基酸和堿性氨基酸的數量比,大多數蛋白(76.2%)等電點小于7.0,證明荊芥HDZip可能是一類酸性蛋白。
圖1 荊芥 HD-Zip 基因家族的染色體定位Figure 1 Chromosome mapping of HD-Zip gene family in S.tenuifolia
表1 荊芥 HD-Zip 基因家族的蛋白特征Table 1 Protein characteristics of HD-Zip gene family in S.tenuifolia
將以上42條蛋白序列與已知的HD-Zip蛋白序列進行ML樹的構建(圖2),可知:荊芥的HD-Zip和擬南芥及其他物種HD-Zip的蛋白序列被聚為四大支,與已表征HD-Zip基因家族的4個亞家族分類一致,且在荊芥基因組中,每個亞家族基因的占比與擬南芥的HD-Zip Ⅰ ~Ⅳ之間的比例相似,其中HD-ZipⅠ與Ⅳ占比最大,HD-Zip Ⅲ占比最少。從進化樹中可以發(fā)現:HD-Zip Ⅲ先與Ⅳ聚為一支,再與HD-ZipⅠ和Ⅱ聚為一支,說明HD-Zip Ⅲ可能與Ⅳ的親緣關系更近。
圖2 荊芥與擬南芥及其他物種HD-Zip基因家族的最大似然值進化樹Figure 2 ML evolutionary tree of HD-Zip gene family between S.tenuifolia and A.thaliana and other species
利用TBtools軟件繪制荊芥HD-Zip基因結構圖,分析基因內含子和外顯子的分布情況。圖3顯示:HD-Zip Ⅰ與Ⅱ的基因長度較為相近,內含子1~3個(實線),外顯子2~4個(黃色標識),基因結構比較簡單。HD-Zip Ⅲ與Ⅳ基因長度較為接近,內含子8~17個,外顯子9~17,其中HD-Zip Ⅲ的內含子和外顯子的數量最多。以上基因結構和長度結果與ML進化樹聚類結果較為一致。
圖3 荊芥 HD-Zip 基因家族的基因結構分析Figure 3 Gene structure analysis of HD-Zip gene family in S.tenuifolia
利用在線網站MEME對42條HD-Zip基因家族的蛋白序列進行保守基序(Motif)的檢索,一共確認了10個不同的基序(圖4)。其中,所有蛋白均存在Motif 1~3,這3個保守基序構成了HD-Zip基因家族特征的保守基序HD、LZ。HD-Zip Ⅲ和Ⅳ的Motif 4、Motif 5構成HD-Zip Ⅲ和Ⅳ特有的START保守結構域。從Motif結構分布上看到,HD-ZipⅢ和Ⅳ的Motif最為豐富,可能具有多樣的生物學功能,每個亞家族之間的Motif分布較為一致。
圖4 荊芥 HD-Zip 基因家族的保守基序分析Figure 4 Conservative motif analysis of HD-Zip gene family in S.tenuifolia
提取荊芥HD-Zip的5′UTR上游的2 kb序列為啟動子序列,利用在線網站PlantCARE進行順式元件的預測,其中光響應的順式元件出現頻率最高,其次為脫落酸響應元件,MeJA響應元件,厭氧感應元件以及MYB結合的位點(圖5)。說明該基因家族可能與以上的生物學功能相關。
圖5 荊芥 HD-Zip 基因家族的順式作用元件分布Figure 5 Distribution of cis-acting elements of HD-Zip gene family in S.tenuifolia
對荊芥的42個HD-Zip家族基因進行基因組內串聯重復分析,發(fā)現Sch000008983和Sch000006831在Chr 02上串聯重復,Sch000012213與Sch000012322在Chr 03上串聯重復(圖6);經過基因組內的共線性分析發(fā)現,荊芥的9個HD-Zip家族基因在基因組內存在共線性,說明成對的共線性基因可能具有極為相似的功能(圖7)。通過荊芥與擬南芥的基因組之間的共線性分析發(fā)現:一共有37對共線性的HDZip基因(圖8)。綜上,通過與擬南芥HD-Zip基因構建進化樹分析及共線性分析,有助于利用擬南芥的基因功能推斷荊芥HD-Zip中相應基因的功能。
圖6 荊芥 HD-Zip 基因家族的組內串聯重復分析Figure 6 Tandem repeat analysis of HD-Zip gene family in genome of S.tenuifolia
圖7 荊芥 HD-Zip 基因家族的組內共線性分析Figure 7 Intra-group collinearity analysis of HD-Zip gene family in S.tenuifolia
圖8 荊芥 HD-Zip 與擬南芥基因組之間的共線性分析Figure 8 Collinear analysis of HD-Zip gene between S.tenuifolia and A.thaliana genomes
根據課題組前期觀察,10 d幼苗的葉子和莖具有豐富的指狀腺毛,20 d幼苗的葉子和莖具有較多的頭狀腺毛和腺鱗,35 d幼苗的葉子和莖具有豐富的腺鱗。因此,對荊芥不同生長時期葉片(10、20、35 d)及根(35 d)進行轉錄組分析,發(fā)現HD-Zip Ⅰ主要在幼葉10 d中表達,HD-ZipⅡ和Ⅲ主要在根中表達,HD-Zip Ⅳ亞家族主要在葉中表達(圖9)。研究發(fā)現:HD-Zip Ⅳ基因主要調節(jié)表皮的分化[12],結合荊芥腺毛的分布情況,推測荊芥的HD-Zip Ⅳ與荊芥腺毛和非腺毛的形成與分化相關。
圖9 HD-Zip 家族基因表達模式Figure 9 HD-Zip family gene expression pattern
本研究從全基因組水平對荊芥的HD-Zip基因家族進行了系統的研究,共鑒定到42個HD-Zip家族的基因,根據識別的DNA序列、結構域、蛋白功能,可將這些序列分為4個亞家族,分別為HD-ZipⅠ ~Ⅳ,這與擬南芥、小麥、水稻、玉米Zea mays、土豆Solanum tuberosum、煙草Nicotiana tabacum等中的分類一致[7?9, 13?15]。HD-Zip Ⅰ只含有高保守的HD結構域和位于HD結構域羧基端的LZ結構域;HDZip Ⅱ除了HD-Zip Ⅰ具有的HD和LZ保守結構域外,還存在1個高度保守的N-末端;HD-Zip Ⅲ具有HD和LZ保守結構域,以及類固醇合成急性調節(jié)蛋白相關的脂質轉運結構域(START)和氨基酸序列羧基端的MEKHLA基序,其中START結構域的長度為220個氨基酸且可以結合并轉移脂質,MEKHLA基序與許多非生物脅迫應答相關[16?17];HD-Zip Ⅳ結構與HD-Zip Ⅲ非常相似,具有HD、LZ、START結構域,但缺失了MEKHLA基序[18]。荊芥的HD-Zip Ⅰ和Ⅳ亞家族的基因所占比例最高,這與擬南芥HD-ZipⅠ和Ⅳ的比例相似?;虻倪M化樹結果顯示:HD-Zip Ⅰ與Ⅱ親緣關系更近,HD-Zip Ⅲ與Ⅳ親緣關系更近,由此可以推測以上2個分支可能是由相同的祖先進化而來,或者Ⅳ是由Ⅲ進化來,但在分化過程中丟失了MEKHLA基序[19]。結合基因的結構來看,HD-Zip Ⅲ和Ⅳ的結構比HD-Zip Ⅰ與Ⅱ的結構更為復雜,以上結果說明可能HD-Zip Ⅲ與Ⅳ相比于HD-ZipⅠ和Ⅱ進化程度更高,基因結構更為復雜,以上結果與保守結構域分析和進化樹的分析結果一致。這說明HD-Zip家族在物種的亞群內部較為保守,但其具體的基因功能可能會由于基因復制或者進化,以及物種間的差異性從而出現一定的差異。
分析啟動子發(fā)現:在每個亞族內部的基因啟動子區(qū)順式作用元件類型基本相同,例如MYB結合位點、脫落酸響應元件以及MeJA響應元件在HD-Zip Ⅳ高頻出現。同時,同一亞族基因編碼蛋白的保守基序也基本相同,HD-Zip Ⅰ ~Ⅳ的表達分析發(fā)現:HD-Zip Ⅰ ~Ⅳ具有不同的表達偏好性,說明荊芥中不同HD-Zip家族不同亞家族可能具有不同的生物學功能,但同一亞族各基因的生物學功能基本相同。
有研究表明:HD-Zip Ⅳ在表皮中特異表達,參與植物表皮細胞的分化,調節(jié)毛狀體(腺毛和非腺毛)等形成與發(fā)育。如煙草中的NtHDG2,擬南芥的PDF2,黃花蒿Artemisia annua的AaHD1和AaHD8,番茄Solanum lycopersicum的SlCD2和SlWo均對毛狀體具有調控作用,屬于HD-Zip Ⅳ[14, 20?22]。本研究中發(fā)現荊芥的HD-Zip Ⅳ亞家族基因大部分在葉片表達,推測可能這些基因與毛狀體的發(fā)育相關。結合擬南芥與荊芥HD-Zip基因家族的共線性分析,可以推測荊芥HD-Zip基因家族的生物學功能。結合文獻,發(fā)現Sch000029960與AT4G21750.1及AT4G04890.2為同源基因,AT4G21750.1及AT4G04890.2分別編碼擬南芥的GL2-like和PDF2,與擬南芥的表皮發(fā)育密切相關。Sch000024046與AT1G79840.2為同源基因,AT1G79840.2編碼GL2,在擬南芥中影響表皮細胞的特性,包括毛狀體、根毛發(fā)育等[23]。在荊芥的葉、莖、花穗等多個部位表面分布著多種腺毛及非腺毛,其中,盾狀腺毛即腺鱗被認為是荊芥產生揮發(fā)油的“品質載體”[24?25],但是調控荊芥腺鱗生長發(fā)育的分子機制還未被報道,本研究中篩選的HDZip Ⅳ亞基因家族可能為腺鱗發(fā)育調控的候選基因。通過對候選基因功能的驗證、共表達分析等為腺鱗生長發(fā)育分子機制的闡明提供線索,同時為提高荊芥藥用品質提供理論基礎。
本研究在荊芥全基因水平上篩選到42條HD-Zip基因序列,并對以上序列的基因結構、保守基序、順式作用元件等進行了分析。系統發(fā)育分析可將42條序列分為4個亞家族(HD-Zip Ⅰ ~Ⅳ)。通過與擬南芥基因組之間的共線性分析、表達模式分析等推測,荊芥的HD-Zip Ⅳ亞家族基因可能在毛狀體發(fā)育過程中起到重要作用。這些結果為后續(xù)荊芥的HD-Zip基因家族的功能研究及表征提供了理論基礎。