梁 璇,李 鵬,許冬梅,賈小云,王文斌
(山西農業(yè)大學生命科學學院,山西太谷 030801)
紫蘇(Perilla frutescens(L.)Britton)又名赤蘇、紅紫蘇、香蘇,是唇形科紫蘇屬下的唯一種,一年生草本植物,是我國傳統(tǒng)的藥食兩用植物,具有超過2 000 a 的栽培歷史。紫蘇的莖、葉和種子均可入藥,其葉又稱蘇葉,具有解表散寒、行氣和胃功效;其果實紫蘇子具有降氣消痰、平喘、潤腸功效;紫蘇梗有理氣寬中、止痛、安胎功效。
葉綠體是植物體內重要的細胞器,不僅通過光合作用為植物的生長發(fā)育提供必要能量,還擁有半自主性遺傳的基因組,可進行半保留復制。同核基因組相比,葉綠體基因組長度較短,易于提取純化,且序列高度保守,SSR 位點豐富,在揭示物種起源、進化演化及確定不同物種之間的親緣關系等方面具有重要的參考價值[1]。因此,對紫蘇葉綠體基因組的特征分析是后續(xù)系統(tǒng)發(fā)育研究和基因工程研究的前提。近年來,關于不同物種葉綠體基因組的研究日益增多,已有1 000 多種葉綠體基因組序列被公布,如蒙古韭[2]、黃芩[3]、紫花苜蓿[4]、竹子[5]等。這些研究均對不同物種的葉綠體基因組進行了SSR 分布規(guī)律、密碼子使用頻率、密碼子偏好性及RNA 編輯位點等多方面的分析,但是目前為止關于紫蘇葉綠體基因組的研究分析還鮮有報道。
有研究發(fā)現,被子植物葉綠體基因組DNA(Chloroplast DNA,cpDNA)多為閉合的雙鏈環(huán)狀四分體結構,包括一個大單拷貝區(qū)(Large Single Copy,LSC)和一個小單拷貝區(qū)(Small Single Copy,SSC)以及2 個序列相同但方向相反的反向重復區(qū)(Inverted Repeat,IRA 和IRB),且IR 和單拷貝區(qū)交替排列[3]。不同植物葉綠體基因組大小差異主要表現在IRA和IRB 區(qū)的長度和方向變化上[6]。真核生物中重復序列廣泛分布但原核生物中卻鮮有出現,這是進化的必然結果,重復序列能夠起到保護編碼序列、產生進化的動力并形成新基因等作用[7]。重復序列是指在基因組中不同位置出現的相同或對稱性片段,基因重復類型有4 種,即F 型(正向重復)、C 型(完全重復)、P 型(回文重復)和R 型(反向重復)。
微衛(wèi)星序列,又稱簡單重復序列(Simple Sequence Repeat,SSR),隨機均勻分布于基因組的各個區(qū)域,由于其高度多態(tài)性和共顯性,被廣泛應用于生物學的多個領域[8-9]。葉綠體SSR 標記技術作為一種新型高效的分子標記技術,不僅具有葉綠體DNA 母系遺傳幾乎不發(fā)生重組的優(yōu)點,而且還具有SSR 的高突變性,是目前發(fā)展前景良好且廣受歡迎的標記技術。密碼子偏好性(Codon bias)具有種族特異性,能夠降低外源基因導入宿主細胞后的表達,提高目的基因在葉綠體中的表達量,使外源基因更加高效穩(wěn)定地表達[10]。RNA 編輯是發(fā)生在大多數有機生物體的線粒體、葉綠體和細胞核的一種轉錄水平調控,是在DNA 轉錄為RNA 的過程中核苷酸發(fā)生改變,進而改變mRNA 上所攜帶的遺傳信息,從而改變翻譯后氨基酸的序列,最終影響蛋白質功能變化的過程。葉綠體RNA 編輯在高等植物中廣泛存在,不僅能提高轉錄的穩(wěn)定性,而且參與葉綠體基因的表達調控,使一個基因序列產生不同的蛋白產物,是擴展其原有遺傳信息的一種重要方式[11]。
本研究分析了紫蘇葉綠體基因組的重復序列、SSR、密碼子偏好性,并對其RNA 編輯位點進行了預測,旨在為紫蘇的種質資源鑒定、遺傳育種和品種改良提供重要的理論依據[12],為紫蘇葉綠體RNA編輯的生物學功能和作用機制研究奠定基礎。
紫蘇葉綠體全基因組序列下載于NCBI 數據庫(GenBank 號為KT220691.1),序列全長152 656 bp,注釋信息顯示其包含88 個蛋白編碼基因,從中篩選出編碼區(qū)序列長度大于300 bp 的CDS 序列以減小誤差[13],最終獲得符合條件的59 條CDS 序列。
紫蘇葉綠體重復序列和SSR 分析及相關參數設置參照文獻[14]的方法進行。
使用CodonW1.4.2 程序對紫蘇葉綠體基因組中59 條CDS 序列的氨基酸使用頻率、有效密碼子數(Effective Number of Codon,ENC)以及密碼子相對使用頻率(RelativeSynonymousCodonUsage,RSCU)進行統(tǒng)計及偏好性分析。
使用Prep-Cp(http://prep.unl.edu/)對紫蘇葉綠體基因組序列進行RNA 編輯位點的預測,設置參數閾值(Cutoff value)為0.8,以保證其預測的準確性。
表1 紫蘇葉綠體基因組的重復序列
續(xù)表1
使用REPuter 程序,在紫蘇葉綠體基因組中檢測到3 種類型的重復序列共60 個,主要為F(正向重復)和P(回文重復),分別占比50.0%和48.33%,而R(反向重復)占比僅為1.67%(表1)。
由圖1 可知,重復序列在LSC 區(qū)和IRA 區(qū)分布最多,各25 個,占比均為41.67%;在IRB 區(qū)分布較少,為8 個,占比為13.33%;在SSC 區(qū)分布最少,為2 個,占比為3.33%。正向重復在LSC、IRA 和IRB 區(qū)分別有13、9、8 個,在SSC 區(qū)無分布;回文重復在LSC區(qū)、IRA 區(qū)和SSC 區(qū)分別有11、16、2 個,在IRB 區(qū)無分布;反向重復僅有1 個,分布于LSC 區(qū)。由此可見,重復序列在4 個區(qū)域均有分布但分布極不均衡。
使用MISA 軟件,共檢測到44 個SSR 位點,由A/T 組成的SSR 占總數的75%;單堿基重復序列28個,占比最多(63.64%),其中,26 個單堿基重復均由A 或T 組成(表2),表明SSRs 的堿基組成偏向使用A/T 堿基。
表2 紫蘇葉綠體基因組中的SSR
由表3 可知,28 個單堿基重復中,14 個位于IGS 區(qū),13 個位于CDS 區(qū),1 個位于CDS-IGS 區(qū);3 個2 堿基重復、1 個3 堿基重復、1 個6 堿基重復均分布于CDS 區(qū);6 個4 堿基重復均勻分布于IGS區(qū)和CDS 區(qū);5 個復合SSR 則均分布于IGS 區(qū),表明SSR 位點以單堿基重復為主??傮w來看,44 個SSR 位點中22 個位于IGS 區(qū),21 個位于CDS 區(qū),只有一個單堿基重復的SSR 位點位于CDS-IGS區(qū),表明SSR 分布集中在IGS 區(qū)和CDS 區(qū)。
表3 紫蘇葉綠體基因組中SSR 分布
對紫蘇葉綠體基因組中各氨基酸的RSCU 分析結果顯示(表4),高頻密碼子(RSCU>1)共有31個,其中,16 個以U 結尾,13 個以A 結尾,以G和C 結尾的密碼子各1 個,說明紫蘇葉綠體基因組密碼子偏好以A 和U 結尾。編碼亮氨酸(L)的密碼子使用頻率最高,為10.68%;異亮氨酸(I)次之,為8.46%;而編碼半胱氨酸(C)的密碼子使用頻率最低,為1.15%。
表4 紫蘇同義密碼子使用情況
由表5 可知,紫蘇葉綠體59 條CDS 序列的ENC 取值在37.77~59.70,均值為49.97。取44 作為本研究中判定偏好性強弱的值[14],紫蘇ENC>44的有48 個,表明其密碼子偏好性較弱。
表5 紫蘇蛋白編碼基因密碼子ENC 值比較
表6 紫蘇葉綠體基因組RNA 編輯位點預測
使用Prep-cp 軟件對紫蘇葉綠體基因組的88 個蛋白編碼基因進行分析,共預測到37 個RNA 編輯位點,分布于16 個基因上(表6),且均為特定的堿基C 脫氨基變成U。密碼子第1 位堿基上的RNA編輯位點有8 個,第2 位堿基上有29 個,而第3 位堿基上沒有發(fā)現RNA 編輯位點。RNA 編輯位點最多的是ndhB,有9 個;rpoB 次之,有6 個。此外,這些編輯位點中共有10 種氨基酸轉變類型,其中,S→L(15 個)、P→L(4 個)、S→F(4 個)、H→Y(3 個)、R→W(2 個)、U→L(1 個)是親水性氨基酸變成疏水性氨基酸,有29 個,占比約78.38%;由疏水性變成親水性的氨基酸是L→F(2 個),占比約5.41%;其他氨基酸轉變類型有A→V(3 個)、U→M(2 個)、R→C(1 個)。所以,蛋白質一級結構大部分是由親水性轉變?yōu)槭杷裕@將增加蛋白質的疏水性。
目前,有關植物葉綠體基因組的研究受到了廣大科研工作者的密切關注。重復序列對基因的轉錄調控、蛋白翻譯、染色體的形成和代謝調節(jié)等方面均有影響,重復序列對物種的進化、物種內基因的遺傳和變異有著深遠的影響?;蚪M中的重復序列大多分布于非編碼區(qū),這是由于在物種進化過程中,生物體僅保留盡可能少的遺傳信息以提高其遺傳效率。葉綠體中光系統(tǒng)Ⅰ(psa)和光系統(tǒng)Ⅱ(psb)等與光合作用有關的基因多數分布于SSC 和LSC區(qū),編碼rRNA 的基因(rps)多數分布于IRA 和IRB區(qū)[15],因此,位于LSC 區(qū)和IRA 區(qū)的50 個重復序列可能與紫蘇葉綠體的光合作用和rRNA 的編碼有關。
紫蘇葉綠體44 個SSR 位點中由A/T 組成的占75%,這與玄參葉綠體基因組的研究中,44 個SSR位點中僅有一個含G/C 的結果不相符,推測可能是由于物種差異所導致的[16]。由于A-T 鍵比G-C 鍵少一個氫鍵,導致A-T 鍵較G-C 鍵更容易斷裂,因此,葉綠體基因組SSR 中A-T 鍵出現的概率更大[16]。紫蘇葉綠體SSR 主要分布于IGS 區(qū)和CDS 區(qū),這與煙草葉綠體基因組的研究中,SSR 幾乎全部位于非翻譯區(qū)(UTR),而內含子和外顯子區(qū)域幾乎沒有分布的結果相一致[1]。這一結果也和生物自身的進化過程一致,即在物種的進化過程中,核酸所處位置的不同會使其承受的選擇壓力有很大差異,SSR的分布也會受到影響,進而導致外顯子區(qū)域出現SSR 的概率減小,而在UTR 及內含子區(qū)域出現SSR的概率增加。
密碼子偏好性指同義密碼子的非均衡使用。密碼子偏好性的研究不但可以詮釋物種進化問題,而且可以用于優(yōu)化外源基因的表達、預測基因功能及基因表達水平等。RSCU 指某一同義密碼子使用次數的觀察值與該密碼子出現次數期望值的比例,當RSCU>1 時為高頻密碼子[17]。通過紫蘇葉綠體基因組密碼子的RSCU 值以及第3 位密碼子上A/U/C/G這4 種堿基使用頻率的分析得到31 個高頻密碼子,且以A/U 結尾的共有29 個。這與苦蕎[18]、蒺藜苜蓿[19]、蝴蝶蘭[20]以及圓錐南芥[21]等雙子葉植物中葉綠體最優(yōu)密碼子偏好以A/U 結尾的結果相一致[22]。ENC 能夠反映基因有效使用密碼子種類的數目和基因密碼子使用的偏好性程度。生物體的ENC 值范圍在20.0~61.0,該值越靠近20 表明其偏好性越強[23]。紫蘇葉綠體基因組CDS 序列的ENC 平均值為49.97,本研究以44 為區(qū)分標準,說明其密碼子偏好性較弱。
RNA 編輯是指DNA 轉錄成mRNA 的過程中發(fā)生核苷酸的替換或改變閱讀框,從而增加了基因產物的多樣性而獲得新的結構和功能,有利于提高蛋白質的穩(wěn)定性[24]。本研究發(fā)現,發(fā)生在紫蘇密碼子第1 位和第2 位堿基的RNA 編輯個數分別為8、29 個,這與前人對連翹[14]、青稞[25]、大麥[26]等的研究結果一致;而且大部分由親水性氨基酸轉變?yōu)槭杷园被?,具有高等植物葉綠體基因組RNA 編輯的典型特性[27]。很多研究發(fā)現,這一特性可能與蛋白質中包含大量疏水性殘基相關,發(fā)生在蛋白質內核中的疏水性突變較親水性突變形成的結構更穩(wěn)定,最終可能影響蛋白質的二級結構與功能,還可以擴展其遺傳信息[14]。
本研究通過對紫蘇葉綠體基因組59 條CDS序列(≥300 bp)的重復序列、SSR、密碼子偏好性進行分析,得到60 個重復序列,多以F 和P 為主,主要分布于LSC 區(qū)和IRA 區(qū),可能參與光合作用與rRNA 的編碼;44 個SSR 位點以單堿基重復為主,主要由A 或T 組成,位點多態(tài)性是區(qū)分物種差異的基礎;31 個高頻密碼子偏好大多以A 和U 結尾。對88 個蛋白編碼基因進行RNA 編輯位點預測可知,RNA 編輯位點發(fā)生在前2 位,均為C→U,使親水性氨基酸變?yōu)槭杷园被?。本研究結果對紫蘇的系統(tǒng)進化、遺傳育種和生物工程育種工作具有重要意義。