韋秀葉,趙信林,郭媛,邱財生,龍松華,王玉富
(中國農業(yè)科學院麻類研究所,湖南長沙410205)
麻類作物作為人類最早栽培的作物之一,是中國重要的經濟作物。麻類作物在紡織、造紙、飼料、油料、食品、藥用等方面均有重要作用和價值[1]。目前我國大面積種植的麻類作物主要包括工業(yè)大麻(Cannabis sativa)、亞麻(Linum usitatissimum)、苧麻(Boehmeria nivea L.)和紅麻(Hibiscus cannabinus),其中苧麻種植面積和產量占世界的95%以上,亞麻占世界種植面積28%以上[2],而纖維用工業(yè)大麻年種植面積約46666 hm2,纖維年產量約占世界的38%,居世界第二,其中黑龍江省種植面積超過了全國種植面積的60%以上[3]。
隨著轉錄組學和測序技術的迅速發(fā)展,轉錄組測序分析可以不依靠參考基因組,直接對轉錄本進行測序分析比較,研究各種基因的差異表達情況,從而發(fā)現并分離出潛在的優(yōu)異基因,為作物育種提供豐富的基因資源。麻類作物作為小作物,科研投入較少,遺傳研究基礎相對薄弱,在分子生物學層面的研究落后于水稻、小麥、玉米和棉花等大作物,但隨著測序技術和生物信息學的快速發(fā)展以及測序成本的降低,轉錄組測序分析在麻類作物遺傳機制方面得到應用,促進了麻類作物分子生物學的發(fā)展。本文總結了轉錄組測序分析在麻類作物上的研究應用及成果,展望了其在麻類作物上的應用前景。
轉錄組在廣義上是指特定細胞或組織在某一發(fā)育階段或功能狀態(tài)下轉錄出來的所有RNA的總和,主要包括mRNA和非編碼RNA(Non-coding RNA,ncRNA),而在狹義上是指所有編碼蛋白質的mRNA的總和[4]。通過轉錄組測序分析可以使人們在缺乏遺傳背景資料的情況下,既能得到樣本中的序列信息,又可以對序列的表達量進行定量分析,進而全面揭示當前各細胞或組織的生命活動狀態(tài)。
高通量測序(High-throughput sequencing)技術是指在一次運行中同時對數十萬到數百萬的DNA序列進行序列測定,且讀長較短的技術,也被稱為“下一代測序技術”,又稱“深度測序”。高通量測序技術主要包括以 Roche 454[5]、Illumina Solexa[6-7]和 ABISOLiD[8]為測序平臺的第二代測序技術及以Pacbio為測序平臺的第三代單分子測序技術[9]。
第二代測序技術實現了測序的高通量和自動化,提高了測序分辨率,加快了轉錄組學研究的發(fā)展,降低了試驗成本,除了能鑒定RNA上發(fā)生的修飾外,如RNA甲基化修飾,還可用于研究RNA與其它分子之間的相互作用[10]。然而二代測序技術普遍讀長較短,需從頭組裝且拼接過程較復雜,易產生大量無法拼接的片段和重疊群,易丟失可變剪切等重要信息[11],所以通常只能對基因的局部結構進行研究。
第三代測序技術是基于Pacbio測序平臺的全長轉錄組測序分析,其最大特點就是單分子實時測序(Single-molecule real-time,SMRT),測序過程無須進行PCR擴增,無須進行打斷,且具有超長讀長(Pacibo SMRT-seq讀段平均讀長超過15 Kb,最長可達300 Kb),可直接獲得包含5-UTR、3-UTR和poly A tail的完整轉錄本,從而準確分析參考基因組物種可變剪切及融合基因等結構信息,克服無參考基因組物種轉錄本拼接較短、信息不完整的難題[12]。同時還可以借助二代測序數據,進行轉錄本特異性表達分析,獲得更加全面的注釋信息。但由于其沒有模板擴增過程,三代單分子測序的光學信號相比于二代測序要弱很多,容易產生非檢測特異性的背景干擾,從而影響堿基判斷的準確度,導致測序讀段的錯誤率相對于二代測序高[10],且測試成本也較高,所以目前仍以二代測序為主。
轉錄組測序分析(RNA-Seq)技術,是指利用高通量測序技術將細胞或組織中全部或部分mRNA、small RNA和no-coding RNA進行測序分析的技術[11]。該技術具有速度快、準確性高、運行成本低、可測定未知基因組序列等特性[13]。已有擬南芥、水稻、小麥、玉米、西紅柿、葡萄等多個物種的全基因組序列通過轉錄組測序分析獲得。其基本分析和操作流程如圖1所示。
1.3.1 mRNA測序分析
植物mRNA測序是基于HiSeq平臺,對真核生物特定組織或細胞在某個時期轉錄的所有mRNA進行測序,既可研究已知基因,也可以發(fā)掘未知基因,全面快速獲得mRNA序列和豐度信息。測序方法可分為有參基因組的轉錄組和無參基因組的轉錄組,有參轉錄組直接與該物種的參考基因組比對,而沒有參考基因組的物種則通過序列拼接組裝進行分析,所以在準確性上不及有參轉錄組[12]。
圖1 轉錄組測序分析的基本操作流程Fig.1 The basic operational process for RNA-seq
1.3.2 非編碼RNA測序分析
非編碼RNA在細胞內雖然不能形成蛋白產物,但其轉錄的一些不具備編碼能力的ncRNA在動植物育種及抗病研究中越來越受到重視。非編碼RNA主要包括短鏈的small RNA(miRNA、siRNA、piRNA)、lncRNA和circRNA[12],雖然暫時未發(fā)現他們的編碼功能,但是其在表觀遺傳學上發(fā)揮著重要的調控功能。small RNA測序是基于Illumina測序平臺,研究特定組織功能狀態(tài)下的所有已知small RNA,發(fā)現新的small RNA并預測其靶基因,為研究small RNA的功能及基因調控機制提供了有力的工具。lncRNA測序是研究已有參考基因組物種的特定組織或細胞在某個特定時期轉錄出的所有l(wèi)ncRNA和mRNA。
工業(yè)大麻(Cannabis sativa L.)是大麻科(Cannabinaceae)大麻屬(Cannabis)一年生草本植物,又稱“大麻”、“漢麻”、“火麻”或“線麻”。在中國已有6000多年的栽培歷史[14],其作為一種理想的多用途作物正在世界范圍內重新興起,在工、農、醫(yī)、食等行業(yè)具有重要的開發(fā)和應用價值。
轉錄組測序分析技術在工業(yè)大麻中的應用已有些許報道。如:為明確大麻轉錄組特征,Van Bakel等[15]對工業(yè)大麻品種Purple Kush的根、莖、枝、花蕾和早期花及中期花6種組織進行RNASeq分析,獲得大于18.8 Gb的序列,通過對這6種組織構建cDNA文庫并測序,獲得了大麻基因組。為研究大麻素生物合成途徑中基因的表達水平,Braich等[16]利用雌性大麻品種Cannbio-2的根、莖、花及毛狀體組織在其開花后的第35、42、49、56 d進行取樣,利用RNA-Seq對樣品進行了測序,與之前的研究結果相比,原始序列有所增加[15]。通過差異基因表達分析鑒定出不同組織的特異表達基因,獲得了參與萜烯和大麻素合成的候選基因,這對于預測大麻素和萜烯類化合物的組成具有重要意義,為麻類作物次生代謝產物、功能基因組學和分子育種提供了思路。為了解工業(yè)大麻性染色體系統(tǒng),Prentout等[17]利用RNA-Seq測定工業(yè)大麻家族(2個親本和10個雌雄后代)基因序列,并利用概率性統(tǒng)計方法SEX-DETector對所有的基因序列進行分析和分離,鑒定出至少500個與性別相關的基因,之后運用一種更有效的RNA-Seq技術,快速分離獲得了大麻性染色體[18],作為重要的基因組資源,有助于提高工業(yè)大麻產量。為挖掘工業(yè)大麻活性成分合成酶關鍵基因,Vergara等[19]利用基于PacBio平臺的第三代測序技術—單分子實時長讀測序對藥用型雄性大麻Pineapple Banana Bubba Kush(PBBK)和基于Illumina平臺測序的雌雄異株雌性藥用型大麻品種Purple Kush(PK)的測序,將這些數據進行組裝,從頭測序分析,在PBBK和PK組裝中分別獲得了11、5個CBDA/THCA合成酶基因,同時在該基因家族中還鑒定出了16個潛在的同源基因。此外,轉錄組測序分析技術在工業(yè)大麻抗逆機制領域也有報道。Liu等[20]利用RNA-Seq技術分析鹽(500 mmol/L NaCl)脅迫下兩個大麻品種“云麻5號”和“巴馬火麻”的葉片差異基因表達情況,共鑒定出220個共同上調的差異表達基因(DEGs),而在鹽脅迫2 d后,在單個品種中分別鑒定出26個上調的 DEGs和24個下調的 DEGs。Huang等[21]利用轉錄組測序分析揭示工業(yè)大麻“Yuma1”和“Neimengguxiaoli”兩個品種對鎘耐性差異表達的關鍵基因,發(fā)現3個基因(ORTHOMCL 32688,ORT-HOMCL 35508,ORT-HOMCL 16423)參與了金屬離子的結合,這為麻類作物鎘耐性及其他重金屬研究提供了理論基礎。
亞麻(Linum usitatissmum L.)是亞麻科(Linaceae)亞麻屬(Linum)一年生草本植物,作為生長在中國東北和世界其他地區(qū)的主要纖維和油料作物,廣泛應用于紡織、化工、食品和醫(yī)藥產品等領域。
國內外亞麻轉錄組測序研究起步較早,在纖維組織時空差異表達、遺傳圖譜構建方面均有報道,但相關研究主要集中在抗逆機制方面。Gorshkov等[22]對亞麻中分離出的韌皮纖維和不同莖部位進行了RNA-Seq分析,共獲得了66841618個原始序列,序列片段在1930萬~2420萬之間,并系統(tǒng)地研究了纖維分化的調節(jié)機制。吳建忠等[23]用簡化基因組測序技術開發(fā)出亞麻特異性SSR序列1576條,利用其中62個SSR標記將48個亞麻供試材料分為油用型和纖維型亞麻兩大類,且在初步構建遺傳圖譜的基礎上,利用高通量測序技術檢測SLAF多態(tài)性標記,構建了目前密度最高的亞麻遺傳連鎖圖譜。為鑒定調控亞麻滲透脅迫響應的重要基因,Wu等[24]篩選了正常處理和PEG 6000脅迫處理下生長的幼苗差異表達的Unigenes(DEUs),利用Illumina技術構建了8個亞麻cDNA文庫并隨機測序,共獲得序列471208288條。在這些序列中,除與擬南芥參考基因組對比序列一致的Unigenes外,經注釋后獲得239個差異表達基因,證實存在對亞麻滲透脅迫響應的基因,該發(fā)現有助于對亞麻相關抗性功能基因進行鑒定。Dmitriev等[25]利用高通量測序技術在正常N、缺P及N、P、K過量條件下分別鑒定出34924、33797和33698個轉錄本,通過qPCR驗證,發(fā)現WRKY和JAS基因家族的表達在被檢測的亞麻植株中均發(fā)生了改變,表明這些基因在亞麻N、P、K脅迫的響應中具有重要的作用。Dmitriev等[26]還分別對兩個亞麻品種Norlin(耐酸堿)和Mogilevsky(敏感)進行高通量測序,鑒定了在非最佳土壤酸度及缺鋅條件下亞麻基因的表達變化。Krasnov等[27]利用RNA-Seq測定不同亞麻品種在鋁脅迫下的差異表達基因,發(fā)現有明顯上調或下調的基因,且抗病品種與敏感品種間存在表達差異較大的基因,包括編碼MADS-box和NACs的基因,以及與細胞壁發(fā)育相關的酶,這可能與亞麻耐鋁性有關。這些結果表明,亞麻組織內部環(huán)境對鋁的耐受性是可遺傳的。
苧麻(Boehmeria nivea L.)為蕁麻科(Vrticaceae)苧麻屬(Boehmeria)多年生宿根性韌皮纖維作物,是一種優(yōu)良的天然紡織工業(yè)原料,其根系具有較高的藥用價值,擁有“中國草”、“中國寶”的美譽,其應用范圍十分廣泛。
長期以來,苧麻育種多以常規(guī)育種為主,但常規(guī)育種周期較長且對優(yōu)良性狀的改良效果不明顯,嚴重制約了苧麻高產高抗優(yōu)質育種工作。隨著生物技術的快速發(fā)展,分子育種技術已在水稻、玉米、小麥中得到廣泛應用。但苧麻基因組序列信息不全,可用轉錄組信息較少,致使苧麻分子生物學的發(fā)展相對落后于其他作物。
轉錄組測序彌補了苧麻功能基因組信息缺失的不足。為加快苧麻分子遺傳學研究和分子標記輔助育種,Liu等[28]對生長期為10、30、60 d的“中苧1號”的根、葉、莖韌皮部、莖木質部進行了轉錄組測序,獲得了43990個Unigenes,平均讀長為824 bp,其中34192個(77.7%)基因被功能注釋,51個纖維素發(fā)育的相關基因被鑒定。Chen等[29]首次利用高通量測序技術對苧麻不同發(fā)育階段的韌皮纖維進行測序和組裝,獲得了58269個Unigenes,豐富了對苧麻及其他麻類作物纖維發(fā)育分子機制的認識。She等[30]以Illumina Solexa為平臺進行測序,構建了苧麻鎘脅迫下根系基因表達譜,共篩選到3887個差異表達基因。Wang等[31]為解析苧麻的表達譜并挖掘其重要基因,首次通過第三代單分子長讀測序獲得一個高質量的苧麻轉錄組,包含30591個非冗余的轉錄本,利用鑒定出的55882個單核苷酸多態(tài)性(SNPs)建立了高密度的遺傳圖譜,根據這個遺傳圖譜,有181.7 Mb的苧麻基因組序列被組裝到14條染色體。為研究苧麻栽培品種的選擇模式和遺傳關系,Huang等[32]利用RNA-Seq技術對苧麻栽培品種“中苧麻1號(BNZ)”和四個野生型苧麻品種“BNT、BNN、BNW和BAN”序列進行分析,通過轉錄組從頭組裝測序產生了119114個Unigenes,平均長度為633 bp,共識別出7084對同源基因,其中有2425個和269個基因分別進行了顯著的純化和陽性選擇。
紅麻(Hibiscus cannabinus L.)是錦葵科(Malvaceae)木槿屬(Hibiscus)一年生韌皮纖維作物,主要生長在亞洲和非洲的熱帶地區(qū)[33],具有耐鹽堿、耐旱、耐貧瘠等優(yōu)良特性,其纖維產量高。紅麻傳統(tǒng)的工業(yè)用途是用作紡織原料,用于麻繩、麻袋的生產,近年來針對紅麻進行了多用途開發(fā)利用,用于飼料、麻骨炭、制漿造紙、復合材料、生物質能源等方面,是公認的新型造紙原料和傳統(tǒng)麻紡工業(yè)的重要原料[1]。
目前,關于紅麻研究主要以轉基因為主,紅麻轉錄組測序分析少有研究報道。李輝等[34]以紅麻轉錄組中與WD40基因高度相似的Unigene為參考,設計引物,進行反轉錄PCR擴增,經Sanger測序獲得基因HcWD40-1(GenBank登錄號:KX711617)的cDNA序列。為獲得紅麻轉錄組整體情況并開發(fā)大規(guī)模紅麻SSR標記,Li等[35]從紅麻不同營養(yǎng)組織(葉、莖稈、莖尖、麻皮)提取總的RNA,經純化后構建了3個cDNA文庫,利用Illumina雙端測序技術生成EST簡單序列,利用MISA軟件挖掘SSR標記,鑒定了71318個平均長度為1143 nt的Unigenes,并使用4個不同的蛋白質數據庫對這些Unigenes進行了注釋。其中有9324對互補配對,被指定為EST-SSR標記,這一新資源將有助于構建紅麻的遺傳連鎖圖譜,研究紅麻纖維的生長發(fā)育,并對新的基因挖掘和功能基因組研究具有參考價值。張立武等[36]以Illumina HiSeq 2000高通量測序獲得紅麻轉錄組65631343條短讀序列(6.56 Gb),并將注釋的23051個Unigenes歸入254個KEGG的參考代謝途徑中,發(fā)現紅麻莖皮表達的317個Unigenes屬于淀粉—蔗糖代謝途徑,且與紅麻韌皮纖維的生長調節(jié)有關。
轉錄組測序分析能夠確定信使RNA(mRNA)、非編碼RNAs(ncRNA)序列和轉錄基因的結構,在不同生物學模式條件下定量動態(tài)表達相應轉錄本[12]。隨著測序技術的不斷發(fā)展和完善,轉錄組測序技術在麻類作物的時空特異表達、抗逆機制、遺傳圖譜構建及其纖維發(fā)育調控等研究領域取得了重要突破。但相對于水稻、玉米、小麥及棉花等大作物而言,仍處于落后地位。主要是由于:(1)麻類作物為非模式作物,受關注度較低。(2)盡管苧麻基因組信息相對于其他麻類作物較完善,且工業(yè)大麻[37-39]和亞麻[40-42]也有相關基因組文章發(fā)表,但與擬南芥等模式物種相比,麻類作物基因組資源相對少且質量低,可供其他作物參考利用價值較低。因此,利用比較基因組學將有利于解決麻類作物物種間親緣關系問題。Yang等[43]利用分子系統(tǒng)發(fā)育分析證實了在2100萬~2780萬年前,大麻科的兩個屬之間存在親緣關系。(3)麻類作物的農藝性狀如:種子產量、生物量、作物播種密度、光周期敏感性和開花時間等研究較多,但重要農藝性狀纖維質量和數量的遺傳學研究起步較晚,單個基因或單倍型植株對纖維產量的影響等研究能否深入,將直接影響基因信息的進一步應用。(4)目前麻類作物的重點研究方向是對纖維發(fā)育的基因表達調控及活性成分的探究,但影響纖維質量的關鍵調控因子和影響活性成分的關鍵酶基因未被挖掘,從而限制了麻纖維產品和麻類作物活性成分的開發(fā)和利用。麻類作物可借鑒棉花纖維關鍵基因挖掘的重要技術手段如全基因組關聯分析、QTL定位等,提高其纖維質量和利用率。近年來,隨著工業(yè)大麻的藥用價值不斷提升,越來越多的科研工作者對工業(yè)大麻活性成分四氫大麻酚(THC)和大麻二酚(CBD)進行研究,但其調控機制尚不夠完善。如能有效利用各測序平臺,將轉錄組測序分析技術與分子標記結合,挖掘出重要功能基因,將會促進麻類作物全基因組表達模式研究及分子育種的發(fā)展。