李彥杰,賈洪沅,李慶天,白藝旋,劉蕓杉
(1.重慶三峽學(xué)院 生物與食品工程學(xué)院,重慶 萬州 404100;2.重慶三峽學(xué)院 教師教育學(xué)院,重慶 萬州 404100)
【研究意義】三峽大壩水位調(diào)度使其上游庫區(qū)兩岸出現(xiàn)了周期性的反季節(jié)淹沒——出露消落帶區(qū)域[1-2]。消落帶植被受水陸環(huán)境交替影響而逐漸退化,加劇了庫區(qū)生態(tài)環(huán)境的不穩(wěn)定性,進(jìn)而引發(fā)水土流失等次生災(zāi)害[3]。穩(wěn)定消落帶生態(tài)環(huán)境的關(guān)鍵是消落帶植被的重建和恢復(fù)[4]。研究表明,作為三峽庫區(qū)消落帶原生植物,狗牙根通過調(diào)整來自多個基因信號通路的眾多基因表達(dá),從通氣組織生成、伸長性生長和不定根形成等形態(tài)學(xué)變化以及細(xì)胞加固和抗氧化組分增高等代謝調(diào)整,在多方面、多層次適應(yīng)水淹信號,從而使其表現(xiàn)出一定程度的水淹生境適生性[5-8]。開發(fā)、建立大規(guī)模的分子標(biāo)記有利于分離和鑒定與消落帶原生狗牙根水淹適生性相關(guān)的等位基因,并且在遺傳性狀解析、分子育種、多樣性分析以及抗水淹植物篩選等方面具有重要作用。簡單重復(fù)序列標(biāo)記(simple sequence repeats,SSRs)和單核苷酸多態(tài)性(single nucleotide polymorphisms,SNPs)是使用較多的兩種共顯性分子標(biāo)記,前者是片段標(biāo)記,多用于目標(biāo)基因定位和遺傳圖譜構(gòu)建等,后者是序列信息標(biāo)記,多用于目標(biāo)基因精細(xì)定位和識別等[9-10]?!厩叭搜芯窟M(jìn)展】目前,基于SSR標(biāo)記的狗牙根相關(guān)研究相對較少,且主要集中在種質(zhì)遺傳多樣性分析和抗寒性狀鑒定等方面,而有關(guān)狗牙根SNP標(biāo)記研究鮮有報道[11-14]?!颈狙芯壳腥朦c】三峽庫區(qū)消落帶原生狗牙根水淹適生性與其序列片段及序列信息有關(guān),解析其SSRs和SNPs數(shù)量及分布以評估其遺傳多樣性分析和種質(zhì)資源,進(jìn)而分析其與水淹相關(guān)的現(xiàn)狀及定位功能基因,有助于加深對狗牙根耐水淹機(jī)制的理解?!緮M解決的關(guān)鍵問題】為三峽庫區(qū)消落帶的植被重建及生態(tài)環(huán)境恢復(fù)提供基礎(chǔ)和參考。
實驗材料取自位于重慶市萬州區(qū)新田鎮(zhèn)譚紹村的三峽庫區(qū)天然消落帶,材料處理、取樣方法和測序樣品制備等見課題組前期研究[5]。Illumina HiSeq 4000 平臺測序及SSR引物合成由深圳華大基因科技有限公司完成。測序樣品分為水淹處理組(A2)和未水淹對照組(A1)。
轉(zhuǎn)錄組測序原始讀序(Raw reads)經(jīng)去除測序接頭讀序(reads)、未知堿基含量大于5 %的reads和低質(zhì)量的reads后得到純凈讀序(clean reads)。使用Trinity V2.0.6軟件首先將clean reads打斷為較短片段(K-mer)構(gòu)建數(shù)據(jù)庫,選高頻率作為種子向兩端延伸得到線性重疊群(contigs),再將Contigs聚類得到片段集合(Component),并對每個Component構(gòu)建de Bruijin圖,最后根據(jù)pair-end reads解讀de Bruijin圖信息得到轉(zhuǎn)錄本序列(Full-length transcriptome assembly from RNA-Seq data without a reference genome)。將上述轉(zhuǎn)錄本序列基于Tgicl v2.0.6r軟件進(jìn)行聚類去冗余得到Unigene。使用HISAT v0.1.6-beta把clean reads比對到Unigene,利用GATK v3.4-0檢測SNPs。使用MISA v1.0搜索Unigene的SSRs,篩選標(biāo)準(zhǔn)為:單核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸的重復(fù)次數(shù)分別設(shè)置為12、6、5、5、4和4次。
整理轉(zhuǎn)錄組測序原始讀序(Raw reads)和純凈讀序(clean reads)得Total Raw Reads、Total Clean Reads、Total Clean Bases、Clean Reads Q20、Clean Reads Q30和Clean Reads Ratio分別為89.875 Mb、73.72 Mb、11.055 Gb、99.14 %、97.19 %和82.035 %。其中,Clean Reads Q20是指質(zhì)量值大于20的堿基數(shù)目占總堿基數(shù)目的比例,若其值大于80 %則認(rèn)為測序數(shù)據(jù)質(zhì)量較高[15]。本次所得clean reads為99.14 %,說明狗牙根轉(zhuǎn)錄組測序的Raw reads經(jīng)過濾后所得clean reads質(zhì)量高。兩組樣本基于Trinity軟件共組裝得到162323條轉(zhuǎn)錄本,其平均長度為721個核苷酸(nucleotide,nt),將上述轉(zhuǎn)錄本基于Tgicl軟件去冗余得含147256條序列的非冗余基因數(shù)據(jù)庫(universal gene,unigene)(表1)。將所有的Unigene按照從長到短排序,將排序后的Unigene從長到短依次相加,當(dāng)相加長度等于Unigene總長度的一半時所對應(yīng)的Unigene長度即為N50值。N50可用來評估轉(zhuǎn)錄本和Unigene組裝質(zhì)量,其值越大表示組裝或所得的序列質(zhì)量越高[16]。本實驗轉(zhuǎn)錄組測序數(shù)據(jù)經(jīng)組裝所得轉(zhuǎn)錄本的N50為1287 nt,所得Unigene的N50為1509 nt,且長度大于500 nt的Unigene超過50 %(圖1),故認(rèn)為所得Unigene質(zhì)量較高,其可滿足后續(xù)數(shù)據(jù)庫注釋和差異基因富集等分析。
利用GATK軟件從兩組樣本共檢測出297 542個SNPs,其中轉(zhuǎn)換型位點數(shù)量為183 565個,顛換型位點數(shù)量為113 977個。從圖2可知,每組樣品內(nèi)的A-G或C-T轉(zhuǎn)換型位點數(shù)量相近,且均遠(yuǎn)多于顛換型位點數(shù);4種顛換型位點數(shù)量按照從多到少依次為C-G>G-T>A-C>A-T。水淹樣品(A2)的各類型SNPs數(shù)量均小于未水淹樣品(A1)。
表1 轉(zhuǎn)錄本和Unigene組裝結(jié)果Table 1 Assembly results of transcripts and Unigene
圖1 Unigene長度分布Fig.1 Length distribution of Unigene
圖2 SNPs類型分布Fig.2 Type distribution of SNPs
利用MISA軟件對狗牙根的147 256條Unigene作序列搜索共檢測到22 154個SSRs分布于18 982條Unigene中,發(fā)生頻率為(含SSRs的Unigene數(shù)目與總Unigene數(shù)目的比值)12.89 %,出現(xiàn)頻率(SSR總數(shù)與總Unigene數(shù)目的比值)為15.04 %,含有超過一個SSR位點的Unigene有2680條,含復(fù)合型SSR位點的Unigene有1023條。SSRs以單核苷酸、二核苷酸和三核苷酸重復(fù)為主,三者總和約占SSRs總數(shù)量的94.99 %(表2)。單核苷酸SSRs中腺苷酸(A)和胸腺嘧啶(T)分別為3776和3650條,胞嘧啶(C)和鳥苷酸(G)分別為103和225條。
表2 Unigene中的SSRs數(shù)量Table 2 Number of SSRs in Unigene
進(jìn)一步統(tǒng)計SSRs分布可知,二核苷酸重復(fù)類型中4種SSRs數(shù)量大小為:AG/CT>AC/GT>CG/CG>AT/AT,其中AG/CT型SSRs數(shù)量明顯高于其他3種,且與AT/AT型SSRs數(shù)量相差近10倍;三核苷酸重復(fù)類型中10種SSRs數(shù)量大小為:CCG/CGG>ATC/ATG>AGG/CCT>AGC/CTG>ACT/AGT>ACG/CGT>ACC/GGT>AAT/ATT>AAG/CTT>AAC/GTT,其中CCG/CGG型SSRs數(shù)量比AAC/GTT型高出10倍(圖3)。隨著重復(fù)次數(shù)的增加,單核苷酸和其他5種SSRs數(shù)量均呈下降趨勢,其中重復(fù)6次的位點數(shù)在二核苷酸SSRs中占比最高,其約占二核苷酸SSRs總數(shù)的29.41 %,重復(fù)6~10次和6~20次的二核苷酸SSRs分別占二核苷酸SSRs總數(shù)的68.80 %和94.74 %(圖4)。三核苷酸SSRs和四核苷酸SSRs的重復(fù)次數(shù)主要以5和6次為主,其中重復(fù)5次的SSRs分別占兩類SSRs總數(shù)的62.79 %和97.41 %。五核苷酸SSRs和六核苷酸SSRs以4次重復(fù)為主,該重復(fù)次數(shù)的SSRs分別占兩類SSRs總數(shù)的83.82 %和87.60 %。
圖3 SSRs類型分布Fig.3 Type distribution of SSRs
圖4 不同重復(fù)次數(shù)的SSRs位點數(shù)量分布Fig.4 Number distribution of SSRs with different repetition times
SSRs基序長度可用來評估多態(tài)性高低,通常12~20 bp的長度范圍具有中等多態(tài)性,低于12 bp和高于20 bp分別具有低多態(tài)性和高多態(tài)性[17]。本次實驗獲得的SSRs基序長度在12~246 bp之間,平均長度為19.60 bp。SSRs基序長度分布如圖5,可知,基序長度在12~20 bp的SSRs數(shù)量最多,占比為78.52 %,其次為占比13.37 %的基序長度在12~20 bp的SSRs,基序長度大于30 bp的SSRs占比為8.11 %,說明狗牙根轉(zhuǎn)錄組SSRs具有中等多態(tài)性,可用于后續(xù)的遺傳多樣性和品質(zhì)鑒定等分析。
圖5 SSRs基序長度分布Fig.5 Distribution of SSRs motif length
不同植物或同一種植物的SSRs堿基組成和拷貝數(shù)隨物種或個體的不同而表現(xiàn)出一定差異,而SSRs的兩側(cè)序列卻相對保守,因此可通過設(shè)計引物擴(kuò)增SSR或基于測序數(shù)據(jù)分析其序列多態(tài)性。SSRs序列多態(tài)性與DNA復(fù)制、修復(fù)過程中DNA滑動和錯配,或有絲分裂、減數(shù)分裂期姐妹染色單體不均等交換有關(guān)[18-19]。SSRs中的重復(fù)核苷酸數(shù)常為一至六,其中以單核苷酸、二核苷酸和三核苷酸型SSRs占比最高。本實驗中,狗牙根SSRs主要以單核苷酸、二核苷酸和三核苷酸型為主。此外,SSRs的長度和數(shù)量可能與染色體結(jié)構(gòu)、轉(zhuǎn)錄調(diào)控和功能基因鑒定等有關(guān)[20]。本實驗中狗牙根轉(zhuǎn)錄組SSRs具有中等多樣性,故借助SSRs數(shù)量、類型分布、位點分布和長度分布等信息有助于解析與三峽庫區(qū)消落帶原生狗牙根耐水淹的相關(guān)性狀,或可進(jìn)一步用于相關(guān)功能基因的識別和定位等。SNPs是由于單個核苷酸的變異所引起的DNA序列多態(tài)性,且多為二等位多態(tài)性。SNPs主要分為轉(zhuǎn)換和顛換兩種形式,轉(zhuǎn)換的頻率遠(yuǎn)高于顛換,這可能與CpG二核苷酸上的胞嘧啶殘基易于脫去氨基而形成胸腺嘧啶有關(guān)。本實驗中搜索到的SNPs標(biāo)記也是以轉(zhuǎn)換型為主,且總數(shù)約占總SNPs數(shù)目的2/3。SNPs在基因組可分布于多個位置,其中位于基因編碼區(qū)的SNP(coding-region SNP,cSNPs)雖然相對數(shù)量較少,但其對生物性狀解析和輔助育種等具有重要作用,故通過進(jìn)一步深挖狗牙根轉(zhuǎn)錄組數(shù)據(jù)的cSNPs信息,繪制cSNPs圖譜可用于狗牙根與抗逆相關(guān)的多樣性分析、品質(zhì)鑒定和分子育種等研究。
SSRs和SNPs技術(shù)較為成熟,在植物分子育種以及相關(guān)性狀解析等多個方面發(fā)揮了重要作用。SSRs有標(biāo)準(zhǔn)化的分析流程,但其分辨率相對較低,而SNPs具有數(shù)量更多、密度更高、分布更廣,因此有相對較高的分辨率。植物以多倍體為多,使得SNPs的可用性降低,因此在實際工作中可將SSRs和SNPs標(biāo)記結(jié)合使用。
基于狗牙根轉(zhuǎn)錄組測序數(shù)據(jù)共得到297 542個SNPs和22 154個SSRs,其中這些SSRs的發(fā)生頻率為12.89 %,且主要以單核苷酸、二核苷酸和三核苷酸重復(fù)為主,三者合計占比為94.99 %;基序長度在12~20 bp的SSRs數(shù)量最多,占比達(dá)78.52 %,顯示出較好多態(tài)性。由于狗牙根為多倍體,故結(jié)合豐富的SSRs和SNPs信息,或可為其遺傳多樣性分析和分子育種等提供參考。