朱興正,夏麗飛,陳林波*,孫云南,田易萍,宋維希,蔣會(huì)兵
?
保護(hù)品種云茶1號(hào)茶樹全長(zhǎng)轉(zhuǎn)錄組測(cè)序分析
朱興正1,2,夏麗飛1,2,陳林波1,2*,孫云南1,2,田易萍1,2,宋維希1,2,蔣會(huì)兵1,2
1. 云南省農(nóng)業(yè)科學(xué)院茶葉研究所/云南省茶樹種質(zhì)資源創(chuàng)新與配套栽培技術(shù)工程研究中心,云南 勐海 666201; 2. 云南省茶學(xué)重點(diǎn)實(shí)驗(yàn)室,云南 勐海 666201
為探討云茶1號(hào)茶樹品種優(yōu)異性狀的遺傳基礎(chǔ),采用PacBio平臺(tái)進(jìn)行全長(zhǎng)轉(zhuǎn)錄組測(cè)序,最終獲得Polished consensus序列213?389個(gè),預(yù)測(cè)到CDS有223?120個(gè),檢測(cè)到195?062個(gè)SSR位點(diǎn)。在NR數(shù)據(jù)庫(kù)有170?264個(gè)同源序列比對(duì)到980個(gè)物種;有103?124個(gè)在KOG數(shù)據(jù)庫(kù)得到注釋,根據(jù)其功能各分為26類;有65?524個(gè)得到GO注釋分為細(xì)胞組分、分子功能及生物學(xué)過程等三大類的55個(gè)功能組;根據(jù)KEGG數(shù)據(jù)庫(kù),105?972個(gè)得到了注釋,涉及到216個(gè)代謝途徑分支,包括茶葉品質(zhì)、活性物質(zhì)代謝以及抗逆等相關(guān)基因等;還預(yù)測(cè)到隸屬于60個(gè)轉(zhuǎn)錄因子家族的轉(zhuǎn)錄因子有5?785個(gè)。這些結(jié)果為進(jìn)一步開展云茶1號(hào)茶樹特異性狀基因的標(biāo)記性引物開發(fā)、遺傳研究以及品質(zhì)形成和抗逆機(jī)制研究奠定了基礎(chǔ)。
云茶1號(hào);全長(zhǎng)轉(zhuǎn)錄組;基因分析;功能注釋
云茶1號(hào)茶樹品種是云南省農(nóng)業(yè)科學(xué)院茶葉研究所于1993—2005年從云南元江細(xì)葉糯茶群體品種中采用單株育種法育成,其芽葉生育力強(qiáng)、持嫩性好,發(fā)芽密,茸毛特多,芽葉肥壯,一芽二葉百芽重達(dá)144.0?g。春茶一芽二葉蒸青樣水浸出物44.6%,茶多酚31.3%,氨基酸3.4%,咖啡堿4.3%,兒茶素總量158.7?mg·g-1,適制紅茶、綠茶、普洱茶、白茶??鼓嫘澡b定發(fā)現(xiàn)其抗寒、抗旱、抗小綠葉蟬和抗茶餅病能力強(qiáng),在云南的西雙版納、普洱、保山等州(市)有種植,湖南、廣西等省有引種,是一個(gè)性狀優(yōu)異的優(yōu)良品種[1-3]。2005年11月國(guó)家林業(yè)局植物新品種保護(hù)辦公室授予植物新品種權(quán),品種權(quán)號(hào)20050030[4]。
基于PacBio平臺(tái)的第三代測(cè)序技術(shù)是一種集高通量、快速度以及超長(zhǎng)的讀長(zhǎng)優(yōu)勢(shì)和低成本等多種優(yōu)點(diǎn)于一身的新型測(cè)序技術(shù)。它最大特點(diǎn)是無(wú)需進(jìn)行PCR擴(kuò)增,可直接讀取目標(biāo)序列,因此假陽(yáng)性率大大減少,同時(shí)避免了堿基替換及偏置等常見PCR錯(cuò)誤的發(fā)生,精準(zhǔn)度可達(dá)到99.9%[5-6]。因此,本試驗(yàn)采用PacBio平臺(tái)的第三代測(cè)序技術(shù)對(duì)云茶1號(hào)進(jìn)行全長(zhǎng)轉(zhuǎn)錄組測(cè)序,通過生物信息學(xué)方法對(duì)所測(cè)的序列進(jìn)行序列分析、功能注釋、功能分類及代謝途徑分析等,旨在為進(jìn)一步挖掘云茶1號(hào)茶樹品種次生代謝相關(guān)功能基因、抗逆基因及開發(fā)分子標(biāo)記奠定基礎(chǔ)。
采摘云南省農(nóng)業(yè)科學(xué)院茶葉研究所試驗(yàn)基地樹齡為13年的云茶1號(hào)茶樹的芽、葉、莖、花芽、花蕾、幼果,利用液氮迅速固樣后送至北京諾禾致源科技股份有限公司進(jìn)行RNA提取及測(cè)序等分析。
采用Trizol法[7]提取分別提取云茶1號(hào)芽、葉、莖、花芽、花蕾、幼果總RNA,利用瓊脂糖凝膠電泳、Nanodrop、Agilent 2100、Qubit等檢測(cè)合格后,進(jìn)行等量混勻。混勻后的RNA利用帶有Oligo(dT)的磁珠富集mRNA,使用SMARTer PCR cDNA Synthesis Kit將mRNA反轉(zhuǎn)錄為cDNA,再用BluePippin進(jìn)行片段篩選,對(duì)全長(zhǎng)cDNA進(jìn)行損傷修復(fù)、末端修復(fù)、連接SMRT啞鈴型接頭和核酸外切酶消化后獲得文庫(kù)。
對(duì)庫(kù)檢合格文庫(kù)運(yùn)用Pacbio Sequel平臺(tái)進(jìn)行測(cè)序,原始下機(jī)數(shù)據(jù)采用PacBio官方軟件SMRTlink處理獲得Subreads序列,由Subreads之間的校正獲得環(huán)形一致性序列(CCS),再根據(jù)序列是否包含5'端引物、3'端引物以及polyA尾將序列分為全長(zhǎng)序列與非全長(zhǎng)序列,然后利用同種類型聚類(ICE)對(duì)全長(zhǎng)序列進(jìn)行聚類,獲得Cluster consensus序列,最后使用非全長(zhǎng)序列對(duì)得到的一致序列進(jìn)行校正(Polishing),獲得高質(zhì)量的序列進(jìn)行后續(xù)分析。再利用ANGEL軟件對(duì)獲得的序列進(jìn)行編碼蛋白產(chǎn)物的序列(Coding sequence, CDS)預(yù)測(cè)分析[8]。采用MISA軟件對(duì)單核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸按照最少重復(fù)次數(shù)分別為9、6、5、5、5和5對(duì)Gene進(jìn)行SSR檢測(cè)。
對(duì)獲得的高質(zhì)量序列,利用公共數(shù)據(jù)庫(kù)包括非冗余蛋白數(shù)據(jù)庫(kù)(Non-Redundant Protein Database, NR)、蛋白質(zhì)真核同源數(shù)據(jù)庫(kù)(Eukaryotic Orthologous Groups, KOG)、蛋白質(zhì)序列數(shù)據(jù)庫(kù)(Swiss Prot Protein Database, Swiss Prot)、蛋白質(zhì)原核同源數(shù)據(jù)庫(kù)(Cluster of Orthologous Groups of Proteins, COG)、基因本體論數(shù)據(jù)庫(kù)(Gene Ontology, GO)、蛋白質(zhì)家族域數(shù)據(jù)庫(kù)(Protein Families Database, Pfam)、東京基因與基金組百科全書(Kyoto Encyclopedia of Genes and Genomes, KEGG)進(jìn)行基因功能注釋。使用iTAK軟件[9]以及采用database中分類定義好的轉(zhuǎn)錄因子(Transcription Factor, TF)family及規(guī)則,通過hmmscan鑒定TF。
2.1.1 測(cè)序結(jié)果與數(shù)據(jù)組裝
采用PacBio Sequel測(cè)序平臺(tái)對(duì)云茶1號(hào)芽、葉、莖、花芽、花蕾、果等混合樣進(jìn)行全長(zhǎng)轉(zhuǎn)錄組測(cè)序,共獲得6?282?894個(gè)Subreads(10.62?Gb),平均subreads長(zhǎng)度為1?690?bp,N50為2?646。通過檢測(cè)其中環(huán)形一致性序列(Circular Consensus Sequence, CCS)Read有499?432個(gè),帶有5'端引物的reads數(shù)為454?699個(gè),帶有3'端引物的reads數(shù)有464?035個(gè),帶有PolyA尾的reads數(shù)有451?234個(gè);全長(zhǎng)(Full-Length, FL)reads數(shù)有400?959個(gè);全長(zhǎng)非嵌合(Full-Length non-chimericRead, FLNC)reads數(shù)有388?370,F(xiàn)LNC平均長(zhǎng)度為2?469?bp;使用ICE算法將同一轉(zhuǎn)錄本的FLNC序列進(jìn)行聚類,得到consensus序列,并采用非全長(zhǎng)的序列對(duì)得到的consensus序列進(jìn)行校正,最終獲得Polished consensus序列213?389個(gè),用于后續(xù)分析。
2.1.2 CDS預(yù)測(cè)
CDS(Coding sequence)是編碼一段蛋白產(chǎn)物的序列,與蛋白質(zhì)的密碼子完全對(duì)應(yīng)。利用ANGEL軟件[8]進(jìn)行CDS預(yù)測(cè)分析,得到其編碼區(qū)的氨基酸序列和核酸序列。將獲得的Polished consensus在蛋白質(zhì)數(shù)據(jù)庫(kù)中進(jìn)行Blast比對(duì)以后,發(fā)現(xiàn)有223?120個(gè)Coding Sequence(CDS),序列長(zhǎng)度范圍分布在200~ 2?500?bp之間,主要集中在300~1?100?bp(圖1),說(shuō)明Unigenes的序列質(zhì)量較好。
2.1.3 SSR分析
采用MISA對(duì)云茶1號(hào)全長(zhǎng)轉(zhuǎn)錄組Gene進(jìn)行SSR檢測(cè),搜索標(biāo)準(zhǔn)為:1~6個(gè)核苷酸基序(motif)重復(fù)次數(shù)分別為大于等于9、6、5、5、5和5,結(jié)果見表1。有195?062個(gè)序列檢測(cè)到SSR位點(diǎn),單核苷酸和二核苷酸重復(fù)類型占優(yōu)勢(shì),分別占總SSR的57.58%和31.14%;其他4種重復(fù)類型所占比例相對(duì)較少:三核苷酸重復(fù)占9.28%,四核苷酸重復(fù)占0.92%,五核苷酸重復(fù)占0.46%,六核苷酸重復(fù)占0.62%。在檢測(cè)到的SSR位點(diǎn)中,單核苷酸中出現(xiàn)頻率最高的核苷酸基序?yàn)門/A(94?710)和A/T(45?750個(gè));二核苷酸以CT/AG最多有13?993個(gè),其次是TC/GA和AG/CT,分別有13 492個(gè)和8?246個(gè);三核苷酸以GAA/CTT(956個(gè))、TTA/AAT(919個(gè))、CCA/GGT(875個(gè))占優(yōu)勢(shì);四核苷酸出現(xiàn)頻率以TTTA/AAAT(296個(gè))和TTAT/AATA(133個(gè))為多;五核苷酸和六核苷酸分別以TGTGT/ACACA(159個(gè))和TCCACC/ AGGTGG(25個(gè))最多。云茶1號(hào)中兒茶素、氨基酸、咖啡堿等茶葉品質(zhì)成分含量高、抗逆性強(qiáng)以及芽葉大等優(yōu)良性狀,研究?jī)r(jià)值很高。因此,上述對(duì)SSR特征分析的結(jié)果,為進(jìn)一步開展云茶1號(hào)及茶樹通用性引物設(shè)計(jì)及其遺傳圖譜構(gòu)建等打下了良好基礎(chǔ)。
圖1 CDS長(zhǎng)度分布
Fig.1CDS length distribution
表1 SSR不同重復(fù)基序分布及優(yōu)勢(shì)堿基組成
2.2.1注釋結(jié)果統(tǒng)計(jì)
通過BLAST程序,對(duì)轉(zhuǎn)錄組序列進(jìn)行NR數(shù)據(jù)庫(kù)比對(duì)。有170?264個(gè)Unigene在NR數(shù)據(jù)庫(kù)比對(duì)到980個(gè)物種上,比對(duì)較多的20個(gè)物種包括葡萄(28?588個(gè))、茶樹(8?753個(gè))、核桃(7?601個(gè))、中粒咖啡(6?000個(gè))、芝麻(5?892個(gè))、可可(5?767個(gè))、蓮(5?471個(gè))、棗(4?170個(gè))、木薯(4?043個(gè))、胡蘿卜(3?962個(gè))、麻瘋樹J(3?499個(gè))、土瓶草(3?335個(gè))、柑橘(3?156個(gè))、牽?;ǎ??144個(gè))、蓖麻(3?123個(gè))、桃(2?899個(gè))、野生煙草(2?855個(gè))、楊樹(2?663個(gè))、煙草(2?470個(gè))、刺菜薊(2?330個(gè))、青梅(2?243個(gè))。從NR庫(kù)中的注釋情況看,注釋到葡萄的基因最多,可能是GenBank中登錄葡萄的基因信息多,且茶樹與葡萄的相對(duì)較為近緣。同時(shí)隨著茶樹生物學(xué)研究的不斷深入,登錄到GenBank的基因越來(lái)越多,獲得較多茶樹基因注釋。
2.2.2 Unigene的KOG分類統(tǒng)計(jì)
將云茶1號(hào)Unigene與KOG數(shù)據(jù)庫(kù)進(jìn)行比對(duì)并根據(jù)其功能進(jìn)行分類統(tǒng)計(jì)見表2。有103?124個(gè)Unigene得到注釋,按照功能一共分為26類,其中一般功能預(yù)測(cè)最多(19?620個(gè)),其次是翻譯后修飾、蛋白折疊和分子伴侶(13?209個(gè)),最少的為未知蛋白(2個(gè))。在KOG注釋分類中,注釋到次生代謝物合成、運(yùn)輸和代謝有5?183個(gè),氨基酸運(yùn)輸和代謝的有4?363個(gè),說(shuō)明了云茶1號(hào)茶樹中次生代謝和氨基酸代謝較為活躍,這為云茶1號(hào)茶樹茶葉品質(zhì)的形成奠定了基礎(chǔ)。
2.2.3 Unigene的GO功能注釋
有65?524個(gè)Unigene注釋到GO數(shù)據(jù)庫(kù),可分為細(xì)胞組分、分子功能、及生物學(xué)過程等3個(gè)大類的55個(gè)功能組(表3)。其中生物學(xué)過程包括25個(gè)功能組,以代謝過程(33?845個(gè))、細(xì)胞過程(33?284個(gè))、單生物過程(24?567個(gè))、定位(9?572個(gè))的最多,細(xì)胞聚集功能最少(1個(gè)),其次是節(jié)律過程(5個(gè));細(xì)胞組分包括20個(gè)功能組,以細(xì)胞部分(15?349個(gè))、細(xì)胞(15?349個(gè))、細(xì)胞器(9?900個(gè))、膜結(jié)構(gòu)(8?973個(gè))、膜部分(8?487個(gè))較多,以細(xì)胞連接、突觸以及突觸部分最少均為14個(gè);分子功能包括10個(gè)功能組,以結(jié)合活性(39?544個(gè))、催化活性(32?858個(gè))最多,金屬伴侶蛋白活性為最少(3個(gè))等。由于同個(gè)基因可能有多個(gè)注釋,因此,注釋到GO數(shù)據(jù)庫(kù)的基因總數(shù)大于實(shí)際注釋到的基因數(shù)。
表2 Unigene的KOG系統(tǒng)分類
2.2.4 Unigene的KEGG功能注釋
KEGG數(shù)據(jù)庫(kù)已建立了一套完整KO注釋的系統(tǒng),整合了基因組、化學(xué)分子和生化系統(tǒng)等方面的數(shù)據(jù),包括代謝通路(KEGG PATHWAY)、功能模型(KEGG MODULE)、基因序列(KEGG GENES)及基因組(KEGG GENOME)等,可完成新測(cè)序物種的基因組或轉(zhuǎn)錄組的功能注釋。云茶1號(hào)茶樹轉(zhuǎn)錄組有105?972個(gè)得到了注釋,根據(jù)參與的KEGG代謝通路分為三個(gè)層次,第一層次分為四大類,第二層為23小類(表4),第三層次為216個(gè)代謝途徑分支。涉及茶葉滋味相關(guān)代謝途徑的有氨基酸代謝(8?479個(gè))、黃酮類化合物的生物合成(464個(gè))、黃酮和黃酮醇的生物合成(86個(gè))、咖啡因的代謝(41個(gè))。涉及與香氣相關(guān)的單萜生物合成(80個(gè))、倍半萜生物合成(168個(gè))、萜類化合物骨架生物合成(378個(gè))。涉及植物激素信號(hào)轉(zhuǎn)導(dǎo)(1?772個(gè))、MAPK信號(hào)通路(1?194個(gè))、AMPK信號(hào)通路(1?149個(gè))等。這些Unigene為今后深入開展云茶1號(hào)茶滋味、香氣以及抗逆等相關(guān)的功能基因研究奠定了基礎(chǔ)。
表3 Unigene的GO分類
表 4 Unigene的KEGG分類
2.2.5 轉(zhuǎn)錄因子分析
轉(zhuǎn)錄因子(Transcription factor, TF)也稱為反式作用因子,是一群能與基因5'端上游特定序列專一性結(jié)合,從而保證目的基因以特定的強(qiáng)度在特定的時(shí)間與空間表達(dá)的DNA結(jié)合蛋白,通過它們之間以及與其他相關(guān)蛋白之間的相互作用,激活或抑制轉(zhuǎn)錄,在植物生長(zhǎng)發(fā)育過程、組織分化、營(yíng)養(yǎng)運(yùn)輸、代謝合成及環(huán)境應(yīng)答等生命過程中起著至關(guān)重要的轉(zhuǎn)錄調(diào)控作用[10]。使用iTAK軟件預(yù)測(cè)到轉(zhuǎn)錄因子有5?785個(gè),隸屬于60個(gè)轉(zhuǎn)錄因子家族,其中比較多的轉(zhuǎn)錄因子家族見(圖2)。在獲得的轉(zhuǎn)錄因子家族中NAC家族有202個(gè)、AP2/ERF家族有185個(gè)、AUX/IAA家族有216個(gè)、MYB家族有92個(gè)、bHLH家族有235個(gè)、WRKY家族有172個(gè)等。這些轉(zhuǎn)錄因子家族成員的獲得,為后期研究參與云茶1號(hào)茶樹中次生代謝物的生物合成、生長(zhǎng)發(fā)育以及抗逆調(diào)控奠定基礎(chǔ)。
PacBio第三代測(cè)序技術(shù)是基于單分子實(shí)時(shí)(Single molecule real time, SMRT)的單分子測(cè)序儀,由美國(guó)Pacific Biosciences(PacBio)[5]公司設(shè)計(jì)制造,最大特點(diǎn)是無(wú)需進(jìn)行PCR擴(kuò)增,可直接讀取目標(biāo)序列,因此假陽(yáng)性率大大減少,是轉(zhuǎn)錄組從頭測(cè)序的首選[11-12]。本研究采用PacBio平臺(tái)對(duì)云茶1號(hào)茶樹全長(zhǎng)轉(zhuǎn)錄組測(cè)序及分析,獲得6?282?894個(gè)Subreads,平均subreads長(zhǎng)度為1?690?bp,N50為2?646,利用公共數(shù)據(jù)庫(kù)NR、KOG、Swiss Prot、COG、GO、Pfam、KEGG對(duì)獲得的213?389個(gè)Polished consensus序列進(jìn)行功能注釋和分類。有170?264個(gè)Unigene比對(duì)到980個(gè)物種上;有103?124個(gè)Unigene得到KOG注釋,按照功能一共分為26類;有105?972個(gè)Unigene注釋216個(gè)代謝途徑分支。Shi等[13]采用二代測(cè)序技術(shù)對(duì)龍井43茶樹的嫩葉、成熟葉、莖、幼根、花蕾以及成熟種子的總RNA等量混合進(jìn)行轉(zhuǎn)錄組測(cè)序,共獲得127?094條Unigene,平均長(zhǎng)度為355?bp,N50為506?bp,注釋到Nr、COG以及KEGG數(shù)據(jù)庫(kù)的分別為53?937個(gè)、15?701個(gè)和16?939個(gè)。陳林波等[14]以紫娟茶樹的芽、第二葉、開面葉、成熟葉為材料,利用二代測(cè)序技術(shù)對(duì)其轉(zhuǎn)錄組進(jìn)行測(cè)序分析,獲得206?210條Unigene,注釋到NR的為71?799個(gè)、注釋到GO的為61?141個(gè)、注釋到KEGG的為30?995個(gè)。這些研究結(jié)果表明,不論是從獲得的序列質(zhì)量、基因數(shù)以及注釋到的基因信息來(lái)看,第三代測(cè)序結(jié)果均優(yōu)于第二代。
圖2轉(zhuǎn)錄因子家族分析
茶樹為葉用經(jīng)濟(jì)作物,云茶1號(hào)茶樹其芽葉大,產(chǎn)量高,抗茶餅病和抗小綠葉蟬強(qiáng),芽葉中兒茶素、黃酮以及氨基酸等生物活性物質(zhì)含量高,制作的茶葉品質(zhì)優(yōu),是一個(gè)集多種生物性狀優(yōu)異的茶樹品種,是茶樹遺傳改良的重要親本。本研究對(duì)云茶1號(hào)茶樹全長(zhǎng)轉(zhuǎn)錄組進(jìn)行測(cè)序,通過7個(gè)數(shù)據(jù)庫(kù)進(jìn)行功能注釋,在KEGG代謝通路注釋到的105?972個(gè)unigenes,歸屬于216條通路。其中一些代謝途徑與茶葉品質(zhì)形成相關(guān),包括氨基酸代謝(8?479個(gè)),咖啡因的代謝(41個(gè)),黃酮和黃酮醇的生物合成(86個(gè)),黃酮類化合物的生物合成(464個(gè)),單萜的合成(80個(gè)),倍半萜的生物合成(168個(gè)),二萜類化合物的生物合成(349),這些數(shù)據(jù)為云茶1號(hào)茶葉品質(zhì)形成機(jī)制的研究提供了基礎(chǔ)數(shù)據(jù)。還有一些與植物體內(nèi)重要的抗逆途徑相關(guān),包括植物激素信號(hào)轉(zhuǎn)導(dǎo)(1?772個(gè)),AMPK信號(hào)途徑(1?149個(gè)),鈣信號(hào)途徑(431個(gè)),MAPK信號(hào)途徑(1?194個(gè)),苯丙素的生物合成(826個(gè))以及預(yù)測(cè)到的轉(zhuǎn)錄因子5?785個(gè)和所獲得SSR信息,這將有助于進(jìn)一步開展云茶1號(hào)茶樹的抗病機(jī)理以及特異性狀基因的標(biāo)記性引物開發(fā)和遺傳研究奠定基礎(chǔ)。
[1] 張俊, 田易萍, 徐丕忠, 等. 優(yōu)質(zhì)、抗病大葉茶新品種“云茶1號(hào)”選育[J]. 茶葉, 2008, 34(1): 39-41.
[2] 王深. 云茶1號(hào)主要特點(diǎn)與栽培管理[J]. 農(nóng)村實(shí)用技術(shù), 2013(2):19.
[3] 冉隆珣, 玉香甩, 田易萍, 等. 不同茶樹品種對(duì)茶餅病抗性鑒定初探[J]. 遼寧農(nóng)業(yè)科學(xué), 2017(1): 69-70.
[4] 田易萍, 張俊, 徐丕忠, 等. 茶新品種‘云茶1號(hào)’[J]. 園藝學(xué)報(bào), 2009, 36(1): 153.
[5] Liao Y C, Lin S H, Lin H H. Completing bacterial genome assemblies: strategy and performance comparisons [J]. Scientific Reports, 2015, 5: 8747.
[6] Shin S C, Ahn D H, Kim S J, et al. Advantages of single-molecule real-time sequencing in high-GC content genomes [J]. PLoS One, 2013, 8(7): e68824.
[7] Gao J P, Wang D, Cao L Y, Sun H F. Transcriptome sequencing of codonopsis pilosula and identification of candidate genes involved in polysaccharide biosynthesis [J]. PLoS One, 2015, 10(2): 117-134.
[8] Shimizu K, Adachi J, Muraoka Y. ANGLE: a sequencing errors resistant program for predicting protein coding regions in unfinished cDNA [J]. Journal of Bioinformatics and Computational Biology, 2006, 4(3): 649-664.
[9] Zheng Y, Jiao C, Sun H, et al. iTAK: a program for genome-wide prediction and classification of plant transcription factors, transcriptional regulators, and protein kinases [J]. Molecular Plant, 2016, 9(12): 1667-1670.
[10] Lutoval A, Doduevai E, Lebedeva M A, et al. Transcription factors in developmental genetics and the evolution of higher plants [J]. Russian Journal of Genetics, 2015, 51(5): 449-466.
[11] 曹晨霞, 韓琬, 張和平. 第三代測(cè)序技術(shù)在微生物研究中的應(yīng)用[J]. 微生物學(xué)通報(bào), 2016, 43(10): 2269-2276.
[12] 任毅鵬, 張佳慶, 孫瑜, 等. 基于PacBio平臺(tái)的全長(zhǎng)轉(zhuǎn)錄組測(cè)序[J]. 科學(xué)通報(bào), 2016, 61(11): 1250-1254.
[13] Shi C Y, Yang H, Wei C L, et al. Deep sequencing of thetranscriptome revealed candidate genes for major metabolic pathways of tea-specific compounds [J]. BMC Genomics, 2011, 12(1): 131.
[14] 陳林波, 夏麗飛, 周萌, 等. 基于RNA-Seq技術(shù)的“紫娟”茶樹轉(zhuǎn)錄組分析[J]. 分子植物育種, 2015, 13(10): 2250-2255.
Full-length Transcriptome Analysis of Protected Cultivation ‘Yuncha 1’ (Var)
ZHU Xingzheng1,2, XIA Lifei1,2, CHEN Linbo1,2*, SUN Yunnan1,2, TIAN Yiping1,2, SONG Weixi1,2, JIANG Huibin1,2
1. Tea Research Institute, Yunnan Academy of Agricultural Sciences/Yunnan Technology Engineering Research Center of Tea Germplasm Innovation and Supporting Cultivation, Menghai, 666201, China; 2.Yunnan Provincial Key Laboratory of Tea Science, Menghai, 666201, China
To explore the genetic basis for important traits, the full-length transcriptome of the ‘Yuncha 1’ () was sequenced by using PacBio Platform. A total of 213?389 polished consensus were generated, 223?120coding sequences were predicted and annotated, and 195?062 SSR loci were found. According to NR databases, 170?264 homologous sequences were mapped to 980 species, 103?124 unigenes were further annotated and grouped into 26 functional categories in KOG databases, 65?524 unigenes were annotated against GO database and divided into cellular component, molecular function and biological process categories with a total of 55functional groups. KEGG pathway analysis showed that 105?972 unigenes could be broadly classified into 216 metabolism pathways according to their function, and some of them were involved in quality, bioactive substances, and resistance gene, etc. It is also predicted that there were 5?785 transcription factors belonging to 60 transcription factor families. The experimental results will give important data for development of SSRs of specifictraits,genetic analysis and studies involved in quality formation and resistence mechanism in tea cultivar ‘Yuncha 1’.
tea cultivar ‘Yuncha 1’, full-length transcriptome, gene analysis, function annotation
S571.1;S324
A
1000-369X(2018)02-193-09
2017-10-31
2017-11-27
國(guó)家自然科學(xué)基金項(xiàng)目(31660224、31560220、31460216)、云南省人才培養(yǎng)計(jì)劃項(xiàng)目(2015HB105)
朱興正,男,副研究員,主要從事茶樹育種與生物技術(shù)方面的工作。
chenlinbo2002@sina.com