陳華枝,范元嬋,蔣海賓,王杰,范小雪,祝智威,隆琦,蔡宗兵,鄭燕珍,付中民,2,徐國鈞,陳大福,2,郭睿,2
基于納米孔全長轉(zhuǎn)錄組數(shù)據(jù)完善東方蜜蜂微孢子蟲的基因組注釋
陳華枝1,范元嬋1,蔣海賓1,王杰1,范小雪1,祝智威1,隆琦1,蔡宗兵1,鄭燕珍1,付中民1,2,徐國鈞1,陳大福1,2,郭睿1,2
1福建農(nóng)林大學(xué)動(dòng)物科學(xué)學(xué)院(蜂學(xué)學(xué)院),福州 350002;2福建農(nóng)林大學(xué)蜂療研究所,福州 350002
【】利用已獲得的納米孔全長轉(zhuǎn)錄組數(shù)據(jù)對現(xiàn)有的東方蜜蜂微孢子蟲()參考基因組的基因序列和功能注釋進(jìn)行完善。采用TransDecoder軟件預(yù)測東方蜜蜂微孢子蟲基因的開放閱讀框(open reading frame,ORF)及相應(yīng)的氨基酸。利用gffcompare軟件將全長轉(zhuǎn)錄本與參考基因組注釋的轉(zhuǎn)錄本進(jìn)行比較,對基因組注釋基因的非編碼區(qū)向上游或下游延伸,修正基因的邊界。利用MISA軟件鑒定長度在500 bp以上的全長轉(zhuǎn)錄本的簡單重復(fù)序列(simple sequence repeat,SSR)位點(diǎn),包括單核苷酸重復(fù)、雙核苷酸重復(fù)、三核苷酸重復(fù)、四核苷酸重復(fù)、五核苷酸重復(fù)、六核苷酸重復(fù)、混合SSR等類型。通過Blast工具將鑒定到的新基因和新轉(zhuǎn)錄本比對Nr、KOG、eggNOG、GO和KEGG數(shù)據(jù)庫,從而獲得功能注釋。共預(yù)測出2 353個(gè)完整ORF,其中長度分布在0—100個(gè)氨基酸的ORF最多,占總ORF數(shù)的72.12%。共對東方蜜蜂微孢子蟲的2 340個(gè)基因進(jìn)行了結(jié)構(gòu)優(yōu)化,其中5′端延長的基因有1 182個(gè),3′端延長的基因有1 158個(gè)。共鑒定到1 658個(gè)SSR,其中單核苷酸重復(fù)、雙核苷酸重復(fù)、三核苷酸重復(fù)、四核苷酸重復(fù)的數(shù)量分別為1 622、23、7和6個(gè);單核苷酸重復(fù)類型的SSR密度最大,達(dá)到182.32個(gè)/Mb,其次為混合SSR、雙核苷酸重復(fù)和三核苷酸重復(fù),分別達(dá)到6.90、2.78和0.73個(gè)/Mb。共鑒定出954個(gè)新基因,其中分別有951、333、371、422和321個(gè)新基因可注釋到Nr、KOG、eggNOG、GO和KEGG數(shù)據(jù)庫。此外,還鑒定出6 164條新轉(zhuǎn)錄本,其中分別有6 141、2 808、2 932、3 196和2 585條新轉(zhuǎn)錄本可注釋到Nr、KOG、eggNOG、GO和KEGG數(shù)據(jù)庫。新基因和新轉(zhuǎn)錄本注釋數(shù)量最多的物種均為東方蜜蜂微孢子蟲,其次是蜜蜂微孢子蟲()。研究結(jié)果較好地完善了現(xiàn)有的東方蜜蜂微孢子蟲參考基因組已注釋基因的序列和功能注釋,并補(bǔ)充和注釋了大量參考基因組未注釋的新基因和新轉(zhuǎn)錄本。
納米孔測序;全長轉(zhuǎn)錄本;轉(zhuǎn)錄組;基因組;蜜蜂;東方蜜蜂微孢子蟲
【研究意義】東方蜜蜂微孢子蟲()是細(xì)胞內(nèi)寄生的單細(xì)胞真菌,特異性侵染成年蜜蜂的中腸上皮細(xì)胞,對蜜蜂幼蟲也具有侵染性。目前,由于成熟的轉(zhuǎn)基因操作技術(shù)平臺(tái)缺失和公共數(shù)據(jù)庫中微孢子蟲基因注釋信息的匱乏,東方蜜蜂微孢子蟲的基因組注釋很不完善。利用全長轉(zhuǎn)錄組數(shù)據(jù)對東方蜜蜂微孢子蟲的完整開放閱讀框(open reading frame,ORF)、簡單重復(fù)序列(simple sequence repeat,SSR)及未注釋基因和轉(zhuǎn)錄本進(jìn)行鑒定,對已注釋基因進(jìn)行結(jié)構(gòu)優(yōu)化,可豐富和完善東方蜜蜂微孢子蟲的參考基因組注釋,為后續(xù)的生物信息學(xué)分析和分子生物學(xué)研究提供可靠的參考信息,也能為其他物種的基因組注釋信息完善提供思路和方法借鑒?!厩叭搜芯窟M(jìn)展】第一代測序技術(shù)即Sanger測序技術(shù)具有準(zhǔn)確性高的優(yōu)點(diǎn),過去被成功用于人類[1]、家蠶()[2]和西方蜜蜂()[3]等物種的基因組測序和組裝,但由于高成本和低通量的限制,逐漸被基于邊合成邊測序原理的第二代測序技術(shù)取代。近十幾年來,以Illumina為代表的二代測序技術(shù)憑借高通量和成本持續(xù)下降的優(yōu)勢,在動(dòng)物[4-5]、植物[6-7]和微生物[8-9]的基因組測序方面得到廣泛應(yīng)用,較大幅度地提升了物種的基因組組裝質(zhì)量。但二代測序具有GC偏好性且測序讀段較短(不超過300 bp),需要通過生物信息學(xué)方法對短讀段進(jìn)行拼接,在測定重復(fù)序列方面劣勢明顯[10]。目前,除人類、小鼠和果蠅()等極少數(shù)模式物種的基因組組裝到染色體水平外,絕大多數(shù)物種的基因組僅組裝到contig或scafford水平,而且不同物種的基因組質(zhì)量參差不齊[11-13]。近年來,隨著以PacBio單分子實(shí)時(shí)(single- molecule real-time,SMRT)測序技術(shù)和Oxford納米孔(nanopore)長讀段測序技術(shù)為代表的三代測序技術(shù)的興起與應(yīng)用,人們通過純?nèi)鷾y序或三代測序結(jié)合二代測序?qū)⒃絹碓蕉辔锓N基因組組裝到染色體水平[14-16]。然而,目前三代測序的成本依然高昂,對于一些基因組較大的物種或經(jīng)費(fèi)有限的實(shí)驗(yàn)室,利用三代測序技術(shù)進(jìn)行基因組測序還存在較大的困難。相對于基因組測序,利用三代測序技術(shù)進(jìn)行轉(zhuǎn)錄組測序的成本較低且周期較短。利用PacBio SMRT測序數(shù)據(jù)完善小麥()和錫蘭勾蟲()基因組注釋的研究已見報(bào)道[11,17]。Cornman等[18]通過454焦磷酸測序技術(shù)對東方蜜蜂微孢子蟲的純凈孢子進(jìn)行測序,利用CABOG軟件拼接出5 465條contig,組裝的基因組(assembly ASM18298v1)大小為7.86 Mb,GC含量為25.3%,包含2 060個(gè)蛋白編碼基因。2015年,Pelin等[8]利用Illumina HiSeq技術(shù)重新測序并組裝了東方蜜蜂微孢子蟲的基因組(assembly ASM98816v1),其大小為8.82 Mb,包含110條contig,目前為NCBI Genome數(shù)據(jù)庫推薦的參考基因組版本。但上述兩個(gè)東方蜜蜂微孢子蟲的基因組版本都只組裝到contig水平,遠(yuǎn)未達(dá)到染色體水平,因而會(huì)對基于這兩個(gè)基因組版本的生物信息學(xué)分析產(chǎn)生影響。因此,通過多組學(xué)數(shù)據(jù)對東方蜜蜂微孢子蟲的基因序列和功能注釋進(jìn)行補(bǔ)充和完善尤為必要。【本研究切入點(diǎn)】前期研究中,筆者所在團(tuán)隊(duì)已利用Oxford nanopore測序技術(shù)對東方蜜蜂微孢子蟲的純凈孢子進(jìn)行測序,基于高質(zhì)量的測序數(shù)據(jù)構(gòu)建和注釋了東方蜜蜂微孢子蟲的首個(gè)全長轉(zhuǎn)錄組[19];并對東方蜜蜂微孢子蟲基因的可變剪接和可變多聚腺苷酸化進(jìn)行了系統(tǒng)鑒定和分析[20]?!緮M解決的關(guān)鍵問題】利用已獲得的全長轉(zhuǎn)錄組數(shù)據(jù)對東方蜜蜂微孢子蟲參考基因組的完整ORF進(jìn)行預(yù)測,對已注釋基因進(jìn)行結(jié)構(gòu)優(yōu)化,對未注釋的SSR進(jìn)行挖掘,并對未注釋的新基因和新轉(zhuǎn)錄本進(jìn)行鑒定和功能注釋。
試驗(yàn)于2019年在福建農(nóng)林大學(xué)動(dòng)物科學(xué)學(xué)院(蜂學(xué)學(xué)院)蜜蜂保護(hù)實(shí)驗(yàn)室完成。
前期研究中,筆者所在團(tuán)隊(duì)利用Oxford Nanopore測序技術(shù)對東方蜜蜂微孢子蟲的純凈孢子進(jìn)行測序,獲得了高質(zhì)量的全長轉(zhuǎn)錄組數(shù)據(jù),共測得6 988 795條原始讀段(raw reads),居中長度(N50)、平均讀長和最大讀長分別為971、881和96 051 bp,共鑒定出10 243條非冗余全長轉(zhuǎn)錄本,N50、平均長度和最大長度分別為1 042、894和4 855 bp[19]。高質(zhì)量的全長轉(zhuǎn)錄組數(shù)據(jù)可為本研究中的完整ORF預(yù)測、已注釋基因的結(jié)構(gòu)優(yōu)化、SSR位點(diǎn)鑒定與分析、新基因鑒定與功能注釋,以及新轉(zhuǎn)錄本的鑒定和功能注釋提供可靠的數(shù)據(jù)支撐。
由于軟件和數(shù)據(jù)本身的局限性,導(dǎo)致多數(shù)基因組的基因結(jié)構(gòu)信息不夠精確,需要進(jìn)一步優(yōu)化。利用gffcompare軟件將本研究鑒定到的全長轉(zhuǎn)錄本與東方蜜蜂微孢子蟲參考基因組注釋的轉(zhuǎn)錄本進(jìn)行比較,對基因組注釋的基因結(jié)構(gòu)信息進(jìn)行補(bǔ)充。如果在注釋基因邊界之外的區(qū)域有比對上的讀段(mapped reads)支持,則將基因的UTR向上游或下游延伸,修正基因的邊界。
MISA(MIcroSAtellite identification tool)軟件[21]可以通過對轉(zhuǎn)錄本序列的分析,鑒定出7種類型的SSR,包括單核苷酸重復(fù)(p1)、雙核苷酸重復(fù)(p2)、三核苷酸重復(fù)(p3)、四核苷酸重復(fù)(p4)、五核苷酸重復(fù)(p5)、六核苷酸重復(fù)(p6)、混合SSR(c,即兩個(gè)SSR之間的距離<100 bp)。從去冗余的全長轉(zhuǎn)錄本中篩選長度在500 bp以上的全長轉(zhuǎn)錄本,利用MISA軟件預(yù)測SSR位點(diǎn),采用默認(rèn)參數(shù)。
以東方蜜蜂微孢子蟲參考基因組(assembly ASM98816v1)[8](gff文件)和本研究中去冗余后的全長轉(zhuǎn)錄本文件為基礎(chǔ),獲得一個(gè)數(shù)據(jù)格式與注釋文件相同的gff文件,利用gffcompare軟件將2個(gè)gff文件進(jìn)行比較,對于在參考基因組上沒有注釋信息的基因和轉(zhuǎn)錄本,將其定義為新基因和新轉(zhuǎn)錄本。利用Blast工具將上述新基因和新轉(zhuǎn)錄本分別比對Nr、KOG、eggNOG、GO和KEGG數(shù)據(jù)庫,從而獲得相應(yīng)的功能注釋。
TransDecoder(v3.0.0)軟件可基于ORF長度、對數(shù)似然函數(shù)值、氨基酸序列與Pfam數(shù)據(jù)庫蛋白質(zhì)結(jié)構(gòu)域序列的比對等信息,從轉(zhuǎn)錄本序列中識(shí)別可靠的潛在編碼區(qū)序列(coding sequence,CDS)。采用TransDecoder(v3.0.0)軟件對上述新轉(zhuǎn)錄本的CDS及其對應(yīng)氨基酸序列進(jìn)行識(shí)別,從而預(yù)測ORF。同時(shí)預(yù)測到起始密碼子和終止密碼子的ORF為完整ORF。
共對東方蜜蜂微孢子蟲的2 340個(gè)基因的結(jié)構(gòu)進(jìn)行優(yōu)化,其中5′端延長的基因有1 182個(gè),3′端延長的基因有1 158個(gè)。部分基因的結(jié)構(gòu)優(yōu)化信息詳見表1。
如表2所示,在8 265 494 bp的序列中共鑒定到1 658個(gè)SSR,含有SSR超過1個(gè)的基因數(shù)為212個(gè),以混合物形式存在的SSR有65個(gè);此外,單核苷酸重復(fù)、雙核苷酸重復(fù)、三核苷酸重復(fù)、四核苷酸重復(fù)的數(shù)量分別為1 622、23、7和6個(gè)。進(jìn)一步分析SSR的類型分布,結(jié)果顯示p1類型的SSR密度最大,達(dá)到182.32個(gè)/Mb,其次為c、p2和p3,分別達(dá)到6.90、2.78和0.73個(gè)/Mb。
共鑒定出954個(gè)新基因,其中分別有951、333、371、422和321個(gè)新基因可注釋到Nr、KOG、eggNOG、GO和KEGG數(shù)據(jù)庫。新基因注釋數(shù)量最多的物種是東方蜜蜂微孢子蟲(798),其次為蜜蜂微孢子蟲()(55)和按蚊微孢子蟲()(43)(圖1-A)。新基因可注釋到KOG數(shù)據(jù)庫的25個(gè)功能類別,包括翻譯后修飾、蛋白折疊和分子伴侶(43),轉(zhuǎn)錄(41),一般功能預(yù)測(41),復(fù)制、重組和修復(fù)(39),以及翻譯、核糖體結(jié)構(gòu)和生物合成(36)等(圖1-B)。此外,新基因可注釋到eggNOG數(shù)據(jù)庫的25個(gè)功能類別,包括未知功能(94),翻譯、核糖體結(jié)構(gòu)和生物合成(48),復(fù)制、重組和修復(fù)(47),翻譯后修飾、蛋白折疊和分子伴侶(36),以及轉(zhuǎn)錄(35)等(圖1-C)。括號內(nèi)的數(shù)字代表注釋上的新基因數(shù)量。
圖1 東方蜜蜂微孢子蟲新基因的Nr(A)、KOG(B)和eggNOG(C)數(shù)據(jù)庫注釋
表1 東方蜜蜂微孢子蟲參考基因組中10個(gè)基因的結(jié)構(gòu)優(yōu)化信息概要
GO數(shù)據(jù)庫注釋結(jié)果顯示,東方蜜蜂微孢子蟲的新基因還能注釋到生物學(xué)進(jìn)程大類的15個(gè)條目,包括細(xì)胞進(jìn)程(237)、代謝進(jìn)程(225)和單一組織進(jìn)程(114)等;分子功能大類的10個(gè)條目,包括催化活性(219)、結(jié)合(207)和結(jié)構(gòu)分子活性(10)等;細(xì)胞組分大類的10個(gè)條目,包括細(xì)胞(214)、細(xì)胞組件(212)和細(xì)胞器(158)等(圖2)。此外,上述新基因還可注釋到KEGG數(shù)據(jù)庫的58條通路,注釋基因數(shù)最多的前5位通路分別是真核生物核糖體的生物合成(24),嘧啶代謝(17),抗生素的生物合成(16),內(nèi)質(zhì)網(wǎng)的蛋白加工(16)和嘌呤代謝(15)(圖3)。括號內(nèi)的數(shù)字代表注釋上的新基因數(shù)量。
1:細(xì)胞外區(qū)域Extracellular region;2:細(xì)胞Cell;3:細(xì)胞膜Cell membrane;4:細(xì)胞膜內(nèi)腔Membrane-enclosed lumen;5:高分子復(fù)合物Macromolecular complex;6:細(xì)胞器Organelle;7:細(xì)胞器組件Organelle part;8:細(xì)胞膜組件Cell membrane part;9:細(xì)胞組件Cell part;10:超分子復(fù)合物Supramolecular complex;11:轉(zhuǎn)錄因子活性,蛋白質(zhì)結(jié)合Transcription factor activity, protein binding;12:核酸結(jié)合轉(zhuǎn)錄因子活性Nucleic acid binding transcription factor activity;13:催化活性Catalytic activity;14:信號轉(zhuǎn)導(dǎo)因子活性Signal transducer activity;15:結(jié)構(gòu)分子活性Structural molecule activity;16:轉(zhuǎn)運(yùn)活性Transporter activity;17:結(jié)合Binding;18:電子載體活性Electron carrier activity;19:抗氧化活性Antioxidant activity;20:分子功能調(diào)節(jié)因子Molecular function regulator;21:繁殖Reproduction;22:代謝進(jìn)程Metabolic process;23:細(xì)胞進(jìn)程Cellular process;24:生殖進(jìn)程Reproductive process;25:生物黏附Biological adhesion;26:信號Signaling;27:發(fā)育進(jìn)程Developmental process;28:生長Growth;29:單一組織進(jìn)程Single-organism process;30:應(yīng)激反應(yīng)Response to stimulus;31:定位Localization;32:多組織進(jìn)程Multi-organism process;33:生物調(diào)控Biological regulation;34:細(xì)胞成分組織或生物合成Cellular component organization or biogenesis;35:解毒Detoxification
表2 基于MISA的東方蜜蜂微孢子蟲SSR的搜索結(jié)果
共鑒定出6 164條新轉(zhuǎn)錄本,其中分別有6 141、2 808、2 932、3 196和2 585條新轉(zhuǎn)錄本可注釋到Nr、KOG、eggNOG、GO和KEGG數(shù)據(jù)庫。新轉(zhuǎn)錄本注釋數(shù)量最多的物種是東方蜜蜂微孢子蟲(5 512),其次為蜜蜂微孢子蟲(263)和家蠶微孢子蟲()(156)(圖4-A)。新轉(zhuǎn)錄本可注釋到KOG數(shù)據(jù)庫的25個(gè)功能類別,注釋轉(zhuǎn)錄本數(shù)最多的是翻譯、核糖體結(jié)構(gòu)和生物合成(370),其次是轉(zhuǎn)錄(337),翻譯后修飾、蛋白折疊和分子伴侶(327),復(fù)制、重組和修復(fù)(319)及RNA的加工與修飾(281)(圖4-B)。此外,新轉(zhuǎn)錄本可注釋到eggNOG數(shù)據(jù)庫的25個(gè)功能類別,注釋轉(zhuǎn)錄本數(shù)最多的是未知功能(557),其次是翻譯、核糖體結(jié)構(gòu)和生物合成(433),復(fù)制、重組和修復(fù)(391),轉(zhuǎn)錄(320)及翻譯后修飾、蛋白折疊和分子伴侶(297)(圖4-C)。括號內(nèi)的數(shù)字代表注釋上的新轉(zhuǎn)錄本數(shù)量。
圖3 東方蜜蜂微孢子蟲新基因的KEGG數(shù)據(jù)庫注釋
GO數(shù)據(jù)庫注釋結(jié)果顯示,東方蜜蜂微孢子蟲的新轉(zhuǎn)錄本還能注釋到生物學(xué)進(jìn)程大類的16個(gè)條目,包括細(xì)胞進(jìn)程(1 973)、代謝進(jìn)程(1 814)和單一組織進(jìn)程(856)等;分子功能大類的10個(gè)條目,包括結(jié)合(1 711)、催化活性(1 561)和結(jié)構(gòu)分子活性(147)等;細(xì)胞組分大類的15個(gè)條目,包括細(xì)胞組件(1 819)、細(xì)胞(1 816)和細(xì)胞器(1 392)等(圖5)。此外,上述新基因還可注釋到KEGG數(shù)據(jù)庫的58條通路,包括真核生物核糖體的生物合成(148)、嘧啶代謝(146)、嘌呤代謝(139)、RNA降解(116)及細(xì)胞周期-酵母(113)等(圖6)。括號內(nèi)數(shù)字代表注釋上的新轉(zhuǎn)錄本數(shù)量。
利用軟件共預(yù)測出2 353個(gè)完整ORF,它們的長度分布介于0—400 aa,其中分布在0—100 aa的ORF數(shù)量最多,為1 697個(gè);分布在100—200、200—300和300—400 aa的ORF分別有603、47和6個(gè)(圖7)。
1:細(xì)胞外區(qū)域Extracellular region;2:細(xì)胞Cell;3:擬核Nucleoid;4:細(xì)胞膜Cell membrane;5:病毒Virion;6:細(xì)胞連接Cell junction;7:細(xì)胞膜內(nèi)腔Membrane-enclosed lumen;8:高分子復(fù)合物Macromolecular complex;9:細(xì)胞器Organelle;10:胞外區(qū)組件Extracellular region part;11:細(xì)胞器組件Organelle part;12:病毒組件Virion part;13:細(xì)胞膜組件Cell membrane part;14:細(xì)胞組件Cell part;15:超分子復(fù)合物Supramolecular complex;16:轉(zhuǎn)錄因子活性,蛋白質(zhì)結(jié)合Transcription factor activity, protein binding;17:核酸結(jié)合轉(zhuǎn)錄因子活性Nucleic acid binding transcription factor activity;18:催化活性Catalytic activity;19:信號轉(zhuǎn)導(dǎo)因子活性Signal transducer activity;20:結(jié)構(gòu)分子活性Structural molecule activity;21:轉(zhuǎn)運(yùn)活性Transporter activity;22:結(jié)合Binding;23:電子載體活性Electron carrier activity;24:分子功能調(diào)控器Molecular function regulator;25:抗氧化活性Antioxidant activity;26:繁殖Reproduction;27:代謝進(jìn)程Metabolic process;28:細(xì)胞進(jìn)程Cellular process;29:生殖進(jìn)程Reproductive process;30:生物黏附Biological adhesion;31:信號Signaling;32:多組織進(jìn)程Multicellular organismal process;33:發(fā)育進(jìn)程Developmental process;34:生長Growth;35:單一組織進(jìn)程Single-organism process;36:應(yīng)激反應(yīng)Response to stimulus;37:定位Localization;38:多細(xì)胞組織進(jìn)程Multi-organism process;39:生物調(diào)控Biological regulation;40:細(xì)胞成分組織或生物合成Cellular component organization or biogenesis;41:解毒Detoxification
近十幾年來,二代測序技術(shù)的迅速發(fā)展和應(yīng)用有力推動(dòng)了動(dòng)物、植物和微生物的基因組和轉(zhuǎn)錄組研究,存儲(chǔ)于公共數(shù)據(jù)庫(如NCBI SRA數(shù)據(jù)庫)的海量二代轉(zhuǎn)錄組測序數(shù)據(jù)已成為完善物種基因組序列和功能注釋的寶貴資源[22-23]。相對于一代和二代測序技術(shù),Nanopore長讀段測序技術(shù)具有超長讀長(平均讀長可達(dá)15 kb)的顯著優(yōu)勢,不需要對測序讀段進(jìn)行拼接就能獲得轉(zhuǎn)錄本的全長序列,所測即所得[24]。本研究利用前期已獲得的全長轉(zhuǎn)錄組數(shù)據(jù)對東方蜜蜂微孢子蟲的基因組注釋進(jìn)行完善,預(yù)測出2 353個(gè)完整ORF,分別延長了1 182和1 158個(gè)基因的5′ UTR和3′ UTR,發(fā)掘出1 658個(gè)SSR位點(diǎn),此外鑒定到954個(gè)新基因和6 164條新轉(zhuǎn)錄本并對它們進(jìn)行了功能注釋。此為利用三代轉(zhuǎn)錄組測序數(shù)據(jù)完善蜜蜂病原基因組注釋的首例報(bào)道。需要注意的是,本研究使用的全長轉(zhuǎn)錄組數(shù)據(jù)來源于東方蜜蜂微孢子蟲的純凈孢子,而孢子是病原的休眠態(tài),僅維持必要的低水平代謝[25],表達(dá)的轉(zhuǎn)錄本必然與病原在侵染過程表達(dá)的轉(zhuǎn)錄本存在差異。目前,筆者團(tuán)隊(duì)已獲得東方蜜蜂微孢子蟲感染7 d和10 d的意大利蜜蜂(,簡稱意蜂)和中華蜜蜂(,簡稱中蜂)工蜂中腸的Nanopore長讀段測序數(shù)據(jù)(未發(fā)表數(shù)據(jù)),下一步將從上述混合數(shù)據(jù)中篩濾出純凈的病原全長轉(zhuǎn)錄組數(shù)據(jù),從而進(jìn)一步對現(xiàn)有的參考基因組注釋進(jìn)行補(bǔ)充和完善。
圖7 東方蜜蜂微孢子蟲的完整ORF編碼氨基酸的長度分布
真核生物的基因表達(dá)調(diào)控與mRNA的UTR密切相關(guān),例如mRNA的5′ UTR不僅能通過與反式作用因子結(jié)合調(diào)控翻譯起始,還能通過控制mRNA的半衰期影響其穩(wěn)定性;miRNA的種子序列能夠與mRNA的3′ UTR靶向結(jié)合,從而抑制mRNA的翻譯或使其降解[26]。前期研究中,筆者團(tuán)隊(duì)利用Illumina HiSeq技術(shù)對東方蜜蜂微孢子蟲的純凈孢子進(jìn)行測序,基于218 468 218條有效讀段(clean reads)分別延長了6個(gè)已注釋基因的5′ UTR和4個(gè)已注釋基因的3′ UTR[27]。本研究基于東方蜜蜂微孢子蟲的Nanopore全長轉(zhuǎn)錄組數(shù)據(jù)分別對1 182和1 158個(gè)基因的5′ UTR和3′ UTR進(jìn)行了延長,說明三代測序數(shù)據(jù)較之二代測序數(shù)據(jù)可以大幅度提高已注釋基因的結(jié)構(gòu)優(yōu)化質(zhì)量,經(jīng)優(yōu)化的5′ UTR和3′ UTR對于深入研究東方蜜蜂微孢子蟲的基因表達(dá)調(diào)控具有重要意義。
SSR是以1—6個(gè)核苷酸為重復(fù)單元組成的簡單串聯(lián)重復(fù)序列,作為第二代分子標(biāo)記,SSR具有共顯性遺傳、重復(fù)性好、實(shí)驗(yàn)操作易及多態(tài)性高等優(yōu)點(diǎn)[28]。SSR開發(fā)的傳統(tǒng)方法以文庫構(gòu)建法為主,過程繁雜、費(fèi)時(shí)費(fèi)力且效率低下[29]。隨著二代測序技術(shù)的不斷進(jìn)步和轉(zhuǎn)錄組數(shù)據(jù)的持續(xù)增多,人們開始利用測序得到的和公共數(shù)據(jù)庫存儲(chǔ)的二代轉(zhuǎn)錄組數(shù)據(jù)大規(guī)模開發(fā)SSR[30-31]。筆者團(tuán)隊(duì)前期也利用二代轉(zhuǎn)錄組數(shù)據(jù)大規(guī)模開發(fā)和驗(yàn)證了蜜蜂球囊菌()、中蜂和意蜂的SSR[32-34],證實(shí)了該方法的可行性。目前,東方蜜蜂微孢子蟲的SSR嚴(yán)重缺乏。本研究基于東方蜜蜂微孢子蟲的高質(zhì)量全長轉(zhuǎn)錄組數(shù)據(jù)發(fā)掘出1 658個(gè)未注釋的SSR位點(diǎn),為現(xiàn)有的參考基因組的注釋提供了有益補(bǔ)充。在前期研究中,利用蜜蜂球囊菌的二代轉(zhuǎn)錄組數(shù)據(jù)開發(fā)出7 968個(gè)SSR,其中最主要的重復(fù)類型為三核苷酸重復(fù)(53.15 %);此外,鑒定出13 448個(gè)中蜂SSR和6 312個(gè)意蜂SSR,其中最豐富的重復(fù)類型均為雙核苷酸重復(fù),占比分別達(dá)到58.03%和54.42%。本研究發(fā)現(xiàn),東方蜜蜂微孢子蟲的SSR中單核苷酸重復(fù)最為豐富,占比高達(dá)97.83%,與球囊菌和中蜂的研究結(jié)果存在差異,說明不同物種SSR的重復(fù)類型具有物種特異性。然而,對于沙蔥螢葉甲()[35]、扶桑綿粉蚧()[31]和黃粉蟲()[30]等昆蟲,SSR的主要重復(fù)類型為單核苷酸重復(fù),與本研究中東方蜜蜂微孢子蟲SSR的主要重復(fù)類型一致,說明有些物種SSR的重復(fù)類型具有共性。此外,通過比較本研究鑒定到的SSR位點(diǎn)數(shù)與前期基于二代測序數(shù)據(jù)鑒定到的SSR位點(diǎn)數(shù)[32-34],發(fā)現(xiàn)前者的數(shù)量明顯少于后者。對于哪種方法的準(zhǔn)確性更高、假陽性更低,仍需要進(jìn)一步深入研究。未來的工作重點(diǎn)是針對發(fā)掘出的SSR位點(diǎn)批量設(shè)計(jì)特異性引物,通過PCR擴(kuò)增和毛細(xì)管電泳驗(yàn)證SSR的有效性及多態(tài)性,并將經(jīng)驗(yàn)證的SSR應(yīng)用于養(yǎng)蜂生產(chǎn)中東方蜜蜂微孢子蟲的菌株鑒定、遺傳分化及基因定位等研究。
現(xiàn)有的東方蜜蜂微孢子蟲參考基因組(assembly ASM98816v1)共注釋了3 264個(gè)基因,包括3 209個(gè)蛋白編碼基因,35個(gè)tRNA基因,18個(gè)假基因和2個(gè)rRNA基因[8]。筆者團(tuán)隊(duì)前期基于東方蜜蜂微孢子蟲的二代轉(zhuǎn)錄組數(shù)據(jù)僅鑒定出27個(gè)新基因[27]。本研究共鑒定到954個(gè)參考基因組未注釋的新基因,占目前注釋基因總數(shù)的約30%,說明基于Nanopore全長轉(zhuǎn)錄組數(shù)據(jù)能夠高效挖掘新基因。本研究中,共有951個(gè)新基因可注釋到Nr數(shù)據(jù)庫,注釋數(shù)量最多的物種是東方蜜蜂微孢子蟲(798,83.91%),與實(shí)際情況相符,其次為蜜蜂微孢子蟲(55),體現(xiàn)了二者同屬屬,親緣關(guān)系近;分別有333、371、422和321個(gè)新基因可注釋到KOG、eggNOG、GO和KEGG數(shù)據(jù)庫,獲得功能注釋信息的新基因數(shù)量仍然偏少。一是由于目前還沒有建立東方蜜蜂微孢子蟲的轉(zhuǎn)基因操作技術(shù)體系,導(dǎo)致絕大多數(shù)的基因功能尚未明確;二是上述4個(gè)數(shù)據(jù)庫收錄的東方蜜蜂微孢子蟲及其近緣物種的功能注釋信息還比較少,需要更多的研究數(shù)據(jù)對其進(jìn)行持續(xù)補(bǔ)充。此外,本研究還鑒定出6 164條參考基因組未注釋的新轉(zhuǎn)錄本,這些含有全長序列的新轉(zhuǎn)錄本為將來的基因克隆和功能研究提供了寶貴的數(shù)據(jù)資源。鑒定到的6 141條新轉(zhuǎn)錄本均能注釋到Nr數(shù)據(jù)庫,注釋數(shù)量最多的物種仍為東方蜜蜂微孢子蟲(5 512,89.76%),其次為蜜蜂微孢子蟲(263,4.28%),與新基因的注釋結(jié)果一致。分別有2 808、2 932、3 196和2 585條新轉(zhuǎn)錄本可注釋到KOG、eggNOG、GO和KEGG數(shù)據(jù)庫,這些功能注釋信息可進(jìn)一步完善現(xiàn)有的東方蜜蜂微孢子蟲參考基因組的注釋。
利用高質(zhì)量的Nanopore全長轉(zhuǎn)錄組數(shù)據(jù)對現(xiàn)有的東方蜜蜂微孢子蟲參考基因組序列和功能注釋進(jìn)行了完善,為分子標(biāo)記研究提供了大量SSR位點(diǎn),補(bǔ)充了參考基因組的基因和轉(zhuǎn)錄本信息。
[1] WHEELER D A, SRINIVASAN M, EGHOLM M, SHEN Y, CHEN L, MCGUIRE A, HE W, CHEN Y J, MAKHIJANI V, ROTH G T,. The complete genome of an individual by massively parallel DNA sequencing. Nature, 2008, 452(7189): 872-876.
[2] XIA Q, ZHOU Z, LU C, CHENG D, DAI F, LI B, ZHAO P, ZHA X, CHENG T, CHAI C,. A draft sequence for the genome of the domesticated silkworm (). Science, 2004, 306(5703): 1937-1940.
[3] The Honeybee Genome Sequencing Consortium. Insights into social insects from the genome of the honeybee. Nature, 2006, 443(7114): 931-949.
[4] KOCHER S D, LI C, YANG W, TAN H, YI S V, YANG X, HOEKSTRA H E, ZHANG G, PIERCE N E, YU D W. The draft genome of a socially polymorphic halictid bee,. Genome Biology, 2013, 14(12): R142.
[5] PARK D, JUNG J W, CHOI B S, JAYAKODI M, LEE J, LIM J, YU Y, CHOI Y S, LEE M L, PARK Y, CHOI I Y, YANG T J, EDWARDS O R, NAH G, KWON H W. Uncovering the novel characteristics of Asian honey bee,, by whole genome sequencing. BMC Genomics, 2015, 16(1): 1.
[6] OLSEN J L, ROUZé P, VERHELST B, LIN Y C, BAYER T, COLLEN J, DATTOLO E, DE PAOLI E, DITTAMI S, MAUMUS F,. The genome of the seagrassreveals angiosperm adaptation to the sea. Nature, 2016, 530(7590): 331-335.
[7] ZHANG G Q, XU Q, BIAN C, TSAI W C, YEH C M, LIU K W, YOSHIDA K, ZHANG L S, CHANG S B, CHEN F,. TheLindlgenome sequence provides insights into polysaccharide synthase, floral development and adaptive evolution. Scientific Reports, 2016, 6: 19029.
[8] PELIN A, SELMAN M,1 ARIS-BROSOU S, FARINELLI L, CORRADI N. Genome analyses suggest the presence of polyploidy and recent human-driven expansions in eight global populations of the honeybee pathogen. Environmental Microbiology, 2015, 17(11): 4443-4458.
[9] LIU B, ZHOU Y, LI K, HU X, WANG C, CAO G, XUE R, GONG C. The complete genome of cyprinid herpesvirus 2, a new strain isolated from. Virus Research, 2018, 256: 6-10.
[10] RHOADS A, AU K F. PacBio sequencing and its applications. Genomics Proteomics Bioinformatics, 2015, 13(5): 278-289.
[11] MAGRINI V, GAO X, ROSA B A, MCGRATH S, ZHANG X, HALLSWORTH-PEPIN K, MARTIN J, HAWDON J, WILSON R K, MITREVA M. Improving eukaryotic genome annotation using single molecule mRNA sequencing.BMC Genomics, 2018, 19(1): 172.
[12] TANG Y T, GAO X, ROSA B A, ABUBUCKER S, HALLSWORTH- PEPIN K, MARTIN J, TYAGI R, HEIZER E, ZHANG X, BHONAGIRI-PALSIKAR V,. Genome of the human hookworm. Nature Genetics, 2014, 46(3): 261-269.
[13] MITREVA M, JASMER D P, ZARLENGA D S, WANG Z, ABUBUCKER S, MARTIN J, TAYLOR C M, YIN Y, FULTON L, MINX P,. The draft genome of the parasitic nematode. Nature Genetics, 2011, 43(3): 228-235.
[14] PENDLETON M, SEBRA R, PANG A W C, UMMAT A, FRANZEN O, RAUSCH T, STüTZ A M, STEDMAN W, ANANTHARAMAN T, HASTIE A,. Assembly and diploid architecture of an individual human genome via single-molecule technologies. Nature Methods, 2015, 12(8): 780-786.
[15] SHIELDS E J, SHENG L, WEINER A K, GARCIA B A, BONASIO R. High-quality genome assemblies reveal long non-coding RNAs expressed in ant brains. Cell Reports, 2018, 23(10): 3078-3090.
[16] DACCORD N, CELTON J M, LINSMITH G, BECKER C, CHOISNE N, SCHIJLEN E, VAN DE GEEST H, BIANCO L, MICHELETTI D, VELASCO R,. High-qualityassembly of the apple genome and methylome dynamics of early fruit development. Nature Genetics, 2017, 49(7): 1099-1106.
[17] DONG L, LIU H, ZHANG J, YANG S, KONG G, CHU S C, CHEN N, WANG D. Single-molecule real-time transcript sequencing facilitates common wheat genome annotation and grain transcriptome research. BMC Genomics, 2015, 16(1): 1039.
[18] CORNMAN R S, CHEN Y P, SCHATZ M C, STREET S, ZHAO Y, DESANY B, EGHOLM M, HUTCHISON S, PETTIS J S, LIPKIN W I, EVANS J D. Genomic analyses of the microsporidian, an emergent pathogen of honey bees. PLoS Pathogens, 2009, 5(6): e1000466.
[19] 陳華枝, 杜宇, 范小雪, 祝智威, 蔣海賓, 王杰, 范元嬋, 熊翠玲, 鄭燕珍, 付中民, 徐國鈞, 陳大福, 郭睿. 基于第三代納米孔測序技術(shù)的東方蜜蜂微孢子蟲全長轉(zhuǎn)錄組構(gòu)建及注釋. 昆蟲學(xué)報(bào), 2020, 63(12): 1461-1472.
CHEN H Z, DU Y, FAN X X, ZHU Z W, JIANG H B, WANG J, FAN Y C, XIONG C L, ZHENG Y Z, FU Z M, XU G J, CHEN D F, GUO R. Construction and annotation of the full-length transcriptome ofbased on the third-generation nanopore sequencing technology. Acta Entomologica Sinica, 2020, 63(12): 1461-1472. (in Chinese)
[20] 陳華枝, 范小雪, 范元嬋, 王杰, 祝智威, 蔣海賓, 張文德, 隆琦, 熊翠玲, 鄭燕珍, 付中民, 徐國鈞, 陳大福, 郭睿. 東方蜜蜂微孢子蟲基因的可變剪接及可變腺苷酸化解析. 菌物學(xué)報(bào), 2021, 40(1): 161-173.
CHEN H Z, FAN X X, FAN Y C, WANG J, ZHU Z W, JIANG H B, ZHANG W D, LONG Q, XIONG C L, ZHENG Y Z, FU Z M, XU G J, CHEN D F, GUO R. Analysis of alternative splicing and alternative polyadenylation ofgenes. Mycosystema, 2021, 40(1): 161-173. (in Chinese)
[21] THIEL T, MICHALEK W, VARSHNEY R, GRANER A. Exploiting EST databases for the development and characterization of gene- derived SSR-markers in barley (L.). Theoretical and Applied Genetics, 2003, 106(3): 411-422.
[22] 郭睿, 陳華枝, 童新宇, 熊翠玲, 鄭燕珍, 付中民, 解彥玲, 王海朋, 趙紅霞, 陳大福. 蜜蜂球囊菌基因結(jié)構(gòu)優(yōu)化及新基因鑒定. 中國農(nóng)業(yè)大學(xué)學(xué)報(bào), 2019, 24(1): 61-68.
GUO R, Chen H Z, Tong X Y, XIONG C L, ZHENG Y Z, FU Z M, XIE Y L, WANG H P, ZHAO H X, CHEN D F. Structural optimization of annotated genes and identification of novel genes in. Journal of China Agricultural University, 2019, 24(1): 61-68. (in Chinese)
[23] 熊翠玲, 王海朋, 鄭燕珍, 付中民, 徐國均, 童新宇, 趙紅霞, 陳大福, 郭睿. 基于中華蜜蜂幼蟲腸道轉(zhuǎn)錄組數(shù)據(jù)對東方蜜蜂基因組的基因結(jié)構(gòu)優(yōu)化及新基因鑒定. 中國農(nóng)業(yè)大學(xué)學(xué)報(bào), 2019, 24(3): 86-93.
XIONG C L, WANG H P, ZHENG Y Z, FU Z M, XU G J, TONG X Y, ZHAO H X, CHEN D F, GUO R. Gene structure optimization and identification of novel genes ingenome: Based on the transcriptome data obtained from larval gut.Journal of China Agricultural University, 2019, 24(3): 86-93. (in Chinese)
[24] CHENG B, FURTADO A, HENRY R J. Long-read sequencing of the coffee bean transcriptome reveals the diversity of full-length transcripts. Giga Science, 2017, 6(11): 1-13.
[25] GUO R, CHEN D F, XIONG C L, HOU C S, ZHENG Y Z, FU Z M, LIANG Q, DIAO Q Y, ZHANG L, WANG H Q, HOU Z X, KUMAR D. First identification of long non-coding RNAs in fungal parasite. Apidologie, 2018, 49(5): 660-670.
[26] BARRETT L W, FLETCHER S, WILTON S D. Regulation of eukaryotic gene expression by the untranslated gene regions and other non-coding elements.Cellular and Molecular Life Sciences, 2012, 69(21): 3613-3634.
[27] 熊翠玲, 童新宇, 陳華枝, 耿四海, 莊天藝, 鄭燕珍,付中民, 陳大福, 趙紅霞, 郭睿. 東方蜜蜂微孢子蟲的基因結(jié)構(gòu)優(yōu)化及新基因鑒定. 環(huán)境昆蟲學(xué)報(bào), 2019, 41(2): 373-379.
XIONG C L, TONG X Y, CHEN H Z, GENG S H, ZHUANG T Y, ZHENG Y Z, FU Z M, CHEN D F, ZHAO H X, GUO R. Optimization of gene structure and identification of novel genes in. Journal of Environmental Entomology, 2019, 41(2): 373-379. (in Chinese)
[28] JARNE P, LAGODA P J. Microsatellites, from molecules to populations and back. Trends in Ecology and Evolution, 1996, 11(10): 424-429.
[29] ZANE L, BARGELLONI L, PATARNELLO T. Strategies for microsatellite isolation: A review. Molecular ecology, 2002, 11(1): 1-16.
[30] 朱家穎, 吳國星, 楊斌. 基于轉(zhuǎn)錄組數(shù)據(jù)高通量發(fā)掘黃粉甲微衛(wèi)星引物. 昆蟲學(xué)報(bào), 2013, 56(7): 724-728.
ZHU J Y, WU G X, YANG B. High-throughput discovery of SSR genetic markers in the yellow mealworm beetle,(Coleoptera: Tenebrionidae), from its transcriptome database. Acta Entomologica Sinica, 2013, 56(7): 724-728. (in Chinese)
[31] 羅梅, 張鶴, 賓淑英, 林進(jìn)添. 基于轉(zhuǎn)錄組數(shù)據(jù)高通量發(fā)掘扶桑綿粉蚧微衛(wèi)星引物. 昆蟲學(xué)報(bào), 2014, 57(4): 395-400.
LUO M, ZHANG H, BIN S Y, LIN J T. High-throughput discovery of SSR genetic markers in the mealybug,(Hemiptera: Pseudococcidae), from its transcriptome database. Acta Entomologica Sinica, 2014, 57(4): 395-400. (in Chinese)
[32] 李汶東, 熊翠玲, 王鴻權(quán), 侯志賢, 童新宇, 張璐, 付中民, 鄭燕珍, 陳大福, 郭睿. 基于RNA-seq數(shù)據(jù)大規(guī)模挖掘蜜蜂球囊菌的SSR分子標(biāo)記. 福建農(nóng)林大學(xué)學(xué)報(bào)(自然科學(xué)版), 2017, 46(4): 434-438.
LI W D, XIONG C L, WANG H Q, HOU Z X, TONG X Y, ZHANG L, FU Z M, ZHENG Y Z, CHEN D F, GUO R. Large scale development of SSR molecular markers ofbased on RNA-seq data. Journal of Fujian Agriculture and Forestry University (Natural Science Edition), 2017, 46(4): 434-438. (in Chinese)
[33] 熊翠玲, 張璐, 付中民, 王鴻權(quán), 侯志賢, 童新宇, 李汶東, 鄭燕珍, 陳大福, 郭睿. 基于RNA-seq數(shù)據(jù)大規(guī)模開發(fā)中華蜜蜂幼蟲的SSR分子標(biāo)記. 環(huán)境昆蟲學(xué)報(bào), 2017, 39(1): 68-74.
XIONG C L, ZHANG L, FU Z M, WANG H Q, HOU Z X, TONG X Y, LI W D, ZHENG Y Z, CHEN D F, GUO R. Large-scale development of SSR primers forlarvae based on its RNA-seq datasets. Journal of Environmental Entomology, 2017, 39(1): 68-74. (in Chinese)
[34] 郭睿, 陳華枝, 莊天藝, 熊翠玲, 鄭燕珍, 付中民, 陳恒, 陳大福. 利用轉(zhuǎn)錄組數(shù)據(jù)開發(fā)意大利蜜蜂的SSR分子標(biāo)記. 安徽農(nóng)業(yè)大學(xué)學(xué)報(bào), 2018, 45(3): 404-408.
GUO R, CHEN H Z, ZHUANG T Y, XIONG C L, ZHENG Y Z, FU Z M, CHEN H, CHEN D F. Exploitation of SSR markers forligustica based on transcriptome data. Journal of Anhui Agricultural University, 2018, 45(3): 404-408. (in Chinese)
[35] 張鵬飛, 周曉榕, 龐保平, 譚瑤, 常靜, 高利軍. 基于轉(zhuǎn)錄組數(shù)據(jù)高通量發(fā)掘沙蔥螢葉甲微衛(wèi)星引物. 應(yīng)用昆蟲學(xué)報(bào), 2016, 53(5): 1058-1064.
ZHANG P F, ZHOU X R, PANG B P, TAN Y, CHANG J, GAO L J. High-throughput discovery of microsatellite markers in(Coleoptera: Chrysomelidae) from a transcriptome database. Chinese Journal of Applied Entomology, 2016, 53(5): 1058-1064. (in Chinese)
Improvement ofGenome annotation based on Nanopore full-length transcriptome data
CHEN Huazhi1, FAN Yuanchan1, JIANG Haibin1, WANG Jie1, FAN Xiaoxue1, ZHU Zhiwei1, LONG Qi1, CAI Zongbing1, ZHENG Yanzhen1, FU Zhongmin1,2, XU Guojun1, CHEN Dafu1,2, GUO Rui1,2
1College of Animal Sciences (College of Bee Science), Fujian Agriculture and Forestry University, Fuzhou 350002;2Apitherapy Research Institute, Fujian Agriculture and Forestry University, Fuzhou 350002
【】The objective of this study is to improve gene sequence and functional annotation of current reference genome ofusing previously obtained Nanopore full-length transcriptome dataset.【】TransDecoder software was used to predict open reading frames (ORFs) ofand corresponding amid acids. Comparison between full-length transcripts and transcripts annotated in reference genome was performed using gffcompare software to extend upstream sequences or downstream sequences of annotated genes’ untranslated regions and correct genes’ boundaries. MISA software was used to explore simple sequence repeat (SSR) loci within transcripts with a length above 500 bp, including single nucleotide repeat, dinucleotide repeat, trinucleotide repeat, tetranucleotide repeat, pentanucleotide repeat, hexanucleotide repeat and mixed SSR. By using Blast tool, novel genes and novel transcripts were aligned to Nr, KOG, eggnog, GO and KEGG databases to gain functional annotations.【】A total of 2 353 complete ORFs were predicted, and those ORFs with a length distribution among 0-100 aa were the predominant, reaching a ratio of 72.12% among total ORFs. Additionally, structures of 2 340genes were optimized; 5′ ends of 1 182 genes and 3′ ends of 1 158 genes were respectively prolonged. Moreover, 1 658 SSRs were identified, and the numbers of single nucleotide repeat, dinucleotide repeat, trinucleotide repeat, tetranucleotide repeat were 1 622, 23, seven and six, respectively. the density of single nucleotide repeat was the highest (182.32/Mb), followed by those of mixed SSR, dinucleotide repeat and trinucleotide repeat, reaching 6.90, 2.78 and 0.73/Mb, respectively. Further, 954 novel genes were identified, among them 951, 333, 371, 422 and 321 were respectively annotated to Nr, KOG, eggNOG, GO and KEGG databases. In addition, 6 164 novel transcripts were identified, among them 6 141, 2 808, 2 932, 3 196 and 2 585 were annotated to the aforementioned five databases, respectively. The species annotated by the highest number of new gene and new transcript wasfollowed by. 【】Our results well improve sequences and functional annotations of annotated genes in current reference genome of, and supplement and annotate a number of unannotated novel genes and transcripts. lots of SSR sites were provided for research on molecular markers, information of genes and transcripts on reference genome were supplemented.
nanopore sequencing; full-length transcript; transcriptome; genome; honeybee;
10.3864/j.issn.0578-1752.2021.06.018
2020-05-06;
2020-05-28
國家現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)技術(shù)體系建設(shè)專項(xiàng)(CARS-44-KXJ7)、福建省自然科學(xué)基金(2018J05042)、福建農(nóng)林大學(xué)杰出青年科研人才計(jì)劃(xjq201814)、福建農(nóng)林大學(xué)科技創(chuàng)新專項(xiàng)基金(CXZX2017342,CXZX2017343)、福建農(nóng)林大學(xué)優(yōu)秀碩士學(xué)位論文資助基金(陳華枝)
陳華枝,E-mail:CHZ0720@outlook.com。范元嬋,E-mail:fanyc19980201@126.com。陳華枝和范元嬋為同等貢獻(xiàn)作者。通信作者郭睿,E-mail:ruiguo@fafu.edu.cn
(責(zé)任編輯 岳梅)