• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于蜜蜂球囊菌納米孔測(cè)序數(shù)據(jù)的基因非翻譯區(qū)延長(zhǎng)、SSR位點(diǎn)發(fā)掘及未注釋基因和轉(zhuǎn)錄本鑒定

      2021-01-12 11:38:22付中民祝智威馮睿蓉王秀娜蔣海賓范元嬋范小雪熊翠玲鄭燕珍徐國(guó)鈞陳大福
      昆蟲學(xué)報(bào) 2020年11期
      關(guān)鍵詞:球囊蜜蜂基因組

      杜 宇, 付中民, 祝智威, 王 杰, 馮睿蓉, 王秀娜, 蔣海賓,范元嬋, 范小雪, 熊翠玲, 鄭燕珍, 徐國(guó)鈞, 陳大福, 郭 睿,*

      (1. 福建農(nóng)林大學(xué)動(dòng)物科學(xué)學(xué)院(蜂學(xué)學(xué)院), 福州 350002; 2. 福建農(nóng)林大學(xué)生命科學(xué)學(xué)院, 福州 350002;3. 福建農(nóng)林大學(xué), 福建省病原真菌與真菌毒素重點(diǎn)實(shí)驗(yàn)室, 福州 350002)

      蜜蜂是自然界最重要的授粉昆蟲,在農(nóng)業(yè)生產(chǎn)和生態(tài)維持方面發(fā)揮不可替代的作用(Montoya-Pfeifferetal., 2020)。此外,蜜蜂生產(chǎn)的蜂王漿、蜂蜜、蜂膠和蜂蠟等蜂產(chǎn)品具有重要的經(jīng)濟(jì)和藥用價(jià)值(Ahmadetal., 2020)。但作為群居性昆蟲,蜜蜂易遭受細(xì)菌、真菌和病毒等病原微生物的侵襲而罹患疾病。其中,蜜蜂白堊病是一種長(zhǎng)期困擾養(yǎng)蜂生產(chǎn)的頑疾,由蜜蜂球囊菌Ascopshaeraapis侵染蜜蜂幼蟲而引發(fā)(Jensenetal., 2013)。到目前為止,養(yǎng)蜂生產(chǎn)中對(duì)于白堊病仍缺乏有效的防治手段(陳大福等, 2017)。

      Qin等(2006)通過(guò)對(duì)蜜蜂球囊菌0.5-1 A和A10菌株進(jìn)行Sanger測(cè)序,組裝了蜜蜂球囊菌的基因組草圖,但作者當(dāng)時(shí)僅公布了基因序列信息,并沒(méi)有同時(shí)公布基因功能注釋信息,導(dǎo)致該版本的基因組長(zhǎng)期無(wú)法被有效利用,阻礙了蜜蜂球囊菌的進(jìn)一步研究。Shang等(2016)運(yùn)用二代測(cè)序技術(shù)對(duì)蜜蜂球囊菌ARSEF 7405菌株進(jìn)行測(cè)序,重新組裝和注釋了scafford水平的蜜蜂球囊菌參考基因組(AAP 1.0),同時(shí)公布了完整的基因序列和基因功能注釋信息,為該真菌病原的組學(xué)和分子生物學(xué)研究奠定了基礎(chǔ)。由于測(cè)序技術(shù)的限制,除人類(Audanoetal., 2019)、小鼠Musmusculus(Mouse Genome Sequencing Consortium, 2009)和黑腹果蠅Drosophilamelanogaster(Solaresetal., 2018)等極少數(shù)模式生物的基因組組裝到染色體水平外,多數(shù)物種的基因組僅組裝到contig或scafford水平,仍有較大的提升空間。近年來(lái),以牛津納米孔(Oxford Nanopore)長(zhǎng)讀段測(cè)序技術(shù)和PacBio單分子實(shí)時(shí)(single-molecule real-time, SMRT)測(cè)序技術(shù)為代表的三代測(cè)序技術(shù)逐漸興起并快速發(fā)展。三代測(cè)序技術(shù)因具有超長(zhǎng)讀長(zhǎng)的顯著優(yōu)勢(shì)而能夠輕松跨越重復(fù)序列,目前已成為基因組研究的利器(Luetal., 2016; Nakanoetal., 2017)。人們已利用純?nèi)鷾y(cè)序或三代測(cè)序結(jié)合二代測(cè)序?qū)⑷祟?Pendletonetal., 2015)、跳鐮猛蟻Harpegnathossaltator(Shieldsetal., 2018)和蘋果Malusdomestica(Daccordetal., 2017)等物種的基因組組裝到染色體水平。但目前基于三代測(cè)序技術(shù)的基因組測(cè)序成本較高,對(duì)一些基因組較大的物種進(jìn)行基因組測(cè)序成本仍然高昂;對(duì)于一些經(jīng)費(fèi)有限的實(shí)驗(yàn)室,利用三代測(cè)序技術(shù)進(jìn)行基因組測(cè)序還存在較大困難。與基于三代測(cè)序技術(shù)的基因組測(cè)序相比,通過(guò)三代測(cè)序技術(shù)進(jìn)行轉(zhuǎn)錄組測(cè)序的周期較短且成本較低(Magrinietal., 2018),因此利用三代全長(zhǎng)轉(zhuǎn)錄組數(shù)據(jù)對(duì)現(xiàn)有的參考基因組注釋進(jìn)行完善是可行性較高的替代策略。近期,利用PacBio SMRT測(cè)序得到的全長(zhǎng)轉(zhuǎn)錄組數(shù)據(jù)對(duì)錫蘭勾蟲Ancylostomaceylanicum(Magrinietal., 2018)和小麥Triticumaestivum(Dongetal., 2015)基因組注釋進(jìn)行完善的研究已見(jiàn)諸報(bào)道。然而,利用基于Nanopore測(cè)序得到的長(zhǎng)讀段數(shù)據(jù)對(duì)基因組注釋進(jìn)行完善的研究報(bào)道匱乏。

      為開(kāi)展蜜蜂球囊菌的全長(zhǎng)轉(zhuǎn)錄組研究,筆者前期已利用Nanopore長(zhǎng)讀段測(cè)序技術(shù)對(duì)蜜蜂球囊菌的純化菌絲(AaM)和純化孢子(AaS)分別進(jìn)行測(cè)序,基于高質(zhì)量的測(cè)序數(shù)據(jù)構(gòu)建和注釋了蜜蜂球囊菌的首個(gè)全長(zhǎng)轉(zhuǎn)錄組(未發(fā)表數(shù)據(jù));并對(duì)蜜蜂球囊菌基因的可變剪切和可變腺苷酸化進(jìn)行了系統(tǒng)鑒定和分析(未發(fā)表數(shù)據(jù))。本研究利用已獲得的高質(zhì)量Nanopore長(zhǎng)讀段測(cè)序?qū)ΜF(xiàn)有的蜜蜂球囊菌參考基因組中已注釋基因進(jìn)行結(jié)構(gòu)優(yōu)化,對(duì)未注釋的簡(jiǎn)單重復(fù)序列(simple sequence repeat, SSR)位點(diǎn)進(jìn)行鑒定,進(jìn)而對(duì)未注釋的新基因和新轉(zhuǎn)錄本進(jìn)行鑒定和功能注釋,并預(yù)測(cè)完整開(kāi)放閱讀框(open reading frame, ORF)。研究結(jié)果可為蜜蜂球囊菌參考基因組的序列和功能注釋提供重要補(bǔ)充,也能為其他物種的基因組完善提供思路和方法借鑒。

      1 材料與方法

      1.1 長(zhǎng)讀段測(cè)序數(shù)據(jù)來(lái)源

      前期已通過(guò)Oxford Nanopore技術(shù)對(duì)來(lái)源于純培養(yǎng)的蜜蜂球囊菌AaM和AaS分別進(jìn)行全長(zhǎng)轉(zhuǎn)錄組測(cè)序,獲得了高質(zhì)量的長(zhǎng)讀段測(cè)序數(shù)據(jù),分別測(cè)得6 321 704和6 259 727條原始讀段(raw reads),居中長(zhǎng)度(N50)分別為1 094和1 157 bp,平均讀長(zhǎng)分別為992和1 047 bp,最大讀長(zhǎng)分別為9 421和13 060 bp;分別鑒定出9 859和16 795條非冗余全長(zhǎng)轉(zhuǎn)錄本,N50分別達(dá)1 482和1 658 bp,平均長(zhǎng)度分別為1 187和1 303 bp,最大長(zhǎng)度分別為6 472和6 815 bp (未發(fā)表數(shù)據(jù))。納米孔測(cè)序原始數(shù)據(jù)已上傳NCBI SRA數(shù)據(jù)庫(kù),獲得BioProject號(hào): PRJNA645872。

      1.2 基因結(jié)構(gòu)優(yōu)化

      由于軟件和數(shù)據(jù)本身的局限性,導(dǎo)致多數(shù)基因組的基因結(jié)構(gòu)信息不夠精確,需要進(jìn)一步優(yōu)化。為最大限度對(duì)蜜蜂球囊菌的參考基因組注釋進(jìn)行完善,本研究將AaM和AaS的長(zhǎng)讀段測(cè)序數(shù)據(jù)混合后采用gffcompare軟件(http:∥ccb.jhu.edu/software/stringtie/gffcompare.shtml)將鑒定到蜜蜂球囊菌的全長(zhǎng)轉(zhuǎn)錄本與蜜蜂球囊菌參考基因組(AAP 1.0)注釋的轉(zhuǎn)錄本進(jìn)行比較,然后對(duì)基因組注釋的基因結(jié)構(gòu)信息進(jìn)行優(yōu)化。若在注釋基因邊界之外的區(qū)域有比對(duì)上的讀段(mapped reads)支持,則將注釋基因的非翻譯區(qū)(untranslated region, UTR)向上游或下游延伸以修正注釋基因的邊界。

      1.3 完整ORF的生物信息學(xué)預(yù)測(cè)

      利用TransDecoder軟件(http:∥transdecoder.sourceforge.net/)基于ORF長(zhǎng)度、對(duì)數(shù)似然函數(shù)值、氨基酸序列及Pfam數(shù)據(jù)庫(kù)蛋白質(zhì)結(jié)構(gòu)域序列的比對(duì)等信息,從蜜蜂球囊菌AaM和AaS的長(zhǎng)讀段測(cè)序混合數(shù)據(jù)鑒定到的新轉(zhuǎn)錄本序列中識(shí)別可靠的潛在編碼區(qū)序列(coding sequence, CDS)及其對(duì)應(yīng)氨基酸序列,同時(shí)預(yù)測(cè)包含起始密碼子和終止密碼子的完整ORF。

      1.4 SSR位點(diǎn)的鑒定及分析

      MISA軟件(http: ∥pgrc.ipk-gatersleben.de/misa/)可以通過(guò)分析轉(zhuǎn)錄本序列鑒定出8種類型的SSR,包括單核苷酸重復(fù)(p1)、雙核苷酸重復(fù)(p2)、三核苷酸重復(fù)(p3)、四核苷酸重復(fù)(p4)、五核苷酸重復(fù)(p5)、六核苷酸重復(fù)(p6)、混合SSR(c和c*)(即兩個(gè)SSR之間的距離小于100 bp),其中c類型的SSR重復(fù)序列之間包含若干個(gè)堿基,而c*類型的SSR重復(fù)序列之間沒(méi)有或只有一個(gè)其他堿基(Thieletal., 2003)。從去冗余的蜜蜂球囊菌全長(zhǎng)轉(zhuǎn)錄本中篩選長(zhǎng)度在500 bp以上的全長(zhǎng)轉(zhuǎn)錄本,利用MISA軟件預(yù)測(cè)SSR位點(diǎn),采用默認(rèn)參數(shù)。

      1.5 新基因和新轉(zhuǎn)錄本的鑒定及功能注釋

      通過(guò)將蜜蜂球囊菌的全長(zhǎng)轉(zhuǎn)錄本與參考基因組注釋的基因和轉(zhuǎn)錄本進(jìn)行比較,鑒定現(xiàn)有參考基因組上未注釋的新基因和新轉(zhuǎn)錄本。利用Blast工具將上述新基因和新轉(zhuǎn)錄本分別比對(duì)Nr, Swiss-Prot, Pfam, KOG, eggNOG, GO和KEGG數(shù)據(jù)庫(kù)以獲得相應(yīng)的功能注釋。

      2 結(jié)果

      2.1 蜜蜂球囊菌參考基因組已注釋基因的5′UTR和3′UTR延長(zhǎng)

      共對(duì)蜜蜂球囊菌的9 481個(gè)基因的結(jié)構(gòu)進(jìn)行優(yōu)化,其中5′UTR和3′UTR延長(zhǎng)的基因分別有4 744和4 737個(gè)。部分蜜蜂球囊菌基因的結(jié)構(gòu)優(yōu)化信息如表1所示。

      表1 蜜蜂球囊菌參考基因組已注釋的10個(gè)基因的結(jié)構(gòu)優(yōu)化信息概要

      2.2 蜜蜂球囊菌基因組中完整ORF預(yù)測(cè)

      共預(yù)測(cè)出10 492個(gè)完整ORF,它們編碼的氨基酸序列長(zhǎng)度分布介于0~400 aa,其中分布在0~100 aa的ORF數(shù)量最多,為4 088個(gè)(占38.96%);其次為分布在100~200, 200~300和300~400 aa的ORF,數(shù)量分別為3 872個(gè)(占36.90%), 1 525個(gè)(占14.53%)和595個(gè)(占5.67%)(圖1)。

      2.3 蜜蜂球囊菌參考基因組未注釋SSR位點(diǎn)

      本研究在24 294 167 bp的序列中共鑒定到5 286個(gè)SSR位點(diǎn),含有SSR位點(diǎn)超過(guò)1個(gè)的基因數(shù)為1 004個(gè),混合SSR位點(diǎn)有434個(gè)。此外,p1, p2, p3, p4, p5和p6的數(shù)量分別為1 870, 826, 2 398, 138, 43和11個(gè)(表2)。進(jìn)一步分析發(fā)現(xiàn),p3類型的SSR密度最大,達(dá)到83.72個(gè)/Mb,其次為p1, p2, c, p4, p5, c*和p6,分別達(dá)到65.20, 27.91, 15.77, 4.86, 1.48, 0.45和0.33個(gè)/Mb(圖2)。

      表2 蜜蜂球囊菌參考基因組中SSR位點(diǎn)的MISA軟件分析結(jié)果

      2.4 蜜蜂球囊菌參考基因組中未注釋的新基因的鑒定及功能注釋

      圖2 蜜蜂球囊菌參考基因組中不同類型SSR的密度統(tǒng)計(jì)

      共鑒定到1 558個(gè)新基因,其中分別有1 556, 731, 330, 592, 1 177, 709和589個(gè)新基因可分別被注釋到Nr, Swiss-Prot, Pfam, KOG, eggNOG, GO和KEGG數(shù)據(jù)庫(kù)。Nr數(shù)據(jù)庫(kù)中新基因注釋數(shù)量最多的物種是蜜蜂球囊菌,其次為Polytolypahystricis和伊蒙微小菌Emmonsiaparva(圖3: A)。新基因可注釋到KOG數(shù)據(jù)庫(kù)的25個(gè)功能類別,注釋數(shù)量最多的是僅一般功能預(yù)測(cè)(general function prediction only),其次是翻譯后修飾、蛋白質(zhì)轉(zhuǎn)換和分子伴侶(posttranslational modification, protein turnover, chaperones),氨基酸轉(zhuǎn)運(yùn)和代謝(amino acid transport and metabolism),信號(hào)轉(zhuǎn)導(dǎo)機(jī)制(signal transduction mechanisms)以及翻譯、核糖體結(jié)構(gòu)和生物合成(translation, ribosomal structure and biogenesis)等(圖3: B)。此外,新基因可被注釋到eggNOG數(shù)據(jù)庫(kù)的25個(gè)功能類別,數(shù)量最多的為未知功能(function unknown),其次為碳水化合物轉(zhuǎn)運(yùn)及代謝(carbohydrate transport and metabolism),翻譯后修飾、蛋白質(zhì)轉(zhuǎn)換和分子伴侶,細(xì)胞內(nèi)移動(dòng)、分泌和囊泡運(yùn)輸(intracellular trafficking, secretion, and vesicular transport),轉(zhuǎn)錄(transcription)以及翻譯、核糖體結(jié)構(gòu)和生物合成等(圖3: C)。

      圖3 蜜蜂球囊菌參考基因組中新基因的Nr(A)、KOG(B)和eggNOG(C)數(shù)據(jù)庫(kù)注釋

      蜜蜂球囊菌的新基因還能被注釋到GO數(shù)據(jù)庫(kù)的37個(gè)功能條目,包括細(xì)胞組件(cell part)(347個(gè)),細(xì)胞(cell)(340個(gè)),細(xì)胞器(organelle)(262個(gè))等細(xì)胞組分相關(guān)GO term;催化活性(catalytic activity)(328個(gè)),結(jié)合(binding)(254個(gè))等分子功能相關(guān)GO term;細(xì)胞進(jìn)程(cellular process)(359個(gè)),代謝進(jìn)程(metabolism process)(340個(gè)),單一組織進(jìn)程(single-organism process)(245個(gè))等生物學(xué)過(guò)程相關(guān)GO term(圖4)。

      此外,上述新基因還可被注釋到KEGG數(shù)據(jù)庫(kù)的101條通路,包括抗生素的生物合成(biosynthesis of antibiotics)(52個(gè)),碳代謝(carbon metabolism)(29個(gè)),氨基酸的生物合成(biosynthesis of amino acids)(27個(gè)),剪接體(spliceosome)(23個(gè)),糖酵解/糖異生(glycolysis/gluconeogenesis)(20個(gè)),細(xì)胞周期-酵母(cell cycle-yeast)(20個(gè)),核糖體(ribosome)(18個(gè)),RNA轉(zhuǎn)運(yùn)(RNA transport)(18個(gè)),泛素介導(dǎo)的蛋白水解(ubiquitin mediated proteolysis)(15個(gè))以及嘌呤代謝(purine metabolism)(14個(gè))等(圖5),條目或通路后的括號(hào)內(nèi)數(shù)字代表注釋的新基因占比。

      圖5 蜜蜂球囊菌參考基因組中新基因的KEGG數(shù)據(jù)庫(kù)注釋

      2.5 蜜蜂球囊菌參考基因組中未注釋的新轉(zhuǎn)錄本的鑒定及功能注釋

      共鑒定出14 403條新轉(zhuǎn)錄本,其中分別有14 376, 8 524, 7 276, 7 405, 12 035, 7 891和6 855條新轉(zhuǎn)錄本可被分別注釋到Nr, Swiss-Prot, Pfam, KOG, eggNOG, GO和KEGG數(shù)據(jù)庫(kù)。Nr數(shù)據(jù)庫(kù)中新轉(zhuǎn)錄本注釋數(shù)量最多的物種是蜜蜂球囊菌,其次為Polytolypahystricis和Helicocarpusgriseus(圖6: A)。新轉(zhuǎn)錄本可被注釋到KOG數(shù)據(jù)庫(kù)的25個(gè)功能類別,包括僅一般功能預(yù)測(cè),翻譯、核糖體結(jié)構(gòu)和生物合成,翻譯后修飾、蛋白質(zhì)轉(zhuǎn)換和分子伴侶,信號(hào)轉(zhuǎn)導(dǎo)機(jī)制,氨基酸轉(zhuǎn)運(yùn)和代謝,細(xì)胞內(nèi)移動(dòng)、分泌和囊泡運(yùn)輸,能量生產(chǎn)和轉(zhuǎn)換(energy production and conversion),RNA加工與修飾(RNA processing and modification),未知功能以及碳水化合物轉(zhuǎn)運(yùn)及代謝等(圖6: B)。此外,新轉(zhuǎn)錄本還可被注釋到eggNOG數(shù)據(jù)庫(kù)的25個(gè)功能類別,包括未知功能,翻譯、核糖體結(jié)構(gòu)和生物合成,翻譯后修飾、蛋白質(zhì)轉(zhuǎn)換和分子伴侶,細(xì)胞內(nèi)移動(dòng)、分泌和囊泡運(yùn)輸,碳水化合物轉(zhuǎn)運(yùn)及代謝,氨基酸轉(zhuǎn)運(yùn)和代謝,轉(zhuǎn)錄,能量生產(chǎn)和轉(zhuǎn)換,脂轉(zhuǎn)運(yùn)及代謝(lipid transport and metabolism)以及信號(hào)轉(zhuǎn)導(dǎo)機(jī)制等(圖6: C)。圖6括號(hào)內(nèi)數(shù)字代表注釋到該條目或通路的新轉(zhuǎn)錄本數(shù)量和占比。

      圖6 蜜蜂球囊菌參考基因組中新轉(zhuǎn)錄本的Nr(A)、KOG(B)和eggNOG(C)數(shù)據(jù)庫(kù)注釋

      上述新轉(zhuǎn)錄本還能被注釋到GO數(shù)據(jù)庫(kù)的44個(gè)功能條目,主要涉及細(xì)胞(4 494條),細(xì)胞組件(4 448條),細(xì)胞器(3 356條),細(xì)胞膜(2 332條),大分子復(fù)合物(macromolecular complex)(1 951條)等細(xì)胞組分相關(guān)GO term;催化活性(3 539條),結(jié)合(2 976條)等分子功能相關(guān)GO term;細(xì)胞進(jìn)程(4 281條),代謝進(jìn)程(4 055條),單一組織進(jìn)程(2 584條)等生物學(xué)過(guò)程相關(guān)GO term(圖7)。

      此外,這些新轉(zhuǎn)錄本還可被注釋到KEGG數(shù)據(jù)庫(kù)的119條通路,注釋數(shù)量最多的是抗生素的生物合成(550條),其次是核糖體(495條),氨基酸的生物合成(284條),碳代謝(275條)及剪接體(253條)等(圖8)。

      圖8 蜜蜂球囊菌參考基因組中新轉(zhuǎn)錄本的KEGG數(shù)據(jù)庫(kù)注釋

      3 討論

      目前,蜜蜂球囊菌的基因組尚未組裝到染色體水平,其序列和功能注釋信息仍需進(jìn)一步優(yōu)化完善。此前,筆者所在課題組利用Illumina測(cè)序得到的短讀段數(shù)據(jù)對(duì)蜜蜂球囊菌的參考基因組注釋進(jìn)行完善,分別對(duì)51和50個(gè)已注釋基因的5′UTR和3′UTR進(jìn)行延長(zhǎng),鑒定出373個(gè)新基因并對(duì)部分新基因進(jìn)行了功能注釋(郭睿等, 2019)。Nanopore長(zhǎng)讀段測(cè)序技術(shù)作為當(dāng)前主流的三代測(cè)序技術(shù)已成功應(yīng)用于人類(Leaetal., 2018)、大豆Glycinemax(Flemingetal., 2018)和桿狀病毒(Moldovánetal., 2018)等物種的全長(zhǎng)轉(zhuǎn)錄組研究。然而對(duì)于絕大多數(shù)物種還沒(méi)有基于Nanopore長(zhǎng)讀段測(cè)序數(shù)據(jù)完善基因組的研究報(bào)道。本研究利用前期已獲得的Nanopore長(zhǎng)讀段測(cè)序數(shù)據(jù)對(duì)蜜蜂球囊菌的參考基因組注釋進(jìn)行完善,分別延長(zhǎng)了4 744和4 737個(gè)已注釋基因的5′UTR和3′UTR,數(shù)量遠(yuǎn)多于此前基于二代測(cè)序數(shù)據(jù)延長(zhǎng)的注釋基因數(shù)量,說(shuō)明Nanopore長(zhǎng)讀段測(cè)序技術(shù)在優(yōu)化基因結(jié)構(gòu)方面具有顯著優(yōu)勢(shì)。鑒于UTR與真核生物的基因表達(dá)調(diào)控存在密切關(guān)系(Barrettetal., 2012),本研究中蜜蜂球囊菌基因的5′UTR和3′UTR的延長(zhǎng)對(duì)于基因表達(dá)調(diào)控的深入研究具有重要意義。此外,本研究還預(yù)測(cè)出10 492個(gè)完整ORF,可為蜜蜂球囊菌基因全長(zhǎng)序列的克隆及功能研究提供寶貴的參考信息。

      第二代分子標(biāo)記SSR是以1~6個(gè)核苷酸為重復(fù)單元組成的簡(jiǎn)單串聯(lián)重復(fù)序列,具有實(shí)驗(yàn)操作易、重復(fù)性好和多態(tài)性高等優(yōu)點(diǎn)(Jarne and Lagoda, 1996)。與傳統(tǒng)方法相比,利用二代轉(zhuǎn)錄組數(shù)據(jù)開(kāi)發(fā)SSR具有高通量的特點(diǎn),使SSR的大規(guī)模開(kāi)發(fā)成為現(xiàn)實(shí)(郭歡等, 2018; 黎東海和趙萍, 2019)。筆者所在課題組前期也基于RNA-seq數(shù)據(jù)大規(guī)模開(kāi)發(fā)了中華蜜蜂Apisceranacerana(熊翠玲等, 2017)和意大利蜜蜂Apismelliferaligustica(郭睿等, 2018)的SSR。目前,已開(kāi)發(fā)和利用的蜜蜂球囊菌SSR較為有限。筆者所在課題組前期利用蜜蜂球囊菌的Illumina測(cè)序數(shù)據(jù)大規(guī)模挖掘出7 968個(gè)SSR,最主要的SSR類型是三核苷酸重復(fù)(53.15%),其次是二核苷酸重復(fù)(32.32%)和四核苷酸重復(fù)(8.46%)(李汶東等, 2017)。本研究共鑒定到5 286個(gè)SSR位點(diǎn),其中最主要的類型同樣為三核苷酸重復(fù)(45.37%),其次為單核苷酸重復(fù)(35.38%)和二核苷酸重復(fù)(15.63%),表明基于三代長(zhǎng)讀段數(shù)據(jù)和二代短讀段數(shù)據(jù)開(kāi)發(fā)出的SSR類型相似,但也存在一些差異。但基于三代長(zhǎng)讀段數(shù)據(jù)開(kāi)發(fā)出的SSR總數(shù)明顯少于基于二代短讀段數(shù)據(jù)開(kāi)發(fā)出的SSR總數(shù),究其原因,可能是前期基于二代測(cè)序數(shù)據(jù)組裝得到的unigene總數(shù)多達(dá)42 610個(gè)(李汶東等, 2017),遠(yuǎn)多于蜜蜂球囊菌參考基因組包含的基因總數(shù)(6 442),這是由于二代測(cè)序得到的片段較短(不超過(guò)300 bp),需要利用生物信息學(xué)軟件對(duì)短片段進(jìn)行拼接。下一步將通過(guò)毛細(xì)管電泳和熒光標(biāo)記對(duì)兩種測(cè)序技術(shù)開(kāi)發(fā)出的SSR進(jìn)行有效性和多態(tài)性檢測(cè),進(jìn)而明確何種測(cè)序技術(shù)在大規(guī)模開(kāi)發(fā)SSR方面更勝一籌。

      前期研究中,筆者所在課題組基于蜜蜂球囊菌的RNA-seq數(shù)據(jù)鑒定到373個(gè)新基因(郭睿等, 2019)。本研究中,共鑒定到現(xiàn)有參考基因組未注釋的1 558個(gè)新基因,占注釋基因總數(shù)的24.19%,說(shuō)明基于Nanopore長(zhǎng)讀段測(cè)序數(shù)據(jù)較二代短讀段測(cè)序數(shù)據(jù)在鑒定新基因方面具有顯著優(yōu)勢(shì)。共有1 314個(gè)新基因注釋到蜜蜂球囊菌,與實(shí)際情況相符;分別有11和10個(gè)新基因注釋到P.hystricis和伊蒙微小菌(圖3: A),表明上述新基因在蜜蜂球囊菌與這兩個(gè)物種之間具有一定的保守性。共有1 177個(gè)新基因可注釋到eggNOG數(shù)據(jù)庫(kù),但注釋到Swiss-Prot, Pfam, KOG, GO和KEGG數(shù)據(jù)庫(kù)的新基因數(shù)量偏少,分別為731, 330, 592, 709和589個(gè),說(shuō)明這些數(shù)據(jù)庫(kù)收錄的蜜蜂球囊菌及近緣物種的蛋白功能注釋信息較少。蜜蜂球囊菌的成熟轉(zhuǎn)基因操作技術(shù)體系迄今尚未建立,導(dǎo)致蜜蜂球囊菌的基因功能研究嚴(yán)重滯后。近期,Tauber等(2019)通過(guò)體外轉(zhuǎn)錄合成β-葡聚糖合成蛋白編碼基因以及Ras家族編碼基因雙鏈RNA(dsRNA)并處理蜜蜂球囊菌,結(jié)果顯示上述dsRNA可能在蜜蜂球囊菌孢子萌發(fā)初期被吸收,相關(guān)轉(zhuǎn)錄本受到抑制,孢子萌發(fā)率也相應(yīng)降低。該研究為蜜蜂球囊菌的基因功能研究提供了思路借鑒。現(xiàn)有的蜜蜂球囊菌參考基因組注釋的轉(zhuǎn)錄本數(shù)量為6 442條,本研究鑒定到14 403條新轉(zhuǎn)錄本,高于注釋轉(zhuǎn)錄本的數(shù)量,說(shuō)明由于二代測(cè)序產(chǎn)生的短讀段的限制,蜜蜂球囊菌和其他物種的大量轉(zhuǎn)錄本有待挖掘,Nanopore長(zhǎng)讀段測(cè)序技術(shù)在新轉(zhuǎn)錄本的鑒定方面大有作為。這些鑒定出的未注釋的全長(zhǎng)轉(zhuǎn)錄本可為基因全長(zhǎng)序列克隆及功能研究提供可靠的數(shù)據(jù)基礎(chǔ)。新轉(zhuǎn)錄本注釋數(shù)量最多的物種同樣是蜜蜂球囊菌,與現(xiàn)實(shí)情況相符,分別有70和58條新轉(zhuǎn)錄本注釋到P.hystricis和H.griseus(圖6: A),與新基因的注釋情況略有差異。此外,分別有14 376, 8 524, 7 276, 7 405, 12 035, 7 891和6 855條新轉(zhuǎn)錄本可被分別注釋到Nr, Swiss-Prot, Pfam, KOG, eggNOG, GO和KEGG數(shù)據(jù)庫(kù),這些信息可進(jìn)一步完善蜜蜂球囊菌的參考基因組注釋。

      綜上所述,本研究利用高質(zhì)量的Nanopore長(zhǎng)讀段測(cè)序數(shù)據(jù)對(duì)現(xiàn)有的蜜蜂球囊菌參考基因組的序列和功能注釋進(jìn)行了完善,為相關(guān)組學(xué)及分子生物學(xué)研究的深入開(kāi)展提供了重要的參考信息,也為其他物種的基因組完善提供了方法借鑒。

      猜你喜歡
      球囊蜜蜂基因組
      牛參考基因組中發(fā)現(xiàn)被忽視基因
      一次性子宮頸擴(kuò)張球囊在足月妊娠引產(chǎn)中的應(yīng)用
      蜜蜂
      球囊預(yù)擴(kuò)張對(duì)冠狀動(dòng)脈介入治療術(shù)后心肌微損傷的影響
      蜜蜂
      蜜蜂
      COOK宮頸擴(kuò)張球囊用于足月妊娠引產(chǎn)效果觀察
      蜜蜂谷
      基因組DNA甲基化及組蛋白甲基化
      遺傳(2014年3期)2014-02-28 20:58:49
      球囊擴(kuò)張法建立經(jīng)皮腎通道的臨床觀察
      长泰县| 临武县| 谢通门县| 安多县| 抚宁县| 高碑店市| 利津县| 桂阳县| 永善县| 西乌珠穆沁旗| 湖北省| 甘孜县| 姚安县| 昌吉市| 雷山县| 夹江县| 阿瓦提县| 湘潭县| 蕲春县| 崇州市| 措美县| 贵阳市| 龙口市| 海淀区| 江达县| 宝应县| 霍城县| 武隆县| 利津县| 开阳县| 高邑县| 会泽县| 海林市| 乐业县| 井陉县| 和平县| 定陶县| 墨玉县| 汨罗市| 拜城县| 吉安县|