• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于EST序列的甘蔗SNP發(fā)掘及分析

      2016-10-20 01:29:12檀小輝張繼梁芳
      江蘇農(nóng)業(yè)科學(xué) 2016年7期
      關(guān)鍵詞:甘蔗

      檀小輝 張繼 梁芳

      摘要:從NCBI中的EST數(shù)據(jù)庫(kù)下載已公布的甘蔗EST序列28 512條,利用DNAStar軟件中的Seqman程序進(jìn)行疊連群構(gòu)建,EST序列共構(gòu)建3 449個(gè)疊連群,從中篩選出93個(gè)疊連群,長(zhǎng)度共計(jì)105 385 bp,發(fā)現(xiàn)候選SNP位點(diǎn) 1 449個(gè),SNP平均出現(xiàn)頻率為1.37%,共有74個(gè)contigs含有SNP位點(diǎn),平均每個(gè)contig含有19.58個(gè)SNP位點(diǎn),含有SNP位點(diǎn)數(shù)最多的1個(gè)疊連群有229個(gè)SNP候選位點(diǎn),不同的疊連群含有的SNP位點(diǎn)數(shù)量差異較大,但轉(zhuǎn)換類型與顛換類型所占比例很接近。本研究所用的疊連群的總長(zhǎng)度是105 385 bp,平均72.93 bp含有1個(gè)SNP位點(diǎn)。

      關(guān)鍵詞:甘蔗;NCBI;EST序列;DNAStar;SNP位點(diǎn)

      中圖分類號(hào): S566.101 文獻(xiàn)標(biāo)志碼: A 文章編號(hào):1002-1302(2016)07-0064-03

      單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)指基因組內(nèi)DNA序列在某一特定的核苷酸位置發(fā)生缺失、插入、顛換、轉(zhuǎn)換等變化。作為第3代遺傳標(biāo)記,已在動(dòng)植物遺傳連鎖圖譜構(gòu)建[1]、重要性狀的基因定位[2]、多樣性分析[3]以及品種鑒定[4]等相關(guān)研究中得到廣泛的應(yīng)用,跟以簡(jiǎn)單序列重復(fù)(SSR)為代表的第2代分子標(biāo)記相比,SNP具有易于實(shí)現(xiàn)自動(dòng)化分析、遺傳穩(wěn)定性強(qiáng)、密度高等優(yōu)點(diǎn)。但SNP標(biāo)記開發(fā)在前期測(cè)序階段成本較高而限制了SNP相關(guān)標(biāo)記的大規(guī)模開發(fā)。因此,利用已有數(shù)據(jù),通過生物信息學(xué)進(jìn)行相關(guān)分析來開發(fā)SNP標(biāo)記,然后通過相關(guān)試驗(yàn)對(duì)候選SNP標(biāo)記加以驗(yàn)證,已成為一種降低成本且快捷高效的SNP開發(fā)途徑[5]。

      表達(dá)序列標(biāo)簽 (expressed sequence tags,EST)是來源于功能基因表達(dá)的cDNA片段,是轉(zhuǎn)錄區(qū)域多態(tài)性識(shí)別的重要資源,隨著相關(guān)研究的深入,公共數(shù)據(jù)庫(kù)中的核苷酸序列中EST序列的增速最快,以EST序列為基礎(chǔ)開發(fā)分子標(biāo)記,變得越來越方便。目前,常用的EST標(biāo)記有EST-AFLP、EST-RFLP、EST-SSR、EST-SNP等[6]。除了具有一般分子標(biāo)記的特點(diǎn),EST標(biāo)記還具有通用性好、信息量大、開發(fā)方法簡(jiǎn)單快捷以及成本低等優(yōu)點(diǎn)。因?yàn)镋ST序列是基因表達(dá)區(qū)的cDNA序列,所以EST序列為基礎(chǔ)開發(fā)出的SNP位點(diǎn)很可能與表達(dá)基因的功能密切相關(guān),或者直接在基因的編碼區(qū)之內(nèi),可直接用于動(dòng)植物分子育種等相關(guān)領(lǐng)域的研究[7]。而且在EST序列中,SNP頻率很豐富[8]。因此,在尚未獲得基因組全序列的動(dòng)植物中,開發(fā)EST-SNP標(biāo)記具有重要意義[9]。但NCBI中甘蔗dbEST數(shù)據(jù)庫(kù)中的EST-SNP研究在國(guó)內(nèi)外尚未發(fā)現(xiàn)相關(guān)報(bào)道,本研究利用NCBI上公布的甘蔗EST數(shù)據(jù)中篩選SNP候選位點(diǎn),為甘蔗EST-SNP標(biāo)記的開發(fā)以及后續(xù)的分子生物學(xué)研究奠定一定的基礎(chǔ)。截至2014年10月,NCBI的dbEST數(shù)據(jù)庫(kù)中已收錄了甘蔗EST序列28萬多條,如此龐大的數(shù)據(jù)為從甘蔗EST序列中開發(fā)SNP標(biāo)記提供了良好的數(shù)據(jù)支持,甘蔗EST-SNP標(biāo)記的開發(fā)可為甘蔗分子育種和基因組學(xué)等方面的研究提供重要的技術(shù)支持,本研究從NCBI中的dbEST數(shù)據(jù)庫(kù)中下載了28 512條EST序列,利用DNAStar軟件中的Seqman程序拼接得到3 449個(gè)重疊群(contigs),并將拼接結(jié)果進(jìn)行人工篩選,為提高候選SNP位點(diǎn)的可靠度,本研究選用的EST序列拼接而成的contigs都至少含有20條EST序列,每個(gè)候選位點(diǎn)都至少有5條EST序列的相關(guān)位點(diǎn)作為支持,旨在發(fā)掘甘蔗的EST-SNP位點(diǎn)和尋求能得到大量可靠的候選SNP位點(diǎn)的篩選方法。

      1 材料與方法

      2014年10月13日從美國(guó)國(guó)立生物技術(shù)信息中心網(wǎng)站dbEST數(shù)據(jù)庫(kù)(http://www.ncbi.nlm.nih.gov/nucest/?term=sugarcane)下載28 512條甘蔗EST序列,所有序列均以FASTA格式保存,未得到可靠性較高的SNP候選位點(diǎn),本研究用DNAStar軟件中的Seqman程序檢測(cè)并去除所有EST序列的載體序列,然后組裝拼接成contigs。因?yàn)楸狙芯窟x取DNAStar軟件進(jìn)行EST-SNP候選位點(diǎn)的開發(fā),因此篩選步驟主要分為以下幾類:(1)在Seqman的拼接結(jié)果中提取包含20條以上EST序列的contigs,并在其中篩選候選SNP位點(diǎn);(2)候選SNP位點(diǎn)兩側(cè)至少有5 bp堿基要完全保守為原則對(duì)候選SNP位點(diǎn)進(jìn)行人工篩選;(3)對(duì)篩選結(jié)果進(jìn)行整理、歸納、分析。

      SNP發(fā)掘:應(yīng)用Seqman程序的SNP工具查找SNP候選位點(diǎn)。

      SNP頻率計(jì)算:SNP頻率=(候選SNP數(shù)目/contigs長(zhǎng)度)×100%。

      2 結(jié)果與分析

      2.1 候選位點(diǎn)的人工篩選

      對(duì)候選軟件篩選出的SNP位點(diǎn)根據(jù)2個(gè)篩選原則進(jìn)一步人工將可靠度較高的SNP位點(diǎn)篩選出來:(1)候選SNP位點(diǎn)中的次要等位基因頻率至少為30%[10];(2)候選SNP位點(diǎn)兩側(cè)至少有5 bp完全保守的序列。Wang等研究發(fā)現(xiàn),在包含不小于4條EST序列的contigs中篩選SNP時(shí),候選SNP位點(diǎn)的主要、次要等位基因出現(xiàn)的頻率之比約為1 ∶ 1時(shí)的可靠度最高[11]。為了進(jìn)一步提高候選SNP位點(diǎn)的可靠度,本研究在篩選SNP候選位點(diǎn)時(shí),把包含4條EST序列的contigs提高到至少包含20條EST序列的contigs,同時(shí),在1個(gè)候選SNP位點(diǎn)的兩側(cè)經(jīng)常會(huì)出現(xiàn)間斷或連續(xù)的非SNP位點(diǎn)的不保守區(qū)域,這些區(qū)域可能是在比對(duì)時(shí)序列錯(cuò)誤引起的,從而降低了候選SNP位點(diǎn)的可靠度,因此本研究規(guī)定候選SNP位點(diǎn)兩側(cè)至少5序列必須完全保守(圖1為合格SNP候選位點(diǎn),圖2及圖3為不合格SNP候選位點(diǎn))。

      2.2 甘蔗EST序列SNP頻率分析

      在GenBank數(shù)據(jù)庫(kù)中下載28 512條甘蔗EST序列,通過序列組裝構(gòu)建3 449個(gè)contigs,為了提高SNP候選位點(diǎn)的可靠性,本研究所用的contigs均為EST序列條數(shù)大于20的contigs,經(jīng)過篩選,共有92個(gè)contigs符合要求,92個(gè)contigs的堿基總數(shù)為105 385個(gè)bp,發(fā)現(xiàn)1 449個(gè)SNP位點(diǎn),SNP出現(xiàn)的頻率為1.37%,平均72.93個(gè)bp含有1個(gè)SNP位點(diǎn)??偣灿?4個(gè)contigs含有SNP位點(diǎn),平均1個(gè)contig含有1958個(gè)SNP位點(diǎn)(表1),含有SNP位點(diǎn)數(shù)目最多的contig中含有281個(gè)SNP候選位點(diǎn),含有5、8個(gè)SNP候選位點(diǎn)的contigs最多(8個(gè))(表2)。

      本研究使用的EST序列包含SNP位點(diǎn)以堿基的顛換(49.00%)和轉(zhuǎn)換(49.07)為主,其中堿基的插入、缺失的數(shù)量最少,占全部SNP的1.93%,不同疊連群所含不同突變類型SNP位點(diǎn)的數(shù)量差異較大,所以分布密度的變化也很大(表3)。

      由甘蔗EST序列構(gòu)建的contigs中,組成contigs的EST序列條數(shù)和組成contigs的堿基數(shù)不同,得到SNP位點(diǎn)的頻率也就不同,組成contigs的堿基數(shù)越多,其SNP位點(diǎn)的頻率就越大。表4為甘蔗EST序列組成的序列數(shù)最多的10個(gè)contigs及SNP出現(xiàn)頻率,這10個(gè)contigs共組裝了5 053條序列,SNP平均出現(xiàn)頻率為3.48%,明顯高于所有用于篩選候選位點(diǎn)的contigs的SNP出現(xiàn)頻率1.37%,所以大規(guī)格contigs(多序列、多堿基數(shù))更易得到候選SNP位點(diǎn)。另外,檢測(cè) EST-SNP位點(diǎn)時(shí),需大量冗余EST序列作為其檢測(cè)的數(shù)據(jù)基礎(chǔ),如果EST條數(shù)少,得到的結(jié)果可能就不太理想,這也是本研究用至少包含20條EST序列的contigs進(jìn)行SNP位點(diǎn)篩

      3 結(jié)論與討論

      SNP廣泛分布于動(dòng)植物的基因組中,是動(dòng)植物基因組中可遺傳變異中最常見的一種,據(jù)估計(jì),SNP在人類基因組中廣泛分布,平均每500~1 000 bp對(duì)中就有1個(gè)SNP,其總數(shù)可能在300萬個(gè)以上[12]。作為第3代遺傳標(biāo)記,由于SNP具有許多獨(dú)特的優(yōu)點(diǎn),自從1994年問世以來,已越來越被分子標(biāo)記領(lǐng)域的相關(guān)研究人員所重視,特別是cDNA的SNP,因其本身就是功能基因表達(dá)的組成部分,所以SNP被公認(rèn)為新一代分子標(biāo)記中最有應(yīng)用前景的一類。然而,由于SNP的開發(fā)難度大、檢測(cè)成本高,需要高額的資金投入以及大量的時(shí)間投入,導(dǎo)致該標(biāo)記在甘蔗基因組研究領(lǐng)域的應(yīng)用很少。但是如果以生物信息學(xué)為技術(shù)基礎(chǔ),以大量冗余EST序列為數(shù)據(jù)基礎(chǔ),EST-SNP的開發(fā)就成為一種既高效又廉價(jià)的方法[7,13-14]。但是,目前有很多因素都限制了EST-SNP的發(fā)掘,比如為了節(jié)約成本,EST序列在測(cè)序時(shí)只進(jìn)行單向測(cè)序,測(cè)序結(jié)果的低質(zhì)量進(jìn)而導(dǎo)致篩選SNP位點(diǎn)會(huì)有預(yù)測(cè)已經(jīng)查找方面的錯(cuò)誤;EST序列來源對(duì)SNP位點(diǎn)的篩選也有很大的影響。但是,通過改進(jìn)方法,可以對(duì)EST-SNP位點(diǎn)進(jìn)行更準(zhǔn)確、高效的發(fā)掘。通過有28萬多條EST可以看出,人們對(duì)甘蔗的關(guān)注度很高,但是到目前為止還沒有在NCBI中的SNP數(shù)據(jù)庫(kù)中發(fā)現(xiàn)甘蔗SNP的相關(guān)數(shù)據(jù),這可能與甘蔗是由多倍體原種熱帶種(2n=80,x=10)與多倍體野生種割手密(2n=40~128,x=8)經(jīng)過一系列雜交之后形成的異源多倍體有關(guān),其遺傳背景非常復(fù)雜,染色體數(shù)在100~150條之間,因此甘蔗在分子遺傳連鎖圖譜、質(zhì)量性狀基因定位、數(shù)量性狀基因定位以及分子標(biāo)記輔助輔助育種方面遠(yuǎn)遠(yuǎn)落后于其他作物[15]。因此,本研究對(duì)甘蔗SNP標(biāo)記的開發(fā)研究就更具有重要意義,為了保證SNP位點(diǎn)的準(zhǔn)確性,對(duì)滿足SNP位點(diǎn)contigs包含的EST序列的要求就更高,必須是包含20條以上的EST序列序列組成的contigs,這樣一來可能會(huì)有大量的真正的SNP位點(diǎn)被遺漏。但是當(dāng)contigs所含EST序列較少時(shí),又可能會(huì)有大量的EST序列無法被利用,EST序列不能被用于SNP位點(diǎn)的篩選,因此,筆者認(rèn)為只有當(dāng)contigs所含EST數(shù)目超過一定程度,篩選出的候選EST-SNP位點(diǎn)的可靠性才會(huì)有保證;只有當(dāng)dbEST數(shù)據(jù)庫(kù)中EST序列達(dá)到一定程度之后,其利用率才會(huì)得到保證,篩選出的SNP位點(diǎn)的可靠性才會(huì)更高。例如,利用全基因組測(cè)序,在水稻中(品種為日本晴和9311)獲得了5 019 016個(gè)SNP位點(diǎn)[16],另外,分布于基因表達(dá)調(diào)控區(qū),以及外顯子和內(nèi)含子區(qū)域的SNP可能和基因的功能直接相關(guān)[17]。同時(shí),對(duì)contigs中所含的SNP數(shù)量進(jìn)行統(tǒng)計(jì)分析發(fā)現(xiàn),組成contigs的EST序列條數(shù)越多,堿基數(shù)越多,發(fā)現(xiàn)的候選SNP位點(diǎn)的數(shù)量也就越多,這同Duran等在研究大麥EST序列時(shí)發(fā)現(xiàn)的結(jié)果基本一致但是具體每個(gè)類型的contigs所含的SNP位點(diǎn)數(shù)沒有發(fā)現(xiàn)明顯的規(guī)律[18],這可能跟不同物種其多態(tài)性位點(diǎn)分布不同有關(guān)。

      大多數(shù)動(dòng)植物沒有全基因組序列的數(shù)據(jù),但是有大量的EST數(shù)據(jù)可供大家分析利用,EST本身就是表達(dá)基因的片段,因此基于EST序列的的SNP可能與基因的功能以及目標(biāo)的性狀有更多的關(guān)聯(lián),本研究從NCBI中的dbEST序列中下載了28 512條甘蔗EST序列,分析了92個(gè)由EST序列組成的contigs,這些contigs長(zhǎng)度共計(jì)105 385 bp,發(fā)現(xiàn)候選SNP位點(diǎn) 1 449 個(gè),SNP平均出現(xiàn)頻率為3.48%,總共有74個(gè)contigs含有SNP位點(diǎn),平均1個(gè)contig含有19.58個(gè)SNP位點(diǎn),平均每72.93 bp發(fā)現(xiàn)1個(gè)候選SNP位點(diǎn),低于水稻基因組中SNP發(fā)生頻率接近(水稻平均每89 bp有1個(gè)SNP)[19],高于玉米基因組SNP發(fā)生頻率(玉米基因組平均每61 bp有1個(gè)SNP)[9]。由此可見,SNP在禾本科植物中的發(fā)生頻率相差不大。接下來準(zhǔn)備根據(jù)發(fā)掘到的SNP位點(diǎn)設(shè)計(jì)相應(yīng)的SNP引物,并進(jìn)行測(cè)序和酶切相結(jié)合的方法來驗(yàn)證發(fā)掘的SNP位點(diǎn)的可靠性,以期為甘蔗的分子遺傳研究提供一定的參考。

      參考文獻(xiàn):

      [1]Hyten D L,Choi I Y,Song Q J,et al. A high density integrated genetic linkage map of soybean and the development of a 1 536 universal soy linkage panel for quantitative trait locus mapping[J]. Crop Science,2010,50(3):960-968.

      [2]Singh A,Singh P K,Singh R,et al. SNP haplotypes of the BADH1 gene and their association with aroma in rice (Oryza sativa L.)[J]. Molecular Breeding,2010,26(2):325-338.

      [3]van Inghelandt D,Melchinger A E,Lebreton C,et al. Population structure and genetic diversity in a commercial maize breeding program assessed with SSR and SNP markers[J]. Theoretical and Applied Genetics,2010,120(7):1289-1299.

      [4]Jiang D,Ye Q L,Wang F S,et al. The mining of citrus EST-SNP and its application in cultivar discrimination[J]. Agricultural Sciences in China,2010,9(2):179-190.

      [5]Kim S,Misra A. SNP genotyping:technologies and biomedical applications[J]. Annual Review of Biomedical Engineering,2007,9:289-320.

      [6]Chen Q Q,Zhan X J,Lan J Y,et al. Study progresson application of EST(expressed sequence tags)in the functional genomics[J]. Chinese Agricultural Science Bulletin,2010,26(3):59-63.

      [7]Picoult-Newberg L,Ideker T E,Pohl M G,et al. Milling SNPs from EST databases[J]. Genome Research,1999,9(2):167-174.

      [8]李雪姣,張 耿,顧愛俠,等. 蕓薹屬作物EST-SNP的發(fā)掘與分析[J]. 植物遺傳資源學(xué)報(bào),2010,11(6):772-776.

      [9]Ching A,Caldwell K S,Jung M,et al. SNP frequency,haplotype structure and linkage disequilibrium in elite maize inbred lines[J]. BMC Genetics,2002,3:19.

      [10]李 猛,郭大龍,劉崇懷,等. 葡糖EST-SNP位點(diǎn)的信息與特征[J]. 浙江大學(xué)學(xué)報(bào):農(nóng)業(yè)與生命科學(xué)版,2012,38(3):263-270.

      [11]Wang S,Sha Z,Sonstegard T S,et al. Quality assessment parameters for EST-derived SNPs from catfish[J]. BMC Genomics,2008,9:450.

      [12]Fornage M,Doris P A. Single-nucleotide polymorphism genotyping for disease association studies[J]. Methods in Molecular Medicine,2005,108:159-172.

      [13]Gu Z,Hillier L,Kwok P Y. Single nucleotide polymorphism hunting in cyberspace[J]. Human Mutation,1998,12(4):221-225.

      [14]Buetow K H,Edmonson M N,Cassidy A B. Reliable identification of large numbers of candidate SNPs from public EST data[J]. Nature Genetics,1999,21(3):323-325.

      [15]劉新龍,毛 鈞,陸 鑫,等. 甘蔗SSR和AFLP分子遺傳連鎖圖譜構(gòu)建[J]. 作物學(xué)報(bào),2010,36(1):177-183.

      [16]Zhao W,Wang J,He X,et al. BGI-RIS:an integrated information resource and comparative analysis workbench for rice genomics[J]. Nucleic Acids Research,2004,32:D377-D382.

      [17]劉學(xué)軍,閆雙勇,劉小紅,等. 植物SNP數(shù)據(jù)庫(kù)及轉(zhuǎn)化CAPS的方法[J]. 分子植物育種,2006,4(3):443-447.

      [18]Duran C,Appleby N,Vardy M,et al. Single nucleotide polymorphism discovery in barley using autoSNPdb[J]. Plant Biotechnology Journal,2009,7(4):326-333.

      [19]Nasu S,Suzuki J,Ohta R,et al. Search for and analysis of single nucleotide polymorphisms(SNPs) in rice and establishment of SNP markers[J]. DNA Research,2002,9:163-171.

      猜你喜歡
      甘蔗
      “蔗”里時(shí)光
      花式賣甘蔗
      清明甘蔗“毒過蛇”
      甘蔗的問題
      甜甜的甘蔗
      吃甘蔗
      愛咬甘蔗的百歲爺爺
      特別健康(2018年3期)2018-07-04 00:40:08
      吃甘蔗
      甘蔗新品種云蔗05-51的選育
      23個(gè)甘蔗品種對(duì)甘蔗黑穗病的抗性測(cè)定
      安图县| 岚皋县| 同心县| 平乐县| 凤台县| 横峰县| 宜宾县| 噶尔县| 盐源县| 南皮县| 青河县| 右玉县| 台中县| 临泽县| 县级市| 左权县| 黄梅县| 昌黎县| 惠州市| 临猗县| 阿巴嘎旗| 巫溪县| 永修县| 铜陵市| 荆门市| 天气| 定远县| 黎平县| 留坝县| 文安县| 紫阳县| 湄潭县| 宿松县| 静宁县| 罗甸县| 大足县| 盘锦市| 鄂托克前旗| 泰宁县| 桦甸市| 宁蒗|