• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于EST數(shù)據(jù)的水稻基因表達大規(guī)模初步分析

      2016-01-15 02:01:52宋東光
      生物信息學(xué) 2015年2期
      關(guān)鍵詞:水稻

      基于EST數(shù)據(jù)的水稻基因表達大規(guī)模初步分析

      宋東光

      (佛山科學(xué)技術(shù)學(xué)院園藝系,廣東 佛山 528231)

      摘要:EST序列代表了組織基因表達的轉(zhuǎn)錄信號,本研究嘗試開發(fā)簡單高效的大規(guī)模EST分析方法,從NCBI下載水稻(Oryza sativa) 的所有EST序列并進行分析以獲取水稻發(fā)育過程基因表達的重要信息。通過進行blast比對和phrap拼接分析,及利用Unix文本過濾方法,從EST序列拼接獲得了3萬多個重疊群序列。進一步將重疊群序列與NCBI核酸數(shù)據(jù)庫進行比對獲得了各個序列的注釋信息。從重疊群的組織表達初步挖掘中發(fā)現(xiàn)花藥的表達數(shù)量最多,為下一步探討水稻發(fā)育器官特異表達基因調(diào)控打下了重要基礎(chǔ)。

      關(guān)鍵詞:水稻;EST;Bast; Phrap; 組織特異表達

      中圖分類號:Q344+.13文獻標(biāo)志碼:A

      收稿日期:2015-01-19;修回日期:2015-04-24.

      基金項目:國家自然

      作者簡介:楊紅,女,講師,研究方向:應(yīng)用數(shù)學(xué),生物信息學(xué);E-mail: yanghong19820118@163.com.

      doi:10.3969/j.issn.1672-5565.2015.02.05

      Large-scale preliminary analysis of rice gene expression mining from EST data

      SONG Dongguang

      (DepartmentofHorticulture,FoshanUniversity,FoshanGuangdong528231,China)

      Abstract:EST sequences represent transcribed signals of gene expressions in tissues. In this study, a simple and effective method for large-scale EST analysis was developed using all rice(Oryza sativa) ESTs downloaded from NCBI for mining important information in rice development. After the blast alignment, phrap contig joining, and Unix command-line filtering, over 30 000 contigs were obtained from EST sequences. Annotations of these contigs were returned with further alignments to NCBI nucleotide databases. Anther expressions showed the most abundant in this preliminary mining from annotations for different tissues. This lays an important foundation for further investigating tissue-specific regulation of gene expression in rice development.

      Keywords:Oryza sativa; EST; Blast; Phrap; Tissue-specific expression

      隨著功能基因組學(xué)研究的廣泛開展,闡明基因表達調(diào)控網(wǎng)絡(luò)的分子機理成為了近年來分子生物學(xué)研究的主要領(lǐng)域之一。獲得基因活動信息的方法如EST,SAGE分析,表達芯片分析等可以提供大量的基因活動信號,并進一步從獲得的各種表達數(shù)據(jù)分析構(gòu)建基因調(diào)控網(wǎng)絡(luò)。其中,EST分析獲得的基因表達信息真實反映了細胞內(nèi)基因活動的情況,包括基因的組織特異表達情況。大量的EST序列可以從NCBI Genbank數(shù)據(jù)庫獲取,研究者也能夠從cDNA文庫進行克隆快速測序獲得,面對海量的序列數(shù)據(jù)需要有效的高通量分析工具才能提取出更多的基因表達譜信息并用于構(gòu)建基因調(diào)控網(wǎng)絡(luò)[1-3]。

      EST序列預(yù)處理如如去除載體序列、poly(A)尾巴等對于后續(xù)分析是很必要的,涉及EST的各種分析包括轉(zhuǎn)錄組、重疊群拼接,基因注釋,SSR及SNP多態(tài)性, ORF確定,選擇性剪接,microRNA及非編碼RNA分析,RNA編輯,GO查詢,組織特異性表達譜分析以及構(gòu)建基因調(diào)控網(wǎng)絡(luò)等并取得了許多重要進展[4-10]。

      本文開發(fā)了簡單有效的工具以來自NCBI的水稻EST序列為材料進行大規(guī)模初步分析,包括進行blast比對,phrap重疊群拼接與注釋,及組織特異表達分析,為水稻生長發(fā)育過程基因表達調(diào)控網(wǎng)絡(luò)的構(gòu)建奠定重要基礎(chǔ)。

      1材料與方法

      1.1操作系統(tǒng)和文本過濾工具

      操作系統(tǒng)為FreeBSD 10.0,由The FreeBSD Project(http://www.freebsd.org/)開發(fā), 利用其內(nèi)嵌的Unix命令如awk、sed、tr、uniq、split、 comm、paste、 join及sort等進行EST序列預(yù)處理[11]及其他文本挖掘工作。

      1.2EST序列及格式轉(zhuǎn)換

      “gz”壓縮格式的EST 序列數(shù)據(jù)從NCBI下載, 提取其中的重要信息并轉(zhuǎn)換為一行,每個字段由制表符隔開。抽取每個EST序列及其id并轉(zhuǎn)換為FASTA格式,序列開始及末尾的長于10nt的poly(A/C/G/T)通過前面的過濾命令進行去除。

      1.3Blast比對分析

      NCBI開發(fā)的blast程序blast-2.2.22-ia32-freebsd 用于 EST序列的本地blast比對分析, 每個EST序列彼此間進行相似性比對找出得分大于100的去除重復(fù)后合并其id于一行。

      1.4重疊群拼接分析

      phrap 程序(由Washington 大學(xué)的Phil Green開發(fā), http://www.phrap.org)用于將相似性較高的EST序列重疊拼接獲得重疊群(contig)。

      1.5重疊群注釋

      將以上的拼接重疊群進行遠程NCBI網(wǎng)絡(luò) blast 比對以獲得重疊群的注釋,每次可以進行200個重疊群(FASTA格式), 返回結(jié)果保存為“.txt”格式并只提取注釋信息。

      1.6組織特異表達譜分析

      不同組織表達的EST可以通過比較組織表達的EST id及拼接注釋后的重疊群id得到。

      2結(jié)果

      2.1大規(guī)模EST分析通路

      本文的EST大規(guī)模分析流程圖參照圖1。

      圖1 本文EST大規(guī)模分析流程圖(具體過程見方法)

      EST序列下載后將其從“gz”格式解壓縮,提取必要信息并將轉(zhuǎn)換為由制表符隔開的一行數(shù)據(jù)庫錄入格式,含6個字段即GI-GenBank數(shù)據(jù)庫中的唯一標(biāo)識號, DEFINITION-EST數(shù)據(jù)定義信息,TITLE-測序記錄號, /organism/-物種名, FEATURES-EST序列簡單介紹, ORIGIN-EST核苷酸序列。典型的一個EST序列見圖2。

      圖2 提取轉(zhuǎn)換格式后的一條典型EST序列,含6個字段由制表符分隔,即GI, DEFINITION, TITLE,

      2.2NCBI記錄的不同物種EST序列統(tǒng)計

      截止2014年2月14日從NCBI下載的所有“gz”格式的EST序列提取其GI及organism后統(tǒng)計了各個物種的EST總數(shù)。119個物種EST記錄數(shù)超過10萬條,但其中只有63個物種數(shù)量超過了20萬條(見表1,只列出了部分物種)。這其中,人(Homosapiens) 和 家鼠(Musmusculus) 記錄數(shù)最多,分別達到了8千7百萬和4千8百多萬條,排在第三位的是玉米(Zeamays)有2百多萬條,水稻 (Oryzasativa)為1百多萬條,包括了秈稻和粳稻(見表1)。

      表1 截止2014年2月14日從NCBI下載的所有物種記錄數(shù)

      2.3水稻EST序列彼此間的blast比對

      水稻的125萬條EST序列(截止2010年3月24日,包括秈稻和粳稻)經(jīng)過預(yù)處理去除了poly(A/T/G/C)后利用本地的blast程序進行了比對,比對工作連續(xù)進行約用時1個多月,之后將彼此比對打分達到100以上的序列ids(即GI號)合為一行,得到1 237 411行id組,部分示例列于圖3。

      圖3 相似性比對(打分100及以上的)EST序列其id合為一行

      blast比對是用水稻的每個EST序列與所有的EST進行兩兩比對得到的結(jié)果,上述結(jié)果需要去除重復(fù)的相同行,并合并不同行中的相同ids。去除重復(fù)行得到543 460行,然后每行內(nèi)的id排序后將每行第一個id相同的行進行合并,得到76 337行,再次進行每行第一個id排序合并后得到39 572行。然后可以將每行內(nèi)id代表的各個序列下一步用phrap獲得重疊群,結(jié)果見表2.

      表2 Blast比對水稻所有的EST兩兩序列并合并序列相似性打分達到100以上序列ids

      2.4用phrap拼接獲得EST重疊群

      根據(jù)前述方法用phrap程序從前面的blast比對結(jié)果進行重疊群拼接,獲得只有一個重疊序列的重疊群為27 556個,兩個以上超過一個重疊序列的為7 413個,所有重疊群序列總數(shù)達到171 698個(見圖4)。為了找出更合適的比對重疊群,將獲得的重疊群兩兩進行了blast但打分大于250,這樣獲得了34 969個比對結(jié)果,其中16 900個為單一序列(見圖5),這樣為下一步進行clustalw比對分析很有幫助(本文未附)。

      圖4 Blast結(jié)果用phrap進行重疊群拼接

      圖5 Phrap得到的重疊群進行blast比對,顯示了3行,每行超過一個重疊群的彼此相似性打分超過250

      2.5重疊群與NCBI nt數(shù)據(jù)庫比對進行注釋

      獲取重疊群的注釋尤為重要,將重疊群與NCBI nt核酸數(shù)據(jù)庫進行比對后從返回的信息中挖掘各個重疊群的注釋。全部的34 969個重疊群與NCBI nt數(shù)據(jù)庫進行blast比對后,1 971個沒有返回比對結(jié)果,注釋內(nèi)容提取合為一行如圖6所示。去除重復(fù)行后注釋行總數(shù)為211 351,但其中還有相當(dāng)部分為未注釋的行,如在含有chromosome, cultivar:, genomic sequence, clone, mRNA sequence, unknown, hypothetical protein, DNA, Cosmid, vector, cDNA, BAC clone, marker等的比對結(jié)果中大部分沒有有用的注釋信息,還需要進一步去除約只有一半為有用的注釋行,見圖7示例.這些注釋內(nèi)容需要與前面的重疊群進行匹配后進一步進行挖掘。

      圖6 重疊群與NCBI nt數(shù)據(jù)庫進行blast比對后提取的注釋行示例

      圖7 從注釋行中去除非注釋行獲得的注釋行示例,參見上下文分析

      物種關(guān)聯(lián)的注釋可提供一些有意義的信息,尤其是對于比較基因組學(xué)分析。從比對結(jié)果中找出了939個物種與水稻重疊群有關(guān)聯(lián),只有82個物種出現(xiàn)的注釋超過100條,而其中僅僅10個超過了1 000條。玉米與水稻的比對注釋最多達到了36 804條,大多數(shù)為mRNA/cDNA/protein的注釋也許可以提供與基因功能相關(guān)的有用信息。剩下的9個中只有Brachypodium distachyon超過1萬條,為11 610條,見圖8。

      圖8 不同物種與水稻重疊群比對返回超過1 000條的注釋數(shù)

      每個重疊群比對結(jié)果出現(xiàn)推測基因功能的注釋對于進一步的功能基因組學(xué)分析特別是構(gòu)建基因調(diào)控網(wǎng)絡(luò)是很有幫助的,這將是我們下一步的研究目標(biāo)。

      2.6水稻發(fā)育過程組織特異表達

      確定組織特異轉(zhuǎn)錄譜對于分析基因表達模式及構(gòu)建基因調(diào)控網(wǎng)絡(luò)是很重要的。所有的EST記錄中見圖9,其中花藥的記錄數(shù)最多。從比對的39 572個EST id(見圖2)組找出了各個組織的表達重疊群,結(jié)果見圖10,雖然表達重疊群中可能含有相似的重疊群,如圖5所示。從圖10可以清楚看出,花藥的表達重疊群最多達到了最高重疊群數(shù)。這并奇怪,因為從花藥的EST總數(shù)977 141(見圖9)可以預(yù)見(分析的EST序列總數(shù)只有125萬條),其他的組織都少于20萬條。從以上結(jié)果尚不能完全的獲得組織特異表達譜(見圖10),但是很顯然組織特異表達譜對于構(gòu)建水稻發(fā)育過程基因調(diào)控網(wǎng)絡(luò)是很重要的,我們將在今后繼續(xù)進行探討。

      圖9 本文引用的NCBI來源水稻不同組織EST序列數(shù)

      圖10 從比對后EST id組(見圖2)獲取的不同組織表達重疊群計數(shù)

      3討論

      EST大數(shù)據(jù)包含了大量基因表達信息,EST數(shù)據(jù)大規(guī)模分析有助于發(fā)現(xiàn)基因調(diào)控的活動情況,并可以用于構(gòu)建基因調(diào)控網(wǎng)絡(luò)。本文從NCBI下載了水稻的125萬條EST序列并進行了基因表達分析。所有的分析工作都是通過FreeBSD操作系統(tǒng)完成的,主要工具包括Unix命令,及本地blast,phrap及遠程blast程序(見方法)。經(jīng)過blast 比對,phrap重疊群拼接及再比對,獲得了34 969重疊群,其中約一半只有一個重疊群序列(見圖5)。進一步我們將重疊群序列與NCBI全長cDNA獲取的單一基因進行比對以獲得水稻的完整轉(zhuǎn)錄組。以上結(jié)果表明,我們進行的大規(guī)模EST分析是有效且快捷,與其他方法相比并不需要復(fù)雜的算法[3,10]。

      本文初步分析了水稻的組織特異表達譜,發(fā)現(xiàn)花藥表達的EST重疊群數(shù)量最多,其他組織較少些,原因尚未進一步分析(見圖10)。通過與NCBI核酸數(shù)據(jù)庫進行遠程比對,從返回結(jié)果中提取了每個重疊群的注釋信息(見圖6~圖8),今后我們將著重挖掘特異表達基因并進一步構(gòu)建水稻發(fā)育過程的基因調(diào)控網(wǎng)絡(luò)。

      參考文獻(References)

      [1]GIALLOURAKIS C C, BENITA Y, MOLINIE B, et al. Genome-wide analysis of immune system genes by expressed sequence Tag profiling[J]. J Immunol, 2013,190(11):5578-87.

      [2]SHA A H, LI C, YAN X H, et al. Large-scale sequencing of normalized full-length cDNA library of soybean seed at different developmental stages and analysis of the gene expression profiles based on ESTs[J]. Mol Biol Rep, 2012,39(3):2867-74.

      [3]MENON R, GARG G, GASSER R B, et al. TranSeqAnnotator: large-scale analysis of transcriptomic data[J]. BMC Bioinformatics, 2012,13( Suppl 17):S24.

      [4]ZHU W, BUELL C R. Improvement of whole-genome annotation of cereals through comparative analyses[J]. Genome Res, 2007, 17(3):299-310.

      [5]WARD J A, PONNALA L, WEBER C A. Strategies for transcriptome analysis in nonmodel plants[J]. Am J Bot, 2012, 99(2):267-76.

      [6]LUO H, SUN C, LI Y, et al. Analysis of expressed sequence tags from the Huperzia serrata leaf for gene discovery in the areas of secondary metabolite biosynthesis and development regulation[J]. Physiol Plant, 2010, 139(1):1-12.

      [7]FRAZIER T P, ZHANG B. Identification of plant microRNAs using expressed sequence tag analysis[J]. Methods Mol Biol, 2011, 678:13-25.

      [8]VICTORIA F C, DA MAIA L C, DE OLIVEIRA A C. In silico comparative analysis of SSR markers in plants[J]. BMC Plant Biol, 2011, 11:15.

      [9]XIE F, SUN G, STILLER J W, et al. Genome-wide functional analysis of the cotton transcriptome by creating an integrated EST database[J]. PLoS One, 2011, 6(11):e26980.

      [10]LI Y, GONG P, PERKINS E J, et al. RefNetBuilder: a platform for construction of integrated reference gene regulatory networks from expressed sequence tags[J]. BMC Bioinformatics, 2011, 12( Suppl 10):S20.

      [11]SONG D G, ZHANG H S, HUANG L X, et al. Localization, Updating and Sequence Preprocessing of EST Database under Unix Environment[J]. Chinese Journal of Bioinformatics, 2010,8(1):52-56.

      *通信作者:姚玉華,男,教授,研究方向:計算生物學(xué),應(yīng)用數(shù)學(xué);E-mail: yaoyuhua@zstu.edu.cn.

      猜你喜歡
      水稻
      水稻和菊花
      幼兒100(2023年39期)2023-10-23 11:36:32
      什么是海水稻
      機插秧育苗專用肥——機插水稻育苗基質(zhì)
      有了這種合成酶 水稻可以耐鹽了
      水稻種植60天就能收獲啦
      軍事文摘(2021年22期)2021-11-26 00:43:51
      油菜可以像水稻一樣實現(xiàn)機插
      中國“水稻之父”的別樣人生
      金橋(2021年7期)2021-07-22 01:55:38
      海水稻產(chǎn)量測評平均產(chǎn)量逐年遞增
      一季水稻
      文苑(2020年6期)2020-06-22 08:41:52
      水稻花
      文苑(2019年22期)2019-12-07 05:29:00
      老河口市| 平潭县| 定南县| 新安县| 镇坪县| 绥江县| 出国| 耒阳市| 正宁县| 涟水县| 平远县| 龙泉市| 大宁县| 夏津县| 房产| 宁海县| 阿鲁科尔沁旗| 永城市| 海门市| 孟连| 平陆县| 绍兴市| 京山县| 台湾省| 玉山县| 获嘉县| 孙吴县| 临泉县| 阿拉善右旗| 洞口县| 和顺县| 开原市| 邵武市| 乌恰县| 阿瓦提县| 三江| 广水市| 永登县| 江津市| 汕头市| 确山县|