• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    參考序列數(shù)據(jù)庫(kù)構(gòu)建與數(shù)據(jù)管理探討*

    2020-11-25 02:46:06孫良龍
    關(guān)鍵詞:基因組數(shù)據(jù)庫(kù)基因

    鄭 思 孫良龍 李 姣

    (中國(guó)醫(yī)學(xué)科學(xué)院/北京協(xié)和醫(yī)學(xué)院醫(yī)學(xué)信息研究所 北京100020)

    1 引言

    自2003年人類基因組計(jì)劃全部完成以來(lái),相繼啟動(dòng)國(guó)際單倍體型計(jì)劃[1]、國(guó)際千人基因組計(jì)劃[2]、腫瘤基因組圖譜計(jì)劃[3]和環(huán)境基因組計(jì)劃[4]等一系列人類生命健康相關(guān)的重大科學(xué)研究計(jì)劃,對(duì)基因組學(xué)研究、疾病醫(yī)療和藥物研發(fā)等領(lǐng)域產(chǎn)生巨大影響,能夠幫助人們從分子水平探索人類起源和疾病發(fā)生發(fā)展歷程,極大地促進(jìn)疾病預(yù)防、診斷和治療。測(cè)序技術(shù)發(fā)展大大降低測(cè)序成本,序列數(shù)據(jù)呈現(xiàn)爆炸式增長(zhǎng),其以標(biāo)準(zhǔn)格式存儲(chǔ)在計(jì)算生物學(xué)平臺(tái)或數(shù)據(jù)庫(kù)中。然而公共數(shù)據(jù)庫(kù)中序列的多樣性給研究人員帶來(lái)挑戰(zhàn),不同實(shí)驗(yàn)室或不同研究項(xiàng)目提交的數(shù)據(jù)存在冗余。例如國(guó)際核酸序列聯(lián)盟(由美國(guó)核酸序列數(shù)據(jù)庫(kù)GenBank[5]、歐洲核酸數(shù)據(jù)庫(kù)ENA[6]和日本DNA序列數(shù)據(jù)銀行DDBJ[7]組成)中序列數(shù)據(jù)存在很多重復(fù)[8]。此外不同個(gè)體尤其是不同種族間序列也存在一定差異。因此需要建立一套完整、非冗余、注釋信息豐富的核酸和蛋白質(zhì)參考序列。美國(guó)國(guó)家生物信息中心(National Center for Biotechnology Information, NCBI)從2000年開始建立參考序列數(shù)據(jù)庫(kù)RefSeq,為多種生物提供序列相關(guān)的數(shù)據(jù)信息及資料,10余年來(lái)一直是生物學(xué)研究領(lǐng)域最具有權(quán)威性的序列數(shù)據(jù)庫(kù)[9-10]。RefSeq提供一組注釋完整、非冗余、可作為參考標(biāo)準(zhǔn)的序列數(shù)據(jù),涵蓋基因組、轉(zhuǎn)錄本和蛋白質(zhì),能實(shí)現(xiàn)分子類型、版本管理、基因名稱等多維度索引,為生物醫(yī)學(xué)、功能基因組和種群多樣性研究奠定基礎(chǔ)。本文對(duì)RefSeq數(shù)據(jù)特點(diǎn)、產(chǎn)生、服務(wù)和應(yīng)用等方面進(jìn)行調(diào)研,為建立大型參考序列數(shù)據(jù)庫(kù)提供參考。

    2 參考序列數(shù)據(jù)庫(kù)構(gòu)建

    2.1 參考序列數(shù)據(jù)特點(diǎn)

    2.1.1 經(jīng)過校正的非冗余參考序列集合 自2000年首次發(fā)布3 446條人類轉(zhuǎn)錄物和蛋白質(zhì)記錄數(shù)據(jù)以來(lái),RefSeq已發(fā)展成為涵蓋97 407種生物(涵蓋病毒、細(xì)胞器、原核生物、真核生物等),28 730 283條核酸序列,157 639 958條蛋白質(zhì)序列記錄的數(shù)據(jù)庫(kù)(RefSeq Release 97)。該數(shù)據(jù)庫(kù)每天更新,可通過NCBI資源中的Gene庫(kù)、Nucleotide庫(kù)、BioProject庫(kù)、Blast或者NCBI的圖形顯示訪問。

    2.1.2 規(guī)范化數(shù)據(jù)編碼方式 每條參考序列都有穩(wěn)定數(shù)據(jù)編號(hào)、版本號(hào)和整數(shù)識(shí)別碼,涵蓋豐富的數(shù)據(jù)屬性,數(shù)據(jù)模型與其他國(guó)際權(quán)威核酸序列數(shù)據(jù)庫(kù)相兼容。參考序列編碼方式由前綴、下劃線和注釋3部分組成,其中前綴標(biāo)識(shí)序列分子類型,注釋部分標(biāo)識(shí)序列審編狀態(tài)和原始序列來(lái)源等。每條參考序列都有完整數(shù)據(jù)屬性,以固定格式存儲(chǔ)在數(shù)據(jù)庫(kù)中。例如每條序列都準(zhǔn)確標(biāo)注來(lái)源物種、物種分類、基因符號(hào)和編碼蛋白名稱、序列組成及特征等。此外Refseq為用戶提供參考序列相關(guān)的生物數(shù)據(jù)庫(kù)的交叉引用,確??梢噪S時(shí)追蹤到最新研究進(jìn)展。

    2.2 參考序列數(shù)據(jù)產(chǎn)生

    2.2.1 RefSeq工作流程 RefSeq是由NCBI工作人員及其合作者在對(duì)提交到國(guó)際核酸序列數(shù)據(jù)庫(kù)協(xié)作體(International Nucleotide Sequence Database Collaboration, INSDC)的大量冗余序列數(shù)據(jù)進(jìn)行收集、審編和注釋的基礎(chǔ)上而產(chǎn)生的,是對(duì)原始序列數(shù)據(jù)的持續(xù)審閱、標(biāo)注和重新組織。因此RefSeq中的參考序列包含經(jīng)過補(bǔ)充和更新的序列,也包含一部分經(jīng)過驗(yàn)證但未經(jīng)修改的原始序列。NCBI與領(lǐng)域內(nèi)權(quán)威組織開展合作,采用幾種不同方法來(lái)產(chǎn)生參考序列,具體包括審編通道(Curation Pipeline),注釋通道(Annotation Pipeline)和數(shù)據(jù)提取通道(GenBank Extraction Pipeline),見圖1。

    圖1 RefSeq工作流程[11]

    2.2.2 開放領(lǐng)域合作 RefSeq積極與領(lǐng)域權(quán)威組織開展合作,獲取序列、命名法、注釋等相關(guān)生物學(xué)資源。例如數(shù)據(jù)庫(kù)中人類參考序列的命名規(guī)則是由HUGO基因命名委員會(huì)(HUGO Gene Nomenclature Committee, HGNC)提供的。對(duì)于外部合作者構(gòu)建并提交的參考序列,NCBI工作人員會(huì)對(duì)這些序列進(jìn)行格式調(diào)整或檢測(cè)明顯錯(cuò)誤(如注釋的CDS區(qū)不能編碼相應(yīng)的蛋白),但不會(huì)對(duì)其中的注釋信息進(jìn)行額外審編或修改。如果后續(xù)驗(yàn)證或?qū)嶋H使用過程中發(fā)現(xiàn)這些參考序列存在問題,NCBI會(huì)將這些錯(cuò)誤信息告知提交者,在數(shù)據(jù)庫(kù)的后續(xù)版本中進(jìn)行更新。RefSeq數(shù)據(jù)庫(kù)提供網(wǎng)站反饋窗口,可用于啟動(dòng)或修改合作協(xié)議。

    2.2.3 審編通道 通過審核序列比對(duì)狀態(tài)、文獻(xiàn)、質(zhì)量評(píng)估檢測(cè)以及外部合作者提交的數(shù)據(jù)資源等來(lái)產(chǎn)生核酸和蛋白質(zhì)參考序列。由審編通道產(chǎn)生的序列稱為已知參考序列(Known RefSeq),用NM_,NR_或NP_作為序列前綴標(biāo)識(shí)符。使用規(guī)范化的數(shù)據(jù)審編能極大提高數(shù)據(jù)利用率[12]。RefSeq中來(lái)源于病毒、線粒體、脊椎動(dòng)物和部分無(wú)脊椎動(dòng)物的參考序列是經(jīng)過NCBI工作人員審編;而大部分來(lái)自細(xì)菌、植物和真菌的參考序列數(shù)據(jù)是由外部合作者審編并提交;還有些序列未進(jìn)入審編狀態(tài)。RefSeq在每條參考序列編號(hào)的注釋部分標(biāo)明序列審編狀態(tài)。序列審編流程包括以下幾個(gè)步驟:首先,結(jié)合自動(dòng)化序列比對(duì)和外部合作者提供的信息,初步定義基因和相關(guān)序列。其次,評(píng)估數(shù)據(jù)質(zhì)量并篩選最佳序列,評(píng)估過程包括分析命名方法、序列相似性、基因組定位和潛在的克隆錯(cuò)誤等。對(duì)于通過質(zhì)量評(píng)估的序列,自動(dòng)分配RefSeq序列編號(hào)并標(biāo)識(shí)序列審編狀態(tài)。最后,開展進(jìn)一步審編,增加序列相關(guān)文獻(xiàn)、名稱、別名、基因ID以及與其他數(shù)據(jù)庫(kù)的交叉鏈接等關(guān)于序列特征的注釋信息來(lái)產(chǎn)生完整的參考序列,同時(shí)進(jìn)一步更新審編狀態(tài)。對(duì)于沒有通過質(zhì)量評(píng)估的序列數(shù)據(jù),由NCBI工作人員和外部合作者共同審核來(lái)解決數(shù)據(jù)沖突。因?yàn)閷従庍^程中的歧義必須在參考序列數(shù)據(jù)生成之前解決。該審編過程將提供更詳細(xì)的序列信息(如去除污染物、擴(kuò)展UTR區(qū)、參考最新文獻(xiàn)信息修正序列錯(cuò)誤、確定可變剪切位點(diǎn))和注釋信息(增加參考文獻(xiàn)、豐富基因和蛋白功能描述、增加成熟蛋白產(chǎn)物等注釋特征)。

    2.2.4 注釋通道 采用NCBI的自動(dòng)化序列注釋流程產(chǎn)生參考序列,該過程涵蓋將序列比對(duì)到基因組,基于序列相似性產(chǎn)生轉(zhuǎn)錄本或蛋白產(chǎn)物名稱,篩選最優(yōu)注釋模型等。由注釋通道產(chǎn)生的序列稱為模型化的參考序列(Model RefSeq),用XM_,XR_或XP_作為序列前綴標(biāo)識(shí)符。對(duì)于真核生物基因組注釋,NCBI采用一系列計(jì)算工具,見表1,建立包含基因組序列輸入、基因組序列遮蓋處理、審編過的參考基因組序列比對(duì)、蛋白和轉(zhuǎn)錄本序列比對(duì)、基因預(yù)測(cè)、小RNA注釋和篩選最優(yōu)模型7個(gè)模塊的分析框架[13],見圖2。最終產(chǎn)生的注釋信息包括編碼區(qū)、保守區(qū)、小RNA、變異、基因和蛋白質(zhì)產(chǎn)物名稱等。

    圖2 真核生物基因組注釋流程[13]

    表1 真核生物基因組注釋相關(guān)的預(yù)測(cè)工具及資源

    2.2.5 數(shù)據(jù)提取通道 直接從INSDC提取完整、注釋過的原始序列,經(jīng)過去重、格式修改、驗(yàn)證、增加交叉引用等構(gòu)建參考序列。提取的序列數(shù)據(jù)類型可分為4大類:染色體、微生物基因組、小的完整基因組和靶標(biāo)基因位點(diǎn)。直接來(lái)源于INSDC的cDNA或者EST序列也稱為已知的參考序列(Known RefSeq),用NM_,NR_和NP_作為前綴標(biāo)識(shí)符。

    2.3 參考序列數(shù)據(jù)獲取與維護(hù)

    2.3.1 數(shù)據(jù)獲取 RefSeq數(shù)據(jù)庫(kù)支持多樣化數(shù)據(jù)檢索、查詢與獲取方式,數(shù)據(jù)可開放獲取,用戶使用時(shí)不需要認(rèn)證。(1)基于Entrez檢索系統(tǒng)的序列數(shù)據(jù)查詢。支持多種關(guān)鍵詞序列數(shù)據(jù)檢索,包括記錄名稱、相關(guān)文獻(xiàn)ID、記錄ID、帶注釋的染色體和堿基位置和屬性等;支持通過檢索結(jié)果頁(yè)的分類導(dǎo)航輔助篩選檢索結(jié)果;支持構(gòu)建精細(xì)化的檢索式并提供可視化的檢索式構(gòu)建工具。(2)基于BLAST的檢索查詢。支持基于記錄號(hào)、序列片段的相似性檢索。(3)圖形化界面檢索。檢索系統(tǒng)支持用戶友好的圖形交互界面,支持通過基因組數(shù)據(jù)瀏覽器、序列瀏覽器和基因記錄中的圖形圖像來(lái)查看參考序列不同的功能元素注釋[16]。(4)FTP下載。

    2.3.2 數(shù)據(jù)維護(hù) RefSeq數(shù)據(jù)庫(kù)有完善的管理和維護(hù)體系,便于數(shù)據(jù)匯交、存儲(chǔ)與共享。首先,參考序列數(shù)據(jù)庫(kù)為用戶和項(xiàng)目合作者開放數(shù)據(jù)構(gòu)建和使用的反饋窗口。其次,RefSeq數(shù)據(jù)庫(kù)處于不斷更新狀態(tài),更新過程中會(huì)保留原有數(shù)據(jù)條目,便于后續(xù)查詢和使用。最后,RefSeq數(shù)據(jù)庫(kù)具有完善的數(shù)據(jù)共享機(jī)制,項(xiàng)目組參考序列數(shù)據(jù)與國(guó)際上其他權(quán)威序列數(shù)據(jù)庫(kù)保持同步和更新,不同數(shù)據(jù)庫(kù)之間建立相互連接。

    2.4 數(shù)據(jù)應(yīng)用

    RefSeq數(shù)據(jù)庫(kù)構(gòu)建為生物醫(yī)學(xué)、功能基因組學(xué)和生物多樣性研究奠定基礎(chǔ),但序列注釋信息在某些方面與其他數(shù)據(jù)庫(kù)還存在差異,需要進(jìn)行持續(xù)更新和完善[17-18]。對(duì)于基因組注釋、基因識(shí)別、特征描述、突變和多態(tài)性分析、表達(dá)研究和比較分析等,RefSeq中的序列可作為穩(wěn)定的參考。例如RefSeq中的轉(zhuǎn)錄本參考序列對(duì)于突變位點(diǎn)的功能預(yù)測(cè)具有重要作用[18]。此外在實(shí)驗(yàn)生物學(xué)研究中可以使用RefSeq中的參考序列進(jìn)行引物設(shè)計(jì)等[19-20]。

    3 大型參考序列數(shù)據(jù)庫(kù)建設(shè)思考

    3.1 概述

    近幾年我國(guó)醫(yī)療行業(yè)、科研機(jī)構(gòu)及產(chǎn)業(yè)界開始開展不同規(guī)模的隊(duì)列研究。隨著我國(guó)啟動(dòng)基因組數(shù)據(jù)資源體系與開放共享平臺(tái)建設(shè),我國(guó)人群序列數(shù)據(jù)匯聚與有效整合,有助于參考基因序列數(shù)據(jù)庫(kù)的構(gòu)建,支撐我國(guó)生命科學(xué)的發(fā)展[21]。RefSeq數(shù)據(jù)庫(kù)構(gòu)建和管理可以為國(guó)家大型參考序列數(shù)據(jù)庫(kù)構(gòu)建提供參考。

    3.2 構(gòu)建精細(xì)化參考序列,促進(jìn)我國(guó)精準(zhǔn)醫(yī)學(xué)發(fā)展

    通過分析基因組學(xué)和蛋白質(zhì)組學(xué)等來(lái)測(cè)定疾病患者遺傳學(xué)信息,將其用于指導(dǎo)疾病的預(yù)防、診斷和治療,是精準(zhǔn)醫(yī)學(xué)在臨床上最直接的應(yīng)用[22]。這些組學(xué)分析技術(shù)得以開展的重要基礎(chǔ)是一個(gè)精細(xì)化參考序列的構(gòu)建。因?yàn)椴煌朔N遺傳背景存在差異,例如單核苷酸多態(tài)性位點(diǎn)及頻率差異。RefSeq通過整理、審編和注釋核酸序列數(shù)據(jù)聯(lián)盟中的原始序列數(shù)據(jù),綜合考慮不同層面數(shù)據(jù),建立信息全面、穩(wěn)定、非冗余的參考序列。我國(guó)是個(gè)地域遼闊、人口眾多的多民族國(guó)家,不同地區(qū)、民族之間的基因表型和頻率分布往往不同[23]。因此需要通過多中心合作、增加樣本人群數(shù)量、擴(kuò)大少數(shù)民族在樣本人群中的比重等方式來(lái)優(yōu)化采樣方法,結(jié)合可靠、準(zhǔn)確的測(cè)序工具及平臺(tái),構(gòu)建符合我國(guó)人群遺傳特征的精細(xì)化的參考序列數(shù)據(jù)庫(kù),促進(jìn)精準(zhǔn)醫(yī)學(xué)發(fā)展。

    3.3 規(guī)范數(shù)據(jù)處理流程,確保數(shù)據(jù)質(zhì)量

    我國(guó)生物組學(xué)數(shù)據(jù)產(chǎn)量約占全球40%,是數(shù)據(jù)產(chǎn)出大國(guó)。但是不同機(jī)構(gòu)在組學(xué)數(shù)據(jù)采集、生成和分析過程中采用的方法存在差異,導(dǎo)致獲取的數(shù)據(jù)質(zhì)量參差不齊,甚至包含許多錯(cuò)誤數(shù)據(jù),極大影響數(shù)據(jù)解讀和有效利用[24-25]??梢詤⒖糝efSeq構(gòu)建一套規(guī)范化、涵蓋數(shù)據(jù)審編和注釋通道的序列數(shù)據(jù)處理流程。對(duì)于提交的原始序列數(shù)據(jù),需要通過質(zhì)量控制、計(jì)算學(xué)分析和人工審編才能進(jìn)入正式使用。處于不同審編階段的序列數(shù)據(jù)都加上明確的審編狀態(tài)標(biāo)識(shí)并附有詳細(xì)數(shù)據(jù)來(lái)源信息。此外應(yīng)建立一套完整的數(shù)據(jù)質(zhì)量評(píng)估標(biāo)準(zhǔn)來(lái)發(fā)現(xiàn)審編過程中的問題數(shù)據(jù),確保數(shù)據(jù)沖突在參考序列數(shù)據(jù)生成之前得以解決。例如對(duì)于高GC含量、復(fù)雜度低和重復(fù)序列較多的區(qū)域,不同樣本之間差異較大,需要建立盡可能涵蓋樣本差異化的參考序列。

    3.4 實(shí)現(xiàn)數(shù)據(jù)統(tǒng)一管理,完善數(shù)據(jù)服務(wù)

    RefSeq數(shù)據(jù)庫(kù)通過各個(gè)模塊(如數(shù)據(jù)提取、存儲(chǔ)和瀏覽平臺(tái))的相互協(xié)作來(lái)實(shí)現(xiàn)數(shù)據(jù)統(tǒng)一管理,通過Entrez檢索、FTP、BLAST對(duì)比等方式提供數(shù)據(jù)開放接口,便于科研工作者使用數(shù)據(jù)??紤]到組學(xué)序列數(shù)據(jù)的復(fù)雜多樣性,在建立大型參考序列數(shù)據(jù)資源時(shí)需要完善的數(shù)據(jù)服務(wù)平臺(tái)。首先,對(duì)于接收的序列數(shù)據(jù),綜合不同的測(cè)序平臺(tái)、實(shí)驗(yàn)環(huán)境等,將數(shù)據(jù)以統(tǒng)一格式收錄到數(shù)據(jù)倉(cāng)儲(chǔ)中。其次,構(gòu)建一個(gè)數(shù)據(jù)索引庫(kù),為用戶提供檢索查詢、FTP下載、API下載等數(shù)據(jù)獲取方式,確??梢噪S時(shí)追蹤到參考序列信息及序列fasta格式的下載等。

    4 結(jié)語(yǔ)

    構(gòu)建參考序列數(shù)據(jù)庫(kù)RefSeq包括具有穩(wěn)定注釋、非冗余基因組、轉(zhuǎn)錄本和蛋白質(zhì)參考序列數(shù)據(jù),通過規(guī)范的數(shù)據(jù)處理流程和管理方式為數(shù)據(jù)質(zhì)量提供保障。RefSeq為人類基因組功能注解提供基礎(chǔ),為突變分析、基因表達(dá)和多態(tài)性發(fā)現(xiàn)等方向的研究提供參考,對(duì)加快推進(jìn)生物醫(yī)學(xué)和疾病生物學(xué)研究具有重要意義。通過分析參考序列數(shù)據(jù)庫(kù)構(gòu)建和管理方式可以為大型參考序列數(shù)據(jù)庫(kù)組織和運(yùn)作提供參考。

    猜你喜歡
    基因組數(shù)據(jù)庫(kù)基因
    Frog whisperer
    牛參考基因組中發(fā)現(xiàn)被忽視基因
    修改基因吉兇未卜
    奧秘(2019年8期)2019-08-28 01:47:05
    創(chuàng)新基因讓招行贏在未來(lái)
    商周刊(2017年7期)2017-08-22 03:36:21
    數(shù)據(jù)庫(kù)
    數(shù)據(jù)庫(kù)
    基因
    數(shù)據(jù)庫(kù)
    數(shù)據(jù)庫(kù)
    基因組DNA甲基化及組蛋白甲基化
    遺傳(2014年3期)2014-02-28 20:58:49
    大方县| 水富县| 富源县| 成都市| 定边县| 嵊泗县| 巢湖市| 南皮县| 高州市| 茂名市| 封开县| 建始县| 浮梁县| 历史| 澄迈县| 民权县| 化德县| 盐源县| 阿城市| 荃湾区| 宜昌市| 阳信县| 盐津县| 天长市| 庆城县| 寻甸| 宜川县| 营山县| 岑巩县| 新乐市| 瑞安市| 黎城县| 钟祥市| 苗栗市| 鄂伦春自治旗| 吉安县| 沐川县| 舞钢市| 筠连县| 蒙阴县| 德安县|