• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于全基因組的微生物親緣關(guān)系與分類系統(tǒng)研究工具——CVTree3

      2015-09-14 12:47:12左光宏郝柏林
      生物技術(shù)通報 2015年11期
      關(guān)鍵詞:親緣基因組物種

      左光宏 郝柏林

      分類是人類認(rèn)識自然、探索事物本質(zhì)及其規(guī)律的基本出發(fā)點之一。對生命形式最早的分類系統(tǒng)能上朔到古希臘哲學(xué)家亞里士多德(Aristotle)。對于物種間親緣關(guān)系與分類系統(tǒng)的研究,不僅加深人們對于自然界的認(rèn)識,還能為一些與人類生命健康有關(guān)的應(yīng)用科學(xué),如醫(yī)學(xué)微生物學(xué)與環(huán)境元基因組學(xué)等帶來重要的信息,從而改善人類的生產(chǎn)、生活。傳統(tǒng)的物種分類與親緣關(guān)系的研究,無論是林奈(Carolus Linnaeus)的分類系統(tǒng),還是達(dá)爾文(Charles Robert Darwin)在《物種起源》中初次設(shè)想的來自共同祖先的親緣關(guān)系,都是根據(jù)生物的形態(tài)特征。這在動、植物等宏觀生物的分類中取得了比較合理的結(jié)果。然而占地球上生命物質(zhì)一半以上的原核生物[1],卻很難使用這些傳統(tǒng)的方法來實現(xiàn)分類。這是因為當(dāng)尺度下降到微米級,不但生物形態(tài)難以刻畫,并且相同的形態(tài)可能來自完全不同的物種。1985年Carl Woese和同事們分析當(dāng)時僅有的約400條16S rRNA序列,提出了基于系統(tǒng)發(fā)生的主要細(xì)菌門類描述[2]。時至今日,基于16S rRNA序列分析的構(gòu)樹方法現(xiàn)在已經(jīng)被大多數(shù)生物學(xué)家接受。盡管16S rRNA序列分析取得了很大成功,但是它在種以下的層次缺乏分辨能力[3,4]。而環(huán)境元基因組學(xué)、醫(yī)藥微生物學(xué)等應(yīng)用,區(qū)分亞種(Subspecies)、生態(tài)型(Ecotypes)、血清型(Serotypes)、生物變種(Biovars)等菌株種以下的分類需求卻與日俱增。

      全基因組包含了生物全部的遺傳信息,其內(nèi)涵遠(yuǎn)遠(yuǎn)豐富于16S rRNA序列,所以分析全基因組數(shù)據(jù)能夠更加準(zhǔn)確與細(xì)致地研究物種的演化與分類。要提高分辨能力,就需要更好地利用全基因組的信息[5]。而且,隨著測序技術(shù)的發(fā)展,可供研究的全基因組數(shù)據(jù)越來越多。根據(jù)美國國立生物技術(shù)信息中心(NCBI)數(shù)據(jù)顯示,截至2015年10月,已完成測序的基因組項目有7 435個,而正在進(jìn)行的測序計劃則多達(dá)32 976個,而且這些數(shù)字還在快速增加。另外,針對某些特定問題,還有更為龐大的測序計劃。例如,2012年8月,美國食品與藥物管理局、加州大學(xué)戴維斯分校以及安捷倫科技公司發(fā)起了旨在對10萬種食源性致病菌全基因組的測序計劃。針對物種演化研究與分類學(xué)的全基因組測序計劃,2007年5月,美國能源部聯(lián)合基因組中心JGI推出“細(xì)菌和古細(xì)菌基因組百科全書(GEBA)”計劃[6];2009年8月,我國深圳華大基因研究院倡導(dǎo)了“萬種微生物基因計劃”。這些海量的全基因組數(shù)據(jù),為基于基因組的系統(tǒng)發(fā)生學(xué)與分類學(xué)的研究提供了豐富的素材。

      素材的積累為研究奠定了基礎(chǔ),同時也對研究方法提出了更高的要求。迄今對生物演化與分類的研究,主要基于對單個或少數(shù)“同源基因”的序列聯(lián)配(Sequence alignment)。隨著基因組數(shù)目增加,這些方法變得不太適用。首先是基因組多樣性。就已測序的原核生物基因組而言,即使除去一些高度退化的細(xì)菌內(nèi)共生菌,小的基因組不到50萬核苷酸和500個基因[7],而較大的細(xì)菌基因組則超過1300萬核苷酸和9 380個基因[8]。這使得挑選“同源基因”變得困難。物種數(shù)的增多又使得序列聯(lián)配遇到計算瓶頸;而且,挑選“同源基因”的做法也不能最大限度地利用基因組信息。因此急需發(fā)展不僅不依靠序列聯(lián)配,同時還能最大限度地利用全基因組信息的研究方法。

      我們研究組于2003年提出了基于全基因組的親緣關(guān)系與分類研究方法——組分矢量構(gòu)樹法(Composition vector tree,簡稱 CVTree)[9]。它不需要挑選同源基因,不進(jìn)行序列比對,從根本上避開了人為干預(yù)對結(jié)果可能造成的影響。除某些極端情況外,分類結(jié)果幾乎不受基因組大小的影響,從而非常適合用來構(gòu)造跨門、跨界,甚至跨超界的生命之樹的構(gòu)建。目前CVTree方法已經(jīng)成功應(yīng)用到許多物種的分類研究之中,包括病毒[10]、原核生物[11-15]、真菌[16]、葉綠體序列[17]及人類的腸道元基因組[18]。研究表明,CVTree具有比傳統(tǒng)方法更高的分辨力,這使得CVTree方法有望解決過去難以區(qū)分的屬內(nèi)、種內(nèi)的親緣關(guān)系問題。為了方便用戶使用CVTree方法,我們同時開發(fā)了網(wǎng)絡(luò)服務(wù)器[19,20]。為了適應(yīng)當(dāng)前基因組數(shù)據(jù)的海量增加,又開發(fā)新版的CVTree網(wǎng)絡(luò)服務(wù)器——CVTree3[21]。除了性能的提高之外,CVTree3服務(wù)器還將由CVTree方法生成的親緣關(guān)系樹與物種的分類系統(tǒng)自動進(jìn)行比較,并在網(wǎng)頁上以可交互作用的形式顯示,為進(jìn)一步研究原核生物的親緣關(guān)系與分類系統(tǒng)提供方便。本文將簡要介紹CVTree核心算法與CVTree3的使用流程,并利用三個典型實例來介紹CVTree3的可能應(yīng)用。

      1 組分矢量方法

      1.1 算法——組分矢量構(gòu)樹法

      組分矢量構(gòu)樹法(CVTree)是一種基于全基因組研究物種親緣關(guān)系的方法。它首先統(tǒng)計基因組中特定長度短串組,為每個物種構(gòu)造一個高維代表矢量;然后用矢量之間的夾角余弦計算物種間的遺傳距離 ;最后使用鄰接法(Neighbor-joining)[22,23]進(jìn)行構(gòu)樹。它不需要挑選同源基因,不進(jìn)行序列聯(lián)配,從根本上避開了人為干預(yù)對結(jié)果可能造成的影響。實踐表明,基于蛋白質(zhì)序列的組分矢量方法與傳統(tǒng)的分類系統(tǒng)能更好的吻合,下面就以蛋白質(zhì)序列為例來簡要說明CVTree算法。

      假設(shè)我們需要對一個給定物種,構(gòu)造基于長度的組分矢量。首先對該基因組的各個基因以長度為窗口,每次滑動一個殘基的方式從前向后移動,并求出各種串的出現(xiàn)頻度即次數(shù),記為f(a1a2…aK)。則該串的出現(xiàn)概率是:

      式中,NK為K串的總數(shù)目。將其用條件概率表達(dá),

      則可得:

      此時做一個Markov假定,假設(shè)中K串的出現(xiàn)概率p(a1a2…aK)不依賴于第一個字母a1,則:

      而對于條件概率p(aK|a2a3…aK-1),我們可以通過統(tǒng)計更短的串獲得,即:

      由此,我們可以根據(jù)K-1串和K-2串來推測出K串概率:

      式中,p0表示這個K串概率是由K-1串和K-2串的出現(xiàn)概率給出的估計。把直接統(tǒng)計的K串頻度f與估計值f0之間的偏差作為考察值:

      將每類K串對應(yīng)的考察值v(a1a2…aK)作為分量構(gòu)成一個組分矢量。顯然當(dāng)估計值f0=0時,真值f也為0,此時該維度上的分量設(shè)為0。所有這些分量按照統(tǒng)一的固定順序排列,就得到該物種的組分矢量 V=(v1,v2,…,vm),其中 M=20K。

      對于N個物種得到N個這樣的組分矢量Vt,其中是物種的編號,介于1與N之間。它們的遺傳距離矩陣D是一個對角元素為0的N×N對稱矩陣。每個元素對應(yīng)物種間的遺傳距離,由組分矢量的夾角的余弦值給出,其數(shù)學(xué)表達(dá)如下:

      最后,基于該遺傳距離矩陣D,使用鄰接法就可以構(gòu)建親緣關(guān)系樹。

      1.2 功能實現(xiàn)——CVTree3網(wǎng)絡(luò)服務(wù)器

      1.2.1 基本功能 雖然CVTree的算法本身并不復(fù)雜,但是要從頭實現(xiàn)卻也并不容易,所以我們開發(fā)了CVTree方法的網(wǎng)絡(luò)服務(wù)器,用戶可以通過互聯(lián)網(wǎng)方便的使用該算法。為了適應(yīng)當(dāng)前基因組數(shù)據(jù)的海量增加,我們開發(fā)了最新的CVTree網(wǎng)絡(luò)服務(wù)器CVTree3,用戶可以通過 http://tlife.fudan.edu.cn/cvtree3 訪問。相對于之前的兩個版本的CVTree網(wǎng)絡(luò)服務(wù)器,CVTree3的性能顯著提升。就硬件而言,它專享兩臺具有四路32核、512 G內(nèi)存的高性能計算集群。同時,為了充分利用計算集群的性能,我們重新設(shè)計和編寫了核心程序,實現(xiàn)并行化,還從整體上優(yōu)化了運算過程,從而使效率最大化。此外,為了方便用戶在本地使用CVTree方法進(jìn)行研究,我們還將CVTree3的核心程序單獨抽離出來,做成開源的軟件包。用戶可以從https://www.github.com/ghzuo/cvtree 下載和編譯本地版本的CVTree程序。

      進(jìn)入上述地址即可打開CVTree3首頁。我們提供了一個Example項目,用戶可以在首頁點擊“Example”按鍵,查看和瀏覽這個項目,或者選擇“Load/Create Project”新建一個自己項目。點擊之后即可得到如圖 1所示的項目設(shè)置頁面。對于每個新建的項目,系統(tǒng)自動分配一個由數(shù)字與下劃線組成的項目號并且顯示在頁面頂部(圖 1),若從“Example”按鍵進(jìn)入,則項目顯示為 “example”。在此頁面,用戶可以選擇CVTree方法的基本參數(shù),如:使用DNA序列還是蛋白質(zhì)序列、短串的長度K(可多選)等。在CVTree3服務(wù)器中,我們內(nèi)置了大量已知分類信息的全基因組,目前包含338種古菌,2 850種細(xì)菌,以及8個真核生物作為外類群備選。用戶在此頁面中部可按類別選擇它們,若想逐條選擇則點擊“See Detail”進(jìn)入逐條選擇頁面。此外,用戶還可以上傳自己的基因組到CVTree3服務(wù)7 d后系統(tǒng)會自動刪除。器,它們顯示在頁面的下部。所有參數(shù)與基因組都設(shè)置好之后,點擊右邊的綠色按鈕“All parameters are fine,Run Project”,即可以提交程序到服務(wù)器上運行了。

      用戶不能修改Example項目,若是由“Example”項目進(jìn)入該頁面,點擊該按鍵則不會有反應(yīng)。若只使用內(nèi)建的基因組數(shù)據(jù),系統(tǒng)會很快給出結(jié)果;若上傳了自己的數(shù)據(jù),則需要 等待。等待時間視上傳基因組與選擇的內(nèi)建基因組數(shù)目以及相關(guān)參數(shù)而定。項目在服務(wù)器上運行時,用戶可以關(guān)閉瀏覽器,這不會影響項目的運行。需要查看項目運行情況與計算結(jié)果時,只要使用項目編號從首頁導(dǎo)入該項目即可。用戶也可以選擇在基本參數(shù)選項中填入Email,則當(dāng)項目計算完畢后系統(tǒng)會通知用戶。需要注意的是,每個項目在完成后,只在服務(wù)器上保持7d,

      圖1 CVTree3網(wǎng)絡(luò)服務(wù)器的設(shè)置界面頂

      1.2.2 親緣關(guān)系與分類的自動比對系統(tǒng) 除了性能的提升,將生成的親緣關(guān)系樹與分類系統(tǒng)進(jìn)行自動比較是CVTree3的又一個亮點。服務(wù)器在運行的過程中,除了使用CVTee算法進(jìn)行親緣關(guān)系的分析以外,還會同時得到的親緣關(guān)系與分類系統(tǒng)進(jìn)行比較。我們綜合參考了NCBI分類數(shù)據(jù)庫與Bergey’s Manual等數(shù)據(jù),對內(nèi)建的菌株給出了譜系信息。用戶上傳的數(shù)據(jù),缺省的信息被設(shè)置為未知(Unclassified)。用戶可以結(jié)合已知的譜系信息來推測未知的分類信息,這也是CVTree3網(wǎng)絡(luò)服務(wù)器的一項重要功能。另外,用戶可以在上傳基因組的方框中上傳分類信息文件,上傳該信息文件的格式與方法請見用戶手冊。

      所有的計算都進(jìn)行完畢后,圖 1右上角會顯示藍(lán)色按鈕“See Result”,可以查看計算結(jié)果。首先看到的是一個按照菌株的分類階梯顯示的親緣關(guān)系與分類系統(tǒng)的對比結(jié)果(圖 2)。在對比親緣關(guān)系與分類系統(tǒng)的過程中,我們依靠的關(guān)鍵概念是“單源枝(Monophyly)”。所謂單源枝是指,若某個分類單元剛好對應(yīng)著親緣關(guān)系樹上的一個枝, 即分類單元內(nèi)包含的菌株對應(yīng)于該分枝下的所有枝葉所代表的菌株。所以,當(dāng)某個枝為單源時,則說明親緣關(guān)系與分類系統(tǒng)對于當(dāng)前的數(shù)據(jù)集合是一致的。除了按分類系統(tǒng)顯示單源性,我們還按分類級別統(tǒng)計了單源枝的數(shù)目,分別列在圖 2的兩個未顯示的Tab頁面“Monophyly”與“None”中。圖 2的第4個Tab則列出了一些分類關(guān)系不確定即Unclassified菌株,這些菌株在統(tǒng)計過程中并沒有被計入。

      圖2 按分類階梯顯示的單源枝截圖

      1.2.3 交互式親緣關(guān)系樹顯示系統(tǒng) 交互式的親緣關(guān)系樹顯示是CVTree3的第3個亮點。點擊圖 2右上角的按鈕“See Tree”即可以看到這棵親緣關(guān)系樹。圖 3是一幅CVTree3親緣樹的截圖,用戶可以從CVTree3的Example中獲得這棵親緣樹,在Web頁面上它是一棵動態(tài)的樹,每個節(jié)點都可以打開或收縮,從而調(diào)整樹的顯示方式。此外,與普通的親緣關(guān)系樹不同,該親緣關(guān)系樹在計算過程中,已自動與分類系統(tǒng)進(jìn)行了比較與標(biāo)記,所以用戶可以方便的從親緣樹查看每個枝的分類屬性。如圖 3所示,我們將樹展開到門的級別,其中的顏色表明,由CVTree方法得到親緣樹在 門的級別上絕大部分與傳統(tǒng)的分類系統(tǒng)保持一致。除此之外,我們還提供了很多方便的操作方式,例如,在親緣樹上搜索自己感興趣的物種與分類單元,系統(tǒng)會根據(jù)用戶要求自動調(diào)整樹的顯示方式,以突出用戶感興趣的內(nèi)容;結(jié)合其它生物學(xué)知識,用戶可以對菌株的譜系屬性試行調(diào)整,系統(tǒng)會根據(jù)新提交的譜系信息重新對比與標(biāo)記親緣關(guān)系樹。CVTree3服務(wù)器還可以輸出高質(zhì)量的圖以供展示和發(fā)表。有關(guān)交互操作的詳細(xì)描述與操作方法可參閱在線手冊。

      2 CVTree3 網(wǎng)絡(luò)服務(wù)器的應(yīng)用

      2.1 對全基因組進(jìn)行分類鑒定

      物種親緣關(guān)系與分類具有天然的聯(lián)系,因此CVTree的一個重要應(yīng)用:可以方便地使用親緣關(guān)系對物種進(jìn)行初步鑒定。在CVTree3服務(wù)器中,我們內(nèi)置了大量已知分類信息的全基因組。用戶只需要上傳未知原核生物的全基因組數(shù)據(jù),將它們和我們內(nèi)置的全基因組數(shù)據(jù)混合生成親緣樹,就可以通過內(nèi)置全基因組的譜系信息來推測上傳的未知菌株的分類地位。

      圖3 由CVTree方法得到的親緣樹并根 據(jù)分類信息展開到門一級

      圖4 上傳基因組與內(nèi)部基因組的親緣關(guān)系

      圖 4所示也是CVTree3中Example的親緣樹。該樹所使用的數(shù)據(jù)集與圖 3相同,通過CVTree3的交互作用,我們讓它更有效的顯示“未知”物種的基因組的分類地位。我們從互聯(lián)網(wǎng)下載了兩個并沒有包含在內(nèi)建數(shù)據(jù)庫之中的全基因組作為“未知”物種來進(jìn)行測試。圖 4中棕色顯示的Kutzneria_albida_DSM_43870.UPLOAD{1}就是其中之一。該“未知”菌株,與Pseudonocardiaceae科的其它幾個屬的菌株同處于一個枝內(nèi),同時又與它們保持屬一級的獨立性,即與其它幾個屬相互并列。所以我們可以判定,上傳的這個“未知”菌株應(yīng)該是Pseudonocardiaceae科下的一個在CVTree3內(nèi)建數(shù)據(jù)庫中沒有反映的“新”屬。顯然,這與我們從其它渠道了解到的信息,包括它的 命名,是一致的。

      2.2 研究種以下的分類情況

      基于未知菌株的全基因組序列,使用CVTree3可以對菌株進(jìn)行親緣與分類鑒別研究。雖然使用16S rRNA序列的聯(lián)配也可以進(jìn)行類似的研究,但是由于信息量的限制,使用16S rRNA方很難進(jìn)行種以下的分類單元的研究,這正是CVTree方法的優(yōu)勢所在。由于CVTree方法合理的利用了全基因組信息,它的分辨率顯著高于16S rRNA,從而可以進(jìn)行種以下親緣關(guān)系的研究。下面我們以冰島硫化葉菌(Sulfolobus islandicus)來說明這種應(yīng)用。

      圖5 十個冰島硫化葉菌(Sulfolobus islandicus)菌株與其采集地

      硫化葉菌是一類極端嗜熱嗜酸古菌,多存在于地?zé)崛⒒鹕綗崛c泥漿噴口處。冰島硫化葉菌因最早發(fā)現(xiàn)于冰島而得名。由于環(huán)境限制,在演化上相對隔絕,所以不同采集地的菌株基因組,具有一些不同的特征。在CVTree3的內(nèi)建數(shù)據(jù)庫中,共收集了10個屬于該物種的菌株,它們來自4個不同的采集地。如圖 5所示,在由CVTree方法建立的親緣關(guān)系也顯著地表現(xiàn)出其采集地的地理位置。首先,來自美洲的4個菌株與來自歐洲的6個菌株分成兩個大枝,然后再根據(jù)其采集地的不同,進(jìn)一步分成為4個較小的分枝。也就是說,從CVTree得到的親緣關(guān)系,有效地反應(yīng)了地理隔絕帶來的演化效果[24]。除了這種由地理位置帶來的種以下的分化外,種以下的分類單元,如亞種、生態(tài)型、血清型、生物變種等,在CVTree構(gòu)建的親緣關(guān)系樹中得以體現(xiàn)的例子,在我們的研究過程中還遇到很多。但是需要說明的是,這些因素之間又會交互影響。例如,相同亞種的不同血清型與相同血清型的不同亞種,對于化膿性鏈球菌在CVTree上有較好的關(guān)聯(lián),而對于肺炎鏈球菌就不那么清晰,還需要結(jié)合專業(yè)知識有針對性地進(jìn)行研究。

      2.3 基于全基因組研究原核生物 分類

      在以上兩個例子中,我們使用CVTree方法作為獨立的檢測工具,重現(xiàn)了與其它研究一致的結(jié)果。實際上基于CVTree方法,我們還能對現(xiàn)有的分類系統(tǒng)提供某些新的具有建設(shè)性的意見。例如,大腸桿菌(Escherichia coli)與志賀氏痢疾桿菌(Shigella),這兩類腸道菌在形態(tài)上非常相似,都是革蘭氏陰性桿菌,但是由于志賀氏痢疾桿菌在病理學(xué)上的特異性,它們被單獨分類為一個屬。另一方面,在基于部分基因的分類研究中,各種志賀氏痢疾桿菌常常與埃希氏細(xì)菌屬下的大腸桿菌混雜在一起[25,26],很多人就據(jù)此認(rèn)為志賀氏痢疾桿菌與大腸桿菌應(yīng)該是同一個種下的不同菌株。

      我們用CVTree研究了埃希氏菌屬與志賀氏痢疾桿菌屬。如圖 6所示,所有的志賀氏痢疾桿菌屬的菌株都插入了埃希氏桿菌的屬中,它們與大腸桿菌最靠近,但是也同所有的大腸桿菌分開。所有的志賀氏痢疾桿菌也單獨分開。它們之間的分界也是明確的。這就表明志賀氏痢疾桿菌與大腸桿菌并非同種,它們屬于埃希氏菌屬,是大腸桿菌的姊妹種[27]。這是與目前流行觀念不一致的看法,但它既區(qū)分了志賀氏痢疾桿菌與大腸桿菌,又反映了前者在病理上的特殊性。這說明CVTree的高分辨力對于醫(yī)學(xué)實踐中致病菌的檢測會有所幫助。

      3 總結(jié)

      當(dāng)前測序技術(shù)的革新帶來了海量的基因組數(shù)據(jù),為基于全因組數(shù)據(jù)的數(shù)據(jù)分析提供了豐富素材,同時也對發(fā)展合適的計算工具帶來挑戰(zhàn)。各種計算瓶頸與人為選擇所導(dǎo)致的差異促使我們?nèi)パ芯繜o參數(shù)和不依靠序列聯(lián)配的方法?;谌蚪M的CVTree方法的提出與改進(jìn),就是在這一前提下的努力結(jié)果。它合理地利用了全基因組的信息,高效地實現(xiàn)了基于全基因組的親緣關(guān)系和分類系統(tǒng)研究。它一方面能與傳統(tǒng)的分類系統(tǒng)保持較好的一致性,另一方面它還提供了研究種以菌株的分辨能力,并且為解決一些具有特殊分類需求的問題提供幫助。我們新開發(fā)的CVTree3網(wǎng)絡(luò)服務(wù)器,運行在并行的高性能硬件上,是一款高效與方便的基于全基因組的親緣關(guān)系與分類系統(tǒng)的研究工具。它的使用界面非常友好,實現(xiàn)了親緣關(guān)系與分類系統(tǒng)的自動比較,允許用戶在瀏覽器上進(jìn)行交互式操作。隨著測序技術(shù)的提高,菌株測序的成本不久將低于鑒定它的“濕”實驗的預(yù)算,生物工作者今后不必進(jìn)行太多的鑒定實驗,只要拿到菌株的全基因組,將它提交到CVTree3網(wǎng)絡(luò)服務(wù)器上,就可以對它的分類特性進(jìn)行初步判定。我們更希望,CVTree方法將來能夠成為闡明原核生物親緣關(guān)系與分類系統(tǒng)的定義性的工具。

      圖6 志賀氏痢疾桿菌屬(Shigella)與埃希氏菌屬(Escherichia)的親緣關(guān)系樹

      致謝:感謝戚繼、徐昭博士對CVTree網(wǎng)絡(luò)服務(wù)器2004和2009版本的貢獻(xiàn)以及參與CVTree3的討論。感謝復(fù)旦大學(xué)物理系和應(yīng)用表面物理國家重點實驗室資助購進(jìn)用于CVTree3的并行集群系統(tǒng),使得整個研究項目得以持續(xù)進(jìn)行。

      [1]Whitman WB, Coleman DC, Wiebe WJ . Prokaryotes:the unseen majority[J]. Proc Natl Acad SciUSA, 1998, 95:6578-6583.

      [2]Woese CR, Stackebrandt E, Macke TJ, Fox GE. A phylogenetic definition of the major eubacterial taxa[J]. Syst Appl Microbiol,1985, 6:143-151.

      [3]Staley JT. The bacterial species dilemma and the genomicphylogenetic species concept[J]. Philos Trans R Soc Lond B Biol Sci, 2006, 361:1899-1909.

      [4]Yarza P, Richter M, Peplies J, et al. The all-species living tree project:a 16S rRNA-based phylogenetic tree of all sequenced type strains[J]Syst Appl Microbiol, 2008, 31(4), 241-250.

      [5]Whitman WB. Intent of the nomenclatural code and recommendations about naming new species based on genomic sequences[J]. Bull Bergey’s Int Soc Microb Syst, 2011, 2:135-139.

      [6]Wu D, Hugenholtz P, Mavromatis K, et al. A Phylogeny-driven genomic encyclopaedia of Bacteria and Archaea[J]. Nature, 2009,462:1056-1060.

      [7]Goffeau A. Life with 482-Genes[J]. Science, 1995, 270:445-446.

      [8]Schneiker S, Perlova O, Kaiser O, et al. Complete genome sequence of the myxobacterium Sorangium cellulosum[J]. Nat Biotechnol,2007, 25:1281-1289.

      [9]Qi J, Wang B, Hao B. Whole proteome prokaryote phylogeny without sequence alignment:a k-string composition approach[J]. J Mol Evol, 2004, 58:1-11.

      [10]Gao L, Qi J, Wei H, et al. Molecular phylogeny of coronaviruses including human molecular phylogeny of coronaviruses including human[J]. Chinese Sci Bull, 2003, 48:1170-1174.

      [11]Hao BL. A few pieces of mathematics inspired by real biological data.[M]//Ge ML, Oh CH, Phua KK. Proceedings of the Conference in Honor of C N Yang's 85th Birthday. World Scientific Pub Co Inc, 2008.

      [12]Hao BL, Gao L. Prokaryotic branch of the tree of life:a composition vector approach[J]. J Syst Evol, 2008, 46:258-262.

      [13]Hao BL, Long MY, Gu HY, et al. Whole-genome based prokaryotic branches in the tree of life[C]. Darwin 200 Beijing Int Conf,2010:102-103.

      [14]Li QA, Xu Z, Hao B. Composition vector approach to whole-genomebased prokaryotic phylogeny:success and foundations[J]J Biotechnol, 2010, 149:115-119.

      [15]Zuo G, Xu Z, Hao B. Phylogeny and taxonomy of archaea:a comparison of the whole-genome-based CVTree approach with 16S rRNA sequence analysis[J]. Life, 2015, 5:949-968.

      [16]Wang H, Xu Z, Gao L, Hao B. A fungal phylogeny based on 82 complete genomes using the composition vector method[J]Bmc Evol Biol, 2009, 9:1471-2148.

      [17]Chu KH, Qi J, Yu ZG, Anh V. Origin and phylogeny of chloroplasts revealed by a simple correlation analysis of complete genomes[J]. Mol Biol Evol, 2004, 21:200-206.

      [18]Liu J, Wang H, Yang H, et al. Composition-based classification of short metagenomic sequences elucidates the landscapes of taxonomic and functional enrichment of microorganisms[J].Nucleic Acids Res, 2013, 41:1-10.

      [19]Qi J, Luo H, Hao B. CVTree:A phylogenetic tree reconstruction tool based on whole genomes[J]Nucleic Acids Res, 2004, 32:45-47.

      [20]Xu Z, Hao BL. CVTreeUpdate:A newly designed phylogenetic study platform using composition vectors and whole genomes[J]Nucleic Acids Res, 2009, 37:W174-W178.

      [21]Zuo G, Hao B. CVTree3 web server for whole genome-based and alignment-free prokaryotic phylogeny and taxonomy[J]Genomics Proteomics Bioinforma, 2015, (in press).

      [22]Saitou N, Nei M. The neighbour joining method:a new method for reconstructing phylogenetic trees[J]Mol Biol Evol, 1987, 4(4):406-425.

      [23]MihaescuR, Levy D, Pachter L. Why neighbor-joining works[J].Algorithmica(New York), 2009, 54:1-24.

      [24]Zuo G, Hao B, Staley JT. Geographic divergence of ‘sulfolobus islandicus’ strains assessed by genomic analyses including electronic DNA hybridization confirms they are geovars[J].Antonie Van Leeuwenhoek, 2014, 105(2):431-435.

      [25]Brenner DJ, Fanning GR, Miklos GV, Steigerwalt AG. Polynucleotide sequence relatedness among Shigella species[J]. Int J Syst Bacteriol, 1973, 23:1-7.

      [26]Brenner DJ, Fanning GR, Skerman FJ, Falkow S. Polynucleotide sequence divergence among strains of Escherichia coli and closely related organisms[J]. J Bacteriol, 1972, 109:953-965, 1972.

      [27]Zuo G, Xu Z, Hao B. Shigella strains are not clones of Escherichia coli but sister species in the genus Escherichia[J]Genomics Proteomics Bioinforma, 2013, 11:61-65.

      猜你喜歡
      親緣基因組物種
      吃光入侵物種真的是解決之道嗎?
      英語世界(2023年10期)2023-11-17 09:18:18
      谷子近緣野生種的親緣關(guān)系及其利用研究
      中國醫(yī)學(xué)科學(xué)院藥用植物研究所藥用植物親緣學(xué)研究中心
      牛參考基因組中發(fā)現(xiàn)被忽視基因
      回首2018,這些新物種值得關(guān)注
      菊科藥用植物遺傳多樣性及親緣關(guān)系的ISSR分析
      電咖再造新物種
      汽車觀察(2018年10期)2018-11-06 07:05:26
      小白菜種質(zhì)遺傳多樣性與親緣關(guān)系的SRAP 和SSR分析
      瘋狂的外來入侵物種
      基因組DNA甲基化及組蛋白甲基化
      遺傳(2014年3期)2014-02-28 20:58:49
      环江| 祁东县| 乐安县| 晋江市| 嘉定区| 安义县| 通榆县| 青河县| 台北县| 从化市| 连山| 黎川县| 雷波县| 文成县| 宜昌市| 南江县| 盘山县| 婺源县| 射阳县| 庆安县| 永川市| 五大连池市| 龙门县| 龙里县| 眉山市| 灵山县| 舒兰市| 分宜县| 金川县| 徐汇区| 铅山县| 鄱阳县| 乌什县| 南昌县| 江永县| 佳木斯市| 百色市| 威海市| 清镇市| 泰州市| 阜新市|