梁承志
從作物基因組分析到整合組學(xué)知識庫建設(shè)
梁承志1,2
1. 中國科學(xué)院遺傳與發(fā)育生物學(xué)研究所,植物基因組學(xué)國家重點實驗室,種子創(chuàng)新研究院,北京 100101 2. 中國科學(xué)院大學(xué),北京 100049
高通量技術(shù)的廣泛應(yīng)用使得各類組學(xué)數(shù)據(jù)的產(chǎn)出速度越來越快,由此產(chǎn)生的海量數(shù)據(jù)蘊藏著大量的基因組變異和相關(guān)功能信息。如何對這些數(shù)據(jù)進行深度整合和利用將會是一個長期而艱巨的任務(wù),這需要具備高效的數(shù)據(jù)存儲、分析和挖掘的能力。在過去幾年中,本課題組通過與所內(nèi)外課題組的合作,在多個植物的基因組的組裝、注釋、比較基因組和群體基因組分析等方面進行了探索,同時也將大量的水稻種質(zhì)信息和組學(xué)數(shù)據(jù)進行了整合,存儲于結(jié)構(gòu)化數(shù)據(jù)庫中并開發(fā)了一些相應(yīng)的網(wǎng)絡(luò)查詢展示和數(shù)據(jù)挖掘工具。本文對相關(guān)的研究成果及其進展進行了概括性介紹,并展望了下一步的目標:構(gòu)建一個用于支持作物功能基因組學(xué)和分子設(shè)計育種研究的整合組學(xué)知識庫。
基因組分析;數(shù)據(jù)庫;組學(xué)大數(shù)據(jù);分子設(shè)計育種;作物;組學(xué)知識庫
近年來,隨著高通量組學(xué)技術(shù)的迅猛發(fā)展,各類組學(xué)數(shù)據(jù)的產(chǎn)出成本越來越低,產(chǎn)出速度也越來越快。這些新技術(shù)和海量數(shù)據(jù)已為動植物功能基因組、人類健康及遺傳育種方面的研究帶來了前所未有的機遇和挑戰(zhàn)。一方面,基因組技術(shù)的廣泛應(yīng)用極大提高了這些領(lǐng)域的研究效率;同時,通過多學(xué)科知識、多領(lǐng)域技術(shù)和各類組學(xué)信息的交叉融匯,這些領(lǐng)域的前沿應(yīng)用技術(shù)也在迅猛發(fā)展。如在作物育種方面,利用功能基因組的研究成果和高通量基因型表型測量技術(shù),結(jié)合對已知優(yōu)異等位基因聚合[1]和全基因組選擇[2]等技術(shù)的品種智能設(shè)計[3~7]將是未來育種的必然發(fā)展方向,預(yù)期能夠突破傳統(tǒng)育種的瓶頸[8],大大提高育種選擇精度,縮短育種周期。另一方面,雖然這些海量組學(xué)數(shù)據(jù)中蘊藏著大量基因組變異及相關(guān)的功能信息,但由于生物數(shù)據(jù)的高復(fù)雜性,人們對這些數(shù)據(jù)的深度整合、解析及重復(fù)利用將是一個長期艱巨的任務(wù),特別是需要具備高效的數(shù)據(jù)存儲管理,自動化分析和挖掘的能力。
中國科學(xué)院遺傳與發(fā)育生物學(xué)研究所長期致力于研究重要農(nóng)作物的分子遺傳和分子育種中的重大科學(xué)和關(guān)鍵技術(shù)問題。為解決對海量組學(xué)數(shù)據(jù)的深度加工和廣泛應(yīng)用,并基于現(xiàn)有及未來科研項目的需求,研究所積極參與北京生命科學(xué)大型儀器區(qū)域中心相關(guān)平臺的建設(shè)工作,在過去幾年購置了“農(nóng)作物分子育種數(shù)據(jù)分析系統(tǒng)”和“農(nóng)作物大數(shù)據(jù)分析整合計算系統(tǒng)”。兩套系統(tǒng)整體聚合計算能力超過50萬億次/秒,CPU核心數(shù)達1000多個,裸存儲總量大于3 PB (圖1)。在此基礎(chǔ)上,2019年研究所成立了“生物大數(shù)據(jù)分析平臺”,以加強對組學(xué)數(shù)據(jù)的管理和對上述計算存儲資源的高效利用。平臺的使命是服務(wù)于研究所的生物數(shù)據(jù)分析需求,通過提供培訓(xùn)服務(wù)和項目合作,致力于提高研究所的生物信息技術(shù)水平。同時,平臺承擔的一個重要任務(wù)是對研究所“一三五”戰(zhàn)略規(guī)劃建設(shè)、中國科學(xué)院戰(zhàn)略性先導(dǎo)科技專項、種子創(chuàng)新研究院建設(shè)等提供組學(xué)大數(shù)據(jù)相關(guān)的技術(shù)支撐。在過去幾年中,通過與所內(nèi)外課題組的合作,本課題組利用上述計算存儲系統(tǒng),在多個植物的基因組分析方面做了一些較為深入的探索,同時也已將大量的水稻組學(xué)數(shù)據(jù)整合到了結(jié)構(gòu)化數(shù)據(jù)庫中并開發(fā)了一些相應(yīng)的查詢展示和挖掘工具。本文對本課題組取得的相關(guān)研究成果及其進展進行了概括性總結(jié),并對未來構(gòu)建一個主要作物整合組學(xué)知識庫的發(fā)展目標進行了展望。
圖1 中國科學(xué)院遺傳與發(fā)育生物學(xué)研究所高性能計算集群及數(shù)據(jù)存儲主體架構(gòu)示意圖
集群計算節(jié)點結(jié)合DSS并行存儲用于大規(guī)模數(shù)據(jù)分析。SAN存儲用于結(jié)構(gòu)化數(shù)據(jù)庫中數(shù)據(jù)存儲,為網(wǎng)絡(luò)服務(wù)器提供數(shù)據(jù)服務(wù)(有部分服務(wù)器未顯示)。
基因組組裝和注釋是基因組學(xué)研究的兩個重要基礎(chǔ)。本課題組通過結(jié)合全基因組PacBio (Pacific Bios-ciences)單分子測序、fosmid大片段DNA測序、遺傳圖譜和BioNano (BioNano Genomics)光學(xué)圖譜等技術(shù),利用已有的組裝軟件及自己開發(fā)的軟件,構(gòu)建了一個植物中最高質(zhì)量的參考基因組水稻(ssp)蜀恢498序列[9]。利用類似的方法,通過所內(nèi)外課題組合作解析了苦蕎()[10]和二倍體小麥烏拉爾圖()[11]的基因組。另外,本課題組還合作完成了栽培金魚草()的基因組組裝[12]。在此基礎(chǔ)上,開發(fā)了一個用于基因組復(fù)雜區(qū)域局部組裝的新軟件HERA[13],能夠在不借助于大片段DNA文庫的情況下,組裝出超長連續(xù)的基因組序列。利用HERA軟件改進了多個已發(fā)表基因組,其中玉米和苦蕎的基因組序列質(zhì)量都已得到了巨大提高,包括序列的連續(xù)性提高了近50倍,多處錯誤得到了修正。目前本課題組已經(jīng)利用HERA軟件跟所內(nèi)外多個課題組合作完成了數(shù)十個水稻、大豆、小麥、玉米和高粱等作物的高質(zhì)量基因組序列(未發(fā)表數(shù)據(jù))。對于任一純合的二倍體水稻基因組,在HERA的幫助下都能得到一個與日本晴參考基因組質(zhì)量相當?shù)慕M裝序列。對于雜合度高的基因組如野生稻,利用HERA提高組裝序列的長度,再結(jié)合Hi-C數(shù)據(jù)輔助分離單倍體基因組也獲得了很好的結(jié)果。
在基因注釋方面,本課題組通過利用RNA-seq數(shù)據(jù)提高對基因的覆蓋度,改進了Gramene-Pipeline注釋流程[14],結(jié)合其他證據(jù),注釋了水稻[9]、苦蕎[10]、小麥[11]和棉花(未發(fā)表數(shù)據(jù))等多個基因組的高質(zhì)量基因集。通過比較發(fā)現(xiàn),這些基于證據(jù)的基因集比已發(fā)表的基因集質(zhì)量在很多方面有較大的提高[9]。
比較基因組分析可用于研究基因組中的結(jié)構(gòu)變異、基因組和基因家族的進化及保守基因的功能。本課題組通過對水稻、小麥、苦蕎和金魚草等與其近源物種或模式植物進行比較分析研究了各個物種中的全基因組復(fù)制事件、基因組之間的變異和進化模式,以及重要基因家族的進化對物種進化的影響。例如,通過對苦蕎的比較基因組分析,發(fā)現(xiàn)了蘆丁代謝途徑上的所有9個酶的編碼基因家族,包括兩個以前未被完整克隆的酶的編碼基因[10]。同時,發(fā)現(xiàn)在苦蕎中全基因組復(fù)制事件中導(dǎo)致大量轉(zhuǎn)運蛋白家族及轉(zhuǎn)錄因子家族的擴增對于苦蕎耐鋁、耐逆境等能力的提高起著很重要的作用[10]。在對小麥A基因組的研究中,發(fā)現(xiàn)與水稻基因組相比,小麥基因組進化的速度明顯加快,在共線區(qū)域丟失的基因變多,產(chǎn)生的新基因的數(shù)目也變多,這可能是由轉(zhuǎn)座子快速擴增引起的小麥基因組擴張導(dǎo)致的[11]。此外,利用擬南芥、水稻、玉米和大豆的大規(guī)模RNA-seq數(shù)據(jù)構(gòu)建了基因調(diào)控和共表達網(wǎng)絡(luò)并進行了比較分析[15],找到了一些物種之間保守的基因模塊及跟重要農(nóng)藝性狀相關(guān)聯(lián)的候選基因。這些模塊對于研究基因的生物學(xué)功能提供了很重要的線索。
群體基因組研究可用于基因定位及物種馴化和進化分析[16]。在中國科學(xué)院戰(zhàn)略性先導(dǎo)科技專項(A)“分子模塊育種創(chuàng)新體系”資助下,本課題組與所內(nèi)外多個課題組合作,對1000多份中國水稻主栽品種進行了重測序并測定了多環(huán)境下的多個表型數(shù)據(jù)(數(shù)據(jù)尚未發(fā)表,但可通過www.mbkbase.org查詢)。通過對基因型信息的分析發(fā)現(xiàn),中國的水稻品系在東北和南方粳稻、秈稻雜交稻親本之間的分化非常明顯,具有明顯的群體結(jié)構(gòu)。利用全基因組關(guān)聯(lián)分析,發(fā)現(xiàn)了多個重要農(nóng)藝性狀的新關(guān)聯(lián)位點。結(jié)合傳統(tǒng)的群體基因組分析方法及本課題組自己發(fā)展的新方法,發(fā)現(xiàn)了一些各個亞群體之間的滲入片段,與目前的水稻育種目標(如提高品質(zhì)和抗病性)具有很高的關(guān)聯(lián)性(未發(fā)表數(shù)據(jù))。此外,還分析了這些水稻主栽品種中對于已知優(yōu)良等位基因的利用情況。這些結(jié)果為中國水稻優(yōu)良基因的挖掘和進一步育種改良提供了線索。
進行上述基因組研究的一個重要目的是利用相關(guān)的分析技術(shù)和組學(xué)數(shù)據(jù)來構(gòu)建一個整合多組學(xué)的數(shù)據(jù)庫,以支持作物功能基因組學(xué)和分子設(shè)計育種研究。其中高質(zhì)量的參考基因組及基因注釋為種內(nèi)不同個體的比較分析提供了全面的基礎(chǔ),而比較基因組及比較轉(zhuǎn)錄組研究可用于分析和關(guān)聯(lián)重要基因的功能。對于群體基因組結(jié)合表型的關(guān)聯(lián)分析為功能基因組研究到育種應(yīng)用之間架起了一個信息和知識傳遞的橋梁。目前本課題組已初步完成了一個用于整合、結(jié)構(gòu)化存儲、查詢、可視化展示、挖掘多組學(xué)數(shù)據(jù)的知識庫MBKbase(www.mbkbase.org)中水稻子庫的建設(shè)。水稻數(shù)據(jù)包括種質(zhì)信息、表型、基于兩個水稻參考基因組日本晴和蜀恢498的遺傳變異、種質(zhì)系譜樹、種質(zhì)基因組片段的亞群體祖先來源、已知和未知基因的等位變異及與表型信息的關(guān)聯(lián)、功能基因的表達信息等。目前庫中已收集了多個水稻群體的基因型和表型信息。盡管數(shù)據(jù)的系統(tǒng)性及軟件的功能都尚有待于加強,這個知識庫為基因型和表型數(shù)據(jù)的整合及深度高效利用已奠定了一個良好的基礎(chǔ)。
當前生命科學(xué)研究涉及到越來越多的多學(xué)科交叉及多技術(shù)和多數(shù)據(jù)類型的整合,這不僅要求深入分析多種類型數(shù)據(jù)之間的關(guān)聯(lián),而且對于大數(shù)據(jù)整合分析工具的能力要求也越來越高。因此,建設(shè)一個能夠整合大規(guī)模作物群體的多組學(xué)信息、提供大數(shù)據(jù)深度挖掘能力的知識庫(圖2)已是一個重要且急迫的任務(wù)。此知識庫以整合的多組學(xué)信息為基礎(chǔ),特別是圍繞作物大規(guī)模群體的基因型和表型組的關(guān)聯(lián)并結(jié)合已知功能基因信息(圖3),結(jié)合能夠從基因型預(yù)測表型的模型和軟件工具,對復(fù)雜性狀進行分解預(yù)測。由于環(huán)境對作物的表型往往具有很大的影響,同一種基因型的材料在不同環(huán)境中的生長發(fā)育經(jīng)常有很大差別,因此還需要整合環(huán)境信息以構(gòu)建地區(qū)或環(huán)境特異的智能模型。在未來幾年中,除了繼續(xù)完善水稻子庫,增加更多的水稻群體基因型和表型組信息外,本課題組將與植物染色體工程國家重點實驗室多個課題組合作,充分利用其前期積累的數(shù)據(jù),包括基因型、功能基因或遺傳位點信息、基因表達數(shù)據(jù)、田間表型、代謝組數(shù)據(jù)等[17,18](及未發(fā)表數(shù)據(jù)),以期構(gòu)建大豆、小麥等作物的整合多組學(xué)知識子庫。
在分子育種技術(shù)方面,全基因組選擇(genomic selection, GS)技術(shù)利用基因型來預(yù)測育種值,近年來已在國外大型商業(yè)育種項目中得到了廣泛應(yīng)用,大大減少了多環(huán)境測試的品系數(shù)目,在一些作物育種實例中減少了一半以上的傳統(tǒng)譜系育種時間并增加了產(chǎn)量[19~21]。不過,目前GS技術(shù)在育種中的應(yīng)用尚有很多的局限需要解決[19,20]。例如,GS的基因組預(yù)測模型有很多種,包括是否線性、有無參數(shù)、貝葉斯、機器學(xué)習(xí)等多種類型。GS模型的預(yù)測精度受到被選擇性狀的遺傳結(jié)構(gòu)、遺傳力和基因的效應(yīng),訓(xùn)練群體的結(jié)構(gòu)、大小和遺傳多樣性,測試群體與訓(xùn)練群體之間親緣關(guān)系的遠近和生長環(huán)境的差異,分子標記的數(shù)量、連鎖距離、與目標基因之間的連鎖關(guān)系等諸多因素的影響。總之,GS無法完全取代 傳統(tǒng)育種,但可以整合到育種程序中應(yīng)用到多種不同的場景。例如,GS得到的候選材料可以與回交 等其他的育種策略相結(jié)合;GS也可以輔助把地方或外源品系的多個優(yōu)異等位基因快速轉(zhuǎn)到重要的核心種質(zhì)中,快速創(chuàng)制新的育種親本材料。未來GS預(yù)測模型的高效應(yīng)用需要一個集多組學(xué)數(shù)據(jù)、分析流程、方法、應(yīng)用場景、育種策略等的管理系統(tǒng),需要融合遺傳學(xué)、基因組學(xué)、生物信息學(xué)、大數(shù)據(jù)分析和人工智能等多學(xué)科知識和技術(shù)的應(yīng)用。通過結(jié)合多種育種策略和GS模型、種質(zhì)系譜、表型組和環(huán)境數(shù)據(jù),重點利用已知基因功能信息,將這些信息全面整合到上述知識庫中,將有助于突破GS在應(yīng)用上的局限,發(fā)展新型分子設(shè)計育種技術(shù),全面提高育種效率。
圖2 作物整合組學(xué)知識庫的數(shù)據(jù)、功能和應(yīng)用示意圖
知識庫提供數(shù)據(jù)存儲、管理、查詢、可視化和智能分析等工具,育種材料將利用知識庫的分析工具進行設(shè)計和篩選,同時材料的基因型和表型數(shù)據(jù)也持續(xù)上傳到知識庫中進行共享和重復(fù)利用。
圖3 群體中基因型跟表型值的關(guān)聯(lián)示例
橫坐標顯示了目標基因在群體中出現(xiàn)頻率最高的15個等位基因,縱坐標顯示了每個等位基因在群體中對應(yīng)的表型值(株高)統(tǒng)計。
近年來群體基因組研究發(fā)現(xiàn),單個參考基因組無法代表一個物種的全部遺傳成分,而是需要一個泛基因組(Pan-genome)來覆蓋一個物種群體的全部基因及個體之間的有無變異序列[22]。例如,在兩個水稻亞種日本晴和蜀恢498之間,有大量的有無結(jié)構(gòu)變異[9];在水稻群體中,有大量的蛋白編碼基因和其他序列在日本晴基因組上是缺失的[23]。在日本晴和蜀恢498之間有些直系同源(等位)基因DNA序列差異較大(但在蛋白質(zhì)序列水平上則差異較小),導(dǎo)致用重測序的方法難以檢測到這些同源基因的存在,而通過兩個基因組序列的直接比較或基因注釋的比較就能很容易發(fā)現(xiàn)這些遺漏的基因。此外,由于作物基因組的高復(fù)雜性,個體中的很多序列或結(jié)構(gòu)變異往往都只存在于一些小的亞群體中。因此,具有亞群代表性的多個高質(zhì)量的參考基因組對于研究一個物種的全部基因功能信息就變得非常必要。在育種應(yīng)用上,因為GS等育種技術(shù)傾向于縮小遺傳多樣性,將地方種或近緣野生材料的優(yōu)異等位基因聚合到育種群體中就成為一項非常重要的任務(wù)[24]。這些參考基因組或泛基因組以及亞群特異的基因功能信息能夠促進對多樣化遺傳資源的分析,以及對這些材料中的優(yōu)異等位基因的識別和利用。
目前,由于單分子長片段測序成本的持續(xù)降低,利用HERA結(jié)合其他開源軟件,以很低的費用構(gòu)建高質(zhì)量作物基因組已經(jīng)變得完全可行,甚至已變成了常規(guī)化工作,如在水稻中只需要不到3萬元就能得到一個高質(zhì)量(類似于日本晴)的基因組。在未來幾年內(nèi),本課題組將致力于把大量的水稻、大豆、小麥等作物的高質(zhì)量參考基因組和更多的群體基因型信息整合到已有的知識庫中,同時進一步整合大群體的、系統(tǒng)性的、多環(huán)境下的表型組數(shù)據(jù),以構(gòu)建全面地從基因型到表型的全基因組預(yù)測模型。除了傳統(tǒng)的人工測量的表型值,比如生育期、株高、分蘗數(shù)、穗粒數(shù)等,近年來發(fā)展起來的高通量田間表型組技術(shù)[25~30]利用傳感器和光成像系統(tǒng),結(jié)合實驗室樣品分析,以及高性能計算及圖像分析技術(shù)和自動化分析軟件的支撐,能夠自動化獲取多環(huán)境下包含幾千個個體的關(guān)鍵生長時期、關(guān)鍵時間點、不同空間尺度上的變異的表型組學(xué)數(shù)據(jù)和環(huán)境數(shù)據(jù)。預(yù)期這些新型表型組數(shù)據(jù)在未來5~10年中將會呈現(xiàn)爆炸式增長。此外,該知識庫還會整合高質(zhì)量的基因注釋、更多的基因組元件功能信息,并發(fā)展功能多樣的用戶友好的數(shù)據(jù)管理查詢展示工具、多組學(xué)智能分析工具、基于基因型和表型進行育種材料選擇和智能設(shè)計的軟件工具等。相信隨著這一多作物多組學(xué)整合知識庫的建立和不斷豐富完善,它必將為農(nóng)作物功能基因組及分子設(shè)計育種的研究提供堅實的大數(shù)據(jù)和智能分析技術(shù)支撐。
[1] Zeng D, Tian Z, Rao Y, Dong G, Yang Y, Huang L, Leng Y, Xu J, Sun C, Zhang G, Hu J, Zhu L, Gao Z, Hu X, Guo L, Xiong G, Wang Y, Li J, Qian Q. Rational design of high-yield and superior-quality rice., 2017, 3: 17031.
[2] Meuwissen TH, Hayes BJ, Goddard ME. Prediction of total genetic value using genome-wide dense marker maps., 2001, 157(4): 1819–1829.
[3] Wang JK, Li HH, Zhang XC, Yin CB, Li Y, Ma YZ, Li XH, Qiu LJ, Wan JM. Molecular design breeding in crops in China., 2011, 37(2): 191–201.王建康, 李慧慧, 張學(xué)才, 尹長斌, 黎裕, 馬有志, 李新海, 邱麗娟, 萬建民. 中國作物分子設(shè)計育種. 作物學(xué)報, 2011, 37(02): 191–201.
[4] 顧銘洪, 劉巧泉. 作物分子設(shè)計育種及其發(fā)展前景分析. 揚州大學(xué)學(xué)報 (農(nóng)業(yè)與生命科學(xué)版), 2009, 30(1): 64–67.
[5] 蘇巖, 錢前, 曾大力. 水稻分子設(shè)計育種的現(xiàn)狀和展望. 中國稻米, 2010, 16(02): 5–9.
[6] Yu H, Wang B, Chen MJ, Liu GF, Li JY. Research advance and perspective of rice breeding by molecular design., 2018, 30(10): 1032–1037.余泓, 王冰, 陳明江, 劉貴富, 李家洋. 水稻分子設(shè)計育種發(fā)展與展望. 生命科學(xué), 2018, 30(10): 1032–1037.
[7] 薛勇彪, 韓斌, 種康, 王臺, 何祖華, 傅向東, 儲成才, 程祝寬, 徐云遠, 李明. 水稻分子模塊設(shè)計研究成果與展望. 中國科學(xué)院院刊, 2018, 33(09): 900–908.
[8] Wu B, Hu W, Xing YZ. The history and prospect of rice genetic breeding in China., 2018, 40(10):841–857.吳比, 胡偉, 邢永忠. 中國水稻遺傳育種歷程與展望. 遺傳, 2018, 40(10): 841–857.
[9] Du H, Yu Y, Ma Y, Gao Q, Cao Y, Chen Z, Ma B, Qi M, Li Y, Zhao X, Wang J, Liu K, Qin P, Yang X, Zhu L, Li S, Liang C. Sequencing and de novo assembly of a near complete indica rice genome., 2017, 8: 15324.
[10] Zhang L, Li X, Ma B, Gao Q, Du H, Han Y, Li Y, Cao Y, Qi M, Zhu Y, Lu H, Ma M, Liu L, Zhou J, Nan C, Qin Y, Wang J, Cui L, Liu H, Liang C, Qiao Z. The tartary buckwheat genome provides insights into rutin biosynthesis and abiotic stress tolerance., 2017, 10(9): 1224– 1237.
[11] Ling HQ, Ma B, Shi X, Liu H, Dong L, Sun H, Cao Y, Gao Q, Zheng S, Li Y, Yu Y, Du H, Qi M, Li Y, Lu H, Yu H, Cui Y, Wang N, Chen C, Wu H, Zhao Y, Zhang J, Li Y, Zhou W, Zhang B, Hu W, van Eijk MJT, Tang J, Witsenboer HMA, Zhao S, Li Z, Zhang A, Wang D, Liang C. Genome sequence of the progenitor of the wheat A subgenome., 2018, 557(7705): 424–428.
[12] Li M, Zhang D, Gao Q, Luo Y, Zhang H, Ma B, Chen C, Whibley A, Zhang Y, Cao Y, Li Q, Guo H, Li J, Song Y, Zhang Y, Copsey L, Li Y, Li X, Qi M, Wang J, Chen Y, Wang D, Zhao J, Liu G, Wu B, Yu L, Xu C, Li J, Zhao S, Zhang Y, Hu S, Liang C, Yin Y, Coen E, Xue Y. Genome structure and evolution ofL., 2019, 5(2): 174–183.
[13] Du, H, Liang C. Assembly of chromosome-scale contigs by efficiently resolving repetitive sequences with long reads., 2018, doi: 10.1101/345983.
[14] Liang C, Mao L, Ware D, Stein L. Evidence-based gene predictions in plant genomes., 2009, 19(10): 1912–1923.
[15] Yu, H, Lu, L, Jiao, B, Liang, C. Systematic discovery of novel and valuable plant gene modules by large-scale RNA-seq samples., 2019, 35(3): 361–364.
[16] Huang X, Han B. Natural variations and genome-wide association studies in crop plants., 2014, 65: 531–551.
[17] Zhou Z, Jiang Y, Wang Z, Gou Z, Lyu J, Li W, Yu Y, Shu L, Zhao Y, Ma Y, Fang C, Shen Y, Liu T, Li C, Li Q, Wu M, Wang M, Wu Y, Dong Y, Wan W, Wang X, Ding Z, Gao Y, Xiang H, Zhu B, Lee SH, Wang W, Tian Z. Resequencing 302 wild and cultivated accessions identifies genes related to domestication and improvement in soybean., 2015, 33(4): 408–414.
[18] Fang C, Ma Y, Wu S, Liu Z, Wang Z, Yang R, Hu G, Zhou Z, Yu H, Zhang M, Pan Y, Zhou G, Ren H, Du W, Yan H, Wang Y, Han D, Shen Y, Liu S, Liu T, Zhang J, Qin H, Yuan J, Yuan X, Kong F, Liu B, Li J, Zhang Z, Wang G, Zhu B, Tian Z. Genome-wide association studies dissect the genetic networks underlying agronomical traits in soybean., 2017, 18(1): 161.
[19] Desta ZA, Ortiz R. Genomic selection: genome-wide prediction in plant improvement., 2014, 19(9): 592–601.
[20] Crossa J, Pérez-Rodríguez P, Cuevas J, Montesinos-López O, Jarquín D, de Los Campos G, Burgue?o J, González- Camacho JM, Pérez-Elizalde S, Beyene Y, Dreisigacker S, Singh R, Zhang X, Gowda M, Roorkiwal M, Rutkoski J, Varshney RK. Genomic selection in plant breeding: methods, models, and perspectives., 2017, 22(11): 961–975.
[21] Messina CD, Technow F, Tang T, Totir R, Gho C, Cooper M. Leveraging biological insight and environmental variation to improve phenotypic prediction: Integrating crop growth models (CGM) with whole genome prediction (WGP)., 2018, 100: 151–162.
[22] Tao Y, Zhao X, Mace E, Henry R, Jordan D. Exploring and exploiting Pan-genomics for crop improvement,, 2019, 12(2): 156–169.
[23] Wang W, Mauleon R, Hu Z, Chebotarov D, Tai S, Wu Z, Li M, Zheng T, Fuentes RR, Zhang F, Mansueto L, Copetti D, Sanciangco M, Palis KC, Xu J, Sun C, Fu B, Zhang H, Gao Y, Zhao X, Shen F, Cui X, Yu H, Li Z, Chen M, Detras J, Zhou Y, Zhang X, Zhao Y, Kudrna D, Wang C, Li R, Jia B, Lu J, He X, Dong Z, Xu J, Li Y, Wang M, Shi J, Li J, Zhang D, Lee S, Hu W, Poliakov A, Dubchak I, Ulat VJ, Borja FN, Mendoza JR, Ali J, Li J, Gao Q, Niu Y, Yue Z, Naredo MEB, Talag J, Wang X, Li J, Fang X, Yin Y, Glaszmann JC, Zhang J, Li J, Hamilton RS, Wing RA, Ruan J, Zhang G, Wei C, Alexandrov N, McNally KL, Li Z, Leung H. Genomic variation in 3, 010 diverse accessions of Asian cultivated rice., 2018, 557(7703): 43–49.
[24] Zhang GQ. Research progress on breeding by design based on the SSSL library in rice., 41(8): 754–760.張桂權(quán). 基于SSSL平臺的水稻設(shè)計育種研究進展. 遺傳, 41(8): 754–760.
[25] Araus JL, Cairns JE. Field high-throughput phenotyping: the new crop breeding frontier., 2014, 19(1): 52–61.
[26] Pan YH. Analysis of concepets and categories of plant phenome and phemomics., 2015, 41(02): 175–186.潘映紅. 論植物表型組和植物表型組學(xué)的概念與范疇. 作物學(xué)報, 2015, 41(02): 175–186.
[27] Mu JH, Chen YZ, Feng H, Li WJ, Zhou LB. A new revolution in crop Breeding: the era of high-throughput phemomics., 2016, 34(06): 962–971.穆金虎, 陳玉澤, 馮慧, 李文建, 周利斌. 作物育種學(xué)領(lǐng)域新的革命: 高通量的表型組學(xué)時代. 植物科學(xué)學(xué)報, 2016, 34(06): 962–971.
[28] Duan LF, Yang WN. Research advances and future scenarios of rice phenomics., 2016, 28(10): 1129–1137.段凌鳳, 楊萬能. 水稻表型組學(xué)研究概況和展望. 生命科學(xué), 2016, 28(10): 1129–1137.
[29] Zhou J, Tardieu F, Pridmore T, Doonan J, Reynolds D, Hall N, Griffiths S, Cheng T, Zhu Y, Wang XE, Jiang D, Ding YF. Plant phenomics: history,present status and challenges., 2018, 41(04): 580–588.周濟, Francois Tardieu, Tony Pridmore, John Doonan, Daniel Reynolds, Neil Hall, Simon Griffiths, 程濤, 朱艷, 王秀娥, 姜東, 丁艷鋒. 植物表型組學(xué): 發(fā)展?現(xiàn)狀與挑戰(zhàn). 南京農(nóng)業(yè)大學(xué)學(xué)報, 2018, 41(04): 580–588.
[30] Rebetzke GJ, Jimenez-Berni J, Fischer RA, Deery DM, Smith DJ. Review: High-throughput phenotyping to enhance the use of crop genetic resources., 2019, 282: 40–48.
From genome analysis to construction of an integrated omics knowledgebase for crops
Chengzhi Liang1,2
The advances in high-throughput technologies have enabled high-speed accumulation of omics data, which contain a large amount of genetic variations and their functional information. The integration and deep utilization of those data will be a long-term and difficult task, which requires highly efficient data storage and powerful data analysis and mining tools. In the past several years, our group has conducted multi-level genomic analyses in several plants, including genome assembly and annotation, comparative and population genomic studies, through collaboration with other labs inside and outside of our institution. Meanwhile, we have integrated a large amount of rice germplasm information and omics data into a structural database and developed related data query, visual display and mining web tools. Here, we summarize some of those results and discuss our next goal to construct an integrated omics knowledgebase for crops to support functional genomics and molecular design breeding.
genome analysis; database; big omics data; molecular design breeding; crop; omics knowledgebase
2019-06-14;
2019-08-12
中國科學(xué)院重點部署項目(編號:ZDRW-ZS-2019-2-0105)資助[Supported by the Key Program of Chinese Academy of Sciences (No. ZDRW-ZS-2019-2-0105)]
梁承志,博士,研究員,研究方向:基因組大數(shù)據(jù)分析。E-mail: cliang@genetics.ac.cn
10.16288/j.yczz.19-121
2019/9/2 16:21:24
URI: http://kns.cnki.net/kcms/detail/11.1913.R.20190902.1620.002.html
(責任編委: 劉寶)