丁倩, 吳蕾, 張學福
(中國農(nóng)業(yè)科學院農(nóng)業(yè)信息研究所,北京 100081)
基因組的概念由德國漢堡大學植物學教授Hans Winkler 于1920 年提出,指生物體所有遺傳物質(zhì)的總和;而基因組學(genomics)由美國遺傳學家Thomas H. Roderick 于1986 年提出,它是一門交叉學科,通過對單個生物體所有基因進行集體表征和量化,進而研究基因組的結(jié)構(gòu)、功能、進化、定位和編輯,以及它們之間的相互關(guān)系和對生物體的影響[1]。基因組學在農(nóng)業(yè)研究中發(fā)揮著引領(lǐng)作用,近年來為生物種業(yè)、疫病防治的發(fā)展帶來了新的機遇。文獻計量是用數(shù)學和統(tǒng)計的方法,對文獻知識載體進行定量研究分析,利用其成果對實現(xiàn)基于數(shù)據(jù)的科學決策和科技創(chuàng)新具有重要意義。核心論文展示著研究領(lǐng)域的熱點和前沿[2],但隨著生命科學研究的蓬勃發(fā)展,各個方面的探索使得數(shù)據(jù)量大增,因而不能明顯顯示領(lǐng)域的發(fā)展方向和重點。本文通過對近20 多年基因組學與農(nóng)業(yè)科學研究的融合演化分析,試圖構(gòu)建研究主題的發(fā)展軌跡,挖掘各個時間點的研究主題及繼承關(guān)系,以期聚焦研究方向和重點,為科研人員和科研管理人員規(guī)劃和決策未來工作重點提供依據(jù)。
利用基因組測序(genome sequencing)、測序技 術(shù)(sequencing technology)、全 基 因 組 測 序(whole genome sequencing)、全基因組關(guān)聯(lián)研究(genome wide association study)、高通量測序(highthroughput sequencing)等關(guān)鍵詞構(gòu)建檢索式,分別從作物和園藝、植物保護、畜牧獸醫(yī)等與農(nóng)業(yè)基因組學相關(guān)的學科領(lǐng)域?qū)z索結(jié)果進行限定,時間范圍鎖定在2001 年1 月至2021 年12 月,以每5 年為1 個時間周期,最終基于Web of Science 數(shù)據(jù)庫構(gòu)建了農(nóng)業(yè)基因組學SCI 和SSCI 英文論文數(shù)據(jù)集,并基于incoPat數(shù)據(jù)庫構(gòu)建了專利數(shù)據(jù)集。
使用社區(qū)發(fā)現(xiàn)算法Infomap 對論文數(shù)據(jù)進行主題聚類[3]。該算法基于最小熵原理,用隨機游走的方式找到路徑編碼長度最小的社區(qū)劃分方法。具體是將文本數(shù)據(jù)抽象為1 個有向圖,每篇文本是圖上的1個節(jié)點,圖上的任意2個節(jié)點之間由1 條邊連接,邊的權(quán)重即轉(zhuǎn)移概率。從某個節(jié)點開始,按照概率跳轉(zhuǎn)到下個節(jié)點,并重復這個過程,這樣就會得到1 個序列。利用序列的層次編碼,并基于最小熵原理對結(jié)果進行優(yōu)化,最終能夠得到非監(jiān)督主題聚類結(jié)果。
為了進一步量化聚類的主題強度,本文構(gòu)建了主題強度指標體系來測度各個聚類的受關(guān)注度及研究熱度[4-5]。首先,確定了以類內(nèi)網(wǎng)絡概率流、類內(nèi)節(jié)點數(shù)和類內(nèi)節(jié)點間連接數(shù)為核心的聚類主題強度測度評估內(nèi)容;然后,基于主題強度指標體系評估指標數(shù)據(jù),對各指標進行去量綱化的歸一化處理,并對各指標賦予等量權(quán)重,進而加權(quán)計算得到各個聚類的主題強度指數(shù)得分。這種設計能夠揭示農(nóng)業(yè)基因組學研究主題的研究熱度。
其中,類內(nèi)網(wǎng)絡概率流較高的聚類表征了其與其他聚類主題有較強的關(guān)聯(lián)性,屬于當前研究領(lǐng)域的熱點內(nèi)容,需要被著重研究。網(wǎng)絡中的概率流可以通過計算隨機游走在網(wǎng)絡上的概率分布來獲得,即從1 個節(jié)點開始,以一定的概率隨機選擇1 個相鄰節(jié)點進行移動,并記錄每個節(jié)點被訪問的次數(shù)。最終,可以將所有節(jié)點的被訪問次數(shù)歸一化作為概率流向量,表示信息在網(wǎng)絡上的流動。這個過程可以使用矩陣運算來高效實現(xiàn),例如通過求解馬爾可夫鏈的平穩(wěn)分布或者流動矩陣的特征向量[6]。另外,類內(nèi)節(jié)點數(shù)表征了當前研究主題的廣度,節(jié)點數(shù)越多說明當前研究主題的相關(guān)關(guān)鍵詞越多,該主題越受關(guān)注。類內(nèi)節(jié)點間連接數(shù)表征了研究主題的深度。連接數(shù)越多說明當前研究主題內(nèi)關(guān)鍵詞的關(guān)聯(lián)性越強,該主題所代表的信息越多。
主題演化分析經(jīng)過多年的發(fā)展,已經(jīng)從對文本和數(shù)據(jù)的分析逐步邁入可視化層面。利用主題演化分析可以客觀評價和預測某一領(lǐng)域的研究發(fā)展現(xiàn)狀,并預測未來發(fā)展趨勢。本文使用沖擊圖來顯示農(nóng)業(yè)基因組學研究主題隨時間變化的趨勢[7]。圖中每個區(qū)塊代表1個主題聚類,同一主題聚類由相同顏色的區(qū)塊表示,區(qū)塊的高度表示該主題聚類的大小。不同時間段之間的沖擊層描述了相鄰時間段內(nèi)主題發(fā)生的合并或者發(fā)散等結(jié)構(gòu)變化。沖積層兩端的寬度分別代表該沖積層中關(guān)鍵詞數(shù)量占與其相連接的區(qū)塊中關(guān)鍵詞數(shù)量的比例。
表1 4個發(fā)展階段主要主題聚類及指標體系Table 1 Main theme clustering and indicator system diagram for 4 development stages
2001年1月至2021年12月,基因組學領(lǐng)域與農(nóng)業(yè)科學研究交叉的SCI和SSCI英文論文共檢索到13 972 篇,前2 個周期論文較少,從第3 周期呈直線上升;在此期間,全球農(nóng)業(yè)基因組相關(guān)專利申請12 710 件,合并后為6 490 項專利族申請(單件專利的統(tǒng)計單位為件,專利族統(tǒng)計單位為項,可包含多件專利),獲得授權(quán)的專利共6 985件,2001—2012 年研發(fā)技術(shù)發(fā)展相對緩慢,2012—2016 年為急速上升期,2017—2018 年進入徘徊期,之后又開始上升(圖1)。中國總發(fā)文量4 864 篇,位列第1,美國論文被引頻次、篇均被引頻次和高被引論文數(shù)量均排名第1(圖2);中國專利族申請數(shù)量位列第1,是美國的6.72倍(圖3)。
圖1 農(nóng)業(yè)基因組全球論文和專利申請趨勢Fig. 1 Global trends in agricultural genome papers and patent applications
圖2 基因組學領(lǐng)域Top10國家Fig. 2 Top10 countries in the field of genomics
圖3 農(nóng)業(yè)基因組技術(shù)來源地Top10Fig. 3 Top 10 sources of agricultural genome technology
2.2.1 2001—2005年主要主題聚類分析 2001—2005年,農(nóng)業(yè)基因組學主題強度前5的主題依次為惡性瘧原蟲與相關(guān)酶的關(guān)聯(lián)及蛋白質(zhì)數(shù)據(jù)庫研究、玉米基因組序列鑒定研究、畜禽基因疫苗與遺傳免疫研究、家蠶的遺傳學和基因組學研究、細菌真菌基因組研究(表1)。從主題強度指數(shù)構(gòu)成來看,主題1“惡性瘧原蟲與相關(guān)酶的關(guān)聯(lián)及蛋白質(zhì)數(shù)據(jù)庫研究”的類內(nèi)網(wǎng)絡概率流和類內(nèi)節(jié)點數(shù)均最大,同時其與主題4“家蠶的遺傳學和基因組學研究”的類內(nèi)節(jié)點間連接數(shù)最大,因此,這個時間段內(nèi)主題1的強度指數(shù)最高,說明針對惡性瘧原蟲與相關(guān)酶的關(guān)聯(lián)及蛋白質(zhì)數(shù)據(jù)庫的研究最受關(guān)注。另外,主題4“家蠶的遺傳學和基因組學研究”的類內(nèi)節(jié)點間連接數(shù)最大,表明雖然這個研究主題與其他主題的關(guān)聯(lián)性較弱,且該主題的關(guān)鍵詞廣度不足,但是學者對其當前內(nèi)容已經(jīng)開展了較為透徹、有深度的研究,為該主題日后發(fā)展奠定了研究基礎。
從內(nèi)容層面來看,主題強度前5 的研究都為生產(chǎn)利用解決關(guān)鍵問題或作為模式參考。如惡性瘧原蟲特有的酶和基因,有助于開發(fā)新的抗病蟲藥物,所以關(guān)注度提升,數(shù)據(jù)量增大;玉米是世界范圍內(nèi)種植的主要糧食作物,不同地域的種植環(huán)境會引起基因組的變異,因此對基因組進行測序、組裝、注釋和比較分析,能有效解決玉米遺傳學的難題,從而更好地選擇高產(chǎn)、優(yōu)質(zhì)、抗逆的基因;利用重組DNA 技術(shù)生產(chǎn)畜禽基因工程疫苗是畜禽疫病防治的重要研發(fā)方向;家蠶是重要的經(jīng)濟昆蟲,也是至今唯一被完全馴化的昆蟲類家養(yǎng)動物,對其進行遺傳和基因組研究具有重要意義;細菌基因組研究對水產(chǎn)類重要病害的防治可產(chǎn)生重大作用。真菌物種豐富,在有機質(zhì)降解環(huán)境保護中發(fā)揮了關(guān)鍵作用,在發(fā)酵工業(yè)、食品加工中也發(fā)揮著重要作用,因此細菌和真菌基因組研究重視度提高。在此期間,第1 代測序技術(shù)研發(fā)成功,且由技術(shù)方法研發(fā)向功能測定發(fā)展,生物合成抗生素的制備方法、遺傳多樣性的診斷和測量方法、畜禽病毒疫苗的制備等有較大進展,為基因克隆、生物技術(shù)輔助育種提供了支撐。新研發(fā)的雙脫氧鏈合成終止法測序技術(shù)開啟了全基因組測序時代。在這個階段,Nature公開發(fā)布首個擬南芥基因組,隨后公布了水稻基因組序列,為以玉米為首的其他作物測序拉開了序幕。在模式動物和畜禽疫病防治上也展開了探討,豬圓環(huán)病毒、MSTN、PCR 方面的研究已小成規(guī)模。
2.2.2 2006—2010年主要主題聚類分析 2006—2010 年,農(nóng)業(yè)基因組學主題強度前5 的主題依次為農(nóng)業(yè)基因組數(shù)據(jù)庫構(gòu)建研究、復雜性狀基因組特征模型分析及基因組選擇研究、畜禽基因多態(tài)性與生長性能關(guān)聯(lián)性研究、基因組序列注釋研究、微衛(wèi)星分子標記研究。從主題強度指數(shù)構(gòu)成來看,這個時間段內(nèi)類內(nèi)網(wǎng)絡概率流、類內(nèi)節(jié)點數(shù)和類內(nèi)節(jié)點間連接數(shù)大體與主題強度指數(shù)呈正相關(guān),說明這個階段農(nóng)業(yè)基因組學研究的熱點主題強度各項指數(shù)基本呈現(xiàn)均衡發(fā)展的態(tài)勢。
從內(nèi)容層面來看,在第1 代測序技術(shù)的支撐下,擬南芥、水稻等物種基因組的測序完成并發(fā)表,這些宏大的數(shù)據(jù)需要構(gòu)建數(shù)據(jù)庫,因此農(nóng)業(yè)基因組數(shù)據(jù)的應用和管理逐漸被重視。同時,在測序的基礎上開展了復雜性狀基因組特征模型分析及基因組選擇研究、基因組序列注釋研究,并在作物中率先開展功能基因組研究。畜禽基因組研究起步較晚,畜禽基因多態(tài)性與生長性能關(guān)聯(lián)性研究較多。微衛(wèi)星分子標記應用非常廣泛,它由2~6 個核苷酸的串聯(lián)重復片段構(gòu)成,在基因組中數(shù)量豐富,且在個體間存在高度變異性。在此階段,第2 代高通量測序技術(shù)研發(fā)成功,焦磷酸法和鏈接酶法測序技術(shù)的迅速發(fā)展成為了現(xiàn)在研究基因組結(jié)構(gòu)的重要工具,候選基因與群體性狀之間的相關(guān)性的評估方法、豬轉(zhuǎn)基因育種技術(shù)、遺傳修飾的方法、蛋白的表達系統(tǒng)等技術(shù)方法逐漸成熟。這些工具通過基于圖譜的克隆、數(shù)量性狀基因座的定位以及植物大基因組DNA 片段的測序和注釋,促進了基因的分離。等位基因和啟動子方面的研究在分子標記、玉米全基因組、葡萄座腔菌、擴增產(chǎn)物鑒定等方面開展了研究。在此期間,畜禽基因組研究開始提速,如?;蚪M測序聯(lián)盟于2009 年公布了海福特牛的全基因組序列[8];豬新增遺傳修飾、全基因組研究方向;通過紅原雞、羅得島紅雞、肉雞和蛋雞等9 個經(jīng)典品系混合樣本的全基因組重測序[9],精確定位了雞冠表型調(diào)控基因,明確了其變異的調(diào)控機制[10]。
2.2.3 2011—2015年主要主題聚類分析 2011—2015 年,農(nóng)業(yè)基因組學主題強度前5 的依次為奶牛功能基因組學和基因組選擇研究、微衛(wèi)星DNA多態(tài)性標記研究、對轉(zhuǎn)錄組測序數(shù)據(jù)進行分析以及注釋研究、實時PCR 方法微生物菌群多樣性分析、基因和基因組的起源與進化研究,從主題強度指數(shù)構(gòu)成來看,主題強度指數(shù)最高的主題1“奶牛功能基因組學和基因組選擇研究”在類內(nèi)網(wǎng)絡概率流和類內(nèi)節(jié)點數(shù)上均排名第1,但是主題2“微衛(wèi)星DNA 多態(tài)性標記研究”的類內(nèi)節(jié)點間連接數(shù)排名第1。說明該階段針對主題2“微衛(wèi)星DNA多態(tài)性標記研究”中關(guān)鍵詞關(guān)系的挖掘研究較為深入。
從內(nèi)容層面來看,在奶牛中率先開展了功能基因組學和基因組選擇研究。微衛(wèi)星分子標記研究進一步深入,加強了微衛(wèi)星DNA 多態(tài)性標記研究、轉(zhuǎn)錄組測序數(shù)據(jù)分析和注釋研究,以及從測序結(jié)果推進基因和基因組的起源與進化。在此階段,第3 代測序和第4 代納米孔測序研究開始興起,通過對重要農(nóng)作物基因組的測序或重測序,完成重要農(nóng)藝性狀基因的克隆和鑒定[11],如美國加州大學等研究機構(gòu)對粗山羊草基因組序列進行測序和組裝取得進展[12]。隨著測序技術(shù)、組裝算法的不斷發(fā)展,植物基因組測序和拼接質(zhì)量也不斷提升,其中47 個基因組達到了染色體組裝水平。CRISPR/Cas9 基因組編輯技術(shù)在基因功能研究、作物特定性狀改良等方面有巨大應用前景。有關(guān)遺傳修飾動物、畜禽動物健康、植物基因組修飾方法、控制基因表達方法、增加繁殖群體遺傳增益方法、遺傳送遞系統(tǒng)等研發(fā)快速發(fā)展。雞、牛、豬等畜禽是人類重要的食物來源和疾病研究模型,其參考基因組的測定被重視,多國科學家聯(lián)合倡導并啟動了“動物基因組功能注釋計劃”[13]。2012 年,國際豬基因組測序聯(lián)盟公布了豬的全基因組序列及豬種群差異、馴化的研究結(jié)果[14]。在此階段,植物保護領(lǐng)域基因組研究也在加速發(fā)展,完成了主要農(nóng)業(yè)害蟲、倉儲害蟲以及一些傳粉昆蟲和專營寄生的天敵昆蟲等15 種與農(nóng)業(yè)相關(guān)昆蟲的基因組測序。
2.2.4 2016—2021年主要主題聚類分析 2016—2021 年,農(nóng)業(yè)基因組學主題強度前5 的依次為酶活性及微生物群落功能多樣性研究,作物產(chǎn)量性狀及產(chǎn)量構(gòu)成性狀的數(shù)量性狀位點研究,全基因組選擇中準確性的影響因素研究,畜禽生長性能、腸道微生物菌群關(guān)聯(lián)關(guān)系研究,基因組學與生物進化和物種形成關(guān)系的研究。從主題強度指數(shù)構(gòu)成來看,這個時間段內(nèi)類內(nèi)網(wǎng)絡概率流、類內(nèi)節(jié)點數(shù)和類內(nèi)節(jié)點間連接數(shù)大體與主題強度指數(shù)呈正相關(guān),說明這個階段農(nóng)業(yè)基因組學研究的熱點主題強度各項指數(shù)基本呈現(xiàn)均衡發(fā)展的態(tài)勢。
從內(nèi)容層面來看,農(nóng)業(yè)基因組研究向功能和生產(chǎn)目的轉(zhuǎn)移。由于定點基因工程系統(tǒng)完善,組裝及組裝算法等技術(shù)飛速發(fā)展,測序成本大幅度降低、數(shù)據(jù)通量增加,基因組裝有了突破性進展。以色列對大麥關(guān)鍵馴化基因TtBtr1進行了研究,使用鳥槍法對野生二粒小麥種質(zhì)‘Zavitan’進行了全基因組測序[15]。PCR 檢測技術(shù)在豬圓環(huán)病毒檢測、豬瘟病毒的檢測、呼吸與繁殖綜合癥等方面廣泛應用。
綜上所述,技術(shù)手段的進步和生物種類的特殊性形成每個時期的研究主題,但從主題強度上看,影響重大的研究強度高,影響范圍小的研究強度弱。每個時期的主題也呈現(xiàn)了知識的傳承、升級和消長,從第1個時期的研究探索到第4個時期直接關(guān)聯(lián)改良生產(chǎn)應用。
每個時期研究主題的細化研究內(nèi)容的發(fā)展與變化呈現(xiàn)了主題形成的路經(jīng),這個過程中既有知識的傳承,也有知識的替代和新生。從圖4 可見,農(nóng)業(yè)基因組學主題時序演化的全過程,進而可梳理農(nóng)業(yè)基因組學的發(fā)展脈落,并預測其發(fā)展前沿。
圖4 全球4個發(fā)展階段研究主題演化Fig. 4 Evolution of research themes in four global development stages
2.3.1 2001—2005 年研究主題演化 2001—2005 年,氨基酸生產(chǎn)、數(shù)量性狀基因研究、酶、提純技術(shù)、家蠶、數(shù)據(jù)庫構(gòu)建、大腸桿菌、標記多樣性、進化要素、蛋白質(zhì)基因表達、識別序列脫氧核糖核酸基因組成為研究熱點。但關(guān)于氨基酸生產(chǎn)發(fā)酵乳酸桿菌、酶與排泄分泌產(chǎn)物的研究沒有大規(guī)模延續(xù)下去。關(guān)聯(lián)關(guān)鍵詞,如作物測序、家蠶重組桿狀病毒、土壤微生物、重組微生物、禽類外源蛋白、馬立克氏病、水產(chǎn)多核苷酸等,成為研究熱點。國際雞基因組測序協(xié)會于2004 年公布了紅原雞的全基因組序列草圖,雞的重要傳染病雞馬立克氏病也得到了關(guān)注。水產(chǎn)動物基因組方面,研究者在簡化基因組測序和外顯子組深度測序方法上進行了探討。
2.3.2 2006—2010 年研究主題演化 2006—2010 年,開展了雞生長數(shù)量性狀、蛋白質(zhì)的提純、家蠶基因組遺傳研究;數(shù)據(jù)庫構(gòu)建深入到測序數(shù)據(jù)協(xié)調(diào)應用、預測和基因組選擇、數(shù)據(jù)庫建模;對大腸桿菌的研究重點在蛋白質(zhì)層面開展;分子標記多樣性研發(fā)快速發(fā)展;有關(guān)進化要素在單核苷酸多態(tài)性、鑒定基因、雞生長、數(shù)據(jù)庫建模等方面得到深入研究??傮w上基本延續(xù)了上個5 年的研究內(nèi)容,沒有大規(guī)模新發(fā)主題聚類出現(xiàn),但主題局部有變化,同時存在不同主題的內(nèi)部融合,如蛋白純化和細菌、大腸桿菌的研究融合產(chǎn)生了大腸桿菌表達及純化研究。通過高通量基因組測序方法完善種質(zhì)數(shù)據(jù)庫的部分研究在延續(xù)發(fā)展中衍生出通過數(shù)據(jù)庫進行恰當性狀基因組選擇的新思路。
2.3.3 2011—2015 年研究主題演化 2011—2015年,涌現(xiàn)出很多新生主題聚類,如蜜蜂系統(tǒng)發(fā)育和基因組序列分析、茄科植物單核苷酸多態(tài)性研究、骨骼肌生物發(fā)生研究等。微生物方面新增噬菌體、基因組序列、基因組表達載體等熱點。禽類研究新增擴增產(chǎn)物、試劑盒、東鄉(xiāng)綠殼蛋雞3個熱點。神經(jīng)通路、表達分析等技術(shù)研發(fā)也成為探討熱點。延續(xù)上個5 年的關(guān)于數(shù)據(jù)庫建模深化到拷貝數(shù)變異、數(shù)據(jù)組織、差異化注釋、微衛(wèi)星結(jié)構(gòu)、數(shù)量性狀預測等研究;脫氧核糖核酸、單核苷酸多態(tài)性、蛋白質(zhì)、鑒定基因、遺傳學等與物種的進化進行了融合研究;其他如大西洋鮭魚、果蠅等研究在上期成果上進一步深入。
2.3.4 2016—2021 年研究主題演化 2016—2021 年,新生的主題聚類包括意大利蜜蜂多序列比對等。昆蟲研究方面,家蠶重組桿狀病毒、家蠶質(zhì)型多角體病毒、狄斯瓦螨、蜜蜂群體選擇、檢疫性實蠅、微生物菌劑為研究熱點。畜禽研究方面,豬圓環(huán)病毒、MSTN、PCR、擴增產(chǎn)物、遺傳修飾、全基因組、位點、禽類飼料利用效率均為研究熱點。水產(chǎn)方面,傳染性病毒、香魚假單胞菌、腸道微生物、性別鑒定、微衛(wèi)星標記、三疣梭子蟹、魚類聯(lián)合分析法、噬菌體為研究熱點,并在免疫應答和免疫細胞信號傳導等免疫學基礎研究方面與基因組研究進行了有效融合,為疾病診斷和治療提供了新線索。總體上,相關(guān)畜禽生長性能、糧食作物產(chǎn)量耐旱性農(nóng)藝性狀等基因組裝配、轉(zhuǎn)錄組分析、精確性基因組選擇等進入精準水平。由于技術(shù)方法的普及和廣泛利用,各種研究方向的相似性逐漸升高,致使總體研究方向開始出現(xiàn)匯集。但仍有新的研究方向產(chǎn)生,如基于基因?qū)W研究益生菌對腸道免疫功能、小麥基因組變異聯(lián)合數(shù)據(jù)庫構(gòu)建、線粒體鑒定牛肉種源等。
綜上所述,基因組學與農(nóng)業(yè)交叉融合研究主題時序演化路徑為,通過測序進行全基因組關(guān)聯(lián)分析,進而深入解析物種的起源與馴化過程;擴展各種性狀的遺傳基礎和分子機制;加深理解遺傳調(diào)控網(wǎng)絡,確定重要的遺傳基因位點,增強遺傳效率;建立生物和非生物響應系統(tǒng);提出與基因組關(guān)聯(lián)的應用策略,最終促進受眾發(fā)展進程。
從全球農(nóng)業(yè)基因組學的演化分析來看,最初的研究重點集中在基因組測序和基因組數(shù)據(jù)庫構(gòu)建上。隨著檢測技術(shù)、工具的發(fā)展和基因組數(shù)據(jù)庫的日益完整,全球研究熱點逐漸轉(zhuǎn)向關(guān)聯(lián)性、多樣性、準確性等更多維度、更高精度的研究??傮w上我國是跟蹤或同步,至今對關(guān)聯(lián)性和多樣性的研究也形成了規(guī)模,但是對準確性的關(guān)注還不夠。
2.4.1 2001—2005 年對比分析 2001—2005 年,我國5 個研究主題為利用染色質(zhì)重塑進行乙?;?、在轉(zhuǎn)基因農(nóng)作物基因組中分離側(cè)翼序列、BAC末端測序進行分析比較基因組研究、農(nóng)作物基因組序列鑒定研究、抗白葉枯病雜交水稻研究。在此期間,世界各國重點圍繞不同物種進行基因組測序,我國利用第1代測序技術(shù)獨立完成水稻第4染色體的測序,開展水稻功能基因組學研究,并一直走在世界前列。但是,我國在農(nóng)作物基因組序列鑒定上沒有形成大規(guī)模針對某一物種的系統(tǒng)研究體系,基礎研究方向相對分散。從全球范圍來看,生物合成的制備方法、遺傳多樣性的診斷和測量方法、遺傳標記方法等技術(shù)發(fā)展相對成熟,而我國的技術(shù)應用才剛起步。
2.4.2 2006—2010 年對比分析 2006—2010 年,我國5 個研究主題為農(nóng)業(yè)基因組數(shù)據(jù)庫構(gòu)建、協(xié)同進化、基因和基因組的起源與進化、細菌人工染色體、微衛(wèi)星DNA 多態(tài)性標記。結(jié)合現(xiàn)有知識衍生出了大量深入的研究成果,廣泛開展了作物功能基因組研究,并取得了較大進展。遺傳修飾方法、蛋白的表達系統(tǒng)、分子標記篩選、微衛(wèi)星標記等技術(shù)研究主題與全球保持了一致。我國對基因和基因組的起源、進化的研究早于其他國家,但在這一時期,其他國家形成了對腸道大腸桿菌基因表達及純化的研究熱點,我國針對腸道微生物的研究在10年后才被重視。
2.4.3 2011—2015 年比較分析 2011—2015年,我國5個研究主題為功能基因組學和基因組選擇、對轉(zhuǎn)錄組測序數(shù)據(jù)進行分析以及注釋、微衛(wèi)星DNA 多態(tài)性標記、實時PCR 方法微生物菌群多樣性分析、細菌致病性基因。在此期間,通過對知識的繼承和融合,涌現(xiàn)出很多新生的主題聚類,如我國科研工作者率先開展異源四倍體魚的培育、針對蜜蜂系統(tǒng)發(fā)育和基因組序列分析、微小RNA 與蛋白質(zhì)相互作用等研究,其中對蜜蜂系統(tǒng)發(fā)育及其基因組序列分析的研究在全球獨樹一幟。另外,我國與世界同步開展了采用實時PCR方法分析微生物菌群多樣性和對轉(zhuǎn)錄組的測序研究及生物芯片的研發(fā)。
2.4.4 2016—2021 年比較分析 2016—2021 年,我國的5 個研究主題為微生物群落功能多樣性研究、復雜性狀全基因組關(guān)聯(lián)研究、免疫應答基因研究、畜禽生長性能和腸道微生物菌群關(guān)聯(lián)關(guān)系研究、對轉(zhuǎn)錄組測序數(shù)據(jù)進行分析以及注釋研究。在此期間,我國對轉(zhuǎn)錄組測序的研究仍然保持了上個5 年的熱度,但是對準確性的研究還沒有大規(guī)模形成。生物芯片技術(shù)廣泛應用于基因組學與蛋白質(zhì)組學的科學研究、疾病診斷、新藥研發(fā)、農(nóng)作物育種、食品安全等領(lǐng)域,生物芯片發(fā)展前景可觀,但目前北美地區(qū)占據(jù)了全球生物芯片市場的主導地位。單就狹義的生物芯片技術(shù)而言,我國與世界先進水平的差距不大,但應用到民用市場的生物芯片在配套的各種試劑、耗材、儀器和分析軟件,特別是芯片點樣儀器及自動化反應儀器等方面嚴重滯后。
世界農(nóng)業(yè)基因組學發(fā)展迅猛,成為生命科學進步的推進器?;蚪M學與農(nóng)業(yè)各學科交叉,產(chǎn)生了一系列新的交叉學科,如基因組學與進化交叉形成進化基因組學,與生態(tài)交叉形成生態(tài)基因組學。學科交叉融合是基礎研究和技術(shù)研發(fā)的重要趨勢和方向,因為復雜和重大科學問題的解決需要多學科的協(xié)同發(fā)力,而且學科交叉的融合點也是科學原創(chuàng)的重要源泉,最有可能產(chǎn)生重大科學突破。同時,基因組學加速向農(nóng)業(yè)領(lǐng)域的滲透,為生物種業(yè)、疫病防治、環(huán)境保護等帶來顛覆性革命。
農(nóng)業(yè)基因組學研究主題從探索到表型鑒定,再到功能挖掘,通過測序和重測序,揭開了物種全基因組關(guān)聯(lián)和遺傳調(diào)控網(wǎng)絡,明確了重要的遺傳基因位點,促進動植育種理論與育種方法的重大突破。研究主題聚集在基因組測序和數(shù)據(jù)庫構(gòu)建及基因組序列注釋、遺傳學和基因組學關(guān)聯(lián)、復雜性狀基因組特征模型分析、功能基因組學及基因組選擇、微衛(wèi)星DNA 多態(tài)性標記、基因和基因組的起源與進化、全基因組選擇中準確性的影響因素等。
在農(nóng)業(yè)基因組學發(fā)展進程中,不同主題內(nèi)部進行了融合,研究方向的相似性逐漸升高,但研究方法和手段不斷進步,產(chǎn)生一些新思路。如表型鑒定是個綜合性的概念,但其測定技術(shù)和理念至今仍未取得重要突破,遠落后于基因型的高通量測定。隨著人們對模式生物、植物相關(guān)表型認識的不斷深入,采用化繁為簡的思路,將復雜性狀進行生物學分解測定有助于對遺傳機理的探究。這些新的研究方向均具有關(guān)鍵詞量大、信息多的特點,體現(xiàn)了大數(shù)據(jù)時代知識的高度融合,預計在未來會涌現(xiàn)更多新生甚至其他領(lǐng)域的技術(shù)方法、對象用途等關(guān)鍵詞富集到基因組學的研究中,為這一研究帶來新鮮血液。
基因組學研究向農(nóng)業(yè)各學科滲透,但各學科領(lǐng)域發(fā)展不平衡。如農(nóng)作物育種發(fā)展較快,研究進展日新月異,基因組大數(shù)據(jù)已滲透到農(nóng)業(yè)育種全過程;雞、牛、豬等畜禽基因組研究雖然起步晚些,但作為人類重要的食物來源和疾病研究模型,在全基因組范圍內(nèi)探索遺傳變異和表型多樣性的關(guān)系也在不斷深入;植保領(lǐng)域在昆蟲功能基因組學上的發(fā)展,為農(nóng)業(yè)害蟲的為害機制和防治方法提供了分子機理;但在農(nóng)業(yè)資源與環(huán)境、農(nóng)產(chǎn)品加工等領(lǐng)域基因組學融合度還較低。
我國農(nóng)業(yè)基因組研究從跟蹤到與世界同步,水稻功能基因組學研究一直走在世界前列,玉米、棉花、馬鈴薯、黃瓜等主要農(nóng)作物也處于領(lǐng)先地位;畜禽基因組育種雖然在追趕階段,但在生物疫苗、蜂等物種探索研究居世界前列。棉花轉(zhuǎn)基因防治、主要水產(chǎn)基因組研究等方面也居世界領(lǐng)先地位。但是,總體上我國農(nóng)業(yè)基因組學研發(fā)與國際領(lǐng)先水平有一定差距,篇均被引頻次僅排第9,表明論文影響力不強,專利也是量大質(zhì)低,突破性、重大性技術(shù)成果不多。
由于基因組學具備較強的交叉學科張力,未來勢必在全球農(nóng)業(yè)發(fā)展競爭中扮演重要角色?,F(xiàn)今,全球農(nóng)業(yè)基因組研究熱點逐漸轉(zhuǎn)向關(guān)聯(lián)性、多樣性、準確性等更多維度、更高精度的研究,而復雜基因組、大基因組和泛基因組[16-17]的構(gòu)建,超平均讀長的測序技術(shù)、優(yōu)化的組裝算法和泛基因組分析工具等是需重點突破的方向。目前,與歐美等發(fā)達國家和地區(qū)相比,我國在種植業(yè)、畜牧業(yè)方面差距較大,種養(yǎng)殖技術(shù)落后,種業(yè)問題嚴峻,生物種業(yè)已提升到戰(zhàn)略高度。以精準促進動植物改良一直是基因組學在農(nóng)業(yè)的重要應用主題,轉(zhuǎn)基因技術(shù)、基因編輯技術(shù)、全基因組選擇育種、基因組學已成為搶占國際生物技術(shù)育種研究高地的核心與前沿技術(shù)。因此,未來我國需加強測序技術(shù)、群體設計、表型測定、系統(tǒng)學研究,加強基因組學實用技術(shù)的創(chuàng)新與應用、生物芯片的創(chuàng)造,將現(xiàn)代分子生物技術(shù)與常規(guī)技術(shù)緊密結(jié)合,加強專利保護和布局,為生物育種的發(fā)展配上高馬力的發(fā)動機。