尹傳林,李美珍,賀 康,丁思敏,郭殿豪,席 羽,李 飛
(浙江大學昆蟲科學研究所,杭州310058)
昆蟲基因組及數(shù)據(jù)庫研究進展
尹傳林,李美珍,賀 康,丁思敏,郭殿豪,席 羽,李 飛*
(浙江大學昆蟲科學研究所,杭州310058)
基因組序列為昆蟲分子生物學研究提供豐富的數(shù)據(jù)資源,推動系統(tǒng)生物學在古老的昆蟲學中蓬勃發(fā)展。昆蟲基因組學研究已經(jīng)成為當前的研究熱點,目前在NCBI登錄注冊的昆蟲基因組測序計劃有494項,其中已提交原始測序數(shù)據(jù)的昆蟲有225種,完成基因組拼接的有215種,具有基因注釋的有65種,公開發(fā)表的昆蟲基因組有43篇。本文綜述了測序技術發(fā)展的歷史及其對昆蟲基因組研究的推動作用、昆蟲基因組的組裝和注釋及其存在的問題、昆蟲基因組測序進展、昆蟲基因組數(shù)據(jù)庫的發(fā)展及基因數(shù)據(jù)挖掘利用的基本思路和對策,以及昆蟲基因大數(shù)據(jù)在害蟲防治和資源昆蟲利用中的應用前景。
昆蟲基因組;組裝與注釋;數(shù)據(jù)挖掘與分析;基因組數(shù)據(jù)庫;害蟲防治;資源昆蟲利用
昆蟲是生物界種類數(shù)量最多、最古老的類群之一,距今3.5億年的古生代泥盆紀就已出現(xiàn),大約構成所有生物種類的50%左右 (Robinson,etal., 2011),目前已經(jīng)被描述鑒定的昆蟲種類有一百萬多種。作為重要的活化石,昆蟲的進化研究可以探秘生命的起源以及地球環(huán)境的變更。昆蟲與人類的活動息息相關,既有令人煩惱的農(nóng)業(yè)害蟲和衛(wèi)生害蟲,也有讓人賞心悅目的觀賞昆蟲。農(nóng)業(yè)生態(tài)系統(tǒng)離不開昆蟲,地球上75%以上的開花植物都依靠昆蟲來授粉 (Robinsonetal., 2011)。昆蟲學作為一門獨立的分支進入科學領域,迄今已有300多年歷史。
隨著測序技術的快速發(fā)展,在生物大數(shù)據(jù)的潮流下,古老的昆蟲學逐漸邁入基因組時代。昆蟲學者利用各種組學研究手段如基因組、轉錄組、蛋白組、代謝組等產(chǎn)生了大量的生物數(shù)據(jù),從系統(tǒng)生物學的角度來解決昆蟲學研究中的問題,為昆蟲學研究帶來了新的視角,煥發(fā)了新的生機。本文圍繞昆蟲基因組學研究中的組裝、注釋、數(shù)據(jù)挖掘和基因數(shù)據(jù)庫等方面進行了綜述,對目前存在的問題進行了總結,對未來的發(fā)展趨勢進行了展望。
昆蟲基因組學研究得益于測序技術的巨大進步和生物信息學的逐漸普及。測序技術根據(jù)其發(fā)展的歷史可以分為三個不同的時代:以鏈終止法或鏈降解法為原理的一代測序技術(如Sanger測序技術)、以邊合成(邊鏈接)邊測序為原理的二代測序技術(主要包括ABI公司的SOLiD技術、Illumina公司的Solexa技術和Roche公司的454技術等),以及單分子測序的三代測序技術(如PacBio公司的SMRT技術和Oxford Nanopore公司的納米孔單分子測序技術等)(Heatheretal., 2016)(圖1)。
1975年由桑格(Sanger)和考爾森(Coulson)發(fā)明的鏈終止法 (Sangeretal., 1975),以及1976年由馬克西姆(Maxam)和吉爾伯特(Gilbert)發(fā)明的鏈降解法 (Maxametal., 1977),開啟了核酸測序的新紀元。利用第一代測序技術,測定了噬菌體X174的基因組序列,全長5375個堿基,這是首個生命體的基因組序列 (Sangeretal., 1977)。2001年,利用Sanger測序技術完成了人類基因組計劃 (Venteretal., 2001)。果蠅是第一個被測序的昆蟲 (Adamsetal., 2000),之所以被優(yōu)先選擇進行基因組測序,是因為果蠅一直被視為生命科學研究中最重要的模式生物之一。但其實更重要的原因,是果蠅基因組比較小(僅180 Mb左右),可以用來檢測全基因組鳥槍法(Whole Geome Shotgun, WGS)在人類基因組測序中的可行性。在沒有其他測序技術可供選擇情況下,第一代Sanger測序技術是唯一的技術主角,其具有明顯的優(yōu)勢,讀長最高可達1000 bp,準確性高達99.999%。然而,其缺點也十分明顯,測序成本過高,通量低,無法實現(xiàn)真正的大規(guī)模應用。
在科研需求和市場利潤的雙重驅動下,催生了3個重要的二代測序技術(SOLiD技術、Solexa技術和454技術)。在人類基因組測序計劃要驚動各國領導人的時代,美國NIH啟動了“1000美元基因組計劃”,資助2億美金來推動測序技術的進步。正是這種前瞻性的資助計劃,改寫了生命科學研究的進程,也是當前生命科學各個研究領域的基因組計劃發(fā)展如火如荼的重要基礎。第二代測序技術極大地降低了測序成本,提高了測序通量和測序速度,同時保持了高準確性。在啟動人類基因組計劃時,預計要花費30億美金、歷經(jīng)15年才能完成,而二代測序技術可在一個星期內完成,僅需1000美元。Solexa技術和454技術是基于連合成邊測序的原理,而SOLiD技術是基于邊連接邊測序和雙色法的原理。如前所述,二代測序技術的優(yōu)點非常明顯,但其缺點是在PCR擴增中增加了測序的錯誤率,具有明顯的系統(tǒng)偏向性,讀長較短(早期僅70多bp,最新技術也只有200多bp)。其中,讀長較短給基因組的拼接帶來了困難,雖然開發(fā)了大量的生物信息學算法用于二代基因組數(shù)據(jù)的拼接,但對于高雜合物種,仍然沒有滿意的解決途徑,而絕大部分昆蟲具有高雜合性。二代測序技術目前仍是市場上的主流技術,其中Illunima公司的Solexa技術因其技術優(yōu)勢占據(jù)了市場的半壁江山。
技術的進步是無止境的。近年來,測序技術又有了新的突破,其中主要以PacBio公司的SMRT和Oxford Nanopore Technologies公司的納米孔單分子測序技術為代表,被稱為第三代測序技術。第三代測序技術的特點是單分子測序,無需進行PCR擴增,能有效避免因PCR偏好性而導致的系統(tǒng)誤差,同時顯著提高了讀長,并保持了二代測序技術高通量的優(yōu)點。雖然三代測序技術已經(jīng)開始走向了市場,但其準確性仍然有待高。
科研人員產(chǎn)生數(shù)據(jù)的能力明顯地增強,海量生物數(shù)據(jù)不斷積累,因此對數(shù)據(jù)管理和分析提出了更高的要求,生物信息學即在此基礎上誕生。當時生物學家第一次面臨超出想象的基因組數(shù)據(jù),有點無所適從,不知所措,生物信息學儼然以“救世主”身份拯救了人類基因組計劃。最被廣泛接受的生物信息學定義是,綜合利用生物學、計算機科學和信息科學等多學科的理論與技術,產(chǎn)生和創(chuàng)造生物數(shù)據(jù),管理和存儲生物數(shù)據(jù),以及挖掘和分析生物數(shù)據(jù),揭示生物數(shù)據(jù)蘊含的生物學意義。近年來,生物信息學得到了空前的充分
發(fā)展,并被不斷普及。早期的生物信息研究和算法開發(fā)主要針對普遍存在的科學問題,而現(xiàn)在各種衍生的生物信息學算法和軟件層出不窮,針對單個學科的具體科學問題進行了優(yōu)化和提高,這極大地帶動了大數(shù)據(jù)時代的生物信息學研究 (Ouzounisetal., 2003)。
依據(jù)研究方向,生物信息學可分為3個主要部分:(1)研發(fā)有效利用和管理數(shù)據(jù)的新工具,構建新平臺,例如構建各種各樣的生物信息學數(shù)據(jù)庫;(2)新算法的開發(fā),例如各類基因組測序數(shù)據(jù)的拼接和比對算法等;(3)生物數(shù)據(jù)的挖掘與分析,從海量生物數(shù)據(jù)中挖掘和發(fā)現(xiàn)規(guī)律,幫助生物學家從“大海撈針”變?yōu)椤俺靥翐启~”,為揭示生物表型的分子機制提供有益的參考。前兩個研究方向偏“信息”,而第三個研究方向偏“生物”,這與計算機科學的“偏硬”和“偏軟”兩個方向有異曲同工之處。生物學家更加熟悉和倚重”生物數(shù)據(jù)挖掘與分析”這一方向。但必須強調的是,數(shù)據(jù)平臺和算法開發(fā)是生物信息學重要的基礎,沒有準確的數(shù)據(jù),沒有合適的算法,生物學意義的挖掘就無從談起,甚至會被引至錯誤的方向。
2.1 昆蟲基因組組裝
基因組鳥槍法是將DNA隨機打斷成較短的序列,構建測序載體進行測序,獲得了大量的小片段序列。因此,基因組組裝是基因組測序中最為關鍵的一步。尤其困難的是,基因組組裝算法需要根據(jù)測序平臺、文庫構建策略和測序讀長等進行優(yōu)化(Richardsetal., 2015)。由于測序策略的設計缺陷或優(yōu)化不足,往往導致昆蟲基因組拼接失敗,這樣的例子并不鮮見。
根據(jù)是否有參考序列,可把基因組拼接分為從頭拼接(De novo assembly)和比較拼接(comparative assembly)兩大類(Wajidetal., 2012)。從頭組拼接指完全依賴 reads間的重疊信息拼接出基因組序列,而比較拼接綜合了reads間的重疊信息和 reads在參考序列中的位置信息,相比而言,從頭拼接更難更復雜。按照算法的原理,從頭拼接大致可以分以下幾類:第一類是overlap/layout/Consensus(OLC)法,這類組裝算法有CABOG、Newbler、Shorty、Edena、Celera等,其適應于讀長較長的測序數(shù)據(jù),如Sanger法測序和第三代測序技術,果蠅基因組的組裝采用的就是Celera軟件;第二類是De Bruijn Graph (DBG)法,一種基于圖論的算法,軟件有SOAPdenovo、Euler、Velvet等,這類算法需要不斷調整k-mer的值來達到一個最佳的組裝效果;第三類是Greey graph alogorithms法,這類算法有SSAKE、SHARCGS、VCAKE等(Wajidetal., 2012)。
已發(fā)表的昆蟲基因組組裝算法主要使用了CABOG(Milleretal., 2008)、SOAPdenove(Luoetal., 2012)、ALLPATH-LG(Butleretal., 2008)、ABySS(Simpsonetal., 2009)等方法。SOAPdenove是華大基因開發(fā)的基因短序列拼接,運行速度快,依賴于搜索k-mer來尋求最優(yōu)解。ALLPATH-LG近年來使用率越來越高,特別適合于讀長100-200 bp、覆蓋倍數(shù)200X左右的測序策略。和SOAPdenove比,不需要設定K-mer值。但是由于其依賴窮舉法,因此對硬件要求很高,運行時間非常長。
生物信息學發(fā)展至今,不斷誕生了新的軟件。然而,基因組組裝一直都面臨著巨大的挑戰(zhàn),無法取得理想的效果。分析認為,影響昆蟲基因組拼接質量的主要原因有,一是重復序列,基因組中含有大量的重復序列,對拼接造成非常大的干擾,而昆蟲基因組有可能產(chǎn)生了大量新的重復序列,產(chǎn)生了明顯的影響;二是物種雜合度,當來自父本或母本染色體DNA之間的差異大時,后代可能具有更大的環(huán)境適應性優(yōu)勢,但給拼接造成了困難。昆蟲基因組拼接困難的解決,一方面依賴于測序技術的繼續(xù)進步,另一方面也依賴于算法的不斷優(yōu)化和提高。
2.2 昆蟲基因組質量評估
目前,主要從完整性、正確性、拼接長度等幾個方面進行基因組組裝結果的評價(Wajidetal., 2012)。
(1)組裝序列的完整性
組裝序列的完整性指組裝得到的基因組大小與實際基因組大小之間的差異,通常采用兩者的比值來衡量。檢測基因組大小的常用方法有流式細胞儀技術和K-mer分析法。
(2)拼接正確性
拼接正確性反應了組裝結果和真實基因組的一致性。通常采用已知大片段序列來檢測組裝結果的正確性。如果沒有大片段序列,可把paired-end或者mate-pair序列比對到組裝結果上,檢查序列在組裝上的位置以及兩者間的距離,以此評估拼接正確性。
(3)N50
N50是衡量基因組拼接質量的重要標準,其計算方法是,把所有序列按照從長到短進行排序,并對序列長度進行累加,當累加值達到基因組序列總數(shù)的一半時所對應的序列長度即為N50。通過計算組裝基因組的contigs和scaffolds 的N50,可以非常直觀的評價拼接質量。
(4)CEGMA評估
CEGMA(Parraetal., 2007)是目前使用最廣泛的評估基因組甚至是轉錄組拼接質量的方法,其首先確定了真核生物中極其保守的248個核心基因(CEG),然后在基因組Scaffold序列中搜尋這些CEG基因,計算具有全長序列的CEG百分比、僅有部分片段的CEG百分比和完全缺失的CEG百分比,以此來判斷基因組的拼接質量。
(5)BUSCO評估
BUSCO(Simaoetal., 2015)是在CEGMA上進行更新的新算法。BUSCO的其本原理與CEGMA類似并進行了優(yōu)化,其按照不同的大類群選取不同的直系同源基因集,在節(jié)肢動物中挑選了2647個直系同源基因,通過檢索缺失率來反映基因組質量。
2.3 昆蟲基因組的注釋
基因組注釋是指對基因組特征進行描述,包括結構注釋和功能注釋。結構注釋主要包括預測基因組重復序列、非編碼RNA和蛋白編碼基因;功能注釋是根據(jù)基因序列信息預測基因的功能。
(1)重復序列注釋
重復序列識別方法分為序列比對和從頭預測兩大類。序列比對法是根據(jù)相似性程度在基因組中識別同源的重復序列。該方法預測的結果往往比較可靠,但不全面。目前廣泛使用的比對預測軟件有Repeatmasker(Tarailo-Graovacetal., 2009)。從頭預測方法利用重復序列的結構特征在基因組中進行預測,這種方法對結構特征明確的重復序列具有非常好的預測效果,比如MITEs、LTR等,常見的從頭預測方法有Recon(Baoetal., 2002),Piler(Edgaretal., 2005),Repeatscout(Priceetal., 2005),LTR-finder(Xuetal., 2007)等。一般而言,采用同源比對和從頭預測兩者相結合的方法進行重復序列識別,比較可靠全面(劉金定, 2014)。
(2)非編碼RNA的識別
非編碼RNA指不生成蛋白產(chǎn)物、以RNA形式發(fā)揮功能的RNA基因,如tRNA、rRNA、piRNA、miRNA、snoRNA、rasiRNA等。非編碼RNA沒有蛋白質編碼基因的典型特征,因此一般對其二級結構序列和特征進行預測,常用的軟件有miRdeep(Friedlanderetal., 2008)、RNAstructure(Bellaousovetal., 2013)、TripletSVM(Xueetal., 2005)等,常用的非編碼RNA 數(shù)據(jù)庫有RNAdb(Pangetal., 2007)、NONCODE(Zhaoetal., 2016)、Rfam、miRBase(Kozomaraetal., 2014)和snoRNABase等(陳勇等, 2014)。
(3)編碼基因組注釋
蛋白編碼基因的識別是基因組注釋中最為重要的部分。常見的編碼基因預測方法有基于基因模型的從頭預測方法、基于比對的蛋白同源預測方法以及基于轉錄組比對的表達證據(jù)方法等。這3類方法各有優(yōu)點和缺點:從頭預測方法理論上可以覆蓋全面基因集,但假陽性高;同源比對方法預測結果準確,但局限于物種間保守基因;轉錄組比對方法直接來自表達證據(jù),但受限于轉錄組的數(shù)據(jù)質量和數(shù)量。研究人員通過整合多種預測結果來提高編碼基因注釋的準確性,比如Glean(Elsiketal., 2007)、Evigan(Liuetal., 2008)、PASA(Xuetal., 2006)、MAKER(Cantareletal., 2008)、jigsaw(Allenetal., 2006)等。雖然多證據(jù)整合方法可以提高編碼基因注釋可靠性,但是仍然也存在一些問題需要解決,比如新測序物種缺少必要數(shù)量的可靠基因用于從頭預測軟件訓練,難以獲得足夠的表達證據(jù)等。真核生物廣泛存在可變剪接和多個轉錄起始位點,導致編碼基因預測更加復雜。
(4)功能注釋
基因組功能注釋是依據(jù)“序列決定結構,結構決定功能”的基本原理,利用序列相似性來推斷基因的功能。基因功能預測是利用序列同源比對軟件如Blast等搜索序列相似的已知基因,再利用已知基因的功能進行注釋。常用于基因功能注釋的基因集有NCBI的非冗余蛋白序列數(shù)據(jù)庫(Non-redundant protein sequences, NR)、參考蛋白數(shù)據(jù)庫(refseq protein)、SWISS-PROT數(shù)據(jù)庫等,這些數(shù)據(jù)庫中蛋白序列一般都帶有注釋信息。
2.4 比較昆蟲基因組分析
比較基因組學是對近緣物種和同一物種的不同個體的基因組序列,從基因結構、共線性及基因家族等方面進行分析,揭示不同物種之間的基因家族擴增與丟失、基因的起源及進化等,協(xié)助闡明重要性狀的分子機制。比較基因組可分為種間比較基因組和種內比較基因組,種間比較基因組是近緣物種之間的基因組比較,重點研究基因家族和基因進化;種內比較基因組比較的是同一個物種之間不同個體的遺傳差異性,通過將重測序序列與參考基因組序列進行比較后,進行關聯(lián)性分析,挖掘可能與重要性狀關聯(lián)的單核苷酸多態(tài)性和結構差異,為分子機制研究奠定基礎(陳勇等, 2014)。
2.5 直系同源和共線性分析
直系同源基因具有相似的生物學功能,確定直系同源基因是功能基因鑒定、比較基因組、功能基因分類、信號通路預測等的基礎。預測直系同源基因的方法大致可分為3類: 一是比較序列相似性來識別直系同源基因;二是通過構建系統(tǒng)發(fā)育樹來識別直系同源關系;三是混合利用序列相似性和系統(tǒng)發(fā)育樹的方法。
基因共線性(synteny)是指基因在染色體上排列順序的一致性。在進化過程中,由于轉座、插入、染色體重排、區(qū)段加倍和缺失等原因,會發(fā)現(xiàn)基因序列的重排,進化距離越遠的物種,基因共線性越差。通過比較物種間同源基因的相對位置,可以確定不同物種間基因組的共線性,揭示所比較物種間基因結構以及基因順序的異同。
2.6 基因家族的擴張和收縮
基因家族是來源于同一個祖先,由一個基因通過基因重復而產(chǎn)生兩個或更多的拷貝而構成的一組基因,它們在結構和功能上具有明顯的相似性,編碼相似的蛋白質產(chǎn)物,同一家族基因可以緊密排列在一起,形成一個基因簇(gene cluster)。但多數(shù)時候,它們分散在同一染色體的不同位置,或者分布于不同染色體上,各自具有不同的表達調控模式。在長期進化過程中,基因家族會有擴張和收縮,這通常與物種的性狀密切相關。
3.1 i5k計劃
i5k計劃由Gene Robinson等人(2011)在Science上發(fā)文提出,倡議在2020年前后完成5000種節(jié)肢動物基因組的測序和分析工作,建議選定的物種應該廣泛分布于各種生態(tài)系統(tǒng),對世界范圍的農(nóng)業(yè)、食品安全、藥物研究、能源再生、模式生物研究等有著非常重要的影響,能夠作為昆蟲分類各分支上的代表物種,有助于全面理解節(jié)肢動物的進化歷程和系統(tǒng)發(fā)育關系。我國昆蟲學者積極響應i5k全球性計劃,以我國昆蟲學者為主導,先后完成了家蠶、小菜蛾、蝗蟲、褐飛虱、榕小蜂、二化螟等昆蟲的基因組測序。迄今已經(jīng)召開了兩屆國際昆蟲基因組學學術會議,分別為2013年12月15日在中國科學院動物研究所舉辦了“首屆中國昆蟲基因組學及國際i5k計劃研討會”,及于2015年9月18日在重慶召開了“第二屆國際昆蟲基因大會”,從基因組測序、功能基因組學、比較和進化基因組學、生物信息學技術等多個方面討論了昆蟲基因組學的發(fā)展及發(fā)展趨勢,探討了基因組學在害蟲防治、資源昆蟲利用、藥物靶點開發(fā)及進化生物學等方面的應用前景。
3.2 已經(jīng)完成的昆蟲基因組測序
截至2016年11月1日,從美國國立生物技術信息中心(National Center for Biotechnology Information,NCBI) BioProject數(shù)據(jù)庫統(tǒng)計,共有494種昆蟲的基因組測序項目在開展,覆蓋了幾乎所有目的昆蟲。在這些的基因組測序項目中,有215個基因組完成組裝并且數(shù)據(jù)已經(jīng)提交到NCBI數(shù)據(jù)庫,占總提交昆蟲基因組測序項目的43.5%。這些物種共涵蓋了15目的昆蟲(圖2A),包括捻翅目Strepsiptera、蜻蜓目Odonata、蜚蠊目Blattodea、直翅目Orthoptera、毛翅目Trichoptera、虱目Phthiraptera、纓翅目Thysanoptera、襀翅目Plecoptera、等翅目Isoptera、內華達古白蟻Zootermopsisnevadensis,蜉蝣目Ephemeroptera、鞘翅目Coleoptera、半翅目Hemiptera、鱗翅目Lepidoptera、膜翅目Hymenoptera和雙翅目Diptera(表1)。從目的分布來看,47.17%的物種為雙翅目昆蟲(達100種),膜翅目占21.86%,鱗翅目占11.63%,半翅目占9.30%,鞘翅目占4.18%,其他目僅有1-2種昆蟲。在雙翅目昆蟲中,主要為模式昆蟲黑腹果蠅及其近緣種,醫(yī)學昆蟲蚊子等;在膜翅目昆蟲中,主要為螞蟻、蜂等;鱗翅目昆蟲主要為重要農(nóng)業(yè)害蟲和蝶類。其中,果蠅、蚊子、螞蟻等三類昆蟲占70%以上,表明目前昆蟲基因組測序仍主要為模式生物和醫(yī)學昆蟲等。
圖2B顯示了215種昆蟲基因組完成測序或提交序列的時間。統(tǒng)計結果表明,2002-2010年期間的昆蟲基因組測序進展緩慢。2010年后,在二代測序技術帶動下,昆蟲基因組測序的物種數(shù)大幅增長,這些“舊時王謝堂前燕”,已經(jīng)“飛入了尋常百姓家”,不再是“高門檻”的項目,越來越多的實驗室獨立開展了昆蟲基因組測序分析(張傳溪, 2015)。
圖2 已發(fā)布昆蟲基因組統(tǒng)計Fig.2 The statistics of insect genomes have been released
從昆蟲基因組數(shù)據(jù)分析來看,由于早期基因組測序是一項艱難的任務,需要龐大的人力和財力投入,基因組工作多限于數(shù)據(jù)的獲得和初步分析,為分子生物學研究提供序列數(shù)據(jù)。在早期測序物種較少的情況下,比較基因組學難以展開,基因組學數(shù)據(jù)的威力一時難以完全發(fā)揮。近年來,測序物種越來越多,比較基因組分析得以深入開展,從而發(fā)現(xiàn)了傳統(tǒng)思路無法發(fā)現(xiàn)的規(guī)律,基因組數(shù)據(jù)得到了更加充分的挖掘,為解決重要的生物學問題提供了有力的支撐。例如,對褐飛虱基因組的研究揭示了胰島受體基因在褐飛虱翅型分化中的調控作用。
值得注意的是,在NCBI數(shù)據(jù)庫注冊的昆蟲數(shù)要遠多于提交序列的昆蟲數(shù)量,而基因組數(shù)據(jù)公開發(fā)表的數(shù)量則更少。其中最為主要的原因之一,是許多昆蟲的基因組拼接質量較差,還不適宜于發(fā)表。絕大多數(shù)昆蟲具有非常高的雜合度,導致無法組裝出高質量的基因組,影響了基因注釋和后續(xù)的基因家族分析等。
3.3 重要昆蟲的基因組測序及分析
如前所述,目前公開發(fā)表的昆蟲基因組文章43篇涉及物種46個,昆蟲基因組測序及數(shù)據(jù)分析的思路大同小異,涉及基因組拼接、注釋、基因家族分析等,但針對不同昆蟲的特異性表型,不同物種的分析結果各有千秋。在此,選擇了一些重要的昆蟲并對其基因組測序結果進行簡要介紹。
3.3.1 家蠶基因組
家蠶Bomyxmori基因組于2004年完成,是繼果蠅、岡比亞按蚊之后的第3個昆蟲基因組,具有歷史性意義。對家蠶Dazao品系進行了全基因組鳥槍法測序,基因組大小為428.7 Mb,拼接后基因組的contig N50為12.9 kb,scaffold N50為26.9 kb,共注釋了18510個基因。基因組分析結果發(fā)現(xiàn),家蠶基因組中含有大量的轉座子插入,導致家蠶的某些基因比果蠅中的同源基因更大。在家蠶絲腺中發(fā)現(xiàn)了87個神經(jīng)肽激素、激素受體、激素調節(jié)相關基因。在家蠶中還發(fā)現(xiàn)了69個與免疫相關的基因,包括moricin、cecropins、lysozymes、hemolin、lectins、prophenoloxidases等。2008年,國際家蠶基因組聯(lián)盟對家蠶基因組進行了更新,提高了測序覆蓋度,基因組contig N50提高為15.5 kb,scaffold N50提高到3.7 Mb,87% 的scaffold被定位于28條染色體上,預測發(fā)現(xiàn)了14623個基因。對新版本的基因組進行分析,發(fā)現(xiàn)基因組中含大量轉座子,包括LINEs和SINEs兩種主要類型,分別占全基因組的14.5%和13.3%。3223個家蠶特有基因在其他昆蟲和脊椎動物中沒有發(fā)現(xiàn)同源基因。研究還發(fā)現(xiàn),轉運Gly、 Ala和Ser的tRNA基因數(shù)目明顯多于其他氨基酸t(yī)RNA,這與蠶絲蛋白中各類氨基酸含量相一致;基因Ser1、Ser2、Ser3分別編碼蠶絲的不同位置和不同結構的絲膠成分;家蠶在進化過程中通過水平基因轉移從細菌中獲得呋喃果糖苷酶基因,得以降解桑葉中的D-AB1、DNJ等對其他昆蟲有毒的生物堿類物質,這是家蠶能夠專一取食桑葉的重要原因(Xiaetal., 2004)。
表 1 已發(fā)表的昆蟲基因組
續(xù)上表
物種Species基因組大小(Mb)Genomesize測序平臺Sequencingplatform染色體ChromosomescaffoldsN50(Kb)基因數(shù)Genenumber來源文獻References松甲蟲Dendroctonusponderosae246IlluminaHiseq818862813456GenomeBiol.,2013,14(3):R27 隧蜂Lasioglossumalbipes350Illumina431761613448GenomeBiol.,2013,14(12):R142 小菜蛾Plutellaxylostella383IlluminaHiseq2000181973718072NatureGenetics,2013,45(2):220-225 榕小蜂Ceratosolensolmsi268IlluminaHiseq20002457955813200GenomeBiol.,2013,14(12):R141 南極蠓Antarcticmidge99Illumina35899813517NatCommun,2014,54611無性生殖行軍蟻Cerapachysbiroi206IlluminaHiseq20004579135026315CurrBiol.,2014,24(4):451-458家蠅Muscadomestica728Illumina2048722620165GenomeBiol.,2014,15(10):466 竹節(jié)蟲Stickinsect1027Illumina1421131223083Science,2014,344(6185):738-742濕木白蟻Zootermopsisnevadensis472IlluminaHiseq20003162275114610NatCommun.,2014,53636蝗蟲Locustamigratoria6300IlluminaHiseq2000-32017307NatCommun.,2014,52957褐飛虱Nilaparvatalugens1324IlluminaHiseq20004527936036723GenomeBiol.,2014,15(12):521草地貪夜蛾Spodopterafrugiperda358Illumina3724353711595Genomics,2014,104(2):134-143麥雙尾蚜Diuraphisnoxia421IlluminaHiseq2000564139719097BMCGenomics,2015,16(1):429 咖啡果小蠹Hypothenemushampei163IlluminaHiseq20008684844719222Rep,2015,512525銅綠蠅Luciliacuprina458Illumina-ALLPATHS-LG462574414554NatCommun,2015,67344冬尺蠖蛾Operophterabrumata638IlluminaMiseq2580165616912GenomeBiolEvol,2015,7(8):2321-2332溫帶臭蟲Cimexlectularius650Illumina-ALLPATHS-LG1402717214220NatCommun,2016,710165地中海實蠅Ceratitiscapitata479Illumina1806406014547GenomeBiol.,2016,17(1):192
3.3.2 蜜蜂基因組
蜜蜂Apismellifera基因組由The Honeybee Genome Sequencing Consortium團隊于2006年完成。文章先后注釋了六版基因組數(shù)據(jù),將contig N50從19 kb提高到41 kb,scaffold N50從223 kb提高到362 kb?;蚪M大小236 Mb?;蚪M注釋獲得了10157個基因,比果蠅和庫蚊少25%左右。蜜蜂基因組為AT-rich,高達到67%, 而黑腹果蠅Drosophilamelanogaster僅為58%, 庫蚊僅為56%。在蜜蜂基因組AT豐富區(qū)中,基因分布反而較多,這與脊椎動物明顯不同。蜜蜂基因組中的轉座子明顯比其他昆蟲更少。蜜蜂和果蠅只有10%同源基因,遠少于人和雞之間有85%同源基因的比例, 表明昆蟲的進化速度很快。蜜蜂有163個氣味受體基因,遠多于果蠅(62)和庫蚊(79),顯示蜜蜂化學感受能力增強, 用來探測外激素、辨別同伴和花香等。與此相反,蜜蜂的味覺基因只有10個,少于其他昆蟲的50-76個。與預期相反,蜜蜂免疫和抗病基因明顯變少,只有71個與免疫和抗病相關的基因,遠少于庫蚊的209 和果蠅的196個,分析認為這與蜜蜂的清潔行為、蜂王漿和蜂膠的抗細菌特性, 以及蜂群像城堡一樣的結構等有關。研究還發(fā)現(xiàn),與果蠅不同,蜜蜂有完整的DNA甲基化酶系,包括Dnmt1、Dnmt2和Dnmt3,DNA甲基化在蜜蜂不同蜂型的分化中具有重要的功能(Consortium, 2006)。
3.3.3 體虱基因組
體虱Pediculushumanus基因組于2010年完成,其基因組大小僅為108 Mb,拼接獲得的基因組scaffold N50為488 kb。預測發(fā)現(xiàn)了10773個蛋白編碼基因和57個microRNAs。與其他昆蟲基因組相比,體虱具有更少的與環(huán)境感知和響應相關的基因,包括那些嗅覺和味覺感受器以及解毒酶編碼的基因等。同時,還對體虱Riesia菌的基因組進行了測序。Riesia菌是體虱消化道中的一種關鍵細菌,它分泌營養(yǎng)物質作為人血的補充物質,Riesia細菌缺乏抵抗抗生素的基因。比較基因組學分析顯示,人類體虱是從頭虱進化而來的,基因組分析有助于利用體虱的獨特基因屬性如其有限的嗅覺能力等,開發(fā)出體虱控制的新方法(Kirknessetal., 2010)。
3.3.4 豌豆蚜基因組
豌豆蚜Acyrthosiphonpisum由國際蚜蟲基因組聯(lián)盟于2010年完成。作者利用單個雌蟲的個體后代進行測序,流式細胞儀估測基因組大小為517 Mb,測序組裝獲得的基因組為464 Mb,基因組contig N50為10.8 kb,scaffold N50為88.5 kb,注釋獲得了34604個基因,遠多于其他昆蟲的15000-20000個,其中2459個基因家族中發(fā)現(xiàn)大量的基因復制,等義距離評估表明在該物種形成初期已經(jīng)存在了基因復制現(xiàn)象,涉及功能包括染色質修飾、miRNA合成和糖轉運等。豌豆蚜基因組丟失了IMD(免疫缺陷)免疫通路、硒蛋白利用、嘌呤補救途徑及鳥氨酸循環(huán)等通路的基因。通過與蚜蟲初級內共生菌Buchneraaphidicola基因組比較分析,發(fā)現(xiàn)兩者具有代謝系統(tǒng)的互補性。豌豆蚜基因組中具有明顯的基因橫向轉移現(xiàn)象,部分基因與細菌基因具有共同起源,其線粒體基因亦有部分在基因組中重復?;蚪M中發(fā)現(xiàn)了12個新的dynamin基因,可能與病毒運輸、轉胞等過程相關。豌豆蚜基因組中胚胎發(fā)育相關基因存在特異性的缺失,可能與其發(fā)育多型性有關。基因組中鋅指結構蛋白的擴增,以及保幼激素合成酶、降解酶的hexamerin的缺失可能與豌豆蚜發(fā)育可塑性有關。
3.3.5 麗蠅蛹集金小蜂基因組
麗蠅蛹集金小蜂Nasoniavitripennis是雙翅目蠅類的重要寄生蜂,其基因組測序完成于2010年。 作者采用了Sanger測序法獲得26605條contigs (N50=18.5 kb),6181條Scaffolds(N50=709 kb),基因組大小約295 Mb。同時對另兩種近緣寄生蜂N.giraultiandN.longicornis采用了Sanger測序技術和Illumina測序平臺進行測序,得用N.vitripennis基因組做為參考,分別有62% and 62.6%的reads比對到N.vitripennis基因組上,有84.7% 和86.3%的蛋白編碼區(qū)域。在N.vitripennis基因組中,注釋到17279個基因,并預測了52個miRNA基因。研究發(fā)現(xiàn),金小蜂具有完整的DNA甲基化“工具包”,即含有三種DNA甲基化基因,并且Dnmt1具有3個拷貝。N.vitripennis基因組的Toll通路中發(fā)現(xiàn)大量的基因復制。在N.vitripennis基因組中,性別決定相關基因如yellow/major、royal、jelly基因等,表現(xiàn)出大量的復制;N.vitripennis基因組具有與細菌Wolbachia基因相似的保守域,表明細菌基因被整合宿主基因組中,發(fā)生了基因轉移現(xiàn)象;麗蠅蛹集金小蜂的毒液蛋白基因受到很高的進化壓力。作者分析還發(fā)現(xiàn),3種金小蜂線粒體基因在不同的世代受到了比較顯著的進化壓力(Werrenetal., 2010)。
3.3.6 帝王蝶基因組
帝王蝶Danausplexippus基因組于2011年完成,是目前唯一一篇發(fā)表于Cell雜志的昆蟲基因組。帝王蝶具有遷徙和不遷徙兩種類型,最早起源于美國南部和墨西哥北部的是遷徙型,大約兩萬年前數(shù)量增長開始遷移,向南進入南美,直到近期北美類群又分為跨太平洋和跨大西洋兩個方向分布于全球各地。作者利用二代測序平臺通過全基因組鳥槍法測序得到了14.7 Gb的Illumina reads,經(jīng)拼接得到了273 Mb的帝王蝶基因組,注釋發(fā)現(xiàn)了16866個蛋白編碼基因。對12種昆蟲和2種哺乳動物基因組進行了同源分析,結果表明鱗翅目是目前為止進化最快的昆蟲;帝王蝶和家蠶在直系同源數(shù)量、微共線性、蛋白家族大小等方面具有明顯的相似性。通過對帝王蝶基因組的分析,更深入地破解了其遷飛的分子機制。在帝王蝶基因組中發(fā)現(xiàn)了可能與處理光信號和太陽羅盤結構有關的多種蛋白和神經(jīng)遞質,并注釋了39個與定位功能相關的基因,其中2個功能未知的基因可能是帝王蝶特有的。位于帝王蝶觸角的生物鐘在遷徙活動中具有重要作用,分析發(fā)現(xiàn)帝王蝶除了具有大量和果蠅相同的生物鐘關鍵基因外,還具有CRY2基因,而果蠅只含有CRY1基因。保幼激素的生物合成在帝王蝶雌雄中具有兩態(tài)性,表現(xiàn)為在雌性上調、雄性下調。研究還發(fā)現(xiàn),miR-1、miR-7、miR-14在內的27種miRNA在遷徙和非遷徙蝴蝶中的表達量有差異,可能對遷飛起調節(jié)作用。獨特的P型鈉鉀泵構成了帝王蝶防御機制的分子基礎,而Ors、Grs、IRs等化學感受器在遷飛過程中也有潛在的作用。
此后,該團隊采集了不同地區(qū)的101個帝王蝶基因組進行了重測序分析。在與遷徙相關的5 Mb序列中,有大約21 kb的異常序列,這段序列包含3個基因,其中Collagen IV α-1在遷徙和非遷徙群體之間具有明顯的不同,從而影響了2種類型蝴蝶的體型、飛行肌以及飛行特點的不同。相比之下,遷徙蝴蝶飛行代謝率低,飛行效率高;高代謝率更有利于非遷徙蝴蝶的生存。帝王蝶特有的警戒色被發(fā)現(xiàn)與肌球蛋白基因DPOGS206617有密切關系,表明翅色并非由色素分子的產(chǎn)生決定而是由色素的運輸來決定(Zhanetal., 2011)。
3.3.7 小菜蛾基因組
小菜蛾Plutellaxylostella是世界性的重要害蟲,食性廣,危害嚴重,容易對農(nóng)藥形成抗性,基因組大小僅為343 Mb,但其雜合度高,導致測序困難,其基因組于2013年完成測序,是第一個成功測序的高雜合度昆蟲基因組。作者利用Illumina Genome Analyzer IIx和HiSeq2000平臺,采用Fosmid-to-Fosmid結合WGS的測序策略,最終獲得了1819條scaffold序列,N50為737 kb?;蚪M注釋獲得了18071個基因和781 ncRNA。比較基因組學分析發(fā)現(xiàn),小菜蛾基因組中有1412個特有基因,參與感知和解毒代謝的基因家族發(fā)生了明顯的擴張?;蚪M數(shù)據(jù)分析發(fā)現(xiàn)了在幼蟲階段偏好表達的354個基因,部分基因參與硫酸鹽代謝及硫酸酯酶修飾因子基因。其中,硫代葡萄糖苷硫酸酯酶(GSS)通過催化硫代葡萄糖苷防御化合物轉化為脫硫葡萄糖苷酸酯,使得小菜蛾能夠在廣泛的十字花科植物上進食,從而防止毒性水解產(chǎn)物的形成。分析認為,小菜蛾硫代葡萄糖苷硫酸酯酶(GSS)基因和硫酸酯酶修飾因子基因1(SUMF1)在幼蟲時期的協(xié)同表達是決定小菜蛾能夠取食十字花科蔬菜的關鍵。除細胞色素 (P450)、谷胱甘肽轉移酶(GST)和羧基酯酶(COE)這三大代謝水解酶家族外,ABC轉運蛋白家族也出現(xiàn)了明顯的擴張,進一步解釋了小菜蛾容易產(chǎn)生抗性的基因組學特性(Youetal., 2013)。
3.3.8 榕小蜂基因組
榕小蜂Ceratosolensolmsi在長期進化過程中,與榕屬植物形成了一種密切的共生關系,是榕屬植物重要的傳粉媒介,以回報榕屬植物為其提供棲身場所和營養(yǎng)來源。榕小蜂基因組于2013年完成測序和發(fā)表,其基因組大小278 Mb,scaffold數(shù)量7397。值得一提的是由于其基因組中富含AT(69.6%),重復序列只有9.85%,因此組裝完成后scaffold N50值競達到9.558 Mb,是目前測序昆蟲中最高的。通過從頭預測、同源搜索、轉錄組覆蓋等方法,共注釋獲得蛋白質編碼基因11412個。
通過比較基因組分析,發(fā)現(xiàn)榕小蜂的基因組進化相比于其他昆蟲更快。由于榕小蜂基本上大部分時間都棲息在榕樹,其基因組中ORs、GRs、IR、OBPs、CSPs等化學感受基因家族出現(xiàn)明顯的收縮。由于榕樹已為榕小蜂提供了安全的場所和營養(yǎng)來源,因此其P450s、GSTs、CCEs等解毒代謝基因家族基因也明顯減少,以及在Toll、imd、JAK/STAT、JNK等免疫通路中很多基因退化。為了了解榕小蜂雌雄異型的分子機制,通過轉錄組測序技術研究了其雌雄個體中基因的表達情況,發(fā)現(xiàn)了很多與基因在雌雄個體中出現(xiàn)差異表達,推測與其這種兩性差異有關。榕小蜂在長期與腸道共生菌協(xié)同進化過程中,通過基因組數(shù)據(jù)證實其可以從細菌和病毒中獲得一些基因片段或完整基因,總共在榕小蜂基因組鑒定出12個水平轉移基因(Xiaoetal., 2013)。
3.3.9 蝗蟲基因組
蝗蟲Locustamigratoria是世界范圍的具有嚴重危害性的昆蟲,其周期性的大爆發(fā),具有長距離遷飛和兩型變化的習性?;认x基因組達6.52 Gb,是迄今為止最大的昆蟲基因組,因此完成測序極其困難,來自中國科學院動物所康樂院士所帶領的團隊于2014年首次解開了蝗蟲的遺傳密碼,破解了這一難題?;认x基因組scaffold N50為323 kb,通過從頭預測、同源預測以及表達證據(jù)共獲得17307個蛋白質編碼基因?;蚪M分析發(fā)現(xiàn),蝗蟲的基因組之所以如此之大,主要體現(xiàn)在重復序列增多,占基因組60%以上,蝗蟲基因內含子的長度是其他昆蟲的10倍左右,這也是造成其基因組變大的一個重要因素。
通過比較基因組學研究,發(fā)現(xiàn)了大量與變態(tài)發(fā)育相關的調控基因,蝗蟲進化獲得了55個新的基因家族,共有25個基因家族顯著擴增,參與解毒代謝、化學感受、營養(yǎng)代謝等?;认x具有Dnmt1兩個以及Dnmt2和Dnmt3完整的DNA甲基化基因家族,基因組中約有1.6%的胞嘧啶被甲基化,重復序列區(qū)高度甲基化。與基他昆蟲不同的是,基因內含子區(qū)甲基化高于外顯子區(qū)。為了適應長距離遷飛,蝗蟲進化出一套高效的能量儲存和代謝的機制,其主要能源物質為脂類,基因組中與脂類運輸和抗氧化保護以及脂質降解有關的基因家族顯著擴增,如基因組中perilipins、fatty-acid-bindingprotein、Prdx6s、sigmaGST、enoyl-CoAhydratase、acetyl-CoAacyltransferase2等基因出現(xiàn)多拷貝。蝗蟲基因組中OBPs、ORs、GRs、IRs等基因家族出現(xiàn)顯著的擴增,可能與其食性很廣有關,同時UGTs和carboxyl/cholineesterases基因家族也出現(xiàn)顯著擴增,以幫助其降解不同食物中的化學成分。
3.3.10 家蠅基因組
家蠅Muscadomestica是生活中常見的昆蟲,幼蟲以動物排泄物等為食,成蟲能夠攜帶100多種病原菌,對人類和動物的健康帶來極大的威脅,其基因組測序于2014年完成。家蠅基因組大小691 Mb,重復序列含量較高,Scaffold數(shù)為20487,N50值為226 kb,基因組注釋獲得蛋白質編碼基因14180個。在家蠅基因組中共發(fā)現(xiàn)771與免疫相關的基因,具有完整的Toll、imd、JAK/STAT和JNK免疫通路,這與家蠅長期生活在富含動物病原體腐爛性環(huán)境有關。先后從基因組找到146個P450s、11個P450 pseudogenes、33個GSTs、92個脂酶基因,顯示家蠅基因組中解毒代謝相關的基因家族出現(xiàn)了明顯擴張,以應對生境中各種有害物質。家蠅基因組中CysLGIC超基因家族具有23個基因,為抗藥性研究和農(nóng)藥新靶點開發(fā)提供了參考。家蠅的味覺受體基因家族顯著出現(xiàn)擴增,推測與家蠅需要通過味覺來識別不同的有害物質有關(Scottetal., 2014)。
3.3.11 南極蠓基因組
南極蠓Belgicaantarctica是唯一生活在南極的一種地方性昆蟲,需要適應極端溫度、結冰、脫水、滲透壓平衡、紫外線輻射以及環(huán)境產(chǎn)生的其他各種選擇壓力,其基因組測序于2014年完成。南極蠓基因組大小89.6 Mb,是目前最小的昆蟲基因組。其Contig序列為5003條,N50值為98.2 kb。雖然拼接質量不高,CEGMA基因組評估和比較基因組學研究表明南極蠓的基因組數(shù)據(jù)可以用于后續(xù)數(shù)據(jù)分析,預測得到蛋白質編碼基因13517個。相比于其他昆蟲,重復序列含量的大幅減少,內含子長度變短,這是其南極蠓基因組明顯變小的主要原因。通過基因組個體雜合度分析發(fā)現(xiàn),由于其基因組比較小,南極蠓受到的選擇壓力非常大,因此雜合度相對其他昆蟲低。基因家族分析顯示南極蠓OBP基因出現(xiàn)明顯的收縮,推測與其生活環(huán)境、食物相對單一,活動范圍也較小等習性有關(Kelleyetal., 2014)。
3.3.12 褐飛虱基因組
褐飛虱Nilapavatalugens是水稻上的重要害蟲,具有遷飛習性和翅二型現(xiàn)象,其基因組測序完成于2014年。作者采用HiSeq2000測序技術,利用單對交配純化13代的褐飛虱,使用與小菜蛾相似的測序策略,得到了共1.14 Gb的褐飛虱基因組序列,基因組Scaffold N50為356.6 kb,注釋得到27571個蛋白編碼基因。通過對褐飛虱和其它14個節(jié)肢動物基因組的比較分析,發(fā)現(xiàn)褐飛虱等半翅目的3個物種基因數(shù)目、特異基因數(shù)目都比其他昆蟲多,顯示出半翅目物種的基因擴張現(xiàn)象。 褐飛虱的OR和GR基因家族收縮,這與褐飛虱只以水稻韌皮汁液為食的嚴格單食性特性相符;研究還發(fā)現(xiàn)褐飛虱中解毒和消化相關基因存在著基因丟失現(xiàn)象,如P450、GST基因數(shù)目很少,淀粉降解必須的alpha-淀粉酶缺失,幾丁質合成酶CHS2缺失,這些特點也可能與褐飛虱專一食性有關;褐飛虱與真菌YLS和細菌A.nilaparvatae組成了共生系統(tǒng),通過對真菌YLS和細菌A.nilaparvatae測序并組裝注釋,分析三者的共生關系,發(fā)現(xiàn)褐飛虱缺少10種必需氨基酸合成能力,而在YLS中能找到對應的氨基酸合成基因;還發(fā)現(xiàn)YLS能夠利用尿酸,跟褐飛虱共同形成了氮素循環(huán)的完整途徑;YLS能合成酵母甾醇中間產(chǎn)物,褐飛虱參與利用酵母甾醇中間產(chǎn)物進一步合成膽固醇,從而形成完整的膽固醇合成途徑;YLS和褐飛虱在維生素生物合成途徑上都有缺陷,但A.nilaparvatae帶有完整的維生素B合成途徑,可能為褐飛虱提供維生素(Xue,etal., 2014)。
3.3.13 臭蟲基因組
臭蟲Cimexlectularius是與人類健康密切相關的皮外寄生物,其基因組于2016年完成。作者首先臭蟲對經(jīng)過6代近交純化,然后采用二代Illumina Solexa平臺測序,基因組大小為650.47 Mb,拼接得到1402條scaffold序列, scaffold N50為7.17 Mb,MAKER軟件預測和手工注釋共獲得14220個蛋白質編碼基因?;蚪M分析表明,為了適應臭蟲獨特的生態(tài)環(huán)境和生活習性,很多基因或基因家族出現(xiàn)了丟失或擴張。與臭蟲專性寄生習性相關,在黑暗環(huán)境生存使得CRY1與JET感光基因退化,氣味受體、味覺受體、離子受體等化學感受基因以及免疫通路相關基因均出現(xiàn)了顯著的基因家族收縮;臭蟲的專性吸血習性使得其唾液蛋白家族擴增,以阻止在吸食過程中的寄主血液凝固,水通道蛋白(AQP)的擴增可以快速去除血液中大量的水分;臭蟲具有皮下受精交配習性,在基因組中節(jié)肢彈性蛋白基因大量擴增,使得雌蟲可以最大限度地免于交配產(chǎn)生的創(chuàng)傷或修復創(chuàng)傷。臭蟲抗藥性發(fā)展迅速,基因組分析發(fā)現(xiàn)臭蟲的電壓門控鈉通道基因出現(xiàn)了多個點突變使得靶標不敏感;差異表達分析發(fā)現(xiàn)P450、羧酸酯酶、谷胱甘肽-S-轉移酶等代謝酶基因的表達增強,ABC轉運蛋白基因家族擴增,CPR家族基因擴增等均是造成了臭蟲日趨嚴重抗性的原因。通過微生物和寄主分析,發(fā)現(xiàn)了臭蟲與其體內walbacia菌形成營養(yǎng)共生關系,在臭蟲基因組發(fā)現(xiàn)了805個潛在的水平轉移基因。臭蟲基因組使得從分子機制水平研究和解釋臭蟲的寄生習性、嗜血習性、抗藥性等科學問題成為可能,為研究吸血昆蟲、共生關系以及寄生行為等提供了新的模式材料(Benoit,etal., 2016)。
3.3.14 地中海實蠅
地中海實蠅Ceratitiscapitata是世界性的入侵害蟲,其基因組大小為479 Mb,基因組測序完成于2016年。作者先后采用454平臺和Illumina HiSeq2000平臺進行測序,利用單對純化后的個體DNA進行測序以提高數(shù)據(jù)質量,將contig N50從3.1 kb提高到45.8 kb,Scaffold N50從29.4 kb提高到4.1 Mb。基因組注釋獲得14547個基因,23075個CDS。與其它14個節(jié)肢動物的基因組進行同源分析,確定了26212個同源組。地中海實蠅中有1608條推定的氨基酸序列沒有分到任何同源組內,推測是最近才進化的新基因。利用地中海實蠅的唾液腺多線染色體,通過克隆基因和微衛(wèi)星序列(Medflymic)的原位雜交,將克隆基因和微衛(wèi)星序列所在的43個scaffold定位到5條常染色體上(染色體2-6號),1個scaffold定位到X性染色體上。與黑腹果蠅和家蠅基因組進行比較分析,發(fā)現(xiàn)多個基因/基因家族的擴張現(xiàn)象可能導致地中海實蠅較高的適應性和入侵性,包括IR和GR味覺受體基因家族、性誘劑受體、細胞色素P450基因和CYP6亞家族、免疫系統(tǒng)基因(Toll和sp?tzle家族)、TWDL和CPLCA表皮蛋白家族、水通道蛋白基因以及特異的ceratotoxin基因。對各基因家族的分析表明,可利用化學感受分子作為種群監(jiān)測或誘捕的引誘劑或驅避劑,視蛋白opsin指導最佳陷阱顏色的選擇,RHG促細胞凋亡基因(reaper、grim)、精液蛋白SFP等用于SIT昆蟲不育技術(Papanicolaouetal., 2016)。
隨著測序技術的突破性發(fā)展,海量的生物數(shù)據(jù)在不斷累積,每14個月就會增長一倍,如何進行數(shù)據(jù)的管理、存儲、展示、共享,變成了非常迫切的問題(Baxevanisetal., 2015, Stephensetal., 2015)。為了最大化地體現(xiàn)數(shù)據(jù)的價值和提高數(shù)據(jù)的利用率,數(shù)據(jù)庫在管理和維護、共享與挖掘生物大數(shù)據(jù)中發(fā)揮著重要作用。
依據(jù)數(shù)據(jù)資源分類,生物數(shù)據(jù)庫可以分為三類。第一類是大型綜合存儲型數(shù)據(jù)庫。這類數(shù)據(jù)庫的特點就是,大而雜地收錄了大量的數(shù)據(jù),數(shù)據(jù)之間層次和質量良莠不齊,且僅僅是接近原始版的堆積,更新、修改和管理較為困難,而且數(shù)據(jù)庫比較大,維護的成本很高,主要是發(fā)揮數(shù)據(jù)倉庫的作用。這類數(shù)據(jù)庫以美國國家生物技術信息中心(NCBI)、歐洲生物信息研究所(EBI)和日本核酸數(shù)據(jù)庫(DDBJ)國際上公認的三大生物信息數(shù)據(jù)庫為代表,這三個數(shù)據(jù)庫各具特色。第二類是單一類群的基因組數(shù)據(jù)庫。這類數(shù)據(jù)庫是圍繞某一個研究類群的基因組數(shù)據(jù)庫,數(shù)據(jù)量較第一類數(shù)據(jù)庫明顯縮小,數(shù)據(jù)之間的層次和質量比較接近,且質量有所保證,數(shù)據(jù)也經(jīng)過了加工,維護者管理起來也比較方便,使用者用起來也可以很快的掌握。VectorBase (Giraldo-Calderonetal., 2015)是這類型數(shù)據(jù)的經(jīng)典代表,其中收錄了與眾多與疾病媒介傳播有關物種的基因組數(shù)據(jù)。第三類是小型的單個物種或單一屬的物種數(shù)據(jù)庫,圍繞單一物種的數(shù)據(jù)構建數(shù)據(jù)庫,數(shù)據(jù)質量很高,數(shù)據(jù)加工很精細,功能很齊全,維護和更新迅速和簡便,使用便捷。這類數(shù)據(jù)庫目前有膜翅目數(shù)據(jù)庫Hymenoptera Genome Database(Munoz-Torresetal., 2011)、農(nóng)業(yè)害蟲數(shù)據(jù)庫Agripestbase、小菜蛾數(shù)據(jù)庫(中國)DBM-DB(Tangetal., 2014)、小菜蛾數(shù)據(jù)庫(日本)KONAGAbase(Jourakuetal., 2013)、帝王蝶數(shù)據(jù)庫MonarchBase(Zhanetal., 2013)、蚜蟲數(shù)據(jù)庫APHIDBASE(Legeaietal., 2010)、家蠶數(shù)據(jù)庫(中國)SilkDB(Duanetal., 2010, Wangetal., 2005)、家蠶數(shù)據(jù)庫(日本)KAIKObase(Shimomuraetal., 2009)、詩神袖蝶數(shù)據(jù)庫Heliconius Genome Project、二化螟數(shù)據(jù)庫ChiloDB(Yinetal., 2014)和WaspAtlas金小峰數(shù)據(jù)庫(Daviesetal., 2015)。
目前昆蟲基因組數(shù)據(jù)主要存儲于大型綜合存儲型數(shù)據(jù)庫中。NCBI共收錄了215個昆蟲的基因組拼接數(shù)據(jù),Ensemble上收錄了31個,這兩個公共數(shù)據(jù)庫涵蓋了大部分的昆蟲基因組數(shù)據(jù)。由于NCBI等大型數(shù)據(jù)庫并不是單一地為昆蟲領域服務,主要集中在醫(yī)學、模式生物領域。目前NCBI基本沒有針對昆蟲基因組數(shù)據(jù)進行挖掘和數(shù)據(jù)注釋等,僅僅只是數(shù)據(jù)倉庫服務。為此,這么多昆蟲基因組研究者紛紛建立了單個類群或單個個體的基因組數(shù)據(jù)庫(表2),在眾多的昆蟲基因組數(shù)據(jù)庫,涌現(xiàn)了2個綜合型的昆蟲基因組數(shù)據(jù)庫,i5k workspace@NAL(Poelchauetal., 2015)和InsectBase(Yinetal., 2016)。
4.1 i5k Workspace@NAL
i5k Workspace@NAL數(shù)據(jù)庫是由美國農(nóng)業(yè)部主導構建的節(jié)肢動物基因組學服務型數(shù)據(jù)庫,共收錄昆蟲基因組46個,數(shù)據(jù)庫提供基因組數(shù)據(jù)的瀏覽、下載、數(shù)據(jù)提交、序列比對、基因組可視化及在線基因組手工注釋平臺,以及HMMER、CLUSTAL兩個在線工具(Poelchauetal., 2015)。隨著i5k計劃的提出,越來越多的節(jié)肢動物基因組被測序。在此背景下,美國農(nóng)業(yè)部相關科學家希望在紛亂無章的測序潮流中推出一套基因組測序、組裝、注釋、維護、共享的標準化流程和平臺,因此構建了i5k Workspace@NAL數(shù)據(jù)庫。然而事與愿違,在目前基因組數(shù)據(jù)依舊是稀缺資源的環(huán)境下,大多數(shù)研究人員沒有遵從i5k Workspace@NAL提出的共享數(shù)據(jù)標準。目前,i5k Workspace@NAL主要收錄了美國農(nóng)業(yè)部主導的一些節(jié)肢動物基因組測序數(shù)據(jù),其他國家科學幾乎沒有提交數(shù)據(jù)。
4.2 InsectBase
InsectBase昆蟲基因組與轉錄組數(shù)據(jù)庫旨在有效的解決目前昆蟲基因組數(shù)據(jù)庫的紛亂雜陳的現(xiàn)狀,構建一個綜合的全能化的昆蟲領域的生物信息數(shù)據(jù)庫,為廣大研究者提供方便快捷的后基因組時代基因組、轉錄組等數(shù)據(jù)服務和交流合作平臺(Yinetal., 2016)。
InsectBase昆蟲基因組數(shù)據(jù)庫(http://www.insect-genome.com/)的總數(shù)據(jù)存儲量達120 G。InsectBase通過篩選和質量過濾共收集了155種昆蟲基因組(隸屬于16個目),其中61個基因組具有注釋信息(Official Gene Set, OGS),116個轉錄組數(shù)據(jù),237個物種的EST序列,69個物種的7544條miRNA序列,2個物種的83262條piRNA序列,構建了78個物種的22536個信號通路,116個昆蟲的UTR序列和CDS序列。針對61個有OGS注釋的昆蟲,開展了數(shù)據(jù)挖掘。
InsectBase對研究較多的36個基因家族開展了系統(tǒng)分析,運用OrthoMCL直系同源算法發(fā)現(xiàn)了7個物種中的直系同源基因,共找到1 ∶1 ∶1直系同源基因973個。InsectBase昆蟲基因組數(shù)據(jù)庫提供序列查詢、序列比對、基因組可視化、信號通路和注釋、進化分析和進化樹構建等功能服務,所有基因數(shù)據(jù)均可下載。從PubMed中下載了94758條昆蟲研究相關文獻,通過數(shù)據(jù)挖掘,建立了昆蟲學領域的關系網(wǎng)絡平臺iFacebook,初步實現(xiàn)“基因-研究者-昆蟲物種”等三者之間的關系網(wǎng)絡,便于促進學術交流。InsectBase是綜合型的生物信息學數(shù)據(jù)庫,數(shù)據(jù)種類齊全、功能全面、用戶使用方便,有利于昆蟲學研究者對基因數(shù)據(jù)的獲得、整理和分析,促進昆蟲分子生物學研究。自2015年8月上線以來,到目前已經(jīng)累計有來自全世界86個國家的研究學者近10萬次的訪問,其中最活躍的當屬中國和美國,中國的訪問量占到86.23%。
表 2 昆蟲基因組數(shù)據(jù)庫統(tǒng)計
隨著測序費用的急劇下降,昆蟲基因組測序計劃如雨后春筍般地涌現(xiàn)。由于昆蟲基因組雜合度高導致的拼接困難等問題,在2020年前完成5000種昆蟲測序的目標也許很難實現(xiàn),但隨著技術的進步,這些困難最終會得到徹底解決。對948種昆蟲基因組大小進行統(tǒng)計分析,結果顯示平均大小為1.15 Gb,按1000美元完成人基因組(3 Gb)測序來計算,完成一個昆蟲基因組的測序僅需不到400美元。相信在不久的將來,昆蟲基因組測序和重測序將成為日常實驗設計的一部分。
組學數(shù)據(jù)的大量積累,將會對昆蟲學研究起巨大的推動作用。首先,系統(tǒng)生物學的研究思路將占據(jù)昆蟲分子生物學研究的高地,研究人員不僅僅將基因組作為數(shù)據(jù)倉庫在使用,而且可以從組學角度尋找重要科學問題的答案,才是功能基因組學研究時代的突破性飛躍。其次,生物數(shù)據(jù)的積累對生物信息學提出了更高的要求。目前,數(shù)據(jù)分析工作主要依賴于公司的技術人員完成,但是常規(guī)的通用分析流程將越來越不能勝任具有針對性的數(shù)據(jù)分析需求,生物信息學技術將如同上世紀90年代末的分子生物學技術一樣,成為每一個實驗室的重要技術平臺。因此,昆蟲學研究中應該注重培養(yǎng)既懂昆蟲學問題也熟悉生物信息學分析的兩棲人才。最后,基因組重測序、轉錄組、蛋白組和代謝組等將成為功能基因組時代的四駕馬車,將DNA、RNA、蛋白質和代謝產(chǎn)物4個不同層次的大數(shù)據(jù)充分整合,是功能基因組時代的重要研究手段。
在昆蟲基因組學研究中,還應當注意和明確的是,數(shù)據(jù)和技術應該為科學問題服務。昆蟲基因組數(shù)據(jù)的大量堆積,數(shù)據(jù)質量良莠不齊,需要提高和發(fā)展;技術層面上的問題重重,需要實現(xiàn)突破。他山之石,可以攻玉。昆蟲基因組研究可以并應當借鑒醫(yī)學研究領域的領先技術和思路,但技術的突破和數(shù)據(jù)的提高,應該緊密圍繞昆蟲科學問題,服務于害蟲防治和益蟲利用的最終目標。
References)
Adams MD, Celniker SE, Holt RA,etal. The genome sequence of Drosophila melanogaster [J].Science, 2000, 287(5461): 2185-95.
Allen JE, Majoros WH, Pertea M,etal. JIGSAW, GeneZilla, and GlimmerHMM: Puzzling out the features of human genes in the ENCODE regions [J].GenomeBiol., 2006, 7(S9):1-13.
Bao Z, Eddy SR. Automated de novo identification of repeat sequence families in sequenced genomes [J].GenomeRes., 2002, 12(8): 1269-1276.
Baxevanis AD, Bateman A. The importance of biological databases in biological discovery [J].CurrProtocBioinformatics, 2015, 50111-50118.
Bellaousov S, Reuter JS, Seetin MG,etal. RNAstructure: Web servers for RNA secondary structure prediction and analysis [J].NucleicAcidsRes., 2013, 41(Web Server issue): W471-474.
Benoit JB, Adelman ZN, Reinhardt K,etal. Unique features of a global human ectoparasite identified through sequencing of the bed bug genome [J].Nat.Commun., 2016, 710165.
Butler J, MacCallum I, Kleber M,etal. ALLPATHS: De novo assembly of whole-genome shotgun microreads [J].GenomeRes., 2008, 18(5): 810-820.
Cantarel BL, Korf I, Robb SM,etal. MAKER: An easy-to-use annotation pipeline designed for emerging model organism genomes [J].GenomeRes., 2008, 18(1): 188-196.
Chen Y,Liu YS,Zeng JG,etal. Progresses on plant genome sequencing profile [J].LifeScienceResearchFeb.,2014(1): 66-74.
Consortium HGS. Insights into social insects from the genome of the honeybeeApismellifera[J].Nature, 2006, 443(7114): 931.
Davies NJ, Tauber E. WaspAtlas: A Nasonia vitripennis gene database and analysis platform [J].Database(Oxford), 2015.
Duan J, Li R, Cheng D,etal. SilkDB v2.0: A platform for silkworm (Bombyxmori)genome biology [J].NucleicAcidsRes., 2010, 38(Database issue): 453-456.
Edgar RC, Myers EW. PILER: Identification and classification of genomic repeats [J].Bioinformatics, 2005, 21(Suppl):152-158.
Elsik CG, Mackey AJ, Reese JT,etal. Creating a honey bee consensus gene set [J].GenomeBiol., 2007, 8(1): R13.
Friedlander MR, Chen W, Adamidi C,etal. Discovering microRNAs from deep sequencing data using miRDeep [J].Nat.Biotechnol., 2008, 26(4): 407-415.
Giraldo-Calderon GI, Emrich SJ, MacCallum RM,etal. VectorBase: An updated bioinformatics resource for invertebrate vectors and other organisms related with human diseases [J].NucleicAcidsRes., 2015, 43(Database issue): 707-713.
Heather JM, ChainB. The sequence of sequencers: The history of sequencing DNA[J].Genomics, 2016, 107(1): 1-8.
Jouraku A, Yamamoto K, Kuwazaki S,etal. KONAGAbase: A genomic and transcriptomic database for the diamondback moth,Plutellaxylostella[J].BMCGenomics, 2013: 14464.
Kelley JL, Peyton JT, Fiston-Lavier AS,etal. Compact genome of the Antarctic midge is likely an adaptation to an extreme environment [J].Nat.Commun., 2014, 54611.
Kirkness EF, Haas BJ, Sun W,etal. Genome sequences of the human body louse and its primary endosymbiont provide insights into the permanent parasitic lifestyle [J].ProceedingsoftheNationalAcademyofSciences, 2010, 107(27): 12168-12173.
Kozomara A, Griffiths-Jones S. miRBase: Annotating high confidence microRNAs using deep sequencing data [J].NucleicAcidsRes., 2014, 42(Database issue): 68-73.
Legeai F, Shigenobu S, Gauthier JP,etal. AphidBase: A centralized bioinformatic resource for annotation of the pea aphid genome [J].InsectMol.Biol., 2010, 19(Suppl):25-12.
Liu JD,Improvement of Insect Genome Annotation Method and Analysis of Two Insect Genomes [D]. Nanjing Agricultural University,2014.
Liu Q, Mackey AJ, Roos DS,etal. Evigan: A hidden variable model for integrating gene evidence for eukaryotic gene prediction [J].Bioinformatics, 2008, 24(5): 597-605.
Luo R, Liu B, Xie Y,etal. SOAPdenovo2: An empirically improved memory-efficient short-read de novo assembler [J].Gigascience, 2012, 1(1): 18.
Maxam AM, Gilbert W. A new method for sequencing DNA [J].Proc.Natl.AcadSci.USA, 1977, 74(2): 560-564.
Miller JR, Delcher AL, Koren S,etal. Aggressive assembly of pyrosequencing reads with mates [J].Bioinformatics, 2008, 24(24): 2818-2824.
Munoz-Torres MC, Reese JT, Childers CP,etal. Hymenoptera Genome Database: Integrated community resources for insect species of the order Hymenoptera [J].NucleicAcidsRes., 2011, 39(Database issue): 658-662.
Ouzounis C A, Valencia A. Early bioinformatics: The birth of a discipline—a personal view [J].Bioinformatics, 2003, 19(17): 2176-2190.
Pang KC, Stephen S, Dinger ME,etal. RNAdb 2.0—An expanded database of mammalian non-coding RNAs [J].NucleicAcidsRes., 2007, 35(Database issue): 178-182.
Papanicolaou A, Schetelig MF, Arensburger P,etal. The whole genome sequence of the Mediterranean fruit fly,Ceratitiscapitata(Wiedemann), reveals insights into the biology and adaptive evolution of a highly invasive pest species [J].GenomeBiol., 2016, 17(1): 192.
Parra G, Bradnam K, Korf I. CEGMA: A pipeline to accurately annotate core genes in eukaryotic genomes [J].Bioinformatics, 2007, 23(9): 1061-1067.
Poelchau M, Childers C, Moore G,etal. The i5k Workspace@NAL—enabling genomic data access, visualization and curation of arthropod genomes [J].NucleicAcidsRes, 2015, 43(Database issue): 714-719.
Price AL, JonesNC, Pevzner PA. De novo identification of repeat families in large genomes [J].Bioinformatics, 2005, 21(Suppl.):351-358.
Richards S, Murali SC. Best Practices in Insect Genome Sequencing: What Works and What Doesn’t [J].Curr.Opin.Insect.Sci., 2015, 71-77.
Robinson GE, Hackett KJ, Purcell-Miramontes M,etal. Creating a buzz about insect genomes [J].Science, 2011, 331(6023): 1386-1386.
Sanger F, Coulson AR. A rapid method for determining sequences in DNA by primed synthesis with DNA polymerase [J].J.Mol.Biol., 1975, 94(3): 441-448.
Sanger F, Air GM, Barrell BG,etal. Nucleotide sequence of bacteriophage phi X174 DNA [J].Nature, 1977, 265(5596): 687-695.
Scott JG, Warren WC, Beukeboom LW,etal. Genome of the house fly,MuscadomesticaL., a global vector of diseases with adaptations to a septic environment [J].GenomeBiol., 2014, 15(10): 466.
Shimomura M, Minami H, Suetsugu Y,etal. KAIKObase: An integrated silkworm genome database and data mining tool [J].BMCGenomics, 2009, 10486.
Simao FA, Waterhouse RM, Ioannidis P,etal. BUSCO: Assessing genome assembly and annotation completeness with single-copy orthologs [J].Bioinformatics, 2015, 31(19): 3210-3212.
Simpson JT, Wong K, Jackman SD,etal. ABySS: A parallel assembler for short read sequence data [J].GenomeRes., 2009, 19(6): 1117-1123.
Stephens ZD, Lee SY, Faghri F,etal. Big Data: Astronomical or Genomical?[J].PLoSBiol., 2015, 13(7): e1002195.
Tang W, Yu L, He W,etal. DBM-DB: The diamondback moth genome database [J].Database(Oxford), 2014.
Tarailo-Graovac M, Chen N. Using RepeatMasker to identify repetitive elements in genomic sequences [J].Curr.Protoc.Bioinformatics, 2009, Chapter 4Unit 4 10.
Venter JC, Adams MD, Myers EW,etal. The sequence of the human genome [J].Science, 2001, 291(5507): 1304-1351.
Wajid B, Serpedin E. Review of general algorithmic features for genome assemblers for next generation sequencers [J].GenomicsProteomicsBioinformatics, 2012, 10(2): 58-73.
Wang J, Xia Q, He X,etal. SilkDB: A knowledgebase for silkworm biology and genomics [J].NucleicAcidsRes., 2005, 33(Database issue): 399-402.
Wang X, Fang X, Yang P,etal. The locust genome provides insight into swarm formation and long-distance flight [J].Nat.Commun., 2014: 52957.
Werren JH, Richards S, Desjardins CA,etal. Functional and evolutionary insights from the genomes of three parasitoidNasoniaspecies[J].Science, 2010, 327(5963): 343-348.
Xia Q, Zhou Z, Lu C,etal. A draft sequence for the genome of the domesticated silkworm (Bombyxmori)[J].Science, 2004, 306(5703): 1937-1940.
Xiao JH, Yue Z, Jia LY,etal. Obligate mutualism within a host drives the extreme specialization of a fig wasp genome [J].GenomeBiol., 2013, 14(12): R141.
Xu Y, Wang X, Yang J,etal. PASA—a program for automated protein NMR backbone signal assignment by pattern-filtering approach [J].J.Biomol.NMR, 2006, 34(1): 41-56.
Xu Z, Wang H. LTR_FINDER: An efficient tool for the prediction of full-length LTR retrotransposons [J].NucleicAcidsRes., 2007, 35(Web Server issue): 265-268.
Xue C, Li F, He T,etal. Classification of real and pseudo microRNA precursors using local structure-sequence features and support vector machine [J].BMCBioinformatics, 2005:6310.
Xue J, Zhou X, Zhang CX,etal. Genomes of the rice pest brown planthopper and its endosymbionts reveal complex complementary contributions for host adaptation [J].GenomeBiol., 2014, 15(12): 521.
Yin C, Liu Y, Liu J,etal. ChiloDB: A genomic and transcriptome database for an important rice insect pestChilosuppressalis[J].Database(Oxford), 2014.
Yin C, Shen G, Guo D,etal. InsectBase: A resource for insect genomes and transcriptomes [J].NucleicAcidsRes., 2016, 44(D1): 801-807.
You M, Yue Z, He W,etal. A heterozygous moth genome provides insights into herbivory and detoxification [J].NatureGenetics, 2013, 45(2): 220-225.
Zhan S, Merlin C, Boore J L,etal. The monarch butterfly genome yields insights into long-distance migration [J].Cell, 2011, 147(5): 1171-1185.
Zhan S, Reppert S M. MonarchBase: The monarch butterfly genome database [J].NucleicAcidsRes., 2013, 41(Database issue): 758-763.
Zhang CX,Current research status and prospects of genomes of insects important to agriculture in China [J].ScientiaAgriculturaSinica,2015(17): 3454-3462.
Zhao Y, Li H, Fang S,etal. NONCODE 2016: An informative and valuable data source of long non-coding RNAs [J].NucleicAcidsRes., 2016, 44(D1): 203-208.
Chen Y,Liu YS,Zeng JG.Progresses on plant genome Sequencing profile[J].LifeScienceResearch,2014,18(1):66-74.[陳勇, 柳亦松, 曾建國. 植物基因組測序的研究進展[J]. 生命科學研究, 2014,18(1): 66-74]
Liu JD.Improlement of insect genome annotation method and analysis of two insect geomes[D].Nanjing Agriculture University,2014.[劉金定. 昆蟲基因組注釋方法改進及兩種昆蟲基因組分析[D].南京農(nóng)業(yè)大學, 2014]
Zhang CX.Current research status and prospects of genomes of insect important to agriculture in China[J].ScientiaAgricutturaSinica,48(17):3454-3462.[張傳溪. 中國農(nóng)業(yè)昆蟲基因組學研究概況與展望[J]. 中國農(nóng)業(yè)科學, 2015,48(17): 3454-3462]
The progress of insecg genomic research and the gene database
YIN Chuan-Lin, LI Mei-Zhen, HE Kang, DING Si-Min, GUO Dian-Hao, XI Yu, LI Fei*
(Institute of Inesct Science, Zhejiang University,Hangzhou 310058, China)
With huge amount of insect genome sequencing data was generated, entomology has entered a new era of systematic biology. Up to now, 467 insect genome projects have been registered on NCBI, among which 225 have submitted with sequencing raw reads, 215 have been assemblied, 65 have been annotated and 43 have been published. Here, we reviewed the development of different sequence technologies, methods and problems of genome assembly, genome annotation and analysis, and important achievements in the field of insect genome projects. In addition, we summarized the development of insect genome databases. Insect genomics is now a hotspot of scientific study, which has wide applications in pest control and utilization of the resource insects.
Insect genome; genome database; big DATA; biological databases
特邀稿件InvitedReview
國家重點研發(fā)計劃“主要入侵生物的生物學特性分析”重大課題(2016YFC1200602)
尹傳林,男,1989年生,博士研究生,研究方向為昆蟲基因組學,E-mail: yincl2013@126.com
*通信作者Author for correspondence, E-mail: lifei18@zju.edu.cn
Q963; S43
A
1674-0858(2017)01-0001-18
Received:2016-12-10;接收日期 Accepted:2016-12-20
尹傳林,李美珍,賀康,等.昆蟲基因組及數(shù)據(jù)庫研究進展[J].環(huán)境昆蟲學報,2017,39(1):1-18.