唐金梅,陳建國
(湖北大學(xué)生命科學(xué)學(xué)院,湖北武漢430062)
全基因組選擇在植物育種中的研究進展
唐金梅,陳建國*
(湖北大學(xué)生命科學(xué)學(xué)院,湖北武漢430062)
育種值的估計是品種選育核心,在農(nóng)業(yè)生產(chǎn)中占有十分重要的地位。全基因組選擇通過估計全基因組所有標記或單倍型的效應(yīng),從而得到基因組估計的育種值,是分子標記輔助選擇的一種新方法。隨著高通量基因分型技術(shù)的發(fā)展及高密度全基因組SNP標記的開發(fā)應(yīng)用,全基因組選擇已成為動植物遺傳育種的研究熱點。對全基因組選擇的原理、計算方法、影響準確性的因素及植物育種中的研究現(xiàn)狀等進行綜述,并對全基因組選擇在植物育種的應(yīng)用進行了展望。
全基因組選擇;植物育種;研究進展
20世紀90年代始,分子標記輔助選擇(MAS)已用于植物遺傳改良,利用分子標記進行MAS育種可顯著提高育種效率[1-2]。但MAS的應(yīng)用有很大的局限性:從深度上看,世代數(shù)增加,重組率上升,從而引起分子標記-數(shù)量性狀基因座(QTL)連鎖的程度下降;MAS利用表型和部分基因信息進行遺傳評估,但具有顯著效應(yīng)的基因或標記非常有限,這些基因或標記能解釋的遺傳變異也非常有限;找到的具有顯著效應(yīng)的相關(guān)標記QTL不能捕捉到微效基因[3]。從廣度上看,MAS方法工作量大,發(fā)現(xiàn)并證實有效基因時間長,成本高,且1次只能研究極少量的QTL,而同時對不同性狀的QTL間相互作用進行研究較難實現(xiàn)[4]。近年來,隨著擬南芥、水稻和玉米等模式植物全基因組測序的完成[5-8],低成本高密度標記(SNP)標記的開發(fā)應(yīng)用[9],動物育種領(lǐng)域的進展和生物信息學(xué)的迅猛發(fā)展,全基因組選擇在植物育種中運用已成為研究熱點。
2001年,Meuwissen首次提出全基因組選擇(genomic selection,GS)的概念[10]。GS是利用覆蓋全基因組的SNP進行個體遺傳評估,從而得到基因組估計的育種值(genomic estimated breeding value,GEBV)[8]。GS主要以連鎖不平衡(linkage disequilibrium,LD)為基礎(chǔ),其基本理論是假設(shè)影響數(shù)量性狀的每一個QTL至少與1個標記處于連鎖不平衡狀態(tài)[11],能夠解釋大部分的遺傳方差[12]。
GS應(yīng)用于動物育種領(lǐng)域時間已較長,但在植物育種領(lǐng)域尚處于初期[3]。全基因組選擇是利用參考群體估計每個SNP的效應(yīng),然后利用SNP效應(yīng)估計值計算育種群體的育種值(圖1)。參考群體是由相關(guān)個體組成,每個個體均有性狀表型記錄和所有SNP基因型;育種群體通常是參考群體的后代或與參考群體相關(guān)的新品系,每個個體包含所有SNP基因型[3]。因此,全基因選擇依賴于參考群體和育種群體的標記和位點連鎖不平衡的遺傳相似度[3]。
全基因組選擇主要有2種方法,一是標記效應(yīng)估計法,另一種是基于遺傳關(guān)系矩陣預(yù)測GEBV的GBULP法。
圖示 全基因組選擇流程Fig. Flow of genomic selection
2.1 標記效應(yīng)估計法
建立標記效應(yīng)評估模型:
其中,y是參考群體中個體的表型向量;(是總表型均值;xt是標記位點t的等位基因;(t是第t個標記的效應(yīng);e是隨機殘差,是殘差方差。xt基因型矩陣可以用1、0和-1編碼,分別代表基因型AA、AB和BB。
GEBV可以通過公式(1)得出:
其中,xnew是育種群體的個體等位基因矩陣;是回歸系數(shù)αt的估計值。
全基因組選擇中預(yù)測因子數(shù)(p)通常遠遠大于個體數(shù)目(n),在這種情況下普通最小二乘法的預(yù)測能力很低,因其將標記效應(yīng)作為固定效應(yīng)處理,導(dǎo)致預(yù)測因子的多重共線性和過度擬合。為克服此問題,得到更好的全基因組預(yù)測模型,現(xiàn)已提出多種方法,如嶺回歸最佳線性無偏估計(RR-BLUP)[7]、貝葉斯法(Bayesian)[7,1314]、偏最小二乘法(PLS)[15]、核回歸和機器學(xué)習(xí)方法[16]等。
通過參考群體得到的預(yù)測模型需經(jīng)交叉驗證,從而得到最優(yōu)擬合模型進行育種群體的GEBV評估。
2.2 基于遺傳關(guān)系矩陣的GBULP法
GBULP法通過遺傳關(guān)系矩陣預(yù)測GEBV,利用已測定的個體基因型計算其相關(guān)關(guān)系,記為G矩陣,并用G矩陣代替基于性狀和系譜的最佳線性無偏預(yù)測(TP-BLUP)中的A矩陣,從而估計育種值[17]。
GEBV預(yù)測的準確性是決定全基因組選擇成功最重要的因素。預(yù)測的準確性rA表示GEBV與真實育種值(TBV)的相關(guān)度(Pearson correlation),一般來說準確程度越高,選擇效果越好。rA可用以下公式計算:
式中,h2是狹義遺傳力,Np是參考群體的個體數(shù)目,Me是獨立染色體片段數(shù),Me取決于有效群體大?。∟e)和以摩爾根表示的基因組長度(L):Me≈2 NeL。理想狀況下,Me與有效QTL數(shù)相關(guān),而h2和Np的結(jié)合是預(yù)測準確性的關(guān)鍵[18-19]。在低遺傳力情況下,增加參考群體的個體數(shù)能保持模型預(yù)測的準確性[19]。
全基因組選擇育種和其他育種方法相比具有較大優(yōu)勢,但全基因組選擇的準確性易受統(tǒng)計模型效果、標記類型和密度、標記-QTL連鎖不平衡的程度和分布、基因效應(yīng)、遺傳力及遺傳結(jié)構(gòu)、參考群體大小、參考群體與預(yù)測群體的世代距離和遺傳距離影響[19]。
4.1 統(tǒng)計模型
全基因組選擇模型準確性的差異主要在于各模型對標記效應(yīng)方差分布的假設(shè)和處理不同。模擬研究發(fā)現(xiàn),在全基因組選擇的各種方法中,Bayes法和GBLUP法估計的準確性較高,LS法準確性最低[9]。目前研究表明,準確性為BayesB>BayesA>RR-BLUP[10,20]。BayesB法模擬數(shù)據(jù)中QTL數(shù)量有限,與BayesB法的理論假設(shè)比較吻合[21],故優(yōu)于其他方法。
4.2 標記類型與標記密度
不同類型標記的多態(tài)信息含量不同,SNP標記等位基因具有二態(tài)性,其結(jié)果重復(fù)性好,故GS一般用SNP標記。增加標記密度可增加標記間連鎖不平衡,有助于預(yù)測準確性的提高。有研究表明,當(dāng)SNP標記密度從1Ne/morgan增加到8Ne/morgan,準確性可從0.69提高到0.86[22]。標記密度主要還由LD跨度和樣本大小決定。玉米的LD跨度比大麥和小麥短,因此需更高的標記密度。用485個標記研究小麥發(fā)現(xiàn),在達到最小標記數(shù)(128~256個)前,隨著標記密度的增加預(yù)測準確性急劇增加;達到最小標記數(shù)時,準確性處于平衡狀態(tài);超過這個最小標記數(shù)后,準確性開始下降[23]。而玉米中用800個標記時準確性達到平衡[24],可見不同物種需要標記數(shù)不同。全基因組選擇模型標記數(shù)目的確定依賴于目標群體有顯著的LD標記區(qū)間。
4.3 標記-QTL連鎖不平衡程度
連鎖不平衡(LD)對GS操作也具有重要影響,標記和性狀位點LD的缺失使后代育種準確性降低。LD是不同位點的等位基因非隨機組合,2個位點的LD強度可用等位基因頻率測定,一般用D、D′和r2表示。當(dāng)D=D′=r2=0時,完全隨機,無連鎖不平衡;當(dāng)|D|=0.25,即|D′|=r2=1時為完全連鎖不平衡[25]。LD強度隨著2個標記間距離的增大而下降。一般認為,當(dāng)r2>0.1時LD強度顯著。位點間等位基因頻率和重組率、群體結(jié)構(gòu)、群體大小、交配系統(tǒng)、遺傳漂變及選擇等因素均影響LD水平[11]。而這些影響因素中較重要的是突變和重組,突變能產(chǎn)生新的多態(tài)性,豐富遺傳多樣性;重組則能增加位點間的遺傳多樣性,使染色體內(nèi)部的LD降低,一定程度上,LD的程度與重組率成反比。而對物種進行定向選擇和馴化,從而形成對特定等位基因進行強烈選擇,使該位點附近的遺傳多樣性減少,可增加該基因附近區(qū)域的LD水平。
4.4 遺傳力及遺傳結(jié)構(gòu)
理想狀態(tài)下,性狀的遺傳力越高預(yù)測的GEBV準確性越高,因隨世代增加,有較高遺傳力的性狀其GS準確性降低較慢[14]。對于低遺傳力的性狀,在一定程度上增加表型記錄世代數(shù),可提高預(yù)測準確性,而高遺傳力性狀在表型記錄世代數(shù)為2~3代時,GEBV準確性達最高并處于穩(wěn)定狀態(tài)。
4.5 參考群體大小
研究表明,增大參考群體規(guī)模可提高GEBV預(yù)測的準確性,由多個群體組成的參考群體優(yōu)于由單一群體組成的參考群體。參考群體大小和標記基因型的平衡也很重要,若群體太小,基因型數(shù)據(jù)太大,易出現(xiàn)對基因型效應(yīng)過度評估,即大p、小n的問題[26]。
研究表明,在進行GS研究時動物參考群體大于植物參考群體。主要有2個影響因素:第1個因素是植物種群的遺傳多樣性狹窄,主要是由自交繁殖或用于生成測試群體的親本數(shù)量較少(經(jīng)常使用雙親雜交)引起的。因更大的群體有豐富的遺傳多樣性,才能獲得精確度高的GEBV[27],小的育種群體用于植物GS的研究,尤其是自交繁殖生產(chǎn)品種或雙親雜交衍生群體。第2個因素是大量留存的家系表型數(shù)據(jù),這些表型數(shù)據(jù)降低了研究動物GS的成本。借鑒動物研究的方法,匯集植物種群的表型,從而滿足高精度GEBV和低成本,實現(xiàn)植物GS研究。
4.6 參考群體與預(yù)測群體間世代距離及遺傳距離
在實際育種工作中,新個體的加入讓參考群體處于不斷更新狀態(tài)。GS效率每世代降低約5%,為保持GS長期優(yōu)勢,一般3~4代后必須重新對標記效應(yīng)進行估計[10]。一般來說,參考群體和預(yù)測群體親緣關(guān)系越近,GS準確性越高。
植物育種目標的多樣性與不同物種的繁殖系統(tǒng)、基因組結(jié)構(gòu)和利用的組織等有關(guān)。因此,GS應(yīng)該應(yīng)用各種選育方法,以適應(yīng)不同植物的育種目標[28]。
GS運用于植物育種發(fā)展歷程較短。2007年,Piyasatin等[29]首次將GS運用于植物,用自交系雜交模擬了GS選擇的效率,但未考慮把特定的物種作為目標物種。Bernardo和Yu等[30]對特定物種玉米進行模擬研究,通過對3個周期的雙單倍體品系(DHLs)的選擇,對GS和分子標記輪回選擇(MARS)進行比較顯示,在QTL數(shù)量為20、40和100的情況下,GS的響應(yīng)比MARS高18%~43%。除玉米的模擬研究外,還進行了2個GS模擬:遠緣雜交種油椰子[31]和自花授粉作物大麥[32]。
除以上模擬雙親雜交群體外,有學(xué)者利用大麥自交系的真實基因型數(shù)據(jù)進行GS模擬研究,這些基因型數(shù)據(jù)主要來自單核苷酸多態(tài)性(SNP)與多樣性陣列技術(shù)(DArT)[3335]。Lorenzana等[36-39]利用玉米、大麥、小麥和擬南芥對預(yù)測GEBV的準確性進行檢驗(表)。GS在動物領(lǐng)域比在植物領(lǐng)域的研究更廣泛。動物育種群體差異性小,受環(huán)境因子影響較小,故GS在動物領(lǐng)域的適用性很強。Legara等[47]在小鼠中首次進行GS試驗研究,到目前為止GS在奶牛育種中取得成就最顯著。由表可見,在試驗研究中雖然植物標記數(shù)比動物少,但植物中的準確性要高于動物中的準確性。表明,GS在植物育種領(lǐng)域的前景較好。
表 全基因組選擇在植物和動物育種的預(yù)測能力Table Predictive ability of genomic selection in breeding of plants and animals
2006年底,荷蘭Euribrid公司用20000個SNP標記對雞進行育種值估計,這是全基因組選擇運用的最早實例。之后加拿大、德國、美國、日本和墨西哥等相繼對牛、豬、水稻和玉米等進行全基因組選擇的研究?,F(xiàn)在全基因組選擇在動物育種領(lǐng)域和植物育種領(lǐng)域都取得了很大進展,但仍面臨著較大的挑戰(zhàn)。
GS應(yīng)用的主要挑戰(zhàn)有基因型與環(huán)境互作問題、群體結(jié)構(gòu)問題、長期進行基因組選擇的準確性問題、表型鑒定的準確性和成本問題、基因組選擇可能導(dǎo)致稀有等位基因的喪失等?,F(xiàn)在高密度的SNP標記在不斷出現(xiàn),故SNP效應(yīng)估計的計算難度大大增加,對統(tǒng)計模型提出的要求更高。
目前,GS研究大部分集中在動物領(lǐng)域,并且取得了很大成就,雖然動物育種的目標、試驗設(shè)計、育種程序和群體特性等與植物育種不同,但仍有諸多值得借鑒的研究方法。雖然植物全基因組育種還處于初期,但相信隨著基因分型技術(shù)的發(fā)展和成本的降低,植物育種中的全基因組選擇方法將不斷完善,具有廣闊的應(yīng)用前景。
[1]Fernando R L,Grossman M.Marker assisted selection using best linear unbiased prediction[J].Genet Sel Evol,1989,21(4):467-477.
[2]Lander E S,Botstein D.Mapping mendelian factors underlying quantitative traits using RFLP linkage maps[J].Genetics,1989,121(1):185-199.
[3]Desta Z A,Ortiz R.Genome-wide prediction in plant improvement[J].Trends in Plant Science,2014,19 (9):592-601.
[4]田 郎.林木植物的全基因組選擇[J].陜西林業(yè)科技,2015(4):115-131.
[5]Anon B.Analysis of the genome sequence of the flowering plant Arabidopsis thaliana[J].Nature,2000,408(6814):796-815.
[6]Yu J,Hu S N,Wang J,et al.A Draft Sequence of the Rice Genome(Oryza sativa L.ssp.Indica)[J].Science,2002,296(5565):1937-1942.
[7]Patrick S,Schnable.The B73Maize Genome:Complexity,Diversity,and Dynamics[J].Science,2009,326(5956):1112-1115.
[8]郭亮虎.植物全基因組選擇育種研究進展與前景[J].山西農(nóng)業(yè)科學(xué),2015,43(11):1558-1562.
[9]Aluízio Borém,Roberto Fritsche-Neto.Biotechnology and Plant Breeding:Applications and Approaches for Developing Improved Cultivars[M].American:Academic Press;2014:105-133.
[10]Meuwissen T H,Hayes B J,Goddard M E.Prediction of total genetic value using genome-wide dense marker maps[J].Genetics,2001,157(4):1819-1829.
[11]吳永升.植物數(shù)量性狀全基因組選擇研究進展[J].西南農(nóng)業(yè)學(xué)報,2012,25(4):1510-1514.
[12]Schaeffer L R.Strategy for applying genome-wide selection in dairy cattle[J].Animal Breeding and Genetics,2006,123(4):218-223.
[13]Solberg T R,Sonesson A K,Woolliams J A,et al.Genomic selection using different marker types and densities[J].Anim Sci,2008,86(10):2447-2454.
[14]Villumsen T M,Janss L,Lund M S.The importance of haplotype length and heritability using genomic selection in dairy cattle[J].Animal Breeding and Genetics,2009,126(1):3-13.
[15]Kotz S,Johnson N L.Encyclopedia of Statistical Science[M].New York:Wiley,1985:581-591.
[16]Long N,Gianola D,Rosa G J M,et al.Machine learning classification procedure for selecting SNPs in genomic selection:application to early mortality in broilers[J].Anim Breed Genet,2007,124(6):377-389.
[17]VanRaden P M.Efficient methods to compute genomic predictions[J].Dairy Sci,2008,91(11):4414-4423.
[18]Daetwyler H D.Ricardo P W,Beatriz R,et al.The impact of genetic architecture on genome-wide evaluation methods[J].Genetics,2010,185(3):1021-1031.
[19]Combs E,Bernardo R.Accuracy of genome-wide selection for different traits with constant population size,heritability,and number of markers[J].Plant Genome,2013,6(1):120.
[20]Lund M S,Sahana G,Koning D J,et al.Comparison of analyses of the QTLMAS XII common dataset.Genomic selection[J].BMC Proc,2009,3(S1):51-58.
[21]Calus M P L.Genomic breeding value prediction:Methods and procedures[J].Animal,2010,4(2):157-164.
[22]Solberg T R,Sonesson A K,Woolliams J A,et al.Genomic selection using different marker types and densities[J].Anim Sci,2008,86(10):2447-2454.
[23]Heffner E L,Jannink J,Iwata,et al.Genomic selection accuracy for quality traits in biparental wheat populations[J].Crop Sci,2011,51(6):2597-2606.
[24]Zhao Y,Gowda M,Liu W,et al.Accuracy of genome-wide selection in European maize elite breeding populations[J].Theor.Appl.Genet,2012,124 (4):769-776.
[25]Gaut B S,Long A D.The lowdown on linkage disequilibrium[J].The Plant Cell,2003,15(7):1502-1506.
[26]Jannin K,Lorenz A J,Iwata H,et al.Genomic selection in plant breeding:from theory to practice[J].Brief.Funct.Genomics,2010,9(2):166-177.
[27]Mujibi F D N,Nkumah J D,Durunna O N,et al.Accuracy of genomic breeding values for residual feed intake in crossbred beef cattle[J].Journal of Animal Science,2011,89(11):3353-3361.
[28]Varshney R K,Graner A,Sorrells M E.Genomicsassisted breeding for crop improvement[J].Trends in Plant Science,2005,10(12):621-630.
[29]Piyasatin N,F(xiàn)ernando R L,Dekkers J C M.Genomic selection for marker-assisted improvement in line crosses[J].Theoretical and Applied Genetics,2007,115(5):665-674.
[30]Bernardo R,Yu J.Prospects for genome-wide selection for quantitative trait in maize[J].Crop Science,2007,47(3):1082-1090.
[31]Wong C K,Bernardo R.Genome-wide selection in oil palm:increasing selection gain per unit time and cost with small populations[J].Theoretical and Applied Genetics,2008,116(116):815-824.
[32]Bernardo R.Genome-wide selection with minimal crossing in self-pollinated crops[J].Crop Science,2010,50(2):624-627.
[33]Zhong S,Dekkers J C M,F(xiàn)ernando R L,et al.Factors affecting accuracy from Genomic selection in populations derived from multiple inbred lines:a barley case study[J].Genitics,2009,182(1):355-364.
[34]Jannink J L.Dynamics of long-term genomic selection [J].Genet Sel Evol,2010,42(1):35-38.
[35]Iwata H,Jannink J L.Accuracy of genome-wide selection prediction in barley breeding programs:a simulation study based on the real single nucleotide polymorphism data of barley breeding lines[J].Crop Science,2011,51(5):1915-1927.
[36]Lorenzana R E,Bernardo R.Accuracy of genotypic value predictions for marker-based selection in biparental plant populations[J].Theor.Appl.Genet.2009,120(1):151-161.
[37]Zhao Y M,Mette M,Gowda C,et al.Bridging the gap between marker-assisted and genomic selection of heading time and plant height in hybrid wheat[J].Heredity,2014,112(6):638-645.
[38]Zhao Y M,Gowda M,Würschum T,et al.Dissecting the genetic architecture of frost tolerance in Central European winter wheat.[J].Exp.Bot,2013, 64:4453-4460.
[39]Albrecht T V,Wimmer V,Auinger H J,et al.Genome-based prediction of testcross values in maize [J].Theor.Appl.Genet,2011,123(2):339-350.
[40]Crossa J P,P rez P,Hickey J,et al.Genomic prediction in CIMMYT maize and wheat breeding programs[J].Heredity,2014,112(1):48-60.
[41]Hofheinz N D,Borchardt K,Weissleder M F.Genome-based prediction of test cross performance in two subsequent breeding cycles[J].Theor.Appl.Genet,2012,125(8):1639-1645.
[42]Zhao Y M,Gowda M,Liu W,et al.Choice of shrinkage parameter and prediction of genomic breeding values in elite maize breeding populations [J].Plant Breeding,2013,132(1):99-106.
[43]Zhao Y J,Zeng R,F(xiàn)ernando,J C R.Genomic prediction of hybrid wheat performance[J].Crop Sci.,2013,53(3):802-810.
[44]Guo T,Li H,Yan J,et al.Performance prediction of F1hybrids between recombinant in bred lines derived from two elite maize inbred lines[J].Theor.Appl.Genet,2013,126(1):189-201.
[45]Jacobson A L,Lian S,Zhong R,et al.General combining ability model for genome-wide selection in a biparental cross[J].Crop Sci,2014,54(3):895-905.
[46]Albrecht T H,Auinger V,Wimmer J O,et al.Genome-based prediction of maize hybrid performance across genetic groups,testers,locations,and years [J].Theor.Appl.Genet,2014,127(6):1375-1386.
[47]Legarra A,Robert-Granie C,Manfredi E,et al.Performance of genomic selection in mice[J].Genetics,2008,180(1):611-618.
[48]Hayes B J,Bowman P J,Chamberlain A J,et al.Genomic selection in dairy cattle:progress and challenges[J].Journal of Dairy Science,2009,92(2):433-443.
[49]Luan T,Woolliams J A,Lien S,et al.The accuracy of genomic selection in Norwegian red cattle assessed by cross-validation[J].Genetics,2009,183(3):1119-1126.
[50]Wolc A,Stricker C,Arango J,et al.Breeding value prediction for production traits in layer chickens using pedigree or genomic relationships in a reduced animal model[J].Genetics Selection Evolution,2009,43 (1):5-8.
(責(zé)任編輯:劉忠麗)
Progress of Genomic Selection in Plant Breeding
TANG Jinmei,CHEN Jianguo*
(Faculty of Life Science,Hubei University,Wuhan,Hubei 430062,China)
Breeding value estimation is the core of variety development,which plays an important role in agricultural production.Genomic selection is a new approach of molecular marker assisted selection by estimating the effects of all the markers or haplotypes in the whole genome.This method can be used to improve the accuracy of breeding value estimation,shorten the generation interval,facilitate earlier selection,accelerate genetic progress and reduce the cost.With the development of high throughput genotyping technology and the advent of high density SNP markers,genomic selection has become a hot spot in the research of animal and plant genetics and breeding.The authors summarized the principles,methods,factors affecting the accuracy of genomic selection,and the research status and problems in plant breeding.
genomic selection;plant breeding;research progress
Q943.2
A
1001-3601(2016)08-0326-0001-05
2015-12-16;2016-07-26修回
湖北省農(nóng)科院糧食作物種質(zhì)創(chuàng)新與遺傳改良湖北省重點實驗室開放項目“早稻恢復(fù)系R287持綠性的遺傳研究及作圖群體構(gòu)建”(2014lzjj05)
唐金梅(1988-),女,在讀碩士,研究方向:分子植物育種。E-mail:594133857@qq.com
*通訊作者:陳建國(1966-),男,教授,從事植物數(shù)量遺傳研究。E-mail:jgchen@hubu.edu.cn