袁澤湖,葛 玲,李發(fā)弟,樂祥鵬*,孫 偉1,*
(1.揚州大學(xué) 教育部農(nóng)業(yè)與農(nóng)產(chǎn)品安全國際合作聯(lián)合實驗室,揚州 225000;2.蘭州大學(xué)草地農(nóng)業(yè)科技學(xué)院 草地農(nóng)業(yè)生態(tài)系統(tǒng)國家重點實驗室/農(nóng)業(yè)農(nóng)村部草牧業(yè)創(chuàng)新重點實驗室/教育部草地農(nóng)業(yè)工程研究中心,蘭州 730020;3.揚州大學(xué)動物科學(xué)與技術(shù)學(xué)院,揚州 225000)
全基因組選擇(genomic selection,GS)[1]利用覆蓋全基因組的標(biāo)記信息計算全基因組育種值(genomic estimated breeding value,GEBV)。相較于傳統(tǒng)的育種方法,GS通過對擬留種的個體進(jìn)行早期選擇和增加選擇的準(zhǔn)確性進(jìn)而加快育種的遺傳進(jìn)展[2]。通過改進(jìn)GS方法無法再縮短育種的世代間隔,因而如何提高GS的準(zhǔn)確性以獲得額外的遺傳進(jìn)展一直是GS研究的核心問題。
全基因組測序(whole genome sequencing,WGS)技術(shù)逐漸成熟,測序成本不斷降低,對家畜進(jìn)行大規(guī)模測序已成為可能。GS從基于標(biāo)記與因果突變連鎖的GS0.0時代(如利用50K芯片進(jìn)行GS)發(fā)展到基于全基因組變異的GS2.0時代[3]。WGS檢測的變異已包含了所有因果突變位點,因此GS2.0不再受標(biāo)記與因果突變連鎖不平衡(linkage disequilibrium,LD)的限制。理論上,基于全基因組變異的GS準(zhǔn)確性應(yīng)高于芯片(如50K)GS的準(zhǔn)確性。然而,有研究結(jié)果顯示當(dāng)不考慮生物學(xué)先驗信息時,基于全基因組變異的GS準(zhǔn)確性并不比基于芯片的GS準(zhǔn)確性高[4-6]。當(dāng)前,各種組學(xué)技術(shù)不斷成熟,從公開的資料或前期的研究積累獲取生物學(xué)先驗信息已比較容易。因而,如何在GS模型中整合已知的先驗信息,進(jìn)而通過提高GS的準(zhǔn)確性獲得額外的遺傳進(jìn)展成為當(dāng)前動物育種研究的一個重要的課題。本文首先對生物學(xué)先驗信息的類型以及整合先驗信息的GS方法進(jìn)行綜述,并探討了這些方法在家畜育種中的應(yīng)用和前景,以期為家畜開展整合生物學(xué)先驗信息的GS研究提供借鑒與參考。
生物學(xué)先驗信息,即預(yù)先知道的遺傳學(xué)知識,由于單核苷酸多態(tài)性(single nucleotide polymorphisms,SNP)是育種中廣泛使用的分子標(biāo)記,因而對于GS來說,尋找生物學(xué)先驗信息的核心任務(wù)是根據(jù)已知的遺傳學(xué)知識對SNP的遺傳貢獻(xiàn)(即對重要經(jīng)濟(jì)性狀的影響程度)進(jìn)行排序或者分類。理論上,任何能夠影響表型的各組學(xué)數(shù)據(jù)或已知的遺傳學(xué)知識都能作為GS的生物學(xué)先驗信息,因而先驗信息可包括基因組、表觀組、轉(zhuǎn)錄組、蛋白組、代謝組(圖1A)以及已知的基因功能注釋或SNP注釋等信息(圖1B)。
在基因組層面,全基因組關(guān)聯(lián)分析(genome-wide association study,GWAS)的結(jié)果是GS最常用的一種生物學(xué)先驗信息[7-21](表1),根據(jù)GWAS的P值和(或)標(biāo)記效應(yīng)很容易獲得SNP對某一性狀遺傳貢獻(xiàn)大小的信息(P值越顯著的遺傳貢獻(xiàn)越大,標(biāo)記效應(yīng)大的遺傳貢獻(xiàn)大)。除GWAS外,選擇信號的分析結(jié)果的也能作為GS的先驗信息,如根據(jù)群體分化指數(shù)(FST)獲得SNP遺傳貢獻(xiàn)的大小[22-23]。轉(zhuǎn)錄組數(shù)據(jù)也是一種重要的生物學(xué)先驗信息(表1),位于差異表達(dá)基因(differentially expressed genes,DEGs)內(nèi)的SNP位點通常比其它SNP遺傳貢獻(xiàn)大[14]。同樣,表觀組的數(shù)據(jù),如組蛋白修飾信息可作為GS的先驗信息,因為位于組蛋白修飾區(qū)域的SNP比其它SNP具有更大的遺傳貢獻(xiàn)[24]。當(dāng)前,蛋白組和代謝組數(shù)據(jù)還少有用作GS先驗信息的報道[25]。此外,數(shù)據(jù)庫的注釋信息也是一類重要的先驗信息,如基因本體(gene ontology,GO)注釋信息[7,26-27]、京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes,KEGG)通路注釋[26]、動物數(shù)量性狀基因座數(shù)據(jù)庫(AnimalQTLdb)[28-30]等。整合不同類型的生物學(xué)先驗信息,GS準(zhǔn)確性的增幅并不相同[8],可見,不同的組學(xué)數(shù)據(jù)能夠提供不同先驗信息。目前的研究主要利用單一維度的先驗信息,隨著多組學(xué)數(shù)據(jù)的積累,如何系統(tǒng)地整合多組學(xué)數(shù)據(jù)并給予SNP恰當(dāng)?shù)倪z傳貢獻(xiàn)仍面臨挑戰(zhàn)。最近有學(xué)者做了一些嘗試,Xiang等[25]在奶牛的研究中提出了功能與進(jìn)化性狀遺傳力打分方法(functional-and-evolutionary trait heritability,F(xiàn)AETH),F(xiàn)AETH根據(jù)SNP的遺傳力對標(biāo)記的遺傳貢獻(xiàn)進(jìn)行排序,并在奶牛的GS中取得了較好的應(yīng)用效果[31]。然而,計算FAETH需要多次計算SNP的遺傳力,計算量大;在將來,應(yīng)開發(fā)更多的算法整合多組學(xué)數(shù)據(jù)對SNP的遺傳貢獻(xiàn)進(jìn)行排序或者分類。
表1 生物學(xué)先驗信息類別Table 1 Type of biological prior information
A.多組學(xué)數(shù)據(jù);B.注釋信息A.Multi-omics data;B.Annotation information圖1 潛在的生物學(xué)先驗信息Fig.1 Potential biological prior information
在早期整合生物學(xué)先驗信息的GS研究中,由于可獲得的先驗信息相對匱乏,因而先驗信息通常來自參考群體,比如,先在參考群體進(jìn)行GWAS后[18,36],再將GWAS的結(jié)果作為GS的生物學(xué)先驗信息。此外,有學(xué)者為了提高計算效率和降低分型成本,僅使用先驗信息(如GWAS顯著的SNP位點)進(jìn)行GS[9,13-14]。這些嘗試為生物學(xué)先驗信息的利用奠定了重要基礎(chǔ)。然而,先驗信息獲取群體與參考群體使用相同的數(shù)據(jù)和(或)僅使用先驗信息進(jìn)行GS時導(dǎo)致GS偏差(bias)變大[9,18,36]。偏差較大的原因可能是只利用部分標(biāo)記無法準(zhǔn)確地捕獲群體的遺傳結(jié)構(gòu)信息或人為有選擇地使用了隨機(jī)的遺傳信息[13]。因而,Macleod等[14]提出整合生物學(xué)先驗信息的GS研究需要專門的先驗信息獲取群體,且要求先驗群體與參考群體和驗證群體相對獨立;此外,不能僅使用先驗信息而需要在基準(zhǔn)芯片(如50K)的基礎(chǔ)上添加先驗信息,進(jìn)而減少GS的偏差。隨后,在綿羊部分肉用性狀中按照這個方式劃分各類群體進(jìn)行GS,結(jié)果發(fā)現(xiàn)在50K芯片的基礎(chǔ)上整合GWAS和eQTL先驗信息并沒有明顯改變GS的偏差[11]。在實際應(yīng)用中,應(yīng)根據(jù)先驗信息的類型決定是否需要先驗信息發(fā)現(xiàn)群體,當(dāng)利用數(shù)據(jù)庫注釋信息時,不需要先驗信息獲取群體。
除了獲得生物學(xué)先驗信息以外,另一個核心的問題是如何應(yīng)用這些先驗信息,即開發(fā)合適的GS方法。當(dāng)前整合生物學(xué)先驗的GS方法大多是在GBLUP或者Bayes方法的基礎(chǔ)上改進(jìn)而來。整合生物學(xué)先驗信息的GS方法按照整合先驗的方式,可以大致分為3大類:第一類是根據(jù)生物學(xué)先驗信息給予不同的SNP以不同的遺傳權(quán)重,簡稱為位點特異的方法;第二類是根據(jù)生物學(xué)先驗信息將SNP劃分為幾個不同的類別,給予不同類別的SNP以不同的遺傳權(quán)重,簡稱類別特異的方法;第三類是將效應(yīng)較大的SNP位點當(dāng)作協(xié)變量,簡稱為協(xié)變量方法。
表2 G矩陣加權(quán)系數(shù)匯總信息Table 2 Summariy information of weighted index (di)for G matrix
加權(quán)系數(shù)di主要來源于GWAS的P值,標(biāo)記效應(yīng)或標(biāo)記方差。Gianola等[41]指出,加權(quán)系數(shù)di要能反應(yīng)標(biāo)記所能解釋的遺傳方差。Su等[18]在奶牛奶用性狀中的研究結(jié)果顯示,利用后驗標(biāo)記方差對G矩陣進(jìn)行加權(quán)優(yōu)于基于P值和標(biāo)記效應(yīng)的平方。Ren等[40]通過比較幾種不同的加權(quán)策略發(fā)現(xiàn)不同的加權(quán)策略適合不同性狀。因而,不同的性狀需根據(jù)其遺傳結(jié)構(gòu)選擇適合的加權(quán)系數(shù)。
獲得加權(quán)系數(shù)di需要預(yù)先計算出每個標(biāo)記的效應(yīng)大小及加性遺傳方差,因而計算量非常大。Zhang等提出了BLUP|GA方法[42-43],該方法通過構(gòu)建T矩陣來替代G矩陣:
虛線框之內(nèi)的方法不能整合生物學(xué)先驗信息;虛線框之外的方法能夠整合生物學(xué)先驗信息;箭頭表示方法的演變過程;公式中y為表型向量;μ為群體均值向量,b為標(biāo)記效應(yīng),其效應(yīng)服從正態(tài)分布N(0,Imσ2b),Im為單位矩陣,σ2b為標(biāo)記效應(yīng)方差。W為基因型矩陣;e為隨機(jī)殘差;g為基因組估計育種值向量,其值服從正態(tài)分布N(0,Gσ2g),G為基因組親緣關(guān)系矩陣,σ2g為加性遺傳方差;A為基于系譜的親緣關(guān)系矩陣;H為一步法GBLUP的親緣關(guān)系矩陣;Z為校正后的基因型矩陣;D為親緣關(guān)系的加權(quán)對角矩陣,對角線元素為diThe methods within dashed box cannot integrate biological prior information;the methods outside the dashed box can integrate biological prior information;arrows indicate the evolution of the methods;y is a vector of phenotype;μ is a vector of population mean value;b is marker effects following a normal distribution N(0,Imσ2b),where Im is an identity matrix,σ2b is the variance of marker effect;W is a matrix of genotype;e is a vector of random effect;g is a vector of genomic estimated breeding value following a normal distribution N(0,Gσ2g),where G is a genomic relationship matrix,σ2g is the additive genetic variance;A is a pedigree-based relationship matrix;H is a relationship matrix for ssGBLUP;Z is a matrix of scaled genotype;D is a diagonal matrix of weighted index for G matrix,where di is the ith element in main diagonal圖2 基于最佳線性無偏估計(BLUP)的全基因組選擇方法Fig.2 Genomic selection methods based on best linear unbiases prediction (BLUP)
虛線框之內(nèi)的方法不能整合生物學(xué)先驗信息;虛線框之外的方法能夠整合生物學(xué)先驗信息;箭頭表示方法的演變過程;公式中ui為標(biāo)記效應(yīng),在不同的方法中服從不同的分布;π為效應(yīng)值為零的標(biāo)記的比率,在不同的方法中值不同。P表示關(guān)聯(lián)分析P值The methods within dashed box cannot integrate biological prior information;the methods outside the dashed box can integrate biological prior information;arrows indicate the evolution of the methods;ui is the marker effect which follows different distribution in different methods;π is the ratio of marker with effect equal to zero;P is the P value of association analysis圖3 全基因組選擇的Bayes方法Fig.3 Genomic selection methods based on Bayes
2.2.1 基于BLUP的類別特異方法 有學(xué)者提出了另一類整合先驗的GFBLUP方法(圖2),與之前的對每一個SNP賦予不同的遺傳權(quán)重不同,GFBLUP方法根據(jù)SNP位點的“遺傳貢獻(xiàn)”將其分為不同的類別,并通過擬合兩個及以上的G矩陣賦予不同類別的SNP以不同的遺傳權(quán)重[27,50],即:
y=1μ+g1+g2+e
式中,參數(shù)的含義與GBLUP相同,g1表示第一組標(biāo)記的GEBV,g2表示第二組標(biāo)記的GEBV。與此同時,有學(xué)者提出了與GFBLUP類似的MultiBLUP方法[51],即:
式中,參數(shù)的含義與GFBLUP類似。GFBLUP和MultiBLUP都能擬合兩個及以上的隨機(jī)變量。當(dāng)樣本數(shù)較大或者標(biāo)記的密度過高時(如全基因組測序鑒定到的SNP),由于計算資源或者軟件本身的限制,擬合兩個或多個G矩陣的GFBLUP和MultiBLUP方法大大增加了計算負(fù)擔(dān)。為了減少計算資源,兩個或多個G矩陣還可以通過加權(quán)的方法進(jìn)一步簡化:
y=1μ+gTotal+e
2.2.2 基于Bayes的類別特異方法 在大多數(shù)情況下,BayesR的準(zhǔn)確性優(yōu)于其它的Bayes方法,近年來有學(xué)者開發(fā)了簡化版的BayesR方法SBayesR。SBayesR將BayesR模型拓展到了概述統(tǒng)計數(shù)據(jù)并通過考慮SNP之間的連鎖不平衡(linkage disequilibrium,LD)信息將稠密親緣關(guān)系矩陣變?yōu)橄∈杈仃囈蕴岣哂嬎阈蔥52]。目前,類別特異的Bayes方法大多是從BayesR的基礎(chǔ)上改進(jìn)而來的。Br?ndum等[53]提出了BayesRS方法,這一方法的思想與mutiBLUP類似,都是根據(jù)SNP集的方差組分,賦予不同類別的SNP以權(quán)重的先驗信息。Macleod等[14]在BayesR的基礎(chǔ)上提出了BayesRC方法,BayesRC與BayesR之間的主要區(qū)別在于BayesRC允許不同類別的SNP獨立的計算標(biāo)記效應(yīng)來整合生物學(xué)先驗信息[14],BayesRC和BayesRS主要的區(qū)別在于BayesRS允許不同的SNP集有不同的先驗信息而BayesRC則允許不同的SNP集有不同的后驗效應(yīng)(圖4)。
與之前的方法不同,有學(xué)者直接提出了將效應(yīng)大的位點作為協(xié)變量(covariate)放入混合線性模型中以提高GS的準(zhǔn)確性[16,54]。在奶牛繁殖性狀(sire conception rate,SCR),通過這種方式將GS的準(zhǔn)確性從0.340增加到0.403[16]。協(xié)變量方法適用于已鑒定到因果突變的性狀;然而,家畜大多重要經(jīng)濟(jì)性狀受多個QTL影響,且大多性狀的因果突變位點仍未解析,當(dāng)因果突變未知時,采用這種方法可能會因為加入了錯誤的協(xié)變量而降低GS的準(zhǔn)確性,因而這種策略無法大面積提高GS的準(zhǔn)確性。
最近,我國學(xué)者提出了KAML(Kinship Adjusted Multiple Loci Best Linear Unbiased Prediction)方法[55]。該方法主要通過兩個途徑提高GS的準(zhǔn)確性,一是通過將效應(yīng)大的位點當(dāng)做協(xié)變量加入線性模型中;二是對G矩陣進(jìn)行加權(quán),加權(quán)系數(shù)為:
其中,α為對數(shù)函數(shù)的基數(shù)(待估),β是加權(quán)的比率(待估),P為GWAS的P值,m為標(biāo)記數(shù)目。與之前整合先驗信息的方法不同,KAML通過機(jī)器學(xué)習(xí)方法(交叉驗證、多元回歸、網(wǎng)格搜索以及二分求極值等)智能化地選擇將哪些位點當(dāng)作協(xié)變量以及計算加權(quán)系數(shù)的值(即估計α和β)而非人為預(yù)先指定固定的值。一方面,KAML通過機(jī)器學(xué)習(xí)算法整合各種方法的優(yōu)點,因此其準(zhǔn)確性較高,目前已接近Bayes方法[55];另一方面,KAML也難以完全消除已有方法的缺陷,例如,利用單一的組學(xué)數(shù)據(jù)篩選效應(yīng)較大的位點難免會出現(xiàn)假陽性。
產(chǎn)奶性狀是奶牛最重要的一類性狀,在奶牛中,品種內(nèi)整合生物學(xué)先驗信息的GS方法準(zhǔn)確性增幅較低,如,Su等[18]利用位點特異的GBLUP方法,在奶產(chǎn)量、乳脂產(chǎn)量、乳蛋白產(chǎn)量等性狀的GS中提高了2%的準(zhǔn)確性。Macleod等[14]利用BayesRC方法在奶產(chǎn)量、乳脂產(chǎn)量、乳蛋白產(chǎn)量的GS提高了準(zhǔn)確性,但平均增幅度較小(<1%)。Mouresan等[56]整合QTL先驗信息,在奶產(chǎn)量、乳脂率的GS中分別提高了0.014和0.051的準(zhǔn)確性。Liu等[17]在產(chǎn)奶性狀中,利用SNP注釋先驗信息,并沒有提高GS的準(zhǔn)確性。然而,品種間整合生物學(xué)先驗信息的GS方法的準(zhǔn)確性增幅遠(yuǎn)高于品種內(nèi)的GS。Fang等[26,57]整合GO、KEGG、差異表達(dá)基因等信息,發(fā)現(xiàn)跨品種的GS準(zhǔn)確性幅度遠(yuǎn)大于品種內(nèi)的增幅。在牛奶脂肪酸相關(guān)性狀的GS中也有類似發(fā)現(xiàn),整合GWAS結(jié)果在荷蘭奶牛群體中平均提高38%的準(zhǔn)確性,在丹麥群體中平均提高23%,在中國群體中平均提高13%[10]。可見,整合生物學(xué)先驗信息進(jìn)行GS時,親緣關(guān)系的遠(yuǎn)近是影響準(zhǔn)確性的一個重要因素。當(dāng)親緣關(guān)系比較近時(如品種內(nèi)),不同分子標(biāo)記之間處于高度連鎖不平衡狀態(tài),很難將先驗信息準(zhǔn)確地賦予給相應(yīng)的分子標(biāo)記[58]。因而對于奶牛的育種,合理利用生物學(xué)知識,將有可能提高品種間(或親緣關(guān)系較遠(yuǎn)的群體)的基因組預(yù)測準(zhǔn)確性[59]。然而,不同品種之間QTL的效應(yīng)的大小和方向、最小等位基因頻率可能不同,使得品種間的預(yù)測變得更加復(fù)雜[58]。
在Hanwoo肉牛的研究中,通過整合基于文本挖掘的先驗信息利用GFBLUP方法,提高了背膘厚、眼肌面積、半膜肌剪切力、背最長肌剪切力、半膜肌肌內(nèi)脂肪含量和背最長肌肌內(nèi)脂肪含量GS的準(zhǔn)確性[35]。在另一個研究中,整合GWAS和eQTL的先驗信息利用加權(quán)GBLUP和BayesR對Hanwoon牛胴體重、大理石花紋打分、眼肌面積、背膘厚進(jìn)行GS,準(zhǔn)確性提高了0.01~0.05[9]。隨后,Mehrban等[60]通過加權(quán)ssBLUP,發(fā)現(xiàn)Hanwoon牛胴體性狀GS和周歲重GS的準(zhǔn)確性分別提高了71%和99%。國內(nèi)肉牛整合生物學(xué)先驗信息進(jìn)行GS也取得了重要進(jìn)展,Xu等[33]通過整合SNP的注釋信息,采用方法多種策略對胴體重、宰前活重以及上腦重進(jìn)行GS,結(jié)果發(fā)現(xiàn)準(zhǔn)確性提高5.4%~9.8%。肉牛育種可以通過整合生物學(xué)先驗信息的GS進(jìn)行早期選育以及通過整合生物學(xué)先驗信息提高GS的準(zhǔn)確性以提高遺傳進(jìn)展。
與奶牛育種不同,豬的GS很難通過早期選育縮短其世代間隔[61]。因此,在豬的育種中,通過整合生物學(xué)先驗信息提高GS的準(zhǔn)確性,尤其是低遺傳力的性狀[62]以獲得額外的遺傳進(jìn)展十分有意義。傳統(tǒng)的GS方法對豬的生長或胴體性狀已具有很好的預(yù)測準(zhǔn)確性[61],當(dāng)整合適當(dāng)?shù)南闰炐畔⒑瓦x擇合適的GS方法,還能再提高眼肌深度[63]和日增重[63]、瘦肉率[28]等性狀的準(zhǔn)確性。然而,傳統(tǒng)的GS對母豬的繁殖性狀進(jìn)行選擇,準(zhǔn)確性非常有限,因為母豬的參考群體較小且遺傳力較低[61]。有研究發(fā)現(xiàn),整合生物學(xué)先驗信息的GS方法具有進(jìn)一步提高提高母豬繁殖性狀準(zhǔn)確性的潛力[29]。若通過整合人、小鼠以及其它物種繁殖研究的信息以及豬繁殖性狀相關(guān)基因的功能注釋信息,整合生物學(xué)先驗的GS方法在母豬的繁殖性狀中具有較大的應(yīng)用潛力。
相較于牛和豬,羊的產(chǎn)值低、遺傳多樣性高、經(jīng)濟(jì)性狀種類多,包含肉用、毛用、奶用、繁殖等性狀。因而,開發(fā)高精度、低成本、多性狀的GS方法才能支撐羊的高效育種。在50K芯片的基礎(chǔ)上,通過整和基于重測序的GWAS先驗信息、eQTL的先驗信息均能提高綿羊重要經(jīng)濟(jì)性狀GS的準(zhǔn)確性[13]。可見,在50K基準(zhǔn)芯片的基礎(chǔ)上優(yōu)化GS的方法和使用先驗信息可提高GS的準(zhǔn)確性,且不至于額外增加過多的經(jīng)濟(jì)和計算負(fù)擔(dān)。在低密度芯片的基礎(chǔ)上通過整合生物學(xué)先驗信息以提高GS的準(zhǔn)確性,可能是以后羊GS育種的可行之策。
GS的準(zhǔn)確性與遺傳進(jìn)展成正相關(guān),與傳統(tǒng)的GS方法相比,整合生物學(xué)先驗信息的方法通過提高GS的準(zhǔn)確性以獲得額外的遺傳進(jìn)展。當(dāng)前的生物學(xué)先驗信息大多來自單一組學(xué)的數(shù)據(jù),所能提供的信息有限,隨著家畜基因組功能注釋信息的持續(xù)積累和完善[64],如何系統(tǒng)地整合多組學(xué)的數(shù)據(jù)并準(zhǔn)確地給予分子標(biāo)記以準(zhǔn)確的遺傳權(quán)重仍需要開發(fā)新的方法。此外,當(dāng)前整合生物學(xué)先驗信息的GS方法都有各自的缺陷,位點特異的方法需要獲得每個標(biāo)記的遺傳貢獻(xiàn),因而能整合的先驗信息類型有限;類別特異的方法只是粗略地將分子標(biāo)記劃分為多個類別,劃分的方式往往具有很大的主觀性,并沒有嚴(yán)格的科學(xué)依據(jù),且每個類別內(nèi)標(biāo)記的遺傳貢獻(xiàn)仍然是相同的,不符合科學(xué)假設(shè);協(xié)變量方法需要準(zhǔn)確獲得效應(yīng)較大的位點,但大多經(jīng)濟(jì)性狀是由微效多位點所控制的,因而其適用性有限。因此,將來應(yīng)該開發(fā)出計算速度快、準(zhǔn)確性高、能整合所有類型生物學(xué)先驗信息且適用所有性狀的GS方法。當(dāng)前國內(nèi)外的研究主要是將多組學(xué)數(shù)據(jù)作為GS的先驗信息以提高GS的準(zhǔn)確性,而不是將其直接整合到GS中。隨著測序技術(shù)的發(fā)展和測序成本的降低,將來也可能獲得大規(guī)模的多組學(xué)數(shù)據(jù)。在將來,可能在主流的GS方法BLUP、Bayes、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等的基礎(chǔ)上開發(fā)出可以直接整合多組學(xué)數(shù)據(jù)的GS方法??梢灶A(yù)見,隨著生物學(xué)先驗信息越來越精準(zhǔn),適用范圍廣、準(zhǔn)確性高、速度快的GS方法被開發(fā),整合生物學(xué)先驗信息的GS將會在家畜育種中發(fā)揮重要作用。