石少磊,武麗娜,馮羿方,蘇 惠,王艷艷,郝曉東
(北京康普森農(nóng)業(yè)科技有限公司,北京 102200)
雞肉在我國全民肉類消費結(jié)構(gòu)中占有重要地位,已經(jīng)成為第二大肉類產(chǎn)品。而雞肉主要來源于白羽肉雞和黃羽肉雞,其中,白羽肉雞提供了大約70%的雞肉類產(chǎn)品。此外,我國具有豐富的地方雞品種遺傳資源,具有很好的生物多樣性,這為肉雞育種提供了充足的遺傳素材。
測序成本的降低以及基因組選擇等分子育種技術(shù)的廣泛應(yīng)用,對加快我國肉雞育種進(jìn)程提供了極大的技術(shù)便利條件。準(zhǔn)確、高效的單核苷酸多態(tài)性(Single-nucleotide polymorphisms,SNP)標(biāo)記分型技術(shù)是畜禽基因組范圍的遺傳機(jī)制挖掘以及育種實踐的重要保障。我國畜禽遺傳資源豐富,且不同區(qū)域的畜禽品種具有豐富的遺傳多樣性。為了充分利用我國優(yōu)秀的種質(zhì)遺傳資源,國內(nèi)各頂尖的研究團(tuán)隊和高校院所利用高通量測序技術(shù)以及遺傳分析方法,對攜帶優(yōu)良遺傳基因的地方畜禽品種的遺傳機(jī)制進(jìn)行深入挖掘,最終轉(zhuǎn)化為具有核心知識產(chǎn)權(quán)的畜禽育種芯片。這些基因芯片的問世,對于最大限度發(fā)揮我國優(yōu)良種質(zhì)資源、加快畜禽群體遺傳改良具有重大的推動作用。
目前,SNP 標(biāo)記分型技術(shù)以基因芯片和二代測序技術(shù)為主。本文從SNP 標(biāo)記分型技術(shù)以及其在肉雞遺傳資源挖掘利用、遺傳育種中的應(yīng)用進(jìn)行概述,旨在為肉雞遺傳育種實踐提供一定的參考和借鑒。
DNA 微陣列又名基因芯片,也稱為分子探針,即將已知序列的DNA 片段按一定的規(guī)律有序的固定于基片表面,從而構(gòu)成DNA 探針陣列。其基本原理是利用核酸雜交檢測變異。不同類型的芯片因其用途不同,基片上的探針存在一定差異:如SNP 基因芯片根據(jù)已知的SNP 信息,設(shè)計SNP 探針;表達(dá)譜基因芯片以cDNA 或寡核苷酸序列片段作探針,通過mRNA 與探針的雜交,檢測目標(biāo)基因的表達(dá)水平;DNA 甲基化芯片[1]通過檢測對應(yīng)位點的甲基化信號,判斷堿基是否被甲基化修飾。通常在育種應(yīng)用中以中高密度(5萬以上的標(biāo)記數(shù),如50K、100K、150K 等)的SNP 基因芯片為主?;蛐酒瑱z測平臺主要有2個[2,3]:因美納(Illumina)公司的Infinium、賽默飛世爾科技(Thermo Fisher Scientific)的Axiom。就遺傳標(biāo)記分型而言,這2 個公司的平臺都是通過熒光標(biāo)記及探針雜交實現(xiàn),然而在芯片的設(shè)計思路上存在一定的差異。Illumina 平臺基于微珠(二氧化硅微珠)芯片技術(shù)[4],而Thermo Fisher芯片基于原位光刻合成技術(shù)[5,6];在探針長度方面,Illumina 芯片的探針長于Thermo Fisher 芯片,在芯片生產(chǎn)過程中所有微珠都能得到質(zhì)量控制,在實際應(yīng)用中靈活性較高;但Thermo Fisher 芯片生產(chǎn)幾乎無批次效應(yīng)。
利用二代測序技術(shù)可以檢測到目標(biāo)個體整個基因組范圍的遺傳變異[2,3],并且通過提高測序深度還可以發(fā)現(xiàn)更多的稀有變異信息(最小等位基因頻率很低的遺傳標(biāo)記)[7]。隨著測序成本的顯著降低,基因組測序技術(shù)以及測序數(shù)據(jù)在畜禽分子育種領(lǐng)域得以廣泛應(yīng)用。在畜禽遺傳育種、群體遺傳分析、遺傳機(jī)制挖掘等方面,常用到的二代測序檢測技術(shù)有簡化基因組測序(Reduced-representation Genome Sequencing,RRGS)[2]、全基因組重測序(Whole Genome Sequencing,WGS)、靶向捕獲測序技術(shù)(Genotyping by Target Sequencing)[3]、全基因組低深度重測序(Low-coverage Whole Genome Sequencing,LcWGS)[8,9]。其中,全基因組重測序應(yīng)用最為廣泛。
全基因組重測序的流程包括3 步:①構(gòu)建測序文庫,包括基因組片段化、末端修復(fù)、連接測序接頭和擴(kuò)增富集等;②上機(jī)檢測,即基因測序平臺對目標(biāo)個體的全基因組文庫進(jìn)行掃描測序,獲得目標(biāo)個體的整個基因組序列信息;③生物信息學(xué)分析,將測序數(shù)據(jù)比對到參考基因組上,進(jìn)而獲得整個基因組范圍的遺傳變異信息。如SNP、結(jié)構(gòu)變異(structure variation,SV)等。
簡化基因組測序與全基因組重測序原理相同,具體實施中,RRGS 首先利用限制性內(nèi)切酶將整個基因組上的DNA 片段化[3,10,11],然后對特定的酶切片段進(jìn)行高通量測序,進(jìn)而獲得目標(biāo)區(qū)域的遺傳標(biāo)記[2,3]。從而,簡化基因組測序可以達(dá)到減少測序數(shù)據(jù)量、降低測序成本的目的[12,13],并能夠縮短生物信息分析的周期[3]。
全基因組低深度測序流程與全基因組重測序相同,區(qū)別在于其測序深度通常在1 倍以下。因此,與簡化基因組測序一樣可以達(dá)到降低成本的目的[2,3]。由于低深度測序產(chǎn)生的數(shù)據(jù)在基因組上的覆蓋率較低,被檢測個體的基因組數(shù)據(jù)存在大量未被檢測到的基因型(缺失率較高)。因此,測序之后需要利用填充軟件對未完全檢測到的等位基因進(jìn)行推斷、填補(bǔ),以獲得個體全基因組水平的遺傳標(biāo)記。靶向捕獲測序通過挑選特定的變異位點或區(qū)域,設(shè)計特異性的捕獲探針或者引物從基因組中捕獲靶向位點進(jìn)行測序,從而獲得目標(biāo)位點或區(qū)域的變異信息。利用以上測序技術(shù)獲得個體的基因組數(shù)據(jù)和生物信息學(xué)分析手段,以進(jìn)一步用于挖掘與疾病、重要經(jīng)濟(jì)性狀相關(guān)的基因的研究中。
2005 年,Muir 等[14]開發(fā)了第一款3K 的雞基因組芯片。到2008 年,Groenen 等[15]開發(fā)了60K的芯片。2013 年Kranis 等[16]報道了第一個商用化600K 芯片(Affy 600K SNP Array)。然而這些芯片通常是基于西方品種雞的商用品系,缺乏中國本土品種的基因組變異信息。因此,中國農(nóng)業(yè)科學(xué)院畜牧獸醫(yī)研究所趙桂蘋團(tuán)隊開發(fā)出國內(nèi)首款肉雞55K 基因組育種芯片——“京芯一號” (IASCHICK 55K)[17]?!熬┬疽惶枴?的成功研發(fā)對于我國地方品種遺傳資源挖掘和利用、肉雞群體遺傳改良具有重要意義。
此外,國內(nèi)外研究人員利用不同的測序技術(shù)在肉雞遺傳機(jī)制挖掘和基因組育種領(lǐng)域進(jìn)行了深入探索。不同基因組檢測產(chǎn)品及其應(yīng)用場景詳見表1。
表1 主要SNP 標(biāo)記分型技術(shù)以及應(yīng)用場景
Illumina 60K 芯片在雞的遺傳多樣性分析[18,19]、全基因組關(guān)聯(lián)分析[20]和基因組預(yù)測[21]等方面均得到應(yīng)用。Dementieva 等[18]利用Illumina 60K 芯片和限制性片段長度多態(tài)性(Restriction fragment length polymorphisms,RFLPs)對18 個雞品種的遺傳多樣性進(jìn)行分析。Restoux 等[19]利用60K 芯片對法國的22 個地方品種的遺傳多樣性進(jìn)行分析。Yuan 等[20]對中國4 個地方雞的生長性狀進(jìn)行單標(biāo)記和基于單倍型的全基因組關(guān)聯(lián)分析,并且發(fā)現(xiàn)一個胡須雞獨有的與生長性狀相關(guān)的基因座。Liu 等[21]比較了基于系譜和60K 芯片的預(yù)測模型在惠陽胡須雞飼料利用性狀的預(yù)測性能,發(fā)現(xiàn)基于基因組預(yù)測的準(zhǔn)確性顯著高于基于系譜的模型。
Affy 600K 芯片在群體遺傳結(jié)構(gòu)分析[22,23]、性狀遺傳機(jī)制挖掘[24-27]、品種鑒定[28,29]等方面得到應(yīng)用。Gao 等[22]利用600K 芯片對中國8 個地方雞的群體分化程度進(jìn)行了分析,發(fā)現(xiàn)茶花雞與其他品種的遺傳差異最大。Malomane 等[23]分析了全球162 雞群體的遺傳多樣性,發(fā)現(xiàn)種群間遺傳變異較小的基因都與大腦發(fā)育等主要功能有關(guān),但是與蛋白質(zhì)轉(zhuǎn)運、蛋白質(zhì)和脂質(zhì)代謝過程相關(guān)的基因中,群體間的遺傳多樣性以更快的速度變化。這也反映了雞在不同基因組區(qū)域的進(jìn)化模式存在的差異。在性狀遺傳機(jī)制的研究中,研究人員對馬立克氏病[24]、飼料利用率[26]等性狀關(guān)聯(lián)位點進(jìn)行分析,以及影響肉雞體重和產(chǎn)蛋性狀的多效性基因座[27]。Cho 等[28]和Seo 等[29]分別利用機(jī)器學(xué)習(xí)的分類方法基于600K 高密度芯片對雞群體進(jìn)行品種鑒定。
目前,“京芯一號” 在雞群體遺傳分析方向得到廣泛應(yīng)用。2022 年,Tan 等[30]利用雞55K 芯片(IASCHICK 55K)對4217 只白羽肉雞(4 個世代,G4~G7)的7 個性狀進(jìn)行參數(shù)估計以及選擇信號的分析,其發(fā)現(xiàn)生長性狀、產(chǎn)肉和腹脂性狀的遺傳力在0.12~0.38;結(jié)合群體分化指數(shù)(High fixation index,F(xiàn)st)以及核苷酸多樣性(π ratio)分析,發(fā)現(xiàn)基因組上39 個常染色體區(qū)域在世代之間受到選擇。Liu 等[31]對2 個品系的黃羽肉雞(2 個世代,G15~G16)進(jìn)行群體遺傳差異分析,發(fā)現(xiàn)第15 世代(G15)2 個品系的黃羽肉雞在肌內(nèi)脂肪含量性狀上存在顯著差異,并且在G15 發(fā)現(xiàn)的差異表達(dá)基因在G16 也得到驗證。
“京芯一號” 對我國地方品種遺傳資源分析也具有重要意義。Liu 等[32]利用IASCHICK 55K芯片對7 個貴州省土雞(共計109 只母雞)、3 個其他省份地方品種和2 個商業(yè)品種的群體結(jié)構(gòu)與遺傳多樣性進(jìn)行分析,發(fā)現(xiàn)貴州地方雞的遺傳多樣性高于商業(yè)品種。屠云潔等[33]利用“京芯一號”對2 個廣西麻雞(當(dāng)雞、靈山香雞)群體進(jìn)行遺傳距離和親緣關(guān)系的分析,通過主成分分析以及遺傳距離分析,發(fā)現(xiàn)2 個群體遺傳距離較遠(yuǎn),這就為培育優(yōu)質(zhì)麻雞提供了重要的遺傳資源保障。武艷平等[34]利用基因組芯片對8 個地方雞品種(5個江西省的地方雞品種,廣東省、浙江省以及江蘇省各1 個地方雞品種)進(jìn)行了遺傳多樣性分析,該研究結(jié)果顯示,8 個地方雞品種的遺傳距離較遠(yuǎn),遺傳背景差異較大,具有較豐富的遺傳多樣性。這些研究也充分說明我國地方品種的遺傳多樣性為新品種的開發(fā)和利用提供了豐富的先決條件。
此外,55K 基因芯片在性狀相關(guān)位點以及遺傳機(jī)制挖掘方面也發(fā)揮了巨大作用。Yang 等[35]對873 只白羽肉雞進(jìn)行產(chǎn)肉量相關(guān)性狀的基因挖掘分析,通過將55K 芯片填充至測序水平,然后進(jìn)行全基因組關(guān)聯(lián)分析,并聯(lián)合選擇信號等分析,最終鑒定到18 個顯著的標(biāo)記。其中與體重相關(guān)性狀的顯著關(guān)聯(lián)位點集中分布在24 號染色體上大約24Kb 的區(qū)域(GGA24:5.73~5.75Mb)。Li等[36]對快長型肉雞的生長性狀和飼料利用率性狀進(jìn)行關(guān)聯(lián)分析,最終鑒定到基因組上2 個區(qū)域分別與生長和飼料利用率性狀相關(guān)聯(lián)。2020 年,Li等[37]利用填充到測序水平的基因型數(shù)據(jù),對快長型白羽肉雞的飼料利用性狀和代謝效率性狀的遺傳機(jī)制進(jìn)行研究。2022 年,Ding 等[38]利用基因芯片對11279 只肉雞(4 個白羽肉雞品系,3 個黃羽肉雞品系)的產(chǎn)蛋性狀進(jìn)行遺傳機(jī)制解析,最終鑒定到9 個與肉雞產(chǎn)蛋性狀相關(guān)的候選基因。
隨著測序成本的降低,測序數(shù)據(jù)在家禽遺傳育種中也得到較為廣泛的使用。Tan 等[39]利用基因組重測序數(shù)據(jù)闡釋白羽肉雞高產(chǎn)肉量的遺傳機(jī)制,利用1061 只雞(8 個品種)的基因組、轉(zhuǎn)錄組數(shù)據(jù),從群體遺傳學(xué)、數(shù)量遺傳學(xué)以及生物學(xué)的角度深度挖掘肉雞產(chǎn)肉性狀的遺傳機(jī)制,繪制了肌肉發(fā)育的基因組遺傳變異和轉(zhuǎn)錄組的圖譜信息,并提出了一個新的胸肌產(chǎn)量和肌病調(diào)控靶點(SOX6-MYH1s 軸)。
Zou 等[40]對現(xiàn)代肉雞與過去幾十年的肉雞群體的進(jìn)行重測序,通過識別選擇積累的遺傳變化,發(fā)現(xiàn)與免疫反應(yīng)和生長性狀具有生物學(xué)相關(guān)性的基因和途徑。他們的研究結(jié)果強(qiáng)調(diào)了2 個基因(TLR3 和PLIN3)可能以犧牲免疫功能為代價來提高生長性能。Huang 等[41]利用重測序手段,分析了來自10 個品種的100 只黃羽肉雞的遺傳結(jié)構(gòu),發(fā)現(xiàn)10 個品種的遺傳結(jié)構(gòu)的相似程度與其分布的地理位置有關(guān),即10 個品種的黃羽肉雞根據(jù)其遺傳結(jié)構(gòu)可以分為北方群體、中部群體和南方群體。
Guo 等[42]利用簡化基因組測序?qū)?33 只哈巴德肉雞的11 個性狀(輕型股骨頭畸形、7 個血液指標(biāo)、3 個生長性狀)進(jìn)行全基因組關(guān)聯(lián)分析。經(jīng)過質(zhì)控,256599 個SNP 標(biāo)記用于分析,發(fā)現(xiàn)血清堿性磷酸酶和股骨頭畸形之間可能存在某種關(guān)系。劉天飛等[12]利用簡化基因組測序?qū)S羽肉雞395 只個體的6 個性狀進(jìn)行基因組預(yù)測,并與Illumina Chicken 60K 芯片的預(yù)測效果進(jìn)行比較,發(fā)現(xiàn)2 種基因分型策略差異并不明顯。Yang 等[43]利用低深度測序獲得2 個世代的6359 只黃羽雞的基因組數(shù)據(jù),并用于生長性狀的遺傳位點挖掘和基因組預(yù)測,最終鑒定到5 個顯著的數(shù)量性狀基因座。
基因芯片以及其他基于二代測序的基因組檢測技術(shù),為科研人員和育種企業(yè)提供了多樣化的選擇,這就為基因組育種提供了堅實的條件。此外,加快肉雞遺傳進(jìn)展,也需要選擇合適的預(yù)測模型。
目前基因組選擇已經(jīng)廣泛應(yīng)用于動植物育種,探究最合適的預(yù)測模型,對提高育種值預(yù)測準(zhǔn)確性,加快畜禽品種的群體遺傳改良具有重要意義。在肉雞基因組選擇研究中,常用的預(yù)測模型模型可以分為2 類:①基于最佳線性無偏估計的模型(Best Linear Unbiased Prediction,BLUP),常見的有GBLUP(Genomic best linear unbiased prediction)[44]、ssGBLUP(single-step GBLUP)[45];②基于貝葉斯理論的模型,如BayesLasso[46]、BayesMix4[47]等。
基于BLUP 的方法,主要差異在于親緣關(guān)系矩陣的構(gòu)建,線性模型如下:
式(1)的矩陣形式可以寫為:
式(2)中K 表示親緣關(guān)系矩陣。
在GBLUP 中,通常采用VanRaden 等[44]提出的方法:
式(3)中M 為基因型矩陣,P 中每列元素分別為對應(yīng)第i 個SNP 的最小等位基因頻率pi。
在ssGBLUP 中,通過整合基因組和系譜的信息,構(gòu)建H 矩陣[45,48]:
基于貝葉斯框架的方法,主要差異在于對標(biāo)記的先驗分布假設(shè):
以BayesMix4 為例,假設(shè)標(biāo)記先驗為4 個組分的混合形式:
式(5)中,π1~π4為固定值,分別為0.889、0.1、0.01、0.001。且
基因組選擇通過在利用個體的基因組信息,不依賴待留種個體的表型測定記錄,進(jìn)而實現(xiàn)早期留種。然而,對于繁殖周期短的畜禽品種,基因組選擇最大的優(yōu)勢是提高預(yù)測準(zhǔn)確性。
Yang 等[43]在對黃羽肉雞的研究中,通過比較基于系譜的預(yù)測方法(Pedigree-based BLUP,ABLUP)和GBLUP,發(fā) 現(xiàn)GBLUP 可以提 升22.0%~70.3%的預(yù)測準(zhǔn)確性。Liu 等[49]通過對8個家系的582 只黃羽肉雞進(jìn)行基因組選擇研究,發(fā)現(xiàn)基于基因組的預(yù)測方法其準(zhǔn)確性遠(yuǎn)高于基于系譜的預(yù)測方法。并且基于貝葉斯的基因組預(yù)測方法其預(yù)測準(zhǔn)確性高于GBLUP。此外,在預(yù)測過程中,參考群與驗證群有較高的遺傳聯(lián)系時,其預(yù)測準(zhǔn)確性高于家系間的預(yù)測準(zhǔn)確性。
Tan 等[30]對白羽肉雞3 個世代的遺傳進(jìn)展進(jìn)行分析,發(fā)現(xiàn)表型和遺傳都取得了一定的進(jìn)展,尤其是體重和肉質(zhì)方面,這在一定程度上也反映了基因組選擇的高效性。
測序成本的降低,在一定程度上極大的促進(jìn)了對畜禽遺傳機(jī)制的研究,利用測序技術(shù)挖掘影響性狀的功能區(qū)域和遺傳變異極大地促進(jìn)了畜禽育種實踐。如何有效利用測序數(shù)據(jù)挖掘的變異信息也是育種實踐需要進(jìn)一步解決的問題。如,結(jié)構(gòu)變異和拷貝數(shù)變異通常影響表型的多樣性程度,而對結(jié)構(gòu)變異和拷貝數(shù)變異的編碼是有效利用這些信息的重要前提;另一方面,開發(fā)有效整合多組學(xué)數(shù)據(jù)的預(yù)測模型對育種應(yīng)用實踐具有重要意義。