王靜琳,劉陽光,徐啟隆,陳 朔,鄧在雙,程詩雨,丁月云,鄭先瑞,殷宗俊,張曉東
(安徽農(nóng)業(yè)大學動物科技學院,合肥 230036)
全基因組重測序是在已知物種參考基因組的條件下,通過對比測序序列與參考基因組之間的差異,以獲得單核苷酸多態(tài)性位點(single nucleotide poly-morphisms, SNP)、短插入/刪除(insertion and deletion, InDel)、大片段的結構變異(structural variation, SV)和拷貝數(shù)變異(copy number variation, CNV)等遺傳變異的方法。這些變異位點作為分子遺傳標記,在人類復雜疾病、進化、動植物經(jīng)濟性狀和育種研究等方面具有重大意義[1]。已有多項研究通過全基因組重測序技術獲得遺傳變異以解析動物基因組遺傳機制[2-6]。SNPs是研究動植物品系遺傳變異的重要依據(jù)[7-8],其突變可能會改變基因的功能,進而導致生物性狀改變甚至致死。SVs是基因組多樣性和基因表達變異的重要來源,對基因表達的影響較大[9-11]。CNV等結構變異是哺乳動物基因組變異的重要來源,覆蓋更寬的染色體區(qū)域,可能導致基因結構的變化、基因調(diào)控的修飾、基因劑量的變化以及隱性等位基因的暴露,從而導致大的表型效應[12]。
皖岳黑豬以大別山腹地安徽省岳西縣所產(chǎn)淮豬為母本,北京黑豬為第一父本,杜洛克豬為第二父本,采用雜交、回交制種及橫交固定方法,正在培育的淮豬和北京黑豬血統(tǒng)各占37.5%,杜洛克血統(tǒng)占25%的優(yōu)質(zhì)黑豬新品種,現(xiàn)已完成5個世代的持續(xù)選育并初步進行了中間試驗,下一步擬申請國家新品種審定。目前關于皖岳黑豬基因組結構變異方面的相關研究尚未見報道。
本研究利用皖岳黑豬全基因組重測序數(shù)據(jù),檢測基因組遺傳變異,揭示皖岳黑豬的群體遺傳結構,并與北京黑豬、杜洛克、大白豬、藍塘豬、民豬、深縣黑豬的SNP位點構建數(shù)據(jù)集,利用挑選最大分類能力和機器學習方法進行基因組特征SNP位點的挖掘,確定皖岳黑豬品種特征SNP位點,為皖岳黑豬進一步的選育開發(fā)提供科學依據(jù)。
在安徽省岳西縣徽名山皖岳黑豬保種場隨機選取代表全部血統(tǒng)且無血緣關系的24頭體重達110 kg 的皖岳黑豬,采集耳組織樣品,并使用磁珠法進行DNA提取,用0.8%瓊脂糖凝膠(25 min,170 V)和納米滴分光光度計(NanoDrop 2000)評估DNA的質(zhì)量和濃度。
采用Illumina NovaSeq 6000平臺(Illumina,圣地亞哥,加利福尼亞州,美國)對24頭皖岳黑豬進行全基因組重測序。此外,從公共數(shù)據(jù)庫下載22頭北京黑豬、22頭杜洛克、16頭大白豬、5頭藍塘豬、5頭民豬、39頭深縣黑豬的基因組數(shù)據(jù)作為對照。
使用fastp(v0.20.1)[13]過濾原始重測序數(shù)據(jù),刪除N含量超過該read堿基數(shù)的10%和低質(zhì)量(Q≤5)堿基數(shù)超過該條read堿基數(shù)的50% 的paired reads。利用BWA[14]軟件 將原始測序數(shù)據(jù)比對到豬參考基因組(SusScrofa11.1),使用GATK[15]軟件檢測SNP變異并對其進行過濾,保留質(zhì)量得分>30,MQ RMS映射質(zhì)量>20,dp>5,覆蓋率>30%,最小等位基因頻率(MAF)>0.01的位點。使用SnpEff[16]軟件注釋SNP,統(tǒng)計SNP各變異類型發(fā)生的比例及在各染色體上的位置;DELLY[17]進行SV檢測,去除Y染色體上的變異并過濾掉檢測出的低質(zhì)量和<50 bp的SVs。ANNOVAR(v2019)[18]軟件對過濾后的變異進行注釋并統(tǒng)計SV在基因組各區(qū)域的分布情況。使用CNVnator和CNVcaller共同檢測皖岳黑豬群體的CNV變異情況,剔除p1>0.01、Q0>0.5的CNV,將重疊至少1 bp的CNV合并為一個CNVR區(qū)域,只保留在3個及以上個體中檢測到的CNVR,用CNVnator檢測,再用CNVcaller直接檢測得到群體的CNVR情況,取兩個軟件檢測出的CNVR交集作為皖岳黑豬群體的真實CNVR,將兩個軟件檢測出的CNVR重疊區(qū)域大于50%認為是同一個CNVR,并合并為新的CNVR。
使用Plink(v 1.90)[19]進行遺傳多樣性分析。群體的遺傳多樣性是保證物種得以生存和進化的關鍵因素。對皖岳黑豬保種群體遺傳多樣性分析主要包括有效群體大小(Ne)、群體的期望雜合度(He)和觀察雜合度(Ho)、群體多態(tài)性標記比例(PN)、群體近交系數(shù)。有效群體大小反映了該群體在進化過程中受到的遷移、雜交的程度[20]。雜合度代表了群體遺傳多樣性的豐富度,分為期望雜合度(He)和觀察雜合度(Ho),當He>Ho時,推測群體發(fā)生了近交或選擇;如果He 基于SNP分型結果,可以計算樣本間的IBS距離,IBS (identity by descent)叫做狀態(tài)同源,是指兩個個體中共有的等位基因序列相同。使用Plink(v 1.90)軟件中的plink--file hapmap1--cluster--matrix-noweb 指令計算遺傳距離,所得文件在R語言中結果可視化。 在Plink(V1.90)中調(diào)用--homozyg--homozyg-density 50--homozyg-gap 100--homozyg-kb 500--homozyg-snp 50--homozyg-window-het 1--homozyg-window-snp--homozyg-window-threshold 0.05-out指令計算每個樣本的ROH長度,用個體ROH長度除以基因組總長計算得出每個個體的近交系數(shù)(FROH)。 本研究7個品種133個個體共檢測出1 35 915個SNPs位點。將全部個體分為訓練集與測試集,其中訓練集共有106個個體,測試集27個個體。對測試集利用挑選最大分類能力方法[8]進行信息SNP的選擇,并結合機器學習方法對挑選出的SNPs進行特征選擇,以獲取皖岳黑豬群體的特征位點。利用R(v 3.6.2)中的ClusterProfiler (v 3.14.0)[22]對篩選出的位點進行注釋,并對所選位點注釋到的基因進行GO和KEGG的富集分析,以P<0.05 作為判斷差異顯著的標準。 皖岳黑豬原始重測序數(shù)據(jù)質(zhì)控后共獲得1 463.13 Gb的原始數(shù)據(jù),每頭獲得數(shù)據(jù)量平均約為60.96 Gb,平均比對深度為23.7×,平均比對率為98.4%,重復reads比率1.88%。SNP變異檢測統(tǒng)計結果顯示,共獲得31 534 384個SNPs,其中12.82%不存在于dbSNP庫。在外顯子區(qū)域的注釋中,沉默突變在所有突變類型中占比最大為63.91%,錯義突變占35.62%(圖1A)。SNP在染色體上的密度分布如圖1B所示。 A.SNP檢測中各類型突變的比例;B. SNP在染色體上的密度分布:X軸代表染色體長度,Y軸代表18條常染色體和X染色體,不同的顏色表示1 Mb內(nèi)包含的SNP個數(shù)A. Proportion of each type of mutation in SNP detection; B. Density distribution of SNPs on chromosomes: X-axis represents the chromosome length,Y-axis represents 18 autosomes and X chromosome, different colors indicate the number of SNPs contained in 1 Mb圖1 皖岳黑豬種群的SNP特征Fig.1 SNP characteristics of Wanyue black pig population 本研究共獲得43 673個SVs,變異總長為354.36 Mb,覆蓋了豬全基因組的14.5%,變異類型及長度所占比例表明,檢出的缺失變異最多,插入變異最少(圖2A);SVs在基因組各區(qū)域的分布表明,有3.6%的SVs落在基因外顯子區(qū)域(圖2B)。 A.SV類型的變異長度分布比例;B. 皖岳黑豬SV變異在基因組各區(qū)域分布情況A.Proportion of variation length distribution of SV types; B. Distribution of SV variants in various regions of the genome of Wanyue black pigs 圖2 皖岳黑豬種群SV特征Fig.2 SV characteristics of Wanyue black pig population 本研究共檢測到3 258個CNVRs,其中“Loss”型2 427個,“Gain”型831個。檢測出的CNVR在染色體上的分布如圖3所示,可以看出兩種類型的CNVR在染色體上的分布都較為均勻,并且“Loss”型CNVR的基因組覆蓋度遠大于“Gain”型。CNVR在基因組的基因間區(qū)分布最多(47.5%),其次是基因組的內(nèi)含子區(qū)域(20.5%),見圖4。 圖3 CNVR在染色體上的分布Fig.3 Distribution of CNVR on chromosomes 圖4 CNVR在基因組各區(qū)域的分布Fig.4 Distribution of CNVR in various regions of the genome 皖岳黑豬群體的Ne為4.2,He為0.320,Ho為0.328,PN為0.788。He與Ho近乎相等且He小于Ho,這一結果表明皖岳黑豬群體遺傳多樣性豐度較低且有其他血緣的引入,這也映照了皖岳黑豬在育種過程中有杜洛克及北京黑豬血緣的加入。但其有效群體大小依舊偏低,這就提示我們,在今后的選育方案中要考慮新的特別是公豬血緣的加入。 皖岳黑豬群體IBS遺傳距離在0.157 4~0.287 3之間,平均為(0.243 5±0.022 2)。皖岳黑豬群體IBS距離矩陣的結果如圖5所示。皖岳黑豬個體間的IBS遺傳距離總體較遠,呈中等程度的親緣關系,部分個體間的IBS遺傳距離較近,存在較高的親緣關系,可能是皖岳黑豬在選育過程中出現(xiàn)了近交現(xiàn)象,在今后的選育中一定要多加注意,避免其發(fā)生近交衰退現(xiàn)象。 圖5 IBS遺傳距離矩陣Fig.5 IBS genetic distance matrix 利用Plink軟件計算皖岳黑豬個體的ROH,共檢測出973個ROH片段,平均每個個體中有40個ROH片段且個體總長度為14.6~178.0 Mb,平均ROH長度為(61±9.4)Mb。當前整個群體的近交系數(shù)平均值為(0.025±0.004)?;赗OH的近交系數(shù)FROH的分布如圖6所示。 圖中心的白色圓點代表該群體FROH的中位數(shù),中間黑色長方形方框的上緣和下緣分別為群體 FROH的上四分位數(shù)和下四分位數(shù)。小提琴圖的寬窄表示群體FROH的概率密度分布,小提琴圖越寬的部分表示處于該水平的樣本數(shù)目越多,反之則越少The white dot in the center of the figure represents the median of FROH in the group, and the upper and lower edges of the black rectangle in the middle are the upper and lower quartiles of the group FROH, respectively. The width of the violin plot indicates the probability density distribution of the population FROH, and the wider the violin plot, the larger the number of samples at that level, and vice versa圖6 基于ROH的近交系數(shù)分布圖Fig.6 Distribution of the inbreeding coefficient FROH based on ROH 通過機器學習方法最終選出33個SNP位點作為皖岳黑豬群體的特征位點。用訓練集對選出的SNP位點進行驗證,其主成分分析結果如圖7所示,可以看出這33個SNPs位點可以很好的將皖岳黑豬個體與其他6個品種分開,用測試集測試這33個位點區(qū)分皖岳黑豬的準確性,準確率達到95%以上,證明這33個SNPs位點可以作為皖岳黑豬的特征庫。 圖7 基于10個特征SNPs的7個豬品種的主成分分析Fig.7 Principal component analysis of 7 pig breeds based on 10 characteristics SNPs 對位點進行Ensembl數(shù)據(jù)庫檢索,33個SNPs位點映射到15個基因Ensemble號,標記到11個基因(表1),分別是SUSD4、GPC6、TENM2、NELL1、TMSB10、CHD1L、SLC41A2、KHDRBS2、CRISP1、NECTIN1、GRIK4。還有4個基因號未被標記,但是同樣也參與生物過程。GO和KEGG進行富集分析,對這些基因進行功能評估,在84個GO項和5個KEGG途徑中發(fā)現(xiàn)顯著(FDR<0.05)的基因富集性,GO結果顯示,這些基因富集到的生物過程(biological process, BP)為 39 個,細胞組分(cellular component, CP)為 34 個,分子功能(molecular function, MF)為 11個(圖8)。主要參與成骨細胞活性(NELL1)、免疫系統(tǒng)過程(SUSD4)、細胞膜突觸(NECTIN1)等。KEGG分析結果顯示,這些基因富集到了粘附連接(adherens junction,NECTIN1)、谷氨酸突觸(glutamatergic synapse,GRIK4)、細胞粘附分子(cell adhesion molecules,NECTIN1)、單純皰疹病毒1型感染(herpes simplex virus 1 infection,NECTIN1)、神經(jīng)活性配體-受體相互作用(neuroactive ligand-receptor interaction,GRIK4)這5條通路(圖9)。 表1 皖岳黑豬特征位點及注釋結果Table 1 Characteristic loci and annotation results of Wanyue black pig 圖8 皖岳黑豬特定SNPs基因的GO富集結果Fig.8 GO terms enriched by genes of specific SNPs in Wanyue black pig 圖9 皖岳黑豬特定SNPs基因的KEGG pathway 結果Fig.9 KEGG pathway enriched by genes of specific SNPs in Wanyue black pig 本研究檢測并注釋了皖岳黑豬全基因組遺傳變異和SNP位點。在外顯子區(qū)域檢測到了相對較多的沉默突變,由于密碼子的簡并性,沉默突變的發(fā)生對蛋白質(zhì)的翻譯不造成影響[23],但最近一項重要的研究表明同義突變確實會導致蛋白質(zhì)折疊的改變,進而損害細胞功能[24]。本研究中有3.6%的SV發(fā)生在基因組的外顯子區(qū)域,外顯子區(qū)域?qū)儆诨蚓幋a區(qū),稀有且相同的一些SV往往和疾病(包括癌癥)的發(fā)生相互關聯(lián)甚至還是其直接的致病誘因[25],該區(qū)域內(nèi)的變異對蛋白質(zhì)的翻譯起重要作用。本研究結果表明,皖岳黑豬具有豐富的變異信息,這些變異信息的潛在功能對研究皖岳黑豬種質(zhì)特性具有重要的作用。 當前我國絕大多數(shù)畜禽保種場都面臨著群體有效大小偏低的問題,皖岳黑豬的有效群體大小相較于其他品種如北京黑豬(10.1)、民豬(8.1)[26]、撒壩豬(21)[27]要小很多,IBS遺傳距離(0.157 4~0.287 3)也相對于其他品種小。造成這一結果的原因一方面是皖岳黑豬屬于培育品種,在培育過程中比較封閉,且存在較嚴重的近交現(xiàn)象。該結果提示,在今后的育種過程中需要多加注意,積極引入本品種新的血緣,特別是公豬血緣。多態(tài)性標記比例(PN, MAF>0.05)為0.788,表明該品種在培育過程中保留了其親本特異遺傳基因,獲得了較高的遺傳多樣性。 ROH是單個個體鑒定的純合基因型片段,由一系列相同的單倍型組成。ROH提供近親繁殖事件的年齡和起源的信息,可用于評估可靠的近親繁殖系數(shù)[28]。本研究中,皖岳黑豬平均ROH長度為(61±9.4)Mb,低于青峪豬(131.39±121.33)Mb[29]和安慶六白豬255.19 Mb[30]的平均長度。當前整個群體的近交系數(shù)平均值為(0.025±0.004),與報道的恩施黑豬(0.069±0.06)[31]及青峪豬(0.055)[29]的近交系數(shù)相比更低。這可能是因為皖岳黑豬在雜交培育過程中血統(tǒng)來源廣泛。 皖岳黑豬經(jīng)過多年的人工選育,集合了來自親本的優(yōu)勢性狀,具有瘦肉率高,繁殖性能好,抗病能力強,環(huán)境適應性強等特點。因此,其在基因組水平上一定存在相適應的變異,通過全基因組重測序技術在基因組水平上查找影響其表型和經(jīng)濟性狀的候選基因及功能突變位點,經(jīng)過統(tǒng)計分析,篩選其分子遺傳標記。選取不同地域分布的豬種,從地理隔絕方面來證實篩選位點的可靠性,降低基因重復性,以保證篩選位點最大程度的特異性。對篩選位點進行基因注釋及功能富集分析,發(fā)現(xiàn)這些位點大部分位于內(nèi)含子區(qū)域,一般認為內(nèi)含子區(qū)域突變對基因的功能不產(chǎn)生影響[32],但近幾年的研究表明,內(nèi)含子區(qū)域的變異對基因的調(diào)控作用及其致病風險要低于CDS區(qū)域和基因調(diào)控區(qū)域[33],但是位于第一個內(nèi)含子的SNP比其他內(nèi)含子中的SNP致病風險大。內(nèi)含子中SNP主要依靠影響剪切位點活性來影響基因功能。剪切位點的失活可能會影響翻譯,影響蛋白質(zhì)序列[34],內(nèi)含子中的SNP也有可能影響基因功能?;蚬δ芨患Y果顯示,這些基因在功能上可能與皖岳黑豬生長速度快、環(huán)境適應性強的品種特征相關。GPC6和NELL1基因與生長相關。GPC6 (GLYPICAN 6)是糖基磷脂酰肌醇錨定的硫酸乙酰肝素蛋白聚糖家族的一員,與控制細胞生長和細胞分裂有關[35-36]。NELL1基因編碼含有表皮生長因子(EGF)樣重復序列的細胞質(zhì)蛋白,是一種對骨軟骨譜系高度特異性的有效生長因子,并已證明了對骨骼的強效誘導[37-38]。NECTIN1編碼粘附蛋白作為偽狂犬病病毒(PRV)的糖蛋白D(gD)的受體,介導病毒進入上皮和神經(jīng)元細胞[39-40]。KHDRBS2基因與大白豬[41]和梅古山羊[42]的繁殖性狀有關。皖岳黑豬生長在高海拔、高坡度、高風速、高濕度、水質(zhì)優(yōu)良、空氣負氧離子含量高的生態(tài)環(huán)境,適應當?shù)囟緡篮⑾募究釤岬臍夂驐l件,因此形成了其獨特的種質(zhì)特性,具有較強的環(huán)境適應能力。GRIK4基因的剪接和表達的改變有助于牦牛調(diào)節(jié)其行為認知和神經(jīng)系統(tǒng)去適應高海拔環(huán)境[43]。CHD1L基因編碼參與DNA修復的DNA解旋酶蛋白,與癌癥相關[44]。該基因也被發(fā)現(xiàn)在早期發(fā)育階段與細胞分裂有關[45],并通過與PARP1相互作用來調(diào)節(jié)干細胞的多能性[46],這意味著CHD1L在調(diào)節(jié)干細胞多能性及胚胎發(fā)育方面具有特定作用[47],可作為皖岳黑豬在胚胎發(fā)育方面研究的候選基因。 本研究揭示了皖岳黑豬全基因組遺傳變異信息,為今后對皖岳黑豬表型性狀遺傳機制的研究奠定了基礎。在后續(xù)選育過程中需要制定更加合理全面的育種方案以確保其遺傳多樣性?;谔暨x最大分類能力方法初步獲得皖岳黑豬33個基因組特異SNPs位點,通過注釋獲得這些位點的基因功能,將為未來皖岳黑豬種質(zhì)特性形成的分子機制研究提供科學參考。1.4 皖岳黑豬遺傳距離分析
1.5 皖岳黑豬ROH近交系數(shù)
1.6 基因組特征庫構建及特異SNP位點功能注釋
2 結 果
2.1 皖岳黑豬基因組變異檢測
2.2 皖岳黑豬群體遺傳多樣性分析
2.3 皖岳黑豬遺傳距離
2.4 皖岳黑豬ROH近交系數(shù)
2.5 基因組特異SNPs位點
2.6 基因功能注釋
3 討 論
4 結 論