楊 晴,鞏 靜,趙雪艷,朱曉東,耿立英,張傳生*,王繼英*
(1.河北科技師范學院動物科技學院,秦皇島 066600;2.山東省農業(yè)科學院畜牧獸醫(yī)研究所 山東省畜禽疫病防治與繁育重點實驗室,濟南 250100;3.農業(yè)農村部畜禽生物組學重點實驗室,濟南 250100;4.棗莊黑蓋豬養(yǎng)殖有限公司,棗莊 277100)
隨著高密度芯片和測序技術的高速發(fā)展,生物全基因組范圍內檢測出的標記數量逐漸增多,大量的遺傳標記信息使基因組遺傳變異分析得以更為準確和精準的實施。當前,SNP芯片與測序技術已成為動植物進行遺傳變異信息分析工作的主要工具,被廣泛應用于遺傳多樣性分析[1-2]、選擇信號檢測[3-4]、全基因組關聯(lián)分析[5-6]、基因組選擇等[7-8]。SNP芯片具有自動化、成本低、效率高等優(yōu)點,但其存在檢測位點較少、特異性強、無法發(fā)現(xiàn)新功能位點等缺點[9]。測序不受參考基因組的限制,甚至可通過提高測序深度來獲得所測樣本的全部遺傳變異信息,包括覆蓋低、中、高密度甚至全基因組范圍內的所有已知或未知的SNP位點信息[10],但其存在數據量大、分析復雜、成本較高的缺點[11]。實際研究中,還是要根據研究目的選擇適當的分型方法。雖然增加SNP檢測密度會提高分析結果的準確度,但在實際應用中,高密度分型會帶來高昂的經濟成本,極大地限制了高密度標記在基因組遺傳變異分析中的應用空間,所以根據研究目的探索適當的標記密度和經濟的分型方法,保證分析結果的準確性,成為近年來SNP標記分析的熱點研究內容之一。
已有報道顯示,低密度面板的基因組選擇,通過基因型填充等方法能夠達到中高密度,甚至測序數據相似的基因組預測精確程度,是一種低成本且高效的遺傳評估方法[12-14]。但是分析不同分型方法或不同SNP密度對全基因組遺傳變異分析結果是否存在影響且影響是否較大的報道仍較少。因此,本研究以35頭棗莊黑蓋豬的高密度SNP芯片數據和重測序SNP數據為基礎,利用重測序信息構建不同密度的SNP面板,以探究不同SNP分型方法和不同SNP密度對遺傳變異分析的影響,找到適用于遺傳變異分析的低成本、高效的分型方法和SNP密度,為今后豬及其他畜禽遺傳特性分析中適宜的基因分型技術和標記密度的選擇提供重要參考。
本研究所用的35頭棗莊黑蓋豬均采自山東省棗莊黑蓋豬養(yǎng)殖有限公司,包括16頭母豬和19頭公豬。采集試驗豬耳組織樣品存放于裝有75%酒精的2 mL凍存管內,放入-20 ℃低溫冰箱中保存?zhèn)溆谩?/p>
取樣本耳組織0.5 g左右,采用血液/細胞/組織基因組DNA提取試劑盒(DP304,TIANGEN公司,北京)進行基因組DNA的提取。利用NanoDrop 2000和瓊脂糖凝膠電泳對DNA的濃度和質量進行檢測,濃度>50 ng·μL-1,1.8 使用CAUPorcineSNP50芯片(北京康普森生物技術有限公司)對35個個體進行SNP分型,SNP檢出率平均為97.97%。基于華大-MGISEQ-T7技術測序平臺,利用雙末端測序(paired-end)的方法對35個個體進行基因組重測序,平均測序深度為13X,Q20為98.18%。原始數據質控后,使用BWA軟件[15]的BWA-MEN算法將質控數據與參考基因組(Ensembl Sus Scrofa11.1)進行比對,使用GATA[16]進行重比對,最后使用Samtools軟件[17]和Bcftools軟件[18]檢測基因組范圍內的SNP。 使用Plink(V1.90)[19]對SNP芯片和重測序中的數據按如下標準進行質量控制,標準如下:1)僅保留位于常染色體上的SNP位點;2)芯片數據刪除檢出率(call rate)<90%的SNP位點,重測序數據刪除檢出率<95%的SNP位點;3)刪除檢出率<90%的個體;4)刪除最小等位基因頻率(MAF)<0.05的SNP位點。 基于重測序檢測的SNP位點,利用R語言CVrepGPAcalc包(https://github.com/SmaragdaT/CVrep/)構建不同密度的SNP面板[20],依據SNP芯片密度共設計了3個梯度,分別為34K、340K和3 400K。面板的構建有兩種方法,第一種是在整個基因組中隨機抽樣來選擇SNP,第二種是根據特定步長的物理距離均勻的選擇SNP。其中,34K面板選擇兩種方法分別進行構建,340K和3 400K面板均采用第二種方法進行構建。 使用Plink(V1.90)計算群體的最小等位基因頻率(minor allele frequency, MAF)、觀察雜合度(observed heterozygosity,HO)、期望雜合度(expected heterozygosity,HE)、群體內遺傳距離等遺傳多樣性指標,使用Plink(V1.90)將數據格式轉化為vcf格式,再利用vcf2phylip和Phylip通過鄰接法(neighbor-joining, NJ)構建系統(tǒng)發(fā)生樹[21-22],最后利用FigTreev1.4.4軟件(http://tree.bio.ed.ac.uk/software/figtree/)將計算結果可視化。使用Plink(V1.90)計算狀態(tài)同源距離(identity by descent distance, IBS距離),隨后計算個體間遺傳距離(1-IBS距離),并利用BioLadder在線軟件(https://www.bioladder.cn/web/#/chart/6)繪制個體間遺傳距離熱圖。 使用R語言CMplot軟件包對SNP在染色體上的分布進行可視化,使用R語言detectRUNS軟件包[23]對基因組進行長純合片段(runs of homogeneity,ROH)檢測并計算各分組內的群體內近交系數(FROH),參數設置[24-26]為:SNP密度最小為每1 000 kb必須有1個SNP;連續(xù)兩個SNPs的間隔最大為1 000 kb;滑窗大小為50個SNPs;ROH滑窗中允許有1個SNP位點為雜合;ROH滑窗中允許有5個SNPs位點缺失;滑動窗口重疊比例至少為5%;ROH最少個數為40個SNPs。 利用CAUPorcineSNP50 芯片和基因組重測序對35頭棗莊黑蓋豬進行基因組SNP檢測,分別獲得了43 832個和31 437 418個SNPs位點。芯片的SNP檢出率平均為0.979 8,重測序的檢出率平均為0.997 0。各質控條件下芯片和重測序數據SNP位點的詳細剔除數量見表1。經過數據質控后,芯片和測序數據剩余位點的比例分別為78.69%和65.76%。 表1 SNP質控結果匯總Table 1 Summary of SNP quality control results 通過質控標準的芯片SNP位點個數為34 494個。依據芯片密度(34K)設置梯度,以重測序數據為“原材料”構建不同密度SNP面板。芯片和各密度SNP面板的SNP位點數目、MAF和相鄰SNP間距詳見表2??梢钥闯?芯片標記MAF均值為0.292,高于測序各組標記的MAF均值(0.244~0.245)。密度同為34K的3組相比,芯片SNP間距均值最大(70 809.82 bp),均勻34K的次之(65 819.90 bp),隨機34K的最小(63 359.20 bp)。但是,隨機34K組SNP間距的標準差最大(80 185.61 bp),遠高于芯片(57 626.21 bp)和均勻34K(1 771.16 bp)。綜合來看,芯片的SNP位點在染色體上的分布均勻度介于隨機34K和均勻34K之間。與圖1密度分布圖所示結果一致。不同密度測序SNP面板(均勻34K、均勻340K和均勻3 400K)相比較,均勻34K的SNP間距均值約為均勻340K的10倍,基本與構建面板時采用的步長大小(10×)相一致,標準差大小隨SNP密度的增加而減小。 表2 芯片和各測序面板SNP數目、最小等位基因頻率和間距Table 2 SNP number, MAF and space of adjacent SNPs of array and sequencing panels 利用芯片和各測序SNP面板的SNP標記分析棗莊黑蓋豬的遺傳多樣性結果見表3??梢钥闯?利用芯片SNP標記分析的HO、HE、遺傳距離均高于測序各組,利用各測序面板SNP標記分析的HO、HE、遺傳距離基本相同,特別是均勻分布的3組SNP(34K、340K和3400K)的遺傳多樣性指標更為接近。圖2展示了使用芯片和測序各組數據分析的35頭棗莊黑蓋豬樣本間遺傳距離矩陣熱圖,與表3結果一致,芯片與隨機34K及均勻分布SNP組間的差別最為明顯。 A. 芯片;B. 隨機34K;C. 均勻34K。矩陣中每一個小方格代表樣本兩兩之間的遺傳距離值,該值越大越接近紫色,越小越接近黃綠色A. Array; B. Random 34K; C. Even 34K. Each small square in the matrix represents the genetic distance value between two samples, the larger the value, the color is closer to purple, and the smaller the value, the color is closer to yellow-green圖2 樣本間遺傳距離熱圖Fig.2 Heat map of genetic distance between samples 表3 芯片和各測序面板遺傳多樣性參數值Table 3 Values of genetic diversity analyzed based on array and sequencing panels 利用芯片和各測序SNP面板的SNP標記構建了棗莊黑蓋豬群體鄰接法系統(tǒng)發(fā)生樹,詳見圖3。系統(tǒng)發(fā)生樹是表示個體間親緣關系的樹狀圖,相同分支上的個體具有相近親緣關系,為同一個家系??梢钥闯?基于芯片和各測序SNP面板的SNP標記構建的系統(tǒng)發(fā)生樹均將35頭棗莊黑蓋豬劃分為3大分支,每個大分支又可進一步細分成1~3個小分支。仔細對比分支上的個體,芯片與隨機34K、芯片與3組均勻SNP數據均存在一定的差別,而3個均勻分布的SNP數據(34K、340K和3 400K)構建的系統(tǒng)發(fā)生樹基本一致。 A. 芯片;B. 隨機34K;C. 均勻34K;D. 均勻340KA. Array; B. Random 34K; C. Even 34K; D. Even 340K圖3 鄰接法構建的系統(tǒng)發(fā)生樹Fig.3 Phylogenetic trees constructed by neighbor-joining method 利用芯片和各測序SNP面板的SNP標記分析了棗莊黑蓋豬ROH和基因組近交系數,詳見表4??梢钥闯?芯片與隨機34K相比,芯片檢測的ROH數目少(723vs. 784),但ROH長度大(14.86 Mbvs. 12.85 Mb),二者的FROH相近(0.125vs.0.127);均勻34K與隨機34K相比,均勻34K數據檢測到ROH數目更多(789vs. 784),長度更大(13.51 Mbvs. 12.85 Mb),FROH近交系數更高(0.134vs. 0.127)。3個均勻分布的數據組相比,隨著標記密度增加,檢測的ROH數目逐漸增多,ROH長度逐漸降低,估計的FROH近交系數也逐漸增加。 表4 芯片和各測序面板ROH及基因組近交系數值Table 4 ROH and genomic inbreeding coefficients based on array and sequencing panels 單核苷酸多態(tài)性(SNPs)是人類和其他動物可遺傳的變異中最常見的一種,在基因組中廣泛存在,作為第三代分子標記在畜禽遺傳多樣性分析、選擇信號檢測、全基因組關聯(lián)分析、基因組選擇等方面發(fā)揮著重要作用。近來的研究表明,人類基因組上SNP總數可達3 800萬個[27],目前已鑒定出的豬SNP已經超過四千余萬個[28]?;蚪M測序可以獲得所測樣本的全部SNP信息,因此,WGS數據有望可以用來更好地估計個體之間的真實關系[29]。SNP芯片僅包含了鑒定出的SNP位點的一個子集,SNP芯片的覆蓋率和密度適當的情況下,在估計基因組關系、遺傳多樣性分析等方面與測序技術一樣有價值[30]。 本研究中,35頭棗莊黑蓋豬基因組重測序共檢測到3 143.7萬個SNPs位點,經過數據質控后,測序數據剩余位點的比例(65.76%)小于芯片數據(78.69%),這與基因組重測序檢測到的SNPs中含有大量的(6 976 769個,占位點總數的22.19%)低MAF位點(MAF<0.05)有關。與本研究結果一致,Wang 等[31]、Eynard等[29]在對大約克豬、荷斯坦牛的基因組測序數據分析中也發(fā)現(xiàn)基因組測序包含了20%左右的低MAF(MAF<0.05)位點。與基因組測序相比,芯片基因組SNP在設計過程中,優(yōu)先選擇測序樣本中發(fā)現(xiàn)的高MAF的SNP位點[32]。本研究所用的CAUPorcineSNP50 芯片整合現(xiàn)有重要經濟功能基因公開報道的候選位點,并加入部分地方豬種全基因組重測序鑒定的特有SNP綜合優(yōu)化研制而成,所以該芯片SNP位點平均MAF值(0.292)高于各測序面板(0.244~0.245)。 利用芯片SNP標記分析的HO、HE、遺傳距離等遺傳多樣性各指標值均高于測序各組,利用芯片SNP標記構建的系統(tǒng)發(fā)生樹與測序各組也存在較大不同,而測序各組SNP標記分析的遺傳多樣性各指標值基本相同,構建的系統(tǒng)發(fā)生樹基本相似。本研究結果說明,分型方法對遺傳多樣性、遺傳距離和系統(tǒng)發(fā)生樹分析存在影響。以往的研究表明,芯片SNP位點由于傾向于選擇高MAF位點、位點群體代表性不全面等原因(即確定偏倚(ascertainment biases))會影響遺傳多樣性、群體分化、連鎖不平衡等分析的結果[33-35]。據此推測,本研究中芯片與測序對遺傳距離分析結果的不同可能是由于芯片和測序標記MAF差異所致。在測序方法下,不同SNP密度對遺傳多樣性、遺傳距離和系統(tǒng)發(fā)生樹分析結果影響較小,說明3.4萬個標記已經能充分滿足系統(tǒng)發(fā)生樹分析所需的標記數量,增加標記數目和增加數據運算量并不能進一步提高遺傳多樣性和系統(tǒng)發(fā)生樹的分析精確性。 本研究以重測序數據為“原材料”構建了不同密度SNP面板,利用芯片和各測序SNP面板的SNPs標記分析棗莊黑蓋豬的遺傳多樣性、系統(tǒng)發(fā)生樹和基因組近交系數。結果表明,利用芯片SNP標記分析的HO、HE、遺傳距離等遺傳多樣性指標值均高于各測序組,利用芯片SNP標記構建的系統(tǒng)發(fā)生樹與各測序組也存在較大不同,此外,芯片數據檢測出的ROH長度較測序組大,基于ROH計算的近交系數偏小。各測序組的不同SNP密度對遺傳多樣性和系統(tǒng)發(fā)生樹分析結果影響較小,但對ROH及基于ROH計算的基因組近交系數影響很大。因此,在研究初期進行試驗設計時,要根據研究目的選擇適宜的基因分型技術和標記密度,以降低成本和提高結果的準確性。1.3 基因分型和質控
1.4 不同密度SNP面板的構建
1.5 數據分析
2 結 果
2.1 SNP分型與質控
2.2 不同密度SNP面板的構建
2.3 遺傳多樣性和遺傳距離分析
2.4 系統(tǒng)發(fā)生樹
2.5 基于ROH的基因組近交系數分析
3 討 論
4 結 論