陳開旭,郭翠潔,楊 帆,任斐兒,李曉斌,劉武軍
(新疆農(nóng)業(yè)大學(xué)動(dòng)物科學(xué)學(xué)院,烏魯木齊 830052)
【研究意義】我國(guó)羊毛生產(chǎn)主要集中在新疆、內(nèi)蒙古、甘肅、青海、吉林等省(自治區(qū)),為我國(guó)目前細(xì)毛羊的主產(chǎn)區(qū),占全國(guó)細(xì)毛羊總產(chǎn)量的97%[1],對(duì)畜牧業(yè)經(jīng)濟(jì)發(fā)展有重要影響[2]。新疆細(xì)毛羊是毛、肉兼用細(xì)毛羊品種,由高加索細(xì)毛羊公羊與哈薩克母羊、泊列考斯公羊與蒙古羊母羊進(jìn)行雜交培育而成[3]。該品種適于干燥寒冷高原地區(qū)飼養(yǎng),采食性好,生活力強(qiáng),耐粗飼料等,利用全基因組重測(cè)序技術(shù)分析新疆細(xì)毛羊的遺傳多樣性,對(duì)發(fā)掘新疆細(xì)毛羊的遺傳資源,保護(hù)其多樣性基因庫(kù)有重要意義?!厩叭搜芯窟M(jìn)展】新疆綿羊品種較多[4],新疆細(xì)毛羊具有適應(yīng)性強(qiáng)、毛質(zhì)好、肉質(zhì)多、產(chǎn)毛量高、凈毛率高、體大、耐粗飼、遺傳性能穩(wěn)定等優(yōu)良品質(zhì)。開發(fā)和利用新疆細(xì)毛羊這一寶貴遺傳資源,對(duì)我國(guó)畜牧業(yè)的發(fā)展具有重要意義[5]。遺傳多樣性的本質(zhì)是地球上物種發(fā)生、進(jìn)化和變異的基礎(chǔ)[6,7],遺傳多樣性的研究方法已從傳統(tǒng)的形態(tài)標(biāo)記、染色體標(biāo)記及生化標(biāo)記等發(fā)展到分子水平遺傳標(biāo)記的研究[8]。【本研究切入點(diǎn)】目前有關(guān)基于全基因組重測(cè)序分析新疆細(xì)毛羊遺傳多樣性的研究文獻(xiàn)較少,需利用新疆細(xì)毛羊的全基因組重測(cè)序數(shù)據(jù),檢測(cè)不同綿羊品種的核苷酸多態(tài)性和單倍型多態(tài)性?!緮M解決的關(guān)鍵問(wèn)題】通過(guò)全基因組重測(cè)序的方法尋找新疆細(xì)毛羊的高密度 SNPs 遺傳標(biāo)記,運(yùn)用雜合度、連續(xù)純合子區(qū)域、連鎖不平衡分析評(píng)估新疆細(xì)毛羊的遺傳多樣性。
1.1.1 細(xì)毛羊
從伊犁鞏乃斯種羊場(chǎng)隨機(jī)選取10只新疆細(xì)毛羊(Xinjiang Fine Wool Sheep,XFW),通過(guò)頸靜脈采血法采集10mL頸靜脈血于含有抗凝劑(乙二胺四乙酸(EDTA)鹽)的真空采血管中,置于-80℃冰箱中凍存?zhèn)溆谩?0只巴音布魯克羊(Bayinbuluke Sheep,BYK)、10只策勒黑羊(Cele Black Sheep,CLE)、10只阿勒泰羊(Altay Sheep,ALT)的基因組數(shù)據(jù)下載自 NCBI 數(shù)據(jù)庫(kù)(GenBank檢索號(hào)SRP363313)的全基因組重測(cè)序數(shù)據(jù)。
1.1.2 DNA 提取與質(zhì)量檢測(cè)
按照血液全基因組DNA提取試劑盒(QIAGEN)操作步驟,從新疆細(xì)毛羊全血樣品中提取基因組DNA。DNA樣品的濃度和純度(DNA樣品中蛋白質(zhì)和RNA等污染),通過(guò)NanoDrop 1000超微量紫外分光光度計(jì)進(jìn)行檢測(cè),通過(guò)凝膠電泳試驗(yàn)判斷,DNA樣品的完整性和降解,綜合評(píng)判DNA樣品的質(zhì)量。
1.1.3 全基因組重測(cè)序與序列
1.1.3.1 測(cè)序文庫(kù)構(gòu)建
全基因組重測(cè)序?qū)蚪MDNA的質(zhì)量要求標(biāo)準(zhǔn)為:基因組DNA經(jīng)瓊脂糖凝膠電泳檢測(cè)結(jié)果顯示:條帶單一且清晰明亮,無(wú)拖尾(降解)現(xiàn)象,基因組DNA經(jīng)濃度測(cè)定結(jié)果顯示:濃度≥ 50ng/μL,總量大于3 μg,OD260/OD280=1.8~2.0(無(wú)蛋白及RNA污染),則認(rèn)為該DNA樣品質(zhì)量符合測(cè)序要求。
測(cè)序文庫(kù)構(gòu)建:(1)用超聲波將檢測(cè)合格的基因組DNA樣品隨機(jī)打斷成長(zhǎng)度約為500 bp的片段;(2)用末端修復(fù)酶修復(fù)DNA,以提高DNA連接入載體的效率;(3)片段3’ 末端連接多個(gè)堿基A尾;(4)連接測(cè)序接頭;(5)對(duì)DNA片段進(jìn)行選擇;(6)PCR擴(kuò)增DNA片段;(7)再次進(jìn)行DNA片段的選擇和純化。
文庫(kù)構(gòu)建完成后使用熒光計(jì)(Qutit2.0)進(jìn)行初定量,根據(jù)定量結(jié)果將DNA片段濃度稀釋至1 ng/μL。使用Agilent 2100 bioanalyzer對(duì)Insert Size檢測(cè),確保Insert Size符合文庫(kù)要求。使用Q-PCR方法準(zhǔn)確定量文庫(kù)的有效濃度。利用Illumina Hiseq 4000高通量測(cè)序平臺(tái)對(duì)文庫(kù)進(jìn)行雙末端全基因組重測(cè)序。
1.1.3.2 測(cè)序質(zhì)量評(píng)估與過(guò)濾
對(duì)完成全基因組重測(cè)序后的基因組序列數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估與過(guò)濾,包括:去除無(wú)法配對(duì)的讀長(zhǎng)(reads)和低質(zhì)量的reads、去除reads兩端的barcoding序列 和index序列。數(shù)據(jù)清理后,獲得10個(gè)文庫(kù)的20個(gè).fastq文件。采用FastQC 軟件對(duì)測(cè)序后的基因組序列質(zhì)量進(jìn)行統(tǒng)計(jì),內(nèi)容包括:綿羊基因組測(cè)序序列reads中C、T、G、A四種堿基的含量和偏好性;基因組序列中的reads數(shù)目和長(zhǎng)度的總體分布;reads中每個(gè)堿基的總體質(zhì)量。
1.1.3.3 全基因組序列比對(duì)及比對(duì)文件預(yù)處理
下載綿羊參考基因組序列文件(Oar_4.0)(https://www.ncbi.nlm.nih.gov/assembly/GCF_002742125.1)并建立其索引文件。綿羊參考基因組作為比對(duì)模板,使用 BWA MEM[9]程序?qū)γ總€(gè)綿羊個(gè)體基因組文庫(kù)測(cè)序生成的2個(gè).fastq文件分別進(jìn)行比對(duì),生成2個(gè).sam文件。10個(gè)DNA文庫(kù),共生成20個(gè).sam文件。將下載的10只策勒黑羊、10只巴音布魯克羊、10只阿勒泰羊個(gè)體的測(cè)序文件按照同樣的方法比對(duì),生成60個(gè).sam 文件。整理和統(tǒng)計(jì)比對(duì)后的reads數(shù)量、比例、reads的配對(duì)率等結(jié)果。
1.1.3.4 遺傳變異的鑒定、過(guò)濾和注釋
依據(jù)與參考基因組比對(duì)得到的結(jié)果,使用SAMtools[10]和GATK(版本號(hào):3.6-0-g89b7209)[11]兩款軟件包分別對(duì)個(gè)體單核苷酸多態(tài)性(SNP)進(jìn)行檢測(cè),并相互確認(rèn)檢測(cè)結(jié)果。通過(guò)SAMtools軟件的“mpileup”程序進(jìn)行序列校準(zhǔn),將覆蓋范圍在4~200的變異篩選出來(lái)進(jìn)行后續(xù)分析。通過(guò)GATK軟件采用單體型檢測(cè)方法對(duì)每只綿羊的基因組變異進(jìn)行檢測(cè)。采用過(guò)濾條件(MAF<0.05,丟失基因型>10%)過(guò)濾掉綿羊群體中具有較小等位基因頻率(MAF)的SNP,得到高可信度的SNP。
使用GATK軟件包對(duì)40個(gè)綿羊個(gè)體的基因組DNA序列進(jìn)行插入或缺失(Indel)檢測(cè),保留1-30 bp的Indel以備后續(xù)分析。
下載綿羊的SNP數(shù)據(jù)(https://www.ncbi.nlm.nih.gov/snp/),并與研究中檢測(cè)出的 SNP 進(jìn)行比對(duì)驗(yàn)證,確認(rèn)上述過(guò)程檢測(cè)到的SNPs的準(zhǔn)確性和可靠性。利用ANNOVAR軟件[12,13]注釋過(guò)濾和檢驗(yàn)后的SNPs。
使用 GATK(版本號(hào):3.6-0-g89b7209)[11]軟件對(duì)4個(gè)綿羊品種基因組中的變異位點(diǎn)和基因型進(jìn)行檢測(cè),評(píng)估新疆細(xì)毛羊的遺傳多樣性。
1.2.1 雜合度(Heterozygosity,H)
采用mlRho程序[14]計(jì)算不同綿羊群體中每個(gè)個(gè)體的雜合度,作為評(píng)估不同綿羊品系群體間遺傳多樣性的指標(biāo)之一。
1.2.2 連續(xù)純合子區(qū)域
使用PLINK軟件計(jì)算每個(gè)個(gè)體的連續(xù)性純合片段長(zhǎng)度和數(shù)量,設(shè)置參數(shù)[15-17]:chr-set 26 -maf 0.05 -homozyg-window-snp 50 -homozyg-snp 50 -homo-zyg-kb 300 -homozyg-density 50 -homozyg-gap 1000 -homozyg-window-missing 5 -homozyg-window-threshold 0.05 -homozyg-window-het 03.基于 ROH 的物理長(zhǎng)度,將 ROH 片段按照 <0.5 Mb、0.5~1 Mb、1~2 Mb、2~4 Mb、>4 Mb 進(jìn)行分類統(tǒng)計(jì),計(jì)算不同分類區(qū)間的ROH數(shù)目的比例?;赗OH計(jì)算基因組近交系數(shù)FROH,基因組近交系數(shù)的計(jì)算公式如下:
式中,∑LROH為常染色體上ROH片段的長(zhǎng)度之和,Lgenome為常染色體的物理長(zhǎng)度之和。
1.2.3 連鎖不平衡
使用Haploview軟件計(jì)算不同群體成對(duì)r2值,用以評(píng)估群體的連鎖不平衡程度,運(yùn)用R軟件包繪制不同綿羊品種間連鎖不平衡衰減圖。
研究表明,DNA條帶單一且無(wú)拖尾,DNA樣品完整性較好、無(wú)嚴(yán)重降解。圖1
注:M 泳道為λ-HindⅢ DNA Marker,1-10泳道為DNA樣品
經(jīng)試劑盒提取的基因組DNA OD260/OD280在1.8~2.0、基因組DNA濃度>50 ng/μL、基因組DNA總量>3 μg,基因組DNA的純度和濃度均符合測(cè)序要求。表1
表1 新疆細(xì)毛羊DNA樣品濃度及純度檢測(cè)
研究表明,得到的測(cè)序總深度高達(dá)76.84×,個(gè)體的平均測(cè)序深度為 7.68×,平均的比對(duì)率為96.38%,平均的基因組覆蓋度為97.88%,Q20(測(cè)序質(zhì)量值≥20的堿基所占百分比)為96.97%,Q30(測(cè)序質(zhì)量值≥30的堿基所占百分比)為91.93%。新疆細(xì)毛羊全基因組測(cè)序數(shù)據(jù)的比對(duì)率、全基因組覆蓋度、Q20、Q30等反映測(cè)序質(zhì)量的數(shù)據(jù)值均較高,測(cè)序質(zhì)量較好,測(cè)序數(shù)據(jù)能夠很好地反應(yīng)個(gè)體的基因組信息。表2
表2 全基因組測(cè)序數(shù)據(jù)質(zhì)量統(tǒng)計(jì)
研究表明,最終獲得了97 647 435個(gè)高質(zhì)量的常染色SNP位點(diǎn)和15 886 270個(gè)Indel;其中,34 744 752個(gè)SNP位點(diǎn)(35.58%)和5 588 596個(gè)Indel(35.18%)位于內(nèi)含子區(qū)域。還發(fā)現(xiàn)了97 986個(gè)錯(cuò)義變體和196 521個(gè)同義變體,以及1 394個(gè)缺失和981個(gè)插入導(dǎo)致的移碼突變。表3
表3 新疆細(xì)毛羊全基因組重測(cè)序數(shù)據(jù)遺傳變異鑒定、過(guò)濾和注釋
研究表明,雜合度(Ho)和期望雜合度(He)的范圍分別為0.175~0.233和0.239~0.245。在所有群體中,期望雜合度略高于觀測(cè)雜合度,綿羊群體均有不同程度的近交或受到不同程度(人工或自然)選擇的影響。新疆細(xì)毛羊的平均觀測(cè)雜合度(Ho=0.196)極顯著低于阿勒泰羊(Ho=0.222)(P<0.001),低于巴音布魯克羊(Ho=0.201),略高于策勒黑羊(Ho=0.194)。圖2
注:*表示不同綿羊群體間的雜合度具有顯著差異(P<0.05),**表示不同綿羊群體間的雜合度具有極顯著差異(P<0.01)
研究表明,4個(gè)綿羊群體間的ROH長(zhǎng)度區(qū)間差異較大,在47.985~178.833 Mb,而新疆細(xì)毛羊、策勒黑羊、巴音布魯克羊、阿勒泰羊的平均ROH長(zhǎng)度分別約為110.665、93.532、88.417和74.445 Mb,基因組近交系數(shù)分別約為0.042 3、0.035 8、0.033 8、0.028 5。表4
表4 4個(gè)綿羊群體的平均ROH長(zhǎng)度和基因組近交系數(shù)
新疆細(xì)毛羊在<0.5 Mb范圍的ROH總長(zhǎng)度顯著高于巴音布魯克羊、策勒黑羊和阿勒泰羊(P<0.05),新疆細(xì)毛羊遺傳多樣性水平低于巴音布魯克羊、策勒黑羊和阿勒泰羊。新疆細(xì)毛羊的平均ROH片段數(shù)量(215.8)顯著高于策勒黑羊(166.2)、巴音布魯克羊(152.9)和阿勒泰羊(150.2)(P<0.05),4個(gè)綿羊群體遺傳多樣性順序:阿勒泰羊> 巴音布魯克羊>策勒黑羊>新疆細(xì)毛羊。圖3,圖4
注:*表示不同綿羊群體間的ROH片段長(zhǎng)度差異顯著(P<0.05)
注:**表示不同綿羊群體間的平均ROH片段數(shù)量差異極顯著(P<0.01)
研究表明,r2為0時(shí),完全連鎖平衡,群體獨(dú)立遺傳;r2等于1時(shí),表示完全連鎖不平衡。不同群體的綿羊整體連鎖不平衡程度都較低,其中,新疆細(xì)毛羊的連鎖不平衡程度相對(duì)最低,阿勒泰羊的連鎖程度相對(duì)最高的,其次是巴音布魯克羊和策勒黑羊,阿勒泰的遺傳多樣性最高,其次是巴音布魯克羊,新疆細(xì)毛羊的遺傳多樣性最低。圖5
圖5 4個(gè)綿羊群體的連鎖不平衡變化
單核苷酸多態(tài)性(Single Nucleotide Polymorphisms,SNP) 指在基因組上單個(gè)核苷酸的變異(包括置換、顛換、缺失和插入),形成遺傳標(biāo)記,具有數(shù)量多,分布廣泛,多態(tài)性豐富,易于快速、規(guī)?;Y查,便于基因分型等特點(diǎn),其作為新的遺傳標(biāo)記對(duì)基因定位及相關(guān)疾病研究的意義亦非常重大。研究表明,部分基因的SNP位點(diǎn)與個(gè)體的發(fā)育性狀有關(guān),可以將此類基因作為選育生長(zhǎng)發(fā)育性狀的分子遺傳標(biāo)記[18,19],有利于加速 SNP 分子標(biāo)記技術(shù)在綿羊育種、遺傳分析中的應(yīng)用[20]。研究采用全基因組重測(cè)序技術(shù)對(duì)10個(gè)新疆細(xì)毛羊個(gè)體進(jìn)行全基因組重測(cè)序,通過(guò)遺傳變異鑒定和基因型信息整合,對(duì)變異位點(diǎn)質(zhì)量值,測(cè)序深度,有效信息比例等一系列的質(zhì)量過(guò)濾和控制條件,最終獲得了97 647 435個(gè)高質(zhì)量的常染色SNP位點(diǎn)和15 886 270個(gè)Indel;其中,34 744 752個(gè)SNP位點(diǎn)(35.58%)和5 588 596個(gè)Indel(35.18%)位于內(nèi)含子區(qū)域。此外,還發(fā)現(xiàn)了97 986個(gè)錯(cuò)義變體和196 521個(gè)同義變體,以及1 394個(gè)缺失和981個(gè)插入導(dǎo)致的移碼突變。
3.2.1 雜合度
雜合度(Heterozygosity,H)是度量自然群體遺傳變異的首選指標(biāo),表示在一個(gè)群體中某位點(diǎn)為雜合子的概率。群體雜合度能反映群體的遺傳結(jié)構(gòu)甚至是變化歷史,其值介于0到1。當(dāng)某一群體的期望雜合度(He)高于其觀測(cè)雜合度(Ho)時(shí),則群體被認(rèn)為可能受到了選擇或者近交影響;當(dāng)某一群體的期望雜合度(He)低于其觀測(cè)雜合度(Ho)時(shí),則群體被認(rèn)為可能引進(jìn)了其他品種的血緣。雜合度越高意味著群體遺傳多樣性越豐富,反之,雜合度低群體遺傳多樣性低。新疆細(xì)毛羊的平均觀測(cè)雜合度(0.196)極顯著低于阿勒泰羊(0.222)(P<0.001),低于巴音布魯克羊(0.201),略高于策勒黑羊(0.194),新疆細(xì)毛羊的遺傳多樣性水平顯著低于阿勒泰羊,低于巴音布魯克羊,略高于策勒黑羊。
3.2.2 連續(xù)純合子區(qū)域分析
長(zhǎng)純合片段(rus of homozygosity,ROH)是一類基因組中出現(xiàn)的連續(xù)不間斷的純合現(xiàn)象,表現(xiàn)為一段染色體區(qū)域缺乏雜合子[21]。在基因組某一段區(qū)域內(nèi),當(dāng)一定數(shù)量一定密度的SNPs表現(xiàn)為純合時(shí),可以判斷該區(qū)域存在ROH現(xiàn)象。遺傳漂變(Genetic Drift)、群體結(jié)構(gòu)(Population Structure)、人工選擇(Artificial Selection)、連鎖不平衡(linkage Disequihbnum,LD)、近親交配( inbreeding)等都會(huì)影響ROH的產(chǎn)生,其中近親交配是影響ROH的首要因素[21,22]。不同的動(dòng)物群體由于有著不同的群體大小、群體結(jié)構(gòu)和交配體制,受到不同的自然或人工選擇方式、選擇強(qiáng)度影響,通過(guò)長(zhǎng)期的歷史進(jìn)化過(guò)程,都會(huì)在基因組上形成獨(dú)特的ROH模式,ROH可以反映不同動(dòng)物群體所蘊(yùn)含的獨(dú)特遺傳背景信息。ROH可以用于估計(jì)動(dòng)物的近交情況[23,24]、推測(cè)近交的歷史[25,26]、鑒定受到選擇的基因[27,28]和有害突變[29-31]、評(píng)估遺傳多樣性和遺傳資源保護(hù)[23,32-34],以及優(yōu)化動(dòng)物育種規(guī)劃[29,35]。長(zhǎng)的ROH片段反映最近世代發(fā)生過(guò)近交,而短的ROH說(shuō)明較遠(yuǎn)世代產(chǎn)生近交,因?yàn)槭来鷶?shù)越短,ROH片段被重組打斷的可能性就越小。利用ROH計(jì)算基因組近交系數(shù)FROH可用于對(duì)物種或群體的近交情況進(jìn)行評(píng)估,其計(jì)算方法為基因組中ROH片段的總長(zhǎng)度占基因組總長(zhǎng)度的比例?;蚪M近交系數(shù)FROH和系譜近交系數(shù)FPED呈中等程度相關(guān)或強(qiáng)相關(guān),且基于ROH計(jì)算的基因組近交系數(shù)FROH最接近真實(shí)的近交系數(shù)[35-39]。
連續(xù)純合子區(qū)域分析結(jié)果顯示:新疆細(xì)毛羊、策勒黑羊、巴音布魯克羊、阿勒泰羊的平均ROH長(zhǎng)度分別約為110.665、93.532、88.417 和74.445 Mb,基因組近交系數(shù)分別約為0.042 3、0.035 8、0.033 8、0.028 5。新疆細(xì)毛羊在<0.5 Mb范圍的ROH總長(zhǎng)度顯著高于巴音布魯克羊、策勒黑羊和阿勒泰羊(P<0.05)。新疆細(xì)毛羊的平均ROH片段數(shù)量(215.8)顯著高于策勒黑羊(166.2)、巴音布魯克羊(152.9)和阿勒泰羊(150.2)(P<0.05),4個(gè)綿羊群體遺傳多樣性順序?yàn)?阿勒泰羊>巴音布魯克羊>策勒黑羊>新疆細(xì)毛羊。
3.2.3 連鎖不平衡分析
連鎖不平衡(Linkage Disequilibrium,LD)是指分屬兩個(gè)或兩個(gè)以上基因座位的等位基因同時(shí)出現(xiàn)在一條染色體上的幾率,高于隨機(jī)出現(xiàn)的頻率,呈現(xiàn)出一種相互關(guān)聯(lián)的現(xiàn)象[40,41]。重組率(Recombination),遺傳漂變(Genetic Drift),突變速率(Mutation Rate),自然選擇(Natural Selection),交配行為方式(Mating Behavior),遺傳連鎖方式(Genetic Linkage Mode)等許多因素都會(huì)對(duì)連鎖不平衡產(chǎn)生影響。不同物種或群體所經(jīng)歷的特殊歷史事件及繁殖行為等特征可以通過(guò)連鎖不平衡情況進(jìn)行反映。馴化選擇,會(huì)導(dǎo)致群體遺傳多樣性下降,位點(diǎn)間的相關(guān)性(連鎖程度)加強(qiáng)。通常馴化程度越高,選擇強(qiáng)度越大的群體,LD衰減速度是最慢的。連鎖不平衡分析結(jié)果表明:阿勒泰羊的連鎖不平衡程度相對(duì)最低,新疆細(xì)毛羊的連鎖程度相對(duì)最高的,其次是策勒黑羊和巴音布魯克羊,該結(jié)果與雜合度和連續(xù)純合子區(qū)域分析的結(jié)果基本一致,阿勒泰的遺傳多樣性最高,其次是巴音布魯克羊,新疆細(xì)毛羊的遺傳多樣性最低。
新疆細(xì)毛羊的平均觀測(cè)雜合度(Ho=0.196)極顯著低于阿勒泰羊(Ho=0.222)(P<0.001),低于巴音布魯克羊(Ho=0.201),略高于策勒黑羊(Ho=0.194);新疆細(xì)毛羊在<0.5Mb范圍的ROH總長(zhǎng)度顯著高于巴音布魯克羊、策勒黑羊和阿勒泰羊(P<0.05),其平均ROH片段數(shù)量(215.8)顯著高于策勒黑羊(166.2)、巴音布魯克羊(152.9)和阿勒泰羊(150.2)(P<0.05);在4個(gè)綿羊群體中,新疆細(xì)毛羊的連鎖不平衡程度相對(duì)最低。新疆細(xì)毛羊的遺傳多樣性水平相對(duì)低于阿勒泰羊、巴音布魯克羊和策勒黑羊。