• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    Nanopore 單分子測序基因組結(jié)構(gòu)變異分析流程比較

    2020-08-13 12:48:56王曦路
    關(guān)鍵詞:覆蓋度變異基因組

    王曦路

    (復(fù)旦大學(xué) 生命科學(xué)學(xué)院,上海 200000)

    0 引言

    結(jié)構(gòu)變異(Structural variant,SV)包括插入,缺失,重復(fù),倒位和易位(一般定義為大于50bp)[1-3]。在基因組中存在的遺傳變異形式中,結(jié)構(gòu)變異仍然是其功能影響最難以解釋的變異之一。一直以來基因組結(jié)構(gòu)變異被認(rèn)為與表型多樣性、人類疾病、基因多樣性以及大規(guī)模染色體進(jìn)化等有關(guān),但他們的影響仍未完全清楚。目前對于結(jié)構(gòu)變異的功能影響的研究主要來源于人類疾病研究方面[1-5]。

    從Sanger 測序到下一代測序(NGS),可以從測序數(shù)據(jù)中收集的信息量和豐富程度大大增加,同時(shí)測序成本急劇下降[6]。測序技術(shù)的進(jìn)步使得對SNP 以及小的插入和缺失等變異的檢測和分析取得了長足的進(jìn)展,但受限于讀長,使用NGS 進(jìn)行SV 檢測仍然面臨許多困難[7]。以O(shè)xford 開發(fā)的Nanopore 測序技術(shù)[8]以及Pacific Biosciences(PacBio)開發(fā)的SMRT 測序技術(shù)為代表的單分子測序技術(shù)的出現(xiàn)使得長讀長測序成為可能。借助單分子測序技術(shù),近期已有多種遺傳病找到了相關(guān)SV。如:雙相情感障礙和精神分裂癥[9],家族性皮質(zhì)肌陣攣性震顫伴癲癇(familial cortical myoclonic tremor with epilepsy,F(xiàn)CMTE)[10],神經(jīng)元核內(nèi)包涵體病(Neuronal intranuclear inclusion disease, NIID)[11-13]等。但單分子測序技術(shù)仍然存在一定的局限性,最主要的是較高的測序錯誤率和更加昂貴的成本[14]。因此,使用適當(dāng)?shù)姆治龇椒ㄒ约案采w度進(jìn)行檢測在減少錯誤和控制成本上就顯得尤為重要。

    目前針對Naopore 測序數(shù)據(jù)可以使用的比對軟件主要有以下幾種:NGMLR[15],BWA-MEM[16],Graphmap[17],Minimap2[18]。SV 發(fā) 現(xiàn) 軟 件 有NanoSV[19]和Sniffles[15]。Genome in a Bottle(GIAB)聯(lián)盟發(fā)布了針對NA12878 基因組的高可信度SV 集合(2676 個缺失SV 以及68 個插入SV)。這是一個由不同平臺進(jìn)行深度測序得到的集合,并在家系中驗(yàn)證準(zhǔn)確率為99.7%,可以對數(shù)據(jù)分析流程進(jìn)行性能驗(yàn)證[20]。我們評估了四個比對軟件和兩個SV 發(fā)現(xiàn)軟件的組合性能。這將對Nanopore 測序在臨床及科研上的SV 檢測提供一定的依據(jù)。

    1 材料與方法

    1.1 研究使用的Nanopore 數(shù)據(jù)集。本研究使用的數(shù)據(jù)集來自GIAB 聯(lián)盟發(fā)布的基于Nanopore 測序平臺的NA12878基因組測序數(shù)據(jù)(https://github.com/nanopore-wgsconsortium/NA12878)[21]。該數(shù)據(jù)由多家實(shí)驗(yàn)室分別測序獲得。在獲得Fastq 數(shù)據(jù)后,以人參考基因組(NCBI build 37)作為參考序列(與高可信度SV 集合保持一致),分別以不同的覆蓋倍數(shù)(2-30×)進(jìn)行隨機(jī)抽樣,將抽樣得到的Fastq 作為起始數(shù)據(jù)進(jìn)行后續(xù)研究。

    1.2 數(shù)據(jù)比對和發(fā)現(xiàn)SV。分別使用NGMLR(默認(rèn)參數(shù))[15],BWA-MEM(bwa mem –x ont2d -M)[16],Graphmap(默認(rèn)參數(shù))[17]和Minimap2(默認(rèn)參數(shù))[18]將抽樣的fastq 數(shù)據(jù)比對到人參考基因組(NCBI build 37)上,產(chǎn)生SAM 文件。

    之后分別使用NanoSV[19]和Sniffles[15]進(jìn)行SV 檢測,Sniffles 需要修改參數(shù)(最小reads 支持修改為2)以增加SV 檢測的靈敏度,如圖1 所示。

    圖1 數(shù)據(jù)比對和發(fā)現(xiàn)SV 流程

    1.3 性能評估。分別獲取各分析流程的各覆蓋度下的SV 集合與高可信度SV 集合的共識SV。以評判其準(zhǔn)確度(檢測到的標(biāo)準(zhǔn)SV 中的SV 在該流程的得到的所有SV 中的百分比)和召回率(該流程檢測到的SV 在標(biāo)準(zhǔn)SV 中的百分比)。比較兩個SV 是否相同時(shí),缺失SV 在基因組上顯示為一個區(qū)域,而插入SV 僅有一個斷點(diǎn)坐標(biāo),因此需要使用不同的標(biāo)準(zhǔn)。對于缺失SV,兩個缺失之間的重疊區(qū)域超過50%則認(rèn)為它們是相同的。插入SV 的判斷在之前的研究中標(biāo)準(zhǔn)差異較大,如果兩個插入SV 之間相距不超過500bp,則認(rèn)為兩個插入相同[22]。

    2 結(jié)果

    2.1 各流程在各覆蓋度下的SV 發(fā)現(xiàn)數(shù)量。為了確定Nanopore 數(shù)據(jù)中SV 檢測的最佳覆蓋度,我們使用抽樣的2×,4×,6×,8×,10×,12×,15×,20×,25× 和30×,在每個覆蓋度下分別使用NGMLR,BWA-MEM,Graphmap 和Minimap2 進(jìn)行比對,之后分別使用NanoSV和Sniffles 進(jìn)行SV 發(fā)現(xiàn)。各分析流程各覆蓋度下發(fā)現(xiàn)的SV數(shù)量如圖2 所示。隨著覆蓋度的增加,SV 的數(shù)量都在持續(xù)增加,這可能是由于Nanopore 本身的測序錯誤率較高導(dǎo)致的。但是除Minimap2 分析流程外,在超過20×之后,SV 的增量均有明顯的的降低,尤其是使用NanoSV 發(fā)現(xiàn)SV 的流程中更為顯著。

    圖2 各分析流程各覆蓋度下發(fā)現(xiàn)的SV 數(shù)量

    2.2 不同流程之間的性能差異。在所有流程中的召回率都是隨著覆蓋度的升高而增加,20×之后趨勢變緩。

    30× 覆蓋度下對于缺失SV 的召回率最高的是NGMLR/NanoSV 流 程( 召 回 率:96.936%, 準(zhǔn) 確 率:2.368%);而召回率最低的是Minimap2/Sniffles(召回率:18.984%,準(zhǔn)確率:0.247%)。20×覆蓋度下,召回率最高為NGMLR/NanoSV(召回率:94.918%,準(zhǔn)確率:2.463%),與30×下差異不大。

    30× 覆蓋度下對于插入SV 的召回率最高的是Graphmap/NanoSV 流程(召回率:80.882%,準(zhǔn)確率:0.119%);而召回率最低的是Minimap2/Sniffles(召回率:19.118 %,準(zhǔn)確率:0.006%)。20×覆蓋度下,召回率最高為Graphmap/NanoSV(召回率:77.941 %,準(zhǔn)確率:0.122%),與30×下差異不大。

    由此,結(jié)合成本和召回率考慮,選擇以20×左右的覆蓋度作為標(biāo)準(zhǔn)較為合適詳情加圖3,圖4。

    圖3 各流程覆蓋度下對于缺失SV 的召回率

    圖4 各流程各覆蓋度的召回率

    3 討論

    在本研究中,我們評估了目前常用于Naopore 測序數(shù)據(jù)分析的4 種比對軟件。以及兩種SV 發(fā)現(xiàn)軟件。我們發(fā)現(xiàn)對于nanopore 測序來說,20×的覆蓋度是在研究中比較適合的覆蓋度。同時(shí),我們發(fā)現(xiàn)不同的分析流程之間結(jié)果會有很大的差異,對于缺失SV,20×覆蓋度下,召回率最高為NGMLR/NanoSV(召回率:94.918%,準(zhǔn)確率:2.463%);對于插入SV,20×覆蓋度下,召回率最高為Graphmap/NanoSV(召回率:77.941%,準(zhǔn)確率:0.122%)

    在發(fā)現(xiàn)SV 的數(shù)量上,Sniffles 與NanoSV 相比總體上差異不大,但Sniffles 可以發(fā)現(xiàn)復(fù)雜結(jié)構(gòu)變異這一點(diǎn)上更具優(yōu)勢。

    猜你喜歡
    覆蓋度變異基因組
    呼和浩特市和林格爾縣植被覆蓋度變化遙感監(jiān)測
    基于NDVI的晉州市植被覆蓋信息提取
    牛參考基因組中發(fā)現(xiàn)被忽視基因
    變異危機(jī)
    變異
    低覆蓋度CO分子在Ni(110)面的吸附研究
    變異的蚊子
    百科知識(2015年18期)2015-09-10 07:22:44
    基因組DNA甲基化及組蛋白甲基化
    遺傳(2014年3期)2014-02-28 20:58:49
    有趣的植物基因組
    基因組生物學(xué)60年
    县级市| 通榆县| 济南市| 韶山市| 斗六市| 白朗县| 偏关县| 和田县| 大丰市| 霍邱县| 汤阴县| 肃北| 驻马店市| 平顶山市| 襄垣县| 吉林市| 桃园县| 吉安市| 长春市| 上高县| 丘北县| 成都市| 伽师县| 汶川县| 平湖市| 桃源县| 三原县| 陇西县| 北流市| 抚宁县| 河西区| 阆中市| 甘南县| 石屏县| 泰来县| 广水市| 罗城| 北流市| 定安县| 双鸭山市| 柳江县|