• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于高密度單核苷酸多態(tài)性的共祖遠(yuǎn)親緣關(guān)系預(yù)測(cè)算法準(zhǔn)確性研究*

      2024-01-03 12:04:16管珊珊魏以梁趙雯婷麗趙李彩霞
      關(guān)鍵詞:親緣準(zhǔn)確性位點(diǎn)

      劉 京 李 晶 楊 瀾 管珊珊 魏以梁 趙雯婷 江 麗趙 東 李彩霞**

      (1)中國(guó)政法大學(xué),證據(jù)科學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100088;2)公安部鑒定中心,法醫(yī)遺傳學(xué)公安部重點(diǎn)實(shí)驗(yàn)室,現(xiàn)場(chǎng)物證溯源技術(shù)國(guó)家工程實(shí)驗(yàn)室,北京 100038;3)江蘇師范大學(xué)生命科學(xué)學(xué)院,江蘇省系統(tǒng)發(fā)育與比較基因組學(xué)重點(diǎn)實(shí)驗(yàn)室,徐州 221116)

      短串聯(lián)重復(fù)序列(short tandem repeat,STR)是司法鑒定領(lǐng)域進(jìn)行親緣關(guān)系鑒定的主要遺傳標(biāo)記,但其只能對(duì)親子[1]、同胞[2]、祖孫[3]等2 級(jí)以內(nèi)的近親緣進(jìn)行關(guān)系鑒定。單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)位點(diǎn)具有分布廣泛、突變率低等特點(diǎn),隨著全基因組測(cè)序(whole genome sequencing,WGS)、高密度SNP基因芯片等檢測(cè)技術(shù)的發(fā)展成熟,利用高密度SNP數(shù)據(jù)預(yù)測(cè)遠(yuǎn)至7~9級(jí)親緣關(guān)系成為近年來(lái)法醫(yī)遺傳學(xué)領(lǐng)域研究熱點(diǎn)[4-10],該技術(shù)即為法醫(yī)SNP系譜推斷技術(shù)。2018 年美國(guó)警方首次使用法醫(yī)SNP 系譜推斷技術(shù)搜索到“金州殺手”的遠(yuǎn)親[11],然后構(gòu)建系譜樹,進(jìn)而找到兇手成功破獲了42 年前的冷案,該技術(shù)被《科學(xué)》雜志(Science)評(píng)為當(dāng)年十大科學(xué)突破之一。此后,美國(guó)警方利用該技術(shù)為數(shù)百起冷案積案提供關(guān)鍵線索。一項(xiàng)基于美國(guó)白人的研究表明[4],建立約占人口2%的SNP 數(shù)據(jù)庫(kù),即可為約99%的人口找到至少一名3 代表/堂親(即7級(jí)親緣)。研究和實(shí)踐表明[12-14],法醫(yī)SNP系譜推斷與傳統(tǒng)STR 技術(shù)相結(jié)合已成為法醫(yī)DNA 服務(wù)冷案積案?jìng)刹榈男履J健?/p>

      目前基于高密度SNP 數(shù)據(jù)進(jìn)行遠(yuǎn)親緣關(guān)系推斷的方法眾多,包括:似然比算法、共享等位基因比 例(identical by state, ⅠBS) 算 法、 共 祖(identity-by-descent,ⅠBD)片段算法等[15]。似然比算法需提前給出一對(duì)個(gè)體之間具體關(guān)系類別的備擇假設(shè)和兩者無(wú)親緣的原假設(shè),再根據(jù)親緣關(guān)系的兩個(gè)互斥假設(shè),觀察個(gè)體間的遺傳標(biāo)記數(shù)據(jù)的條件概率,通過(guò)比較得到兩假設(shè)條件概率的似然比。ⅠBS 算法[16-17]通過(guò)評(píng)估樣本間每個(gè)SNP 等位基因頻率,計(jì)算基因組中共享等位基因比例程度確定親緣關(guān)系等級(jí)。以上兩種算法適合預(yù)測(cè)4級(jí)以內(nèi)親緣關(guān)系,5 級(jí)以上的親緣關(guān)系預(yù)測(cè)準(zhǔn)確性顯著降低[16]。ⅠBD片段算法通過(guò)檢測(cè)ⅠBD,即來(lái)自一個(gè)共同祖先的相同DNA 片段長(zhǎng)度和數(shù)量,判斷親緣關(guān)系遠(yuǎn)近。由于減數(shù)分裂時(shí),父母雙方的DNA 會(huì)發(fā)生斷裂和重組,親緣關(guān)系越遠(yuǎn)意味著傳遞代數(shù)(重組)越多,個(gè)體間共享的ⅠBD片段就越短,ⅠBD長(zhǎng)度使用厘摩(cM)衡量。該算法適于預(yù)測(cè)7 級(jí)左右的親緣關(guān)系,某些情況下可預(yù)測(cè)高達(dá)12 級(jí)的親緣關(guān)系[18]。

      ⅠBD 片段算法是目前法醫(yī)系譜推斷最常用算法。但在中國(guó)法醫(yī)遺傳學(xué)應(yīng)用實(shí)踐中,存在如下問(wèn)題:a.國(guó)外研究大多基于模擬親緣關(guān)系對(duì)和歐美人群親緣關(guān)系對(duì)[18],欠缺適合中國(guó)人群真實(shí)親緣關(guān)系的參數(shù)優(yōu)化、準(zhǔn)確性評(píng)估等系統(tǒng)性研究;b.需對(duì)高密度SNP 數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換、同源染色體分型等處理,分析流程繁瑣,普通法醫(yī)工作者難以完成。本項(xiàng)目組在國(guó)內(nèi)首次研究構(gòu)建了適合法醫(yī)應(yīng)用的ⅠBD親緣關(guān)系級(jí)預(yù)測(cè)的自動(dòng)分析算法流程,實(shí)現(xiàn)了大量樣本兩兩個(gè)體之間親緣關(guān)系的批量計(jì)算,并為多起命案積案?jìng)善铺峁┝岁P(guān)鍵線索[12-13]。本文詳述了該算法流程的構(gòu)建和優(yōu)化研究,并基于中國(guó)5個(gè)漢族大家系樣本的真實(shí)親緣關(guān)系對(duì)進(jìn)行了ⅠBD片段算法預(yù)測(cè)準(zhǔn)確性評(píng)估。本文研究成果將為中國(guó)法醫(yī)SNP 系譜推斷技術(shù)的研究和應(yīng)用提供數(shù)據(jù)支撐和軟件支持。

      1 材料與方法

      1.1 樣本來(lái)源

      采集本研究團(tuán)隊(duì)5 名成員的漢族家系253 人份樣本,總共5 560 對(duì)親緣關(guān)系(圖1),包括一級(jí)(1st)、二級(jí)(2nd)、三級(jí)(3rd)、四級(jí)(4th)、五級(jí)(5th)、六級(jí)(6th)、七級(jí)(7th)、八級(jí)(8th)、九級(jí)(9th)、大于九級(jí)(10~14 級(jí),>9th)親緣關(guān)系,以及26 318對(duì)無(wú)親緣關(guān)系。所有樣本在采集前均簽署知情同意書,本研究通過(guò)了公安部鑒定中心倫理委員會(huì)審查(編號(hào):2021-006)。

      1.2 DNA提取與檢測(cè)

      使用MagAttract M48 DNA Manual 試劑盒(Qiagen 公司,德國(guó))提取DNA,使用NanoDrop 2000c 分光光度計(jì)(Thermo Scientific 公司,美國(guó))進(jìn)行DNA 定量。使用WeGene V2 基因芯片(安瀾智能公司,中國(guó))進(jìn)行SNP 檢測(cè)(DNA 模板量均大于500 ng,芯片位點(diǎn)檢出率均大于98.5%),獲得約70萬(wàn)SNP位點(diǎn)分型數(shù)據(jù)。

      1.3 數(shù)據(jù)分析

      本研究形成的ⅠBD片段算法集成到項(xiàng)目組前期開發(fā)的DNA 系譜推斷系統(tǒng)DGA v1.0[19]進(jìn)行親緣關(guān)系預(yù)測(cè)。

      1.4 親緣關(guān)系推斷算法參數(shù)優(yōu)化

      1.4.1 預(yù)測(cè)準(zhǔn)確性評(píng)估指標(biāo)

      為了評(píng)估ⅠBD片段算法在中國(guó)真實(shí)家系親緣關(guān)系對(duì)預(yù)測(cè)準(zhǔn)確性, 本文使用絕對(duì)準(zhǔn)確率(accuracy,AC)、置信區(qū)間準(zhǔn)確率(confidence interval accuracy, CⅠA)、 假 陰 性 率 (false negative,F(xiàn)N)、假陽(yáng)性率(false positive,F(xiàn)P)、預(yù)測(cè)可信度(prediction credibility,PC)作為評(píng)估指標(biāo)。AC 是指某親緣等級(jí)的調(diào)查親緣關(guān)系對(duì)應(yīng)的所有關(guān)系對(duì)中,預(yù)測(cè)結(jié)果同樣是此等級(jí)的關(guān)系對(duì)所占的比例;CⅠA是指某親緣等級(jí)的調(diào)查親緣關(guān)系對(duì)應(yīng)的所有關(guān)系對(duì)中,預(yù)測(cè)結(jié)果是此等級(jí)或此等級(jí)±1級(jí)的關(guān)系對(duì)所占的比例[16];FN是指某親緣等級(jí)的調(diào)查親緣關(guān)系對(duì)應(yīng)的所有關(guān)系對(duì)中,預(yù)測(cè)結(jié)果是“無(wú)關(guān)”的關(guān)系對(duì)所占的比例;FP是調(diào)查親緣關(guān)系為“無(wú)關(guān)”(大于14級(jí))的所有關(guān)系對(duì)中,預(yù)測(cè)結(jié)果是“有關(guān)”(1~9 級(jí))的關(guān)系對(duì)所占的比例;PC是指某親緣等級(jí)的預(yù)測(cè)親緣關(guān)系對(duì)應(yīng)的所有關(guān)系對(duì)中,調(diào)查親緣關(guān)系為“有關(guān)”的關(guān)系對(duì)所占的比例。

      1.4.2 ⅠBD片段長(zhǎng)度閾值優(yōu)化

      為了評(píng)估不同匹配片段最低檢出長(zhǎng)度閾值對(duì)預(yù)測(cè)準(zhǔn)確性的影響,設(shè)置了0、3、6、9、12、15、20 cM 7 個(gè)不同的ⅠBD 片段長(zhǎng)度閾值,評(píng)估不同最低檢出ⅠBD片段長(zhǎng)度閾值的預(yù)測(cè)準(zhǔn)確性。

      Fig.1 The distribution of survey kinship degree

      1.4.3 支持向量機(jī)(SVM)優(yōu)化

      為了提高親緣關(guān)系預(yù)測(cè)等級(jí)的準(zhǔn)確性,本研究使用支持向量機(jī)(support vector machine,SVM)方法對(duì)ⅠBD片段算法中基于ⅠBD片段數(shù)量和長(zhǎng)度預(yù)測(cè)親緣關(guān)系等級(jí)進(jìn)行優(yōu)化,將預(yù)測(cè)有親緣關(guān)系ⅠBD片段總長(zhǎng)度和平均長(zhǎng)度的最小值設(shè)為閾值。本研究根據(jù)閾值設(shè)置3 個(gè)集合(圖2):集合1,預(yù)測(cè)為有親緣關(guān)系的關(guān)系對(duì);集合2,有ⅠBD片段結(jié)果的關(guān)系對(duì)中ⅠBD片段總長(zhǎng)度和平均長(zhǎng)度均小于該閾值的關(guān)系對(duì);集合3,有ⅠBD 片段結(jié)果的關(guān)系對(duì)中ⅠBD片段總長(zhǎng)度和平均長(zhǎng)度均大于該閾值但被預(yù)測(cè)為無(wú)關(guān)的關(guān)系對(duì),將集合1 和集合2 合并作為訓(xùn)練集,將集合3作為測(cè)試集,通過(guò)訓(xùn)練集對(duì)測(cè)試集重新進(jìn)行分類,以降低較遠(yuǎn)(6級(jí)及以上)親緣關(guān)系預(yù)測(cè)的FN。

      1.5 不同數(shù)量SNP預(yù)測(cè)評(píng)估

      由于法醫(yī)物證受時(shí)間、環(huán)境等影響,經(jīng)常會(huì)發(fā)生DNA 降解,檢出的SNP 位點(diǎn)會(huì)隨之減少。為了模擬降解DNA 對(duì)該系譜推斷算法預(yù)測(cè)效能影響,本文對(duì)位點(diǎn)進(jìn)行隨機(jī)的梯度下降篩選,將篩選的位點(diǎn)組合進(jìn)行兩次親緣關(guān)系預(yù)測(cè)的平均結(jié)果與原始數(shù)據(jù)結(jié)果進(jìn)行比較,評(píng)估不同密度SNP 位點(diǎn)組合對(duì)預(yù)測(cè)準(zhǔn)確性的影響。

      2 結(jié) 果

      2.1 基于IBD片段算法的親緣關(guān)系分析流程

      本文研究的ⅠBD 片段算法包括如下分析流程:過(guò)濾SNP 數(shù)據(jù)中的冗余信息,篩選位點(diǎn),對(duì)篩選后數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換,同源染色體分離,查找和合并各染色體上ⅠBD 匹配片段,基于ⅠBD 片段長(zhǎng)度、數(shù)量等值預(yù)測(cè)個(gè)體間親緣關(guān)系等級(jí),在算法研制過(guò)程中進(jìn)行ⅠBD 片段長(zhǎng)度閾值、SVM 親緣等級(jí)預(yù)測(cè)等優(yōu)化(圖3)。其中同源染色體分離選取了千人基因組中國(guó)人群作為參考數(shù)據(jù)集,使用隱馬爾可夫(HMM)算法將待分析數(shù)據(jù)父源和母源染色體分離;ⅠBD片段長(zhǎng)度計(jì)算時(shí)參考了HapMap計(jì)劃網(wǎng)站中SNP 物理距離(bp)與遺傳距離(cM)之間的關(guān)系進(jìn)行厘摩值轉(zhuǎn)換。基于以上分析流程,本研究使用Python 編寫了基于ⅠBD 片段算法進(jìn)行親緣關(guān)系分析的pipeline,實(shí)現(xiàn)了數(shù)據(jù)預(yù)處理自動(dòng)化、兩兩個(gè)體親緣關(guān)系計(jì)算批量化等功能。

      2.2 親緣關(guān)系推斷參數(shù)及SVM優(yōu)化結(jié)果

      2.2.1 親緣關(guān)系推斷算法結(jié)果

      使用上述ⅠBD片段算法對(duì)253份高密度SNP數(shù)據(jù)進(jìn)行親緣關(guān)系計(jì)算,將所有個(gè)體間預(yù)測(cè)的1~9級(jí)親緣關(guān)系等級(jí)與實(shí)際調(diào)查的親緣關(guān)系進(jìn)行比較并計(jì)算準(zhǔn)確性評(píng)估指標(biāo)(表1)。表1可以看出,前5級(jí)有較高的準(zhǔn)確率,平均CⅠA 為99.14%,F(xiàn)N 為0。隨著親緣關(guān)系等級(jí)的增加,準(zhǔn)確率也隨之降低,6級(jí)開始出現(xiàn)假陰性,8 級(jí)及以上假陰性明顯增加。1~7級(jí)親緣的預(yù)測(cè)可信度較高,平均值為99.75%。

      2.2.2 ⅠBD片段長(zhǎng)度閾值研究結(jié)果

      使用軟件計(jì)算兩兩個(gè)體ⅠBD片段長(zhǎng)度時(shí),需設(shè)置最低檢出ⅠBD片段長(zhǎng)度閾值。為評(píng)估該參數(shù)對(duì)預(yù)測(cè)準(zhǔn)確性影響,本文設(shè)置了0(即無(wú)最低檢出ⅠBD片段長(zhǎng)度限制)、3(默認(rèn)參數(shù))、6、9、12、15、20 cM 七個(gè)不同閾值長(zhǎng)度閾值,計(jì)算在253 份樣本中預(yù)測(cè)準(zhǔn)確性變化情況。圖4a 展示了不同ⅠBD 片段長(zhǎng)度閾值下AC變化情況;圖4b展示了不同ⅠBD片段長(zhǎng)度閾值下CⅠA 變化情況;圖4c 展示了不同ⅠBD片段長(zhǎng)度閾值下PC變化情況;圖4d展示了不同ⅠBD片段長(zhǎng)度閾值下FN變化情況;圖4e展示了不同ⅠBD 片段長(zhǎng)度閾值下FN 平均值和FP 變化情況。對(duì)比顯示0~9 cM ⅠBD 片段閾值參數(shù)對(duì)預(yù)測(cè)準(zhǔn)確性影響不大,當(dāng)ⅠBD 片段閾值大于9 cM,CⅠA、FP 均有一定程度降低,而PC、FN 有一定程度增加。

      Fig.2 The SVM training and test data set

      Table 1 Accuracy statistics of IBD algorithm in predicting kinship degree of 253 samples

      Fig.4 Accuracy evaluation of different IBD fragments threshold

      2.2.3 SVM優(yōu)化模型結(jié)果

      表1 結(jié)果顯示6 級(jí)及以上親緣關(guān)系預(yù)測(cè)時(shí)會(huì)出現(xiàn)假陰性。為提高算法預(yù)測(cè)能力,降低FN,本研究使用SVM 方法對(duì)基于ⅠBD 片段數(shù)量和長(zhǎng)度預(yù)測(cè)親緣關(guān)系等級(jí)的過(guò)程進(jìn)行優(yōu)化,將所有個(gè)體間預(yù)測(cè)的1~9級(jí)親緣關(guān)系等級(jí)與實(shí)際調(diào)查的親緣關(guān)系進(jìn)行比較并計(jì)算準(zhǔn)確性評(píng)估指標(biāo)(表2)。優(yōu)化后前5級(jí)平均CⅠA 為99.16%,6 級(jí)FN 由優(yōu)化前的2.14%降為0.43%,7 級(jí)FN 由優(yōu)化前的14.09%降為7.10%。為進(jìn)一步評(píng)估SVM 優(yōu)化后預(yù)測(cè)性能,絕對(duì)準(zhǔn)確率等評(píng)估指標(biāo)與2.2.1常規(guī)流程進(jìn)行橫向?qū)Ρ龋▓D5),結(jié)果顯示SVM 優(yōu)化后提高了遠(yuǎn)親緣(6~9 級(jí))關(guān)系等級(jí)CⅠA,降低了其FN。

      Table 2 Accuracy statistics of SVM IBD algorithm in predicting kinship degree of 253 samples

      Fig.5 Accuracy evaluation before and after SVM optimization

      2.3 真實(shí)親緣關(guān)系IBD片段長(zhǎng)度分布

      通過(guò)研究構(gòu)建的算法流程,本文分析253份樣本所有真實(shí)親緣關(guān)系對(duì)的ⅠBD 片段長(zhǎng)度分布情況。圖6 顯示了253 份樣本之間真實(shí)親緣關(guān)系等級(jí)的ⅠBD片段長(zhǎng)度分布圖,可以看出1~4級(jí)關(guān)系能明顯分離開來(lái),5級(jí)以上親緣關(guān)系ⅠBD片段長(zhǎng)度分布出現(xiàn)重疊,親緣關(guān)系越遠(yuǎn)長(zhǎng)度分布的重疊越多。

      2.4 不同SNP數(shù)量預(yù)測(cè)準(zhǔn)確性

      生物檢材受時(shí)間和環(huán)境等因素影響,DNA 會(huì)發(fā)生降解,SNP位點(diǎn)檢出數(shù)也會(huì)隨之降低。因此本文通過(guò)隨機(jī)篩選不同數(shù)量的位點(diǎn)組合,模擬低質(zhì)量樣本的預(yù)測(cè)結(jié)果。從253份樣本數(shù)據(jù)的所有SNP位點(diǎn)中,隨機(jī)篩選65萬(wàn)~10萬(wàn)、每組遞減5萬(wàn)位點(diǎn)共12組,每組位點(diǎn)個(gè)數(shù)隨機(jī)取2次,使用優(yōu)化后ⅠBD片段算法預(yù)測(cè)親緣關(guān)系,計(jì)算AC、CⅠA 等評(píng)估指標(biāo)的2次平均值。不同數(shù)量位點(diǎn)預(yù)測(cè)準(zhǔn)確性趨勢(shì)如圖7 所示。圖7a 展示了不同SNP 數(shù)量AC 變化情況;圖7b 展示了不同SNP 數(shù)量CⅠA 變化情況;圖7c展示了不同SNP數(shù)量PC變化情況;圖7d展示了不同SNP數(shù)量FN變化情況。結(jié)果顯示,隨著SNP數(shù)量的降低,各預(yù)測(cè)準(zhǔn)確性評(píng)估指標(biāo)會(huì)有一定程度的下降(FN 和FP 是隨著SNP 數(shù)量的降低而略升高),SNP 位點(diǎn)數(shù)下降對(duì)于超過(guò)5 級(jí)的親緣關(guān)系預(yù)測(cè)能力影響更明顯。

      Fig.6 IBD fragment length statistics for each actual kinship degree of 253 samples

      Fig.7 Accuracy evaluation of different SNP number

      3 討 論

      在群體遺傳學(xué)和法醫(yī)遺傳學(xué)應(yīng)用研究中,使用高密度SNP 數(shù)據(jù)進(jìn)行親緣關(guān)系預(yù)測(cè)受到越來(lái)越多的關(guān)注。項(xiàng)目組先前構(gòu)建了基于ⅠBS算法的分析流程,并評(píng)估了其在中國(guó)人群真實(shí)親緣中預(yù)測(cè)準(zhǔn)確性[16],結(jié)果顯示,該算法在4 級(jí)以內(nèi)親緣關(guān)系有較高預(yù)測(cè)準(zhǔn)確性,5級(jí)及更遠(yuǎn)親緣關(guān)系預(yù)測(cè)準(zhǔn)確性下降明顯。ⅠBD片段算法可以準(zhǔn)確預(yù)測(cè)1~7級(jí)親緣關(guān)系,在法醫(yī)SNP 系譜推斷中有廣泛應(yīng)用。但國(guó)內(nèi)缺乏ⅠBD片段算法分析流程、針對(duì)中國(guó)人群的算法優(yōu)化以及真實(shí)親緣關(guān)系預(yù)測(cè)準(zhǔn)確性等系統(tǒng)研究。本文搭建了基于ⅠBD片段算法預(yù)測(cè)親緣關(guān)系的全流程,實(shí)現(xiàn)了輸入數(shù)據(jù)格式預(yù)處理、批量化計(jì)算兩兩個(gè)體間ⅠBD片段長(zhǎng)度和親緣關(guān)系等級(jí)等功能,并通過(guò)軟件進(jìn)行了分析流程的集成自動(dòng)化。使用該分析流程對(duì)253份樣本兩兩間1~9級(jí)親緣關(guān)系進(jìn)行預(yù)測(cè)(表1),結(jié)果顯示ⅠBD 片段算法可以準(zhǔn)確預(yù)測(cè)1~7級(jí)親緣關(guān)系,平均CⅠA為94.49%。

      為進(jìn)一步提升ⅠBD片段算法預(yù)測(cè)準(zhǔn)確性,本文進(jìn)行了最低檢出ⅠBD 片段閾值和SVM 等優(yōu)化。不同最低檢出ⅠBD 片段長(zhǎng)度閾值結(jié)果(圖4)顯示,0~9 cM 的ⅠBD 片段閾值參數(shù)對(duì)預(yù)測(cè)準(zhǔn)確性影響不大,大于9 cM時(shí)預(yù)測(cè)準(zhǔn)確性會(huì)有一定程度的降低,分析其原因可能為:本流程所使用預(yù)測(cè)親緣等級(jí)算法[18]根據(jù)兩個(gè)個(gè)體間共享ⅠBD片段的數(shù)量、長(zhǎng)度和位置,使用原假設(shè)(兩個(gè)體不相關(guān))與備擇假設(shè)(兩個(gè)體共享有共同祖先)進(jìn)行概率比較。原假設(shè)中需要考慮群體中所有共享片段長(zhǎng)度的均值,即群體中隨機(jī)無(wú)關(guān)個(gè)體共享ⅠBD片段長(zhǎng)度,故較短ⅠBD片段在該算法中會(huì)被當(dāng)作群體背景噪音。Kling等[5]研究表明,最?、馚D 片段閾值最好選取在3~8 cM之間;De Vries等[20]研究表明,設(shè)置1~7 cM最?、馚D 片段閾值,在1 000 對(duì)1~5 級(jí)模擬親緣關(guān)系中預(yù)測(cè)準(zhǔn)確率基本無(wú)變化,以上研究結(jié)論與本文基本一致。本文還觀察到親緣關(guān)系越遠(yuǎn),受不同ⅠBD 片段長(zhǎng)度閾值影響越大(圖4a),分析其原因可能為:由于基因重組的隨機(jī)性,親緣關(guān)系越遠(yuǎn),兩兩個(gè)體間共祖片段越短,故受最低檢出閾值影響就越大。結(jié)合本文研究結(jié)果,為在實(shí)戰(zhàn)中盡可能找到多的親緣關(guān)系,在后續(xù)分析中采用的閾值為3 cM。使用SVM優(yōu)化ⅠBD片段算法后(圖5),1~5級(jí)親緣關(guān)系預(yù)測(cè)的AC、CⅠA等評(píng)估指標(biāo)均無(wú)顯著變化(ANOVA 方差分析,P=0.98),6 級(jí)FN 從2.1%降低至0.4%,7 級(jí)FN 從14.1%降低至7.1%,7~9級(jí)CⅠA也有一定升高,1~7級(jí)預(yù)測(cè)親緣的PC經(jīng)SVM 優(yōu)化后依然保持較高準(zhǔn)確率,平均PC 為99.77%。綜上所述,原ⅠBD 片段算法經(jīng)SVM 優(yōu)化后在遠(yuǎn)親緣關(guān)系的預(yù)測(cè)能力方面提升顯著。本文對(duì)優(yōu)化后的ⅠBD 片段算法預(yù)測(cè)結(jié)果進(jìn)一步探究發(fā)現(xiàn),7 級(jí) 的FN 為7.1%,8 級(jí)、9 級(jí)FN 急 劇 上 升 至27.71%、54.47%。Greytak等[6]研究表明,由于基因重組的隨機(jī)性,大約有10%的3 代表親(3rd cousin,即7 級(jí))和50%的4 代表親(4th cousin,即9級(jí))沒(méi)有可檢測(cè)到的ⅠBD片段長(zhǎng)度,與本文觀察到的FN結(jié)果基本一致。原因可能在于全基因組SNP芯片檢測(cè)的位點(diǎn)數(shù)量有限,在全基因組層面位點(diǎn)之間分布距離較大,導(dǎo)致部分遠(yuǎn)親緣關(guān)系對(duì)的ⅠBD 片段檢測(cè)不到;Al-Khudahair 等[21]使用WGS數(shù)據(jù)的探索研究表明,若SNP位點(diǎn)分布密度增加,有可能提高8 級(jí)以及更遠(yuǎn)親緣的預(yù)測(cè)能力。5 級(jí)及以下FN為0%,6級(jí)以上出現(xiàn)假陰性,7級(jí)的FN為7.1%。故系譜推斷實(shí)踐應(yīng)用時(shí):5級(jí)及以下家系只需檢測(cè)一個(gè)樣本;6、7級(jí)家系至少檢測(cè)兩個(gè)樣本,這樣目標(biāo)樣本與至少一個(gè)樣本確證可檢出親緣關(guān)系的概率可達(dá)到99.99%和99.50%。在為偵查提供線索過(guò)程中我們發(fā)現(xiàn),更加關(guān)注的CⅠA對(duì)于1~7級(jí)親緣均超70%,但是2級(jí)親緣關(guān)系預(yù)測(cè)的AC卻較低,大量2 級(jí)親緣被預(yù)測(cè)到3 級(jí)。分析其原因可能是,本流程所使用開源的預(yù)測(cè)親緣等級(jí)算法構(gòu)建和驗(yàn)證均基于歐美人群[18],在其他人群中的AC會(huì)有所降低。Williams 等[22]研究發(fā)現(xiàn),該算法在非洲辛巴族家系人群中,2 級(jí)親緣AC 僅為67%;Ramstetter等[23]研究也發(fā)現(xiàn),在墨西哥家系人群中,大量2級(jí)親緣關(guān)系被預(yù)測(cè)為3級(jí)親緣關(guān)系。在不同ⅠBD片段閾值A(chǔ)C結(jié)果中,2級(jí)親緣AC值出現(xiàn)了與其他等級(jí)關(guān)系對(duì)不同的“先增后降”趨勢(shì),其原因也有可能與人群特異性有關(guān)。后續(xù),需要增加中國(guó)人群2級(jí)和3級(jí)關(guān)系對(duì)數(shù)量,繼續(xù)優(yōu)化算法模型,提升中國(guó)人群中2級(jí)親緣預(yù)測(cè)的AC。

      基于253份樣本真實(shí)親緣關(guān)系的ⅠBD片段長(zhǎng)度分布(圖6)顯示,1~4 級(jí)關(guān)系ⅠBD 長(zhǎng)度分布區(qū)分顯著,5 級(jí)以上親緣關(guān)系ⅠBD 片段分布會(huì)出現(xiàn)重疊,親緣關(guān)系越遠(yuǎn)分布重疊越多。分析其原因?yàn)椋河H代向子代傳遞遺傳物質(zhì)時(shí)會(huì)發(fā)生基因片段的斷裂與重組,親緣關(guān)系越遠(yuǎn),ⅠBD片段長(zhǎng)度會(huì)縮短且具有一定隨機(jī)性。通過(guò)將美國(guó)Ancestry 公司基于24 362份歐美樣本模擬親緣關(guān)系厘摩長(zhǎng)度分布與本文中國(guó)漢族人群真實(shí)親緣關(guān)系厘摩長(zhǎng)度分布比較發(fā)現(xiàn),1~7級(jí)厘摩分布范圍的趨勢(shì)大致相仿,但中國(guó)漢族人群每一級(jí)親緣關(guān)系對(duì)ⅠBD片段分布范圍的上下限數(shù)值與之有所不同。表明不同人群的祖先群體規(guī)模、婚配模式等的差異,會(huì)影響不同級(jí)別親緣關(guān)系對(duì)的ⅠBD片段長(zhǎng)度分布范圍。下一步,我們將通過(guò)模擬家系和真實(shí)家系結(jié)合的方式,增加親緣關(guān)系對(duì)數(shù)量,進(jìn)一步驗(yàn)證和優(yōu)化本研究針對(duì)漢族人群研究獲得的ⅠBD片段分布情況和預(yù)測(cè)算法,并研究該體系在蒙古族等其他人群中的適應(yīng)性。

      本研究還進(jìn)一步通過(guò)隨機(jī)篩選位點(diǎn)數(shù),模擬低質(zhì)量樣本的系譜推斷預(yù)測(cè)結(jié)果。結(jié)果顯示,預(yù)測(cè)準(zhǔn)確性隨位點(diǎn)數(shù)量的減少而降低,當(dāng)位點(diǎn)數(shù)少于20 萬(wàn)位點(diǎn)時(shí)準(zhǔn)確性下降較明顯,但準(zhǔn)確性依然處于較高水平,而且位點(diǎn)數(shù)量對(duì)1~3級(jí)近親緣關(guān)系影響更小。但是,我們模擬隨機(jī)位點(diǎn)數(shù)量減少時(shí)沒(méi)有考慮低檢出率SNP 芯片數(shù)據(jù)的分型錯(cuò)誤率問(wèn)題。De Vries 等[20]研究表明,當(dāng)SNP 芯片的檢出率降低時(shí),SNP 位點(diǎn)分型的準(zhǔn)確率會(huì)下降,而SNP 分型錯(cuò)誤,會(huì)導(dǎo)致ⅠBD片段識(shí)別提前結(jié)束,造成ⅠBD片段丟失,并最終降低ⅠBD 片段算法預(yù)測(cè)準(zhǔn)確率,后續(xù)將增加該指標(biāo)進(jìn)行模擬數(shù)據(jù)測(cè)試,并使用真實(shí)的低質(zhì)量檢材進(jìn)行系統(tǒng)的測(cè)試。此外,高深度WGS 技術(shù)可生成同一位置大量短讀序列片段(reads),從而確保檢出SNP 位點(diǎn)分型的準(zhǔn)確性,針對(duì)微量DNA 有可能獲得比SNP 芯片更加準(zhǔn)確的分型結(jié)果。

      4 結(jié) 論

      本研究構(gòu)建了基于高密度SNP 數(shù)據(jù)的ⅠBD 片段算法分析流程并進(jìn)行了優(yōu)化,基于253份中國(guó)人群樣本的真實(shí)親緣關(guān)系評(píng)估了算法預(yù)測(cè)準(zhǔn)確性。研究結(jié)果表明,該算法可實(shí)現(xiàn)1~7 級(jí)親緣關(guān)系的預(yù)測(cè)。該方法可輔助物證鑒定工作,為冷案積案等疑難案件偵破提供重要科技支撐。

      猜你喜歡
      親緣準(zhǔn)確性位點(diǎn)
      谷子近緣野生種的親緣關(guān)系及其利用研究
      鎳基單晶高溫合金多組元置換的第一性原理研究
      上海金屬(2021年6期)2021-12-02 10:47:20
      中國(guó)醫(yī)學(xué)科學(xué)院藥用植物研究所藥用植物親緣學(xué)研究中心
      CLOCK基因rs4580704多態(tài)性位點(diǎn)與2型糖尿病和睡眠質(zhì)量的相關(guān)性
      淺談如何提高建筑安裝工程預(yù)算的準(zhǔn)確性
      二項(xiàng)式通項(xiàng)公式在遺傳學(xué)計(jì)算中的運(yùn)用*
      菊科藥用植物遺傳多樣性及親緣關(guān)系的ISSR分析
      小白菜種質(zhì)遺傳多樣性與親緣關(guān)系的SRAP 和SSR分析
      美劇翻譯中的“神翻譯”:準(zhǔn)確性和趣味性的平衡
      論股票價(jià)格準(zhǔn)確性的社會(huì)效益
      昭苏县| 镇康县| 石首市| 永靖县| 萨嘎县| 三亚市| 青川县| 丹巴县| 康定县| 奈曼旗| 高雄市| 共和县| 罗定市| 远安县| 铜陵市| 鄂尔多斯市| 瑞昌市| 江陵县| 新闻| 罗江县| 茶陵县| 武宁县| 普宁市| 当涂县| 峨边| 恩平市| 晋江市| 沙洋县| 蛟河市| 高台县| 孝昌县| 桃江县| 舟山市| 旌德县| 江口县| 鹤岗市| 涞源县| 宜兴市| 思茅市| 西畴县| 通山县|