劉京 ,郭志芳,魏以梁,李鷹翔,管珊珊,趙雯婷,江麗,李彩霞
1.公安部物證鑒定中心 法醫(yī)遺傳學公安部重點實驗室 現(xiàn)場物證溯源技術(shù)國家工程實驗室,北京 100038;2.中國政法大學 證據(jù)科學教育部重點實驗室,北京 100088;3.大同市公安局刑事技術(shù)支隊,山西 大同 037000;4.安瀾智能(深圳)有限公司,廣東 深圳 510630;5.江蘇師范大學 江蘇省系統(tǒng)發(fā)育與比較基因組學重點實驗室,江蘇 徐州 221116;6.陜西師范大學計算機科學學院,陜西 西安 710119
2016 年3 月,山西某鎮(zhèn)古漢墓被盜,現(xiàn)場提取嫌疑人遺留煙蒂1 枚,檢出嫌疑人常染色體STR 分型,但未比中人員。由于當?shù)禺敃r未建立男性家族排查庫,故未對Y-STR 分型進行檢驗。2020 年7 月,檢驗煙蒂獲得Y-STR 分型,錄入男性家族排查系統(tǒng),比中案發(fā)地附近劉姓、馬姓等8 個家系共計17 人(其中3 人分型一致,3 人有2 個位點分型不一致,11 人有3 個位點分型不一致)。檢驗?zāi)行约易迮挪閹熘腥藛T血樣的常染色體STR,與嫌疑人未比中,故使用法醫(yī)SNP系譜推斷技術(shù)對家系進行排查。
1.2.1 DNA提取與STR檢驗
用MagAttract? M48 DNA Manual 試劑盒(德國Qiagen 公司)提取煙蒂DNA,用NanoDrop 2000c 分光光度計(美國Thermo Scientific 公司)進行定量。使用GlobalFilerTMPCR 擴增試劑盒、YfilerTMPlus PCR 擴增試劑盒(美國Applied Biosystems 公司)分別對提取產(chǎn)物進行常染色體STR和Y-STR分型檢測。
1.2.2 全基因組SNP檢測
使用美國Infinium Global Screening Array(GSA)芯片[1](美國Illumina 公司)對煙蒂進行DNA 的全基因組SNP檢測。檢測結(jié)果經(jīng)過數(shù)據(jù)格式轉(zhuǎn)換、親緣關(guān)系等級預(yù)測等生物信息分析后,用于法醫(yī)SNP系譜推斷。
1.3.1 基于狀態(tài)一致性算法進行SNP系譜推斷
狀態(tài)一致性(identity by state,IBS)是指兩個個體中共有的等位基因序列相同,被廣泛應(yīng)用于親緣關(guān)系鑒定[2]。本項目組通過前期文獻調(diào)研和算法參數(shù)優(yōu)化[3-5],搭建了基于IBS 算法的系譜推斷算法:首先將全基因組SNP 檢測結(jié)果轉(zhuǎn)換為指定格式,然后使用IBS 算法計算個體間親緣關(guān)系系數(shù),最后據(jù)此計算個體間親緣關(guān)系等級。
親緣關(guān)系系數(shù)?ij表示從個體i、j中隨機抽取的兩個等位基因來源于同一祖先的概率。
其中NAA,aa為個體i、j基因型都為純合子的標記數(shù),NAa,Aa為個體i、j基因型都為雜合子的標記數(shù)是個體x的基因型為雜合子的標記數(shù)。親緣關(guān)系系數(shù)相關(guān)閾值參照MANICHAIKUL等[5]的研究。
1.3.2 使用SNP系譜推斷鎖定重點排查家系
由于該案嫌疑人Y-STR 比中的家系人員多數(shù)在外地,逐個家系排查采樣需投入大量人力物力,故急需鎖定重點排查家系。由于現(xiàn)場煙蒂在前期已檢驗多次,剩余檢材用于全基因組SNP 芯片檢測,位點的檢出率為76.9%,共496 222 個SNP 位點。鑒于SNP位點檢出率不高,本項目組決定使用IBS 算法計算現(xiàn)場檢材與17 份比中樣本間的親緣關(guān)系等級。經(jīng)分析,推斷馬甲與嫌疑人有2 級親緣關(guān)系,馬乙、馬丙與嫌疑人有4級親緣關(guān)系(馬甲、馬乙、馬丙的Y-STR 分型結(jié)果與現(xiàn)場檢材一致),其他家系與嫌疑人均無7 級以內(nèi)親緣關(guān)系。據(jù)此,馬姓家族相關(guān)成員被確定為重點摸排對象。
馬姓家系有3 個分支(圖1),若煙頭為馬甲或馬丙分支所留,現(xiàn)場煙蒂應(yīng)與馬乙或馬丙存在1~2 級親緣關(guān)系,經(jīng)分析,煙蒂為馬丁分支成員所留。由于馬丁的父親已于2016 年年底病逝,故對現(xiàn)場煙蒂、馬丁母親和馬丁進行三聯(lián)體STR 親緣關(guān)系分析,結(jié)果見表1。結(jié)果顯示,現(xiàn)場煙蒂、馬丁母親和馬丁的STR分型符合孟德爾遺傳定律,確認現(xiàn)場煙蒂為馬丁父親所留,累積三聯(lián)體親權(quán)指數(shù)為2.18×1011。
圖1 馬姓家系圖Fig.1 The family tree of Ma
表1 三聯(lián)體STR分型結(jié)果Tab.1 Typing results of triplet STR
法醫(yī)SNP 系譜推斷[6-7]是基于生物大數(shù)據(jù)對復(fù)雜親緣關(guān)系進行分析,并應(yīng)用于司法鑒定。法醫(yī)SNP系譜推斷技術(shù)可用于Y-STR 比中的大家系中重點小家系的鎖定,進而顯著減少大規(guī)模摸排的樣本檢驗量,加快案件偵破速度。法醫(yī)SNP 系譜推斷分析的主流算法[8]是基于血緣一致性(identity by descent,IBD)片段長度的算法和基于IBS比例的算法。IBD 算法的優(yōu)點是可以較為準確地預(yù)測7 級以內(nèi)親緣關(guān)系,缺點為[8]:(1)計算時需要基于背景人群參考數(shù)據(jù)進行同源染色體分離,運行時間較長且占用較多計算資源;(2)微量降解DNA 的SNP 位點檢出率不高,會造成共享片段缺失,導(dǎo)致預(yù)測準確性降低。IBS 算法雖只能預(yù)測4 級及以內(nèi)的親緣關(guān)系,但該算法運行速度較快且準確性受位點檢出率影響較小,故適用于位點檢出率不高的樣本。
本例樣本位點檢出率為76.9%,故優(yōu)先使用IBS算法進行系譜推斷。嫌疑人與馬甲真實親緣關(guān)系等級是2 級,與預(yù)測等級一致;嫌疑人與馬乙、馬丙真實親緣關(guān)系等級是3級,與預(yù)測等級均差1級,分析其原因可能是檢出率較低導(dǎo)致絕對準確率(預(yù)測等級與實際等級完全一致)降低,但均在1 級以內(nèi)波動。通過分析,從8 個家系中精準鎖定馬姓家系成員,避免了多家系多地域的逐一采樣排查,節(jié)省了大量人力物力。法醫(yī)SNP 系譜推斷技術(shù)的應(yīng)用,將突破傳統(tǒng)STR技術(shù)實驗密集型的研究模式,將全基因組SNP 檢測、高通量數(shù)據(jù)分析等新技術(shù)引入法醫(yī)DNA 領(lǐng)域,使法醫(yī)DNA領(lǐng)域邁向數(shù)據(jù)驅(qū)動型的智慧化研究時代。