段晨翰,李壽田
(遵義醫(yī)科大學(xué) 法醫(yī)學(xué)院,貴州 遵義 563099)
人類基因組DNA測(cè)序和分析的研究成果表明,基因組中的單核苷酸多態(tài)性(single nucleotide polymorphism,SNP)位點(diǎn)含量豐富,分布廣泛[1],尤其在種族推斷、表型特征刻畫中發(fā)揮著特殊的作用,在一些高度降解的檢材分析中,是短串聯(lián)重復(fù)序列(short tandem repeat,STR)數(shù)據(jù)結(jié)果的重要補(bǔ)充。近年來,SNP在醫(yī)學(xué)、遺傳學(xué)、人類學(xué)、藥物分子研究等方面的迅猛發(fā)展,使其受到了法醫(yī)工作者的高度關(guān)注,現(xiàn)將從SNP概述、優(yōu)缺點(diǎn)、分析技術(shù)、群體遺傳學(xué)參數(shù)及法醫(yī)學(xué)應(yīng)用等方面回顧性綜述了國(guó)內(nèi)外相關(guān)研究進(jìn)展,為SNP的法醫(yī)學(xué)應(yīng)用提供參考。
單核苷酸多態(tài)性(SNP)主要是指在基因組水平上特定部位由單個(gè)堿基序列的變異所引起的DNA序列多態(tài)性,它是人類可遺傳變異中最常見的一種,占所有已知多態(tài)性的90%以上[2-4]。其所表現(xiàn)的多態(tài)性通常只涉及到單個(gè)堿基的變異,多表現(xiàn)為二等位基因,本質(zhì)上屬于DNA序列多態(tài)性。研究發(fā)現(xiàn)在人類基因組中,SNP的密度很高,多態(tài)性豐富,大概每1 000個(gè)堿基就包含一個(gè),其在基因組上的總量大概是3 ×106個(gè)。因此,SNPs 被認(rèn)為是繼限制性片段長(zhǎng)度多態(tài)性和微衛(wèi)星多態(tài)性之后的第3代有巨大應(yīng)用潛力的DNA遺傳標(biāo)記。
SNP作為潛在的法醫(yī)學(xué)遺傳標(biāo)記最主要的原因是:①SNP的PCR擴(kuò)增片段可小于100bp,更適合PCR擴(kuò)增,可用于高度降解的DNA樣本;②突變率非常低,SNP的突變率約為10-8,而STR則約為10-3,SNP的低突變率使得其在親權(quán)鑒定中顯得十分重要;③檢測(cè)方法多樣,可做高通量技術(shù)分析,并在數(shù)據(jù)庫(kù)的建立和自動(dòng)化分析的實(shí)現(xiàn)方面具有積極意義[5];④分型數(shù)據(jù)中沒有人工偽峰,可簡(jiǎn)化等位基因的分析;⑤SNP大都表現(xiàn)為二等位基因標(biāo)記,易于分型和確定基因頻率, 適于混合樣品的分析[6];⑥有些SNP標(biāo)記可預(yù)測(cè)種族來源、系譜信息或表型特征。當(dāng)然,SNP也有一些局限性。研究表明,至少要5~10倍的SNP 位點(diǎn)才可以達(dá)到等效STR基因座的個(gè)人識(shí)別率和混合樣本檢測(cè)能力,這大大超過了目前法醫(yī)物證專業(yè)的多重?cái)U(kuò)增能力。其次,由于群體遺傳數(shù)據(jù)和檢測(cè)技術(shù)的缺乏,其商品化試劑盒有待進(jìn)一步開發(fā)。目前,將SNP分型技術(shù)用于法醫(yī)學(xué)案件的報(bào)導(dǎo)比較少,尋找高信息量的SNP位點(diǎn),實(shí)現(xiàn)同時(shí)復(fù)合擴(kuò)增足夠的SNP標(biāo)記,仍是一項(xiàng)艱巨的挑戰(zhàn)。作為遺傳標(biāo)記SNP也存在一些缺點(diǎn),如SNP分型前期投資較大,與現(xiàn)有的已成熟的STR數(shù)據(jù)庫(kù)相比,成本較高,限制了其廣泛應(yīng)用。
SNP 在醫(yī)學(xué)、藥學(xué)、法醫(yī)學(xué)、遺傳學(xué)等領(lǐng)域有廣泛的應(yīng)用,其分型技術(shù)除了有良好的多位點(diǎn)復(fù)合擴(kuò)增體系、較高的準(zhǔn)確度,還應(yīng)當(dāng)包含高通量和低成本以及分析是否符合實(shí)驗(yàn)的要求[5]。法醫(yī)SNP網(wǎng)站(http://www.cstl.nist.gov/biotech/strbase/SNP.htm)可為法醫(yī)學(xué)領(lǐng)域的SNP分析提供更多的遺傳標(biāo)記和新技術(shù),便于法醫(yī)工作者在實(shí)際應(yīng)用中進(jìn)行參考。
SNP在多個(gè)領(lǐng)域都具有巨大的應(yīng)用前景,用于SNP檢測(cè)的技術(shù)也是與時(shí)俱進(jìn)。1977年,Sanger發(fā)明了一種快速測(cè)定DNA的方法,稱為雙脫氧鏈終止法,又稱Sanger測(cè)序,自此,人類步入了基因組學(xué)時(shí)代[7]。從第一代DNA檢測(cè)技術(shù)發(fā)展到現(xiàn)在,測(cè)序技術(shù)已經(jīng)取得了飛速的發(fā)展。與第一代測(cè)序技術(shù)的低通量和高成本相比,第二代測(cè)序技術(shù)在速度、通量和成本方面都有較大的提升,同時(shí),在提高檢測(cè)準(zhǔn)確性方面也具有積極意義。但存在引入PCR過程中會(huì)增加測(cè)序錯(cuò)誤率的缺點(diǎn),從而,產(chǎn)生系統(tǒng)偏向性,并且在序列讀長(zhǎng)方面比起第一代測(cè)序技術(shù)則要短很多。與前兩代相比,第三代測(cè)序具有單分子測(cè)序,不需要PCR擴(kuò)增就可以測(cè)序的特點(diǎn),從而有效地避免了由于PCR偏向性使系統(tǒng)存在錯(cuò)誤的弊端,并且提高讀長(zhǎng),減少拼接成本,節(jié)省內(nèi)存和計(jì)算時(shí)間,并且可以應(yīng)用于RNA序列、甲基化的DNA序列分析。然而第三代測(cè)序單讀長(zhǎng)的錯(cuò)誤率偏高、DNA聚合酶活性的依賴性強(qiáng)、生物數(shù)據(jù)分析軟件不夠豐富、數(shù)據(jù)積累少等缺點(diǎn)也限制了其廣泛應(yīng)用。正在開發(fā)中的第四代測(cè)序技術(shù),又稱納米孔測(cè)序技術(shù)。納米孔技術(shù)有著超高讀長(zhǎng)和高通量的特點(diǎn),使得測(cè)序時(shí)間變短和數(shù)據(jù)分析變得更加簡(jiǎn)單,有望在不久的將來實(shí)現(xiàn)商業(yè)化,發(fā)揮其獨(dú)特的價(jià)值。
與STR一樣,SNP也需要對(duì)基因頻率與基因型頻率、Hardy-Weinberg平衡、連鎖及連鎖不平衡和單倍型及單倍型頻率進(jìn)行檢驗(yàn)和計(jì)算。除了雜合度、個(gè)人識(shí)別率、非父排除率外,SNP還具有特殊的法醫(yī)學(xué)應(yīng)用參數(shù):
4.1 Fst(遺傳分化系數(shù))值 由于SNPs為二等位基因,具有明顯的地域分布和人群特征,在使用SNPs進(jìn)行個(gè)人識(shí)別時(shí),F(xiàn)st值越小說明某位點(diǎn)在不同人群之間的基因頻率差異越小,使用范圍越廣;在使用SNPs進(jìn)行始祖信息推斷時(shí),F(xiàn)st值越大,說明某位點(diǎn)在不同人群之間的基因頻率差異越大,適合區(qū)分人群。
4.2 δ值 δ值是指絕對(duì)等位基因頻率差異,表示來自兩個(gè)不同地區(qū)、民族的群體,某一位點(diǎn)等位基因頻率的差值[8]。δ值的大小會(huì)影響分析工作的穩(wěn)定性,進(jìn)行個(gè)體祖先來源推斷或者地域來源推斷的遺傳標(biāo)記,通常需要δ>0.5,才能發(fā)揮更好的分析作用。
2007年的國(guó)際法醫(yī)遺傳學(xué)會(huì)議正式提出了SNP的法醫(yī)學(xué)應(yīng)用分為以下4種類型:個(gè)體識(shí)別SNP系統(tǒng)(Individual Identi6cation SNPs,ⅡSNPs),祖先信息SNPs(Ancestry Informative SNPs,AISNPs),系譜信息SNPs(Lineage Informative SNPs,LISNPs),表型信息SNPs(Phenotype Informative SNPs,PISNPs)。SNP的法醫(yī)學(xué)應(yīng)用具體如下:
5.1 同一認(rèn)定SNP-補(bǔ)充個(gè)人識(shí)別 個(gè)體識(shí)別SNPs是近年來法庭科學(xué)中的研究熱點(diǎn)之一,對(duì)于法醫(yī)學(xué)檢驗(yàn)鑒定來說,同樣需要聯(lián)合多個(gè)SNP位點(diǎn)的使用,以提高單次檢驗(yàn)的信息量和個(gè)人識(shí)別能力。目前,文獻(xiàn)報(bào)道了大量的個(gè)體識(shí)別SNP復(fù)合檢測(cè)體系,篩選的SNP位點(diǎn)由少到多,檢測(cè)效能由弱到強(qiáng)。其中,高巖松[9]通過電泳檢測(cè)分型的方法對(duì)139例中國(guó)北方漢族血液樣品進(jìn)行了GRIN2A基因rs17750303和rs837690位點(diǎn)的遺傳多態(tài)性檢測(cè),計(jì)算出rs17750303位點(diǎn)和rs837690位點(diǎn)在中國(guó)北方漢族人群的個(gè)人識(shí)別率(Discrimination Power,DP)分別為0.645和0.661,雜合度(Heterozygosity,H)分別為0.493和0.496,父權(quán)排除概率(Excluding probability of paternity,EPP)分別為0.187和0.186。 結(jié)果顯示它們?cè)谥袊?guó)北方漢族群體隸屬高鑒別能力的遺傳標(biāo)記,在法醫(yī)學(xué)個(gè)體識(shí)別和親子鑒定中均具有較高的應(yīng)用價(jià)值。Li等[10]對(duì)南方125個(gè)樣本進(jìn)行了SNP分型,得出125個(gè)SNP位點(diǎn)累計(jì)個(gè)人識(shí)別率(Cumulative power of discrimination,CDP)為 1-4.81× 10-34,二聯(lián)體和三聯(lián)體的累積非父排除率分別為0.99989 和0.99999992 ,可應(yīng)用于法醫(yī)學(xué)個(gè)人識(shí)別與親子鑒定。Gao等[11]對(duì)511個(gè)四川漢族篩選的11個(gè)四等位基因和8個(gè)三等位基因SNP的復(fù)合擴(kuò)增體系,計(jì)算出累積匹配概率(Cumulative match probability,CMP)、CDP和累計(jì)非父排除概率(Cumulative probability of exclusion,CPE)分別為6.07 × 10-11、0.9999999999393和0.996764。 Li等[12]從360萬個(gè)SNP標(biāo)記中選出了175個(gè)應(yīng)用于個(gè)人識(shí)別。他們優(yōu)化并驗(yàn)證了使用下一代測(cè)序(next-generation sequencing,NGS)技術(shù)在法醫(yī)學(xué)中的應(yīng)用,結(jié)果顯示在全球的54個(gè)群體中平均匹配概率為4.77×10- 71~1.06×10- 64。總之,聯(lián)合使用多個(gè)高信息量的SNP位點(diǎn),可滿足法醫(yī)學(xué)個(gè)人識(shí)別的要求,并達(dá)到與STR相同的檢測(cè)能力。
5.2 譜系SNP-協(xié)助親緣鑒定 譜系標(biāo)記就是指在Y染色體和線粒體上的遺傳標(biāo)記,它們具有家族特征,為了可以在辦案時(shí)縮小偵查的范圍,減輕偵查工作量,提高辦案效率,就可以利用“譜系標(biāo)記”的特殊性,建立當(dāng)?shù)氐膮^(qū)域數(shù)據(jù)庫(kù),將嫌疑人和某個(gè)特定基因關(guān)聯(lián)的家族聯(lián)系起來。密集分布的SNP在遺傳給子代時(shí)不產(chǎn)生重組,即SNP是連鎖遺傳的。這些連鎖的SNP以單倍型組的形式傳遞到子代,這一單倍型組可提供比單個(gè)SNP更多的多態(tài)信息,有助于親緣關(guān)系的鑒定。父系遺傳的Y染色體具有很多特殊的特點(diǎn),如:?jiǎn)伪缎拖鄬?duì)完整、不易突變、比較穩(wěn)定而且大部分都在非重組區(qū),所以Y-SNP用于法醫(yī)學(xué)遺傳標(biāo)記非常合適,尤其在追溯父子親屬關(guān)系以及性犯罪的案件上發(fā)揮其獨(dú)特的作用。而且研究Y-SNP可以進(jìn)行物種的起源、遷徙等方面的推斷。Shen等[13]對(duì)中國(guó)錫伯族線粒體上54個(gè)SNP遺傳多態(tài)性進(jìn)行了分析,發(fā)現(xiàn)了總共有14個(gè)mtDNA SNP位點(diǎn)(nt152、nt709、nt3010、nt4883、nt5178、nt8414、nt10398、nt10400、nt10873、nt12705、nt14668、nt15043、nt16129、nt16362)具有多態(tài)性,可作為法醫(yī)和群體遺傳應(yīng)用的有效遺傳標(biāo)記。Lkhagvasuren等[14]首次在蒙古東部的塔班陶勒蓋發(fā)現(xiàn)了屬于蒙古皇室(金家族)的成員,并利用Y-SNP單倍型R1b-M343證實(shí)了這些人是成吉思汗直系或近親的成員。
5.3 始祖SNP-推斷種族來源 由于SNP突變率很低,在人群中具有很高的特異性,因此,與STR相比,SNP是推斷種族來源更好的遺傳標(biāo)記[15]。江麗等[16]通過對(duì)來自東亞、歐、非洲及其混合人群的1010份樣本進(jìn)行27-plex SNP 種族推斷體系檢測(cè)推斷種族來源, 成功的對(duì)這些人群進(jìn)行了區(qū)分,證實(shí)了祖先信息可以被未知來源的樣本所提供。李彩霞等[17]構(gòu)建的30-plex SNP復(fù)合檢測(cè)體系,很好的實(shí)現(xiàn)了三大人群及混合人群的遺傳成分的分析和個(gè)體的人種來源推斷,為法醫(yī)學(xué)未知樣本來源提供有效信息,為案件的偵查提供有效的線索。在中國(guó),父系社會(huì)的姓氏與Y染色體具有相同的遺傳方式。理論上,每一個(gè)姓氏應(yīng)擁有特異性的核心單倍群。在法醫(yī)案件中,利用現(xiàn)場(chǎng)生物檢材、未知名尸體等檢測(cè)到的Y染色體SNP遺傳標(biāo)記特征來推測(cè)嫌疑人或未知名尸體的姓氏來源,對(duì)案件的偵破將具有重要意義。在對(duì)姓氏的探究中孫亞男等[18]和武建權(quán)[19]分別對(duì)孔姓和段姓進(jìn)行了Y染色體與姓氏之間的關(guān)聯(lián)性研究,并認(rèn)為兩者遺傳距離較遠(yuǎn),有各自的起源和發(fā)展歷史。張?chǎng)20]對(duì)廣西地區(qū)六個(gè)民族(漢族、侗族、京族、苗族、瑤族、壯族)族源譜系進(jìn)行了SNP分析,認(rèn)為檢測(cè)樣本可以進(jìn)行群體區(qū)分,C單倍群中瑤族人群占有絕大比例,O1blala-M95在廣西壯族、廣西苗瑤以及廣西京族中有高頻分布。韋寶斌等[21]對(duì)廣西壯族人群rs40837位點(diǎn)多態(tài)性進(jìn)行了研究,并與中國(guó)北京人群、日本人群、歐洲人群和非洲人群的SNP分型數(shù)據(jù)進(jìn)行比較,認(rèn)為rs40837的基因型和等位基因型在廣西壯族人群中的分布頻率與其他種族人群相比可能存在差異。Li等[22]構(gòu)建的用于區(qū)分漢藏維民族的94-Plex SNPs復(fù)合檢測(cè)體系,通過對(duì)74個(gè)SNP的祖先推斷,有望實(shí)現(xiàn)探尋全球祖先的目標(biāo),并對(duì)進(jìn)一步研究和細(xì)分我國(guó)人群遺傳結(jié)構(gòu)產(chǎn)生積極影響。
5.4 表型信息SNP-預(yù)測(cè)體貌特征 不同地區(qū)的人群之間具有非常顯著的表型差異,這些表型的差異在醫(yī)學(xué)、法醫(yī)學(xué)和人類遺傳學(xué)上具有高度的遺傳性和外部可見性,通常與基因的多態(tài)性相關(guān)。在法醫(yī)物證檢材分析時(shí),當(dāng)無法找到與證據(jù)樣本DNA分型結(jié)果匹配的個(gè)體時(shí),從物證樣本本身獲得的信息顯得尤為重要。在對(duì)可見體貌特征的刻畫中,發(fā)色、膚色、虹膜、身高等特征性表型信息是可以通過孟德爾遺傳規(guī)律來進(jìn)行預(yù)測(cè)的。近年來,利用證據(jù)DNA樣本信息預(yù)測(cè)體貌特征的研究越來越多:Norton等[23]研究表明rs387907171 SNP在北島美拉尼西亞群島中表現(xiàn)出強(qiáng)烈的等位基因頻率差異,它對(duì)金發(fā)的表型有特殊的意義。Lim等[24]選擇了與頭發(fā)和眼睛顏色、虹膜圖等形態(tài)相關(guān)的20個(gè)SNPs,篩選出10個(gè)具有多態(tài)性的SNPs,并且證實(shí)了這10個(gè)潛在的SNP標(biāo)記,可用于鑒定韓國(guó)人口的外表特征。Zhao等[25]在研究白癜風(fēng)的過程中,新發(fā)現(xiàn)了rs613791和rs523604兩個(gè)SNP與皮膚色素具有一定的關(guān)聯(lián)性。Andersen等[26]研究表明除了之前報(bào)道的rs12913832、rs1800407、rs74653330和rs121918166三個(gè)SNP在虹膜的判斷準(zhǔn)確度可達(dá)75.6%。在對(duì)身高的研究中,Lokau[27]和Correa-Rodríguez[28]分別發(fā)現(xiàn)了rs4252548和rs2306862、rs599083 rs556442、rs3736228有助于早期的骨質(zhì)積累,與身高密切相關(guān)。葛蕓英等[29]研究了中國(guó)漢族人群GH1基因啟動(dòng)子區(qū)域的SNP多態(tài)性及其在中國(guó)漢族人群中的分布規(guī)律,認(rèn)為GH1基因啟動(dòng)子區(qū)域的序列及單體型與身高存在一定的關(guān)系。阿地拉·多力坤[30]研究的LHX3-QSOX2基因rs12338076和IGF1基因rs17032362位點(diǎn)在新疆維吾爾族人群身高中表現(xiàn)出高度多態(tài)性,并存在一定的人種差異。在對(duì)臉部特征的研究中,Liu等[31]在頭部聯(lián)合二維成像和三維增強(qiáng)核磁共振的技術(shù),對(duì)歐洲人群 5 個(gè)面部表型特征基因(PRDM16、PAX3、TP63、C5orf50和COL17A1)進(jìn)行了分析,發(fā)現(xiàn)和顴角、鼻根、眉間距、內(nèi)眥距、鼻高/寬度等與基因內(nèi)部分SNP的突變密切相關(guān)的距離和位置相比,基因PAX3的相關(guān)性最高,可影響鼻根的位置,并認(rèn)為對(duì)于顱面部發(fā)育的基因來說,DNA的變異對(duì)人類面部形態(tài)的正常變異的影響是相對(duì)較小的。因此,在人類表型特征的預(yù)測(cè)中運(yùn)用影像學(xué)技術(shù)和遺傳學(xué)方法是行之有效的,三維重建案犯身高、瞳孔、面部特征等,可快速鎖定犯罪嫌疑人,對(duì)案件分析及偵查方向提供客觀有利的依據(jù),為打擊違法犯罪、維護(hù)社會(huì)穩(wěn)定起到積極的作用。
SNP有著其他遺傳標(biāo)記不具有的特殊應(yīng)用價(jià)值,在應(yīng)用于其他領(lǐng)域的同時(shí),也必然在法醫(yī)學(xué)領(lǐng)域發(fā)揮不可忽略的重要作用。它能依靠現(xiàn)場(chǎng)的生物物證信息,構(gòu)建現(xiàn)場(chǎng)嫌疑人的人種特征和地域特征,這對(duì)案件的偵破十分有利。SNP的法醫(yī)學(xué)研究目前仍處于初級(jí)階段,但是作為STR的重要補(bǔ)充,已逐漸受到重視。隨著DNA檢測(cè)技術(shù)的提高、分析方法的改進(jìn)和更多相關(guān)基因的發(fā)現(xiàn),我們相信,SNP將在法醫(yī)學(xué)、遺傳學(xué)、人類學(xué)等擁有巨大的應(yīng)用潛力,必然引領(lǐng)我們開辟一條新的研究道路。
遵義醫(yī)科大學(xué)學(xué)報(bào)2020年4期