牛青山 宋志豪 杜馨雨
(中國(guó)刑事警察學(xué)院科研處 遼寧 沈陽(yáng) 110035)
Y-STR分型技術(shù)在法庭科學(xué)的實(shí)際案件中的親緣排查、篩選、種群的推定,甚至個(gè)人識(shí)別都有著不可替代的作用。自Y-STR數(shù)據(jù)庫(kù)在全國(guó)各地公安機(jī)關(guān)建立以來(lái)發(fā)揮了重大作用,典型的如在偵破甘肅省“白銀案”中的成功應(yīng)用。但隨著法庭科學(xué)對(duì)Y-STR基因座的繼續(xù)研究發(fā)現(xiàn),目前常用的Y-filer Plus PCR Amplification Kit系統(tǒng)的27個(gè)Y-STR基因座普遍存在突變率較高的情況,這可能導(dǎo)致在實(shí)際鑒定工作中出現(xiàn)基因座突變而產(chǎn)生錯(cuò)誤的排除。而Y-SNP憑借著其極低的突變率、強(qiáng)群體特異性與更短的擴(kuò)增子受到法庭科學(xué)的關(guān)注[1],特別是近些年隨著對(duì)Y-SNP研究的不斷深入,Y-SNP位點(diǎn)對(duì)于法醫(yī)學(xué)更突顯出其重要意義與價(jià)值。
Y-SNP位點(diǎn)是指位于Y染色體上的單核苷酸多態(tài)性(Single Nucleotide Polymorphisms,SNPs)。單核苷酸多態(tài)性是指在基因組的水平上由單個(gè)核苷酸變異而導(dǎo)致DNA序列的多態(tài)性,是人類可遺傳變異中非常重要的一種,在人類基因組中廣泛分布,被認(rèn)為是繼STR后的第三代遺傳標(biāo)記。它主要體現(xiàn)為二等位基因變異,由單個(gè)基因轉(zhuǎn)換導(dǎo)致的,基因的插入或缺失同樣也可導(dǎo)致。目前學(xué)術(shù)上將SNP位點(diǎn)分為4類,包括個(gè)人識(shí)別SNP(IISNP)、家系SNP(LISNP)、祖先SNP(AISNP)與表型SNP(PISNP)[2]。人體的Y染色體屬于近端著絲粒染色體,包含長(zhǎng)臂Yq短臂Yp,長(zhǎng)度約為60Mb。位于Y染色體兩端的95%為非重組區(qū),而擬常染色區(qū)僅占總長(zhǎng)的5%。非重組區(qū)呈現(xiàn)單倍型獨(dú)立向下遺傳,表現(xiàn)為由父親傳遞給兒子[3]。Y-SNP突變模式目前主流學(xué)術(shù)界認(rèn)為是“一次性發(fā)生”的具有時(shí)間順序的點(diǎn)突變。因此,Y-SNP擁有高度的種群特異性,多Y-SNP位點(diǎn)所構(gòu)成的系譜樹(shù)已經(jīng)為研究群體遺傳學(xué)提供了重要幫助。由于Y-SNP位點(diǎn)的低突變率(約為10-9),在Y-STR基因庫(kù)構(gòu)建的基礎(chǔ)上具有輔助作用,可以更好地幫助實(shí)際工作中尋找與排除家系,并有望在法醫(yī)學(xué)領(lǐng)域的種群認(rèn)定與個(gè)人識(shí)別方A)或巔換面發(fā)揮更重要的作用。
在實(shí)際檢驗(yàn)工作中,往往需要對(duì)降解或陳舊檢材進(jìn)行相關(guān)Y-SNP位點(diǎn)擴(kuò)增檢驗(yàn),但因其極易受到其他生物樣本的污染,從而增加了對(duì)Y-SNP擴(kuò)增結(jié)果判斷的難度。因此,對(duì)Y-SNP特異性的研究對(duì)實(shí)際工作中檢材樣本來(lái)源的確定具有重大意義。
Y-SNP位點(diǎn)在研究其特異性時(shí)與Y-STR位點(diǎn)類似,大體可分為種屬特異性與Y染色體特異性。黃曾杰等人對(duì)人類男性的29個(gè)Y-SNP位點(diǎn)進(jìn)行特異性研究中發(fā)現(xiàn),在29個(gè)位點(diǎn)中有23個(gè)位點(diǎn)針對(duì)男性有較好的特異性,可以擴(kuò)增出相應(yīng)的PCR產(chǎn)物;29個(gè)位點(diǎn)中有3個(gè)位點(diǎn)對(duì)人,還有部分動(dòng)物均有部分?jǐn)U增產(chǎn)物,但兩者長(zhǎng)度具有顯著差異;有3個(gè)位點(diǎn)對(duì)人還有動(dòng)物有相應(yīng)的擴(kuò)增產(chǎn)物,且長(zhǎng)度類似;有5個(gè)位點(diǎn)對(duì)于男性女性均有擴(kuò)增產(chǎn)物且其長(zhǎng)度大小類似。因此,絕大多數(shù)Y-SNP位點(diǎn)對(duì)男性具有較好的特異性。部分位點(diǎn)人與動(dòng)物均可擴(kuò)增出相應(yīng)的片段,種屬特異性差。極少數(shù)位點(diǎn)不具有Y染色體特異性,男性女性均可擴(kuò)增出相應(yīng)的片段(如M7、P256、M178、M175、P31等),這可能與X染色體與Y染色體含有相應(yīng)的同源區(qū)段相關(guān)[4]。因此,在選擇Y-SNP位點(diǎn)時(shí)要充分考慮其選取位點(diǎn)的種屬特異性與Y染色體特異性,這在為科研與法庭科學(xué)檢驗(yàn)中選取Y-SNP位點(diǎn)時(shí)提供了一定的參考。
Y染色體上的突變率是種群遷徙、基因、醫(yī)學(xué)遺傳與法醫(yī)學(xué)研究的重要參數(shù)。往往由于Y染色體的突變相對(duì)獨(dú)立,通常是中性的,并且成為非重組部分唯一的變異源,所以對(duì)Y染色體上遺傳位點(diǎn)的研究可以作為良好的分子鐘來(lái)研究種群、家系、遷徙等問(wèn)題。因此,為了矯正這個(gè)分子鐘,需要對(duì)Y染色體上各遺傳位點(diǎn)的突變率加以研究分析。對(duì)于Y-STR突變率的研究目前在學(xué)術(shù)界已經(jīng)有了一定的成果,但是對(duì)于Y-SNP突變率的了解卻知之甚少。目前,在學(xué)術(shù)界對(duì)Y-SNP的大規(guī)模測(cè)序工作已經(jīng)展開(kāi),并產(chǎn)生了幾個(gè)對(duì)Y-SNP突變速率的估計(jì)。
Y-SNP突變率大體可分為遺傳突變率與進(jìn)化突變率。遺傳突變率是指由于血統(tǒng)所引起的不同程度的改變,而進(jìn)化突變率主要是指從人口事件中所獲得的任何對(duì)該位點(diǎn)產(chǎn)生影響的任何速率(如校正因子、古DNA等)。
在早期研究中,Xue等人在2009年對(duì)具有單一中國(guó)血統(tǒng)的Y染色體進(jìn)行分析,通過(guò)Sanger測(cè)序法對(duì)13代所分離的兩個(gè)人的Y染色體進(jìn)行檢測(cè)分析,分析結(jié)果產(chǎn)生了4個(gè)突變,并可以在其他家庭成員中得到驗(yàn)證,首次揭示了Y染色體單倍群SNPs的突變。由于已知祖先出生年代與后代的數(shù)量已知,故由此可以計(jì)算其每年的遺傳突變率為1.0×10-9,每一代的遺傳突變率為3.0×10-8[5]。
O.Balanovsky等人在2015年對(duì)9名哈薩克斯坦人進(jìn)行了Y-SNP位點(diǎn)的遺傳學(xué)分析,這9名哈薩克斯坦人的系譜樹(shù)共同構(gòu)成了傳統(tǒng)系譜樹(shù)的拓?fù)浣Y(jié)構(gòu),從而可以將他們與相同的歷史人物聯(lián)系在一起,進(jìn)而分析計(jì)算遺傳突變率。結(jié)果在測(cè)序深度為71×下,觀察到了44個(gè)位點(diǎn)的改變(不排除假陽(yáng)性與陰性情況的發(fā)生),測(cè)得其遺傳突變率為0.78×10-9[6]。O.Balanovsky在2017年對(duì)此進(jìn)行了回顧性分析,分析了從2009年至2015年4位不同學(xué)者對(duì)Y-SNP位點(diǎn)檢測(cè)所得遺傳突變率的結(jié)果,其平均值為0.89×10-9,并認(rèn)為該突變率可作為一種Y染色體X退化序列良好的遺傳突變率[7]。
進(jìn)化突變率主要影響因素分為兩種:由校正因子帶來(lái)的影響與古DNA所帶來(lái)的影響。在計(jì)算Y-SNP進(jìn)化突變率時(shí)主要考慮上述兩種因素。
4.2.1 通過(guò)校正因子所計(jì)算的進(jìn)化突變率
Poznik等人在2013年對(duì)總計(jì)69條Y染色體進(jìn)行了測(cè)序,并以此為基礎(chǔ)構(gòu)建了一個(gè)全球范圍的Y染色體樹(shù)。他們通過(guò)對(duì)外顯子測(cè)序來(lái)驗(yàn)證43個(gè)位點(diǎn),進(jìn)而得出其進(jìn)化突變率為0.82×10-9[8]。雖然該結(jié)果與全球線粒體DNA樹(shù)的TMRCA相吻合,但是其突變率是由美國(guó)校準(zhǔn)的特殊子樹(shù)中獲得的,要考慮到該血統(tǒng)人種種族遷徙、分離等多方面因素,故該結(jié)果具有爭(zhēng)議性。
Francalacci等人在2013年與2015年分別對(duì)1204名撒丁島人的Y染色體進(jìn)行低測(cè)序深度(2×)與高測(cè)序深度(17×)的測(cè)序,并重點(diǎn)將其聚焦于Y染色體退變區(qū)。他們通過(guò)結(jié)果證實(shí)了 I2a1a-δ單倍群是撒丁島人所獨(dú)有的,因?yàn)槠鋷в忻黠@的人口爆炸信號(hào),分析其原因可能與新石器時(shí)代殖民統(tǒng)治的擴(kuò)張與改造相關(guān)。通過(guò)低測(cè)序深度所檢測(cè)的進(jìn)化突變率為0.53×10-9,其結(jié)果由于對(duì)假陽(yáng)性的高度過(guò)濾,在實(shí)際測(cè)序中可能忽略了個(gè)別突變的SNPs位點(diǎn),因而所測(cè)得進(jìn)化突變率偏低。通過(guò)高測(cè)序深度所檢測(cè)的 I2a1a-δ單倍群所得的進(jìn)化突變率更快,通過(guò)標(biāo)準(zhǔn)正態(tài)分布計(jì)算所得的CI為0.62×10-9至0.68×10-9[9]。
4.2.2 通過(guò)古DNA所計(jì)算的進(jìn)化突變率
FU等人在2014年對(duì)一位約為45000歲的西西伯利亞人進(jìn)行了完整的基因組測(cè)序(測(cè)序深度為22×),發(fā)現(xiàn)其古老的Y染色體與東/北歐的單倍群NO相類似。其他的研究往往使用概率論的方法直接計(jì)算突變并估計(jì)突變率,但該學(xué)者率先通過(guò)貝葉斯建模的方式在構(gòu)建樹(shù)的同時(shí),也將其應(yīng)用于對(duì)進(jìn)化突變率的估計(jì),估計(jì)的結(jié)果為0.76×10-9(95%CI為0.67×10-9到0.86×10-9)[10]。Trombetta等人在2015年對(duì)數(shù)百個(gè)現(xiàn)代人樣本的X退變區(qū)(1.5Mb)進(jìn)行了檢測(cè),并以此為數(shù)據(jù)通過(guò)貝葉斯模型建立系統(tǒng)遺傳樹(shù)。后將其與Ust’-Ishim和歐洲舊石器時(shí)期晚期的Loshbour樣本相結(jié)合,通過(guò)將古DNA的年齡加入到樹(shù)中后進(jìn)行分析計(jì)算,最后得到0.71×10-9的進(jìn)化突變率(95%CI為0.62×10-9到0.82×10-9)[11]。
4.3.1 測(cè)序覆蓋深度與SNP過(guò)濾設(shè)置所帶來(lái)的影響
由于樣本本身的差異,在檢測(cè)時(shí)相應(yīng)參數(shù)的設(shè)置對(duì)最后突變率的測(cè)量會(huì)帶來(lái)不同的影響。如為了避免假陽(yáng)性與假陰性所帶來(lái)的影響,在測(cè)序時(shí)要特別注意要尋找一個(gè)合適的測(cè)序覆蓋深度。過(guò)低的測(cè)序深度會(huì)造成相應(yīng)的錯(cuò)誤從而造成假陰性,進(jìn)而低估突變率。正如Francalacci等人通過(guò)測(cè)序深度為2×增加到17×進(jìn)而增加了23%的突變率[12];當(dāng)測(cè)序深度過(guò)高時(shí),由于儀器設(shè)備的限制,就會(huì)造成精準(zhǔn)度的偏差,從而造成假陽(yáng)性。當(dāng)然,同樣也是由于SNP分析閾值由2增加到10進(jìn)而也可以減少測(cè)序的假陽(yáng)性發(fā)生率。故對(duì)SNP分析閾值的設(shè)置,O.Balanovsky認(rèn)為要分局部樣本(單一位置單一樣本)、復(fù)合樣本(單一位置多樣本)與系統(tǒng)樣本三種情況分別進(jìn)行處理。
4.3.2 世代傳遞時(shí)間對(duì)突變率所帶來(lái)的影響
根據(jù)對(duì)常染色體突變率進(jìn)行估算時(shí)所用計(jì)算方法的特點(diǎn),世代傳遞時(shí)間主要以兩種方式來(lái)影響對(duì)突變率的估算。第一,在對(duì)突變率進(jìn)行估算時(shí),通常所測(cè)量的值TMRCA以幾代人的速度表達(dá),后轉(zhuǎn)化為以年代為單位。所以,每代人的持續(xù)時(shí)間將會(huì)直接影響到對(duì)突變率的估算。第二,隨著父親年齡的增長(zhǎng),隨之帶來(lái)突變的可能性便會(huì)加大。但幸運(yùn)的是,對(duì)Y-SNP突變率的估算通常是以年為單位,因而第一種方式可以很好地被避免,但第二種方式卻存在,父親的年齡增加了突變率,并隨著世代而變化。因此,男性的青春期年齡、男性精子生長(zhǎng)周期與男性生育平均年齡對(duì)突變率的估算都將產(chǎn)生影響。
4.3.3 在Y染色體的回文序列與X退化序列突變率的差異
盡管學(xué)術(shù)界在研究Y-SNP的突變率時(shí)重點(diǎn)關(guān)注X退化序列,但是Helgason等人在2015年預(yù)見(jiàn)性地將大量基于血緣基礎(chǔ)的數(shù)據(jù),應(yīng)用于對(duì)Y染色體擴(kuò)增序列中的回文序列、X退化序列與X轉(zhuǎn)位序列。其在研究中發(fā)現(xiàn),在X退變序列中并沒(méi)有回文序列與X轉(zhuǎn)位序列所含有的旁系同源基因,而該基因是研究對(duì)Y-SNP的突變率進(jìn)行估算的主要研究對(duì)象。因此,如果發(fā)生突變,則不能確定具體是哪個(gè)序列中攜帶了該突變,則每個(gè)序列都被認(rèn)為是含有突變的,突變大小分別占33%。最后必須通過(guò)這些突變?cè)诓煌蛄兄械臋?quán)重來(lái)分別進(jìn)行計(jì)算,進(jìn)而得到一個(gè)無(wú)偏見(jiàn)的Y-SNP突變率。該學(xué)者發(fā)現(xiàn),在這些區(qū)域中,回文序列的突變率最低(0.74×10-9,CI:0.64×10-9-0.85×10-9),X退化序列的突變率最高(0.89×10-9,CI:0.80×10-9-0.99×10-9)[13]。
自20世紀(jì)DNA的發(fā)現(xiàn)到現(xiàn)如今,經(jīng)歷了近百年的SNP分析技術(shù)已日益成熟,但由于SNP獨(dú)特的生理結(jié)構(gòu)特點(diǎn)導(dǎo)致了其各類分析方法均無(wú)法達(dá)到最完美的結(jié)果。目前學(xué)術(shù)界對(duì)SNP位點(diǎn)的研究主要集中在兩個(gè)方面:其一為對(duì)SNP位點(diǎn)進(jìn)行篩選,從而建立SNP數(shù)據(jù)庫(kù);其二為對(duì)不同SNP位點(diǎn)的功能進(jìn)行研究,從而為醫(yī)學(xué)領(lǐng)域治療、用藥或預(yù)防等提供幫助。因此,就法醫(yī)學(xué)對(duì)SNP進(jìn)行分析時(shí),主要應(yīng)當(dāng)結(jié)合樣本條件與實(shí)驗(yàn)要求等進(jìn)行綜合分析,分析方法既要在擁有良好的復(fù)合擴(kuò)增體系的同時(shí)保證高精準(zhǔn)度,也應(yīng)兼顧高通量與低成本問(wèn)題,進(jìn)而選取最恰當(dāng)?shù)姆绞健?/p>
對(duì)于Y-SNP來(lái)說(shuō),目前所用分析技術(shù)與常染色體SNP相類似,主要分為兩類:傳統(tǒng)凝膠檢測(cè)法與新型(現(xiàn)代)分析技術(shù)方法。其中傳統(tǒng)凝膠的分析方法主要包括PCR-RFLP、單鏈構(gòu)象多態(tài)性分析技術(shù)(SSCP)、等位基因特異性探針(ASO)等。新型(現(xiàn)代)分析技術(shù)方法主要包括DNA芯片技術(shù)、變性高效液相色譜分析(DHPLC)、TapMan熒光探針技術(shù)、MassARRAY質(zhì)譜分析技術(shù)、SNaPShot技術(shù)、基質(zhì)輔助激光解吸電離/飛行時(shí)間(MALDITOF)質(zhì)譜法等。傳統(tǒng)分析技術(shù)由于其通量低、成本高、時(shí)間長(zhǎng)的缺點(diǎn),較少應(yīng)用于Y-SNP的分析中,對(duì)此,本文不再贅述。對(duì)于高通量的分析方法,目前SNaPShot技術(shù)以其獨(dú)特的優(yōu)勢(shì)被大量應(yīng)用于Y-SNP的分析。
DHPLC技術(shù)是在溫度調(diào)控高效液相色譜技術(shù)(TmHPLC)的基礎(chǔ)上改進(jìn)而來(lái)的,通過(guò)固定相對(duì)相同長(zhǎng)度片段內(nèi)部不同堿基對(duì)親和力的不同,從而將3’端按照C、G、A、T的順序依次洗脫,因而該方法可以分析目的片段與已知片段之間的微小差異。由于該方法在分析進(jìn)樣前無(wú)需對(duì)樣本進(jìn)行純化,因此在實(shí)際操作中可以應(yīng)用于高通量的基因分析。但該分析方法不能測(cè)出變異位點(diǎn)的具體序列,需要更進(jìn)一步的測(cè)序。正是該方法具有的高通量、操作簡(jiǎn)便、高效、檢出率高(95%~100%)特點(diǎn),故被廣泛地應(yīng)用于變異SNP位點(diǎn)的發(fā)現(xiàn)與篩查[14]。
石美森在2005年首次將DHPLC技術(shù)應(yīng)用于對(duì)Y-SNP位點(diǎn)的分析研究。該學(xué)者通過(guò)將Y染色體M9、M35、M98三個(gè)SNP位點(diǎn)進(jìn)行SNuPE復(fù)合位點(diǎn)擴(kuò)增,后將得到的擴(kuò)增樣本在完全變性的條件下用DNASep?分析柱進(jìn)行洗脫[15]。根據(jù)DNA分析片段的長(zhǎng)度及每條單鏈堿基不同構(gòu)成的順序被依次洗脫,然后以峰值的形式記錄下來(lái),隨后通過(guò)分析同一條件下所檢測(cè)樣品的圖譜來(lái)確定基因型。該方法操作簡(jiǎn)便、快捷,同時(shí)由于無(wú)需對(duì)擴(kuò)增樣本進(jìn)行純化,因此適用于高通量的Y-SNP分型。但由于其本身技術(shù)特點(diǎn)限制,尚不能用于明確變異,只能對(duì)Y-SNP變異進(jìn)行初篩、初檢,最后仍然需要測(cè)序來(lái)明確具體變異。
質(zhì)譜是通過(guò)測(cè)定待測(cè)樣品電離后離子的質(zhì)荷比來(lái)判斷樣品的構(gòu)成與性質(zhì)的,最早應(yīng)用于蛋白質(zhì)的分析與檢測(cè)中。在20世紀(jì)90年代,隨著一些電離技術(shù)的出現(xiàn),質(zhì)譜技術(shù)被應(yīng)用于高通量的DNA遺傳分析。根據(jù)不同的電離技術(shù),可以將質(zhì)譜技術(shù)分為基質(zhì)輔助激光解吸飛行時(shí)間質(zhì)譜(MALDI-TOFMS)、電噴霧離子化質(zhì)譜(ESI-MS)、MassARRAY質(zhì)譜分析技術(shù)等。楊何義等人在2003年率先將生物質(zhì)譜應(yīng)用于SNP的分型檢測(cè)。他們通過(guò)對(duì)MALDITOF-MS技術(shù)與ESI-MS技術(shù)對(duì)SNP分型的準(zhǔn)確度與分辨率數(shù)據(jù)的分析來(lái)評(píng)價(jià)生物質(zhì)譜對(duì)SNP分型的優(yōu)劣勢(shì)[16]。由于質(zhì)譜技術(shù)為直接對(duì)樣品電離后的離子進(jìn)行分型,對(duì)比傳統(tǒng)的電泳技術(shù)可以消除其對(duì)擴(kuò)增片段的抑制效應(yīng),從而具有高效、簡(jiǎn)便、快捷與高通量的特點(diǎn),通過(guò)二等位基因檢測(cè)體系適合實(shí)驗(yàn)室大規(guī)模樣本試驗(yàn)[17]。但是,其劣勢(shì)在于對(duì)靶序列寡核苷酸的要求高,長(zhǎng)度一般不能超過(guò)45個(gè)堿基,過(guò)長(zhǎng)的序列可能會(huì)導(dǎo)致質(zhì)譜在分辨率與精度方面的下降,從而造成錯(cuò)誤的判定。該技術(shù)特點(diǎn)嚴(yán)重影響了多重SNP位點(diǎn)的的檢測(cè)能力,不利于復(fù)合SNP擴(kuò)增體系的檢測(cè)。楊何義等人在ESI-MS技術(shù)的基礎(chǔ)上,嘗試通過(guò)使用ESI-Qq-TOF-MS技術(shù)以提高對(duì)靶序列核苷酸的檢測(cè)長(zhǎng)度。結(jié)果發(fā)現(xiàn),對(duì)于多重SNP位點(diǎn)體系分型方面,該技術(shù)相對(duì)于傳統(tǒng)質(zhì)譜技術(shù)在準(zhǔn)確度與分辨率上具有明顯優(yōu)勢(shì)。王琳等人在2016年通過(guò)將MassARRAY生物芯片與MALDI-TOFMS技術(shù)相結(jié)合來(lái)對(duì)Y-SNP復(fù)合位點(diǎn)進(jìn)行檢測(cè),其方法技術(shù)大大提高了傳統(tǒng)MALDI-TOF-MS技術(shù)對(duì)復(fù)合SNP位點(diǎn)的檢測(cè)能力。同時(shí),相比目前常用的SNaPshot技術(shù),極大地節(jié)約了分型所需的時(shí)間與成本,可以應(yīng)用于基礎(chǔ)科學(xué)研究。但其對(duì)所需樣本量有相應(yīng)的要求,且對(duì)組織樣本分型效果差,故難以在日常法醫(yī)檢驗(yàn)中開(kāi)展。
SNaPshot技術(shù)又稱小測(cè)序、微測(cè)序,它主要是在傳統(tǒng)電泳凝膠的基礎(chǔ)上結(jié)合熒光標(biāo)記單堿基延伸技術(shù),后在通過(guò)對(duì)含有四色熒光標(biāo)記(ddNTP)的單鏈DNA進(jìn)行熒光信號(hào)記錄,從而達(dá)到對(duì)DNA進(jìn)行測(cè)序的目的。由于SNaPshot技術(shù)在同一體系內(nèi)可對(duì)多個(gè)SNP位點(diǎn)同時(shí)進(jìn)行檢測(cè),具有分型準(zhǔn)確、價(jià)格低廉的特點(diǎn),可以達(dá)到中等通量,同時(shí)輔以毛細(xì)管電泳儀分析技術(shù)而被大量應(yīng)用于對(duì)SNP的科學(xué)研究。婁春光等人在使用SNaPshot技術(shù)對(duì)44個(gè)復(fù)合SNPs位點(diǎn)進(jìn)行檢測(cè)時(shí)提出了多種對(duì)該技術(shù)的優(yōu)化方法以提升該分型的準(zhǔn)確率,如前期對(duì)多重PCR反應(yīng)體系與緩沖液的調(diào)整、Mg2+與dNTP濃度的優(yōu)化、后期單堿基引物延伸反應(yīng)與反應(yīng)產(chǎn)物檢測(cè)的優(yōu)化等[18]。目前,SNaPshot技術(shù)對(duì)于Y-SNP位點(diǎn)的分型也已日趨成熟,特別是在對(duì)連鎖信息性Y-SNP遺傳性分析中起到了關(guān)鍵作用。
二代測(cè)序技術(shù)(Next-generation Sequencing,NGS)又稱深度測(cè)序,這是一種以邊合成邊測(cè)序與大規(guī)模平行測(cè)序(Massively Parallel Sequencing,MPS)思想為基本思想,通過(guò)檢測(cè)在合成新子鏈時(shí)所結(jié)合的帶有熒光標(biāo)記的dNTP,從而對(duì)母鏈進(jìn)行測(cè)序[19]。相比以前較傳統(tǒng)的Sanger測(cè)序方法,二代基因測(cè)序技術(shù)具有在較短時(shí)間內(nèi)高效獲取大量序列數(shù)據(jù)的優(yōu)勢(shì),是一種高通量的測(cè)序技術(shù)[20]。但由于二代基因測(cè)序技術(shù)所用儀器總體價(jià)格昂貴而限制了其發(fā)展。
美國(guó)FDA在2013年批準(zhǔn)了Illumina公司的MiSeqDx測(cè)序儀生產(chǎn),其是第一臺(tái)應(yīng)用二代基因測(cè)序技術(shù)的測(cè)序儀。隨后,相繼的二代基因測(cè)序技術(shù)平臺(tái)不斷涌現(xiàn),如Applied Biosystems公司的SOLiD測(cè)序儀、羅氏公司的FLX系統(tǒng)測(cè)序儀、赫利克斯公司的Heliscope測(cè)序儀等。
羅氏公司的FLX系統(tǒng)主要是基于焦磷酸測(cè)序法,可以對(duì)中長(zhǎng)片段進(jìn)行讀取,適合于適合轉(zhuǎn)錄組測(cè)序、宏基因組研究、De novo測(cè)序等。但是由于其樣本制作困難,儀器價(jià)格昂貴而較少被使用。
Illumina公司的MiSeqDx測(cè)序儀主要是基于可逆鏈終止物和合成測(cè)序法,可以對(duì)100bp~150bp的片段進(jìn)行讀取,適用于適合micoRNA鑒定、DNA甲基化和表觀遺傳學(xué)的研究。其缺點(diǎn)在于用于儀器與后期數(shù)據(jù)整理及分析所需的費(fèi)用昂貴。
Applied Biosystems公司的SOLiD測(cè)序儀主要是基于連接反應(yīng)測(cè)序原理,其讀長(zhǎng)在所有平臺(tái)中最短,可低至50bp~75bp,因而適于基因組重測(cè)序和SNP檢測(cè)。但是由于其檢測(cè)的片段短,導(dǎo)致測(cè)序時(shí)間長(zhǎng)、分析困難等造成了其昂貴的成本[21]。
二代基因檢測(cè)技術(shù)已經(jīng)徹底改變了生物醫(yī)學(xué)的研究,并將對(duì)醫(yī)學(xué)實(shí)踐產(chǎn)生深遠(yuǎn)的影響。它增強(qiáng)了我們對(duì)基因的識(shí)別、量化與功能方面的研究,進(jìn)而對(duì)法醫(yī)遺傳學(xué)產(chǎn)生了深遠(yuǎn)的影響。近年來(lái),二代基因檢測(cè)技術(shù)在人類個(gè)體識(shí)別與表型形狀研究方面已經(jīng)得以應(yīng)用,如基因診斷、SNP位點(diǎn)的檢測(cè)等。對(duì)于Y-SNP的檢測(cè),二代基因檢測(cè)技術(shù)已經(jīng)成為其主要檢測(cè)手段之一[22]。但由于二代基因測(cè)序技術(shù)對(duì)讀長(zhǎng)的限制,不太適用于需要讀取較長(zhǎng)的序列來(lái)分析復(fù)雜基因組中SNP關(guān)系的研究。同時(shí),在實(shí)踐中儀器的價(jià)格、運(yùn)行時(shí)間與成本等多方面考慮,該技術(shù)的推廣也受到了相應(yīng)的限制。
第三代測(cè)序技術(shù)又稱SMRT測(cè)序,這是一種相比二代測(cè)序在檢測(cè)小基因序列時(shí)更為精準(zhǔn)的測(cè)序方式。該技術(shù)主要是基于熒光標(biāo)記核苷酸實(shí)時(shí)成像技術(shù),通過(guò)檢測(cè)整合到DNA模板中的新生成DNA分子的熒光信號(hào)來(lái)對(duì)序列進(jìn)行閱讀。該技術(shù)特點(diǎn)在于其使用DNA聚合酶來(lái)驅(qū)動(dòng)并對(duì)單個(gè)分子進(jìn)行成像,信號(hào)隨著時(shí)間的推移并不會(huì)衰減。目前PacBio RS測(cè)序儀的平均讀長(zhǎng)是3000bp,有的讀長(zhǎng)可能為2萬(wàn)個(gè)甚至更長(zhǎng),相比二代測(cè)序技術(shù)在讀長(zhǎng)方面特別是新基因組的de novo測(cè)序更具優(yōu)勢(shì)[23]。
Xiaoge Guo等人于2015年通過(guò)使用SMRT測(cè)序技術(shù)對(duì)酵母菌細(xì)胞與人體腫瘤細(xì)胞中特定片段SNPs之間的關(guān)聯(lián)研究中發(fā)現(xiàn),SMRT測(cè)序技術(shù)適用于大量獨(dú)立樣本中的少量目標(biāo),同時(shí)很容易揭示多態(tài)SNPs分析樣本中存在的單倍體類型之間的聯(lián)系,可以替代目前由于二代測(cè)序復(fù)雜的計(jì)算方法,節(jié)約科研與實(shí)踐工作的時(shí)間周期,尤其適用于法醫(yī)遺傳學(xué)中基于Y-SNP位點(diǎn)家族譜系的建立[24]。但是,該技術(shù)在發(fā)展上仍然具有相應(yīng)的不足,特別是在DNA聚合酶與計(jì)算誤差的減少方面。
目前在法庭科學(xué)中Y-SNP主要應(yīng)用于以下兩個(gè)方面:一是推測(cè)未知樣本來(lái)源,參與構(gòu)建Y染色體單倍群進(jìn)化樹(shù),從而實(shí)現(xiàn)對(duì)種族人群的區(qū)分;二是通過(guò)選取相應(yīng)的Y-SNP,并根據(jù)其豐富的遺傳多樣性來(lái)實(shí)現(xiàn)個(gè)人識(shí)別與父系親權(quán)鑒定。
Y-SNP由于其本身的遺傳特性與突變類型決定了它具有較強(qiáng)的地域性。對(duì)此,國(guó)際Y染色體協(xié)會(huì)在2002年對(duì)來(lái)自于74個(gè)男性個(gè)體的245個(gè)Y-SNP標(biāo)記進(jìn)行基因分型,從而在全球范圍內(nèi)構(gòu)建了153個(gè)基于Y-SNP系統(tǒng)的Y染色體單倍群進(jìn)化樹(shù)[25]。這不僅是世界范圍內(nèi)構(gòu)建最早的基于Y-SNP系統(tǒng)的單倍群進(jìn)化樹(shù),同時(shí)也制定了一系列的命名規(guī)則,該命名規(guī)則可兼容于基于系譜的命名與基于突變的命名規(guī)則,為后期單倍群進(jìn)化樹(shù)的研究奠定了基礎(chǔ)。
如今在法庭科學(xué)上通過(guò)對(duì)Y-SNP單倍群的研究,可以將東亞人種主要分為9種大類單倍群,分別為C*-M130、DE*-YAP、F*-M9、O3*-M122、K*-M9、O3a3c-M134、O1a-M119、O2a-M95與P*-M45[26]。目前學(xué)者們普遍關(guān)注于東亞人所特有的O類單倍群,如O3*-M122,對(duì)法庭科學(xué)中嫌疑樣本的種屬鑒定可起到十分重要的作用。
由于Y-SNP突變具有累積效應(yīng),對(duì)于Y染色體單倍群的遷徙與各地區(qū)基因交流等方面的研究同樣具有重要意義。于露等人在對(duì)209名無(wú)血緣河南人的Y-SNP單倍群研究中發(fā)現(xiàn),即使同為東亞地區(qū)但不同區(qū)域單倍型仍然具有其獨(dú)特性[27]。河南地區(qū)主要以O(shè)3單倍群為主,占比約為30.62%。通過(guò)不同區(qū)域單倍群占比的分析研究,對(duì)后期Y-SNP數(shù)據(jù)庫(kù)的建立與分析嫌疑樣本Y-SNP單倍群的地域性具有重要意義。
Y-SNP位點(diǎn)不僅可以在構(gòu)建單倍群進(jìn)化樹(shù)上提供幫助,對(duì)于個(gè)人識(shí)別同樣具有重要的輔助作用。雖然Y-SNP本身所攜帶的信息量少,但是由于Y-SNP位點(diǎn)數(shù)量龐大,因此,其組成的單倍型便可提供豐富的遺傳信息,如表型特征信息與個(gè)人身份信息等。目前在學(xué)術(shù)領(lǐng)域主要是通過(guò)對(duì)常染色體個(gè)人識(shí)別SNP(IISNP)進(jìn)行位點(diǎn)分析,但對(duì)Y-SNP應(yīng)用于個(gè)人識(shí)別還鮮有報(bào)道。
近幾年,利用SNP進(jìn)行身份鑒別在法庭科學(xué)的取證環(huán)節(jié)上取得了突飛猛進(jìn)的發(fā)展。GenPlex HID系統(tǒng)通過(guò)對(duì)48個(gè)IISNP的檢驗(yàn),獲得了至少達(dá)5.0 × 10-19的匹配概率[28]。Pakstis AJ等人隨后將19個(gè)無(wú)關(guān)聯(lián)SNP、40個(gè)無(wú)關(guān)聯(lián)SNP、92個(gè)無(wú)關(guān)聯(lián)SNP應(yīng)用于法醫(yī)個(gè)人識(shí)別以驗(yàn)證其效能,并指出通過(guò)40個(gè)無(wú)關(guān)聯(lián)IISNPs即可達(dá)到2.02 × 10-17到1.29 × 10-13的匹配概率[29]。同時(shí)該研究表示,這些標(biāo)記相對(duì)容易被識(shí)別,這對(duì)于法庭科學(xué)中對(duì)SNP檢驗(yàn)工作具有重大意義。M. Heath Farris等人在2018年通過(guò)開(kāi)發(fā)一種基于大規(guī)模平行測(cè)序(MPS)的IISNP孤島算法(同一離散基因組區(qū)域的多個(gè)身份相關(guān)SNP的單倍型)用以對(duì)不同的嫌疑樣本進(jìn)行區(qū)分與個(gè)人識(shí)別,該方法同樣可以在已知SNP位點(diǎn)變異的基礎(chǔ)上識(shí)別新的變異并進(jìn)行區(qū)分[30]。
隨著全球人口SNP數(shù)據(jù)庫(kù)的成熟與保真度的提高,以及新MPS技術(shù)的出現(xiàn),Y-SNP位點(diǎn)分析在個(gè)人識(shí)別領(lǐng)域?qū)⒕哂袕V闊的應(yīng)用前景。
與常染色體STR類似,Y-STR同樣在突變率上有高低之分。目前在對(duì)Y-STR基因座的檢驗(yàn)中,對(duì)于突變率高于10‰的快速突變基因座(RM STRs)的判讀需要十分謹(jǐn)慎,需結(jié)合案情等進(jìn)行綜合判定,以求對(duì)犯罪嫌疑人達(dá)到準(zhǔn)確刻畫(huà),便于刑事案件中犯罪嫌疑人家系的排查[31]。隨著Y-STR基因庫(kù)的構(gòu)建,基因庫(kù)人數(shù)不斷地增加,出現(xiàn)了無(wú)關(guān)個(gè)體享有相同的Y-STR單倍群的情況發(fā)生[32]。通常情況下,對(duì)應(yīng)的策略為選取突變率更低的Y-STR基因座[33]與增加Y-STR基因座的位點(diǎn)[34]來(lái)增強(qiáng)對(duì)家系的區(qū)分。針對(duì)此現(xiàn)象,Kaye N.Ballantyne等人認(rèn)為可以在Y-STR基因庫(kù)所選取的位點(diǎn)中適當(dāng)增加少量RM Y-STR位點(diǎn),以提升各單倍群的特異性,從而增強(qiáng)對(duì)不同家系的區(qū)分[35]。但隨著對(duì)Y-STR單倍群的繼續(xù)研究,張文瓊等人在對(duì)4個(gè)RM Y-STR的研究報(bào)道中指出,異常分型的出現(xiàn)概率高達(dá)7.94%[36]。Kaye N.Ballantyne等人在對(duì)部分非RM Y-STRs基因座的研究中發(fā)現(xiàn),同樣出現(xiàn)了高達(dá)1.51×10-3~7.27×10-3不等的突變率。因此,對(duì)于來(lái)自一個(gè)家系的男子,理論上擁有相同的Y-STR單倍型,但是由于Y-STR基因座的突變?nèi)匀粫?huì)造成基因分型的不一。
SNP基因座相比于STR基因座有著低突變率、穩(wěn)定的性質(zhì),使其具有不易降解的特性。Hathaichanoke等人在對(duì)泰國(guó)人群的降解DNA分型中發(fā)現(xiàn),當(dāng)STR分型已不能提供足夠的信息時(shí),所選取的54個(gè)SNP基因位點(diǎn)分型仍然可以提供足夠的基因型數(shù)據(jù)[37],這與SNPs分析時(shí)所選取的片段大小相關(guān)(45bp~150bp),相對(duì)較短的SNP位點(diǎn)擴(kuò)增子檢驗(yàn)對(duì)于降解檢材或是腐敗檢材仍然擁有可以挖掘的重要信息。因此,實(shí)際工作中對(duì)降解與腐敗檢材的檢驗(yàn),Y-SNP位點(diǎn)就突顯其重要的檢驗(yàn)價(jià)值。同樣,Y-SNP不僅可以應(yīng)用于常規(guī)檢材的個(gè)人識(shí)別,對(duì)于混合斑中的個(gè)人識(shí)別同樣具有重要意義。
對(duì)此,筆者認(rèn)為在當(dāng)前條件下,可在所構(gòu)建的Y-STR基因庫(kù)相應(yīng)地添加Y-SNP位點(diǎn),從而在現(xiàn)有條件下更準(zhǔn)確地對(duì)家系進(jìn)行區(qū)分。Y-SNP相比Y-STR,具有穩(wěn)定不易突變性、耐降解性與地域性。特別是在地域性方面,由于Y-SNP位點(diǎn)所具有的單倍型父系遺傳可以有效避免染色體重組的發(fā)生,同時(shí)輔以其極低的突變率在對(duì)目前所構(gòu)建的Y-STR基因庫(kù)有極大的輔助作用。由于其擴(kuò)增子短,便于進(jìn)行大規(guī)模的儀器批量檢測(cè)。目前SNP作為第三代遺傳標(biāo)記在法庭科學(xué)中越來(lái)越突顯其地位,在國(guó)際范圍內(nèi)的人類SNP基因庫(kù)也在逐步構(gòu)建中。因此,在傳統(tǒng)Y-STR基因庫(kù)的基礎(chǔ)上加入篩選的具有家系特征與個(gè)人識(shí)別特征的Y-SNP,從而以其極低的突變率保障對(duì)犯罪嫌疑人家系排查的準(zhǔn)確率,輔以RM Y-STR位點(diǎn)甚至有望可達(dá)到個(gè)人識(shí)別水平。這不僅對(duì)于公安實(shí)戰(zhàn)中混合斑、降解與腐敗檢材的鑒定,前期家系排查工作,甚至是犯罪嫌疑人的同一認(rèn)定均具有一定的價(jià)值,同樣對(duì)于公安實(shí)戰(zhàn)從第二代遺傳標(biāo)記(STR)向第三代遺傳標(biāo)記(SNP)的過(guò)渡也具有重大意義。但不得不說(shuō)的是,在選取相應(yīng)Y-SNP位點(diǎn)時(shí)要格外注意,為避免檢材因受到其他生物來(lái)源及女性成分來(lái)源的污染時(shí)出現(xiàn)假陽(yáng)性的情況,要選擇對(duì)男性有較好種屬特異性的Y-SNP位點(diǎn)進(jìn)行分析。
目前傳統(tǒng)檢測(cè)方法鮮有將Y-STR與Y-SNP復(fù)合擴(kuò)增后進(jìn)行平行檢測(cè)的案例,主要體現(xiàn)為分別通過(guò)聚合酶鏈反應(yīng)—毛細(xì)管電泳分型技術(shù)(Polymerase Chain Reaction-capillary Electrophoresis,PCR-CE)與MPS平臺(tái)分別進(jìn)行測(cè)序,后通過(guò)整合在一個(gè)數(shù)據(jù)庫(kù)中。再使用FSindex分析平臺(tái)對(duì)這兩種位點(diǎn)的突變率進(jìn)行校正綜合分析(NGS+)[38]。但是,隨著檢測(cè)技術(shù)的不斷提升,目前已有通過(guò)MPS平臺(tái)對(duì)包括STRs、SNPs、mtDNA、Y-STRs和X-STRs在內(nèi)的遺傳位點(diǎn)進(jìn)行平行基因型測(cè)序分析的研究,這不僅可以大大減少檢測(cè)的操作與時(shí)間,同時(shí)也可減少對(duì)檢測(cè)樣本的消耗。MPS檢測(cè)平臺(tái)的發(fā)展可為Y-STR與Y-SNP基因庫(kù)的構(gòu)建解決技術(shù)難題,并有望成為一項(xiàng)很有前途的法醫(yī)學(xué)應(yīng)用技術(shù)。