孔進(jìn)姣,石麗媛,王 鵬
鼠疫是嚴(yán)重危害人類健康的烈性傳染病,它通過(guò)媒介蚤造成鼠間的傳播,人類也會(huì)偶然被感染,在一定的條件下甚至可造成人間鼠疫的流行。鼠疫桿菌是引起鼠疫的病原體,是一種高毒力,高傳染性、高致病性的細(xì)菌性微生物,是由假結(jié)核耶爾森菌在3 300年前進(jìn)化而來(lái)的[1]。在進(jìn)化過(guò)程中鼠疫菌為了應(yīng)對(duì)生態(tài)環(huán)境的優(yōu)勝劣汰不斷進(jìn)行選擇性適應(yīng),從而導(dǎo)致了基因在生態(tài)位上的變異,形成了特征多樣性的鼠疫菌株[2]。目前我國(guó)存在12塊鼠疫自然疫源地,由于這些疫源地內(nèi)的地理景觀和生態(tài)環(huán)境不同,使得疫源地內(nèi)的鼠疫菌株在免疫原性、毒力、感受性、敏感性、流行病學(xué)特征方面存在較大差異,這將更加有利于菌株來(lái)源的分析?,F(xiàn)在鼠疫仍是我國(guó)主要的公共衛(wèi)生問(wèn)題之一,弄清鼠疫的來(lái)源及變異,是預(yù)防與控制鼠疫暴發(fā)流行的科學(xué)基礎(chǔ),而單核苷酸多態(tài)性(Single Nucleotide Polymorphism,SNP)是溯源的常用技術(shù)之一,了解其目前的研究現(xiàn)狀,將有助于疫情的監(jiān)測(cè)與防控。因此,本文對(duì)SNP的最新研究成果及其在鼠疫菌分型中的應(yīng)用進(jìn)行簡(jiǎn)要的綜述。
SNP是指在基因組上由單個(gè)核苷酸的變異所引起的 DNA 序列的多態(tài)性。在細(xì)菌的基因組中,這種變異可能發(fā)生在編碼區(qū),分為同義SNP(sSNP)和非同義SNP(nSNP),sSNP不會(huì)引起所編碼氨基酸的改變,其多態(tài)性能客觀的反應(yīng)細(xì)菌的進(jìn)化情況,而nSNP不僅引起編碼氨基酸的改變,也引起編碼蛋白序列的改變,甚至可能使編碼氨基酸的密碼子轉(zhuǎn)變?yōu)榻K止密碼子,引起無(wú)義突變;也可能發(fā)生在非編碼區(qū),這個(gè)區(qū)域SNP數(shù)量眾多,但不會(huì)改變個(gè)體表型特征,卻能作為群體遺傳和進(jìn)化研究的遺傳標(biāo)記[3]。目前通過(guò)許多生物化學(xué)方法已經(jīng)能確定個(gè)體的SNP,并且SNP因具有高分辨率和完整的數(shù)據(jù)信息,現(xiàn)在已經(jīng)廣泛應(yīng)用于金黃色葡萄球菌、炭疽芽孢桿菌、鼠疫耶爾森氏菌、肺炎衣原體和梅毒螺旋體等致病菌的群體遺傳的研究中[4-7]。近來(lái)由于SNP技術(shù)的成熟,數(shù)據(jù)信息日益增多,這也帶動(dòng)了SNP數(shù)據(jù)庫(kù)的建立,現(xiàn)在國(guó)際上關(guān)于致病性細(xì)菌的SNP數(shù)據(jù)庫(kù)主要有Sujay、Chatto、padhyay等人建立的微生物變異組數(shù)據(jù)庫(kù) (Microbial Variome Database),Geoffrey L、Winsor 等建立的假單胞菌屬基因組數(shù)據(jù)庫(kù)(Pseudomonas Genome Database),以及Broad研究中心開(kāi)發(fā)的基因組分析工具包(Genome Analysis Toolkit,GATK)[8-9],這些數(shù)據(jù)庫(kù)的存在將推動(dòng)SNP分析的進(jìn)一步發(fā)展。
目前對(duì)細(xì)菌的分型技術(shù)主要有早期的表型分析、血清型分析、噬菌體分析和質(zhì)粒分析以及基于基因水平的多位點(diǎn)可變數(shù)目串聯(lián)重復(fù)序列分析(MLVA)、差異片段分析(DFR)、成簇的規(guī)律間隔的短回文重復(fù)序列(CRISPRs)、DNA分析技術(shù)(RAPD)、插入序列周圍DNA多態(tài)性分析技術(shù)(ISCP)等多種方法[10]。生態(tài)分型能找到菌株的地理分布,揭示細(xì)菌與宿主和人的關(guān)系,但由于分辨率低不能發(fā)現(xiàn)菌株間的親緣關(guān)系及差異。血清型、噬菌體分析由于同質(zhì)性較高,適用于血清型和噬菌體型較多的菌株,而質(zhì)粒分析則通過(guò)質(zhì)粒大小和含量的變異來(lái)進(jìn)行分型,但通常無(wú)法區(qū)分親緣關(guān)系和地理區(qū)域較近的菌株。PFGE分辨率強(qiáng)、重復(fù)性好,但費(fèi)用昂貴,需與其他分型技術(shù)聯(lián)合使用。MLVA方法操作簡(jiǎn)便、成本低、分型能力較好,適用于在基層推廣,分型依賴于VNTR位點(diǎn)的選擇。CRISPRS位點(diǎn)多態(tài)性高,是細(xì)菌分型的理想靶標(biāo),分辨能力強(qiáng),能反應(yīng)一定的遺傳關(guān)系,但費(fèi)用較高。RAPD適用于分析同科同屬甚至同種下的種型差異,無(wú)需特異的DNA信息,隨機(jī)性強(qiáng),但可比性、可重復(fù)性較差。ISCP技術(shù)是一種快速、簡(jiǎn)便、有效的分型方法,穩(wěn)定性好,但對(duì)于基因比較保守的菌,會(huì)使設(shè)計(jì)插入序列引物時(shí)比較困難[11]。
傳統(tǒng)的分型技術(shù)已經(jīng)不能滿足疾病診斷和流行病學(xué)調(diào)查的需要,隨著分子分型技術(shù)的不斷更新發(fā)展,基于全基因組的單核苷酸多態(tài)性鑒定和構(gòu)建最大似然樹(shù),已成為研究種間及種下分型的的“金標(biāo)準(zhǔn)”[11]。與其他分型技術(shù)相比,他數(shù)量多、分布廣泛、遺傳穩(wěn)定,適用于快速、規(guī)?;Y查;等位基因頻率容易篩查,易于基因分型;可操作性和重復(fù)性容易受到選擇壓力、環(huán)境等因素的影響,適合于親緣關(guān)系較近的物種內(nèi)微進(jìn)化特性研究[12];可以對(duì)拷貝數(shù)非常低及降解的樣本進(jìn)行分型。這些特性使SNP能夠應(yīng)用于溯源、DNA分析、個(gè)體化用藥、復(fù)雜疾病的定位以及法醫(yī)工作等方面。當(dāng)然,SNP對(duì)技術(shù)人員的專業(yè)要求較高,只能用于識(shí)別、發(fā)現(xiàn)基于全基因組的系統(tǒng)發(fā)育群。而要實(shí)現(xiàn)SNP分型的快速化,準(zhǔn)確化和規(guī)模化,首先要確保用于細(xì)菌分型的是序列的保守的基因或者是基因中序列的保守片段,其次,要保證聚合酶鏈?zhǔn)椒磻?yīng)(PCR)的高保真性,這可以通過(guò)選擇高保真性的DNA聚合酶(如Pfu DNA Polymerase),提高退火溫度和純化模板來(lái)實(shí)現(xiàn);再次,確保基因測(cè)序產(chǎn)物的準(zhǔn)確性,目前已有研究發(fā)現(xiàn)當(dāng)測(cè)序深度≥6X,等位基因比率在15%~85%的閾值范圍內(nèi),結(jié)合聚類分析,測(cè)序結(jié)果的準(zhǔn)確性高達(dá)100%[13]。而鼠疫菌進(jìn)化形成較晚、基因組較保守、進(jìn)化時(shí)間短、遺傳較穩(wěn)定,SNP變異位點(diǎn)較少,因此SNP技術(shù)可以通過(guò)將散在病例尋找潛在聯(lián)系,及時(shí)發(fā)現(xiàn)疫情,對(duì)已確認(rèn)的暴發(fā)疫情進(jìn)行傳染源的追蹤,從而有效預(yù)防疫情的再次發(fā)生。
雖然SNP位點(diǎn)的發(fā)現(xiàn)高度依賴于全基因組的數(shù)據(jù),但是目前已使用簡(jiǎn)單的PCR擴(kuò)增和測(cè)序,多重luminex檢測(cè)、變性HPLC、MALDI-TOF質(zhì)譜(MS)、溶解錯(cuò)配擴(kuò)增突變實(shí)驗(yàn)(Melt-MAMA)、TapMan實(shí)時(shí)PCR、高分辨率溶解曲線(HRM)、等位基因特異寡核苷酸連接反應(yīng)、質(zhì)譜和變性高效液相色譜(DHPLC)等技術(shù)完成了SNP位點(diǎn)的篩選。其中多重PCR是早期分析常用的技術(shù),多結(jié)合DHPLC等一起使用,TapMan實(shí)時(shí)PCR特別適用于需要高靈敏度的情況,多重luminex檢測(cè)基于luminex懸浮芯片技術(shù)和高密度SNP芯片技術(shù)[1,14]。
根據(jù)遺傳信息構(gòu)建系統(tǒng)樹(shù)的方法主要有距離矩陣法、最大簡(jiǎn)約法、最大似然法(ML)和貝葉斯法,其中常最用的是最大似然法,其與距離矩陣法相比,似然法試圖充分有效地利用所有資料而不是將資料簡(jiǎn)縮為距離的集合,與簡(jiǎn)約法的不同之處在于其進(jìn)化概率模型采用了標(biāo)準(zhǔn)的統(tǒng)計(jì)方法[15]。
基于世界各地不同疫源地菌株的分子分型技術(shù)和全基因組測(cè)序的進(jìn)展,Achtman[16]、Morelli[17-19]、Touchman[20]、Riehm[21]等人對(duì)CO92、KIM、91001、FV-1以及美國(guó)、馬達(dá)加斯加、蒙古等多個(gè)國(guó)家的鼠疫菌進(jìn)行研究,確定了鼠疫耶爾森菌病原體的全球發(fā)育系統(tǒng),建立了包括1、2、0三個(gè)分支和0.PE1、0.PE2、0.PE3、0.PE4、1.ANT、1.ORI、2.ANT、2.MED,8個(gè)主要種群的遺傳進(jìn)化樹(shù),估計(jì)出每個(gè)分支的進(jìn)化時(shí)間,確定了古典型菌株主要由1.ANT和2.ANT兩個(gè)種群組成,并推斷出美國(guó)菌株起源于中國(guó)并經(jīng)遠(yuǎn)洋擴(kuò)散到美國(guó)。崔玉軍[22]、李艷君[23]、王娜[24]、朱鵬[25]等人也先后利用不同方法把國(guó)內(nèi)不同疫源地的鼠疫菌分為12個(gè)型,12個(gè)SNP型又分屬于分支1(東方型菌株)、分支2(中世紀(jì)型菌株)和分支0(田鼠型菌株)三大分支,古典型菌株則分散于三個(gè)分支內(nèi),并發(fā)現(xiàn)了我國(guó)菌株具有明顯的地理區(qū)域性和生態(tài)集聚性特征,證實(shí)了基因組具有高度的多態(tài)性,構(gòu)建了中國(guó)鼠疫菌遺傳進(jìn)化圖,建立了一種快速高通量的檢測(cè)鼠疫菌的技術(shù),這不僅為鼠疫的地理定位提供了理論支持,也為疫情的監(jiān)測(cè)及診斷提供了技術(shù)支持。
2013年Cui等人[26-27]首次使用基于全基因技術(shù)的SNP分析,對(duì)來(lái)自亞洲、非洲、歐洲和美洲的133株鼠疫菌以及28個(gè)EV-76的SNP進(jìn)行了鑒定,證實(shí)了第一次鼠疫大流行的時(shí)間點(diǎn)與安哥拉菌株的分化時(shí)間點(diǎn)高度吻合;第二次鼠疫大流行與當(dāng)下鼠疫菌的分支形成息息相關(guān);絲綢之路、唐蕃古道和茶馬古道對(duì)鼠疫的傳播發(fā)揮了極其重要的作用。并通過(guò)分子鐘分析得出SNP的固定率在系統(tǒng)發(fā)育過(guò)程中存在較大差異的結(jié)論。這次研究譜寫(xiě)了鼠疫菌間的進(jìn)化關(guān)系史,描繪了中國(guó)鼠疫間的傳播途徑和進(jìn)化關(guān)系,明確了不同分支的鼠疫菌的SNP變異累計(jì)速率差異較大,重建了疫苗菌株的譜系的傳播史。2015年郭辰儀等[28]從烏蘇地區(qū)菌株鑒定出166個(gè)SNP 位點(diǎn),并把所有菌株定位于0.ANT1分支中。此研究還發(fā)現(xiàn)了12個(gè)變異熱區(qū),而最明顯的熱區(qū)均位于rpoz編碼基因,基因總長(zhǎng)276bp。此次研究推論出rpoz基因可能與環(huán)境適應(yīng)性密切相關(guān),是增強(qiáng)鼠疫流行強(qiáng)度的一個(gè)生物因素,這在鼠疫的預(yù)防控制環(huán)節(jié)中起到了至關(guān)重要的作用。
2016年Seifert等[29]對(duì)德國(guó)出土的5具鼠疫菌陽(yáng)性的人的骸骨進(jìn)行SNP分型發(fā)現(xiàn)s12、s1431、s1195三個(gè)異常位點(diǎn),證實(shí)了在德國(guó)500公里的范圍內(nèi)長(zhǎng)期存在一種獨(dú)特的基因型。2017年Galina等人[30]首次把吉爾吉斯斯坦3個(gè)高山疫源地的菌株定位于0.ANT2、0.ANT3、0.ANT5分支,并發(fā)現(xiàn)該地所有高致病性菌株的祖先起源于天山山脈。Mitchell等[31]以馬達(dá)加斯加菌株為試點(diǎn)研究了一種agarose-MAMA PCR的分型方法,這種方法的實(shí)現(xiàn)增強(qiáng)了發(fā)展中國(guó)家實(shí)驗(yàn)室基于單核苷酸多態(tài)性的基因分型能力。2018年Zhgenti等[32]利用SNP芯片對(duì)格魯?shù)貐^(qū)和高加索地區(qū)的12株菌進(jìn)行了分析,不僅證實(shí)了該方法具有高通量及較好的重現(xiàn)性,也證實(shí)了高加索地區(qū)存在兩個(gè)獨(dú)立的、距離較遠(yuǎn)的發(fā)育群。Kutyrev等[33]對(duì)獨(dú)立國(guó)家聯(lián)合體27個(gè)疫源地的158株菌的種群結(jié)構(gòu)進(jìn)行研究,建立了鼠疫菌高加索(0.PE2)、安哥拉(0.PE3)、中亞(0.PE4)、提貝提卡(0.PE7)、烏列蓋卡(0.PE5)和青???0.PE10)7中種群分類亞型。這些研究豐富了鼠疫的發(fā)育系統(tǒng),為鼠疫的快速溯源提供理論依據(jù)。
截止2019年4月3日為止,國(guó)際上公布的(NCBI數(shù)據(jù)庫(kù))已完成全基因測(cè)序的鼠疫菌有378株。標(biāo)準(zhǔn)株CO92的基因大小為4.82986MB,GC%含量為47.6065,KIM的基因大小為4.70174,GC%含量為47.6558,91001的基因大小為4.80322,GC%含量為47.7169。這3株菌的基因序列是研究其他鼠疫菌的比對(duì)序列國(guó)內(nèi)的菌株主要與CO92進(jìn)行比對(duì),獲得特有基因組和泛基因組,確定突變位點(diǎn),通過(guò)聚類分析,構(gòu)建系統(tǒng)發(fā)育樹(shù),從而實(shí)現(xiàn)鼠疫菌的溯源的研究。
SNP位點(diǎn)的突變通常是由于堿基的轉(zhuǎn)換和顛換所引起的,其中轉(zhuǎn)換指腺嘌呤A和鳥(niǎo)嘌呤G或胸腺嘧啶T和胞嘧啶C之間的置換,顛換指嘌呤與嘧啶間的置換。一般基因序列中具有眾多的SNP位點(diǎn),從多位點(diǎn)中找出變異位點(diǎn)是進(jìn)行SNP分析的關(guān)鍵。前人研究發(fā)現(xiàn)S1-S14位點(diǎn)突變僅存在于古典型及東方型菌株中,S15-S19位點(diǎn)突變僅存在中世紀(jì)型及古典型菌株中,S20-S25位點(diǎn)突變僅存在中世紀(jì)型菌株中,S126位點(diǎn)的突變僅在古典型菌株中發(fā)現(xiàn),而田鼠型菌株均不出現(xiàn)S1-S126位點(diǎn)的突變情況。表1列出了前期研究發(fā)現(xiàn)的特異性SNP位點(diǎn)及其位點(diǎn)上突變的堿基[22-25],從中可以看出突變多發(fā)生在堿基T上,占了45.78%(38/83),其次是A 27.71%(23/83),G和C分別占了14.46%(12/83)、12.05%(10/83),這些數(shù)據(jù)顯示發(fā)生在嘌呤之間的突變遠(yuǎn)高于嘧啶之間,這可能成為研究鼠疫暴發(fā)流行的的一個(gè)關(guān)鍵節(jié)點(diǎn)。
表1 特異的SNP位點(diǎn)及鼠疫菌變異位點(diǎn)的堿基狀態(tài)
Tab.1 Base state of specific SNP sites andyersiniapestismutation sites
SNP位點(diǎn)SNP位點(diǎn)類型SNP位點(diǎn)SNP位點(diǎn)類型SNP位點(diǎn)SNP位點(diǎn)類型SNP位點(diǎn)SNP位點(diǎn)類型S1T/CS17T/TS82TS240GS2A/GS18AS83TS360TS3T/CS19A/TS84TS391TS4A/CS20TS85G/TS402TS5AS21C/AS86C/TS488TS6G/AS22AS87T/GS812TS7C/TS23TS88CS2230GS8A/TS24TS89TS2251TS9TS25A/TS90TS2381TS10C/TS29AS91AS2437AS11AS30AS92AS2778AS12T/AS31G/AS93AS3006GS13TS34GS126AS3383TS14GS36AS177CS2920CS15T/GS80T/GS234TS3104TS16A/TS81TS236T
根據(jù)進(jìn)化領(lǐng)域目前最新的研究結(jié)果顯示[26],中國(guó)鼠疫菌可分為 5 大種系(0、1、2、3、4)26譜系,其中分支0多為古典型和田鼠型的菌株,包括0.ANT1、0.ANT2、0.ANT3、0.PE2、0.PE3、0.PE4A、0.PE4B、0.PE4C、0.PE7,10個(gè)分支;分支1多為古典型和東方型的菌株,包括1.IN1、1.IN2、1.IN3、1.ANT、1.ORI1、1.ORI2、1.ORI3、Ancient genomes,8個(gè)分支;分支2多為中世紀(jì)型和古典型的菌株,包括2.ANT1、2.ANT2、2.ANT3、2.MED1、2.MED2、2.MED3,6個(gè)分支;3和4分支包括3.ANT1、3.ANT2和4.ANT1,3個(gè)分支。其中可以公開(kāi)獲得菌株的基因組的分支有0.PE2、0.PE3、0.PE4B、1.ORI1、1.ORI2、1.ORI3、1.ANT、2.ANT1、2.ANT3、2.MED1。其中鼠疫菌的共同祖先假結(jié)核菌均位于0分支上,而最古老的鼠疫菌種群0.PE7,僅在青藏高原被分離出,經(jīng)鑒定發(fā)現(xiàn)除了0.PE4 之外,所有已知的譜系均可以致病。結(jié)合地理情況來(lái)看,青藏高原附近聚集了4個(gè)種系的菌株,由此向外延伸,東北部和西北部主要是2及0,西南主要是1和2,南部主要是1,而3和4主要存在于北部地區(qū)[25]。近年來(lái)已經(jīng)把研究的重點(diǎn)定位于基因組的遺傳多樣性,而SNP數(shù)量較多,在所有分型中具有最高的分辨率,尤其現(xiàn)階段處于二代測(cè)序技術(shù)普及,三代測(cè)序技術(shù)廣泛應(yīng)用的時(shí)期,基于全基因序列來(lái)開(kāi)展SNP位點(diǎn)的研究已經(jīng)越來(lái)越多,其在鼠疫的系統(tǒng)發(fā)育研究中已經(jīng)占據(jù)了無(wú)以取代的地位。
利益沖突:無(wú)