呂鈺冰 林國(guó)旺 何鵬 林麗娟 方艷平 江凌曉★
肺結(jié)核是結(jié)核分枝桿菌感染引起的慢性呼吸系統(tǒng)疾病。據(jù)統(tǒng)計(jì),全球接近1/3 人口感染過(guò)結(jié)核分枝桿菌,其中近10%感染者會(huì)進(jìn)展為活動(dòng)性肺結(jié)核,其余感染者則處于潛伏感染或恢復(fù)健康狀態(tài)[1]。肺結(jié)核的致病機(jī)制復(fù)雜,營(yíng)養(yǎng)不良、擁擠的環(huán)境等因素與該疾病的發(fā)生、傳播密切相關(guān)。此外研究表明遺傳易感因素與肺結(jié)核發(fā)生也存在關(guān)聯(lián)性[2]。
目前已有多個(gè)國(guó)外人群的全基因組關(guān)聯(lián)分析(Genome-wide association study,GWAS)研究揭示ASAP1、WT1、DUSP14等基因是肺結(jié)核的易感基因[3-5],并發(fā)現(xiàn)主要組織相容性復(fù)合體(major histocompatibility complex,MHC)區(qū)間HLA-DQ/DR基因與該疾病存在顯著的關(guān)聯(lián)性[6]。在漢族人群中,已開展了兩項(xiàng)肺結(jié)核GWAS 研究,其中北京中心[7]報(bào)道的MFN2、RGS12及上海中心[8]報(bào)道的ESRRB、TGM6是漢族人的易感基因。此外,北京中心的研究也證實(shí)HLA-DR/DQ基因區(qū)間存在肺結(jié)核易感單核苷酸多態(tài)性位點(diǎn)(single nucleotide polymorhpsim,SNP),但上海中心的研究在該區(qū)間并未檢出與肺結(jié)核顯著關(guān)聯(lián)信號(hào)。另一項(xiàng)南方漢族人群HLA與肺結(jié)核關(guān)聯(lián)分析證實(shí)HLA-DRB1*14:54是該疾病風(fēng)險(xiǎn)基因,還發(fā)現(xiàn)HLA-A*01:01(χ2=10.79,P=0.001)與肺結(jié)核存在一定關(guān)聯(lián)性[9]。上述研究提示,不同研究間漢族人群肺結(jié)核易感HLA基因型存在較大差異,這可能與納入研究的樣本量不足或不同地域漢族群體遺傳背景差異有關(guān),與肺結(jié)核相關(guān)聯(lián)的HLA風(fēng)險(xiǎn)基因型仍有待明確。
HLA基因編碼的蛋白在機(jī)體免疫過(guò)程中起到重要作用,經(jīng)典HLA-I類和II類基因多態(tài)性與多種感染性疾病發(fā)生密切相關(guān)[10]。經(jīng)典HLA分子主要負(fù)責(zé)呈遞非己抗原并由T 細(xì)胞識(shí)別,抗原結(jié)合域氨基酸多態(tài)性決定了抗原肽結(jié)合的親和力及特異性,影響抗原呈遞并直接導(dǎo)致機(jī)體對(duì)病原清除能力差異。在HLA易感基因相關(guān)疾病中,這種氨基酸位點(diǎn)被認(rèn)為是疾病的因果變異。針對(duì)HLA區(qū)間,關(guān)聯(lián)分析常借助基因型插補(bǔ)以獲得樣本氨基酸多態(tài)性信息,并通過(guò)單倍型及精細(xì)定位分析明確易感HLA基因的關(guān)鍵氨基酸位點(diǎn),為闡明疾病發(fā)生的分子機(jī)制提供更精準(zhǔn)的依據(jù)。
本研究所用的基因型數(shù)據(jù)來(lái)自GEO 數(shù)據(jù)庫(kù),樣本均為漢族人。病例組含1 008 個(gè)北方漢族人肺結(jié)核病例(GSE83397),使用ZhongHua-8 芯片進(jìn)行基因分型,共有894 541 個(gè)SNP;對(duì)照樣本數(shù)據(jù)為12 398 個(gè)自述健康的個(gè)體(GSE131670),使用Human Exome Fine 芯片分型,包含270 241 個(gè)SNP。麻風(fēng)病易感HLA基因分析用728個(gè)麻風(fēng)病例及1 276個(gè)對(duì)照基因型(GSE119367)使用Human610-Quad芯片進(jìn)行基因分型,含3 397 個(gè)SNP。肺結(jié)核易感基因薈萃分析還納入Ruijuan Zheng 等[8]人發(fā)表的上海地區(qū)漢族人肺結(jié)核GWAS 結(jié)果,該數(shù)據(jù)集含有833 個(gè)肺結(jié)核病例和1 220 個(gè)健康對(duì)照。
在SNP 層面舍棄次要等位基因頻率(Minor Allele Frequency,MAF)小于0.01 或總體分型率小于0.95 的SNP,并移除偏離哈迪溫伯格平衡的位點(diǎn)(P<1×10-6);在樣本層面,移除SNP 總體檢出率低于0.95 的樣本,同時(shí)移除基因型異質(zhì)性偏差過(guò)大的個(gè)體(異質(zhì)性位于均值±3 倍標(biāo)準(zhǔn)差之外);通過(guò)IBD 分析(identity by descent)鑒定樣本間情緣關(guān)系,在一級(jí)或二級(jí)情緣關(guān)系的樣本(IBD 比例大于0.185)對(duì)中只保留分型檢出率較高的個(gè)體;最后對(duì)SNP 數(shù)據(jù)進(jìn)行主成分分析(principal component analysis,PCA),該分析首先將1 000 Genomes數(shù)據(jù)庫(kù)中北方漢族(Han Chinese in Beijing,CHB)和南方漢族(Han Chinese South,CHS)人群為參照,保留遺傳背景更接近北方漢族人的個(gè)體。接著再對(duì)病例與對(duì)照組進(jìn)行PCA,并移除遺傳背景離群的個(gè)體。上述分析均使用Plink 1.9 完成。
本研究北方漢族人群數(shù)據(jù)質(zhì)控后肺結(jié)核組保留967 個(gè)樣本(男性占64.2%)含803 621 個(gè)SNP,對(duì)照組保留7 034 個(gè)樣本(男性占51.5%)含47 982 個(gè)SNP;兩者于HLA區(qū)間共有1 389 個(gè)SNP 可用于基因型插補(bǔ)。對(duì)插補(bǔ)數(shù)據(jù)進(jìn)行質(zhì)控,最終得到17 397個(gè)SNP、114 個(gè)四位數(shù)分辨率HLA等位基因型及557 個(gè)氨基酸位點(diǎn)。結(jié)合北方漢族人肺結(jié)核關(guān)聯(lián)分析結(jié)果與上海地區(qū)發(fā)表的肺結(jié)核GWAS 于HLA區(qū)間共有12 494 個(gè)交集SNP。麻風(fēng)病易感HLA基因分析包括728 個(gè)麻風(fēng)病例及1 276 個(gè)對(duì)照樣本,比較肺結(jié)核與麻風(fēng)病的易感HLA基因型針對(duì)麻風(fēng)病隊(duì)列基因型數(shù)據(jù)進(jìn)行質(zhì)控,共獲得2 525 個(gè)SNP。
本研究選取數(shù)據(jù)質(zhì)控后6 號(hào)染色體28 至34 Mb 區(qū)間的基因型數(shù)據(jù),以Han-MHC 數(shù)據(jù)庫(kù)作為單倍型參考面板(含21 378 個(gè)單倍型)開展插補(bǔ)。樣本基因型數(shù)據(jù)的定相(phasing)及插補(bǔ)工具均使用默認(rèn)參數(shù)條件的Beagle5.2 進(jìn)行。插補(bǔ)后共獲得SNP、氨基酸位點(diǎn)、HLA等位基因型三種變異類型。插補(bǔ)后只保留插補(bǔ)INFO>0.6 的位點(diǎn)并將后推概率小于0.9 的變異位點(diǎn)設(shè)置為缺失。
本研究的遺傳易感性分析采用加性模型(additive model),即不同拷貝數(shù)的等位基因?qū)τ谀骋恍誀畹恼w作用等于單獨(dú)作用之和。統(tǒng)計(jì)學(xué)方法層面,使用邏輯回歸模型(logistic linear regression),分析SNP、HLA等位基因型與肺結(jié)核發(fā)病的關(guān)聯(lián)性,模型納入研究人群前5 個(gè)主成分作為協(xié)變量,降低研究個(gè)體遺傳背景差異對(duì)關(guān)聯(lián)分析造成的干擾。利用薈萃分析統(tǒng)計(jì)本研究及已報(bào)道的肺結(jié)核關(guān)聯(lián)分析結(jié)果,薈萃分析異質(zhì)性指數(shù)I2<30 時(shí)采用固定值效應(yīng)模型(fixed-effects),否則采用隨機(jī)效應(yīng)值模型(random-effects)。通過(guò)連鎖不平衡及條件邏輯回歸分析矯正強(qiáng)連鎖關(guān)聯(lián)信號(hào),精準(zhǔn)定位肺結(jié)核發(fā)病相關(guān)的關(guān)鍵氨基酸位點(diǎn)。本研究SNP 薈萃分析顯著P值為4×10-6,由單次假設(shè)檢驗(yàn)顯著P值0.05 校正SNP 數(shù)量后獲得(即0.05/12494);HLA基因型顯著水平P值為6.76×10-4(即0.05/74)。上述統(tǒng)計(jì)學(xué)分析均采用Plink 1.9 完成。
病例與對(duì)照組樣本基因型數(shù)據(jù)PCA 結(jié)果顯示在PC1 和PC2 中無(wú)明顯的人群分層現(xiàn)象,且遺傳背景與1000 Genomes 數(shù)據(jù)庫(kù)北京漢族人群更為接近,見圖1A,被歸為北方漢族隊(duì)列。薈萃分析北方漢族人群隊(duì)列與中部漢族人群隊(duì)列(上海地區(qū))兩項(xiàng)GWAS 結(jié)果,HLA區(qū)間檢出122 個(gè)SNP 達(dá)到顯 著 閾 值(P=4×10-6,最 顯 著SNP 為rs3135386(OR=1.39;P=1.04×10-9),見圖1B。大部分顯著易感SNP 位于HLA II類基因區(qū)間,而I類基因HLA-B區(qū)間存在兩個(gè)位點(diǎn)rs112974895(OR=1.35;P=6.44×10-7)、rs9266067(OR=1.34;P=1.31×10-6)與表型的關(guān)聯(lián)性達(dá)到了顯著水平。
圖1 主成分分析及薈萃分析結(jié)果Figure 1 Results of principal component analysis and meta-analysis
對(duì)兩組數(shù)據(jù)插補(bǔ)所得的HLA基因型進(jìn)行薈萃分析,兩者交集的HLA基因型(4 位數(shù)分辨率)共74 個(gè)?;蛐椭羞_(dá)到假設(shè)檢驗(yàn)顯著閾值(P=6.76×10-4)的HLA基因型共4 個(gè),見圖1、表1。其中HLA-B*46:01與肺結(jié)核關(guān)聯(lián)性最強(qiáng),當(dāng)攜帶該等位基因型增加一個(gè)拷貝時(shí),個(gè)體的肺結(jié)核風(fēng)險(xiǎn)相應(yīng)增加1.44 倍(OR=1.44,P=2.98×10-7)。其余3 個(gè)顯著關(guān)聯(lián)的基因均位于HLA-DR/-DQ區(qū)間,分別為HLA-DQB1*06:01(OR=1.31,P=5.32×10-5)、HLA-DQA1*01:03(OR=1.28,P=1.36×10-4)、HLADQA1*01:04(OR=1.37,P=2.63×10-4)?;蜻B鎖分析發(fā)現(xiàn),肺結(jié)核關(guān)聯(lián)信號(hào)最強(qiáng)的位點(diǎn)rs3135386與HLA-DQA1*01:03、HLA-DQB1*06:01存 在較強(qiáng)的連鎖關(guān)系,但與HLA-B*46:01及HLADQA1*01:04連鎖關(guān)系很弱,見表1?;诒狈綕h族隊(duì)列的插補(bǔ)所得數(shù)據(jù),對(duì)HLA-B的氨基酸位點(diǎn)進(jìn)行單倍型構(gòu)建,連鎖分析發(fā)現(xiàn)HLA-B第66、69、76 位氨基酸構(gòu)成的單倍型Lys66-Arg69-Val76 與HLA-B*46:01完全連鎖(r2=1.0),且在北方隊(duì)列中該單倍型為肺結(jié)核的發(fā)病風(fēng)險(xiǎn)因素(OR=1.53,P=1.92×10-5)。通過(guò)條件邏輯回歸模型,矯正單倍型Lys66-Arg69-Val76 的作用后發(fā)現(xiàn)HLA-DQB1*06:01與肺結(jié)核關(guān)聯(lián)性不再顯著。
表1 4 個(gè)HLA 基因型與肺結(jié)核的薈萃分析結(jié)果Table 1 Results of meta-analysis of four HLA genotypes and pulmonary tuberculosis
麻風(fēng)病基因型數(shù)據(jù)與肺結(jié)核薈萃分析結(jié)果交集有70 個(gè)HLA等位基因,見圖2。分析發(fā)現(xiàn),HLADRB1*15:01與麻風(fēng)病的關(guān)聯(lián)性最為顯著(OR=3.03,P=2.0×10-33),但該基因型在肺結(jié)核薈萃分析中關(guān)聯(lián)性并不顯著(P=0.69)。此外在本次薈萃分析呈現(xiàn)顯著的4 個(gè)HLA基因型中,只有HLA-B*46:01同樣與麻風(fēng)病存在關(guān)聯(lián)性,然而該基因在麻風(fēng)病中為保護(hù)因素(OR=0.33,P=1.13×10-10)。
圖2 肺結(jié)核與麻風(fēng)病的關(guān)聯(lián)分析Figure 2 Analysis of the association between pulmonary tuberculosis leprosy
肺結(jié)核是呼吸系統(tǒng)常見的傳染性疾病,也是影響地區(qū)醫(yī)療衛(wèi)生發(fā)展的重要疾病負(fù)擔(dān)。該疾病的發(fā)生發(fā)展受環(huán)境和宿主遺傳易感性共同作用[11],因此明確漢族人肺結(jié)核的易感基因有利于實(shí)現(xiàn)該疾病的精準(zhǔn)診治。
本研究通過(guò)薈萃分析,首次報(bào)道HLA-B基因與漢族人群活動(dòng)性肺結(jié)核高度關(guān)聯(lián),是新的肺結(jié)核易感基因。HLA-B基因?qū)儆诮?jīng)典HLA-I類,負(fù)責(zé)向CD+8 T 細(xì)胞的表面分子呈遞內(nèi)源肽,并被免疫系統(tǒng)識(shí)別。當(dāng)細(xì)胞被病原體感染時(shí),所呈遞的蛋白質(zhì)(抗原肽)將來(lái)自病原體,并被識(shí)別為外源,CD8+細(xì)胞毒性T 細(xì)胞上的抗原受體負(fù)責(zé)這種識(shí)別,并會(huì)刺激破壞細(xì)胞的免疫反應(yīng)。HLA-B位點(diǎn)的多態(tài)性最為復(fù)雜,研究發(fā)現(xiàn)HLA-B*46:01等位基因相關(guān)的CD8+T 細(xì)胞反應(yīng)在HIV 感染[12]、鼻咽癌[13]、重癥肌無(wú)力[14]等疾病中發(fā)揮了重要的作用。HIV 感染是TB 的風(fēng)險(xiǎn)因素,HLA-B*46:01在兩種傳染疾病的致病機(jī)制異同值得深入研究。
麻風(fēng)病和結(jié)核病是慢性肉芽腫性傳染病,除病原體和環(huán)境因素外,宿主遺傳易感因素對(duì)這兩種疾病的發(fā)生有重大貢獻(xiàn)。據(jù)報(bào)道,中國(guó)漢族人群麻風(fēng)病與結(jié)核病之間沒(méi)有共同的易感基因座[15],但本研究發(fā)現(xiàn),HLA-B*46:01與麻風(fēng)病存在關(guān)聯(lián)性,然而該基因在麻風(fēng)病中為保護(hù)因素,即攜帶該基因型個(gè)體其罹患麻風(fēng)病風(fēng)險(xiǎn)降低。由此可見,在HLA等位基因水平,漢族人肺結(jié)核與麻風(fēng)的遺傳共性并不明顯,表明兩種疾病發(fā)病機(jī)理的遺傳基礎(chǔ)可能差異很大。
本研究開展了目前為止樣本規(guī)模最大的漢族人群肺結(jié)核易感HLA基因分析,證實(shí)HLA-B*46:01是北方、中部漢族人群的共有易感基因,為研究肺結(jié)核的致病機(jī)理和疾病的診療提供新的參考依據(jù)。