邢月仙 張 靜 王 琪 綜述 楊敬平 校審
隨著全基因組關(guān)聯(lián)分析(GWAS)的不斷開(kāi)展,大量與腎臟疾病發(fā)病風(fēng)險(xiǎn)相關(guān)的遺傳變異位點(diǎn)被有效識(shí)別,極大地豐富了我們對(duì)腎臟疾病遺傳背景的認(rèn)識(shí)。雖然GWAS可找到與疾病相關(guān)的變異位點(diǎn),但目前并不清楚這些位點(diǎn)是如何發(fā)揮作用的。隨著表觀遺傳學(xué)現(xiàn)廣泛應(yīng)用于各個(gè)領(lǐng)域,基于染色質(zhì)結(jié)構(gòu)的生物學(xué)信息為明確GWAS遺傳變異位點(diǎn)的位置及調(diào)控機(jī)制提供了有效途徑。因此,通過(guò)染色質(zhì)結(jié)構(gòu)解析GWAS對(duì)闡述腎臟疾病的發(fā)病風(fēng)險(xiǎn)及發(fā)生機(jī)制具有重要意義。
發(fā)展現(xiàn)狀人類(lèi)個(gè)體間的基因序列99.9%是相同的,而0.1%的差異則與復(fù)雜疾病的易感性及臨床表現(xiàn)多樣性密切相關(guān)。單核苷酸多態(tài)性(SNPs)是指基因組中單個(gè)堿基變異引起的DNA序列多態(tài)性,約占基因序列差異的90%以上。GWAS可在全基因組范圍內(nèi)找出變異位點(diǎn),并從中篩選出與疾病發(fā)病風(fēng)險(xiǎn)相關(guān)的SNPs。自2009年Kottgen等[1]發(fā)現(xiàn)與腎小球?yàn)V過(guò)率顯著相關(guān)的遺傳變異位點(diǎn)后,大量的GWAS相繼展開(kāi)。截至2019年,已有超過(guò)1 000 000樣本的GWAS Meta分析,研究共揭示了將近300個(gè)與慢性腎臟病(標(biāo)志性狀為腎小球?yàn)V過(guò)率)顯著相關(guān)的遺傳變異位點(diǎn)[2-3]。此外,GWAS還在IgA腎病中發(fā)現(xiàn)了18個(gè)遺傳變異位點(diǎn)[4-5],在膜性腎病中發(fā)現(xiàn)了2個(gè)遺傳變異位點(diǎn)[4]。盡管GWAS已經(jīng)成為尋找疾病相關(guān)遺傳變異位點(diǎn)的有利武器,但這些位點(diǎn)是如何發(fā)揮作用的并不清楚。因此,尋找GWAS SNPs的靶基因成為了闡述疾病發(fā)病風(fēng)險(xiǎn)的必經(jīng)之路。
尋找腎臟疾病的因果基因基因是控制生物性狀的基本遺傳單位。因此,闡述SNPs與基因表達(dá)的關(guān)系有望揭示SNPs在疾病中的作用機(jī)制。然而,GWAS發(fā)現(xiàn)的與疾病相關(guān)的SNPs約有93%位于基因組的非編碼區(qū)[6]。這意味著大多數(shù)與疾病相關(guān)的SNPs是通過(guò)順式或反式作用調(diào)控靶基因表達(dá)而作用于表型。因此,闡述SNPs對(duì)基因表達(dá)的調(diào)控作用是理解疾病的關(guān)鍵。
尋找因果基因是將SNPs與疾病表型進(jìn)行關(guān)聯(lián)的橋梁。通過(guò)不同方法預(yù)測(cè)得到的SNPs的靶基因皆被稱(chēng)作其候選因果基因。明確SNPs對(duì)基因功能的影響及候選因果基因與疾病表型之間的因果關(guān)系后,該候選因果基因即可稱(chēng)為疾病的因果基因。以往的研究中,GWAS常通過(guò)與基因的線性距離來(lái)標(biāo)記SNPs的候選因果基因。但位于非編碼區(qū)的SNPs可通過(guò)多種方式參與表型決定。例如,與肥胖強(qiáng)相關(guān)且位于FTO第一個(gè)內(nèi)含子區(qū)的SNPrs9930506,其作為增強(qiáng)子調(diào)控距離其幾十萬(wàn)堿基之外的基因IRX3和IRX5的表達(dá),而不影響距離最近的FTO的表達(dá)[7]。因此,通過(guò)與基因距離遠(yuǎn)近來(lái)標(biāo)記候選因果基因是不可靠的。
為了更好地理解GWAS并確定疾病的因果基因,表達(dá)數(shù)量性狀基因座(e_QTL)被有效運(yùn)用。e_QTL通過(guò)對(duì)個(gè)體基因型與基因表達(dá)進(jìn)行關(guān)聯(lián)分析,鑒定出與基因表達(dá)相關(guān)的遺傳變異位點(diǎn),即e_QTL位點(diǎn)。而該基因則被認(rèn)為是疾病的候選因果基因[8-9]。雖然轉(zhuǎn)錄組數(shù)據(jù)可用于檢測(cè)組織中的基因表達(dá)水平并與樣本基因型進(jìn)行關(guān)聯(lián)性分析,但用于e_QTL分析的轉(zhuǎn)錄組測(cè)序需要較大樣本量,使得來(lái)源有限的生物樣本分析受到了極大限制。為了解決這一難題,全轉(zhuǎn)錄組關(guān)聯(lián)研究(TWAS)應(yīng)用而生。TWAS提供了一種對(duì)復(fù)雜性狀的候選因果基因進(jìn)行優(yōu)先級(jí)排序的方法,利用小規(guī)模的基因型和基因表達(dá)數(shù)據(jù)作為訓(xùn)練集,擬合基因型與基因表達(dá)量之間的關(guān)系模型,然后利用該模型估計(jì)GWAS人群中的基因表達(dá)值,最后對(duì)大樣本人群的性狀表型和預(yù)測(cè)的基因表達(dá)值進(jìn)行關(guān)聯(lián)分析,實(shí)現(xiàn)GWAS數(shù)據(jù)庫(kù)的基因-性狀關(guān)聯(lián)[10]。
雖然TWAS的應(yīng)用可以將預(yù)測(cè)的基因表達(dá)與疾病的性狀關(guān)聯(lián)起來(lái),但它并不能確保疾病與基因表達(dá)之間的因果關(guān)系,原因有三:其一,GWAS很少識(shí)別單個(gè)變異-性狀關(guān)聯(lián),而是在連鎖不平衡中識(shí)別相關(guān)變體的模塊;其二,基因間的關(guān)聯(lián)表達(dá)、預(yù)測(cè)表達(dá)相關(guān)性以及共有的GWAS變異位點(diǎn)均可導(dǎo)致變異位點(diǎn)與基因表達(dá)信息的錯(cuò)誤匹配;其三,具有來(lái)自非性狀關(guān)聯(lián)組織的表達(dá)譜偏倚性[11]。
隨著表觀遺傳學(xué)的快速發(fā)展,表觀研究已廣泛應(yīng)用于各個(gè)領(lǐng)域[12-14]。其中,運(yùn)用表觀遺傳學(xué)技術(shù)揭示染色質(zhì)結(jié)構(gòu)在解析腎臟疾病的發(fā)病機(jī)制中有了突破性進(jìn)展。例如,以染色質(zhì)一維結(jié)構(gòu)為基礎(chǔ),研究者發(fā)現(xiàn)與腎臟病GWAS和e_QTL相關(guān)的遺傳變異位點(diǎn)常富集在DNA的調(diào)控元件區(qū)[15]。而對(duì)GWAS數(shù)據(jù)進(jìn)行精準(zhǔn)解讀的過(guò)程中,相較于以往的關(guān)聯(lián)性分析,染色質(zhì)三維結(jié)構(gòu)數(shù)據(jù)可更直觀、全面地呈現(xiàn)染色質(zhì)的空間調(diào)控網(wǎng)絡(luò)。因此,染色質(zhì)結(jié)構(gòu)所提供的注釋信息以及基因表達(dá)調(diào)控信息在GWAS的精準(zhǔn)解讀,尋找疾病的因果基因、腎臟病發(fā)生機(jī)制的精準(zhǔn)闡述以及腎臟疾病的精準(zhǔn)治療中具有重要意義[6,13,15]。
染色質(zhì)一維結(jié)構(gòu)的特征染色質(zhì)一維結(jié)構(gòu)特征常包括DNA甲基化、組蛋白修飾、染色質(zhì)可及性和非編碼RNA調(diào)控等。在揭示染色質(zhì)構(gòu)象及功能、解讀疾病的發(fā)病風(fēng)險(xiǎn)中,染色質(zhì)可及性和組蛋白修飾可提供更具參考價(jià)值的生物學(xué)信息。染色質(zhì)的高度折疊、壓縮結(jié)構(gòu)僅保留了具有生物活性的基因區(qū)域,這些“可接近”的染色質(zhì)特性稱(chēng)為染色質(zhì)可及性,可用于識(shí)別不同類(lèi)型的調(diào)控元件[16-17]。組蛋白是核小體的重要組成部分,其翻譯后修飾主要包括甲基化、乙?;?、磷酸化、泛素化等?;蚪M不同功能區(qū)域具有不同的組蛋白修飾特征。在常見(jiàn)的組蛋白標(biāo)記中,組蛋白H3賴(lài)氨酸4(H3K4)甲基化標(biāo)記基因具有轉(zhuǎn)錄活性:其中,H3K4的一甲基化(H3K4me1)通常標(biāo)記增強(qiáng)子區(qū),H3K4的三甲基化(H3K4me3)通常標(biāo)記啟動(dòng)子區(qū);組蛋白H3賴(lài)氨酸27的乙?;?H3K27ac)標(biāo)記位點(diǎn)的活化狀態(tài)[18-19]。因此,根據(jù)位點(diǎn)的組蛋白修飾特征,可注釋基因位點(diǎn)的調(diào)節(jié)功能。
染色質(zhì)一維結(jié)構(gòu)解析疾病發(fā)病風(fēng)險(xiǎn)的優(yōu)勢(shì)染色質(zhì)可及性特征是由于轉(zhuǎn)錄因子結(jié)合能引起染色質(zhì)結(jié)構(gòu)的局部改變,使周?chē)腄NA在物理上變得更容易接近。染色質(zhì)可及性可用于判斷基因位點(diǎn)是否具有轉(zhuǎn)錄因子結(jié)合并發(fā)揮功能的潛質(zhì)。而組蛋白修飾特征可對(duì)基因位點(diǎn)的調(diào)節(jié)功能進(jìn)行注釋。因此,在與GWAS的聯(lián)合分析中,染色質(zhì)一維結(jié)構(gòu)的應(yīng)用優(yōu)勢(shì)眾多。
其一,可顯示位于非編碼區(qū)的SNPs是否為功能性調(diào)控元件[20-21]。在冠狀動(dòng)脈疾病/缺血性中風(fēng)的一項(xiàng)研究中,Krause等[21]識(shí)別到與疾病性狀相關(guān)的SNP rs17114036位于基因PLPP3第五個(gè)內(nèi)含子的增強(qiáng)子樣調(diào)控元件中。研究通過(guò)轉(zhuǎn)座酶研究染色質(zhì)可進(jìn)入性的高通量測(cè)序(ATAC-seq)與染色質(zhì)免疫共沉淀測(cè)序(CHIP-seq)的聯(lián)合分析發(fā)現(xiàn),該位點(diǎn)為染色質(zhì)可及性位點(diǎn),且同時(shí)有H3K27ac和H3K4的二甲基化(H3K4me2)修飾,提示該位點(diǎn)為功能性調(diào)控元件。該作者在人主動(dòng)脈內(nèi)皮細(xì)胞中利用CRISPR-Cas9系統(tǒng)選擇性地敲除rs17114036所在的~66bp的基因組區(qū)域,結(jié)果顯示接受基因編輯的內(nèi)皮細(xì)胞PLPP3表達(dá)顯著降低,從而驗(yàn)證該位點(diǎn)確實(shí)為功能性調(diào)控元件。
其二,可揭示功能性SNPs的作用機(jī)制。改變?nèi)旧|(zhì)可及性和轉(zhuǎn)錄因子結(jié)合是遺傳變異導(dǎo)致基因表達(dá)差異的主要機(jī)制[22],提示通過(guò)染色質(zhì)可及性數(shù)量性狀基因座(ca_QTLs)尋找改變?nèi)旧|(zhì)可及性和轉(zhuǎn)錄因子結(jié)合的SNPs可能在揭示變異位點(diǎn)的作用機(jī)制中扮演重要作用。SNP rs488797位于CELF4內(nèi)含子中的超級(jí)增強(qiáng)子區(qū),該位點(diǎn)的C等位基因與該區(qū)域的染色質(zhì)可及性減弱密切相關(guān),為ca_QTL位點(diǎn)。作者通過(guò)HaploReg預(yù)測(cè)SNP rs488797 的C等位基因可導(dǎo)致轉(zhuǎn)錄因子FOXA2的結(jié)合遭到破壞。經(jīng)ChIP-seq實(shí)驗(yàn)證實(shí),CC純合子個(gè)體中rs488797位點(diǎn)確實(shí)不存在FOXA2的結(jié)合信號(hào),提示在SNP rs488797位點(diǎn)C等位基因可能通過(guò)破壞FOXA2的結(jié)合影響增強(qiáng)子活性及基因的表達(dá)調(diào)控[23]。
其三,可揭示SNPs的組織特異性。例如,多發(fā)性硬化相關(guān)的SNPs其開(kāi)放信號(hào)主要富集在B淋巴細(xì)胞與T淋巴細(xì)胞中,而精神分裂癥相關(guān)的SNPs則主要富集在抑制性神經(jīng)元等神經(jīng)組織中[16]。提示SNPs只在某些特定的細(xì)胞類(lèi)型中發(fā)揮作用。
綜上所述,一維染色質(zhì)結(jié)構(gòu)可通過(guò)判斷調(diào)控元件的功能、闡述其作用機(jī)制以及明確其組織特異性的作用方式,為GWAS SNPs向分子生物學(xué)機(jī)制轉(zhuǎn)化提供了有利途徑(圖1)。
圖1 染色質(zhì)結(jié)構(gòu)在解析腎臟疾病遺傳風(fēng)險(xiǎn)中的作用SNP:?jiǎn)魏塑账岫鄳B(tài)性;GWAS:全基因組關(guān)聯(lián)分析;TADs:拓?fù)潢P(guān)聯(lián)結(jié)構(gòu)域;Loops:染色質(zhì)環(huán);1D:一維;3D:三維
染色質(zhì)三維結(jié)構(gòu)的特征染色質(zhì)三維結(jié)構(gòu)常在不同的組織器官中表現(xiàn)出共同的特征結(jié)構(gòu),包括:染色體域、染色體區(qū)室、拓?fù)潢P(guān)聯(lián)結(jié)構(gòu)域(TADs)及染色質(zhì)環(huán)。在真核生物的細(xì)胞核中,每個(gè)染色體都被限制在一個(gè)離散區(qū)域,該區(qū)域稱(chēng)為染色體域,其內(nèi)部DNA呈有序排列,有助于調(diào)控元件以恰當(dāng)?shù)姆绞綄?duì)特定的基因位點(diǎn)進(jìn)行調(diào)控[24]。根據(jù)狀態(tài)的不同,染色質(zhì)可被分為A和B兩個(gè)區(qū)室。其中,A區(qū)室富集大量基因,具有高轉(zhuǎn)錄活性;而B(niǎo)區(qū)室所含基因貧乏,且呈低轉(zhuǎn)錄活性[25]。區(qū)室中的TADs是基因調(diào)控的基本單元,是相對(duì)獨(dú)立的基因區(qū)域。TADs的形成限定了內(nèi)部調(diào)控元件的空間交互范圍,并阻止不同TADs之間的染色質(zhì)互作[26]。染色質(zhì)環(huán)是基因表達(dá)調(diào)控的功能單元,其形成是調(diào)控元件與靶基因互作時(shí)的主要機(jī)制,該結(jié)構(gòu)的形成使線性距離很遠(yuǎn)的基因位點(diǎn)可以在空間上密切接觸[27-28]。
染色質(zhì)三維結(jié)構(gòu)在解析疾病發(fā)病風(fēng)險(xiǎn)中的優(yōu)勢(shì)染色質(zhì)三維結(jié)構(gòu)可反映線性距離很遠(yuǎn)的調(diào)控元件于空間上的相互接觸,亦可反映調(diào)控發(fā)生的基本單元,常用于揭示染色質(zhì)互作信息、定位調(diào)控元件的靶基因。Liguel-Escaladd等[18]在2型糖尿病的相關(guān)研究中,用啟動(dòng)子Capture Hi-C技術(shù)揭示了2型糖尿病的SNPrs11257655與遠(yuǎn)端基因OPTN的啟動(dòng)子區(qū)于空間上的高頻接觸,提示SNP rs11257655可能調(diào)控OPTN的表達(dá)。該作者通過(guò)基因編輯技術(shù)證實(shí),敲除該SNP位點(diǎn)OPTN表達(dá)下調(diào),驗(yàn)證了SNP rs11257655對(duì)基因OPTN的調(diào)控作用。因此,基于染色質(zhì)三維結(jié)構(gòu)可精準(zhǔn)揭示線性距離很遠(yuǎn)的調(diào)控元件間的互作信息,可用于揭示GWAS中SNPs的遠(yuǎn)端靶基因。
除染色質(zhì)環(huán)可直接顯示調(diào)控元件間的空間互作外,TADs亦可作為解析GWAS的有利手段。例如,2型糖尿病中與性狀胰島素分泌相關(guān)的SNP rs10428126位于IGF2BP2基因區(qū)域。根據(jù)Hi-C結(jié)果顯示,IGF2BP2是SNP rs10428126所在的TAD中唯一的基因,提示其可能是該位點(diǎn)的候選因果基因。經(jīng)驗(yàn)證,SNP rs10428126的風(fēng)險(xiǎn)等位基因C可顯著降低胰島的染色質(zhì)可及性、增強(qiáng)子活性以及基因IGF2BP2的表達(dá)[13]。
綜上所述,在與GWAS的聯(lián)合分析中,染色質(zhì)三維結(jié)構(gòu)可精確定位與疾病相關(guān)的遺傳變異位點(diǎn)所調(diào)控的靶基因,有助于揭示疾病的發(fā)生發(fā)展機(jī)制(圖1)。
與腎癌易感性相關(guān)的SNP rs35252396位于致癌基因MYC(上游136 kb)和致癌性長(zhǎng)鏈非編碼RNAPVT1(下游14 kb)之間。Grampp等[29]前期的研究證實(shí),MYC和PVT1是轉(zhuǎn)錄因子HIF的靶基因。在腎臟透明細(xì)胞癌中,HIF的結(jié)合信號(hào)幾乎與SNP rs35252396于基因組中的位置重合。經(jīng)FAIRE-seq和ChIP-seq研究證實(shí),該位點(diǎn)位于染色質(zhì)可及性區(qū)域,且存在H3K4me1和H3K27ac的結(jié)合信號(hào),提示該位點(diǎn)為活性增強(qiáng)子區(qū)域,可能通過(guò)HIF的結(jié)合驅(qū)動(dòng)MYC和PVT1轉(zhuǎn)錄在腎臟腫瘤的發(fā)生中起重要作用。為了驗(yàn)證這一猜想,作者運(yùn)用4C技術(shù)觀察到SNP rs35252396所在且有HIF結(jié)合的調(diào)控元件區(qū)域存在與基因MYC和PVT1啟動(dòng)子區(qū)的染色質(zhì)互作。此外,該作者利用CRISPR/Cas9技術(shù)在體外細(xì)胞中證實(shí)干擾這一位點(diǎn)確實(shí)可出現(xiàn)MYC和PVT1表達(dá)水平的降低。為了進(jìn)一步揭示SNP rs35252396是否通過(guò)HIF的結(jié)合介導(dǎo)上述調(diào)控過(guò)程,該作者在雜合的腎癌細(xì)胞系及原代近端腎小管上皮細(xì)胞中展開(kāi)研究,通過(guò)ChIP-seq和FAIRE-seq證實(shí),風(fēng)險(xiǎn)基因型樣本中HIF結(jié)合增強(qiáng)且有染色質(zhì)可及性增強(qiáng)。因此,該作者提出SNP rs35252396通過(guò)影響HIF的結(jié)合驅(qū)動(dòng)MYC和PVT1轉(zhuǎn)錄并在腎臟腫瘤的發(fā)生中起重要作用。
為了驗(yàn)證腎臟GWAS SNPs與其潛在靶基因之間的物理關(guān)聯(lián),Sieber等[15]將人腎臟組織新鮮分離的腎小球進(jìn)行了Hi-C實(shí)驗(yàn),并因此確定了42個(gè)SNPs對(duì)應(yīng)的46個(gè)靶基因。其中,與腎結(jié)石和骨密度相關(guān)的SNP rs219779/rs219780與基因SIM2存在遠(yuǎn)程物理互作,且二者的互作信息位于同一個(gè)TAD中,提示SIM2為SNP rs219779/rs219780的靶基因。在現(xiàn)有的慢性腎臟病的相關(guān)研究中,Brandt等[30]通過(guò)STARR-seq評(píng)估了遺傳變異對(duì)DNA調(diào)控元件的影響,此過(guò)程共發(fā)現(xiàn)了39個(gè)功能性的遺傳變異位點(diǎn)。為了鑒定DNA調(diào)控元件的靶基因,作者應(yīng)用4C測(cè)序技術(shù)對(duì)腎小球內(nèi)皮細(xì)胞和腎小管上皮細(xì)胞分別進(jìn)行了測(cè)序分析。分析結(jié)果顯示39個(gè)慢性腎臟病相關(guān)的遺傳變異位點(diǎn)與304因果基因的轉(zhuǎn)錄起始位點(diǎn)存在相互作用。盡管上述兩項(xiàng)案例缺少功能實(shí)驗(yàn)對(duì)結(jié)果進(jìn)行驗(yàn)證,但染色質(zhì)結(jié)構(gòu)所提供的生物學(xué)信息極大地豐富了腎臟疾病發(fā)病風(fēng)險(xiǎn)的機(jī)制研究。
隨著表觀遺傳學(xué)的不斷發(fā)展,越來(lái)越多的研究基于染色質(zhì)結(jié)構(gòu)解析疾病的發(fā)病風(fēng)險(xiǎn)。染色質(zhì)一維及三維結(jié)構(gòu)的檢測(cè)方法現(xiàn)已逐漸發(fā)展成熟,美國(guó)國(guó)立衛(wèi)生研究院也已建立了迄今為止最大的人類(lèi)表觀基因組圖譜,為運(yùn)用染色質(zhì)結(jié)構(gòu)揭示腎臟疾病的發(fā)病風(fēng)險(xiǎn)和發(fā)病機(jī)制提供了豐富資源和有效手段。然而,腎臟細(xì)胞種類(lèi)繁多,不同細(xì)胞發(fā)揮的作用又不盡相同。因此,建立和完善腎臟細(xì)胞種類(lèi)特異性的染色質(zhì)特征圖譜對(duì)了解腎臟基因組功能意義重大。在與GWAS的聯(lián)合分析中,有效揭示腎臟病相關(guān)SNPs于哪種細(xì)胞類(lèi)型中發(fā)揮怎樣的調(diào)控作用將為腎臟疾病的科學(xué)研究提供精準(zhǔn)靶向。隨著單細(xì)胞測(cè)序技術(shù)的不斷進(jìn)展,染色質(zhì)結(jié)構(gòu)捕獲與單細(xì)胞測(cè)序的聯(lián)合應(yīng)用將逐漸拉開(kāi)疾病發(fā)生發(fā)展的神秘面紗,也將為腎臟疾病的精準(zhǔn)治療帶來(lái)深遠(yuǎn)影響。