毛相杰,溫書景,徐 飛,高 盼,張 薔,楊 斌,周乾宇,王 博,岳文娟,孫長青
1)鄭州大學公共衛(wèi)生學院社會醫(yī)學與衛(wèi)生事業(yè)管理學教研室 鄭州 450001 2)洛陽市石化醫(yī)院內(nèi)一科 河南洛陽 471012 3)河南省教育廳 鄭州450018
環(huán)境、遺傳因素及兩者交互作用在缺血性卒中(ischemic stroke,IS)病因?qū)W中發(fā)揮著重要作用[1],其中遺傳因素可解釋IS疾病風險的35%~40%[2]。低密度脂蛋白膽固醇(low-density lipoprotein cholesterol,LDL-C)是IS和冠心病等心腦血管疾病的危險因素[3],其遺傳估計值為40%~80%[4]。遺傳多效性是指單個基因或遺傳變異與兩個及以上表型相關聯(lián)的現(xiàn)象。前期研究[5-6]顯示LDL-C與IS存在共享遺傳位點。全基因組關聯(lián)研究(genome-wide association study,GWAS)對復雜疾病或性狀遺傳位點的識別只能解釋一小部分的遺傳度,單核苷酸多態(tài)性(single-nucleotide polymorphism,SNP)在更大程度上影響疾病發(fā)病風險,但目前尚缺乏識別SNP的可靠方法。本研究應用條件錯誤發(fā)現(xiàn)率(conditional false discovery rate,cFDR)方法[7]整合IS及LDL-C的GWAS數(shù)據(jù),以增加統(tǒng)計效能,進而提高相關遺傳位點的識別力,尤其是發(fā)現(xiàn)遺傳多效性位點,旨在獲得IS和LDL-C之間未知的共享生物機制,為疾病的預防提供新的基因治療靶點和理論支撐。
1.1材料IS的GWAS數(shù)據(jù)來源于2015年美國神經(jīng)學和卒中研究所SiGN(Stroke Genetics Network)項目組織的大型薈萃分析,下載網(wǎng)址http://cerebrovascularportal.org/informational/downloads,主要是由歐洲血統(tǒng)人群及少量非洲與西班牙血統(tǒng)人群組成,共包含16 851個病例和32 473個對照。LDL-C的GWAS數(shù)據(jù)來源于GLGC(Global Lipids Genetics Consortium),下載網(wǎng)址http://lipidgenetics.org/,包含188 577個歐洲血統(tǒng)和7 898個非歐洲血統(tǒng)參與者[8-9]。SIGN和GLGC之間有3個重疊樣本,重疊人數(shù)3 836(占總人數(shù)的1.56%)。使用Linux操作系統(tǒng)和R 3.4.3軟件進行cFDR分析,使用代碼包為cfdr。
1.2數(shù)據(jù)整理及質(zhì)量控制提取并整理全基因組測序的SNPs相關匯總統(tǒng)計結果,包括SNPs名稱及關聯(lián)性檢驗P值信息。統(tǒng)計分析過程剔除了主要組織相容性復合體(major histocompatibility complex,MHC)區(qū)域(chr6:25652429-33368333)和染色體8p23.1區(qū)域(chr8:7242715-12483982)的SNPs,以避免基因組復雜區(qū)域內(nèi)SNPs之間的連鎖不平衡影響研究結果的可靠性[10]?;蚪M控制校正方法應用于原始GWAS和表型meta分析,以確保每個SNP的方差估計不會因人口異質(zhì)性而被夸大。
1.3兩性狀間的多效性基因富集的評估分層Q-Q圖以SNP與其中一個表型關聯(lián)檢驗P值的累積分布函數(shù)代替理論經(jīng)驗累積分布函數(shù)。將SNP與疾病關聯(lián)的觀察值分位數(shù)定義為p值(y軸),SNP與疾病關聯(lián)的理論值分位數(shù)定義為q值(x軸);負自然對數(shù)轉(zhuǎn)換后,y軸表示為-log10(P),x軸表示為-log10(q)。觀察分布線與理論分布線(x=y)重合,表明不同性狀間沒有多效性基因富集;觀察分布線(x軸)向左偏離表明存在多效性基因富集,偏離越大,表明富集程度越大。以主要性狀名義上的-log10(P)為x軸,以主要性狀基于條件性狀的關聯(lián)的富集倍數(shù)為y軸創(chuàng)建富集倍數(shù)圖,通過零線向上偏移的程度來評估富集倍數(shù)。
1.4cFDR計算方法及兩性狀關聯(lián)SNPs的篩選條件cFDR為后驗概率:如果兩個性狀的P值都≤觀察到的P值,那么一個給定的SNP對于第1個性狀來說是無效SNP,表示為:FDR(P1|P2)=π0(P2)P1/F(P1|P2),其中P1、P2分別是兩個性狀的P值,F(xiàn)(P1|P2)是條件性累積分布函數(shù),π0(P2)是第2個性狀的P值≤P2時第1個性狀無義SNP的百分比,較小的cFDR值表示SNP與其中一種或兩種性狀關聯(lián)。
為鑒定多效性基因,需計算conjunction cFDR值。對于任意一個兩性狀關聯(lián)的SNP,假設SNP與兩種性狀關聯(lián)的理論值都≤觀察值,則conjunction cFDR為SNP與任意一種性狀都沒有關聯(lián)的后驗概率值,表示為:FDRIS&LDL-C=Max{FDR(IS|LDL-C), FDR(LDL-C|IS)},較小的conjunction cFDR值表明SNP與兩種性狀關聯(lián),即SNP具有遺傳多效性。
1.5多效性SNPs的鑒定條件曼哈頓圖能直觀顯示出基因組上連鎖不平衡區(qū)域內(nèi)SNPs的染色體位置信息,若cFDR<0.05[即SNPs的-log10(cFDR)>1.3],則該SNP被認為與研究的性狀關聯(lián);若SNP的conjunction cFDR<0.05[即-log10(conjunction cFDR)>1.3],則該SNP被認為與研究的兩種性狀關聯(lián),具有基因多效性。
1.6基因功能富集分析GO基因功能富集分析從分子功能、細胞成分和生物過程共3個方面定性描述IS和LDL-C關聯(lián)基因在功能通路中的表達情況以及關聯(lián)基因功能間的聯(lián)系,分析網(wǎng)址http://geneontology.org/。
2.1多效性基因富集的評估結果見圖1。圖1A顯示,以LDL-C為條件性狀,IS與LDL-C之間存在較大程度的基因富集;圖1B顯示,以IS為條件性狀,LDL-C與IS間有更大程度的基因富集;圖1C顯示,以LDL-C為主要性狀,基因富集大約有19倍的增加;圖1D顯示,以IS為主要性狀,基因富集增加了約17倍。綜上,IS與LDL-C具有相關性。
A、B:分別以LDL-C和IS為條件性狀的分層Q-Q圖;C、D:分別以LDL-C和IS為主要性狀的基因富集倍數(shù)圖
2.2IS關聯(lián)的SNPs以IS為主要性狀,發(fā)現(xiàn)9個SNPs與IS關聯(lián),其中2個SNPs已被先前的GWAS研究報道,其余7個被鑒定為新的SNPs位點。9個SNPs被注釋到12個與IS相關的基因上,其中6個已被GWAS報道與IS相關,余6個屬于新鑒定的基因。見表1。
表1 IS關聯(lián)的SNPs
*:新發(fā)現(xiàn)SNPs或基因
2.3LDL-C關聯(lián)的SNPs以LDL-C為主要性狀,發(fā)現(xiàn)245個與LDL-C相關聯(lián)的SNPs。其中19個SNPs已被GWAS報道,77個與其他LDL-C相關報道位點存在高度連鎖不平衡(R2>0.6),52個與血脂其他性狀相關聯(lián),剩下的97個被鑒定為新的LDL-C關聯(lián)SNPs。245個SNPs位于21個染色體上,被注釋到241個基因上,其中103個基因已被GWAS報道與LDL-C有關,其余138個基因經(jīng)鑒定為新基因。
2.4多效性SNPs位點見圖2。如圖2所示,紅線為截斷值水平。共發(fā)現(xiàn)8個SNPs與IS和LDL-C共同關聯(lián),2個(rs10774625和rs2238151)已被報道與兩個性狀共同關聯(lián),其余6個被鑒定為新的SNPs(rs10466588、rs11066301、rs4767293和rs630014被報道與LDL-C相關,rs9557951和rs7987982未發(fā)現(xiàn)與任何性狀有關聯(lián))。8個SNPs被注釋到11個多效性基因上,ATXN2、ABO與ALDH2被報道與IS和LDL-C都相關,其余8個被鑒定為新的多效性基因。見表2。
2.5功能富集分析將IS和LDL-C共同關聯(lián)的基因進行GO功能富集分析,發(fā)現(xiàn)關聯(lián)基因大多數(shù)與脂蛋白代謝過程、膽固醇平衡、大腦發(fā)育、脂肪酸代謝負調(diào)節(jié)等通路有關,可影響心腦血管疾病的發(fā)展過程。見表3。
圖2 多效性位點鑒定的條件曼哈頓圖
SNPs作用位置注釋基因染色體SNP性狀rs10466588?基因間LOC101929011?,BUD13?chr11LDL-Crs10774625基因內(nèi)ATXN2chr12LDL-C/ISrs11066301?基因內(nèi)PTPN11?chr12LDL-Crs2238151基因內(nèi)ALDH2chr12LDL-C/ISrs4767293?基因間ERP29?, NAA25?chr12LDL-Crs9557951?基因間METTL21EP?,SLC10A2?chr13-rs7987982?基因內(nèi)COL4A1?chr13-rs630014?基因內(nèi)ABOchr9LDL-C
*:新發(fā)現(xiàn)SNPs或基因
表3 基因功能富集分析
孟德爾隨機化研究[11]表明LDL-C的升高與IS風險增加存在因果關聯(lián)。TIMD4-HAVCR1變異研究[12]顯示該基因與LDL-C和IS風險增加都有關聯(lián)。這些研究說明IS和LDL-C存在遺傳多效性。本研究基于cFDR方法驗證并發(fā)現(xiàn)8個遺傳多效性SNPs,其注釋基因ATXN2、ALDH2和ABO已被報道與IS和LDL-C均相關,LOC101929011和BUD13與LDL-C相關,PTPN11、NAA25和COL4A1與IS相關;而METTL21EP、SLC10A2和ERP29被報道與老年癡呆癥和炎癥性腸病有關聯(lián)[13-14],且以往的研究顯示SLC10A2和ERP29可能在IS和LDL-C的發(fā)病機制上起重要作用。
SNP rs4767293位于NAA25和ERP29基因間的區(qū)域,且兩個基因被報道與炎癥性腸病有關聯(lián)[13]。流行病學研究[15]表明炎癥性腸病后期會導致動脈血管內(nèi)皮功能障礙和血小板聚集,造成動脈粥樣硬化。ERP29位于內(nèi)質(zhì)網(wǎng)中并能在各種組織和細胞類型中表達,包括N終端和C終端域,而C終端域包含一個新的螺旋折疊可以直接結合某些膜蛋白或疏水分泌蛋白[16]。ERP29通過結合跨膜蛋白參與上皮細胞的形成,調(diào)控上皮細胞間質(zhì)轉(zhuǎn)化,從而影響癌癥的進展[17]。有研究[18]表明ERP29可能通過調(diào)節(jié)相關酶的分泌或者易位到脂筏來參與LDL的氧化。蛋白質(zhì)交互網(wǎng)絡分析[18]表明ERP29還與鈣網(wǎng)蛋白、生物合成前體和髓過氧化物酶有關聯(lián)。
SNP rs9557951位于METTL21EP和SLC10A2基因間區(qū)域,其注釋基因均與老年癡呆癥有關[14]。老年癡呆與IS具有共同的危險因素,包括吸煙、飲酒、糖尿病、高膽固醇血癥等。Meta分析表明IS患者老年癡呆癥的患病風險增加了1.6倍[19]。在老年癡呆和IS疾病進程中低灌注和認知能力下降具有相似性,且老年癡呆與小血管卒中存在共享的遺傳關聯(lián)基因(ATP5H、KCTD2、ICT1基因與兩性狀都有關)[20-21]。SLC10A2基因編碼了一種鈉/膽汁酸協(xié)同轉(zhuǎn)運蛋白,對維持膽固醇體內(nèi)平衡至關重要,該基因在突變之前已在家族性高膽固醇血癥病例中被發(fā)現(xiàn);SLC10A2也可在大腦中表達[14]。SLC10A2基因是人類膽汁酸轉(zhuǎn)運體(ASBT)的重要成員,ASBT能夠抑制血漿甘油三酯的濃度并增加高密度脂蛋白膽固醇的濃度[22]。最近研究[23]發(fā)現(xiàn)膽汁酸參與葡萄糖、脂質(zhì)和能量代謝的調(diào)節(jié)。
本研究還存在一些局限性,首先GWAS匯總數(shù)據(jù)的重疊樣本可能會造成假陽性,但cFDR應用貝葉斯統(tǒng)計、條件概率原理且屬于非模型分析,可以降低或減少其造成的FDR。其次,該方法只能識別多效性位點而不能解決水平多效性和垂直多效性問題。
綜上所述,cFDR方法通過對兩種關聯(lián)性狀的GWAS匯總數(shù)據(jù)整合和重分析,驗證并識別了9個IS關聯(lián)位點和245個LDL-C關聯(lián)位點,并初步鑒定出8個IS和LDL-C共享的多效性位點,結合實驗驗證可進一步探索關聯(lián)疾病之間共同的致病機制,有助于發(fā)現(xiàn)早期診斷和治療的新基因靶點。