廣東藥科大學(xué)公共衛(wèi)生學(xué)院統(tǒng)計學(xué)教研室(510310)
冀曉慧 卜 濤 皮路程 趙 麗 劉 麗 李麗霞 郜艷暉△
【提 要】 目的 研究潛在類別因子模型(latent class factor model,LCFM)在基于通路的稀有變異遺傳關(guān)聯(lián)研究中的應(yīng)用,并和潛在類別模型(latent class model,LCM)進(jìn)行比較。方法 選取遺傳分析工作組17(genetic analysis workshop 17,GAW17)中的VEGF通路變異數(shù)據(jù)及其200次模擬表型數(shù)據(jù)進(jìn)行分析。將通路下基因中的稀有變異集合為一個新變量,和常見變異一起擬合LCM和LCFM,再調(diào)整年齡、性別和吸煙狀態(tài)后分別擬合潛在類別及潛在類別因子對模擬表型Q1或Q4的線性回歸模型(200次),并分別計算兩種方法的統(tǒng)計效能和I類錯誤。結(jié)果 LCM將通路作為整體,統(tǒng)計效能為1.000,I類錯誤為0.030。LCFM將通路中的8個基因構(gòu)造成三個因子,因子1和因子2含強(qiáng)效應(yīng)基因,因子3含弱效應(yīng)基因,其統(tǒng)計效能分別為0.980,1.000,0.595;I類錯誤分別為0.045,0.040,0.070。結(jié)論 LCFM比LCM更適宜分析通路數(shù)據(jù)。LCFM不僅能對通路中多基因信息降維,且能夠根據(jù)后驗概率從多個維度對人群分類,而且能估計因子載荷以反映基因間的關(guān)聯(lián)強(qiáng)弱,為進(jìn)一步的生物學(xué)機(jī)制研究提供線索。
全基因組關(guān)聯(lián)研究(genome-wide association studies,GAWS)識別出的常見變異對疾病遺傳風(fēng)險的解釋比例仍較低[1],近期很多研究證實低頻或稀有變異和復(fù)雜性狀存在關(guān)聯(lián)[2],且具有很強(qiáng)效應(yīng)[3]。二代測序技術(shù)使稀有變異的檢測不再是難題,但也迫切需要相應(yīng)統(tǒng)計方法的發(fā)展。稀有變異頻率低,使用傳統(tǒng)分析方法效能低下,因此統(tǒng)計學(xué)者提出負(fù)擔(dān)檢驗[4](burden test)的策略,先對感興趣區(qū)域(region of interest,ROI)如基因內(nèi)多個稀有變異位點集合(collapsing),再比較病例組和對照組的遺傳得分,或納入回歸模型同時分析稀有和常見變異或協(xié)變量。
雖然負(fù)擔(dān)檢驗可提高基因內(nèi)稀有變異關(guān)聯(lián)分析的效能,但疾病的發(fā)生或改變通常是某些遺傳通路中多基因共同作用的結(jié)果,且各基因效應(yīng)可能不同[5]。因此如基于遺傳通路,運用主成分或結(jié)構(gòu)方程模型等潛變量(latent variable)方法[6],以更綜合的角度解釋遺傳變異對疾病的影響。此外,由于遺傳數(shù)據(jù)維度高且為分類變量,近年來以處理分類變量為優(yōu)勢的潛在類別模型[7](latent class model,LCM)也被用于遺傳關(guān)聯(lián)研究中,如分析通路數(shù)據(jù)時,多基因間的關(guān)聯(lián)可由多個分類潛變量來解釋,構(gòu)建潛在類別因子模型[8](latent class factor model,LCFM)。實際應(yīng)用中,LCFM可將多個基因位點歸屬為不同的潛在因子,進(jìn)一步在回歸框架下研究各潛在因子和表型的關(guān)聯(lián),為揭示多基因復(fù)雜的相互作用提供較為豐富的生物學(xué)線索。本文利用遺傳分析工作組17(genetic analysis workshop 17,GAW17)中的通路數(shù)據(jù),探討結(jié)合負(fù)擔(dān)檢驗的LCFM在稀有變異關(guān)聯(lián)研究中的適用性,并和一般的LCM進(jìn)行比較。
本研究數(shù)據(jù)來自德克薩斯州醫(yī)學(xué)研究中心GAW17[9],包括697例無血緣關(guān)系人群的3205個基因24478個SNPs(single nucleotide polymorphism)基因型及年齡、性別和吸煙狀態(tài)等真實數(shù)據(jù),其中SNPs數(shù)據(jù)中包含一條信號轉(zhuǎn)導(dǎo)通路 (vascular endothelial growth factor,VEGF)信息;并假設(shè)該通路上8個基因67個SNPs中的38個SNPs與定量表型Q1關(guān)聯(lián),模擬了200個表型數(shù)據(jù)集。除Q1外,模擬表型中還包含不受數(shù)據(jù)庫中任何SNPs影響的定量表型Q4。根據(jù)與Q1關(guān)聯(lián)的假設(shè),VEGF的8個基因當(dāng)中,KDR、VEGFA和FLT1為強(qiáng)效應(yīng)基因,ARNT、HIF1A和FLT1效應(yīng)強(qiáng)度中等,HIF3A、ELAVL4效應(yīng)強(qiáng)度較低。
LCFM在LCM的基礎(chǔ)上結(jié)合了因子分析(factor analysis,FA)的思想,當(dāng)群體的異質(zhì)性由多個維度引起時,可用LCFM對異質(zhì)性觀測從多個維度進(jìn)行分類,并研究潛變量間的關(guān)聯(lián)[10]。設(shè)x1,x2,…,xL表示L個離散型潛變量,則顯變量的聯(lián)合概率為:
(1)
式(1)即LCFM,其中P(Yn)是多個潛變量分類下概率函數(shù)P(Yn/x1,x2,…,xL)的加權(quán),而權(quán)重大小是其所屬L個潛變量聯(lián)合分布的概率。在LCFM 中,潛變量的聯(lián)合分布概率之和等于1,顯變量在給定潛變量條件下相互獨立。
LCFM的參數(shù)估計同LCM,可采用最大似然法(maximum likelihood,ML)。模型評價可采用BIC(Bayesian information criterion)、AIC(Akaike information criterion)和對數(shù)似然函數(shù)LL等信息統(tǒng)計量。指標(biāo)越小,模型擬合得越好。根據(jù)最優(yōu)模型,LCFM構(gòu)造多個潛變量來說明觀測的后驗類別屬性,并根據(jù)每個潛變量各水平的后驗概率大小,將觀測分配到最大后驗概率水平中。
由于關(guān)聯(lián)分析時有效應(yīng)變異和無效應(yīng)變異共同存在于分析集中,為更接近實際分析策略,本研究將通路VEGF中8個基因的67個SNPs全部納入分析。先將同一基因上的稀有變異根據(jù)負(fù)擔(dān)檢驗中的指示賦值法(indicator coding)[11](1表示有,0表示無)集合,再與常見變異一起分別擬合LCM和 LCFM,獲得單個潛變量或多個潛在類別因子;接著調(diào)整年齡、性別和吸煙狀態(tài)后分別擬合單個潛變量或多個潛在類別因子對Q1或Q4的線性回歸模型(各200次),分別計算兩方法的效能(根據(jù)Q1的200次回歸模型結(jié)果)和I類錯誤(根據(jù)Q4的200次回歸模型結(jié)果)。
本研究中LCM和LCFM采用Latent GOLD 4.5,其他分析應(yīng)用R軟件。VEGF通路的基因功能注釋應(yīng)用KEGG(Kyoto Encyclopedia of Genes and Genomes;http://www.genome.jp/kegg/pathway.html)數(shù)據(jù)庫及查閱文獻(xiàn)獲得。
表1顯示對通路VEGF中遺傳變異數(shù)據(jù)擬合LCM時,根據(jù)BIC(LL)選擇2分類模型為最優(yōu)模型;根據(jù)AIC(LL)選擇4分類模型。由于BIC考慮了樣本量大小,兼顧到模型簡約性,最終選擇2分類為最優(yōu)模型。對于LCFM,根據(jù) AIC(LL)選擇三因子2類別模型為最優(yōu)。最優(yōu)LCM和LCFM的輪廓圖見圖1。
表1 Q1關(guān)聯(lián)通路VEGF的LCM和LCFM最優(yōu)模型選擇
*LL:對數(shù)似然函數(shù)值; Npar:參數(shù)個數(shù)。
表2顯示LCFM中通路VEGF各基因因子載荷。因子1主要和KDR、VEGFA相關(guān),因子2主要與FLT1、HIF1A、ARNT、FLT4相關(guān);因子3主要與ELAVL4和HIF3A相關(guān)。
基于LCM進(jìn)行VEGF通路遺傳關(guān)聯(lián)分析時,通路作為整體,統(tǒng)計效能為1.000,I類錯誤為0.030?;贚CFM進(jìn)行通路遺傳關(guān)聯(lián)分析時,通路中三個潛在類別因子的統(tǒng)計效能分別為0.980,1.000和0.595;I類錯誤分別為0.045,0.040,0.070。
注:RV表示稀有變異,CV表示常見變異
基因*因子1因子2因子3R2變異個數(shù)效應(yīng)真值**MAF[9]KDR-RV0.2910.2290.1120.245100.5820.07%~2.08%KDR-CV0.4490.1180.3080.36510.14916.50%VEGFA-RV0.1090.0310.0360.01711.1300.22%~0.29%FLT1-CV0.2400.4530.1340.35610.6536.67%FLT1-RV0.0520.3700.1860.202190.2630.07%~2.80%HIF1A-RV0.1980.2310.0470.14360.1720.07%~1.22%ARNT-RV0.0630.2270.0220.06090.2960.07%~0.71%FLT4-RV0.0760.1930.0830.07950.1040.07%~0.43%ELAVL4-RV0.1060.1550.130.07240.2810.07%~2.08%ELAVL4-CV0.1110.3370.3580.34810.00043.11%HIF3A-RV0.0450.0300.2840.08580.1190.07%~3.23%HIF3A-CV0.2060.0990.1960.09410.00017.50%
*:RV表示稀有變異,CV表示常見變異;**:對稀有變異,效應(yīng)真值為所有變異的效應(yīng)均值。
表3 LCM與LCFM統(tǒng)計效能和I類錯誤
雖然二代測序技術(shù)飛速發(fā)展,但單個稀有變異效應(yīng)的檢測功效極低,而基于由多個共同影響疾病特征的基因構(gòu)成的通路分析策略,已被證實可提高遺傳效應(yīng)檢測效能,并可從更全面的角度為潛在的疾病機(jī)制提供合理的生物學(xué)解釋。本研究應(yīng)用LCM和LCFM分析了GAW17中VEGF信號轉(zhuǎn)導(dǎo)通路的遺傳變異數(shù)據(jù)。其中LCM將通路中所有變異信息降維成1個分類潛變量;而LCFM構(gòu)造了3個潛在類別因子,描述了多基因間的相關(guān)關(guān)系?;跐撛谝蜃拥倪z傳關(guān)聯(lián)分析均有較高效能和較低I類錯誤。
已有研究表明,VEGF所介導(dǎo)的信號通路可調(diào)控血管內(nèi)皮細(xì)胞的增殖、遷移和轉(zhuǎn)化,促進(jìn)血管新生,而缺氧是VEGF上基因轉(zhuǎn)錄的最主要誘導(dǎo)因子[12]。在缺氧誘導(dǎo)下,VEGFA等血管內(nèi)皮生長因子大量產(chǎn)生,可與血管內(nèi)皮細(xì)胞生成因子受體KDR結(jié)合,激活Src信號通路,引起內(nèi)皮細(xì)胞發(fā)生和增殖,進(jìn)而促進(jìn)血管新生[13],而本研究LCFM中因子1主要與VEGFA和KDR有關(guān)。低氧時,缺氧誘導(dǎo)因子HIF1A(hypoxia inducible factor 1 A基)與1B基HIF1B,即ARNT結(jié)合形成異二聚體轉(zhuǎn)錄因子HIF1,并通過激活靶基因如酪氨酸激酶1,即FLT1 (fms-like tyrosine kinase 1)等調(diào)節(jié)靶基因的轉(zhuǎn)錄活性,引起血管形成。其中,FLT1促進(jìn)血管細(xì)胞組成血管,而FLT4主要影響血管網(wǎng)絡(luò)的構(gòu)成[12],本研究LCFM中因子2主要與FLT1、HIF1A、ARNT和FLT4有關(guān)。HIF3A在調(diào)節(jié)缺氧的轉(zhuǎn)錄過程中扮演著重要監(jiān)管角色,其大多數(shù)變體通過競爭性形成異二聚體而抑制HIF1A活性[14]。而ELAVL4與ELAVL1屬同一家族,也可能有ELAVL1類似的功能作為基因轉(zhuǎn)錄后表達(dá)的重要調(diào)控因子[15],調(diào)控VEGFA、HIF1A mRNA 在細(xì)胞中的穩(wěn)定性與翻譯效率,從而調(diào)控靶基因在細(xì)胞中的表達(dá)水平[16],本研究LCFM中因子3主要與HIF3A和ELAV4有關(guān)。但是HIF3A和ELAV4在因子1和因子2中也有較高載荷,提示二者在調(diào)節(jié)轉(zhuǎn)錄和翻譯過程共同促進(jìn)或抑制基因表達(dá)。由此可見,LCFM各因子內(nèi)的基因具有相關(guān)的生物學(xué)功能。
除將通路中多基因信息降維外,LCFM同時根據(jù)后驗概率從多個維度將人群分類。應(yīng)用于稀有變異數(shù)據(jù)時,LCFM可與負(fù)擔(dān)檢驗的集合策略結(jié)合,提高了應(yīng)用的廣泛性。和LCM相比,LCFM更適宜分析通路數(shù)據(jù)。從生物學(xué)角度看,通路中多個基因或變異效應(yīng)有強(qiáng)弱之分,且變異間可能存在結(jié)構(gòu)或功能相似性以及復(fù)雜交互作用,但LCM可能將本屬于不同功能的變異聚集為1個類別變量。而應(yīng)用LCFM分析通路數(shù)據(jù)可能區(qū)別出不同功能的基因,且估計因子載荷以反映基因間的相關(guān)強(qiáng)弱,進(jìn)一步通過遺傳關(guān)聯(lián)分析探索相關(guān)功能基因的整體效應(yīng),從而提高發(fā)現(xiàn)致病性基因或變異的效率,為進(jìn)一步生物學(xué)機(jī)制研究提供線索。
實際應(yīng)用中,除本文中采用的指示賦值法外,其他集合策略如比例賦值法(proportion coding)或加權(quán)合計檢驗(weighted_sum statistic,WSS)[11]等也可以和LCFM結(jié)合。由于稀有變異MAF越低其效應(yīng)可能越強(qiáng),因此根據(jù)MAF計算權(quán)重進(jìn)行校正的集合方法可能提高研究效能。此外,本文利用了GAW17的模擬數(shù)據(jù),仍需將LCFM應(yīng)用到更多真實表型和測序數(shù)據(jù)中進(jìn)一步驗證其合理性和有效性。