王娜娜 張毓洪 楊 澤
交互作用是指兩個或多個因素相互發(fā)生作用而產(chǎn)生的一種效應(yīng)。當(dāng)兩個或多個因素共同作用于某一事件,其效應(yīng)大于或小于各因素共同作用的效應(yīng)時,可認(rèn)為因素間存在交互作用,前者稱為協(xié)同效應(yīng)(cooperative effect),后者稱為拮抗效應(yīng)(antagonistic effect)。醫(yī)學(xué)研究證實,罕有疾病是純粹由單一的遺傳或者環(huán)境因素決定的,尤其是基因-基因交互作用在許多疾病,特別是常見的慢性疾病(高血壓、糖尿病、哮喘等)發(fā)病中,具有非常重要的意義。
探討基因-基因交互作用,根據(jù)不同個體的遺傳因素尋找相互之間可能存在的交互作用,對制定有效的疾病預(yù)防控制干預(yù)措施,提高群體健康素質(zhì)具有非常重要的理論研究意義和實用價值;更有效地檢測和分析交互作用也是近年一直困擾醫(yī)學(xué)及其關(guān)聯(lián)學(xué)科研究與發(fā)展的難題。在進行多基因交互作用分析過程中,模型中常常會產(chǎn)生較多的參數(shù),但樣本含量相對較少;小樣本研究中,由于過度擬合,給統(tǒng)計方法學(xué)研究提出了許多新問題,比如眾所周知的“維度困擾”。由于每個基因有多個位點,如果統(tǒng)計分析不考慮位點之間的相互作用將會使模型的效能大大降低。交互作用分析時,眾多的分類影響因素及其組合會產(chǎn)生高緯度的列聯(lián)表,這就導(dǎo)致列聯(lián)表中有些格子的頻數(shù)為O,出現(xiàn)所謂“空格子"(null cells count)情況,這對交互作用分析提出了新要求,交互作用階數(shù)越高,解釋分析問題就越復(fù)雜。有關(guān)研究交互作用的方法很多,現(xiàn)主要介紹MDR方法。
2001年Ritchie等[1]第一次提出了多因子降維法(multifactor dimensionality reduction,MDR),“因子”是交互作用研究中的變量(如基因型或環(huán)境因素),“維”是指研究的多因子組合中因子(如基因型)的數(shù)目,以疾病易感性分類(高危、低危)的方式建立模型,將研究中的多個因子看作一個多因子組合(基因型組合),這樣就把高維的結(jié)構(gòu)降低到一維兩水平(即高危或低危),即為“降維”。這是一種非參數(shù)、無需遺傳模式的分析方法,適用于病例對照研究或患病不一致同胞對設(shè)計,只需具備各位點的遺傳數(shù)據(jù)(例如SNPs),即可進行基因-基因交互作用的分析,而無需其他特殊條件。
1.1 MDR方法基本原理
MDR方法實際上是一種組合劃分方法(combinatorial partitioning method,CPM)的擴展[2],雖然所針對的結(jié)局變量的類型不同,CPM要求連續(xù)變量,而MDR針對的是諸如疾病狀態(tài)等分類變量,但它們都是采用數(shù)據(jù)降維的策略,以解決在有限的樣本量條件下,分析高維數(shù)據(jù)之間交互作用的問題。
1.2 MDR 方法分析步驟(見圖 1 所示)[3~5]
圖1 MDR方法基本步驟示意圖
第一步,將所有數(shù)據(jù)隨機地的分成10等份,其中9份作為訓(xùn)練樣本,1份作為檢驗樣本。
第二步,從眾多研究因素中選擇n個因子,組成n個因子的不同組合(n個因子就代表n維),這些因子可以是SNP或者是分類明確的環(huán)境因素。
第三步,根據(jù)n個因子的不同水平,將個體劃分為不同的分類,如圖中的單元格所示,左側(cè)條帶表示病例,右側(cè)條帶表示對照。
第四步,計算每個格子的病例數(shù)與對照數(shù)的比值,若其病例與對照之比大于某個閾值(例如≥1),則標(biāo)記為高危,反之則標(biāo)記為低危,這樣就把n維的結(jié)構(gòu)降低到一維兩水平(即高?;虻臀?。
第五步,多因子分類的集合中包含了MDR模型中各因子的組合,在所有的組合中,選擇個體錯分最小的那個MDR模型,該模型在所有模型中具有最小的預(yù)測誤差。
第六步,通過十重交叉驗證評估模型的預(yù)測誤差,選擇預(yù)測誤差最小的模型作為最終的模型,取10次檢驗的預(yù)測誤差平均值,作為模型相關(guān)預(yù)測誤差的無偏估計。
1.3 模型評估與檢驗[6]
交叉驗證(cross validation)和置換檢驗(permutation test)是評估MDR模型統(tǒng)計學(xué)意義的兩個重要手段。交叉驗證一致性通過以下方法衡量:對每次的十重交叉驗證,比較同一個位點/因子組的驗證次數(shù)。如果因子組合只發(fā)生在一個亞組中,為最小值1;如果所有10個亞組確定的都是相同的位點/因子組合,則為最大值10。通過十重交叉驗證,在一定程度上可以避免因數(shù)據(jù)轉(zhuǎn)換的偶然性,使Ⅰ類誤差增大而產(chǎn)生假陽性結(jié)果的影響。預(yù)測誤差是衡量MDR模型在獨立檢驗的亞組中預(yù)測危險狀態(tài)的指標(biāo),其通過十重交叉驗證的亞組中每一個的預(yù)測誤差的平均值來計算。最佳模型的假設(shè)檢驗可以通過使用不同的隨機數(shù)進行置換檢驗,來評估交叉驗證一致性和預(yù)測誤差估計值的大小,確定該模型與那些無關(guān)聯(lián)的模型相比是否更合適。
研究中國人群與前列腺癌風(fēng)險基因的關(guān)聯(lián),選取124例病例和 138例對照人群,對 TET2(rs7679673),LMTK2(rs6465657),8q24 區(qū)(rs12543663),PDLIM5(rs17021918)和NKX3-1(rs1512268)基因上的五個多態(tài)性位點進行了單個位點的關(guān)聯(lián)研究,結(jié)果顯示染色體8q24區(qū)上rs12543663位點可能與前列腺癌發(fā)生風(fēng)險相關(guān)(P=0.046;OR,1.883;95%CI,1.006-3.526),其他位點尚未有研究確切的說明其關(guān)聯(lián)。采用MDR方法分析此5個多態(tài)性位點的交互作用發(fā)現(xiàn)(見表1,圖2,3),模型的交叉驗證一致性相同的兩個模型,兩位點模型(rs17021918和 rs1512268)和四位點(rs7679673,rs6465657,rs17021918和 rs1512268)的模型,但由于只有兩位點模型檢測樣本有統(tǒng)計學(xué)意義(P=0.0089)。所以最佳模型包含了PDLIM5基因的1個位點(rs17021918)和NKX3-1基因上的rs1512268位點,因此,該研究提示 PDLIM5基因rs17021918位點與NKX3-1基因rs1512268位點之間,可能存在基因-基因交互作用。有樹狀圖可看出TET2基因rs7679673和LMTK2基因rs6465657位點有協(xié)同作用,而PDLIM5基因rs17021918和NKX3-1基因rs1512268位點有更強的協(xié)同作用。
表1 MDR方法分析多位點交互作用的模型
圖2 PDLIM5(rs17021918)和 NKX3-1(rs1512268)基因交互作用分析單元格圖
圖3 TET2(rs7679673),LMTK2(rs6465657),8q24 區(qū)(rs12543663),PDLIM5(rs17021918)和NKX3-1(rs1512268)基因交互作用分析樹狀圖
3.1 MDR是一種非參數(shù)、無需遺傳模式的分析方法,適用于病例對照研究或患病不一致同胞對設(shè)計,只需具備各位點的遺傳數(shù)據(jù)(例如SNP),即可進行基因-基因交互作用的分析,而無需其他特殊條件。與其他傳統(tǒng)的統(tǒng)計學(xué)建模方法相比,其優(yōu)點在于可以大大降低建模所需的自由度,MDR方法的主要特點是:①并不需要指定遺傳模式(顯性或隱性遺傳)和交互作用模型(線性或非線性模型,加法或乘法模型);②結(jié)合MDR Software程序包,可以識別多個SNP位點之間的高階交互作用。③在分析各因素、各水平問交互作用時并不考慮主效應(yīng)。因此當(dāng)潛在的主效應(yīng)沒有統(tǒng)計學(xué)意義時,它仍然可以發(fā)現(xiàn)高階交互作用。
3.2 MDR僅僅能發(fā)現(xiàn)交互作用,如果主效應(yīng)有意義時,它不能揭示主效應(yīng);MDR發(fā)現(xiàn)交互作用的能力隨著研究因子數(shù)K的降低而減小,所以當(dāng)交互作用存在且是低維度時,MDR幾乎無能為力[7];在處理高階交互作用的時候,很可能出現(xiàn)有的格子觀察值為零的情況:在病例和對照例數(shù)接近時,按高危、低危進行分類是非常不穩(wěn)定的。
MDR方法適合對病例對照研究或患病不一致同胞對設(shè)計進行2~6個基因位點或環(huán)境因素的交互作用分析,目前已成功應(yīng)用于散發(fā)性乳腺癌、心房顫動和原發(fā)性高血壓等疾病的研究[8],但這也只是為研究遺傳流行病學(xué)交互作用提供一種可選擇的方法或策略。固然,它也有一些不足之處:當(dāng)主效應(yīng)或已知的協(xié)同作用存在時,用MDR方法很難得到最終的模型,例如MDR提示最佳模型為四因子模型,但它并不能明確是四因子之間都有交互作用,還是兩組單獨的兩因子交互作用,抑或是兩個主效應(yīng)加上另外兩因子的交互作用等[9],并且MDR同樣也會受到遺傳異質(zhì)性的嚴(yán)重影響[10],必須引起注意。此外,等位基因關(guān)聯(lián)或連鎖不平衡對MDR效能和Ⅰ類錯誤的影響還未知,這特別是在評估位點內(nèi)交互(顯性、隱性)時更重要。提供關(guān)于效能和樣本量的詳細(xì)說明也很重要,比如進行3個、4個,甚至10個位點交互作用的研究需要多少數(shù)據(jù)?一般認(rèn)為,幾乎沒有任何一種方法可以理想化地用于所有情況下的數(shù)據(jù)分析,而MDR更可能成為得到一致結(jié)果的幾種方法之一[11]。在后基因組時代,遺傳流行病學(xué)研究的主要目標(biāo)是了解各基因的功能,其中包括基因-基因、基因-環(huán)境之間復(fù)雜的交互作用。雖然目前尚不能奢望能夠完全解釋全部的基因-基因交互作用,但至少可能對多基因疾病中相對重要的一些交互作用予以探討,這也將有助于今后對多基因疾病更全面的認(rèn)識。當(dāng)然,對于簡單的基因-基因的統(tǒng)計學(xué)交互作用的研究。
1 Ritchie MD,Hahn LW,Roodi N,et al.Multifactor-dimensionality reduction reveals high-order interactions among estrogen-metabolism genes in sporadic breast cancer[J].Am J Hum Genet,2001,69:138-147.
2 Nelson MR,Kardia SL,F(xiàn)errell RE,et al.A combinatorial partitioning method to identify multi locus genotypic partions that predict quantitative trait variation[J].Genome Res,2001,11:458-470.
3 HAHN,L,R1TCHIE,M.AND MOORE,J.Multifactor dimensionality reduction software for detecting gene-gene and gene-environment interaction [J].Bioinformatics,2003,19:376-382.
4 Moore,J.H.and William,S.M.New strategies for identifying gene-gene interactions in hypertension[J].Ann.Med,2002,34:88-95.
5 Moore,J.H.et al.Symbolic discriminate analysis of microarray data in autoimmune disease[J].Genet.Epidemi01,2002,23:57-69.
6 駱常好.懲罰logistic回歸與多因子降維法交互作用分析及其應(yīng)用[D].山西醫(yī)科大學(xué),2009.
7 MEE YOUNG PARK.Penalized logistic regression for detecting gene interactions[J].Biostatistics,2008,9(1):30-50.
8 Moore JH.Computational analysis of gene-gene interactions using multifactor dimensionality reduction [J].Expert Rev Mol Deign,2004,4:795-803.
9 Coffey CS,Hebert PR,Ritchie MD,et al.An application of conditional logistic regression and multifactor dimensionality reduction for detecting gene-gene interactions on risk of myocardial infarction:the importance of model validation [J].BMC Bioinformatics,2004,5:49.
10 Ritchie MD.Hahn LW.Moore JH.Power of multifactor dimensionality reduction for detecting gene-gene interactions in the presence of genotyping error,missing data,photocopy,and genetic heterogeneity[J].Genet Epidemiology,2003,24:150-157.
11 唐迅,李娜,胡永華.用多因子降維法分析基因-基因交互作用[J].中華流行病學(xué)雜志,2006,27(5):437-441.