• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于潛變量構(gòu)建高維單核苷酸多態(tài)性基因關(guān)聯(lián)模型*

      2011-02-10 12:00:57張巖波
      關(guān)鍵詞:單體關(guān)聯(lián)位點(diǎn)

      張巖波

      山西醫(yī)科大學(xué)衛(wèi)生統(tǒng)計(jì)學(xué)教研室太原 030001

      在后基因組時(shí)代,單核苷酸多態(tài)性(single-nucleotide polymorphisms,SNPs)研究已成為生物醫(yī)學(xué)許多研究領(lǐng)域的焦點(diǎn)。隨著基因分型技術(shù)的發(fā)展與成熟,基于大規(guī)模SNPs基因分型數(shù)據(jù)的全基因組關(guān)聯(lián)(genome-wide association,GWA)分析成為多基因復(fù)雜疾病遺傳易感性和基因定位研究的主要方法。近年來與之相適應(yīng)的基于群體的統(tǒng)計(jì)學(xué)方法研究也成為國際上遺傳統(tǒng)計(jì)學(xué)領(lǐng)域的研究熱點(diǎn)?;蜿P(guān)聯(lián)性分析利用連鎖不平衡(linkage disequilibrium, LD)原理,在特定的遺傳模式假定下,采用分析流行病學(xué)方法,探索已知的遺傳標(biāo)記與未知致病基因之間是否存在關(guān)聯(lián)以及關(guān)聯(lián)強(qiáng)弱,從而為致病基因的定位提供統(tǒng)計(jì)學(xué)依據(jù)。由于SNPs數(shù)據(jù)具有維度高、數(shù)據(jù)量大、存在測量誤差等特征,統(tǒng)計(jì)學(xué)家們提出了許多方法去解決這些問題。作者在回顧常用分析方法基礎(chǔ)上,介紹了基于潛變量構(gòu)建高維SNPs基因關(guān)聯(lián)模型的思想及應(yīng)用進(jìn)展。

      1 常用基因關(guān)聯(lián)分析方法

      基于群體的關(guān)聯(lián)性分析的統(tǒng)計(jì)方法大致可分為兩類。一類是通過分析代表性標(biāo)記SNPs的交互作用,間接反映基因-基因的交互作用,如M-H、logistic模型、多因子降維法(multi-factor dimensionality reduction,MDR)、Bayesian網(wǎng)絡(luò)模型以及用于疾病相關(guān)SNPs位點(diǎn)初篩的關(guān)聯(lián)規(guī)則挖掘技術(shù)等[1-4]。另一類是大部分學(xué)者所傾向的基于單體型(haplotype)基因定位的關(guān)聯(lián)分析,其通過染色體區(qū)域內(nèi)的單體型之間的交互作用反映基因之間的交互作用。Clark[5]指出基于單體型分析有以下優(yōu)點(diǎn):①單體型有時(shí)是生物的基本單位。②單體型是染色體上的結(jié)構(gòu)特征,常作為一個(gè)整體傳遞給下一代。③在統(tǒng)計(jì)學(xué)上,利用單體型可以降低研究問題的維度。常用的單體型分析方法有M-H法、logistic模型、廣義線性模型、廣義似然方法以及區(qū)間定位或多位點(diǎn)定位等[6]。單體型具有單體型種類較多和不確定的特點(diǎn),而且受到SNPs維度的限制,為此Peng等[7-8]介紹了“整體基因”的概念和適合于高維SNPs(multiple SNPs)數(shù)據(jù)的分析方法,他們采用主成分的bootstrap置信區(qū)間檢驗(yàn)(PCA-based bootstrap confidence interval test,PCA-BCIT)和核典型相關(guān)理論來分析基因交互作用。Schaid[9]與朱文圣等[6]認(rèn)為最好的解決辦法是采用單體型聚類分析,通過合理聚類可以使聚集在同一類的單體型及其效應(yīng)很相似,并且可以降低研究問題的自由度。

      2 基于潛變量的基因關(guān)聯(lián)模型

      針對基因數(shù)據(jù)高維度的特征,近幾年基于潛變量的群體SNPs分析越來越受到學(xué)界的關(guān)注,許多研究成果已見諸文獻(xiàn),這類方法稱為潛在結(jié)構(gòu)模型或潛變量模型。潛變量分析具有以下優(yōu)點(diǎn):一是既能反映單體型或一組SNPs的綜合效應(yīng),又能達(dá)到降維效果,降低問題的自由度,使結(jié)果易于解釋;二是既能消除測量誤差的影響或者容許基因型測量誤差存在,又能實(shí)現(xiàn)SNPs的整體檢驗(yàn),提高檢驗(yàn)功效;三是既能實(shí)現(xiàn)單體型與疾病質(zhì)量和數(shù)量性狀的關(guān)聯(lián)分析,又能進(jìn)行(驗(yàn)證性或探索性)單體型推斷研究或高維SNPs的聚類分析。

      Wang等[10]基于群體數(shù)據(jù)引入潛變量進(jìn)行了數(shù)量性狀位點(diǎn)(quantitative trait loci,QTL)的關(guān)聯(lián)分析。Lee等[11]采用結(jié)構(gòu)方程模型(structural equation model,SEM)分析了美國國家生物技術(shù)信息中心(NCBI)數(shù)據(jù)庫中的急性髓樣白血病SNPs資料,將轉(zhuǎn)錄因子RUNX1與Ets變體基因6(ETV6)作為潛變量,6個(gè)SNPs作為顯變量,結(jié)合路徑圖構(gòu)造基因網(wǎng)絡(luò)來分析其關(guān)聯(lián)性。Wang等[12]提出在病例對照研究中應(yīng)用潛變量方法檢驗(yàn)一組關(guān)聯(lián)性較強(qiáng)的SNPs,他將潛變量引入外顯模型刻畫假定的疾病易感位點(diǎn)(disease susceptible locus,DSL),這些位點(diǎn)可能包含標(biāo)記位點(diǎn)或單體型,然后采用EM算法(expectation-maximization algorithm)擬合外顯模型,估計(jì)單體型聯(lián)合概率,研究證實(shí):采用潛變量方法描述DSL更具靈活性,而且在特定情景下(遺傳模式)比傳統(tǒng)單體型關(guān)聯(lián)分析更能提高檢驗(yàn)功效。Nock等[13]將因子分析與結(jié)構(gòu)方程模型應(yīng)用于代謝綜合征多重SNPs的分析和整體基因功能的評(píng)價(jià)。也有研究者[14]將 SEM應(yīng)用于行為遺傳研究,將基因-環(huán)境協(xié)方差(genotype-environment covariance,CovGE)作為參數(shù)引入模型,減少了其他參數(shù)的偏倚。因此,采用結(jié)構(gòu)方程模型分析SNPs作用,考察變量間結(jié)構(gòu)關(guān)系,思路新穎,針對性強(qiáng)。

      在分析SNPs數(shù)據(jù)時(shí),通常是將個(gè)體基因型量化為某種特定的遺傳模式,但是這種遺傳模式具有不確定性,所以不妨保留SNPs的原始分類信息,據(jù)此考察基因型的概率分布,然而,這樣不宜再采用結(jié)構(gòu)方程模型。Dean等[15]從HapMap Project(國際人類基因組單體型圖計(jì)劃)公共數(shù)據(jù)庫中隨機(jī)抽取若干SNPs,將等位基因作為變量,抽取的SNPs作為聚類指標(biāo),采用潛在類別分析(latent class model, LCA)考察SNPs的分布特征。評(píng)價(jià)指標(biāo)BIC傾向于最優(yōu)類別數(shù)為3,與實(shí)際分布(種族)相匹配,并且該方法將數(shù)據(jù)維度完美地降低了 1/3。有學(xué)者[16-17]結(jié)合潛變量模型與Bayesian網(wǎng)提出了一個(gè)聚類模型,并采用結(jié)構(gòu)EM算法(structural EM algorithm),該方法可以有效地對SNPs進(jìn)行聚類。作者在模擬研究基礎(chǔ)上,采用概率參數(shù)化估計(jì)的 LCA模型,依據(jù)一組SNPs將抑郁癥患者分為2個(gè)類別,結(jié)果顯示導(dǎo)致類別不同的正是從屬于 5-羥色胺受體 1B基因(HTR1B)的rs11568817、rs130058與rs6298位點(diǎn)。據(jù)此線索作者獲得了有意義的結(jié)論:不同類別的特質(zhì)對應(yīng)不同的療效,結(jié)合SNPs多態(tài)性可知哪個(gè)等位基因療效更好,從而指導(dǎo)臨床針對個(gè)體采取不同的治療方案,該結(jié)論正是藥物基因組學(xué)期待的結(jié)果[18]。在作者另外一項(xiàng)尚未公開發(fā)表的研究中,采用基于Bayesian網(wǎng)的多層次潛類模型分析了得克薩斯生物醫(yī)學(xué)研究所基因分析工作組(genetic analysis workshop,GAW)提供的SNPs數(shù)據(jù),抽取了1號(hào)染色體上的29個(gè)SNPs,并進(jìn)行潛在聚類,獲得了很好的聚類效果。由此可見,潛在類別既具有因子分析的特征,又具有聚類分析的功能,透過概率可以深入了解分類變量背后的規(guī)律[19]。

      3 存在的問題與展望

      在進(jìn)行關(guān)聯(lián)分析時(shí)作者建議以單體型為基礎(chǔ),但并不局限于單體型,應(yīng)進(jìn)一步跨越單體型的限制,對一組高維度相關(guān)聯(lián)的SNPs進(jìn)行整體檢驗(yàn),以提高分析效率。即便如此,基于群體SNPs數(shù)據(jù)的關(guān)聯(lián)性分析方法仍有諸多不足:①單個(gè)SNP位點(diǎn)所提供的信息非常有限,該 SNP很難恰好是致病位點(diǎn),而且反映的只是標(biāo)記SNP的作用,而非整個(gè)基因的作用。尤其對于復(fù)雜性疾病,往往是由于多個(gè)位點(diǎn)的變異引起的,因此應(yīng)該同時(shí)利用多個(gè)SNPs進(jìn)行研究。而且隨著現(xiàn)代分子生物學(xué)技術(shù)的發(fā)展,SNPs檢測難度降低,動(dòng)輒幾十甚至上百上千個(gè)SNPs,變量維度的增加給統(tǒng)計(jì)分析帶來了困難,導(dǎo)致分析效率很低[20]。②許多研究[6]指出,由于單個(gè) SNP存在多位點(diǎn)重復(fù)檢驗(yàn),因此,基于單體型的研究比基于單個(gè)SNP的研究更具功效。但是由于單體型的不確定性,若能突破單體型的界限,對一組相關(guān)聯(lián)的SNPs進(jìn)行整體檢驗(yàn),將更加實(shí)用,并且會(huì)帶來更大的檢驗(yàn)功效。③雖然目前針對SNPs交互作用的研究發(fā)展出了很多有效的統(tǒng)計(jì)方法,但研究者普遍關(guān)注的基因交互作用通常假設(shè)變量間獨(dú)立,而具有高度連鎖效應(yīng)的基因位點(diǎn)間具有較強(qiáng)的相關(guān)性,因此不適宜作交互效應(yīng)的分析,應(yīng)將單體型或一組高維相關(guān)的SNPs視為一個(gè)整體,進(jìn)行整體效應(yīng)的分析。這樣既能體現(xiàn)基因的整體功能,又能有效提高檢驗(yàn)功效。④傳統(tǒng)方法均假定變量被完全測量,不存在測量誤差,而基因型數(shù)據(jù)大部分都含有測量誤差,許多研究[6]表明即使很小的基因型測量誤差也會(huì)給單體型推斷帶來較大的影響,這也是目前許多方法存在的明顯缺陷。學(xué)界對此頗為重視,并提出了多種對策。Zou等[21]提出一種基于基因型誤差的單體型推斷方法,但是該方法必須事先知道基因型誤差率的大小,這實(shí)際是存在困難的。Kang等[22]建議為了避免測量誤差帶來的影響,不要直接利用含有誤差的基因型數(shù)據(jù),而是根據(jù)前一級(jí)觀測數(shù)據(jù)的熒光值去推斷單體型,并提出了GS-EM方法。朱文圣等[6]建議采用雙重抽樣方法和多次測量方法減少測量誤差對單體型推斷的影響,但這樣會(huì)增加經(jīng)費(fèi)。

      作者認(rèn)為將潛在結(jié)構(gòu)模型應(yīng)用于單體型或高維SNPs整體效應(yīng)的關(guān)聯(lián)分析及其相關(guān)的推斷性研究獨(dú)具優(yōu)勢,但依然有些問題有待于深入探討:①結(jié)構(gòu)方程模型要求可觀測變量與潛變量服從正態(tài)分布,但是SNPs數(shù)據(jù)無論以何種遺傳模式量化,都違背正態(tài)假定,因此建議采用更穩(wěn)健的或適用于非正態(tài)分布的數(shù)據(jù)分析方法,如bootstrap方法和S-B估計(jì)擬合結(jié)構(gòu)方程模型[19],進(jìn)行 SNPs整體效應(yīng)和關(guān)聯(lián)性分析。另外,我們還可以利用均值結(jié)構(gòu)模型進(jìn)行不同群體間的SNPs整體效應(yīng)比較。②潛變量分析適用于高維度的數(shù)據(jù),但聯(lián)合概率分布的復(fù)雜度相對于維度數(shù)呈指數(shù)增長,隨著SNPs維數(shù)增加,信息獲取的難度和概率推理的復(fù)雜度增加,且算法的收斂速度和計(jì)算速度降低。因此,建議引入基于Bayesian網(wǎng)的理論構(gòu)建多層次潛類分析,利用其“圖論”語言直觀揭示所分析問題的結(jié)構(gòu),降低信息獲取的難度和概率推理的復(fù)雜度,考察高維度SNPs在人群中的分布特征。③當(dāng)研究位點(diǎn)的維度太高時(shí),即使樣本量再大,也會(huì)出現(xiàn)單體型觀測數(shù)很小的情況(即稀有單體型)。對于稀有單體型,對其頻率估計(jì)的方差會(huì)很大,導(dǎo)致單體型效應(yīng)估計(jì)的參數(shù)方差也很大。因此,建議發(fā)展適合于稀疏數(shù)據(jù)或小樣本的更加有效的方法。

      總之,基于潛變量的基因關(guān)聯(lián)分析將為群體遺傳學(xué)研究提供實(shí)用有效的分析方法,為復(fù)雜性狀疾病的遺傳以及基因定位等方面的研究提供強(qiáng)有力的方法支持。潛變量分析方法同樣適用于基因-環(huán)境交互作用分析,擬引入的環(huán)境變量只增加了變量的維度,并不會(huì)帶來方法上的困難。

      [1]李照海,覃紅,張洪.遺傳學(xué)中的統(tǒng)計(jì)方法[M].北京:科學(xué)出版社,2006:184

      [2]Manuguerra M,Matullo G,Veglia F,et al.Multi-factor dimensionality reduction app lied to a large prospective investigation on gene-gene and gene-environment interactions [J].Carcinogenesis,2007,28(2):414

      [3]Rodin AS,Boerwinkle E.Mining genetic epidemiology data with Bayesian networks I:Bayesian networks and examp le app lication(p lasma apoE levels)[J].Bioinformatics, 2005,21(15):3273

      [4]鄒莉玲,趙耐青,秦國友,等.應(yīng)用關(guān)聯(lián)規(guī)則篩選疾病相關(guān)的SNP位點(diǎn)及其組合的分析方法[J].中國衛(wèi)生統(tǒng)計(jì),2009,26(3):226

      [5]Clark AG.The role of haplotype in candidate gene studies [J].Genet Epidemiol,2004,27(4):321

      [6]朱文圣,郭建華.基于單體型的復(fù)雜疾病基因定位研究[J].數(shù)理統(tǒng)計(jì)與管理,2009,28(2):370

      [7]Peng Q,Zhao J,Xue F.A gene-based method for detecting gene-gene co-association in a case-control association study[J].Eur JHum Genet,2009,23(10):1038

      [8]Peng Q,Zhao J,Xue F.PCA-based bootstrap confidence interval tests forgene-disease association involvingmultiple SNPs[J].BMC Genet,2010,11(1):6

      [9]Schaid DJ.Evaluating associations of hap ltypes with traits [J].Genet Epedemiol,2004,27(4):348

      [10]Wang T,Weir B,Zeng ZB.A population-based latent variable app roach for association mapping of quantitative trait loci.http://statgen.ncsu.edu/:(doi:10.1111/j.1469-1809.2006.00264.x)

      [11]Lee S,Jhun M,Lee EK,et al.Application of structural equationmodels to constructgenetic networks using differentially expressed genes and single-nucleotide polymorphisms [J].BMC Procee,2007,1(Suppl 1):S76

      [12]Wang T,Jacob H,Ghosh S,et al.A joint association test formu ltiple SNPs in genetic case-control studies[J].Genet Epidemiol,2009,33(2):151

      [13]Nock NL,Wang X,Thompson CL,et al.Defining genetic determinants of the Metabolic Synd rome in the Framingham Heart Study using association and structuralequationmodeling methods[J].BMC Proc,2009,3(Suppl 7):S50

      [14]Hershberger SL.Latent variable models of genotype-environment covariance[J].Structural Equation Modeling, 2003,10(3):423

      [15]Dean N,Raftery AE.Latent class analysis variab le selec-tion[J].Ann Inst Stat Math,2010,62(1):11

      [16]Zhang Yulong,Ji Liang.Clusteringof SNPs by a structural EM algorithm[C].International Joint Conference on Bioinformatics,Systems Biology and Intelligent Computing,2009:147

      [17]張連文,郭海鵬.貝葉斯網(wǎng)引論[M].北京:科學(xué)出版社,2006.

      [18]裴磊磊,郭小玲,張巖波,等.抑郁癥患者單核苷酸多態(tài)性(SNPs)分布特征的潛在類別分析[J].中國衛(wèi)生統(tǒng)計(jì),2010,27(1):7

      [19]張巖波.潛變量分析[M].北京:高等教育出版社,2009.

      [20]Zhao LP,Li SS,Khalid N.A method for the assessmentof disease associations with single-nucleotide polymorphism hatplotypes and environmental variables in case-control studies[J].Am JHum Genet,2003,72(5):1231

      [21]Zou G,Zhao H.Hap lotype frequency estimation in the presence ofgenotyping errors[J].Hum Hered,2003,56(1/3):131

      [22]Kang H,Qin ZS,Niu T,et al.Incorporating genotyping uncertainty in haplotype in ference for single-nucleotide polymorphism s[J].Am JHum Genet,2004,74(3):495

      猜你喜歡
      單體關(guān)聯(lián)位點(diǎn)
      鎳基單晶高溫合金多組元置換的第一性原理研究
      上海金屬(2021年6期)2021-12-02 10:47:20
      CLOCK基因rs4580704多態(tài)性位點(diǎn)與2型糖尿病和睡眠質(zhì)量的相關(guān)性
      “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
      二項(xiàng)式通項(xiàng)公式在遺傳學(xué)計(jì)算中的運(yùn)用*
      奇趣搭配
      單體光電產(chǎn)品檢驗(yàn)驗(yàn)收方案問題探討
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      相變大單體MPEGMA的制備與性能
      巨無霸式醫(yī)療單體的選擇
      類姜黃素及其單體對β-內(nèi)分泌酶活性的抑制作用
      大化| 巴南区| 通渭县| 桃园县| 湟源县| 威海市| 桃园县| 鹿泉市| 东莞市| 滨海县| 昆山市| 澳门| 德格县| 冷水江市| 定边县| 利川市| 定西市| 黄梅县| 吉林省| 永修县| 靖边县| 肃宁县| 磴口县| 调兵山市| 株洲市| 谢通门县| 聂拉木县| 宜黄县| 甘洛县| 团风县| 黄梅县| 岳阳县| 思茅市| 甘谷县| 芦山县| 长白| 九江市| 叶城县| 松阳县| 双城市| 安泽县|