陳蓮 郭元輝
【摘要】以2016年全國研究生數(shù)學(xué)建模競(jìng)賽B題“遺傳性疾病和性狀的遺傳位點(diǎn)”提供的數(shù)據(jù),按照1∶1的病例對(duì)照設(shè)計(jì),運(yùn)用Pearson卡方檢驗(yàn)和病例組與對(duì)照組的堿基差異的正態(tài)分布情況各選取出24個(gè)可能的致病位點(diǎn).將兩種方法選取出的24個(gè)可能的致病位點(diǎn)與300個(gè)基因進(jìn)行全基因組關(guān)聯(lián)分析,找出最有可能的致病基因.
【關(guān)鍵詞】遺傳位點(diǎn);Pearson卡方檢驗(yàn);正態(tài)分布檢驗(yàn);全基因組關(guān)聯(lián)分析
【基金項(xiàng)目】四川省教育廳自然科學(xué)項(xiàng)目(14ZA0132)、西華師范大學(xué)科研基金(13E022).
一、研究背景
人類某些遺傳疾病由某些特定位點(diǎn)的核苷酸發(fā)生變異引起[1],遺傳疾病分為單基因疾病和復(fù)雜性疾病.SPNs是研究基因多態(tài)性和識(shí)別疾病相關(guān)基因的一種工具[2],孫志偉等人提出了一種快速的致病基因分析方法及算法FADG[3],并指出差異最大的SNP位點(diǎn)就是致病位點(diǎn).人類基因組計(jì)劃[4]成功測(cè)序,也促進(jìn)了人類利用遺傳標(biāo)記SPNs對(duì)復(fù)雜性疾病進(jìn)行全基因關(guān)聯(lián)分析.全基因組關(guān)聯(lián)分析[5]是應(yīng)用人類基因組中大量的單核苷酸多態(tài)性為標(biāo)記進(jìn)行病例對(duì)照設(shè)計(jì)研究的關(guān)聯(lián)分析.數(shù)據(jù)源于2016年全國研究生數(shù)學(xué)建模競(jìng)賽B題“遺傳性疾病和性狀的遺傳位點(diǎn)”,其病例組和對(duì)照組的設(shè)計(jì)上采用隨機(jī)抽樣和1∶1的比例進(jìn)行匹配,這種設(shè)計(jì)方式符合病例對(duì)照設(shè)計(jì)[6],它是遺傳病抽樣設(shè)計(jì)中簡單常用的匹配方式[7].
二、位點(diǎn)編碼信息的數(shù)據(jù)處理
圖1位點(diǎn)分布圖
以位點(diǎn)rs3094315為例,先將3種堿基對(duì)(TT,TC,CC)分別轉(zhuǎn)化為數(shù)值(22,23,33),在各位點(diǎn)上取出最大的編碼記為2,最小的記為0,其他的記為1,統(tǒng)計(jì)出對(duì)照組和病例組各位點(diǎn)處3種基因型的數(shù)目.在處理堿基編碼信息時(shí),認(rèn)為堿基的編排順序不同則基因型不同,由兩種不同的堿基組成的相異的基因型有12種,即AT、AC、AG、TA、TC、TG、CA、CT、CG、GA、GT和GC.從9 445個(gè)位點(diǎn)中選取最有可能的致病位點(diǎn),由MATLAB編程畫出位點(diǎn)的分布情況如圖1所示,從圖中可知選擇致病位點(diǎn)有一定的難度,故用計(jì)算來選取致病位點(diǎn).
三、Pearson卡方檢驗(yàn)選取致病位點(diǎn)
Pearson卡方檢驗(yàn)方法[8]可表示成,
χ2=∑ni=1(Qi-Ti)2Ti.(1)
其中,Qi是病例組在各位點(diǎn)第i類堿基對(duì)的觀測(cè)頻數(shù),Ti是對(duì)照組在各位點(diǎn)第i類堿基對(duì)的理論頻數(shù).卡方檢驗(yàn)的顯著標(biāo)準(zhǔn)設(shè)置為α=10-6,自由度為n-1=2,得到χ2臨界值為27.631 0.以此為標(biāo)準(zhǔn),用MATLAB編程選卡方值大于臨界值的32個(gè)位點(diǎn).序號(hào)為8 258和8 496這兩位點(diǎn),χ2值無窮大,遺傳學(xué)上可理解為未患該疾病的人群中不存在CC這種堿基對(duì),可認(rèn)為該位點(diǎn)的患病概率較大.
卡方檢驗(yàn)選出的32個(gè)可能的致病位點(diǎn)中,AT、TA、CG、GT和GC堿基組成類型未出現(xiàn),但未必說明致病位點(diǎn)不含它們.根據(jù)各類型堿基組成在9 445個(gè)位點(diǎn)中所占頻數(shù),按一定的比例選出可能的致病位點(diǎn),如,AC、AG、TC、TG、CA、CT、CG按照1∶4∶4∶1∶1∶4∶4進(jìn)行選擇,通過MATLAB編程運(yùn)行得到可能的24個(gè)致病位點(diǎn),見表1.
四、按差異的分布選取致病位點(diǎn)
由A、T、C、G互異堿基組成的基因型共有12種,在各類型中計(jì)算出對(duì)照組與病例組的3種基因型的平均差異,再分析病例組堿基對(duì)距離平均差異值的分布情況,從分布情況角度選取致病位點(diǎn).計(jì)算12種基因型各自的平均差異公式為
V=∑mj=1∑ni=1(Qi-Ti)m.(2)
其中,Qi是病例組在各位點(diǎn)第i類基因型的觀測(cè)頻數(shù),Ti是對(duì)照組在各位點(diǎn)上第i類基因型的理論頻數(shù),n為各位點(diǎn)的基因型數(shù),即n=3,m為12種互異堿基組成的基因型在9 445個(gè)位點(diǎn)中出現(xiàn)的位點(diǎn)個(gè)數(shù).由MATLAB編程運(yùn)行得到12類互異堿基組成的基因型平均差異.
判斷病例組堿基對(duì)距離平均差異值的分布情況,以CA類型為例,根據(jù)(2)式得出對(duì)照組與病例組在各位點(diǎn)堿基對(duì)AA、CA和CC的差異個(gè)數(shù),分別用向量S0,S1,S2來表示.將上述數(shù)據(jù)S0,S1,S2導(dǎo)入IBM SPSS Statistics 20中,進(jìn)行如下操作步驟:分析、描述統(tǒng)計(jì)、Q-Q圖、選擇正態(tài)分布檢驗(yàn),得到3種堿基對(duì)的正態(tài)Q-Q圖,如圖2所示.若堿基對(duì)AA、CA和CC的差異個(gè)數(shù)服從正態(tài)分布,則CA類型堿基對(duì)的差異數(shù)也服從正態(tài)分布[9].
圖2AA堿基對(duì)Q-Q圖
MATLAB工具箱提供了ttest函數(shù)[10]對(duì)未知標(biāo)準(zhǔn)差的某正態(tài)分布的均值進(jìn)行檢驗(yàn),調(diào)用格式為:h=ttest(x,m,alpha,tail).其中,x為待檢驗(yàn)的樣本,alpha為顯著性水平,在這里alpha取默認(rèn)值0.05,tail為備擇假設(shè).原假設(shè)為:h0∶μ=μ0=m.
當(dāng)tail=0時(shí),表示備擇假設(shè)h1∶μ≠μ0=m,tail=0為默認(rèn)的雙邊檢驗(yàn).
當(dāng)返回值h=0時(shí),表示在顯著性水平alpha下,不能拒絕原假設(shè),即符合均值為m的正態(tài)分布,當(dāng)h=1時(shí),表示在顯著性水平alpha下,可拒絕原假設(shè),即不服從均值為m的正態(tài)分布.
經(jīng)檢驗(yàn),病例組各堿基組成類型均符合均值為待檢驗(yàn)均值的正態(tài)分布,在均值附近選擇選取可能致病位點(diǎn),12種堿基對(duì)組成類型按照1∶1∶4∶1∶4∶1∶1∶4∶1∶4∶1∶1選取,由MATLAB編程運(yùn)行得出的24個(gè)可能致病位點(diǎn)見表2.
五、兩種選取致病位點(diǎn)方法的比較及結(jié)論
Pearson卡方檢驗(yàn)法側(cè)重找出病例組與對(duì)照組差異較大的作為可能的致病位點(diǎn),而分類按堿基對(duì)差異服從的正態(tài)分布選取側(cè)重找病例組與對(duì)照組差異的平均.若樣本容量小,則優(yōu)先選用卡方檢驗(yàn)法選取,若樣本容量較大且堿基對(duì)數(shù)目的差異服從正態(tài)分布,則用后一種方法選取致病位點(diǎn).用全基因組關(guān)聯(lián)性分析選出了可能的致病基因,見表3.
【參考文獻(xiàn)】
[1]凃欣,石立松,汪樊等.全基因組關(guān)聯(lián)分析的進(jìn)展與反思[J].生理科學(xué)進(jìn)展,2010,41(2):87-94.
[2]孫志偉,單淵博,蔡潤身等.快速的致病基因分析方法[J/OL].計(jì)算機(jī)工程與應(yīng)用,http://www.cnki.net/kcms/detail/11.2127.TP.20160929.1618.004.html.
[3]劉翠蘭,胡家偉.單核苷酸多態(tài)性研究進(jìn)展及法醫(yī)學(xué)應(yīng)用前景[J].中國法醫(yī)學(xué)雜志,2001,16(s1):58-59.
[4]International Human Genome Sequencing Consortium.Initial sequencing and analysis of the human genome[J].Nature,2001(409):860-921.
[5]嚴(yán)衛(wèi)麗.復(fù)雜疾病全基因組關(guān)聯(lián)研究進(jìn)展——遺傳統(tǒng)計(jì)分析[J].遺傳,2008,30(5):543-549.
[6]陳樹昶.病例對(duì)照研究的設(shè)計(jì)原理及其進(jìn)展[J].疾病控制雜志,2004,8(1):56-59.
[7]袁敏.關(guān)聯(lián)分析中的統(tǒng)計(jì)方法研究——基因模型選擇及穩(wěn)健檢驗(yàn)[D].合肥:中國科學(xué)技術(shù)大學(xué),2009.
[8]茆詩松,王靜龍.數(shù)理統(tǒng)計(jì)[M].上海:華東師范大學(xué)出版社,1999.
[9]田禹.基于偏度和峰度的正態(tài)性檢驗(yàn)[D].上海:上海交通大學(xué)數(shù)學(xué)系,2012.
[10]張德豐,楊文茵.MATLAB工程應(yīng)用仿真[M].北京:清華大學(xué)出版社,2012.endprint