楊利英,殷黎洋,袁細國,張軍英
(西安電子科技大學計算機學院,陜西西安 710071)
富集分析框架下的致病SNP位點識別
楊利英,殷黎洋,袁細國,張軍英
(西安電子科技大學計算機學院,陜西西安 710071)
針對復雜疾病致病單核苷酸多態(tài)性位點識別中單一方法的片面性問題,提出了基于富集分析的致病單核苷酸多態(tài)性位點識別方法.通過富集分析機制設(shè)計了一種集成學習框架,可將不同的方法有機結(jié)合以提升學習性能.基于此組合框架,將Relief F和CA趨勢檢驗進行了集成,在識別單個致病位點的同時兼顧位點之間的交互作用.在模擬數(shù)據(jù)集和真實數(shù)據(jù)集上進行了實驗研究,結(jié)果表明所提出的方法能顯著地提升致病單核苷酸多態(tài)性位點的識別性能,且所設(shè)計的組合框架具有良好的擴展性,可為其他方法的組合研究提供借鑒.
模式識別;集成學習;交互作用;富集分析;致病SNP位點識別
現(xiàn)代生物醫(yī)學研究證明,人類每種疾病都有相應的致病基因或易感基因,常見的復雜疾病發(fā)生過程則是相關(guān)基因與內(nèi)外環(huán)境相互作用的結(jié)果[1].2005年,《Science》上發(fā)表的關(guān)于年齡相關(guān)性黃斑變性的全基因組關(guān)聯(lián)分析(Genome-Wide Association Studies,GWAS)文章開啟了復雜疾病全基因組關(guān)聯(lián)分析的研究[2].盡管單位點單核苷酸多態(tài)性(Single Nucleotide Polymorphisms,SNP)的易感性分析已經(jīng)取得了相當多的成果,但是這些發(fā)現(xiàn)并不能完全解釋復雜疾病的遺傳機理,有待進一步的研究[3].多數(shù)基于單位點單核苷酸多態(tài)性分析的方法只關(guān)注位點對疾病的邊際效應,這樣與疾病有強關(guān)聯(lián)的單核苷酸多態(tài)性被認定為易感基因,而邊際效應較弱、但組合起來有較強致病作用的單核苷酸多態(tài)性卻很容易被忽略,因此極易導致假陽性的結(jié)果.越來越多的科學實驗表明,單核苷酸多態(tài)性交互作用在復雜疾病遺傳變異中扮演著重要角色[4-6].目前也有一些方法考慮了單核苷酸多態(tài)性間的交互作用,但是對于復雜疾病的研究,由于主效應和交互作用等各種疾病模型的疊加,使得使用單一方法難以精確定位致病單核苷酸多態(tài)性,因此出現(xiàn)了具有多樣性的集成方法.集成方法大多數(shù)都是針對特定的學習方法進行組合的.鑒于對不同的問題,特定的學習方法并不一定適合,使得現(xiàn)有方法的可擴展性受到限制.
針對上述問題,筆者提出了基于富集分析的致病單核苷酸多態(tài)性位點識別方法,即通過富集分析機制組合多種機器學習方法和統(tǒng)計學方法,以達到更為精準地識別致病單核苷酸多態(tài)性位點的目的.這種方法不僅兼顧了單個位點的主效應和交互作用,而且能根據(jù)需要調(diào)整參與組合的方法,具有很好的靈活性和可擴展性.
基因集富集分析(Gene Set Enrichment Analysis,GSEA)通過觀察基因集成員在整個基因列表中的聚集情況評價基因集合的有效性和合理性[7].基因集富集分析方法中一個重要的概念就是富集值(Enrichment Score,ES),富集值反映基因集中的基因在已排序全基因組上的分布情況.富集值大,表明基因集中的基因在已排序的全基因組頭部或者尾部集中分布,基因集與表型區(qū)分有較強的關(guān)聯(lián);富集值小,表明基因集中的基因在已排序的全基因組上分散分布,該基因集生物意義上的解釋性相對較差.許多學者針對富集分析進行了研究,提出了一些改進措施并對各種具體分析方法進行了實驗比較[8-9].當前已有研究將基因集富集分析方法用于分析單核苷酸多態(tài)性數(shù)據(jù),但都是將單核苷酸多態(tài)性數(shù)據(jù)映射到基因上,然后在基因集水平上進行分析,最終找到具有表達一致性的功能基因集[10].筆者提出的方法與前人研究的重要不同在于,基于富集分析機制將研究從基因數(shù)據(jù)拓展到單核苷酸多態(tài)性數(shù)據(jù),不僅關(guān)注單個單核苷酸多態(tài)性位點的致病效果,同時考慮所選擇的特定致病單核苷酸多態(tài)性集在整個單核苷酸多態(tài)性集合上的富集效果,根據(jù)富集結(jié)果評價所選致病單核苷酸多態(tài)性位點,為致病單核苷酸多態(tài)性位點的識別提供了一種新的思路.
2.1致病單核苷酸多態(tài)性位點識別
全基因組關(guān)聯(lián)分析發(fā)現(xiàn)的與復雜疾病相關(guān)的單核苷酸多態(tài)性位點中只有部分能夠增加復雜疾病的致病風險,但還有已被生物實驗證明與復雜疾病相關(guān)的單核苷酸多態(tài)性位點沒有識別出來,因此還存在著大量未被發(fā)現(xiàn)的致病單核苷酸多態(tài)性.為克服全基因組關(guān)聯(lián)分析在與復雜疾病相關(guān)的單核苷酸多態(tài)性位點識別上的不足,研究人員在方法層面上進行了深入的研究,提出許多方法[11].這些方法可概括為兩大類,即基于模型的方法和模型無關(guān)方法.基于模型的方法預先在基因組和表現(xiàn)型之間定義一種統(tǒng)計模型,然后擬合數(shù)據(jù)到假設(shè)的模型,得到顯著的單核苷酸多態(tài)性位點,但是該類方法在處理高維的全基因組關(guān)聯(lián)分析數(shù)據(jù)時面臨著“維數(shù)災難”問題.模型無關(guān)方法為了有效地處理高維單核苷酸多態(tài)性數(shù)據(jù),通常采用一些啟發(fā)式信息指導搜索,而不用提前對數(shù)據(jù)和模型作出假設(shè),該類方法只是通過統(tǒng)計技術(shù)測試每個可能存在交互作用的單核苷酸多態(tài)性組.從現(xiàn)有的研究資料來看,沒有某種單一的方法能準確識別復雜疾病相關(guān)的單核苷酸多態(tài)性位點.
Relief F和CA趨勢檢驗是兩種常用的單核苷酸多態(tài)性數(shù)據(jù)分析方法[12-13].筆者針對單一方法在識別復雜疾病相關(guān)單核苷酸多態(tài)性位點時的不足,基于富集分析的思想有效地組合了Relief F和CA趨勢檢驗兩種方法,用于致病單核苷酸多態(tài)性位點的識別.
2.2基于富集分析的集成方法識別致病單核苷酸多態(tài)性位點
基于富集分析集成的致病單核苷酸多態(tài)性位點識別方法首先用Relief F方法選擇潛在的致病單核苷酸多態(tài)性集合,然后利用CA趨勢檢驗對該單核苷酸多態(tài)性集在全基因組單核苷酸多態(tài)性中的富集效果進行分析評價,最后根據(jù)富集結(jié)果對兩種致病單核苷酸多態(tài)性位點識別方法進行組合,得到致病單核苷酸多態(tài)性位點.該方法的具體步驟如下.
步驟1 進行單核苷酸多態(tài)性集篩選.設(shè)類標簽集合C={c1,c2,…,cl},算法迭代次數(shù)為m,每次選擇的近鄰數(shù)為k.應用Relief F算法,每次從樣本集中隨機選擇一個樣本Ri,Ri的類標簽設(shè)為cclass(Ri),從與Ri樣本標簽相同的樣本中選擇k個近鄰樣本,記為H=(H1,H2,…,Hk),從與Ri不同類的樣本中根據(jù)其所屬類別ci(ci≠cclass(Ri))各選擇Ri的k個近鄰樣本,記為M(C)=(M1(C),M2(C),…,Mk(C)),按照式(1)迭代更新每個特征A的權(quán)重W[A],最終得到N個候選特征的權(quán)重向量W:
其中,p(c)指類別c的先驗概率(從訓練集中估計),函數(shù)fdiff(A,I1,I2)計算樣本I1和I2在特征A上值的差異,定義
其中,v(·,·)表示樣本在特征上的取值.
對權(quán)重向量W由大到小進行排序,取其前f個特征作為單核苷酸多態(tài)性集S,f是S的大小.
步驟2 進行全基因組單核苷酸多態(tài)性排序.運用CA趨勢檢驗對病例對照數(shù)據(jù)進行統(tǒng)計分析,如表1所示,B和b是一對等位基因,其中,B是風險等位基因,D和E分別是病例組和對照組的樣本大小,T為兩組樣本量的合計,di為病例組第i個基因型的樣本數(shù),ei為對照組第i個基因型的樣本數(shù),ti為第i個基因型的樣本數(shù).
表1 病例對照組數(shù)據(jù)的基因型分布
關(guān)聯(lián)分析如下:
其中,xi為第i個基因型的值,這樣得到樣本患病的概率隨著各特征中的風險等位基因B個數(shù)的增加而增加的趨勢顯著性值q.將N個候選特征按q值由小到大排序,得到列表L,每一特征與類別的相關(guān)性r取值為1-q.
步驟3 進行富集計算.運用富集分析機制,從列表L的第1個特征開始直到最后一個特征,逐個比對當前特征是否在單核苷酸多態(tài)性集合S中.如果第i個單核苷酸多態(tài)性位點gi存在于S中,則認為單核苷酸多態(tài)性位點gi被命中,于是Phit和Pmiss的計算式為
如果第i個單核苷酸多態(tài)性位點不存在于S中,則認為單核苷酸多態(tài)性位點gi未被命中,于是Phit和Pmiss的計算式為
上述公式中,p取1,r由步驟2得到.計算單核苷酸多態(tài)性位點集合S對應的富集值SES(S)=Phit-Pmiss,以及取得該值的特征點在列表L中的位置v,將(1-vN)作為列表L中的特征是否在集合S中的權(quán)值whit.其中,當p=0時,該統(tǒng)計量就退化為Kolmogorov-Smirnov統(tǒng)計量.當步移中遇到在S中的基因時,根據(jù)相關(guān)性增加富集得分;當遇到的基因不在S中時,減少富集得分.富集值就是整個步移過程中富集得分Phit-Pmiss與零的最大偏差,即絕對值最大的值.
步驟4 初始化N個特征的權(quán)重W為零,將L的前v個特征的序列號[1,v]歸一化到區(qū)間[1,f],然后逆序得到每個特征的新序列號x,從列表L的第一個特征到第v個特征,逐個比對當前特征是否在單核苷酸多態(tài)性集合S中.如果在,則將該特征的權(quán)重增加whitx;否則,將該特征的權(quán)重增加(1-whit)x.
步驟5 將Relief F方法選擇的f個特征的前n個特征的序列號[1,n]歸一化到區(qū)間[1,f],然后逆序得到每個特征的新序列號y.對這n個特征,由前到后逐個對比其是否屬于L的前v個特征,若不屬于,則將該特征的權(quán)重增加(1-whit)y.
步驟6 將最終得到的特征權(quán)重列表W按權(quán)重值由大到小進行排序,得到最終的單核苷酸多態(tài)性特征排序結(jié)果.
在模擬數(shù)據(jù)集和真實數(shù)據(jù)集上進行了實驗研究,以每次實驗中各方法對致病單核苷酸多態(tài)性位點的識別率為指標比較各方法的性能.
3.1模擬數(shù)據(jù)集上的實驗結(jié)果及分析
模擬數(shù)據(jù)集取自網(wǎng)絡公開的數(shù)據(jù)(http://compbio.ddns.comp.nus.edu.sg/~wangyue/).實驗所用的模擬數(shù)據(jù)集如表2所示.其中,模擬數(shù)據(jù)集3是為了擴大涵蓋范圍所設(shè)計的,共包含18個數(shù)據(jù)集,其特點是:各特征具有主效應,每個數(shù)據(jù)集有2000個樣本,最小等位基因頻率值分別為0.2和0.5的數(shù)據(jù)集各9個,每9個中主效應分別為0.2、0.3、0.5的數(shù)據(jù)集各3個,所有數(shù)據(jù)的連鎖不平衡值都為1.模擬數(shù)據(jù)集1和模擬數(shù)據(jù)集4的各特征沒有主效應,只存在交互作用.模擬數(shù)據(jù)集2和模擬數(shù)據(jù)集3的各特征同時具有主效應和交互作用.
表2 模擬數(shù)據(jù)集
筆者提出的基于富集分析集成的致病單核苷酸多態(tài)性位點方法Relief F? CA、Relief F方法、CA趨勢檢驗方法在模擬數(shù)據(jù)集1、模擬數(shù)據(jù)集2、模擬數(shù)據(jù)集3上的實驗結(jié)果分別如圖1~3所示.從圖中可以看出,組合方法相比單一方法具有更好的識別性能,對于有主效應的數(shù)據(jù)集2和數(shù)據(jù)集3,CA趨勢檢驗對致病單核苷酸多態(tài)性的識別率高于Relief F方法,而對于不存在主效應的數(shù)據(jù)集1,CA趨勢檢驗的優(yōu)勢并不明顯.
圖1 模擬數(shù)據(jù)集1上3種方法的性能對比
為驗證筆者所提組合框架的有效性,證明實驗結(jié)果并不依賴于參與集成的方法,在模擬數(shù)據(jù)集3上應用文獻中的經(jīng)典方法SVM?RFE和Fscore進行組合[14],得到在排名前200的單核苷酸多態(tài)性中致病單核苷酸多態(tài)性位點的識別率.排名前200的單核苷酸多態(tài)性中SVM?RFE和Fscore的識別率只有70%,而筆者提出的組合方法在前120個單核苷酸多態(tài)性中致病單核苷酸多態(tài)性的識別率已達到100%.對于只存在交互作用、沒有主效應的數(shù)據(jù)集,為充分利用Relief F對交互作用的高識別能力,將Relief F和CA趨勢檢驗方法互換,即由Relief F方法得到排序列表L,由CA趨勢檢驗得到單核苷酸多態(tài)性集S,在模擬數(shù)據(jù)集4上進行了實驗.結(jié)果表明,筆者所提的組合方法相比單一方法有更好的識別率,也驗證了Relief F相對于CA趨勢檢驗有更好的對交互作用的識別能力.
圖2 模擬數(shù)據(jù)集2上3種方法的性能對比
圖3 模擬數(shù)據(jù)集3上3種方法的性能對比
3.2真實數(shù)據(jù)集上的實驗結(jié)果及分析
實驗所用的真實數(shù)據(jù)是AMD(Age-related Macular Degeneration)數(shù)據(jù)[2].該數(shù)據(jù)集包含96個患病樣本和50個正常樣本,對初始的103 611個單核苷酸多態(tài)性特征進行預處理,去掉缺失值大于5和不符合哈代溫伯格定律的特征,最后得到93 897個特征.
為得到各種方法的識別率,對146個樣本進行置換操作,生成20個數(shù)據(jù)集,在這20個數(shù)據(jù)集上進行實驗.取公認的3個致病單核苷酸多態(tài)性進行驗證,分別為rs380390、rs1329428、rs10507949,得到在排名前20的單核苷酸多態(tài)性中致病單核苷酸多態(tài)性的識別率,如圖4所示.從圖中可以看出,單一方法的性能很不理想,尤其是Relief F算法,直到排名前20個單核苷酸多態(tài)性,Relief F對致病單核苷酸多態(tài)性的識別率僅為0.4.在排名前20的單核苷酸多態(tài)性中,筆者提出方法對致病單核苷酸多態(tài)性的發(fā)現(xiàn)率優(yōu)于Relief F和CA,表明該組合方法能夠提升致病單核苷酸多態(tài)性的發(fā)現(xiàn)率.在AMD數(shù)據(jù)集上用筆者提出的富集分析集成方法得到的單核苷酸多態(tài)性富集結(jié)果如圖5所示,圖中單核苷酸多態(tài)性集合的富集程度進一步驗證了筆者提出方法的有效性.
圖4 真實數(shù)據(jù)集AMD上的識別率比較
圖5 真實數(shù)據(jù)集AMD上單核苷酸多態(tài)性的富集分布
AMD數(shù)據(jù)實驗結(jié)果排名前10的單核苷酸多態(tài)性如表3所示.可以看出,組合方法中3個致病單核苷酸多態(tài)性排在前3名,即不僅找到了rs380390,rs1329428,rs10507949這3個致病單核苷酸多態(tài)性,還得到了一些新的潛在致病單核苷酸多態(tài)性,如rs7104698和rs10508731等,可為生物實驗研究提供參考和借鑒.
表3 AMD數(shù)據(jù)實驗排名前10的單核苷酸多態(tài)性位點
基于富集分析的思想,筆者提出了一種基于富集分析機制的集成學習框架,并將其應用于致病單核苷酸多態(tài)性位點的識別.在保證數(shù)據(jù)廣度和方法廣度的前提下,運用模擬數(shù)據(jù)集和真實數(shù)據(jù)集進行了大量的實驗研究和分析.實驗結(jié)果表明了所提方法的有效性,同時也證明了所設(shè)計框架的靈活性和魯棒性.但對于富集分析,筆者僅使用了富集值的位置信息,因此該集成框架仍有很大的拓展空間.后續(xù)研究考慮直接使用富集值進行集成學習,并且結(jié)合多種特征選擇方法的特點進行多種方法的組合.
[1]CORDELL H J.Detecting Gene-gene Interactions That Underlie Human Diseases[J].Nature Reviews Genetics,2009,10(6):392-404.
[2]KLEIN R J,ZEISS C,CHEW E Y,et al.Complement Factor H Polymorphism in Age-related Macular Degeneration [J].Science,2005,308(5720):385-389.
[3]DONNELLY P.Progress and Challenges in Genome-wide Association Studies in Humans[J].Nature,2008,456 (7223):728-731.
[4]SHANG J,ZHANG J,LEI X,et al.EpiSIM:Simulation of Multiple Epistasis,Linkage Disequilibrium Patterns and Haplotype Blocks for Genome-wide Interaction Analysis[J].Genes&Genomics,2013,35(3):305-316.
[5]JAMES C L,MARION E L,CARL A A,et al.Human SNP Links Differential Outcomes in Inflammatory and Infectious Disease to a FOXO3-regulated Pathway[J].Cell,2013,155(1):57-69.
[6]AMRITA S C,CHING L H,CHIEN C C,et al.Summarizing Techniques That Combine Three Non-parametric Scores to Detect Disease-associated 2-way SNP-SNP Interactions[J].Gene,2014,533(1):304-312.
[7]SUBRAMANIAN A,TAMAYO P,MOOTHA V K,et al.Gene Set Enrichment Analysis:a Knowledge-based Approach for Interpreting Genome-wide Expression Profiles[J].Proceedings of the National Academy of Sciences,2005,102(43):15545-15550.
[8]KWON J S,KIM J,NAM D,et al.Performance Comparison of Two Gene Set Analysis Methods for Genome-wide Association Study Results GSA-SNP vs i-GSEA4GWAS[J].Genomics&Informatics,2012,10(2):123-127.
[9]張威,張揚,曹文君,等.GAGE和GSEA在基因集研究中的有效性比較[J].現(xiàn)代生物醫(yī)學進展,2013(10): 1849-1865. ZHANG Wei,ZHANG Yang,CAO Wenjun,et al.Comparative Study of GAGE and GSEA in Gene-set Analysis[J]. Progress in Modern Biomedicine,2013(10):1849-1865.
[10]BROOKE L F,JOANNA M B.Gene Set Analysis of SNP Data:Benefits,Challenges,and Future Directions[J]. European Journal of Human Genetics,2011,19(8):837-843.
[11]BOTTA V,LOUPPE G,GEURTS P,et al.Exploiting SNP Correlations within Random Forest for Genome-wide Association Studies[J].PLoS One,2014,9(4):e93379.
[12]KONONENKO I.Estimation Attributes:Analysis and Extensions of RELIEF[C]//Lecture Notes in Artificial Intelligence:784. Berlin:Springer-Verlag,1994:171-182.
[13]FREIDLIN B,ZHENG G,LI Z,et al.Trend Tests for Case-control Studies of Genetic Markers:Power,Sample Size and Robustness[J].Human Heredity,2002,53(3):146-152.
[14]GUYON I,WESTON J,BARNHILL S,et al.Gene Selection for Cancer Classification Using Support Vector Machines [J].Machine Learning,2002,46(1/2/3):389-422.
(編輯:郭 華)
Identifying pathogenic SNP loci by enrichment analysis
YANG Liying,YIN Liyang,YUAN Xiguo,ZH ANG Junying
(School of Computer Science and Technology,Xidian Univ.,Xi’an 710071,China)
Aiming at the recognition of pathogenic SNP loci for complex diseases,this paper proposes an ensemble learning frame via the enrichment analysis mechanism,which can combine different approaches efficiently.Based on the proposed frame,Relief-F and CA trend testing are combined to identify diseaserelated SNP loci.The new approach can identify not only the single pathogenic site,but also the interaction between the locus at the same time.Experiments have been carried both on simulated data and on real data. Experimental results show that the proposed approach can significantly improve the recognition performance of pathogenic SNP loci for complex diseases.The proposed ensemble learning framework could provide reference for combining different approaches.
pattern recognition;ensemble learning;interaction;enrichment analysis;recognition of pathogenic single nucleotide polymorphisms loci
TP181
A
1001-2400(2016)03-0043-06
10.3969/j.issn.1001-2400.2016.03.008
2015-01-21
時間:2015-07-27
陜西省自然科學基金資助項目(2015JM6275);國家自然科學基金資助項目(61201312);中央高?;究蒲袠I(yè)務費專項資金資助項目(K5051303017;JB140306)
楊利英(1974-),女,副教授,E-mail:yangliying1208@163.com.
http://www.cnki.net/kcms/detail/61.1076.TN.20150727.1952.008.html