• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于平均影響值的SVM在遺傳數(shù)據(jù)疾病分類和特征提取中的應用*

    2019-07-10 07:01:26山西醫(yī)科大學衛(wèi)生統(tǒng)計教研室030001
    中國衛(wèi)生統(tǒng)計 2019年3期
    關鍵詞:遺傳位點準確率

    山西醫(yī)科大學衛(wèi)生統(tǒng)計教研室(030001)

    張陽陽 曹紅艷 武淑琴△

    【提 要】 目的 探討基于平均影響值(MIV)的支持向量機(SVM)在遺傳數(shù)據(jù)疾病分類預測和變量篩選中的應用,為遺傳數(shù)據(jù)的疾病分類與特征提取方面提供方法學參考。方法 以 GAW18(genetic analysis workshop 18)數(shù)據(jù)為例,采用基于MIV的SVM建立預測模型,并和logistic回歸模型、SVM、多層感知機和決策樹分類模型進行比較分析,評價基于MIV的SVM預測分類和變量篩選效果。結果 經過平均影響值的支持向量機算法處理后,六個SNPs位點(13_28567172、3_127394820、1_1658093、9_123969834、1_174996637、17_17498492)組合的變量子集,獲得78.125%的分類準確率,明顯優(yōu)于其他分類模型。結論 基于MIV的SVM能比較有效的在實現(xiàn)遺傳數(shù)據(jù)變量篩選的同時提高分類預測能力,避免了變量間的交互作用,為探索各種疾病發(fā)病機制和尋找易感SNPs位點提供線索,具有一定的研究和應用價值。

    隨著DNA測序技術的發(fā)展和高通量測序的出現(xiàn),后續(xù)產生的大量遺傳數(shù)據(jù)對統(tǒng)計分析方法提出新的要求。單核苷酸多態(tài)性(single nucleotide polymorphisms,SNPs)[1]是基因組水平上單個核苷酸變異所引起的DNA序列多態(tài)性,在人類基因組中廣泛存在,估計其總數(shù)可達到300萬個甚至更多[2]。本文擬采用遺傳分析工作組18(genetic analysis workshop 18,GAW18)中134個相互獨立個體的全基因組測序數(shù)據(jù),每個樣本擁有較多SNPs,高維度和較小的樣本量給疾病分類和特征提取帶來了極大的挑戰(zhàn)。而變量降維和篩選常見的方法有主成分分析、Wrapper法[3]、filter法[3]、逐步多元線性回歸[4]和隨機森林[5]等。本文采用Wrapper法的思想以分類的精度為指標,在完成變量篩選的同時獲得較高的分類準確率。由于該方法的特征尋找依賴于分類器的性能,所以合適分類模型的選擇尤為重要。

    針對分類模型的選擇問題,最初采用由Vapnik于1968年提出的支持向量機(support vector machine,SVM)[6]。支持向量是一種機器學習算法,廣泛應用于數(shù)據(jù)挖掘、文本分類和圖像識別等多個方面。該算法以統(tǒng)計學習理論為基礎,結構風險最小化為原則,既考慮漸進性能的要求,又在有限的信息條件下追求最優(yōu)的結果,是一種具有堅實理論基礎的小樣本學習方法[7]。該算法的判別函數(shù)最終由少數(shù)幾個支持向量所決定,在某種意義上避免了“維數(shù)災難”。所以SVM在面對小樣本和高維度數(shù)據(jù)時有較好的優(yōu)越性。其理論基礎和算法本質決定了該算法在生物遺傳數(shù)據(jù)上良好的適應性。但由于SVM是一種將全部變量納入模型進行訓練和預測的機器學習方法,無法對變量進行特征篩選。因此需要尋找合適的方法來解決該問題。平均影響值(mean impact value,MIV)被認為是神經網(wǎng)絡中評價變量相關性最好的指標之一[8]。故考慮將SVM和MIV結合起來,通過評價各個變量相對結局變量的影響程度,找到對結果有較大影響的自變量,繼而實現(xiàn)使用SVM進行變量篩選的過程。因此,本文提出一種基于平均影響值的支持向量機的方法,能相對有效的解決生物遺傳數(shù)據(jù)的特征提取問題。使用較少的變量構建更好的分類預測模型,在提高分類預測模型準確率的同時實現(xiàn)了變量篩選。本文以GAW18數(shù)據(jù)為例,采用基于平均影響值的支持向量機進行分析,一方面為遺傳數(shù)據(jù)的分析和處理提供方法學參考。另一方面,對特征變量的提取有助于使人們的注意力集中到少數(shù)的變量上,使得實驗研究更具有針對性。

    原理與方法

    圖1 支持向量機原理示意圖

    平均影響值(mean impact value,MIV)是評價各變量對結局變量影響程度的重要指標,其符號代表相關的方向,絕對值大小代表影響的程度[12]。MIV的具體做法為:構建一個SVM模型,再將SNPs的訓練樣本p的每個變量在原來的基礎上分別加或減某個值構成兩個新的訓練樣本P1、P2,將P1、P2作為測試集帶入訓練好的模型進行預測,得到兩個結果A1、A2,兩者的差值就是該變量變動后對輸出產生的影響變化值(impact value,IV)。再將IV按照例數(shù)進行平均得到該自變量SNP相對于因變量高血壓的MIV。計算出每一個SNPs變量相對高血壓的MIV,按照絕對值降序排列,然后依次去除對結局變量影響最小的若干個SNPs變量,剩下的變量作為SNPs變量子集,分析其對樣本的分類能力,從中尋找具有最小SNPs數(shù)和最高分類率的候選子集。

    實例分析

    本研究通過對GAW18數(shù)據(jù)進行分析和研究,探尋高血壓發(fā)生和SNPs位點間的關系,將有助于利用遺傳數(shù)據(jù)從SNPs的角度對高血壓患者進行篩查和預測。并提供一些可能與高血壓發(fā)生相關的候選SNPs位點。

    1.變量選擇和樣本確定

    本次研究采用的數(shù)據(jù)源于GAW18,一個國際上公開的用于研究稀有變異關聯(lián)方法的模擬數(shù)據(jù)平臺,研究者針對GAW的組織者所發(fā)布的遺傳數(shù)據(jù)進行分析。該數(shù)據(jù)包括20個墨西哥裔美國家庭的1043個個體的全基因組測序數(shù)據(jù)(whole genome sequencing data,WGS)及其相對應的縱向血壓表型數(shù)據(jù)。

    GAW18數(shù)據(jù)僅提供了奇數(shù)染色體遺傳數(shù)據(jù),包括四種數(shù)據(jù)類型:基因型數(shù)據(jù)(chrN-geno.csv.gz),GWAS數(shù)據(jù)(chrN-geno.csv.gz),原始測序數(shù)據(jù)(chrN-seq.vcf.gz)以及變異劑量數(shù)據(jù)(chrN-dose.csv.gz)。本文針對變異劑量數(shù)據(jù)(chrN-dose.csv.gz)進行分析。GAW18的表型數(shù)據(jù)包括真實測量數(shù)據(jù)和模擬數(shù)據(jù)。GAW18的“GAW18-TheAnswers”中提供了具體的模擬研究設置情況,包括主要的效應基因和功能SNPs。本研究將信息完整的134個無親緣關系、互不相關的個體作為研究對象。高血壓的診斷標準為收縮壓(SBP)>140mmHg,舒張壓(DBP)>90mmHg,測量期間使用高血壓藥物也診斷為高血壓。

    由于四次血壓測量中第一次測量缺失最少,因此選擇第一次測量結果作為結局變量。自變量則選擇影響SBP和DBP的SNPs位點。前十五個分別影響收縮壓和舒張壓的SNPs位點中共有7個SNPs的位點同時影響SBP和DBP。將其合并后總共23個SNPs位點作為自變量。利用MATLAB軟件實現(xiàn),采用基于平均影響值的支持向量機對該高血壓數(shù)據(jù)進行分析。(表1)

    表1 影響SBP和DBP的23個SNPs位點

    2.建立模型和變量篩選

    針對與高血壓相關性較強的23個SNP位點進行進一步篩選以獲得更好的自變量期望維數(shù)。采用MIV與SVM相結合的方法來進一步的篩選SNPs信息。

    從樣本集中隨機抽取70個高血壓患者和30個非高血壓患者作為訓練集,剩余樣本作為測試集。訓練集和測試集樣本量的比例約為3∶1。使用訓練集對模型進行訓練和預測,并記錄測試集的分類準確率。把所有的SNPs納入作為自變量,高血壓結局作為因變量進行模型訓練,使用10-折交叉驗證進行模型尋優(yōu),尋找到最佳參數(shù),使用訓練好的模型對預測樣本進行預測,記錄分類準確率。按照變量的重要程度進行排序,得到結果見表2。

    表2 不同SNPs組合情況下基于MIV的SVM方法的實驗結果

    從表2中可以看到,當變量個數(shù)為6時,預測樣本的分類準確率最高為78.125%,高于其他自變量組合的分類準確率。這6個SNPs可能與高血壓疾病相關,它們的信息如表3所示。

    表3 最優(yōu)的基因組合的SNPs位點

    logistic回歸模型采用二分類非條件logistic回歸建立模型,進入變量的方法為逐步篩選。支持向量機的方法,將樣本劃分為訓練集和測試集,經驗證核函數(shù)選擇RBF時分類準確率最高,為71.88%。神經網(wǎng)絡采用多層感知機,其識別精度為68.00%。決策樹模型采用常用的C4.5建立模型,建立好的模型精度為34.37%。表4給出了針對高血壓的SNP表達數(shù)據(jù)采用不用方法進行比較的結果。

    表4 針對高血壓SNP數(shù)據(jù)的不同分類方法的結果比較

    比較發(fā)現(xiàn),基于平均影響值的支持向量機相較傳統(tǒng)的logistic回歸能更好的篩選變量并有更高的識別精度。相比其他機器學習算法在分類準確率上也有較大提高。本文提出的基于MIV的SVM方法與其他方法相比,具有較好的變量篩選能力和預測效果。

    討 論

    基于MIV的SVM方法通過考慮不同變量的改變對結局變量的影響,同時實現(xiàn)了對遺傳數(shù)據(jù)的特征提取和模型構建。本文以高血壓遺傳數(shù)據(jù)的SNPs位點分析為例,識別了與高血壓的發(fā)生可能相關的SNPs位點,并與其他方法進行了比較,說明基于MIV的SVM在生物遺傳數(shù)據(jù)的分析中有較好的變量篩選和預測能力。

    本文通過基于平均影響值的支持向量機的機器學習算法,構建不同的SNPs集合,避免了SNPs位點間的交互作用。該算法在構建了一個利用SNP信息數(shù)據(jù)對遺傳數(shù)據(jù)進行預測分類模型的同時實現(xiàn)了變量的篩選,即為疾病的發(fā)病機制提供線索,又為疾病易感SNPs的研究提供了候選位點。此外,通過相關生物醫(yī)學方面的文獻發(fā)現(xiàn)本文獲得特征SNP突變位點與高血壓存在一定聯(lián)系:基因RAI1(retinoic acid induced 1)在基因的表達和轉錄過程中起著重要作用[13],與體內所有的生物化學功能相關;基因TNN(tenascin N)與細胞的生長、移行相關;基因GSN(gelsolin)與肌動蛋白的相關活動有關[14],通過切斷和封蓋調節(jié)動態(tài)肌動蛋白絲組織,而肌動蛋白與血管收縮的功能密切相關;基因SLC35E2(solute carrier family35,memberE2)與離子的跨膜運輸有關,鈉離子和鉀離子對高血壓的影響廣為人知;基因FLT3(fms-related tyrosine kinase3)與細胞的增殖和凋亡有關。以上結果均顯示篩選出的SNPs位點與高血壓有一定的相關性,有可能是高血壓發(fā)生的中間環(huán)節(jié)。需要指出的是,基于MIV的SVM篩選出的位點,仍然需要進一步的生物學方面的實驗驗證。

    總之,基于平均影響值的支持向量機不但考慮到生物遺傳數(shù)據(jù)的分析難點,而且對高維變量進行了降維,在較低的維度內獲得了分類準確率更高的分類預測模型,是一種針對遺傳數(shù)據(jù)比較有力的分析方法。一方面實現(xiàn)了疾病在SNPs層面的預測和分類模型的構建;另一方面,將人們的注意力從大量的遺傳變量轉移到較少的變量上,為科學研究提供方向?;贛IV的SVM為探索疾病發(fā)生時體內的生物學過程和病理機制提供遺傳方面的線索,將有可能在日益繁復的遺傳數(shù)據(jù)分析中發(fā)揮重要作用。

    猜你喜歡
    遺傳位點準確率
    非遺傳承
    鎳基單晶高溫合金多組元置換的第一性原理研究
    上海金屬(2021年6期)2021-12-02 10:47:20
    CLOCK基因rs4580704多態(tài)性位點與2型糖尿病和睡眠質量的相關性
    乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
    健康之家(2021年19期)2021-05-23 11:17:39
    不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
    2015—2017 年寧夏各天氣預報參考產品質量檢驗分析
    還有什么會遺傳?
    還有什么會遺傳
    還有什么會遺傳?
    二項式通項公式在遺傳學計算中的運用*
    生物學通報(2019年3期)2019-02-17 18:03:58
    广宁县| 蒲城县| 郑州市| 汨罗市| 边坝县| 龙南县| 浦江县| 六盘水市| 仁布县| 平南县| 博爱县| 民乐县| 潜江市| 尉犁县| 鄂伦春自治旗| 台州市| 义马市| 惠水县| 叶城县| 紫云| 隆尧县| 苏尼特左旗| 鲁山县| 衡阳县| 四会市| 广灵县| 榆社县| 翼城县| 阿鲁科尔沁旗| 邛崃市| 华容县| 原阳县| 沛县| 荣昌县| 龙胜| 景洪市| 韶山市| 龙里县| 芒康县| 嵊泗县| 龙海市|