• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于PCA挖掘的SLE疾病的數(shù)據(jù)相關(guān)性研究

      2018-01-02 08:44:34魏汝哲王劍平歐陽(yáng)鑫楊曉洪車國(guó)霖
      軟件 2017年12期
      關(guān)鍵詞:原始數(shù)據(jù)降維理工大學(xué)

      魏汝哲,王劍平,付 萍,張 果,歐陽(yáng)鑫,楊曉洪,車國(guó)霖

      (1. 昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500;2. 昆明醫(yī)科大第二附屬醫(yī)院 風(fēng)濕免疫科,云南 昆明 650500)

      基于PCA挖掘的SLE疾病的數(shù)據(jù)相關(guān)性研究

      魏汝哲1,王劍平1,付 萍2,張 果1,歐陽(yáng)鑫1,楊曉洪1,車國(guó)霖1

      (1. 昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500;2. 昆明醫(yī)科大第二附屬醫(yī)院 風(fēng)濕免疫科,云南 昆明 650500)

      本文針對(duì) SLE患者并發(fā)繼發(fā)性腎炎發(fā)病原因復(fù)雜多樣、影響因素眾多的問題,提出了一種主成分分析降維算法,用于分析這些數(shù)據(jù),找出最相關(guān)指標(biāo)及相關(guān)規(guī)律。運(yùn)用 python軟件運(yùn)行主成分分析算法的程序,降維得出影響SLE患者并發(fā)繼發(fā)性腎炎主要指標(biāo)。結(jié)果表明,利用主成分分析算法可以找出影響SLE患者并發(fā)繼發(fā)性腎炎主要指標(biāo),為診治提供科學(xué)依據(jù)。

      SLE患者并發(fā)繼發(fā)性腎炎,主成分分析(pca),降維

      0 引言

      隨著信息時(shí)代的到來(lái), 數(shù)據(jù)挖掘被越來(lái)越多地應(yīng)用于臨床實(shí)踐。利用信息技術(shù),醫(yī)療記錄和隨訪數(shù)據(jù)可以更有效地被存儲(chǔ)和提取。同時(shí),從醫(yī)學(xué)數(shù)據(jù)中尋找潛在的關(guān)系或規(guī)律,從而獲得有效的對(duì)病人進(jìn)行診斷、治療的知識(shí);增加對(duì)疾病的預(yù)測(cè)準(zhǔn)確性,在早期發(fā)現(xiàn)疾病,提高治愈率。

      主成分分析在醫(yī)療方面主要應(yīng)用于中藥的成分吸收的藥效,任衛(wèi)高等在主成分分析用于清肺消痤凝膠體外經(jīng)皮滲透的研究[1]中,主成分分析法可以較全面的反應(yīng)接受液中藥物的信息,以此建立的評(píng)價(jià)方法可準(zhǔn)確的優(yōu)選出透皮吸收促進(jìn)劑,并為后續(xù)中藥復(fù)方經(jīng)皮給藥提供了可借鑒的研究思路。張衛(wèi)國(guó)等在基于PCA多特征融合的肝臟B超臨床醫(yī)學(xué)圖像識(shí)別研究與實(shí)現(xiàn)研究[2]中,針對(duì)任何單一特征都不能完整地表示醫(yī)學(xué)圖像的信息,提取醫(yī)學(xué)圖像的顏色特征、紋理特征以及區(qū)域形狀特征,更多地保留圖像的各種信息。并對(duì)提取的特征利用主成分分析(PCA)方法進(jìn)行特征級(jí)的數(shù)據(jù)融合。

      系統(tǒng)性紅斑狼瘡(Systemic Lupus Erythematosus,SLE)是一種臨床表現(xiàn)涉及多種器官、多個(gè)系統(tǒng)受損的慢性系統(tǒng)性自身性免疫性疾病,其具有臨床表現(xiàn)復(fù)雜多樣,輕重緩急不一,免疫調(diào)節(jié)功能紊亂,血清中含有以抗核抗體為主的多種致病性自身抗體,病程多呈現(xiàn)出病情緩解和急性發(fā)作交替等特點(diǎn)[3-4]。SLE是一種育齡期女性好發(fā)、多臟器累及的自身免疫性疾病。狼瘡性腎炎(LN)是指在SLE的基礎(chǔ)上有腎臟疾病臨床表現(xiàn)和(或)伴有腎功能異常,或僅在腎活檢時(shí)發(fā)現(xiàn)有腎小球腎炎病變的系統(tǒng)性紅斑狼瘡患者。LN實(shí)際上是一種腎病,即病人的腎臟器官發(fā)生的病變,但是當(dāng)這種腎病和SLE結(jié)合在一起的時(shí)候就變成了一種非常難以診斷同時(shí)又難以治療的繼發(fā)性疾病[5-7]。LN是SLE繼發(fā)性疾病中發(fā)病率最高的,同時(shí)由于其發(fā)病原因復(fù)雜多樣、影響因素眾多而變得非常難以確診。因此,尋找影響 LN的主要指標(biāo),對(duì) LN疾病的診斷具有非常重要的醫(yī)學(xué)意義。

      PCA是一種掌握主要矛盾的統(tǒng)計(jì)分析方法 ,能夠通過簡(jiǎn)化數(shù)據(jù)(即用較少的綜合指標(biāo)代替原來(lái)具有一定相關(guān)性的較多的指標(biāo))來(lái)反映原來(lái)多變量的大部分信息。本文從昆明醫(yī)學(xué)院第二附屬醫(yī)院風(fēng)濕免疫科近10年關(guān)于系統(tǒng)性紅斑狼瘡的病例中,提取出了758個(gè)已確診患有SLE并發(fā)腎炎的病例。由于該病是SLE繼發(fā)性疾病中發(fā)病率最高的,同時(shí)由于其發(fā)病原因復(fù)雜多樣、影響因素眾多而變得非常難以醫(yī)治,而且每個(gè)病人的整理病歷有280個(gè)指標(biāo),醫(yī)生很難從中挑選出比較重要的指標(biāo)對(duì)病人進(jìn)行醫(yī)治,對(duì)病人的治療造成很大的困難。

      本文通過運(yùn)用 pca降維方法,對(duì)病人的指標(biāo)數(shù)據(jù)進(jìn)行降維,通過降維來(lái)尋找影響LN的主要指標(biāo),找出的指標(biāo)來(lái)對(duì)醫(yī)生提供幫助制定治療方案。

      1 主成分分析算法(pca)概述

      主成分分析(Principal Component Analysis, PCA)是一種常用的數(shù)據(jù)分析方法。PCA通過線性變換將原始數(shù)據(jù)變換為一組各維度線性無(wú)關(guān)的表示,可用于提取數(shù)據(jù)的主要特征分量,常用于高維數(shù)據(jù)的降維。在PCA中,數(shù)據(jù)從原來(lái)的坐標(biāo)系轉(zhuǎn)換到了新的坐標(biāo)系,新坐標(biāo)系的選擇是由數(shù)據(jù)本身決定的。第一個(gè)新坐標(biāo)軸選擇的是原始數(shù)據(jù)中方差最大的方向,第二個(gè)新坐標(biāo)軸的選擇和第一個(gè)新坐標(biāo)軸正交而且具有最大方差的方向。該過程一直重復(fù),重復(fù)次數(shù)為原始數(shù)據(jù)中特征的數(shù)目。我們會(huì)發(fā)現(xiàn),大部分方差都包含在最前面的幾個(gè)新坐標(biāo)軸中。因此我們可以忽略余下的坐標(biāo)軸,即對(duì)數(shù)據(jù)進(jìn)行了降維處理。

      設(shè)F1表示原變量的第一個(gè)線性組合所形成的主成分指標(biāo),即由數(shù)學(xué)知識(shí)可知,每一個(gè)主成分所提取的信息量可用其方差來(lái)度量,其方差 V ar(F1) 越大,表示 F1包含的信息越多。常常希望第一主成分 F1所含的信息量最大,因此在所有的線性組合中選取 F1應(yīng)該是的所有線性組合中方差最大的,故稱 F1為第一主成分。如果第一主成分不足以代表原來(lái)p個(gè)指標(biāo)的信息,再考慮選取第二個(gè)主成分指標(biāo) F2,為有效地反應(yīng)原信息, F1已有的信息就不需要再出現(xiàn)在 F2中,即 F2是與 F1不相關(guān)的 X1, X2,… ,Xp的所有線性組合中方差最大的,故稱 F2為第二主成分,依此類推構(gòu)造出的為原變量指標(biāo)第一、第二、…、第m個(gè)主成分。

      根據(jù)以上分析得知:

      (1) Fi與 Fj互不相關(guān),即 C ov( Fi, Fj) = 0

      2 基于PCA的sle的數(shù)據(jù)挖掘

      2.1 實(shí)驗(yàn)環(huán)境

      本文實(shí)驗(yàn)中所用的計(jì)算機(jī)是 Intel (R) Pentium(R) CPU G2020 @ 2.90 GHz,8 GB內(nèi)存,500 GB硬盤,Windows操作系統(tǒng)。在python環(huán)境下實(shí)現(xiàn)實(shí)驗(yàn)。

      2.2 數(shù)據(jù)來(lái)源及預(yù)處理

      本文從昆明醫(yī)學(xué)院第二附屬醫(yī)院風(fēng)濕免疫科近10年關(guān)于系統(tǒng)性紅斑狼瘡的病例中,提取出758個(gè)已確診患有SLE并發(fā)腎炎的病例。每個(gè)病人的整理病歷有280個(gè)指標(biāo),但是該數(shù)據(jù)包含有很多的缺失值。處理數(shù)據(jù)中的缺失值,我們有一些可選的做法:1.使用可用特征的均值來(lái)填補(bǔ)缺失值;2.使用特殊值來(lái)填補(bǔ)缺失值,如-1;3.忽略有缺失值的樣本。在280個(gè)指標(biāo)里幾乎所有的樣本都有缺失值,因此去除不完整的樣本不太現(xiàn)實(shí)。在后面的算法中要進(jìn)行去均值化,所以也沒有采取特征的均值來(lái)填補(bǔ)缺失值。這里選擇實(shí)數(shù)0來(lái)替換所有的缺失值。

      本文在實(shí)驗(yàn)仿真中使用了 python第三方庫(kù)numpy,由于每組數(shù)據(jù)數(shù)值差異較大,有可能影響預(yù)測(cè)效果,因此需要對(duì)數(shù)據(jù)進(jìn)行歸一化處理,使每組數(shù)據(jù)的參數(shù)都在 0~1 之間。

      2.3 pca降維

      用代碼實(shí)現(xiàn)pca降維的流程圖如下:

      圖1 pca降維流程圖Fig.1 Pca dimension reduction flow chart

      Python代碼如下:

      def loadDataSet(fileName, delim=' '):

      fr = open(fileName)

      stringArr = [line.strip().split(delim) for line in fr.readlines()]

      datArr = [map(float,line) for line in stringArr]

      return mat(datArr)

      def pca(dataMat, topNfeat=9999999):

      meanVals = mean(dataMat, axis=0)

      meanRemoved = dataMat - meanVals

      covMat = cov(meanRemoved, rowvar=0)

      eigVals,eigVects = linalg.eig(mat(covMat))

      eigValInd = argsort(eigVals)

      eigValInd = eigValInd[:-(topNfeat+1):-1]

      redEigVects = eigVects[:,eigValInd1]

      lowDDataMat = meanRemoved * redEigVects

      reconMat = (lowDDataMat * redEigVects.T)+ meanVals

      return lowDDataMat, reconMat,eigVals,eigValInd

      loadDataSet()函數(shù)是用來(lái)將數(shù)據(jù)轉(zhuǎn)換為 pca()函數(shù)可以操作的數(shù)據(jù)集。

      pca()函數(shù)有兩個(gè)參數(shù):第一個(gè)參數(shù)是調(diào)用loadDataSet()后得到的數(shù)據(jù)集,第二個(gè)參數(shù)topNfeat則是一個(gè)可選參數(shù),即應(yīng)用的N個(gè)特征值。如果不指定 topNfeat的值,那么函數(shù)將會(huì)返回前 9999999個(gè)特征值,或者原始數(shù)據(jù)中的全部的特征。這里我們根據(jù)和醫(yī)院的交流選取前5個(gè)特征。

      首先計(jì)算并減去原始數(shù)據(jù)集的平均值,mean()函數(shù)求平均值。然后通過cov()函數(shù)來(lái)計(jì)算協(xié)方差矩陣,Linalg.eig()函數(shù)計(jì)算其特征值和特征向量,接著利用啊如果 argsort()函數(shù)對(duì)特征值進(jìn)行從小到大的排序。根據(jù)特征值排序結(jié)果的逆序就可以得到topNfeat個(gè)最大的特征向量。這些特征向量將構(gòu)成后面對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換的矩陣,該矩陣則利用N個(gè)特征將原始數(shù)據(jù)轉(zhuǎn)換到新空間中。最后,原始數(shù)據(jù)被重構(gòu)后返回用于調(diào)試,同時(shí)降維之后的數(shù)據(jù)集也被返回了。

      3 挖掘的結(jié)果及分析

      本文是通過降維來(lái)尋找影響 LN的主要指標(biāo),通過 pca降維之后數(shù)據(jù)轉(zhuǎn)換到了新的空間,所以用來(lái)構(gòu)建新的空間的topNfeat個(gè)最大的特征向量是影響LN的主要指標(biāo),topNfeat個(gè)最大的特征向量也就是topNfeat個(gè)最大的特征值。

      pca()函數(shù)最后輸出的 eigValInd就是 topNfeat個(gè)最大的特征值的下標(biāo),通過數(shù)據(jù)可視化,圖1就是最相關(guān)的 5個(gè)理化指標(biāo),這 5個(gè)指標(biāo)分別是dsDNA 抗體、clq 抗體[8-9]、ANCA[10]、SM 抗體[11-12]、ALB。

      圖2 數(shù)據(jù)挖掘結(jié)果Fig.2 Data mining results

      通過實(shí)驗(yàn)得到dsDNA抗體、SM抗體、clq抗體、ANCA抗體、ALB這5個(gè)影響LN的主要指標(biāo),根據(jù)實(shí)驗(yàn)結(jié)果可以幫助醫(yī)生得到最佳的治療方案。

      4 結(jié)語(yǔ)

      本文通過運(yùn)用 pca降維方法,對(duì)病人的指標(biāo)數(shù)據(jù)進(jìn)行降維,通過降維來(lái)尋找影響LN的主要指標(biāo),找出的指標(biāo)來(lái)對(duì)醫(yī)生提供幫助制定治療方案?,F(xiàn)將本文的主要內(nèi)容總結(jié)如下:

      (1)本文對(duì)來(lái)自醫(yī)院的病例資料進(jìn)行數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)清洗、數(shù)據(jù)插補(bǔ)、數(shù)據(jù)變換,為下一步的研究做準(zhǔn)備工作;

      (2)基于預(yù)處理后的數(shù)據(jù),通過python運(yùn)算pca算法,對(duì)原始數(shù)據(jù)降維,獲得影響LN的主要 指標(biāo)。

      (3)將運(yùn)行算法獲得的結(jié)果與醫(yī)學(xué)文獻(xiàn)所得結(jié)果相對(duì)比,驗(yàn)證了算法的正確,也為治療 LN提供更加科學(xué)的依據(jù)。

      [1] 任衛(wèi)高, 彭琳秀, 雷飛飛, 等. 主成分分析用于清肺消痤凝膠體外經(jīng)皮滲透的研究[J]. 中國(guó)中藥雜志. 2015, 40(2):231-235.

      [2] 張衛(wèi)國(guó), 王桂花. 基于PCA多特征融合的肝臟B超臨床醫(yī)學(xué)圖像識(shí)別研究與實(shí)現(xiàn)[J]. 計(jì)算機(jī)應(yīng)用與軟件. 2014, (4):239-243.

      [3] Hochberg MC.Updating the American College of Rheum atology revised criteria for the classification of systemic lupus erythem atosus[J]. Arthritis Rheum, 1997, 40(9): 1725.

      [4] Kozyrev SV, Abelson AK, Wojcik J, et al. Functional variants in the B-cell gene BANK1 are associated with systemic lupus erythematosus[J]. Nat Genet, 2008, 40(2): 211-216.

      [5] Biesecker G, Katz S, Koffler D. Renal localization of the membrane attack complex in systemic lupus erythematosus nephritis[J]. Journal of Experimental Medicine, 1982, 154(6):1779-1794.

      [6] HOUMAN MH, SMITI- KHANFIR M, BEN GHORBELL I,et al.Sysmetic lupus erythematosus in Tunisia: Demographic and clinical analysis of 100 patients[J]. Lupus, 2004, 13(3):204-211.

      [7] RESENDE AL, TITAN SM, BARROS RT, et al. Worse renal outcome of lupus nephritis in male patients: a case- control study[J]. Lupus, 2011, 20(6): 561- 567.

      [8] Botto M, Walport MJ. C1q, autoimmunity and apotosis[J].Immunobiol, 2002, 205: 395-406.

      [9] Braun A, Sis J, Max R, et al. Anti-chromatin and anti-C1q antibodies in systemic lupus erythematosus compared to other systemic autoimmune diseases[J]. Scand J Rheumatol,2007, 36: 291-298.

      [10] 劉軍生, 肖湘成, 陳立平, 等. 狼瘡腎炎抗中性粒細(xì)胞胞漿抗體與臨床表現(xiàn)的相關(guān)性研究[J]. 醫(yī)學(xué)臨床研究, 2006,23(10): 1606-1610.

      [11] MANSON JJ, MA A, ROGERS P, MASON LJ, et al.Relationship between anti-dsDNA, anti- nucleosome and anti- alpha-actinin antibodies and markers of renal disease in patients with lupus nephritis: a prospective longitudinal study[J]. Arthritis Res Ther, 2009, 11(5): 154.

      [12] SUH-LAILAM BB, CHIARO TR, DAVIS K W, et al. Evaluation of a high avidity anti- dsDNA IgG enzyme- linked immunosorbent assay for the diagnosis of systemic lupus erythematosus[J]. Int J Clin Exp Pathol, 2011, 4(8): 748-754.

      Correlation of PCA-based Data Mining SLE Disease

      WEI Ru-zhe, WANG Jian-ping, FU Ping, ZHANG Guo
      (Kunming University of Science and Technology, Kunming 650500, China; Intelligent Measurement and Control Institute, Kunming 650500)

      In this paper, we propose a principal component analysis reduction algorithm to solve the problem of complex and diverse influencing factors of SLE patients with secondary nephritis. The program of running the principal component analysis algorithm using python software was used to reduce the influence of SLE Patients with secondary primary symptoms of secondary nephritis. The results show that the principal component analysis algorithm can find out the main indexes that affect the secondary nephritis in SLE patients, and provide scientific basis for diagnosis and treatment.

      SLE patients with secondary nephritis; Principal component analysis; Dimensionality reduction

      TP181

      A

      10.3969/j.issn.1003-6970.2017.12.018

      本文著錄格式:魏汝哲,王劍平,付萍,等. 基于PCA挖掘的SLE疾病的數(shù)據(jù)相關(guān)性研究[J]. 軟件,2017,38(12):95-97

      國(guó)家自然科學(xué)基金(61364008);云南省應(yīng)用基礎(chǔ)研究重點(diǎn)項(xiàng)目(2014FA029);云南省教育廳重點(diǎn)基金項(xiàng)目(2013Z127);昆明理工大學(xué)人才培養(yǎng)項(xiàng)目(14118596);昆明理工大學(xué)復(fù)雜工業(yè)控制學(xué)科方向團(tuán)隊(duì)建設(shè)計(jì)劃

      魏汝哲(1992-),男,山東聊城人,碩士,主要研究方向?yàn)獒t(yī)療數(shù)據(jù)挖掘,檢測(cè)技術(shù)。單位:昆明理工大學(xué);張果,男,研究生導(dǎo)師,昆明理工大學(xué);歐陽(yáng)鑫,男,研究生導(dǎo)師,昆明理工大學(xué);楊曉洪,女,研究生導(dǎo)師,昆明理工大學(xué);車國(guó)霖,男,研究生導(dǎo)師,昆明理工大學(xué)。

      王劍平,男,研究生導(dǎo)師,昆明理工大學(xué);付萍,女,研究生導(dǎo)師,昆明醫(yī)科大學(xué)。

      猜你喜歡
      原始數(shù)據(jù)降維理工大學(xué)
      Three-Body’s epic scale and fiercely guarded fanbase present challenges to adaptations
      昆明理工大學(xué)
      GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
      受特定變化趨勢(shì)限制的傳感器數(shù)據(jù)處理方法研究
      降維打擊
      海峽姐妹(2019年12期)2020-01-14 03:24:40
      昆明理工大學(xué)
      昆明理工大學(xué)
      浙江理工大學(xué)
      全新Mentor DRS360 平臺(tái)借助集中式原始數(shù)據(jù)融合及直接實(shí)時(shí)傳感技術(shù)實(shí)現(xiàn)5 級(jí)自動(dòng)駕駛
      汽車零部件(2017年4期)2017-07-12 17:05:53
      拋物化Navier-Stokes方程的降維仿真模型
      新津县| 仁布县| 元谋县| 满洲里市| 五原县| 夏邑县| 三台县| 铜山县| 昌吉市| 土默特左旗| 和林格尔县| 麻栗坡县| 教育| 阳西县| 平远县| 金乡县| 同江市| 红河县| 梨树县| 新野县| 什邡市| 游戏| 株洲市| 宜昌市| 体育| 青浦区| 织金县| 旺苍县| 威远县| 西乌珠穆沁旗| 桃园市| 长兴县| 黎平县| 蕲春县| 高州市| 芜湖县| 简阳市| 水富县| 巩留县| 黄陵县| 游戏|