• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      感染性腹瀉周發(fā)病例數(shù)的PCA-SVM回歸預(yù)測研究

      2016-03-17 03:51:34王永明顧君忠
      關(guān)鍵詞:感染性氣象例數(shù)

      霍 靜 王永明 顧君忠

      1(天水師范學(xué)院電子信息與電器工程學(xué)院 甘肅 天水 741001)

      2(華東師范大學(xué)計(jì)算機(jī)應(yīng)用研究所 上海 200062)

      ?

      感染性腹瀉周發(fā)病例數(shù)的PCA-SVM回歸預(yù)測研究

      霍靜1王永明2顧君忠2

      1(天水師范學(xué)院電子信息與電器工程學(xué)院甘肅 天水 741001)

      2(華東師范大學(xué)計(jì)算機(jī)應(yīng)用研究所上海 200062)

      摘要提出一個(gè)使用PCA-SVM進(jìn)行感染性腹瀉周發(fā)病例數(shù)回歸預(yù)測方法, 有效避免了BP神經(jīng)網(wǎng)絡(luò)模型存在局部極值、多重共線性的問題。以上海市2005年至2008年感染性腹瀉周發(fā)病例數(shù)為樣本,建立PCA-SVM回歸模型。首先用PCA從統(tǒng)計(jì)氣象因子中提取氣象主成分因子, 去除預(yù)報(bào)因子多重共線性,得到最終模型的解釋變量, 其次采用SVM方法構(gòu)建上海市感染性腹瀉周發(fā)病例數(shù)預(yù)測模型。為了說明該模型有更佳的預(yù)測效果,與BP神經(jīng)網(wǎng)絡(luò)模型比較擬合及預(yù)測結(jié)果。數(shù)據(jù)結(jié)果顯示PCA-SVM回歸模型預(yù)測的平均相對誤差MAPE、均方誤差平方根RMSE(數(shù)值分別為0.2694,33.113)均小于BP神經(jīng)網(wǎng)絡(luò)(數(shù)值分別為0.3745,49.909),而決定系數(shù)R2(數(shù)值為0.9089)較BP神經(jīng)網(wǎng)絡(luò)(數(shù)值為0.8590)更趨近于1。證明PCA-SVM回歸模型在感染性腹瀉周發(fā)病例數(shù)預(yù)測中具有較高的預(yù)測精度和較強(qiáng)的泛化能力,模型對于感染性腹瀉周發(fā)病例數(shù)的預(yù)測可靠,對于向公眾發(fā)布腹瀉預(yù)報(bào)有更好的實(shí)用價(jià)值。

      關(guān)鍵詞PCASVM回歸感染性腹瀉氣象資料

      RESEARCH ON PCA-SVM REGRESSIVE PREDICTION OF WEEKLY CASES OF INFECTIOUS DIARRHEA

      Huo Jing1Wang Yongming2Gu Junzhong2

      1(School of Electronic Information and Electronical Engineering,Tianshui Normal University,Tianshui 741001,Gansu,China)2(Institute of Computer Applications,East China Normal University,Shanghai 200062,China)

      AbstractWe proposed a regressive prediction method for the weekly cases number of infectious diarrhea using PCA-SVM, which effectively avoids some defects of the BP neural network model like local extremum, multicollinearity. With the weekly cases of infectious diarrhea in Shanghai from the year 2005 to 2008 being the samples, we built the PCA-SVM regressive model. First, we employed PCA to extract meteorological main principal factors from the statistical meteorological factors and removed the multicollinearity from the predictive factors, derived the explanatory variable of the final model. Secondly, we used SVM regression to build the predictive model for weekly cases number of infectious diarrhea in Shanghai. To illustrate the better prediction effect of the model, we compared it with BP neural network model in terms of fitting and prediction results. Numerical results showed that the MAPE and RMSE (0.2694 and 33.113 respectively) predicted by PCA-SVM regression model were all less than those of BP neural network model (0.3745 and 49.909 respectively). Meanwhile, its determination parameter R2(0.9089) was further approaching 1 than that of BP neural network (0.8590). As a result, it is demonstrated in this paper that the PCA-SVM regressive model has higher prediction accuracy and stronger generalisation capability in predicting weekly cases number of infectious diarrhea, the prediction of the model is reliable on the weekly cases number of the disease, and has better practical value in publicising the diarrhea prediction.

      KeywordsPCASVM regressionInfectious diarrheaMeteorological data

      0引言

      全球每年約有30億~50億人發(fā)生感染性腹瀉,死亡人數(shù)約為300萬[1,2]。研究表明,感染性腹瀉的發(fā)生、流行與氣象因素密切相關(guān)[3-5]。感染性腹瀉一旦病發(fā),由于其具傳染性,會出現(xiàn)流行面廣、發(fā)病率快的特點(diǎn)。因此探討有效、準(zhǔn)確的預(yù)測方法對感染性腹瀉的預(yù)防控具有重要意義。

      目前關(guān)于傳染病預(yù)測主要有三種方法:傳染病傳播動力學(xué)模型[6],考慮影響傳染病發(fā)病的因素很多,需要詳盡的物理和氣象數(shù)據(jù),這些數(shù)據(jù)不容易獲得;傳統(tǒng)的統(tǒng)計(jì)模型[7,8],其中線性回歸建模是最常用的方法,但對疾病建模非線性問題的預(yù)測能力并不好;智能計(jì)算技術(shù)建模,如BPNN神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)SVM等。

      智能計(jì)算技術(shù)建模方法中,SVM方法已在手寫體識別、圖像處理、信號處理等應(yīng)用研究方面取得了顯著成果,但在非線性特征十分顯著的疾病氣象預(yù)測領(lǐng)域的應(yīng)用至今卻很少[9]。截止2014年12月,以主題“SVM”在中國知網(wǎng)搜索相關(guān)文獻(xiàn),共有文獻(xiàn)1 079篇,追加主題“疾病預(yù)測”后。檢索結(jié)果文獻(xiàn)僅為19篇。

      使用上海市2005至2008年感染性腹瀉周發(fā)病數(shù)和同期氣象資料建立智能計(jì)算PCA-SVM模型,探討PCA-SVM在感染性腹瀉疾病預(yù)測中的可行性。同時(shí)與傳統(tǒng)BP網(wǎng)絡(luò)模型做對比,進(jìn)一步驗(yàn)證PCA-SVM回歸模型在腹瀉發(fā)病例數(shù)預(yù)測方面的準(zhǔn)確性,對于向公眾發(fā)布腹瀉預(yù)報(bào)有更好的實(shí)用價(jià)值。

      1方法

      1.1支持向量機(jī)SVM

      支持向量機(jī)SVM是Vapnik提出的一種在模式識別與機(jī)器學(xué)習(xí)領(lǐng)域中的工具。主要研究在有限數(shù)據(jù)集的情況下基于數(shù)據(jù)的機(jī)器學(xué)習(xí)問題,可用于模式分類和非線性回歸[10]。支持向量機(jī)主要思想是通過預(yù)先設(shè)定的非線性映射將輸入空間的特征向量映射到高維特征空間,建立一個(gè)分類超平面作為決策曲面,使得正反例之間的隔離邊緣被最大化,避免了在原輸入空間中進(jìn)行非線性曲面分割計(jì)算[11]。

      (1) SVM體系結(jié)構(gòu)

      SVM體系結(jié)構(gòu)如圖1所示,其中xi(i=1,2,…,n)是輸入變量,K(x,xi)為核函數(shù)。常用核函數(shù)有線性核函數(shù)、多項(xiàng)式核函數(shù)、徑向基(RBF)核函數(shù)、兩層感知器核函數(shù)等。

      圖1 SVM體系結(jié)構(gòu)

      核函數(shù)的選擇是 SVM 理論的核心問題。迄今尚沒有針對具體問題可以直接構(gòu)造出最為適合的核函數(shù)的完備理論。其中RBF 核屬于非線性映射的核函數(shù),可處理非線性可分情況,因而RBF 核通常被優(yōu)先考慮[12]。

      (2) 算法描述及實(shí)現(xiàn)[13]

      設(shè)給定數(shù)據(jù)集H={(xi,yi)},i=1,2,…,n,其中xi是輸入變量,yi是期望輸出值,回歸估計(jì)問題就是尋找該數(shù)據(jù)集的回歸(逼近)函數(shù):

      f(x)=wφ(x)+b

      (1)

      式中,φ(x)是從輸入空間到高維特征空間的非線性映射,b是偏移系數(shù)。

      引入一個(gè)松弛變量ξi,度量對約束條件的違反情況并采用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,將問題轉(zhuǎn)化為找最小值問題:

      式中,w是權(quán)向量,C是懲罰參數(shù)。由于實(shí)際應(yīng)用中大多數(shù)問題線性不可分,故引入滿足Mercer條件的函數(shù)φ(xi),將輸入空間映射到一個(gè)可分的或者近似可分的高維的特征空間。然后在特征空間中,通過二次型尋優(yōu)得到基于SVM的回歸模型:

      (2)

      式中,φ(xi)·φ(xj)是向量內(nèi)積運(yùn)算。用核函數(shù)代替內(nèi)積運(yùn)算后,擬合函數(shù)為:

      (3)

      1.2主成分分析法(PCA)

      數(shù)據(jù)處理過程中統(tǒng)計(jì)數(shù)據(jù)經(jīng)常是高維且彼此間存在一定的相關(guān)性,這些高維數(shù)據(jù)所包含的信息在一定程度上有所重疊(冗余)。主成分分析法可以很好地去除這種多重共線性,減少數(shù)據(jù)維數(shù)。

      PCA將多個(gè)變量經(jīng)過線性的組合從而得出比較少的幾個(gè)重要的變量的方法稱為主成分分析法[14]?;舅枷胧翘崛〕龆嗑S數(shù)據(jù)的主要特征(主分量), 保留數(shù)據(jù)集的對方差貢獻(xiàn)最大的特征,去掉數(shù)據(jù)相關(guān)性,在一個(gè)低維空間來快速處理數(shù)據(jù)。

      1.3模型擬合檢驗(yàn)評價(jià)指標(biāo)

      評價(jià)模型擬合和外推預(yù)測效果的常用評價(jià)指標(biāo)有平均相對誤差(MAPE)、均方誤差平方根(RMSE),決定系數(shù)R2,計(jì)算公式如下[15]:

      2基于PCA-SVM腹瀉周發(fā)病例預(yù)測

      2.1實(shí)驗(yàn)資料和仿真平臺

      從國家疾病監(jiān)測信息報(bào)告管理系統(tǒng)中獲取2005年1月1日至2008 年12月31日臨床診斷或?qū)嶒?yàn)室確診上海市感染性腹瀉日發(fā)病數(shù)據(jù)并計(jì)算出周感染性腹瀉發(fā)病例數(shù)。同期上海地區(qū)氣象資料則由上海市氣象局城市環(huán)境氣象中心提供,有最高溫度(℃)、最低溫度(℃)、周平均溫度(℃)、最低相對濕度(%)、平均相對濕度 (%)、平均氣壓(hPa)、降雨量(mm)、平均日照時(shí)數(shù) (hr)、平均風(fēng)速(m/s) 共9個(gè)指標(biāo)。這里2005至2007年共157對數(shù)據(jù)作為訓(xùn)練樣本集,2008年共52對數(shù)據(jù)作為測試數(shù)據(jù)集。試驗(yàn)平臺采用 Matlab R2013a,結(jié)合libsvm工具包。

      2.2主成分提取PCA

      收集數(shù)據(jù)集屬性值數(shù)量級差別很大,絕對值最小0(降雨量),最大值1039(日平均氣壓),模型采用的核函數(shù)要做向量內(nèi)積運(yùn)算,很容易導(dǎo)致計(jì)算復(fù)雜,訓(xùn)練時(shí)間較長,甚至?xí)?dǎo)致模型有很大的預(yù)測誤差,因此,首先將訓(xùn)練樣本和測試樣本屬性值用mapminmax函數(shù)進(jìn)行歸一化至0~1。然后求出r矩陣。

      氣象屬性x1、x2、x3有很強(qiáng)正相關(guān)性,與氣象屬性x7有很強(qiáng)負(fù)相關(guān)性,見表1所示。提示用PCA去除多重共線性,減少冗余。

      表1 r矩陣

      計(jì)算矩陣r的特征值、主成分的方差貢獻(xiàn)率、累積貢獻(xiàn)率見表2所示,進(jìn)而提取主成分。從表2中可以看到前3個(gè)主成分包含原來4個(gè)指標(biāo)全部信息的96.51%,故選作網(wǎng)絡(luò)輸入(預(yù)測因子)。

      表2 各主成分的特征值和方差貢獻(xiàn)率

      2.3訓(xùn)練函數(shù)選擇和網(wǎng)絡(luò)參數(shù)設(shè)置

      選用徑向基函數(shù)做為SVM回歸預(yù)測模型的核函數(shù),形式為:

      K(x,xi)=exp(-γ‖x-xi‖2)γ>0

      (4)

      式中,xi是輸入向量,x是待預(yù)報(bào)因子向量,γ是核參數(shù),大于0。根據(jù)式(3),選擇徑向基函數(shù)做為SVM回歸預(yù)測模型的核函數(shù)后,進(jìn)而最終回歸函數(shù)形式為:

      (5)

      隨參數(shù)值選取的不同,函數(shù)形態(tài)會發(fā)生相應(yīng)的變化,進(jìn)而引起SVM模型的變化。SVM參數(shù)的選擇,國際上還沒有形成一個(gè)統(tǒng)一的模式。最優(yōu)SVM參數(shù)的選擇,目前常用的做法有交叉驗(yàn)證與網(wǎng)格搜索法進(jìn)行參數(shù)優(yōu)化選擇[16]。這里基于matlab平臺使用libsvm工具包,采用5則交叉驗(yàn)證,在反復(fù)試驗(yàn)的基礎(chǔ)上確定懲罰系數(shù)C=2,g=0.5,可以取得很好的預(yù)測結(jié)果。

      2.4實(shí)驗(yàn)結(jié)果分析

      (1) 模型擬合檢驗(yàn)

      以2005年至2007年周氣象數(shù)據(jù)和同期感染性腹瀉周發(fā)病例數(shù)對預(yù)測模型進(jìn)行擬合效果檢驗(yàn)。取2008年的獨(dú)立樣本數(shù)據(jù)作為測試樣本數(shù)據(jù)對模型進(jìn)行外推能力檢驗(yàn)。其中訓(xùn)練樣本和測試樣本的R2分別為0.9169和0.9089,說明擬合程度較好,見表3所示。

      表3 PCA-SVM預(yù)測訓(xùn)練、測試樣本性能指標(biāo)

      (2) BP神經(jīng)網(wǎng)絡(luò)

      為了檢驗(yàn)提出模型預(yù)測效果的優(yōu)劣,這里和傳統(tǒng)BPNN預(yù)測模型做擬合及預(yù)測效果比較。BPBP神經(jīng)網(wǎng)絡(luò)是一種前饋型神經(jīng)網(wǎng)絡(luò)。學(xué)習(xí)過程由信號的正向傳播和反向傳播兩個(gè)過程組成。正向傳播時(shí),輸入樣本從輸入層傳人,經(jīng)各隱含層逐層處理后傳向輸出層。若輸出層的實(shí)際輸出與期望輸出不符,則轉(zhuǎn)入誤差的反向傳播階段,誤差反傳階段是將輸出誤差以某種形式通過隱含層向輸入層逐層反傳,從而獲得各層單元的誤差信號。此過程一直進(jìn)行到網(wǎng)絡(luò)輸出的誤差減少到可接受的程度,或進(jìn)行到預(yù)先設(shè)定的學(xué)習(xí)時(shí)間,或進(jìn)行到預(yù)先設(shè)定的學(xué)習(xí)次數(shù)為止[17]。

      用libsvm工具包中newff函數(shù)建立BP神經(jīng)網(wǎng)絡(luò),采用交叉驗(yàn)證防止訓(xùn)練過程中出現(xiàn)過擬合。通過試錯(cuò)法得BPNN最優(yōu)網(wǎng)絡(luò)結(jié)構(gòu)為4-4-1,學(xué)習(xí)速率設(shè)為0.55,目標(biāo)精度0.00001,訓(xùn)練次數(shù)2000次。

      (3) 模型預(yù)測效果檢驗(yàn)

      PCA-SVM、BPNN兩種模型的預(yù)測結(jié)果和比較如表4、表5所示,圖2為清晰顯示預(yù)測數(shù)值對比結(jié)果,表4數(shù)據(jù)以月統(tǒng)計(jì)形式出現(xiàn),數(shù)據(jù)取整。從表中數(shù)據(jù)比較可以看出采用PCA-SVM得到的訓(xùn)練樣本及測試樣本的MAPE、RMSE均小于BPNN而決定系數(shù)R2更接近于1。因此認(rèn)為提出的PCA-SVM模型較 BPNN有更好的擬合效果及預(yù)測效果。

      表4 PCA-SVM與BPNN預(yù)測

      表5 PCA-SVM與BPNN擬合及預(yù)測效果比較

      圖2 PCA-SVM、BPNN對感染性腹瀉周發(fā)病例數(shù)的預(yù)測

      3結(jié)語

      氣象因素與感染性腹瀉發(fā)病例數(shù)之間為非線性關(guān)系,基于SVM的回歸預(yù)測模型可以很好地處理非線性關(guān)系。由于BP神經(jīng)網(wǎng)絡(luò)模型存在局部極值、多重共線的問題,提出PCA-SVM預(yù)測模型用于感染性腹瀉周發(fā)病例數(shù)的預(yù)測模型并與BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行比較。從表5實(shí)驗(yàn)對比結(jié)果看出,無論對訓(xùn)練集還是測試集, PCA-SVM預(yù)測模型的預(yù)測結(jié)果均優(yōu)于BP神經(jīng)網(wǎng)絡(luò)模型,比BP神經(jīng)網(wǎng)絡(luò)模型更適用于感染性腹瀉周發(fā)病例數(shù)的預(yù)測。PCA-SVM能夠適應(yīng)于多因子、多維數(shù)及樣本數(shù)量有限的預(yù)測,模型泛化能力好。預(yù)測模型應(yīng)用于感染性腹瀉周發(fā)病例數(shù)的預(yù)測具有更高的準(zhǔn)確度、更好的預(yù)測效果,為感染性腹瀉的預(yù)測預(yù)報(bào)提供了新方法。

      參考文獻(xiàn)

      [1] Diarrhoeal disease.World Health Organization[EB/OL].2013.http://www.who.int/mediacentre/factsheets/fs330/en/.

      [2] Lin M,Dong B Q.Status in epidemiological research of infectious diarrhea[J].Chin Tropical Med,2008,8(4):675-677.

      [3] Loyd S J,Kovats R S,Armstrong B G.Global diarrhoea morbidity,weather and climate[J].Climate Res,2007,34(2):119.

      [4] Alexander K A,Carzolio M,Goodin D,et al.Climate change is likely to worsen the public health threat of diarrheal disease in Botswana[J].Internet Environment Res Public Health,2013,10(4):1202-1230.

      [5] Kolstad E W,Johansson K A.Uncertainties associated with quantifying climate change impacts on human health:a case study for diarrhea[J].Environmental Health Perspect,2011,119(3):299.

      [6] 謝朝暉,黃建始.傳染病預(yù)測方法的探討[J].中國全科醫(yī)學(xué),2008(1):85-87.

      [7] Chou W C,Wu J L,Wang Y C,et al.Modeling the impact of climate variability on diarrhea-associated diseases in Taiwan[J].Sci Total Environment,2010,409(1):43-51.

      [8] Zhao N,Ma X H,Gan L,et al.Research on the application of Medical-meteorological foreast model of infectious diarrhea disease in Beijing[C]//IEEE Fifth International Conference,2010:149-156.

      [9] 馮漢中,陳永義.處理非線性分類和回歸問題的一種新方法(Ⅱ)-支持向量機(jī)方法在天氣預(yù)報(bào)中的應(yīng)用[J].應(yīng)用氣象學(xué)報(bào),2004,15(3):355-365.

      [10] Vapnik V N.An overview of satistical learning theory[C]//IEEE Transactions on Neural Networks,1999,10(5):988-999.

      [11] 楊海.SVM核參數(shù)優(yōu)化研究與應(yīng)用[D].浙江:浙江大學(xué)電器工程學(xué)院,2014.

      [12] 李陽.多核學(xué)習(xí)SVM算法研究及肺結(jié)節(jié)識別[D].吉林:吉林大學(xué)通信工程學(xué)院,2014.

      [13] 韓立群.人工神經(jīng)網(wǎng)絡(luò)教程[M].北京:北京郵電大學(xué)出版社,2006.

      [14] 呂建成.神經(jīng)網(wǎng)絡(luò)中的若干問題研究[D].成都:電子科技大學(xué),2006.

      [15] 徐國祥.統(tǒng)計(jì)預(yù)測與決策[M].上海:上海財(cái)經(jīng)大學(xué)出版社,2008.

      [16] 奉國和.SVM分類核函數(shù)及參數(shù)選擇比較[J].計(jì)算機(jī)工程與應(yīng)用,2011(3):123-128.

      [17] 高菡璐,蘭莉,喬東菊.BP神經(jīng)網(wǎng)絡(luò)模型用于氣象因素對腦出血死亡影響的初步研究[J].中華流行病學(xué)雜志,2012(1):937-940.

      中圖分類號TP391

      文獻(xiàn)標(biāo)識碼A

      DOI:10.3969/j.issn.1000-386x.2016.02.012

      收稿日期:2014-12-25。上海市國際科技合作基金項(xiàng)目(134307 10100);甘肅省科技計(jì)劃資助項(xiàng)目(1506RJZE115);甘肅省高等學(xué)??蒲许?xiàng)目(2015B-104)?;綮o,講師,主研領(lǐng)域:數(shù)據(jù)挖掘,信息檢索。王永明,博士。顧君忠,教授。

      猜你喜歡
      感染性氣象例數(shù)
      氣象
      傷寒桿菌致感染性腹主動脈瘤合并腹腔膿腫1例
      傳染病信息(2022年6期)2023-01-12 08:59:04
      氣象樹
      《內(nèi)蒙古氣象》征稿簡則
      人工膝關(guān)節(jié)翻修例數(shù)太少的醫(yī)院會增加再翻修率:一項(xiàng)基于23 644例的研究
      感染性肺炎如何選藥治療
      小兒咳嗽也要提防非呼吸道感染性疾病
      眼睛也會感染性病
      更正
      大國氣象
      邹平县| 沈阳市| 筠连县| 周至县| 林口县| 福鼎市| 柞水县| 寿阳县| 会同县| 梓潼县| 库尔勒市| 湾仔区| 彰化县| 乌鲁木齐县| 乐清市| 常山县| 分宜县| 偃师市| 醴陵市| 自治县| 紫金县| 江门市| 文登市| 安远县| 镇赉县| 安新县| 廊坊市| 墨竹工卡县| 贡嘎县| 田东县| 平湖市| 武强县| 古浪县| 丹江口市| 乌审旗| 清镇市| 山阴县| 四川省| 介休市| 永泰县| 延川县|