南方醫(yī)科大學(xué)公共衛(wèi)生學(xué)院生物統(tǒng)計學(xué)系(510515) 魏仁惠子 沈雙全 歐春泉
SARIMA模型與SARIMA-GRNN組合模型在預(yù)測廣東省登革熱疫情中的應(yīng)用*
南方醫(yī)科大學(xué)公共衛(wèi)生學(xué)院生物統(tǒng)計學(xué)系(510515) 魏仁惠子 沈雙全 歐春泉△
目的應(yīng)用季節(jié)性差分自回歸滑動平均(SARIMA)模型以及與廣義回歸神經(jīng)網(wǎng)絡(luò)的組合模型(SARIMA-GRNN)預(yù)測廣東省登革熱的月發(fā)病數(shù),比較其預(yù)測效果,為登革熱的預(yù)測預(yù)警和防控提供科學(xué)依據(jù)。方法該研究使用廣東省2004年1月至2012年12月登革熱的逐月發(fā)病資料,分別構(gòu)建兩種模型,并使用2013年1月至12月的數(shù)據(jù)對模型進(jìn)行預(yù)測驗證。結(jié)果登革熱疫情呈現(xiàn)明顯的周期性和季節(jié)性,周期為1年,8~10月份為高發(fā)期,在爆發(fā)年份發(fā)病人數(shù)急劇增多。SARIMA(1,1,3)(1,1,0)12模型為SARIMA預(yù)測部分的最優(yōu)模型;神經(jīng)網(wǎng)絡(luò)的最優(yōu)光滑因子為0.04。兩種模型對2013年疫情預(yù)測的均方根誤差(RMSE)為SARIMA(105.76)>SARIMA-GRNN(92.77),平均絕對百分比誤差(MAPE)為SARIMA(2.78)>SARIMA-GRNN(2.15),平均絕對誤差(MAE)為SARIMA(64.75)>GRNN-ARIMA(58),模型的決定系數(shù)(R2)為SARIMA(0.92)<SARIMA-GRNN(0.95)。結(jié)論兩種方法均有較佳的預(yù)測效果。在SARIMA模型的基礎(chǔ)上,結(jié)合GRNN模型可進(jìn)一步提高預(yù)測精度。
自回歸滑動平均模型 廣義回歸神經(jīng)網(wǎng)絡(luò) 登革熱 預(yù)測
登革熱是由登革熱病毒引起的一種急性傳染病,主要通過伊蚊叮咬傳播。其傳播迅猛、發(fā)病率高。近年,隨著旅游業(yè)發(fā)展迅速、全球氣候變暖,登革熱疫情日益嚴(yán)重,已成為世界性的嚴(yán)重公共衛(wèi)生問題。據(jù)世界衛(wèi)生組織估計,全球每年約有5千萬至1億人感染登革熱。我國廣東地區(qū)具有典型的亞熱帶氣候,一直是登革熱高發(fā)地區(qū)。對登革熱疫情的有效防控需要及時、準(zhǔn)確地了解疫情的動態(tài),對疫情提早進(jìn)行預(yù)測。基于線性假定的自回歸滑動平均混合模型(ARIMA)及其衍生模型(如SARIMA)是常見的時間序列預(yù)測模型,對于含有許多混雜因素的復(fù)雜問題,其預(yù)測能力也許欠佳。因而,作為ARIMA模型的補(bǔ)充,廣義回歸神經(jīng)網(wǎng)絡(luò)模型(GRNN)逐漸發(fā)展起來。本研究基于廣東省近十年的登革熱疫情數(shù)據(jù),建立SARIMA模型及其與GRNN的組合模型預(yù)測登革熱的發(fā)病情況,并對預(yù)測性能進(jìn)行評估與比較,可為廣東地區(qū)登革熱疫情的預(yù)測預(yù)警提供科學(xué)依據(jù),同時也可為其他地區(qū)的同類研究提供方法學(xué)上的借鑒。
1.資料來源
數(shù)據(jù)為廣東省2004年1月到2013年12月登革熱逐月發(fā)病人數(shù),來源于廣東省衛(wèi)生和計劃生育委員會網(wǎng)站(http://www.gdwst.gov.cn/)。采用2004年1月到2012年12月數(shù)據(jù)建立模型,2013年1月到12月數(shù)據(jù)進(jìn)行前瞻性考核,驗證模型的有效性。
2.方法原理
(1)SARIMA模型[1-2]
Box和Jenkins提出的差分自回歸滑動平均模型(autoregressive integrated moving average model,ARIMA)是最基礎(chǔ)也是最常用的時間序列預(yù)測模型,它由自回歸(AR)模型和移動平均(MA)模型組合而成。季節(jié)性差分自回歸滑動平均模型(seasonal autoregressive integrated moving average model,SARIMA)建立在ARIMA模型的基礎(chǔ)上,加強(qiáng)了對季節(jié)性和周期性的分析。SARIMA(p,d,q)(P,D,Q)S模型的數(shù)學(xué)表達(dá)式為:
其中t表示時間,zt表示逐月登革熱發(fā)病人數(shù),μ表示常數(shù)項,B表示滯后算子,αt是誤差項,函數(shù)φ(B)、Φ(BS)、θ(B)、Θ(BS)分別表示如下:
構(gòu)建SARIMA模型的基本步驟包括:數(shù)據(jù)預(yù)處理、模型識別、參數(shù)估計、模型診斷及預(yù)測。
(2)SARIMA-GRNN組合模型
廣義回歸神經(jīng)網(wǎng)絡(luò)(general regression neural network,GRNN)是徑向基函數(shù)的分支,是一種基于非線性核回歸的前饋式神經(jīng)網(wǎng)絡(luò),GRNN不需要設(shè)定模型的形式,但是其隱回歸單元核函數(shù)中光滑因子的取值對網(wǎng)絡(luò)有很大影響[3]。
GRNN訓(xùn)練過程只需改變光滑因子來調(diào)節(jié)各個單元的傳遞函數(shù),以獲得最佳的回歸估計結(jié)果。常用的光滑因子確定方法是在學(xué)習(xí)樣本中除去兩三個待估點,其余的作為訓(xùn)練樣本,讓光滑因子在一定范圍內(nèi)按某一增量變化[4],待估點通常隨機(jī)選取[5-8]。然后對待估點進(jìn)行測試,將輸出的測試值與待估點實際值的誤差平方和(sum of square for error,SSE)作為網(wǎng)絡(luò)性能的評價指標(biāo),選取使SSE最小的光滑因子作為最優(yōu)光滑因子。由于人為控制的參數(shù)只有光滑因子,網(wǎng)絡(luò)的學(xué)習(xí)全部都依賴于樣本,所以使網(wǎng)絡(luò)最大程度地避免了人為主觀因素對網(wǎng)絡(luò)構(gòu)建的影響[5-6]。
SARIMA-GRNN組合模型是將SARIMA模型獲得的擬合值作為廣義回歸神經(jīng)網(wǎng)絡(luò)的訓(xùn)練輸入樣本,以月發(fā)病數(shù)的實際值作為訓(xùn)練的目標(biāo)輸出樣本來訓(xùn)練網(wǎng)絡(luò)。然后使用最優(yōu)光滑因子構(gòu)建的網(wǎng)絡(luò)對后續(xù)登革熱疫情進(jìn)行預(yù)測。
(3)模型評價指標(biāo)
采用以下指標(biāo)評價模型的預(yù)測準(zhǔn)確性:均方根誤差(RMSE),平均絕對誤差(MAE),平均絕對百分比誤差(即相對誤差,MAPE)以及決定系數(shù)R2。各指標(biāo)的計算方法如下:
其中,N表示待分析時間序列的長度,即時間點的個數(shù);Et表示預(yù)測誤差,即實測值與預(yù)測值之差;Yt為時間序列的實測值。SS總為實際值的離均差平方和,SS誤為誤差項的離均差平方和。
3.統(tǒng)計軟件
利用SPSS20.0軟件構(gòu)建SARIMA(p,d,q)(P,D,Q)S模型,利用MATLAB 8.1.0的神經(jīng)網(wǎng)絡(luò)工具箱編程實現(xiàn)SARIMA-GRNN模型的構(gòu)建。
1.登革熱疫情的季節(jié)性特征
2004年到2012年廣東省登革熱每月發(fā)病數(shù)見圖1。9年期間共報告登革熱病例2173例,死亡0例,年均發(fā)病率為2.32×10-6。由圖1可以看出,登革熱的發(fā)病有明顯的周期性和季節(jié)性特征,周期為1年,8~10月份為發(fā)病高峰期,其他月份發(fā)病人數(shù)則較少。不同年份登革熱疫情的流行強(qiáng)度存在明顯的差別,2006、2007和2012年夏季均存在暴發(fā)流行。
圖1 2004-2012年廣東省登革熱逐月發(fā)病人數(shù)時序圖
2.模型的構(gòu)建
(1)SARIMA模型
SARIMA模型的建模是以平穩(wěn)為前提的,為了使序列平穩(wěn),先對該數(shù)據(jù)進(jìn)行預(yù)處理。從圖1可以看出數(shù)據(jù)離散程度較大,故對數(shù)據(jù)進(jìn)行對數(shù)轉(zhuǎn)換;周期為1年且年份間發(fā)病人數(shù)差異較大,因此進(jìn)行季節(jié)差分,發(fā)現(xiàn)序列仍然非平穩(wěn),故進(jìn)一步對序列進(jìn)行一階差分,對差分后的數(shù)據(jù)做單位根檢驗,結(jié)果顯示序列平穩(wěn)(t=-9.41,P<0.001)。
根據(jù)以上的分析,我們嘗試建立SARIMA(p,d,q)(P,D,Q)S模型。之前進(jìn)行了一階差分和一階季節(jié)差分,因此d=1,D=1。決定采用不同階數(shù)的ARIMA模型建模,根據(jù)BIC最小化準(zhǔn)則并結(jié)合R2值確定模型參數(shù)。最終選定最優(yōu)模型為SARIMA(1,1,3)×(1,1,0)12模型。
用所確定的SARIMA(1,1,3)×(1,1,0)12模型對模型的各參數(shù)進(jìn)行估計,發(fā)現(xiàn)各參數(shù)均有統(tǒng)計學(xué)意義,得到擬合的SARIMA模型為:
圖2 殘差序列的ACF及PACF圖
由圖2可見,殘差序列的自相關(guān)函數(shù)與偏自相關(guān)函數(shù)基本都在95%可信區(qū)間范圍內(nèi),Box-Ljung檢驗沒有統(tǒng)計顯著性(Q=19.953,P=0.096),認(rèn)為殘差序列為白噪聲。利用該模型對2013年登革熱逐月發(fā)病數(shù)進(jìn)行預(yù)測,預(yù)測值分別為:2,6,22,10,36,22,76,123,550,1386,569,19。
(2)SARIMA-GRNN組合模型
ARIMA模型中進(jìn)行了差分,導(dǎo)致13個數(shù)據(jù)丟失[4],隨機(jī)選取2006年8月和9月的數(shù)據(jù)作為網(wǎng)絡(luò)的測試樣本(測試樣本即代估點),其余的93個數(shù)據(jù)作為網(wǎng)絡(luò)的訓(xùn)練樣本。為了使網(wǎng)絡(luò)能夠更快地收斂且消除量綱的影響,先對數(shù)據(jù)進(jìn)行歸一化處理,使用[y,ps]=mapm inmax(x,m invalue,maxvalue)函數(shù),將數(shù)據(jù)歸入0到1之間。光滑因子從0.01到1以0.01的增量遞增,每個光滑因子對應(yīng)不同的SSE值,發(fā)現(xiàn)誤差平方和在光滑因子處于0.02到0.06之間得到最小值,改變閾值,畫出光滑因子對應(yīng)的SSE值的圖形,當(dāng)光滑因子為0.04時,SSE值最小,約為0.0026547,故確定GRNN模型的spread=0.04。而后將最優(yōu)spread值代入神經(jīng)網(wǎng)絡(luò),得到2013年的預(yù)測值,對該預(yù)測值進(jìn)行反歸一化,使用函數(shù)y=mapminmax(‘reverse’,x,ps)。得到反歸一化后的值分別為:11.7,12.1,14.2,12.6,16.6,14.2,29.5,65.8,477.1,1315.4,598.8,13.8。
3.兩個模型預(yù)測效果的評估和比較
兩個模型對2013年登革熱的預(yù)測值序列與實際值的吻合程度如下圖(圖3)。由圖看出,兩種模型的整體擬合效果都較好,而SARIMA-GRNN組合模型預(yù)測出來的趨勢與實際發(fā)病情況更為吻合,尤其對于峰值的擬合效果要優(yōu)于單純的SARIMA模型。
圖3 兩種模型對2013年登革熱發(fā)病數(shù)的預(yù)測值比較
關(guān)于預(yù)測效果的具體評價指標(biāo)見表1。相對于單純的SARIMA模型,SARIMA-GRNN組合模型的均方根誤差(RMSE)、平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)更小,決定系數(shù)更大,表明組合模型能更準(zhǔn)確地對登革熱疫情進(jìn)行預(yù)測。
表1 SARIMA與SARIMA-GRNN模型的預(yù)測效果比較
時間序列的預(yù)測模型很多,每種方法都有其自身的優(yōu)點和不足,SARIMA模型是一種短期預(yù)測精度高的模型,基于線性模型估計的特點,使其在面對復(fù)雜的含有多重影響因素的問題時,預(yù)測精度往往會下降。GRNN神經(jīng)網(wǎng)絡(luò)是一種基于非線性理論的更具靈活性的神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)速度快,對模型的逼近能力強(qiáng)[3-4,6]。能夠以任意精度逼近任意非線性連續(xù)函數(shù),對非線性的數(shù)據(jù)映射能力很強(qiáng),且GRNN的訓(xùn)練過程不需要迭代,其網(wǎng)絡(luò)訓(xùn)練只需要確定一個參數(shù),訓(xùn)練過程快捷,因而在對疾病的預(yù)測中廣泛應(yīng)用[7-8]。
在預(yù)測某一事物的發(fā)展?fàn)顟B(tài)時,單一使用某一種方法或模型可能會有局限性,這時組合模型應(yīng)運(yùn)而生。理論和實踐的結(jié)果均證明了組合模型的預(yù)測效能更優(yōu)于單純模型,合適的組合模型能夠更大程度地挖掘數(shù)據(jù)間的潛在聯(lián)系,可以很好地提高預(yù)測精度,其模型也更穩(wěn)定。當(dāng)然,在構(gòu)建組合模型時,我們也不只考慮各模型的預(yù)測精度,也要基于數(shù)據(jù)本身的特點選擇合適的組合模型。
目前國內(nèi)對于登革熱的研究,大多集中在對登革熱的爆發(fā)、流行等流行病學(xué)方面的分析以及登革熱病例的臨床分析,而很少有文獻(xiàn)涉及登革熱的發(fā)病預(yù)測。本研究將線性SARIMA模型和非線性神經(jīng)網(wǎng)絡(luò)相結(jié)合,二者取長補(bǔ)短,充分發(fā)揮自身模型的優(yōu)勢,使預(yù)測效果得到明顯提升。登革熱疫情的準(zhǔn)確預(yù)測有助于疾控部門及時采取有效的干預(yù)措施,有效地分配健康資源,早期預(yù)警也有利于提高人群防患意識,積極加強(qiáng)防控能力。
[1]韓春陽.ARIMA季節(jié)乘積模型預(yù)測醫(yī)院門診量的試驗研究.計算機(jī)光盤軟件與應(yīng)用,2014,2:72-74.
[2]張蔚,張彥琦,楊旭.時間序列資料ARIMA季節(jié)乘積模型及其應(yīng)用.第三軍醫(yī)大學(xué)學(xué)報,2002,24(8):955-957.
[3]Zhang G,Huang S,Duan Q,et al.Application of a Hybrid Model for Predicting the Incidence of Tuberculosis in Hubei,China.Plos One,2013,8(11):e80969.
[4]張國良,后永春,舒文,等.三種模型在肺結(jié)核發(fā)病預(yù)測中的應(yīng)用.中國衛(wèi)生統(tǒng)計,2013,30(4):480-483.
[5]吳偉,郭軍巧,周寶森.GRNN組合預(yù)測模型對遼寧省及部分地區(qū)腎綜合征出血熱發(fā)病率的預(yù)測研究.中國媒介生物學(xué)及控制雜志,2008,19(1):44-48.
[6]朱玉,夏結(jié)來,王靜.單純ARIMA模型和ARIMA-GRNN組合模型在猩紅熱發(fā)病率中的預(yù)測效果比較.中華流行病學(xué)雜志,2009,30(9):964-968.
[7]葉曉軍,沈毅,任茹香,等.基于GRNN的組合預(yù)測模型在傳染病發(fā)病率預(yù)測中的應(yīng)用.浙江預(yù)防醫(yī)學(xué),2012,24(1):8-13.
[8]嚴(yán)薇榮,徐勇,楊小兵,等.基于ARIMA-GRNN組合模型的傳染病發(fā)病率預(yù)測.中國衛(wèi)生統(tǒng)計,2008,25(1):82-83.
(責(zé)任編輯:郭海強(qiáng))
Application of SARIMA Model and SARIMA-GRNN Hybrid Model in Predicting Incidence Number of Dengue in Guangdong Province
Wei Renhuizi,Shen Shuangquan,Ou Chunquan
(Department of Biostatistics,School of Public Health and Tropical Medicine,Southern Medical University(510515),Guangdong)
ObjectiveTo apply Seasonal Autoregressive Integrated Moving Average(SARIMA)model and SARIMAGRNN hybrid model to forecast monthly number of Dengue Fever,and compare the prediction performance of these two models.MethodsBased on data of monthly number of Dengue Fever from January 2004 to December2012 in Guangdong Province,we constructed the SARIMA(p,d,q)(P,D,Q)Smodel and SARIMA-GRNN hybrid model,and data from January to December in 2013 were used to assess the predictive validity of models.ResultsThe incidence of Dengue Fever is characterized by an apparent cyclic pattern with a one-year seasonal cycle,with a peak occurring during August to October.The epidem ic strength and peak differed by years.In SARIMA section,SARIMA(1,1,3)(1,1,0)12model is the optimal model.The optimal spread of GRNN model is 0.04.The root mean square error(RMSE)of these two models was SARIMA(105.76)>SARIMA-GRNN(92.77);the mean absolute percent error(MAPE)was SARIMA(2.78)>SARIMA-GRNN(2.15);the mean absolute error(MAE)of the two models was SARIMA(64.75)>SARIMA-GRNN(58);the determination coefficient(R2)was SARIMA(0.92)<SARIMA-GRNN(0.95).ConclusionBoth of the two models had satisfactory prediction capacity.Relatively,the SARIMA-GRNN hybrid model is the optimal model to predict the incidence of Dengue Fever.
SARIMA model;GRNN;Dengue Fever;Forecasting
廣東省科技計劃項目(2013B021800041);國家自然科學(xué)基金項目(81573249);廣東省自然科學(xué)基金(2016A030313530)
△通信作者:歐春泉,E-mail:ouchunquan@hotmail.com