福建省疾病預防控制中心應急處置與信息管理所(350001)
祝寒松 黃文龍 章燦明△謝忠杭 吳生根 歐劍鳴 洪榮濤
SARIMA模型在福建省細菌性痢疾風險評估中的應用*
福建省疾病預防控制中心應急處置與信息管理所(350001)
祝寒松 黃文龍 章燦明△謝忠杭 吳生根 歐劍鳴 洪榮濤
目的采用SARIMA模型對福建省細菌性痢疾發(fā)病情況進行預測,為風險評估提供科學的定量數(shù)據(jù)。方法利用Eviews 5.0對福建省1990年1月-2013年12月細菌性痢疾的月發(fā)病例數(shù)進行SARIMA分析。采用自相關函數(shù)和ADF單位根檢驗判斷原序列的平穩(wěn)性,采取自然對數(shù)轉化和差分使其平穩(wěn),然后利用自相關函數(shù)和偏相關函數(shù)識別和估計SARIMA模型參數(shù),并對結果進行t檢驗和Q檢驗,再利用調(diào)整R2、AIC準則和SC準則對模型進行評估。最后進行回代評價和預測分析。結果模型SARIMA(2,1,2)(0,1,1)12、SARIMA(0,1,1)(0,1,1)12和SARIMA(1,1,2)(0,1,1)12參數(shù)有統(tǒng)計學意義,殘差為白噪聲,其中SARIMA(1,1,2)(0,1,1)12為最優(yōu)模型,表達式為:(1+0.75L)(1-L)(1 -L12)log(yt)=(1+0.45L-0.35L2)(1-0.79L12)εt。回代檢驗平均相對誤差為14.72%。2013年預測標準誤較小,4-7月預測值與實際值相對誤差均低于10%。結論SARIMA模型可對福建省細菌性痢疾發(fā)病情況進行較準確的預測,可為及時、科學地研判傳染病風險提供可靠的數(shù)據(jù)基礎。
季節(jié)時間序列模型 細菌性痢疾 預測 風險評估
細菌性痢疾(以下簡稱菌?。┦怯芍举R菌屬感染引起的一種常見腸道傳染病,嚴重影響居民健康和生活質(zhì)量。全球每年約1.2億人次感染菌痢,其中約99.09%發(fā)生于發(fā)展中國家,而且每年因菌痢感染而死亡的人數(shù)多達百萬,2/3為5歲以下兒童[1,2],我國菌痢發(fā)病率高居甲乙類法定傳染病前5位[3],福建省菌痢發(fā)病率雖然呈逐年下降趨勢,但仍居腸道傳染性疾病前列[4]。
傳染病風險評估工作在我國還剛剛起步,開展風險評估的理論和方法體系以及所需的人才隊伍、保障機制還不適應,所以,目前要求國家級和省級至少每月開展一次日常風險評估,而日常監(jiān)測分析和定量預測可成為風險評估的重要信息來源之一。季節(jié)時間序列模型(seasonal autoregressive integrated moving average model,SARIMA)能比較準確地對存在明顯周期性變化的時間序列進行預測。本文擬通過SARIMA模型對福建省菌痢發(fā)病情況進行定量預測,以期為傳染病風險評估提供科學依據(jù)。
1.資料來源 1990-2003年的菌痢發(fā)病例數(shù)來源于福建省法定傳染病報表,2004-2013年的例數(shù)來源于福建省各級衛(wèi)生機構通過中國疾病預防控制信息系統(tǒng)的報告(按發(fā)病日期)。
2.研究方法 運用Eviews 5.0軟件對數(shù)據(jù)進行SARIMA建模和分析,α=0.05(雙側)。
(1)原理 SARIMA模型也稱為乘積ARIMA模型,是隨機季節(jié)模型與ARIMA模型的結合。對于非平穩(wěn)且存在季節(jié)性的時間序列不能直接建立ARIMA模型,可考慮對其進行非季節(jié)差分和季節(jié)性差分以使其平穩(wěn)化,基本模型為:SARIMA(p,d,q)(P,D,Q)S,一般表達式為:φp(L)ΦP(LS)(1-L)d(1-LS)Dyt=θq(L)ΘQ(LS)εt。其中,P、Q是季節(jié)自回歸過程SAR的階數(shù)和移動平均過程SMA的階數(shù);p、q分別是非季節(jié)自回歸過程AR的階數(shù)和移動平均過程MA的階數(shù);d、D分別是序列yt的非季節(jié)差分階數(shù)和季節(jié)差分階數(shù)。φp(L)、ΦP(LS)分別是非季節(jié)自回歸過程AR和季節(jié)自回歸過程SAR的滯后算子多項式,(1-L)d、(1-LS)D分別是對序列yt的非季節(jié)差分和季節(jié)差分滯后算子,S是季節(jié)差分的步長,θq(L)、ΘQ(LS)分別是非季節(jié)移動平均過程MA和季節(jié)移動平均過程SMA的滯后算子多項式,εt是殘差序列(白噪聲序列)。
(2)方法 ①先繪制原序列JL的曲線圖識別其基本形式,加入截距項和時間趨勢項做ADF單位根檢驗和Q統(tǒng)計量以判斷平穩(wěn)性。若為非平穩(wěn),可考慮對其取自然對數(shù)后做1次1階非季節(jié)差分和1次12階季節(jié)性差分使之滿足平穩(wěn)性條件。②對新序列的自相關函數(shù)和偏相關函數(shù)識別SARIMA模型的形式。③估計SARIMA模型參數(shù),對結果進行t檢驗(參數(shù)檢驗)以及通過Q檢驗進行殘差分析(白噪聲檢驗)。若殘差序列不是白噪聲序列,說明殘差序列中還存在有用的信息未被提取,需對原模型進一步改進,從而得到更合適的模型。④利用調(diào)整R2、AIC準則和SC準則對模型評價,調(diào)整R2越大、AIC和SC越小,可以認為越好[5]。⑤利用所估計的SARIMA模型,進行回代評價和預測。
1.原序列分析 1990-2012年福建省菌痢月發(fā)病例數(shù)序列呈現(xiàn)逐年下降趨勢和周期性波動,ADF單位根檢驗,P=0.01<0.05,可認為該序列為平穩(wěn)。但自相關圖呈現(xiàn)顯著的余弦波動規(guī)律,說明該序列為非平穩(wěn)。
2.平穩(wěn)化 對原序列取自然對數(shù)后做1次1階非季節(jié)差分和1次12階季節(jié)差分后得到的序列已接近平穩(wěn);ADF單位根檢驗P=0.00<0.05;自相關圖和偏相關圖顯示,差分后的序列平穩(wěn)性已得到明顯改進,滯后1階和12階處顯著地不為0,其它近似為1個平穩(wěn)過程。因此,可認為序列已得到平穩(wěn)化。
3.建模 上述差分可知d=1、D=1,由于自相關函數(shù)和偏相關函數(shù)在滯后1階和12階都顯著不為0,因此P=1、Q=1;另外,自相關圖滯后1階呈截尾,偏相關圖拖尾至2階。通過嘗試,3組模型通過t檢驗(p<0.05)和Q檢驗(基本全部p>0.05,已呈明顯的白噪聲序列):SARIMA(2,1,2)(0,1,1)12、SARIMA(0,1,1)(0,1,1)12、SARIMA(1,1,2)(0,1,1)12(表1)。
通過調(diào)整R2、AIC和SC比較,SARIMA(1,1,2)(0,1,1)12擬合優(yōu)度較好(表2)。表達式為:(1+0.75L)(1-L)(1-L12)log(yt)=(1+0.45L-0.35L2)(1-0.79L12)εt。
表1 SARIMA模型的檢驗結果
表2 3組SARIMA模型的擬合優(yōu)度比較
4.預測
采用SARIMA(1,1,2)(0,1,1)12模型回代評估,擬合結果顯示,預測值和實際值吻合較好。1990年1月-1991年3月因經(jīng)差分去除,平均誤差為14.72%。2013年1-3月預測相對誤差較大,且1月和2月的實際值大于預測值的95%CI,4-7月預測相對誤差均不高于10%,2013年預測標準誤(S.E)較?。ū?)。
由于受到以氣溫為主的氣候[6]等季節(jié)性因素影響,由原時間序列曲線圖可知,福建省菌痢發(fā)病存在明顯的周期性變化,比較適合建立SARIMA模型定量預測月(周)發(fā)病數(shù)(率),從而作為重要參考依據(jù)之一,為傳染病風險評估提供基礎數(shù)據(jù),對菌痢發(fā)生風險的可能性及嚴重性進行科學評估。
由SARIMA(1,1,2)(0,1,1)12模型預測的福建省菌痢發(fā)病例數(shù)預測值與實際值擬合比較理想,相對誤差較低,標準誤較小,表明該模型預測較為準確、精度較高,可以認為它對于原序列是個理想的模型。但需要提出的是,時間序列模型比較適合短期預測,隨著預測期增加,模型預測的相對誤差也在變大。若預測1993年1月-2013年12月菌痢的發(fā)病例數(shù)時,置信區(qū)間隨年份的增加而漸寬,相對誤差愈大(后期月份高達99.73%),這樣就大大降低了預測精度,從而使得預測失去意義。本研究采取逐年回代方法進行預測得到的1991年4月-2012年12月菌痢發(fā)病例數(shù)和實際值擬合較好。同樣,若進行2013年1月-2014年12月預測,那么2014年預測值的置信區(qū)間較寬,與實際值的相對誤差也可能較大。
表3 福建省2013年菌痢發(fā)病預測情況
雖然預測值相對誤差越小、標準誤越小,說明預測精度就越高。但2013年1-3月的預測相對誤差較大,且1-2月的實際值大于預測值的95%CI上限,尚不能說明本研究SARIMA(1,1,2)(0,1,1)12模型預測效果差??紤]到此模型回代擬合效果理想;另外,近年福建省菌痢發(fā)病例數(shù)呈下降趨勢,而2013年1-3月卻高于2012年同期。因此,排除此模型預測效果差的問題,可以考慮2013年初菌痢發(fā)病高于預警值(95%CI上限值),存在風險,而需要提高警惕。
對于有著明顯的季節(jié)性和周期性的時間序列,只是采用ARMA、ARIMA等簡單的時間序列模型,那么做出的預測往往不準確。因此SARIMA模型在傳染病領域有著廣泛的適用性,它不只適用于菌痢,還適用于手足口病、戊肝、麻疹、流行性感冒、甲肝、腎綜合征出血熱、流行性腮腺炎、風疹等季節(jié)性傳染?。?-9]的短期預測。通過本研究發(fā)現(xiàn),合適的SARIMA模型預測對傳染病風險評估有一定實用價值。但在實際應用中,應該不斷加入新的實際值,然后修正模型和重新擬合預測值[10],這樣才能為傳染病風險評估提供可靠的基礎數(shù)據(jù),從而為傳染病的防控提供較大的幫助。
1.Feil EJ.The Emergence and spread of dysentery.Nature genet,2012,44(9):964-965.
2.Hoe CH,Yasin RM,Koh YT,et al.Antimicrobial susceptibility and pulsed-field gel electrophoresis of Shigella sonnei strains in Malaysia(1997-2000).Journal of Applied M icrobiology,2005,99(1):133-140.
3.鐘豪杰,常昭瑞,張靜.中國2007年細菌性痢疾監(jiān)測分析.中華流行病學雜志,2010,31(3):304-307.
4.祝寒松,洪榮濤,歐劍鳴,等.福建省2005-2011年細菌性痢疾流行病學分析.中國預防醫(yī)學雜志,2013,14(4):288-291.
5.胡建利,梁祁,吳瑩,等.季節(jié)時間序列模型在菌痢發(fā)病預測中的應用.中國衛(wèi)生統(tǒng)計,2012,29(1):34-39.
6.Zhang Y,Bi P,Sun Y,et al.Projected Years Lost due to Disabilities(YLDs)for bacillary dysentery related to increased temperature in temperate and subtropical citiesof China.Journal of EnvironmentalMonitoring,2012,14(2):510-516.
7.彭志行,陶紅,賈成梅,等.時間序列分析在麻疹疫情預測預警中的應用研究.中國衛(wèi)生統(tǒng)計,2010,27(5):459-463.
8.謝忠杭,歐劍鳴,張瑩珍,等.應用ARIMA模型預測福建省戊型肝炎疫情.中國人獸共患病學報,2011,27(11):1047-1050.
9.張韜,馮子健,楊維中,等.模糊時間序列分析在腎綜合征出血熱發(fā)病率預測的應用初探.中國衛(wèi)生統(tǒng)計,2011,28(2):146-150.
10.Mehdi K,Mehdi B,Heiazi SR.Combining seasonal ARIMA models w ith computational intelligence techniques for time series forecasting. Soft Comput,2012,16(6):1091-1105.
(責任編輯:丁海龍)
Application of SARIMA M odel for Risk Assessment of Bacillary Dysentery in Fujian Province
Zhu Hansong,Huang Wenlong,Zhang Canm ing(FujianProvincialCenterforDiseaseControl&Prevention(350001),F(xiàn)uzhou)
ObjectiveForecast the bacillary dysentery incidence of Fujian province through SARIMA model,in order to provide scientific quantitative data for risk assessment.MethodsThemonthly cases of bacterial dysentery in Fujian province from January,1990 to December,2013 were analyzed for SARIMA using Eviews 5.0 software.Autocorrelation function and the ADF unit root testwere analyzed to determ ine the stability of the original sequence.Then SARIMA model parameterswere estimated through the autocorrelation function and partial correlation function,and the results were evaluated byt-test as well asQtest,after which adjusted R2,AIC and SC criterion were used to estimate those attained models.Finally,results were evaluated through back substitution and forecast.ResultsThe parameters of SARIMA(2,1,2)(0,1,1)12、SARIMA(0,1,1)(0,1,1)12and SARIMA(1,1,2)(0,1,1)12were statistically significant,and the residual was white noise.SARIMA(1,1,2)(0,1,1)12was the optimalmodel of those three,and expressed as:(1+0.75L)(1-L)(1-L12)log(yt)=(1+0.45L-0.35L2)(1-0.79L12)εt.The average relative error of back generation forecast testswas14.72%,so fitting resultswere satisfactory.In addition,forecast value of 2013 had a good standard error ofmean,in which relative error of April to July were less than 10%.ConclusionSARIMA model could forecastaccurately for bacillary dysentery incidence in Fujian province,thus it can provide reliable data base in order to judge the risk of infectious diseasemore timely and scientifically.
SARIMA;Bacillary dysentery;Forecast;Risk assessment
2013年福建省衛(wèi)生廳青年科研課題(2013-1-13);福建省疾病預防控制中心青年科研項目(2011-24);
△通信作者:章燦明,E-mail:canm ingzhang@163.com.