楊 靜 張 強
ARIMA模型在成都市成華區(qū)狂犬病暴露監(jiān)測數據分析中的應用
楊 靜1,2張 強1△
目的了解成都市成華區(qū)狂犬病暴露監(jiān)測數據的基本情況和特征;利用狂犬病暴露數據建立ARIMA模型,對2016年狂犬病暴露數據進行預測,為人用狂犬病疫苗、免疫球蛋白需求計劃,犬傷處置報銷費用預算的制定提供參考依據。方法應用SPSS19.0對成都市成華區(qū)2009-2014年逐月狂犬病暴露數據構建ARIMA模型,以2015年狂犬病暴露數據為驗證樣本,驗證模型的預測效果,并預測2016年逐月狂犬病暴露數據。結果最優(yōu)模型ARIMA(1,0,0)(1,1,0)12能較好地擬合既往時間段的狂犬病暴露數據序列,擬合值與實際值基本保持一致的曲線趨勢。2015年1月-12月檢驗樣本的預測結果顯示,暴露實際值均在預測可信區(qū)間內,均方根誤差為28.79,平均絕對誤差為82.36,平均絕對誤差百分比為9.08%。結論ARIMA(1,0,0)(1,1,0)12模型能較好地擬合成都市成華區(qū)狂犬病暴露數變動趨勢,適用于狂犬病暴露人數的預測。
狂犬病 ARIMA模型 預測
狂犬病是由狂犬病毒引起的一種侵犯中樞神經系統為主的急性人獸共患傳染病。王梅、周航等人[1]的研究顯示,狂犬病的發(fā)病具有明顯的季節(jié)性,發(fā)病高峰在夏、秋季。開展狂犬病暴露監(jiān)測數據的分析應用,是合理制定疫苗需求計劃、犬傷處置費用報銷政策等狂犬病防控措施的有力保障。ARIMA模型是時間序列分析中較為成熟和應用較為廣泛的方法之一,通過差分對序列線性趨勢、周期性等確定性信息進行提取,具有充分利用歷史觀測值,短期預測效果較好的優(yōu)勢。本文利用成都市成華區(qū)2009-2015年狂犬病暴露監(jiān)測月報表數據構建ARIMA模型,預測2016年逐月狂犬病暴露數,為該區(qū)2016年人用狂犬病疫苗、免疫球蛋白的需求計劃和犬傷處置報銷費用預算的制定提供參考依據。
1.資料來源
數據來源于2009-2015年成華區(qū)各家犬傷門診的《成都市成華區(qū)犬傷門診月報表》。
2.ARIMA模型建模過程
(1)時間變量的定義與序列平穩(wěn)化 將2009年1月-2015年12月成華區(qū)犬傷月報表數據序列的時間單位定義為年份、季度、月份型。通過時間序列圖觀察序列的平穩(wěn)性,對不平穩(wěn)的序列進行數據轉化、差分處理,使其成為零均數的平穩(wěn)時間序列,達到以下要求[2]:均數不隨時間變化;方差不隨時間變化;自相關系數與所在的時間點無關,僅與時間間隔距離有關。
(2)模型識別和定階 自回歸移動平均模型ARIMA(p,d,q),可以寫成Φ(B)wt=θ(B)ut,其中wt為zt的d階差分;ut為隨機剩余項(又稱為白噪聲),p是自回歸的階數,d指差分的次數,q是移動平均的階數。包含季節(jié)趨勢的時間序列可通過ARIMA(p,d,q)(P,D,Q)s過程來擬合,其中P,D,Q,s分別是季節(jié)性自回歸階數、季節(jié)差分次數、季節(jié)性移動平均階數、季節(jié)周期。定階即利用自相關圖(ACF)、偏自相關圖(PACF)和互相關圖(CCF)確定p、d、q等參數的過程,首先根據ACF、PACF圖形的截尾或拖尾情況進行模型的初步擬合,再根據擬合的結果進行相應調整、不斷修正,并結合評價指標由低階向高階選擇模型的辦法確定模型的p、d和q。
(3)參數的估計 依據BIC確定模型的階數,采用最小二乘法估計出p個自回歸參數φ1、φ2…φp,q個移動平均參數θ1、θ2…θq,P個季節(jié)自回歸參數Ф1、Ф2…ФP,以及Q個季節(jié)移動平均參數
(4)模型的檢驗與優(yōu)化 根據平穩(wěn)的R方、正態(tài)化的BIC準則判斷模型的擬合優(yōu)度(BIC值相對較小的模型較好)。由Ljung-BoxQ檢驗結果對模型殘差序列進行白噪聲檢驗,判斷所建模型的適合性。在所有通過檢驗的模型中,確定標準化的BIC值較小,模型較為簡潔的為最優(yōu)模型[4]。
(5)模型的驗證和預測 以2015年1-12月犬傷暴露數據為驗證樣本,采用均方根誤差(RMSE)、平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)作為評價指標,通過比較預測值和真實值來評價模型的預測精度。選用較優(yōu)模型對2016年狂犬病逐月暴露數進行預測。
3.統計軟件處理
利用SPSS 19.0統計軟件建立ARIMA模型,P<0.05表示差異有統計學意義。
1.成華區(qū)狂犬病暴露監(jiān)測數據基本情況
成都市成華區(qū)2009-2015年狂犬病暴露逐月監(jiān)測數呈現明顯的季節(jié)性波動,每年從1月開始呈逐月上升趨勢,至7、8月份達到峰值,之后逐月下降。2009-2015年的狂犬病暴露數最低為8441例,最高為10285例,年平均數為9023例,年暴露監(jiān)測數基本圍繞該平均值波動。
2.序列的平穩(wěn)化
觀察原始序列自相關圖發(fā)現序列有周期性變化規(guī)律,周期為12個月。原始偏自回歸函數在k=1后呈現余弦衰減波形。因此,需對原始序列進行一次季節(jié)性差分,觀察差分后的自相關和偏相關分析圖,可見,其自相關函數在k=1后呈現衰減趨勢,僅當k=1和k=12時,自回歸系數明顯突破了可信區(qū)間界值,其偏自回歸函數在k=1后呈現逐漸衰減至零的趨勢,并落入可信區(qū)間,此時的時間序列已基本趨于平穩(wěn),見圖1。
圖1 成都市成華區(qū)狂犬病暴露監(jiān)測數一階季節(jié)差分自相關和偏相關分布圖
3.模型的識別和定階
由于成都市成華區(qū)2009年1月-2014年12月狂犬病暴露數序列存在明顯的季節(jié)性趨勢,季節(jié)性周期為12個月,故選用ARIMA(p,d,q)(P,D,Q)S過程來擬合建模。對序列進行了1次季節(jié)性差分,因此確定d=0,D=1。根據一階季節(jié)差分的ACF圖,k=1后函數呈現衰減趨勢,只有k=1、k=2和k=12時,自回歸系數突破了可信區(qū)間界值,可以選擇q=1或2,Q=1。根據一階季節(jié)差分的PACF圖,k=1后函數呈現衰減趨勢,可以選擇p=1,P=1。因此可以選出5組模型,ARIMA(1,0,1)(1,1,1)12、ARIMA(1,0,0)(1,1,1)12、ARIMA(1,0,0)(1,1,0)12、ARIMA(2,0,1)(1,1,1)12、ARIMA(2,0,0)(1,1,0)12。
4.模型參數估計
模型ARIMA(1,0,0)(1,1,0)12的標準化BIC值=9.304,在擬合的所有模型中最小;模型擬合效果度量Ljung-Box Q差異無統計學意義(Q=22.076,P=0.141),模型的殘差為白噪聲;且模型中的參數檢驗均有意義,見表1,說明所擬合模型是有效的。
表1 成都市成華區(qū)狂犬病暴露監(jiān)測數的ARIMA模型參數估計
5.預測效果分析
應用模型ARIMA(1,0,0)(1,1,0)12對2009年1月-2015年12月的狂犬病暴露數進行回代預測,結果顯示擬合值與實際值基本保持一致的曲線趨勢,且實際值均在預測可信區(qū)間內,預測均方根誤差為28.79,平均絕對誤差為82.36,平均絕對誤差百分比為9.08%,見圖2和表2。同時預測2016年狂犬病暴露數顯示,2016年各月狂犬病暴露數的趨勢繼續(xù)跟歷年數據趨勢一致,暴露高峰將出現在5~8月,見圖2和表3。
圖2 成都市成華區(qū)狂犬病暴露監(jiān)測數ARIMA(1,0,0)(1,1,0)12預測模型擬合圖
表2 ARIMA(1,0,0)(1,1,0)12模型預測成華區(qū)2015年狂犬病暴露數的驗證結果
表3 ARIMA(1,0,0)(1,1,0)12模型對成華區(qū)2016年狂犬病暴露數的預測結果
ARIMA模型是一種精確度較高的短期預測方法,通過季節(jié)性差分和非季節(jié)性差分削弱序列趨勢性及季節(jié)周期性的干擾,并結合模型參數對時間序列進行擬合和預測[5]。在利用ARIMA模型對時間序列進行預測時,為保證模型的預測精度至少需要50個以上的歷史統計數據[6]。本次研究利用過去6年的狂犬病暴露逐月監(jiān)測數據,建立ARIMA(1,0,0)(1,1,0)12模型對成都市成華區(qū)狂犬病暴露數據進行預測。在實際應用中,需不斷用新的數據對已建模型進行修正,提高模型預測的精度[7]。吳家兵[8]等人提出如果網絡模型預測對象的慣性趨勢發(fā)生了較大的變化(如采取了新的防控措施),則需要收集新的數據對模型進行修正或重新擬合。
目前,ARIMA模型已廣泛應用于傳染病發(fā)病的預測[9-12]。在模型的擬合過程中,首先對原始時間序列進行觀察,如果未達平穩(wěn)化要求,則進行差分或(和)季節(jié)差分,使其達到平穩(wěn)化的要求,確定D或(和)d。隨后通過對ACF圖和PACF圖的觀察識別,對自回歸模型和移動平均模型的p、q進行定階,產生幾個試用模型。依據BIC值診斷模型的擬合優(yōu)度,并根據簡潔、殘差不相關的原則篩選出最優(yōu)模型。本研究最終確定的最優(yōu)模型為ARIMA(1,0,0)(1,1,0)12。該模型對成都市成華區(qū)2009-2015年狂犬病逐月暴露監(jiān)測數據實際值進行了較好的擬合,回代預測2015年1月-12月狂犬病暴露數預測值與實際值的平均絕對誤差百分比為9.08%,顯示預測數據與實際數據吻合程度較高,提示利用ARIMA(1,0,0)(1,1,0)12模型能對狂犬病暴露數進行較好的預測。
全國狂犬病年暴露人數逾4000萬[13]??袢”┞兜谋O(jiān)測工作對狂犬病防控效果的評估、防控策略的調整及疫情趨勢的預測分析均具有重要意義[14]。本研究結果顯示:成都市成華區(qū)2009年-2015年的狂犬病暴露數圍繞9023例的年平均值上下波動,說明成都市成華區(qū)近年積極開展狂犬病暴露監(jiān)測及暴露后的規(guī)范化處置、犬傷處置費用限額報銷及健康教育等綜合防制措施的成效顯著。ARIMA(1,0,0)(1,1,0)12模型的擬合預測曲線顯示:每年狂犬病逐月暴露數呈季節(jié)性的單峰分布,7、8月份為高峰值月,這與王梅[1]等人研究結果一致;對2016年的預測結果顯示:2016年逐月狂犬病暴露數與歷年數據趨勢一致,暴露高峰將出現在5-8月。
結合本研究的結果,在下一步工作中應繼續(xù)加強狂犬病暴露數據監(jiān)測,不斷收集和使用新的數據修正預測模型,以提高預測精度,更好地提供參考依據;根據預測值和趨勢,科學制定人用狂犬病疫苗的需求計劃,做好經費預算,促進犬傷處置費用報銷政策的順利實施;在暴露高峰期加大健康教育工作力度。
[1]王梅,周航,殷文武,等.中國2005-2011年人狂犬病不同地區(qū)季節(jié)分布特征研究.中華流行病學雜志,2012,33(11):1151-1154.
[2]張文彤,董偉.SPSS統計分析高級教程.第2版.高等教育出版社,2013:395-398.
[3]陳斌,周伴群,焦亮,等.ARIMA模型在狂犬病暴露監(jiān)測中的應用.中國預防醫(yī)學雜志,2011,12(5):427-430.
[4]潘浩,鄭楊,吳寰宇,等.ARIMA模型預測上海市手足口病發(fā)病趨勢.預防醫(yī)學情報雜志,2011,27(6):408-411.
[5]丁磊,丁淑軍,張萌,等.應用時間序列分析研究秋冬型恙蟲病時間分布特征及趨勢.中華流行病學雜志,2012,33(7):698-701.
[6]劉重程,李宏通,唐雅清,等.ARIMA模型在細菌性痢疾預測中的應用.中國預防醫(yī)學雜志,2011,12(10):842-844.
[7]張越,王勝難,劉媛,等.應用ARIMA模型對呼吸系統疾病月住院量及住院費用的預測.中國衛(wèi)生統計,2015,32(2):197-200.
[8]吳家兵,葉臨湘,尤爾科.ARIMA模型在傳染病發(fā)病率預測中的應用.數理醫(yī)藥雜志,2007,20(1):90-92.
[9]李驪,錢俊,楊軍,等.三種模型對廣東省副傷寒逐月發(fā)病數預測的比較.中國衛(wèi)生統計,2014,31(2):197-201.
[10]焦亮,阮峰,黃利群,等.基于ARIMA的流感癥狀預測模型.實用預防醫(yī)學,2010,17(8):1482-1486.
[11]吳偉,郭軍巧,安淑一,等.應用ARIMA-GRNN模型對腎綜合征出血熱發(fā)病率時間序列數據的預測研究.中國衛(wèi)生統計,2015,32(2):211-213.
[12]陳偉,陳正利,李少芳,等.ARIMA模型在河南省梅毒月發(fā)病率預測中的應用.中國衛(wèi)生統計,2013,30(4):604-606.
[13]Cui PY,Hang Z,HuiW.Analysis on Factors Related to Rabies Epidemic in China from 2007-2011.Virologica Sinica,2012,27(2):132-143.
[14]周興余,劉學成,張佳珂.2010年四川省狂犬病監(jiān)測.預防醫(yī)學情報雜志,2012,28(1):34-37.
(責任編輯:劉 壯)
ARIMA Model in Prediction of the Rabies Surveillance in Chenghua District of Chengdu City
Yang Jing,Zhang Qiang
(Department of Epidemiology and Health Statistics,School of West China Public Health,Sichuan University(610041),Chengdu)
ObjectiveTo understand the basic characteristics of rabies surveillance data in Chenghua district of Chengdu.To establish ARIMA model based on rabies surveillance data collected from recent years,and to forecast the rabies exposed data from January to December in 2016 in Chenghua district,with the purpose of providing evidence for the standardization construction of dog injury clinic and demand planning of rabies vaccine and rabies immunoglobulin.MethodsSPSS 19.0 was used to establish ARIMA model based on the monthly rabies surveillance data from 2009 to 2014,and case numbers of rabies exposed from January to December in 2015 were used as sample to examine the model accuracy.The optimal ARIMA model was used to predict the monthly rabies exposed numbers in 2016.ResultsThe optimal ARIMA model was ARIMA(1,0,0)(1,1,0)12,which could fit very well with the rabies exposure series in the past period of time.Case numbers of rabies exposed from January to December in 2015 were used as sample to exam ine the model accuracy,the results showed all actual values fell in the 95% confidence intervals of expected values,the mean square error was 28.79,the mean absolute error was 82.36,the mean absolute percentage error was9.08%.ConclusionARIMA(1,0,0)(1,1,0)12could simulate the trend of rabies exposure in the Chenghua district of Chengdu,and can be applied for forecasting the case number of rabies exposed.
Rabies;Surveillance;ARIMA model;Prediction
1.四川大學華西公共衛(wèi)生學院流行病與衛(wèi)生統計學系(610041)
2.成都市成華區(qū)疾病預防控制中心
△通信作者:張強,E-mail:qiangzhang@scu.edu.cn