陸波 閔紅星 扈學(xué)琴 閔佳
時間序列模型預(yù)測流感發(fā)病率的研究
陸波 閔紅星 扈學(xué)琴 閔佳
目的 探討ARIMA模型在流感發(fā)病預(yù)測方面適用性, 為擴(kuò)大該模型在傳染病發(fā)病預(yù)測方面的應(yīng)用提供科學(xué)依據(jù)。方法 收集本市醫(yī)療機(jī)構(gòu)2004~2009年的流感月發(fā)病數(shù)資料, 用Eviews6.0軟件ARIMA預(yù)測模型, 對模型的適應(yīng)性進(jìn)行檢驗驗證其有效。結(jié)果 本市流感月發(fā)病數(shù)時間序列的自相關(guān)分析圖顯示數(shù)據(jù)不平穩(wěn), 所以進(jìn)行一階差分, 并建模, 最終模型為ARIMA(0, 2, 0), 所建模型有統(tǒng)計學(xué)意義。說明用ARIMA(0,2,0)模型能夠預(yù)測流感。結(jié)論 ARIMA模型法對不同疾病的預(yù)測效果存在差異,在建模前應(yīng)考慮時間序列的平穩(wěn), 如不平穩(wěn)通過差分把它變換成平穩(wěn)的時間序列化, 且建模的數(shù)據(jù)不能太少, 不能低于50個。
流感;ARIMA模型;預(yù)測
時間序列分析方法有指數(shù)平滑和ARIMA模型。ARIMA模型利用計算軟件常規(guī)運(yùn)算, 要求時間序列滿足平穩(wěn)性條件, 且對資料的要求也不高, 是用變量過去的觀測值來預(yù)測同一變量的未來值, 適用于任何時間序列發(fā)展形態(tài)的高級預(yù)測方法。
1.1 一般資料 本市2004年1月~2008年12月的流感月發(fā)病數(shù)(60個數(shù)據(jù))通過國家疾病報告管理系統(tǒng)進(jìn)行收集,建立預(yù)測模型, 用2008年各月發(fā)病數(shù)進(jìn)行組外回代和組內(nèi)回代, 對2009年流感的發(fā)病情況進(jìn)行預(yù)測。
1.2 統(tǒng)計預(yù)測方法 用Eviews6.0進(jìn)行數(shù)據(jù)處理與分析。
2.1 流感流行特征分析 見圖1。
2.2 建立預(yù)測模型 ①模型識別 2004~2008年原始時間序列進(jìn)行一級差分處理, 通過單位根檢驗說明該數(shù)據(jù)滿足平穩(wěn)條件, 取ARIMA(0,2,0)模型。見圖2, 圖3。②參數(shù)估計和模型檢驗 對ARIMA(0,2,0)的適應(yīng)性進(jìn)行檢驗。根據(jù)SPSS11.5輸出結(jié)果顯示模型所有參數(shù)有統(tǒng)計學(xué)意義, P>0.05;對殘差序列作自相關(guān)函數(shù)圖, 顯示殘差序列為白噪聲, 說明所選的ARIMA(0,2,0)模型可以用于預(yù)測, 見圖4。③預(yù)測應(yīng)用, 見圖5。
3.1 ARIMA模型法在傳染病預(yù)測的意義 近年來, 有學(xué)者開始探討其在醫(yī)學(xué)領(lǐng)域的應(yīng)用, 認(rèn)為該方法能較好的適用于疾病發(fā)病或死亡的預(yù)測預(yù)報[1]。2003年, 有學(xué)者應(yīng)用這種方法預(yù)測SARS的疫情趨勢, 取得了較好的效果[2]。相比之下認(rèn)為, ARIMA模型是一種精度較高的短期預(yù)測模型[3], 此模型本研究應(yīng)用ARIMA模型法預(yù)測傳染病, 是用預(yù)測疾病的過去值和現(xiàn)在值, 預(yù)測未來值, 參照預(yù)測數(shù)據(jù)有目的地開展傳染病的防控工作。
3.2 ARIMA模型法可以用于流感發(fā)病的預(yù)測 根據(jù)本市2004~2008年各月份的流感發(fā)病數(shù)序列的時序圖發(fā)現(xiàn):流感月發(fā)病數(shù)呈現(xiàn)明顯波動, 每年12月或次年1月為發(fā)病高峰月,有相對固定的季節(jié)性或周期性波動。但2006年12月和2007年1月流感樣病例數(shù)出現(xiàn)2次高峰, 是由于這一時期銀川市發(fā)生2次學(xué)校流感暴發(fā)疫情引起。對AR(1)模型進(jìn)行一級差分處理和單位根檢驗, 使數(shù)據(jù)滿足平穩(wěn)條件, 將模型優(yōu)化為ARIMA(0,2,0)模型建模, 并對ARIMA(0,2,0)的適應(yīng)性進(jìn)行檢驗, 顯示殘差序列為白噪聲, 說明所選的ARIMA(0,2,0)模型是合適的, 可用來預(yù)測, 用Eviews6.0擬合模型, 得到的五年預(yù)測效果的擬合優(yōu)度R2為0.258, 相關(guān)系數(shù)為0.5079。因此,所選的ARIMA(0,2,0)所建模型, 有統(tǒng)計學(xué)意義。
圖1 銀川市2004~2008年流感月發(fā)病數(shù)時序圖
圖2 2004~2008年流感發(fā)病原始數(shù)據(jù)的自相關(guān)圖、偏相關(guān)圖及統(tǒng)計量
圖3 2004-2008年流感發(fā)病一級差分后的自相關(guān)圖、偏相關(guān)圖及統(tǒng)計量
圖4 2004~2008年流感殘差自相關(guān)檢驗結(jié)果
圖5 2004~2008年流感實際發(fā)病數(shù)與預(yù)測發(fā)病數(shù)
[1] 鐘朝暉,劉達(dá)偉,張燕.重慶市主城區(qū)入口死亡率的時間序列分析.中國公共衛(wèi)生, 2003, 19(7):796-799.
[2] 方兆本,李紅星,楊見萍.基于公開數(shù)據(jù)SARS流行規(guī)律的建模及預(yù)報.數(shù)理統(tǒng)計與管理, 2003, 22(5):48-52.
[3] 邢慧嫻,楊維中,王漢章.傳染病預(yù)測.預(yù)防醫(yī)學(xué)情報雜志, 2006, 6(4):639-642.
750004 寧夏醫(yī)科大學(xué)總醫(yī)院
閔紅星