馬曉晨 牛彥麟 吳陽博 王超 王同瑜 馬蕊
食源性疾病是全球重點關(guān)注的公共衛(wèi)生問題,造成嚴(yán)重的疾病負(fù)擔(dān)。食物中毒是常見的食源性疾病,影響我國食品安全的主要問題,對其發(fā)病趨勢進(jìn)行早期預(yù)警、預(yù)測,為食物中毒控制工作提供參考依據(jù),從而最大程度降低決策的盲目性。食物中毒的發(fā)生具有長期趨勢、季節(jié)性、短期波動和不規(guī)則變動等特點。時間序列分析是運用歷史的觀點,根據(jù)系統(tǒng)有限長度的動態(tài)數(shù)據(jù),分析序列的基本趨勢、擬合理論模型并用于預(yù)測序列的未來發(fā)展趨勢[1]。ARIMA模型是復(fù)合的季節(jié)模型,適合一些有季節(jié)變化的時間序列?,F(xiàn)通過運用ARIMA模型對2004-2016年北京市13年食物中毒數(shù)據(jù)進(jìn)行時間序列分析并建立預(yù)測模型,探討通過ARIMA模型進(jìn)行食物中毒發(fā)病情況預(yù)測的可行性,為預(yù)防和控制食源性疾病提供依據(jù)。
1.1資料來源 2004-2010年食物中毒發(fā)病人數(shù)數(shù)據(jù)來源于北京市衛(wèi)生監(jiān)督所歷年食物中毒報表,2011-2016年食物中毒發(fā)病人數(shù)來源于北京市食源性疾病暴發(fā)監(jiān)測系統(tǒng)。
1.2食物中毒的判定標(biāo)準(zhǔn) 食物中毒所有事件均經(jīng)過流行病學(xué)調(diào)查,食物中毒的確定符合GB14938-94《食物中毒診斷標(biāo)準(zhǔn)及技術(shù)處理總則》的技術(shù)要求。
1.3研究方法 ARIMA預(yù)測模型,ARIMA(p,d,q)(P,D,Q)s,其中p和q為自回歸和移動平均階數(shù),d為差分次數(shù),P和Q為季節(jié)性自回歸和移動平均階數(shù),D為季節(jié)性差分次數(shù),s為季節(jié)周期。ARIMA模型建模的4個基本步驟:(1)序列平穩(wěn)化。要求原始序列平穩(wěn),均數(shù)和方差不隨時間變化;(2)模型識別。根據(jù)時序圖和自相關(guān)圖(ACF)和偏自相關(guān)圖(PACF),分析時間序列的隨機性、平穩(wěn)性和季節(jié)性,選擇一個模型來擬合數(shù)據(jù);(3)參數(shù)估計和模型診斷。通過擬合優(yōu)度檢驗得到統(tǒng)計量對數(shù)似然函數(shù)、貝葉斯信息準(zhǔn)則(BIC)等并進(jìn)行假設(shè)檢驗,要求殘差為白噪聲;(4)模型預(yù)測。以2004-2015年各季度食物中毒發(fā)病人數(shù)擬合模型,利用2016年各季度發(fā)病人數(shù)和事件數(shù)檢驗?zāi)P皖A(yù)測效果,根據(jù)預(yù)測值得到95%置信區(qū)間,計算預(yù)測值與實際值的相對誤差,以判斷模型的預(yù)測精度,并進(jìn)一步預(yù)測2017年食物中毒發(fā)病人數(shù)。
1.4統(tǒng)計學(xué)方法 采用SPSS 20.0建立2004-2016年各季度食物中毒發(fā)病人數(shù)數(shù)據(jù)庫,并利用時間序列分析模塊進(jìn)行數(shù)據(jù)處理與分析。
2.1序列平穩(wěn)化 將北京市2004-2015年食物中毒的發(fā)病人數(shù)分別繪制序列圖(圖1)。由圖1可知,北京市食物中毒發(fā)病人數(shù)呈明顯的非平穩(wěn)性和周期性。食物中毒發(fā)病人數(shù)呈明顯的季節(jié)波動,第3季度出現(xiàn)中毒高峰,第1季度表現(xiàn)為低谷期。對食物中毒發(fā)病人數(shù)經(jīng)自然對數(shù)轉(zhuǎn)換、一次季節(jié)性差分后,基本消除了趨勢性和季節(jié)性的影響,滿足時間序列分析對于平穩(wěn)性的要求(圖2)。
注:Q1為第1季度,Q3為第3季度。圖1 北京市2004-2015年食物中毒季度發(fā)病人數(shù)時間序列圖
注:Q1為第1季度,Q3為第3季度。圖2 經(jīng)過自然對數(shù)和一階季節(jié)差分后的食物中毒季度發(fā)病人數(shù)時間序列圖
2.2模型的識別 經(jīng)自然對數(shù)和一階季節(jié)差分后可得到較為平穩(wěn)序列,可初步估計食物中毒人數(shù)滿足ARIMA(p,0,q)×(P,1,Q)4模型,4表示以4個季度為周期。根據(jù)ACF(圖3)與PACF(圖4)表明可初步選擇p=1,q=0,ARIMA(1,0,0)×(P,1,Q)4。
圖3 經(jīng)自然對數(shù)轉(zhuǎn)換、一階季節(jié)差分后的偏自相關(guān)圖
圖4 經(jīng)自然對數(shù)轉(zhuǎn)換、一階季節(jié)差分后的偏自相關(guān)圖
2.3參數(shù)估計與模型診斷 對模型進(jìn)行參數(shù)估計,SPSS 20.0自動對模型進(jìn)行選擇,食物中毒發(fā)病人數(shù)的模型為ARIMA(1,0,0)×(1,1,0)4為最優(yōu)模型;通過運算標(biāo)準(zhǔn)BIC為9.263,調(diào)整R2為0.533,經(jīng)檢驗?zāi)P蛥?shù)經(jīng)統(tǒng)計學(xué)檢驗得到P<0.05,具有統(tǒng)計學(xué)意義。殘差的ACF圖和PACF圖(圖5)顯示殘差的ACF和PACF均在置信區(qū)間內(nèi),且殘差序列Ljung-Box檢驗統(tǒng)計量Q=17.03,P=0.383,差異無統(tǒng)計學(xué)意義,說明殘差序列為白噪聲,建立的模型恰當(dāng)。
圖5 模型ARIMA(1,0,0)×(1,1,0)4殘差序列的ACF、PACF圖
2.4模型預(yù)測 利用所建立的ARIMA(1,0,0)×(1,1,0)4模型,對2004-2015年北京市食物中毒發(fā)生人數(shù)進(jìn)行擬合,對2016年北京市食物中毒發(fā)生人數(shù)進(jìn)行預(yù)測,通過預(yù)測值與實際值的比較來驗證模型,同時對2017年北京市食物中毒生人數(shù)進(jìn)行預(yù)測。結(jié)果顯示擬合值和實際值相比,雖然存在一定的差異性,但實際值均在擬合值的95%CI范圍內(nèi)(圖6)。如表1所示,2016年的食物中毒人數(shù)預(yù)測值與實際值比較,得到平均相對誤差率為6%。預(yù)測2017年北京市食物中毒的發(fā)生人數(shù)為264人(表2)。
表1 2016年北京市食物中毒發(fā)生人數(shù)實際值與
注:Q1為第1季度,Q3為第3季度。圖6 北京市食源性疾病發(fā)生人數(shù)模型擬合序列圖
季度預(yù)測值置信區(qū)間(下限)置信區(qū)間(上限)1250229298030438802944530259合計264——
3.1目前用于疾病預(yù)測的模型很多,如多元回歸分析、指數(shù)平滑分析等。與其他疾病相比,食物中毒影響因素較多,很難采用多元回歸等模型對其進(jìn)行預(yù)測。而時間序列模型能夠充分利用一系列按時間順序記錄的數(shù)據(jù),發(fā)現(xiàn)事物隨時間變化的規(guī)律。ARIMA模型過程簡便、短期預(yù)測精度較高,是目前應(yīng)用較多的時間序列預(yù)測方法之一[2-6]。
3.2本研究選擇了2004-2015年季度發(fā)病人數(shù)共48個數(shù)據(jù)建模,經(jīng)過模型篩選,最終確立了ARIMA(1,0,0)×(1,1,0)4模型,并對2017年的發(fā)病情況進(jìn)行了預(yù)測。結(jié)果表明模型可較好的擬合北京市食物中毒季度發(fā)病人數(shù)的變化規(guī)律,特別是在2010年以后預(yù)測的擬合值與實際值的走向基本一致,顯示出較好的預(yù)測精度,各季度發(fā)病人數(shù)實際值都落入預(yù)測值的95%置信區(qū)間,說明運用ARIMA模型預(yù)測北京市食物中毒發(fā)病人數(shù)的變化趨勢是可行的。不同研究在運用ARIMA模型對本地區(qū)數(shù)據(jù)進(jìn)行擬合時,模型的預(yù)測誤差不同,張愛紅等[5]的研究擬合平均相對誤差為2.70%,陳玲等[6]的研究為9.59%。本研究的中ARIMA模型預(yù)測誤差為6.00%,可能與以下因素有關(guān):一是用于建立模型的數(shù)據(jù)還不夠多,二是某些年的食物中毒的發(fā)生受一些突發(fā)事件的影響。
綜上所述, 可以運用ARIMA模型方法對北京市食物中毒發(fā)病人數(shù)進(jìn)行預(yù)測,但值得注意的是食物中毒的發(fā)病人數(shù)受外界環(huán)境多種因素影響,要對其發(fā)生趨勢進(jìn)行更為準(zhǔn)確的預(yù)測,還需要在模型中納入其它影響因素。此外,單次分析建立的預(yù)測模型,只能用于短期預(yù)測。在實際工作中,應(yīng)收集足夠的時間序列數(shù)據(jù),用新的實際值對已建立模型進(jìn)行修正和重新擬合預(yù)測值,為科學(xué)制定食物中毒預(yù)防控制措施提供依據(jù)。
參考文獻(xiàn)
[1] 孫振球,徐勇勇.醫(yī)學(xué)統(tǒng)計學(xué)[M].北京:人民衛(wèi)生出版社,2002:351-372.
[2] 胡躍華,廖家強,馮國雙,等.ARIMA模型在全國丙型肝炎疫情預(yù)測中的應(yīng)用[J].中國預(yù)防醫(yī)學(xué)雜志,2015,16(4):262-266.
[3] 朱平,侯曉艷,馬平,等.南通市流感樣病例時間序列分析及發(fā)病趨勢的預(yù)測研究[J].現(xiàn)代預(yù)防醫(yī)學(xué), 2015,42(1):160-162.
[4] 高強,蘇琦,范剛.ARIMA模型在2004-2014年淮安市其他感染性腹瀉流行病學(xué)特征及發(fā)病趨勢預(yù)測中的應(yīng)用[J].中國預(yù)防醫(yī)學(xué)雜志, 2016,17(14):1953-1956.
[5] 張愛紅,周培,申銅倩,等.乘積季節(jié)ARIMA模型在食源性疾病預(yù)測中的應(yīng)用[J].中國衛(wèi)生統(tǒng)計,2014,31(1):68-69.
[6] 陳玲,徐慧蘭.自回歸求和移動平均模型在湖南省食物中毒預(yù)測中的應(yīng)用[J].中南大學(xué)學(xué)報(醫(yī)學(xué)版),2012,37(2):142-146.