北京市昌平區(qū)疾病預(yù)防控制中心(102200) 王 濤 苑新海 朱宗龍
傳染病預(yù)測是根據(jù)傳染病發(fā)生、發(fā)展規(guī)律及有關(guān)因素,用分析判斷和數(shù)學(xué)模型等方法對傳染病的發(fā)生、發(fā)展和流行趨勢作出預(yù)測,是制定預(yù)防和控制傳染病的長期或近期應(yīng)對策略的前提[1]。本文以昌平區(qū)乙肝的月發(fā)病數(shù)為基礎(chǔ),應(yīng)用時間序列分析法對其發(fā)病情況建模,并預(yù)測其發(fā)病趨勢,為早期發(fā)現(xiàn)乙肝的流行及制定相關(guān)防治策略提供依據(jù)。
1.資料
北京市昌平區(qū)2005-2012年乙肝發(fā)病數(shù)據(jù)來源于疾病監(jiān)測信息報告管理系統(tǒng)。同時由于昌平區(qū)人口基數(shù)較大且相對穩(wěn)定,最終確定以乙肝發(fā)病數(shù)代替發(fā)病率來進(jìn)行預(yù)測分析。
2.方法
(1)基本思想
標(biāo)準(zhǔn)的ARIMA模型為ARIMA(p,d,q)(P,D,Q)s,其中p、q分別表示自相關(guān)函數(shù)(ACF)和偏自相關(guān)函數(shù)(PACF)的階,d表示差分的次數(shù),P、Q、D分別表示季節(jié)性自相關(guān)函數(shù)和偏自相關(guān)函數(shù)的階和差分的次數(shù),s表示季節(jié)性的周期[2-3]。
(2)建模過程
①數(shù)據(jù)預(yù)處理。首先判斷原序列是否平穩(wěn),若為非平穩(wěn)序列,首先變換為平穩(wěn)序列,根據(jù)變換后序列的自相關(guān)和偏自相關(guān)圖,確定非季節(jié)差分階數(shù)d和季節(jié)差分階數(shù)D。②模型參數(shù)估計。根據(jù)變換后平穩(wěn)時間序列的自相關(guān)和偏自相關(guān)圖,估計模型的p、P、q、Q的值,采用最大似然估計或最小二乘法估計等對初步估計模型進(jìn)行檢驗。模型參數(shù)必須通過t檢驗,且全部特征根的倒數(shù)都小于1[4]。③模型診斷檢驗。模型參數(shù)估計后,對模型殘差是否為白噪聲進(jìn)行檢驗,若殘差序列不是白噪聲序列,意味著殘差序列還存在有沒被提取的信息,需要進(jìn)一步改進(jìn)模型。④模型的篩選。為了得到最佳模型,可借助擬合優(yōu)度統(tǒng)計量來比較各個模型的優(yōu)劣,最常用的是調(diào)整后的決定系數(shù)、AIC和SC統(tǒng)計量。⑤模型的預(yù)測。運(yùn)用模型預(yù)測未來某一時間段的乙肝發(fā)病情況。
(3)統(tǒng)計分析
使用SPSS 17.0軟件進(jìn)行統(tǒng)計分析。將北京市昌平區(qū)2005-2012年乙肝月發(fā)病數(shù)據(jù)建立ARIMA模型進(jìn)行時間序列分析。
1.發(fā)病情況及變化趨勢
對北京市昌平區(qū)2005-2012年乙肝月發(fā)病數(shù)(Zt)曲線(圖1)直觀分析可看出,昌平區(qū)除2006年和2007年乙肝高發(fā)外,其余各年發(fā)病較為平穩(wěn),全年均有發(fā)病。
2.序列平穩(wěn)性判斷
序列平穩(wěn)性檢驗是建模的重要前提。除從序列圖(圖1)判斷原始序列存在長期趨勢,同時采用游程檢驗法對時間序列進(jìn)行平穩(wěn)性檢驗,得出游程數(shù)為16,檢驗統(tǒng)計量z=-6.446,P=0.000,表明其為非平穩(wěn)性時間序列。
3.數(shù)據(jù)預(yù)處理
從原始序列圖和游程檢驗結(jié)果可看出原始數(shù)據(jù)為非平穩(wěn)序列,因此對原始序列進(jìn)行自然對數(shù)轉(zhuǎn)換和一階非季節(jié)性差分和一階季節(jié)性差分,以消除趨勢和季節(jié)影響而達(dá)到平穩(wěn)化,使序列呈現(xiàn)為一組平穩(wěn)的隨機(jī)數(shù)據(jù)以符合時間序列分析的條件[5]。從差分后序列的序列圖(圖2)可以看出,近似為平穩(wěn)序列。
圖1 昌平區(qū)2005-2012年乙肝月發(fā)病數(shù)(Zt)原始序列圖
4.模型參數(shù)估計
由于原始時間序列經(jīng)一階非季節(jié)性差分和一階季節(jié)性差分后達(dá)到平穩(wěn),因此d=1、D=1。首先建立ARIMA(2,1,1)(2,1,1)12模型,經(jīng)檢驗,變量AR(2)、SAR(2)的P>0.05,沒有通過t檢驗,然后考慮刪除變量AR(2)、SAR(2),嘗試建立ARIMA(0,1,1)(0,1,1)12模型,經(jīng)檢驗,該模型的所有參數(shù)均通過了t檢驗(表1)。
圖2 昌平區(qū)2005-2012年乙肝月發(fā)病數(shù)差分后序列圖
表1 不同ARIMA模型的檢驗結(jié)果
5.模型診斷檢驗
對ARIMA(0,1,1)(0,1,1)12模型殘差進(jìn)行是否為白噪聲的LB統(tǒng)計量檢驗[6],最大滯后期m取16,Q15=8.428,P=0.935>0.05,故不能拒絕殘差序列為白噪聲的原假設(shè),檢驗通過。
6.模型的篩選
對ARIMA(0,1,1)(0,1,1)12模型的擬合優(yōu)度進(jìn)行分析,ARIMA(0,1,)(0,1,1)12模型的自相關(guān)(ACF)和偏自相關(guān)(PACF)函數(shù)與0差異無統(tǒng)計學(xué)意義,且均在95%可信區(qū)間內(nèi)(圖3),說明擬合效果較好。
圖3 殘差A(yù)CF和殘差PACF相關(guān)系數(shù)
7.模型的預(yù)測
用ARIMA(0,1,1)(0,1,1)12模型對原序列進(jìn)行擬合可見(圖4),模型預(yù)測值的動態(tài)趨勢與實際值基本一致。
圖4 ARIMA(3,1,0)(3,1,0)12模型預(yù)測擬合圖
時間序列方法是研究預(yù)測對象在一定時期內(nèi)的變動過程,從中尋找和分析事物的變化特征和發(fā)展趨勢,本研究采用時間序列分析方法對昌平區(qū)2005-2012年乙肝的月發(fā)病數(shù)據(jù)進(jìn)行了動態(tài)分析研究,建立了預(yù)測模型,并對所建立的模型進(jìn)行了評價。
據(jù)全國法定傳染病監(jiān)測數(shù)據(jù)顯示,近年來乙肝發(fā)病率呈逐年遞減的趨勢,但慢性乙肝在全世界成人的死因中趨于首位,特別是在慢性乙肝感染率高的國家[7]。因此建立預(yù)測模型對乙肝流行規(guī)律進(jìn)行定量預(yù)測以進(jìn)行早期預(yù)警,對于乙肝防控有重大意義。本
文通過對北京市昌平區(qū)2005-2012年乙肝月發(fā)病數(shù)時間序列進(jìn)行分析,建立了ARIMA(0,1,1)(0,1,1)12模型。模型較好的擬合了昌平區(qū)乙肝月發(fā)病數(shù)的變化規(guī)律,顯示出較高的預(yù)測精度,說明利用ARIMA模型預(yù)測乙肝的流行趨勢是可行的,但ARIMA建模法假定時間序列為未來的發(fā)展模式與過去的模式是一致的,因此往往只適于作短期預(yù)測。
本文證實了ARIMA模型法可較好的用于乙肝發(fā)病的預(yù)測,但應(yīng)用時需注意時間序列方法的應(yīng)用條件。ARIMA應(yīng)用前提是時間序列的平穩(wěn)性,實際工作中數(shù)據(jù)往往是非平穩(wěn)序列,需對序列進(jìn)行預(yù)處理,使之達(dá)到平穩(wěn)的要求。其次,ARIMA模型要求至少有50個時間點的數(shù)據(jù)或7~8個周期的數(shù)據(jù)。同時疫情受諸多未知隨機(jī)因素的影響,單次分析所建立的ARIMA模型應(yīng)不斷補(bǔ)充新的實際數(shù)據(jù),對模型進(jìn)行修正或重新擬合,以提高預(yù)測敏感性。另外除從數(shù)據(jù)自身特征尋找預(yù)測模型外,還應(yīng)結(jié)合具體的外部信息,識別出因突發(fā)事件引起的序列值波動,以便于對預(yù)測結(jié)果進(jìn)行解釋。同時規(guī)范的、統(tǒng)一的乙肝病例診斷、報告標(biāo)準(zhǔn)是對乙肝進(jìn)行預(yù)測預(yù)警的基礎(chǔ)和前提[8],慢性乙肝病例的重復(fù)就診和報告,乙肝病毒攜帶者也作為病例報告,以及由于乙肝復(fù)雜的臨床表現(xiàn),不同醫(yī)生或醫(yī)療機(jī)構(gòu)對乙肝病例報告標(biāo)準(zhǔn)的執(zhí)行存在差異,這些都會影響乙肝發(fā)病預(yù)測。
參 考 文 獻(xiàn)
1.尹志英,方春福.傳染病預(yù)測預(yù)警方法探討.中國衛(wèi)生統(tǒng)計,2010,27(2):218-220.
2.陳峰,王嘯天,朱和新.混合指數(shù)周期模型及其在疾病季節(jié)性分析中的應(yīng)用.南通醫(yī)學(xué)院學(xué)報,1996,16(3):301-303.
3.Peng Z,Bao C,Zhao Y,et al.Weighted markov chains for forecasting and analysis in incidence of infectious diseases in Jiangsu Province,China.Journal of Biomedical Research,2010,24(3):207-214.
4.中國人民銀行調(diào)查統(tǒng)計司主編.時間序列X-12-ARIMA季節(jié)調(diào)整—原理與方法.北京:中國金融出版社,2006:59-60.
5.郭建娥,劉桂芬.構(gòu)建山西省太原市痢疾發(fā)病率的ARIMA模型.疾病監(jiān)測,2007,34(4):154-155.
6.易丹輝.數(shù)據(jù)分析與EVIEWS應(yīng)用.北京:中國人民大學(xué)出版社,2008:137-140.
7.Schafer DF,Sorrell MF.Hepatocellular carcinoma.Lancet,1999,353(10):1253-1257.
8.崔樹峰,馬建新,李書明.時間序列分解法在北京市朝陽區(qū)細(xì)菌性痢疾周報告發(fā)病率預(yù)測中的應(yīng)用.中國衛(wèi)生統(tǒng)計,2009,26(6):583-591.