侯麗英 柳麗花 焦建利 孔 平
“其他感染性腹瀉”是指除去霍亂、痢疾、傷寒和副傷寒以外的感染性腹瀉病,包括例如細菌、病毒、寄生蟲等病原體所引起的人體腸道感染[1]。上海市雖然經(jīng)濟較發(fā)達,衛(wèi)生條件較好,但每年仍有一定程度的流行,使得該病的防控仍是一個重要的公共衛(wèi)生問題。本文運用時間序列分析中的自回歸綜合移動平均模型(autoregressive integrated moving average model,ARIMA),結(jié)合上海市2011年3月-2017年l2月間的其他感染性腹瀉數(shù)據(jù)的分布特征,在模型比較、檢驗基礎(chǔ)上建立擬合模型,并進行預(yù)測,為其他感染性腹瀉疾病的防控策略提供依據(jù)。
上海市2011年3月-2017年l2月的其他感染性腹瀉的發(fā)病資料和相應(yīng)的人口學資料來源于上海市衛(wèi)生和計劃生育委員會網(wǎng)站及相應(yīng)的上海市法定傳染病疫情報告[2]。
自回歸移動平均模型(autoregressive moving average model,ARMA)是一種適用于短期且滿足平穩(wěn)性的時間序列預(yù)測模型,對于非平穩(wěn)序列,可以通過取對數(shù)或者差分等方法實現(xiàn)平穩(wěn)化,統(tǒng)稱為ARIMA(p,d,q)模型。如果序列還包含一定的季節(jié)周期性,則要考慮帶季節(jié)性的乘積模型ARIMA(p,d,q)(P,D,Q)s,模型建立的步驟一般可分為:序列的識別與平穩(wěn)化、參數(shù)估計、模型診斷與預(yù)測三個階段[3]。
(1)序列的識別與平穩(wěn)化。首先通過繪制時間序列圖像,觀察數(shù)據(jù)的分布特點和變化趨勢,然后利用對數(shù)轉(zhuǎn)換與適當?shù)牟罘?將序列變?yōu)槠椒€(wěn)時間序列。
(2)參數(shù)估計。參數(shù)估計是根據(jù)AIC(Akaike’s information criterion)或BIC(Schwarz’S Bayesian information criterion)最小信息準則,進行參數(shù)選擇與比較,進而確定ARIMA中參數(shù)。
(3)模型診斷與預(yù)測。這一步是對模型的殘差序列進行自相關(guān)、偏相關(guān)或白噪聲檢驗,判斷模型中是否還包含其他信息,當模型達到預(yù)期精度要求時,進一步進行預(yù)測[4]。
根據(jù)上海市2011年3月-2017年6月期間報告的“其他感染性腹瀉”月發(fā)病率數(shù)據(jù)繪制序列分布(圖1),可見發(fā)病率整體分布在0.48/10萬~7.35/10萬之間,具有長期趨勢,有明顯的季節(jié)性,一般在每年8月常會出現(xiàn)發(fā)病率的高峰,低點在2、3、4月。
圖1 上海市2011年3月-2017年6月其他感染性腹瀉月發(fā)病率時間序列分布
原序列在垂直方向上表現(xiàn)出平穩(wěn)性,但仍然具有季節(jié)的周期性,對原始序列進行一階周期為12的季節(jié)性差分,新序列(圖2)自相關(guān)函數(shù)ACF圖形很快收斂,變得不顯著,表現(xiàn)為拖尾現(xiàn)象,因此可以認為新序列已經(jīng)為一個平穩(wěn)序列。偏相關(guān)函數(shù)ACF圖形在一步之后,均落在可信區(qū)間之內(nèi),滿足一步截尾特點,因此可以判斷它是一個一階自回歸序列(autoregressive series,AR(1))。初步確定模型參數(shù)為p=1,d=0,D=1,采用模型ARIMA(1,0,q)(P,1,Q)12。另外三個參數(shù)q、P、Q的確定,采取從低階到高階逐個嘗試的辦法,同時檢驗各個模型的擬合優(yōu)度,進行比較而得到[5]。
圖2 經(jīng)季節(jié)差分后序列自相關(guān)和偏相關(guān)圖
表1給出了ARIMA(1,0,0)(1,1,1)12,ARIMA(1,0,1)(0,1,1)12,ARIMA(1,0,0)(0,1,1)12三個模型的擬合優(yōu)度檢驗結(jié)果,根據(jù)BIC信息準則以及簡約性原則,選擇BIC、標準誤差均最小、R2值接近1的模型,即 ARIMA(1,0,0)(0,1,1)12。
表1 備選模型的擬合優(yōu)度檢驗
ARIMA(1,0,0)(0,1,1)12模型參數(shù)估計見表2,非季節(jié)自回歸參數(shù)為0.609,季節(jié)滑動平均參數(shù)為0.788,常數(shù)為0.169,t檢驗的P值均小于0.05,差異有統(tǒng)計學意義。
表2 模型參數(shù)估計
綜上分析,建立ARIMA季節(jié)模型方程為
(1-0.609B)(1-B12)Yt=0.169+(1-0.788B12)εt。
從ARIMA(1,0,0)(0,1,1)12模型的殘差序列自相關(guān)和偏自相關(guān)圖可見,殘差均在可信區(qū)間之內(nèi),并不表現(xiàn)為任何規(guī)律,為白噪聲序列,說明擬合效果好[6]。
圖3 ARIMA(1,0,0)(0,1,1)12殘差自相關(guān)和偏相關(guān)圖
利用已建立的ARIMA(1,0,0)(0,1,1)12模型,給出上海市2017年7月至12月其他感染性腹瀉的發(fā)病率預(yù)測值及95%預(yù)測區(qū)間值,見表3。
通過圖4,我們可以直觀地觀察ARIMA(1,0,0)(0,1,1)12模型對上海市2011年3月-2017年12月期間報告的其他感染性腹瀉月發(fā)病率序列的擬合、預(yù)測情況,其中細實線表示觀測值,虛線表示擬合曲線,粗黑線為預(yù)測值曲線。
表3 ARIMA模型預(yù)測上海市2017年7月-12月其他感染性腹瀉發(fā)病率(1/10萬)結(jié)果
圖4 上海市其他感染性腹瀉發(fā)病率ARIMA季節(jié)模型擬合預(yù)測圖
本文以上海市衛(wèi)生與計劃生育委員會網(wǎng)站及相應(yīng)的法定傳染病疫情報告2011年3月-2017年12月其他感染性腹瀉數(shù)據(jù)為基礎(chǔ),對其流行病學的季節(jié)周期性表現(xiàn),通過一階季節(jié)差分,實現(xiàn)序列的平穩(wěn)化,進一步參數(shù)估計和檢驗,得到ARIMA(1,0,0)(0,1,1)12模型,BIC=-2.025,R2=0.956。應(yīng)用模型預(yù)測上海市2017年7月~12月其他感染性腹瀉,結(jié)果顯示擬合值的動態(tài)趨勢表現(xiàn)出與實際值極為相似的升降規(guī)律,較好地模擬出其他感染性腹瀉發(fā)病率序列的波動趨勢和季節(jié)要素,預(yù)測精度較高。
ARIMA模型結(jié)合了自回歸和移動平均方法的長處,具有不受數(shù)據(jù)類型束縛、適用性強的特點,對于短期預(yù)測,能收到較好的效果[4]。但考慮到傳染病流行規(guī)律的復(fù)雜性,ARIMA模型的長期應(yīng)用要及時補充新的數(shù)據(jù),對模型類型、參數(shù)不斷地進行完善與修正,才能確保預(yù)測結(jié)果的精度,及時準確地為疾病的預(yù)警和預(yù)防控制提供科學依據(jù)。
模型的擬合、預(yù)測結(jié)果提示上海市發(fā)病高峰在8月,占全年總發(fā)病的20%~23%。而全國范圍的調(diào)查結(jié)果是在每年的9~10月期間其他感染性腹瀉事件呈高發(fā)期[7]。這個差別與各地的氣候條件有關(guān),上海屬熱帶濕潤季風氣候,通常8月份最熱,適合其他感染性腹瀉的各類傳染源的滋生,易發(fā)生飲用水污染、食物污染和生活接觸傳播。上海的衛(wèi)生機構(gòu)應(yīng)在7、8月份采取有針對性的預(yù)防措施,如進行飲用水監(jiān)測、食物污染監(jiān)測,減少此類疾病的發(fā)生,則可有效減少全年的總發(fā)病率,做到事半功倍。
其他感染性腹瀉位居夏季丙類傳染病發(fā)病之首,主要因為該類疾病包括多種感染性疾病,病因比較復(fù)雜,診斷需依據(jù)臨床表現(xiàn)、實驗室檢查和流行病學資料進行綜合判斷[1]。但由于醫(yī)療機構(gòu)受實驗室檢驗條件的限制,其他感染性腹瀉病例的實驗室診斷率低,很難明確具體病原菌,且缺乏有效的疫苗進行預(yù)防,故明確其月度發(fā)病規(guī)律對于控制其流行非常關(guān)鍵。上海作為人口密集、流動性強的超大型城市,對該疾病發(fā)病規(guī)律的科學預(yù)測是制定防控工作近期或遠期策略的前提,顯得尤為重要。