程幸福
(武漢大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,湖北武漢430072)
干預(yù)分析在腎綜合出血熱發(fā)病過程模擬中的應(yīng)用
程幸福
(武漢大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)院,湖北武漢430072)
為探討應(yīng)用干預(yù)分析模型模擬腎綜合出血熱發(fā)病數(shù)的可行性,對(duì)武漢市蔡甸區(qū)1980~2009年的月度發(fā)病數(shù)據(jù)建立干預(yù)分析模型,并將模擬效果與單純使用ARIMA模型的模擬效果進(jìn)行對(duì)比,發(fā)現(xiàn)干預(yù)分析模型能夠很好地?cái)M合HFRS的月發(fā)病數(shù),給疾病的預(yù)防和控制提供科學(xué)依據(jù)。
干預(yù)分析;ARIMA模型;腎綜合征出血熱
干預(yù)分析的研究始于威斯康辛大學(xué)統(tǒng)計(jì)系教授Box和Tiao于1975年聯(lián)合發(fā)表《Intervention Analysis with Applications to Economic and Environ?mental Problems》,并迅速引起人們的關(guān)注,用于描述經(jīng)濟(jì)政策的變化及其給經(jīng)濟(jì)帶來的影響。研究干預(yù)分析模型就是從定量分析的角度來評(píng)估政策干預(yù)或突發(fā)事件對(duì)經(jīng)濟(jì)過程的具體影響。
1.1干預(yù)分析簡(jiǎn)介
時(shí)間序列常受到諸如節(jié)假日、罷工、促銷和其他政策變化之類的外部事件的影響,這類外部事件稱為干預(yù)。干預(yù)分析就是在時(shí)間序列建模中納入干預(yù)信息的建模方法。
1.2常見的干預(yù)變量
為簡(jiǎn)單起見,考慮單一干預(yù)的簡(jiǎn)單情況,假設(shè)…,Yt-1,Yt,Yt+1,…是得到的時(shí)間序列,經(jīng)過適當(dāng)變換后,可表示為
式中:yt是由Yt經(jīng)某個(gè)變換得到的;mt是均值函數(shù)的變化;Nt是某個(gè)自回歸滑動(dòng)平均求和過程,代表未受干預(yù)的時(shí)間序列所適合的模型,可能是平穩(wěn)的也可能是非平穩(wěn)的、季節(jié)的或非季節(jié)的。假設(shè)Nt可以表示為ARIMA(p,d,q)模型:
式中:B是向后推移算子,假設(shè)這個(gè)時(shí)間序列在T時(shí)刻受到某個(gè)干擾,即在時(shí)刻T之前,mt=0。
干預(yù)分析模型的建立基于干預(yù)變量的引入,通過若干參數(shù)來說明干預(yù)對(duì)均值函數(shù)的影響,例如階梯函數(shù)函數(shù):階梯函數(shù)通常代表一種干預(yù)一旦發(fā)生將永久持續(xù)下去的情形。類似用脈沖函數(shù)作為干預(yù)發(fā)生時(shí)間的指示器,即Pt(T)是干預(yù)發(fā)生的標(biāo)記:
1.3干預(yù)模型的表示
干預(yù)事件的影響多種多樣,但幾乎所有的影響都可以用以上2種干預(yù)變量的線性組合來表示:
1)如果干預(yù)導(dǎo)致了均值函數(shù)發(fā)生了即時(shí)且永久性的偏移,那么,偏移可以建模為
式中:ω表示干預(yù)導(dǎo)致均值未知且永久的變化。如果干預(yù)經(jīng)過d個(gè)時(shí)間單位的延遲后作用才顯現(xiàn),并且d已知,那么可以設(shè)定:
2)如果干預(yù)只是逐漸地影響均值函數(shù),其全部影響作用只有經(jīng)歷很長(zhǎng)時(shí)間才能充分體現(xiàn)出來,這時(shí)可以用AR(1)模型來表示mt,其誤差項(xiàng)由滯后1的St
T的倍數(shù)充任:
3)如果干預(yù)僅在t=T時(shí)刻產(chǎn)生影響,則令
4)如果干預(yù)影響逐漸消失,通過AR(1)類型的模型表示均值函數(shù)的變化:
如果均值的變化發(fā)生于d個(gè)時(shí)間單位的延遲之后,且該干預(yù)效應(yīng)逐漸消失,則可規(guī)定:也可以用延遲算子B來表示上述模型,Bmt=mt-1且
1.4異常值
異常值是一些不規(guī)則的觀測(cè)值,其出現(xiàn)可能源自測(cè)量誤差與復(fù)制誤差其中之一,或者兩者皆有,也可能是源于基礎(chǔ)過程發(fā)生了突發(fā)的短期性變化。對(duì)于時(shí)間序列而言,可識(shí)別的異常值,即可加異常值與新息異常值,通常分別記為AO與IO。
1)可加異常值A(chǔ)O如果基礎(chǔ)過程yt在時(shí)刻T時(shí)受到了可疊加性的擾動(dòng)而得到y(tǒng)t,此時(shí)就會(huì)出現(xiàn)可加異常值,它們之間有下面的關(guān)系:
僅在T時(shí)刻有yT′=yT+ωA,其余情況下yt′=yt,即如果時(shí)間序列在T時(shí)刻存在一個(gè)可加異常值,意味著它只在時(shí)刻T受到影響。可加異常值也可被看作一種在時(shí)刻T上具有脈沖響應(yīng)的干預(yù),因此均值函數(shù)建模為
2)新息異常值IO如果處于時(shí)間T時(shí)的誤差(也稱為新息)受到了干擾(即誤差變?yōu)閑t′=et+ωI,其中et是零均值白噪聲)。因此僅在時(shí)刻T有eT′=eT+ωI,其余情況et′=et。假設(shè)無擾過程是平穩(wěn)的,且可表示為一個(gè)MA(∞)過程:
則受到擾動(dòng)的過程可以表示為
式中:ψ0=1且當(dāng) j<0時(shí)有ψj=0。因此,一旦發(fā)生新息異常值,則新息異常值將從該異常值發(fā)生的時(shí)刻T起對(duì)之后所有的觀測(cè)產(chǎn)生擾動(dòng)。若Nt滿足φ(B) Nt=θ(B) et,則在此情況下,模型可表示為
2.1數(shù)據(jù)來源
選擇武漢市蔡甸區(qū)HFRS月發(fā)病數(shù)序列(已作開方處理)作為分析對(duì)象,記錄了1980年1月~2009年12月的HFRS發(fā)病數(shù)共360個(gè)觀測(cè),如圖1所示。
2.2對(duì)基礎(chǔ)無擾過程建模
圖1 HFRS序列圖
從圖1發(fā)現(xiàn)1982年12月(即第36個(gè)數(shù)據(jù))迅速增長(zhǎng),可以認(rèn)為在1982年12月有一個(gè)對(duì)HFRS發(fā)病數(shù)序列產(chǎn)生干擾的事件發(fā)生。在進(jìn)行干擾分析之前,檢查時(shí)間序列并且建立基礎(chǔ)模型,為此選取干預(yù)發(fā)生之前的數(shù)據(jù)(即HFRS序列的前35個(gè)數(shù)據(jù))進(jìn)行建模。通過分析發(fā)現(xiàn)基礎(chǔ)無擾過程可以用季模型ARIMA(0,1,1)×(0,1,1)12表示。即如果用Nt表示基礎(chǔ)無擾過程,則有
2.3對(duì)干擾過程建模
在確定了基礎(chǔ)無擾過程的模型后,模型的殘差即干擾過程mt,通過對(duì)mt進(jìn)行簡(jiǎn)單自相關(guān)分析發(fā)現(xiàn)起始于1982年12月份的干擾過程可以用一個(gè)AR(2)過程來描述,因此對(duì)干擾過程可以建模為
式中:T表示1982年12月。另外,模型診斷表明:在1981年2~3月有可加異常值,1981年12月、1987 年1月和1990年12月存在新息異常值。因此,最終確定的模型為
2.4參數(shù)估計(jì)
用極大似然估計(jì)法估計(jì)模型的參數(shù),基礎(chǔ)無擾過程N(yùn)t的參數(shù)估計(jì)結(jié)果如表1所示。由表1所示參數(shù)得到干預(yù)模型:它反映了干預(yù)事件對(duì)HFRS序列的影響。
2.5與ARIMA模型比較
為了考察干預(yù)分析模型的模擬效果,考慮與單純的使用ARIMA模型對(duì)比,兩模型的參數(shù)估計(jì)結(jié)果及檢驗(yàn)結(jié)果見表2。由表2可見干預(yù)分析殘差平方和與赤池信息量(AIC)都較小,且極大似然估計(jì)量也有所提高。因此選擇干預(yù)分析模型比較合適。
表1 參數(shù)估計(jì)結(jié)果
表2 干預(yù)分析模型與ARIMA模型比較
利用帶干預(yù)的ARIMA模型預(yù)測(cè)武漢蔡甸區(qū)腎綜合征出血熱月發(fā)病數(shù)的變化趨勢(shì)時(shí),由于考慮了干預(yù)的影響,預(yù)測(cè)結(jié)果一般要比傳統(tǒng)ARIMA模型預(yù)測(cè)結(jié)果準(zhǔn)確,當(dāng)然也相對(duì)正確客觀。本文中采用干預(yù)分析模型對(duì)腎綜合征出血熱月發(fā)病數(shù)發(fā)病趨勢(shì)的變化進(jìn)行建模,得到了較精確的模型,為武漢市蔡甸區(qū)腎綜合征出血熱的預(yù)防和防治提供了一定的理論依據(jù)。
[1]馮文權(quán),蔡基棟.干預(yù)分析及其應(yīng)用[J].武漢大學(xué)學(xué)報(bào),1994(6):1-7.
[2]G E P Box,G C Tiao.Intervention Analysis with Applica?tions to Economic and Environmental Problems[J].Jour?nal of the American Statistical Association,1975,70 (349):70-79.
[3]George E P Box,Gwilym M Jenkins,Gregory C Reinsel. Time Series Analysis Forecasting and Control[M].3版.北京:人民郵電出版社,2005:462-471.
[4]Jonathan D.Cryer,Kung-Sik Chan.時(shí)間序列分析及應(yīng)用[M].潘紅宇,譯.2版.北京:機(jī)械工業(yè)出版社,2011.
[5]馬亮亮,田富鵬.ARIMA模型在膽結(jié)石病發(fā)病率預(yù)測(cè)中的應(yīng)用[J].軍事醫(yī)學(xué),2010(5):469-472.
[6]孫玉環(huán).ARIMA模型在測(cè)算重大突發(fā)事件影響中的應(yīng)用[J].統(tǒng)計(jì)與決策,2006(14):24-26.
Application of Intervention Analysis in Simulation of Hemorrhagic Fever with Renal Syndrome
Cheng Xingfu
(School of Mathematics and Statistics,Wuhan University,Wuhan 430072,China)
The intervention analysis model was established based on the monthly incidence data of Caid?ian District of Wuhan from 2009 to 1980 in order to simulate the feasibility of comprehensive kidney hemorrhagic fever incidence.And the simulation results were compared with the simulation results of the ARIMA model.It is found that the intervention analysis model can fit well the monthly incidence of HFRS.And this result provides scientific basis for the prevention and control of diseases.
intervention analysis;ARIMA model;HFRS
O212.1
A
1008-5483(2016)02-0074-03
10.3969/j.issn.1008-5483.2016.02.017
2016-04-27
程幸福(1990-),男,安徽渦陽人,碩士生,從事隨機(jī)分析方面的研究。E-mail:1318247907@qq.com