曾潔文
摘要:以廣東省2004-2016年各月肺結(jié)核發(fā)病例數(shù)為數(shù)據(jù)基礎(chǔ),結(jié)合時(shí)間序列分析方法與SAS軟件、Excel軟件,構(gòu)建廣東省肺結(jié)核發(fā)病例數(shù)預(yù)測模型疏系數(shù)ARIMA((11,12),1,(1,11))模型,得出廣東省肺結(jié)核發(fā)病規(guī)律為每年的3月-8月是廣東省肺結(jié)核發(fā)病的高發(fā)期,4月、12月分別為每年發(fā)病的最高峰和最低峰.用2017年各月肺結(jié)核發(fā)病例數(shù)檢測模型預(yù)測效果,預(yù)測值符合廣東省肺結(jié)核發(fā)病規(guī)律,平均絕對百分比誤差為2.12%,模型屬于高精度模型.對2018年各月肺結(jié)核發(fā)病例數(shù)進(jìn)行預(yù)測,預(yù)測值均落入95%置信區(qū)間內(nèi).疏系數(shù)ARIMA((11,12),1,(1,11))模型可較精確預(yù)測廣東省肺結(jié)核發(fā)病例數(shù),為肺結(jié)核的預(yù)防控制工作提供理論基礎(chǔ).
關(guān)鍵詞:時(shí)間序列;疏系數(shù)ARIMA模型;肺結(jié)核;預(yù)測
中圖分類號(hào):O213? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):1673-260X(2019)06-0011-03
肺結(jié)核是一種由結(jié)核分枝桿菌入侵人體分布而引起的慢性傳染病.肺結(jié)核雖然是乙類傳染病,但在傳染性疾病中排名第一.雖然結(jié)核病的防控在中國已經(jīng)取得了很大的進(jìn)步,但現(xiàn)今中國仍然是肺結(jié)核流行病的重災(zāi)區(qū),其嚴(yán)重程度僅次于印度和印度尼西亞,而廣東省又是我國肺結(jié)核負(fù)擔(dān)最重的省份.廣東省我國的流動(dòng)人口大省,人口相對我國其他省份高度集中,再加上肺結(jié)核是呼吸道傳染病,以上條件為肺結(jié)核在廣東省的傳染和爆發(fā)提供了基礎(chǔ).劉維華、朱建良、郭付愛等已為石家莊地區(qū)建立學(xué)校結(jié)核病預(yù)警模型[1];李曉榮、龐學(xué)文、于燕明等人已對天津市結(jié)核病發(fā)病建立ARIMA(0,1,1)(0,1,1)模型進(jìn)行預(yù)測[2].然而至今尚缺乏針對廣東省肺結(jié)核發(fā)病的、有效的模型擬合并預(yù)測.本研究結(jié)合時(shí)間序列理論,以廣東省2004年1月—2016年12月廣東省肺結(jié)核發(fā)病例數(shù)為建立模型的數(shù)據(jù)基礎(chǔ),建立疏系數(shù)求和自回歸移動(dòng)平均模型,即疏系數(shù)ARIMA模型,預(yù)測廣東省未來各月肺結(jié)核發(fā)病情況,為廣東省及時(shí)采取有效且迅速措施提供重要理論依據(jù),同時(shí)為其他省份建立肺結(jié)核發(fā)病預(yù)測模型提供方法與基礎(chǔ).
1 資料和方法
1.1 數(shù)據(jù)來源
數(shù)據(jù)來源是中國疾病預(yù)防控制中心官網(wǎng)中廣東地區(qū)2004年-2018年各月肺結(jié)核發(fā)病例數(shù).
1.2 研究方法
1.2.1 疏系數(shù)ARIMA模型理論基礎(chǔ)
ARIMA模型,即求和自回歸移動(dòng)平均模型,是由美國統(tǒng)計(jì)學(xué)家Box和英國統(tǒng)計(jì)學(xué)家Jenkins與1970年提出的經(jīng)典時(shí)間序列分析模型,主要運(yùn)用于單變量、同方差場合下.該模型的基本思想是某件事情的發(fā)展通常是有一定慣性的,即時(shí)間序列值之間的相關(guān)關(guān)系,而該相關(guān)關(guān)系又具有某種統(tǒng)計(jì)性質(zhì)或規(guī)律,當(dāng)這種統(tǒng)計(jì)規(guī)律被刻畫描述出來后,就可以對時(shí)間序列的歷史值和當(dāng)前值進(jìn)行擬合、對未來值進(jìn)行預(yù)測.而疏系數(shù)ARIMA模型是指原ARIMA(p,d,q)模型中的自相關(guān)系數(shù)和移動(dòng)平均系數(shù)有部分缺省的模型,ARIMA((p1,p2…pm)),d,(q1,q2…qn).[3]
1.2.2 疏系數(shù)ARIMA模型建模方法
以廣東省2004年1月—2016年12月廣東省肺結(jié)核發(fā)病例數(shù)為建立模型的數(shù)據(jù)基礎(chǔ).第一步,觀察初始序列圖,獲取初始序列的基本、明顯特征,進(jìn)行平穩(wěn)性檢驗(yàn),根據(jù)自相關(guān)系數(shù)函數(shù)與偏自相關(guān)系數(shù)函數(shù)判斷初始序列是否具有周期性和趨勢性,并確定周期長度和趨勢走向.第二步,根據(jù)第一步中獲取的初始序列特征,對初始序列進(jìn)行合適的差分?d與周期差分?s,消除初始序列的非平穩(wěn)性,并再次進(jìn)行平穩(wěn)性檢驗(yàn),獲得平穩(wěn)時(shí)間序列.第三步,根據(jù)差分后序列的自相關(guān)函數(shù)與偏自相關(guān)函數(shù),為初始疏系數(shù)ARIMA模型定階.第四步,在初始模型基礎(chǔ)上調(diào)整參數(shù)并對參數(shù)進(jìn)行最小二乘估計(jì)與最大似然估計(jì),直至各個(gè)參數(shù)均通過顯著性檢驗(yàn)、差分后序列通過白噪聲檢驗(yàn)與殘差自相關(guān)檢驗(yàn).最后,在最終模型的基礎(chǔ)上,利用廣東省2017年1月—12月的肺結(jié)核發(fā)病例數(shù)對模型預(yù)測做出評價(jià),對2018年1月—12月的肺結(jié)核發(fā)病例數(shù)做出預(yù)測和95%的置信區(qū)間.
1.3 統(tǒng)計(jì)分析工具及水平
本研究中采用SAS軟件和Excel軟件進(jìn)行分析,顯著性水平取0.05.
2 模型建立過程
2.1 獲取序列特征
從Excel軟件制作的廣東省2004年1月-2016年12月肺結(jié)核發(fā)病例數(shù)時(shí)序圖可知,廣東省2004-2016年各月肺結(jié)核發(fā)病例數(shù)總體呈現(xiàn)波動(dòng)性的先上升后下降的趨勢,且有明顯的周期性,周期長度為12個(gè)月.
為了提取出廣東省肺結(jié)核發(fā)病的具體規(guī)律,本研究采用提取季節(jié)指數(shù)的方法提取廣東省肺結(jié)核發(fā)病規(guī)律,計(jì)算廣東省2004-2016年同年各月肺結(jié)核發(fā)病總月平均例數(shù),以及13年間的總平均發(fā)病例數(shù),將同年各月總平均發(fā)病例數(shù)除以13年間總平均發(fā)病例數(shù),算得各月季節(jié)指數(shù)分別為:1.15、0.94、1.17、1.21、1.19、1.14、1.12、1.11、1.02、1.02、0.87、0.71.其中,4月的季節(jié)指數(shù)最高,為1.21;而12月的季節(jié)指數(shù)最低,為0.71.3月到8月的季節(jié)指數(shù)持續(xù)偏高,9月開始有明顯下降趨勢,最低降至12月,在下一年的1月又有回彈并重復(fù)前面的規(guī)律.
從季節(jié)指數(shù)計(jì)算結(jié)果可知,廣東省肺結(jié)核發(fā)病規(guī)律為:每年的4月是全年發(fā)病例數(shù)最高峰,3月—8月是肺結(jié)核病的高發(fā)期,從9月開始廣東省肺結(jié)核發(fā)病例數(shù)較3月-8月有明顯持續(xù)性下降,至11月、12月肺結(jié)核病發(fā)病危險(xiǎn)程度已降至較低水平,12月是全年發(fā)病例數(shù)最低谷.
2.2 疏系數(shù)ARIMA模型定階
2.1節(jié)中已知廣東省2004年1月—2016年12月肺結(jié)核發(fā)病例數(shù)時(shí)序有一定的趨勢性和明顯的周期性,周期長度為12個(gè)月,所以初始序列屬于非平穩(wěn)序列,要對序列進(jìn)行1階12步差分.差分后的序列在0.05的顯著性水平上通過單位根檢驗(yàn)且不能通過白噪聲檢驗(yàn),則可認(rèn)為差分后序列是平穩(wěn)的非白噪聲序列,需要繼續(xù)提取信息.利用SAS軟件做出差分后序列的自相關(guān)(ACF)圖和偏自相關(guān)(PACF)圖,可知自相關(guān)系數(shù)除了在延遲11、12階時(shí)明顯超出了2倍標(biāo)準(zhǔn)差,在1階之后基本上落在2倍標(biāo)準(zhǔn)差以內(nèi);而偏自相關(guān)系數(shù)除了在延遲11、12、24階的時(shí)候明顯超出2倍標(biāo)準(zhǔn)差,在3階之后基本落在2倍標(biāo)準(zhǔn)差以內(nèi).綜合考慮自相關(guān)系數(shù)與偏自相關(guān)系數(shù)的情況,建立初始疏系數(shù)ARIMA((1,2,11,12)1,(2,3,11,12)).
由于在參數(shù)顯著性檢驗(yàn)中初始疏系數(shù)ARIMA模型多個(gè)參數(shù)不顯著,所以對模型參數(shù)進(jìn)行調(diào)整.經(jīng)過多番調(diào)整并對模型各個(gè)參數(shù)進(jìn)行最小二乘估計(jì)和最大似然估計(jì)后,疏系數(shù)ARIMA((11,12),1,(1,11))模型各個(gè)參數(shù)均顯著不為零;且殘差序列通過白噪聲檢驗(yàn),為白噪聲序列.所以,確定ARIMA((11,12),1,(1,11))模型為對廣東省肺結(jié)核發(fā)病例數(shù)進(jìn)行預(yù)測是比較理想和合理的最終模型,即
?12?xt=εt
εt~NID(0,73.5384)
3 模型擬合及應(yīng)用
3.1 模型擬合預(yù)測效果
為了檢驗(yàn)2節(jié)中建立的疏系數(shù)ARIMA((11, 12),1,(1,11))模型的預(yù)測效果,將廣東省2017年1月—12月的肺結(jié)核發(fā)病例數(shù)進(jìn)行回代預(yù)測.預(yù)測結(jié)果顯示,2017年的3—8月是廣東省該年肺結(jié)核發(fā)病的高發(fā)期,4月為最高峰,12月為最低谷,這與實(shí)際發(fā)病例數(shù)和2.1節(jié)中得到的序列特征符合.將預(yù)測值與真實(shí)值作對比,預(yù)測值與真實(shí)值之間的平均絕對百分比誤差(MAPE)為2.12%,在10%的標(biāo)準(zhǔn)以下[4],且實(shí)際發(fā)病例數(shù)均在預(yù)測發(fā)病例數(shù)的95%置信區(qū)間之內(nèi),所以可認(rèn)為該模型屬于高精度模型.具體數(shù)據(jù)請參考表1.
3.2 模型預(yù)測應(yīng)用
使用疏系數(shù)ARIMA((11,12),1,(1,11))模型對廣東省2018年1-12月肺結(jié)核發(fā)病例數(shù)進(jìn)行預(yù)測.從預(yù)測結(jié)果可知,2018年3月-8月依然是廣東省肺結(jié)核發(fā)病高發(fā)期,其中最高為4月的7531例,最低為12月的5468例,極值差為2063,較往年相比該年變化幅度不大,總體發(fā)病趨勢與往年相比無明顯變化.2018年各月肺結(jié)核發(fā)病例數(shù)均落在95%的置信區(qū)間內(nèi),即就預(yù)測數(shù)據(jù)來看,在2018年,廣東省并無肺結(jié)核病暴發(fā)的跡象.
3 討論
近年來,時(shí)間序列的方法與模型越來越多地被應(yīng)用到傳染病的預(yù)測中,了解傳染病發(fā)病趨勢和規(guī)律、建立良好且敏感的模型擬合并預(yù)測,為及時(shí)采取有效且迅速措施提供重要理論依據(jù),切實(shí)保障人民的身體健康.目前廣泛應(yīng)用到傳染病預(yù)測的時(shí)間序列模型除了ARIMA模型以外,還有混合分解模型、殘差自回歸模型和GARCH模型等等.如今,ARIMA模型是傳染病預(yù)測中最常用的模型之一,而疏系數(shù)ARIMA模型作為ARIMA模型的推廣,使ARIMA模型的定階與構(gòu)建更多元化、使用范圍更廣.預(yù)測精度上,疏系數(shù)ARIMA模型對殘差進(jìn)行了白噪聲檢驗(yàn),當(dāng)殘差通過白噪聲檢驗(yàn)時(shí),模型已具有較高的精確度[5]-[8].
本研究中主要是采用SAS軟件中有關(guān)時(shí)間序列部分的包,運(yùn)用最小二乘法和最大似然估計(jì)法構(gòu)建、擬合最佳的模型.經(jīng)過參數(shù)調(diào)整后,最終挑選出最優(yōu)的模型為疏系數(shù)ARIMA((11,12),1,(1,11))模型.在確定模型后,首先使用模型對廣東省2017年1月—12月的肺結(jié)核發(fā)病例數(shù)進(jìn)行預(yù)測,將獲得預(yù)測值與真實(shí)值作對比,發(fā)現(xiàn)預(yù)測值與真實(shí)值偏差較小且符合往年發(fā)病規(guī)律,說明該模型屬于高精度模型.然后,再使用疏系數(shù)ARIMA((11,12),1,(1,11))模型預(yù)測了廣東省2018年1月—12月的肺結(jié)核發(fā)病例數(shù),根據(jù)預(yù)測值大致了解2018年廣東省肺結(jié)核病的疫情,同時(shí)還可以根據(jù)當(dāng)月的真實(shí)發(fā)病例數(shù)是否落入對應(yīng)的95%預(yù)測區(qū)間中,初步判斷下一個(gè)月是否有疫情暴發(fā)的可能.因此,可根據(jù)本研究中建立的疏系數(shù)ARIMA模型,提前預(yù)測廣東省未來的肺結(jié)核月發(fā)病例數(shù),提早采取相應(yīng)的預(yù)防控制措施,做好充分準(zhǔn)備工作.
參考文獻(xiàn):
〔1〕劉維華,朱建良,郭付愛,等.應(yīng)用時(shí)間序列法建立學(xué)校結(jié)核病預(yù)警模型研究[J].中國學(xué)校衛(wèi)生,2018,39(11):1682-1685.
〔2〕李曉榮,龐學(xué)文,于燕明,等.ARIMA模型在天津市結(jié)核并發(fā)病預(yù)測中的應(yīng)用[J].實(shí)用預(yù)防醫(yī)學(xué),2018,25(12):1536-1538.
〔3〕王燕.應(yīng)用時(shí)間序列分析[M].北京:中國人民大學(xué)出版社,2005.118-121.
〔4〕孫文生,楊汭華.經(jīng)濟(jì)預(yù)測方法[M].北京:中國農(nóng)業(yè)大學(xué)出版社,2005.272-273.
〔5〕劉繼恒,白春林,孫要武,等.應(yīng)用ARIMA模型預(yù)測肺結(jié)核報(bào)告發(fā)病例的研究[J].中國熱帶醫(yī)學(xué),2014,14(9):1067-1070.
〔6〕吳祖達(dá).福州市2008-2012年學(xué)生肺結(jié)核發(fā)病特征分析[J].海峽預(yù)防醫(yī)學(xué)雜志,2014,20(4):76-78.
〔7〕孫光,張良,謝金貴,等.ARIMA模型在阜陽市手足口病發(fā)病數(shù)預(yù)測中的應(yīng)用[J].安徽預(yù)防醫(yī)學(xué)雜志,2015,21(4):231-234.
〔8〕王怡,張震,范俊杰,等.ARIMA模型在傳染病預(yù)測中的應(yīng)用[J].中國預(yù)防醫(yī)學(xué)雜志,2015,16(6):424-428.
赤峰學(xué)院學(xué)報(bào)·自然科學(xué)版2019年6期