翁榕星 張春來 文立章 葉健濱 王洪琳 洪福昌 陳祥生 蔡于茂
1 深圳市慢性病防治中心,廣東深圳518020; 2 中國醫(yī)學(xué)科學(xué)院皮膚病研究所 中國疾病預(yù)防控制中心性病控制中心,南京210042
淋病是由淋病奈瑟球菌所致的常見性傳播疾病。據(jù)WHO 估計,2016 年全球約有8 600 萬新發(fā)淋病感染患者[1]。 在中國,淋病是乙類法定報告?zhèn)魅静?,每年報告約115 000 例新病例[2]。 由于目前缺乏針對淋病的可用疫苗以及耐藥菌株的持續(xù)出現(xiàn),因此監(jiān)測和預(yù)測淋病的流行狀況和趨勢對其防控十分重要。2014 年深圳報告淋病發(fā)病率為53.01/10萬,居全省首位,遠高于全國水平[3],表明淋病仍然是深圳的主要公共衛(wèi)生問題。本研究基于深圳市2005—2020 年的淋病監(jiān)測數(shù)據(jù), 構(gòu)建自回歸移動平均(ARIMA)模型來預(yù)測深圳淋病發(fā)病率的時間趨勢,對淋病流行趨勢進行預(yù)警,為深圳的淋病防控工作提供參考依據(jù)。
2005—2020 年深圳市淋病的發(fā)病率趨勢如圖1 A 所示, 呈現(xiàn)明顯的周期波動規(guī)律, 每年于1—2月處于流行低谷,于7 月及10 月到達流行高峰。 總體趨勢而言, 深圳市淋病發(fā)病率從2014 年開始呈明顯上升趨勢,于2017 年達到頂峰,隨后開始逐步下降(圖1 B),并且深圳市淋病發(fā)病率有著以年為單位的周期性波動(圖1 C)。在時間序列去除趨勢、季節(jié)性后的偶然性波動為隨機波動,受偶然性因素影響(圖1 D)。
收集中國疾病預(yù)防控制信息系統(tǒng)里2005 年1月至2020 年11 月年深圳市淋病月發(fā)病統(tǒng)計數(shù)據(jù),人口資料來自深圳市統(tǒng)計年鑒。
1. 數(shù)據(jù)集的建立和模型介紹
將序列分為訓(xùn)練集和驗證集, 其中2005 年1月—2020 年5 月作為訓(xùn)練集用作模型建立,2020年6—11 月作為驗證集用作模型評估。應(yīng)用軟件R 3.5.0 版本建立ARIMA 模型。ARIMA 模型的表現(xiàn)形式一般為ARIMA (p,d,q)×(P,D,Q)s, 其中p 和P分別為非季節(jié)性和季節(jié)性自回歸階數(shù),q 和Q 為非季節(jié)性和季節(jié)性移動平均階數(shù),d 和D 為非季節(jié)性和季節(jié)性差分次數(shù),s 為季節(jié)周期[4]。
2. 模型的識別
在建立模型前, 需要觀察并應(yīng)用Augmented Dickey-Fuller(ADF) 檢驗來檢測時間序列的平穩(wěn)性,對不穩(wěn)定的序列做差分處理[5]。 待序列平穩(wěn)后,觀察其自相關(guān)圖(ACF)和偏自相關(guān)圖(PACF)的拖尾或截尾狀況來識別模型的參數(shù)。 根據(jù)參數(shù)構(gòu)建一個或數(shù)個模型,對比BIC 值選擇擬合最優(yōu)的模型。
3. 模型的參數(shù)檢驗、診斷和評價
用最小二乘法計算最優(yōu)模型的參數(shù),再對模型的殘差序列進行Ljung-Box 檢驗, 以檢測其是否為白噪聲序列, 并用QQ 圖檢測殘差是否服從正態(tài)分布[6-7]。 通過上述檢測后,模型應(yīng)用于驗證集,以平均絕對百分誤差(MAPE)為評價標(biāo)準(zhǔn),MAPE 值在5%~10%認為模型高度準(zhǔn)確,10%~20%認為模型是好的,20%~50%認為模型是合理的,>50%認為模型不準(zhǔn)確[8]。
圖1 2005—2020 年深圳市淋病發(fā)病率時間序列分解示意圖
ADF 檢驗結(jié)果表明,2005 年1 月—2020 年5月深圳市淋病發(fā)病率的時間序列不穩(wěn)定,因此需要進行平穩(wěn)化處理。 經(jīng)一階普通差分及一階季節(jié)性差分后(圖2 A),序列變化趨勢消除,數(shù)值圍繞0 值上下波動并通過了ADF 檢驗(P=0.01),序列趨于平穩(wěn)。
序列平穩(wěn)后可初步確認ARIMA (p,d,q)×(P,D,Q)s模型中,d=1,D=1,s=12。通過觀察ACF 圖(圖2 B) 發(fā)現(xiàn)Lag=1、2 處超出95%CI,q 值在0、1 或2間選??;通過觀察PACF 圖(圖2 C)發(fā)現(xiàn)Lag=1、5、8處超出95%CI,p 值在0、1、5 或8 之間選取。 關(guān)于P和Q 的取值的選取, 一般不超過2 階, 通過觀察ACF 圖發(fā)現(xiàn)Lag=12 處超出95%CI,Q=0 或1; 觀察PACF 圖發(fā)現(xiàn)Lag=12、24 處超出95%CI,P 值在0、1或2 之間選取。比較模型間的BIC 值,BIC 最小的模型為最優(yōu)模型。
圖2 淋病發(fā)病率差分處理后示意圖
最終確定BIC 最小的模型為ARIMA (0,1,1)(2,1,1)12模型(BIC=370.51)。 在模型標(biāo)準(zhǔn)化的殘差圖中, 殘差以平均值為0、 恒定的方差進行分布。ACF 圖顯示自相關(guān)系數(shù)大部分在95%CI 內(nèi),Ljung-Box 檢測P 均>0.05,表明該模型的殘差序列為白噪聲序列。 QQ 圖檢測顯示該殘差序列服從正態(tài)分布。模 型 的 參 數(shù) 檢 驗 如 表1 所 示,ARIMA (0,1,1)(2,1,1)12模型的參數(shù)檢驗均有統(tǒng)計學(xué)意義。 因此,該模型可以用于驗證集預(yù)測2020 年6—11 月深圳市淋病發(fā)病率。
將ARIMA (0,1,1)(2,1,1)12模型應(yīng)用于預(yù)測2020 年6—11 月深圳市淋病發(fā)病率, 如圖3 所示,2020 年6—11 月的真實值均在預(yù)測值的95%CI內(nèi)。該模型預(yù)測水平較優(yōu),MAPE 值為18.35%。該模型預(yù)測結(jié)果顯示2021 年深圳淋病發(fā)病率將繼續(xù)下降,區(qū)間為0.68/10 萬~3.70/10 萬。
表1 ARIMA (0,1,1)(2,1,1)12 模型參數(shù)檢驗結(jié)果
圖3 2005—2020 年深圳市淋病發(fā)病率趨勢及預(yù)測結(jié)果圖
傳染病流行趨勢的預(yù)測對疾病防控有著重要指導(dǎo)作用,當(dāng)前許多有用的數(shù)學(xué)和統(tǒng)計方法被廣泛應(yīng)用于傳染病預(yù)測領(lǐng)域。 時間序列分析即通過應(yīng)用時間變量有效預(yù)測傳染病的未來發(fā)病率和流行病學(xué)趨勢。 在多種預(yù)測技術(shù)中,ARIMA 模型已經(jīng)越來越受到青睞,并成功應(yīng)用于登革熱、結(jié)核病和腮腺炎等傳染病預(yù)測中[9-10]。 ARIMA 模型具有短期預(yù)測準(zhǔn)確性高且易于實施的優(yōu)點[4],經(jīng)濟且高效的特點也可應(yīng)用于經(jīng)濟不發(fā)達的地區(qū),并及時提供干預(yù)手段。本研究應(yīng)用ARIMA (0,1,1)(2,1,1)12模型來預(yù)測2020 年6—11 月深圳市淋病發(fā)病率, 發(fā)現(xiàn)有著周期性波動以及繼續(xù)下降的趨勢,與實際發(fā)病率趨勢基本一致,預(yù)測結(jié)果較好,表明該模型可很好地擬合周期性波動和長期趨勢, 因此ARIMA 模型能夠應(yīng)用于淋病發(fā)病趨勢的預(yù)測。 另外, 模型預(yù)測2021 年深圳淋病發(fā)病率將維持在一個較低水平,這可能與目前政府采取相關(guān)防控措施,就診人群可能因減少接觸等原因減少就診,但不排除后期隨著人員流動性增加, 相應(yīng)的淋病發(fā)病率可能會隨之變化,因此模型需要及時更新。
本研究還發(fā)現(xiàn)2005—2020 年深圳市淋病發(fā)病率存在明顯的周期性波動, 從每年的12 月到次年的2 月有所下降,并在次年的2 月進入低谷,隨后又逐漸上升,該結(jié)果與梅毒的發(fā)病率季節(jié)波動相似[11],這個現(xiàn)象可解釋為“春節(jié)效應(yīng)”[12],即春節(jié)期間新發(fā)感染人數(shù)下降,春節(jié)后回升,該效應(yīng)一般由大量外來人口在春節(jié)回鄉(xiāng)導(dǎo)致,該人群更有可能發(fā)生高危性行為,因此更容易感染性病[12]。 此外,“春節(jié)效應(yīng)”可能造成患者淋病治療的推遲,還可能將感染進一步傳播給他們的性伴侶[13]。因此,需對外來勞務(wù)工作為重點的干預(yù)對象,降低高危性行為的發(fā)生。
本研究中亦存在一些局限性。 在擬合ARIMA模型之前,必須保持時間序列平穩(wěn)。其次,ARIMA 模型都只能應(yīng)用于短期預(yù)測,隨著時間的推移,應(yīng)不斷添加新的觀測序列以調(diào)整模型, 確保預(yù)測準(zhǔn)確性。 此外,該模型的精度還受到監(jiān)測數(shù)據(jù)質(zhì)量的影響,遲報、漏報以及重復(fù)報告均可影響數(shù)據(jù)的質(zhì)量。由于深圳市性病疫情報告網(wǎng)絡(luò)較健全,市、區(qū)級慢性病防治機構(gòu)定期開展相關(guān)培訓(xùn)以及性病疫情督導(dǎo)工作,各級醫(yī)療機構(gòu)嚴格按要求進行性病報告工作,大大減少了遲報、漏報以及重復(fù)報告的情況發(fā)生[14],因此該模型能相對準(zhǔn)確地反映深圳市淋病發(fā)病率趨勢,并應(yīng)用于未來的預(yù)測工作中。
利益沖突 所有作者均聲明不存在利益沖突