李 怡 陳仲榆 柳艷香 魯亮
1.中國(guó)氣象局公共氣象服務(wù)中心,北京,100081
2.中國(guó)疾病預(yù)防控制中心傳染病預(yù)防控制所,北京,102206
流行性感冒(以下簡(jiǎn)稱(chēng)流感)是一種嚴(yán)重危害人體健康的急性呼吸道傳染病,通常在秋、冬季流行(Baumgartner,et al,2012)。中國(guó)流感呈多樣化的季節(jié)性特征,A 型流感在北方省份呈冬季流行模式,位于熱帶的南方省份每年4—6 月流感流行,中緯度的省份流感呈每年1—2 月和6—8 月的雙周期流行特點(diǎn);B 型流感在中國(guó)大部分地區(qū)呈冬季高發(fā)型(Yu,et al,2013)?!吨袊?guó)流感疫苗預(yù)防接種技術(shù)指南》中指出,5 歲以下兒童、老年人、孕婦和慢性基礎(chǔ)病患者等流感高危人群,患病后出現(xiàn)重癥和死亡的風(fēng)險(xiǎn)高。季節(jié)性流感的負(fù)擔(dān)并非按年齡平均分布,一項(xiàng)對(duì)全球季節(jié)性流感相關(guān)呼吸系統(tǒng)死亡率的研究(Iuliano,et al,2018)估計(jì),全球92 個(gè)國(guó)家每年約有9243 至105690 名5 歲以下兒童死于流感相關(guān)呼吸道疾病。流感給兒童帶來(lái)了巨大的疾病負(fù)擔(dān),尤其是在人口密集的地區(qū)流感更易發(fā)生交叉感染。因此,文中聚焦超大城市群—京津冀地區(qū)學(xué)齡前兒童流感開(kāi)展研究。
以往研究(Polozov,et al,2008)表明,流感的傳播與氣象條件密切相關(guān)。從流感病毒結(jié)構(gòu)特征來(lái)看,氣溫會(huì)改變流感病毒脂質(zhì)包膜的形態(tài),在較低的溫度下,流感病毒脂質(zhì)包膜為有序排列的固態(tài),有利于維持病毒的完整和穩(wěn)定,病毒更易被傳播。氣溫、相對(duì)濕度常被認(rèn)為是顯著影響流感傳播的氣象因素(Li,et al,2018)。不同類(lèi)型流感病毒流行峰值與氣溫暴露-反應(yīng)關(guān)系不同,如甲型流感病毒分別在-4℃和28℃出現(xiàn)兩個(gè)傳播高峰,而乙型流感病毒通常在5℃達(dá)到高峰(Dai,et al,2018)。除了溫、濕條件外,氣壓對(duì)流感發(fā)病也有重要貢獻(xiàn)(Liu,et al,2019a)。值得注意的是,氣象條件對(duì)流感的影響存在區(qū)域差異和協(xié)同效應(yīng),溫帶地區(qū)寒冷干燥和熱帶地區(qū)潮濕多雨與流感流行關(guān)系密切程度不同(郭倩等,2020)。上海在梅雨結(jié)束后的高溫、高濕天氣及冬末初春由于氣溫日較差較大會(huì)引起流感高發(fā)(陶芳芳等,2010)。在西南地區(qū),較低的周平均溫度和絕對(duì)濕度及無(wú)風(fēng)的氣象條件可持續(xù)4 周顯著增加流感風(fēng)險(xiǎn),較高的相對(duì)濕度也會(huì)持續(xù)3 周增加流感風(fēng)險(xiǎn)(Qi,et al,2021)。同時(shí),流感發(fā)病對(duì)氣象條件具有滯后性,研究(Liu,et al,2019b)指出最低溫度每降低5℃,滯后1 周后流感病例數(shù)增加8%。
近年來(lái),中外學(xué)者研發(fā)了多種流感預(yù)報(bào)方法。以統(tǒng)計(jì)模型最為常見(jiàn),如采用累計(jì)和(Cumulative Sum Control Chart,CUSUM)模型開(kāi)展流感流行起始時(shí)間預(yù)警(段瑋等,2017),或采用支持向量機(jī)建立流感樣病例預(yù)警模型(盧漢體等,2015)等。隨著人工智能的不斷發(fā)展,很多流感預(yù)報(bào)新方法不斷涌現(xiàn),如利用社交媒體中帶有地理標(biāo)記的流感相關(guān)關(guān)鍵詞,通過(guò)多元線性回歸、人工神經(jīng)網(wǎng)絡(luò)等方法建立實(shí)時(shí)預(yù)測(cè)模型(Lu,et al,2019;Wang,et al,2020)。但是,目前很少針對(duì)學(xué)齡前兒童這類(lèi)敏感性人群開(kāi)展流感與氣象條件的關(guān)系和預(yù)報(bào)方法研究。學(xué)齡前兒童的免疫力相對(duì)較低,幼兒園人員密集,更容易感染流感,預(yù)防學(xué)齡前兒童流感傳播也更為困難。因此,學(xué)齡前兒童流感發(fā)病與氣象條件的關(guān)系更加值得關(guān)注,對(duì)學(xué)齡前兒童流感發(fā)病的預(yù)報(bào)也成為亟待研究的問(wèn)題。
本研究基于流感病例資料,開(kāi)展京津冀氣象條件對(duì)學(xué)齡前兒童流感發(fā)病影響研究。在此基礎(chǔ)上,基于機(jī)器學(xué)習(xí)方法建立該地區(qū)學(xué)齡前兒童發(fā)病人數(shù)預(yù)報(bào)模型,并進(jìn)行歷史回報(bào)檢驗(yàn),旨在為預(yù)防流感和行業(yè)服務(wù)提供科學(xué)依據(jù)。
收集整理2014 年1月1日至2016 年12 月31日京津冀地區(qū)13 個(gè)地級(jí)市(直轄市)的流感日發(fā)病數(shù)資料,包括臨床診斷病例和實(shí)驗(yàn)室確診病例。資料來(lái)源于中國(guó)疾病預(yù)防控制中心疾病監(jiān)測(cè)信息報(bào)告管理系統(tǒng)(數(shù)據(jù)已脫敏),涉及的信息包括性別、年齡和發(fā)病時(shí)間。選取學(xué)齡前兒童(6 月齡—6 歲齡)日發(fā)病數(shù)資料,用于氣象條件與流感的暴露-反應(yīng)關(guān)系分析和預(yù)報(bào)模型的構(gòu)建。選取京津冀地區(qū)13 個(gè)國(guó)家級(jí)地面氣象觀測(cè)站對(duì)應(yīng)時(shí)段內(nèi)的逐日平均氣溫、相對(duì)濕度、降水量、本站氣壓、平均風(fēng)速、日照時(shí)數(shù)。氣象條件對(duì)人體健康的影響通常是多個(gè)要素相互影響、協(xié)同作用的結(jié)果。因此,除單一氣象因素外,引入大氣環(huán)境人體感知度(BPWI)這一綜合氣象指標(biāo)(柳艷香等,2022),用于評(píng)價(jià)綜合氣象條件對(duì)學(xué)齡前兒童流感發(fā)病產(chǎn)生的影響。
(1)廣義相加模型(Generalized Additive Model,GAM)。流感日發(fā)病數(shù)近似服從泊松分布,GAM 的誤差分布選用泊松分布作為模型的分布族,取對(duì)數(shù)連接函數(shù)。非參數(shù)函數(shù)的形式選用平滑樣條法,采用平滑樣條函數(shù)可以最大程度擬合氣象因素與日發(fā)病數(shù)的關(guān)系(Liu,et al,2019b)?;灸P腿缦?/p>
式中,E(Yt)為觀察日(t)流感病例期望值;α 為擬合常量;s(*)為懲罰樣條函數(shù),time 為時(shí)間,df 為自由度;Xt為觀察日(t)的氣象要素,X可取氣溫、相對(duì)濕度、氣壓和BPWI 等;DOW 用于控制星期效應(yīng)。依據(jù)赤池信息準(zhǔn)則(AIC)最小和殘差最小的準(zhǔn)則,調(diào)節(jié)各項(xiàng)自由度,作為最優(yōu)模型。將時(shí)間自由度定為7,氣象要素自由度定為4。相較嚴(yán)格線性模型而言,廣義相加模型的優(yōu)點(diǎn)在于存在連接函數(shù)和平滑函數(shù),能較好地處理自變量和因變量間的非線性關(guān)系,且保留相加性質(zhì)。這樣能對(duì)各預(yù)報(bào)因子貢獻(xiàn)度進(jìn)行單獨(dú)分析和比較,是一種能較好兼顧可解釋性和靈活性的回歸模型。
(2)XGBoost 機(jī)器學(xué)習(xí)預(yù)報(bào)方法
采用XGBoost(Extreme Gradient Boosting)機(jī)器學(xué)習(xí)方法建立京津冀地區(qū)學(xué)齡前兒童流感發(fā)病預(yù)報(bào)模型,并進(jìn)行模擬效果檢驗(yàn)。XGBoost 是梯度提升決策樹(shù)集成算法的高效實(shí)現(xiàn)。梯度提升決策樹(shù)通過(guò)決策樹(shù)結(jié)構(gòu)實(shí)現(xiàn)回歸器葉節(jié)點(diǎn)的集合,算法具有較強(qiáng)的非線性擬合能力。XGBoost 在梯度提升決策樹(shù)的基礎(chǔ)框架上整合了多種目標(biāo)函數(shù)、優(yōu)化算法、樹(shù)分列算法等參數(shù)選項(xiàng),具有較好的數(shù)據(jù)自動(dòng)識(shí)別預(yù)處理能力及計(jì)算性能(Chen,et al,2016)。
收集到的2014—2016 年京津冀地區(qū)流感發(fā)病數(shù)共118636 人,其中學(xué)齡前兒童發(fā)病數(shù)26525 人。對(duì)京津冀地區(qū)流感發(fā)病總體特征分析發(fā)現(xiàn),京津冀地區(qū)以北京流感發(fā)病率最高,3 a 的年平均發(fā)病率每百萬(wàn)人為597 人,而天津和河北的年平均發(fā)病率分別是每百萬(wàn)人149 人和36 人,可見(jiàn)人口密集地區(qū)和人口流動(dòng)性高的地區(qū),流感發(fā)病率相對(duì)較高。采用核密度估計(jì)(Kernel Density Estimation)方法,獲得能夠近似表示流感數(shù)據(jù)分布的密度函數(shù)每一點(diǎn)的估計(jì)值,從而得到2014—2016 年京津冀地區(qū)流感發(fā)病年齡分布情況(圖1)。在京津冀地區(qū)各年齡段發(fā)病人數(shù)中,0—6 歲為流感發(fā)病人數(shù)的第一個(gè)峰值,也是最大值區(qū)間。京津冀學(xué)齡前兒童相較于其他年齡段人群更易發(fā)病屬于流感的一個(gè)典型特征。中外相關(guān)研究也曾指出低齡兒童存在一個(gè)流感發(fā)病高峰,如天津市、南京市、福州市等流感樣病例以低年齡組發(fā)病占比最高(李媛等,2011;于永等,2015;鄭月燕等,2019)。芬蘭、美國(guó)、澳大利亞等相繼有研究(Silvennoinen,et al,2011;Worby,et al,2015;Huang,et al,2017)表明低齡兒童流感發(fā)病和住院率的相對(duì)風(fēng)險(xiǎn)最高。學(xué)齡前兒童流感高發(fā)的因素有多個(gè)方面,比如兒童年齡越小,體內(nèi)的流感病毒抗體較其他年齡段的人群少,免疫力和對(duì)流感病毒的抵抗力差(秦強(qiáng)等,2019)。另外,由于流感病毒通過(guò)飛沫和受病毒污染的手傳播,幼兒園的集體生活使得學(xué)齡前兒童相互間接觸頻繁,從而造成流感傳播。
圖1 京津冀流感發(fā)病年齡密度分布(a.2014 年,b.2015 年,c.2016 年)Fig.1 Kernel density estimates of age distribution of influenza occurrence in Beijing-Tianjin-Hebei area(a.2014,b.2015,c.2016)
流感一年四季都可能發(fā)生,且發(fā)病時(shí)間分布不均。從京津冀學(xué)齡前兒童流感逐月發(fā)病人數(shù)與月平均氣溫的時(shí)間序列(圖2)分析,逐月學(xué)齡前兒童發(fā)病人數(shù)呈單谷型分布,12—3 月發(fā)病人數(shù)最多。4—7 月發(fā)病人數(shù)連續(xù)減少,7 月發(fā)病人數(shù)最少,之后發(fā)病人數(shù)逐月增多。發(fā)病人數(shù)在11、12 月之間增幅最大。月平均氣溫與流感發(fā)病人數(shù)呈反向變化,表現(xiàn)為單峰型分布。1 月的平均氣溫最低,10—12 月的平均氣溫降幅較大,以及2—3 月月平均氣溫波動(dòng)較大,均對(duì)應(yīng)著發(fā)病人數(shù)較多的月份。京津冀學(xué)齡前兒童流感在這些時(shí)期高發(fā),主要是由于京津冀地區(qū)地處華北平原,冬、春季受西伯利亞高壓和東北冷渦活動(dòng)的影響,來(lái)自高緯度地區(qū)的強(qiáng)冷空氣南下直達(dá)華北平原,導(dǎo)致該地區(qū)常出現(xiàn)寒潮和大風(fēng)降溫過(guò)程。當(dāng)寒潮過(guò)境時(shí),當(dāng)?shù)貧鈮荷撸殡S著劇烈降溫,人體熱平衡很難及時(shí)調(diào)節(jié)達(dá)到新的平衡態(tài),從而導(dǎo)致人體免疫力下降,流感傳播的可能性變大,尤其對(duì)于兒童更是如此。京津冀地區(qū)學(xué)齡前兒童發(fā)病的分布(圖3)也印證了該地區(qū)學(xué)齡前兒童流感發(fā)病的高發(fā)時(shí)段為冬季,其次為春季和秋季。并且各季節(jié)也是北京的學(xué)齡前兒童發(fā)病率最高,其次是與北京毗鄰的廊坊,河北省的衡水、秦皇島也是發(fā)病率較高的城市。
圖2 京津冀2014—2016 年學(xué)齡前兒童流感逐月發(fā)病人數(shù)與月平均氣溫時(shí)間序列Fig.2 Monthly time series of preschool children influenza cases and monthly average temperature in Beijing-Tianjin-Hebei area from 2014 to 2016
圖3 京津冀學(xué)齡前兒童流感各季節(jié)日平均發(fā)病率特征(a.春季,b.夏季,c.秋季,d.冬季)Fig.3 Average daily incidence of influenza in preschool children in Beijing-Tianjin-Hebei area(a.spring,b.summer,c.autumn,d.winter)
分析流感發(fā)病與氣象條件的暴露-反應(yīng)關(guān)系之前,首先分析影響學(xué)齡前兒童流感的氣象條件是否存在共線性。采用斯皮爾曼(Spearman)相關(guān)計(jì)算京津冀逐日BPWI、氣溫、相對(duì)濕度、風(fēng)速、日照時(shí)數(shù)、氣壓、降水量之間的相關(guān)系數(shù)(表1)。氣溫與BPWI 的相關(guān)系數(shù)r=0.993(P<0.001),兩者之間存在顯著的共線性。這是由于BPWI 采用氣溫、相對(duì)濕度、風(fēng)速和日照時(shí)數(shù)4 個(gè)氣象要素構(gòu)建,且氣溫所占權(quán)重最大(約50%)。氣溫與BPWI 的這種顯著相關(guān)也表明BPWI 能很好地反映氣溫的變化。另一組相關(guān)較高(相關(guān)系數(shù)|r|>0.6)的氣象要素是氣溫與氣壓。冷空氣過(guò)境,帶來(lái)氣壓升高,氣溫降低,氣溫和氣壓雖然存在較高的相關(guān),但由于兩者的物理動(dòng)力過(guò)程明確,不能簡(jiǎn)單的判別為存在共線性。其余氣象要素間相關(guān)系數(shù)較?。▅r|<0.6),不存在共線性。各氣象要素統(tǒng)計(jì)值如表2 所示。其中,京津冀地區(qū)日平均氣溫2014—2016 年平均值為12.95℃,BPWI 的平均值為-2.95。BPWI 為負(fù)值,往往表示向冷變化;BPWI 為正值,則表示向暖變化。由于BPWI 綜合了氣溫、相對(duì)濕度、風(fēng)速及日照時(shí)數(shù)的協(xié)同作用,表征了人體對(duì)氣象條件綜合影響的感知程度。
表1 2014—2016 年逐日各氣象要素間的相關(guān)系數(shù)Table 1 Correlation coefficients between daily meteorological factors from 2014 to 2016
表2 2014—2016 年逐日各氣象要素區(qū)域平均統(tǒng)計(jì)量Table 2 Statistics of daily regional-mean of meteorological factors in Beijing-Tianjin-Hebei area from 2014 to 2016
通過(guò)Spearman 相關(guān)分析得到了學(xué)齡前兒童流感發(fā)病當(dāng)日和不同滯后天數(shù)的發(fā)病人數(shù)與各氣象要素的相關(guān)系數(shù)(表3)。當(dāng)相關(guān)系數(shù)|r|>0.3 且P<0.001 時(shí),認(rèn)為該氣象要素與流感發(fā)病存在顯著相關(guān)。就發(fā)病當(dāng)日的情況而言,平均氣溫和BPWI對(duì)學(xué)齡前兒童發(fā)病人數(shù)影響顯著,相關(guān)系數(shù)分別為-0.762 和-0.751(P<0.001),呈顯著的負(fù)相關(guān)關(guān)系。這表明當(dāng)氣溫下降,或BPWI 綜合指數(shù)為負(fù)值時(shí),學(xué)齡前兒童流感發(fā)病人數(shù)將增多。其次,相對(duì)濕度也與流感發(fā)病數(shù)呈顯著負(fù)相關(guān),相關(guān)系數(shù)為-0.381(P<0.001)。氣壓則與流感發(fā)病人數(shù)呈顯著正相關(guān)關(guān)系,相關(guān)系數(shù)為0.534(P<0.001),表現(xiàn)為當(dāng)?shù)乇須鈮涸龈撸┙蚣降貐^(qū)兒童流感發(fā)病增多。氣溫、氣壓和氣象綜合指標(biāo)(BPWI)與流感發(fā)病人數(shù)的顯著相關(guān),說(shuō)明當(dāng)氣象條件發(fā)生變化時(shí),會(huì)對(duì)流感發(fā)病造成影響。具體而言,當(dāng)冷高壓過(guò)境時(shí),帶來(lái)北方冷空氣和降溫過(guò)程,京津冀地區(qū)兒童流感發(fā)病人數(shù)有明顯增多趨勢(shì)。此外,日照時(shí)數(shù)和降水量與流感發(fā)病的相關(guān)系數(shù)絕對(duì)值較小,表明兩者對(duì)流感發(fā)病人數(shù)未造成顯著影響。風(fēng)速與流感發(fā)病的線性相關(guān)關(guān)系不顯著(0.224<P<0.9778)。
表3 2014—2016 年京津冀學(xué)齡前兒童流感發(fā)病與氣象要素(發(fā)病當(dāng)日及滯后)相關(guān)系數(shù)Table 3 Correlation coefficients between preschool children influenza cases and meteorological factors at the onset day and various lag days from 2014 to 2016
流感發(fā)病具有潛伏期,表現(xiàn)為流感發(fā)病對(duì)氣象條件變化具有一定的滯后。京津冀學(xué)齡前兒童流感發(fā)病人數(shù)與發(fā)病前1—6 d 的氣象要素間的滯后相關(guān)系數(shù)(表3)表明,流感發(fā)病與一周以?xún)?nèi)的氣溫、相對(duì)濕度、氣壓和BPWI 具有顯著的相關(guān)關(guān)系(P<0.001)。一周以?xún)?nèi),流感發(fā)病與前6 d 的氣溫、氣壓和BPWI 的滯后相關(guān)系數(shù)最大,與發(fā)病當(dāng)日的相對(duì)濕度的相關(guān)性最大。而流感發(fā)病與降水量、平均風(fēng)速、日照時(shí)數(shù)的滯后相關(guān)系數(shù)較小或不顯著。
基于Spearman 相關(guān)分析得到顯著影響流感發(fā)病的氣象要素后,采用GAM 進(jìn)一步分析流感發(fā)病與這些氣象要素的非線性關(guān)系。為了避免氣溫與BPWI 共線性的影響,首先進(jìn)行敏感性分析,設(shè)計(jì)單一要素(氣溫、相對(duì)濕度、氣壓)和綜合氣象條件(BPWI、氣壓)兩種方案。遵循最小AIC 和殘差的準(zhǔn)則,綜合氣象條件方案對(duì)流感發(fā)病人數(shù)擬合更優(yōu)。因此,分析BPWI 和氣壓與流感發(fā)病的暴露-反應(yīng)關(guān)系,并應(yīng)用于預(yù)報(bào)方法的研究。由BPWI 與學(xué)齡前兒童流感發(fā)病人數(shù)暴露-反應(yīng)關(guān)系(圖4a)可以看出,BPWI 與學(xué)齡前兒童流感發(fā)病人數(shù)存在非線性相關(guān),BPWI 與流感發(fā)病的暴露-反應(yīng)關(guān)系曲線存在1 個(gè)低值點(diǎn),在該點(diǎn)兩側(cè),BPWI 升高或者降低時(shí),流感發(fā)病風(fēng)險(xiǎn)均增大,即得到最適BPWI 值為-11。當(dāng)BPWI≤-11 時(shí),隨著B(niǎo)PWI 減小,流感發(fā)病風(fēng)險(xiǎn)增大。當(dāng)-11<BPWI<0 時(shí),隨著B(niǎo)PWI 增大,流感發(fā)病風(fēng)險(xiǎn)增加。當(dāng)0≤BPWI<10 時(shí),隨著B(niǎo)PWI 減小,流感發(fā)病風(fēng)險(xiǎn)增加。從BPWI 低于10 開(kāi)始,這一綜合氣象條件就對(duì)流感發(fā)病產(chǎn)生影響,尤其當(dāng)BPWI 低于最適值時(shí),綜合氣象條件對(duì)流感發(fā)病的影響最大。分析發(fā)現(xiàn),當(dāng)BPWI 為-11 時(shí),對(duì)應(yīng)京津冀地區(qū)的氣溫約為4℃。氣壓與流感發(fā)病呈現(xiàn)出近似于線性相關(guān)的關(guān)系(圖4b),當(dāng)氣壓>905 hPa,氣壓對(duì)流感發(fā)病的影響呈正趨勢(shì),隨著氣壓的升高,流感發(fā)病風(fēng)險(xiǎn)增大。當(dāng)氣壓達(dá)到1007 hPa 時(shí),此時(shí)流感發(fā)病風(fēng)險(xiǎn)最高,該氣壓為拐點(diǎn)氣壓。在此之后,氣壓與流感發(fā)病的關(guān)系曲線趨于平緩。BPWI 和氣壓與學(xué)齡前兒童流感發(fā)病的暴露-反應(yīng)關(guān)系具有統(tǒng)計(jì)學(xué)意義(P<0.001)。
圖4 2014—2016 年京津冀學(xué)齡前兒童流感發(fā)病人數(shù)與(a)BPWI 和(b)氣壓的關(guān)系(實(shí)線表示流感相對(duì)危險(xiǎn)度(RR),虛線表示95%置信區(qū)間)Fig.4 Relationships of influenza cases with(a)BPWI and(b)station pressure among preschool children in Beijing-Tianjin-Hebei area during 2014—2016(the solid line represents the logarithm of the relative risk of influenza,the dotted line represents the 95% confidence interval)
非線性回歸結(jié)構(gòu)的XGBoost 機(jī)器學(xué)習(xí)方法屬于決策樹(shù)算法。構(gòu)造決策樹(shù)首先需要合理劃分?jǐn)?shù)據(jù)集。為保持疾病數(shù)據(jù)的時(shí)間均勻和要素特性,利用隨機(jī)采樣方法分離訓(xùn)練集和檢驗(yàn)集。訓(xùn)練集大小控制為總數(shù)據(jù)集的80%,總數(shù)據(jù)集的20%作為檢驗(yàn)數(shù)據(jù),檢驗(yàn)數(shù)據(jù)集不參與模型訓(xùn)練,僅用于回報(bào)檢驗(yàn)。
考慮流感發(fā)病對(duì)氣象條件存在滯后性,將氣象類(lèi)預(yù)報(bào)因子(BPWI 和氣壓以及它們的超前量)和非氣象類(lèi)預(yù)報(bào)因子(日期)作為自變量,代入模型進(jìn)行訓(xùn)練,得到學(xué)齡前兒童流感發(fā)病人數(shù)。為評(píng)估模型的性能,采用平均絕對(duì)誤差、均方根誤差、決定系數(shù)3 種評(píng)估指標(biāo)。計(jì)算得到XGBoost 模型的平均絕對(duì)誤差為5.766,均方根誤差為9.635,決定系數(shù)為0.94。決定系數(shù)越大,誤差越小,表明模型的模擬性能越穩(wěn)定越好。對(duì)模型特征量進(jìn)行重要性分析(圖5),XGBoost 模型中,貢獻(xiàn)度前五的特征量為超前3 天的BPWI、日期、超前5 天的BPWI、當(dāng)天的BPWI、超前5 天的氣壓。其中,貢獻(xiàn)大的特征量反映了超前3 天的BPWI 變化對(duì)流感發(fā)病具有顯著的影響,其次為時(shí)間特征。各特征量重要性還反映出BPWI 對(duì)流感預(yù)報(bào)重要性高于氣壓。
圖5 XGBoost 模型的特征重要性分析Fig.5 Analysis of feature importance of the XGBoost model
利用京津冀學(xué)齡前兒童流感發(fā)病歷史人數(shù)進(jìn)行回報(bào)檢驗(yàn),以評(píng)估模型的回報(bào)準(zhǔn)確度和回報(bào)效果。為保證檢驗(yàn)樣本的獨(dú)立性,使用隨機(jī)采樣得到的檢驗(yàn)數(shù)據(jù)集進(jìn)行檢驗(yàn),將模型歷史回報(bào)得到的發(fā)病人數(shù)與檢驗(yàn)集實(shí)際發(fā)病人數(shù)對(duì)比。分析流感模型的回報(bào)擬合度(圖6),模型的歷史回報(bào)值和檢驗(yàn)集實(shí)際值在小值區(qū)的離散程度相對(duì)較小,回報(bào)值與實(shí)際值的吻合較好;在大值區(qū),歷史回報(bào)值更為發(fā)散。離散程度越大,擬合性能越差,歷史回報(bào)值與實(shí)際值差距越大,模式回報(bào)效果越差。該模型得到的檢驗(yàn)集歷史回報(bào)值與檢驗(yàn)集實(shí)際發(fā)病數(shù)擬合性高(決定系數(shù)為0.94)。對(duì)模型的歷史回報(bào)效果進(jìn)行檢驗(yàn)(圖7)發(fā)現(xiàn),京津冀地區(qū)兒童歷史回報(bào)值與檢驗(yàn)集實(shí)際值的Spearman 相關(guān)系數(shù)達(dá)到0.892(P<0.001)。歷史回報(bào)發(fā)病人數(shù)在冬春季峰值趨勢(shì)和實(shí)際發(fā)病人數(shù)的趨勢(shì)吻合度高,同時(shí)低值趨勢(shì)吻合程度更好,預(yù)報(bào)模型能很好地捕捉流感高發(fā)日和低值日的特征。歷史回報(bào)發(fā)病人數(shù)和實(shí)際發(fā)病人數(shù)相關(guān)性高,可見(jiàn),使用XGBoost 構(gòu)建的預(yù)報(bào)模型對(duì)京津冀地區(qū)學(xué)齡前兒童流感發(fā)病的預(yù)報(bào)較為可靠。
圖6 京津冀學(xué)齡前兒童流感預(yù)報(bào)模型回報(bào)擬合度(橫坐標(biāo)為檢驗(yàn)集實(shí)際發(fā)病人數(shù),縱坐標(biāo)為檢驗(yàn)集回報(bào)發(fā)病人數(shù),藍(lán)實(shí)線為回報(bào)值與實(shí)際值的擬合線,陰影為95%置信區(qū)間)Fig.6 Degree of fitting for prediction of preschool children influenza cases by prediction model in Beijing-Tianjin-Hebei area(the horizontal axis is the reported cases in test set,the vertical axis is the hindcast cases in test set,the solid blue line is the fitting line between the hindcast value and the reported value,the shade is the confidence interval of 95%)
圖7 京津冀學(xué)齡前兒童流感歷史回報(bào)效果檢驗(yàn)Fig.7 Validation of hindcast for preschool children influenza cases in Beijing-Tianjin-Hebei area
利用京津冀地區(qū)學(xué)齡前兒童流感發(fā)病人數(shù)和氣象觀測(cè)資料,研究了該地區(qū)學(xué)齡前兒童流感發(fā)病人數(shù)與氣象條件的關(guān)系,采用XGBoost 機(jī)器學(xué)習(xí)方法進(jìn)行了預(yù)報(bào)試驗(yàn),結(jié)果表明:
(1)一周以?xún)?nèi)的氣溫、相對(duì)濕度、氣壓和BPWI與流感發(fā)病人數(shù)存在顯著線性相關(guān)。風(fēng)速、日照時(shí)數(shù)、降水量與流感發(fā)病人數(shù)的線性相關(guān)系數(shù)較小或不顯著。BPWI 與氣溫具有較強(qiáng)的共線性,相關(guān)系數(shù)達(dá)0.993,BPWI 能反映氣溫的變化特征,同時(shí)考慮了相對(duì)濕度、風(fēng)速和日照時(shí)數(shù)的特征。BPWI 與流感發(fā)病人數(shù)的暴露-反應(yīng)關(guān)系顯著,最適BPWI 值為-11,對(duì)應(yīng)氣溫約為4℃。當(dāng)BPWI≤-11 或0≤BPWI<10 時(shí),隨著B(niǎo)PWI 減小,流感發(fā)病風(fēng)險(xiǎn)增大。當(dāng)氣壓>905 hPa,隨著氣壓的升高,流感發(fā)病風(fēng)險(xiǎn)增大。當(dāng)氣壓達(dá)到1007 hPa 時(shí),流感發(fā)病風(fēng)險(xiǎn)最高。天氣過(guò)程中的各個(gè)氣象要素并不是獨(dú)立存在的,它們之間相互影響,這也是引入BPWI 這一綜合氣象條件指標(biāo)并分析其對(duì)流感發(fā)病影響的重要原因。
(2)基于誘發(fā)京津冀學(xué)齡前兒童流感發(fā)病的氣象條件—BPWI 和氣壓開(kāi)展了XGBoost 機(jī)器學(xué)習(xí)方法的預(yù)報(bào)建模試驗(yàn)。預(yù)報(bào)模型中貢獻(xiàn)度前五的特征量為超前3 天的BPWI、日期、超前5 天的BPWI、當(dāng)天的BPWI、超前5 天的氣壓,尤其是超前3 天的BPWI 對(duì)流感發(fā)病具有明顯的影響。模擬性能評(píng)估和歷史回報(bào)檢驗(yàn)的結(jié)果均表明模型對(duì)京津冀學(xué)齡前兒童流感發(fā)病預(yù)報(bào)具有較好的模擬性能和預(yù)報(bào)效果,可作為預(yù)報(bào)模型應(yīng)用到實(shí)際預(yù)報(bào)中,以此為流感的分類(lèi)人群干預(yù)提供預(yù)報(bào)依據(jù)。
需要說(shuō)明的是,本研究建立的預(yù)報(bào)模型也可用于其他城市的流感預(yù)報(bào)建模,但不同地區(qū)的流感病毒類(lèi)型和傳播速率不同,因此各城市的流感預(yù)報(bào)模型應(yīng)該納入地理位置、社會(huì)人口等對(duì)流感傳播存在潛在影響的要素。同時(shí),盡管本研究得到了京津冀學(xué)齡前兒童流感發(fā)病與氣象條件之間顯著的相關(guān)關(guān)系和較好的預(yù)報(bào)試驗(yàn)效果,但是還有待于開(kāi)展不同氣候區(qū)各類(lèi)敏感人群的流感疾病與氣象條件的關(guān)系研究,以?xún)?yōu)化預(yù)報(bào)方法。