閆 旭, 張曉瑞,2, 朱明豪
(1.合肥工業(yè)大學(xué) 建筑與藝術(shù)學(xué)院, 安徽 230009; 2.合肥工業(yè)大學(xué) 數(shù)字人居環(huán)境研究實(shí)驗(yàn)室, 安徽 230009)
疫情預(yù)警的定義,是指在缺乏確定的反應(yīng)關(guān)系前提下,通過收集、整理分析傳染病資料,綜合研判疫情信息,充分論證后調(diào)整行動(dòng)預(yù)案,在下一次疫情爆發(fā)前或早期發(fā)出警報(bào),促使相關(guān)部門及時(shí)做出反應(yīng),從而最大程度降低對(duì)高危地區(qū)群體的危害[1-3]。目前國際與國內(nèi)普遍建立了完備的疫情實(shí)時(shí)監(jiān)測(cè)報(bào)告系統(tǒng),使政府及衛(wèi)健部門能夠及時(shí)預(yù)警可能存在的聚集性疫情爆發(fā)[4],以往常用的幾種時(shí)間、空間掃描模型一定程度上解釋了一些流行病在某些時(shí)段上的聚集性,但單純以時(shí)間或空間維度分析探測(cè)傳染病的聚集僅能模擬單一維度內(nèi)疫情爆發(fā)的可能,并不能從時(shí)空多維角度解釋某種疫情的傳播特征,存在一定的局限[5]。有學(xué)者提出的前瞻性時(shí)空重排掃描統(tǒng)計(jì)量法及其模型[6-7],對(duì)疫情會(huì)在何時(shí)、何地爆發(fā)以及爆發(fā)的強(qiáng)度等做出類似多次成功的預(yù)警模擬,該模型的用途已不僅限于對(duì)急性流行病的傳播模式研究,在生物入侵預(yù)警[8]、犯罪行為調(diào)查[9-10]、輿情檢測(cè)[11]等領(lǐng)域亦有廣泛運(yùn)用的實(shí)例研究。
地理信息技術(shù)及流行病動(dòng)力學(xué)模型在分析疫情分布和傳播特征方面都起到了顯著作用,眾多的地理分析方法及早期預(yù)警模型已經(jīng)廣泛應(yīng)用于公共衛(wèi)生及傳染病防治相關(guān)事業(yè)[12],約翰斯·霍普金斯大學(xué)所做的全球疫情實(shí)時(shí)大數(shù)據(jù)地圖以及國內(nèi)丁香園疫情地圖等眾多平臺(tái)推出的軟件,再次體現(xiàn)了強(qiáng)大信息技術(shù)支撐下的疫情防控體系的力量[13-14]。疫情傳播數(shù)理模型是區(qū)別于社會(huì)流調(diào)的一種純理性的傳染病傳播模擬法,利用疫情發(fā)生的時(shí)間及軌跡等大數(shù)據(jù)信息對(duì)疫情的爆發(fā)特征和傳播規(guī)律進(jìn)行探究。目前尚無學(xué)者利用前瞻性時(shí)空重排掃描統(tǒng)計(jì)量法探測(cè)新冠肺炎疫情聚集性爆發(fā)預(yù)警的相關(guān)案例,若此法具有較強(qiáng)可操作性,則推廣應(yīng)用至其他區(qū)域進(jìn)行早期的疫情預(yù)警就具備一定應(yīng)用價(jià)值。
德國新冠肺炎疫情爆發(fā)和傳播特征在國際社會(huì)特別是歐洲地區(qū)疫情形勢(shì)中具有普遍代表性,具備一定研究?jī)r(jià)值。本次研究以德國2020年初爆發(fā)的新冠肺炎疫情逐日數(shù)據(jù)為基礎(chǔ),數(shù)據(jù)來源于德國聯(lián)邦衛(wèi)生部及各州政府衛(wèi)生和護(hù)理部網(wǎng)站公開的經(jīng)主管當(dāng)局確認(rèn)屬實(shí)的疫情和病例信息。包括確診時(shí)間、確診縣區(qū)以及經(jīng)緯度信息。在研究時(shí)段范圍內(nèi),德國全國累計(jì)報(bào)告1 616例新冠肺炎疫情病例,經(jīng)過對(duì)數(shù)據(jù)清洗,剔除無法確定詳細(xì)信息的2例病例數(shù)據(jù)后,將剩余1 614例脫敏后的有效病例數(shù)據(jù)導(dǎo)入ArcGIS 10.8,經(jīng)緯度信息精確到小數(shù)點(diǎn)后6位。相關(guān)數(shù)據(jù)經(jīng)過矢量化及可視化處理后如圖1所示,聚集區(qū)出現(xiàn)的時(shí)間及傳播特征有待進(jìn)一步探測(cè)。
根據(jù)DIVA-GIS提供的德國電子行政地圖,即最新Shapefile數(shù)據(jù)為基準(zhǔn),在ArcGIS 10.8軟件中進(jìn)行矢量化圖斑的校準(zhǔn)與重繪處理得到研究區(qū)最新矢量地圖;市域衛(wèi)星影像圖底采用Arc GIS在線地圖圖層以及谷歌影像TIFF文件;研究地理位置精確到區(qū)縣級(jí)別,對(duì)疫情涉及的德國16個(gè)聯(lián)邦州,40個(gè)行政專區(qū)及225個(gè)縣區(qū)的地理分布情況進(jìn)行逐日模擬及統(tǒng)計(jì)分析。為把控疫情宏觀形勢(shì)變化,結(jié)論在州及行政區(qū)級(jí)的尺度上進(jìn)行趨勢(shì)研判。研究區(qū)范圍為47.269 859 N~55.056 526 N,5.871 619 E~15.038 113 E,面積357 545.22 km2,常住人口約為8 253萬人,疫情整體發(fā)病率約為0.20。
眾多學(xué)者對(duì)于傳染病預(yù)警模型做過大量研究[15],例如ARIMA模型、指數(shù)加權(quán)移動(dòng)平均模型、控制圖法等[16-17],以及用于傳染病時(shí)空分析常用的時(shí)空掃描統(tǒng)計(jì)量、貝葉斯網(wǎng)絡(luò)、PANDA、WSARE等模型[18],新冠肺炎患者在德國全域范圍內(nèi)均有分布,但整體離散程度較高,采用傳統(tǒng)GIS數(shù)圖分析手段對(duì)病例的數(shù)量、空間及時(shí)間分布特征進(jìn)行可視化呈現(xiàn)為目前較為普遍的方式,但此類形式呈現(xiàn)疫情數(shù)據(jù)是一個(gè)地理層面的多系統(tǒng)聚合過程,所采用的各種聚類方法(如熱點(diǎn)分析、異常值分析及多元聚類等)、圖像展現(xiàn)形式(如核密度圖、方格漁網(wǎng)圖等)及讀者的主觀解讀都會(huì)使圖像具有許多感受上的偏差,需要引入新的時(shí)空分析模型。
傳統(tǒng)的空間自相關(guān)分析只在空間層面分析,因不能考慮時(shí)間這一變量而有一定的局限性。本研究采用CDSTA等提出的前瞻性時(shí)空重排掃描統(tǒng)計(jì)量法,屬于聚類研究中的熱點(diǎn)探測(cè)類方法,可用于疾病爆發(fā)的早期預(yù)測(cè)。其優(yōu)點(diǎn)是只利用病例數(shù)及時(shí)間位置信息,而無須地區(qū)高危人群數(shù)據(jù),該模型是一種基于動(dòng)態(tài)大小的圓形(若為投影坐標(biāo)系也可能是橢圓形)移動(dòng)窗口的時(shí)空掃描統(tǒng)計(jì)法(圖1)。掃描基于每個(gè)空間單元,每次對(duì)周圍掃描時(shí)都使用不同半徑的圓,以掃描窗口為底隨著單位時(shí)間的推移疊加高度形成圓柱體,計(jì)算全過程掃描窗口內(nèi)覆蓋的統(tǒng)計(jì)量,直到統(tǒng)計(jì)量停止發(fā)生改變。掃描統(tǒng)計(jì)量的定義為掃描窗口的廣義似然函數(shù)比(Generalized Likelihood Ratio, GLR),GLR值越大,差異越具有統(tǒng)計(jì)學(xué)意義,則表示該窗口越具有異常的聚集傾向。在所有窗口中選擇統(tǒng)計(jì)量最大的窗口定義為疫情聚集度最高的窗口,以此來判別窗口內(nèi)的發(fā)病數(shù)是否存在異常情況。使用蒙特卡羅假設(shè)性檢驗(yàn)法(Monte Carlo Hypothesis Testing)檢驗(yàn)聚集區(qū)內(nèi)部要素分布的非隨機(jī)性置信度,在所掃描到的最大及最小聚集區(qū)中進(jìn)行該假設(shè)性檢驗(yàn),從而錨定最高聚集性區(qū)域的空間為最高可能聚集區(qū)(Most Likely Cluster, MLC),聚集性排名第二則是第二可能的聚集區(qū),依此類推。由于研究基于無效假設(shè),即計(jì)算隨機(jī)數(shù)據(jù)集和真實(shí)數(shù)據(jù)集似然數(shù)之比獲取P值,無須考慮極其復(fù)雜的概率分布問題。
圖1 時(shí)空掃描模型簡(jiǎn)圖Fig.1 The diagrams of space-time scan model
設(shè)某單位區(qū)域范圍p在d天中的病例總數(shù)為Cp,d,則所有區(qū)域及所有時(shí)間范圍內(nèi)的總病例數(shù)C為:
(1)
單位區(qū)域范圍內(nèi)每天預(yù)期發(fā)生的病例數(shù)μp,d為:
(2)
則每個(gè)柱形掃描窗口A(下文簡(jiǎn)稱“窗口A”)的預(yù)期發(fā)病數(shù)μA為:
(3)
式中:μp,d為區(qū)域p中的整個(gè)研究時(shí)間范圍內(nèi)的發(fā)病數(shù)。
設(shè)在窗口A范圍內(nèi)實(shí)際觀測(cè)到的發(fā)病數(shù)為CA,不考慮時(shí)間變化和空間的交互,則CA符合超幾何分布模型:
(4)
(5)
式中:μA為無效假設(shè)下在窗口A內(nèi)協(xié)變量調(diào)整后的預(yù)期病例數(shù)。C-μA為窗口A外的預(yù)期病例數(shù)。
GLR反映了窗口聚集的可能性,所以GLR值最大的窗口一定不是隨機(jī)出現(xiàn)的,其非隨機(jī)性是能夠置信的,但為了驗(yàn)證其非隨機(jī)性,還需要進(jìn)行置信度分析,其無效假設(shè)為:事件在時(shí)空發(fā)生的概率完全隨機(jī)。獲得窗口A的掃描統(tǒng)計(jì)量概率分布十分困難,可使用蒙特卡羅假設(shè)性檢驗(yàn)法計(jì)算P值,對(duì)可能異常的聚集區(qū)進(jìn)行隨機(jī)化檢測(cè),根據(jù)總數(shù)生成N個(gè)隨機(jī)分布的數(shù)據(jù)集,將這些數(shù)據(jù)集的GLR和真實(shí)數(shù)據(jù)集窗口的GLR比對(duì),將隨機(jī)生成的N個(gè)數(shù)據(jù)集的GLR升序排列,真實(shí)的GLR排在S位,則P值為S/(N+1),排名越前,P值越小,該窗口隨機(jī)性程度越小。例如SaTScan 9.7軟件中設(shè)置蒙特卡羅假設(shè)性檢驗(yàn)法生成1 999個(gè)隨機(jī)的數(shù)據(jù)集,則P值精確到小數(shù)點(diǎn)后三位,若GLR排在第5位,則P值為0.003,窗口為隨機(jī)的可能性為0.25%,其置信度為99.75%,若GLR排在第50位,則P值位0.025,窗口為隨機(jī)的可能性為2.50%,置信度97.50%,依此類推。
掃描高頻率聚集區(qū)屬于較為常見的掃描統(tǒng)計(jì)類法,時(shí)間趨勢(shì)掃描統(tǒng)計(jì)的空間變化不是尋找高低趨勢(shì)的聚集區(qū),而是尋找趨勢(shì)高于或低于聚集區(qū)外趨勢(shì)的“集群”。與其他類型掃描一樣,可以只查找具有高趨勢(shì)的聚集區(qū),也可以只查找具有低趨勢(shì)的聚集區(qū),或者同時(shí)查找這2種類型的聚集區(qū)。聚集區(qū)的高趨勢(shì)可能表現(xiàn)為增長(zhǎng)率大于簇外,或是下降率小于簇外。同樣地,一個(gè)聚集區(qū)的低趨勢(shì),可能因?yàn)樗脑鲩L(zhǎng)率小于聚集區(qū)外部,或下降率大于聚集區(qū)外部[19]。
研究采用前瞻性時(shí)空重排掃描統(tǒng)計(jì)量法,每次掃描當(dāng)日前(含當(dāng)日)的數(shù)據(jù),對(duì)于最大掃描半徑參數(shù),可按照風(fēng)險(xiǎn)人口的比例或者地理空間半徑來設(shè)置。本研究按多數(shù)傳染病研究進(jìn)行相關(guān)參數(shù)的設(shè)置,即設(shè)置風(fēng)險(xiǎn)人口群體的50%為窗口最大半徑,最大窗口時(shí)長(zhǎng)為14 d,最小窗口時(shí)長(zhǎng)為1 d,時(shí)間步長(zhǎng)為1 d,聚集窗口最低病例數(shù)為2例,蒙特卡羅假設(shè)性檢驗(yàn)法的檢驗(yàn)次數(shù)設(shè)置為1 999次。從2020-03-08至2020-03-11進(jìn)行逐日時(shí)空重排掃描的前瞻性分析預(yù)警,研究德國全域出現(xiàn)的聚集區(qū),得出探測(cè)結(jié)果(表1)。
研究區(qū)域范圍為國家級(jí),地理范圍及病例樣本總量都較大,則設(shè)定P≤0.001代表置信度達(dá)到標(biāo)準(zhǔn)。將SaTScan 9.7軟件輸出的Shapefile文件導(dǎo)入至ArcGIS 10.8軟件中,軟件計(jì)算時(shí)間為1 s,調(diào)用16個(gè)處理器核心參與運(yùn)算。結(jié)合軟件生成的可視化Html文件,可得出前瞻性時(shí)空重排掃描的高趨勢(shì)以及低趨勢(shì)可視化圖片,經(jīng)過處理后得到研究區(qū)全域的高低趨勢(shì)分布圖(按覆蓋面積的50%為臨界值區(qū)分),在1 999次重復(fù)計(jì)算后,蒙特卡羅序列停止。
表1 研究區(qū)全域前瞻性時(shí)空重排掃描檢測(cè)聚集區(qū)Tab.1 Detection results of epidemic clusters in study area
結(jié)果顯示,預(yù)警強(qiáng)度最高的第1聚集區(qū)主要覆蓋德國東部與波蘭、捷克接壤的薩克森州與部分圖林根州范圍,掃描統(tǒng)計(jì)量為40.80,半徑約100 km涵蓋33個(gè)區(qū)縣,預(yù)期病例數(shù)小于1例,但實(shí)際產(chǎn)生了14例病例,預(yù)警時(shí)間為1 d,研究結(jié)果表示下一階段德國疫情可能有向薩克森州及西部與圖林根州兩地交界處發(fā)展。第2聚集區(qū)為低聚集區(qū),主要覆蓋威斯特法倫州的科隆市,掃描統(tǒng)計(jì)量為35.38,半徑31.77 km,預(yù)期病例約為190例,但實(shí)際僅有91例,預(yù)警時(shí)間為4 d,按照預(yù)警信息顯示此區(qū)域本應(yīng)出現(xiàn)疫情聚集爆發(fā)事件,但實(shí)際病例數(shù)卻少于預(yù)期,窗口病例下降趨勢(shì)快于窗口外或增長(zhǎng)率小于窗口外。第3聚集區(qū)覆蓋面積最大,涵蓋研究區(qū)北部13個(gè)州的83個(gè)縣區(qū),預(yù)警時(shí)間為2 d。結(jié)合第1聚集區(qū)預(yù)警時(shí)間及范圍推斷,近期時(shí)段內(nèi)研究區(qū)整體的疫情態(tài)勢(shì)可能為自東部邊境向西北部地區(qū)發(fā)展。根據(jù)德國衛(wèi)生部網(wǎng)站公布的新冠肺炎疫情預(yù)警信息與本次研究預(yù)警最強(qiáng)的2處區(qū)域結(jié)果疊合對(duì)比,薩克森州和圖林根州均為研究時(shí)段及當(dāng)前德國疫情排名最嚴(yán)重的區(qū)域,均符合預(yù)警強(qiáng)度最高的預(yù)期。
前瞻性時(shí)空重排掃描統(tǒng)計(jì)量法是一種較常見的空間研究方法,其作為一種熱點(diǎn)探測(cè)與數(shù)據(jù)挖掘方法,有多種概率模型可以參與計(jì)算,對(duì)于預(yù)測(cè)短期集中爆發(fā)的疫情具有一定優(yōu)勢(shì)[20]?;诔瑤缀畏植嫉那罢靶詴r(shí)空重排掃描統(tǒng)計(jì)量法對(duì)于人口密度高、地域廣泛的案例預(yù)警效果較一般方法好,在研究基數(shù)中等、區(qū)域較大的情況下(如本例),亦可以采用本方法。本法分析之初并不對(duì)疫情爆發(fā)聚集區(qū)的窗口大小、規(guī)模、位置做出定義,避免了主觀臆斷的影響,可以最大程度擬真,挖掘潛在數(shù)據(jù)信息。將研究范圍擴(kuò)大至國家的全境,避免了以區(qū)劃單元為界限進(jìn)行模擬而導(dǎo)致邊界附近的聚集無法被準(zhǔn)確探測(cè)的劣勢(shì),有效規(guī)避行政邊界的阻隔對(duì)于探測(cè)的干擾。感染新冠肺炎病毒攜帶者出現(xiàn)陽性反應(yīng)具有滯后性,有一定時(shí)長(zhǎng)的潛伏期,而國際普遍采取以疑似病例隔離14 d內(nèi)檢查有無陽性癥狀作為判斷確診與否的依據(jù)[21],故研究設(shè)置最大探測(cè)時(shí)長(zhǎng)為14 d的窗口,具有一定的預(yù)防醫(yī)學(xué)依據(jù)。
了解新冠肺炎疫情在國家區(qū)域尺度內(nèi)的時(shí)空維度分布和擴(kuò)散傳播特征具有重要的測(cè)繪地理學(xué)及預(yù)防醫(yī)學(xué)雙重意義[22],但前瞻性時(shí)空重排掃描統(tǒng)計(jì)量法也存在一定局限性:在樣本總量較小時(shí),若能夠取得完整的、可信度高的病例數(shù)據(jù),則誤差較小。若這些病例數(shù)據(jù)部分信息缺失或數(shù)據(jù)不完整、不確切時(shí),例如病人是在家中還是在工作單位感染疾病,以及病人就診后是選擇去醫(yī)院就醫(yī)還是自行居家隔離等差異,都會(huì)對(duì)研究預(yù)期產(chǎn)生影響。該法對(duì)數(shù)據(jù)源的要求較高,且需對(duì)樣本數(shù)據(jù)清洗,在小尺度地理范圍內(nèi)預(yù)警時(shí)探測(cè)到的窗口P值往往比經(jīng)驗(yàn)值大,若按經(jīng)驗(yàn)值則不能完全否定原隨機(jī)性假設(shè)。時(shí)空重排掃描采用的是圓形或近似圓形的窗口,掃描到的疫情潛在的爆發(fā)窗口邊界也并非和真實(shí)的地理邊界重合,例如爆發(fā)于一些寬度窄而狹長(zhǎng)的街道或河流沿線,或是轄區(qū)行政邊界范圍附近的區(qū)域。但其他形狀的掃描窗口算法復(fù)雜程度遠(yuǎn)高于圓形窗口,近年來也有學(xué)者采用基于不規(guī)則掃描窗口的可變形空間掃描統(tǒng)計(jì)量法(Flexible spatial scan statistic,F(xiàn)leXScan)與本研究所采用的SaTScan軟件提供的前瞻性時(shí)空重排掃描統(tǒng)計(jì)量法進(jìn)行對(duì)比研究的案例,結(jié)合研究結(jié)果來判斷模型差異性及適應(yīng)情景,結(jié)果表明圓形窗口會(huì)將部分低風(fēng)險(xiǎn)地區(qū)納入進(jìn)計(jì)算區(qū)域從而得出錯(cuò)誤預(yù)警,說明了以動(dòng)態(tài)圓形作為掃描窗口的局限性,而FleXScan對(duì)于邊緣非規(guī)則區(qū)域的檢驗(yàn)則具有更好的效能。
目前學(xué)界將前瞻性時(shí)空重排掃描統(tǒng)計(jì)量法運(yùn)用于新冠肺炎疫情的相關(guān)研究和可行性分析較少,為探索前瞻性時(shí)空重排掃描統(tǒng)計(jì)量對(duì)于新冠肺炎疫情預(yù)警的可行性,本文選用該方法對(duì)德國全境新冠肺炎疫情潛在的爆發(fā)區(qū)進(jìn)行探測(cè),綜合考慮了新冠肺炎疫情發(fā)病和傳播特點(diǎn),使用符合疫情特征的窗口最大探測(cè)時(shí)長(zhǎng)參數(shù)進(jìn)行研究,探測(cè)可能出現(xiàn)的聚集性爆發(fā)區(qū)并及時(shí)預(yù)警,在2020-03-08至2020-03-11共探測(cè)出6個(gè)非隨機(jī)性顯著的聚集區(qū),成功預(yù)警了薩克森州和圖林根州部分交界區(qū)域以及研究區(qū)西北部的下一階段疫情爆發(fā)趨勢(shì),從地理學(xué)及預(yù)防醫(yī)學(xué)角度對(duì)該方法運(yùn)用于國家級(jí)區(qū)域的新冠肺炎疫情早期預(yù)警進(jìn)行了可行性分析。由于研究時(shí)段與國內(nèi)疫情的集中爆發(fā)時(shí)段相近,可作為國內(nèi)在宏觀區(qū)域視角下實(shí)施可行的差異化疫情防控措施提供案例參考,為國內(nèi)防疫決策提供科學(xué)合理的依據(jù),有助于合理調(diào)配資源,及時(shí)采取積極有效的防疫措施。國內(nèi)外相關(guān)文獻(xiàn)證明了前瞻性時(shí)空重排掃描統(tǒng)計(jì)量法的可行性及易操作性,許多團(tuán)隊(duì)已研究多年,各類數(shù)理模型相對(duì)成熟,在我國的疫情防控指揮中可以引入該方法進(jìn)行輔助決策,促進(jìn)我國疫情預(yù)警通報(bào)系統(tǒng)的建設(shè)和完善。