曹 飛,雷永春,朱小康,林少龍,章志紅,上官致洋,李煒娟 綜述,張潔妤△ 審校
(1.南昌大學(xué)撫州醫(yī)學(xué)院,江西 撫州 344000;2.黎川縣疾病預(yù)防控制中心,江西 撫州 344600)
時(shí)空掃描法在疾病的暴發(fā)監(jiān)測中被廣泛應(yīng)用,監(jiān)測數(shù)據(jù)集常常是巨大而復(fù)雜的,使時(shí)空監(jiān)測分析軟件的實(shí)用性變得越來越重要[1-5]。通過應(yīng)用時(shí)空監(jiān)測分析軟件,時(shí)空掃描統(tǒng)計(jì)量以不斷變化的動(dòng)態(tài)掃描窗口對(duì)不同空間和時(shí)間的變量進(jìn)行掃描,能夠很好地識(shí)別變量的時(shí)空聚集性。在時(shí)空掃描統(tǒng)計(jì)中,假設(shè)研究區(qū)域?yàn)橐粋€(gè)圓柱形,其高度代表時(shí)間區(qū)域,對(duì)最可能的聚集區(qū)域采用蒙特卡洛模擬法進(jìn)行估計(jì)[6-7]。
軟件篩選條件:(1)該程序可以用于處理空間和時(shí)間2個(gè)維度的問題;(2)該程序的分析方法已經(jīng)內(nèi)置在軟件中,不要求編程。最終篩選出4個(gè)符合條件的軟件包,即SaTScan、Clusterseer、GeoSurveilance和R-Surveillance。專業(yè)的疾病監(jiān)測系統(tǒng)軟件包括數(shù)據(jù)采集和常規(guī)處理、數(shù)據(jù)庫整合、系統(tǒng)專題分析及排除可視化模塊[8-9];一般具有很高的等級(jí)且普遍在企業(yè)水平上應(yīng)用,對(duì)研究者或分析師來說并不容易操作。
2.1SaTScan 要求數(shù)據(jù)被整理成3種不同格式的文件:(1)存儲(chǔ)空間位置信息的geography文件;(2)存儲(chǔ)病例信息的case文件;(3)存儲(chǔ)每個(gè)研究地區(qū)人口數(shù)據(jù)的population文件。所有的SaTScan文件都是基于文本格式的,其導(dǎo)入工具也支持導(dǎo)入公用數(shù)據(jù)(如CSV、DBF文件)。對(duì)于空間數(shù)據(jù)資料,SaTScan能夠?qū)⑵浒茨辍⒃禄蛉者M(jìn)行整合。因此,數(shù)據(jù)可以最優(yōu)的空間精度被錄入。當(dāng)需要嘗試以不同分析參數(shù)重新構(gòu)建數(shù)據(jù)結(jié)果時(shí)SaTScan的這項(xiàng)功能相比其他程序更具優(yōu)勢。
2.2ClusterSeer 要求每一個(gè)監(jiān)測的時(shí)空記錄都是唯一的,不能重復(fù)。運(yùn)行時(shí)空掃描統(tǒng)計(jì)量時(shí)也需要有4個(gè)項(xiàng)目(位置、數(shù)據(jù)、病例、人口)的子集及掃描區(qū)域內(nèi)每個(gè)時(shí)期的所有記錄。而要生成所需要的表格則應(yīng)采用R-Surveillance軟件中的特定數(shù)據(jù)重構(gòu)功能。若將數(shù)據(jù)以星期的方式進(jìn)行整合則需要構(gòu)建出具有52周×掃描區(qū)域個(gè)數(shù)記錄的表格。
2.3GeoSurveillance 要求數(shù)據(jù)以時(shí)間和空間的整合形式存在。病例計(jì)數(shù)為多邊形幾何和屬性特征文件格式或純文本文件,文件命名必須按順序進(jìn)行。這一步可通過ArcGIS的常用功能進(jìn)行自動(dòng)完成,其將空間鏈接和地址信息結(jié)合成新表格文件。與ClusterSeer相類似,GeoSurveillance在空間信息整合方面不是特別靈活。但GeoSurveillance與ClusterSeer卻均能夠讀取多邊形shapefile文件,并自動(dòng)計(jì)算掃描圓心坐標(biāo)。
2.4R-Surveillance 要求數(shù)據(jù)以監(jiān)測的時(shí)間為行,空間單元作為列構(gòu)建矩陣。除SaTScan外,所有的程序?qū)?shù)據(jù)輸入格式、時(shí)空數(shù)據(jù)整合都嚴(yán)格受限。目前,沒有一款軟件程序能夠在數(shù)據(jù)不經(jīng)過任何預(yù)處理的情況下導(dǎo)入2種shapefile文件。
3.1SaTScan 可用于諸如空間[10-12]、時(shí)間[13-15]、時(shí)空[7,16]方面的掃描統(tǒng)計(jì),也有回顧性和前瞻性模式。不同的數(shù)據(jù)類型可通過包括泊松模型、伯努利模型、時(shí)空重排、多項(xiàng)式、指數(shù)和常規(guī)模型等恰當(dāng)?shù)哪P瓦M(jìn)行分析。經(jīng)典的圓形掃描統(tǒng)計(jì)研究區(qū)域也可以轉(zhuǎn)換成橢圓形或隨著空間單元關(guān)系的變化而自定義形狀。
3.2GeoSurveillance 主要應(yīng)用累積和控制圖進(jìn)行時(shí)空監(jiān)測,回顧性模型僅適用于進(jìn)行球形的空間分析,而前瞻性模型中累積和控制圖則局限于單變量監(jiān)測。多元累積和控制圖目前尚未在GeoSurveillance中得以應(yīng)用。
3.3ClusterSeer 在時(shí)空分析方法方面種類最多,這使得ClusterSeer更加適用于時(shí)空掃描的疾病監(jiān)測。當(dāng)應(yīng)用累積和控制圖進(jìn)行時(shí)空監(jiān)測時(shí)ClusterSeer與GeoSurveillance相似,但其還可用于時(shí)空交互作用的檢測[17-19]。因此,ClusterSeer是用于疾病監(jiān)測數(shù)據(jù)挖掘的有力工具。一旦數(shù)據(jù)被構(gòu)建成適用于ClusterSeer應(yīng)用的格式,其可進(jìn)行多種方法的分析。
3.4R-Surveillance 也包含有許多分析方法,如法林頓算法[20]、泊松累積、控制圖法[21]、負(fù)二項(xiàng)分布等[22]。其包含的算法主要以構(gòu)建模型為基礎(chǔ)。盡管在某些時(shí)空監(jiān)測應(yīng)用時(shí)R-Surveillance被用于分析多變量的時(shí)間序列問題,但由于缺乏相應(yīng)的空間信息,其應(yīng)用也存在一定的局限性。
4種時(shí)空監(jiān)測軟件在運(yùn)行過程中均會(huì)出現(xiàn)各種技術(shù)問題。SaTScan能夠處理以“天”為單位的病例數(shù)據(jù),進(jìn)行回顧性時(shí)空掃描統(tǒng)計(jì)。ClusterSeer則不能夠處理以“天”為單位的數(shù)據(jù)。起初內(nèi)存及數(shù)據(jù)集是ClusterSeer運(yùn)行的受限因素,然而隨著版本的升級(jí),其也能夠處理并分析以“星期”為單位的數(shù)據(jù)。盡管這兩款軟件得到的結(jié)果相似,但SaTScan分析以“天”為單位的數(shù)據(jù)所用時(shí)間相對(duì)而言更長。GeoSurveillance可用于分析以“星期”為單位的數(shù)據(jù),但其在處理最大累積和控制圖與地圖間的連接時(shí)卻顯得十分緩慢。R-Surveillance也能夠運(yùn)用累積和控制圖原理進(jìn)行時(shí)空分析,而且對(duì)于以“星期”為單位的數(shù)據(jù),其分析所耗費(fèi)的時(shí)間和得到的結(jié)果與GeoSurveillance相似。
R-Surveillance是一款均能在Windows、Mac、Linux操作系統(tǒng)中運(yùn)行的軟件。當(dāng)前,SaTScan有windows、linux運(yùn)行版本,但mac運(yùn)行版本尚在研發(fā)當(dāng)中。ClusterSeer、GeoSurveillance僅能在Windows操作系統(tǒng)中運(yùn)行。所有的分析運(yùn)行均要求至少3.0 Ghz的奔騰4處理器及2 GB的隨機(jī)處理器內(nèi)存的Windows XP操作系統(tǒng)。但與其他三款軟件相比,SaTScan進(jìn)行一次完整性的分析所需時(shí)間最短。
SaTScan的數(shù)據(jù)輸出選項(xiàng)局限于文本文件和數(shù)據(jù)庫文件。數(shù)據(jù)庫文件能與輸入GIS中的shapefile文件進(jìn)行連接和進(jìn)一步的集群檢測。然而,SaTScan的缺陷是沒有數(shù)據(jù)挖掘功能。
GeoSurveillance的分析結(jié)果可被寫成其他軟件容易操作的文本文件,而且GeoSurveillance還能夠提供一個(gè)與累積和控制圖相連接的地圖界面,其中累積和控制圖表也可展示整體研究區(qū)域或者單個(gè)研究區(qū)域的累積得分。
ClusterSeer在結(jié)果輸出功能方面更勝一籌,如其繪圖功能可以將結(jié)果以圖片的形式輸出。其結(jié)果也可以與數(shù)據(jù)一起形成新的文件,用于內(nèi)部統(tǒng)計(jì)學(xué)測試或GIS軟件。
R-Surveillance具有廣泛的可視化處理功能和輸出功能,對(duì)于具體的研究對(duì)象也有默認(rèn)的創(chuàng)建繪圖功能。當(dāng)然,這需要操作者對(duì)R-Surveillance程序的語法十分熟悉。
隨著電子病案、綜合性數(shù)據(jù)源及低成本地理傳感器的出現(xiàn),病例資料越來越多地兼具空間和時(shí)間信息。這些新的數(shù)據(jù)來源可以更加全面地了解疾病分布、疾病危險(xiǎn)因素和隨著時(shí)間與空間而變化的人口健康問題。監(jiān)測數(shù)據(jù)給公共衛(wèi)生實(shí)踐及研究帶來方便的同時(shí)也給處理及應(yīng)用這些新數(shù)據(jù)集的軟件帶來新的挑戰(zhàn)。采用傳統(tǒng)統(tǒng)計(jì)學(xué)假設(shè)檢驗(yàn)法或GIS可視化對(duì)這些數(shù)據(jù)進(jìn)行處理的過程中均存在固有問題,這些問題在很多研究中已被證明[23-24]。因此。需要特定的方法來處理這些數(shù)據(jù)。本文所綜述的4款軟件均能夠提供不同類型數(shù)據(jù)的分析功能,但SaTScan是用于自動(dòng)集群監(jiān)測中最好且最穩(wěn)定的軟件包。
在SaTScan掃描統(tǒng)計(jì)基礎(chǔ)上希望探求一種以構(gòu)建模型為處理方式的監(jiān)測軟件包。此外,對(duì)結(jié)果的全面方位監(jiān)測要求軟件兼具繪圖的功能。采用建模方式的原因:(1)獲得更加精確的基于協(xié)變量效能估計(jì)的預(yù)測率;(2)調(diào)整疾病發(fā)病率的空間異質(zhì)性;(3)平滑相對(duì)危險(xiǎn)度。如果有GIS為基礎(chǔ)的系統(tǒng)來輔助數(shù)據(jù)的探測,ClusterSeer將被更好的應(yīng)用。除時(shí)空方法外,單純空間、時(shí)間方法使原始數(shù)據(jù)探測變得越來越方便。當(dāng)然ClusterSeer還有一系列的輸出選項(xiàng)。盡管其是二進(jìn)制文件不能夠配置成遞增參數(shù),但ClusterSeer的項(xiàng)目文件能夠設(shè)置成自動(dòng)運(yùn)行。不過由于自動(dòng)監(jiān)測的局限性,ClusterSeer可能更適合探究性研究而不是前瞻性集群檢測系統(tǒng)。雖然方法(和軟件)已被分類為假設(shè)檢驗(yàn)類或構(gòu)建模型類,但這些方法是相互補(bǔ)充的而不是相互對(duì)立的[25]。
本文中所綜述的4款軟件的程序均需安裝在本地電腦中。雖然這是計(jì)算機(jī)軟件應(yīng)用的體系結(jié)構(gòu),但新計(jì)算技術(shù)將利用不斷發(fā)展的因特網(wǎng)來執(zhí)行前瞻性、高效能的計(jì)算任務(wù)[26]。分析型服務(wù)項(xiàng)目(如集群分析)的在線傳輸使軟件服務(wù)更加集中于某一個(gè)服務(wù)員手中。這些可以促進(jìn)不同地區(qū)衛(wèi)生機(jī)構(gòu)疾病監(jiān)測指標(biāo)的標(biāo)準(zhǔn)化,增加疾病監(jiān)測分析的透明度?;诰W(wǎng)絡(luò)的ClusterSeer及R-Surveillance軟件服務(wù)器界面當(dāng)前處于發(fā)展階段,對(duì)未來監(jiān)測系統(tǒng)的完善提供了希望。
新型疾病的威脅和慢性病日益增長的負(fù)擔(dān)使整合監(jiān)測方法顯得尤為必要。分析疾病的時(shí)空趨勢可以與研究環(huán)境中的危險(xiǎn)因素進(jìn)行連接,在自動(dòng)監(jiān)測系統(tǒng)中標(biāo)記異常事件、提供疾病暴發(fā)期間的最新信息。充分研究和掌握這些方法才能保證方法的透明性和結(jié)果重復(fù)性。疾病統(tǒng)計(jì)、監(jiān)測方面大量的文獻(xiàn)是掌握和應(yīng)用這些方法的基礎(chǔ),但距離軟件應(yīng)用的標(biāo)準(zhǔn)化還十分遙遠(yuǎn)。時(shí)空監(jiān)測統(tǒng)計(jì)分析方法的成熟及發(fā)展使相關(guān)應(yīng)用軟件的改善顯得很必要。未來疾病監(jiān)測軟件發(fā)展最理想的情況可能是計(jì)算機(jī)源代碼的開放,因?yàn)椴煌慕y(tǒng)計(jì)監(jiān)測軟件就能夠有效整合在一起。然而當(dāng)數(shù)據(jù)需要在不同軟件包中進(jìn)行分析時(shí)數(shù)據(jù)結(jié)構(gòu)仍然是處理時(shí)空數(shù)據(jù)的重大問題。在R-Surveillance語言或另一種開放源代碼的環(huán)境下標(biāo)準(zhǔn)化時(shí)空數(shù)據(jù)可能成為未來一個(gè)富有成效的發(fā)展領(lǐng)域。