黃偉 王雅潔 吳洪宇 張明龍 楊冰
(1.貴州貴科大數(shù)據(jù)有限責(zé)任公司,貴州貴陽(yáng) 550000;2.貴州科學(xué)院,貴州貴陽(yáng) 550000;3.貴州省分析測(cè)試研究院,貴州貴陽(yáng) 550000)
自2020年1月22日國(guó)家衛(wèi)生健康委確認(rèn)貴州省首例輸入性新型冠狀病毒感染的肺炎確診病例以來(lái),截止2021年4月20日24時(shí),貴州省累計(jì)報(bào)告本地確診病例146例、境外輸入病例1例,累計(jì)治愈出院病例145例、死亡病例2例,現(xiàn)有疑似病例0例、無(wú)癥狀感染者0例[1]。新型冠狀病毒肺炎(Corona Virus Disease 2019,COVID-19)存在人畜跨界傳播、傳染性強(qiáng)、影響因素多樣、傳播途徑復(fù)雜等特點(diǎn),導(dǎo)致肺炎疫情發(fā)病急、發(fā)展快、溯源分析難、社會(huì)危害大等問(wèn)題,對(duì)我國(guó)的醫(yī)療衛(wèi)生系統(tǒng)產(chǎn)生了極大的沖擊。
應(yīng)貴州省委省政府及相關(guān)衛(wèi)生疾控部門(mén)疫情防控需要,結(jié)合貴州省疫情發(fā)展態(tài)勢(shì)、病毒擴(kuò)散情況和各地市疫情爆發(fā)的潛在風(fēng)險(xiǎn)。本研究基于HDFS分布式存儲(chǔ)和讀取、MapReduce分布式計(jì)算和R語(yǔ)言的分布式處理框架、快速建模和可視化優(yōu)勢(shì),實(shí)現(xiàn)平臺(tái)快速開(kāi)發(fā)與部署,數(shù)據(jù)的深度挖掘與預(yù)測(cè)。通過(guò)疫情大數(shù)據(jù)支撐平臺(tái),實(shí)現(xiàn)疫情可視化展示,為貴州省委省政府的疫情研判,指導(dǎo)企業(yè)復(fù)工復(fù)產(chǎn),為衛(wèi)生疾控部門(mén)采取相應(yīng)防疫措施,為人民群眾提升自我防范意識(shí),提供強(qiáng)有力的科技支撐。
R語(yǔ)言是集統(tǒng)計(jì)分析與圖形顯示于一體的開(kāi)源統(tǒng)計(jì)軟件平臺(tái),作為統(tǒng)計(jì)學(xué)家的專(zhuān)屬工具,主要用于統(tǒng)計(jì)分析、繪圖、數(shù)據(jù)挖掘。但受內(nèi)存限制,R無(wú)法有效處理當(dāng)今TB、PB甚至ZB級(jí)的大數(shù)據(jù)集和實(shí)時(shí)數(shù)據(jù)流[2]。Hadoop得天獨(dú)厚的分布式處理框架可擴(kuò)展用于大型數(shù)據(jù)集(PB范圍)上的復(fù)雜操作和任務(wù),HDFS的高容錯(cuò)性、高伸縮性等優(yōu)點(diǎn)使用戶(hù)可以利用集群的計(jì)算和存儲(chǔ)能力,完成海量數(shù)據(jù)的處理。鑒于Hadoop缺乏對(duì)數(shù)據(jù)統(tǒng)計(jì)、建模及可視化的能力,借助R語(yǔ)言完成MapReduce算法,將R語(yǔ)言的算法模型賦予分布式并行計(jì)算能力,利用高可靠性、高擴(kuò)展性、高效性、高容錯(cuò)性與廉價(jià)性等特點(diǎn),將R與Hadoop結(jié)合打造大數(shù)據(jù)的完美解決方案[3]。
本研究應(yīng)用Logistic[4]回歸建立了疫情感染人數(shù)預(yù)測(cè)模型,利用確診病例數(shù)的變化趨勢(shì)作為預(yù)測(cè)的依據(jù),以輸入貴州病例數(shù)比例相近的七個(gè)省份首次出現(xiàn)兩位數(shù)確認(rèn)病例的時(shí)間節(jié)點(diǎn)為模型擬合的起始點(diǎn),分別運(yùn)用多項(xiàng)式、指數(shù)、冪等方法對(duì)此前病例數(shù)進(jìn)行線(xiàn)性和非線(xiàn)性擬合,應(yīng)用最小二乘法,尋找最優(yōu)解,根據(jù)擬合優(yōu)度及疑似病例數(shù)選擇次優(yōu)擬合優(yōu)度的擬合模型進(jìn)行預(yù)測(cè)未來(lái)五日確診病例數(shù),實(shí)現(xiàn)貴州省確診病例數(shù)發(fā)展趨勢(shì)預(yù)測(cè),分析疾病發(fā)生規(guī)律。
為科學(xué)解讀疫情數(shù)據(jù)內(nèi)涵,提高數(shù)據(jù)易讀性,用結(jié)構(gòu)化圖標(biāo)呈現(xiàn)疫情信息大數(shù)據(jù)趨勢(shì),本研究借助Echarts技術(shù)提供的多元化可視化圖形庫(kù)以及地圖元素[5],對(duì)國(guó)內(nèi)31個(gè)省、市、自治區(qū)衛(wèi)生健康委員會(huì)官方網(wǎng)站數(shù)據(jù)進(jìn)行可視化分析與展示,建立動(dòng)態(tài)色斑圖、疫情熱力圖、患者關(guān)系圖、患者運(yùn)動(dòng)軌跡圖、復(fù)工復(fù)產(chǎn)區(qū)域分類(lèi)圖、全國(guó)重點(diǎn)省市遷入貴州及貴陽(yáng)趨勢(shì)圖,為疫情防控提供決策支撐。
基于微服務(wù)架構(gòu),本研究建立了貴州疫情大數(shù)據(jù)支撐平臺(tái),采集、整理國(guó)外及國(guó)內(nèi)31個(gè)省、市、縣、自治區(qū)衛(wèi)生健康委員會(huì)官方網(wǎng)站公布數(shù)據(jù)和國(guó)內(nèi)主流媒體報(bào)道信息,覆蓋從患者信息、疫情檢測(cè)技術(shù)、政策措施、文獻(xiàn)資料、人口流動(dòng)數(shù)據(jù)各板塊的數(shù)據(jù)集成,應(yīng)用百度的遷徙指數(shù)結(jié)合比例信息(遷徙人口比情況、遷入人口時(shí)間趨勢(shì)、遷入人口在各地州市的占比情況),在時(shí)間范圍內(nèi),確定預(yù)測(cè)目標(biāo),篩選遷徙人口相近省市,為大數(shù)據(jù)疫情研判預(yù)測(cè)模型中預(yù)測(cè)目標(biāo)提供參考系。
平臺(tái)基于微服務(wù)架構(gòu),自下而上分為數(shù)據(jù)源層、數(shù)據(jù)匯聚層與數(shù)據(jù)應(yīng)用層3層架構(gòu),如圖1所示。
圖1 平臺(tái)總體架構(gòu)圖Fig.1 Overall architecture of platform
(1)數(shù)據(jù)源層。數(shù)據(jù)源層匯聚平臺(tái)所需各類(lèi)數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)全面、動(dòng)態(tài)、及時(shí)整合,主要包括各省市政府官方網(wǎng)站數(shù)據(jù)、國(guó)內(nèi)外各權(quán)威媒體新聞數(shù)據(jù)、社交媒體數(shù)據(jù)以及其他公開(kāi)數(shù)據(jù)源。(2)數(shù)據(jù)匯聚層,數(shù)據(jù)匯聚層由數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析三部分組成。1)數(shù)據(jù)預(yù)處理:對(duì)數(shù)據(jù)存儲(chǔ)而言,數(shù)據(jù)預(yù)處理層是數(shù)據(jù)清洗、處理、匯集的中心,提供數(shù)據(jù)的封裝和轉(zhuǎn)發(fā)服務(wù)。通過(guò)數(shù)據(jù)清洗、轉(zhuǎn)換、描述、特征選擇及特征抽取等流程對(duì)臟數(shù)據(jù)進(jìn)行清洗、脫密、脫敏、規(guī)范化及標(biāo)準(zhǔn)化處理成分析所需格式。本研究運(yùn)用網(wǎng)絡(luò)爬蟲(chóng)、API接口、Apache Flume、Fluentd、Logstash、Splunk Forwarder技術(shù),實(shí)現(xiàn)數(shù)據(jù)的抽取、轉(zhuǎn)換、加載,建立關(guān)系數(shù)據(jù)庫(kù)和非關(guān)系數(shù)據(jù)庫(kù)。2)數(shù)據(jù)存儲(chǔ):使用Hadoop分布式文件系統(tǒng)存儲(chǔ)海量數(shù)據(jù),通過(guò)MapReduce分布式計(jì)算模型處理數(shù)據(jù),并采用Hbase分布式數(shù)據(jù)庫(kù)存儲(chǔ)處理后的數(shù)據(jù),以此實(shí)現(xiàn)對(duì)全國(guó)各省市衛(wèi)生部門(mén)官網(wǎng)疫情數(shù)據(jù)庫(kù)、遷入貴州比例庫(kù)等疫情信息數(shù)據(jù)庫(kù)、公開(kāi)報(bào)道全國(guó)患者情況庫(kù)等數(shù)據(jù)的管理,為數(shù)據(jù)分析層、模型研究與應(yīng)用層調(diào)用提供支撐。3)數(shù)據(jù)分析:從存儲(chǔ)層讀取數(shù)據(jù),利用統(tǒng)計(jì)學(xué)、R語(yǔ)言、機(jī)器學(xué)習(xí)等技術(shù)手段,對(duì)源數(shù)據(jù)進(jìn)行深度挖掘與統(tǒng)計(jì)分析,剖析人口流動(dòng)數(shù)據(jù)中蘊(yùn)藏的疫情傳播與發(fā)展趨勢(shì)等?;诨颊呋疾∧挲g段、原有疾病等信息,采用Apriori算法[6]進(jìn)行關(guān)聯(lián)性分析,解析貴州省患者年齡分布規(guī)律;基于貴州省人口遷移大數(shù)據(jù),根據(jù)新冠肺炎在全國(guó)各個(gè)城市的發(fā)病率、路過(guò)不同城市及停留時(shí)間產(chǎn)生的風(fēng)險(xiǎn)值、潛伏期等因子建立權(quán)重計(jì)算模型,實(shí)時(shí)計(jì)算出每個(gè)人的發(fā)病預(yù)測(cè)值;基于SEIR傳染病模型[7],建立傳染病傳播動(dòng)力學(xué)C-SEIR模型分析預(yù)測(cè)新型冠狀病毒感染肺炎疫情趨勢(shì)。(3)數(shù)據(jù)應(yīng)用層。數(shù)據(jù)應(yīng)用層:針對(duì)各級(jí)政府、衛(wèi)健委、科研院所、公眾、媒體、企業(yè)不同需求,對(duì)疫情發(fā)展開(kāi)展風(fēng)險(xiǎn)研判、評(píng)估、預(yù)警和防控措施效果評(píng)價(jià)等工作。通過(guò)動(dòng)態(tài)色斑圖、疫情熱力圖、復(fù)工復(fù)產(chǎn)區(qū)域分類(lèi)圖等直觀、簡(jiǎn)便的展示疫情實(shí)時(shí)動(dòng)態(tài)。
通過(guò)對(duì)遷徙數(shù)據(jù)、病例發(fā)病時(shí)間、病情進(jìn)展、感染病例活動(dòng)軌跡等數(shù)據(jù)進(jìn)行分析,指出貴陽(yáng)、黔南州、遵義及畢節(jié)的高發(fā)風(fēng)險(xiǎn),在后續(xù)的疫情發(fā)展過(guò)程中,貴陽(yáng)、遵義、畢節(jié)和黔南州成為貴州省疫情最為嚴(yán)重的4個(gè)地區(qū),如圖2所示,與分析結(jié)果高度吻合。
圖2 貴州省疫情地圖Fig.2 Epidemic map of Guizhou Province
根據(jù)遷徙數(shù)據(jù)、確診數(shù)據(jù)發(fā)生值等數(shù)據(jù)對(duì)全國(guó)各省區(qū)市數(shù)據(jù)進(jìn)行篩選,得到與貴州發(fā)展情況接近的可參考省份。以這些省份的數(shù)據(jù)為基礎(chǔ)建立Logistic預(yù)測(cè)模型,綜合疑似病例數(shù)等因素,得出未來(lái)5日貴州省確診病例數(shù)預(yù)測(cè)值。根據(jù)累計(jì)15天的預(yù)測(cè)數(shù)據(jù),預(yù)測(cè)值與實(shí)際發(fā)生值之間可達(dá)到僅一人之差,誤差低至0.68%,如圖3所示,充分為貴州省的疫情防控提供積極的輔助決策作用。
圖3 預(yù)測(cè)值與實(shí)際值對(duì)比Fig.3 Comparison between predicted value and actual value
平臺(tái)通過(guò)對(duì)患者密切接觸人員、具有親屬關(guān)系的人員或同村人員等進(jìn)行關(guān)聯(lián)分析,快速創(chuàng)建患者接觸關(guān)系網(wǎng)絡(luò),如圖4所示,提示疫情防控目標(biāo)人群和高發(fā)案例,為采取及時(shí)的隔離措施提供指導(dǎo),防止疫情進(jìn)一步擴(kuò)散。
圖4 患者接觸關(guān)系網(wǎng)絡(luò)Fig.4 Patient contact network
根據(jù)貴州省內(nèi)88個(gè)區(qū)縣各縣確診病例數(shù)劃分風(fēng)險(xiǎn)等級(jí)指導(dǎo)復(fù)產(chǎn)復(fù)工,推動(dòng)經(jīng)濟(jì)恢復(fù)。該模塊展現(xiàn)貴州省各區(qū)縣復(fù)工復(fù)產(chǎn)區(qū)域分類(lèi)圖,低風(fēng)險(xiǎn)地區(qū)為綠色,中風(fēng)險(xiǎn)地區(qū)為黃色,高風(fēng)險(xiǎn)地區(qū)為紅色;低風(fēng)險(xiǎn)地區(qū)屬于無(wú)確診病例,或連續(xù)14天無(wú)新增確診病例;中風(fēng)險(xiǎn)地區(qū)14天內(nèi)有新增確診病例,累計(jì)確診病例不超過(guò)50例;或累計(jì)確診病例超過(guò)50例,14天內(nèi)未發(fā)生聚集性疫情;高風(fēng)險(xiǎn)地區(qū)確診病例大于50例。
本平臺(tái)主要利用大數(shù)據(jù)分析服務(wù)于我省新冠疫情的防控工作。通過(guò)建立時(shí)間、空間和人間“三間分布”的全覆蓋疫情信息采集原則與疫情預(yù)測(cè)預(yù)警風(fēng)險(xiǎn)等級(jí)指標(biāo)體系,平臺(tái)實(shí)現(xiàn)了對(duì)疫情數(shù)據(jù)的全方位匯聚、管理、分析、挖掘和可視化展示,向省政府、省疾控等相關(guān)部門(mén)提供精準(zhǔn)高效的數(shù)據(jù)分析和決策支持服務(wù),為疫情防控工作的實(shí)時(shí)化、可視化、精準(zhǔn)化管理提供了重要參考和可靠的保障。
數(shù)字技術(shù)與應(yīng)用2021年8期