鄭 文,趙 偲,李澤堃,武嘯澤,胡 濤
(1. 太原理工大學(xué)大數(shù)據(jù)學(xué)院公共安全大數(shù)據(jù)研究所 太原 030060;2. 華中科技大學(xué)同濟(jì)醫(yī)學(xué)院附屬武漢中心醫(yī)院腫瘤科 武漢 430014)
自2019 年12 月以來(lái),新型冠狀病毒肺炎(COVID-19)感染者迅速增加[1],截至2020 年2 月20 日全國(guó)發(fā)現(xiàn)感染病例7 萬(wàn)余例[2]。目前,已有相關(guān)學(xué)者和科研機(jī)構(gòu)對(duì)新冠肺炎病毒展開研究和分析。我國(guó)對(duì)新冠肺炎病毒的病原學(xué)、流行特征和致病機(jī)制等方面已基本掌握[3-8],這不僅為制定疫情防控策略和措施提供科學(xué)依據(jù),也對(duì)全球社區(qū)了解新冠病毒提供了重要的參考。在遺傳學(xué)、病毒學(xué)等領(lǐng)域,研究人員對(duì)病毒基因組序列展開研究[9-12],加速了對(duì)追溯病毒源頭、預(yù)防疾病、研究疫苗等方面的工作進(jìn)展。在疫情預(yù)測(cè)和評(píng)估方面,通過(guò)建立SEIR 模型,加入不同參數(shù)進(jìn)行仿真分析[13-16],不僅證明了模型分析與疫情發(fā)展的真實(shí)表現(xiàn)基本吻合,進(jìn)一步肯定了對(duì)COVID-19 疫情防控措施的有效性,對(duì)接下來(lái)做好疫情防控具有較好的指導(dǎo)價(jià)值。令人欣喜的是,我國(guó)在新冠病毒肺炎藥物研發(fā)方面取得了重大進(jìn)展[17-18],多種藥物對(duì)治療新型冠狀病毒肺炎方面的患者起著積極有效的作用,加速推進(jìn)了我國(guó)戰(zhàn)勝疫情的步伐。
值得注意的是,以上相關(guān)研究大多側(cè)重于新型冠狀病毒肺炎的傳播模型、流行病學(xué)特征、病因病理和治療護(hù)理的某一個(gè)方面,而且大部分?jǐn)?shù)據(jù)來(lái)源于國(guó)家或者地方衛(wèi)健委官網(wǎng),數(shù)據(jù)來(lái)源方式相對(duì)單一。最重要的是在疫情初期,政府無(wú)法快速獲取一線真實(shí)有效數(shù)據(jù),不利于開展疫情防控工作,也不利于有效措施的實(shí)施。而新一代信息技術(shù)作為國(guó)務(wù)院在“十二五”規(guī)劃中確定的7 個(gè)戰(zhàn)略性新興產(chǎn)業(yè)之一,在傳統(tǒng)流行病學(xué)研究中的重要意義并未展現(xiàn)。
另一方面,近年來(lái)中國(guó)社交媒體的發(fā)展引人注目[19],相繼出現(xiàn)了微信、微博、抖音等社交軟件。社交媒體軟件借助互聯(lián)網(wǎng)的平臺(tái)涵蓋了以人類社交為核心的所有網(wǎng)絡(luò)服務(wù)形式,助力互聯(lián)網(wǎng)從研究部門、學(xué)校、政府、商業(yè)應(yīng)用等平臺(tái)擴(kuò)展到每一個(gè)人,同時(shí)也造成社交數(shù)據(jù)的爆炸式增長(zhǎng)。社交媒體數(shù)據(jù)之間存在大量信息和知識(shí),而且可以廣泛用于各種應(yīng)用場(chǎng)景,包括商務(wù)管理、生產(chǎn)控制、工程設(shè)計(jì)、市場(chǎng)分析和科學(xué)探索等。但是如何有效地提取并利用這些信息成為一個(gè)巨大的挑戰(zhàn)。為了解決這一問(wèn)題,定向抓取相關(guān)網(wǎng)頁(yè)資源的網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。網(wǎng)絡(luò)數(shù)據(jù)挖掘可以通過(guò)程序或者腳本,按照一定的規(guī)則,自動(dòng)地抓取萬(wàn)維網(wǎng)信息,實(shí)現(xiàn)對(duì)相關(guān)網(wǎng)頁(yè)的數(shù)據(jù)資源分析。目前數(shù)據(jù)挖掘技術(shù)廣泛應(yīng)用在電力、經(jīng)濟(jì)、通信、民生等領(lǐng)域[20]。
本文通過(guò)Selenium 數(shù)據(jù)挖掘技術(shù),從社交媒體(新浪微博)上獲得有效新型冠狀病毒肺炎求助病例信息690 例。隨后利用該數(shù)據(jù)集,分別從求助患者的地理空間、求助人數(shù)、確診日期和患病人員年齡4 個(gè)方面,對(duì)新型冠狀病毒肺炎的流行病學(xué)特征進(jìn)行分析,最后結(jié)合社交媒體的廣泛性、實(shí)時(shí)性特征,對(duì)發(fā)生重大傳染性疾病期間,管理部門的各項(xiàng)政策效果進(jìn)行了討論和評(píng)估。
本文主要是基于開源的Web 應(yīng)用程序Selenium測(cè)試工具,結(jié)合Python 編寫的采集程序,在模擬操作瀏覽器的情況下,實(shí)現(xiàn)社交媒體工具上新型冠狀病毒肺炎病例數(shù)據(jù)的自動(dòng)采集。
新型冠狀病毒肺炎疫情期間,新浪微博迅速成為民眾了解疫情動(dòng)態(tài)和走向的重要平臺(tái)。平均每天超過(guò)2 億網(wǎng)友通過(guò)新浪微博關(guān)注疫情最新信息,獲取疫情防治服務(wù),參與公益募捐。微博上的疫情話題數(shù)量不斷增長(zhǎng),截至2020 年2 月22 日,累計(jì)88 萬(wàn)名個(gè)人認(rèn)證用戶發(fā)布了1 688 萬(wàn)條微博,內(nèi)容涉及內(nèi)容包括醫(yī)療、科普等多個(gè)領(lǐng)域。
針對(duì)新型冠狀病毒肺炎疫情,新浪微博于2020 年2 月4 日官方發(fā)布了“肺炎患者求助超話”,相關(guān)政府部門也設(shè)置專門的通道與求助者進(jìn)行核實(shí)和對(duì)接。截至2020 年2 月22 日,該超級(jí)話題收集帖子1 222 個(gè),關(guān)注粉絲57.5 萬(wàn),閱讀量超過(guò)29 億。基于社交媒體數(shù)據(jù)挖掘方法,本文選取新浪微博“肺炎患者求助超話”求助專區(qū)上發(fā)布的求助信息為對(duì)象,研究新型冠狀病毒肺炎疫情期間,社交媒體上求助病例的流行病學(xué)特征。其中,該求助超話包含的求助人員信息字段如表1 所示。
表1 求助人員信息字段
截至2020 年2 月22 日,本文通過(guò)數(shù)據(jù)挖掘方法在微博“肺炎患者求助超話”上一共獲得有效求助病例數(shù)據(jù)690 例,部分求助人員信息數(shù)據(jù)如表2所示。鑒于本文研究的重點(diǎn)在于新型冠狀病毒肺炎病例的流行病學(xué)特征分析,所以求助人員信息主要側(cè)重于“年齡,所在城市,所在小區(qū)、社區(qū),患病時(shí)間,求助日期”共6 個(gè)數(shù)據(jù)段。需要說(shuō)明的是,微博超話中的患病時(shí)間,具體指的是患者的確診時(shí)間,求助患者中絕大部分都給出了詳細(xì)的確診證明材料。另外出于保護(hù)個(gè)人隱私的需要,本文研究的最終數(shù)據(jù)集,隱去了求助者姓名,具體居住地址、聯(lián)系方式和詳細(xì)病情介紹等信息。
表2 求助人員信息表
基于社交媒體數(shù)據(jù)挖掘獲得的690 例有效求助患者的詳細(xì)區(qū)域統(tǒng)計(jì)數(shù)據(jù)如表3 所示。從表3 可以看出,雖然“肺炎患者求助超話”是面向所有公眾開放的,但最終的統(tǒng)計(jì)數(shù)據(jù)表明,來(lái)源于湖北省以外的僅4 例,來(lái)源于湖北省內(nèi),但不屬于武漢市的僅12 例。絕大部分(97.6%)的求助患者來(lái)源于武漢市。另一方面,社交媒體求助患者的數(shù)量在不同區(qū)域具有明顯的差異。武昌、江漢、漢陽(yáng)、硚口、江岸、洪山是求助患者的密集區(qū),而新洲,江夏等區(qū)求助患者人數(shù)較少。
表3 武漢各地區(qū)求助數(shù)量
為了進(jìn)一步地定量分析求助患者的地理分布信息,表3 還記錄了武漢市各區(qū)域的地理面積和常駐人口兩項(xiàng)數(shù)據(jù),并且通過(guò)定義常駐人口和地理面積的比表示人口密度。通過(guò)對(duì)比武漢市各區(qū)域人口密度的分布情況可以發(fā)現(xiàn),除了江漢區(qū)因?yàn)槿丝诿芏忍貏e大,數(shù)據(jù)表現(xiàn)異常之外,其他各區(qū)域求助患者人數(shù)和該區(qū)域人口密度表現(xiàn)出明顯的正相關(guān)關(guān)系。
在中心城區(qū)等人口密集區(qū)域,是求助患者分布的主要來(lái)源。同時(shí),這個(gè)結(jié)果也從側(cè)面說(shuō)明,在重大傳染性疾病疫情期間,人口密集區(qū)域,醫(yī)療資源、救助力量各方面都比較緊張,滿足不了求助患者數(shù)量的需求,容易造成應(yīng)急處置效率低等情況。而在人口相對(duì)稀少區(qū)域,醫(yī)療資源可滿足大部分求助人群的需求,因此求助患者人數(shù)少。所以,醫(yī)療人員和收治床位等醫(yī)療資源的增加會(huì)減少求助患者的數(shù)量。
基于社交媒體數(shù)據(jù)挖掘獲得的690 例有效求助患者的數(shù)據(jù),每日患者求助數(shù)量隨時(shí)間變化的分布如圖1 所示。
由圖1 可知,患者求助主要分布在2020 年2 月4 日?7 日這個(gè)時(shí)間段,這段時(shí)間內(nèi)平均每日的患者求助數(shù)量都超過(guò)100 次,其中數(shù)量最高峰出現(xiàn)在2 月5 日,數(shù)量接近200 次。另一方面,從2020 年2 月8 日開始,肺炎患者求助數(shù)量急劇下降,平均每日不超過(guò)20 次。
圖1 求助患者數(shù)量隨時(shí)間分布
為了進(jìn)一步說(shuō)明求助患者的分布規(guī)律,根據(jù)武漢市衛(wèi)生健康委員會(huì)公布的《全市定點(diǎn)醫(yī)院病床使用情況》[21]分析表,獲取了武漢市2020 年2 月1 日?22 日期間,全市各定點(diǎn)醫(yī)院總的開放床位數(shù)和空床位數(shù)如圖2 和圖3 所示。
圖2 武漢市收治床位數(shù)隨時(shí)間分布
由圖2 可知,全市開放床位數(shù)在2020 年2 月8 日出現(xiàn)了第一個(gè)大的拐點(diǎn),這恰好跟圖1 中求助患者急劇減少的日期相對(duì)應(yīng)。進(jìn)一步的數(shù)據(jù)分析可以發(fā)現(xiàn),2 月8 日,武漢火神山醫(yī)院增設(shè)床位200 個(gè),雷神山醫(yī)院開始投入運(yùn)行,其他各定點(diǎn)醫(yī)院一共增加床位255 個(gè)。2020 年2 月9 日,火神山、雷神山等定點(diǎn)醫(yī)院開放床位數(shù)進(jìn)一步增加,同時(shí)方艙醫(yī)院?jiǎn)⒂?,全?guó)各地救援醫(yī)療隊(duì)陸續(xù)到達(dá)武漢加入到疫情防控一線。正是由于醫(yī)療資源和醫(yī)療隊(duì)伍得到保障,社交媒體上的求助患者才出現(xiàn)大幅度的下降,這也證明火神山、雷神山和方艙醫(yī)院等定點(diǎn)醫(yī)院的建設(shè),在應(yīng)對(duì)突發(fā)性傳染病方面,具有非常重要的作用。
圖3 武漢市空余床位數(shù)隨時(shí)間分布
另一方面,醫(yī)療資源是否滿足當(dāng)前防疫的需要,最直觀的指標(biāo)就是空床位數(shù),由圖3 可知,從2020 年2 月8 日開始,武漢市定點(diǎn)醫(yī)院的空床位數(shù)才開始增加。雖然在2 月8 日以前,全市空床位數(shù)一直保持在170 個(gè)左右,但這些數(shù)字均是由于出院、轉(zhuǎn)院等因素造成的影響,真實(shí)情況下,2020 年2 月8 日以前,武漢市各定點(diǎn)醫(yī)院一直處于超飽和狀態(tài)運(yùn)行,這也是社交媒體上出現(xiàn)大量求助患者的重要原因。
圖4 為本文690 例有效求助患者的患病確診時(shí)間隨日期的分布圖,其中也包括了中國(guó)疾控中心發(fā)布的確診人數(shù)隨日期變化的數(shù)據(jù)。整體趨勢(shì)上來(lái)看,通過(guò)社交媒體獲取的病例的流行病學(xué)歷史與中國(guó)疾控中心發(fā)布的數(shù)據(jù)[5]大致吻合,兩者的Pearson相關(guān)系數(shù)達(dá)到了0.925。兩個(gè)數(shù)據(jù)均是從2020 年1 月15 日開始,新型冠狀病毒肺炎確診患者顯著增加,2020 年1 月20 日開始出現(xiàn)了一個(gè)小跳躍式的增加,隨后在2020 年1 月23 日?28 日達(dá)到第一個(gè)流行峰,然后緩慢下降。最后在2 月1 日出現(xiàn)一個(gè)異常高峰值,后逐漸下降。進(jìn)一步定量地分析發(fā)現(xiàn),以武漢“封城”的2020 年1 月23 日為界限,在1 月23 日以前,中國(guó)疾控中心發(fā)布的確認(rèn)人數(shù)分布數(shù)據(jù)明顯高于社交媒體求助患者中的確診人數(shù)分布,而在1 月23 日開始“封城”到1 月28 日,武漢確診病例明顯偏高。一方面是由于“封城”之后,阻止了感染人群的外流;另一方面,可能還是因?yàn)槿藛T聚集,以及前期醫(yī)療資源緊張,居家隔離導(dǎo)致的大面積感染。
圖4 求助患者確診日期分布
圖5 是每日求助患者確診時(shí)間分布,由圖可知,求助患者比較集中的2020 年2 月4 日?7 日,其確診時(shí)間大多分布在2020 年1 月中旬至求助當(dāng)天日期。由圖中藍(lán)色虛線可知,隨著時(shí)間的推進(jìn),求助患者中早期確診的人數(shù)越來(lái)越少,這基本符合國(guó)家“應(yīng)收盡收,刻不容緩”的政策要求,也說(shuō)明絕大多數(shù)患者都得到有效地救助和安排。
圖5 每日求助患者日期分布
但是,從2020 年2 月13 日開始,由圖5 中紅色橢圓區(qū)域可知,出現(xiàn)了一批早期確診患者的求助信息。通過(guò)對(duì)紅色區(qū)域的14 例患者信息做進(jìn)一步分析發(fā)現(xiàn),這部分患者主要可分為兩組:一組是已經(jīng)正常住院求助康復(fù)者血漿,另一組是存在其他基礎(chǔ)性疾病求助治療??箵粜滦凸跔畈《痉窝灼陂g,除了確診收治病人,另外一個(gè)重要的工作就是針對(duì)新冠肺炎的新藥、新治療方法的研究。從社交媒體肺炎求助患者的數(shù)據(jù)可以發(fā)現(xiàn),“血漿療法”在醫(yī)療一線具有一定的影響力。另一方面,重大傳染病疫情期間,本身具有其他基礎(chǔ)性疾病的人群往往因?yàn)槊庖吡Φ拖露菀妆桓腥?。尤其是接受化療的患者,更是成為新型冠狀病毒的易感人群,患者們只能居家監(jiān)護(hù),用藥治療。加上疫情期間,武漢多家腫瘤醫(yī)院科被征用抗疫,造成一些患者的化療時(shí)間被耽誤,所以這些患者通過(guò)社交媒體尋求幫助。
圖6 為社交媒體求助的690 例有效患者的年齡分布圖。從圖中分析可得,求助患者大多數(shù)集中在50~80 歲(71.88%)年齡段,年齡分布的中位數(shù)為60 歲。此年齡分布與中國(guó)疾控中心[5]發(fā)布的新型冠狀病毒肺炎確診病例分布特征基本吻合,由圖可知,老年患者更容易被新型冠狀病毒感染。
圖7 為社交媒體求助患者、武漢中心醫(yī)院收治患者和中國(guó)疾控中心分別公布的年齡分布圖。由圖可知,社交媒體求助患者的年齡分布與武漢中心醫(yī)院的數(shù)據(jù)曲線走勢(shì)基本吻合,兩者的Pearson 相關(guān)系數(shù)達(dá)到了0.914,尤其在60~80 歲的老年區(qū)間高度吻合,該結(jié)果從側(cè)面進(jìn)一步說(shuō)明了社交媒體數(shù)據(jù)的實(shí)時(shí)性。
另一方面,社交媒體求助患者與中國(guó)疾控中心公布曲線有一定的差距,兩者的Pearson 相關(guān)系數(shù)僅僅只有0.693。中國(guó)疾控中心的數(shù)據(jù)年齡分布中位數(shù)為41 歲,高齡患者整體偏少,這主要是因?yàn)橹袊?guó)疾控中心的數(shù)據(jù)統(tǒng)計(jì)人群為全國(guó)患者,全國(guó)相比于疫情中心武漢,整體醫(yī)療資源相對(duì)寬松,導(dǎo)致高齡易感人群偏少。
圖6 求助患者年齡分布
圖7 不同數(shù)據(jù)來(lái)源年齡分布比較
本文發(fā)現(xiàn):社交媒體上獲得的真實(shí)有效病例分析結(jié)果說(shuō)明,新型冠狀病毒肺炎的迅速蔓延最主要的原因是醫(yī)療資源的緊缺,造成應(yīng)急處置工作運(yùn)作低效,引發(fā)恐慌。在醫(yī)療隊(duì)、收治床位等醫(yī)療資源滿足需求以后,求助患者病例明顯減少,疫情也得到了有效的遏止。另一方面發(fā)現(xiàn):通過(guò)社交媒體對(duì)疫情期間的求助患者信息進(jìn)行可視化呈現(xiàn)和統(tǒng)計(jì)分析,能更加有效、及時(shí)地獲得其流行病學(xué)特征。下一步工作中,可以在此基礎(chǔ)上引入傳染性疾病的傳播模型,有效分析疫情的時(shí)空演變和擴(kuò)散特征,為進(jìn)一步支援武漢、狙擊疫情傳播提供重要的數(shù)據(jù)參考。
同時(shí),本文的研究結(jié)果說(shuō)明,在中央有關(guān)部門的正確領(lǐng)導(dǎo)下,從2020 年1 月24 日開始,武漢以“中國(guó)速度”相繼建立的火神山醫(yī)院、雷神山醫(yī)院以及若干方艙醫(yī)院,增設(shè)數(shù)千張床位,有效地解決了大量患者無(wú)院可住的問(wèn)題,讓廣大患者得到妥善的治療和照顧,這在重大傳染性疫情防控方面,具有非常重要的意義。湖北省政府、武漢市政府貫徹落實(shí)習(xí)近平總書記重要指示精神,不折不扣落實(shí)“四類人員”分類集中管理措施,真正做到應(yīng)收盡收、不漏一人,這在切斷傳染源、降低傳染率和縮短傳播時(shí)間等方面發(fā)揮了重要的作用。
綜上所述,針對(duì)重大突發(fā)性傳染疾病,社交媒體不但在輿論宣傳上發(fā)揮作用,在流行病學(xué)分析上同樣具有重要的意義。相關(guān)技術(shù)部門可以充分利用社交媒體的廣泛性和及時(shí)性,通過(guò)社交媒體獲得有效的數(shù)據(jù)病例,然后結(jié)合數(shù)據(jù)挖掘和大數(shù)據(jù)分析等方法,幫助國(guó)家決策部門快速掌握一線的真實(shí)情況,有助于政府部門迅速展開疫情防控工作。
感謝太原市大數(shù)據(jù)應(yīng)用局喬熙,太原理工大學(xué)公共安全大數(shù)據(jù)研究所廉濤、徐震寰的交流與討論。