沈 騰
(徐州市人力資源和社會(huì)保障信息中心,江蘇 徐州 221000)
大數(shù)據(jù)技術(shù)在此次“新冠”肺炎疫情防控中發(fā)揮了重要作用。宏觀上,我們利用地區(qū)采集的病例數(shù)據(jù)以及個(gè)體跨區(qū)域軌跡,通過對新增數(shù)量及區(qū)域分布情況的分析,對全國各地進(jìn)行危險(xiǎn)級(jí)別評(píng)估,進(jìn)而采取不同的管理防控措施;微觀上,個(gè)體通過注冊登錄“健康二維碼”出入公共場所,也可以查看哪些是危險(xiǎn)等級(jí)高的區(qū)域,這為防疫后期的復(fù)工復(fù)產(chǎn)提供了便利。
然而,此次疫情我們也應(yīng)該看出我們對疫情大數(shù)據(jù)的利用還不夠充分,賦能效果還亟待提升。特別是在疫情初期發(fā)展傳播過程中,對發(fā)病情況的掌握、所需醫(yī)療資源的預(yù)判、床位和設(shè)備的消耗情況、未來可能的調(diào)配策略等等,疫情初發(fā)地的武漢等地區(qū)并不能較充分的了解。假如有關(guān)部門建立了以大數(shù)據(jù)為基礎(chǔ)的處理流程和解決方案,就可以更好地處理應(yīng)對類似突發(fā)事件。
“大數(shù)據(jù)”(big data)的有關(guān)概念出現(xiàn)較晚,直到2008年左右才開始在互聯(lián)網(wǎng)流行,大數(shù)據(jù)就是海量的數(shù)據(jù)[1]。2012年維克托·邁爾-舍恩伯格在《大數(shù)據(jù)時(shí)代》一書中較為前瞻性的提出,大數(shù)據(jù)開啟了一次重大的時(shí)代轉(zhuǎn)型,并分別從思維、商業(yè)、管理3個(gè)維度的變革進(jìn)行了闡述。大數(shù)據(jù)技術(shù)就是從海量數(shù)據(jù)庫中通過一定的算法挖掘推導(dǎo)出對某領(lǐng)域有價(jià)值的信息。
OODA循環(huán)模型,是觀察(Observe)、判斷(Orient)、決策(Decide)以及行動(dòng)(Act)的英文縮寫,起初是美國空軍提出的一個(gè)信息戰(zhàn)略模型,后來常被應(yīng)用于大數(shù)據(jù)技術(shù)中,主要通過信息采集、分析、決策和應(yīng)對四個(gè)階段處理數(shù)據(jù)[2]。OODA 循環(huán)模型可以輔助我們認(rèn)清數(shù)據(jù)信息的運(yùn)行軌跡。
疫情數(shù)據(jù)采集的初期主要是依據(jù)醫(yī)療衛(wèi)生部門上報(bào)的感染者或疑似感染者信息,到了中后期由于需要出入小區(qū),各地開始要求提供健康碼,這時(shí)社區(qū)居民開始自主從網(wǎng)上填報(bào)個(gè)人數(shù)據(jù),主要分為本地常住人口和外來人口信息填報(bào)。除此之外,在復(fù)工復(fù)產(chǎn)準(zhǔn)備時(shí)期還有一些醫(yī)院、商場等公共場所在出入時(shí)進(jìn)行網(wǎng)上登記,作為個(gè)體在公共場所活動(dòng)軌跡的數(shù)據(jù)采集。
在上述疫情數(shù)據(jù)的采集中,主要存在幾點(diǎn)問題:一是數(shù)據(jù)的準(zhǔn)確性無法保證。絕大多數(shù)數(shù)據(jù)依賴于個(gè)體本身的填寫,個(gè)體本身受到填報(bào)時(shí)間、重視程度、自我判斷能力和填報(bào)誠信等多重因素影響,數(shù)據(jù)本身的準(zhǔn)確性得不到保證,短時(shí)間內(nèi)也沒有數(shù)據(jù)校驗(yàn)的功能。二是數(shù)據(jù)的完備程度不高。各個(gè)組織根據(jù)自身需要設(shè)計(jì)數(shù)據(jù)采集表單數(shù)據(jù)項(xiàng),而這些選項(xiàng)大多數(shù)都是個(gè)體的基本居住信息,個(gè)體的活動(dòng)軌跡無法采集,因此獲得的數(shù)據(jù)不夠完備。三是數(shù)據(jù)的共享程度較低。部分地區(qū)可以將采集的數(shù)據(jù)與當(dāng)?shù)毓膊块T戶籍?dāng)?shù)據(jù)相關(guān)聯(lián)比對,但和醫(yī)保、就診、交通、住房等數(shù)據(jù)沒有共享,多個(gè)數(shù)據(jù)庫沒有提供接口,缺少一個(gè)行之有效的數(shù)據(jù)處理系統(tǒng)。
疫情數(shù)據(jù)的分析目前主要還是簡單的統(tǒng)計(jì)分析。按照時(shí)間軸統(tǒng)計(jì),可以分析出整個(gè)疫情的發(fā)展變化,包括感染者和疑似感染者的數(shù)量、增長率等,按照空間區(qū)域統(tǒng)計(jì),可以分析各區(qū)域疫情的嚴(yán)重程度。但是,這些大數(shù)據(jù)的分析僅僅停留在一般統(tǒng)計(jì)學(xué)的范疇,分析層次較淺。
如果想進(jìn)行稍微復(fù)雜一些的分析,通常使用流行病學(xué)調(diào)查就可以發(fā)現(xiàn)一些疫情傳播的端倪,筆者提供了一些數(shù)據(jù)分析的功能設(shè)想如下:一是可以對確診患者的活動(dòng)軌跡進(jìn)行分析,進(jìn)而進(jìn)行疫情傳播預(yù)防,幫助發(fā)現(xiàn)疑似感染者;二是可以聯(lián)動(dòng)醫(yī)療資源數(shù)據(jù),協(xié)助更合理地調(diào)度各地醫(yī)療資源;三是可以對患者年齡、身體情況等關(guān)鍵指標(biāo)進(jìn)行分析,進(jìn)而研究易感染者的共性及疾病特征;四是可以對患者的治療方案及用藥反應(yīng)進(jìn)行分析,進(jìn)而研究適合多數(shù)群體的治療方案;五是可以對正常人群的活動(dòng)軌跡進(jìn)行分析,進(jìn)而開放低風(fēng)險(xiǎn)或無風(fēng)險(xiǎn)活動(dòng)區(qū)域。因?yàn)槟壳皩Υ髷?shù)據(jù)的分析層次還停留在顯性可視的層面,如果要完成上述設(shè)想,還需要借助機(jī)器學(xué)習(xí)、知識(shí)推理等專門算法。在數(shù)據(jù)分析中還要考慮到數(shù)據(jù)隱私和安全性,數(shù)據(jù)提取和分析等過程保密,即系統(tǒng)后臺(tái)利用相關(guān)算法推導(dǎo)結(jié)論,人員不直接接觸原始數(shù)據(jù)庫。
由于缺乏行之有效的專門算法,無法在某些領(lǐng)域內(nèi)數(shù)據(jù)建模,目前疫情大數(shù)據(jù)決策還很不成熟。國內(nèi)外在醫(yī)學(xué)領(lǐng)域有一些利用數(shù)據(jù)建模開發(fā)的仿真應(yīng)用或是輔助診斷應(yīng)用的案例,但目前來看前景并不明朗,主要涉及以下幾個(gè)因素:一是個(gè)體差異性。在某些領(lǐng)域海量數(shù)據(jù)影響決策中,我們可以推導(dǎo)預(yù)判某種可能概率增大,但每一個(gè)個(gè)體都具備與眾不同的可能;二是數(shù)據(jù)代表性。原始數(shù)據(jù)庫缺少足夠的龐大而精確,我們選取的數(shù)據(jù)項(xiàng)也并非絕對科學(xué)可信;三是算法合理性。每個(gè)領(lǐng)域的專門算法、模型需要大量實(shí)驗(yàn)驗(yàn)證,如何建立一個(gè)科學(xué)有效的專門算法,這是大數(shù)據(jù)決策的難點(diǎn);其他還有機(jī)器決策合法性等人文因素制約著大數(shù)據(jù)決策的發(fā)展。在大數(shù)據(jù)產(chǎn)生決策方面,我們還有很長的路要走。
在疫情防控中我們開發(fā)了幾個(gè)簡單的大數(shù)據(jù)應(yīng)用,例如“健康碼”。個(gè)體通過注冊登錄“健康二維碼”出入公共場所,也可以查看哪些是危險(xiǎn)等級(jí)高的區(qū)域,這為防疫后期的復(fù)工復(fù)產(chǎn)提供了一些便利。健康碼是根據(jù)個(gè)體輸入的數(shù)據(jù),根據(jù)過去的行程與官方對各地的風(fēng)險(xiǎn)評(píng)級(jí),生成一個(gè)表示危險(xiǎn)性的健康碼,在一定程度上提高了社區(qū)治理的效率。問題是這種應(yīng)用目前缺少校驗(yàn),在應(yīng)用中可靠性較低;并且風(fēng)險(xiǎn)區(qū)域“一刀切”較為粗獷,在實(shí)際操作中過于武斷,也影響到一些群眾的生活出行。除此以外,大數(shù)據(jù)應(yīng)用的成熟案例還較少,專業(yè)領(lǐng)域的開發(fā)瓶頸難以突破。
一是數(shù)據(jù)采集來源優(yōu)化。數(shù)據(jù)信息應(yīng)以公安部門戶籍?dāng)?shù)據(jù)為基礎(chǔ),加入手機(jī)關(guān)聯(lián)信息,從被動(dòng)采集轉(zhuǎn)變?yōu)橹鲃?dòng)采集;二是數(shù)據(jù)采集形式優(yōu)化。開發(fā)基于北斗導(dǎo)航系統(tǒng)定位的軌跡記錄數(shù)據(jù)系統(tǒng),在法律允許的范圍內(nèi)采集不同精度的活動(dòng)軌跡數(shù)據(jù)。三是數(shù)據(jù)共享優(yōu)化。將醫(yī)保、就診、交通、住房等多個(gè)數(shù)據(jù)庫數(shù)據(jù)共享,并進(jìn)行數(shù)據(jù)校驗(yàn)與清洗。
數(shù)據(jù)分析過程的優(yōu)化主要是建立公式,尋找規(guī)律。例如對確診患者的活動(dòng)軌跡進(jìn)行分析,對同時(shí)段的活動(dòng)軌跡進(jìn)行篩選,可以發(fā)現(xiàn)疑似感染人群??梢詫γ總€(gè)移動(dòng)終端的移動(dòng)軌跡進(jìn)行時(shí)間軸的記錄后,去發(fā)現(xiàn)同一時(shí)間相同軌跡交點(diǎn)的號(hào)碼,這個(gè)發(fā)現(xiàn)的過程就是一個(gè)較為簡單的數(shù)據(jù)分析。再如在調(diào)度醫(yī)療資源中,對各醫(yī)療機(jī)構(gòu)床位、醫(yī)護(hù)人員、醫(yī)療設(shè)備和藥品等數(shù)據(jù)與感染人群分布數(shù)據(jù)建立一個(gè)算法,可以幫助科學(xué)選擇。
活動(dòng)軌跡數(shù)據(jù)分析最大的問題是數(shù)據(jù)安全問題以及采集個(gè)人隱私的法律風(fēng)險(xiǎn)。在相關(guān)法律尚未明確的情況下,可以采取被動(dòng)采集的方式,即在一些重要的公共場所設(shè)置掃碼登記,登記前由個(gè)人線上同意相關(guān)協(xié)議,再進(jìn)行入場登記,用來記錄進(jìn)入該場所的人群數(shù)據(jù),從而被動(dòng)推導(dǎo)個(gè)人的活動(dòng)軌跡。
數(shù)據(jù)分析后,如何輔助產(chǎn)生出科學(xué)的決策,這要求建立一個(gè)模型和專門算法。比如可以通過對搜索關(guān)鍵字和網(wǎng)上購物數(shù)據(jù)的分析推導(dǎo)出某個(gè)人的購物偏好,甚至對其年齡、生活狀態(tài)、工作情況、個(gè)人喜好進(jìn)行推測,進(jìn)而自動(dòng)向其推送相關(guān)的產(chǎn)品,這就是一個(gè)最簡單的數(shù)據(jù)決策產(chǎn)生的過程。大數(shù)據(jù)決策過程,是基于數(shù)據(jù)分析模型而產(chǎn)生可能結(jié)果的推導(dǎo),是對某一領(lǐng)域大概率結(jié)論的預(yù)測。在疫情大數(shù)據(jù)決策過程優(yōu)化中,首先要確定目標(biāo),然后通過大量的數(shù)據(jù)實(shí)驗(yàn)優(yōu)化模型。以疫情傳染防治為例,可以建立一個(gè)類似的模型,這個(gè)模型可以分為不同的幾個(gè)階段。第一個(gè)階段是發(fā)現(xiàn)可能感染者。根據(jù)公共場所的入場登記數(shù)據(jù),分析活動(dòng)軌跡重合的個(gè)體,一旦出現(xiàn)確診者,決策者可以向其推送相關(guān)信息,這種結(jié)論并不一定能推導(dǎo)出感染人群,但是可以確定出可能會(huì)感染的人群;第二個(gè)階段是確定疑似感染者。例如已有一個(gè)14天無癥狀即可排除的經(jīng)驗(yàn),可以利用這個(gè)經(jīng)驗(yàn)對第一個(gè)階段出現(xiàn)的個(gè)體進(jìn)行居家隔離14天,但是這并非絕對,假如可能人群想要排除疑慮,則可能選擇去做進(jìn)一步的核酸檢測。在這個(gè)階段大數(shù)據(jù)可以智能的提供給可能感染者不同的選擇應(yīng)對方式,進(jìn)一步去確認(rèn)疑似感染者;第三個(gè)階段是確診。這個(gè)可以結(jié)合醫(yī)學(xué)診斷指標(biāo)進(jìn)行確診模型的建立。在實(shí)際就診中,醫(yī)生往往也是根據(jù)某些檢測的指標(biāo)及患者出現(xiàn)的癥狀進(jìn)行判斷,之所以難以建立模型是因?yàn)閭€(gè)體差異和相似疾病的種類較多,但是如果是排除某種疾病或是建立某個(gè)專門疾病的確診因素,則是有可能實(shí)現(xiàn)的。第四個(gè)階段是輔助治療。此部分內(nèi)容可以試圖整理相似個(gè)體的最佳治療方案,進(jìn)而為醫(yī)生提供一些參考,同時(shí)在醫(yī)療資源特別緊張時(shí)可以作為公共衛(wèi)生緊急處理辦法。
大數(shù)據(jù)應(yīng)用過程的優(yōu)化就是要使應(yīng)用更加人性化,使用戶有更好的體驗(yàn)。例如“健康碼”就可以從以下幾個(gè)方面優(yōu)化,一是提高準(zhǔn)確性,目前是以城市為單位的危險(xiǎn)評(píng)級(jí),可以進(jìn)一步提高范圍的精度;二是增加兼容性,對于沒有智能手機(jī)的群體,除了委托通過他人的支付寶微信賬戶添加以外,還可以考慮采用另一些終端,如健康手環(huán)、智能手表等形式;三是注重便捷性,健康碼的使用應(yīng)更加智能,減少個(gè)人操作環(huán)節(jié),甚至可以在社區(qū)、公共場所設(shè)置某些終端設(shè)備,出入的人員通過身份證或者人臉識(shí)別就可以自動(dòng)驗(yàn)證。
不斷完善對大數(shù)據(jù)采集、分析、決策、使用過程,更好地實(shí)現(xiàn)數(shù)據(jù)賦能,對社會(huì)民生保障具有現(xiàn)實(shí)意義。本文以疫情大數(shù)據(jù)運(yùn)行情況為例提出了大數(shù)據(jù)賦能效果的提升思路,由于缺乏實(shí)踐層面經(jīng)驗(yàn),還存在諸多不足之處。大數(shù)據(jù)應(yīng)用應(yīng)加強(qiáng)理論研究和實(shí)踐研究的結(jié)合,推動(dòng)多學(xué)科性研究的融合,拓寬研究主題,促進(jìn)研究內(nèi)容的多維深化,從而為公眾提供更為科學(xué)、高效的社會(huì)服務(wù)。