王靈鈺 劉子昂 朱興杰 蘇翀
摘要:新型冠狀病毒肺炎(COVID-19)自2020年在世界范圍內(nèi)迅速傳播,致死率極高,時至今日,一些國家的疫情仍無法得以有效控制,因此,新型冠狀病毒肺炎趨勢預(yù)測成為一大研究焦點。目前傳統(tǒng)的趨勢預(yù)測方法主要包括運用傳統(tǒng)傳染病預(yù)測模型。但是,傳統(tǒng)傳染病模型趨勢預(yù)測方法缺少對實際情況防控傳染病措施的考慮,模型建立不夠完善等缺點。同時,隨著機器學(xué)習熱潮的到來,科研人員在此基礎(chǔ)上構(gòu)建了基于深度學(xué)習的COVID-19趨勢預(yù)測模型,這些模型有效地輔助了醫(yī)學(xué)專家、科研機構(gòu)等對COVID-19的高效預(yù)測。首先,全面調(diào)研了目前主流的用于COVID-19趨勢預(yù)測的相關(guān)評價指標;接著,對基于深度學(xué)習的新冠肺炎發(fā)展趨勢預(yù)測模型進行了詳細介紹,并對模型性能進行了比較分析。最后,對該領(lǐng)域的未來發(fā)展趨勢進行了探討分析。
關(guān)鍵詞:深度學(xué)習;新冠肺炎;趨勢預(yù)測;神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP311? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)23-0106-04
2020年初,新型冠狀病毒肺炎疫情席卷全球,各地死亡人數(shù)不斷激增,這一突發(fā)公共衛(wèi)生事件對各地區(qū)經(jīng)濟、社會、政治等造成了不同程度的破壞。為盡可能減少疫情所帶來的負面影響,趕在疫情發(fā)展前及時遏制病毒源的傳播,及時疏散和管控可能接觸病毒源的周邊人員,防止疫情的二次爆發(fā)。許多學(xué)者利用深度學(xué)習理論,搭建模型分析不同情境下,對疫情發(fā)展趨勢進行預(yù)測。本文收集并對比了2020年以來部分基于深度學(xué)習的新冠肺炎疫情傳播趨勢的預(yù)測模型,制定評價指標進行分析討論,列舉了國內(nèi)外相關(guān)領(lǐng)域研究趨勢和方向,希望為后續(xù)相關(guān)領(lǐng)域的研究提供有力參考。
1 概述
新型冠狀病毒肺炎(COVID-19)是一種由新型冠狀病毒感染引起的以肺部病變?yōu)橹鞯男滦蛡魅静1],世界衛(wèi)生組織宣布,截至今年1月底,已核實的COVID-19感染人數(shù)為1億,COVID-19感染率為75:1,死亡人數(shù)超過200萬[2]。新發(fā)傳染病在全球范圍不斷出現(xiàn)[3];特別是SARS(嚴重急性呼吸綜合征,2003年)、H1N1(甲型流感,2009年)、MERS(中東呼吸綜合征,2012)、寨卡病毒(2015年)以及2019-nCoV(新型冠狀病毒肺炎,2019年)均嚴重影響了人類健康程度、全球政治和經(jīng)濟的發(fā)展。目前來看,這讓全球遭受新發(fā)傳染病的控制編程我們必須要解決的重大公共衛(wèi)生問題[4-5]。新冠肺炎確診人數(shù)還在不斷激增,了解未來疫情發(fā)展趨勢也是防疫工作的重要一環(huán)。
深度學(xué)習是一個由多個隱藏層組成的深層非線性網(wǎng)絡(luò),它可以通過將特征抽象為更抽象的特征或者更高的類別,從而讓機器系統(tǒng)能夠?qū)W習像人類一樣分析。深度學(xué)習是機器學(xué)習包含的新領(lǐng)域,近年來已經(jīng)在分類、檢測、識別、預(yù)測等多項任務(wù)中取得了前所未有的成就,受到了各界的廣泛關(guān)注。在深度學(xué)習的過程中,我們可以解決海量數(shù)據(jù)中存在的高維、冗雜等傳統(tǒng)機器學(xué)習難以解決的問題。所以在全球疫情危機爆發(fā)的背景下,人們大量的利用深度學(xué)習,以達到幫助我們快速準確地預(yù)測出新冠肺炎患者病情危重的概率、對疫情進行動態(tài)監(jiān)測及疫情未來發(fā)展趨勢的預(yù)測等目的。
目前,SIR模型是傳染病模型預(yù)測中最經(jīng)典的模型,而COVID-19具有廣泛的傳染性,可以通過在所有其他傳染病中使用不同的感染病例來建立COVID-19的傳播方式[7]。但相對于傳統(tǒng)的SIR模型而言,由于新冠肺炎的特殊性,如:不存在封閉情況,考慮開放體系;病人確診后立即隔離,不會作為新的感染源等[8],還需對SIR模型進行適當?shù)男薷?,考慮更多的因素,再通過實時數(shù)據(jù)擬合得到模型的參數(shù),從而達到預(yù)測不同階段疫情趨勢變化的效果。
人工神經(jīng)網(wǎng)絡(luò)是通過連接權(quán)重結(jié)構(gòu)配合激活函數(shù)模仿人腦做著類似的工作,其在傳染病預(yù)測的應(yīng)用越來越廣泛。循環(huán)神經(jīng)網(wǎng)絡(luò)其實是一類遞歸神經(jīng)網(wǎng)絡(luò),它將輸入的序列沿著其發(fā)展方向遞歸,其后的結(jié)點均以鏈式的結(jié)構(gòu)出現(xiàn),用于輸出計算。它具有處理時間序列數(shù)據(jù)的能力,尤其廣泛應(yīng)用在語音處理、自然語言處理等前沿領(lǐng)域[12]。
本文的主要貢獻如下:
(1)對相關(guān)算法的評價指標進行了討論和總結(jié)。
(2)對基于機器學(xué)習和深度學(xué)習的COVID-19趨勢預(yù)測模型進行了全面系統(tǒng)的描述和總結(jié)。
(3)對前述代表性的COVID-19趨勢預(yù)測模型依次進行討論總結(jié),探討了基于深度學(xué)習的COVID-19趨勢預(yù)測模型的未來研究方向。
2 國內(nèi)外研究情況
機器學(xué)習領(lǐng)域有關(guān)傳播性疾病的預(yù)測方法繁多,依據(jù)各方法假設(shè),可將其分為定性與定量預(yù)測,當然也有一些方法綜合使用了兩種方法進行綜合預(yù)測。
本文所列舉的定性預(yù)測方法,是通過對某一地區(qū)傳染病傳播過程及特征等相關(guān)因素的預(yù)測,從而對病毒的進一步擴散提出建議數(shù)據(jù)支撐。常見的方法有流行比數(shù)圖法、控制圖法、Delphi法、“Z-D”現(xiàn)象、等??刂茍D法適用于分布性傳染病,能夠較好預(yù)測季節(jié)性、周期性傳染病的傳播趨勢,簡單易懂。目前,控制圖法已被廣泛應(yīng)用與疾病檢測及預(yù)警預(yù)測的實踐中(例如麻疹、細菌性痢疾等疾病的預(yù)測)[13-14]。比數(shù)圖法適用于發(fā)病數(shù)呈現(xiàn)正態(tài)分布的傳播性疾病,其原理是通過比數(shù)(R)與其可信區(qū)間來判斷某傳染病是否傳播趨勢[15]。
本文所討論的定量預(yù)測方法,是指利用數(shù)學(xué)模型,預(yù)測某種傳播性疾病傳播的發(fā)病數(shù)和發(fā)病率。常見的模型類型包括:基于動力學(xué)的微分方程模型、時間序列模型、多元回歸分析和人工神經(jīng)網(wǎng)絡(luò)模型等。一般基于動力學(xué)的微分方程模型大多沒有將人為因素納入考量,描述的是疾病自然傳播的過程預(yù)測結(jié)果,其模型與現(xiàn)實存在較大差距;時間序列模型適用于無法確定傳染途徑及方式的傳播性疾病的預(yù)測,需要提供詳盡的發(fā)病率數(shù)據(jù),可行性較高,是目前使用頻率較高的一種方法;多元回歸常用于分析多因素影響分析,分析傳染病流行的復(fù)雜特征,預(yù)測準確度高,但在實踐中需要依據(jù)實際調(diào)整地區(qū)、病種等數(shù)據(jù),因此限制了此類方法的推廣。