何宇浩,鄭賢偉
(佛山科學(xué)技術(shù)學(xué)院 數(shù)學(xué)與大數(shù)據(jù)學(xué)院,廣東 佛山 528225)
自2019年12月以來(lái),武漢爆發(fā)的COVID-19 疫情由于春節(jié)人口流動(dòng)快速蔓延,對(duì)疫情進(jìn)行風(fēng)險(xiǎn)分析,評(píng)估防控策略的有效性和時(shí)效性等具有非常重要的現(xiàn)實(shí)意義。
在疫情的預(yù)測(cè)工作上,國(guó)內(nèi)外早有許多學(xué)者做出大量工作。在傳統(tǒng)數(shù)學(xué)建模方向上,蘭州大學(xué)的黃建平等人(2020)利用其團(tuán)隊(duì)30年來(lái)在統(tǒng)計(jì)-動(dòng)力氣候預(yù)測(cè)的先進(jìn)技術(shù),將流行病學(xué)模型與實(shí)時(shí)更新的疫情、氣象和環(huán)境數(shù)據(jù)相結(jié)合,構(gòu)建了世界上第一個(gè)全球疫情預(yù)測(cè)系統(tǒng),較好地預(yù)測(cè)世界各個(gè)國(guó)家每日新增確診病例數(shù)的主要特征和長(zhǎng)期趨勢(shì)。王旭艷等(2020)采用平滑指數(shù)模型對(duì)累計(jì)確診病例數(shù),累計(jì)治愈出院病例數(shù),累計(jì)死亡病例數(shù),重癥病例數(shù)及危重癥病例數(shù)進(jìn)行擬合和預(yù)測(cè),采用該方法的擬合值與實(shí)際值的趨勢(shì)基本吻合。董章功等(2022)基于傳統(tǒng)的傳染病動(dòng)力模型SEIR 和差分整合移動(dòng)平均自回歸模型ARIMA 構(gòu)建的SEIR-ARIMA 混合模型,對(duì)不同時(shí)間段,不同地點(diǎn)的新冠肺炎疫情做出預(yù)測(cè)和分析,通過(guò)與SEIR-Logistic 混合模型和SEIR-LSTM 混合模型的對(duì)比分析得出SEIR-ARIMA 混合模型對(duì)新冠肺炎的發(fā)展趨勢(shì)的分析相對(duì)可靠,有利于國(guó)家面對(duì)疫情的科學(xué)決策,對(duì)我國(guó)未來(lái)預(yù)防其他類型的傳染病具有很好的應(yīng)用價(jià)值。在機(jī)器學(xué)習(xí)或深度學(xué)習(xí)方向上,Nikhil等(2021)提出了一個(gè)基于多項(xiàng)式的線性回歸模型,使用過(guò)去幾個(gè)月的數(shù)據(jù)根據(jù)當(dāng)前情況預(yù)測(cè)未來(lái)的數(shù)據(jù),該模型對(duì)2021年1月的病例進(jìn)行了預(yù)測(cè),經(jīng)Wordometer.com 上的實(shí)際數(shù)據(jù)驗(yàn)證,準(zhǔn)確率為99.29%。楊麗等(2021)提出了一種基于注意力機(jī)制的LSTM 網(wǎng)絡(luò),即A-LSTM,在大西洋支持的COVID 追蹤項(xiàng)目提供的歷史數(shù)據(jù)驅(qū)動(dòng)下,A-LSTM模型進(jìn)行預(yù)測(cè),其RMSE、MAPE、MAE 和R-squared 的評(píng)價(jià)指標(biāo)分別為285.89、0.048 2%、230.74 和0.995 4,分別優(yōu)于其參考的 BPNN 模型。Aarathi S 等(2021)通過(guò)使用cox回歸選擇合適的協(xié)變量并將其數(shù)據(jù)輸入 LSTM 模型來(lái)預(yù)測(cè)印度21 天的新COVID-19 病例數(shù),與其他研究相比,當(dāng)新病例數(shù)很高或?qū)ζ溥M(jìn)行長(zhǎng)時(shí)間預(yù)測(cè)時(shí),MAPE 較低。Anthony Li等(2021)提出了一種基于LSTM 的新型架構(gòu),開(kāi)發(fā)并訓(xùn)練了人類物流數(shù)據(jù),包括旅行模式、商業(yè)地產(chǎn)的訪問(wèn),以及歷史案例、人口統(tǒng)計(jì)和氣候數(shù)據(jù),為今后利用類似的時(shí)間和靜態(tài)數(shù)據(jù)預(yù)測(cè)COVID-19 和其他類似疾病暴發(fā)提供了基礎(chǔ)。
綜上所述,在對(duì)新冠肺炎疫情預(yù)測(cè)的工作中,傳統(tǒng)的數(shù)學(xué)建模方法與機(jī)器學(xué)習(xí)或深度學(xué)習(xí)方法更多的是對(duì)序列數(shù)據(jù)本身建模,或者融合其他傳染病的傳播模型對(duì)COVID-19 的傳播進(jìn)行仿真實(shí)驗(yàn),從而對(duì)新冠肺炎疫情的未來(lái)發(fā)展進(jìn)行擬合或模擬預(yù)測(cè),這些方法某種程度上忽略了肺炎病毒的流動(dòng)性,不能充分考慮各城市之間人員流動(dòng)對(duì)病毒傳播造成的影響。為此,本文在YU Zehua 等(2021)的工作基礎(chǔ)上,提出了相關(guān)度交互圖卷積網(wǎng)絡(luò)(Correlation-Interactive Spatio-Temporal Graph Convolutional Networks,CIST-GCN)根據(jù)各城市之間的物理距離進(jìn)行城市網(wǎng)絡(luò)拓?fù)錁?gòu)建,并且利用各城市的日感染人數(shù)變化計(jì)算新冠肺炎病毒在不同城市間的傳播相似度,并對(duì)拓?fù)鋱D進(jìn)行加權(quán)處理,最后利用時(shí)空?qǐng)D卷積網(wǎng)絡(luò)(ST-GCN)處理城市網(wǎng)絡(luò)的空間特征,并對(duì)城市的疫情發(fā)展?fàn)顩r進(jìn)行預(yù)測(cè)。
實(shí)驗(yàn)中以各個(gè)城市作為節(jié)點(diǎn),首先根據(jù)各節(jié)點(diǎn)之間的物理距離構(gòu)建拓?fù)鋱D,再根據(jù)每個(gè)節(jié)點(diǎn)的日增感染人數(shù)計(jì)算每個(gè)城市之間的病毒傳播相似系數(shù),對(duì)拓?fù)鋱D進(jìn)行加權(quán)處理,最后利用時(shí)空?qǐng)D卷積網(wǎng)絡(luò)(ST-GCN)處理城市網(wǎng)絡(luò)的空間特征,并對(duì)城市的疫情發(fā)展?fàn)顩r進(jìn)行預(yù)測(cè)。在計(jì)算過(guò)程中,為了統(tǒng)一計(jì)算量綱,會(huì)對(duì)原始數(shù)據(jù)進(jìn)行歸一化處理,所以最后需要對(duì)預(yù)測(cè)數(shù)據(jù)進(jìn)行數(shù)據(jù)還原處理,具體流程圖如圖1所示。
圖1 實(shí)驗(yàn)流程圖
傳統(tǒng)的信號(hào)處理方法與卷積神經(jīng)網(wǎng)絡(luò)并不能很好地處理圖結(jié)構(gòu)信息,圖結(jié)構(gòu)的卷積網(wǎng)絡(luò)從卷積方式上可以分為兩種:(1)譜卷積;(2)空間域卷積。參考于Thomas Kpif與YU Zehua 等的工作,本文采用的是譜卷積的方式。將圖的譜卷積定義為信號(hào)∈R與圖核的乘積,將*定義為圖的卷積算子:
其中圖傅里葉基∈R是歸一化圖拉普拉斯矩陣的特征向量組成的矩陣,圖拉普拉斯矩陣表示為:
在傳統(tǒng)GNN 網(wǎng)絡(luò)中,節(jié)點(diǎn)之間的Dijkstra 矩陣(鄰接矩陣)W被如下定義:
其中d是節(jié)點(diǎn)和節(jié)點(diǎn)的物理距離,到此可以看出,傳統(tǒng)的圖卷積操作只考慮了節(jié)點(diǎn)之間的幾何關(guān)系,即物理距離,而沒(méi)有考慮其他的交互關(guān)系。在Zehua Yu 等的工作中,利用每個(gè)節(jié)點(diǎn)的疫情發(fā)展?fàn)顩r對(duì)其進(jìn)行ARMA 參數(shù)求解,利用所得結(jié)果替代距離矩陣W,最終效果優(yōu)于傳統(tǒng)的ST-GCN 模型。本實(shí)驗(yàn)將在該方向上進(jìn)一步研究?jī)?yōu)化。
將疫情發(fā)展?fàn)顩r預(yù)測(cè)看作時(shí)間序列下的數(shù)據(jù)流預(yù)測(cè),則其主要問(wèn)題為:
即求得在已知-+1 到時(shí)間點(diǎn)內(nèi)的疫情發(fā)展?fàn)顩r,求+1 到+時(shí)間點(diǎn)的疫情發(fā)展?fàn)顩r。特別的,在本實(shí)驗(yàn)中,v為33 個(gè)城市在時(shí)間的累積確診人數(shù),而W為融合各城市間物理距離與病毒傳播相似度的混合矩陣。
1.3.1 數(shù)據(jù)預(yù)處理
其中為地球半徑,利用勾股定理與正弦定理則可求出AB 兩點(diǎn)間的物理直線距離d。計(jì)算出33 個(gè)城市相互之間的物理距離后,則可以進(jìn)一步計(jì)算出每個(gè)節(jié)點(diǎn)的鄰接矩陣,CIST-GCN 中鄰接矩陣W的計(jì)算方式如下:
在本實(shí)驗(yàn)中,和是控制矩陣W的分布和稀疏性的閾值,根據(jù)前人實(shí)驗(yàn)的經(jīng)驗(yàn),分別設(shè)置為10 和0.5。
1.3.2 Person 相關(guān)系數(shù)
由于病毒具有極高的傳染性,假設(shè)某人從城市A 到城市B 的途中確診為新冠肺炎陽(yáng)性患者,則不論是城市A 還是城市B,與該患者密切接觸的人群都有極高的概率感染新冠肺炎病毒,所以城市A 與城市B 的確診人數(shù)會(huì)同步上升,意味著這兩個(gè)城市的感染人數(shù)變化呈正相關(guān)且相關(guān)系數(shù)較高。鑒于此,為了充分考慮各城市之間的數(shù)據(jù)流動(dòng)性,本實(shí)驗(yàn)在構(gòu)建城市空間網(wǎng)絡(luò)時(shí),融合由各城市確診人數(shù)變化計(jì)算而來(lái)的Person 相關(guān)系數(shù)矩陣,作為帶權(quán)無(wú)向圖的權(quán)重考慮因子之一。
計(jì)算出每個(gè)城市之間新冠肺炎病毒的傳播相關(guān)度矩陣后,與1.3.1 求出的鄰接矩陣W進(jìn)行加權(quán)融合,所得矩陣作為各城市之間的權(quán)重構(gòu)建帶權(quán)無(wú)向圖,將該帶權(quán)無(wú)向圖作為ST-GCN 的輸入,即為本文所提出的相關(guān)度交互圖卷積網(wǎng)絡(luò)(CIST-GCN)。
1.3.3 預(yù)測(cè)
在ST-GCN中,每個(gè)時(shí)空?qǐng)D卷積塊形成一個(gè)類似“三明治”的結(jié)構(gòu),包括兩個(gè)門控序列卷積層和一個(gè)空間圖卷積層。
1.3.4 數(shù)據(jù)還原
將每個(gè)節(jié)點(diǎn)的預(yù)測(cè)結(jié)果與其標(biāo)準(zhǔn)差相乘,再加上均值,即可將數(shù)據(jù)還原為原量綱。
本文所提出的CIST-GCN 的主要特征總結(jié)如下:
(1)將時(shí)間序列數(shù)據(jù)根據(jù)節(jié)點(diǎn)的空間結(jié)構(gòu)建模為拓?fù)鋱D,并預(yù)測(cè)圖的序列數(shù)據(jù),CIST-GCN 在沒(méi)有固定空間關(guān)系的情況下通常是有效的;
(2)CIST-GCN 充分考慮了城市的空間結(jié)構(gòu)與各城市之間的數(shù)據(jù)流動(dòng)性。
交通數(shù)據(jù)和Covid-19 報(bào)告數(shù)據(jù)都是經(jīng)過(guò)處理的具有多交互拓?fù)浣Y(jié)構(gòu)的序列數(shù)據(jù),本實(shí)驗(yàn)在對(duì)疫情數(shù)據(jù)進(jìn)行預(yù)測(cè)前,先用加州交通部收集的公認(rèn)交通數(shù)據(jù)集PeMS-Bay(加州海灣區(qū))和PeMSD7(洛杉磯)對(duì)模型進(jìn)行檢驗(yàn)。
PeMS:該數(shù)據(jù)通過(guò)300 多個(gè)(PeMS-Bay)和39 000 個(gè)(PeMSD7)傳感器站從Caltrans 性能測(cè)量系統(tǒng)(PeMS)實(shí)時(shí)收集,這些傳感器每五分鐘記錄一次平均交通速度。對(duì)于PeMSD7,本實(shí)驗(yàn)隨機(jī)選擇了228 個(gè)站作為模型的訓(xùn)練目標(biāo)。
Covid-19 報(bào)告:來(lái)自約翰霍普金斯大學(xué)系統(tǒng)科學(xué)與工程中心(CSSE)整合的病例報(bào)告展示了所有受影響國(guó)家的Covid-19 確診病例,死亡和康復(fù)人數(shù)以及各城市的經(jīng)緯度位置。本實(shí)驗(yàn)提取了這些病例報(bào)告中的我國(guó)34 個(gè)省級(jí)行政區(qū)2020年1月22日—2022年3月9日的病例數(shù)據(jù)及其省會(huì)的經(jīng)緯度坐標(biāo),但在數(shù)據(jù)處理的過(guò)程中,發(fā)現(xiàn)有一個(gè)城市的數(shù)據(jù)有缺失,所以本實(shí)驗(yàn)刪除了該城市,僅對(duì)其他33 個(gè)城市的數(shù)據(jù)進(jìn)行分析。
本文所有實(shí)驗(yàn)均由Python 編譯器在Windows10 環(huán)境(CPU:Intel(R) i5-9300 GPU:NVIDIA GeForce GTX 1650)上進(jìn)行。
對(duì)于PeMS 交通流數(shù)據(jù),選取前34 天作為訓(xùn)練數(shù)據(jù),其余作為驗(yàn)證和測(cè)試集,遵循ST-GCN中的設(shè)置作為訓(xùn)練參數(shù),使用12 個(gè)觀察點(diǎn)來(lái)預(yù)測(cè)未來(lái)15、30 和45 分鐘(=3,6,9)的交通狀況。以傳統(tǒng)的ST-GCN 作為基線,并且在與PeMSD7 數(shù)據(jù)集上與IT-GCN進(jìn)行性能對(duì)比,實(shí)驗(yàn)結(jié)果如表1所示。
表1 數(shù)據(jù)集PeMSD7 和PeMS-Bay 在不同方法上的性能比較
表中CIST-GCN(*)即為本文提出的方法。ACSTGCN,為僅考慮相關(guān)度的方法,即僅用不同城市間的數(shù)據(jù)流變化相關(guān)度作為城市網(wǎng)絡(luò)的權(quán)重,而不考慮城市間的物理距離,ST-GCN 則只考慮城市間的物理距離,而不考慮城市間數(shù)據(jù)流變化的相關(guān)度。
可以看出,在相同的資源消耗下,CIST-GCN 的性能明顯優(yōu)于ACST-GCN 與基線ST-GCN,而在PeMSD7 數(shù)據(jù)集上,CIST-GCN 僅比IT-GCN多訓(xùn)練了10 輪,性能就有了大幅提升。結(jié)果表明,本文提出的用相關(guān)度交互拓?fù)涮鎿Q物理距離的方法是有效且合理的,為疫情的預(yù)測(cè)提供了有效的參考。
接下來(lái),將CIST-GCN 方法用于國(guó)內(nèi)的Covid-19 報(bào)告數(shù)據(jù)中,分析該方法對(duì)疫情的預(yù)測(cè)效果。
本實(shí)驗(yàn)利用12 天的日累計(jì)感染病例歷史數(shù)據(jù)預(yù)測(cè)后9天的日累計(jì)感染病例數(shù)據(jù)。圖2展示了ST-GCN、ACSTGCN 和CIST-GCN 于24 天內(nèi)在33 個(gè)城市中預(yù)測(cè)結(jié)果的平均MAPE。CIST-GCN 的平均MAPE 為20.12%,遠(yuǎn)優(yōu)于傳統(tǒng)ST-GCN 的121.99%。由圖2可以發(fā)現(xiàn),中國(guó)臺(tái)北的平均MAPE 遠(yuǎn)超于其他城市,觀察數(shù)據(jù)后發(fā)現(xiàn),中國(guó)臺(tái)北的病例均為0 和1,原因可能如下:(1)在研究的時(shí)間段內(nèi)中國(guó)臺(tái)北始終沒(méi)有新增病例;(2)對(duì)中國(guó)臺(tái)北的數(shù)據(jù)進(jìn)行收集時(shí)出現(xiàn)了錯(cuò)誤或者沒(méi)有對(duì)中國(guó)臺(tái)北的病例數(shù)據(jù)進(jìn)行收集。同時(shí)可以發(fā)現(xiàn),ST-GCN 容易受離群數(shù)據(jù)的影響,而本文提出的CIST-GCN 方法則可以很好地避免這種數(shù)據(jù)帶來(lái)的影響。接下來(lái)將討論這些方法對(duì)北京、上海、廣東、香港和湖北的疫情預(yù)測(cè)效果。
圖2 中國(guó)33 個(gè)城市每日確診感染病例預(yù)測(cè)的MAPE
由圖3可以觀察預(yù)測(cè)數(shù)據(jù)與真實(shí)數(shù)據(jù)的趨勢(shì)是否契合,可以看出,三種方法中,本文提出的CIST-GCN 與真實(shí)數(shù)據(jù)的趨勢(shì)最契合。特別地,對(duì)于“突增”的案例數(shù)據(jù),CISTGCN 相對(duì)于其他方法更能判斷出“突增點(diǎn)”。另外,在香港數(shù)據(jù)的末段,日新增病例數(shù)量突增,與2022年初香港的疫情大爆發(fā)基本吻合,同時(shí)本文提出的CIST-GCN 方法預(yù)測(cè)的疫情趨勢(shì)也呈現(xiàn)出明顯的上升趨勢(shì),可見(jiàn)該方法對(duì)新冠肺炎疫情的預(yù)測(cè)以及疫情突發(fā)狀況的預(yù)警起到了一定的參考作用。
圖3 各種方法在中國(guó)個(gè)別城市的預(yù)測(cè)效果
本文在YU Zehua 等(2021)的工作基礎(chǔ)上,提出了相關(guān)度交互圖卷積網(wǎng)絡(luò)(CIST-GCN)根據(jù)各城市之間的物理距離進(jìn)行城市網(wǎng)絡(luò)拓?fù)錁?gòu)建,并且利用各城市的日感染人數(shù)變化計(jì)算病毒在不同城市間的傳播相似度,以此對(duì)拓?fù)鋱D進(jìn)行加權(quán)處理,最后利用時(shí)空?qǐng)D卷積網(wǎng)絡(luò)(ST-GCN)處理城市網(wǎng)絡(luò)的空間特征,并對(duì)城市的疫情發(fā)展?fàn)顩r進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,本文提出的CIST-GCN 性能優(yōu)于傳統(tǒng)的STGCN 以及YU Zehua 等提出的基于時(shí)間交互的IT-GCN,并且對(duì)于疫情發(fā)展的“突增點(diǎn)”比較敏感,對(duì)新冠肺炎疫情的預(yù)測(cè)以及疫情突發(fā)狀況的預(yù)警起到了一定的參考作用。