胡紅萍,孫 強,白艷萍
(中北大學 理學院,太原 030051)
流行性感冒是一種由流感病毒引起的高傳染性的急性呼吸道疾病。類流感疾病(Influenza-like illness,ILI)定義為除了流感外沒有任何已知原因的發(fā)燒(體溫為100 ℉[37.8 ℃]或更高)、咳嗽和喉嚨痛。每年許多美國家庭遭受流感并承受因醫(yī)療費用增長而帶來的經濟負擔。有效預測流感爆發(fā)的初期將使政府機構和衛(wèi)生組織能夠采取適當?shù)男袆觼砜刂坪椭委熈鞲小?/p>
在美國,作為國家的健康保護機構的疾病控制和預防中心(CDC)提供流感監(jiān)測系統(tǒng)以保護人們免受健康和安全威脅[1-2]。CDC的ILI數(shù)據(jù)提供了國家和地區(qū)ILI患者的數(shù)量、流感活動的加權值和非加權值。ILI的有效預測對于制定預防措施,幫助臨床和醫(yī)院管理者做出最佳的人員配置和儲備決策是至關重要的。
已提出方法實現(xiàn)美國ILI活動的實時估計。過去幾年最廣泛使用的非傳統(tǒng)方法是數(shù)字疾病監(jiān)測系統(tǒng):谷歌流感趨向(GFT)[3]。但GFT在2015年8月已關閉了,因此,需要新穎可靠的方法去預測流感,谷歌和其他研究者已提出了GFT的很多更新模型[2,4-9]。例如文獻[2]采用自回歸電子健康記錄支持向量機(ARES)實現(xiàn)實時fILI(非加權類流感患者人數(shù)占某一區(qū)總患者數(shù)的百分比)的估計,與GFT和動態(tài)自回歸模型相比較,ARES的性能有了很大的提高。
近年來,已經在股票市場和醫(yī)藥領域等時間序列預測方面采用了很多技術。人工神經網絡是的廣泛應用于很多領域的方法之一,例如BP神經網絡[10-11],Elman神經網絡[12-13],徑向基神經網絡[14-15],小波神經網絡[16-17]。但人工神經網絡的初始參數(shù)是任意的,這可能造成較大的誤差。一些群智能算法被用來優(yōu)化人工神經網絡的參數(shù)以獲得更高的準確率,例如粒子群(PSO)[18],人工蜂群算法(ABC)[19],鯨優(yōu)化算法(WOA)[20]和多元優(yōu)化器(MOV)[21].
本文取前3個星期的fILI作為Elman神經網絡的輸入,第4個星期的fILI作為Elman神經網絡的輸出,并采用改進的MVO(IMVO)優(yōu)化Elman神經網絡(IMVO-ERNN)的參數(shù)預測fILI.通過比較,IMVO-ERNN在預測ILI方面具有較好的性能。
2015年SEYEDALI et al受Multi-verse理論啟發(fā)提出了多元優(yōu)化器(Multi-verse optimizer,MVO).MVO算法也是一種基于種群的算法,其搜索過程分為勘探與開發(fā)兩個階段。Multi-verse理論的3個主要概念是白洞、黑洞和蟲洞用來實現(xiàn)這些階段,其中白洞和黑洞實現(xiàn)勘探搜索空間,并與蟲洞輔助MVO開發(fā)搜索空間。
在MVO算法中,每個解類比于一個宇宙,解中的每個變量是宇宙中的物體。每個解分配一個正比于該解適應度函數(shù)值的膨脹率。
(1)
由于宇宙的多樣性,每個宇宙有蟲洞去任意的通過空間運輸物體實現(xiàn)MVO算法的勘探階段。基于每個宇宙的局部變化和提高膨脹率的高概率,在宇宙和最好的宇宙之間建立了蟲洞通道,如下式(2)所示:
(2)
式中:Xj是最好宇宙的第j個參數(shù);lbj和ubj分別是第j個參數(shù)的下界和上界;r2,r3,r4分別是小于1的任意非負數(shù);RTD是行駛距離率;PWE是蟲洞存在概率。PWE和RTD分別定義為
(3)
(4)
式中:PWE,min和PWE,max分別是PWE的最小值和最大值;l和L分別表示當前的迭代次數(shù)和總迭代次數(shù);p定義為在所有的迭代中勘探準確數(shù)。
詳細的MVO算法的偽代碼見文獻[21].
在上述MVO算法的基礎上,RTD是非線性遞減函數(shù),PWE是線性遞增函數(shù)。本文中提出如下非線性遞減函數(shù)代替式(4)所定義的RTD:
(5)
式中:l和L分別表示當前的迭代次數(shù)和總迭代次數(shù);m是介于0和1之間的數(shù)。圖1表示m從0.1到1、步長為0.1的RTD的變化情況。本文中,以m=0.5為例。這樣MVO算法得到了改進,記為IMVO.
圖1 m從0.1到1、步長為0.1的RTD的變化情況Fig.1 Varying condition of RTD with m from 0.1 to 1 and the step 0.1
本文所采用的數(shù)據(jù)來源于網址https:∥gis.cdc.gov/grasp/fluview/fluportaldashboard.html下載的美國從2002年第40周至2017年第36周共780周的由Health and Human Services(HHS)定義的10個區(qū)域的CDC類流感疾病(ILI)數(shù)據(jù)。從該網址上,可以看到每個區(qū)域的fILI,年齡分別在0~4歲,5~24歲,25~49歲,50~64歲,>65歲的ILI患者數(shù),總的ILI患者數(shù)和該區(qū)域的受檢查的總人數(shù)。
本文對10個區(qū)的fILI進行預測。采用前3天的fILI預測第4天的無加權的%ILI.
評價預測性能的指標有Pearson相關性(cpearson)[22],均方差誤差(EMS)[15],相對均方差誤差(ERMS)[15],平均絕對百分比誤差(EMAP)[15],分別定義為:
(6)
(7)
(8)
(9)
式中,yi和xi分別表示實際值和預測值。
在實驗中預測fILI的訓練數(shù)據(jù)為2002年第40周到2015年第40周的數(shù)據(jù),測試數(shù)據(jù)為2015年第41周到2017年第36周的數(shù)據(jù)。
將MVO的參數(shù)RTD修改獲得的改進的MVO(IMOV)優(yōu)化ERNN的參數(shù),得到模型IMOV-ERNN,用以準確預測美國CDC定義的10個區(qū)的實時fILI.利用多元線性回歸模型(MLR),ERNN,MOV-ERNN和IMVO-ERNN進行比較,說明本文所提出的模型IMVO-ERNN是有效的。為方便討論,分別將MLR、ERNN、MOV-ERNN和IMVO-ERNN成為model 1,model 2,model 3和model 4.
如表1所示的是10個區(qū)4個模型的預測值與實際CDC的fILI之間的評價指標EMS,ERMS,EMAP和Cpearson.表1還表明model 4適合區(qū)1、區(qū)2、區(qū)4、區(qū)5、區(qū)7、區(qū)8和區(qū)10的fILI預測,且具有最小的EMS,
表1 4個模型的美國10個區(qū)的評價指標Table 1 Evaluation index of four models for 10 regions of USA
將MVO的參數(shù)RTD修改獲得的改進的MVO(IMOV)優(yōu)化ERNN的參數(shù),用以準確預測美國CDC定義的10個區(qū)的實時fILI.用前3個星期的fILI預測第4個星期的fILI.通過與MLR,ERNN和MVO-ERNN進行比較,IMVO-ERNN在預測流感方面是有效的。這也就說明了,可以改進很多群智能算法或提出新的群智能算法優(yōu)化人工神經網絡的權值和偏差,預測傳染病、股票指數(shù)、空氣質量指數(shù),同時也可以應用于醫(yī)學、工程、模式識別等方面。
表2 4個模型下美國10個區(qū)的平均評價指標Table 2 Verage evaluation index of four models across 10 regions of USA