陳越火, 顧翔宇, 于志臻
(復(fù)旦大學(xué)附屬華東醫(yī)院醫(yī)院感染管理科, 上海 200040)
醫(yī)院感染已成為所有醫(yī)療機構(gòu)無法回避的公共衛(wèi)生問題,隨著診療技術(shù)的不斷發(fā)展,加之疾病譜的變化和人口老齡化程度的不斷提高,給醫(yī)院感染的預(yù)防與控制增加了諸多挑戰(zhàn)。系統(tǒng)、持續(xù)地對醫(yī)院感染進行監(jiān)測和分析,根據(jù)監(jiān)測結(jié)果針對性地制定干預(yù)措施是保證患者醫(yī)療安全,最大限度減少醫(yī)院感染的重要手段[1-2]。而準(zhǔn)確、及時、有效地對未來一段時間內(nèi)醫(yī)院感染的發(fā)生、發(fā)展趨勢的預(yù)測可為醫(yī)院日常管理、決策提供一定的數(shù)據(jù)支持。目前醫(yī)院感染發(fā)病率除較多地使用傳統(tǒng)的自回歸移動平均模型(autoregressive integrated moving average model,ARIMA)預(yù)測外[3-4],人工神經(jīng)網(wǎng)絡(luò)模型也開始逐漸應(yīng)用于醫(yī)院感染預(yù)測領(lǐng)域[5-6]。本文使用ARIMA模型、NAR神經(jīng)網(wǎng)絡(luò)(nonlinear autoregressive neural network,NARNN)模型和ARIMA-BPNN(back propagation neural network)串聯(lián)組合模型分別建立預(yù)測模型,比較三者的預(yù)測效果,探討時間序列模型在醫(yī)院感染領(lǐng)域應(yīng)用的適用性,探索預(yù)測醫(yī)院感染發(fā)病率的最佳模型,為醫(yī)院的相關(guān)決策提供科學(xué)依據(jù)。
1.1 數(shù)據(jù)來源 資料來源于上海某三級甲等醫(yī)院2011年1月—2017年12月醫(yī)院感染綜合監(jiān)測數(shù)據(jù),醫(yī)院感染發(fā)病率按照公式:醫(yī)院感染發(fā)病率=同期新發(fā)醫(yī)院感染病例數(shù)/觀察期間危險人群例數(shù)×100%計算,其中新發(fā)醫(yī)院感染病例數(shù)據(jù)通過臨床科室主動報告與醫(yī)院感染監(jiān)控專職人員查閱病歷相結(jié)合的方式獲取,醫(yī)院感染病例依照衛(wèi)生部2001年頒發(fā)的《醫(yī)院感染診斷標(biāo)準(zhǔn)(試行)》診斷,觀察期間危險人群例數(shù)以同期出院例數(shù)替代[7]。2011年1月—2016年12月累計72個月的月度醫(yī)院感染發(fā)病率數(shù)據(jù)作為擬合集擬合模型,2017年1—12月的月度感染發(fā)病率數(shù)據(jù)作為預(yù)測集檢驗?zāi)P偷念A(yù)測效果。
1.2 模型原理與方法 本次研究通過構(gòu)建ARIMA模型、NARNN模型及ARIMA-BPNN組合模型,比較三種模型的預(yù)測效果,以探索可用于預(yù)測醫(yī)院感染發(fā)病率的最佳模型。模型構(gòu)建步驟如下。
1.2.1 ARIMA模型的建立[8]根據(jù)ARIMA建模的基本程序,首先對月度發(fā)病率數(shù)據(jù)進行平穩(wěn)性等序列預(yù)處理,根據(jù)醫(yī)院感染發(fā)病率存在一定季節(jié)性的特征,建立季節(jié)性ARIMA模型:ARIMA(p, d, q)×(P, D, Q)12,其中p、d、q分別是簡單模型的自回歸階數(shù)、差分階數(shù)和移動平均項,P、D、Q分別是季節(jié)性模型的自回歸階數(shù)、差分階數(shù)和移動平均項。根據(jù)序列散點圖、自相關(guān)函數(shù)(auto-correlation Function, ACF)圖、偏自相關(guān)函數(shù)(partial auto-correlation function, PACF)圖等初步確定模型參數(shù),并通過殘差檢驗判斷擬合模型是否有效,最后根據(jù)赤池信息量(Akaike information criterion, AIC)或貝葉斯信息量(Bayesian information criterion, BIC)選取多個模型的最優(yōu)模型,其中AIC和BIC均是模型擬合精度和參數(shù)未知個數(shù)的加權(quán)函數(shù),使AIC或BIC函數(shù)達(dá)到最小的模型為相對最優(yōu)模型。
1.2.2 NARNN模型的建立[9]NAR神經(jīng)網(wǎng)絡(luò)是一種用來模擬時間序列的神經(jīng)網(wǎng)絡(luò),一個典型的NAR神經(jīng)網(wǎng)絡(luò)主要由輸入層、隱含層和輸出層及輸入和輸出的延時構(gòu)成。網(wǎng)絡(luò)的輸出取決于當(dāng)前的輸入和過去的輸出。NARNN模型方程為:y(t)=f(y(t-1),…y(t-d)),其中y(t)是神經(jīng)網(wǎng)輸出,d表示延時階數(shù),f表示用神經(jīng)網(wǎng)絡(luò)實現(xiàn)的非線性函數(shù)。根據(jù)神經(jīng)網(wǎng)絡(luò)構(gòu)建程序,將擬合集數(shù)據(jù)隨機分成訓(xùn)練樣本(80%)、檢驗樣本(10%)和測試樣本(10%),采用Levenberg-Marquard算法,根據(jù)醫(yī)院感染發(fā)病率有一定季節(jié)性的特點,設(shè)定延時階數(shù)為12,隱含層神經(jīng)元個數(shù)采用試錯方法來確定,分別構(gòu)建隱含神經(jīng)元個數(shù)從10到100的模型,由于輸入權(quán)重和閾值不同,每個模型訓(xùn)練20次,依據(jù)訓(xùn)練結(jié)果的MSE和決定系數(shù)R2選取最佳模型。訓(xùn)練階段使用open-loop模式,訓(xùn)練完成后使用closeloop函數(shù)使改為閉環(huán)模式進行預(yù)測,預(yù)測采用前進遞推預(yù)測法,即根據(jù)擬合集數(shù)據(jù)預(yù)測(t+1)月醫(yī)院感染發(fā)病率,再將(t+1)月感染發(fā)病率代入預(yù)測模型計算(t+2)醫(yī)院感染發(fā)病率,以此類推。NAR神經(jīng)網(wǎng)絡(luò)的實現(xiàn)使用 MATLAB R2014b軟件中的神經(jīng)網(wǎng)絡(luò)工具箱中的ntstool。
1.2.3 ARIMA-BPNN模型的建立 BP神經(jīng)網(wǎng)絡(luò)是一種按誤差反向傳播訓(xùn)練的多層前饋網(wǎng)絡(luò),其基本思想是梯度下降法,利用梯度搜索技術(shù),以期使網(wǎng)絡(luò)的實際輸出值和期望輸出值的誤差均方值為最小,本研究構(gòu)建三層BP神經(jīng)網(wǎng)絡(luò),輸入層2個神經(jīng)元,輸出層1個神經(jīng)元,隱含層神經(jīng)元個數(shù)從10到50分別進行訓(xùn)練。網(wǎng)絡(luò)訓(xùn)練參數(shù)中隱含層選擇雙曲正切S形傳遞函數(shù)(tansig),輸出層選擇純線性傳遞函數(shù)(pureline),訓(xùn)練函數(shù)選擇貝葉斯正規(guī)化函數(shù)(trainbr)。將前述最優(yōu)ARIMA模型輸出的擬合值和相對應(yīng)的時間變量(月度)建立一個2維矩陣作為BPNN的輸入變量,將相對應(yīng)的醫(yī)院感染發(fā)病率實際值數(shù)據(jù)建立一個1維矩陣作為BPNN的目標(biāo)變量,數(shù)據(jù)用mapminmax函數(shù)進行歸一化處理,通過調(diào)整隱含層神經(jīng)元個數(shù)獲得組合模型的最優(yōu)訓(xùn)練結(jié)果。
1.2.4 模型驗證 使用均方誤差(mean-square error, MSE)和相對誤差絕對值平均(mean absolute percentage error, MAPE)評價ARIMA模型、NARNN模型和ARIMA-BPNN組合模型的擬合與預(yù)測效果[10]。通過比較MSE和MAPE的大小評判模型的優(yōu)劣,以模型預(yù)測效果MAPE最小者為最優(yōu)模型[11-12]。
1.3 統(tǒng)計學(xué)分析 應(yīng)用R 3.4.4 forecast包構(gòu)建ARIMA模型,使用MATLAB R2014b神經(jīng)網(wǎng)絡(luò)工具箱構(gòu)建NARNN模型和ARIMA-BPNN組合模型。
2.1 醫(yī)院感染情況 2011—2017年本次研究對象的醫(yī)院感染發(fā)病率為0.99%,分月統(tǒng)計的醫(yī)院感染發(fā)病率為0.52%~1.77%。見圖1。
圖1 2011—2017年月度醫(yī)院感染發(fā)病率變化趨勢Figure 1 Changing trend of monthly incidence of HAI from 2011 to 2017
2.2 ARIMA模型 首先對擬合集數(shù)據(jù)進行平穩(wěn)化處理,經(jīng)過一階簡單差分和一階季節(jié)性差分后,經(jīng)增項DF單位根(augmented Dickey-Fuller test, ADF)檢驗顯示序列平穩(wěn)(Dickey-Fuller=-7.091 7,P<0.01),參考ACF和PACF圖的截尾拖尾情況,嘗試擬合不同的ARIMA模型,根據(jù)AIC和BIC最小和模型簡化原則,結(jié)合模型擬合效果和殘差QQ圖,確定最優(yōu)模型為ARIMA(0, 1, 1)×(0, 1, 1)12,模型數(shù)學(xué)表達(dá)式為ΔΔ12yt=εt-0.698 2εt-1-εt-12+0.698 2εt-13,參數(shù)檢驗見表1,AIC=1.24,Ljung-Box檢驗統(tǒng)計量為1.1026,P=0.2937,殘差序列可認(rèn)為白噪聲。
2.3 NARNN模型 分析中發(fā)現(xiàn)當(dāng)隱含層神經(jīng)元個數(shù)為80時,訓(xùn)練樣本的MSE=7.05×10-6,R2=0.999,檢驗樣本的MSE=0.028,R2=0.848,測試樣本的MSE=0.092,R2=0.797,顯示模型擬合效果非常理想。誤差自相關(guān)圖顯示,誤差在lag為0時最大,其他情況下均未超過可信區(qū)間,表示構(gòu)建的模型可用。模型的總體決定系數(shù)R2為0.9064,MSE為0.065,擬合值與真實值的誤差見圖2。
表1 ARIMA(0,1,1)×(0,1,1)12的參數(shù)估計Table 1 Parameter estimation of ARIMA(0,1,1)×(0,1,1)12
圖2 NARNN模型擬合效果誤差Figure 2 Errors of fitting effect of NARNN
2.4 ARIMA-BPNN模型 將前述建立的ARIMA(0,1,1)×(0,1,1)12模型輸出的擬合值和相對應(yīng)的月度時間變量建立一個2維矩陣作為BPNN的輸入變量,將相對應(yīng)的醫(yī)院感染實際發(fā)病率數(shù)據(jù)建立一個1維矩陣作為BPNN的目標(biāo)變量,構(gòu)造ARIMA-BPNN組合模型。分析中發(fā)現(xiàn)當(dāng)隱含層神經(jīng)元個數(shù)為20時,組合模型MSE為0.025,模型擬合效果較好,發(fā)病率擬合值與真實值的比較見圖3。
圖3 ARIMA-BPNN組合模型擬合效果Figure 3 Fitting effect of ARIMA-BPNN combination model
2.5 擬合與預(yù)測效果 應(yīng)用MSE、MPAE指標(biāo)比較三種時間序列模型的擬合效果,見表2,結(jié)果顯示,ARIMA-BPNN組合模型的擬合優(yōu)度最佳,季節(jié)性ARIMA模型次之,NARNN模型稍差。以2017年1—12月的月度感染發(fā)病率數(shù)據(jù)作為預(yù)測集,應(yīng)用MPAE指標(biāo)比較三種模型的預(yù)測效果,見表3,結(jié)果顯示,季節(jié)性ARIMA模型、NARNN模型和ARIMA-BPNN組合模型的預(yù)測結(jié)果與實際值的MAPE分別為15.42%、26.31%和14.87%,其中季節(jié)性ARIMA模型與ARIMA-BPNN組合模型的預(yù)測精度接近,后者稍優(yōu)于前者,兩者均明顯優(yōu)于NARNN模型。
表2 三種時間序列模型擬合效果比較Table 2 Comparison of fitting effect of three time series models
表3 2017年月度醫(yī)院感染發(fā)病率三種模型的預(yù)測效果比較Table 3 Comparison of the performance of three models in predicting the monthly incidence of HAI in 2017
ARIMA模型是傳統(tǒng)的時間序列線性模型,在處理規(guī)則數(shù)據(jù)方面具有諸多優(yōu)點,但對非線性映射能力較弱,對非線性數(shù)據(jù)構(gòu)建模型的效能較低[13];而人工神經(jīng)網(wǎng)絡(luò)模型具有良好的非線性映射能力和自適應(yīng)能力,在解決非線性數(shù)據(jù)時優(yōu)勢明顯[14]。研究[15]結(jié)果表明,ARIMA模型、人工神經(jīng)網(wǎng)絡(luò)模型均已應(yīng)用于醫(yī)院感染發(fā)病率的預(yù)測,取得了良好的預(yù)期效果。但醫(yī)院感染的發(fā)生受多種因素共同影響,不同醫(yī)院因環(huán)境不同其醫(yī)院感染發(fā)病率及其發(fā)展變化的趨勢也不盡相同,對于特定醫(yī)院的醫(yī)院感染發(fā)病率預(yù)測,具體哪種模型預(yù)測效果好,需要具體研究探索。
基于醫(yī)院感染發(fā)病率的變化趨勢具有線性和非線性的雙重特征,本研究在構(gòu)建ARIMA、神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,增加ARIMA與神經(jīng)網(wǎng)絡(luò)組合模型,并對一年的數(shù)據(jù)進行了短期預(yù)測檢驗,以發(fā)現(xiàn)用于醫(yī)院感染發(fā)病率預(yù)測的最佳模型。研究顯示,基于本研究對象近年來醫(yī)院感染監(jiān)測數(shù)據(jù),ARIMA-BPNN組合模型的擬合優(yōu)度和預(yù)測精度均優(yōu)于ARIMA模型和NARNN模型,三者擬合優(yōu)度指標(biāo)MAPE分別為11.95%、13.00%和14.61%,三者的預(yù)測精度指標(biāo)MAPE分別為14.87%、15.42%和26.31%,與文獻報道的預(yù)測模型的精度相似[11, 16],在預(yù)測精度要求不是非常高的情況下,三種模型均可應(yīng)用于預(yù)測醫(yī)院感染發(fā)病率的未來變化趨勢,其中ARIMA-BPNN組合模型的預(yù)測效果最佳,ARIMA模型預(yù)測精度稍低于ARIMA-BPNN組合模型,而NARNN模型由于對未來感染發(fā)病率預(yù)測的運算數(shù)據(jù)包含前一期感染發(fā)病率,因此對近期的預(yù)測效果較好,對遠(yuǎn)期的預(yù)測結(jié)果因形成累積誤差而較差。
本研究構(gòu)建的預(yù)測模型較好地擬合和預(yù)測了醫(yī)院感染發(fā)病率,但由于本研究的醫(yī)院醫(yī)院感染發(fā)病率較低[17-19 ],構(gòu)建的模型不一定適合于醫(yī)院感染發(fā)病率較高的醫(yī)院使用。且由于預(yù)測模型是依據(jù)以往監(jiān)測數(shù)據(jù)推測未來情況,隨著未來監(jiān)測數(shù)據(jù)的不斷積累,模型參數(shù)也應(yīng)隨之作出調(diào)整,以便更好地進行預(yù)測分析。另外,醫(yī)院感染的發(fā)生受諸多因素的影響,本研究只使用單一月度醫(yī)院感染發(fā)病率構(gòu)建模型,其他影響因素未加入到預(yù)測模型中,在今后的研究中,考慮盡可能多地收集影響醫(yī)院感染發(fā)病率的各種因素,將之納入模型,以便進一步提高模型預(yù)測精度。