高 明 唐 順 徐福文
醫(yī)院數(shù)據(jù)挖掘平臺(tái)中X-11-ARIMA預(yù)測(cè)模型的應(yīng)用研究
高 明1唐 順2徐福文3
近年來(lái),大部分醫(yī)院開(kāi)始建立集成平臺(tái)、BI(business intelligence,商務(wù)智能),將醫(yī)院已沉淀的海量數(shù)據(jù)進(jìn)行利用,但多數(shù)集成平臺(tái)和BI僅限于數(shù)據(jù)的查詢、分析,針對(duì)數(shù)據(jù)挖掘方面的應(yīng)用較為缺乏。本文通過(guò)對(duì)預(yù)測(cè)方法的研究,以全院收入的預(yù)測(cè)為實(shí)例,探索數(shù)據(jù)挖掘平臺(tái)對(duì)醫(yī)院的價(jià)值。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程,其分類、聚類、估計(jì)、預(yù)測(cè)、關(guān)聯(lián)分析等方法在醫(yī)療行業(yè)中有著廣泛的應(yīng)用前景,本論文基于醫(yī)院領(lǐng)導(dǎo)層對(duì)預(yù)測(cè)方法的實(shí)際需求,有著普遍的實(shí)踐意義。
1.ARIMA模型
ARIMA模型全稱為差分自回歸移動(dòng)平均模型(autoregressive integrated moving average model,ARIMA),其中 ARIMA(p,d,q)稱為差分自回歸移動(dòng)平均模型,AR是自回歸,p為自回歸項(xiàng);MA為移動(dòng)平均,q為移動(dòng)平均項(xiàng)數(shù),d為時(shí)間序列成為平穩(wěn)時(shí)所做的差分次數(shù)。
2.X-11過(guò)程
X-11過(guò)程是由美國(guó)國(guó)情調(diào)查局于1965年編制的時(shí)間序列季節(jié)調(diào)整過(guò)程。它的基本原理是時(shí)間序列的確定性因素分解法。X-11過(guò)程是基于這樣的假定:任何時(shí)間序列都可以拆分成長(zhǎng)期趨勢(shì)起伏Tt、季節(jié)波動(dòng)St、不規(guī)則波動(dòng)It的影響。又有經(jīng)濟(jì)學(xué)家發(fā)現(xiàn)在經(jīng)濟(jì)時(shí)間序列中交易日Dt也是一個(gè)很重要的影響因素,因此任何一個(gè)時(shí)間序列可以如下分解:
乘法模型:xt=TtStDtIt
加法模型:xt=Tt+St+Dt+It
3.X-11-ARIMA模型
1978年,加拿大統(tǒng)計(jì)局推出了改進(jìn)的X-11-ARIMA(自回歸合并移動(dòng)平均)模型。該方法引進(jìn)隨機(jī)建模的方法,通過(guò)自回歸和移動(dòng)平均方法對(duì)時(shí)間序列進(jìn)行季節(jié)調(diào)整。這個(gè)方法不僅包含了X-11的所有優(yōu)點(diǎn),而且還具有通過(guò)ARIMA模型在季節(jié)調(diào)整前向前或向后擴(kuò)展時(shí)間序列的能力。
1.初步建模
設(shè)定X-11-ARIMA程序使用加法模型對(duì)全院收入原始序列進(jìn)行季節(jié)調(diào)整,表1為未考慮春節(jié)因素的回歸結(jié)果,回歸變量中有兩個(gè)異常值,其中一個(gè)出現(xiàn)在2012年1月。由于我國(guó)傳統(tǒng)節(jié)日春節(jié)通常是在1月或2月,因此有理由相信這一次季節(jié)調(diào)整可能受到了春節(jié)效應(yīng)的影響,如表1所示。
表1 未考慮春節(jié)因素的回歸模型
2.消除春節(jié)效應(yīng)
為消除春節(jié)效應(yīng),我們引入春節(jié)因素變量spring,構(gòu)建了春節(jié)效應(yīng)模型,具體方法如下:
對(duì)于年份j,假設(shè)春節(jié)對(duì)時(shí)間序列的影響天數(shù)為τ,且假定這τ天中每天的影響是相同的,我們用變量τt(j)來(lái)表示這τ天落在j年t月的天數(shù),則對(duì)于j年t月,構(gòu)建一個(gè)春節(jié)因素變量,定義為:
其中 u(τ,t)為所有年份第 t月(t=1,2)春節(jié)變量Hj(τ,t)的均值。則春節(jié)效應(yīng)模型可表示為:
其中 Yj,t為待調(diào)整序列,bhj(τ,t)為春節(jié)效應(yīng)值,Xj,t為 Yj,t剔除春節(jié)效應(yīng)后的序列。
根據(jù)我國(guó)春節(jié)的放假情況,引入τ=6,10,14,20的春節(jié)因素變量使用加法模型對(duì)原始序列進(jìn)行季節(jié)調(diào)整。這里以BIC統(tǒng)計(jì)量作為判斷春節(jié)因素模型優(yōu)劣的標(biāo)準(zhǔn),當(dāng)τ=10時(shí),BIC最小,表明該春節(jié)因素模型為最優(yōu)模型。選取τ=10時(shí)的春節(jié)因素變量的取值情況如表2所示。
表2 2010-2015年的春節(jié)因素變量取值(τ=10,春節(jié)前三天至初七)
1.建模過(guò)程
X-11-ARIMA建模過(guò)程首先是執(zhí)行regARIMA預(yù)調(diào)整模塊,通過(guò)識(shí)別、估計(jì)和診斷建立ARIMA模型并用于前向和后向預(yù)測(cè),從而實(shí)現(xiàn)時(shí)間序列雙向擴(kuò)展,并進(jìn)行季節(jié)調(diào)整,如圖1所示。
圖1 X-11-ARIMA季節(jié)調(diào)整的流程圖
2.建立regARIMA回歸模型
在regARIMA預(yù)調(diào)整模塊加入春節(jié)因素變量,加法分解模型中,regARIMA回歸模型形式為:
模型首先從待調(diào)整Yj,t序列中減去回歸效應(yīng)值,得到零均值的誤差序列Xj,t,然后差分該序列以得到一個(gè)平穩(wěn)序列 pj,t,pj,t服從平穩(wěn)的 ARIMA模型。引入 τ=10的春節(jié)因素變量使用加法模型對(duì)原始序列進(jìn)行季節(jié)調(diào)整,通過(guò)識(shí)別、估計(jì)和診斷,程序確定了5個(gè)較優(yōu)模型,如表3所示,這里我們選取預(yù)測(cè)平均相對(duì)誤差最小的 ARIMA(0,1,1)(0,1,1)12模型為最優(yōu)模型。
表3 各ARIMA模型的比較結(jié)果
表4為考慮春節(jié)因素的回歸結(jié)果,春節(jié)變量的t統(tǒng)計(jì)量為-6.86,其絕對(duì)值顯著大于1.96,由此可知春節(jié)變量具有較強(qiáng)的顯著性,表明春節(jié)對(duì)全院收入影響明顯,因此考慮春節(jié)效應(yīng)是很有必要的。其中,春節(jié)變量的估計(jì)系數(shù)b=-9247238.55,春節(jié)效應(yīng)Zj,t=b×hj(10,t)值,2010年至2015年的春節(jié)效應(yīng)值如表5所示。
表4 考慮春節(jié)因素的回歸模型(τ=10)
表5 2010-2015年的春節(jié)效應(yīng)值
3.模型檢驗(yàn)
為了檢驗(yàn)?zāi)P偷挠行?,我們進(jìn)行了殘差的相關(guān)性檢驗(yàn)和正態(tài)性檢驗(yàn),其中殘差沒(méi)有明顯的自相關(guān)性,同時(shí)殘差服從均值為0的正態(tài)分布,因此證明我們建立的消除春節(jié)效應(yīng)的ARIMA模型是有效的。
4.基于該模型季節(jié)調(diào)整的效果檢驗(yàn)
如圖2所示,對(duì)比全院收入原始序列、未加入春節(jié)因素和加入春節(jié)因素季節(jié)調(diào)整后的序列,可以看出季節(jié)調(diào)整后的序列比原始序列平滑的多,而加入春節(jié)因素進(jìn)行季節(jié)調(diào)整后,2012年1月出現(xiàn)的異常值得到了修正,調(diào)整后的序列更清晰地反映了全院收入的基本走勢(shì)。
同時(shí),利用 9種統(tǒng)計(jì)量(M1、M2、M3、M4、M5、M6、M7、Q、Q2)來(lái)判斷加入春節(jié)因素模型后季節(jié)調(diào)整的質(zhì)量,這些統(tǒng)計(jì)量的取值在0~3之間,只有小于1的值可以接受。加入春節(jié)因素后模型的M1~M7均小于1,且Q統(tǒng)計(jì)量也在可接受范圍內(nèi),表明加入春節(jié)因素的季節(jié)調(diào)整效果還是比較令人滿意的,從而說(shuō)明我們的預(yù)測(cè)效果是有效的。
1.以下應(yīng)用X-11-ARIMA的季節(jié)調(diào)整法對(duì)醫(yī)院的全院收入序列進(jìn)行了分析及預(yù)測(cè),考慮到春節(jié)期間是醫(yī)院業(yè)務(wù)活動(dòng)的低潮期,這里特別引入了春節(jié)效應(yīng)模型準(zhǔn)確測(cè)量了春節(jié)因素的影響程度,提高了預(yù)測(cè)精度。這里選取了2010年1月至2014年7月共55個(gè)院收入的月數(shù)據(jù)作為樣本,通過(guò)識(shí)別、估計(jì)和診斷,最終確立了 ARIMA(0,1,1)(0,1,1)12模型,預(yù)測(cè)了未來(lái)6個(gè)月的全院收入,預(yù)測(cè)結(jié)果如表6所示。
2.圖3為2010年1月至2014年7月全院收入實(shí)際值與預(yù)測(cè)值的比較圖,可以看出預(yù)測(cè)值和實(shí)際值十分接近,平均相對(duì)誤差為3.40%,由此可見(jiàn)我們建立的模型對(duì)全院收入進(jìn)行分析和預(yù)測(cè)具有明顯的參考價(jià)值。
通過(guò)引入X-11-ARIMA預(yù)測(cè)模型,已經(jīng)將醫(yī)院的收入預(yù)測(cè)誤差控制在較低的范圍,為醫(yī)院的費(fèi)用預(yù)算提供了較好的決策依據(jù),后期再通過(guò)時(shí)間的積累,不斷完善模型,就可以將此模型應(yīng)用于收入、成本、床位、患者等各個(gè)方面的預(yù)測(cè),給醫(yī)院管理層提供全面的決策支持。
[1]Han JW,Kamber M,Pei J,et al.數(shù)據(jù)挖掘:概念與技術(shù).第3版.機(jī)械工業(yè)出版社,2012.
[2]Torgo L著,李洪成,陳道輪,吳立明譯.數(shù)據(jù)挖掘與R語(yǔ)言.機(jī)械工業(yè)出版社,2013.
1.重慶市涪陵中心醫(yī)院(408000)
2.江蘇世軒科技股份有限公司
3.重慶市涪陵中心醫(yī)院
劉 壯)