卿 玥,耿 娜,祝延紅
(1. 上海交通大學(xué)機(jī)械與動(dòng)力工程學(xué)院,上海 200240;2. 上海交通大學(xué)中美物流研究院,上海 200030;3. 上海交通大學(xué)附屬第一人民醫(yī)院,上海 200080)
及時(shí)的圖像檢查對(duì)于患者病情診斷和后續(xù)手術(shù)安排至關(guān)重要。準(zhǔn)確預(yù)測(cè)患者需求,有利于圖像檢查資源的能力分派,減少患者術(shù)前等待時(shí)間,縮短住院時(shí)長(zhǎng),提高病床利用率。
患者需求預(yù)測(cè)問(wèn)題,現(xiàn)有研究主要集中在急診患者需求預(yù)測(cè),預(yù)測(cè)方法可分為線性和非線性方法。大部分相關(guān)研究均采用線性預(yù)測(cè),常用方法有多元回歸分析和時(shí)間序列分析。文獻(xiàn)[1]發(fā)現(xiàn)相較單變量季節(jié)Holt-Winters指數(shù)平滑法,多變量向量自回歸模型在預(yù)測(cè)急診患者需求時(shí)準(zhǔn)確度更高。文獻(xiàn)[2]應(yīng)用基于條件極大似然法的泊松自回歸模型預(yù)測(cè)急診患者日需求。文獻(xiàn)[3]考慮氣候、時(shí)間因素和患者分類,對(duì)比簡(jiǎn)單季節(jié)指數(shù)平滑、三次指數(shù)平滑、季節(jié)自回歸差分移動(dòng)平均(SARIMA)和多元SARIMA四種方法預(yù)測(cè)急診患者需求的效果。文獻(xiàn)[4]對(duì)急診部門(mén)住院患者需求和住院時(shí)長(zhǎng)進(jìn)行短期預(yù)測(cè),對(duì)比了移動(dòng)平均、簡(jiǎn)單指數(shù)平滑和自回歸差分移動(dòng)平均模型(ARIMA)的預(yù)測(cè)效果。文獻(xiàn)[5]采用ARIMA模型對(duì)兩類急診患者需求及其總需求進(jìn)行預(yù)測(cè)。文獻(xiàn)[6]綜述了預(yù)測(cè)急診和門(mén)診患者需求的歷史文獻(xiàn),對(duì)比分析了帶有時(shí)間變量的回歸分析和時(shí)間序列模型。
非線性方法以神經(jīng)網(wǎng)絡(luò)模型為主。文獻(xiàn)[7]應(yīng)用回歸分析和人工神經(jīng)網(wǎng)絡(luò)(ANN)對(duì)急診患者需求進(jìn)行短期、中期和長(zhǎng)期預(yù)測(cè),發(fā)現(xiàn)ANN在中短期預(yù)測(cè)中占優(yōu)。文獻(xiàn)[8]提出基于ANN的三階段方法論,用于預(yù)測(cè)急診患者日需求并量化預(yù)測(cè)變量的相對(duì)重要程度。文獻(xiàn)[9]針對(duì)三家不同規(guī)模醫(yī)院的急診患者日需求預(yù)測(cè),分析比較了多元線性回歸、SARIMA、指數(shù)平滑和ANN多種方法的預(yù)測(cè)效果。
現(xiàn)有文獻(xiàn)對(duì)患者需求的研究主要采用單個(gè)預(yù)測(cè)方法進(jìn)行預(yù)測(cè),常用方法各有優(yōu)劣:多元回歸模型和時(shí)間序列分析具有技術(shù)理論成熟與算法簡(jiǎn)單等優(yōu)點(diǎn),但均基于線性分析,不能準(zhǔn)確擬合非線性關(guān)系;BP神經(jīng)網(wǎng)絡(luò)模型(BPNN)能擬合復(fù)雜的非線性關(guān)系,但容易陷入過(guò)擬合。為綜合利用各方法優(yōu)點(diǎn)并避免單個(gè)方法的局限性,很多學(xué)者采用組合預(yù)測(cè)方法進(jìn)行預(yù)測(cè)[10]。傳統(tǒng)的組合預(yù)測(cè)方法僅考慮單一的預(yù)測(cè)性能指標(biāo)。但預(yù)測(cè)方法在某一性能指標(biāo)上表現(xiàn)好,不能就此說(shuō)明其預(yù)測(cè)性能好?;诖耍斜匾瑫r(shí)考慮多個(gè)性能指標(biāo),并提出有效的預(yù)測(cè)方法以實(shí)現(xiàn)多個(gè)性能指標(biāo)的平衡。另外,檢查需求預(yù)測(cè)與急診患者需求預(yù)測(cè)有一定相似性,但檢查項(xiàng)目和患者需求的多樣性使其受到多種因素影響,導(dǎo)致預(yù)測(cè)模型的輸入變量較多。為減少非關(guān)鍵變量的影響,有必要通過(guò)適當(dāng)?shù)姆椒?,減少預(yù)測(cè)模型的輸入變量。
因此,本文擬引入Lasso方法進(jìn)行輸入變量的降維,基于多元線性回歸模型(MLR)[11]、BPNN[8]和多元自回歸差分移動(dòng)平均模型(ARIMAX)[12]等常用的患者需求預(yù)測(cè)方法進(jìn)行組合預(yù)測(cè),并在此基礎(chǔ)上,提出禁忌搜索對(duì)組合中的權(quán)重進(jìn)行優(yōu)化,解決了傳統(tǒng)組合預(yù)測(cè)方法難以同時(shí)考慮多個(gè)性能指標(biāo)的問(wèn)題。
提出的基于Lasso降維與禁忌搜索權(quán)重優(yōu)化的組合預(yù)測(cè)方法的預(yù)測(cè)框架如圖1所示。數(shù)據(jù)準(zhǔn)備與預(yù)處理模塊從醫(yī)院數(shù)據(jù)中提取歷史患者檢查需求,并進(jìn)行數(shù)據(jù)預(yù)處理以保證樣本數(shù)據(jù)的可靠性。Lasso降維模塊從候選變量中選擇最優(yōu)輸入變量子集,剔除冗余和不相關(guān)的變量。然后將最優(yōu)輸入變量子集分別輸入MLR、BPNN、ARIMAX和Na?ve[13]模型,對(duì)所選輸入變量與檢查需求之間的關(guān)系進(jìn)行建模。最后,用禁忌搜索優(yōu)化各單預(yù)測(cè)方法的權(quán)重,并基于該權(quán)重進(jìn)行多預(yù)測(cè)方法組合預(yù)測(cè)。禁忌搜索算法是鄰域搜索方式的一個(gè)拓展,由一個(gè)初始解開(kāi)始,在劃定的空間內(nèi)朝著使目標(biāo)函數(shù)值最優(yōu)的方向進(jìn)行迭代變換,通過(guò)一種動(dòng)態(tài)的記憶結(jié)構(gòu)來(lái)設(shè)定相應(yīng)的禁忌準(zhǔn)則,避免陷入局部最優(yōu)[14]。
圖1 預(yù)測(cè)框架
將與響應(yīng)變量無(wú)關(guān)的預(yù)測(cè)變量作為輸入變量,會(huì)增加預(yù)測(cè)模型復(fù)雜度、降低模型解釋力并導(dǎo)致龐大的計(jì)算量。Lasso方法通過(guò)系數(shù)縮減進(jìn)行變量選擇,能有效降低模型復(fù)雜度并顯著提高預(yù)測(cè)準(zhǔn)確度[11]。
Lasso的系數(shù)β通過(guò)求解下式的最小值得到
(1)
I為樣本觀測(cè)個(gè)數(shù),J為輸入變量個(gè)數(shù),i用于索引樣本觀測(cè)(從1到I),j用于索引輸入變量(從1到J),yi表示第i個(gè)觀測(cè)的響應(yīng)變量值,β0表示所有X為零時(shí)Y的均值,βj表示第j個(gè)預(yù)測(cè)變量和響應(yīng)變量之間的關(guān)聯(lián),xij表示第i個(gè)觀測(cè)的第j個(gè)輸入變量值,λ是調(diào)節(jié)參數(shù)(λ≥0)。
式 (1) 中,第一項(xiàng)為殘差平方和,與最小二乘法相同;第二項(xiàng)為壓縮懲罰,當(dāng)β1,…,βJ接近零時(shí)較小,具有將βj估計(jì)值往零的方向進(jìn)行壓縮的作用。調(diào)節(jié)參數(shù)λ,控制這兩項(xiàng)對(duì)回歸系數(shù)估計(jì)的相對(duì)影響程度,綜合權(quán)衡偏差與方差,通過(guò)交叉驗(yàn)證法確定取值。
(2)
(3)
確定每種模型的權(quán)重系數(shù)是建立組合預(yù)測(cè)模型的關(guān)鍵。以最小化絕對(duì)誤差之和為目標(biāo)的優(yōu)化問(wèn)題如下:
(4)
本文提出了基于禁忌搜索的權(quán)重優(yōu)化方法,以優(yōu)化訓(xùn)練集的性能指標(biāo)值為目標(biāo)函數(shù),為每種預(yù)測(cè)方法賦予適當(dāng)?shù)臋?quán)重以提升預(yù)測(cè)效果。
圖2 基于禁忌搜索的權(quán)重優(yōu)化流程圖
基于禁忌搜索的權(quán)重優(yōu)化方法流程如圖2所示。首先設(shè)置禁忌表長(zhǎng)度、候選解數(shù)量、每次迭代保留的最佳候選解個(gè)數(shù)以及最大迭代步數(shù)。主要步驟如下:
1) 隨機(jī)產(chǎn)生多組權(quán)重組合
2) 組合預(yù)測(cè)
用 1) 產(chǎn)生的權(quán)重組合,基于MLR、BPNN、ARIMAX和Na?ve四個(gè)方法的預(yù)測(cè)值,得到該組權(quán)重組合下的組合預(yù)測(cè)結(jié)果(目標(biāo)性能指標(biāo)值)。
3) 計(jì)算指標(biāo)值
計(jì)算每個(gè)權(quán)重組合對(duì)應(yīng)的目標(biāo)性能指標(biāo)值。
4) 選擇當(dāng)前最佳權(quán)重組合
5) 在鄰域內(nèi)產(chǎn)生多組新的權(quán)重組合
將 4) 產(chǎn)生的當(dāng)前最佳權(quán)重組合作為當(dāng)前解,然后在當(dāng)前解的鄰域中搜索若干候選解,取使得目標(biāo)性能指標(biāo)值最優(yōu)的候選解作為新的當(dāng)前解。為避免已搜索過(guò)的局部最優(yōu)解的重復(fù),用禁忌表記錄已搜索的局部最優(yōu)解的歷史信息。通過(guò)特赦準(zhǔn)則赦免一些被禁忌的較好解,從而保證多樣化的有效搜索。
6) 算法終止準(zhǔn)則
3.1.1 數(shù)據(jù)預(yù)處理
本文基于上海某三甲綜合醫(yī)院2014年1月1日到2014年12月31日的住院患者檢查需求數(shù)據(jù),考慮CT、磁共振和彩超三種圖像檢查,將患者分為七類,如表1所示。預(yù)測(cè)模型均采用10折交叉驗(yàn)證進(jìn)行數(shù)據(jù)重抽樣。
表1 患者分類
實(shí)驗(yàn)數(shù)據(jù)集時(shí)間范圍為2014年1月1日到12月31日,共365天,無(wú)缺失值。由于檢查科室在節(jié)假日只接收急診患者,故節(jié)假日需求作為異常值被剔除。實(shí)驗(yàn)采用最小-最大歸一化方法[16]統(tǒng)一輸入變量的數(shù)據(jù)范圍。
3.1.2 性能指標(biāo)
1) 決定系數(shù)(R2)
(5)
2) 平均絕對(duì)百分誤差(MAPE)
(6)
3) 均方根誤差(RMSE)
(7)
3.1.3 影響圖像檢查需求的候選輸入變量選擇
結(jié)合相關(guān)文獻(xiàn)、數(shù)據(jù)可得性和對(duì)檢查科室醫(yī)務(wù)人員的訪談,選擇時(shí)間、氣候和檢查需求量相關(guān)的30個(gè)候選變量如表2所示。針對(duì)每類患者的需求數(shù)據(jù),應(yīng)用Lasso方法從候選變量中選取對(duì)檢查需求有重要影響的輸入變量。七類患者檢查需求的降維結(jié)果詳見(jiàn)附錄A。
表2 候選變量
3.1.4 參數(shù)設(shè)置
禁忌搜索算法中,禁忌表長(zhǎng)度選取10,鄰域中的候選解數(shù)量為15,每次迭代保留10個(gè)最佳候選解,最大迭代步數(shù)設(shè)置為30(經(jīng)實(shí)驗(yàn)觀測(cè),此設(shè)定可使算法收斂)。
三層神經(jīng)網(wǎng)絡(luò)具有良好的逼近性能[17],故本文采用三層BPNN。用試錯(cuò)法確定最優(yōu)的隱藏層神經(jīng)元個(gè)數(shù)。
根據(jù)自相關(guān)和偏自相關(guān)函數(shù)圖,通過(guò)試錯(cuò)法確定ARIMAX模型的參數(shù)值:差分次數(shù)d,自回歸項(xiàng)階數(shù)p以及移動(dòng)平均項(xiàng)階數(shù)q。
假定患者檢查需求呈星期規(guī)律,Na?ve方法即為預(yù)測(cè)日的檢查需求量等于上周相同工作日的歷史檢查需求量。
3.2.1 實(shí)驗(yàn)1:組合方法與單方法的預(yù)測(cè)性能比較
表3 最優(yōu)權(quán)重組合
表4 第1類患者預(yù)測(cè)性能對(duì)比
表5 第5類患者預(yù)測(cè)性能對(duì)比
表6 第7類患者預(yù)測(cè)性能對(duì)比
基于七類患者檢查需求的預(yù)測(cè)結(jié)果,圖3進(jìn)一步對(duì)比了組合方法和四種方法的性能。柱形條表示對(duì)應(yīng)預(yù)測(cè)模型根據(jù)特定性能指標(biāo)生成的最優(yōu)指標(biāo)值的患者類型數(shù)量。以組合方法(Com)為例,其對(duì)應(yīng)的R2(test) 柱形條表示組合方法在5類患者需求數(shù)據(jù)的測(cè)試集的R2指標(biāo)值比MLR、BPNN、ARIMAX和Na?ve方法更優(yōu)。
圖3 組合方法與單方法性能比較
結(jié)合預(yù)測(cè)結(jié)果,組合方法的R2、MAPE和RMSE指標(biāo)值優(yōu)于單方法或接近最佳取值。例如,表4所示第1類患者需求預(yù)測(cè)結(jié)果,組合方法在訓(xùn)練集的R2指標(biāo)值比單方法改善了2%及以上,在測(cè)試集的R2指標(biāo)值和訓(xùn)練集的RMSE指標(biāo)值改善了1%及以上,在訓(xùn)練集的MAPE指標(biāo)值改善了9%及以上,而測(cè)試集的MAPE指標(biāo)值0.15與其最佳取值0.14接近、測(cè)試集的RMSE指標(biāo)值10.61與其最佳取值9.47接近。由此可見(jiàn),本文所提組合預(yù)測(cè)方法綜合了四種方法的優(yōu)勢(shì),實(shí)現(xiàn)了R2、MAPE和RMSE三個(gè)性能指標(biāo)的平衡,預(yù)測(cè)性能優(yōu)于單方法預(yù)測(cè)。
3.2.2 實(shí)驗(yàn)2:禁忌搜索與Lasso降維對(duì)預(yù)測(cè)性能的影響
為進(jìn)一步驗(yàn)證本文提出的組合預(yù)測(cè)方法的性能,以第1類患者檢查需求數(shù)據(jù)為例,運(yùn)用傳統(tǒng)的權(quán)重組合預(yù)測(cè)方法[15]進(jìn)行預(yù)測(cè),兩種組合方法的預(yù)測(cè)性能對(duì)比如表7所示,Com*行表示傳統(tǒng)線性加權(quán)組合預(yù)測(cè)方法。兩種組合方法的MAPE和RMSE指標(biāo)值接近,而本文所提組合預(yù)測(cè)方法在訓(xùn)練集和測(cè)試集的R2指標(biāo)值分別改善了52%和53%。由于傳統(tǒng)線性加權(quán)組合預(yù)測(cè)方法是以最小化絕對(duì)誤差之和為單一目標(biāo),不難理解其預(yù)測(cè)結(jié)果會(huì)在與優(yōu)化目標(biāo)高度相關(guān)的指標(biāo)MAPE和RMSE上表現(xiàn)較好,而在R2指標(biāo)的效果差。本文所提出的組合預(yù)測(cè)方法,考慮了多個(gè)性能指標(biāo)的平衡,能同時(shí)優(yōu)化R2、MAPE和RMSE三個(gè)指標(biāo),提升了預(yù)測(cè)精度。
表7 兩種組合方法預(yù)測(cè)性能對(duì)比
基于第1類患者檢查需求數(shù)據(jù),表8所示,星號(hào)行(*)表示未進(jìn)行Lasso降維的模型預(yù)測(cè)結(jié)果,其余行表示采用Lasso降維后的結(jié)果。以測(cè)試集的三個(gè)指標(biāo)為例,R2改善了至少5%,MAPE改善了4%~26%,RMSE改善了3%~19%。Lasso降維后,無(wú)論是單方法還是本文所提出的組合預(yù)測(cè)方法,在R2、MAPE和RMSE指標(biāo)的預(yù)測(cè)性能均優(yōu)于未降維的結(jié)果。
表8 Lasso降維對(duì)預(yù)測(cè)性能的影響
本文針對(duì)住院患者圖像檢查的多需求預(yù)測(cè)問(wèn)題,采用Lasso降維篩選輸入變量,結(jié)合常用患者需求預(yù)測(cè)模型提出組合預(yù)測(cè)方法進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,該組合方法吸收了單模型的優(yōu)點(diǎn),綜合考慮了多個(gè)性能指標(biāo)的平衡,在R2、MAPE和RMSE三個(gè)指標(biāo)上,預(yù)測(cè)性能相比單模型預(yù)測(cè)有所提升,并驗(yàn)證了禁忌搜索與Lasso降維能有效改善預(yù)測(cè)精度。基于本文對(duì)圖像檢查需求的預(yù)測(cè)結(jié)果,可進(jìn)一步研究檢查設(shè)備的能力分派與患者調(diào)度。