姜玉嬋, 蔡巖
(1.衡水市人民醫(yī)院 醫(yī)???城鄉(xiāng)結(jié)算處), 河北 衡水 053000;2.河北師范大學(xué) 軟件學(xué)院, 河北 石家莊 050024)
隨著我國醫(yī)療衛(wèi)生體制改革的不斷深入,醫(yī)療資源的有效整合已經(jīng)成為當今時代的趨勢。在此背景下,發(fā)展較快、較好的醫(yī)院開始出現(xiàn)機構(gòu)規(guī)模過大、財務(wù)管理復(fù)雜等問題,導(dǎo)致醫(yī)院的財務(wù)監(jiān)管效率低下[1],無法滿足可持續(xù)性發(fā)展的需求。
機器學(xué)習(xí)技術(shù)作為計算機領(lǐng)域的熱門方向,一直和金融財務(wù)領(lǐng)域有著緊密結(jié)合和應(yīng)用。使用合理的機器學(xué)習(xí)技術(shù)可以解決金融財務(wù)行業(yè)的高效自動化數(shù)據(jù)分析問題,為管理人員提供有價值的預(yù)測信息,從而為健康的機構(gòu)運營提供可靠性的預(yù)警[2-4]。例如,楊蘊毅等[5]提出來利用Z-Score指標決策樹來構(gòu)建財務(wù)風(fēng)險預(yù)警模型,提前3年預(yù)測財務(wù)危機的準確率達75.37%。陳妮[6]提出通過C4.5決策樹挖掘算法來對企業(yè)運營資金流向預(yù)測分析研究,相比傳統(tǒng)的ID3決策樹算法獲得了更高的準確性。蔡歡等[7]基于遺傳算法和最小二乘支持向量機的財務(wù)危機預(yù)測模型,有效驗證了機器學(xué)習(xí)技術(shù)在財務(wù)預(yù)測中的有效性。然而,使用上述傳統(tǒng)機器學(xué)習(xí)技術(shù)對財務(wù)狀況進行預(yù)測時仍舊存在準確度不夠理想,特別是對于復(fù)雜數(shù)據(jù)樣本的長期預(yù)測問題。
因此,為了對醫(yī)療機構(gòu)提供更加準確、有效的財務(wù)預(yù)測,本文提出構(gòu)建基于深度信念網(wǎng)絡(luò)的先進度學(xué)習(xí)方法構(gòu)建預(yù)測模型。在20家大中型醫(yī)療機構(gòu)的近10年財務(wù)數(shù)據(jù)上進行了實驗分析。結(jié)果驗證了深度信念網(wǎng)絡(luò)模型在各項評價標準上均取得了較好的預(yù)測結(jié)果,驗證了其可行性。
為了繼續(xù)有效地預(yù)測分析,需要先對醫(yī)療結(jié)構(gòu)財務(wù)系統(tǒng)中給的各種表格和報表數(shù)據(jù)進行解析與提取,主要采用的是數(shù)據(jù)清洗,從而生成后續(xù)所需的逗號分隔值(Comma-Separated Values,CSV)格式數(shù)據(jù)。
針對醫(yī)療機構(gòu)中支出經(jīng)費完整度不高且重疊較多的問題,本文采用的數(shù)據(jù)清洗分成4個步驟。
(1) 缺失值清洗:設(shè)置缺失判斷閥值為80%,并以此為標準先對原始數(shù)據(jù)進行挑選,剔除掉超過該閥值的特征列,并用“0”值填充區(qū)缺失值。
(2) 格式內(nèi)容清洗:對導(dǎo)入數(shù)據(jù)的存儲格式進行統(tǒng)一,例如時間統(tǒng)一為“2019-02-21”。
(3) 重復(fù)內(nèi)容清洗:接著再次對數(shù)據(jù)進行篩選,將內(nèi)容重復(fù)度較高的多個特征列進行刪除,僅保留其中一個,從而有利于降維。
(4) 非需求數(shù)據(jù)清洗:將數(shù)據(jù)中不在預(yù)測時間跨度中的無關(guān)數(shù)據(jù)進行刪除,并僅保留最小時間跨度為1個月的樣本數(shù)據(jù)。
經(jīng)過上述4個步驟后,將處理后的數(shù)據(jù)全部另存為所需的CSV格式。
對數(shù)據(jù)樣本中每列的特征需要合理選擇,以便在體現(xiàn)所需預(yù)測關(guān)系映射的同時盡量避免出現(xiàn)過擬合,從而加強模型的多樣本泛化能力。
本文采用了L1范數(shù)正則化方法進行特征選擇,這是可以有效適用于非線性場景的算法。對所有統(tǒng)計特征的L1范數(shù)得分進行計算,本文設(shè)置0.6作為選擇閥值,刪除得分小于0.6的特征,從而完成特征選擇過程。最終選出的有效特征如“0.644,分保費用”“0.685,針劑費及手術(shù)收入”等。
在對財務(wù)數(shù)據(jù)清洗后,還需要對實際的樣本數(shù)值進行統(tǒng)一數(shù)值范圍,以便統(tǒng)一樣本特征的尺度。本文采用了均值方差歸一化將全部數(shù)據(jù)樣本進行處理,統(tǒng)一表示為[0,1]之間的數(shù),如式(1)。
(1)
式中,min表示最小特征值;max表示最大特征值。
由于財務(wù)預(yù)測是時間周期性的工作,需要設(shè)置時間跨度,類似于圖形圖像處理機制中的窗口框架。本文設(shè)置2年為時間跨度對數(shù)據(jù)樣本進行滑動挑選。太短或者太長的時間跨度均對預(yù)測的性能有一定的影響,2年是多次實驗的經(jīng)驗選取值。具體操作過程,如圖1所示。
圖1 滑動樣本生成
作為一種高效的深度學(xué)習(xí)算法,深度信念網(wǎng)絡(luò)逐漸發(fā)展成為主流的技術(shù)方向[8-10]?;诮y(tǒng)計學(xué)原理產(chǎn)生了隨機神經(jīng)網(wǎng)絡(luò)玻爾茲曼機模型,包含一個隱含層和一個可見層,如圖2所示。
圖2 玻爾茲曼機模型
在此基礎(chǔ)上,提出了限制玻爾茲曼機原理架構(gòu),如圖3所示。
圖3 限制玻爾茲曼機模型
其中,a=(a1,a2,…,anv)T∈Rnv表示可見層的偏置向量;b=(b1,b2,…,bnh)T∈Rnh表示隱含層的偏置向量;W=(wi,j)∈Rnh×nv表示隱含層和可見層之間的權(quán)值矩陣。通過生成式堆疊技術(shù),由多個限制玻爾茲曼機最終生產(chǎn)深度信念網(wǎng)絡(luò)。
限制玻爾茲曼機通過能量函數(shù)引入一系列相關(guān)的概率分布函數(shù)。對于一組給定的神經(jīng)元的狀態(tài)向量(v,h),其能量函數(shù)表示,如式(2)。
(2)
式中,v表示可見層中神經(jīng)元的狀態(tài)向量;h表示隱含層中神經(jīng)元的狀態(tài)向量;nv表示可見層中所有神經(jīng)元的總數(shù);nh表示隱含層中所有神經(jīng)元的總數(shù);θ={ai,bj,wi,j}表示限制玻爾茲曼機架構(gòu)的調(diào)節(jié)因子。
通過上述式(2)定義的能量函數(shù),可以得到狀態(tài)(v,h)的聯(lián)合概率分布,如式(3)。
(3)
式中,Z(θ)表達式,如式(4)。
(4)
式中,Z(θ)表示歸一化參數(shù)。設(shè)p(v|θ)為可見層向量v的概率分布,則可以通過P(v,h|θ)的邊緣分布對p(v|θ)進行計算[11],如式(5)。
(5)
同樣的方法,我們可以得到隱含層向量h的概率分布p(h|θ),如式(6)。
(6)
通過分析式(5)和(6),可以看出,為了得到p(v|θ)和p(h|θ),關(guān)鍵步驟是計算歸一化參數(shù)Z(θ) 。但是式(4)可知,其計算復(fù)雜度較高。但是,由于限制玻爾茲曼機模型的特殊原理(可見層和隱含層是條件獨立的),當可見層中所有神經(jīng)元的狀態(tài)是已知的時候,隱含層中某個神經(jīng)單元被激活的概率可以通過式(7)進行計算[12]。
(7)
式中,σ(·)表示Sigmoid激活函數(shù)。
因為相同層內(nèi)所有神經(jīng)節(jié)點之間是無連接的,所以相同層內(nèi)的所有神經(jīng)節(jié)點的取值和單個節(jié)點取值之間的關(guān)系,如式(8)、式(9)。
(8)
(9)
圖4 深度生成模型
深度信念網(wǎng)絡(luò)訓(xùn)練過程一般分為2個步驟[13]:預(yù)訓(xùn)練階段和微調(diào)階段,如圖4所示。
微調(diào)階段中歲所需的損失函數(shù),如式(10)。
(10)
為了對本文提出的視頻分類方法進行分析和驗證,進行具體實驗。實驗硬件環(huán)境:處理器為Intel Core i7 2.2 GHz;圖形圖像處理設(shè)備為GTX970@2 G顯存;內(nèi)存為8 G。實驗軟件環(huán)境:Windows 7操作系統(tǒng);Matlab7.0仿真軟件。實驗隨機選取了20家大中型醫(yī)療機構(gòu)的近10年財務(wù)數(shù)據(jù),共2萬多個樣本。其中60%作為訓(xùn)練集,40%作為測試集。以最直觀的年凈利潤作為財務(wù)預(yù)測指標,并選取2年為預(yù)測時間跨度。
為了對財務(wù)預(yù)測的性能進行量化評估,本文選取均方根誤差(Root Mean Square Error,RMSE)和擬合優(yōu)度(R Square,R2)作為評估指標[14-15]。
RMSE的計算方式,如式(11)。
(11)
R2的計算方式,如式(12)。
(12)
當深度網(wǎng)絡(luò)中每個隱含層內(nèi)所有神經(jīng)節(jié)點的總數(shù)均是 300 時,深度信念網(wǎng)絡(luò)模型在不同網(wǎng)絡(luò)層數(shù)下的預(yù)測實驗結(jié)果,如表1所示。
表1 在不同網(wǎng)絡(luò)層數(shù)下的預(yù)測性能比較
從表1可以看出,隨著網(wǎng)絡(luò)層數(shù)的增加,識別的精確度也隨之提高。但是,網(wǎng)絡(luò)層數(shù)不是越多越好。當網(wǎng)絡(luò)層數(shù)為3時識別的性能最好,這說明深度信念網(wǎng)絡(luò)中隱含層的層數(shù)需要結(jié)合具體應(yīng)用和適用的數(shù)據(jù)集進行具體分析,以便獲得最佳的網(wǎng)絡(luò)層數(shù)。
本文除了深度信念網(wǎng)絡(luò)模型之外,還搭建了機器學(xué)習(xí)方法中的C4.5決策樹[6]、BP神經(jīng)網(wǎng)絡(luò)[3]和最小二乘支持向量機LS-SVM[7]模型以便進行實驗對比。深度信念網(wǎng)絡(luò)模型中隱含層層數(shù)設(shè)定為3層,為不同模型的預(yù)測凈利潤實驗結(jié)果對比,如表2所示。
表2 預(yù)測凈利潤實驗結(jié)果對比
從表2可以看出,相比其他模型,深度信念網(wǎng)絡(luò)模型具有最大的R2和最小的RMSE結(jié)果,說明其取得了最佳的預(yù)測結(jié)果,完全吻合醫(yī)院的經(jīng)營發(fā)展趨勢。
本文通過構(gòu)建深度信念網(wǎng)絡(luò)模型實現(xiàn)為醫(yī)療機構(gòu)提供更加準確、有效的財務(wù)預(yù)測。在20家大中型醫(yī)療機構(gòu)的近10年財務(wù)數(shù)據(jù)上進行了實驗分析。結(jié)果驗證了深度信念網(wǎng)絡(luò)模型在各項評價標準上均取得了較好的預(yù)測結(jié)果,驗證了其可行性。但是訓(xùn)練和測試樣本集中特征的數(shù)量(維度)仍較多,后續(xù)將考慮使用主成分分析進行更高效的降維,來進一步提升預(yù)測模型的性能。