■ 張 穎 李利杰 劉海容 朱 綏 孫統(tǒng)達(dá)
支持向量機(jī)模型在肺癌病人住院費(fèi)用影響因素分析中的應(yīng)用
■ 張 穎①李利杰②劉海容③朱 綏④孫統(tǒng)達(dá)①
肺癌病人 住院費(fèi)用 支持向量機(jī)模型
目的:建立基于支持向量機(jī)的單病種住院費(fèi)用擬合模型,利用模型分析住院費(fèi)用影響因素及其對(duì)住院費(fèi)用的影響程度。方法:以浙江省某三級(jí)甲等醫(yī)院2010年-2013年間肺癌患者的住院信息為樣本,利用SPSS 16.0建立數(shù)據(jù)庫(kù),應(yīng)用Weka軟件建立支持向量機(jī)擬合模型,分析住院費(fèi)用的影響因素。結(jié)果:影響住院費(fèi)用的主要因素依次為住院天數(shù)、主診斷疾病、麻醉方式、年齡、費(fèi)用類(lèi)別、職業(yè)、住院次數(shù)。結(jié)論:從縮短住院天數(shù)、發(fā)展全民基本醫(yī)療保障制度等方面來(lái)控制住院費(fèi)用。
Author’s address:Ningbo College of Health Sciences, No. 51, Xuefu Road, Yinzhou District, Ningbo, 315104, Zhejiang Province, PRC
近年來(lái),醫(yī)療費(fèi)用的過(guò)度增長(zhǎng)已成為社會(huì)和民眾關(guān)注的焦點(diǎn)。對(duì)醫(yī)療費(fèi)用特別是住院費(fèi)用影響因素的分析及分析方法的研究一直是醫(yī)療費(fèi)用研究的重點(diǎn)。在以往的醫(yī)療費(fèi)用影響因素研究中,較多采用多元線性回歸模型等傳統(tǒng)統(tǒng)計(jì)學(xué)方法[1],但這些方法的研究基礎(chǔ)要求樣本數(shù)目大,實(shí)際研究中,樣本量往往是有限的,因此亟需探索一種能較好解決小樣本、非線性問(wèn)題的方法。本文以某三級(jí)甲等綜合性醫(yī)院2010年-2013年間肺癌患者的住院費(fèi)用為例,通過(guò)建立基于支持向量機(jī)的住院費(fèi)用擬合模型,分析其住院費(fèi)用的影響因素及各影響因素的重要程度,從而探討醫(yī)療費(fèi)用的控制策略。
1.1 資料來(lái)源
本研究中資料數(shù)據(jù)來(lái)源于浙江省某三級(jí)甲等綜合性醫(yī)院HIS系統(tǒng),選取該醫(yī)院2010年-2013年間出院主診斷為肺癌的585例患者的住院信息。全部數(shù)據(jù)從HIS系統(tǒng)中以Excel表形式導(dǎo)出,并進(jìn)行數(shù)據(jù)處理,對(duì)有缺失值和不符合邏輯的病例進(jìn)行剔除,共計(jì)有效樣本525例,占全部病例的89.74%。
1.2 研究方法
采用SPSS 16.0建立數(shù)據(jù)庫(kù),運(yùn)用Weka軟件建立支持向量機(jī)擬合模型,分析患者住院費(fèi)用的影響因素。
1.2.1 支持向量機(jī)。支持向量機(jī)方法(support vector machine,SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展起來(lái)的一種新的通用學(xué)習(xí)方法。它是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上,根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力之間尋求最佳折衷,以求獲得最好的推廣能力[2]。與傳統(tǒng)統(tǒng)計(jì)學(xué)方法相比,它是一種專門(mén)研究有限樣本情況下機(jī)器學(xué)習(xí)規(guī)律的理論,在解決小樣本、非線性及高維模式識(shí)別中表現(xiàn)出特有的優(yōu)勢(shì)[3],并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問(wèn)題中。支持向量機(jī)是在現(xiàn)有信息下追求最優(yōu)解,克服了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法中合理結(jié)構(gòu)難以確定和存在局部最優(yōu)等缺陷,大大提高了學(xué)習(xí)方法的推廣能力[4]。
支持向量機(jī)是將尋找最優(yōu)線性超平面轉(zhuǎn)換為求解二次規(guī)劃問(wèn)題,進(jìn)而基于Mercer定理,通過(guò)非線性映射:RN→H,將輸入空間的樣本映射到更高維特征的空間H中,從而使用線性方法實(shí)現(xiàn)樣本空間中的高度非線性問(wèn)題的建模分析。
支持向量機(jī)建模的基本思想如下:
根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,參數(shù)ω和b可通過(guò)最小化式:
公式中,ωTω/2為控制模型復(fù)雜度;C>0為一個(gè)常數(shù),被稱為誤差懲罰參數(shù),用來(lái)控制對(duì)超出誤差限的樣本的懲罰程度;ε為不敏感損失函數(shù)。
影響支持向量機(jī)的學(xué)習(xí)性能和泛化能力的關(guān)鍵是核函數(shù)的選擇[5]。SVM模型中常用的核函數(shù)有以下幾種:
(1)線性核函數(shù)(Linear Kernel):
(2)多項(xiàng)式核函數(shù)(Polynomial Kernel):K(x,xi)=[γ'(x xi)+coef)]d,其中d為多項(xiàng)式的階,coef為偏置系數(shù)。
(3)徑向基核函數(shù)(Radial basis function):
K(x,xi)=exp(-γ'‖x-xi‖2),其中γ為核函數(shù)的寬度。
(4)Sigmoid核函數(shù)(兩層神經(jīng)網(wǎng)絡(luò)):
醫(yī)療費(fèi)用影響因素的樣本集屬于非線性可分問(wèn)題,因此在核函數(shù)選擇上主要采用多項(xiàng)式核函數(shù)和徑向基核函數(shù)進(jìn)行建模分析。通過(guò)實(shí)驗(yàn)確定分類(lèi)效果較優(yōu)的核函數(shù)和參數(shù)值。
1.2.2 數(shù)據(jù)預(yù)處理。住院總費(fèi)用作為因變量,采用中位數(shù)為界點(diǎn),將肺癌住院總費(fèi)用劃分為高、低兩類(lèi),并將住院總費(fèi)用轉(zhuǎn)化為分類(lèi)變量,分別賦值為1,2。以表1中的11個(gè)字段作為自變量,年齡和住院天數(shù)這兩個(gè)自變量均采用了三等分將其轉(zhuǎn)化為分類(lèi)變量,分別賦值為1,2,3。研究變量及其量化方法詳見(jiàn)表1。
1.2.3 SVM模型的建立。(1)訓(xùn)練樣本和測(cè)試樣本的分配。通過(guò)系統(tǒng)抽樣將全部525例研究對(duì)象按7∶3的比例隨機(jī)分為訓(xùn)練集和測(cè)試集,即訓(xùn)練集和測(cè)試集分別為368例和157例。(2)核函數(shù)的選取。核函數(shù)決定了支持向量機(jī)的性能,其確定是建立在樣本的基礎(chǔ)上,同時(shí)需考慮各參數(shù)的影響。通過(guò)實(shí)驗(yàn)過(guò)程中對(duì)參數(shù)大小的調(diào)整,觀察預(yù)測(cè)誤差隨核權(quán)重的變化,最終根據(jù)最小的誤差來(lái)確定最合適的核函數(shù)。本研究中,建模嘗試選擇了RBF和多項(xiàng)式兩種核函數(shù),通過(guò)實(shí)驗(yàn)以及參數(shù)的調(diào)優(yōu),根據(jù)預(yù)測(cè)精度比較不同核函數(shù)的建模效果。(3)參數(shù)的確定。模型中C和γ參數(shù)選取的合適與否會(huì)直接影響模型的預(yù)測(cè)性能和推廣能力。目前還尚未有通用的參數(shù)選擇方法,只能通過(guò)實(shí)驗(yàn)對(duì)比或憑借經(jīng)驗(yàn)。本研究采用了網(wǎng)格搜索法對(duì)RBF核函數(shù)中需確定的兩個(gè)參數(shù)(懲罰因子C與核函數(shù)參數(shù)γ)進(jìn)行確定。網(wǎng)格搜索法是盡可能?chē)L試每對(duì)參數(shù)(C,γ)來(lái)尋求最優(yōu)的C和γ,然后進(jìn)行交叉驗(yàn)證,找出使交叉驗(yàn)證精確度最高的參數(shù)對(duì)(C,γ)作為模型參數(shù)。網(wǎng)格搜索法很直觀但是有些原始。實(shí)際上有許多高級(jí)的算法,比如可以使用一些近似算法或啟發(fā)式的搜索來(lái)降低復(fù)雜度。采用網(wǎng)格搜索法的主要原因:一是從心理上,不進(jìn)行全面的參數(shù)搜索而是使用近似算法或啟發(fā)式算法讓人感覺(jué)不安全;二是涉及到的參數(shù)較少(兩個(gè)參數(shù)),網(wǎng)格搜索法的復(fù)雜度比高級(jí)算法高不了多少;三是網(wǎng)格搜索法可并行性高,因?yàn)槊繉?duì)參數(shù)是相互獨(dú)立的[5]。
訓(xùn)練集用于建立住院費(fèi)用預(yù)測(cè)模型,測(cè)試集用于檢驗(yàn)?zāi)P偷念A(yù)測(cè)效果。本研究選取368例訓(xùn)練集,分別建立基于不同核函數(shù)的住院費(fèi)用預(yù)測(cè)模型,通過(guò)網(wǎng)格搜索法確定最優(yōu)的核函數(shù)參數(shù)C和γ,然后選取157例測(cè)試集,檢驗(yàn)?zāi)P偷念A(yù)測(cè)效果,以回代訓(xùn)練樣本準(zhǔn)確率和預(yù)測(cè)檢驗(yàn)樣本準(zhǔn)確率來(lái)綜合評(píng)價(jià)預(yù)測(cè)模型的性能,并最終確定合適的核函數(shù)作為預(yù)測(cè)模型的核函數(shù)。
2.1 SVM模型分析的結(jié)果
采用SVM模型進(jìn)行變量篩選及影響因素重要性分析,分析結(jié)果顯示,在11個(gè)變量中,醫(yī)療費(fèi)用影響因素重要性從高到低依次為住院天數(shù)、主診斷疾病、麻醉方式、年齡、費(fèi)用類(lèi)別、職業(yè)、住院次數(shù)、婚姻狀況、轉(zhuǎn)歸情況、民族、性別,詳見(jiàn)表2。
從分析結(jié)果可見(jiàn),住院天數(shù)是影響住院費(fèi)用的最主要因素,這與宋振[6]、張文彤[7]等國(guó)內(nèi)外許多研究結(jié)果一致,住院天數(shù)越多,相應(yīng)的住院費(fèi)用也越高。主診斷疾病決定了手術(shù)方式和住院天數(shù)的長(zhǎng)短,不同的手術(shù)麻醉方式間接地反應(yīng)了疾病的嚴(yán)重程度,因此主診斷疾病與麻醉方式較大程度地決定了住院費(fèi)用的多少。隨著患者年齡的增長(zhǎng),體質(zhì)趨弱,導(dǎo)致住院費(fèi)用增加。費(fèi)用類(lèi)別的不同對(duì)住院費(fèi)用有較大影響,公費(fèi)醫(yī)療患者的住院費(fèi)用高于其他類(lèi)型的患者。而患者的職業(yè)往往決定了患者的費(fèi)用類(lèi)別,因此也對(duì)住院費(fèi)用有一定的影響。住院次數(shù)的增多說(shuō)明患者的病情日趨嚴(yán)重,會(huì)導(dǎo)致住院費(fèi)用的增加。從分析來(lái)看,影響較小的因素為民族和性別。模型篩選出的影響因素都比較符合臨床特征。
表1 研究變量及量化方法
表2 SVM模型篩選的各影響因素重要程度排序
2.2 模型預(yù)測(cè)精度
為確定合適的核函數(shù),選取多項(xiàng)式和RBF核函數(shù)進(jìn)行測(cè)試。測(cè)試結(jié)果顯示,采用多項(xiàng)式核函數(shù)建立擬合預(yù)測(cè)模型時(shí),回代訓(xùn)練樣本準(zhǔn)確率和預(yù)測(cè)檢驗(yàn)樣本準(zhǔn)確率分別為84.35%和89.37%;采用RBF核函數(shù)建立預(yù)測(cè)模型,SVM模型的預(yù)測(cè)精度有所提高,回代訓(xùn)練樣本準(zhǔn)確率和預(yù)測(cè)檢驗(yàn)樣本準(zhǔn)確率分別為90.12%和93.26%。因此,RBF核函數(shù)是本研究中分類(lèi)效果較優(yōu)的核函數(shù)。對(duì)于RBF核函數(shù),通過(guò)實(shí)驗(yàn)確定最優(yōu)參數(shù)C為0.0769,γ為0.4368。
3.1 方法討論與SVM模型評(píng)價(jià)
由于住院費(fèi)用呈偏態(tài)分布,且影響因素多而復(fù)雜,以往研究表明醫(yī)療費(fèi)用與影響因素呈非線性關(guān)系,傳統(tǒng)的線性回歸分析方法就很難對(duì)該類(lèi)數(shù)據(jù)進(jìn)行較好的擬合和預(yù)測(cè)[8]。支持向量機(jī)是近年來(lái)在統(tǒng)計(jì)學(xué)理論的基礎(chǔ)上發(fā)展起來(lái)的一種新的模式識(shí)別方法,在結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則的基礎(chǔ)之上,它的分類(lèi)效率高,模型穩(wěn)定性強(qiáng),特別適合非線性的、樣本數(shù)量有限的資料的預(yù)測(cè)模型構(gòu)建和分析。
支持向量機(jī)模型的建立是一個(gè)核函數(shù)和參數(shù)優(yōu)化選擇的過(guò)程,在建模過(guò)程中,核函數(shù)的選擇和參數(shù)的設(shè)置合適與否均會(huì)影響到模型的優(yōu)劣。本研究中,通過(guò)實(shí)驗(yàn)比較回代訓(xùn)練樣本準(zhǔn)確率和預(yù)測(cè)檢驗(yàn)樣本準(zhǔn)確率來(lái)確定核函數(shù)類(lèi)型為RBF核函數(shù),并采用網(wǎng)格搜索法來(lái)確定最優(yōu)參數(shù),最終采用RBF核函數(shù)的支持向量機(jī)建立的預(yù)測(cè)模型的預(yù)測(cè)精度高??梢?jiàn)支持向量機(jī)模型在解決分類(lèi)問(wèn)題時(shí)具有良好的分類(lèi)效果,對(duì)醫(yī)療費(fèi)用的分類(lèi)和預(yù)測(cè)具有較好的前景。
3.2 控制住院費(fèi)用增長(zhǎng)的措施
從研究分析結(jié)果可見(jiàn),住院費(fèi)用增長(zhǎng)的影響因素中有一部分是屬于不可控因素,如患者的一些情況,包括性別、年齡、婚姻狀況、職業(yè)、主診斷疾病、民族及轉(zhuǎn)歸情況。因此本研究針對(duì)住院天數(shù)、費(fèi)用類(lèi)別等相對(duì)可控制因素,從醫(yī)院管理和社會(huì)醫(yī)療制度方面提出相應(yīng)的建議。首先,控制住院費(fèi)用增長(zhǎng)的有效途徑是減少患者的住院天數(shù)。住院天數(shù)不僅是衡量醫(yī)院工作效率和醫(yī)療水平的一個(gè)指標(biāo),往往也能體現(xiàn)醫(yī)院管理水平的好壞。因此,從醫(yī)院管理方面可強(qiáng)化績(jī)效考核,把病床利用率、平均住院日完成率、工作量等考核情況納入績(jī)效考評(píng),以此來(lái)促進(jìn)各科室提高服務(wù)效率與質(zhì)量,減少患者住院天數(shù)。另一方面,醫(yī)院可以通過(guò)推廣單病種質(zhì)量控制、推行檢驗(yàn)檢查結(jié)果互認(rèn)制度以及限制擇期手術(shù)前平均住院日等措施來(lái)縮短住院日,從而達(dá)到降低病人醫(yī)療費(fèi)用的目的。
其次,費(fèi)用類(lèi)別也是影響住院費(fèi)用的重要因素之一。城鎮(zhèn)職工基本醫(yī)保、商業(yè)醫(yī)療保險(xiǎn)等醫(yī)療保障患者的平均醫(yī)療費(fèi)用要高于自費(fèi)和新農(nóng)合的醫(yī)療患者。因此,我國(guó)需發(fā)展社會(huì)醫(yī)療保險(xiǎn)制度,試行單病種醫(yī)療費(fèi)用核算,積極推進(jìn)醫(yī)療費(fèi)用總額控制下的多種結(jié)算方式改革,探索開(kāi)展住院按病種付費(fèi)等支付方式改革。這將對(duì)控制院費(fèi)用起到一定的積極作用。
[1] 王靜,李曼,楊葦葦,等.多元統(tǒng)計(jì)方法在住院費(fèi)用研究中的應(yīng)用進(jìn)展[J].中國(guó)衛(wèi)生統(tǒng)計(jì),2009,26(1):91-95.
[2] Vapnik V N. The Nature of Statistical Learning Theory[M].New York:Springer-Verlag, 2000.
[3] 沈培,張吉?jiǎng)P,張子剛.基于支持向量機(jī)的單病種醫(yī)療費(fèi)用控制研究[J].中國(guó)衛(wèi)生經(jīng)濟(jì),2012,31(3):89-91.
[4] 高雋.人工神經(jīng)網(wǎng)絡(luò)原理與仿真實(shí)例[M].北京:機(jī)械工業(yè)出版社,2007,78-93.
[5] 奉國(guó)和.SVM分類(lèi)核函數(shù)及參數(shù)選擇比較[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(3):123-124,128.
[6] 宋振,李長(zhǎng)平,崔壯,等.基于人工神經(jīng)網(wǎng)絡(luò)模型的膽石病參?;颊咦≡嘿M(fèi)用分析[J].中國(guó)預(yù)防醫(yī)學(xué)雜志,2013,14(1):31-34.
[7] 張文彤,竺麗明,王見(jiàn)義,等.基于BP神經(jīng)網(wǎng)絡(luò)的中醫(yī)院住院費(fèi)用影響因素分析[J].中華醫(yī)院管理雜志,2005(3):20-24.
[8] 張菊英,韋健,楊樹(shù)勤.神經(jīng)網(wǎng)絡(luò)模型在住院費(fèi)用影響因素分析中的應(yīng)用[J].中華醫(yī)院管理雜志,2002(18):143-145.
Application of the support vector machine model in the analysis of impact factors for hospitalization expenses
ZHANG Ying, LI Lijie, LIU Hairong, ZHU Sui, SUN Tongda// Chinese Hospitals. -2014,18(10):30-32
lung cancer patients, hospitalization expense, support vector machine model
Objective: To construct the single disease hospitalization expenses fitted model based on support vector machine and analyze the impact factors and the influence degree of the impact factors for hospitalization expenses. Methods: Data were collected from the information of inpatient records of lung cancer patients offered by a tertiary hospital of Zhejiang province from 2010 to 2013. The database was created by SPSS 16.0 and the support vector machine model was constructed by Weka software for analyzing the factors of affecting hospitalization expenses. Results: The main factors affecting hospitalization expenses are length of stay, the main diagnosis, anesthesia method, age, type of payment, occupation and number of hospital admission. Conclusion: Hospital expenses can be reduced by shortening length of stay and promoting universal coverage.
2014-06-11](責(zé)任編輯 郝秀蘭)
2013年浙江省醫(yī)藥衛(wèi)生科技計(jì)劃項(xiàng)目(2013KYB242);浙江省衛(wèi)生經(jīng)濟(jì)學(xué)會(huì)資助課題
①寧波衛(wèi)生職業(yè)技術(shù)學(xué)院,315104 寧波市鄞州區(qū)學(xué)府路51號(hào)
②寧波城市職業(yè)技術(shù)學(xué)院,315104 寧波市鄞州區(qū)學(xué)府路9號(hào)
③寧波市第一醫(yī)院,315010 寧波市柳汀街59號(hào)
④寧波市鄞州區(qū)第三醫(yī)院,315100 寧波市鄞州區(qū)姜山鎮(zhèn)人民南路18號(hào)
張穎:寧波衛(wèi)生職業(yè)技術(shù)學(xué)院專業(yè)副主任、講師
E-mail:janny820830@163.com