鄭碧如
摘要:疾病診斷相關(guān)分組是一種綜合考慮了病例的個(gè)體特征,以病例的診斷和手術(shù)操作劃分的組合,以此制定合理的醫(yī)療收費(fèi)標(biāo)準(zhǔn)。在該文中,以主要診斷為冠狀動(dòng)脈粥樣硬化性心臟病的病例為數(shù)據(jù)材料;利用CHAID決策樹進(jìn)行特征選擇;再分別對(duì)無手術(shù)組和手術(shù)組用k-means聚類算法對(duì)其進(jìn)行聚類分析并劃分組。最后利用變異系數(shù)值和方差分析對(duì)結(jié)果進(jìn)行檢驗(yàn),其在組間、組內(nèi)醫(yī)療費(fèi)具有較好的差異性和同質(zhì)性。
關(guān)鍵詞:疾病診斷相關(guān)分組;特征選擇;k-means聚類;方差分析
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)02-0246-03
Study on Disease Diagnosis Related Groups Based on Cluster Analysis
ZHENG Bi-ru
(School of Mathematics, South China University of Technology, Guangzhou 510641,China)
Abstract: Disease diagnosis related group is a combination with comprehensive consideration of the individual characteristics of the case, which is divided the cases by their diagnosis and surgical operation. In this paper, the data materials is the disease cases whose main diagnosis is coronary atherosclerotic heart disease; firstly, feature selection in data by CHAID decision tree; then the k-means clustering algorithm was used to cluster and analyze the groups for the non-surgery group and surgery group respectively. Finally, the results were tested by coefficient of variation and variance analysis, that have difference between the two groups and homogeneity in the same group about medical fees.
Key words: diagnosis related groups; feature selection; k-means clustering; variance analysis
疾病診斷相關(guān)組(Diagnosis Related Groups, DRGs)是以病例的診斷和手術(shù)操作作為病例組合基本依據(jù),綜合考慮了病例的個(gè)體特征,如:主要診斷、次要診斷、合并癥、并發(fā)癥、年齡、性別等,將臨床過程相近、費(fèi)用消耗相似的病例分到同一組中[4,5,6]。DRGs一方面能夠反映病例的臨床實(shí)際情況、診療需求和醫(yī)療服務(wù)利用,并能夠比較客觀地反映治療效果;另一方面,因?yàn)獒t(yī)療服務(wù)提供的過程伴隨著醫(yī)療資源的消耗,反映臨床實(shí)際的DRGs 也能夠比較真實(shí)地反映醫(yī)療資源的消耗[1,2]。
在本文中,針對(duì)主要診斷為冠狀動(dòng)脈粥樣硬化性心臟病的病例數(shù)據(jù),先對(duì)其進(jìn)行數(shù)據(jù)預(yù)處理,再應(yīng)用統(tǒng)計(jì)分析算法CHAID決策樹,進(jìn)行特征選擇,保留重要的特征。由于是否對(duì)病人進(jìn)行手術(shù)操作,其醫(yī)療費(fèi)具有較大的差異,而這部分差異重要是主要體現(xiàn)在醫(yī)療器材耗費(fèi),因此將數(shù)據(jù)集劃分為無手術(shù)組和有手術(shù)組,再分別應(yīng)用k-means聚類進(jìn)行啟發(fā)式分組。最后,通過變異系數(shù)和方差分析進(jìn)行檢驗(yàn)分組結(jié)果的組間、組內(nèi)的醫(yī)療費(fèi)具有較好的差異性和同質(zhì)性,由此可見,通過上面的方法可很好地進(jìn)行DRGs,并為其制定合理的參考醫(yī)療費(fèi)。
1 數(shù)據(jù)來源與方法
1.1 數(shù)據(jù)來源
本文的數(shù)據(jù)來于廣東省某三甲醫(yī)院的病患住院病案首頁的數(shù)據(jù)。在病人住院病案首頁中,主要包括:性別、年齡、實(shí)際住院天數(shù)、主要診斷、其他診斷、手術(shù)及操作、手術(shù)級(jí)別以及病例分型等信息。醫(yī)療費(fèi)包括:綜合醫(yī)療服務(wù)類、診斷類、治療類、醫(yī)藥類、血液和血液制品類和醫(yī)療耗材類。本文主要針對(duì)主要診斷為冠狀動(dòng)脈粥樣硬化性心臟病的病例,依照國(guó)際疾病分類 (ICD-10),該疾病的代碼I25.103。
1.2 方法
在文獻(xiàn)[2,4,7]中應(yīng)用了CHAID(Chi-squaredAutomatic Interaction Detector,卡方自動(dòng)互動(dòng)檢驗(yàn)法)算法對(duì)整個(gè)數(shù)據(jù)集進(jìn)行分組,該方法是依據(jù)局部最優(yōu)原則,利用卡方檢驗(yàn)來選擇對(duì)因變量最有影響的自變量作為分支節(jié)點(diǎn),但是該方法不能很好地處理連續(xù)型特征,不過可利用該方法進(jìn)行特征選擇,挑選出重要特征為后期做準(zhǔn)備。再將數(shù)據(jù)集劃分成有手術(shù)組和無手術(shù)組,應(yīng)用k-means[9]進(jìn)行聚類分析,探尋各個(gè)簇的內(nèi)部特點(diǎn),啟發(fā)式尋找屬性的劃分界限,依此劃分該疾病診斷相關(guān)分組。
DRGs 的組內(nèi)同質(zhì)性評(píng)價(jià)采用變異系數(shù)(coefficient of variance, CV)[8],cv值越小,表示組內(nèi)同質(zhì)性越高。
[cv=stdmean] (1)
其中mean,std分別是住院醫(yī)療費(fèi)的均值和標(biāo)準(zhǔn)差。
2 數(shù)據(jù)預(yù)處理
由于入院病情是對(duì)患者入院時(shí)針對(duì)某病病情的評(píng)估情況,每個(gè)疾病診斷都有與之相對(duì)應(yīng)的入院病情。對(duì)于入院病情為“無”的病例,其填寫錯(cuò)誤率較高[3]。一般情況下,還有以下兩種不正?,F(xiàn)象:(1)無手術(shù)操作,卻有手術(shù)治療費(fèi)、麻醉費(fèi)、手術(shù)費(fèi)以及手術(shù)用一次性醫(yī)用材料費(fèi);(2)有手術(shù)操作,卻沒有手術(shù)治療費(fèi)、麻醉費(fèi)、手術(shù)費(fèi)以及手術(shù)用一次性醫(yī)用材料費(fèi)。出現(xiàn)上述情況的病患實(shí)例很大可能出現(xiàn)數(shù)據(jù)錄入錯(cuò)誤,因此將這類數(shù)據(jù)刪除。endprint
3 疾病診斷分組實(shí)驗(yàn)
3.1 運(yùn)用CHAID做特征選擇
應(yīng)用SPSS 20 統(tǒng)計(jì)軟件中的數(shù)據(jù)挖掘決策樹模型——CHAID,以表1中的屬性為自變量,以醫(yī)療費(fèi)作為因變量,對(duì)樣本數(shù)據(jù)進(jìn)行局部最優(yōu)分割,建立決策樹。所得CHAID決策樹的最優(yōu)分支屬性為住院天數(shù)、有無手術(shù)操作和病例分型等。該模型是建立在連續(xù)屬性離散化的基礎(chǔ)上的,對(duì)連續(xù)型數(shù)據(jù)進(jìn)行離散化,必定會(huì)破壞連續(xù)型變量的內(nèi)在性質(zhì)。不過由此可知住院天數(shù)、有無手術(shù)操作是重要屬性。醫(yī)療耗材費(fèi)和醫(yī)藥費(fèi)是醫(yī)療費(fèi)的主要部分,對(duì)與有無手術(shù)操作而言,醫(yī)療耗材費(fèi)上有很大的差異。因此,在下文將對(duì)原數(shù)據(jù)集劃分為有手術(shù)組和無手術(shù)組,再以連續(xù)型特征為主,以住院天數(shù)、年齡、其他診斷疾病個(gè)數(shù)、手術(shù)及操作數(shù)為特征進(jìn)行k-means聚類分析。
3.2 無手術(shù)分組實(shí)驗(yàn)
由3.1可知,病例分型是重要的屬性,其與病人的其他疾病診斷個(gè)數(shù)成正相關(guān)關(guān)系,因此對(duì)于無手術(shù)操作組,以年齡,住院天數(shù)和其他診斷疾病個(gè)數(shù)作為聚類分析的特征。由于k-means是基于歐氏距離的,對(duì)特征的量綱比較敏感,因此要對(duì)其進(jìn)行歸一化處理,本文采用min-max標(biāo)準(zhǔn)化(Min-Max Normalization),轉(zhuǎn)換函數(shù)如下:
[xnew=x-minmax-min] (2)
其中x是初始值,max,min分別為樣本數(shù)據(jù)的最大值,最小值。
運(yùn)用k-means進(jìn)行聚類,取k=3,聚類后各個(gè)簇的情況可見表2:
由表2可看出各個(gè)簇之間的醫(yī)療費(fèi)均值存在很大的差異,但是在簇2,3中,出cv值大于1。結(jié)合圖1中對(duì)3個(gè)簇的空間分布可視化,可看出在Day和Age這兩個(gè)維度上存在分界,回到原始數(shù)據(jù)中,可發(fā)現(xiàn)各個(gè)簇具有以下特點(diǎn):
簇1:絕大多數(shù)Day大于10,Age大于70,Disease多于10
簇2:絕大多數(shù)Day少于10,Age小于70,Disease少于10
簇3:Age大于70,Disease少于10
在沒有手術(shù)操作的病患中,住院天數(shù)是影響收費(fèi)最主要的因素之一,住院天數(shù)多于10天的病人的醫(yī)療費(fèi)均值是62230.91元,而住院天數(shù)少于10的病人的醫(yī)療費(fèi)均值只有9701.82元。針對(duì)住院天數(shù)少于等于10天的病人,由k-means的聚類結(jié)果,可以選定70歲進(jìn)行分組劃分,即對(duì)無手術(shù)操作的疾病診斷相關(guān)分組為以下3組:
N_1:Day >= 10
N_2:Day < 10,Age >= 70
N_3:Day < 10,Age < 70
從表3可看出,各組的醫(yī)療費(fèi)均值有明顯的差距,無手術(shù)操作的疾病診斷相關(guān)分組的cv值均小于1,可見組內(nèi)的差異性較小。因此可把各個(gè)組的醫(yī)療費(fèi)均值作為該組的收費(fèi)參考。
3.3 有手術(shù)分組實(shí)驗(yàn)
對(duì)于有手術(shù)組,由于各個(gè)手術(shù)操作都有與之相對(duì)應(yīng)的手術(shù)級(jí)別,依據(jù)手術(shù)技術(shù)難度、復(fù)雜性和風(fēng)險(xiǎn)度,將手術(shù)分為四級(jí),等級(jí)越大,手術(shù)的難度就更大,風(fēng)險(xiǎn)度更高,手術(shù)的級(jí)別也影響著醫(yī)療費(fèi)用。而病人可能有多個(gè)手術(shù)操作,各個(gè)手術(shù)操作的級(jí)別有高有低,為了更好地衡量病人手術(shù)的總體難度和風(fēng)險(xiǎn),設(shè)[Ni]表示手術(shù)級(jí)別為i的手術(shù)個(gè)數(shù),構(gòu)造手術(shù)風(fēng)險(xiǎn)總值SurValue(見式3)。圖2為有手術(shù)組的手術(shù)風(fēng)險(xiǎn)值的散點(diǎn)圖。
[SurValue=i=14i?Ni] (3)
下面以住院天數(shù),年齡,其他診斷疾病個(gè)數(shù),手術(shù)風(fēng)險(xiǎn)值以及手術(shù)操作個(gè)數(shù)作為聚類分析的特征,對(duì)其進(jìn)行 (2) 式的歸一化處理,取k=5,即將其劃分為5個(gè)簇,最終聚類后各個(gè)簇的情況可見表4。
由表4可看出各個(gè)簇之間的醫(yī)療費(fèi)均值存在明顯的差異,但在簇1,3中,出現(xiàn)cv值大于1的情況。選取Age,SurValue和Day三個(gè)屬性對(duì)聚類結(jié)果進(jìn)行可視化(見圖3),在SurValue這個(gè)維度上存在明顯得分界,在Age維度上簇出現(xiàn)重疊,不過還是存在界限?;氐皆紨?shù)據(jù)中,各個(gè)簇具有以下特點(diǎn):
簇1:Day < 10天,Age < 70,Disease < 10,SurValue < 10
簇2:Day < 10,Age < 70,Disease < 10,SurValue > 10
簇3:Day < 10,Age > 60,Disease < 10,SurValue < 10
簇4:Day < 10,Age > 60,Disease < 10,SurValue > 10
簇5:Day > 10,Age > 60,Disease > 10
在有手術(shù)操作的情況下,住院天數(shù)還是醫(yī)療費(fèi)最主要的影響因素,再者就是手術(shù)風(fēng)險(xiǎn)值和手術(shù)操作個(gè)數(shù)。住院天數(shù)多于10天的醫(yī)療平均費(fèi)用是100055.43元,住院天數(shù)為6~10天的平均費(fèi)用為46651.39,而少于等于5天的平均費(fèi)用為35558.61元,因此住院時(shí)間可以分割為三部分。根據(jù)聚類的結(jié)果,再結(jié)合有手術(shù)組的手術(shù)風(fēng)險(xiǎn)值散點(diǎn)圖(圖2),可知病患的手術(shù)風(fēng)險(xiǎn)大致被10分成割兩部分。因此有手術(shù)操作的疾病診斷相關(guān)分組為以下5組:
Y_1:Days > 10
Y_2:Days: 6~10,SurValue >= 10
Y_3:Days: 1~5,SurValue >= 10
Y_4:Days: 6~10天,SurValue < 10
Y_5:Days: 1~5天,SurValue < 10
從表5可知,出現(xiàn)Y_4與Y_5兩組的cv值大于1,在表6中,基于k-means的DRGs分組的方差分析中,P < 0.001,表明各組差異具有統(tǒng)計(jì)學(xué)意義,即該分組具有合理性。因此,對(duì)于冠狀動(dòng)脈粥樣硬化性心臟病的有手術(shù)組可將其劃分為5組,并可以其各組的均值作為醫(yī)療費(fèi)的參考費(fèi)用。endprint
4 結(jié)論
由于CHAID在處理離散數(shù)據(jù)具有很好的性能,并且是通過卡方檢驗(yàn)對(duì)病例數(shù)據(jù)選取局部最優(yōu)的屬性進(jìn)行劃分,因此可通過CHAID算法進(jìn)行特征選擇,選取住院天數(shù),年齡等屬性,對(duì)無手術(shù)組,有手術(shù)組分別應(yīng)用k-means進(jìn)行聚類分析,以此啟發(fā)選擇各屬性用于分組界限,并通過cv值和方差分析做進(jìn)一步的驗(yàn)證所得分組的醫(yī)療費(fèi)在組間異質(zhì)性和組內(nèi)同質(zhì)性較好,具有一定的合理性。但是k-means要預(yù)先選定k值,只能處理連續(xù)型數(shù)據(jù),對(duì)聚類形成的簇的解釋說服力不強(qiáng),但是能對(duì)疾病診斷相關(guān)分組起到了啟發(fā)作用。
參考文獻(xiàn):
[1] 李瓏,徐錫武,王辰.疾病診斷相關(guān)組概述及其在我國(guó)的適用性分析[J].中國(guó)醫(yī)院管理,2013,33(1):51-53.
[2] 田偉,張媛,尹桂華.基于疾病診斷相關(guān)組合的慢性缺血性心臟病分組方法及效果的研究[J].中國(guó)衛(wèi)生產(chǎn)業(yè),2016(24):188-190.
[3] 王秀茹,王紅生,彭曄.住院病案首頁中入院病情填寫質(zhì)量分析[J].中國(guó)病案,2016;(07):17-18+44
[4] 高建民,鄭古崢玥,詹梅,李倩.疾病診斷相關(guān)分組分類節(jié)點(diǎn)變量的選擇及其分組結(jié)果的合理性評(píng)價(jià)[J].中國(guó)衛(wèi)生經(jīng)濟(jì),2013(1):16-18.
[5] Palmer G, Reid B. Evaluation of the performance of diagnosis-related groups and similar casemix systems: methodological issues[J]. Health services management research,2001,14(2):71-81.
[6] Mihailovic N, Kocic S, Jakovljevic M. Review of diagnosis-related group-based financing of hospital care[J]. Health services research and managerial epidemiology, 2016,5(3):1-8.
[7] 韓曉梅,王秀梅,阿布都沙拉木·依米提,劉志云.宮頸癌患者住院費(fèi)用的疾病診斷相關(guān)分組組合方式研究[J].中國(guó)腫瘤, 2016 (9):677-681.
[8] 魏凌云,韓 棟,徐金龍,章瑩.婦嬰疾病診斷相關(guān)組應(yīng)用與評(píng)價(jià)[J].中國(guó)衛(wèi)生經(jīng)濟(jì),2016(5):81-83.
[9] 周志華.機(jī)器學(xué)習(xí).北京:清華大學(xué)出版社,2016: 202-229.endprint