劉海霞 王 玖 林 林 鐘曉妮
兩周就診率是了解居民門診衛(wèi)生服務(wù)利用情況的一個(gè)重要指標(biāo),通過重慶西部擴(kuò)點(diǎn)地區(qū)衛(wèi)生服務(wù)調(diào)查資料,將決策樹與回歸技術(shù)結(jié)合應(yīng)用到居民衛(wèi)生服務(wù)利用領(lǐng)域,研究居民就診情況的影響因素,為衛(wèi)生服務(wù)決策提供參考。
1.資料來源
資料來源于國家第四次衛(wèi)生服務(wù)調(diào)查——重慶西部擴(kuò)點(diǎn)地區(qū)調(diào)查數(shù)據(jù),根據(jù)全國第四次衛(wèi)生服務(wù)調(diào)查方案的要求,采用分層多階段整群隨機(jī)抽樣的方法,調(diào)查了11 570名居民,經(jīng)統(tǒng)一培訓(xùn)調(diào)查員進(jìn)行入戶調(diào)查。
2.分析方法
用Epidata軟件進(jìn)行原始數(shù)據(jù)錄入、整理及邏輯檢錯(cuò);應(yīng)用SPSS17.0軟件包,通過決策樹和logistic回歸分別對居民就診的影響因素進(jìn)行分析。
(1)決策樹原理與算法
決策樹(decision tree)是一種主要解決實(shí)際應(yīng)用中分類問題的數(shù)據(jù)挖掘方法,通過訓(xùn)練樣本集建立目標(biāo)變量關(guān)于各輸入變量的分類預(yù)測模型,全面實(shí)現(xiàn)輸入變量和目標(biāo)變量不同取值下的數(shù)據(jù)分組,進(jìn)而用于對新數(shù)據(jù)對象的分類和預(yù)測〔1〕。一個(gè)決策樹由一系列節(jié)點(diǎn)和分支組成,而節(jié)點(diǎn)和子節(jié)點(diǎn)之間形成分支,節(jié)點(diǎn)代表著決策過程中所考慮的屬性,而不同屬性值形成不同分支,在決策樹的葉節(jié)點(diǎn)得到結(jié)論,且從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的每一條路徑對應(yīng)著一條決策規(guī)則,當(dāng)利用所建決策樹對一個(gè)新數(shù)據(jù)對象進(jìn)行分析時(shí),決策樹能夠依據(jù)該數(shù)據(jù)輸入變量的取值,推斷出相應(yīng)目標(biāo)變量的分類或取值〔2〕。
目前比較流行的決策樹算法主要有C4.5、CART、CHAID,這些算法主要是根據(jù)數(shù)據(jù)的特點(diǎn)建立相應(yīng)的函數(shù)來盡可能地正確分類所有的觀察〔1,3〕。其中,C4.5是目前最有影響力的算法,是 ID3的改進(jìn)算法〔4〕,輸入變量的類型可以是兩分類、多分類名義型和區(qū)間型變量,目標(biāo)變量可以是為兩分類或多分類名義型;CART即classification and regression tree(分類與回歸樹),允許輸入的變量類型可以為名義型、有序型,目標(biāo)變量可以為名義型或區(qū)間型〔5〕;CHAID即Chi-squared automatic interaction detector(卡方自動(dòng)交互探測),允許輸入的變量類型可以為名義型、區(qū)間型,如果是有序型,則可以當(dāng)做區(qū)間型變量處理,目標(biāo)變量可以為兩分類、多分類名義型、區(qū)間型和有序型變量〔6〕。
(2)非條件二分類logistic回歸原理
logistic回歸是一種處理目標(biāo)變量為分類變量的非線性回歸方法,按照反應(yīng)變量的類型分為二分類logistic回歸、有序多分類logistic回歸和無序多分類logistic回歸;按照研究設(shè)計(jì)類型分為條件與非條件logistic回歸,條件logistic回歸模型引入條件概率乘法定理構(gòu)造對數(shù)似然函數(shù),非條件logistic回歸模型引入二項(xiàng)分布概率構(gòu)造對數(shù)似然函數(shù)對參數(shù)進(jìn)行估計(jì)。自變量可以是連續(xù)性變量、分類變量和等級變量,連續(xù)變量需離散化,分類變量則需要轉(zhuǎn)化成啞變量〔7〕。
1.居民就診基本情況
本次調(diào)查共3 970戶11 570名居民,其中農(nóng)村和城市各1 985戶,分別為5 968、5 602名居民,男性占49.3%,女性占50.7%。居民合計(jì)兩周就診2 447人次,兩周就診率21.15%(城市為12.58%、農(nóng)村為29.19%),男女就診率分別為18.41%、23.84%,差異有統(tǒng)計(jì)學(xué)意義(P<0.05)。
2.居民就診影響因素變量整理與賦值
將兩周內(nèi)是否就診作為目標(biāo)變量,可能影響患者就診的性別、民族、年齡、婚姻狀況、文化程度、職業(yè)類型、就業(yè)狀況、醫(yī)療保險(xiǎn)情況、居民類型、家庭人口數(shù)、家庭收入、自感病情和是否患慢病等因素作為自變量,構(gòu)建決策樹模型與logistic回歸模型。其中,將家庭收入和年齡兩個(gè)自變量進(jìn)行離散化,家庭收入按四分位數(shù)間距分為低、中、高等收入,對缺失值進(jìn)行最常頻數(shù)或均數(shù)處理,具體賦值見表1。
表1 變量及其賦值表
3.居民就診衛(wèi)生服務(wù)利用的決策樹與logistic回歸分析
(1)決策樹模型及變量重要性排序
根據(jù)數(shù)據(jù)特點(diǎn)選擇CART樹增長法,模型構(gòu)建過程中進(jìn)行樹的修剪以自動(dòng)控制樹的過增長,并對各解釋變量的重要性進(jìn)行排序,樹模型和變量重要性排序分別見圖1和表2。從樹模型可以看出,樹的根節(jié)點(diǎn)為年齡,說明年齡是就診最重要的因素,樹狀圖的其他節(jié)點(diǎn)還包括自感病情、家庭收入、居民類型、職業(yè)類型和家庭人口數(shù),共6層、13個(gè)節(jié)點(diǎn),對應(yīng)13條分類規(guī)則,以最右側(cè)一條規(guī)則來看,在年齡為“4、5、6、7、8”,且自感病情為“1和3”時(shí),患病居民選擇就診的可能性概率為98.1%,其他規(guī)則解釋類似;而從篩選出變量的重要性來看,自感病情是居民選擇就診的最重要的因素,其次為年齡,解釋變量的重要性大,說明增加該變量進(jìn)入決策樹時(shí),整個(gè)系統(tǒng)不確定程度減少的多;而模型的錯(cuò)誤分類率為0.174,具體是指被分錯(cuò)的例數(shù)占全部例數(shù)的比例。
表2 就診衛(wèi)生服務(wù)利用各解釋變量的重要性排序
(2)居民就診的logistic回歸模型
以是否就診為目標(biāo)變量,以表1中各變量為自變量,其中婚姻狀況和職業(yè)類型為多分類無序變量,轉(zhuǎn)化成啞變量,在0.05和0.1標(biāo)準(zhǔn)以及啞變量同進(jìn)同出原則下進(jìn)行變量的入選與剔除,模型粗無分類率為0.267,分析結(jié)果見表3。
(3)決策樹與logistic回歸模型分析結(jié)果顯示,兩模型篩選出的錯(cuò)誤分類率,分別為0.174與0.267,決策樹的錯(cuò)誤分類率稍低,且篩選出的變量稍多,兩模型前五位重要解釋變量中都有年齡、家庭收入和居民類型三個(gè)變量,綜合考慮,選擇決策樹模型作為最終模型來考察就診的影響因素。
根據(jù)兩模型的比較,選擇決策樹模型多為居民就診多因素分析的最終模型,CART樹模型共6個(gè)層次、13個(gè)節(jié)點(diǎn),根節(jié)點(diǎn)為年齡,說明年齡這個(gè)因素在眾多輸入變量中相對影響最大,此時(shí)與其競爭根節(jié)點(diǎn)還有自感病情、家庭收入、居民類型和醫(yī)療保險(xiǎn),變量“年齡”將樹分為左右兩枝,左枝終止,右枝又先后被變量“自感病情”、“家庭收入”、“居民類型”、“醫(yī)療保險(xiǎn)”依次分割;從決策樹的分支還可以看出,所選出的影響因素對不同人群的影響不同,以第三層的根節(jié)點(diǎn)“自感病情”為例來看,自感病情為“一般”的居民與自感病情“較輕”、“嚴(yán)重”的居民的影響因素不同,居民類型對自感病情一般的居民有影響,而對自感病情為較輕和嚴(yán)重的沒有影響。因此,我們在制定衛(wèi)生政策的時(shí)候,應(yīng)根據(jù)不同人群的影響因素提出針對性的衛(wèi)生政策,以不同的方式方法摸清不同人群的衛(wèi)生服務(wù)、需求狀況及其衛(wèi)生服務(wù)供給狀況,分析環(huán)境和資源,擬定衛(wèi)生服務(wù)規(guī)劃的目標(biāo)與戰(zhàn)略,提高衛(wèi)生服務(wù)利用率,減少重復(fù)性和浪費(fèi)性衛(wèi)生活動(dòng),實(shí)現(xiàn)資源的合理優(yōu)化配置。
圖1 居民就診衛(wèi)生服務(wù)利用CART樹形圖
表3 民就診因素的多元logistic逐步分析結(jié)果(只列出有統(tǒng)計(jì)學(xué)意義的因素)
重慶作為一個(gè)地域廣闊、人口眾多(貧困農(nóng)村人口較多)、各區(qū)域社會經(jīng)濟(jì)發(fā)展不平衡的直轄市,由于各種因素的影響,衛(wèi)生服務(wù)利用程度、服務(wù)水平和公平性有待提高。綜合有四點(diǎn),首先應(yīng)提高居民的生活質(zhì)量和收入水平,提高居民的健康意識和抵抗疾病風(fēng)險(xiǎn)的能力;其次,建立健全覆蓋城鄉(xiāng)居民的醫(yī)療保障體系,提高并穩(wěn)定城鄉(xiāng)三項(xiàng)基本醫(yī)療保險(xiǎn)參保率,提高政策范圍內(nèi)的醫(yī)?;鹬Ц端剑詫?shí)現(xiàn)衛(wèi)生服務(wù)的公平性;再次,低年齡組和高年齡組的兩周患病率高,對衛(wèi)生服務(wù)的需求較多,相應(yīng)的就診率就會高〔8〕,合理優(yōu)化重慶地區(qū)的人口年齡結(jié)構(gòu),針對不同年齡人群的健康特點(diǎn),重點(diǎn)發(fā)展一些特色科室;最后,針對不同居民類型的人群提出相應(yīng)的衛(wèi)生政策,根據(jù)城市與農(nóng)村居民不同的就診特點(diǎn),提高基層醫(yī)療服務(wù)水平,完善鄉(xiāng)村衛(wèi)生服務(wù)一體化管理和提高城市社區(qū)衛(wèi)生服務(wù)水平,提高城市居民醫(yī)療保險(xiǎn)和農(nóng)村地區(qū)新農(nóng)合報(bào)銷比例,滿足不同居民的醫(yī)療服務(wù)需求,實(shí)現(xiàn)衛(wèi)生服務(wù)的良好效益及其利用的公平性。
1.中國人民大學(xué)統(tǒng)計(jì)學(xué)系數(shù)據(jù)挖掘中心.?dāng)?shù)據(jù)挖掘中的決策樹技術(shù)及其應(yīng)用.統(tǒng)計(jì)與信息論壇,2002,2:4-10.
2.Quinlan JR.Induction of decision Tree.Machine Learning 1,1986:81-106.
3.但小容,陳軒恕,劉飛,等.?dāng)?shù)據(jù)挖掘中決策樹分類算法的研究與改進(jìn).軟件導(dǎo)刊,2009,9(8):41-43.
4.Quinlan JR.Induction of decision Tree.Machine Learning,1986,1(1):81-106.
5.Breiman L,F(xiàn)riedman JH,Qlshen RA,et al.Classification and regression trees:modern applied statistics with S-plus.2nd ed .California:Wadsworth international group,1984:6-9.
6.Jordan MI.Learning in graphical models.Cambridge(Massachusetts):MIT Press,1998:7-8.
7.徐天和、柳青、余松林,等.中國醫(yī)學(xué)統(tǒng)計(jì)百科全書:多元統(tǒng)計(jì)分冊第2版.人民衛(wèi)生出版社,2004:195-201.
8.李魯,盧祖洵,梁萬年,等.社會醫(yī)學(xué).人民衛(wèi)生出版社,2006:128-153.