劉雁
摘要:本文以桂林市雁山區(qū)524名居民為研究對象,運用CHAID分類樹模型和Logistics逐步回歸方法比較和分析影響居民健康素養(yǎng)的重要因素。研究表明,兩種模型在分析影響因素時均取得一致結(jié)果,同時二者各有優(yōu)勢。
關(guān)鍵詞:分類樹;Logistics回歸;健康素養(yǎng);影響因素
1 數(shù)據(jù)來源
數(shù)據(jù)來源于雁山區(qū)衛(wèi)生和計劃生育局的當?shù)鼗鶎有l(wèi)生人員對雁山區(qū)居民的實地抽樣調(diào)查,所得數(shù)據(jù)僅用于統(tǒng)計分析,問卷采用國家衛(wèi)生計生委統(tǒng)一編制的2018年全國居民健康素養(yǎng)監(jiān)測調(diào)查問卷,根據(jù)雁山區(qū)的實際情況及研究內(nèi)容做適當刪改。
2 基本情況
調(diào)查對象為桂林市雁山區(qū)15—69歲的居民,共發(fā)放問卷540份,回收有效問卷524份,有效率97.04%。在調(diào)查的性別成分中,男性272名,占51.9%,女性252名,占48.1%,男女的性別比例為 1.08:1。在年齡構(gòu)成中,調(diào)查對象的年齡范圍在15~69歲,年齡分布以[55,69]歲組最多,占26.7%,其次為[45,54]歲組,為21.6%,最少為[25,34]歲組,占13.2%。在婚姻情況下,大多數(shù)已婚人士,其次是未婚,占24.2%,其余的小部分是分居,離婚或喪偶狀態(tài)。教育比例最大的是初中水平,占42.4%,其次是小學,占25.4%。大專/本科僅占2.5%。在職業(yè)構(gòu)成上,大多數(shù)調(diào)查對象以務(wù)農(nóng)為主,占比為72.9%;其次是學生組,占16.4%,而企事業(yè)單位等其他職業(yè)占比很小。在鄉(xiāng)鎮(zhèn)劃分上,三個鄉(xiāng)鎮(zhèn)的構(gòu)成比接近1:1:1。
3 討論
關(guān)于性別,年齡段,婚姻狀況,教育水平,職業(yè),鄉(xiāng)鎮(zhèn)劃分等因素進行統(tǒng)計學分析,發(fā)現(xiàn)只有年齡段、婚姻狀況、文化程度以及鄉(xiāng)鎮(zhèn)劃分與是否具備健康素養(yǎng)之間存在相關(guān)關(guān)系,且各因素之間的相關(guān)程度較低。因此,根據(jù)不同特征下的總體健康素養(yǎng)特點,將相關(guān)分析中具有顯著相關(guān)的變量作為解釋變量放入模型中,是否具備健康素養(yǎng)作為被解釋變量。每個變量的賦值如表1所示。
采用CHAID分類樹模型對數(shù)據(jù)進行分析,以尋找居民健康素養(yǎng)較高人群和顯著影響因素,因變量是整體健康素養(yǎng)水平,自變量是年齡組、婚姻情況、教育水平和鄉(xiāng)鎮(zhèn)分布。父節(jié)點的默認數(shù)量為100,子節(jié)點數(shù)為50,最大樹深度為3,拆分節(jié)點和合并類別的顯著性水平α=0.05,卡方檢驗選擇Pearson卡方。健康素養(yǎng)水平按照影響因素貢獻大小依次差分,第一層的貢獻度最大,逐層減少。若在某節(jié)點不存在統(tǒng)計學差異的拆分,則停止分層。結(jié)果見圖1。
由圖1可知,最終生成的分類樹有2個父節(jié)點,3個子節(jié)點(終端節(jié)點),樹深度為2。影響雁山區(qū)居民健康素養(yǎng)的兩個重要因素分別為文化水平和鄉(xiāng)鎮(zhèn)。圖中第一級是文化程度,表明受教育程度對居民健康素養(yǎng)的貢獻度最大。這一層中,高中至本科學歷的健康素養(yǎng)水平高于初中以下學歷的健康素養(yǎng)水平,說明教育水平越高,越具備健康素養(yǎng)。對于初中及以下學歷,第二層為鄉(xiāng)鎮(zhèn)劃分,雁山鎮(zhèn)具備健康素養(yǎng)的比例比柘木和草坪鎮(zhèn)的要好。
表2的Logistic回歸分析的結(jié)果表明,模型中顯著性水平α<0.05的自變量為文化水平和鄉(xiāng)鎮(zhèn)劃分。受教育程度以及居住地理位置對整體健康素養(yǎng)水平產(chǎn)生重要影響。健康素養(yǎng)總體水平隨著學歷的上升而不斷提高,偏遠地區(qū)的農(nóng)村地區(qū)的健康素養(yǎng)水平相對較低。
采用逐步尋優(yōu)剔除變量,分別剔除了年齡段和婚姻情況,最終構(gòu)建的模型包含的變量為常量,文化程度和鄉(xiāng)鎮(zhèn)劃分。詳見表3。
Logistics回歸模型為:
ROC曲線可以直觀的比較二者模型的優(yōu)缺點?!?-特異度”與“敏感度”分別代表橫縱軸。模型的合適度與否可以根據(jù)曲線下面積的大小作為判斷標準。ROC曲線下的面積(縮寫為AUC)介于0.5和1.0之間,當AUC>0.5時,AUC越接近1,說明診斷效果越好[9] 。如圖2所示,Logistics回歸和分類樹的預測曲線遠離參考線。由表4知,其AUC均大于0.77,表明模型具有一定的準確性。
CHAID分類樹模型在樹圖形上能夠分析總體健康素養(yǎng)水平的各個影響因素,還能顯示出變量間的交互作用關(guān)系,具有直觀、簡潔、明了的表現(xiàn)形式。作為非參數(shù)方法,其邏輯性很強,輸出結(jié)果明確,適用范圍較廣泛。作為參數(shù)方法的Logistics回歸可以得到一個回歸方程,用于預測新加入的數(shù)據(jù)健康素養(yǎng)具備率,相較于分類樹模型,更容易操作。在分析影響因素上,兩種模型都算得上比較好的分析方法,二者結(jié)合可以取長補短,發(fā)揮各自的優(yōu)勢。
4 結(jié)論
結(jié)果顯示,影響雁山區(qū)居民健康素養(yǎng)的兩大重要因素是教育水平和鄉(xiāng)鎮(zhèn)分布。許多研究表明[2] [3] ,高學歷的人群更樂于主動去獲取健康知識,從而對不利于健康的行為做出規(guī)避。政府部門應(yīng)加強居民文化教育,尤其是相對落后的貧困地區(qū)的居民的文化教育。同時,還應(yīng)對不同教育水平的人采取不同的干預活動,開展健康促進,努力提高個人健康素養(yǎng)。
參考文獻:
[1] 楊宏輝,朱利杰,高傳玉.分類樹模型與logistic回歸在高血壓危險因素預測中的應(yīng)用分析[J].中國衛(wèi)生標準管理,2017,8(24):7-10.
[2] 單詩洋.2014年遼寧省居民健康素養(yǎng)調(diào)查分析[D].吉林大學,2017.
[3] 胡鴻寶,茍莉莉,石呈,黃芩,黃永康,李金山.2016年南京市居民健康素養(yǎng)調(diào)查結(jié)果[J].職業(yè)與健康,2017,33(22):3070-3073+3077.
(作者單位:廣西師范大學數(shù)學與統(tǒng)計學院)