王思聰 石超珺 滕 斌 喬魯燕 李贊華△ 王鏡涵 曾慶嘉 秦亞星 馮 珊
【提 要】 目的 探討貝葉斯網(wǎng)絡(luò)在醫(yī)務(wù)人員健康狀況分析中的應(yīng)用,為醫(yī)務(wù)人員健康管理提供方向和思路。方法 通過半樸素貝葉斯(TAN)構(gòu)建年齡、性別、部門(臨床/非臨床)等基本信息之間的連接,以此為基礎(chǔ)建立貝葉斯網(wǎng)絡(luò)表示各體檢指標(biāo)間的關(guān)聯(lián)關(guān)系。結(jié)果 在2014-2017年某三甲醫(yī)院醫(yī)務(wù)人員體檢數(shù)據(jù)上,貝葉斯網(wǎng)絡(luò)以年齡、性別、肝臟為3個(gè)中心結(jié)點(diǎn),建立起與其他體檢指標(biāo)的關(guān)聯(lián)。以中心結(jié)點(diǎn)肝臟為條件的分組異常檢出率統(tǒng)計(jì)及貝葉斯網(wǎng)絡(luò)推斷結(jié)果同時(shí)顯示:該院醫(yī)務(wù)人員肝臟與甲狀腺、膽囊、腎臟、體重指標(biāo)之間的關(guān)聯(lián)性差異有統(tǒng)計(jì)學(xué)意義。結(jié)論 貝葉斯網(wǎng)絡(luò)對(duì)于建立醫(yī)務(wù)人員體檢管理體系具有可參考價(jià)值。
貝葉斯網(wǎng)絡(luò)是以概率論和圖論為理論基礎(chǔ)的一種不確定性知識(shí)表示和推理模型[1]。傳統(tǒng)的統(tǒng)計(jì)方法應(yīng)用樣本信息和總體信息進(jìn)行統(tǒng)計(jì)推斷,而貝葉斯方法則利用樣本信息、總體信息及先驗(yàn)信息進(jìn)行統(tǒng)計(jì)推斷。當(dāng)有先驗(yàn)信息可以利用時(shí),采用貝葉斯方法可以得到更好的估計(jì)結(jié)果[2]。尤其是當(dāng)數(shù)據(jù)庫中數(shù)據(jù)屬性的維度增高,屬性之間的關(guān)聯(lián)性難以直觀發(fā)現(xiàn)時(shí),采用貝葉斯方法建??梢钥焖侔l(fā)現(xiàn)各指標(biāo)之間隱性的關(guān)聯(lián)性,從而進(jìn)行預(yù)測性決策。
我國對(duì)醫(yī)務(wù)人員的職業(yè)健康研究起步較晚,研究方法比較單一。結(jié)合某三甲醫(yī)院醫(yī)務(wù)人員體檢數(shù)據(jù)記錄進(jìn)行貝葉斯網(wǎng)絡(luò)模型探索,可以為進(jìn)一步的數(shù)據(jù)分析提供方法學(xué)參考,為健康管理提供方向和思路。
1.資料來源
數(shù)據(jù)資料來自某三甲醫(yī)院體檢中心數(shù)據(jù)庫,提取出2014-2017年該醫(yī)院全體職工體檢報(bào)告記錄。提取每份報(bào)告中體檢年份、年齡、性別、部門等信息(下文中稱為“基本信息”),以及12項(xiàng)體檢項(xiàng)目診斷結(jié)果(下文中稱為“體檢指標(biāo)”):甲狀腺、卵巢、子宮、腎臟、前列腺、膽囊、肝臟、體重、血壓、胃、食道、十二指腸。各數(shù)據(jù)字段被整理為類別數(shù)據(jù):性別(男、女),年齡(20~39、40~59、60+),部門(臨床、非臨床),體重(偏低、正常、偏高、肥胖),血壓(偏高、正常、偏低),其他指標(biāo)(正常、異常)。數(shù)據(jù)的提取與處理以體檢報(bào)告中診斷結(jié)果為準(zhǔn)。由于體檢者選擇的體檢項(xiàng)目不完全相同,所以部分樣本含有空值項(xiàng)。數(shù)據(jù)集的樣本量為8163,數(shù)據(jù)缺失率為35.88%。
2.統(tǒng)計(jì)方法
將基本信息變量記為I1,…,IM,體檢指標(biāo)變量記為E1,…,EN?;拘畔m與體檢指標(biāo)En的分類值分別用im,1,…,im,km和en,1,…,en,kn表示,其中km,kn表示分類數(shù),m=1,…,M,n=1,…,N。
本研究引入貝葉斯網(wǎng)絡(luò)表示體檢結(jié)果的聯(lián)合概率分布。貝葉斯網(wǎng)絡(luò)可將聯(lián)合概率模型分解為乘積形式:
(1)
其中pa(·)表示變量的父結(jié)點(diǎn)集合。由于貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)學(xué)習(xí)受數(shù)據(jù)的影響較大,因此需要對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行合理約束,并盡量降低網(wǎng)絡(luò)的復(fù)雜度。結(jié)合基本信息與體檢指標(biāo)之間的邏輯關(guān)系,本文設(shè)計(jì)三步法進(jìn)行貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)。
第一步:基本信息變量之間的相關(guān)性通過半樸素貝葉斯(tree augmented na?ve Bayes,TAN)學(xué)習(xí)[3-4],步驟如下:
對(duì)每一個(gè)體檢指標(biāo)En,n=1,…,N,分別學(xué)習(xí)TAN模型結(jié)構(gòu)
(2)
其中TAN假設(shè)pa(Im)最多包含一個(gè)變量,這稱為“獨(dú)依賴估計(jì)”(one-dependent estimator,ODE)。
第二步:對(duì)貝葉斯網(wǎng)絡(luò)中各變量的父結(jié)點(diǎn)集合作出如下假設(shè):
①pa(Im)不包含任意體檢指標(biāo)En,即基本信息不以體檢指標(biāo)的結(jié)果為條件。在這個(gè)約束下,貝葉斯網(wǎng)絡(luò)將描述醫(yī)務(wù)人員特征的基本信息作為先驗(yàn)條件。
②pa(En)不僅可以包含任意其他體檢指標(biāo),也可以包含任意基本信息Im。體檢指標(biāo)異常的概率依賴于基本信息,同時(shí)可以依賴于其他可觀測的體檢指標(biāo),以此來刻畫不同體檢指標(biāo)的關(guān)聯(lián)性。
第三步:在第一步與第二步給定的約束下,考慮到數(shù)據(jù)本身具有缺失值,采用SEM(structural expectation maximization)算法進(jìn)行貝葉斯結(jié)構(gòu)學(xué)習(xí)[5],得到貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)。
本研究采用R語言bnlearn package進(jìn)行數(shù)據(jù)處理與統(tǒng)計(jì)分析。
1.基本情況
本研究分析某醫(yī)院2014-2017年全體醫(yī)務(wù)人員職工體檢診斷結(jié)果,共計(jì)8163例。其中,年齡、性別、部門的分布情況見表1。表1中顯示臨床與非臨床部門的年齡、性別構(gòu)成有較大差異。
按照體檢指標(biāo)異常檢出率排序,4年間異常檢出率最高的指標(biāo)依次為:胃(69.9%),體重(46.8%),甲狀腺(28.5%),前列腺(26.3%),肝臟(26.2%)。
表1 該醫(yī)院臨床與非臨床醫(yī)務(wù)人員的年齡與性別構(gòu)成n(%)
2.半樸素貝葉斯分析
根據(jù)統(tǒng)計(jì)方法第一步,半樸素貝葉斯模型對(duì)基本信息變量之間相關(guān)性的分析結(jié)果如表2。從表2中看出不同體檢指標(biāo)的TAN結(jié)果比較集中,得到的結(jié)構(gòu)相對(duì)穩(wěn)定。最終的基本信息的拓?fù)浣Y(jié)構(gòu)為:年齡→性別,年齡→部門,性別與部門無連接。
表2 通過半樸素貝葉斯(TAN)分析基本信息變量之間相關(guān)性的結(jié)果
3.貝葉斯網(wǎng)絡(luò)
在半樸素貝葉斯確定的基本信息的拓?fù)浣Y(jié)構(gòu)基礎(chǔ)上,根據(jù)統(tǒng)計(jì)方法第二步限制連接方法,再運(yùn)用第三步算法學(xué)習(xí)貝葉斯網(wǎng)絡(luò)結(jié)構(gòu),得到結(jié)果如圖1。圖中灰色底的結(jié)點(diǎn)表示基本信息變量,白色底結(jié)點(diǎn)表示體檢指標(biāo)變量。觀察圖像發(fā)現(xiàn),貝葉斯網(wǎng)絡(luò)中出現(xiàn)了3個(gè)中心結(jié)點(diǎn):年齡、性別和肝臟。
(1)年齡 年齡作為明顯的中心結(jié)點(diǎn),分別指向了前列腺、子宮、肝臟、血壓、腎臟、膽囊、十二指腸、食道,這代表這些指標(biāo)與年齡高度相關(guān)。
(2)性別 前列腺直接與性別連接,子宮通過卵巢與性別連接,這兩個(gè)指標(biāo)可以解釋性別信息;前列腺、子宮還與年齡有直接連接,這說明兩個(gè)指標(biāo)還同時(shí)包含一定的年齡信息。圖中性別只與卵巢、前列腺、體重3個(gè)指標(biāo)直接連接,而其他與性別相關(guān)的屬性可以認(rèn)為被前列腺和子宮替代,這是貝葉斯網(wǎng)絡(luò)的結(jié)構(gòu)優(yōu)化遵循奧卡姆剃刀定律(即簡單有效原理)的結(jié)果。因此,可以將與前列腺、子宮的連接視為性別差異,于是血壓、胃、肝臟、甲狀腺的性別關(guān)聯(lián)性被識(shí)別。
(3)肝臟 肝臟是體檢指標(biāo)中與其他指標(biāo)關(guān)聯(lián)性較強(qiáng)的中心結(jié)點(diǎn)。與肝臟的關(guān)聯(lián)性主要體現(xiàn)在年齡、性別、甲狀腺、膽囊、腎臟和體重。
圖1 該醫(yī)院醫(yī)務(wù)人員體檢結(jié)果的貝葉斯網(wǎng)絡(luò)模型示意圖
本研究中貝葉斯網(wǎng)絡(luò)的建立依賴于體檢結(jié)果表現(xiàn)出的概率相關(guān)性,各指標(biāo)之間的連接并非因果關(guān)系,不宜將此網(wǎng)絡(luò)應(yīng)用于因果推斷。
4.中心結(jié)點(diǎn)與其他非中心結(jié)點(diǎn)之間的關(guān)聯(lián)性分析
為驗(yàn)證貝葉斯網(wǎng)絡(luò)對(duì)關(guān)聯(lián)性刻畫的準(zhǔn)確度,首先以年齡、性別和肝臟3個(gè)中心結(jié)點(diǎn)為條件,通過貝葉斯網(wǎng)絡(luò)估計(jì)與肝臟相連接的指標(biāo)(非中心結(jié)點(diǎn))的異常率,與體檢數(shù)據(jù)統(tǒng)計(jì)的真實(shí)異常檢出率相比較(結(jié)果見表3)。表3顯示,貝葉斯網(wǎng)絡(luò)中肝臟及其連接的平均誤差為3.6%,因此本文所構(gòu)建的貝葉斯網(wǎng)絡(luò)具有一定的準(zhǔn)確性。對(duì)貝葉斯網(wǎng)絡(luò)所發(fā)現(xiàn)關(guān)聯(lián)性的分析結(jié)果如下:
(1)甲狀腺 甲狀腺與子宮(女性,與性別有關(guān))、肝臟連接。表3結(jié)果顯示,女性組的異常檢出率普遍高于男性,其中肝臟異常組表現(xiàn)更為顯著。建議女性醫(yī)務(wù)人員注意甲狀腺方面的健康,尤其是20~39歲肝臟異常的女性醫(yī)務(wù)人員。
(2)膽囊 膽囊與年齡、肝臟相連,隨著年齡的增加,膽囊異常檢出率升高。與肝臟正常組相比,肝臟異常組的膽囊異常率相對(duì)更高。高齡或肝臟異常的醫(yī)務(wù)人員需要關(guān)注膽囊健康。
(3)腎臟 與膽囊相似,腎臟也與年齡、肝臟關(guān)聯(lián),肝臟異常的醫(yī)務(wù)人員需特別注意腎臟的健康,其腎臟異常率高于肝臟正常的醫(yī)務(wù)人員。
(4)體重 體重與性別、肝臟相連。體重偏高與肥胖兩項(xiàng)數(shù)值均表明:肝臟異常組存在更顯著的體重偏高或肥胖問題。
表3 依據(jù)肝臟狀態(tài)分類的體檢指標(biāo)異常檢出率比較(%)
醫(yī)務(wù)人員在生理健康、心理健康、職業(yè)暴露等方面均存在諸多隱患。重慶市某三甲醫(yī)院2013年和2015年醫(yī)務(wù)人員體檢亞健康狀態(tài)檢出率分別為89.48%和93.94%[6],柳州市某三甲醫(yī)院2018年體檢發(fā)現(xiàn)醫(yī)務(wù)人員亞健康狀況檢出率高達(dá)98.75%[7]。國外研究表明,如果在長期奉獻(xiàn)給別人過程中被索取過多,會(huì)出現(xiàn)痛惡工作、自卑、喪失同情意識(shí)等情緒,產(chǎn)生以極度的心身倦怠和感情衰竭為主的“心身耗竭綜合征”的表現(xiàn),不利于臨床疑難病例的解決,造成工作滿意度的下降、醫(yī)療事故的發(fā)生率增加等[8],因此對(duì)醫(yī)務(wù)人員的體檢數(shù)據(jù)進(jìn)行合理有效分析,及時(shí)根據(jù)相關(guān)風(fēng)險(xiǎn)因素進(jìn)行健康管理,可以改善醫(yī)務(wù)人員的生活質(zhì)量和服務(wù)質(zhì)量。
貝葉斯網(wǎng)絡(luò)在醫(yī)療領(lǐng)域已有成功的應(yīng)用,如Quinteros等運(yùn)用貝葉斯網(wǎng)絡(luò)對(duì)急診室數(shù)據(jù)建立癥狀-疾病網(wǎng)絡(luò)[9]。本文提出了一種新的貝葉斯網(wǎng)絡(luò)模型的結(jié)構(gòu)學(xué)習(xí)方法,可用于進(jìn)行體檢數(shù)據(jù)的關(guān)聯(lián)性分析。
在本文中,我們重點(diǎn)關(guān)注了與健康管理相關(guān)的三個(gè)方面:網(wǎng)絡(luò)結(jié)構(gòu)的生成,可以輕松地傳達(dá)基本信息、體檢指標(biāo)之間的隱性關(guān)系;運(yùn)用貝葉斯網(wǎng)絡(luò)進(jìn)行個(gè)人風(fēng)險(xiǎn)評(píng)估的能力;該網(wǎng)絡(luò)將來易于轉(zhuǎn)換成健康管理決策模型。
針對(duì)醫(yī)療及體檢數(shù)據(jù)的特點(diǎn),本文將數(shù)據(jù)屬性劃分為“基本信息”與“體檢指標(biāo)”兩類。這兩類屬性具有不同的特征:基本信息是體檢者本人的特征信息,而體檢指標(biāo)僅表示本次體檢的結(jié)果數(shù)據(jù),通?;拘畔⒉灰蕾囉隗w檢指標(biāo)結(jié)果。這是本文設(shè)計(jì)的三步貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)方法的出發(fā)點(diǎn),適用于如體檢數(shù)據(jù)等電子病歷檔案數(shù)據(jù)。通常健康體檢的完整數(shù)據(jù)包含的屬性數(shù)遠(yuǎn)超本文中列出的部分指標(biāo)。本文以部分基本信息與體檢指標(biāo)作為實(shí)例,較為完整地表述了貝葉斯網(wǎng)絡(luò)在體檢數(shù)據(jù)分析中的應(yīng)用。貝葉斯網(wǎng)絡(luò)建模的意義在于:通過貝葉斯網(wǎng)絡(luò)建模,可以清晰地展示各屬性數(shù)據(jù)間隱含的關(guān)聯(lián)關(guān)系,發(fā)現(xiàn)具有多條連接的中心結(jié)點(diǎn),或者研究者所關(guān)心的指標(biāo)與其他指標(biāo)之間的連接形式。
本文限于所獲取的該醫(yī)院職工體檢數(shù)據(jù)的完整性,未能構(gòu)建更大規(guī)模的(包含更多屬性的)貝葉斯網(wǎng)絡(luò),也因此未能對(duì)該院醫(yī)務(wù)人員整體健康狀況作出完整的結(jié)論。其次,單個(gè)醫(yī)院的數(shù)據(jù)往往缺乏代表性。鑒于本研究目前只是立足于數(shù)據(jù)分析的方法學(xué)探討,未組織多中心的大樣本研究,也正是因?yàn)楸疚氖欠椒▽W(xué)研究,所以不受樣本量和是否多中心研究的限制[10]。本研究中提出的方法同樣可以應(yīng)用到不同病種、人群以及其他檢查結(jié)果的分析中。該判別模型的實(shí)用價(jià)值,有待在將來的實(shí)際應(yīng)用中得到更多實(shí)證驗(yàn)證和效果評(píng)價(jià)。