袁筱祺,朱樂蘭,高 瑋,徐昕昕
(1.南京醫(yī)科大學(xué)附屬上海一院臨床醫(yī)學(xué)院,上海 20080;2.上海市第一人民醫(yī)院醫(yī)務(wù)處,上海 200080;3.黑龍江大學(xué)研究生院,黑龍江 哈爾濱 150000)
膽囊疾病是一種常見疾病,包括膽囊息肉、膽囊炎、膽囊壁毛糙、膽囊結(jié)石、膽囊壁膽固醇結(jié)晶等。最常見的疾病是膽囊結(jié)石,發(fā)病率達(dá)10%~15%[1]。彩色多普勒超聲是診斷膽囊結(jié)石最常用的檢查方式,對膽囊結(jié)石的診斷準(zhǔn)確率可達(dá)95%以上[2],因此根據(jù)彩色多普勒超聲檢查結(jié)果將人群分為結(jié)石組和非結(jié)石組。本研究通過上海市中老年健康體檢人群的基線資料、血脂指標(biāo)、肝功能檢查指標(biāo)、膽囊結(jié)石患病情況,探討影響膽囊結(jié)石患病的相關(guān)危險(xiǎn)因素,建立基于多層感知器神經(jīng)網(wǎng)絡(luò)的膽囊結(jié)石風(fēng)險(xiǎn)預(yù)測模型,為膽囊結(jié)石的診斷與預(yù)防工作提供依據(jù)。
膽囊結(jié)石患病的機(jī)理復(fù)雜、相關(guān)風(fēng)險(xiǎn)因素較多,國內(nèi)外膽囊結(jié)石的風(fēng)險(xiǎn)預(yù)測模型所納入的風(fēng)險(xiǎn)因素具有顯著性差異,膽囊結(jié)石預(yù)測模型的準(zhǔn)確率還有待于進(jìn)一步提高,其相關(guān)典型研究見表1。
表1 膽囊結(jié)石風(fēng)險(xiǎn)因素及預(yù)測模型相關(guān)研究
風(fēng)險(xiǎn)因素識(shí)別是建立預(yù)測模型的基礎(chǔ),早前研究大多根據(jù)病例相關(guān)檢查或經(jīng)驗(yàn)歸納篩選出風(fēng)險(xiǎn)因素。隨著現(xiàn)代醫(yī)療的發(fā)展,醫(yī)療大數(shù)據(jù)的積聚,一些學(xué)者嘗試?yán)冕t(yī)療數(shù)據(jù)集資源開展相關(guān)研究,進(jìn)一步完善膽囊結(jié)石風(fēng)險(xiǎn)因素識(shí)別。風(fēng)險(xiǎn)模型建立階段,已有研究大多采用回歸分析,難以規(guī)避變量之間的相關(guān)性問題,而機(jī)器學(xué)習(xí)人工智能等技術(shù)提供了新的解決方案。多層感知器神經(jīng)網(wǎng)絡(luò)模型可以將一組輸入向量映射到一組輸出向量,輸入與輸出之間可以多層加權(quán)連接。多層感知器的結(jié)構(gòu)基本類似于一套級聯(lián)的感知器,主要由輸入層、隱藏層和輸出層組成。多層感知器一般包含一個(gè)或多個(gè)隱藏層,并且每個(gè)隱藏層中均有數(shù)個(gè)并行的感知器神經(jīng)元,這些隱藏層神經(jīng)元能夠從輸入樣本中逐步提取多種有用特征。在使用之前需要先對它進(jìn)行訓(xùn)練,通過輸入樣本對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,能夠從數(shù)據(jù)樣本中自動(dòng)地學(xué)習(xí)并揭示樣本中所蘊(yùn)含的非線性關(guān)系,其對事物和環(huán)境具有很強(qiáng)的自學(xué)習(xí)、自適應(yīng)、聯(lián)想記憶、并行處理和非線性轉(zhuǎn)換的能力[12]。鑒于膽囊結(jié)石風(fēng)險(xiǎn)因素復(fù)雜,加之?dāng)?shù)據(jù)集類型多元,重要風(fēng)險(xiǎn)因素有待于進(jìn)一步挖掘。本研究采用神經(jīng)網(wǎng)絡(luò)中的多層感知器(MLP)完成建模,對數(shù)據(jù)進(jìn)行合理分類,優(yōu)于普通的ANN模型。對于膽囊結(jié)石風(fēng)險(xiǎn)因素的識(shí)別,本文參考膽囊結(jié)石風(fēng)險(xiǎn)因素相關(guān)文獻(xiàn),以及相關(guān)研究對膽囊結(jié)石影響的標(biāo)準(zhǔn),通過多層感知器神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)建模,以期提高膽囊結(jié)石預(yù)測準(zhǔn)確率和普適性。
本研究基于上海市某三甲醫(yī)院為期4年(2016-2019年)的患有與未患有膽囊結(jié)石中老年健康體檢者數(shù)據(jù),總計(jì)3560條,變量的詳細(xì)相關(guān)信息見表2。
表2 數(shù)據(jù)集變量的相關(guān)信息
數(shù)據(jù)集針對電子病歷和檢驗(yàn)結(jié)果等非結(jié)構(gòu)化數(shù)據(jù)所存在的標(biāo)準(zhǔn)不規(guī)范、數(shù)據(jù)缺失、數(shù)據(jù)噪聲,以及結(jié)構(gòu)化數(shù)據(jù)所存在的字段復(fù)雜和系統(tǒng)偏差等問題,本研究采取數(shù)據(jù)清洗、集成和降維等數(shù)據(jù)預(yù)處理操作。丟棄和強(qiáng)制替換缺失值較多以及明顯不合理的數(shù)據(jù)。對變量中的血脂指標(biāo)和肝功能指標(biāo)用樣本平均值填充連續(xù)性變量缺失數(shù)據(jù),并采用最大最小值法進(jìn)行歸一化處理,主要是對總膽固醇、甘油三酯、高密度脂蛋白、低密度脂蛋白、γ谷氨酰轉(zhuǎn)肽酶、堿性磷酸酶、丙氨酸氨基轉(zhuǎn)移酶、天冬氨酶氨基轉(zhuǎn)移酶進(jìn)行數(shù)據(jù)的進(jìn)一步處理,最終獲得有效數(shù)據(jù)3462條。其定性變量的描述統(tǒng)計(jì)信息見表3。
表3 定性變量的描述統(tǒng)計(jì)信息
對于性別、年齡、BMI、血壓等定性資料,采用卡方檢驗(yàn);對于總膽固醇、甘油三酯、高密度脂蛋白、低密度脂蛋白等連續(xù)型變量,采用方差A(yù)NOVA,進(jìn)行統(tǒng)計(jì)分析。篩選出影響膽囊結(jié)石患病的6個(gè)風(fēng)險(xiǎn)因素。根據(jù)單因素分析結(jié)果,性別(χ2=25.295,P<0.001)、年齡(χ2=30.102,P<0.001)、甘油三酯(F=9.230,P=0.002)、高密度脂蛋白(F=5.308,P=0.021)、丙氨酸氨基轉(zhuǎn)移酶(F=61.961、P<0.001)、天冬氨酶氨基轉(zhuǎn)移酶(F=19.807,P<0.001)與膽囊結(jié)石患病具有顯著性差異,見表4。
表4 變量與膽囊結(jié)石的單因素分析 n(%)
關(guān)于模型擬合優(yōu)度,經(jīng)Hosmer and Lemeshow 檢驗(yàn)(P=0.316),差異無統(tǒng)計(jì)學(xué)意義。說明本模型解釋力度與飽和模型無差異,即模型擬合優(yōu)度較高。見表5。
表5 預(yù)測模型擬合信息表
將單因素分析中具有顯著性差異的變量年齡、性別、甘油三酯、高密度脂蛋白、丙氨酸氨基轉(zhuǎn)移酶、天冬氨酸氨基轉(zhuǎn)移酶作為協(xié)變量,是否患有膽囊結(jié)石作為因變量,采用向前Wald法進(jìn)行逐步回歸分析,將年齡變成啞變量,以α=0.05為入選變量標(biāo)準(zhǔn),α=0.1為剔除變量標(biāo)準(zhǔn),最終構(gòu)建二元Logistic模型。性別、高密度脂蛋白、丙氨酸氨基轉(zhuǎn)移酶、天冬氨酸氨基轉(zhuǎn)移酶與膽囊疾病患病具有顯著性差異,見表6。
表6 二元Logistic回歸預(yù)測模型分析
多層感知器是一種前饋式有監(jiān)督的機(jī)器學(xué)習(xí)方法,多用于發(fā)現(xiàn)數(shù)據(jù)間極為復(fù)雜的關(guān)系[13]。本研究因變量是分類變量,選擇Softmax函數(shù)作為輸出層的激活函數(shù);再選擇雙曲正切函數(shù)為隱層激活函數(shù),神經(jīng)網(wǎng)絡(luò)優(yōu)化算法采用調(diào)整的共軛梯度算法。鑒于多層感知機(jī)神經(jīng)網(wǎng)絡(luò)是一種監(jiān)督學(xué)習(xí)算法,選擇預(yù)測準(zhǔn)確率、約登指數(shù)、AUC、ROC曲線作為評估標(biāo)準(zhǔn),并采用循環(huán)調(diào)試方法確定最優(yōu)參數(shù)值,將訓(xùn)練樣本、測試樣本數(shù)據(jù)的比例設(shè)置為7∶3。
將是否患有膽囊結(jié)石移入因變量(輸入層)中,將單因素分析中具有顯著性差異的分類變量性別、年齡作為因子,高密度脂蛋白與肝功能指標(biāo)等連續(xù)型變量作為協(xié)變量。因各輸入變量量綱不同,需對輸入數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。將上海市某三甲醫(yī)院的中老年健康體檢有效數(shù)據(jù)樣本3462組中2417組(69.8%)作為多層感知器模型訓(xùn)練樣本,1045組(30.2%)作為檢驗(yàn)樣本,建立自學(xué)習(xí)多層感知器神經(jīng)網(wǎng)絡(luò)模型。網(wǎng)絡(luò)結(jié)構(gòu)模型如圖1所示,模型包括1個(gè)輸入層、1個(gè)隱藏層和1個(gè)輸出層。輸入層為性別、年齡、甘油三酯、高密度脂蛋白、丙氨酸氨基酸轉(zhuǎn)移酶、天冬氨酸氨基轉(zhuǎn)移酶,共10個(gè)神經(jīng)元;隱藏層包含7個(gè)神經(jīng)元;輸出層為患有膽囊結(jié)石與未患有膽囊結(jié)石2個(gè)神經(jīng)元,見表7。
表7 多層感知器神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
根據(jù)個(gè)案的相對數(shù)目隨機(jī)分配訓(xùn)練-檢驗(yàn)-支持3個(gè)分區(qū)的個(gè)案,訓(xùn)練區(qū)相對數(shù)目為70%,檢驗(yàn)區(qū)相對數(shù)目為30%,堅(jiān)持區(qū)為0%。用已建立的多層感知器神經(jīng)網(wǎng)絡(luò)模型將分區(qū)樣本進(jìn)行交叉對比,其橫坐標(biāo)為是否患病,縱坐標(biāo)為預(yù)測擬概率,見圖1。觀察預(yù)測圖中多層感知器神經(jīng)網(wǎng)絡(luò)模型默認(rèn)采用0.5為儲(chǔ)集層是否患有膽囊結(jié)石判別正確和錯(cuò)誤概率分界。按照儲(chǔ)集層是否患有膽囊結(jié)石進(jìn)行分組,當(dāng)任一類儲(chǔ)集層未患有膽囊結(jié)石為預(yù)測目標(biāo)時(shí),則其預(yù)測概率顯著高于或低于其他儲(chǔ)集層患病可能性,分類識(shí)別效果較好。
圖1 觀察預(yù)測圖
由于輸入層的自變量對模型輸出的結(jié)論有重大影響,多層感知器神經(jīng)網(wǎng)絡(luò)具有對自變量的重要性進(jìn)行排序功能,見圖2。通過單因素分析,去除6個(gè)與膽囊結(jié)石不具有顯著性差異的因素,保留6個(gè)影響因素。從圖中看出高密度脂蛋白、甘油三酯、天冬氨酸氨基轉(zhuǎn)移酶、丙氨酸氨基酸轉(zhuǎn)移酶為影響膽囊結(jié)石患病的重要獨(dú)立危險(xiǎn)因素。
圖2 輸入層參數(shù)重要性排序?qū)Ρ?/p>
以預(yù)測模型公式計(jì)算出的截?cái)嘀底鳛闄z驗(yàn)變量,是否患有膽囊結(jié)石作為狀態(tài)變量繪制分別繪制二元logistic回歸模型及多層感知器神經(jīng)網(wǎng)絡(luò)模型的ROC曲線,見圖3。
圖3 模型ROC曲線圖
二元logistic回歸模型的ROC曲線下面積(AUC)=0.821,95%CI為0.911~0.930,約登指數(shù)最大值為0.704,靈敏度為85.63%,特異度為84.78%,此時(shí)截?cái)嘀禐?.104,即當(dāng)截?cái)嘀怠?.104時(shí),患有膽囊結(jié)石的可能性較大。多層感知器神經(jīng)網(wǎng)絡(luò)預(yù)測模型的ROC曲線下面積(AUC)=0.937,95%CI為0.929~0.945,ROC曲線約登指數(shù)最大值為0.755,靈敏度為94.91%,特異度為80.56%,此時(shí)截?cái)嘀禐?.944,即當(dāng)截?cái)嘀怠?.944時(shí),患有膽囊結(jié)石的可能性較大,見表8。
表8 Logistic回歸模型與多層感知器神經(jīng)網(wǎng)絡(luò)模型預(yù)測能力比較
本研究表明,多層感知器神經(jīng)網(wǎng)絡(luò)模型在膽囊結(jié)石患病風(fēng)險(xiǎn)預(yù)測中有較好的預(yù)測效能,根據(jù)檢驗(yàn)樣本,建立模型預(yù)測的靈敏度、特異度、AUC均優(yōu)于二元Logistic回歸模型的相應(yīng)指標(biāo)。多層感知器神經(jīng)網(wǎng)絡(luò)模型適用于對多變量間錯(cuò)雜相互作用的非線性分析,并對數(shù)據(jù)分布形態(tài)沒有嚴(yán)苛要求,較Logistic回歸模型具有方法學(xué)優(yōu)勢,由此在疾病預(yù)測中表現(xiàn)出更好的預(yù)測效能。二元Logistic模型顯示性別、高密度脂蛋白、丙氨酸氨基轉(zhuǎn)移酶、天冬氨酸氨基轉(zhuǎn)移酶與膽囊結(jié)石患病具有顯著性差異。多層感知器神經(jīng)網(wǎng)絡(luò)模型揭示出高密度脂蛋白、甘油三酯、天冬氨酸氨基轉(zhuǎn)移酶、丙氨酸氨基酸轉(zhuǎn)移酶是影響膽囊結(jié)石患病的4個(gè)重要的風(fēng)險(xiǎn)因素。模型結(jié)果均顯示丙氨酸氨基轉(zhuǎn)移酶、天冬氨酶氨基轉(zhuǎn)移酶、高密度脂蛋白是影響膽囊結(jié)石患病的重要風(fēng)險(xiǎn)因素。由于調(diào)查的樣本數(shù)據(jù)為中老年群體,肝功能水平下降,具有較多的基礎(chǔ)疾病。同時(shí),在吳延等[14]研究中,發(fā)現(xiàn)天冬氨酶氨基轉(zhuǎn)移酶是膽囊結(jié)石患者不發(fā)生脂肪肝的保護(hù)因素。因而,推測天冬氨酶氨基酸轉(zhuǎn)移酶對于膽囊結(jié)石是否患病的影響較大。丙氨酸氨基轉(zhuǎn)移酶是膽囊結(jié)石患病的危險(xiǎn)因素,推斷由于膽囊中液體排除時(shí)受阻引起肝細(xì)胞損壞,造成丙氨酸氨基轉(zhuǎn)移酶產(chǎn)生變化。血脂指標(biāo)中,高密度脂蛋白對是否患有膽囊結(jié)石影響較大。脂質(zhì)代謝異常會(huì)影響高密度脂蛋白水平變化,高密度脂蛋白是膽固醇的轉(zhuǎn)運(yùn)載體,可轉(zhuǎn)化為膽汁酸或直接通過膽汁從腸道排出。推測由于平時(shí)吃大量的脂肪類食品,體內(nèi)的甘油三脂水平就會(huì)有明顯的升高,尤其是那種加工特別精細(xì)的糧食,進(jìn)入我們身體后會(huì)引起血糖升高,從而導(dǎo)致身體內(nèi)脂質(zhì)代謝異常,合成更多的甘油三酯。在這種病因誘導(dǎo)下,高密度脂蛋白水平降低,高密度脂蛋白的降低抑制肝細(xì)胞及其受體代謝后進(jìn)入膽汁,從而導(dǎo)致膽囊內(nèi)膽固醇濃度增加以及膽汁酸濃度降低,膽固醇不能得到充分的溶解,逐漸累積從而導(dǎo)致膽囊結(jié)石的發(fā)生。
多層感知器神經(jīng)網(wǎng)絡(luò)模型揭示出性別也是影響膽囊結(jié)石患病的重要因素。國外許多研究中,男性性別被認(rèn)為是膽囊疾病中膽囊結(jié)石形成的獨(dú)立風(fēng)險(xiǎn)因素[15]。男性膽囊結(jié)石患病情況比女性較為嚴(yán)重,推測可能原因?yàn)槟行孕奂に胤置谕ⅲ蛩嶂匚赵黾?,女性體內(nèi)的雌激素水平逐漸下降,女性缺乏體內(nèi)自身雄激素的保護(hù)作用,導(dǎo)致女性腎功能逐漸減退,從而和男性關(guān)于膽囊結(jié)石患病率具有差距。膽汁中的膽固醇濃度增高,膽固醇結(jié)晶析出沉積,在促核形成因素作用下聚集,因而導(dǎo)致膽囊結(jié)石的發(fā)生。同時(shí),相關(guān)研究表明肥胖組脂肪堆積可影響胰島β細(xì)胞功能[16],導(dǎo)致胰島素分泌障礙,脂質(zhì)代謝異常,因而增加了膽囊結(jié)石患病的風(fēng)險(xiǎn)。臨床可將天冬氨酶氨基轉(zhuǎn)移酶偏高、丙氨酸氨基轉(zhuǎn)移酶偏高、高密度脂蛋白偏低、甘油三酯偏高患者作為膽囊結(jié)石高危人群及時(shí)進(jìn)行干預(yù)。
綜上所述,高密度脂蛋白、甘油三酯、天冬氨酸氨基轉(zhuǎn)移酶、丙氨酸氨基酸轉(zhuǎn)移酶為影響膽囊結(jié)石患病的獨(dú)立危險(xiǎn)因素,基于神經(jīng)網(wǎng)絡(luò)的預(yù)測模型具有較高的預(yù)測能力可為臨床診斷提供參考。