王嬌嬌,陳圓煜,鄭子薇,楊永忠,陳哲,李超,王海東,武建輝,王國立
頸動脈粥樣硬化(carotid atherosclerosis,CAS)是一種以內(nèi)膜大、中動脈增厚為特征的病理改變[1],是心腦血管疾病的誘因[2],其高發(fā)病率和致殘率不同程度地影響著人類健康[3]。鋼鐵工人作為鋼鐵企業(yè)的主力軍,長期暴露于粉塵、高溫、噪聲等危險因素并面臨職業(yè)緊張和倒班的壓力,CAS發(fā)生率也隨之增加[4]。
目前,機器學習已廣泛應用于醫(yī)學預測模型,支持向量機(Support Vector Machine,SVM)、BP神經(jīng)網(wǎng)絡(Back Propagation Neural Network,BPNN)與隨機森林(Random Forest,RF)模型是機器學習中的3項重要技術,其中SVM模型的學習和泛化能力比較強,常應用于文本識別、車輛交通、醫(yī)療檢測等領域;BPNN模型在預測和函數(shù)逼近方面具有明顯的優(yōu)勢;RF模型憑借計算效率高、訓練速度快而對各行各業(yè)的數(shù)據(jù)分析均能起到推動作用;三者均能夠從海量數(shù)據(jù)中快速挖掘出有效信息,但對于不同的數(shù)據(jù)類型三者的應用效果不同。目前關于3種模型預測鋼鐵工人CAS效能方面的比較還鮮有報道。本研究采用SVM、BPNN和RF模型構建鋼鐵工人CAS的風險預測模型,并比較三者的預測性能,以期為這一群體的健康保護與促進以及CAS的預防提供指導。
1.1 研究對象 選取2017年3—6月在唐山市弘慈醫(yī)院進行體檢和健康監(jiān)測的4 568例鋼鐵工人。納入標準:在崗,且工齡≥1年。排除標準:接觸過有害影響因素者(現(xiàn)在不倒班、不接觸高溫作業(yè)、噪聲作業(yè)),變量信息缺失者。本研究經(jīng)華北理工大學倫理委員會審核通過(審批號為15006),研究對象均知情同意。
1.2 資料收集 所有團隊成員經(jīng)統(tǒng)一培訓后,按照本團隊編寫的《健康評估檢查表》進行調(diào)查,調(diào)查內(nèi)容包括:(1)人口學特征:性別、年齡、體質(zhì)指數(shù)(BMI)、文化程度、婚姻狀況;(2)個人的行為生活習慣與方式:吸煙(指連續(xù)或累計吸煙6個月以上,并且每天至少吸煙1支[5])、飲酒〔無論酒水類型(白酒、啤酒、葡萄酒等),≥2次/周,乙醇攝入量≥50 g/次,連續(xù)飲用≥1年[5]〕;(3)個人病史:高血壓、糖尿病、CAS家族史;(4)職業(yè)史:倒班、高溫作業(yè)、噪聲作業(yè)。
1.3 實驗室檢查 經(jīng)研究對象同意后,由醫(yī)院采集其晨起空腹靜脈血,使用邁瑞全自動生化分析儀(BS-800)進行血生化檢查(膽固醇、三酰甘油、同型半胱氨酸),采集晨尿進行尿酸分析。高膽固醇標準:總膽固醇≥6.2 mmol/L,高三酰甘油標準:三酰甘油≥2.3 mmol/L,高同型半胱氨酸標準:同型半胱氨酸≥15 μmmol/L,高尿酸血癥標準:男≥420 μmmol/L;女≥ 360 μmmol/L。
1.4 CAS的診斷 由同一超聲專業(yè)醫(yī)師使用便攜式彩色多普勒超聲系統(tǒng)進行診斷,診斷標準:左右側頸總動脈、頸內(nèi)動脈、頸外動脈內(nèi)膜中層厚度(IMT)≥1.0 mm為增厚,IMT≥1.3 mm為斑塊;發(fā)現(xiàn)以上任一種情況者即為CAS[6]。
1.5 質(zhì)量控制 所有團隊成員通過統(tǒng)一培訓后,一對一指導研究對象填寫《健康評估檢查表》,雙人核對錄入數(shù)據(jù)庫,對所用儀器進行嚴格校正。
1.6 統(tǒng)計學方法 采用SPSS 22.0軟件進行統(tǒng)計學分析。符合正態(tài)分布的計量資料以(±s)表示,兩組間比較采用成組t檢驗,多組間比較采用方差分析;非正態(tài)分布的計量資料以M(P25,P75)表示,組間比較采用非參數(shù)檢驗。計數(shù)資料以相對數(shù)表示,組間比較采用χ2檢驗。采用非條件多因素Logistic回歸分析探討鋼鐵工人發(fā)生CAS的影響因素。檢驗水準α=0.05(雙側)。
1.7 建立模型 運用SPSS Modeler 18.0導入輸入變量后,在原始數(shù)據(jù)下SVM、BPNN和RF 3種模型具有較低的靈敏度,但具有較高的特異度,故在建立模型前借助R3.6.1中的ROSE包來平衡數(shù)據(jù)。3種模型均按7∶3的比例將樣本數(shù)據(jù)分為訓練集和測試集。訓練集用于建立模型,測試集用于驗證模型。SVM模型是由ε-DVR和徑向基核函數(shù)共同構建的;BPNN模型以ai(i=1,2,3…N)數(shù)據(jù)作為輸入神經(jīng)元,B則作為輸出神經(jīng)元,構建三層BPNN;RF模型按照bootstrap取樣,組成訓練集,用未抽取的樣本進行預測,評價其效能。
1.8 模型效能指標 從真實性〔靈敏度、特異度、約登指數(shù)、陽性似然比、陰性似然比、受試者工作特征(ROC)曲線下面積(AUC)〕、可靠性(準確率、Kappa值)、預測值(陽性預測值、陰性預測值)3個方面評價模型預測效能。使用Medcalc軟件繪制ROC曲線,計算AUC及其95%CI。
2.1 基本情況 4 568例研究對象中男4 185例,女383例;平均年齡(44.6±7.8)歲;檢出CAS患者1 264例,檢出率為27.67%。
2.2 不同特征鋼鐵工人CAS發(fā)生率比較 是否飲酒、高膽固醇、高尿酸血癥、CAS家族史、高溫作業(yè)、噪聲作業(yè)、倒班的鋼鐵工人CAS發(fā)生率比較,差異有統(tǒng)計學意義(P<0.05);不同性別、年齡、BMI、文化程度、婚姻狀況及是否高血壓、糖尿病、高三酰甘油、高同型半胱氨酸的鋼鐵工人CAS發(fā)生率比較,差異無統(tǒng)計學意義(P>0.05),見表1。
表1 不同特征鋼鐵工人CAS發(fā)生率比較〔n(%)〕Table 1 Comparison of carotid atherosclerosis prevalence among steelworkers with different characteristics
2.3 鋼鐵工人發(fā)生CAS影響因素的非條件多因素Logistic回歸分析 以是否發(fā)生CAS(賦值:否=1,是=2)作為因變量,以表1中差異有統(tǒng)計學意義的飲酒(賦值:否=1,是=2)、CAS家族史(賦值:否=1,是=2)、倒班(賦值:否=1,是=2)、高溫作業(yè)(賦值:否=1,是=2)、噪聲作業(yè)(賦值:否=1,是=2)、高膽固醇(賦值:否=1,是=2)、高尿酸血癥(賦值:否=1,是=2)為自變量,進行非條件多因素Logistic回歸分析(向前法),結果顯示CAS家族史、高溫作業(yè)、噪聲作業(yè)、高膽固醇是鋼鐵工人發(fā)生CAS的影響因素(P<0.05),見表2。
表2 CAS影響因素的非條件多因素Logistic回歸分析Table 2 Unconditioned multivariate Logistic regression analysis of factors associated with carotid atherosclerosis in steelworkers
2.4 輸入變量的選擇 結合非條件多因素Logistic回歸分析結果,查閱相關文獻[7-8],確定性別、年齡、BMI、吸煙、飲酒、高血壓、糖尿病、CAS家族史、倒班、高溫作業(yè)、噪聲作業(yè)、高膽固醇、高三酰甘油、高同型半胱氨酸、高尿酸血癥、高密度脂蛋白膽固醇(HDL-C)、低密度脂蛋白膽固醇(LDL-C)和睡眠障礙18個變量為輸入變量。
2.5 3種CAS風險預測模型的預測效能比較 采用欠采樣的方法,CAS和非CAS的例數(shù)由原先的1 264、3 304例(平衡前)采樣為1 264、1 264例(平衡后)。
訓練集顯示:在真實性上,RF模型的特異度、約登指數(shù)、陽性似然比高于SVM和BPNN模型;在可靠性上,RF模型的準確率和Kappa值均高于其余兩種模型;RF模型的陽性預測值最高,而SVM模型的陰性預測值在3種模型中最高,見表3。3種模型靈敏度、特異度、準確率和AUC兩兩比較,差異有統(tǒng)計學意義(P<0.05),見表4、圖1。
表3 3種模型的預測效能比較Table 3 Comparison of performance of SVM-,BPNN- and RF-based models in predicting the risk of carotid atherosclerosis in steelworkers
圖1 3種模型訓練集(A)和測試集(B)ROC曲線圖Figure 1 ROC analysis of SVM-,BPNN- and RF-based models in predicting the risk of carotid atherosclerosis in steelworkers in the training set (left)and the test set (right)
表4 3種模型預測效能在訓練集和測試集的比較Table 4 Comparison of the performance of SVM-,BPNN- and RF-based models in predicting the risk of carotid atherosclerosis in steelworkers in the training set and the test set
測試集顯示:在真實性上,SVM模型的特異度、約登指數(shù)、靈敏度、AUC高于其余兩種模型,陰性似然比最低;從可靠性和預測值來看,SVM模型準確率、Kappa值、陽性預測值和陰性預測值高于其余兩種模型,見表3。SVM模型靈敏度、準確率和AUC與其余兩種模型比較,差異有統(tǒng)計學意義(P<0.05),見表4、圖1。
本研究對4 568例鋼鐵工人進行調(diào)查,共檢出1 264例CAS患者,CAS檢出率是27.67%,高于一般人群(22.06%~25.57%)[9-10],但是與重慶中老年鋼鐵工人(37.6%)[11]相比偏低,與其他報道相比也較低,如遼寧省農(nóng)村地區(qū)人群CAS檢出率42.1%[12],東北40歲以上的成年人為42.1%[13]。原因可能為:一方面年齡構成不同,姚利和[14]、SONG等[15]研究表明年齡增大是CAS的危險因素;另一方面健康工人效應也是造成CAS檢出率較低的一個重要原因[16]。
通過非條件多因素Logistic回歸分析發(fā)現(xiàn),噪聲作業(yè)、高溫作業(yè)、高膽固醇、CAS家族史為CAS的有效預測因素,既往研究表明總膽固醇水平和CAS家族史均為CAS的影響因素[17-19]。本研究結果顯示,高溫作業(yè)和噪聲作業(yè)為CAS的影響因素。張童等[20]研究表明鋼鐵工人在高溫環(huán)境中維生素C的情況較差導致血尿酸升高,進而導致心血管疾?。籆UI等[21]提出隨著累積高溫暴露的增加,鋼鐵工人患高血壓的風險增加。王海東[19]研究表明鋼鐵工人在工作中面臨的累積噪聲暴露量會作用于鋼鐵工人的近端病因,從而間接增加頸動脈內(nèi)膜中膜厚度。已有研究顯示,高溫環(huán)境和噪聲水平之間存在交互作用,當鋼鐵工人同時暴露于高溫和噪聲時其高血壓的發(fā)病風險會上升[22]。倒班作業(yè)產(chǎn)生的時差、睡眠中斷、食物消耗的變化會導致人體的晝夜節(jié)律失調(diào)和紊亂,進而導致患高血壓、糖尿病等疾病的發(fā)生風險增加。而高血壓和其他上述疾病與CAS的發(fā)生密切相關[19]。利用CAS的危險因素來預測CAS危險度,對于CAS的預防和早期篩查具有重要意義。
在選擇輸入變量時,不僅要考慮在非條件多因素Logistic回歸分析中有意義的變量,還要考慮已有研究發(fā)現(xiàn)的有意義的變量,以方便找出CAS的預測因素。對于傳統(tǒng)分類算法,在建立預測模型之前,通過統(tǒng)計處理將不平衡數(shù)據(jù)轉(zhuǎn)化為平衡數(shù)據(jù),最大限度地提升了所使用模型的預測能力,避免了模型的分類準確性降低,以及分類結果不理想。
本研究結果顯示,SVM、BPNN和RF 3種模型訓練集對比測試集的準確率為83.81 vs 85.70、79.27 vs 75.46、86.60 vs 73.37,可以發(fā)現(xiàn)RF模型的訓練能力最強,但是其測試能力弱于SVM模型。出現(xiàn)這種情況原因可能為:模型自身具有一定的隨機性,并且受訓練次數(shù)、學習率大小、參數(shù)設置及網(wǎng)絡規(guī)模等影響[23];RF模型的泛化誤差比較大;另外在機器學習中,如果學習機在訓練樣本上的學習能力過強將會產(chǎn)生一些消極影響[24],比如本研究中RF模型的訓練能力過強,會產(chǎn)生過擬合問題。近年來,SVM模型在疾病預測方面的應用越來越多,在解決小樣本、非線性問題上具有較好的推廣和泛化能力。例如田占霄等[25]提出SVM模型對精神分裂癥識別具有一定的判別作用;楊志燕等[26]表明SVM模型為預測急性百草枯中毒患者的預后提供了一種新方法。AUC是分類器好壞的性能指標,本研究結果顯示SVM模型在訓練集中的AUC與RF模型沒有太大的差異(0.84 vs 0.86),表明SVM模型在訓練集和測試集中均表現(xiàn)出了較強的預測效果,進一步推斷出SVM模型綜合實力最強,是預測鋼鐵工人CAS發(fā)生風險最好的模型。
在本研究中,輸入的變量中部分差異無統(tǒng)計學意義,這可能影響了模型的預測效果。因此,以后的研究應著重探討影響CAS和非CAS差異較大的因素,使本研究提出的SVM模型能夠提供更好的預測效果。另外,還應進一步完善現(xiàn)有算法,并考慮多種算法結合運用,以提高預測鋼鐵工人CAS準確率,為實現(xiàn)鋼鐵工人CAS的早期預防提供依據(jù),進而提升其生活質(zhì)量。
綜上所述,噪聲作業(yè)、高溫作業(yè)、高膽固醇、CAS家族史可能對鋼鐵工CAS的發(fā)病有一定的預測價值;SVM模型預測鋼鐵工人發(fā)生CAS的效果最佳。
作者貢獻:王嬌嬌進行研究的設計與實施、數(shù)據(jù)的收集、撰寫論文并對文章整體負責;陳圓煜、鄭子薇、楊永忠、陳哲、李超、王海東進行研究的實施、評估、資料收集;武建輝、王國立進行質(zhì)量控制、稿件的初步修改與校對,對文章整體負責。
本文無利益沖突。