• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于常規(guī)臨床檢驗(yàn)指標(biāo)構(gòu)建子癇前期風(fēng)險(xiǎn)預(yù)測(cè)模型

      2022-02-02 08:18:06王浩烏永嘎郭玉婷梁雨朝李海成周健夏書(shū)琴左永春
      臨床檢驗(yàn)雜志 2022年10期
      關(guān)鍵詞:特征選擇準(zhǔn)確率樣本

      王浩,烏永嘎,郭玉婷,梁雨朝,李海成,周健,夏書(shū)琴,左永春

      (1.內(nèi)蒙古大學(xué)生命科學(xué)學(xué)院,呼和浩特 010070;2.內(nèi)蒙古智匯大數(shù)據(jù)研究院,呼和浩特 010000;3.內(nèi)蒙古醫(yī)科大學(xué)&內(nèi)蒙古臨床醫(yī)學(xué)院,呼和浩特 010110;4.內(nèi)蒙古自治區(qū)人民醫(yī)院婦產(chǎn)科,呼和浩特 010017)

      子癇前期(preeclampsia,PE)是指發(fā)生于妊娠20周后,以高血壓、蛋白尿?yàn)橹饕R床特征的常見(jiàn)妊娠并發(fā)癥,在發(fā)展中國(guó)家發(fā)病率高達(dá)10%,是造成孕產(chǎn)婦及胎兒患病率和死亡率增高的主要原因之一[1]。目前有很多針對(duì)PE的篩查項(xiàng)目,但PE早期預(yù)測(cè)效果不佳,亟待開(kāi)發(fā)快速有效的早期診斷模型。

      近年來(lái),研究人員利用機(jī)器學(xué)習(xí)算法針對(duì)臨床檢驗(yàn)指標(biāo)對(duì)妊娠期疾病開(kāi)展了一系列研究。Betts等[2]用梯度提升樹(shù)構(gòu)建用于預(yù)測(cè)產(chǎn)后并發(fā)癥的風(fēng)險(xiǎn)模型,表明常規(guī)健康數(shù)據(jù)在確定女性因常見(jiàn)產(chǎn)后并發(fā)癥入院的風(fēng)險(xiǎn)方面發(fā)揮了重要作用。張心遠(yuǎn)等[3]通過(guò)收集PE和健康妊娠孕婦的凝血、血常規(guī)等臨床檢驗(yàn)數(shù)據(jù),利用LightGBM預(yù)測(cè)PE,取得了較好的結(jié)果。Rasmussen等[4]利用游離RNA(cfRNA)特征預(yù)測(cè)PE的發(fā)病概率,敏感性達(dá)75.00%。Wu等[5]開(kāi)發(fā)了妊娠期糖尿病分層預(yù)測(cè)模型,為孕婦16孕周前篩查妊娠期糖尿病提供了一種簡(jiǎn)單有效的方法。

      本研究基于多項(xiàng)臨床檢驗(yàn)指標(biāo),建立了一種特征篩選策略Tuning Relief F (TURF)與機(jī)器學(xué)習(xí)方法K-nearest neighbor (KNN)相結(jié)合的PE預(yù)警模型,實(shí)現(xiàn)了對(duì)PE的準(zhǔn)確預(yù)測(cè)。

      1 對(duì)象與方法

      1.1研究對(duì)象 選擇2019年1月至2021年12月于內(nèi)蒙古自治區(qū)人民醫(yī)院婦產(chǎn)科就診的346例健康孕婦為對(duì)照組(HE組),年齡23~40(30.4±4.9)歲,單胎妊娠,臨床資料完整,初次入院孕周 37~40(39.4±1.0)周;另選取同期就診的PE孕婦 342例為實(shí)驗(yàn)組(PE組),年齡 22~44(31.7±5.3)歲,初次入院孕周 23~37(35.7±4.3)周。

      PE患者符合第9版《婦產(chǎn)科學(xué)》中關(guān)于PE的診斷標(biāo)準(zhǔn),妊娠20周后,患者靜坐休息5 min后測(cè)量血壓,2次測(cè)量至少間隔4 h,血壓高于140 mmHg/90 mmHg,合并有尿蛋白≥ 0.3 g/24 h或隨機(jī)蛋白尿(尿蛋白+),或者患者合并出現(xiàn)腹痛、肺水腫、肝腎功能異常、血小板下降等癥狀;單胎妊娠;臨床資料完整。排除患有慢性高血壓、心臟病、自身免疫病、腎臟疾病、合并其他妊娠期疾病等。

      收集年齡、收縮壓、舒張壓、BMI、初次入院孕周、初次入院實(shí)驗(yàn)室資料(血常規(guī)、尿常規(guī)、生化全項(xiàng)、凝血功能)等,排除含有缺失值的指標(biāo),最終納入87個(gè)特征指標(biāo)用于分析。

      本研究經(jīng)內(nèi)蒙古自治區(qū)人民醫(yī)院倫理委員會(huì)批準(zhǔn)(批準(zhǔn)文號(hào):202201004L)。所有參與者簽署知情同意書(shū)。

      1.2數(shù)據(jù)預(yù)處理 收集所有研究對(duì)象(688例樣本共87項(xiàng)指標(biāo))的血常規(guī)、尿常規(guī)、生化全項(xiàng)和凝血四項(xiàng)檢測(cè)數(shù)據(jù)。對(duì)過(guò)濾后樣本的臨床檢測(cè)數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化,然后按照3∶1的比例將688份樣本數(shù)據(jù)拆分為包含516份樣本的訓(xùn)練集和172份樣本的測(cè)試集,見(jiàn)表1。

      表1 臨床檢驗(yàn)數(shù)據(jù)集組成

      1.3特征選擇策略 對(duì)高維數(shù)據(jù)的計(jì)算分析及其解釋對(duì)于理解模型決策至關(guān)重要。LASSO和TURF將特征選擇過(guò)程從單輪推進(jìn)到多輪過(guò)程,對(duì)所有特征評(píng)分[6]。通過(guò)使用TURF和LASSO 2種特征選擇策略對(duì)87個(gè)臨床檢驗(yàn)指標(biāo)進(jìn)行評(píng)分并根據(jù)分值從大到小排序?;谠隽刻卣鬟x擇策略(incremental feature selection, IFS),使用4種機(jī)器學(xué)習(xí)分類(lèi)器擬合TURF訓(xùn)練集數(shù)據(jù)。

      1.4機(jī)器學(xué)習(xí)模型 K近鄰(K-nearest neighbor,KNN)[7]、支持向量機(jī)(support vector machine,SVM)[8]、隨機(jī)森林(random forest classifier,RFC)和XGBoost 4種機(jī)器學(xué)習(xí)算法被用來(lái)構(gòu)建PE預(yù)測(cè)模型,并比較預(yù)測(cè)性能,選擇最優(yōu)模型。基于python包xgboost(1.5.2)構(gòu)建XGBoost模型,基于python包scikit-learn(1.0)構(gòu)建SVM、RFC和KNN模型。

      1.5五折交叉驗(yàn)證 五折交叉驗(yàn)證即對(duì)數(shù)據(jù)進(jìn)行5次劃分,每次選取4份樣本為訓(xùn)練集建立模型,1份樣本為測(cè)試集評(píng)估預(yù)測(cè)效果,每次記錄模型分別在訓(xùn)練集和測(cè)試集上的預(yù)測(cè)結(jié)果和預(yù)測(cè)誤差,如此重復(fù)5次,最后將5次的預(yù)測(cè)誤差取平均值,得到1個(gè)綜合的預(yù)測(cè)誤差估計(jì)值。五折交叉驗(yàn)證法的實(shí)現(xiàn)以及各個(gè)預(yù)測(cè)模型的模擬計(jì)算與預(yù)測(cè)分析均通過(guò)python編程實(shí)現(xiàn)。

      1.6模型評(píng)估 基于五折交叉驗(yàn)證策略,用準(zhǔn)確率、召回率、F1 measure和精確度4個(gè)經(jīng)典指標(biāo)評(píng)估模型的預(yù)測(cè)性能[9-10]。準(zhǔn)確率=(TP+TN)/(TP+TN+FP+FN),召回率=TP/(TP+FN),F(xiàn)1 measure=2×(準(zhǔn)確率×召回率)/(準(zhǔn)確率+召回率),精確度=TP/(TP+FP)。TP、TN、FP和FN分別代表真陽(yáng)性、真陰性、假陽(yáng)性和假陰性。用ROC曲線定量評(píng)估模型的整體性能,通過(guò)計(jì)算ROC曲線下面積(AUCROC)客觀評(píng)價(jià)預(yù)測(cè)器的性能。

      1.7SHAP解釋方法 SHAP是在合作博弈論啟發(fā)下構(gòu)建的加性可解釋模型,其核心是計(jì)算出每個(gè)特征的SHAP值,能夠反映特征對(duì)整個(gè)模型預(yù)測(cè)能力的貢獻(xiàn)程度。

      2 結(jié)果

      2.1基線資料 與HE組比較,PE組年齡、收縮壓、舒張壓和BMI均升高,初次入院孕周降低(P均<0.05),見(jiàn)表2。

      表2 HE組和PE組一般資料比較

      2.2構(gòu)建PE預(yù)測(cè)模型

      2.2.1基于特征選擇策略構(gòu)建預(yù)測(cè)PE最優(yōu)模型 基于增量特征選擇策略,評(píng)估機(jī)器學(xué)習(xí)算法在不同數(shù)量特征集下的預(yù)測(cè)性能結(jié)果見(jiàn)圖1A。SVM隨特征數(shù)量的變化,預(yù)測(cè)性能波動(dòng)劇烈,另外3種機(jī)器學(xué)習(xí)模型隨特征數(shù)量的變化則呈現(xiàn)出逐漸平穩(wěn)的趨勢(shì)。

      注:A,基于增量特征選擇策略,評(píng)估機(jī)器學(xué)習(xí)算法在不同數(shù)量特征集下的預(yù)測(cè)性能;B,基于7個(gè)特征,KNN在測(cè)試數(shù)據(jù)集的混淆矩陣;C和D,UMAP顯示原始特征集和TURF最優(yōu)特征指標(biāo)之間HE組和PE組的聚類(lèi)情況(C,原始特征集,D,TURF特征集)。圖1 模型的預(yù)測(cè)表現(xiàn)

      4個(gè)基本分類(lèi)器基于TURF和LASSO預(yù)測(cè)PE性能的訓(xùn)練集結(jié)果見(jiàn)表3。基于TURF,XGBoost在使用28個(gè)特征指標(biāo)時(shí)表現(xiàn)最優(yōu),準(zhǔn)確率為88.15%。KNN和SVM同樣有優(yōu)異表現(xiàn),基于TURF特征策略,在僅使用7個(gè)和8個(gè)特征指標(biāo)的情況下,準(zhǔn)確率分別達(dá)到了82.55%和84.68%?;贚ASSO選擇的7個(gè)最優(yōu)特征子集,4種機(jī)器學(xué)習(xí)模型也同樣達(dá)到了較優(yōu)異的預(yù)測(cè)結(jié)果,KNN、SVM、RFC和XGBoost的準(zhǔn)確率分別為75.58%、75.58%、75.00%和75.00%。TURF特征策略更適合用于進(jìn)一步分析和建模。

      表3 4個(gè)基本分類(lèi)器基于TURF和LASSO預(yù)測(cè)PE的性能(訓(xùn)練集)

      2.2.2基于測(cè)試集驗(yàn)證PE預(yù)測(cè)模型 用完全獨(dú)立于訓(xùn)練過(guò)程的測(cè)試集驗(yàn)證4種模型的可靠性和穩(wěn)定性,見(jiàn)表4。SVM在使用8個(gè)特征指標(biāo)時(shí),準(zhǔn)確率、精確度、召回率和F1 measure分別為80.81%、84.52%、78.02%和80.14%。RFC在使用15個(gè)特征指標(biāo)時(shí),準(zhǔn)確率、精確度、召回率和F1 measure分別為79.53%、65.07%、85.11%和75.57%。XGBoost在使用28個(gè)特征指標(biāo)時(shí),準(zhǔn)確率、精確度、召回率和F1 measure分別為81.28%、85.22%、74.48%和80.42%。

      表4 4個(gè)基本分類(lèi)器基于TURF識(shí)別PE的性能(測(cè)試集)

      當(dāng)K=14時(shí),KNN算法在僅使用7個(gè)特征指標(biāo)時(shí)表現(xiàn)最為優(yōu)異,準(zhǔn)確率、精確度、召回率和F1 measure分別達(dá)到了82.56%、87.54%、71.42%、80.24%。進(jìn)一步通過(guò)模型在獨(dú)立數(shù)據(jù)集的ACC表現(xiàn)來(lái)評(píng)判其魯棒性,SVM、RFC和XGBoost均出現(xiàn)了不同程度的過(guò)擬合現(xiàn)象,然而KNN表現(xiàn)優(yōu)異,準(zhǔn)確率和精確度均優(yōu)于其他模型且展現(xiàn)出優(yōu)異的魯棒性。

      ROC曲線顯示,基于TURF特征子集,KNN預(yù)測(cè)模型的AUCROC達(dá)0.90,可以將PE與HE區(qū)分開(kāi)來(lái)?;赥RUF特征策略的KNN算法被選擇搭建基于臨床檢驗(yàn)數(shù)據(jù)預(yù)測(cè)PE的機(jī)器學(xué)習(xí)模型。

      KNN預(yù)測(cè)PE和HE表現(xiàn)的混淆矩陣見(jiàn)圖1B,6個(gè)健康妊娠樣本被預(yù)測(cè)為PE患者,26個(gè)PE患者被預(yù)測(cè)為HE,總體預(yù)測(cè)性能優(yōu)異。分別以全部特征指標(biāo)和7個(gè)特征指標(biāo)為輸入變量,使用均勻流形近似和投影(uniform manifold approximation and projection, UMAP)對(duì)所有樣本進(jìn)行聚類(lèi)分析,見(jiàn)圖1C和1D。當(dāng)使用所有特征指標(biāo)進(jìn)行降維聚類(lèi)時(shí),PE和HE夾雜在一起,冗余信息使樣本幾乎無(wú)法區(qū)別;當(dāng)使用7個(gè)最優(yōu)特征指標(biāo)時(shí),PE和HE完美地分開(kāi);表明采用的特征選擇策略有效過(guò)濾掉了冗余信息,篩選出了關(guān)鍵的特征指標(biāo)。最終,尿蛋白、尿電導(dǎo)率、血尿酸、堿性磷酸酶、乳酸脫氫酶、平均紅細(xì)胞血紅蛋白濃度和淀粉酶被確定為最具有診斷PE能力的7個(gè)指標(biāo)。

      2.3PE預(yù)測(cè)模型的特征解釋 用SHAP解釋7個(gè)特征指標(biāo)見(jiàn)圖2。圖2A顯示尿蛋白值越高對(duì)模型預(yù)測(cè)性能的提升越大,乳酸脫氫酶升高同樣與模型預(yù)測(cè)性能呈正相關(guān);反之,淀粉酶值越低會(huì)改善模型的預(yù)測(cè)性能;而堿性磷酸酶、尿電導(dǎo)率、血尿酸和平均紅細(xì)胞血紅蛋白濃度似乎沒(méi)有顯著影響模型的決策能力。用7個(gè)特征指標(biāo)SHAP值的平均絕對(duì)值來(lái)觀察如何影響模型,見(jiàn)圖2B。結(jié)果表明尿蛋白對(duì)于模型做出決策有絕對(duì)的影響力,淀粉酶會(huì)影響模型對(duì)HE做出決策,乳酸脫氫酶會(huì)影響模型對(duì)PE患者做出決策,堿性磷酸酶、尿電導(dǎo)率、血尿酸和平均紅細(xì)胞血紅蛋白濃度沒(méi)有顯著影響模型做出決策。

      注:A,樣本特征SHAP值;B,樣本特征SHAP值平均絕對(duì)值的柱狀圖。圖2 SHAP值解釋預(yù)測(cè)模型特征

      2.4預(yù)測(cè)模型揭示在常規(guī)臨床檢驗(yàn)數(shù)據(jù)中的PE關(guān)鍵指標(biāo) 比較7個(gè)特征指標(biāo)的表達(dá)水平,HE組和PE組差異有統(tǒng)計(jì)學(xué)意義(表5)。

      表5 7個(gè)特征指標(biāo)在HE組和PE組中的表達(dá)水平

      2.5網(wǎng)絡(luò)服務(wù)web平臺(tái)搭建 為方便用戶(hù)使用,搭建網(wǎng)絡(luò)服務(wù)器來(lái)實(shí)現(xiàn)PE的預(yù)測(cè)功能,見(jiàn)圖3,免費(fèi)訪問(wèn)網(wǎng)址為http://bioinfor.imu.edu.cn/ipreeclampsia。

      注:A,PE預(yù)測(cè)平臺(tái)主頁(yè);B,用戶(hù)通過(guò)點(diǎn)擊“SERVER”進(jìn)入到預(yù)測(cè)功能模塊;C,用戶(hù)可以直接在表格中鍵入數(shù)據(jù)或者點(diǎn)擊“Upload File”上傳需要預(yù)測(cè)的數(shù)據(jù)文件,點(diǎn)擊“Submit”將獲得預(yù)測(cè)結(jié)果并通過(guò)“Disease Diagnosis”獲取到所有樣本數(shù)以及對(duì)應(yīng)標(biāo)簽,最終通過(guò)“Download”可以將預(yù)測(cè)結(jié)果下載至本地電腦。圖3 基于常規(guī)臨床檢驗(yàn)指標(biāo)的PE預(yù)測(cè)模塊

      3 討論

      PE除了產(chǎn)生不良妊娠和分娩結(jié)局外,還可能通過(guò)胎盤(pán)功能障礙、妊娠期缺氧缺血環(huán)境、異常炎癥水平和表觀遺傳變化等途徑增加子代對(duì)疾病的易感性,如免疫病、代謝綜合征、神經(jīng)發(fā)育和精神障礙[11]。目前有大量關(guān)于PE風(fēng)險(xiǎn)預(yù)測(cè)的研究,但研究質(zhì)量參差不齊、預(yù)測(cè)步驟繁瑣且精確度不高,后期缺乏有效的臨床驗(yàn)證,最終這些預(yù)測(cè)方案并沒(méi)有落地于臨床實(shí)踐[12]。本研究結(jié)果表明,基于血常規(guī)、尿常規(guī)、生化全項(xiàng)和凝血四項(xiàng)結(jié)果的基礎(chǔ)臨床檢驗(yàn)數(shù)據(jù)可以實(shí)現(xiàn)對(duì)PE患者的有效預(yù)測(cè)。使用TURF策略去冗余后得到的7個(gè)特征指標(biāo)作為KNN輸入特征構(gòu)建的PE預(yù)測(cè)模型取得了優(yōu)異性能,準(zhǔn)確率達(dá)到了82.56%。此外,通過(guò)模型解釋探究了7個(gè)特征指標(biāo)如何影響模型做出決策,例如,尿蛋白和乳酸脫氫酶值的升高會(huì)提升模型預(yù)測(cè)效果。通過(guò)比較7個(gè)特征指標(biāo)在PE患者和健康孕婦中的表達(dá)水平,進(jìn)一步證實(shí)了其可以作為PE預(yù)測(cè)的關(guān)鍵指標(biāo),然而血小板減少、血清轉(zhuǎn)氨酶升高、血肌酐升高指標(biāo)并未成為最優(yōu)特征,可能與PE臨床表現(xiàn)多樣性有關(guān)。

      Poon等[13]根據(jù)PE表型的異質(zhì)性和預(yù)測(cè)的復(fù)雜性提出了PE篩查的最佳方法是在母體風(fēng)險(xiǎn)因素的基礎(chǔ)上,加入各項(xiàng)生物學(xué)指標(biāo),包括平均動(dòng)脈壓(MAP)、子宮動(dòng)脈多普勒參數(shù)和不同的血清學(xué)指標(biāo)建立預(yù)測(cè)分析模型。PE確診的金標(biāo)準(zhǔn)是在女性妊娠20周后出現(xiàn)高血壓伴隨尿蛋白顯著增加[14],與本研究結(jié)論一致。此外,堿性磷酸酶和乳酸脫氫酶在PE患者中發(fā)生變化,且通過(guò)機(jī)器學(xué)習(xí)模型發(fā)現(xiàn)其可能會(huì)增加PE患病風(fēng)險(xiǎn),并有可能成為PE的風(fēng)險(xiǎn)標(biāo)志物[15-16]。平均紅細(xì)胞血紅蛋白濃度在PE中明顯低于HE組,可以用于預(yù)測(cè)PE[17]。PE與血尿酸水平有關(guān),血尿酸濃度的變化可能是由于PE初始階段的代謝改變,血尿酸促進(jìn)炎癥和氧化應(yīng)激功能障礙,是PE的可靠預(yù)測(cè)因子[18-19]。淀粉酶和尿電導(dǎo)率在PE中的作用很少受到關(guān)注。本研究有效地整合了上述指標(biāo),有助于建立良好的預(yù)測(cè)模型。此外,本研究根據(jù)得到的預(yù)測(cè)模型提供了PE預(yù)測(cè)web服務(wù)器。

      本研究也存在一些不足之處:(1)數(shù)據(jù)均來(lái)源于內(nèi)蒙古自治區(qū),可能存在選擇偏倚,需要外部驗(yàn)證進(jìn)一步評(píng)估模型的性能;(2)研究中部分指標(biāo)的缺失率偏大,如孕前BMI是孕產(chǎn)婦產(chǎn)檢的重要指標(biāo),但在本研究中由于該指標(biāo)缺失率偏大而未納入模型中,重要指標(biāo)的缺失可能會(huì)對(duì)模型的效能產(chǎn)生一些影響。

      猜你喜歡
      特征選擇準(zhǔn)確率樣本
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      推動(dòng)醫(yī)改的“直銷(xiāo)樣本”
      高速公路車(chē)牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      Kmeans 應(yīng)用與特征選擇
      電子制作(2017年23期)2017-02-02 07:17:06
      村企共贏的樣本
      聯(lián)合互信息水下目標(biāo)特征選擇算法
      绥化市| 读书| 盐山县| 乌拉特后旗| 阜新市| 仁寿县| 山东省| 南华县| 青河县| 图们市| 兰溪市| 渭南市| 中超| 阳高县| 柯坪县| 哈密市| 阿克苏市| 贡嘎县| 乳源| 紫阳县| 布拖县| 农安县| 绥中县| 兴业县| 登封市| 寻乌县| 叶城县| 和林格尔县| 呼玛县| 阜宁县| 麦盖提县| 南靖县| 宁河县| 漯河市| 连江县| 黑山县| 大足县| 庐江县| 威宁| 滦平县| 民县|