• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    利用患者相似性建立個(gè)性化糖尿病預(yù)測(cè)模型*

    2019-02-28 07:44:50黃艷群劉紅蕾費(fèi)曉璐
    關(guān)鍵詞:疾病診斷訓(xùn)練樣本相似性

    黃艷群 王 妮 張 慧 劉紅蕾 陳 卉 魏 嵐 費(fèi)曉璐

    (1首都醫(yī)科大學(xué)生物醫(yī)學(xué)工程學(xué)院 北京100069 (首都醫(yī)科大學(xué)宣武醫(yī)院 2首都醫(yī)科大學(xué)臨床生物力學(xué)應(yīng)用基礎(chǔ)研究北京市 北京100053)重點(diǎn)實(shí)驗(yàn)室 北京100069)

    1 引言

    在臨床醫(yī)學(xué)中疾病診斷和分期、預(yù)后預(yù)測(cè)等屬于數(shù)據(jù)挖掘中的分類(lèi)和預(yù)測(cè)任務(wù)。疾病診斷預(yù)測(cè)是指以疾病的多種影響因素為基礎(chǔ),利用可靠的大規(guī)模臨床數(shù)據(jù)建立模型,預(yù)測(cè)具有某些特征的人群發(fā)生某種疾病的概率,對(duì)疾病發(fā)生與否進(jìn)行判斷,從而幫助臨床醫(yī)生進(jìn)行疾病的診斷和治療[1]。傳統(tǒng)的預(yù)測(cè)建模方法是使用所有可用的同一批訓(xùn)練樣本為所有測(cè)試樣本構(gòu)建相同的預(yù)測(cè)模型,即“全局”預(yù)測(cè)模型。由于這種方法會(huì)忽略或丟失對(duì)特定目標(biāo)患者重要的信息,得到的預(yù)測(cè)結(jié)果可能不理想。近年來(lái)一些學(xué)者提出個(gè)性化建模思想,即根據(jù)患者的歷史信息尋找與目標(biāo)患者相似的患者,利用其數(shù)據(jù)構(gòu)建動(dòng)態(tài)預(yù)測(cè)模型,進(jìn)而獲得更佳的預(yù)測(cè)性能[2-7]。在個(gè)性化預(yù)測(cè)建模過(guò)程中,患者之間的相似性決定建模所使用的訓(xùn)練樣本,其有助于提高模型的預(yù)測(cè)性能。此外基于患者相似性的個(gè)性化建模思想應(yīng)用于不同的數(shù)據(jù)挖掘模型時(shí)效果也可能不同。鑒于此,本文對(duì)不同模型在個(gè)性化預(yù)測(cè)建模任務(wù)中的應(yīng)用進(jìn)行探索性研究,以期對(duì)個(gè)性化預(yù)測(cè)建模中的模型選擇提供一定的參考依據(jù)。

    2 資料和方法

    2.1 數(shù)據(jù)準(zhǔn)備

    2.1.1 數(shù)據(jù)來(lái)源 本研究的數(shù)據(jù)來(lái)源于近兩年首都醫(yī)科大學(xué)宣武醫(yī)院的電子病歷系統(tǒng)。經(jīng)過(guò)去隱私處理,提取患者性別、年齡、疾病診斷、實(shí)驗(yàn)室指標(biāo)共4大項(xiàng)指標(biāo)作為建模特征。對(duì)完成清理的數(shù)據(jù)通過(guò)國(guó)際疾病編碼第10版ICD-10(International Classification of Diseases, the 10th Revision)編碼隨機(jī)抽取糖尿病(ICD-10編碼為E10-E14)患者和非患者各5 000名數(shù)據(jù),構(gòu)成10 000個(gè)樣本的研究隊(duì)列。

    2.1.2 建模特征選擇 由于ICD-10編碼龐大、過(guò)于細(xì)致,主要運(yùn)用于臨床的疾病細(xì)致分類(lèi),不利于進(jìn)行病種分類(lèi)[8],因此選用能夠?qū)膊∵M(jìn)行病種分類(lèi)的臨床分類(lèi)軟件(Clinical Classifications Software,CCS)編碼[9]作為特征輸入。首先根據(jù)樣本涉及的所有疾病診斷的ICD-10編碼生成相應(yīng)的CCS編碼(共191個(gè))。然后利用卡方檢驗(yàn)確定在糖尿病患者及非患者之間發(fā)生率有統(tǒng)計(jì)學(xué)差異(p<0.05)的疾病診斷共28個(gè)作為最終輸入。保留所有患者中無(wú)數(shù)據(jù)缺失的實(shí)驗(yàn)室指標(biāo)共77個(gè)作為輸入特征。經(jīng)過(guò)特征選擇,選入建模的特征共107個(gè),即性別、年齡、28個(gè)疾病診斷及77個(gè)實(shí)驗(yàn)室指標(biāo)。其中性別為二值變量,28個(gè)疾病診斷表示為28個(gè)是否患病的二值變量,年齡和實(shí)驗(yàn)室指標(biāo)為連續(xù)型變量,輸出為患有糖尿病的概率。

    2.2 計(jì)算患者相似性

    2.2.1 概述 首先計(jì)算樣本各個(gè)特征(年齡、性別、疾病診斷、實(shí)驗(yàn)室指標(biāo))間的相似性,然后匯總為樣本間的相似性。設(shè)X和Y分別表示兩個(gè)樣本(患者),患者特征相似性的計(jì)算方法如下。

    2.2.2 年齡相似性 利用患者X和Y兩者最小年齡與最大年齡之比作為年齡相似性Sage(X,Y)。其中AGEx和AGEY分別表示患者X和Y的年齡,MIN和MAX表示求最大值和最小值。

    (1)

    2.2.3 性別相似性 患者X和Y的性別相同時(shí)性別相似性Ssex(X,Y)為1,不同時(shí)為0。

    (2)

    2.2.4 疾病診斷相似性 利用4位ICD-10疾病編碼層級(jí)結(jié)構(gòu)計(jì)算患者X和Y的疾病診斷相似性Sdis(X,Y)[10],見(jiàn)圖1。其中|A|和|B|分別表示兩個(gè)患者的疾病診斷的個(gè)數(shù),A、B分別為兩個(gè)患者所有疾病診斷(按4位ICD-10編碼分類(lèi))的集合,|AUB|表示它們的并集,AB表示集合A中包含但集合B中不包含的疾病集合,BA表示集合B中包含但集合A中不包含的疾病集合,d(a,b)是疾病a和b的ICD-10編碼在樹(shù)型ICD-10編碼體系中的層級(jí)距離,它根據(jù)疾病層級(jí)自上而下計(jì)算而得。NCA(a,b)表示當(dāng)自上而下遍歷疾病a和b的ICD-10編碼4位編碼層級(jí)結(jié)構(gòu)時(shí)相同的層數(shù),遍歷直至遇到不同的層時(shí)停止;#levels表示疾病層數(shù),本研究中#levels=4。若患者X和Y的疾病診斷中有相同的疾病診斷,則不計(jì)算該疾病與其他疾病的層級(jí)距離。如疾病編碼為C16.9(胃癌)和C34.9(右支氣管肺癌)只有層級(jí)結(jié)構(gòu)的第1層“C”相同,故兩者的層級(jí)距離為1/4。

    (3)

    圖1 4位ICD-10編碼層級(jí)結(jié)構(gòu)

    (4)

    2.2.5 實(shí)驗(yàn)室指標(biāo)相似性 利用歐式距離計(jì)算實(shí)驗(yàn)室指標(biāo)相似性Slab(X,Y)。

    (5)

    其中LABXi和LABYi分別表示患者X和Y的第i個(gè)實(shí)驗(yàn)室指標(biāo)值,i=1,2,…77。根據(jù)預(yù)實(shí)驗(yàn)對(duì)年齡、性別、疾病診斷和實(shí)驗(yàn)室指標(biāo)相似性按照以下最佳權(quán)重加權(quán)求和得到兩個(gè)樣本間的相似性。

    Similarity(X,Y)=0.1*Sage(X,Y)+0.1*Sage
    (X,Y)+0.4*Sdis(X,Y)+0.4*Slab(X,Y)

    (6)

    2.3 預(yù)測(cè)模型

    選擇可輸出連續(xù)值的3種常見(jiàn)機(jī)器學(xué)習(xí)模型即Logistic回歸(Logistic Regression,LR),決策樹(shù)(Decision Tree,DT),BP(Back Propagation,BP)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行對(duì)比。選用條件決策樹(shù)構(gòu)建決策樹(shù)模型,能夠基于顯著性檢驗(yàn)自動(dòng)給決策樹(shù)剪枝,有效防止決策樹(shù)模型出現(xiàn)過(guò)擬合的現(xiàn)象。BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)為1個(gè)輸入層(包含107個(gè)神經(jīng)元對(duì)應(yīng)107個(gè)輸入特征)、1個(gè)隱含層(根據(jù)經(jīng)驗(yàn)確定包含

    7個(gè)神經(jīng)元)和1個(gè)輸出層(包含1個(gè)神經(jīng)元,輸出分類(lèi)概率值)。權(quán)重的初始值設(shè)置為0~1的隨機(jī)數(shù)。為便于比較模型的性能,本研究構(gòu)造一個(gè)參照模型,即利用患者相似性為待測(cè)患者抽出前K%個(gè)最相似的訓(xùn)練樣本,這些訓(xùn)練樣本中糖尿病患者所占比例作為該待測(cè)患者的預(yù)測(cè)結(jié)果。

    2.4 驗(yàn)證與評(píng)價(jià)預(yù)測(cè)模型

    本研究采用hold-out驗(yàn)證方法進(jìn)行建模和驗(yàn)證,將整個(gè)研究隊(duì)列按9:1的比例隨機(jī)劃分為訓(xùn)練集(9 000個(gè)樣本)和測(cè)試集(1 000個(gè)樣本)。建立個(gè)性化預(yù)測(cè)模型時(shí),為每個(gè)測(cè)試樣本抽取訓(xùn)練集中與該樣本相似性最高的前K%個(gè)訓(xùn)練樣本來(lái)建模。K取值1~70,即建模時(shí)訓(xùn)練樣本的規(guī)模取90~6 300。同時(shí)隨機(jī)抽取K%個(gè)訓(xùn)練樣本建立相應(yīng)的非個(gè)性化模型。選用ROC曲線下面積(Area Under the Curve,AUC)評(píng)價(jià)模型的預(yù)測(cè)準(zhǔn)確性。

    3 結(jié)果

    3.1 個(gè)性化模型與非個(gè)性化模型間的比較(表2)

    表1 不同個(gè)性化模型和非個(gè)性化模型以及參照模型的AUC范圍及平均值比較

    3.1.1 LR模型 個(gè)性化與非個(gè)性化模型的AUC均隨訓(xùn)練樣本量的增加而增大,在訓(xùn)練樣本量分別達(dá)到10%(90)和34%(3 060)之前,AUC隨訓(xùn)練樣本量增加變化較大,隨后變化減緩且基本達(dá)到最高;在訓(xùn)練樣本量較多時(shí)兩者的預(yù)測(cè)性能均屬于優(yōu)秀且基本保持穩(wěn)定,表明不再需要更多訓(xùn)練樣本量進(jìn)行建模。整體上個(gè)性化模型性能優(yōu)于非個(gè)性化模型,見(jiàn)圖2。

    圖2 Logistic回歸模型預(yù)測(cè)性能

    3.1.2 DT模型 個(gè)性化模型的AUC隨訓(xùn)練樣本量的增加變化幅度較小,在0.883左右浮動(dòng),表明其受到訓(xùn)練樣本量的影響較小。非個(gè)性化模型的AUC在訓(xùn)練樣本量較少時(shí)(少于4%)升高幅度較大,隨后基本保持穩(wěn)定。整體上個(gè)性化模型性能優(yōu)于非個(gè)性化模型,見(jiàn)圖3。

    圖3 決策樹(shù)模型預(yù)測(cè)性能

    3.1.3 BP模型 個(gè)性化模型的AUC逐漸下降,變化幅度較小,非個(gè)性化模型AUC變化浮動(dòng)不定,規(guī)律性不強(qiáng);診斷能力均較低。總體上個(gè)性化模型性能優(yōu)于非個(gè)性化模型,且達(dá)到最佳預(yù)測(cè)性能時(shí)所需要的訓(xùn)練樣本量少于非個(gè)性化模型,見(jiàn)圖4。

    圖4 BP神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)性能

    3.2 不同個(gè)性化模型間的比較(圖5)

    無(wú)論訓(xùn)練樣本量如何變化,LR、DT和BP模型的AUC均高于參照模型,特別是LR和DT模型的AUC明顯高于參照模型。這說(shuō)明機(jī)器學(xué)習(xí)模型在應(yīng)用于疾病預(yù)測(cè)時(shí)其性能優(yōu)于基于簡(jiǎn)單的投票思想的參照模型。此外,總體上LR和DT模型的AUC相近且較高,尤其是DT模型在訓(xùn)練樣本量變化時(shí)AUC均維持在較高水平,預(yù)測(cè)性能較佳, BP模型的AUC普遍較低。因此LR和DT模型可能更適用于疾病預(yù)測(cè)。

    4 討論

    4.1 患者相似性及其在醫(yī)學(xué)數(shù)據(jù)挖掘中的應(yīng)用

    在相似性計(jì)算方面,主要有基于Mahalanobis距離、歐氏距離等方法以及對(duì)相似性進(jìn)行加權(quán)求和從而優(yōu)化相似性的計(jì)算。Sun J等[2]提出基于局部監(jiān)督信息的患者相似性學(xué)習(xí)(Locally Supervised Metric Learning,LSML)算法,將患者的疾病診斷作為監(jiān)督信息來(lái)判別該患者的相似患者,進(jìn)而得到一種泛化的馬氏距離來(lái)計(jì)算患者相似性。Patel A等[3]通過(guò)對(duì)非ICU患者生命體征信息的相似性加權(quán),獲取最終相似性來(lái)預(yù)測(cè)ICU患者轉(zhuǎn)入非ICU病房的可能性。陳婕卿等[4]基于艾滋病患者治療前的基線資料,利用歐氏距離計(jì)算患者相似性,實(shí)現(xiàn)基于案例推理的治療方案推薦。在相似性的應(yīng)用方面,主要有基于患者相似性、選用不同數(shù)據(jù)挖掘預(yù)測(cè)模型等進(jìn)行疾病、死亡預(yù)測(cè)等。Chan L等[5]利用電子病歷數(shù)據(jù)計(jì)算患者相似性并依此挑選相似患者,建立基于支持向量機(jī)的癌癥患者個(gè)性化生存預(yù)測(cè)模型。Kenny Ng等[6]探討利用患者相似性進(jìn)行糖尿病風(fēng)險(xiǎn)因素分析和個(gè)性化糖尿病預(yù)測(cè)的可行性。Park YJ等[7]探索利用不同訓(xùn)練樣本規(guī)模、臨床相似性最高的患者數(shù)據(jù)構(gòu)建Logistic回歸模型來(lái)研究死亡預(yù)測(cè)準(zhǔn)確率隨建模人數(shù)變化的趨勢(shì)。

    4.2 研究結(jié)果及分析

    本研究選用結(jié)構(gòu)、算法、思想完全不同的3種模型,探討利用患者相似性建立個(gè)性化糖尿病預(yù)測(cè)模型時(shí)模型本身對(duì)預(yù)測(cè)結(jié)果的影響,取得較為滿(mǎn)意的結(jié)果。在相似性計(jì)算方面,針對(duì)輸入特征(年齡、性別、疾病診斷和實(shí)驗(yàn)室指標(biāo))的不同類(lèi)型,采用不同的特征相似性計(jì)算方法并嘗試不同的權(quán)重組合,最終得到效果最好的相似性度量結(jié)果用于篩選模型的訓(xùn)練樣本。實(shí)驗(yàn)結(jié)果顯示整體上個(gè)性化預(yù)測(cè)模型性能明顯優(yōu)于非個(gè)性化模型和參照模型,與其他研究[6]的結(jié)果類(lèi)似,主要體現(xiàn)在個(gè)性化模型達(dá)到最佳預(yù)測(cè)性能時(shí)所需的訓(xùn)練樣本量明顯較少且在訓(xùn)練樣本量相同時(shí)個(gè)性化模型性能更佳。此外在3種個(gè)性化預(yù)測(cè)模型中LR和DT模型的性能最佳,預(yù)測(cè)能力均屬于優(yōu)秀。特別是DT模型,其隨訓(xùn)練樣本量變化浮動(dòng)較小,受到訓(xùn)練樣本量的影響較小,用較少的訓(xùn)練樣本(如90人)即可得到較佳的預(yù)測(cè)結(jié)果。原因可能在于本研究所選的決策樹(shù)類(lèi)型為條件推斷樹(shù),算法本身能夠根據(jù)實(shí)際情況自動(dòng)剪枝,故性能穩(wěn)定。BP模型預(yù)測(cè)性能一般,原因可能是其訓(xùn)練過(guò)程過(guò)于依賴(lài)各個(gè)神經(jīng)元的初始化賦值,但是這種初始化賦值是隨機(jī)的,從而導(dǎo)致訓(xùn)練結(jié)果出現(xiàn)較大的隨機(jī)性。

    5 結(jié)語(yǔ)

    基于患者相似性構(gòu)建個(gè)性化糖尿病預(yù)測(cè)模型具有可行性且相對(duì)于傳統(tǒng)方法預(yù)測(cè)效果有所提升;該方法運(yùn)用于其他疾病的預(yù)測(cè)上可能會(huì)得到較為滿(mǎn)意的效果。未來(lái)可從擴(kuò)充樣本的特征(如影像學(xué)特征)以及嘗試其他相似性計(jì)算方法等方面開(kāi)展相關(guān)研究。

    猜你喜歡
    疾病診斷訓(xùn)練樣本相似性
    一類(lèi)上三角算子矩陣的相似性與酉相似性
    超高頻超聲在淺表器官疾病診斷中的應(yīng)用
    淺析當(dāng)代中西方繪畫(huà)的相似性
    人工智能
    《呼吸疾病診斷流程與治療策略》已出版
    寬帶光譜成像系統(tǒng)最優(yōu)訓(xùn)練樣本選擇方法研究
    融合原始樣本和虛擬樣本的人臉識(shí)別算法
    基于Web及知識(shí)推理的寵物狗疾病診斷專(zhuān)家系統(tǒng)
    基于稀疏重構(gòu)的機(jī)載雷達(dá)訓(xùn)練樣本挑選方法
    低滲透黏土中氯離子彌散作用離心模擬相似性
    信宜市| 边坝县| 庆云县| 射阳县| 兴和县| 依安县| 平顶山市| 杨浦区| 灵丘县| 宝应县| 榆社县| 沁水县| 威信县| 白银市| 新闻| 汶川县| 什邡市| 赣州市| 乐东| 盐亭县| 泽州县| 遂宁市| 柳江县| 东明县| 平凉市| 康马县| 浦县| 翁牛特旗| 台东市| 冀州市| 西林县| 宁晋县| 会泽县| 东莞市| 乌兰察布市| 东阿县| 松桃| 吐鲁番市| 恩施市| 图们市| 武隆县|