• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于神經(jīng)心理測(cè)試的XGBoost在MCI亞型分類中的應(yīng)用*

    2023-10-18 14:03:50易付良陳杜榮張嘉嘉韓紅娟葛曉燕白文琳安建華余紅梅
    關(guān)鍵詞:效用亞型分類

    易付良 陳杜榮 秦 瑤 張嘉嘉 韓紅娟 葛曉燕 崔 靖 白文琳 安建華 余紅梅,3△

    【提 要】 目的 利用神經(jīng)心理測(cè)試,構(gòu)建機(jī)器學(xué)習(xí)模型,對(duì)輕度認(rèn)知障礙(mild cognitive impairment,MCI)亞型(Ⅰ型-單認(rèn)知域遺忘型,Ⅱ型-多認(rèn)知域遺忘型,Ⅲ型-單認(rèn)知域非遺忘型,Ⅳ型-多認(rèn)知域非遺忘型)進(jìn)行分類,促進(jìn)MCI亞型早期識(shí)別、干預(yù)和個(gè)性化治療。方法 數(shù)據(jù)來(lái)源于NACC公共數(shù)據(jù)庫(kù),Ⅰ型469人,Ⅱ型538人,Ⅲ型262人,Ⅳ型274人。神經(jīng)心理測(cè)試包括學(xué)習(xí)記憶、語(yǔ)言功能、注意力、執(zhí)行功能和蒙特利爾認(rèn)知評(píng)估量表。采用隨機(jī)森林填補(bǔ)缺失值,利用彈性網(wǎng)絡(luò)選擇不同MCI亞型的最佳特征,將這些特征輸入極限梯度提升(extreme gradient boosting,XGBoost)對(duì)MCI亞型進(jìn)行分類,并將分類效果與K-近鄰(k-nearest neighbor,KNN)、支持向量機(jī)(supper vector machine,SVM)、隨機(jī)森林(random forest,RF)進(jìn)行比較。評(píng)價(jià)指標(biāo)包括準(zhǔn)確率、靈敏度、特異度、F1-score、G-means、AUC以及陽(yáng)性/陰性臨床效用指數(shù)(CUI+/CUI-)。結(jié)果 除Ⅰ/Ⅱ型MCI,4個(gè)模型對(duì)其他MCI亞型分類準(zhǔn)確率均大于80%;除靈敏度和CUI-,XGBoost模型整體分類性能優(yōu)于其他3個(gè)模型;除KNN,其他3個(gè)模型臨床效用指標(biāo)均大于0.49,且XGBoost對(duì)Ⅰ/Ⅲ、Ⅰ/Ⅳ型分類臨床效用大于0.81;XGBoost分類aMCI/naMCI及Ⅰ/Ⅲ型MCI時(shí),最重要的分類特征為延遲10~15min后復(fù)現(xiàn)本森圖(UDSBENTD),分類Ⅰ/Ⅱ型MCI及Ⅰ/Ⅳ型MCI時(shí),最重要的分類特征為連線B完成總時(shí)間(TRAILB)。結(jié)論 基于神經(jīng)心理測(cè)試的XGBoost對(duì)MCI亞型分類性能較好,相較于經(jīng)典的機(jī)器學(xué)習(xí)模型有所提升,有實(shí)際應(yīng)用價(jià)值。

    輕度認(rèn)知障礙(mild cognitive impairment,MCI)是指認(rèn)知損傷高于隨年齡增長(zhǎng)或“正常衰老”而出現(xiàn)的記憶和認(rèn)知變化,但不足以引起日常功能顯著受損和癡呆[1]。MCI通常被看作是阿爾茨海默病(Alzheimer′s disease,AD)的高風(fēng)險(xiǎn)狀態(tài),每年有5%~15%的MCI患者進(jìn)展為AD[2-3]。根據(jù)認(rèn)知損害的位置與數(shù)量,可將MCI分為以下亞型:Ⅰ型(單認(rèn)知域遺忘型):僅表現(xiàn)為記憶領(lǐng)域損害;Ⅱ型(多認(rèn)知域遺忘型):記憶損害伴語(yǔ)言/注意力/執(zhí)行功能損害;Ⅲ型(單認(rèn)知域非遺忘型):語(yǔ)言或注意力等單個(gè)認(rèn)知損害;Ⅳ型(多認(rèn)知域非遺忘型):表現(xiàn)為記憶正常,但多個(gè)其他認(rèn)知領(lǐng)域損害。Ⅰ型和Ⅱ型MCI合稱為遺忘型MCI(amnestic MCI,aMCI);Ⅲ型和Ⅳ型合稱為非遺忘型MCI(non- amnestic MCI,n-aMCI)[4-5]。各亞型MCI在轉(zhuǎn)歸上有較大差別。aMCI被認(rèn)為是AD的前驅(qū)階段,5年后AD進(jìn)展率高達(dá)60%[6-7],其中,Ⅰ型MCI進(jìn)展為AD的可能性最大,Ⅱ型MCI次之;而n-aMCI更容易進(jìn)展為原發(fā)性失語(yǔ)、額顳葉癡呆和路易體癡呆等[7-8]。因此,準(zhǔn)確識(shí)別MCI亞型將有助于早期干預(yù)和靶向治療[9]。

    過(guò)去的研究常關(guān)注腦成像數(shù)據(jù)如核磁共振成像或正電子發(fā)射斷層掃描以及腦脊液蛋白組學(xué)以評(píng)估中樞神經(jīng)系統(tǒng)淀粉樣蛋白沉積、病理學(xué)tau蛋白堆積和神經(jīng)退行性變[10]。然而,作為診斷MCI和AD的臨床核心標(biāo)準(zhǔn)——神經(jīng)心理測(cè)試依然是臨床醫(yī)師的首選,被大量運(yùn)用于識(shí)別MCI,而侵入性方法(腦脊液、血液)和腦成像生物標(biāo)志物則在特定的環(huán)境下作為輔助的臨床診斷[11]。有文獻(xiàn)報(bào)道,敏銳的神經(jīng)心理測(cè)試如聽覺(jué)詞語(yǔ)學(xué)習(xí)測(cè)試反映的細(xì)微認(rèn)知損害相較于生物標(biāo)志物的出現(xiàn)可能更早,這有助于早期發(fā)現(xiàn)MCI以及預(yù)測(cè)疾病進(jìn)展[12]。

    隨著人工智能的飛速發(fā)展,機(jī)器學(xué)習(xí)和數(shù)據(jù)驅(qū)動(dòng)方法在眾多領(lǐng)域得到應(yīng)用。本研究擬采用NACC數(shù)據(jù)庫(kù)神經(jīng)心理測(cè)試結(jié)合機(jī)器學(xué)習(xí)算法——極限梯度提升(extreme gradient boosting,XGBoost)對(duì)aMCI和n-aMCI、Ⅰ型MCI和Ⅱ型、Ⅲ型、Ⅳ型MCI進(jìn)行分類,并將分類效果與K-近鄰(k-nearest neighbor,KNN)、支持向量機(jī)(supper vector machine,SVM)和隨機(jī)森林(random forest,RF)進(jìn)行比較,識(shí)別最優(yōu)分類效果,以促進(jìn)MCI亞型早期干預(yù)和個(gè)性化治療。

    資料與方法

    1.數(shù)據(jù)來(lái)源

    本研究所采用的數(shù)據(jù)來(lái)源于NACC(National Alzheimer′s Coordinating Center)數(shù)據(jù)庫(kù)(https://naccdata.org/),編號(hào)(1721)。研究對(duì)象為2015年1月~2021年3月確診的MCI患者。

    2.研究方法

    (1)數(shù)據(jù)填補(bǔ)

    采用隨機(jī)森林對(duì)缺失值進(jìn)行填補(bǔ)。隨機(jī)森林可以用于混合類型的數(shù)據(jù)填補(bǔ),在數(shù)據(jù)集缺失率高達(dá)50%的情況下,填補(bǔ)準(zhǔn)確率依舊高達(dá)95%[13]。

    (2)神經(jīng)心理測(cè)試

    根據(jù)第五版精神障礙診斷和統(tǒng)計(jì)手冊(cè)劃分的認(rèn)知領(lǐng)域,結(jié)合NACC數(shù)據(jù)庫(kù)神經(jīng)心理測(cè)試UDS2和UDS3版本,本次研究納入的因變量為4個(gè)MCI亞型。自變量包括,基本情況:性別、年齡、受教育年限、婚姻狀態(tài)、獨(dú)立生活、MCI家族史;學(xué)習(xí)記憶:故事單元召回(即時(shí)、延遲)、復(fù)現(xiàn)本森圖(即時(shí)、延遲);語(yǔ)言功能:多語(yǔ)言命名測(cè)試、動(dòng)物命名測(cè)試、蔬菜命名測(cè)試、語(yǔ)言流暢性測(cè)試;注意力:數(shù)字廣度測(cè)試(前向、后向);執(zhí)行功能:連線A、B,以及蒙特利爾評(píng)估量表。另外,還納入了臨床癡呆評(píng)分量表、功能活動(dòng)量表,自變量共計(jì)83項(xiàng)。

    (3)特征選擇

    懲罰技術(shù)的提出用來(lái)改善最小二乘估計(jì)在模型預(yù)測(cè)與解釋方面表現(xiàn)不佳。例如,Hui Zou等人提出了彈性網(wǎng)絡(luò)(elastic net,EN),該算法結(jié)合LASSO回歸和嶺回歸的L1和L2正則化懲罰項(xiàng),L1促使產(chǎn)生稀疏的特征,輸出那些權(quán)重較大的預(yù)測(cè)因子,L2促使產(chǎn)生更分散的權(quán)重特征,輸出更多的預(yù)測(cè)因子而非輸入中的小部分特征[14-15]。因此,EN在去除對(duì)結(jié)果影響較小預(yù)測(cè)因子的同時(shí)還能降低模型過(guò)擬合風(fēng)險(xiǎn)[16]。

    利用EN對(duì)特征進(jìn)行篩選,aMCI/naMCI組篩選出37個(gè)特征,Ⅰ/Ⅱ型MCI組篩選出28個(gè)特征,I/Ⅲ型MCI組篩選出43個(gè)特征,Ⅰ/Ⅳ型MCI組篩選出29個(gè)特征。

    (4)建立分類模型

    將數(shù)據(jù)劃分為訓(xùn)練集(80%)和驗(yàn)證集(20%),采用十折交叉驗(yàn)證在訓(xùn)練集上構(gòu)建XGBoost模型并與KNN、SVM和RF模型比較,并在驗(yàn)證集上評(píng)價(jià)模型擬合度。

    ①XGBoost原理

    設(shè)有數(shù)據(jù)集D={(x1,y1)…(xN,yN)},yi∈{-1,+1},第t輪迭代后模型預(yù)測(cè)值有:

    (1)

    (1)式中ft(xi)為第t棵樹的預(yù)測(cè)值,F為對(duì)應(yīng)的樹組成的函數(shù)空間。

    ②目標(biāo)函數(shù)求解

    利用XGBoost完成分類任務(wù)時(shí),要保證每新加入一棵樹后模型整體性能提升,即要最小化目標(biāo)函數(shù)Obj(t),可通過(guò)正則項(xiàng)Ω對(duì)損失函數(shù)進(jìn)行約束:

    (2)

    (3)

    (4)

    此時(shí)目標(biāo)函數(shù)在樣本上進(jìn)行遍歷。用泰勒展開式(5)近似目標(biāo)函數(shù):

    (5)

    (6)

    (7)

    由于求解目標(biāo)函數(shù)在樣本遍歷的復(fù)雜性,故將目標(biāo)函數(shù)轉(zhuǎn)換成在葉子節(jié)點(diǎn)上遍歷。定義q函數(shù)將輸入xi映射到某個(gè)葉子節(jié)點(diǎn)上,則有:ft(xi)=wq(xi),w∈RT,q:Rd→{1,2,…,T},定義每個(gè)葉子節(jié)點(diǎn)j上集合為Ij={i|q(xi)=j},則目標(biāo)函數(shù)可以改寫為:

    (8)

    (9)

    (10)

    (11)

    ③確定樹的結(jié)構(gòu)

    對(duì)于樹的結(jié)構(gòu),需要根據(jù)分裂后的增益Gain來(lái)確定,類似于決策樹中的ID3信息增益,XGBoost的增益:

    (12)

    (5)評(píng)價(jià)指標(biāo)

    模型性能評(píng)價(jià):包括準(zhǔn)確率、靈敏度、特異度、F1-score、G-means、受試者工作曲線下面積(area under ROC curve,AUC)。

    臨床效用評(píng)價(jià):陽(yáng)性臨床效用指數(shù)(positive clinical utility index,CUI+)、陰性臨床效用指數(shù)(negative clinical utility index,CUI-)。CUI≥0.81:效用極好,CUI≥0.64:效用良好,CUI≥0.49:效用滿意,CUI<0.49:效用較差[20]。

    (6)軟件實(shí)現(xiàn)

    數(shù)據(jù)處理與分析基于R語(yǔ)言。缺失填補(bǔ)使用“missForest”包,特征選擇使用“glmnet”包。構(gòu)建XGBoost、KNN、SVM和RF使用“XGBoost”、“kknn”、“e1071”、“randomForest”包。繪制AUC使用“ROCR”包。

    結(jié) 果

    1.填補(bǔ)結(jié)果

    填補(bǔ)前缺失值的數(shù)量與位置見(jiàn)圖1,本次填補(bǔ)數(shù)據(jù)的標(biāo)準(zhǔn)化均方誤差為0.26,錯(cuò)分率為0.13。

    圖1 數(shù)據(jù)缺失值(紅色為缺失值數(shù)量、位置)

    2.基本情況

    研究納入MCI患者1543人,其中aMCI1007人(Ⅰ型469人,Ⅱ型538人);naMCI536人(Ⅲ型262人,Ⅳ型274人)。年齡分布:Ⅰ型(74.86±7.98歲),Ⅱ型(76.49±10.00歲),Ⅲ型(71.34±10.27歲),Ⅳ型(72.55±9.47歲)。受教育年限:Ⅰ型(16.14±2.72年),Ⅱ型(15.42±3.26年),Ⅲ型(15.45±3.2年),Ⅳ型(15.66±3.04年)。其余信息見(jiàn)表1。

    表1 人口統(tǒng)計(jì)資料

    3.分類結(jié)果

    除Ⅰ/Ⅱ型MCI,4個(gè)模型對(duì)其他MCI亞型分類準(zhǔn)確率均大于80%,且XGBoost表現(xiàn)最好。除靈敏度和CUI-,XGBoost模型分類性能整體優(yōu)于其他3個(gè)模型。除KNN,其他模型臨床效用指標(biāo)均大于0.49(效用滿意),且XGBoost分類Ⅰ/Ⅲ、Ⅰ/Ⅳ型MCI效用大于0.81(效用極好),見(jiàn)表2。XGBoost對(duì)各亞型MCI分類AUC均大于0.85,且分類aMCI/naMCI、Ⅰ/Ⅲ型、Ⅰ/Ⅳ型MCI時(shí)AUC大于0.95,見(jiàn)圖2。

    表2 MCI亞型分類評(píng)價(jià)指標(biāo)

    圖2 XGBoost分類MCI亞型AUC

    XGBoost對(duì)MCI亞型分類時(shí),aMCI/naMCI最重要的3個(gè)分類特征依次為:延遲10~15min后復(fù)現(xiàn)本森圖(UDSBENTD)、故事單元召回(延遲15min)回憶的故事總數(shù):釋義評(píng)分(CARFTDRE)、臨床癡呆評(píng)分量表—記憶(MEMORY);Ⅰ/Ⅱ型MCI最重要的3個(gè)分類特征依次為:連線B完成總時(shí)間(TRAILB)、正確說(shuō)出帶F和L字母的單詞總數(shù)(UDSVERTN)、連線A完成總時(shí)間(TRAILA);Ⅰ/Ⅲ型MCI最重要的3個(gè)分類特征依次為:UDSBENTD、MEMORY、TRAILB;Ⅰ/Ⅳ型MCI最重要的3個(gè)分類特征依次為:TRAILB、CARFTDRE、UDSVERTN。見(jiàn)圖3。

    討 論

    利用神經(jīng)心理測(cè)試結(jié)合XGBoost對(duì)aMCI和n-aMCI、Ⅰ型MCI和Ⅱ型、Ⅲ型、Ⅳ型MCI進(jìn)行分類,并將分類效果與KNN、SVM和RF進(jìn)行比較。XGBoost在分類MCI亞型的整體性能較其他模型均有提升。

    XGBoost是基于樹的集成模型,建樹的過(guò)程中最耗時(shí)的步驟就是特征值排序,而Block結(jié)構(gòu)的引入減少了排序時(shí)間,同時(shí)也使并行運(yùn)算成為了可能,但其并行不是基于樹的粒度,而是特征粒度[19-21]。

    本研究結(jié)果顯示,XGBoost模型識(shí)別各亞型MCI時(shí)靈敏度和CUI-略低于RF和SVM,與趙永鵬[22]等人的研究相似??赡艿脑蚴荴GBoost對(duì)類別不平衡數(shù)據(jù)更敏感,模型更關(guān)注樣本較少的類別,而我們?cè)诮⒛P蜁r(shí),預(yù)先設(shè)定Ⅰ型MCI為Negative,而Ⅱ、Ⅲ、Ⅳ型MCI為Positive。參數(shù)調(diào)節(jié)也會(huì)對(duì)模型性能產(chǎn)生影響,我們?cè)谳敵龌煜仃嚽罢{(diào)節(jié)threshold值,靈敏度和CUI-隨之變化,最佳threshold以犧牲靈敏度為代價(jià)輸出最高準(zhǔn)確率所對(duì)應(yīng)的混淆矩陣。

    此外,XGBoost更注重模型的可解釋性。通過(guò)輸出特征重要性排序圖,我們可以直觀地認(rèn)識(shí)對(duì)分類結(jié)果影響更大的特征。各亞型MCI最重要的3個(gè)分類特征,aMCI/n-aMCI為UDSBENTD、CARFTDRE、MEMORY,相較于n-aMCI,aMCI主要累積記憶損害[23],故延遲回憶花費(fèi)時(shí)間較長(zhǎng)、得分較低;Ⅰ/Ⅱ型MCI為TRAILB、TRAILA、UDSVERTN,前兩者可以反映MCI患者的執(zhí)行功能,而UDSVERTN可反映MCI患者的語(yǔ)言流暢性,Ⅱ型MCI患者在執(zhí)行功能和語(yǔ)言流暢性上低于Ⅰ型MCI患者[24];Ⅰ/Ⅲ型MCI為UDSBENTD、MEMORY、TRAILB,Ⅰ型/Ⅲ型MCI損傷領(lǐng)域分別為記憶單領(lǐng)域、非記憶單領(lǐng)域[8],UDSBENTD、MEMORY主要累積記憶領(lǐng)域,TRAILB與執(zhí)行功能有關(guān),分類結(jié)果與臨床一致;Ⅰ/Ⅳ型MCI為TRAILB、CARFTDRE、UDSVERTN,此3項(xiàng)指標(biāo)分別反映MCI患者的執(zhí)行功能、延遲回憶、語(yǔ)言流暢性,即Ⅰ型和Ⅳ型MCI患者在延遲回憶、執(zhí)行功能、語(yǔ)言流暢性上表現(xiàn)不同[25]。

    然而,醫(yī)療決策的制定更多依賴于診斷試驗(yàn)的臨床價(jià)值——診斷試驗(yàn)的目的在于改善患者的最終結(jié)局、提高醫(yī)療質(zhì)量和成本效益,而非簡(jiǎn)單地衡量試驗(yàn)準(zhǔn)確性[26]。因此,本研究引入臨床效用指標(biāo),以評(píng)估模型的臨床實(shí)用性。相較于其他模型,XGBoost模型CUI+較高,而CUI-略低,但均大于0.49,表現(xiàn)為效用滿意。說(shuō)明XGBoost模型的分類效果具有臨床實(shí)用價(jià)值,但多模型結(jié)合CUI表現(xiàn)可能更為出色。

    本研究的局限性在于,Ⅰ型/Ⅱ型MCI分類效果不及其他亞型,這可能是因?yàn)閮烧叨即嬖谟洃涱I(lǐng)域損害。因此,我們擬在下一步研究中結(jié)合神經(jīng)心理測(cè)試和其他生物標(biāo)志物以充實(shí)研究結(jié)果,并尋找合適的外部驗(yàn)證。

    猜你喜歡
    效用亞型分類
    分類算一算
    小學(xué)美術(shù)課堂板書的四種效用
    分類討論求坐標(biāo)
    數(shù)據(jù)分析中的分類討論
    教你一招:數(shù)的分類
    納米硫酸鋇及其對(duì)聚合物的改性效用
    Ikaros的3種亞型對(duì)人卵巢癌SKOV3細(xì)胞增殖的影響
    ABO亞型Bel06的分子生物學(xué)鑒定
    幾種常見(jiàn)葉面肥在大蒜田效用試驗(yàn)
    玉米田不同控釋肥料效用研討
    遵义市| 莫力| 夏河县| 广州市| 霍林郭勒市| 谷城县| 赣榆县| 阿拉善盟| 肇州县| 嵊泗县| 毕节市| 元阳县| 陕西省| 剑河县| 富源县| 新竹县| 临夏市| 绥滨县| 淮安市| 文水县| 通化县| 香港 | 嘉定区| 色达县| 瑞丽市| 太仓市| 扎赉特旗| 县级市| 布尔津县| 华坪县| 西平县| 渑池县| 舒城县| 交城县| 寿宁县| 宝坻区| 佛坪县| 泉州市| 南涧| 南安市| 丹阳市|