娜迪熱·艾孜熱提艾力,劉煜敏
目前全球卒中疾病負(fù)擔(dān)呈顯著增長趨勢,中國卒中死亡率和疾病負(fù)擔(dān)居全球之首[1]。卒中相關(guān)臨床數(shù)據(jù)分析可以更加明確卒中流行病學(xué)特點,提出診斷及分型依據(jù),評估療效和預(yù)后,為卒中防治提供更為準(zhǔn)確的證據(jù)和方向[2]。隨著信息技術(shù)的發(fā)展和醫(yī)院信息系統(tǒng)的改善,各大醫(yī)院積累了大量卒中住院患者臨床數(shù)據(jù),如何有效地利用這些珍貴的數(shù)據(jù)已成為國內(nèi)外的研究熱點。數(shù)據(jù)挖掘方法作為智能時代的產(chǎn)物,可以高效處理大規(guī)模、高維度的數(shù)據(jù),不僅有利于發(fā)現(xiàn)更多新的潛在危險因素,還能建立疾病預(yù)測模型,指導(dǎo)卒中防治。本文將介紹利用數(shù)據(jù)挖掘技術(shù)分析臨床數(shù)據(jù)的基本步驟,以及數(shù)據(jù)挖掘技術(shù)在卒中相關(guān)研究中的應(yīng)用。
數(shù)據(jù)挖掘是指利用機器學(xué)習(xí)的方法發(fā)現(xiàn)數(shù)據(jù)中隱藏的規(guī)律,以及從數(shù)據(jù)中抽取知識。為了發(fā)揮數(shù)據(jù)挖掘方法的優(yōu)勢,需要有大量高質(zhì)量的數(shù)據(jù)。為了利用數(shù)據(jù)挖掘技術(shù)深入研究卒中,國內(nèi)外創(chuàng)建了專業(yè)數(shù)據(jù)庫,比如國內(nèi)有中國國家卒中數(shù)據(jù)庫,國外以美國國家卒中研究所數(shù)據(jù)庫為代表。研究人員利用這些數(shù)據(jù)庫研究并發(fā)表了有關(guān)卒中療效、并發(fā)癥以及危險因素的論文[3-4]。這些數(shù)據(jù)庫和醫(yī)院信息系統(tǒng)為卒中數(shù)據(jù)分析提供了數(shù)據(jù)來源。利用數(shù)據(jù)挖掘技術(shù)分析卒中數(shù)據(jù)的基本步驟如圖1所示。
1.1 卒中臨床數(shù)據(jù)收集和預(yù)處理 根據(jù)研究主題從數(shù)據(jù)庫或者醫(yī)院信息系統(tǒng)中選出需要分析的卒中相關(guān)臨床數(shù)據(jù),構(gòu)建實驗數(shù)據(jù)集。
臨床數(shù)據(jù)中含有大量的缺失值、不規(guī)范值以及噪音。如果數(shù)據(jù)來源不同,則需要進(jìn)行格式轉(zhuǎn)換,統(tǒng)一數(shù)據(jù)的格式。其中最嚴(yán)重的問題在于存在缺失值,臨床數(shù)據(jù)涉及到個人隱私,無法收集所有數(shù)據(jù),或者在錄入數(shù)據(jù)時漏記或者錄入錯誤等都有可能產(chǎn)生缺失值。文獻(xiàn)[5]在處理缺失值時,針對不同類型的特征采用不同的統(tǒng)計量對缺失值進(jìn)行填充。對于數(shù)值型特征,利用特征的平均值填充;對于有序名義值,利用特征的中位數(shù)填充;對于無序名義值,利用特征的眾數(shù)填充。該文獻(xiàn)還提出利用線性回歸的方法來填充缺失值,該方法將缺失值作為目標(biāo),其余的因素作為特征,構(gòu)建一個線性回歸模型,將模型的預(yù)測值作為缺失值的替代值。缺失值處理方法的合理性可通過最終模型的預(yù)測性能來評價,也可以通過均方根誤差(root mean square deviation)、平均絕對離差(mean absolute deviation)、偏差(bias)等統(tǒng)計量來評價。Xiang Li等[6]用數(shù)據(jù)挖掘技術(shù)分析中國心房顫動登記數(shù)據(jù)庫中數(shù)據(jù),建立了心房顫動患者2年內(nèi)卒中風(fēng)險預(yù)測模型。該文獻(xiàn)處理缺失值時,首先刪除缺失值過多的特征,如二元特征的缺失值超過80%,多元特征的缺失值超過60%時,將這些特征全部刪除。
圖1 數(shù)據(jù)挖掘的基本步驟圖
數(shù)據(jù)預(yù)處理另一個重要步驟是將非數(shù)值數(shù)據(jù)轉(zhuǎn)化為數(shù)值數(shù)據(jù),文獻(xiàn)[7]制訂了統(tǒng)一的轉(zhuǎn)換規(guī)則,將同一種疾病或者相同治療方法的不同名稱轉(zhuǎn)化成統(tǒng)一的名稱,進(jìn)而轉(zhuǎn)化為方便分析的數(shù)值代碼。
1.2 特征選擇及相關(guān)因素分析 數(shù)據(jù)庫或者醫(yī)院信息系統(tǒng)中往往包含患者的基本信息、病史、治療方案等眾多信息,若在分析時將全部數(shù)據(jù)納入實驗中,不僅會造成信息冗余,還會減慢模型的訓(xùn)練速度,降低模型的性能,提高對硬件的要求。因此,需要從所有的數(shù)據(jù)中選出對目標(biāo)影響最大的數(shù)據(jù),即需要進(jìn)行特征選擇。
特征選擇一般有兩種方法,即利用專家經(jīng)驗的人工選擇方法和機器自動選擇方法。人工選擇方法會提高預(yù)測模型的敏感度,而機器自動選擇方法會提高模型的準(zhǔn)確率[8]。人工選擇方法的缺點是嚴(yán)重依賴專家的經(jīng)驗和能力,而機器自動選擇方法的缺點是依賴訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的劃分,不同的劃分方法可以得到不同的結(jié)果。不過,該問題可以通過加大數(shù)據(jù)的規(guī)模來解決。機器自動選擇方法的最大優(yōu)點是不依賴專家知識,不僅可以自動識別重要的特征,還能發(fā)現(xiàn)專家仍未發(fā)現(xiàn)的潛在的因素。因此,數(shù)據(jù)挖掘方法中往往使用機器自動選擇方法,專家知識可以用于驗證機器自動選擇方法選出的特征。
特征選擇算法分3種[9],分別為過濾式、包裹式、嵌入式。過濾式特征選擇方法通過一個特征重要性的函數(shù)對每一個特征進(jìn)行打分,按照分?jǐn)?shù)將特征進(jìn)行排序,選擇重要的特征,常見的評價特征重要性的函數(shù)有CHI、信息增益(information gain)、t-test、基于相關(guān)性的特征選擇方法等。過濾式特征選擇方法的優(yōu)點是跟模型無關(guān),計算復(fù)雜度比較低,能夠處理大規(guī)模的數(shù)據(jù),適用范圍最廣,缺點是忽略特征之間的關(guān)系,也忽略特征與預(yù)測模型之間的關(guān)系。包裹式特征選擇方法將模型的預(yù)測性能當(dāng)作評價特征重要性的函數(shù),從而選出最重要的特征子集。嵌入式特征選擇方法將特征選擇與模型的訓(xùn)練結(jié)合在一起。
特征選擇方法選出的特征均為對目標(biāo)結(jié)果相關(guān)性最大的特征,因此選出的特征子集就是跟目標(biāo)結(jié)果相關(guān)性最大的因素。特征選擇不僅是模型預(yù)測的子過程,還能用于相關(guān)因素分析中。相關(guān)因素分析是模型預(yù)測的附帶結(jié)果。
1.3 預(yù)測模型的構(gòu)建及評價1.3.1 預(yù)測模型的構(gòu)建 將納入研究的全部數(shù)據(jù)集的80%作為訓(xùn)練數(shù)據(jù),剩余數(shù)據(jù)作為測試數(shù)據(jù),利用特征選擇算法從訓(xùn)練數(shù)據(jù)集中選出重要特征(相關(guān)因素),然后在此特征集中利用數(shù)據(jù)挖掘的分類算法訓(xùn)練出模型,常見的預(yù)測模型有決策樹(decision tree)模型、隨機森林(random forest)模型、樸素貝葉斯(na?ve bayes)模型、k最近鄰(k-nearest neighbor)模型、邏輯回歸(logistic regression)模型、支持向量機(support vector machine)模型、人工神經(jīng)網(wǎng)絡(luò)(artificial neural network)模型等。各模型需要調(diào)節(jié)的參數(shù)、優(yōu)缺點以及在卒中數(shù)據(jù)分析中的應(yīng)用見表1。
決策樹模型指的是根據(jù)訓(xùn)練數(shù)據(jù)集利用決策樹算法構(gòu)建出的樹狀結(jié)構(gòu)的決策模型[10]。決策樹根據(jù)生成方式的不同有以下的幾種算法:ID3、C4.5以及CART,其中CART既可以用于分類,又可以用于回歸。而隨機森林算法通過訓(xùn)練多個決策樹并且在數(shù)據(jù)采樣中加入一定的隨機性有效地避免了過擬合現(xiàn)象,因此在隨機森林模型的誤差率往往比決策樹低[11]。
樸素貝葉斯模型指的是根據(jù)貝葉斯公式和獨立性假設(shè)將后驗概率轉(zhuǎn)化為前驗概率的模型。該模型計算目標(biāo)特征每一個值的概率,并將概率最大的值作為該目標(biāo)特征的最終結(jié)果[12]。K最近鄰模型通過一個數(shù)據(jù)點周圍最近的K個鄰居來確定數(shù)據(jù)點的類型,因此K值的確定很重要。邏輯回歸模型在線性回歸的基礎(chǔ)上使用Sigmoid函數(shù)將數(shù)據(jù)分成兩個部分。支持向量機模型改善了邏輯回歸模型,因此準(zhǔn)確率比大部分?jǐn)?shù)據(jù)挖掘模型都高,而且適用范圍最廣。人工神經(jīng)網(wǎng)絡(luò)模型是根據(jù)人腦的特點設(shè)計的,是目前最流行的深度學(xué)習(xí)方法。人腦中成千上萬個神經(jīng)元相互連接生成一個很復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)認(rèn)知。神經(jīng)網(wǎng)絡(luò)模型中激活函數(shù)類似于神經(jīng)元,激活函數(shù)之間的輸入輸出關(guān)系類似于神經(jīng)元之間的連接關(guān)系,數(shù)據(jù)類似于神經(jīng)元之間的電信號。
表1 常用預(yù)測模型
1.3.2 模型性能的評價 一般的數(shù)據(jù)挖掘任務(wù)中直接使用準(zhǔn)確率或者錯誤率作為模型預(yù)測性能的評價,但卒中臨床數(shù)據(jù)分析中,數(shù)據(jù)的分布往往是不平衡的,準(zhǔn)確率無法全面地評價模型的性能,因此需要使用敏感度、特異度、受試者工作特征(receiver operating characteristic,ROC)曲線下面積(area under curve,AUC)值等評價指標(biāo)。實驗結(jié)果的分布見表2。
敏感度(真陽性率)=真陽性(TP)/真陽性(TP)+假陰性(FN)
特異度=真陰性(TN)/真陰性(TN)+假陽性(FP)
假陽性率=假陽性(FP)/假陽性(FP)+真陰性(TN)
AUC指的是ROC曲線(橫坐標(biāo)為假陽性率,縱坐標(biāo)為真陽性率的曲線)下的面積,一般情況下0.5<AUC<1。AUC值越大表示模型的預(yù)測性能越好。
表2 結(jié)果分布表
目前大多數(shù)卒中相關(guān)臨床性研究中,對醫(yī)院信息系統(tǒng)的利用僅僅在于最基本的數(shù)據(jù)儲存、錄用等層面。本文將介紹如何高效地利用醫(yī)院信息系統(tǒng)或卒中數(shù)據(jù)庫中的海量信息資源為卒中預(yù)防、診斷、評估療效及判斷預(yù)后提供更科學(xué)的依據(jù)。
2.1 卒中危險因素研究中的應(yīng)用 卒中危險因素分析是卒中預(yù)防很重要的一部分。探索卒中危險因素、建立卒中發(fā)病風(fēng)險預(yù)測模型可以及時篩選高危患者,進(jìn)行卒中預(yù)防。前文介紹數(shù)據(jù)挖掘基本步驟時提到,數(shù)據(jù)挖掘技術(shù)中特征選擇方法可以用于相關(guān)因素分析,因此這種方法也可用于卒中危險因素研究。有研究者利用特征選擇選出了16種卒中相關(guān)因素,同時使用支持向量機、邏輯回歸等方法建立了卒中風(fēng)險預(yù)測模型,并且通過準(zhǔn)確度、敏感度、特意度、AUC等指標(biāo)評價了各種模型的性能,認(rèn)為此類問題中支持向量機模型的預(yù)測性能最佳[17]。
2.2 卒中患者病情嚴(yán)重程度評估研究中的應(yīng)用 數(shù)據(jù)挖掘技術(shù)可用于卒中患者病情嚴(yán)重程度預(yù)測,對卒中重癥治療給予一定的提示,也能用于根據(jù)病情嚴(yán)重程度自動計算報銷額度,對醫(yī)保費用管理也有積極作用。有研究使用數(shù)據(jù)挖掘技術(shù)分析社會醫(yī)療保險數(shù)據(jù)庫中急性缺血性卒中患者信息,發(fā)現(xiàn)了影響卒中患者病情嚴(yán)重程度的7種影響因素,并以這7種因素作為特征,建立病情嚴(yán)重程度預(yù)測模型[18]。
2.3 卒中療效評估方面應(yīng)用 通過分析“是否接受某項治療”這一特征與結(jié)果事件的關(guān)聯(lián),巧妙利用數(shù)據(jù)挖掘技術(shù)進(jìn)行療效評估,還可以建立接受某項治療的患者預(yù)后預(yù)測模型。Yuling Yang等[19]將牛津郡社區(qū)卒中數(shù)據(jù)庫分類系統(tǒng)用于評價卒中患者靜脈溶栓治療安全性和有效性。Matthew McNabb等[20]利用數(shù)據(jù)挖掘技術(shù)預(yù)測接受介入取栓術(shù)的急性腦梗死患者90 d內(nèi)預(yù)后,介紹了這種新的方法在卒中療效評估中的應(yīng)用。
2.4 卒中預(yù)后影響因素研究中的應(yīng)用 探討卒中患者預(yù)后影響因素是卒中診治的重要部分,尤其在大面積腦梗死等重癥患者中提前預(yù)測卒中預(yù)后獲益頗大。Jonathan F. Easton等[15]用數(shù)據(jù)挖掘技術(shù)分析急性腦梗死后不同時期預(yù)后影響因素,分別從用藥種類、既往病史、卒中亞分型、卒中量表得分及住院期間化驗結(jié)果等方面選出了與結(jié)果相關(guān)性最高的因素,并分別建立了卒中后短期(7 d內(nèi))、中期(8~93 d)的預(yù)后預(yù)測模型。文獻(xiàn)[21]中研究者從國家級疾病數(shù)據(jù)庫中獲取卒中患者(19 603例)信息,用決策樹C4.5算法建立了卒中后運動障礙預(yù)測模型,并用特征選擇方法從397種潛在影響因素中選出了70種與卒中后運動障礙關(guān)系最明顯的因素,顯然這種從大量患者信息中尋找潛在關(guān)聯(lián)因素的方法可以為后期研究提供新方向。
2.5 研究卒中疾病負(fù)擔(dān)方面的應(yīng)用 卒中不僅損害患者身體健康,降低生存質(zhì)量,也為患者家庭帶來巨額的治療費用和長期護理方面的負(fù)擔(dān)。我國研究者利用神經(jīng)網(wǎng)絡(luò)技術(shù)建立腦梗死患者住院費用擬合模型,在此基礎(chǔ)上進(jìn)行影響因素敏感度分析發(fā)現(xiàn)住院天數(shù)對費用影響最大,其次為“治療結(jié)果”“是否搶救”“年齡”等因素[22]。
2.6 卒中病因分型研究中的應(yīng)用 卒中病因分型涉及到患者治療及二級預(yù)防方案的制定,因此準(zhǔn)確地進(jìn)行卒中病因診斷、確定分型很重要,但臨床上卒中老年患者多種疾病共存的情況對確定卒中病因分型造成困擾。數(shù)據(jù)挖掘中分類算法可以用于卒中病因分型,國外已有此類嘗試。文獻(xiàn)[23]介紹了韓國學(xué)者分析多中心卒中數(shù)據(jù)庫中急性腦梗死患者(6624例)信息后,建立基于磁共振成像的卒中病因分型系統(tǒng),作者認(rèn)為此分型系統(tǒng)有望用于卒中臨床診斷。作為最新的疾病診斷形式,這類研究成果用于臨床仍需更多研究人員進(jìn)行探索。
【點睛】本文闡述數(shù)據(jù)挖掘在卒中相關(guān)研究中的應(yīng)用,為卒中臨床研究提供一種全新的數(shù)據(jù)分析技術(shù)。