陳莉平 宋立冉?
摘 要:我國(guó)臨床資料表明腦卒中具有較高的復(fù)發(fā)率,采用風(fēng)險(xiǎn)預(yù)測(cè)模型及時(shí)對(duì)腦卒中患者進(jìn)行智能化的復(fù)發(fā)風(fēng)險(xiǎn)篩查,識(shí)別腦卒中高復(fù)發(fā)人群具有重要意義。文中提出基于腦卒中患者數(shù)據(jù)建立腦卒中大數(shù)據(jù)應(yīng)用平臺(tái),通過采集和集成腦卒中患者的數(shù)據(jù),提取導(dǎo)致腦卒中復(fù)發(fā)的重要危險(xiǎn)因素,在此基礎(chǔ)上,采用基于機(jī)器學(xué)習(xí)的集成學(xué)習(xí)框架在平臺(tái)的數(shù)據(jù)分析層構(gòu)建腦卒中復(fù)發(fā)風(fēng)險(xiǎn)評(píng)估模型。目前已開發(fā)了腦卒中復(fù)發(fā)預(yù)測(cè)模型的原型系統(tǒng),腦卒中平臺(tái)業(yè)務(wù)管理人員可利用平臺(tái)的預(yù)測(cè)模型對(duì)腦卒中初患人群進(jìn)行復(fù)發(fā)風(fēng)險(xiǎn)預(yù)測(cè)。
關(guān)鍵詞:腦卒中;復(fù)發(fā);大數(shù)據(jù);機(jī)器學(xué)習(xí);集成學(xué)習(xí)算法;危險(xiǎn)因素;預(yù)測(cè)模型;原型系統(tǒng)
中圖分類號(hào):TP274 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2019)06-00-05
0 引 言
腦卒中是由腦血管病變發(fā)展到一定程度導(dǎo)致的,具有較高發(fā)病率、致殘率和死亡率,已成為當(dāng)今世界嚴(yán)重危害人類健康和生命安全的重大疾病。中國(guó)卒中協(xié)會(huì)2015年首次發(fā)布的中國(guó)卒中報(bào)告顯示,目前我國(guó)腦卒中發(fā)生率正以每年8.7%的速度上升[1],每年死于腦卒中的患者達(dá)到130萬,腦卒中在我國(guó)已成為第一位死亡原因[2]。因此,若能及時(shí)采用有效的風(fēng)險(xiǎn)評(píng)估工具對(duì)患者進(jìn)行復(fù)發(fā)危險(xiǎn)因素篩查,識(shí)別高復(fù)發(fā)風(fēng)險(xiǎn)患者,提高高?;颊叩娘L(fēng)險(xiǎn)意識(shí)并積極控制危險(xiǎn)因素,對(duì)降低腦卒中復(fù)發(fā)率、致殘率和死亡率有重大意義[3]。目前在臨床上用于篩查及預(yù)測(cè)腦卒中復(fù)發(fā)風(fēng)險(xiǎn)的工具較多,但均是基于外國(guó)人群研發(fā)的評(píng)估模型。在國(guó)內(nèi)也有學(xué)者采用回顧性隊(duì)列研究方法,通過對(duì)腦卒中患者進(jìn)行隨訪,構(gòu)建復(fù)發(fā)的預(yù)測(cè)模型[4],但是選擇的樣本量偏少,在實(shí)際應(yīng)用中對(duì)臨床決策指導(dǎo)意義不大。隨著大數(shù)據(jù)處理技術(shù)的出現(xiàn),醫(yī)療及健康數(shù)據(jù)也不斷增加,醫(yī)療、健康、衛(wèi)生等領(lǐng)域也進(jìn)入了大數(shù)據(jù)時(shí)代[5],當(dāng)前已有采用大數(shù)據(jù)對(duì)患者慢病進(jìn)行危險(xiǎn)因素評(píng)估和個(gè)性化干預(yù)的研究出現(xiàn)[6]?;谝陨蠋c(diǎn),我們對(duì)腦卒中國(guó)內(nèi)外復(fù)發(fā)風(fēng)險(xiǎn)評(píng)估模型的應(yīng)用情況進(jìn)行了詳細(xì)分析,研究并初步建立了腦卒中大數(shù)據(jù)平臺(tái),并以此為基礎(chǔ)構(gòu)建腦卒中復(fù)發(fā)預(yù)測(cè)原型系統(tǒng),以期在臨床上幫助醫(yī)生對(duì)高復(fù)發(fā)風(fēng)險(xiǎn)患者進(jìn)行早期、準(zhǔn)確、快速地識(shí)別,同時(shí)幫助患者和家屬將患者病情轉(zhuǎn)化成積極有效的二級(jí)預(yù)防干預(yù),這對(duì)減少腦卒中的復(fù)發(fā)具有現(xiàn)實(shí)意義。
1 基于大數(shù)據(jù)模型構(gòu)建需求
1.1 國(guó)外評(píng)估模型
針對(duì)腦卒中患者的復(fù)發(fā)風(fēng)險(xiǎn)評(píng)估,當(dāng)前臨床主要采用ABCD評(píng)分系統(tǒng)、Essen量表和SPI-II量表等評(píng)測(cè)工具,其提出的時(shí)間較早,且都是基于外國(guó)人群研發(fā)的評(píng)估模型。隨著國(guó)人生活方式的改變和生活節(jié)奏的加快,卒中患者有年輕化的趨勢(shì),基于不同的人群組,各危險(xiǎn)因素的賦分權(quán)重是否合理尚未被證實(shí),因此,針對(duì)國(guó)人來說,這些模型的預(yù)測(cè)作用較為有限,進(jìn)一步建立和完善適合國(guó)人的腦卒中預(yù)測(cè)風(fēng)險(xiǎn)評(píng)估模型,發(fā)現(xiàn)新的危險(xiǎn)因素具有重要意義。
1.2 本土評(píng)估模型
國(guó)內(nèi)學(xué)者主要采用回顧性隊(duì)列研究方法構(gòu)建腦卒中復(fù)發(fā)的預(yù)測(cè)模型,將符合腦卒中診斷標(biāo)準(zhǔn),且首次卒中,并在一定時(shí)間內(nèi)入院的患者作為研究對(duì)象,研究過程如下:
(1)記錄患者個(gè)人信息、既往史、家族史、生活習(xí)慣、入院時(shí)的臨床量表評(píng)分、入院幾小時(shí)內(nèi)的血壓檢測(cè)結(jié)果、入院幾天內(nèi)的實(shí)驗(yàn)室檢查結(jié)果;
(2)設(shè)計(jì)患者隨訪量表,包括患者出院后用藥、血壓、血糖、血脂和康復(fù)情況;
(3)隨訪采用電話隨訪和信訪等形式,以患者發(fā)病時(shí)間為起點(diǎn),患者腦卒中復(fù)發(fā),失訪或死亡為終點(diǎn);
(4)運(yùn)用統(tǒng)計(jì)學(xué)方法進(jìn)行建模和驗(yàn)證。構(gòu)建這類模型所采用的樣本較少,不具有代表性,且樣本來源僅限于研究者所選定的地區(qū),覆蓋面較窄,所構(gòu)建的預(yù)測(cè)模型在實(shí)際應(yīng)用中對(duì)臨床決策指導(dǎo)意義不大。
1.3 卒中患者數(shù)據(jù)存儲(chǔ)存在的問題
在當(dāng)前我國(guó)腦卒中防治體系中,不同機(jī)構(gòu)會(huì)間接或直接涉入到對(duì)同一患者的治療和康復(fù)管理過程中,并對(duì)患者在院前、院中、院后各個(gè)治療階段和康復(fù)過程中產(chǎn)生的數(shù)據(jù)各自存儲(chǔ)。在數(shù)據(jù)來源和記錄方面,不同機(jī)構(gòu)所采用的記錄類型和規(guī)則也不同,從而導(dǎo)致數(shù)據(jù)的共享極度困難,更無法自動(dòng)從卒中患者完整的數(shù)據(jù)信息中挖掘出有價(jià)值的預(yù)測(cè)模型。因此,迫切需要構(gòu)建腦卒中大數(shù)據(jù)平臺(tái),采集和集成腦卒中患者數(shù)據(jù)(患者個(gè)人信息,臨床特征、既往史、家族史、生活習(xí)慣、實(shí)驗(yàn)室數(shù)據(jù)、住院診療情況,卒中后二次復(fù)發(fā)等信息),基于這些信息構(gòu)建用于國(guó)人腦卒中復(fù)發(fā)預(yù)測(cè)的評(píng)估模型,并將達(dá)到一定成熟度和預(yù)測(cè)性能指標(biāo)的模型自動(dòng)地對(duì)系統(tǒng)新采集進(jìn)來的既往腦卒史患者實(shí)施及時(shí)和有效的篩查是建立腦卒中大數(shù)據(jù)管理分析平臺(tái)的現(xiàn)實(shí)需求。
2 腦卒中健康大數(shù)據(jù)管理平臺(tái)構(gòu)建
2.1 平臺(tái)的功能架構(gòu)
采用Hadoop作為基本的分布式執(zhí)行架構(gòu),構(gòu)建腦卒中大數(shù)據(jù)平臺(tái),并在該架構(gòu)上配置R與Spark等分析工具,形成集腦卒中患者數(shù)據(jù)采集、存儲(chǔ)、分析、模型學(xué)習(xí)、風(fēng)險(xiǎn)預(yù)測(cè)等應(yīng)用服務(wù)系統(tǒng)。平臺(tái)功能主要由患者卒中后五年內(nèi)數(shù)據(jù)采集與存儲(chǔ)管理系統(tǒng)、基于機(jī)器學(xué)習(xí)的數(shù)據(jù)分析系統(tǒng)和腦卒中復(fù)發(fā)預(yù)測(cè)應(yīng)用服務(wù)等構(gòu)成。數(shù)據(jù)采集與數(shù)據(jù)存儲(chǔ)系統(tǒng)主要對(duì)來自不同機(jī)構(gòu)患者的數(shù)據(jù)進(jìn)行采集、異構(gòu)數(shù)據(jù)的集成、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)加密和權(quán)限認(rèn)證等;數(shù)據(jù)分析系統(tǒng)對(duì)大數(shù)據(jù)進(jìn)行分析和處理,篩選腦卒中復(fù)發(fā)危險(xiǎn)影響因素,并在此基礎(chǔ)上部署機(jī)器學(xué)習(xí)算法,通過對(duì)危險(xiǎn)因素元組數(shù)據(jù)集進(jìn)行訓(xùn)練學(xué)習(xí),以構(gòu)建腦卒中復(fù)發(fā)風(fēng)險(xiǎn)評(píng)估模型;應(yīng)用服務(wù)系統(tǒng)主要基于訓(xùn)練完成的復(fù)發(fā)風(fēng)險(xiǎn)評(píng)估模型自動(dòng)、快速對(duì)新集成的卒中患者的復(fù)發(fā)風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)、預(yù)警和識(shí)別,為決策支持、科研應(yīng)用、健康服務(wù)和智能輔助診斷提供應(yīng)用支持,功能架構(gòu)如圖1所示。數(shù)據(jù)分析與機(jī)器學(xué)習(xí)算法部署是平臺(tái)的核心,包括構(gòu)建算法學(xué)習(xí)接口,調(diào)用R平臺(tái)機(jī)器學(xué)習(xí)算法庫等。
2.2 腦卒中大數(shù)據(jù)管理
腦卒中大數(shù)據(jù)管理服務(wù)主要解決平臺(tái)腦卒中大數(shù)據(jù)采集、讀取、存儲(chǔ)、集成及安全性等問題,為后期的數(shù)據(jù)建模、分析及預(yù)測(cè)提供穩(wěn)定、及時(shí)和智能化的支持。
2.2.1 數(shù)據(jù)采集??腦卒中患者大數(shù)據(jù)管理平臺(tái)實(shí)現(xiàn)以腦卒中患者為采集對(duì)象,利用數(shù)據(jù)接入及導(dǎo)入工具對(duì)分散在基地醫(yī)療機(jī)構(gòu)、社區(qū)衛(wèi)生中心、保健機(jī)構(gòu)、體檢機(jī)構(gòu)、醫(yī)院等不同腦卒中數(shù)據(jù)源所在的各級(jí)機(jī)構(gòu)中的患者信息進(jìn)行采集和集成,最終形成一個(gè)研究型和結(jié)構(gòu)化的卒中患者病歷信息庫。采集內(nèi)容涉及患者個(gè)人信息、既往史、家族史、實(shí)驗(yàn)室數(shù)據(jù)、住院診療數(shù)據(jù)、階段性隨訪數(shù)據(jù)、體檢數(shù)據(jù)等。數(shù)據(jù)導(dǎo)入針對(duì)腦卒中各類異構(gòu)數(shù)據(jù)源提供可兼容的異構(gòu)數(shù)據(jù)采集接口,實(shí)現(xiàn)對(duì)不同來源,不同機(jī)構(gòu)下的SQL Server Oracle,MySQL,PostgreSQL等多種關(guān)系數(shù)據(jù)庫數(shù)據(jù)的數(shù)據(jù)導(dǎo)入;在數(shù)據(jù)采集策略上,支持全量、批量、實(shí)時(shí)數(shù)據(jù)的接入及導(dǎo)入;在離線數(shù)據(jù)獲取方面,支持HDFS,F(xiàn)TP,文本文件等日志類數(shù)據(jù)文件;也可對(duì)Flume,Kafka等流式數(shù)據(jù)實(shí)現(xiàn)實(shí)時(shí)入。
2.2.2 數(shù)據(jù)存儲(chǔ)與管理
在平臺(tái)數(shù)據(jù)的存儲(chǔ)和管理端,針對(duì)數(shù)據(jù)集成后患者信息的保密性和涉及患者隱私的數(shù)據(jù)安全性制定管理策略,同時(shí)保證能對(duì)集成后的數(shù)據(jù)執(zhí)行高效的數(shù)據(jù)部署、讀寫和存儲(chǔ),平臺(tái)所采用的技術(shù)集中在以下方面:
(1)數(shù)據(jù)脫敏。在應(yīng)對(duì)數(shù)據(jù)安全性的策略上,平臺(tái)對(duì)集成的患者個(gè)人信息中的姓名、社??ㄌ?hào)、出生日期、身份證號(hào)、家庭住址、聯(lián)系方式、家族病史、個(gè)人病史等,根據(jù)不同信息的隱私保密程度和后期使用要求,采用重要信息遮蔽、混合屏蔽、確定性屏蔽等方式進(jìn)行去隱私化處理。針對(duì)其他重要數(shù)據(jù)信息,根據(jù)數(shù)據(jù)的類型,采用數(shù)據(jù)變形、數(shù)據(jù)范化等抽象處理策略,在保證用戶數(shù)據(jù)安全的同時(shí),更好地保留數(shù)據(jù)特征及關(guān)聯(lián)關(guān)系,以服務(wù)于下一步數(shù)析。
(2)數(shù)據(jù)高效存儲(chǔ)。針對(duì)結(jié)構(gòu)化數(shù)據(jù)庫數(shù)據(jù),就診記錄、病程記錄、住院記錄等文本半結(jié)構(gòu)化數(shù)據(jù),圖像及影像非結(jié)構(gòu)化等異構(gòu)數(shù)據(jù)進(jìn)行集成后,在數(shù)據(jù)的存儲(chǔ)策略上,平臺(tái)采用基于Hadoop架構(gòu)下的(HDFS)分布式文件系統(tǒng)等技術(shù)實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ),根據(jù)不同的數(shù)據(jù)類型,采用分布式存儲(chǔ)方式將數(shù)據(jù)部署在集群各DataNode中,并由DataNode對(duì)這些數(shù)據(jù)進(jìn)行統(tǒng)一管理,形成一個(gè)具有廣闊擴(kuò)展能力、在不同地點(diǎn)部署及同步處理能力、可管理海量級(jí)別數(shù)據(jù)文件,消除傳統(tǒng)數(shù)據(jù)存儲(chǔ)中存儲(chǔ)元數(shù)據(jù)困擾的分布式數(shù)據(jù)存儲(chǔ)系統(tǒng)。
2.3 腦卒中大數(shù)據(jù)分析
疾病風(fēng)險(xiǎn)預(yù)測(cè)的構(gòu)建思想,通常是把人群中臨床事件發(fā)生前收集的相關(guān)危險(xiǎn)因素信息與最終是否發(fā)病等臨床結(jié)果建立聯(lián)系,以形成風(fēng)險(xiǎn)預(yù)測(cè)評(píng)估模型[7-8],在腦卒中大數(shù)據(jù)平臺(tái)數(shù)據(jù)分析層,基于風(fēng)險(xiǎn)預(yù)測(cè)評(píng)估模型的這種實(shí)現(xiàn)思想,結(jié)合集群的分布式處理功能,以R為分析工具,利用其靈活和易于使用的腳本語言,對(duì)腦卒中大數(shù)據(jù)經(jīng)過預(yù)處理后的數(shù)據(jù)進(jìn)行深入分析,提取腦卒中患者復(fù)發(fā)的重要影響因素,在平臺(tái)的數(shù)據(jù)分析層部署基于機(jī)器學(xué)習(xí)的集成學(xué)習(xí)算法以構(gòu)建腦卒中復(fù)發(fā)風(fēng)險(xiǎn)評(píng)估模型,用于腦卒中管理業(yè)務(wù)中腦卒中復(fù)發(fā)高危人群的識(shí)別。
2.3.1 數(shù)據(jù)預(yù)處理腦卒中患者的管理數(shù)據(jù)來源廣泛,數(shù)據(jù)形式多樣,涉及種類較多,為了實(shí)現(xiàn)腦卒中大數(shù)據(jù)的挖掘和分析,平臺(tái)對(duì)患者數(shù)據(jù)中的性別、年齡、冠心病、房顫、收縮壓、舒張壓、甘油三酯、同型半胱氨酸、低密度脂蛋白、高密度脂蛋白、C-反應(yīng)蛋白、血糖、總膽固醇、吸煙史、飲酒史、二次卒中情況、體力活動(dòng)、脂蛋白、體重指數(shù)、尿酸、高血壓家族史、糖尿病家族史、高血壓病史、糖尿病病史、卒中家族史等涉及腦卒中危險(xiǎn)因素的相關(guān)數(shù)據(jù)進(jìn)行清洗、插補(bǔ)缺失值、規(guī)范數(shù)據(jù)格式、不合理樣本去除等操作,并將常規(guī)腦卒中影響因素作為建模變量進(jìn)行賦值,使數(shù)據(jù)格式和質(zhì)量符合建模的要求,數(shù)據(jù)處理后的結(jié)果見表1所列。
2.3.2 腦卒中危險(xiǎn)因素重要屬性篩選將平臺(tái)上腦卒中大數(shù)據(jù)集群中經(jīng)過數(shù)據(jù)預(yù)處理后的腦卒中危險(xiǎn)因素?cái)?shù)據(jù)集進(jìn)行隨機(jī)采樣,并根據(jù)數(shù)據(jù)集中危險(xiǎn)因素的數(shù)據(jù)類型(分類屬性或數(shù)值屬性),采用不同的單因素分析方法對(duì)影響腦卒中復(fù)發(fā)的顯著性因素進(jìn)行篩選。具體篩選方式:將患者的性別、高血壓病病史、糖尿病病史、冠心病病史、房顫史、吸煙史、飲酒史、體力活動(dòng)、高血壓家族史、卒中家族史、糖尿病家族史等具有分類屬性的變量與卒中復(fù)發(fā)史進(jìn)行卡方檢驗(yàn);將年齡、同型半胱氨酸、收縮壓、舒張壓、甘油三酯、低密度脂蛋白、高密度脂蛋白、C反應(yīng)蛋白、血糖、總膽固醇、體重指數(shù)、尿酸等具有連續(xù)屬性的變量在二次卒中組和非卒中組間進(jìn)行獨(dú)立樣本T檢驗(yàn)。通過單因素分析,最終獲取各個(gè)集群中具有顯著意義的腦卒中影響指標(biāo),并基于顯著性指標(biāo)形成腦卒中元組數(shù)據(jù)集,用作后續(xù)的數(shù)據(jù)分析及建模。
2.3.3 腦卒中復(fù)發(fā)風(fēng)險(xiǎn)學(xué)習(xí)模型部署
機(jī)器學(xué)習(xí)是一種能夠賦予機(jī)器學(xué)習(xí)的能力以及完成編程無法完成的功能的方法,通過利用學(xué)習(xí)算法對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,并將滿足性能要求的模型對(duì)數(shù)據(jù)進(jìn)行范化預(yù)測(cè),該方法已成功被運(yùn)用在健康管理、疾病風(fēng)險(xiǎn)預(yù)測(cè)等領(lǐng)域[9]。因考慮到平臺(tái)所集成的卒中數(shù)據(jù)量級(jí),卒中患者在卒中后五年內(nèi)具有很高的復(fù)發(fā)率,各個(gè)數(shù)據(jù)維度基本不存在嚴(yán)重的稀疏性,數(shù)據(jù)在集成學(xué)習(xí)前也已做過預(yù)處理,因此在針對(duì)平臺(tái)數(shù)據(jù)學(xué)習(xí)算法的部署上,機(jī)器學(xué)習(xí)集成算法應(yīng)用場(chǎng)景較多,將決策樹作為基分類器,在大部分分類器上的AdaBoost[10]器集成學(xué)習(xí)算法框架。該框架能基于多個(gè)學(xué)習(xí)器創(chuàng)建一個(gè)較強(qiáng)學(xué)習(xí)器,相比其他學(xué)習(xí)框架,集成學(xué)習(xí)不會(huì)對(duì)數(shù)據(jù)過度擬合,可顯著降低泛化錯(cuò)誤率,具有更強(qiáng)的容錯(cuò)和抗擾動(dòng)能力,在達(dá)到同等性能的情況下,所用學(xué)習(xí)時(shí)間最短。算法原理如圖2所示。
在算法的執(zhí)行端,平臺(tái)結(jié)合數(shù)據(jù)集群的分布式處理功能,以R為分析工具,調(diào)用其內(nèi)置的AdaBoost集成學(xué)習(xí)算法庫,對(duì)平臺(tái)上經(jīng)過處理后分布存儲(chǔ)的腦卒中元組數(shù)據(jù)集進(jìn)行學(xué)習(xí)和建模,學(xué)習(xí)算法如下:
具體的學(xué)習(xí)方案:
(1)從腦卒中指標(biāo)數(shù)據(jù)集中隨機(jī)抽取75%的樣本數(shù)據(jù)集用來訓(xùn)練模型,余下25%的數(shù)據(jù)作為測(cè)試集用以評(píng)估模型的性能;
(2)對(duì)訓(xùn)練數(shù)據(jù)集的權(quán)值分布進(jìn)行初始化處理,每一個(gè)訓(xùn)練樣本初始賦予相同的權(quán)重;
(3)第一個(gè)分類器嘗試使用決策樹對(duì)訓(xùn)練數(shù)據(jù)建模,并根據(jù)預(yù)測(cè)結(jié)果調(diào)整其在下一個(gè)分類器訓(xùn)練數(shù)據(jù)中樣本的權(quán)重,如果在上一個(gè)分類器的預(yù)測(cè)中,一個(gè)卒中復(fù)發(fā)/無復(fù)發(fā)被執(zhí)行錯(cuò)誤分類成無復(fù)發(fā)/復(fù)發(fā),那么在下次分類器的訓(xùn)練樣本采樣過程中,該錯(cuò)誤樣本就會(huì)被賦予較高的權(quán)重,以使其能夠以較高的概率被抽中納入到本次分類器,反之,降低上次被正確預(yù)測(cè)樣本的權(quán)重到本次分類器,以提高樣本被正確分類的概率,再用調(diào)整權(quán)重后的樣本對(duì)下一個(gè)分類器進(jìn)行訓(xùn)練,從而依此迭代訓(xùn)練數(shù)據(jù)集。具體的迭代次數(shù)取決于十折交叉驗(yàn)證的結(jié)果;
(4)在各類分類器的訓(xùn)練過程結(jié)束后,加大分類誤差率小的分類器的權(quán)重,使其在最終的分類函數(shù)中起決定作用,降低分類誤差率大的分類器的權(quán)重,并最終將多個(gè)訓(xùn)練得到的分類器組合成決策型強(qiáng)分類器;
(5)隨著平臺(tái)上新卒中患者數(shù)據(jù)的不斷采集,更新訓(xùn)練集并重復(fù)以上過程,直到模型的預(yù)測(cè)性能不再提高為止。
3 腦卒中復(fù)發(fā)預(yù)測(cè)原型系統(tǒng)
目前已完成腦卒中數(shù)據(jù)平臺(tái)的初步搭建,實(shí)現(xiàn)了腦卒中患者數(shù)據(jù)的采集和存儲(chǔ),集成了多達(dá)上萬例腦卒中患者數(shù)據(jù),平臺(tái)在對(duì)當(dāng)前腦卒中患者數(shù)據(jù)進(jìn)行預(yù)處理后,從腦卒中影響因素中篩查得出,患者的年齡、高血壓、甘油三酯、冠心病、高血壓家族史、體重指數(shù)、總膽固醇、同型半胱氨酸、高密度脂蛋白等指標(biāo)是導(dǎo)致腦卒中復(fù)發(fā)的前9項(xiàng)顯著性影響因素,影響腦卒中復(fù)發(fā)的前9位因素重要性對(duì)比如圖3所示。
平臺(tái)執(zhí)行已部署完成的AdaBoosting機(jī)器集成算法,針對(duì)當(dāng)前平臺(tái)上萬例腦卒中患者數(shù)據(jù),將腦卒中元組數(shù)據(jù)集中的7 000例用作腦卒中復(fù)發(fā)風(fēng)險(xiǎn)評(píng)估模型構(gòu)造的訓(xùn)練數(shù)據(jù)集,將剩下的3 000多例數(shù)據(jù)作為模型的測(cè)試集,運(yùn)用準(zhǔn)確率、敏感性、特異性、Kappa、Auc等指標(biāo)參數(shù)和ROC曲線來評(píng)估平臺(tái)當(dāng)前模型的預(yù)測(cè)性能。
當(dāng)前模型性能參數(shù)包括準(zhǔn)確性:0.83,靈敏度:0.85,特異性:0.81,陽性預(yù)測(cè)度:0.93,陰性預(yù)測(cè)度:0.81,Kappa:0.66,Auc=0.88。準(zhǔn)確性為0.83,表明平臺(tái)當(dāng)前所采集和集成的數(shù)據(jù)集訓(xùn)練得到的預(yù)測(cè)模型能夠?qū)δX卒中患者是否復(fù)發(fā)的預(yù)測(cè)準(zhǔn)確性達(dá)到83%;靈敏度為0.85,說明患者被正確分類的比例達(dá)到85%;陽性預(yù)測(cè)度為0.93,意味著模型在預(yù)測(cè)時(shí),患者極有可能像陽性才會(huì)預(yù)測(cè)為陽性,其可以仔細(xì)定位到陽性患者,同時(shí)忽略非陽性患者,說明模型不太容易因無意義的噪聲而減弱其預(yù)測(cè)準(zhǔn)度;Kappa達(dá)到0.66,也表明腦卒中患者是否復(fù)發(fā)的預(yù)測(cè)結(jié)果與其實(shí)際結(jié)果之間達(dá)到不錯(cuò)的一致性。當(dāng)前預(yù)測(cè)模型的ROC曲線如圖4所示,圖中ROC曲線離45°的分類器基準(zhǔn)線距離較遠(yuǎn),ROC曲線下面積Auc達(dá)到0.88,說明分類器分類效果良好。
4 結(jié) 語
本文對(duì)腦卒中患者大數(shù)據(jù)的應(yīng)用需求進(jìn)行了分析,并采用大數(shù)據(jù)技術(shù)對(duì)卒中患者在治療過程中相關(guān)醫(yī)療記錄進(jìn)行集成和存儲(chǔ),已初步完成了腦卒中數(shù)據(jù)平臺(tái)的搭建,并在平臺(tái)的數(shù)據(jù)分析層部署了腦卒中重要危險(xiǎn)因素篩查和基于機(jī)器學(xué)習(xí)AdaBoost學(xué)習(xí)算法。根據(jù)平臺(tái)原型從當(dāng)前采集到的數(shù)據(jù)篩查結(jié)果來看,年齡、高血壓、甘油三酯、冠心病、高血壓家族史、體質(zhì)指數(shù)、總膽固醇、同型半胱氨酸、高密度脂蛋白等指標(biāo)是導(dǎo)致腦卒中復(fù)發(fā)的顯著因素。從算法針對(duì)7 000多例腦卒中患者數(shù)據(jù)訓(xùn)練出的結(jié)果來看,模型具有較好的泛化能力(準(zhǔn)確性:0.83,靈敏度:0.85,特異性:0.81,陽性預(yù)測(cè)度:0.93,陰性預(yù)測(cè)度:0.81,Kappa:0.66,Auc=0.88),當(dāng)前數(shù)據(jù)所建立的模型能夠?qū)δX卒中初次患病后的人群進(jìn)行復(fù)發(fā)風(fēng)險(xiǎn)預(yù)測(cè)。隨著采集和接入更多的卒中患者數(shù)據(jù),模型可達(dá)到更為準(zhǔn)確的預(yù)測(cè)效果。根據(jù)未來平臺(tái)應(yīng)用者使用需求深度的增強(qiáng),可在平臺(tái)上部署其他數(shù)據(jù)分析算法,以對(duì)卒中數(shù)據(jù)做更深層次的挖掘,為決策支持、科研應(yīng)用、健康服務(wù)和智能輔助診斷提供更加準(zhǔn)確的參考依據(jù)。
參 考 文 獻(xiàn)
[1]廖美容,周義杰,蘇丹.自擬中經(jīng)2號(hào)方治療中風(fēng)急性期的療效評(píng)價(jià)[J].右江醫(yī)學(xué),2013,41(4):573-575.
[2] WU X,ZHU B,F(xiàn)U L.Prevalence,incidience,and mortality of stroke in the Chinese island populations:a systematic review[J].PLoS One,2013,8(11):67-69.
[3] PADHUKASAHASRAM B,HALPERIN E,WESSEL J,et al.Presymptomatic risk assessment for chronic non-communicable disease[J].PloS one,2010,5(12):96-99
[4]安雅臣,王玉潯,張江,等.缺血性腦卒中復(fù)發(fā)預(yù)測(cè)模型的構(gòu)建[J].中國(guó)康復(fù)理論與實(shí)踐,2013,19(3):210-213.
[5]潘驚萍,張子武.醫(yī)療衛(wèi)生大數(shù)據(jù)探索[J].中國(guó)衛(wèi)生信息管理雜志,2016,13(4):187-189.
[6] STEINBERG G B,CHURCH B W,MCCALL C J,et al.Novel predictive models for metabolic syndrome risk:a“big data”analytic approach[J].The American journal of managed care,2014,20(6):211-218.
[7]鄧乃揚(yáng).支持向量機(jī)-理論、算法與擴(kuò)展[D].北京:科學(xué)出版社,2009.
[8]劉建平,程錦泉.應(yīng)用分類樹模型構(gòu)建缺血性腦卒中發(fā)病風(fēng)險(xiǎn)的預(yù)測(cè)模型[J].中國(guó)慢性病預(yù)防與控制,2012,20 (3):257.
[9]宗慧,趙韡.應(yīng)用機(jī)器學(xué)習(xí)算法構(gòu)建心?;颊唢L(fēng)險(xiǎn)預(yù)測(cè)模型[J].中國(guó)數(shù)字醫(yī)學(xué),2016(4):36.
[10] ALFARO E,GAMEZ M,GARCIA N.Adabag-an R packages for classif-ication with boosting and bagging[J].Journal of statistical software,2013(54):1-35.