于佳女,沙 悅,郭樹彬
1中國醫(yī)學(xué)科學(xué)院 北京協(xié)和醫(yī)學(xué)院 北京協(xié)和醫(yī)院普通內(nèi)科,北京 100730 2首都醫(yī)科大學(xué)北京朝陽醫(yī)院急診科,北京 100020
心力衰竭是一種重要的公共健康問題,該病患病率、死亡率、醫(yī)療費(fèi)用均較高。據(jù)2017年美國心臟協(xié)會(huì)發(fā)布的心臟病與腦卒中統(tǒng)計(jì)數(shù)據(jù)顯示,2011至2014年美國共有650萬例心力衰竭患者,預(yù)計(jì)2030年患者數(shù)量將增至800萬,而死亡統(tǒng)計(jì)數(shù)據(jù)顯示,美國約1/8死亡醫(yī)學(xué)證明上含有心力衰竭診斷,2012年美國因心力衰竭產(chǎn)生的醫(yī)療費(fèi)用高達(dá)307億美元[1],目前亟待新的研究提高心力衰竭的診療水平。
近年來隨著醫(yī)療系統(tǒng)電子化與可穿戴監(jiān)測設(shè)備的流行,可利用的醫(yī)療數(shù)據(jù)呈指數(shù)增長,與此同時(shí)數(shù)據(jù)科學(xué)和大數(shù)據(jù)分析方法快速發(fā)展,心力衰竭的研究迎來新的機(jī)遇。目前有關(guān)心力衰竭的大數(shù)據(jù)分析研究,主要基于患者的病史資料、查體特征、輔助檢查、治療方案等數(shù)據(jù),使用算法建立模型,進(jìn)行診斷、分類和預(yù)測預(yù)后方面的研究分析。筆者使用“心力衰竭”、“機(jī)器學(xué)習(xí)”、“深度學(xué)習(xí)”、“聚類分析”、“神經(jīng)網(wǎng)絡(luò)”等關(guān)鍵詞在PubMed、Web of Science、Scopus、ScienceDirect、EMBASE數(shù)據(jù)庫進(jìn)行文獻(xiàn)檢索并匯總?cè)缦隆?/p>
大數(shù)據(jù)是指具有5種特征的數(shù)據(jù),包括數(shù)據(jù)量大(TB級(jí)以上)、數(shù)據(jù)快速產(chǎn)生和更新、數(shù)據(jù)類型多樣、數(shù)據(jù)來源于真實(shí)世界、數(shù)據(jù)價(jià)值高而價(jià)值密度低[2-4]。大數(shù)據(jù)分析是發(fā)現(xiàn)大數(shù)據(jù)的隱藏規(guī)律、潛在價(jià)值的方法,主要包括傳統(tǒng)機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等[2-4]。大數(shù)據(jù)分析的主要流程包括數(shù)據(jù)預(yù)處理、數(shù)據(jù)標(biāo)注、數(shù)據(jù)特征選擇、應(yīng)用算法建立數(shù)據(jù)分析模型、應(yīng)用數(shù)據(jù)檢驗(yàn)?zāi)P?、進(jìn)一步反饋優(yōu)化模型等[5]。
診斷在心力衰竭診斷方面,大數(shù)據(jù)分析方法能夠利用患者的病史資料、查體特征、輔助檢查、治療方案等數(shù)據(jù),建立自動(dòng)診斷和預(yù)測心力衰竭的模型。Sudarshan等[6]使用雙樹復(fù)小波變換算法分析心力衰竭患者和健康對(duì)照者的心電圖數(shù)據(jù),發(fā)現(xiàn)45個(gè)有差異的心電圖數(shù)據(jù)特征,使用k-近鄰算法進(jìn)一步根據(jù)心電圖數(shù)據(jù)特征,建立心力衰竭診斷模型,經(jīng)測試數(shù)據(jù)驗(yàn)證,該模型的診斷特異度達(dá)99.94%。既往通過人工方法分析識(shí)別心電圖特征診斷心力衰竭的特異度較低,而大數(shù)據(jù)分析方法能夠進(jìn)一步精準(zhǔn)和深入的利用心電圖數(shù)據(jù)特征,提高了應(yīng)用心電圖數(shù)據(jù)診斷心力衰竭的特異度,具有里程碑式意義,近年來不斷有基于大數(shù)據(jù)分析方法的研究分析心電圖數(shù)據(jù)特征,建立心力衰竭的診斷模型[7-12],診斷特異度均較好。Zheng等[13]使用最小二乘支持向量機(jī)算法分析心力衰竭患者和健康對(duì)照者的心音數(shù)據(jù),從中提取數(shù)據(jù)特征,并根據(jù)數(shù)據(jù)特征建立心力衰竭的診斷模型,經(jīng)測試數(shù)據(jù)驗(yàn)證,該模型的診斷特異度可達(dá)96.59%。該研究使用大數(shù)據(jù)分析方法分析心音數(shù)據(jù),為傳統(tǒng)心力衰竭研究開拓了新的可利用數(shù)據(jù)領(lǐng)域。Choi等[14]使用回歸神經(jīng)網(wǎng)絡(luò)算法分析3884例心力衰竭患者和28 903名對(duì)照者的門診醫(yī)囑數(shù)據(jù),包括醫(yī)囑的時(shí)間順序、空間密度等特征,建立心力衰竭的診斷模型,經(jīng)測試數(shù)據(jù)驗(yàn)證,該模型的診斷的ROC曲線下面積(area under curve,AUC)達(dá)0.883。醫(yī)囑數(shù)據(jù)具有數(shù)據(jù)量大、數(shù)據(jù)價(jià)值密度低的經(jīng)典的大數(shù)據(jù)特征,傳統(tǒng)研究方法并不能對(duì)其進(jìn)行充分利用和分析,而大數(shù)據(jù)分析方法卻能夠較為有效地利用和分析這些數(shù)據(jù)特征。這些研究顯示了大數(shù)據(jù)分析方法在建立模型診斷心力衰竭方面的有效性,未來有待更大樣本量、數(shù)據(jù)質(zhì)量更高、算法性能更好的大數(shù)據(jù)研究,進(jìn)一步提高心力衰竭診斷模型的準(zhǔn)確度,最終實(shí)現(xiàn)計(jì)算機(jī)系統(tǒng)遠(yuǎn)程監(jiān)測患者數(shù)據(jù),自動(dòng)分析診斷和預(yù)測心力衰竭疾病的發(fā)生。
分類綜合分析心力衰竭患者整體情況,對(duì)患者進(jìn)一步分類,為各種類型的心力衰竭患者提供更精準(zhǔn)的診療服務(wù),是另一個(gè)重要的心力衰竭研究方向。傳統(tǒng)研究中,心力衰竭患者的分類辦法,主要包括根據(jù)血流動(dòng)力學(xué)特征、N端-腦鈉肽前體、紐約心臟協(xié)會(huì)(New York Heart Association,NYHA)分級(jí)分類,還可以根據(jù)美國心臟協(xié)會(huì)(American Heart Association,AHA)/美國心臟病學(xué)會(huì)(American College of Cardiology,ACC)分期進(jìn)行分類,其中包括根據(jù)心力衰竭患者的危險(xiǎn)因素、癥狀、心臟結(jié)構(gòu)、治療方案數(shù)據(jù)。這些分類方法存在一定不足,如根據(jù)血流動(dòng)力學(xué)分類后的心力衰竭患者仍存在有臨床特征差異,可以進(jìn)一步分類,NYHA分級(jí)評(píng)價(jià)存在一定主觀性,ACC/AHA分期過于復(fù)雜而未能在臨床工作中廣泛應(yīng)用普及。
大數(shù)據(jù)分析方法能夠利用大量的多種類型的臨床數(shù)據(jù),建立心力衰竭患者的分類模型,分類更為精準(zhǔn)和細(xì)化。Shah等[15]使用系統(tǒng)聚類分析算法分析射血分?jǐn)?shù)保留型心力衰竭(heart failure with preserved ejection fraction,HFpEF)患者的67種數(shù)據(jù)資料,其中包括超聲心動(dòng)圖中的心臟結(jié)構(gòu)、心臟收縮/舒張功能、血流動(dòng)力學(xué)、壓力-容積分析等變量,建立HFpEF患者的分類模型,最終進(jìn)一步區(qū)分出在病因、病理生理學(xué)和預(yù)后方面均有統(tǒng)計(jì)學(xué)差異的患者,同時(shí)該研究還進(jìn)行了HFpEF患者的前瞻性隊(duì)列研究,驗(yàn)證該模型的有效性,AUC達(dá) 0.704。這項(xiàng)研究的意義在于,傳統(tǒng)研究已經(jīng)根據(jù)血流動(dòng)力學(xué)特征對(duì)心力衰竭患者進(jìn)行了分類,而大數(shù)據(jù)分析方法能夠進(jìn)一步細(xì)化分類,推進(jìn)心力衰竭分類研究的發(fā)展。Guidi等[16]使用隨機(jī)森林算法分析心力衰竭患者的遠(yuǎn)程監(jiān)測數(shù)據(jù),包括患者末次住院數(shù)據(jù)(身高、體重、BMI、血壓、心率、血氧飽和度、心臟射血分?jǐn)?shù)、NYHA分級(jí)、心電圖、合并癥、治療)、家訪數(shù)據(jù)(體重、血壓、血氧飽和度、頸靜脈充盈程度、皮膚顏色、腳踝是否水腫、生物電阻抗等)、患者自我監(jiān)測數(shù)據(jù)(二導(dǎo)聯(lián)心電圖、生物電阻抗、脈搏傳導(dǎo)時(shí)間)等,建立心力衰竭患者疾病嚴(yán)重程度的分類模型,分類特異度可達(dá)95%,顯示了計(jì)算機(jī)系統(tǒng)遠(yuǎn)程監(jiān)測患者全面的大數(shù)據(jù)、自動(dòng)分類和評(píng)價(jià)心力衰竭患者的可行性。Chen等[17]使用非平衡決策的基于決策樹的支持向量機(jī)算法,分析心力衰竭患者和健康對(duì)照者的24 h動(dòng)態(tài)心電圖,作者先將心電圖截成多個(gè)5分鐘片段,之后根據(jù)RR間期分析心率變異性,建立心力衰竭嚴(yán)重程度分類模型,分類準(zhǔn)確度可達(dá)96.61%。綜上,大數(shù)據(jù)分析方法能夠有效對(duì)心力衰竭患者進(jìn)行分類評(píng)價(jià),分類評(píng)價(jià)結(jié)果較傳統(tǒng)研究更為細(xì)化,未來有待更多的外部隊(duì)列研究進(jìn)一步證實(shí)該方法的準(zhǔn)確度及成本-效益分析。
預(yù)測預(yù)后傳統(tǒng)研究通過生存分析研究患者預(yù)后的影響因素,再根據(jù)患者所具有影響因素預(yù)測其預(yù)后。大數(shù)據(jù)分析方法能夠利用更大量、更多類型以及一些價(jià)值密度較低的數(shù)據(jù),建立心力衰竭患者的預(yù)后預(yù)測模型,較傳統(tǒng)研究所利用的數(shù)據(jù)更全面,預(yù)測的準(zhǔn)確度更高。如傳統(tǒng)研究的西雅圖心力衰竭模型(Seattle heart failure model,SHFM)[18]對(duì) 1125例心力衰竭患者的21種數(shù)據(jù)變量進(jìn)行生存分析,預(yù)測心力衰竭患者預(yù)后AUC可達(dá)0.729,并通過多個(gè)外部隊(duì)列的驗(yàn)證[19]。而Panahiazar等[20]以SHFM模型為基礎(chǔ),納入更大樣本量患者和數(shù)據(jù)變量,包括5044例心力衰竭患者、43種研究變量,使用隨機(jī)森林等算法建立疾病預(yù)后預(yù)測模型,AUC提高至 0.81。同時(shí),Panahiazar等[20]的研究是利用真實(shí)世界的大數(shù)據(jù),較SHFM研究意義更大。Shameer等[21]使用樸素貝葉斯算法分析1068例心力衰竭患者多達(dá)4250項(xiàng)數(shù)據(jù)變量,包括診斷(n=1763)、治療(n=1028)、實(shí)驗(yàn)室檢查(n=846)、醫(yī)囑記錄(n=564)、生命體征(n=4)數(shù)據(jù),建立心力衰竭患者再住院預(yù)測模型,預(yù)測AUC達(dá)0.78。Shameer等[21]的研究利用了數(shù)據(jù)量巨大但價(jià)值密度較低的臨床數(shù)據(jù),是傳統(tǒng)研究無法做到的。Taslimitehrani等[22]使用對(duì)比模式輔助Logistic回歸算法分析5044例心力衰竭患者的40種數(shù)據(jù)變量,包括人口學(xué)資料、生命體征、身高、體質(zhì)量指數(shù)、實(shí)驗(yàn)室檢查、治療、合并癥數(shù)據(jù),預(yù)測心力衰竭患者預(yù)后準(zhǔn)確度達(dá)93.70%。Gleeson等[23]使用機(jī)器學(xué)習(xí)方法分析心力衰竭患者的72種數(shù)據(jù)變量,包括心電圖、超聲心動(dòng)圖的特征等,研究發(fā)現(xiàn)其中27種變量P<0.02,能有效應(yīng)用于預(yù)測心力衰竭患者預(yù)后,并指出空間QRS-T角>110°變量與心力衰竭患者再住院事件相關(guān)性非常強(qiáng)(風(fēng)險(xiǎn)比3.7)。Koulaouzidis等[24]使用樸素貝葉斯算法,分析心力衰竭患者末次住院和遠(yuǎn)程監(jiān)測數(shù)據(jù),包括患者一般情況、心力衰竭病因、合并癥、實(shí)驗(yàn)室檢查、心功能NYHA分級(jí)、治療、遠(yuǎn)程監(jiān)測數(shù)據(jù)(生命體征、體重、一般情況、治療、飲酒量),建立心力衰竭患者再住院預(yù)測模型,經(jīng)隨訪(286±281)d,預(yù)測AUC達(dá)0.82。Koulaouzidis等[24]研究顯示了大數(shù)據(jù)分析方法處理患者遠(yuǎn)程監(jiān)測數(shù)據(jù),實(shí)時(shí)動(dòng)態(tài)自動(dòng)分析和預(yù)測心力衰竭患者再住院的可行性和有效性。Zheng等[25]使用支持向量機(jī)算法分析心力衰竭患者數(shù)據(jù),包括年齡、醫(yī)保類型、敏度評(píng)估(視聽與思維)、合并癥、是否急診治療、用藥風(fēng)險(xiǎn)、末次住院周期等數(shù)據(jù),建立心力衰竭患者再住院預(yù)測模型,預(yù)測準(zhǔn)確度達(dá)78.4%。以上這些研究顯示了大數(shù)據(jù)分析方法在建立心力衰竭預(yù)測模型方面的有效性。
綜上,目前大數(shù)據(jù)分析方法在心力衰竭研究中應(yīng)用廣泛,與傳統(tǒng)研究相比,在研究數(shù)據(jù)方面,大數(shù)據(jù)分析方法能夠利用數(shù)據(jù)量巨大、更多種類的臨床數(shù)據(jù),能夠利用醫(yī)囑的時(shí)間順序、空間密度等價(jià)值密度較低的臨床數(shù)據(jù),能夠利用患者的遠(yuǎn)程監(jiān)測數(shù)據(jù),實(shí)時(shí)動(dòng)態(tài)分析;在研究成果方面,大數(shù)據(jù)分析方法所建立的疾病診斷模型、疾病分類模型、疾病預(yù)后預(yù)測模型,準(zhǔn)確度均較高。目前基于大數(shù)據(jù)分析方法的心力衰竭研究還存在較大發(fā)展空間,如進(jìn)一步提高原始數(shù)據(jù)的數(shù)量和質(zhì)量,進(jìn)行更多的前瞻性隊(duì)列研究驗(yàn)證大數(shù)據(jù)分析方法所建的模型的有效性,大數(shù)據(jù)分析方法本身也有待進(jìn)一步發(fā)展成熟。相信未來在計(jì)算機(jī)專業(yè)科學(xué)家、心臟病學(xué)研究者的緊密合作下,會(huì)有更多、更高質(zhì)量的醫(yī)學(xué)大數(shù)據(jù)研究,從而提高心力衰竭疾病診療水平。