機器學習在疾病預測的應用研究進展

2021-11-26 03:36:27劉雨安楊小文李樂之

護理學報 2021年7期

劉雨安，楊小文，李樂之

（1.湖南中醫(yī)藥大學護理學院，湖南長沙410208；2.中南大學湘雅護理學院，湖南長沙410013）

近年來，人工智能（artificial intelligence,AI）技術(shù)在醫(yī)療衛(wèi)生領域的發(fā)展成為關注的焦點，應用也越來越廣泛。 2017 年國務院印發(fā)的《新一代人工智能發(fā)展規(guī)劃》中提出[1]，國家重點發(fā)展人工智能技術(shù)，完善適應人工智能技術(shù)的醫(yī)療政策體系、重點任務、保障措施等，并加快創(chuàng)新應用，以緩解就醫(yī)診療困難、提升公眾健康水平。機器學習（machine learning,ML）是一門研究計算機如何從數(shù)據(jù)中學習并挖掘信息的科學學科[2]，是人工智能的本質(zhì)，它代表著一套強大的算法，可以對數(shù)據(jù)進行描述、學習、分析和預測等，具有高效、準確、通用等優(yōu)點[3]。在如今大數(shù)據(jù)的時代背景下，信息化的飛速發(fā)展給臨床工作者帶來了大量復雜的醫(yī)療數(shù)據(jù)，而機器學習具有強大的從數(shù)據(jù)中提取信息的能力，為智能數(shù)據(jù)的采集、分析、存儲和預測提供了大量有價值的工具[4]。其中，疾病預測模型的構(gòu)建是機器學習常見的應用之一，目前已有大量研究使用機器學習算法進行疾病預測模型的構(gòu)建與驗證[4-7]，并證明了其對臨床疾病的管理與決策具有積極的輔助作用。本研究對機器學習技術(shù)進行簡要介紹，并對其在疾病預測中的應用進行綜述，以期促進護理工作者對機器學習技術(shù)的了解，探索未來可發(fā)展的方向，推動人工智能在醫(yī)療領域的發(fā)展。

1 機器學習概述

機器學習是一門多領域交叉的學科，它是指利用計算機模擬人的思維方式[8]，使其像人一樣具備學習能力，從而能夠在沒有任何明確編程的情況下，基于大量的訓練數(shù)據(jù)進行學習，利用系統(tǒng)本身進行自我改進，逐步提高性能[9]，然后根據(jù)學習的行為做出復雜的決策，是計算機具有智能的根本途徑[4]。與傳統(tǒng)的醫(yī)療電子信息系統(tǒng)的不同在于，傳統(tǒng)的醫(yī)療電子信息系統(tǒng)是整合患者的各項數(shù)據(jù)，基于特定的規(guī)則流程與知識庫進行數(shù)據(jù)的采集與相關的計算等，而機器學習通過自行探索，能夠挖掘數(shù)據(jù)間更深層次的隱含規(guī)律，捕獲與處理變量之間多層次、交互的非線性關系，建立關聯(lián)因子模型[10]，不僅在效率和準確性方面更具有優(yōu)越性，并且能夠契合實際臨床工作全面性、復雜性的特點[11]，做出更準確的預判與決策。機器學習的方法主要有監(jiān)督學習、無監(jiān)督學習和半監(jiān)督學習，常見的算法有Logistic 回歸分析、決策樹、隨機森林、人工神經(jīng)網(wǎng)絡和支持向量機等。

2 機器學習在疾病預測中的應用

2.1 預測疾病發(fā)生風險疾病風險預測模型是以疾病的多風險因素為基礎，按影響程度的大小劃分分值，利用數(shù)學公式計算某個人未來發(fā)生某個事件的概率的一種統(tǒng)計性評估方式[12]，構(gòu)建疾病風險預測模型可以使醫(yī)護人員對不同風險概率的群體實施有針對性的干預措施，對改善患者結(jié)局具有重要意義。機器學習由于其強大的挖掘信息與探索數(shù)據(jù)間聯(lián)系的能力，已有大量研究使用機器學習算法構(gòu)建疾病發(fā)生風險的預測模型。

Barton 等[13]開發(fā)了一種基于機器學習的膿毒癥預測模型，并將其與全身炎癥反應綜合征評分（Systemic Inflammatory Response Sydrome,SIRS）、改良早期預警評分（Modified Early Warning Score,MEWS）、序貫器官衰竭評估（Sequential Organ Failure Assessment,SOFA）等多個傳統(tǒng)的膿毒癥評分比較。結(jié)果發(fā)現(xiàn)，在膿毒癥發(fā)病時、發(fā)病前24 h 和48 h，其ROC 曲線下面積分別為0.88、0.83 和0.84，而傳統(tǒng)的膿毒癥評分僅在0.60～0.72。 Mohamadlou 等[14]構(gòu)建了住院患者急性腎損傷（Acute Kidney Injury,AKI）的機器學習預測模型，其在AKI 發(fā)病時和發(fā)病前12 h 的預測能力分別為0.872 和0.8，并同時與傳統(tǒng)評估工具進行比較，證實了基于機器學習構(gòu)建的模型效果更為出色。Wang 等[15]和Corradi 等[16]構(gòu)建了評估譫妄發(fā)生風險的機器學習模型，其ROC 曲線下面積分別為0.925～0.994 和0.909，顯示出了高度的準確性，其中梯度提升算法的準確率達到96.7%，具有很高的臨床使用價值。除此之外，還有研究將機器學習技術(shù)應用于預測尿路感染[17]、心跳驟停[18-19]、ICU 再入院[20]、壓瘡，跌倒等各種護理不良事件[10，21-22]、甚至是抑郁自殺等事件的發(fā)生風險中[23-24]，并獲得了令人滿意的效果。

由此可見，使用機器學習算法構(gòu)建風險預測模型已被廣泛應用于不同領域當中。護士作為患者的主要照顧者，在患者病情觀察以及疾病的預測中處于關鍵位置，與傳統(tǒng)的風險預測模型或評分相比，機器學習建模具有準確、敏感、通用等優(yōu)勢，能夠剖析數(shù)據(jù)間多因素的深層次交互關系[10]，探索更復雜的線性或非線性關聯(lián)，在各種臨床環(huán)境中預測疾病發(fā)生風險的能力更高，對促進醫(yī)護人員早期干預以改善患者結(jié)局具有重要意義。

2.2 預測疾病預后及風險分層

2.2.1 在急診分診中的應用醫(yī)院的急診室內(nèi)常常人滿為患，分診中面臨的主要難題是如何根據(jù)患者預后的嚴重程度對患者進行分類，如何準確區(qū)分危重患者和穩(wěn)定患者，并將其分為優(yōu)先次序。機器學習作為一種強大的算法框架，具有快速、準確的預測患者結(jié)局及風險分層的能力，在急診分診中具有廣大的應用潛力。

Fernandes 等[25]以識別急診中需要入住ICU 的高風險患者為目標，使用Logistic 回歸算法構(gòu)建機器學習模型，并分別在美國和葡萄牙的2 家醫(yī)院進行應用，其ROC 曲線下面積分別為0.91 和0.85，可以有效識別出在急診中需轉(zhuǎn)入ICU 的高?；颊摺evin 等[11]使用隨機森林算法構(gòu)建了E-triage 分診器，該模型能夠預測急診患者的結(jié)局以及對重癥監(jiān)護、急診醫(yī)療程序或住院的需要程度，并將風險轉(zhuǎn)化為分診等級，其模型的ROC 曲線下面積為0.73～0.92。同時，研究者將E-triage 模型與美國常用的急診嚴重程度評分進行比較，表示該模型能夠更準確及快速的對患者進行分類與風險管理。 Parker 等[26]開發(fā)了一個機器學習模型以預測急診患者需要住院的概率，以期能夠盡早通知相關病房，做好患者的交接，減少急診室內(nèi)的擁擠，促進病床等醫(yī)療資源的優(yōu)化管理與分配。由此可見，基于機器學習技術(shù)對患者進行風險預測與分層，有利于提高急診醫(yī)護人員的工作效率與準確性，以及為患者提供針對性的治療護理措施，這不僅對改善患者預后產(chǎn)生積極影響，并且可以最大程度的促進醫(yī)療資源的優(yōu)化分配。

2.2.2 在應對重大公共衛(wèi)生危機中的應用使用機器學習技術(shù)對患者進行更高效的風險分層，優(yōu)化醫(yī)療資源的管理與分配，也有效增強了醫(yī)療衛(wèi)生系統(tǒng)應對突發(fā)重大公共衛(wèi)生危急的能力。自2020 年以來，世界范圍內(nèi)新型冠狀病毒肺炎（COVID-19）患者人數(shù)劇增，給全球衛(wèi)生系統(tǒng)造成了巨大沖擊。我國學者Gao 等[27]構(gòu)建了COVID-19 患者死亡風險預測模型，該模型能夠提前20 d 對COVID-19 患者進行生理惡化的預測與死亡風險的分層，有利于促進醫(yī)務人員對高風險的COVID-19 患者進行及時的干預與治療；國外學者Cheng 等[28]構(gòu)建了一個基于機器學習的風險優(yōu)先排序工具，用于識別24 h 內(nèi)需要轉(zhuǎn)入ICU 的高風險COVID-19 患者，其ROC 曲線下面積為79.9%，一定程度上改善了醫(yī)院資源的管理與分配，促進了對COVID-19 患者提供更有效的護理；Vaid 等[29]使用機器學習算法構(gòu)建模型，可以提前10 d預測不同患者群體中的危重患者和死亡率，并確定了影響預測結(jié)果的潛在因素，使醫(yī)務人員可以通過觀察這些指標來改善對患者的治療決策，從而為患者提供更有針對性的治療與護理。

由此可見，充分發(fā)揮機器學習的優(yōu)勢應對突發(fā)重大衛(wèi)生事件，不僅可以更高效的優(yōu)化資源分配，為患者提供其所需的治療等級與資源，并且可以促進對未知疾病的探索，分析其惡化的影響因素及潛在原因，為醫(yī)護人員實施干預措施提供依據(jù)，提高醫(yī)療衛(wèi)生系統(tǒng)應對突發(fā)公共衛(wèi)生危急的能力。

2.3 預測慢性病進展情況機器學習技術(shù)在慢性病管理中也具有極大的發(fā)展?jié)摿?。近年來，隨著社區(qū)醫(yī)院的不斷發(fā)展，以及移動健康App、傳感器、可穿戴監(jiān)測設備等的流行，人們在日常生活中產(chǎn)生大量、連續(xù)的健康數(shù)據(jù)為機器學習的使用提供了合適的條件。2.3.1 高血壓管理高血壓是指血管壓力持續(xù)增高的一種狀態(tài)，根據(jù)世界衛(wèi)生組織的數(shù)據(jù)[30]，全球約有11.3 億的高血壓患者，是最常見的慢性疾病。高血壓會增加患者心、腦、腎臟等疾病的發(fā)生風險，是世界范圍內(nèi)過早死亡的主要原因，一直以來是研究的焦點。近年來，機器學習與數(shù)據(jù)挖掘技術(shù)的發(fā)展也為高血壓疾病的管理提供了新的方法與思路。Chang 等[31]使用支持向量機、決策樹和隨機森林等算法構(gòu)建了血壓預測模型，該模型整合患者體檢的多項指標進行預測，對高血壓患者的病情轉(zhuǎn)歸以及并發(fā)癥的預測與控制具有良好效果；Weng 等[32]使用來自英國378 256例患者的數(shù)據(jù)進行前瞻性的隊列研究，構(gòu)建了機器學習模型以預測個體在未來10 年發(fā)生心血管事件的風險，結(jié)果具有較好的敏感性與特異性，顯著提高了心血管疾病風險預測的準確性，促進患者從預防治療中獲益；Lee 等[33]基于韓國國家醫(yī)療保健數(shù)據(jù)庫，使用機器學習算法構(gòu)建了高血壓患者并發(fā)癥的預測模型，該研究使用國家醫(yī)療數(shù)據(jù)庫，納入了更廣泛的觀察變量與數(shù)據(jù)，使其得到的結(jié)果更可靠及有權(quán)威性，對該國高血壓患者的指導與管理具有重要意義。

2.3.2 糖尿病管理糖尿病是一種慢性代謝性疾病，全球約有4.22 億的糖尿病患者[34]，并在近幾十年增加迅速，血糖的管理一直以來是國內(nèi)外學者研究的重點。隨著科技化、信息化的快速發(fā)展，糖尿病患者的血糖管理方法也在不斷創(chuàng)新，機器學習和數(shù)據(jù)挖掘在糖尿病研究中的應用越來越廣泛，其中，血糖預測、血糖異常檢測、糖尿病并發(fā)癥的預測等方面成為研究的重點。

血糖預測是指基于患者過去和當前的情況，預測個體的血糖水平，主要目的是為了指導個性化的血糖管理以及提供必要的警報。 Georga 等[35]構(gòu)建了糖尿病患者發(fā)生低血糖的預測模型，該模型在提前30 min 和60 min 預測低血糖事件的準確率均在90%以上，能夠有效預防不良事件的發(fā)生；Zeevi 等[36]設計了一種算法，該算法集成了血液參數(shù)、飲食習慣、體力活動和腸道微生物群等多方面數(shù)據(jù)，可以預測現(xiàn)實生活中個性化的餐后血糖反應，有助于指導患者飲食管理，改善餐后血糖升高現(xiàn)象。糖尿病的視網(wǎng)膜病變是患者視力障礙和失明的重要原因，有學者使用深度學習方法對糖尿病患者進行視網(wǎng)膜篩查，其結(jié)果證明基于機器學習的方法可以有效篩查并早期發(fā)現(xiàn)患者的視網(wǎng)膜病變[37]，Dagliati 等[38]使用邏輯回歸的方法構(gòu)建了機器學習模型，其根據(jù)患者在第1 次就診時的健康狀況，可以預測出該患者在未來3 年、5 年和7 年內(nèi)微血管病變的發(fā)生風險（包括視網(wǎng)膜病變及腎臟病變等），有助于醫(yī)務人員給予針對性的指導與教育來減緩并發(fā)癥的發(fā)生，提高患者的生活質(zhì)量。

2.3.3 其他慢性病管理除此之外，還有很多學者將機器學習技術(shù)應用于其他慢性病的管理中。慢性阻塞性肺疾病（chronic obstructive pulmonary diseases,COPD）是常見的肺部病變，不僅嚴重影響生活質(zhì)量，也增加了患者的死亡率。 COPD 急性惡化是患者住院的常見原因，Orchard 等[39]將機器學習應用于COPD 急性惡化的預測建模，增強了對COPD 患者的遠程監(jiān)控與管理，有利于病情惡化的早期識別與治療，減少患者住院率；Wang 等[40]將神經(jīng)網(wǎng)絡算法應用于阿爾茲海默癥患者的病情進展，結(jié)果表明該模型可以有效預測患者的疾病進展情況，具有較高的臨床使用價值；Shi 等[41]開發(fā)了乳腺癌術(shù)后患者2年生存質(zhì)量的機器學習預測模型，從而指導護理人員為患者提供針對性的延續(xù)護理，輔助延續(xù)護理決策。由此可見，使用機器學習的方法可以準確預測慢性疾病的進展模型，從而有針對性地為患者實施科學的慢性病管理，制定個性化的管理方案，以延緩病情進展，提高患者生活質(zhì)量。

2.4 預測患者治療效果預測患者治療效果的主要目的是做出一個是否實施該干預的決定，從而避免低價值的醫(yī)療程序。隨機對照試驗（randomized control trials,RCT）是驗證干預效果的金標準，但由于其有嚴格的納入排除標準，并未考慮接受治療人群的個體異質(zhì)性。電子健康檔案（electronic health records,EHR）包含大量的患者個性化信息，并且已廣泛在臨床應用，根據(jù)EHR 數(shù)據(jù)評估個體化的干預效果逐漸受到重視，大數(shù)據(jù)被認為是RCT 的補充方案[42]。 Choi 等[43]基于循環(huán)神經(jīng)網(wǎng)絡建立了AI 醫(yī)生，可以使用患者的歷史病歷來預測干預治療后的結(jié)果，顯示了機器學習用于臨床決策輔助的巨大潛力；Tahmassebi 等[44]開發(fā)機器學習模型用以預測新輔助化療措施用于治療乳腺癌患者的效果，該模型能夠較準確地預測患者在此治療措施下的生存結(jié)果，并幫助早期識別對此治療反應欠佳的患者，為指導治療決策提供有價值的預測信息。

醫(yī)務人員將患者資料及歷史病例輸入機器學習模型，根據(jù)這些包含異質(zhì)性的患者數(shù)據(jù)，模型可推斷出患者在接受治療和不接受治療時的不同結(jié)果，醫(yī)護人員可以由此來決定此干預是否有益。這也可以是不同干預措施之間的選擇，通過模型的預測，可以計算出不同干預措施實施后患者的不同結(jié)局，從而輔助選取最佳的治療措施，這保障了干預的質(zhì)量與效果，減少了低價值醫(yī)療程序。然而，目前機器學習用于預測患者治療效果的研究多集中于化療方案或用藥策略的選擇，較少有研究關于護理措施效果的預測與選擇，因此也是未來的研究方向。

3 挑戰(zhàn)與展望

隨著大數(shù)據(jù)時代的到來和人工智能技術(shù)的發(fā)展，機器學習作為人工智能的核心，其與醫(yī)學領域的結(jié)合受到越來越多的關注與發(fā)展。然而，機器學習技術(shù)在臨床中的使用是機遇也是挑戰(zhàn)，作為新興的醫(yī)療電子信息技術(shù)，目前仍面臨著很多挑戰(zhàn)。首先，訓練出一個準確性高且普遍適用的機器學習模型對樣本數(shù)據(jù)及隊列的選擇提出較高的要求。雖然信息化的發(fā)展帶來了大量的醫(yī)療數(shù)據(jù)，但同時難以避免EHR 中數(shù)據(jù)缺失及低質(zhì)量的問題[45]，這容易導致挖掘信息不良以及模型的過度擬合，減少準確性與權(quán)威度。此外，臨床醫(yī)護人員對信息化發(fā)展的接受程度和重視程度都尚為缺乏，同樣不利于臨床信息化的建設與發(fā)展。因此，在未來的研究中，建議加強EHR 數(shù)據(jù)高質(zhì)量的錄入與管理，這是任何臨床決策支持系統(tǒng)的基礎。同時，還應加強對醫(yī)護人員進行計算機信息技術(shù)的相關理論與技能培訓，以及鼓勵跨學科合作和加強醫(yī)學信息技術(shù)人才的培養(yǎng)，提高臨床工作人員的信息素養(yǎng)與計算機技術(shù)的使用能力，將機器學習更多的應用于護理領域，指導護理計劃制定，輔助護士的臨床決策，推動我國醫(yī)療信息化、智能化的發(fā)展。