肖慶穎 于廣軍
在過去的20年里,各個領域的大規(guī)模數據不斷增加,“大數據”一詞主要用來描述海量數據集。在全球生物醫(yī)學數據量呈爆炸性增長的背景下,如今醫(yī)療數據量被預測將達40萬億GB。與傳統(tǒng)數據集相比,大數據通常包含大量非結構化數據,需要進行更多實時分析,大數據分析作為一種先進的分析技術,涉及大規(guī)模且復雜的應用。2019年WHO《數字健康全球戰(zhàn)略2020-2025》提出要促進全球合作并促進數字健康知識的轉移;推進國家數字衛(wèi)生戰(zhàn)略的實施;在全球和國家層面加強數字醫(yī)療治理;倡導以數字醫(yī)療為基礎、以人為本的醫(yī)療系統(tǒng)。
在當今時代背景下,人工智能(artificial intelligence,AI)是一種引發(fā)諸多領域產生顛覆性變革的前沿技術。近5年來,“AI+”應用于醫(yī)療研究已成為現代科技的熱點,數據存儲和處理技術的快速進步為AI模型和算法的開發(fā)創(chuàng)造了良好的環(huán)境,引領醫(yī)學走在AI的時代前沿。
1.1 美國和歐洲現狀 在全球醫(yī)療大數據應用方面,隨著以深度學習為代表的AI帶來的技術和產品不斷涌現重大突破,美國已開始進行大數據、AI技術與醫(yī)療健康領域深度結合。美國擁有完整的醫(yī)療健康大數據庫,建成覆蓋本土的12個區(qū)域電子病歷數據中心、9個醫(yī)療知識中心、8個醫(yī)學影像與生物信息數據中心。美國國立衛(wèi)生研究院還著重發(fā)起B(yǎng)ig Data to Knowledge計劃,通過資助研究項目、培訓科學家和建立數據共享平臺等方式,促進生物醫(yī)學大數據的應用[1]。在戰(zhàn)略規(guī)劃方面,2016年,美國將AI為醫(yī)療診斷和處方治療提供決策支持系統(tǒng)列入《國家人工智能研究和發(fā)展戰(zhàn)略計劃》。2021年,美國《國家數字健康戰(zhàn)略》提出建設一個能夠及時提供信息,使針對公眾健康的決策和行動更加明智的、數字化的健康生態(tài)系統(tǒng)。美國加州大學的研究團隊在JAMA上首次報道AI從10萬余幅眼底視網膜照片中診斷糖尿病視網膜病變,與54位有美國醫(yī)師執(zhí)照的眼科醫(yī)師及高年資住院醫(yī)師的診斷結果相比較,其靈敏度及特異度均高于人工判斷[2],該研究為醫(yī)療AI領域具有代表性的研究。2023年,熱度很高的ChatGPT(Chat Generative Pre-trained Transformer)主要用于患者的實時醫(yī)療咨詢、隨訪、健康教育等。
歐洲的醫(yī)療信息化和醫(yī)院管理水平較高,AI在健康管理、醫(yī)院管理、智能問診等領域的應用較為成熟。英國Babylon Health公司通過AI為用戶提供遠程醫(yī)療問診服務,全球用戶達到430萬人,每天可進行4 000個臨床咨詢,已完成120多萬人次數字咨詢。在英國,大數據和AI已成為大力發(fā)展的戰(zhàn)略領域之一。在醫(yī)學AI領域方面,德國政府將“大數據+AI”視為未來經濟的重要增長點,2018年11月出臺了《人工智能戰(zhàn)略》,其口號為“AI Made in Germany”。德國柏林的學者研發(fā)了一款基于AI的醫(yī)療健康應用軟件Ada Health,該軟件可識別1萬多種病癥和疾病,已被應用于歐洲家庭醫(yī)師領域,其診斷準確率超過90%。
1.2 中國現狀 中國的大數據與醫(yī)療結合的需求重點在輔助診斷、患者虛擬助手、醫(yī)學影像分析等方面,醫(yī)藥開發(fā)相對落后。在中國,AI技術在影像識別和輔助診斷領域的應用較為廣泛,在其他場景中的應用也快速發(fā)展,展現出多元發(fā)展態(tài)勢。從本質上來看,中國對當下醫(yī)療體系的窘境有著深度認知,因此大數據和AI作為能幫助中國醫(yī)療體系革新,為臨床醫(yī)師對患者進行診治帶來便利的技術手段,受到了較高程度的重視和應用。2022年10月,黨的二十大報告對推進健康中國和數字中國戰(zhàn)略做出了重要部署:要求把保障人民健康放在優(yōu)先發(fā)展的戰(zhàn)略位置,完善人民健康促進政策,構建新一代信息技術、AI、生物技術等一批新的增長引擎。2023年2月,中共中央、國務院印發(fā)《數字中國建設整體布局規(guī)劃》,其中強調要“在農業(yè)、工業(yè)、醫(yī)療等重點領域,加快數字技術創(chuàng)新應用”,并明確提到“發(fā)展數字健康”等內容,彰顯了我國對利用大數據賦能社會發(fā)展的堅定決心。
本述評重點討論醫(yī)療大數據中AI技術的研究和進展,以及醫(yī)療大數據如何實現下一代AI。
2.1 機器學習和深度學習 計算促進了臨床研究中各關鍵領域的發(fā)展,基于AI的算法為研究人員提供了更多的用途方向。目前,機器學習算法已被廣泛應用于設計圖像的學科領域中,包括病理圖像、超聲成像、內窺鏡成像等,提高了診斷準確率,并可對疾病的嚴重程度進行分類。此外,臨床腫瘤學已成為機器學習最重要的領域,機器學習利用數據來學習數據集的模式和結構,豐富的成像和分子數據促進了機器學習的應用,并將這些數據源與早期癌癥檢測、癌癥進展監(jiān)測和確定最佳治療方法相關聯(lián)。Placido等[3]展示了AI在識別癌癥高風險人群方面的潛力,研究人員利用丹麥600萬例患者和美國300萬例患者的臨床數據開發(fā)機器學習模型;根據患者的病史,評估罹患胰腺癌的風險,最佳模型在36個月內預測癌癥發(fā)生的AUC的ROC為0.88。這樣類似的研究問題和方法同樣適用于兒科領域。同時,將深度學習應用于多種生物標志物分析的研究結果表明,其診斷的靈敏度和特異度均有所提高。澳大利亞莫納什大學癌癥研究團隊利用機器學習方法為224個兒童癌癥細胞系建立了一個多組學癌癥細胞系圖譜,能夠更準確地對兒童癌癥類型進行分類,通過藥理學和遺傳學CRISPR-Cas9功能喪失篩選,確認了兒童癌癥中132種基因依賴性和53種藥物敏感性細胞系,助力探索兒童癌癥特異性生物標志物[4]。以深度學習為代表的AI技術可基于大數據驅動的算法,學習并模擬人類行為,處理海量、高維數據。2021年,美國華盛頓國立兒童醫(yī)院的研究團隊利用2 800張兒童的面部照片開發(fā)出一種基于深度神經網絡和面部統(tǒng)計模型的遺傳病篩查技術,該模型能夠在普通兒科人群中識別遺傳畸形,解釋與種族、年齡和性別相關的表型變異[5]。
深度學習方法帶來了蛋白質結構預測的革命,隨著AlphaFold的發(fā)展,準確的蛋白質結構預測在很大程度上已為更多的人所接受,除了單體蛋白質,AlphaFold-Multimer還展示了較強的蛋白質復合物建模能力[6]。在制藥領域,3名高中生利用由20余種預測模型和生物學模型構成的AI靶點發(fā)現引擎PandaOmics,識別出3個全新的針對衰老和膠質母細胞瘤的潛在雙效靶點[7],相關研究成果發(fā)表在Aging上,顯示了AI系統(tǒng)輔助新藥研發(fā)的廣闊前景。
2.2 大語言模型賦能醫(yī)療大數據的利用 AI在醫(yī)療診斷和臨床決策中的作用越來越受到重視,高度靈活且可重復使用的AI模型的快速發(fā)展,有望為醫(yī)學領域帶來全新變革。在AI領域的前沿進展中,生成式預訓練模型在自然語言處理和計算機視覺等領域取得了成功,隨著算力的不斷提升,語言模型已從最初基于概率預測的模型逐步走向大語言模型的時代。大語言模型指網絡規(guī)模巨大的深度學習模型,具體表現為模型參數量規(guī)模較大(通常為千億級別),大語言模型是在大量通用文本數據上進行訓練,以學習語言中的模式與實體關系。研究[8]結果表明,大語言模型具有明顯的新能力,能夠補充現有的因果方法,通過捕捉與任務相關的人類領域知識,形成任何因果分析的重要組成部分。
2022年以來,以ChatGPT為代表的AI大語言模型開始崛起,大語言模型在解釋和生成廣泛領域的序列方面表現出非凡的能力。目前有研究者將GPT-4作為一種醫(yī)療AI聊天機器人,支持自然語言發(fā)問,簡化了AI的應用流程,并極大地拓展了其在醫(yī)學領域的應用范圍,包括醫(yī)學圖像分析、藥物相互作用檢測、高?;颊咦R別和醫(yī)療記錄編輯等。Lee等[9]研究中,1例COPD患者與GPT-4進行了兩輪深度對話,結果顯示,GPT-4給出了如何確定患者病情發(fā)生惡化、病情惡化的主要特征及是否需要緊急治療等信息,整體回答結果可與臨床醫(yī)師相媲美。在醫(yī)學圖像報告分析領域,利用Chat GPT開發(fā)的ChatCAD能夠基于圖像生成報告,并利用大語言模型廣泛且可靠的醫(yī)學知識來提供交互式的影像報告解釋和建議[10]。除了在醫(yī)療文本和醫(yī)療對話領域,大語言模型在單細胞生物學領域也展現出非常良好的涌現思維。近日,加拿大彼得·蒙克心臟中心的研究人員,通過利用呈指數增長的單細胞測序數據,首次嘗試對超過1 000萬個細胞進行生成式預訓練來構建單細胞基礎模型scGPT[11],這是第1個基于單細胞生物學的大語言模型。
2023年4月Nature上發(fā)表的文章提出通用醫(yī)療AI(general medical artificial intelligence,GMAI)的范式,GMAI模型可使用少量數據或沒有指定標記的數據來執(zhí)行不同的任務[12]。相比于當前的醫(yī)學AI模型,GMAI提供了更靈活的交互方式,使不同受眾群體更容易理解其輸出,并在不同任務和環(huán)境中提供前所未有的靈活性。目前研究關注于在無機器學習或數據科學專家的情況下,使開發(fā)高性能的醫(yī)療AI模型成為可能。Wagner等[13]使用Google Cloud Auto ML開發(fā)了一個無代碼深度學習分類器和定制模型,用于在英國倫敦的多種族人群中早產兒視網膜病變的分類,這兩種模型的分類結果與高年資兒童眼科醫(yī)師的分類結果相似,該研究突顯了自動機器學習和無監(jiān)督學習的潛力,可以在缺乏數據科學專業(yè)知識的資源匱乏地區(qū)開發(fā)針對其特定人群的優(yōu)化模型。
2.3 數據安全和隱私保護 由于醫(yī)療數據的復雜性和敏感性,醫(yī)療AI平臺的開發(fā)和應用也面臨一些挑戰(zhàn),如數據隱私保護、技術安全性等。2014年,在聯(lián)合國統(tǒng)計委員會的領導下成立了聯(lián)合國全球大數據工作組,該工作組旨在利用大數據技術在聯(lián)合國全球平臺基礎上,建立面向全球的大數據共享和經濟獲益的分析組織。2016年,Scientific Data上發(fā)表了《科學數據管理和監(jiān)督的FAIR指導原則》,FAIR原則強調機器的可操作性,即計算系統(tǒng)在沒有或最少人工干預的情況下查找、訪問、互操作和重用數據的能力。歐盟于2018年通過了通用數據保護條例(general data protection regulation,GDPR),規(guī)定在處理個人數據方面保護自然人及此類數據的自由流動,該法規(guī)旨在保護歐盟公民的個人數據和隱私權,并規(guī)定了個人數據的收集、使用、處理和存儲的方式。GDPR具有適用范圍廣泛、處罰嚴格、強調對個人數據的保護和強制性通知義務等特點,被認為是“史上最嚴”的個人數據保護條例。
我國數據監(jiān)管和應用促進的法律法規(guī)起步較晚,但發(fā)展速度很快。2021年以來頒布的《中華人民共和國數據安全法》《中華人民共和國個人信息保護法》《關鍵信息基礎設施安全保護條例》《關于構建數據基礎制度更好發(fā)揮數據要素作用的意見》《數據出境安全評估辦法》,以及2022年國家衛(wèi)生健康委員會等3部門聯(lián)合發(fā)布《醫(yī)療衛(wèi)生機構網絡安全管理辦法》,為醫(yī)療衛(wèi)生機構的網絡和數據安全管理提供指導,以充分發(fā)揮健康醫(yī)療大數據作為國家重要基礎性戰(zhàn)略資源的積極作用,為健康醫(yī)療大數據合規(guī)、開放提供依據。
醫(yī)療大數據的研究及應用成為各國醫(yī)學健康領域發(fā)展的新引擎,也是引領科技變革的新動能。我國在醫(yī)療大數據的研究建設起步較晚,目前仍面臨著數據孤島尚未完全打破、數據質量和治理效能需要提升、醫(yī)療大數據的開放使用需要破局、AI需要與大數據深度融合等問題。在大語言模型時代到來的今天,ChatGPT影響了醫(yī)療行業(yè)的變革,加上機器學習、深度學習算法等AI技術的賦能,使醫(yī)療大數據的發(fā)展越來越迅速。醫(yī)療大數據和AI技術的蓬勃發(fā)展改變了既往醫(yī)學模式,可在不同層面提高醫(yī)療水平和保障人類健康。