李寅昊,黎成權(quán),劉林威,王 霞,肖立,4*
(1.清華大學(xué)臨床醫(yī)學(xué)院,北京 100084;2.清華大學(xué)醫(yī)學(xué)院,北京 100084;3.中國(guó)科學(xué)院計(jì)算技術(shù)研究所,中科院智能信息處理重點(diǎn)實(shí)驗(yàn)室,北京 100090;4.中國(guó)科學(xué)院大學(xué)寧波華美醫(yī)院學(xué)科發(fā)展中心,浙江 寧波 305010)
隨著我國(guó)醫(yī)療水平的進(jìn)步,越來(lái)越多的醫(yī)院開始引進(jìn)數(shù)字化信息系統(tǒng),如醫(yī)院信息系統(tǒng)(HIS)、醫(yī)學(xué)影像歸檔和通信系統(tǒng)(PACS)、檢驗(yàn)信息系統(tǒng)(LIS)等逐漸被醫(yī)院采用[1]。數(shù)字化信息系統(tǒng)的成功應(yīng)用,在方便患者的同時(shí)也留下了大量數(shù)字化數(shù)據(jù),為醫(yī)學(xué)人工智能技術(shù)發(fā)展提供了堅(jiān)實(shí)的基礎(chǔ)。然而,由于標(biāo)準(zhǔn)不統(tǒng)一,相關(guān)人員培訓(xùn)乏力等原因,導(dǎo)致醫(yī)療數(shù)據(jù)在使用中存在“臟數(shù)據(jù)”“非標(biāo)準(zhǔn)化數(shù)據(jù)”及“數(shù)據(jù)信息孤島”等一系列問(wèn)題[2],數(shù)據(jù)輸入、維護(hù)、處理等環(huán)節(jié)時(shí)常出現(xiàn)異常[3]。
現(xiàn)有的醫(yī)療數(shù)據(jù)集大多來(lái)自不同中心,并且不同中心的數(shù)據(jù)格式、標(biāo)注規(guī)范等存在差異,因此這些醫(yī)療數(shù)據(jù)普遍具有多源異構(gòu)的特點(diǎn)。對(duì)于這些多源異構(gòu)數(shù)據(jù),一方面,其源自多個(gè)數(shù)據(jù)持有方,統(tǒng)一利用勢(shì)必存在困難;另一方面,不同持有方的數(shù)據(jù)特征和標(biāo)注規(guī)范不一致,將會(huì)導(dǎo)致出現(xiàn)數(shù)據(jù)偏移和數(shù)據(jù)噪聲的情況。因此,如何集成并學(xué)習(xí)這些多源異構(gòu)數(shù)據(jù),成為了醫(yī)學(xué)數(shù)據(jù)處理的重要研究問(wèn)題,本文將對(duì)多源異構(gòu)數(shù)據(jù)集成和學(xué)習(xí)方法進(jìn)行梳理和總結(jié)。
隨著信息技術(shù)的飛速發(fā)展,數(shù)據(jù)獲取渠道不斷擴(kuò)展,這導(dǎo)致無(wú)論是醫(yī)療圖像還是自然圖像,其數(shù)據(jù)源頭越來(lái)越廣,數(shù)據(jù)類型也越來(lái)越多。這種來(lái)源不同的數(shù)據(jù)被稱為多源數(shù)據(jù),而如果這些數(shù)據(jù)所表現(xiàn)出的類型和特征不一致,則被稱為異構(gòu)數(shù)據(jù),一般來(lái)說(shuō),數(shù)據(jù)的多源性也會(huì)導(dǎo)致其具有異構(gòu)的特點(diǎn)[4]。對(duì)于這種多源異構(gòu)數(shù)據(jù),由于其具有多個(gè)數(shù)據(jù)持有方,標(biāo)注標(biāo)準(zhǔn)不統(tǒng)一及標(biāo)注人員水平不一的特點(diǎn),導(dǎo)致其在使用時(shí)存在著統(tǒng)一利用困難,數(shù)據(jù)偏移及數(shù)據(jù)噪聲的問(wèn)題。因此,傳統(tǒng)的數(shù)據(jù)存儲(chǔ)方法及學(xué)習(xí)方法很難對(duì)其進(jìn)行處理。因此,如何構(gòu)建新的數(shù)據(jù)集成及學(xué)習(xí)方式,成為最大化利用多源異構(gòu)數(shù)據(jù)的關(guān)鍵[5]。
由于現(xiàn)有的醫(yī)學(xué)數(shù)據(jù)庫(kù)所依賴的計(jì)算機(jī)體系結(jié)構(gòu)不同,數(shù)據(jù)存儲(chǔ)方式存在差異,以及不同數(shù)據(jù)庫(kù)的模式不盡相同,導(dǎo)致其具有系統(tǒng)性、技術(shù)性及語(yǔ)義性3個(gè)方面的異構(gòu)[6]。醫(yī)療異構(gòu)數(shù)據(jù)集成解決方案主要基于數(shù)據(jù)倉(cāng)庫(kù)、聯(lián)邦數(shù)據(jù)庫(kù)、中間件(包裝器/中介器、本體/網(wǎng)格、XML)3大類型構(gòu)建而成。
2.1 基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)集成 數(shù)據(jù)倉(cāng)庫(kù)概念被認(rèn)為是由William Inmon創(chuàng)始并定義:“數(shù)據(jù)倉(cāng)庫(kù)(Data WareHouse,DW)是1個(gè)面向主題的(Subject Oriented)、集成的(Integrated)、非易失性的(Non-Volatile)、時(shí)變的(Variant Time)數(shù)據(jù)集合,用于支持管理決策(Decision Support Making)。[7]”基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)集成模式主要包含3部分:ETL(extract-transform-load)、集成器及數(shù)據(jù)倉(cāng)庫(kù)。其中ETL主要負(fù)責(zé)抽取轉(zhuǎn)換來(lái)自于各個(gè)數(shù)據(jù)源的數(shù)據(jù),在抽取轉(zhuǎn)換過(guò)后將數(shù)據(jù)傳入集成器來(lái)消除異構(gòu)性,之后再經(jīng)過(guò)數(shù)據(jù)清洗后傳送到數(shù)據(jù)倉(cāng)庫(kù)中,由數(shù)據(jù)倉(cāng)庫(kù)將數(shù)據(jù)提供給各個(gè)用戶。
ETL過(guò)程在構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)中具有十分關(guān)鍵的作用,在數(shù)據(jù)抽取過(guò)程中,處理過(guò)程的復(fù)雜性取決于數(shù)據(jù)特征和屬性、數(shù)據(jù)量、處理時(shí)間等因素。在數(shù)據(jù)轉(zhuǎn)換和清洗過(guò)程中,需要保證數(shù)據(jù)的完整性、有效性、準(zhǔn)確性、一致性。在數(shù)據(jù)加載過(guò)程中,關(guān)鍵是要區(qū)分新數(shù)據(jù)和現(xiàn)有數(shù)據(jù)[8]。
數(shù)據(jù)倉(cāng)庫(kù)在實(shí)現(xiàn)上也存在一些挑戰(zhàn),如時(shí)間模式設(shè)計(jì)、可追溯性、表達(dá)模式、知識(shí)進(jìn)化、流程自動(dòng)化等一系列問(wèn)題[9]。
Kadek Ary Budi Permana等設(shè)計(jì)了一個(gè)數(shù)據(jù)倉(cāng)庫(kù)用于醫(yī)療病歷信息存儲(chǔ)[10]。該數(shù)據(jù)倉(cāng)庫(kù)采用Kimball架構(gòu),集成了以下幾類數(shù)據(jù):用藥記錄、患者醫(yī)療記錄、患者國(guó)際疾病傷害及死因分類標(biāo)準(zhǔn)第十版(ICD10)編碼、其它類型數(shù)據(jù)等,主要服務(wù)于醫(yī)院間信息交換和政府機(jī)構(gòu)信息化監(jiān)管。該模型總線架構(gòu)設(shè)計(jì)如下:將業(yè)務(wù)流程劃分為患者藥物、患者治療、患者ICD10編碼、患者分布4個(gè)部分,并設(shè)計(jì)了患者、藥物、治療、ICD10編碼、醫(yī)院、時(shí)間等6個(gè)維度。在該架構(gòu)中,各機(jī)構(gòu)數(shù)據(jù)進(jìn)入ETL過(guò)程接受整合,包括數(shù)據(jù)提取、清洗、轉(zhuǎn)換、加載到數(shù)據(jù)倉(cāng)庫(kù)等步驟,醫(yī)院和監(jiān)管機(jī)構(gòu)的用戶可以通過(guò)客戶端數(shù)據(jù)中心調(diào)用這些數(shù)據(jù)。
圖1 基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)集成
Hamoud等設(shè)計(jì)了一個(gè)癌癥數(shù)據(jù)倉(cāng)庫(kù)(Clinical Data Warehouse,CDW)[11]。研究人員首先將來(lái)自多個(gè)醫(yī)療機(jī)構(gòu)的數(shù)千份紙質(zhì)數(shù)據(jù)錄入到excel數(shù)據(jù)表中并進(jìn)行匯總整合,使用了SQL Server管理服務(wù)工具[SQL Server管理服務(wù)(SSMS),SQL Server集成服務(wù)(SSIS),SQL Server分析服務(wù)(SSAS)和SQL Server報(bào)告服務(wù)(SSRS)],將星型模式作為CDW設(shè)計(jì)模式,該模式由年齡、性別、疾病、個(gè)人信息、日期和地址六個(gè)維度和事實(shí)表組成?;贑DW的維度構(gòu)造數(shù)據(jù)立方體以執(zhí)行在線分析處理(On-line Analytical Processing,OLAP)操作,最后還可使用SSRS生成報(bào)告,將Excel數(shù)據(jù)透視表連接到SSAS以查看多維數(shù)據(jù)集。通過(guò)該數(shù)據(jù)倉(cāng)庫(kù),研究人員可以查看癌癥患者在不同時(shí)間、年齡、性別等因素下的分布情況,從而研究不同因素對(duì)癌癥的影響。
圖2 癌癥數(shù)據(jù)倉(cāng)庫(kù)[11]
In Young Choi等開發(fā)了一個(gè)前列腺癌數(shù)據(jù)庫(kù),該數(shù)據(jù)倉(cāng)庫(kù)囊括人口信息、病史、癌癥分期、檢驗(yàn)信息、藥物治療等信息,還提供了數(shù)據(jù)可視化功能[12]。該系統(tǒng)主要具有三種數(shù)據(jù)來(lái)源:EMR中非結(jié)構(gòu)化數(shù)據(jù)、EMR結(jié)構(gòu)化數(shù)據(jù)、患者紙質(zhì)數(shù)據(jù),該系統(tǒng)支持3種數(shù)據(jù)錄入方式:手工錄入、Excel數(shù)據(jù)表文件上傳、CDW與EMR直連。研究人員在圣瑪麗醫(yī)院(St. Mary’s Hospital)開展了試驗(yàn),使用CDW方法,可以將前列腺癌患者的信息從EMR系統(tǒng)中轉(zhuǎn)移到前列腺癌數(shù)據(jù)庫(kù)中。通過(guò)該系統(tǒng),可以比較采用不同治療方案患者的治療效果,基于此開展前瞻性研究,促進(jìn)前列腺癌患者臨床護(hù)理。
2.2 基于聯(lián)邦數(shù)據(jù)庫(kù)的集成 聯(lián)邦數(shù)據(jù)庫(kù)系統(tǒng)是1種元數(shù)據(jù)庫(kù)管理系統(tǒng),它透明地將多個(gè)自治數(shù)據(jù)庫(kù)系統(tǒng)映射到單個(gè)聯(lián)合數(shù)據(jù)庫(kù)中,再統(tǒng)一地由聯(lián)邦數(shù)據(jù)庫(kù)管理系統(tǒng)提供控制和協(xié)同操作[13]。
建立聯(lián)邦數(shù)據(jù)庫(kù)的關(guān)鍵在于優(yōu)化以下幾點(diǎn):包括查詢模式、分析算法、語(yǔ)義映射、數(shù)據(jù)傳輸、負(fù)載平衡、資源調(diào)配等內(nèi)容。[14]
因?yàn)椴恍枰写鎯?chǔ),聯(lián)邦數(shù)據(jù)庫(kù)比數(shù)據(jù)倉(cāng)庫(kù)更具可擴(kuò)展性和靈活性,但需要花費(fèi)較多成本向系統(tǒng)添加新的數(shù)據(jù)源,或者修改當(dāng)前服務(wù)[15]。盡管聯(lián)邦數(shù)據(jù)庫(kù)在數(shù)據(jù)隱私保護(hù)方面存在一定優(yōu)勢(shì),但依舊需要采取一定的隱私保護(hù)措施,如硬件防篡改,身份認(rèn)證等保障措施。[16]
圖3 聯(lián)邦數(shù)據(jù)庫(kù)
Muilu J等人提出了TwinNet結(jié)構(gòu),該結(jié)構(gòu)以聯(lián)邦數(shù)據(jù)庫(kù)為基礎(chǔ),用來(lái)集成在7個(gè)歐洲國(guó)家和澳大利亞收集的基因型和表型信息,通過(guò)這種結(jié)構(gòu)進(jìn)行此數(shù)據(jù)庫(kù)設(shè)置,以便進(jìn)行數(shù)據(jù)交換和匯總分析[17]。在TwinNet中,各個(gè)數(shù)據(jù)提供中心通過(guò)虛擬私人網(wǎng)絡(luò)(VPN)連接到數(shù)據(jù)集成節(jié)點(diǎn),數(shù)據(jù)集成節(jié)點(diǎn)則負(fù)責(zé)將數(shù)據(jù)上傳到集成器上完成集成。通過(guò)TwinNet結(jié)構(gòu),來(lái)源不同的基因型和表型信息可以很好地集成起來(lái)。在TwinNet結(jié)構(gòu)中,用戶以及開發(fā)人員可以透明地從系統(tǒng)中獲取數(shù)據(jù),而無(wú)須關(guān)心數(shù)據(jù)的格式或站點(diǎn)。在安全性方面,TwinNet所維護(hù)的所有數(shù)據(jù)庫(kù)和數(shù)據(jù)集的標(biāo)識(shí)符都經(jīng)過(guò)隨機(jī)化處理,不包含任何個(gè)人信息。并且數(shù)據(jù)間的連接使用虛擬私人網(wǎng)絡(luò)(VPN),從而確保了連接的安全性?;谠摂?shù)據(jù)庫(kù),研究人員匯集了歐洲60萬(wàn)雙胞胎的信息,證明了該架構(gòu)的可擴(kuò)展性。
圖4 TwinNet[17]
2.3 基于中間件的集成 中間件是一種位于應(yīng)用系統(tǒng)和各個(gè)異構(gòu)數(shù)據(jù)源之間的結(jié)構(gòu),目的是為了解決分布異構(gòu)數(shù)據(jù)交換與集成問(wèn)題。其負(fù)責(zé)轉(zhuǎn)換各異構(gòu)數(shù)據(jù)源的模式,從而能夠向用戶提供全局統(tǒng)一模式的數(shù)據(jù)。
中間件能夠隱藏網(wǎng)絡(luò)的細(xì)節(jié),有助于應(yīng)用的開發(fā)、植入、執(zhí)行和交互,主要有事務(wù)中間件、過(guò)程中間件、消息中間件和面向?qū)ο笾虚g件四種類型[18]。
中間件致力于解決不同異構(gòu)設(shè)備間的互操作性問(wèn)題,但同樣面臨異構(gòu)網(wǎng)絡(luò)擴(kuò)展性、實(shí)時(shí)推理等問(wèn)題,提供能夠描述醫(yī)療物聯(lián)網(wǎng)和傳感器的完整本體也是一大挑戰(zhàn)[19]。
Hansi Zhang等人使用基于本體的數(shù)據(jù)集成方法,基于多水平癌癥生存集成數(shù)據(jù)分析方法(Integrative Data Analysis,IDA)尋找癌癥生存預(yù)測(cè)因子[20]。研究人員采用的數(shù)據(jù)源包含了個(gè)人層面(種族、性別、確診年齡、腫瘤類型等)、環(huán)境層面(地區(qū)高中畢業(yè)率、地區(qū)貧困率等)的多個(gè)水平數(shù)據(jù),建立了癌癥研究變量本體(Ontology for Cancer Research Variables,OCRV),用于通過(guò)異構(gòu)數(shù)據(jù)源集成和統(tǒng)一多級(jí)癌癥預(yù)測(cè)器,使用語(yǔ)義映射公理創(chuàng)建基于本體的語(yǔ)義數(shù)據(jù)訪問(wèn)框架(Ontology-based Data Access,OBDA),OBDA模型由映射公理和數(shù)據(jù)源聲明兩部分組成,通過(guò)SPARQL查詢?cè)L問(wèn)相關(guān)臨床數(shù)據(jù)庫(kù)。
Longxiang Shi等人提出了一種醫(yī)療信息集成模型,用于集成醫(yī)療健康數(shù)據(jù)和異構(gòu)文本醫(yī)學(xué)知識(shí)(Textual Medical Knowledge,TMK)并進(jìn)行語(yǔ)義查詢和推理[21]。該模型包括三個(gè)部分:醫(yī)學(xué)知識(shí)模型(Medical Knowledge Model,MKM)、健康數(shù)據(jù)模型(Health Data Model,HDM)和術(shù)語(yǔ)表(Terminology Glossary,TG),其中TG包含健康數(shù)據(jù)元數(shù)據(jù)索引、醫(yī)學(xué)知識(shí)元數(shù)據(jù)索引、元數(shù)據(jù)間術(shù)語(yǔ)映射本體、模型間概念映射本體。MKM用于定義知識(shí)模式,將TMK組織成概念圖。HDM從原始數(shù)據(jù)模式中生成,通過(guò)Web本體語(yǔ)言(OWL)來(lái)表達(dá)本體模型,用于標(biāo)準(zhǔn)化EHR數(shù)據(jù)。TG提供表達(dá)TMK和HDM實(shí)例的詞庫(kù),并提供語(yǔ)義映射用于實(shí)現(xiàn)集成。在該系統(tǒng)中,通過(guò)輸入身體特定部位,可以檢索位于該身體部位相關(guān)癥狀、可能疾病以及相應(yīng)治療方案,反之亦然。該系統(tǒng)還能夠自動(dòng)集成最新的醫(yī)學(xué)知識(shí)資源,促進(jìn)醫(yī)學(xué)研究的臨床轉(zhuǎn)化工作。
Bales等人提出了一種基于XML的數(shù)據(jù)集成方法XBrain用來(lái)集成多源異構(gòu)的大腦數(shù)據(jù)[22]。該方法將數(shù)據(jù)源,可視化工具以及分析工具集成起來(lái),并能夠處理關(guān)系型、本體型以及XML型數(shù)據(jù),其中,數(shù)據(jù)源包含皮質(zhì)刺激映射關(guān)系數(shù)據(jù)庫(kù)(Cortical Stimulation Mapping,CSM)、解剖學(xué)基礎(chǔ)模型本體(Foundational Model of Anatomy,F(xiàn)MA)、XML圖像管理器,可視化工具用于操作二維、三維圖像,多種分析工具用于實(shí)現(xiàn)不同功能,如大腦映射可視化工具(Visualization Brain Mapper,VBM)。在該模型中,所有的源數(shù)據(jù)在導(dǎo)入進(jìn)查詢處理器時(shí)需要從原本的格式轉(zhuǎn)換為XML格式。用戶利用JSP頁(yè)面向XQueryD處理器輸入查詢,由XQueryD處理器向各本地?cái)?shù)據(jù)源發(fā)送查詢并集成生成的XML片段。最終的查詢結(jié)果可以以多種格式展示給用戶。
圖5 XBrain[22]
Chun fei Zhang等人設(shè)計(jì)了一個(gè)基于SOA架構(gòu)(Service-Oriented Architecture)的醫(yī)療信息集成平臺(tái),用于整合醫(yī)院業(yè)務(wù)和數(shù)據(jù),并實(shí)現(xiàn)與外部系統(tǒng)的互操作性[23]。該平臺(tái)包含七個(gè)主要模塊:基本業(yè)務(wù)層(集成了醫(yī)院現(xiàn)有主要信息系統(tǒng))、信息交換層、信息服務(wù)層、信息管理層、數(shù)據(jù)分析層、平臺(tái)應(yīng)用層和門戶層。在該平臺(tái)的數(shù)據(jù)集成模塊中,通過(guò)XML、Web Service和消息中間件技術(shù)以集成異構(gòu)數(shù)據(jù),消息中間件用于屏蔽來(lái)自不同系統(tǒng)的不同格式的異構(gòu)數(shù)據(jù)源,并生成標(biāo)準(zhǔn)XML格式的數(shù)據(jù),Web Service端對(duì)XML格式數(shù)據(jù)做統(tǒng)一的集成處理,最后通過(guò)中間件輸出數(shù)據(jù)用于存儲(chǔ)和調(diào)用。SOA架構(gòu)通過(guò)設(shè)計(jì)取代原有點(diǎn)對(duì)點(diǎn)的數(shù)據(jù)接口模式,提高了醫(yī)療信息的訪問(wèn)和交互效率。
3.1 聯(lián)邦學(xué)習(xí) 聯(lián)邦學(xué)習(xí)系統(tǒng)是一個(gè)學(xué)習(xí)過(guò)程,在這個(gè)過(guò)程中,數(shù)據(jù)所有者共同訓(xùn)練一個(gè)模型,并且任何一個(gè)數(shù)據(jù)擁有者的數(shù)據(jù)都不向另外的數(shù)據(jù)擁有者公開[24]。聯(lián)邦學(xué)習(xí)旨在保持?jǐn)?shù)據(jù)本地化的前提下,在數(shù)據(jù)中心完成模型的訓(xùn)練。這就要求聯(lián)邦學(xué)習(xí)具有大規(guī)模學(xué)習(xí),分布式優(yōu)化以及隱私保護(hù)的能力[25]。
圖6 SOA架構(gòu)
聯(lián)邦學(xué)習(xí)主要有三種類型:橫向聯(lián)邦學(xué)習(xí)、縱向聯(lián)邦學(xué)習(xí)和聯(lián)邦遷移學(xué)習(xí)。在橫向聯(lián)邦學(xué)習(xí)中,各節(jié)點(diǎn)共享數(shù)據(jù)特征,數(shù)據(jù)內(nèi)容則不相同,這適用于具有同類醫(yī)療數(shù)據(jù)信息的不同醫(yī)療機(jī)構(gòu)構(gòu)建聯(lián)邦學(xué)習(xí)網(wǎng)絡(luò)。在縱向聯(lián)邦學(xué)習(xí)中,各節(jié)點(diǎn)持有相似數(shù)據(jù)內(nèi)容,但研究的數(shù)據(jù)特征有一定差異,以滿足不同的研究目的。在聯(lián)邦遷移學(xué)習(xí)中,各節(jié)點(diǎn)數(shù)據(jù)內(nèi)容和數(shù)據(jù)特征都不盡相同,目的在于將一個(gè)領(lǐng)域的知識(shí)遷移到另一個(gè)領(lǐng)域以求獲得更好的學(xué)習(xí)效果[26]。
聯(lián)邦學(xué)習(xí)的訓(xùn)練模式主要有兩種:并行訓(xùn)練和非并行訓(xùn)練。并行訓(xùn)練的效率雖然較高,但在某些場(chǎng)景可能帶來(lái)邏輯問(wèn)題。非并行訓(xùn)練雖然效率較低,但可以適應(yīng)非齊次計(jì)算環(huán)境。非齊次訓(xùn)練又可進(jìn)一步分為三種訓(xùn)練結(jié)構(gòu):集成訓(xùn)練、單權(quán)重訓(xùn)練、循環(huán)權(quán)重訓(xùn)練[27]。
Olivia Choudhury等人建立了一個(gè)聯(lián)邦學(xué)習(xí)模型,使用醫(yī)療數(shù)據(jù)來(lái)預(yù)測(cè)藥物不良反應(yīng)(Adverse Drug Reaction,ADR),該模型可以集成分布式醫(yī)療數(shù)據(jù)用于訓(xùn)練ADR預(yù)測(cè)模型[28]。研究人員基于兩組用例對(duì)該模型進(jìn)行了測(cè)試:預(yù)測(cè)患者長(zhǎng)期服用阿片類藥物癥狀和服用抗精神病藥物的錐體束外癥狀。各個(gè)終端共享全局模型,使用分布式數(shù)據(jù)進(jìn)行訓(xùn)練,訓(xùn)練得到的模型參數(shù)將被用于改良全局模型,直到達(dá)到模型訓(xùn)練目標(biāo)。在聚合本地模型更新以優(yōu)化全局模型方面,該架構(gòu)根據(jù)樣本類別比例設(shè)定相應(yīng)權(quán)重,并對(duì)罕見(jiàn)類別賦予更高權(quán)重,同時(shí)對(duì)使用較少樣本和時(shí)間達(dá)到收斂的終端賦予更高權(quán)重,以期實(shí)現(xiàn)更佳訓(xùn)練效果。研究人員在聯(lián)邦學(xué)習(xí)中采用了支持向量機(jī)(Support Vector Machine, SVM)、單層感知器(Single-layer Perceptron)和邏輯回歸(Logistic Regression)三類算法,使用基于隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)的優(yōu)化方法,并證明了在ADR預(yù)測(cè)方面聯(lián)邦學(xué)習(xí)模型的性能與中心化學(xué)習(xí)的性能相當(dāng)。
Abhijit Guha Roy等人設(shè)計(jì)了一種點(diǎn)對(duì)點(diǎn)的聯(lián)邦學(xué)習(xí)架構(gòu)BrainTorrent,在該架構(gòu)中沒(méi)有中心集成平臺(tái),所有客戶端之間可直接交互,研究人員提出了基于聯(lián)邦學(xué)習(xí)的DNN訓(xùn)練策略,通過(guò)平均所有客戶端中模型參數(shù)權(quán)重來(lái)創(chuàng)建模型,通過(guò)客戶端動(dòng)態(tài)更新來(lái)支持模型訓(xùn)練[29]。研究人員將該模型應(yīng)用于MRI T1全腦影像分割任務(wù)中,將左右腦整合為一個(gè)類別,所有皮層細(xì)胞整合為一個(gè)類別,以簡(jiǎn)化分割任務(wù)。最后,證明了采用該架構(gòu)的效果與數(shù)據(jù)集中式模型訓(xùn)練的性能相近,并通過(guò)動(dòng)態(tài)更新保證了模型的健壯性。
Adnan Qayyum等人提出一種基于協(xié)作式聯(lián)邦學(xué)習(xí)(Clustered Federated Learning,CFL)的框架,應(yīng)用邊緣計(jì)算技術(shù),部署機(jī)器學(xué)習(xí)模型,處理X線和超聲影像多模態(tài)數(shù)據(jù),用于COVID-19的自動(dòng)多模態(tài)診斷,并發(fā)現(xiàn)該模型相對(duì)于傳統(tǒng)聯(lián)邦學(xué)習(xí)模型能夠更好地應(yīng)對(duì)異源(X線、超聲圖像)的數(shù)據(jù)分布的差異[30]。由于在實(shí)際應(yīng)用場(chǎng)景中不同終端圖像大小、對(duì)比度、亮度、質(zhì)量、部位等因素都存在差異,這在一定程度上影響了模型訓(xùn)練的效果。
聯(lián)邦學(xué)習(xí)可以解決醫(yī)療數(shù)據(jù)隱私或去標(biāo)識(shí)化問(wèn)題,降低數(shù)據(jù)泄露風(fēng)險(xiǎn),不斷升級(jí)客戶端,提升聯(lián)邦學(xué)習(xí)網(wǎng)絡(luò)通信能力是重要方向[31]。在實(shí)際應(yīng)用時(shí)要注意數(shù)據(jù)的非獨(dú)立同分布特性、全局最優(yōu)與局部最優(yōu)之間的權(quán)衡等問(wèn)題[32]。
聯(lián)邦學(xué)習(xí)主要存在以下幾大挑戰(zhàn):網(wǎng)絡(luò)通信成本高、統(tǒng)計(jì)異構(gòu)性、計(jì)算異構(gòu)性、存儲(chǔ)異構(gòu)性、系統(tǒng)異構(gòu)性、隱私問(wèn)題等[33]。
3.2 噪聲數(shù)據(jù)的學(xué)習(xí) 多源異構(gòu)數(shù)據(jù)中通常含有噪聲,給模型學(xué)習(xí)帶來(lái)不少挑戰(zhàn)。這些噪聲包括樣本本身的噪音,以及數(shù)據(jù)標(biāo)注過(guò)程中的噪音。
在MRI、PET、CT、超聲等醫(yī)學(xué)影像中都存在低信噪比的問(wèn)題,在數(shù)字圖像處理過(guò)程中,去噪通常是最重要的預(yù)處理環(huán)節(jié)之一。
通過(guò)統(tǒng)計(jì)學(xué)中的異常值檢測(cè)方法在醫(yī)學(xué)影像中的應(yīng)用具有一定局限性,因?yàn)橐恍┰肼晹?shù)據(jù)并非統(tǒng)計(jì)意義下的異常值。通過(guò)引入人工智能方法,對(duì)噪聲數(shù)據(jù)進(jìn)行識(shí)別,是未來(lái)的重要方向[34]。
深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)對(duì)噪聲具有較強(qiáng)的魯棒性,能夠增強(qiáng)噪聲圖像的連續(xù)邊緣,保留線條和角點(diǎn)等結(jié)構(gòu)特征,在圖像重建和噪聲表現(xiàn)之間做出權(quán)衡[35]。
Guotai Wang等人設(shè)計(jì)了一種對(duì)噪聲魯棒的結(jié)構(gòu),用來(lái)完成covid-19 CT圖像病變分割任務(wù)[36]。肺部CT影像分割的挑戰(zhàn)在于不同患者病變表現(xiàn)、大小、階段不一,該結(jié)構(gòu)采用經(jīng)典的教師-學(xué)生模型,教師模塊和學(xué)生模塊相互促進(jìn),用來(lái)減少噪聲數(shù)據(jù)對(duì)模型的影響。該模型使用來(lái)自 10家不同醫(yī)院的558例新冠患者的臨床 CT 掃描,這些圖像具有不同的切片厚度和像素大小。實(shí)驗(yàn)發(fā)現(xiàn),數(shù)據(jù)重新加權(quán)和標(biāo)簽更新都有助于獲得更好的分割性能。
Guohua Cheng等人設(shè)計(jì)了一種基于GAN的結(jié)構(gòu),這種結(jié)構(gòu)結(jié)合了標(biāo)簽校正以及樣本權(quán)重分配,來(lái)解決噪聲標(biāo)簽的問(wèn)題[37]。該網(wǎng)絡(luò)包含兩個(gè)主要部分:發(fā)生器,是一個(gè)雙重推斷網(wǎng)絡(luò),用于校正標(biāo)簽和完成分割;鑒別器,用于評(píng)估校正標(biāo)簽和相應(yīng)的評(píng)分。研究人員在Shining 3D牙科視頻數(shù)據(jù)集上進(jìn)行了測(cè)試,隨機(jī)化選擇并標(biāo)注了7800幅圖像,該模型通過(guò)標(biāo)簽校正,對(duì)于牙齒形狀、相機(jī)運(yùn)動(dòng)和背景雜斑等帶來(lái)的噪音具有穩(wěn)健性,在實(shí)驗(yàn)中能夠有效區(qū)分臉頰和牙齦,牙齒和白色護(hù)舌器。
Farman Ali等人采用深度學(xué)習(xí)和特征融合技術(shù),設(shè)計(jì)了一套心臟病智能預(yù)測(cè)監(jiān)護(hù)系統(tǒng)。該系統(tǒng)融合了來(lái)自可穿戴設(shè)備、檢測(cè)設(shè)備和EMR中Framingham危險(xiǎn)評(píng)分?jǐn)?shù)據(jù),提出在特征選擇中采用信息增益(IG)方法來(lái)消除不相關(guān)的特征,篩選出關(guān)鍵特征,降低噪聲和數(shù)據(jù)集復(fù)雜性以及維度,從而提高了性能。該系統(tǒng)還設(shè)計(jì)了基于語(yǔ)義網(wǎng)規(guī)則語(yǔ)言(SWRL)的本體,用來(lái)自動(dòng)為心臟病患者提供飲食或活動(dòng)推薦[38]。
數(shù)據(jù)中常見(jiàn)的另一類噪音為專家標(biāo)注中的偏見(jiàn)引起的噪音,多標(biāo)簽學(xué)習(xí)通過(guò)綜合學(xué)習(xí)多位專家的標(biāo)注,可以在一定程度上克服標(biāo)注中的偏見(jiàn)對(duì)模型的影響。多標(biāo)簽學(xué)習(xí)通常分為三種類型,第一種是不考慮標(biāo)簽之間的相關(guān)性,第二種是考慮標(biāo)簽之間的兩兩相關(guān)性,第三是考慮標(biāo)簽與其它所有標(biāo)簽之間的整體相關(guān)性[39]。
多標(biāo)簽學(xué)習(xí)中,一個(gè)研究對(duì)象通常與多個(gè)標(biāo)簽相關(guān)聯(lián),標(biāo)簽之間存在相互關(guān)系通常難以通過(guò)原則化的方式來(lái)確定,保證標(biāo)簽上標(biāo)注完整性和準(zhǔn)確性存在挑戰(zhàn),類別不平衡、不等誤分類代價(jià)等問(wèn)題[40]。此外,多標(biāo)簽分類算法開發(fā)、高維特征空間的降維也是目前這方面的重點(diǎn)問(wèn)題[41]。
Yu Shuang等人設(shè)計(jì)了一種結(jié)構(gòu)來(lái)充分利用多標(biāo)注者的共識(shí)信息來(lái)提升青光眼分類效果[42]。該工作提出利用多分支結(jié)構(gòu)在三種不同的敏感度設(shè)定下產(chǎn)生預(yù)測(cè),分別是最佳靈敏度預(yù)測(cè)、最佳特異度預(yù)測(cè)和均衡化預(yù)測(cè)。由于青光眼的病理部位集中在視盤及周邊區(qū)域,因此在預(yù)處理中,圍繞視盤中心的三個(gè)視盤直徑的區(qū)域被選擇為ROI區(qū)域,并被調(diào)整為同等尺寸。研究人員提出利用共識(shí)損失來(lái)鼓勵(lì)網(wǎng)絡(luò)對(duì)相同標(biāo)簽的樣本產(chǎn)生相同預(yù)測(cè)結(jié)果,對(duì)不同標(biāo)簽的樣本產(chǎn)生不同預(yù)測(cè)結(jié)果。并且,根據(jù)不同分支間預(yù)測(cè)結(jié)果的余弦相似度,可以判斷樣本的難易程度,從而讓網(wǎng)絡(luò)更聚焦于困難樣本上從而提升性能。通過(guò)這種設(shè)計(jì),一方面可以更好地利用多標(biāo)注者地標(biāo)注信息,產(chǎn)生更好地結(jié)果,另一方面,該結(jié)構(gòu)能夠產(chǎn)生不同敏感度下的預(yù)測(cè)結(jié)果,也更符合臨床需求。
由于在病理圖像領(lǐng)域中,不同專家對(duì)同一張病理圖像的判定存在較大差異,因此,面對(duì)有多專家標(biāo)注的病理圖像數(shù)據(jù),如何更好地權(quán)衡不同專家的標(biāo)注可信度成為了解決病理圖像分割問(wèn)題的關(guān)鍵[43]。在該結(jié)構(gòu)中,權(quán)重網(wǎng)絡(luò)對(duì)每一張輸入圖片及每一位專家生成對(duì)應(yīng)的權(quán)重?zé)岫葓D。該熱度圖表示該專家在特定圖像上標(biāo)注的可信度,將該熱度圖作用在損失函數(shù)上用于指導(dǎo)訓(xùn)練,從而起到了讓網(wǎng)絡(luò)更關(guān)注于高可信度標(biāo)注的效果。此外,病理影像不同紋理區(qū)域在確定癌癥類型及其等級(jí)方面發(fā)揮不同作用,研究人員在模型實(shí)驗(yàn)中發(fā)現(xiàn)大多數(shù)困難樣本都落在了粗糙區(qū)域,因此推測(cè)粗糙區(qū)域可能相對(duì)重要,因此提出一種高斯注意力焦點(diǎn)損失函數(shù)(Gaussian attention focal loss,GAFL),用以考慮到每個(gè)像素的粗糙度來(lái)作為優(yōu)化。
Mengxing Huang等人提出一種異構(gòu)數(shù)據(jù)源臨床決策支持框架(HDS CDS),該框架整合了實(shí)驗(yàn)室數(shù)據(jù)、健康病歷數(shù)據(jù)、監(jiān)測(cè)數(shù)據(jù)(心電圖數(shù)據(jù))等異構(gòu)數(shù)據(jù)源,包含實(shí)驗(yàn)室數(shù)據(jù)分析、患者基本信息分析、癥狀分析、監(jiān)測(cè)數(shù)據(jù)分析四大數(shù)據(jù)分析模塊,然后通過(guò)標(biāo)簽矩陣重構(gòu)模塊,利用余弦相似度計(jì)算每?jī)蓚€(gè)標(biāo)簽之間的相關(guān)性,構(gòu)造相似度矩陣,然后通過(guò)相似度矩陣重構(gòu)標(biāo)簽矩陣,最后通過(guò)診斷模塊,利用CML kNN多標(biāo)簽分類算法識(shí)別目標(biāo)患者的可能疾病并輸出結(jié)果。研究人員通過(guò)該框架,收集了459例患者共計(jì)9種常見(jiàn)疾病的醫(yī)療健康檔案,并證明通過(guò)該框架能夠發(fā)掘疾病與年齡,疾病與疾病之間的關(guān)聯(lián),但由于多標(biāo)簽條件所帶來(lái)的復(fù)雜性,該方法還需要進(jìn)一步采用更好的特征選擇方法來(lái)進(jìn)行特征分析,以及提高模型的計(jì)算速度[44]。
3.3 特征融合學(xué)習(xí) 在臨床實(shí)踐中通常需要對(duì)圖像數(shù)據(jù)、檢驗(yàn)數(shù)據(jù)、文本數(shù)據(jù)等多源數(shù)據(jù)進(jìn)行融合以進(jìn)行綜合準(zhǔn)確的診斷。基于深度學(xué)習(xí)的融合策略可分成三個(gè)層面:特征融合,指將多個(gè)輸入模態(tài)融合成一個(gè)特征向量;聯(lián)合融合,將神經(jīng)網(wǎng)絡(luò)中間層的特征表示與多模態(tài)的特征連接起來(lái)作為最終模型的輸入;決策層融合,由多個(gè)模型的預(yù)測(cè)得出最終結(jié)果[45]。
在融合過(guò)程中,圖像融合受到傳感器、噪聲、可變性、運(yùn)動(dòng)偽影、對(duì)比度和分辨率等多方面因素的影響,在特征融合中,改進(jìn)成像質(zhì)量和降低噪聲是提高融合質(zhì)量的關(guān)鍵,數(shù)據(jù)融合中算法具備良好的特征模型是保證融合可靠性的關(guān)鍵[46]。
Tao Zhang等人提出了一種基于注意力機(jī)制的深度多模態(tài)融合網(wǎng)絡(luò),用于阿爾茨海默病診斷。該網(wǎng)絡(luò)能夠選擇性地從MRI和PET分支中提取特征,采用注意力模型,網(wǎng)絡(luò)能夠聚焦到感興趣區(qū)域,根據(jù)數(shù)據(jù)的重要性自動(dòng)分配各模態(tài)的融合率,并進(jìn)行多模態(tài)融合。為了保證多模態(tài)融合的有效性,采用了分層融合的方法,提升多模態(tài)數(shù)據(jù)間的協(xié)同作用,并證明該網(wǎng)絡(luò)能夠挖掘多模態(tài)數(shù)據(jù)中的低層和高層特征,提高AD診斷的準(zhǔn)確率?;谠撃P停芯咳藛T進(jìn)行了三種類型分類實(shí)驗(yàn):正常對(duì)照組/AD組,早期輕度認(rèn)知障礙(EMCI)/晚期輕度認(rèn)知障(LMCI),AD四類分型,并證明了該模型相對(duì)于標(biāo)準(zhǔn)基線算法有不同程度的明顯提升,其中,由于AD組與正常對(duì)照組的差異較為明顯,因此分類準(zhǔn)確率也是最高的[47]。
Dong Liu等人提出一種多層視覺(jué)特征融合(MLVSF)框架,該框架利用局部二值模式(LBP)和其變體CoLBP提取全局紋理低層特征,使用視覺(jué)詞袋獲取SIFT中層特征,使用AlexNet和VGG-16網(wǎng)絡(luò)進(jìn)行CNN 特征學(xué)習(xí),該方法能夠有效地集成手工特征和深度特征各自的優(yōu)勢(shì)。研究人員在淋巴瘤數(shù)據(jù)集上測(cè)試了對(duì)CLL、FL、MCL三種類型淋巴瘤的分類性能,在組織學(xué)數(shù)據(jù)集上展開了測(cè)試,證明了該融合特征方法相對(duì)于AlexNet和VGG-16等模型在分類性能上有所提升,但也發(fā)現(xiàn)視覺(jué)詞袋模型在淋巴瘤分類中的準(zhǔn)確率較低[48]。
Bumjun Jung等人提出了一個(gè)基于特征提取和多模態(tài)特征融合的視覺(jué)問(wèn)答任務(wù)模型(VQA),VQA模型以醫(yī)學(xué)圖像和文本問(wèn)題作為輸入,輸出是模型對(duì)該問(wèn)題的預(yù)測(cè)答案。該模型使用帶全局平均池(GAP)的VGG16網(wǎng)絡(luò)提取圖像特征,采用bioBERT模型編碼文本特征,該模型相比傳統(tǒng)的BERT模型,在編碼生物醫(yī)學(xué)文本方面具有更強(qiáng)的性能,然后通過(guò)MFH池化,并結(jié)合協(xié)同注意力機(jī)制,融合圖像特征和文本特征,最終輸出預(yù)測(cè)結(jié)果。研究人員在ImageCLEF-VQAMed-2020醫(yī)學(xué)影像數(shù)據(jù)集上展開了訓(xùn)練和測(cè)試,結(jié)果顯示該模型在測(cè)試集上準(zhǔn)確率0.466,BLEU評(píng)分0.502[49]。
Xiaoxin Guo等人提出一種增強(qiáng)的多特征融合網(wǎng)絡(luò)(EMFN),該模型屬于卷積神經(jīng)網(wǎng)絡(luò),可用于眼底圖像硬性滲出液檢測(cè)。該模型選取了眼底圖像綠色通道、形態(tài)特征(MF)、對(duì)比度受限的自適應(yīng)直方圖均衡化(CLAHE)、曲率作為輸入特征,為每種特征構(gòu)建一個(gè)單獨(dú)的分支,最后通過(guò)YOLOv3目標(biāo)檢測(cè)算法獲取融合輸出結(jié)果,在一定程度上解決了常規(guī)檢測(cè)方法準(zhǔn)確率低、效率低的問(wèn)題,并排除視盤區(qū)域的干擾。研究人員同時(shí)發(fā)現(xiàn),眼底圖像綠色通道相比原始RGB圖像能夠更明顯地顯示硬滲出物的特征[50]。
由于醫(yī)療數(shù)據(jù)的來(lái)源和結(jié)構(gòu)的多樣性,導(dǎo)致醫(yī)療數(shù)據(jù)普遍具有多源異構(gòu)的特點(diǎn)。針對(duì)這一特點(diǎn),已經(jīng)有諸如數(shù)據(jù)倉(cāng)庫(kù)等多種數(shù)據(jù)集成方法被提出并應(yīng)用于實(shí)際,用來(lái)集成這些多源異構(gòu)數(shù)據(jù)。另外,也有包括聯(lián)邦學(xué)習(xí)在內(nèi)的多種學(xué)習(xí)方式,用來(lái)克服多源異構(gòu)數(shù)據(jù)的缺陷,并從中學(xué)習(xí)到有用的信息。
現(xiàn)代醫(yī)學(xué)與健康研究電子雜志2022年6期