吳 龍 嚴(yán)曉明 陳秀娟 麥爾丹·吐魯甫 黎美秀 劉立宇
(廣東省人民醫(yī)院 廣州 510080) (生命奇點(diǎn)(北京)科技有限公司 北京 100089)
張 帆 高云鶴 梁會(huì)營 楊小紅
(廣州市婦女兒童醫(yī)療中心 廣州 510623) (廣東省人民醫(yī)院 廣州 510080)
為實(shí)現(xiàn)醫(yī)院數(shù)字化管理,各醫(yī)院配套建設(shè)了數(shù)據(jù)倉庫、商務(wù)智能(Business Intelligence,BI)系統(tǒng)等數(shù)據(jù)管理工具支撐醫(yī)院運(yùn)維決策。隨著各臨床學(xué)科發(fā)展,物聯(lián)網(wǎng)、可穿戴設(shè)備的接入,各醫(yī)療系統(tǒng)間數(shù)據(jù)格式不一致、關(guān)聯(lián)性不強(qiáng)、值域不統(tǒng)一、數(shù)據(jù)異構(gòu)等問題越發(fā)突出。在數(shù)據(jù)管理方面現(xiàn)有數(shù)據(jù)倉庫模式已無法滿足醫(yī)院快速發(fā)展需要。隨著高水平醫(yī)院建設(shè)的推進(jìn),醫(yī)院對(duì)運(yùn)營管理風(fēng)險(xiǎn)防控、可視化監(jiān)控、預(yù)測分析和精細(xì)化管理提出更高要求,數(shù)據(jù)管理需要打破不同業(yè)務(wù)系統(tǒng)之間的壁壘,做到數(shù)據(jù)和業(yè)務(wù)流程的融會(huì)貫通,進(jìn)一步挖掘數(shù)據(jù)價(jià)值,提升醫(yī)院綜合決策能力[1]。醫(yī)療數(shù)據(jù)湖是可以存儲(chǔ)醫(yī)院各類原始數(shù)據(jù)的大型倉庫,其數(shù)據(jù)可供存取、處理、分析及傳輸。數(shù)據(jù)湖從院內(nèi)不同業(yè)務(wù)系統(tǒng)數(shù)據(jù)源獲取原始數(shù)據(jù),針對(duì)不同的入湖目的,同一份原始數(shù)據(jù)還可能有多種滿足特定內(nèi)部模型格式的數(shù)據(jù)副本。數(shù)據(jù)湖中被處理的數(shù)據(jù)可能是任意類型信息,包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。醫(yī)院希望通過數(shù)據(jù)湖建設(shè)及數(shù)據(jù)治理提升醫(yī)療數(shù)據(jù)內(nèi)涵質(zhì)量,加強(qiáng)醫(yī)療數(shù)據(jù)價(jià)值挖掘,幫助臨床及管理部門快速獲取有用信息并通過數(shù)據(jù)分析和機(jī)器學(xué)習(xí)算法為醫(yī)院運(yùn)營管理和科研業(yè)務(wù)提供支撐。
2.1.1 發(fā)展過程 數(shù)據(jù)管理經(jīng)歷了數(shù)據(jù)收集、數(shù)據(jù)庫、數(shù)據(jù)倉庫階段。數(shù)據(jù)庫面向應(yīng)用,每個(gè)應(yīng)用可能僅需要一個(gè)數(shù)據(jù)庫,如果一個(gè)企業(yè)有幾十個(gè)應(yīng)用就可能需要幾十個(gè)數(shù)據(jù)庫,由于這些數(shù)據(jù)庫之間無法進(jìn)行統(tǒng)一分析,因此發(fā)展出數(shù)據(jù)倉庫[2]。數(shù)據(jù)倉庫不面向任何應(yīng)用,而是對(duì)接到應(yīng)用數(shù)據(jù)庫,通過提取-轉(zhuǎn)換-加載(Extract-Transform-Load,ETL)進(jìn)行數(shù)據(jù)抽取和匯總,并按照范式模型進(jìn)行分析,得到一段時(shí)間內(nèi)的數(shù)據(jù)視圖。隨著數(shù)據(jù)量的增加及數(shù)據(jù)類型的變化,很多非結(jié)構(gòu)化數(shù)據(jù)占比越來越多。數(shù)據(jù)倉庫很難繼續(xù)支撐,越來越多的企業(yè)希望將原始數(shù)據(jù)以真實(shí)的初始狀態(tài)保留下來,在此類需求的推動(dòng)下數(shù)據(jù)湖理念逐漸形成。
2.1.2 定義 數(shù)據(jù)湖(Data Lake)一詞最早由美國互聯(lián)網(wǎng)企業(yè)于 2011 年提出[2],其最早定義為以原始格式存儲(chǔ)數(shù)據(jù)的存儲(chǔ)庫或系統(tǒng),是企業(yè)級(jí)數(shù)據(jù)解決方案。隨著大數(shù)據(jù)技術(shù)的融合發(fā)展,數(shù)據(jù)湖不斷演變,匯集了各種技術(shù),包括數(shù)據(jù)倉庫、實(shí)時(shí)和高速數(shù)據(jù)流、數(shù)據(jù)挖掘、深度學(xué)習(xí)、分布式存儲(chǔ)等技術(shù)[3],逐漸發(fā)展成為可以存儲(chǔ)所有結(jié)構(gòu)化和非結(jié)構(gòu)化任意規(guī)模數(shù)據(jù)并可以運(yùn)行不同類型數(shù)據(jù)的大數(shù)據(jù)工具,是可以對(duì)大數(shù)據(jù)進(jìn)行處理、實(shí)時(shí)分析和機(jī)器學(xué)習(xí)等操作的統(tǒng)一數(shù)據(jù)管理平臺(tái)[3]。
數(shù)據(jù)倉庫通常從業(yè)務(wù)系統(tǒng)中提取,在將數(shù)據(jù)加載到數(shù)據(jù)倉庫之前會(huì)對(duì)數(shù)據(jù)進(jìn)行清理與轉(zhuǎn)換[4]。在數(shù)據(jù)抓取中數(shù)據(jù)湖會(huì)獲取半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)[2],而數(shù)據(jù)倉庫則是獲取結(jié)構(gòu)化數(shù)據(jù)并將其按模型進(jìn)行組織的[4]。數(shù)據(jù)湖適合深入分析非結(jié)構(gòu)化數(shù)據(jù),而數(shù)據(jù)倉庫因?yàn)榫哂懈叨冉Y(jié)構(gòu)化的特點(diǎn)而較適用于生成數(shù)據(jù)指標(biāo)、報(bào)表、報(bào)告等。數(shù)據(jù)湖與數(shù)據(jù)倉庫理念不同,相對(duì)于數(shù)據(jù)倉庫注重?cái)?shù)據(jù)管控,數(shù)據(jù)湖更傾向于數(shù)據(jù)服務(wù)。
2.3.1 數(shù)據(jù)情況錯(cuò)綜復(fù)雜 醫(yī)院業(yè)務(wù)系統(tǒng)因?yàn)樯?jí)換代、更換廠商等原因,造成不同時(shí)期的數(shù)據(jù)在不同系統(tǒng)中,或者系統(tǒng)升級(jí)換代的過渡時(shí)期,兩套系統(tǒng)同時(shí)使用,難以區(qū)分業(yè)務(wù)數(shù)據(jù)重疊還是分散在不同系統(tǒng)中。數(shù)據(jù)在抽取、匯聚、分析過程中出現(xiàn)找不到、讀不懂、獲取難、不敢信等情況。
2.3.2 標(biāo)準(zhǔn)不統(tǒng)一 醫(yī)院同一業(yè)務(wù)在不同時(shí)期、不同系統(tǒng)中術(shù)語不統(tǒng)一,進(jìn)行數(shù)據(jù)分析時(shí)處理數(shù)據(jù)、統(tǒng)一術(shù)語標(biāo)準(zhǔn)成為最耗時(shí)費(fèi)力的工作。例如診斷、手術(shù)操作、藥品、檢驗(yàn)項(xiàng)目等在不同時(shí)間段都存在不同標(biāo)準(zhǔn)術(shù)語集,使用這些數(shù)據(jù)就需要先統(tǒng)一標(biāo)準(zhǔn)集,每次處理業(yè)務(wù)數(shù)據(jù)都需要考慮同一業(yè)務(wù)在不同時(shí)期標(biāo)準(zhǔn)字典,還需進(jìn)行數(shù)據(jù)格式統(tǒng)一和數(shù)據(jù)匯總。
2.3.3 數(shù)據(jù)使用不方便 臨床數(shù)據(jù)分布在不同系統(tǒng)中,各系統(tǒng)數(shù)據(jù)之間的關(guān)聯(lián)、條件查詢?nèi)狈ο到y(tǒng)支撐。不同系統(tǒng)中的數(shù)據(jù)缺少外鍵關(guān)聯(lián)或者外鍵關(guān)聯(lián)規(guī)則不統(tǒng)一,導(dǎo)致各系統(tǒng)關(guān)聯(lián)規(guī)則不一致、規(guī)則復(fù)雜等。例如要查詢臨床科研數(shù)據(jù)往往要訪問多個(gè)業(yè)務(wù)系統(tǒng),且各業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫之間的外鍵規(guī)則不統(tǒng)一,需要關(guān)聯(lián)中間表,查詢繁瑣、執(zhí)行效率低。
醫(yī)療數(shù)據(jù)湖是對(duì)醫(yī)療原始數(shù)據(jù)的匯聚,數(shù)據(jù)入湖過程中不對(duì)數(shù)據(jù)做轉(zhuǎn)換、清洗和加工,保留數(shù)據(jù)原始特征,為后期數(shù)據(jù)的加工和消費(fèi)提供豐富可能。數(shù)據(jù)入湖是數(shù)據(jù)消費(fèi)的基礎(chǔ),必須遵從一定入湖標(biāo)準(zhǔn)。
3.2.1 發(fā)布數(shù)據(jù)標(biāo)準(zhǔn) 入湖數(shù)據(jù)要有對(duì)應(yīng)的業(yè)務(wù)數(shù)據(jù)標(biāo)準(zhǔn)。業(yè)務(wù)數(shù)據(jù)標(biāo)準(zhǔn)包括數(shù)據(jù)資產(chǎn)目錄(數(shù)據(jù)資產(chǎn)目錄是元數(shù)據(jù)的集合,相當(dāng)于可用數(shù)據(jù)清單)、數(shù)據(jù)定義及規(guī)則(物理表結(jié)構(gòu)、字段、長度及業(yè)務(wù)屬性描述等)、責(zé)任主體,這些標(biāo)準(zhǔn)是醫(yī)院對(duì)數(shù)據(jù)的共同理解,一旦明確發(fā)布需要被共同遵守[5],如對(duì)時(shí)間域設(shè)置固定的數(shù)據(jù)長度,值域設(shè)置固定的格式“YYYY-MM-DD”即年-月-日,對(duì)性別設(shè)置標(biāo)準(zhǔn)代碼庫,業(yè)務(wù)系統(tǒng)中的“男”“男性”“male”“man”“1”等,都對(duì)應(yīng)標(biāo)準(zhǔn)代碼庫中“男”。
3.2.2 定義數(shù)據(jù)密級(jí) 醫(yī)療數(shù)據(jù)入湖的必要條件。根據(jù)數(shù)據(jù)資產(chǎn)的重要程度定義不同密級(jí),不同密級(jí)數(shù)據(jù)對(duì)應(yīng)不同數(shù)據(jù)消費(fèi)要求。數(shù)據(jù)密級(jí)決定了數(shù)據(jù)可以共享的級(jí)別及用戶。
3.2.3 元數(shù)據(jù)注冊 將需要進(jìn)入醫(yī)療數(shù)據(jù)湖的業(yè)務(wù)元數(shù)據(jù)和數(shù)據(jù)湖的技術(shù)元數(shù)據(jù)進(jìn)行關(guān)聯(lián),包括邏輯實(shí)體和物理表的對(duì)應(yīng)關(guān)系,如超聲系統(tǒng)數(shù)據(jù)庫網(wǎng)絡(luò)地址與數(shù)據(jù)湖資產(chǎn)目錄注冊關(guān)聯(lián),業(yè)務(wù)表的結(jié)構(gòu)、業(yè)務(wù)屬性和表字段的對(duì)應(yīng)關(guān)系與數(shù)據(jù)湖技術(shù)元數(shù)據(jù)關(guān)聯(lián)。
3.3.1 概述 結(jié)構(gòu)化數(shù)據(jù)是指以二維表結(jié)構(gòu)表達(dá)和實(shí)現(xiàn)的數(shù)據(jù),其遵循嚴(yán)格的數(shù)據(jù)格式和長度規(guī)范,通常在關(guān)系型數(shù)據(jù)庫中存儲(chǔ)和管理,見圖1。
圖1 結(jié)構(gòu)化數(shù)據(jù)入湖流程
3.3.2 醫(yī)療數(shù)據(jù)入湖需求分析 醫(yī)療數(shù)據(jù)入湖需求分為由數(shù)據(jù)管理部門發(fā)起的主動(dòng)規(guī)劃類需求和由數(shù)據(jù)消費(fèi)方發(fā)起的被動(dòng)類需求,每個(gè)入湖申請都要以使用目的為導(dǎo)向,有針對(duì)性地提出今后使用方向,如臨床科研、醫(yī)院運(yùn)維管理。發(fā)起人需要提供規(guī)劃清單,并由信息系統(tǒng)工程師提供信息系統(tǒng)分組、業(yè)務(wù)對(duì)象、邏輯實(shí)體、源系統(tǒng)物理表和物理字段、業(yè)務(wù)屬性對(duì)應(yīng)的界面截圖等信息,經(jīng)過業(yè)務(wù)系統(tǒng)部門負(fù)責(zé)人和數(shù)據(jù)湖項(xiàng)目建設(shè)負(fù)責(zé)人聯(lián)合評(píng)審?fù)ㄟ^。
3.3.3 數(shù)據(jù)入湖條件和標(biāo)準(zhǔn)評(píng)估 檢查數(shù)據(jù)源是數(shù)據(jù)入湖的前提條件,檢查需要源系統(tǒng)的工程師提供數(shù)據(jù)字典和數(shù)據(jù)模型,并檢查源系統(tǒng)的物理表規(guī)范度,評(píng)估源系統(tǒng)的數(shù)據(jù)質(zhì)量[5]。評(píng)估標(biāo)準(zhǔn)包括明確數(shù)據(jù)所有者、發(fā)布數(shù)據(jù)標(biāo)準(zhǔn)、認(rèn)證數(shù)據(jù)源、定義數(shù)據(jù)密級(jí)、評(píng)估入湖數(shù)據(jù)質(zhì)量,不滿足上述任一入湖標(biāo)準(zhǔn)則需要源系統(tǒng)完成整改,滿足要求后方可實(shí)施數(shù)據(jù)入湖。
3.3.4 實(shí)施數(shù)據(jù)入湖 數(shù)據(jù)湖管理員根據(jù)數(shù)據(jù)消費(fèi)場景選擇入湖方式,原則上不要求歷史數(shù)據(jù),數(shù)據(jù)量小且實(shí)時(shí)性要求高的場景可優(yōu)先考慮虛擬入湖;要求歷史數(shù)據(jù)的且數(shù)據(jù)量大、實(shí)時(shí)性要求不高的場景,優(yōu)先考慮物理入湖。數(shù)據(jù)入湖由數(shù)據(jù)湖承建商實(shí)施,并負(fù)責(zé)設(shè)計(jì)集成方案和數(shù)據(jù)質(zhì)量檢測方案,同醫(yī)院信息部門一起完成測試和上線驗(yàn)證。
3.4.1 概述 醫(yī)療非結(jié)構(gòu)化數(shù)據(jù)包括醫(yī)學(xué)影像、音頻、視頻、生命體征檢測波形數(shù)據(jù)、可穿戴設(shè)備數(shù)據(jù)、物聯(lián)網(wǎng)設(shè)備數(shù)據(jù)及信息系統(tǒng)數(shù)據(jù)庫日志等異構(gòu)的格式文件。相較于結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)更難通過標(biāo)準(zhǔn)化理解。因此醫(yī)療非結(jié)構(gòu)化數(shù)據(jù)管理不僅包含文件本身還包含對(duì)文件的描述屬性,即非結(jié)構(gòu)化的元數(shù)據(jù)信息。例如文件標(biāo)題、格式、所有者、設(shè)備信息等基本特征,非結(jié)構(gòu)化數(shù)據(jù)入湖包括基本特征入湖、文件解析內(nèi)容入湖、文件關(guān)系入湖、原始文件入湖,見圖2。
圖2 非結(jié)構(gòu)化數(shù)據(jù)入湖流程
3.4.2 基本特征數(shù)據(jù)入湖 基本特征數(shù)據(jù)入湖過程中,數(shù)據(jù)內(nèi)容仍存儲(chǔ)在源系統(tǒng),數(shù)據(jù)湖中僅存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)的基本特征及元屬性。非結(jié)構(gòu)化數(shù)據(jù)的基本特征元屬性包括文件唯一標(biāo)識(shí)、文件類型(圖片、音頻、視頻)、創(chuàng)建者、文件內(nèi)容描述、創(chuàng)建或發(fā)布時(shí)間、版本、標(biāo)識(shí)、來院、關(guān)聯(lián)、密級(jí)等。
3.4.3 文件解析內(nèi)容入湖 文件解析內(nèi)容入湖是對(duì)元數(shù)據(jù)的文件內(nèi)容進(jìn)行文本解析、拆分后入湖。入湖過程中原始文件仍存儲(chǔ)在源系統(tǒng),數(shù)據(jù)湖中僅存儲(chǔ)解析后的內(nèi)容增強(qiáng)元數(shù)據(jù)的描述[5]。如醫(yī)院早期手寫病歷,經(jīng)過掃描歸檔后,歸檔目錄中僅包含患者住院號(hào)、住院時(shí)間、住院科室信息。這些數(shù)據(jù)入湖時(shí)經(jīng)過對(duì)掃描文檔的文字識(shí)別及人工鑒別后(因工作量較大,僅對(duì)有科研價(jià)值的病歷進(jìn)行屬性補(bǔ)充),增加了患者主要診斷、主訴、檢驗(yàn)檢查等信息,為后續(xù)科研檢索提供服務(wù)。
3.4.4 文件關(guān)系入湖 文件關(guān)系入湖過程中原始文件仍存儲(chǔ)在源系統(tǒng),數(shù)據(jù)湖中僅存儲(chǔ)文件的關(guān)系等增強(qiáng)元數(shù)據(jù)。如重癥監(jiān)護(hù)系統(tǒng)在建設(shè)時(shí)醫(yī)院尚未建設(shè)臨床數(shù)據(jù)倉庫(Clinical Data Repository,CDR)系統(tǒng),導(dǎo)致早期積累的PDF特護(hù)單不能在CDR中關(guān)聯(lián)調(diào)用。這些歷史數(shù)據(jù)入湖時(shí),通過重新建立元數(shù)據(jù)關(guān)聯(lián)實(shí)現(xiàn)特護(hù)單在CDR中調(diào)取。
3.4.5 原始文件入湖 原始文件入湖是從源端將原始文件搬入數(shù)據(jù)湖,在數(shù)據(jù)湖中存儲(chǔ)原始文件并進(jìn)行全生命周期管理。
傳統(tǒng)的數(shù)據(jù)倉庫將數(shù)據(jù)存儲(chǔ)在關(guān)系表中,而數(shù)據(jù)湖則使用平面結(jié)構(gòu)。每個(gè)數(shù)據(jù)元素分配唯一標(biāo)識(shí)符,并用一組元數(shù)據(jù)標(biāo)簽進(jìn)行標(biāo)記[6]。如一條醫(yī)囑數(shù)據(jù)在醫(yī)院信息系統(tǒng)(Hospital Information System,HIS)中存放在醫(yī)囑表中,并設(shè)有對(duì)應(yīng)的主外鍵關(guān)聯(lián)其他表;在進(jìn)入數(shù)據(jù)湖后,需要對(duì)醫(yī)囑數(shù)據(jù)進(jìn)行數(shù)據(jù)湖唯一標(biāo)識(shí)分配并增加數(shù)據(jù)標(biāo)簽為“醫(yī)囑數(shù)據(jù)”,同時(shí)更新醫(yī)囑表的主外鍵關(guān)系。經(jīng)過元數(shù)據(jù)管理,之前互不相通的業(yè)務(wù)系統(tǒng)數(shù)據(jù)可以實(shí)現(xiàn)關(guān)聯(lián)檢索。
數(shù)據(jù)資源目錄包含業(yè)務(wù)術(shù)語表關(guān)聯(lián)、標(biāo)簽管理、數(shù)據(jù)分類、數(shù)據(jù)來源和全文檢索[7]。每個(gè)進(jìn)入數(shù)據(jù)湖的系統(tǒng)都需要提供系統(tǒng)數(shù)據(jù)庫配置信息,表結(jié)構(gòu)、表描述及表之間的關(guān)聯(lián)關(guān)系等,經(jīng)過自動(dòng)化和人工操作更新數(shù)據(jù)湖資源目錄[8]。自動(dòng)化的工作會(huì)設(shè)計(jì)相應(yīng)模型,利用機(jī)器學(xué)習(xí)實(shí)現(xiàn)數(shù)據(jù)自動(dòng)分類和打標(biāo)簽。
通過屬性錯(cuò)誤檢測進(jìn)行篩選,篩選出屬性錯(cuò)誤的數(shù)據(jù),根據(jù)已發(fā)布的數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行清洗[9-10],如時(shí)間格式錯(cuò)誤、性別描述錯(cuò)誤、身份證號(hào)格式錯(cuò)誤等。除屬性錯(cuò)誤清洗外,數(shù)據(jù)清洗還包括不完整數(shù)據(jù)清洗,相似重復(fù)記錄清洗,都需要對(duì)數(shù)據(jù)進(jìn)行不完整或相似性重復(fù)檢測并根據(jù)規(guī)則進(jìn)行清洗。
建立數(shù)據(jù)中心服務(wù)器集群,通過基于Hadoop技術(shù)擴(kuò)展和封裝的醫(yī)療大數(shù)據(jù)平臺(tái)解決數(shù)據(jù)多源異構(gòu)問題。在數(shù)據(jù)湖生產(chǎn)平臺(tái)中可以看到各項(xiàng)作業(yè)的代碼、配置、運(yùn)行狀態(tài)、運(yùn)行日志等,并在實(shí)時(shí)采集系統(tǒng)資源狀態(tài)的同時(shí)進(jìn)行智能動(dòng)態(tài)分配。在該體系下集群資源得到充分利用的同時(shí),系統(tǒng)穩(wěn)定性也得到保證,數(shù)據(jù)安全與平臺(tái)運(yùn)行都處于可知、可控狀態(tài)。增量數(shù)據(jù)更新和高效的資源利用充分保證了數(shù)據(jù)的實(shí)時(shí)性。
使用通用數(shù)據(jù)模型(Common Data Model,CDM)作為大數(shù)據(jù)平臺(tái)數(shù)據(jù)存儲(chǔ)的模型,覆蓋了醫(yī)院絕大部分業(yè)務(wù)與系統(tǒng),將多源異構(gòu)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一數(shù)據(jù)模型,利用數(shù)據(jù)中臺(tái)存儲(chǔ)數(shù)據(jù)模型轉(zhuǎn)模規(guī)則,并通過統(tǒng)一調(diào)度平臺(tái)執(zhí)行作業(yè)的方式實(shí)現(xiàn)高效的數(shù)據(jù)轉(zhuǎn)換和存儲(chǔ),且過程可知、可控。
利用自然語言處理(Natural Language Processing,NLP)技術(shù)實(shí)現(xiàn)術(shù)語的字典映射,將不同時(shí)期、不同系統(tǒng)中非標(biāo)準(zhǔn)術(shù)語進(jìn)行標(biāo)準(zhǔn)化處理,提高數(shù)據(jù)質(zhì)量和可用性。數(shù)據(jù)標(biāo)準(zhǔn)定義參照國家衛(wèi)生健康委員會(huì)以及國際標(biāo)準(zhǔn)如國際疾病分類(International Classification of Diseases,ICD)第9次、第10次修訂本等,建立代碼、數(shù)據(jù)元的分類標(biāo)準(zhǔn),依數(shù)據(jù)規(guī)范要求制定詳細(xì)的代碼標(biāo)準(zhǔn)和數(shù)據(jù)元分類標(biāo)準(zhǔn),為數(shù)據(jù)存儲(chǔ)、訪問、整合提供一致性保障,見圖3。
圖3 數(shù)據(jù)湖建設(shè)框架
目前借助數(shù)據(jù)湖所要達(dá)成的目標(biāo)涉及不止一種數(shù)據(jù)技術(shù),匯集了包括數(shù)據(jù)倉庫、實(shí)時(shí)和高速數(shù)據(jù)流技術(shù)、數(shù)據(jù)挖掘、深度學(xué)習(xí)、分布式存儲(chǔ)等技術(shù)在內(nèi)的多種技術(shù),已經(jīng)從一種“大數(shù)據(jù)存算方案”進(jìn)階到“大數(shù)據(jù)存算+處理分析+資產(chǎn)治理+安全隱私+數(shù)據(jù)變現(xiàn)”一攬子方案。在數(shù)字經(jīng)濟(jì)時(shí)代,從數(shù)據(jù)倉庫到數(shù)據(jù)湖不僅是數(shù)據(jù)存儲(chǔ)架構(gòu)的變革,更是大數(shù)據(jù)思維方式的升級(jí)。數(shù)據(jù)湖能為醫(yī)院賦能,幫助醫(yī)院優(yōu)化運(yùn)營模型,為醫(yī)院科研提供更多維度數(shù)據(jù)分析,有助于醫(yī)院提升運(yùn)營管理和科研能力。