翟運開 郭瑞芳 王宇等
關(guān)鍵詞: 醫(yī)療健康大數(shù)據(jù); 數(shù)據(jù)質(zhì)量評價; 數(shù)據(jù)生命周期; 模糊最優(yōu)最劣法; 熵權(quán)法
DOI:10.3969 / j.issn.1008-0821.2024.01.011
〔中圖分類號〕G203 〔文獻標(biāo)識碼〕A 〔文章編號〕1008-0821 (2024) 01-0116-14
近年來, 隨著信息技術(shù)的快速發(fā)展, 可穿戴設(shè)備、電子健康監(jiān)測儀器等智能醫(yī)療設(shè)備在生活中廣泛應(yīng)用, 使得醫(yī)療健康相關(guān)數(shù)據(jù)呈指數(shù)增長并最終匯聚成醫(yī)療健康大數(shù)據(jù)。醫(yī)療健康大數(shù)據(jù)涵蓋與自然人醫(yī)療健康相關(guān)的多種數(shù)據(jù), 涉及個人健康、公共衛(wèi)生、醫(yī)藥服務(wù)等諸多方面, 是互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、人工智能等領(lǐng)域與醫(yī)療健康相結(jié)合的產(chǎn)物[1-2] 。醫(yī)療健康大數(shù)據(jù)是國家重要的基礎(chǔ)性戰(zhàn)略資源, 它的發(fā)展和應(yīng)用對改進醫(yī)療健康服務(wù)模式和促進社會經(jīng)濟發(fā)展有著重要作用。我國已將醫(yī)療健康大數(shù)據(jù)納入了國家大數(shù)據(jù)戰(zhàn)略布局, 并出臺了《關(guān)于促進和規(guī)范健康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)展的指導(dǎo)意見》等相關(guān)政策[3] , 成立了國家醫(yī)療數(shù)據(jù)中心、中國健康醫(yī)療大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟, 啟動了健康醫(yī)療大數(shù)據(jù)中心與產(chǎn)業(yè)園建設(shè)國家試點工程。
然而, 在大數(shù)據(jù)背景下, 醫(yī)療健康大數(shù)據(jù)快速累積的同時也暴露出了質(zhì)量差、利用率低等問題。Burnum J F[4] 指出, 電子病歷等衛(wèi)生信息技術(shù)的引入提高了醫(yī)療健康數(shù)據(jù)的寫入效率, 但同時也記錄了更多不良數(shù)據(jù)導(dǎo)致醫(yī)療健康數(shù)據(jù)質(zhì)量下降。醫(yī)療健康領(lǐng)域的發(fā)展直接影響著人們的生活質(zhì)量和社會穩(wěn)定, 對服務(wù)的精準(zhǔn)性要求較高[5] , 數(shù)據(jù)質(zhì)量的下降增大了依托醫(yī)療健康大數(shù)據(jù)決策失誤的風(fēng)險。良好的數(shù)據(jù)質(zhì)量是高效利用數(shù)據(jù)、充分挖掘數(shù)據(jù)價值的前提和基礎(chǔ), 醫(yī)療健康大數(shù)據(jù)的開放共享和深入應(yīng)用離不開高質(zhì)量的數(shù)據(jù)。
數(shù)據(jù)質(zhì)量評價是數(shù)據(jù)質(zhì)量管理和控制的基礎(chǔ)[6] , 通過數(shù)據(jù)質(zhì)量評價可以發(fā)現(xiàn)我國醫(yī)療健康大數(shù)據(jù)質(zhì)量的薄弱方面, 進而促進醫(yī)療健康大數(shù)據(jù)質(zhì)量提升?,F(xiàn)有醫(yī)療健康數(shù)據(jù)質(zhì)量評價相關(guān)研究以構(gòu)建評價指標(biāo)體系為主, 指標(biāo)多涉及準(zhǔn)確性、完整性、規(guī)范性等通用指標(biāo), 同一指標(biāo)的定義存在差別[7-8] , 多以主觀方法確定指標(biāo)權(quán)重, 且缺乏完整評價模型的構(gòu)建與應(yīng)用[9] 。鑒于此, 本文考慮了醫(yī)療健康大數(shù)據(jù)的自身特點, 結(jié)合數(shù)據(jù)生命周期理論, 構(gòu)建了醫(yī)療健康大數(shù)據(jù)質(zhì)量評價指標(biāo)體系, 并采用主客觀相結(jié)合的方法確定各指標(biāo)權(quán)重, 最終選取多家單位數(shù)據(jù)庫中真實存儲的醫(yī)療健康大數(shù)據(jù)作為評價對象, 驗證本文所構(gòu)建的評價指標(biāo)體系和綜合評價模型的科學(xué)性與有效性, 進而為醫(yī)療健康大數(shù)據(jù)的質(zhì)量控制與提升提供指導(dǎo), 為醫(yī)療健康大數(shù)據(jù)的深入應(yīng)用與產(chǎn)業(yè)發(fā)展打下堅實基礎(chǔ)。
1 文獻綜述
數(shù)據(jù)質(zhì)量與實體產(chǎn)品質(zhì)量不同, 在數(shù)據(jù)的生產(chǎn)、儲存、使用中, 涉及到數(shù)據(jù)生產(chǎn)者、數(shù)據(jù)管理者、數(shù)據(jù)消費者三種角色, 對于每種角色而言數(shù)據(jù)質(zhì)量的含義側(cè)重有所不同。數(shù)據(jù)質(zhì)量多從消費者的角度進行定義, 對于數(shù)據(jù)消費者即使用者來說, 有用性和可用性是數(shù)據(jù)質(zhì)量的重要方面[10] , 由國家市場監(jiān)督管理總局、中國國家標(biāo)準(zhǔn)化管理委員會發(fā)布的《信息技術(shù)數(shù)據(jù)質(zhì)量評價指標(biāo)》將數(shù)據(jù)質(zhì)量定義為,在指定條件下使用數(shù)據(jù)時, 數(shù)據(jù)的特性滿足明確的或隱含的要求的程度[11] 。對數(shù)據(jù)質(zhì)量進行評價的視角有數(shù)據(jù)產(chǎn)品視角、數(shù)據(jù)平臺視角、數(shù)據(jù)用戶視角、數(shù)據(jù)生命流程或周期視角[12-13] , 現(xiàn)有研究多以用戶需求視角和數(shù)據(jù)生命周期視角為主[14-15] , 評價方法涉及訪談、德爾菲法、層次分析、模糊綜合評價等方法[16-17] , 主觀性較強且多以提出概念框架為主, 模型理論性強可行性差。
現(xiàn)有研究中, 與醫(yī)療健康數(shù)據(jù)相關(guān)的質(zhì)量評價涉及電子病歷數(shù)據(jù)、醫(yī)院信息系統(tǒng)數(shù)據(jù)、公共衛(wèi)生信息數(shù)據(jù)等。袁莎等[9] 基于文獻分析和專家咨詢的方法, 依據(jù)原始質(zhì)量、過程質(zhì)量、結(jié)果質(zhì)量3 個維度, 構(gòu)建了醫(yī)療數(shù)據(jù)評價指標(biāo)體系。楊善林等[5] 將醫(yī)療健康大數(shù)據(jù)中的醫(yī)療健康案例質(zhì)量把控劃分為了入庫階段和使用階段, 通過人機融合的方法, 分別從信息完整性、典型性、外部特征以及有用性、易用性、總體質(zhì)量等方面對案例進行評價。在評價指標(biāo)體系的相關(guān)研究中, 美國國立衛(wèi)生研究院衛(wèi)生保健系統(tǒng)研究實驗室對電子健康檔案(EHR)數(shù)據(jù)質(zhì)量從完整性、準(zhǔn)確性、一致性3 個維度進行了評估。Weiskopf N G 等[7] 通過相關(guān)文獻分析提出使用完整性、正確性、一致性、可信性、通用性5 個維度和7 類質(zhì)量評估方法對電子病歷數(shù)據(jù)質(zhì)量進行評估, 以促進電子病歷數(shù)據(jù)的重用。已有的研究中涉及指標(biāo)范圍較廣, 但對于數(shù)據(jù)質(zhì)量各個維度和指標(biāo)缺乏明確、統(tǒng)一的含義[18] , 對醫(yī)療健康大數(shù)據(jù)自身特性考慮不足, 缺少系統(tǒng)的評價程序, 難以全面、準(zhǔn)確地對醫(yī)療健康大數(shù)據(jù)的質(zhì)量進行評價。
此外還有一系列信息化評估工具, 如對EHR 數(shù)據(jù)質(zhì)量進行評估的可視化、開源、可拓展的DQe-c工具, 可以生成基于Web 的報告, 通過描述性圖表體現(xiàn)EHR 數(shù)據(jù)庫的完整性和一致性[19] ; 使用Hadoop Map/ Reduce 對醫(yī)療資源描述框架(RDF)數(shù)據(jù)集進行質(zhì)量評估和異常數(shù)據(jù)檢測[20] , 以提供更加準(zhǔn)確和可靠的數(shù)據(jù)集。以上工具多針對某種明確數(shù)據(jù)源, 對被評價數(shù)據(jù)要求較高, 普適性較差, 并且多基于西方國家醫(yī)療健康大數(shù)據(jù)發(fā)展現(xiàn)狀, 難以在我國直接外推使用[21] 。
針對以往數(shù)據(jù)質(zhì)量評價指標(biāo)體系中存在的定義不明確、對醫(yī)療健康大數(shù)據(jù)特點針對性不強等問題,本文基于已有文獻中的指標(biāo)和該領(lǐng)域多位專家意見, 基于數(shù)據(jù)生命周期視角并充分考慮醫(yī)療健康大數(shù)據(jù)自身特性, 結(jié)合醫(yī)療健康大數(shù)據(jù)質(zhì)量生命周期模型, 對數(shù)據(jù)質(zhì)量評價指標(biāo)進行重新定義和階段劃分, 構(gòu)建了符合醫(yī)療健康大數(shù)據(jù)特點的質(zhì)量評價指標(biāo)體系。為了彌補已有研究中評價方法主觀性較強的問題, 在指標(biāo)權(quán)重確定過程中, 本文充分考慮評價過程的模糊性和不確定性, 使用模糊最優(yōu)最劣法(模糊BWM) 和熵權(quán)法(EWM) 綜合確定指標(biāo)主、客觀權(quán)重, 在考慮專家經(jīng)驗和主觀判斷的同時又有可量化數(shù)據(jù)支撐。為了增強評價結(jié)果的直觀性和綜合性, 本文將專家語言變量轉(zhuǎn)化為三角模糊數(shù), 以定性與定量相結(jié)合的方法進行評價, 并引入TOP?SIS 方法進行綜合排序。最后, 對本文所構(gòu)建的指標(biāo)體系和綜合評價模型進行了實際應(yīng)用, 獲得了具有現(xiàn)實意義的醫(yī)療健康大數(shù)據(jù)質(zhì)量評價結(jié)果。綜上所述, 本文構(gòu)建了較為完善的醫(yī)療健康大數(shù)據(jù)質(zhì)量評價指標(biāo)體系和評價模型, 可以全面、系統(tǒng)地對醫(yī)療健康大數(shù)據(jù)的質(zhì)量進行綜合評價。
2 醫(yī)療健康大數(shù)據(jù)質(zhì)量評價指標(biāo)體系構(gòu)建
基于數(shù)據(jù)生命周期理論, 構(gòu)建了醫(yī)療健康大數(shù)據(jù)質(zhì)量生命周期模型, 基于此并結(jié)合醫(yī)療健康大數(shù)據(jù)特點, 初步構(gòu)建了醫(yī)療健康大數(shù)據(jù)質(zhì)量評價指標(biāo)體系, 而后根據(jù)專家意見對指標(biāo)進行優(yōu)化, 形成3個階段、9 個指標(biāo)組成的醫(yī)療健康大數(shù)據(jù)質(zhì)量評價指標(biāo)體系。
2.1 醫(yī)療健康大數(shù)據(jù)質(zhì)量生命周期模型
數(shù)據(jù)生命周期的概念提出于上世紀(jì)60 年代,進入21 世紀(jì)數(shù)據(jù)量快速增加, 數(shù)據(jù)生命周期理論得到進一步重視。數(shù)據(jù)資產(chǎn)管理組織(Data AssetManagement Association, DAMA)將數(shù)據(jù)生命周期定義為從創(chuàng)建、采集、使用到消亡的全過程。國內(nèi)外對于數(shù)據(jù)生命周期的階段劃分有所不同, 涌現(xiàn)出了大量應(yīng)用廣泛的模型, 如表1 所示。這些模型的階段劃分、適用對象和側(cè)重內(nèi)容有所不同, 如DCC模型是較為通用的數(shù)據(jù)生命周期模型[22] ; DDI 模型主要針對社會科學(xué)數(shù)據(jù)[23] ; CSA 模型主要側(cè)重數(shù)據(jù)安全方面, 考慮了每一個階段可能會產(chǎn)生的數(shù)據(jù)安全問題[24] ; 數(shù)據(jù)質(zhì)量生命周期模型劃分了創(chuàng)建、存儲、檢索、使用4 個主要周期, 有助于更好地理解數(shù)據(jù)質(zhì)量問題且具有很強的通用性[25] 。國內(nèi)學(xué)者周寧[26] 認為, 數(shù)據(jù)生命周期包括創(chuàng)建、存儲、使用、歸檔、銷毀5 個狀態(tài), 數(shù)據(jù)一旦創(chuàng)建,可以在任意兩個狀態(tài)跳轉(zhuǎn), 不一定經(jīng)歷所有狀態(tài)。根據(jù)研究對象和研究問題的不同, 數(shù)據(jù)生命周期的階段劃分也會有所不同, 但廣泛存在交叉重疊。如研究較多的科研數(shù)據(jù)生命周期, 存在多種劃分方法, 但主要圍繞產(chǎn)生、收集、處理與存儲、共享與利用4 個階段。
本文以數(shù)據(jù)生命周期理論為基礎(chǔ), 借鑒以往研究, 從醫(yī)療健康大數(shù)據(jù)管理者的角度出發(fā), 以數(shù)據(jù)質(zhì)量評價為目的, 重點關(guān)注醫(yī)療健康大數(shù)據(jù)從產(chǎn)生到利用過程中的質(zhì)量, 構(gòu)建了醫(yī)療健康大數(shù)據(jù)質(zhì)量生命周期模型, 如圖1 所示。該模型將其生命周期劃分為數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理與儲存、數(shù)據(jù)分析與使用3 個階段, 并設(shè)定評價指標(biāo)對醫(yī)療健康大數(shù)據(jù)質(zhì)量進行全面評價。
數(shù)據(jù)采集階段指獲取數(shù)據(jù)的過程, 從不同數(shù)據(jù)源實時或定時收集數(shù)據(jù), 并發(fā)送給存儲系統(tǒng)或數(shù)據(jù)中間件系統(tǒng)進行后續(xù)處理。采集的醫(yī)療健康大數(shù)據(jù)包括電子病歷數(shù)據(jù)、公共衛(wèi)生數(shù)據(jù)、個人健康數(shù)據(jù)、醫(yī)院運營數(shù)據(jù)等, 數(shù)據(jù)來源包括患者或用戶個人、醫(yī)療機構(gòu)、醫(yī)保部門、公共衛(wèi)生部門等多種主體。在該階段, 醫(yī)療健康大數(shù)據(jù)質(zhì)量會受到數(shù)據(jù)源、數(shù)據(jù)采集方式和技術(shù)等因素的影響[27] 。
數(shù)據(jù)預(yù)處理與儲存階段指對上階段采集到的醫(yī)療健康大數(shù)據(jù)按照相關(guān)規(guī)范、標(biāo)準(zhǔn)進行預(yù)處理(ETL 抽取、轉(zhuǎn)換、加載)、存儲及更新, 同時采用相關(guān)措施確保數(shù)據(jù)安全存儲和訪問。采集的數(shù)據(jù)需要按照相關(guān)標(biāo)準(zhǔn)和規(guī)范經(jīng)過清洗、篩選、排序等操作才能進入數(shù)據(jù)存儲系統(tǒng), 對于隱私數(shù)據(jù)或敏感數(shù)據(jù), 需要有相應(yīng)的加密和脫敏措施。此外, 醫(yī)療健康大數(shù)據(jù)是時刻產(chǎn)生、動態(tài)變化和不斷累積的,需要對數(shù)據(jù)進行更新。在該階段, 醫(yī)療健康大數(shù)據(jù)質(zhì)量會受到數(shù)據(jù)預(yù)處理技術(shù)、數(shù)據(jù)存儲和訪問方式、數(shù)據(jù)管理機制等因素的影響。
數(shù)據(jù)分析與應(yīng)用階段指使用已經(jīng)儲存在數(shù)據(jù)庫中的醫(yī)療健康大數(shù)據(jù), 包括業(yè)務(wù)系統(tǒng)內(nèi)、外的調(diào)用、查看和使用數(shù)據(jù)進行統(tǒng)計分析、可視化分析與預(yù)測, 并將其應(yīng)用于管理決策、戰(zhàn)略規(guī)劃、科學(xué)研究、市場營銷等。在該階段, 醫(yī)療健康大數(shù)據(jù)質(zhì)量會受到數(shù)據(jù)系統(tǒng)、數(shù)據(jù)分析技術(shù)、數(shù)據(jù)應(yīng)用等因素的影響。
2.2 指標(biāo)體系初步構(gòu)建
醫(yī)療健康大數(shù)據(jù)在具備大數(shù)據(jù)“5V” 特點的基礎(chǔ)上, 還具有隱私性、冗余性、時效性、不完整性等特點[28-29] 。隱私性表現(xiàn)在電子病歷、健康檔案等大多包含患者身份信息以及如傳染病、遺傳病等較為敏感的疾病信息, 一旦發(fā)生泄露會給患者帶來嚴重影響。醫(yī)療健康大數(shù)據(jù)中非結(jié)構(gòu)化數(shù)據(jù)較多, 相似文本和相似圖像的重復(fù)記錄、患者自述中的大量無關(guān)信息、疾病癥狀的多種表達方式等原因使得醫(yī)療健康數(shù)據(jù)產(chǎn)生重復(fù)、冗余。時效性表現(xiàn)在醫(yī)療健康大數(shù)據(jù)實時產(chǎn)生并隨時間變化, 多數(shù)疾病的發(fā)病、診治過程有時間線, 醫(yī)學(xué)檢驗結(jié)果受時間影響, 所以醫(yī)療健康大數(shù)據(jù)采集、存儲、使用的及時性也是質(zhì)量的一個重要方面。不完整性主要表現(xiàn)在由于患者表述不完整、醫(yī)生水平有限、疾病本身復(fù)雜程度高或早期數(shù)據(jù)缺乏電子化記錄等原因?qū)е聰?shù)據(jù)在輸入時不完整[29] , 或在數(shù)據(jù)存儲過程中發(fā)生損壞、丟失。
基于現(xiàn)有文獻中關(guān)于數(shù)據(jù)質(zhì)量評價指標(biāo)體系的相關(guān)研究, 并結(jié)合醫(yī)療健康大數(shù)據(jù)的隱私性、冗余性、時效性、不完整性等特點, 本文從醫(yī)療健康大數(shù)據(jù)質(zhì)量生命周期模型的3 個階段出發(fā), 初步建立了醫(yī)療健康大數(shù)據(jù)質(zhì)量評價指標(biāo)體系。在數(shù)據(jù)采集階段考慮準(zhǔn)確性、完整性、可靠性、時效性指標(biāo),在數(shù)據(jù)預(yù)處理與存儲階段考慮規(guī)范性、安全性、隱私性、一致性指標(biāo), 在數(shù)據(jù)分析與應(yīng)用階段考慮流通性、可訪問性、價值性指標(biāo)。
其中, 準(zhǔn)確性、完整性、可靠性、時效性、規(guī)范性、安全性等指標(biāo)多次出現(xiàn)在數(shù)據(jù)質(zhì)量評價及管理相關(guān)文獻中, 是較為通用的數(shù)據(jù)質(zhì)量評價指標(biāo)[11,27] 。準(zhǔn)確性指標(biāo)指醫(yī)療健康大數(shù)據(jù)反映數(shù)據(jù)主體情況的準(zhǔn)確程度; 針對醫(yī)療健康大數(shù)據(jù)所具備的不完整性特點, 設(shè)置完整性指標(biāo)從數(shù)據(jù)規(guī)模、數(shù)據(jù)類型、數(shù)據(jù)內(nèi)容三方面對醫(yī)療健康大數(shù)據(jù)質(zhì)量進行評價; 可靠性指標(biāo)指醫(yī)療健康大數(shù)據(jù)內(nèi)容和來源的真實和可靠程度; 時效性指標(biāo)指醫(yī)療健康大數(shù)據(jù)反映數(shù)據(jù)主體當(dāng)前狀態(tài)以及變化情況的程度, 對應(yīng)醫(yī)療健康大數(shù)據(jù)時效性強的特點; 規(guī)范性指標(biāo)指醫(yī)療健康大數(shù)據(jù)格式和內(nèi)容符合國家標(biāo)準(zhǔn)、區(qū)域標(biāo)準(zhǔn)的程度; 安全性指標(biāo)指對醫(yī)療健康大數(shù)據(jù)的加密存儲、訪問控制、身份驗證、備份恢復(fù)等措施。
此外, 隱私性、一致性、流通性、可訪問性、價值性指標(biāo)在已有文獻基礎(chǔ)上進一步考慮了醫(yī)療健康大數(shù)據(jù)自身特點和存儲及應(yīng)用現(xiàn)狀。隱私性指標(biāo)指對醫(yī)療健康大數(shù)據(jù)中所包含隱私信息的保護和匿名化處理[30] , 對應(yīng)醫(yī)療健康大數(shù)據(jù)隱私性較強且隱私問題貫穿多個生命周期環(huán)節(jié)的特點; 由于醫(yī)療健康大數(shù)據(jù)儲存在多個單位的數(shù)據(jù)系統(tǒng)或第三方數(shù)據(jù)庫中, 故設(shè)置一致性指標(biāo)[7] , 用以評價不同單位存儲的相同或相關(guān)數(shù)據(jù)的內(nèi)容及格式的一致程度以及數(shù)據(jù)描述與數(shù)據(jù)實體的對應(yīng)程度; 由于醫(yī)療機構(gòu)間存在“數(shù)據(jù)孤島”、醫(yī)療信息系統(tǒng)建設(shè)水平不均衡, 故考慮流通性指標(biāo), 評價數(shù)據(jù)可以在不同系統(tǒng)或不同單位間進行共享、傳輸?shù)某潭龋郏常保常玻?; 可訪問性指標(biāo)考慮了醫(yī)療健康大數(shù)據(jù)的冗余性, 指是否可以訪問、查看、下載已存儲的醫(yī)療健康大數(shù)據(jù),以確保其是可操作、可用的[32] , 而非無用的垃圾數(shù)據(jù); 價值性指標(biāo)指醫(yī)療健康大數(shù)據(jù)能夠為機構(gòu)、社會、國家等層面帶來的價值[34] 。
2.3 指標(biāo)體系優(yōu)化
采用專家意見法, 邀請醫(yī)療健康大數(shù)據(jù)領(lǐng)域的研究人員、技術(shù)人員、管理人員共9 位專家對初步構(gòu)建的指標(biāo)體系發(fā)表修改意見。綜合專家意見, 將具有交叉重疊的指標(biāo)進行合并或剔除。將9 位專家的修改意見綜合如下: ①剔除可靠性指標(biāo), 將可靠性指標(biāo)側(cè)重的數(shù)據(jù)真實可靠性合并到準(zhǔn)確性指標(biāo);②將時效性指標(biāo)修改為及時性, 主要關(guān)注醫(yī)療健康大數(shù)據(jù)記錄和更新的及時性; ③將隱私性指標(biāo)合并到安全性指標(biāo), 除對醫(yī)療健康大數(shù)據(jù)的安全保障措施進行評價外, 還關(guān)注其隱私保護措施; ④將流通性指標(biāo)修改為互聯(lián)互通性指標(biāo), 關(guān)注醫(yī)療健康大數(shù)據(jù)在不同系統(tǒng)間進行流動、傳輸、兼容的程度; ⑤將可訪問性指標(biāo)修改為可用性, 指醫(yī)療健康大數(shù)據(jù)中包含有用信息并且可用于下載、查看、統(tǒng)計分析,并且可以進行可視化分析、實現(xiàn)大數(shù)據(jù)分析與應(yīng)用的程度。
根據(jù)本文提出的醫(yī)療健康大數(shù)據(jù)質(zhì)量生命周期模型的3 個階段并結(jié)合專家意見, 對確定的9 個評價指標(biāo)進行階段劃分, 指標(biāo)處于某個階段代表該指標(biāo)所包含的內(nèi)容在該階段需重點關(guān)注。指標(biāo)說明和階段劃分如表2 所示。
本文所構(gòu)建的醫(yī)療健康大數(shù)據(jù)質(zhì)量評價指標(biāo)體系是在已有相關(guān)研究和標(biāo)準(zhǔn)的基礎(chǔ)上提出的, 涵蓋了通用的數(shù)據(jù)質(zhì)量評價指標(biāo)。因此, 如要對一般領(lǐng)域的數(shù)據(jù)質(zhì)量進行評價, 可在本文提出的評價指標(biāo)體系的基礎(chǔ)上進行調(diào)整, 剔除與所評價數(shù)據(jù)相關(guān)性較低或不相關(guān)的指標(biāo), 并對指標(biāo)權(quán)重進行調(diào)整, 以更加符合所評價數(shù)據(jù)的特點, 進而獲得更為科學(xué)合理的數(shù)據(jù)質(zhì)量評價結(jié)果。
3 醫(yī)療健康大數(shù)據(jù)質(zhì)量綜合評價模型構(gòu)建
采用主、客觀相結(jié)合的方法, 使用模糊BWM和EWM 兩種方法綜合確定指標(biāo)權(quán)重, 邀請專家對醫(yī)療健康大數(shù)據(jù)質(zhì)量進行評價, 并將專家語言變量轉(zhuǎn)化為三角模糊數(shù)進行定量分析, 最后使用TOP?SIS 方法進行綜合排序, 構(gòu)建了醫(yī)療健康大數(shù)據(jù)質(zhì)量綜合評價模型。
使用以上兩種方法相結(jié)合確定指標(biāo)權(quán)重具有以下幾點優(yōu)勢: 首先, 模糊BWM 屬于主觀方法, 而EWM 屬于客觀方法, 兩種方法相結(jié)合可以綜合考慮專家經(jīng)驗和主觀判斷以及可量化的數(shù)據(jù)信息, 減少使用單一方法存在的局限性, 得到更為全面、準(zhǔn)確的權(quán)重結(jié)果; 其次, 模糊BWM 方法相較于傳統(tǒng)主觀權(quán)重確定方法如AHP, 其一致性和可靠性更強, 而EWM 方法又為權(quán)重計算結(jié)果提供了數(shù)據(jù)支持, 兩種方法結(jié)合可以增強權(quán)重計算結(jié)果的可信度; 最后, 主客觀相結(jié)合的權(quán)重計算方法可以根據(jù)不同決策場景進行調(diào)整, 以適應(yīng)實際需求, 并且可以對權(quán)重結(jié)果進行解釋, 提高權(quán)重計算的靈活性和可解釋性。因此, 采用模糊BWM 和EWM 兩種方法綜合確定指標(biāo)權(quán)重, 與傳統(tǒng)方法相比更具綜合性、可信性以及可解釋性。
3.1.1 模糊BWM 方法
2015 年, Razaei J[36-37]提出了最優(yōu)最劣法(BWM,Best-worst Method), 該方法的主要步驟是專家確定最優(yōu)和最劣的兩個屬性, 并將最優(yōu)屬性與其他屬性、其他屬性與最劣屬性分別進行比較, 獲得兩組偏好向量, 然后建立并求解數(shù)學(xué)規(guī)劃模型獲得指標(biāo)最優(yōu)權(quán)重, 為了提高結(jié)果的準(zhǔn)確性還需進行一致性檢驗。三角模糊數(shù)由Zadeh L A[38] 于1965 年為了解決不確定環(huán)境下的問題而提出, 被廣泛應(yīng)用于質(zhì)量管理、風(fēng)險管理等領(lǐng)域, 通過將模糊的、不確定的語言變量轉(zhuǎn)化為三角模糊數(shù), 可以很好的解決由于被評價對象的模糊性和復(fù)雜性所導(dǎo)致的只能用自然語言進行模糊評價的問題。以BWM 方法為基礎(chǔ),Guo S 等[39] 將三角模糊數(shù)引入其中, 建立了模糊BWM 模型, 并通過3 個實例驗證了模糊BWM 方法的可行性和有效性。
在定性比較的過程中, 存在著模糊性和無形性。常用的權(quán)重確定方法AHP 需對比n?(n-1) / 2 次才可獲得判斷矩陣, 而BWM 方法只需要比較2n -3次, 具有較少的冗余, 減小了評價過程中的誤差,提高了結(jié)果的一致性、可靠性以及決策效率。由于用以評價醫(yī)療健康大數(shù)據(jù)質(zhì)量的指標(biāo)較多, 在進行指標(biāo)重要程度比較的過程中存在不確定性和模糊性, 所以使用三角模糊數(shù)來代替清晰值可以獲得更符合實際情況的特點。因此, 本文使用模糊BWM方法進行指標(biāo)主觀權(quán)重確定, 重要程度對比以語言變量呈現(xiàn), 分別對應(yīng)不同三角模糊數(shù), 對應(yīng)規(guī)則如表3 所示。該方法的主要步驟如下:
綜上, 本文采用文獻分析法和專家意見法構(gòu)建醫(yī)療健康大數(shù)據(jù)質(zhì)量指標(biāo)體系, 使用模糊BWM 與EWM 結(jié)合確定指標(biāo)權(quán)重, 最后使用TOPSIS 方法獲得醫(yī)療健康大數(shù)據(jù)質(zhì)量評價結(jié)果, 構(gòu)建了一個醫(yī)療健康大數(shù)據(jù)質(zhì)量綜合評價模型, 模型流程如圖2所示。
4 醫(yī)療健康大數(shù)據(jù)質(zhì)量評價實證研究
受醫(yī)療健康數(shù)據(jù)采集方式和數(shù)據(jù)特點的限制及影響, 當(dāng)前醫(yī)療健康大數(shù)據(jù)多儲存于醫(yī)院、醫(yī)療數(shù)據(jù)相關(guān)公司各自的系統(tǒng)或第三方數(shù)據(jù)庫中。為了驗證本文所構(gòu)建的評價指標(biāo)體系和綜合評價模型的合理性及有效性, 并全面了解醫(yī)療健康大數(shù)據(jù)的質(zhì)量現(xiàn)狀, 本文共選取了9 個醫(yī)療健康大數(shù)據(jù)存儲單位, 其中包括多家三甲醫(yī)院、知名大數(shù)據(jù)公司、醫(yī)療數(shù)據(jù)實驗室等, 應(yīng)用本文構(gòu)建的評價指標(biāo)體系及評價模型進行實證研究。
4.1 指標(biāo)權(quán)重確定
本研究邀請了9 位醫(yī)療健康大數(shù)據(jù)領(lǐng)域的專家對本文所構(gòu)建的指標(biāo)體系中的9 個指標(biāo)進行重要程度偏好比較, 得到的偏好向量如表5 所示。
根據(jù)專家的偏好向量, 求解模糊BWM 模型,獲得各專家對應(yīng)的指標(biāo)最優(yōu)模糊權(quán)重, 并通過GMIR方法進行去模糊化, 結(jié)果如表6 所示。
本文所邀請的醫(yī)療健康數(shù)據(jù)領(lǐng)域的9 位專家包括了多家醫(yī)院信息科(處)負責(zé)人、醫(yī)療大數(shù)據(jù)實驗室和企業(yè)負責(zé)人、醫(yī)療健康領(lǐng)域科技公司總經(jīng)理、醫(yī)療信息化科研人員, 考慮了醫(yī)療健康大數(shù)據(jù)在醫(yī)療、商業(yè)、科研等不同產(chǎn)生和應(yīng)用場景中的質(zhì)量, 因此獲得的指標(biāo)權(quán)重是較為全面的, 可以適用于不同領(lǐng)域的醫(yī)療健康大數(shù)據(jù)質(zhì)量。如若對較為特殊的醫(yī)療健康大數(shù)據(jù)進行質(zhì)量評價, 如關(guān)于某項疾病的醫(yī)療健康大數(shù)據(jù)的質(zhì)量, 可以使用本文的權(quán)重確定方法邀請與評價對象相關(guān)的細分領(lǐng)域?qū)<疫M行指標(biāo)權(quán)重確定。
4.2 質(zhì)量結(jié)果排序
根據(jù)上節(jié)中確定的指標(biāo)權(quán)重, 將專家初始評價矩陣進行加權(quán), 獲得綜合評價矩陣如表8 所示。確定PIS、NIS 如下: PIS = [(0.027,0.037,0.039)(0.057, 0.086, 0.114 ) (0.053, 0.080, 0.106 )(0.079, 0.105, 0.105 ) ( 0.082,0.123, 0.164 )(0.054, 0.080, 0.107 ) ( 0.051, 0.077, 0.102 )(0.056, 0.087, 0.118) ( 0.058,0.092, 0.127)],PIN = [(0.015, 0.024, 0.032 ) (0.019, 0.048,0.076) (0.013, 0.040, 0.066 ) (0.026, 0.053,0.079) (0.041, 0.082, 0.123 ) (0.018, 0.045,0.071) (0.000, 0.013, 0.038 ) (0.031, 0.062,0.093)(0.023,0.058,0.092)]。計算貼進度并進行排序, 結(jié)果如表9 所示, 9 個單位醫(yī)療健康大數(shù)據(jù)質(zhì)量排序為A9>A8>A5>A4>A1>A2>A6>A3>A7。通過質(zhì)量結(jié)果排序發(fā)現(xiàn), 醫(yī)院存儲的醫(yī)療健康大數(shù)據(jù)相較于其他機構(gòu)質(zhì)量較高, 且三甲醫(yī)院存儲的醫(yī)療健康大數(shù)據(jù)質(zhì)量綜合排序靠前。
4.3 醫(yī)療健康大數(shù)據(jù)質(zhì)量結(jié)果分析
將專家評價獲得的初始模糊矩陣通過GMIR 方法進行去模糊化, 得到各個評價對象的醫(yī)療健康大數(shù)據(jù)質(zhì)量在各個指標(biāo)下的初始未加權(quán)評價結(jié)果如圖3 所示, 以更好地分析醫(yī)療健康大數(shù)據(jù)在各個指標(biāo)下的質(zhì)量。此外, 為更直觀地獲得醫(yī)療健康大數(shù)據(jù)的整體質(zhì)量, 計算每個指標(biāo)下9 個評價對象的得分平均值以及9 個指標(biāo)得分均值, 獲得整體質(zhì)量結(jié)果如圖4 所示。
據(jù)圖4 顯示, 得分相對較高的指標(biāo)有準(zhǔn)確性(C1)、規(guī)范性(C4), 均明顯高于總體均值, 得分相對較低的指標(biāo)有完整性(C2)、及時性(C3)、互聯(lián)互通性(C7)、價值性(C9), 均明顯低于總體均值。
在數(shù)據(jù)采集階段, 醫(yī)療健康大數(shù)據(jù)的準(zhǔn)確性(C1)較好, 完整性(C2)和及時性(C3)較差。醫(yī)療健康大數(shù)據(jù)多來源于醫(yī)療信息系統(tǒng)、公共衛(wèi)生系統(tǒng)等, 數(shù)據(jù)來源可靠, 數(shù)據(jù)準(zhǔn)確性較好。醫(yī)療健康大數(shù)據(jù)中包含的數(shù)據(jù)類型多且結(jié)構(gòu)復(fù)雜, 受數(shù)據(jù)采集方式及能力限制, 無法涵蓋所有數(shù)據(jù), 數(shù)據(jù)完整性較差。醫(yī)療健康數(shù)據(jù)本身具有較好的時效性[44] ,由于系統(tǒng)延遲、數(shù)據(jù)庫效率低、管理落后等原因,導(dǎo)致數(shù)據(jù)采集或更新不及時, 因此及時性較差。
在數(shù)據(jù)預(yù)處理與儲存階段, 醫(yī)療健康大數(shù)據(jù)的規(guī)范性(C4)較好, 安全性(C5)和一致性(C6)一般。醫(yī)療健康大數(shù)據(jù)在采集錄入和存儲時都要遵循相關(guān)的規(guī)范、標(biāo)準(zhǔn), 因此規(guī)范性較好。據(jù)圖3 可得醫(yī)療健康大數(shù)據(jù)在安全性指標(biāo)上得分差異較小, 在一致性指標(biāo)上的得分差異較大。醫(yī)療健康大數(shù)據(jù)隱私性較強, 《數(shù)據(jù)安全保護法》等相關(guān)法律法規(guī)為各個單位在數(shù)據(jù)安全保障方面提出了硬性要求, 因此數(shù)據(jù)安全性差異較小。由于各個單位采用的數(shù)據(jù)系統(tǒng)不同, 信息化程度不一, 對于同種類數(shù)據(jù)的采集方法、存儲形式、更新頻率等存在差異, 因此數(shù)據(jù)的一致性一般, 并在各個單位間呈現(xiàn)較大差異。
在數(shù)據(jù)分析與使用階段, 互聯(lián)互通性(C7)和價值性(C9)較差, 可用性(C8)一般。醫(yī)療健康大數(shù)據(jù)分散地儲存在各個醫(yī)療機構(gòu)或第三方數(shù)據(jù)庫中, 缺少統(tǒng)一平臺對數(shù)據(jù)進行整合, 受限于數(shù)據(jù)格式、隱私保護和權(quán)屬劃分等原因, 在數(shù)據(jù)整合和共享等方面存在困難, 互聯(lián)互通性較差, 并且在不同單位之間存在較大差異。醫(yī)療健康大數(shù)據(jù)中所含信息的有用性已經(jīng)得到了廣泛認可, 但受限于數(shù)據(jù)權(quán)屬、隱私安全以及大數(shù)據(jù)利用能力, 醫(yī)療健康大數(shù)據(jù)的可用性一般。目前, 基于醫(yī)療健康大數(shù)據(jù)進行的醫(yī)療決策占比較小, 公眾對于醫(yī)療健康大數(shù)據(jù)缺乏清晰認知[18] , 其應(yīng)用尚處于落地實踐初始階段,價值挖掘仍不夠深入, 價值性較差。
本研究中選取的評價對象涉及了醫(yī)院、實驗室、企業(yè)等多類型的醫(yī)療健康大數(shù)據(jù)儲存單位, 通過對其所存儲的醫(yī)療健康大數(shù)據(jù)的質(zhì)量從3 個階段、9個指標(biāo)出發(fā)做出綜合評價, 較為全面地揭示了醫(yī)療健康大數(shù)據(jù)質(zhì)量的現(xiàn)狀。從整體來看, 我國醫(yī)療健康大數(shù)據(jù)質(zhì)量水平一般, 在完整性、及時性、互聯(lián)互通性、價值性上仍有待提高。
5 結(jié)論與展望
本文從數(shù)據(jù)生命周期視角出發(fā), 構(gòu)建了醫(yī)療健康大數(shù)據(jù)質(zhì)量評價指標(biāo)體系和綜合評價模型, 為醫(yī)療健康大數(shù)據(jù)質(zhì)量問題發(fā)現(xiàn)和數(shù)據(jù)質(zhì)量提升提供了指導(dǎo)。首先, 建立了醫(yī)療健康大數(shù)據(jù)質(zhì)量生命周期模型, 參考國內(nèi)外文獻、結(jié)合醫(yī)療健康大數(shù)據(jù)特點構(gòu)建指標(biāo)體系并進行優(yōu)化, 采用模糊BWM 法和EWM 綜合確定指標(biāo)權(quán)重, 形成了完善、科學(xué)的指標(biāo)體系。其次, 使用專家語言評價結(jié)合三角模糊數(shù)將定性評價轉(zhuǎn)化為定量評價, 并使用TOPSIS 方法進行綜合排序, 構(gòu)建了一個綜合評價模型。最后,應(yīng)用本文構(gòu)建的指標(biāo)體系和綜合評價模型, 獲得了醫(yī)療健康大數(shù)據(jù)質(zhì)量現(xiàn)狀, 發(fā)現(xiàn)其完整性、及時性、互聯(lián)互通性、價值性還需進一步提升。為了促進醫(yī)療健康大數(shù)據(jù)的質(zhì)量提升和深入開發(fā)應(yīng)用, 本文提出如下建議:
1) 加強數(shù)據(jù)采集階段的質(zhì)量控制, 從源頭上提高醫(yī)療健康大數(shù)據(jù)質(zhì)量。要從技術(shù)上優(yōu)化數(shù)據(jù)采集系統(tǒng), 提高數(shù)據(jù)采集的完整性, 改進數(shù)據(jù)收集傳輸流程, 減少數(shù)據(jù)延遲和滯后。要制定數(shù)據(jù)采集和錄入的標(biāo)準(zhǔn)和流程, 加強對數(shù)據(jù)采集范圍和內(nèi)容的把控, 減少低質(zhì)量數(shù)據(jù)進入數(shù)據(jù)庫, 同時減輕數(shù)據(jù)庫的儲存壓力。建立數(shù)據(jù)質(zhì)量檢測和反饋機制, 對醫(yī)療健康數(shù)據(jù)進行定期檢查和評估, 同時設(shè)定激勵機制, 鼓勵醫(yī)療機構(gòu)、個人等數(shù)據(jù)主體更好地記錄和報告數(shù)據(jù), 減少數(shù)據(jù)遺漏或丟失。
2) 進一步推動醫(yī)療健康大數(shù)據(jù)多平臺協(xié)同建設(shè), 提升醫(yī)療健康大數(shù)據(jù)的互聯(lián)互通性。要推進醫(yī)療健康大數(shù)據(jù)國內(nèi)、國際標(biāo)準(zhǔn)和規(guī)范的統(tǒng)一, 建立統(tǒng)一的數(shù)據(jù)接口和數(shù)據(jù)交換平臺, 促進醫(yī)療健康大數(shù)據(jù)跨單位、跨平臺互聯(lián)互通和數(shù)據(jù)整合, 打破數(shù)據(jù)孤島, 形成成熟完善的應(yīng)用體系。要持續(xù)加強醫(yī)療健康大數(shù)據(jù)平臺監(jiān)管、細化隱私保護粒度, 保障醫(yī)療健康大數(shù)據(jù)互聯(lián)互通過程中的安全性和隱私保護。要建立健全數(shù)據(jù)治理機制, 完善數(shù)據(jù)共享機制和協(xié)議, 提升醫(yī)療健康大數(shù)據(jù)的流通和應(yīng)用水平。
3) 深入挖掘醫(yī)療健康大數(shù)據(jù)價值, 提升醫(yī)療健康大數(shù)據(jù)的利用水平。要加強醫(yī)療健康大數(shù)據(jù)分析人才培養(yǎng), 通過可實現(xiàn)、可落地的應(yīng)用提高數(shù)據(jù)利用率, 充分挖掘醫(yī)療健康大數(shù)據(jù)的價值, 增強醫(yī)療健康大數(shù)據(jù)的活性。要積極推廣醫(yī)療健康大數(shù)據(jù)的重大價值和重要作用, 形成價值認同, 為醫(yī)療健康大數(shù)據(jù)深入應(yīng)用發(fā)展打下堅實基礎(chǔ)。要繼續(xù)推進醫(yī)療健康大數(shù)據(jù)中心及產(chǎn)業(yè)園建設(shè), 充分利用已建成的數(shù)據(jù)中心及平臺, 推動醫(yī)療機構(gòu)、企業(yè)、高校等元多主體協(xié)同參與, 營造良好的產(chǎn)業(yè)環(huán)境。
本文還存在一些局限: 本研究的評價視角為數(shù)據(jù)生命周期視角, 后續(xù)應(yīng)當(dāng)從多視角出發(fā), 獲得對醫(yī)療健康大數(shù)據(jù)質(zhì)量更為全面、客觀、真實的評價。此外, 受限于醫(yī)療健康數(shù)據(jù)的復(fù)雜性, 目前尚無法直接對評價指標(biāo)進行量化, 后續(xù)研究中應(yīng)當(dāng)尋求合適的醫(yī)療健康大數(shù)據(jù)質(zhì)量評價指標(biāo)量化方法。良好的數(shù)據(jù)質(zhì)量是實現(xiàn)醫(yī)療健康大數(shù)據(jù)更深層次應(yīng)用的重要前提, 后續(xù)可以從醫(yī)療健康大數(shù)據(jù)共享、資產(chǎn)管理、再利用等多個方面進行醫(yī)療健康大數(shù)據(jù)治理的相關(guān)研究, 促進醫(yī)療健康大數(shù)據(jù)的價值實現(xiàn)與增值。