汪陳應,李佳,鄔小軍
(中國人民解放軍后勤學院衛(wèi)勤教研室,北京市 100858)
?
大數(shù)據(jù)時代生物醫(yī)學決策支持模型的創(chuàng)新
汪陳應,李佳,鄔小軍*
(中國人民解放軍后勤學院衛(wèi)勤教研室,北京市 100858)
大數(shù)據(jù)已成為生物醫(yī)學行業(yè)研究的熱點。筆者以生物醫(yī)學中的大數(shù)據(jù)為切入點,提出并對比分析了大數(shù)據(jù)背景下三類生物醫(yī)學決策支持模型,最后闡述了生物醫(yī)學決策支持面臨的三大挑戰(zhàn),即生物醫(yī)學數(shù)據(jù)隱私保護與大數(shù)據(jù)共享要求高的矛盾,生物醫(yī)學數(shù)據(jù)的特殊性與大數(shù)據(jù)處理能力不足的矛盾,醫(yī)療機構(gòu)狹隘的數(shù)據(jù)保護與大數(shù)據(jù)平臺要求的矛盾。
大數(shù)據(jù);生物醫(yī)學;決策支持
【DOI編碼】10.3969/j.issn.1672-4232.2015.04.006
大數(shù)據(jù)已經(jīng)成為當前各界關(guān)注的焦點[1]。通常,大數(shù)據(jù)是指無法在可容忍的時間內(nèi),用現(xiàn)有信息技術(shù)和軟硬件工具對其進行感知、獲取、管理、處理和服務的數(shù)據(jù)集合。近年來,隨著基因的一代測序、二代測序、各種醫(yī)學成像技術(shù)等的發(fā)展,大大加速了生物醫(yī)學領(lǐng)域數(shù)據(jù)的產(chǎn)生,給生物醫(yī)學領(lǐng)域的決策支持模型帶來了新的挑戰(zhàn)。
1.1第二代DNA測序技術(shù)產(chǎn)生了堿基序列大數(shù)據(jù)
第二代DNA測序技術(shù)也叫新一代測序、高通量測序,可以一次對幾十萬到幾百萬條DNA分子進行序列測定,每小時能夠完成數(shù)以億計的DNA堿基序列的測序,產(chǎn)生約10TB(1TB=1012B)的數(shù)據(jù)。而目前亟待解決的問題在于,測序儀產(chǎn)生的海量數(shù)據(jù)沒有與之相適應的有效的二代測序結(jié)果分析工具和數(shù)據(jù)管理系統(tǒng),這給科研人員和二代測序技術(shù)的普及造成了障礙。
1.2醫(yī)學成像技術(shù)產(chǎn)生了醫(yī)學影像大數(shù)據(jù)
隨著CT成像、磁共振成像、超聲成像、核醫(yī)學成像等技術(shù)的發(fā)展,醫(yī)院診療工作越來越依賴于現(xiàn)代化的檢查檢驗結(jié)果,隨之而來的是醫(yī)學影像數(shù)據(jù)的海量增長。尤其是醫(yī)學影像存儲于傳輸系統(tǒng)(PACS)的發(fā)展與廣泛應用,各大醫(yī)院的各類醫(yī)學影像數(shù)據(jù)已經(jīng)向PB(1PB=1015B)級邁進。另外,醫(yī)學影像數(shù)據(jù)的復雜性、異構(gòu)性和保存周期長等特點,對當前的數(shù)據(jù)管理和分析系統(tǒng)都提出了巨大的挑戰(zhàn)。
1.3健康管理系統(tǒng)產(chǎn)生了電子健康檔案大數(shù)據(jù)
健康管理從服務對象的層次分為:面向社區(qū)的健康管理和面向個人的健康管理。與之相對應,電子健康檔案也區(qū)分為社區(qū)電子健康檔案和個人電子健康檔案。兩者的關(guān)系是:個人電子健康檔案是基礎(chǔ),包含個人所有的健康信息;社區(qū)電子健康檔案是匯總,是與區(qū)域疾病防控、區(qū)域醫(yī)療服務等相關(guān)的健康信息。首先,電子健康檔案記錄的是人或者一個區(qū)域長時期的健康數(shù)據(jù),具有持續(xù)時間長、大量增長的特點;其次,由于電子健康檔案采集的衛(wèi)生機構(gòu)和健康狀況檢測設(shè)備的差異,導致檔案數(shù)據(jù)格式復雜,很難集成融合;第三,隨著時間的推移和醫(yī)學的發(fā)展,導致常規(guī)檢測指標和參考標準發(fā)生變化,從而造成健康檔案數(shù)據(jù)模式也不斷更新完善。電子健康檔案的特點對數(shù)據(jù)存儲、共享、查詢和分析效率都提出了更高的要求。
1.4生物醫(yī)學事業(yè)快速發(fā)展產(chǎn)生了生物醫(yī)學文獻大數(shù)據(jù)
生物醫(yī)學事業(yè)發(fā)展的標志是生物醫(yī)學涉及的學科增多,分支也越來越多,生物醫(yī)學知識也隨之劇增。據(jù)統(tǒng)計,互聯(lián)網(wǎng)中的信息資源超過30%是生物醫(yī)學信息;全球生物醫(yī)學類刊物近3萬種,每年發(fā)表論文200多萬篇,并以7%的速度遞增。另外,生物醫(yī)學信息是醫(yī)學界知識更新的主要來源和重要工具。這就對生物醫(yī)學信息存儲和檢索效率提出了較高的要求。
在總結(jié)現(xiàn)有理論和方法的基礎(chǔ)上,充分考慮大數(shù)據(jù)環(huán)境所帶來的管理方法創(chuàng)新,提出生物醫(yī)學領(lǐng)域三類研究方法的決策支持模型,如圖1。
傳統(tǒng)的衛(wèi)生統(tǒng)計方法是將數(shù)理統(tǒng)計的原理和方法應用到衛(wèi)生領(lǐng)域,通過設(shè)計、收集、整理和分析,獲得可靠結(jié)果的過程;數(shù)據(jù)挖掘方法是對大量觀察到的數(shù)據(jù)進行分析,以便從中發(fā)現(xiàn)事先未知的聯(lián)系和規(guī)律的過程;大數(shù)據(jù)研究方法旨在從海量復雜數(shù)據(jù)中抽取知識和觀點。
衛(wèi)生統(tǒng)計決策支持模型與其他兩類模型的顯著差異:一是數(shù)據(jù)尺度的差異。衛(wèi)生統(tǒng)計是依據(jù)決策的精度決定樣本含量,通常是幾十到幾百個體;而數(shù)據(jù)挖掘經(jīng)常會面對MB至GB級的數(shù)據(jù)庫,大數(shù)據(jù)方法處理的數(shù)據(jù)量更大,會達到TB至PB級。二是數(shù)據(jù)獲取的差異。衛(wèi)生統(tǒng)計處理的數(shù)據(jù)往往是針對特定的問題而采集的數(shù)據(jù),在采集數(shù)據(jù)之前一般有嚴謹?shù)脑O(shè)計,然后分析數(shù)據(jù)解決特定的問題,屬于本位分析;而數(shù)據(jù)挖掘和大數(shù)據(jù)所使用的數(shù)據(jù)原本就存在的,可能是為了其他目的而采集的,是屬于數(shù)據(jù)分析的次級過程。三是數(shù)據(jù)形態(tài)的差異。衛(wèi)生統(tǒng)計處理的數(shù)據(jù)是完全結(jié)構(gòu)化的數(shù)據(jù),而數(shù)據(jù)挖掘可以處理結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),基于HL7標準的醫(yī)療文書數(shù)據(jù)挖掘就是半結(jié)構(gòu)化數(shù)據(jù);大數(shù)據(jù)方法處理的數(shù)據(jù)更是多態(tài)而且更新迅速,有結(jié)構(gòu)化的表,半結(jié)構(gòu)化的網(wǎng)頁,非結(jié)構(gòu)化的文字、圖片、音視頻等。四是數(shù)據(jù)分析的理論、方法及工具不盡相同。衛(wèi)生統(tǒng)計基于的理論和方法是假設(shè)檢驗、關(guān)聯(lián)性分析、回歸分析等統(tǒng)計學方法,數(shù)據(jù)處理工具是成熟的也較為簡單的電子表格、SAS、SPSS等工具;數(shù)據(jù)挖掘基于的理論和方法是聚類分析、分類分析、關(guān)聯(lián)規(guī)則分析等數(shù)據(jù)挖掘與知識發(fā)現(xiàn)理論和方法,數(shù)據(jù)處理工具是數(shù)據(jù)庫管理系統(tǒng)等大型數(shù)據(jù)處理軟件;而大數(shù)據(jù)處理的理論和方法是自然語言處理、離群點分析、知識推理等理論和方法,數(shù)據(jù)處理的技術(shù)是云存儲和云計算等新興技術(shù)[2]。
圖1 三類生物醫(yī)學決策支持模型對比
除了上述差異外,大數(shù)據(jù)決策支持模型與其他兩類模型還有一個顯著的差異,即大數(shù)據(jù)方法通常是數(shù)據(jù)驅(qū)動型決策,而其他兩類方法通常是目標驅(qū)動型決策。所謂目標驅(qū)動型決策是指決策者首先要明確決策支持的目標,即先明確“干什么”,然后研究“怎么干”,一般是通過數(shù)據(jù)采集加工與分析計算等步驟,對數(shù)據(jù)中的有效信息進行提取和分析,從而達到對態(tài)勢評估,趨勢預測等目的。所謂數(shù)據(jù)驅(qū)動型決策是側(cè)重于訓練機器的組織和學習能力,能夠響應數(shù)據(jù)的動態(tài)變化,發(fā)現(xiàn)海量數(shù)據(jù)中的“離群點”,并深入推演分析“離群點”形成的背景和原因,從而最終達到監(jiān)測、預警并積極處理突發(fā)事件的目標。
3.1生物醫(yī)學數(shù)據(jù)隱私保護與大數(shù)據(jù)共享要求高矛盾突出
一方面,開源和高度數(shù)據(jù)共享是生物醫(yī)學大數(shù)據(jù)研究的基本要求。大數(shù)據(jù)研究課題是否能夠取得成功與患者參與程度有密切關(guān)系,然而隨著生物醫(yī)學數(shù)據(jù)的采集、加工和應用,數(shù)據(jù)泄露時有發(fā)生,進而帶來醫(yī)學數(shù)據(jù)隱私的泄露;另一方面,隨著患者對個人隱私保護意識增強,科研人員必須告知患者大數(shù)據(jù)研究可能給他們及其后代帶來的利益與風險,并盡可能找到保護患者隱私的辦法,以獲得患者的信任與參與。
3.2生物醫(yī)學數(shù)據(jù)的特殊性與大數(shù)據(jù)處理能力不足矛盾突出
除了大數(shù)據(jù)海量、異變、多態(tài)的基本特征外,生物醫(yī)學大數(shù)據(jù)還具有:一是時序性,數(shù)據(jù)會隨著時間推移而不斷演繹;二是異構(gòu)性,由于研究對象復雜、試驗人員差異、儀器設(shè)備差異,造成生物醫(yī)學數(shù)據(jù)異構(gòu)性非常大;三是要求高,對于作為判斷患者病情發(fā)生發(fā)展重要依據(jù)的生物醫(yī)學數(shù)據(jù)處理,準確性、保存周期、更新頻率都提出了很高的要求。生物醫(yī)學的這些特性,對大數(shù)據(jù)的收集、存儲、傳輸、分析等處理能力都提出了挑戰(zhàn)。
3.3醫(yī)療機構(gòu)狹隘的數(shù)據(jù)保護與大數(shù)據(jù)平臺要求矛盾突出
一方面,在大數(shù)據(jù)時代下,尤其是數(shù)據(jù)驅(qū)動型的生物醫(yī)學決策,根本在于數(shù)據(jù)的擁有,可以說誰擁有大數(shù)據(jù),誰就有制勝的砝碼,誰就能成為大贏家[3];而另一方面,由于利益及風險等原因,生物醫(yī)學科研部門及醫(yī)療機構(gòu)對于各自擁有的生物醫(yī)學數(shù)據(jù)都持保護態(tài)度,不愿意向社會和同行提供數(shù)據(jù)服務,各機構(gòu)所積累的海量數(shù)據(jù)基本還處于“孤島”狀態(tài),這對于形成生物醫(yī)學大數(shù)據(jù)平臺,提高研究效率都造成了極大的障礙。
[1]李國杰,程學旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟社會發(fā)展的重大戰(zhàn)略領(lǐng)域:大數(shù)據(jù)的研究現(xiàn)狀及思考[J].中國科學院院刊,2012,27(6):647-657.
[2]楊帥,胡宗倩,伯曉晨,等.云計算在生物醫(yī)學中的應用[J].中國科學:生命科學,2013,43(7):569-578.
[3]甘麗新,涂偉.大數(shù)據(jù)時代電子商務的機遇與挑戰(zhàn)探討[J].科技廣場,2013,(3):137-140.
(編輯馬蘭)
2015-05-04
R197
B
1672-4232(2015)04-0020-03
鄔小軍(1967-),男,博士,副教授;研究方向:衛(wèi)生勤務。