方勇 肖和平
縱觀醫(yī)學史,疾病的預防和治療一直是基于一個普通患者的預期結果。來自同一疾病患者的數據常常被匯集在一起進行統(tǒng)計分析,而從匯總分析中得出的臨床指南為廣大患者的健康和疾病管理提供了信息。雖然這種方法取得了一些成功,但其忽略了重要的個體差異,這可能導致不同的治療反應。精準醫(yī)療(precision medicine)的目標是針對個別患者量身定制臨床治療方案,目標是在正確的時間向患者提供正確的治療。10多年來,“大數據(big data)”一詞一直被用來描述可用信息的數量、種類和速度的快速增長,它不僅指大數據量,還包含 “數據分析”和“數據科學”;即隨著可用信息的數量不斷增長,可用于改進數據收集、存儲、清理、處理和解釋的新方法,這些都無時無刻不體現在醫(yī)學研究中。組學技術、生物醫(yī)學數據庫和醫(yī)學數據分析的最新進展為臨床醫(yī)生提供了更完整的患者資料;測序和相關數據存儲成本的降低,以及有效數據分析方法的發(fā)展,使得以前所未有的規(guī)模收集和分析各種人類疾病的大型生物醫(yī)學數據成為可能。這些進展可以提高對復雜疾病診斷的準確性,確定針對性的治療方案,并在疾病發(fā)生前預測疾病。從人群篩查和電子健康記錄挖掘到的個性化治療經驗,以及智能藥物治療方案設計等,說明日益增強的處理大型數據集的能力給生物醫(yī)學研究帶來的機遇和挑戰(zhàn),將推動臨床實踐發(fā)生巨大的變化。
當前,耐藥結核病防治任務的緊迫與手段的匱乏之間的矛盾日益突出,對精準診療的需求仍然迫切,而醫(yī)學大數據的重要應用方向包括群體層面的疾病預防和診療體系的評價、特定疾病的機制闡釋,以及個體患者的疾病診療決策支持等。大數據時代的來臨可否為我們帶來新的契機呢?
評估大規(guī)模生物、社會和環(huán)境數據對健康的影響是流行病學領域在大數據時代的一個新挑戰(zhàn),臨床大數據的主要應用之一是分析某一疾病或表型在不同人群中的患病率及發(fā)病趨勢,研究顯示傳染性疾病的監(jiān)測是醫(yī)學大數據技術應用最成功的范例之一[1]。基于Google的檢索數據每年進行的流行性感冒(簡稱“流感”)病毒預測,對流感疫苗的研發(fā)、高危人群的接種、重癥流感風險等全球重大公共衛(wèi)生問題的預測具有重要的意義[2]。另有研究顯示,大數據分析在詢問患者電子健康記錄以改進臨床決策支持方面可能發(fā)揮的作用。同時還可以評估在線衛(wèi)生通信,以及利用這些數據發(fā)現公共衛(wèi)生威脅和控制或遏制流行病的方法[3]。
可見,大數據在流行病學領域的應用已經形成了一個良好的開端。而對于結核病這個重大公共衛(wèi)生問題近年來也不乏大數據的相關研究。韓國的一項研究使用疾病預防控制中心管理的結核病患者報告數據,分析了2012—2015年新增的13萬例結核病患者隊列,利用相關數據模型分析了公私混合結核病控制計劃對治療結果的影響,并確定了影響結核病治療成功的因素[4]。Jokonya[5]建立了一個大數據集成處理框架,將其應用于分析研究礦業(yè)和控制艾滋病、結核病和矽肺之間的聯系,從而幫助礦業(yè)企業(yè)預防和控制艾滋病、結核病和矽肺。該大數據框架具有滿足預測流行病學需求的潛力,在礦業(yè)流行病學預測和疾病控制方面具有重要意義。
大數據在基礎醫(yī)學、臨床醫(yī)學及公共衛(wèi)生領域的應用正如火如荼。近年來隨著分子生物學技術快速發(fā)展,二代、三代測序等分子生物學技術的突飛猛進,人類對于基礎的分子生物學規(guī)律的認識日漸加深;隨著對全基因組、全外顯子組、轉錄組、蛋白質組、DNA甲基化、微生物組等一系列組學數據的不斷積累和總結,其形成的大數據及其成果即將成為臨床診斷的重要依據。而相關技術在結核病領域的迅速運用,也涌現出大量結核分枝桿菌耐藥基因檢測技術,包括GeneXpert MTB/RIF檢測系統(tǒng)、線性探針(LPA)、基因芯片技術、全基因組測序(WGS)、高分辨熔解曲線(HRM)等。
持留是一種現象,反映患者體內一小部分細菌種群能夠在高濃度抗生素的治療下存活很長一段時間,細菌對抗生素抵抗是頑固性和復發(fā)性感染的主要原因。持留菌也是結核病復發(fā)和耐藥結核病產生的主要機制之一。Cabral等[6]則通過研究顯示,下一代測序和其他“大數據”工具的開發(fā)使研究人員能夠檢查宿主內的持留性機制,對結核分枝桿菌耐藥的機制和診斷有一定的意義。
在我國,溫保江等[7]收集所有患者臨床資料,包括胸部影像學、結核菌素皮膚試驗、血白細胞計數、血清白蛋白、痰涂片、痰培養(yǎng)、痰GeneXpert MTB/RIF、γ-干擾素釋放試驗等檢查結果,以及臨床癥狀體征和相關病史等臨床資料數據。擬合臨床專家綜合診斷思維方式,建立計量化臨床肺結核綜合診斷數學模型,為缺乏病原學診斷依據的肺結核的診斷另辟蹊徑,降低了誤診率。
精準醫(yī)療和健康經濟希望在整體醫(yī)療成本保持可控的情況下,每例患者都能得到盡可能最好的醫(yī)療服務。Chen等[8]討論了健康經濟結果研究在衛(wèi)生部門決策、大數據和預測分析中的當前和未來作用,以及大數據和預測分析可能將傳統(tǒng)健康經濟結果研究轉變?yōu)榫_健康經濟結果研究。顯示應該通過幫助和調整醫(yī)療資源配置,使精準醫(yī)療更容易實現,以適應個體患者水平的健康經濟。這樣的研究對促進耐藥結核病規(guī)范治療水平的提升、避免過度治療或治療不到位現象的發(fā)生、最大限度地減少醫(yī)療資源的浪費和耐藥結核病患者的痛苦有著深遠的意義。
Adhil等[9]針對如何選擇合適的癌癥治療方案的問題提出了一個臨床專家系統(tǒng),使用患者的臨床和基因組標記,并結合分布式的、不同的、多樣化的大數據創(chuàng)建的知識庫。對疾病關聯數據的半結構化數據進行挖掘,用于確定最適合相應癌癥類型的治療藥物。然后整合患者的基因組標記和臨床數據,有針對性地進行治療選擇,增加治療效果,并將藥物毒性降到最低,為精準醫(yī)療鋪平了道路。這樣的研究方法對耐藥結核病化療方案的選擇有著借鑒意義。
抗結核藥物的開發(fā)仍然是昂貴和緩慢的,部分藥物往往由于缺乏療效或存在毒性而失敗,很大程度上影響了耐藥結核病的治療成功率。近年來,與電子健康記錄(EHR)數據相關的大型研究發(fā)展迅速,推動了預測藥物作用的新基因變異的發(fā)現,藥物基因組學研究根據個體的基因組成、合理的藥物開發(fā)和藥物的再利用來確定治療方法,支持孟德爾隨機化實驗來顯示藥物的有效性,并為現有藥物提出了新的適應證。新的生物醫(yī)學信息學和機器學習方法提高了解析臨床信息的能力[10]。Ekins等[11]針對結核分枝桿菌,對可以合成化學藥物的化合物構建大數據模型,并通過機器學習并分析模型,其結果對進一步的高通量篩選和基于模型預測的集中測試化合物具有指導意義,從而探索機器學習模型在識別新的抗結核化學藥物發(fā)現方面的應用。未來利用EHR數據和其他信息源進行的研究,將為更快速地推進精準醫(yī)學在抗結核新藥研發(fā)上發(fā)揮作用。
在結核病患者治療管理方面,管理方法已經從傳統(tǒng)DOTS向網絡化方向發(fā)展,尤其是在我國,隨著短信、微信、手機App等互聯網信息交流手段的迅猛發(fā)展,醫(yī)務人員可以更有效地監(jiān)控患者每次服藥情況,更準確地獲取患者治療依從性的信息[12],相關大數據的建立也將提高患者的管理效率,降低管理成本,對減少耐藥結核病的發(fā)生率和耐藥結核病的規(guī)范化治療有著深遠意義。
雖然“大數據”對于耐藥結核病防治工作意義深遠,然而,如何建立好“大數據”仍面臨許多挑戰(zhàn)。傳統(tǒng)的數據存儲、數據庫管理和計算分析方法對于每年生成的千萬億級生物醫(yī)學數據是不夠的。數據隨著時間的推移和臨床積累將變得更大、更多樣化,需要高級的分布式文件存儲和計算方法來解析和利用數據。同時,數據共享政策和數據保護等問題仍然是當前討論的熱點[13]。
針對耐藥病結核防治如何建立大數據,筆者認為可以從以下幾個方面著手:
1.要實現數據共享:如何將數據共享工作做得最好?國際上有學者指出首先,“大數據”應該是共生的,而不是寄生的。數據分享者應該有新的想法,而不是對既往工作的照搬。其次,以對收集到的數據評估潛在合作者,并提出合作建議。第三,合作各方共同驗證新的假設。第四,向相關合作者報告新發(fā)現,對提出新想法和收集數據以進行測試的研究人員的工作給予肯定[14]。
具體到我國結核病防治工作上,筆者建議在未來5至10年打造精準診療、多方協(xié)作的防、治、研、學合作新模式,構建以臨床及科研工作為本、惠及耐藥結核病防治工作的服務新體系,培育高端智能、新興繁榮的產業(yè)發(fā)展新生態(tài)。
2.要實現數據集約:大數據技術的戰(zhàn)略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業(yè)化處理,在于提高對數據的“加工能力”,通過“加工”來實現數據的“增值”。而大數據的處理需要特殊的技術,包括大規(guī)模并行處理數據庫、數據挖掘、分布式文件系統(tǒng)、分布式數據庫、云計算平臺、互聯網和可擴展的存儲系統(tǒng)等,在以云計算為代表的技術創(chuàng)新大幕的襯托下,這些原本看起來很難收集和使用的數據依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術開始容易被利用起來[15]。
與醫(yī)學特別相關的一種重要數據類型是來自臨床實踐的觀測數據。與臨床研究的實驗數據相比,觀察性數據提供了更大的樣本量和更廣泛的患者各類變量的覆蓋面。將觀察數據與實驗數據恰當地結合起來,可以通過檢測患者對治療的反應的異質性,并根據個人的特定需求調整醫(yī)療保健,從而促進精準醫(yī)療。然而,由于觀察性數據是高維的和不受控制的,對其解析需要獨特的方法,生產和運營管理領域的建模和分析工具非常適合歸納、提煉并匯總有意義的觀察數據,因此相關領域的研究對于實現精準醫(yī)療至關重要[16]。
3.要實現數據保護:數據安全是整個醫(yī)學大數據研究、分析、利用能否順利進行的前提和基礎。國際上,針對大數據安全的研究,涵蓋了數據存儲與傳輸安全、大數據安全體系架構等[17]。對于醫(yī)學大數據,當關于患者的各類數據被集成、融合為一個整體時,其中的關聯信息所可能承載的敏感和隱私信息,比單個類型的醫(yī)學大數據如電子病歷、基因組信息等所涉及的安全問題更復雜、更隱蔽,這也是醫(yī)學大數據的安全研究所面臨的極大挑戰(zhàn)。因此,我們需要從醫(yī)學大數據安全體系架構、存儲、傳輸、集成與融合、患者參與下的數據共享等方面著手進行持續(xù)不斷的研究,逐漸完善醫(yī)學大數據的安全體系建設。目前,國際上也不乏相關研究,例如:醫(yī)學大數據醫(yī)療保健分析、認證密鑰管理系統(tǒng)、雙線性配對密碼、誘餌技術等方法可以幫助實現私人醫(yī)療數據的安全訪問和存儲,確保醫(yī)療數據的安全[18],為醫(yī)學大數據的保護提供了新的手段。
4.要注重交叉學科的合作與人才培養(yǎng):從上述幾點來看,醫(yī)學和耐藥結核病防治對于大數據的運用迫切需要衛(wèi)生信息技術領域的知識和人才,在加深合作的同時也要注重交叉學科的人才培養(yǎng),而且本專業(yè)醫(yī)學研究人員也應加強對共享數據和衛(wèi)生信息技術專業(yè)知識的學習。
醫(yī)學大數據的廣泛應用是實現傳統(tǒng)醫(yī)學模式向精準醫(yī)學轉變的必要前提和核心動力。其為生物學家、臨床醫(yī)生、流行病學及醫(yī)療衛(wèi)生政策制訂的專家提供了有效工具,使得數據驅動下決策的制定成為可能。我們期待耐藥結核病的防治工作能夠合理有效地與“大數據”的應用相結合,迎來新的突破。