張云 何懋 周帆帆
(昆明醫(yī)科大學(xué)第一附屬醫(yī)院信息中心 云南省昆明市 650032)
近年來,大型綜合性三甲醫(yī)院通常建設(shè)有數(shù)據(jù)中心,以承載以電子病歷為核心的HIS、EMR、PACS、LIS 等信息系統(tǒng)的運行,為醫(yī)院業(yè)務(wù)工作的開展提供了平臺技術(shù)支撐。隨著互聯(lián)網(wǎng)醫(yī)療、大數(shù)據(jù)、人工智能、智慧醫(yī)療等技術(shù)的不斷應(yīng)用,醫(yī)院信息系統(tǒng)不斷發(fā)展壯大,醫(yī)院管理、科研、教學(xué)、醫(yī)療越來越依賴于信息系統(tǒng)支撐和數(shù)據(jù)的支持,龐大系統(tǒng)應(yīng)用,信息數(shù)據(jù)海量增長,信息數(shù)據(jù)逐漸發(fā)展成為醫(yī)院核心資產(chǎn)。信息系統(tǒng)高度集中和信息存儲網(wǎng)絡(luò)化,加大了各類風(fēng)險的發(fā)生概率和信息資產(chǎn)的脆弱程度。
昆明醫(yī)科大學(xué)第一附屬醫(yī)院是一所集醫(yī)療、教學(xué)、科研、干部保健于一體的大型三甲綜合醫(yī)院,編制床位4500 張,年出院17.28萬人次,門診量396 萬人次,每年產(chǎn)生結(jié)構(gòu)化數(shù)據(jù)(HIS/EMR、LIS、PACS 等)和非結(jié)構(gòu)化數(shù)據(jù)(PCSA 影像)約28TB。擁有同城兩個院區(qū),分別建設(shè)有B 級標(biāo)準(zhǔn)機房和數(shù)據(jù)中心。主院區(qū)數(shù)據(jù)中心核心網(wǎng)絡(luò)區(qū):利用萬兆交換機通過交換機多虛一集群技術(shù)實現(xiàn)跨交換機的鏈路聚合,提供萬兆網(wǎng)絡(luò)接入服務(wù)。服務(wù)器區(qū):數(shù)據(jù)庫服務(wù)區(qū)主要采用X86 物理主機集群方式,利用Oracle RAC 實現(xiàn)服務(wù)器本地雙活,支持HIS、EMR、PACS、LIS、ICU 等核心業(yè)務(wù)應(yīng)用,保障醫(yī)院業(yè)務(wù)7X24 小時持續(xù)運行,滿足業(yè)務(wù)系統(tǒng)高性能、高可用、高可擴展性、高穩(wěn)定的需求。應(yīng)用服務(wù)器采用虛擬化方式形成計算資源池,采用多節(jié)點的虛擬化平臺進(jìn)行建設(shè),通過資源管理平臺對計算資源進(jìn)行按需分配和動態(tài)調(diào)配。
醫(yī)院信息化的深入發(fā)展,醫(yī)院信息系統(tǒng)成為迄今為止世界上企業(yè)級信息系統(tǒng)中最為復(fù)雜的一類[1],使得醫(yī)院業(yè)務(wù)活動離開信息系統(tǒng)就難以運行的地步。源源不斷涌入的人群,7×24 的業(yè)務(wù)運行方式,使得醫(yī)院信息系統(tǒng)數(shù)據(jù)以TB 級增長,通過定時備份與恢復(fù),可能導(dǎo)致數(shù)據(jù)恢復(fù)時間長,停機時間長、造成備份時間點到故障發(fā)生時間點的數(shù)據(jù)丟失。
綜上所述,為保障醫(yī)院業(yè)務(wù)持續(xù)性和數(shù)據(jù)的安全,在異地建設(shè)與生產(chǎn)中心主機性能按比例匹配、架構(gòu)相同或與之等同的應(yīng)用系統(tǒng),即災(zāi)備中心,一旦生產(chǎn)中心意外癱瘓,災(zāi)備中心可以接替業(yè)務(wù)中心來對外提供持續(xù)的服務(wù)。
目前業(yè)界以系統(tǒng)恢復(fù)時間(RTO)和數(shù)據(jù)丟失量(RPO)作為災(zāi)備系統(tǒng)建設(shè)標(biāo)準(zhǔn)。恢復(fù)時間目標(biāo)(Recovery Time Objective,簡稱RTO)表示從災(zāi)難發(fā)生直到業(yè)務(wù)流程再次運行(即被恢復(fù))的時間。RTO 有兩個組成部分,明確災(zāi)難發(fā)生后指示恢復(fù)流程開始的決策時間和進(jìn)行災(zāi)難恢復(fù)流程的實施時間。一般來說,恢復(fù)時間(RTO)越短,那么災(zāi)難恢復(fù)方案的成本就越高,災(zāi)難造成的業(yè)務(wù)損失就越小。結(jié)合醫(yī)院實際RTO/RPO 值如表1 所示。
根據(jù)災(zāi)備系統(tǒng)建設(shè)內(nèi)容和業(yè)務(wù)恢復(fù)需求,按照不同的災(zāi)備級別進(jìn)行建設(shè)。針對各核心業(yè)務(wù)系統(tǒng)災(zāi)難恢復(fù)點目標(biāo)(RPO)定義為趨近 0 分鐘;災(zāi)難恢復(fù)時間目標(biāo)(RTO)定義為30 分鐘到48 小時不等。
表1:醫(yī)院信息系統(tǒng)業(yè)務(wù)分析
圖1:容災(zāi)拓?fù)?/p>
同城雙中心:指在同城建立兩個可獨立承擔(dān)核心系統(tǒng)運行的數(shù)據(jù)中心,雙中心具備基本等同的業(yè)務(wù)處理能力,并通過高速鏈路實時的進(jìn)行數(shù)據(jù)同步。在使用模式上可分為雙活、雙運營或主備運行模式。其運行模式如表2 所示。
結(jié)合醫(yī)院業(yè)務(wù)應(yīng)用和醫(yī)院管理要求,容災(zāi)系統(tǒng)建設(shè)為同城主備營模式。
在醫(yī)院容災(zāi)系統(tǒng)的建設(shè)過程中,生產(chǎn)機房和容災(zāi)機房位于同城不同院區(qū),通過部署多條裸光纖的方式作為傳輸鏈路,則可供選擇技術(shù)如表3 所示。
表2:容災(zāi)模式
表3:容災(zāi)技術(shù)選型
綜上所述,考慮到各種技術(shù)的成熟度問題,容災(zāi)系統(tǒng)選擇如下技術(shù)進(jìn)行建設(shè):
(1)本地備份系統(tǒng)建設(shè):采用備份存儲介質(zhì)一體化的備份一體機進(jìn)行建設(shè);
(2)同城應(yīng)用級容災(zāi)系統(tǒng)建設(shè):核心業(yè)務(wù)系統(tǒng)采用基于數(shù)據(jù)庫的復(fù)制技術(shù)實現(xiàn)數(shù)據(jù)復(fù)制。
如圖1 所示,采用基于數(shù)據(jù)庫的復(fù)制技術(shù)和基于存儲陣列的復(fù)制技術(shù)構(gòu)建應(yīng)用級容災(zāi)中心;通過租用云服務(wù)商數(shù)據(jù)災(zāi)備服務(wù),利用備份一體機遠(yuǎn)程復(fù)制功能將數(shù)據(jù)同步備份到云端提升數(shù)據(jù)容災(zāi)能力。
對HIS/EMR、PACS、LIS、ICU/手麻/血透等核心數(shù)據(jù)庫服務(wù)器,在生產(chǎn)機房分別配置2 臺X86 服務(wù)器,組成ORACLE RAC 集群。在容災(zāi)機房按照生產(chǎn)機房的業(yè)務(wù)系統(tǒng)配置相同配置的單臺X86 服務(wù)器。
對于非結(jié)構(gòu)化數(shù)據(jù),在生產(chǎn)中心和容災(zāi)中心分別配置1 套大容量的NAS 存儲,用于PACS 影像等非結(jié)構(gòu)化數(shù)據(jù)的存儲,通過NAS 存儲的遠(yuǎn)程復(fù)制功能,實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的實時復(fù)制。
生產(chǎn)中心與容災(zāi)中心分屬于同一個廣域網(wǎng)上的不同網(wǎng)段,通過客戶端的中心路由器配置Failover 切換,支持對兩個中心的同時訪問能力,保證客戶端在災(zāi)難發(fā)生后仍能與災(zāi)難備份中心建立TCP/IP 連接。
(1)模擬測試:模擬核心業(yè)務(wù)系統(tǒng)發(fā)生災(zāi)難性故障,完全宕機失效,測試災(zāi)備中心可以在規(guī)定時間內(nèi)對外提供服務(wù)。通過中斷生產(chǎn)中心物理連接線纜,模擬生產(chǎn)中心出現(xiàn)故障,災(zāi)備中心存儲變?yōu)榭捎?,?shù)據(jù)庫啟動。
(2)并行測試:模擬部分核心業(yè)務(wù)系統(tǒng)發(fā)生災(zāi)難性故障,災(zāi)備中心可以在規(guī)定時間內(nèi)將故障業(yè)務(wù)接管并對外提供服務(wù)。模擬部分核心業(yè)務(wù)系統(tǒng)故障,通過更改網(wǎng)絡(luò),使容災(zāi)中心的該業(yè)務(wù)對外提供服務(wù)。
(3)完全中斷測試:模擬全部核心業(yè)務(wù)系統(tǒng)發(fā)生災(zāi)難性故障,災(zāi)備中心可以在規(guī)定時間內(nèi)將所有業(yè)務(wù)接管并對外提供服務(wù)。
經(jīng)測試,生產(chǎn)中心與災(zāi)備中心、云端核心業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫經(jīng)過系統(tǒng)切換后最大歸檔日志號一致,時間低于1 分鐘,應(yīng)用恢復(fù)RTO ≤10 分鐘,RPO ≈0。
應(yīng)用級別的系統(tǒng)容災(zāi),存儲和主機應(yīng)統(tǒng)一考慮,容災(zāi)中心需要接管生產(chǎn)中心的數(shù)據(jù)庫和應(yīng)用服務(wù)器,配置應(yīng)與生產(chǎn)中心主機性能按比例匹配、架構(gòu)相同。
應(yīng)用級容災(zāi)接管建議由人來決策,避免生產(chǎn)中心可能產(chǎn)生的如斷電、網(wǎng)絡(luò)故障、服務(wù)器暫時故障抖動。
為確保災(zāi)備系統(tǒng)數(shù)據(jù)的一致性、完整性、正確性,當(dāng)災(zāi)難發(fā)生時生產(chǎn)系統(tǒng)可盡快恢復(fù),需要在平時通過災(zāi)備演練對災(zāi)備數(shù)據(jù)、災(zāi)備系統(tǒng)、災(zāi)備流程做進(jìn)一步的評測。