孟曉陽 郭杰峰
(北京協(xié)和醫(yī)院信息管理處 北京 100730)
?
使用IT運行監(jiān)控系統(tǒng)保障醫(yī)院信息系統(tǒng)的高可用性*
孟曉陽 郭杰峰
(北京協(xié)和醫(yī)院信息管理處 北京 100730)
以一所三級甲等醫(yī)院的附屬院區(qū)為例,分析該院區(qū)信息系統(tǒng)對高可用性的需求,從機房環(huán)境、網絡、服務器和存儲設備、數據庫、客戶端、監(jiān)控與報警幾個方面,介紹信息系統(tǒng)運行監(jiān)控系統(tǒng)的設計思路和應用情況。
IT運行監(jiān)控系統(tǒng);醫(yī)院信息系統(tǒng);高可用性
隨著醫(yī)院信息化建設逐年深入,應用范圍越來越廣,配套的服務器網絡設備也越來越多。IT設備的快速增長,使信息系統(tǒng)的管理面臨很大的運維壓力,傳統(tǒng)的人工巡檢排錯的方式,已經無法滿足業(yè)務系統(tǒng)高可用性的需求。有調查顯示,在近年來發(fā)生的醫(yī)院信息系統(tǒng)宕機事故中,因故障不能及時發(fā)現(xiàn)和排除而導致的UPS起火、空調宕機、數據庫崩潰等情況占據很大比例。醫(yī)院信息系統(tǒng)是一個數據量大、數據類型復雜、事務并發(fā)多的實時系統(tǒng),由于醫(yī)院業(yè)務的特殊性,任何人為或自然因素所導致的應用或表現(xiàn)中斷,都會造成巨大的經濟和名譽損失以及嚴重的法律后果。醫(yī)院信息化水平越高,對計算機系統(tǒng)的依賴程度越高,如何保障醫(yī)院信息系統(tǒng)應用服務的高可用性以及數據安全,保證系統(tǒng)持續(xù)正常運行是目前急需解決的一個重要問題。在銀行、電信等行業(yè)的IT部門里,已有采用綜合網管、溫濕度監(jiān)控、智能儀表數據采集等對IT資產進行一體化監(jiān)控的經驗。借助監(jiān)控工具自動對IT基礎設施進行數據采集、狀態(tài)監(jiān)控和性能分析是提高信息系統(tǒng)高可用性的有效手段。
本文所提到的應用環(huán)境是一所三級甲等醫(yī)院的附屬院區(qū),具有獨立的機房、網絡和應用系統(tǒng)。整個信息系統(tǒng)包括70余臺服務器和存儲設備、600多個網絡客戶端和近30個來自不同廠商的臨床應用系統(tǒng),運行環(huán)境復雜。負責日常運維工作的工程師只有5人,分別負責機房網絡、服務器數據庫、應用系統(tǒng)和安全管理,還要承擔7×24小時的值班任務,工作繁重。該院區(qū)主要服務于高端人群,雖然日常業(yè)務量不大,但掛號、就診、檢查、取藥各個環(huán)節(jié)均依賴信息系統(tǒng)支持,一旦信息系統(tǒng)故障,造成患者無法順利就醫(yī),將對醫(yī)院的經濟和聲譽造成不利影響,所以對系統(tǒng)可用性有極高的要求?;谝陨显?,設計實施一套IT運行監(jiān)控系統(tǒng),幫助信息部門進行運維管理,從技術層面提高醫(yī)院信息系統(tǒng)的可用性是很有必要的。
3.1 概述
高可用性就是指IT服務可以最大限度地減小或掩蓋IT組件故障對服務用戶的影響[4]。用戶并不關心是否有IT故障,而只關心在其使用的節(jié)點信息系統(tǒng)是否可用;也就是說,保障信息系統(tǒng)的高可用性并不是完全避免IT組件本身的故障,但可以通過IT服務的手段,最大限度地減小故障對用戶的影響。醫(yī)院信息系統(tǒng)的運行環(huán)境包括機房、網絡、服務器、數據庫、客戶端5部分,其關系,見圖1。圖1說明了兩個問題:(1)下層的運行環(huán)境為上層的運行環(huán)境提供支撐。(2)作為用戶界面的信息系統(tǒng)客戶端位于最上層。因此,當下層的運行環(huán)境出現(xiàn)問題時,將逐層向上產生影響,如能及時發(fā)現(xiàn)和處理,就可以消除隱患,從而避免事故隱患蔓延到用戶界面,減少造成業(yè)務中斷的幾率。
圖1 醫(yī)院信息系統(tǒng)運行環(huán)境
3.2 機房環(huán)境
3.2.1 配電系統(tǒng) 配電系統(tǒng)包括市電供應、不間斷電源和發(fā)電機3部分。對市電供應應監(jiān)控電能質量,主要指標包括開關狀態(tài)、電流、電壓、有功功率、功率因數、諧波含量[2]。不間斷電源的主要監(jiān)控指標為:監(jiān)控輸入和輸出功率、電壓、頻率、電流、功率因數、負荷率;電池輸入電壓、電流、容量;同步/不同步狀態(tài)、不間斷電源系統(tǒng)/旁路供電狀態(tài)、市電故障、不間斷電源系統(tǒng)故障;監(jiān)控蓄電池的電壓、阻抗和故障[2]。對發(fā)電機系統(tǒng)應監(jiān)控油箱(罐)油位、柴油機轉速、輸出功率、頻率、電壓、功率因數[2]。
3.2.2 環(huán)境溫濕度 對空調系統(tǒng)應監(jiān)控開關、制冷、加熱、加濕、除濕的運行狀態(tài);相對溫度、相對濕度、傳感器故障、壓縮機壓力、加濕器水位、風量設置閥值,超出報警[2]。在空調、水管、窗戶等易產生水源泄露的部位,應安裝漏水感應裝置并監(jiān)控其狀態(tài)。對機房環(huán)境,應監(jiān)控房間各區(qū)域以及機柜內部的溫度、濕度數據以及變化趨勢。
3.2.3 消防系統(tǒng)監(jiān)控 應監(jiān)控消防控制器、煙感探測器、溫感探測器等消防設備。機房內應有氣體滅火設備并與消防系統(tǒng)聯(lián)動,當有消防報警產生時,及時采取相應的控制措施,如開啟門禁、切斷
電源、啟停相關設備等操作。
3.2.4 安防系統(tǒng)監(jiān)控 包括門禁系統(tǒng)、閉路監(jiān)控系統(tǒng)、入侵檢測系統(tǒng)等。通過門禁系統(tǒng)進行人員出入控制,可采用讀卡或密碼方式進行身份認證,監(jiān)測門的開關狀態(tài),記錄開門的時間、卡號,遠程控制門的開關。安裝半球攝像機監(jiān)視人員進出以及設備狀況,采用數字硬盤錄像機保存數據。
3.3 網絡
3.3.1 網絡拓撲 網絡管理員可以直觀地查看網絡邏輯拓撲圖和網絡物理拓撲圖,及時發(fā)現(xiàn)網絡的邏輯和物理問題。拓撲圖通過使用不同的圖標來表示不同網絡對象,用不同的顏色來表示不同的設備運行狀況。通過網絡拓撲圖上數據和信息,管理員可以很及時地了解到網絡運行健康情況。
3.3.2 故障管理 網絡故障通常會影響到特定的區(qū)域或信息節(jié)點,當用戶反映計算機訪問相應的業(yè)務緩慢或網絡中斷時,網絡管理員一般需要從網絡的不同層次(如鏈路問題、設備問題、路由問題和網絡擁塞情況)排查問題。采用了運行監(jiān)控系統(tǒng)可以通過定時輪詢和接收Trap兩種方式監(jiān)控設備運行狀況,當網絡設備中斷或流量超過閥值時,可以通過短信、郵件、報警燈等多種方式將報警信息發(fā)送給網絡管理員,節(jié)省故障排查時間。
3.3.3 性能管理 在實時顯示網絡運行狀況信息的同時,運行監(jiān)控系統(tǒng)可以將這些運行數據(如設備CPU、內存利用率,設備各端口出入流量、平均包長及丟包、錯包率等)記錄下來,用于以后的數據分析。通過歷史曲線比對、TOPN數據分析等手段,可以了解設備的利用情況以及網絡性能的瓶頸。
3.3.4 安全管理 通過事先設置好的資產清單運行監(jiān)控系統(tǒng)可判別哪些網絡終端設備是合法接入的。一旦有終端設備未經允許接入網絡,就可以進行阻斷并報警,嚴格控制網絡邊界;也可結合各個廠商的接入訪問控制阻止客戶端的非法接入,例如H3C的EAD和微軟的NAP方案。
3.4 服務器和存儲設備監(jiān)控
3.4.1 運行監(jiān)控系統(tǒng) 對于一個龐大而復雜的醫(yī)院信息系統(tǒng)體系而言,如果不借助工具,進行服務器巡檢將是很大的工作量。運行監(jiān)控系統(tǒng)可以提供一個統(tǒng)一的界面,讓系統(tǒng)管理員一目了然地了解到各臺服務器的運行狀況,而不用逐臺對服務器進行巡檢。監(jiān)控服務器性能最主要的3個指標是CPU利用率、內存利用率和文件系統(tǒng)使用率。系統(tǒng)管理員應經常對以上指標的歷史數據進行分析,如有利用率過高的情況,應分析應用場景,及時處理。除此之外,日常運維中還應重點關注服務器的通斷狀況和網絡時延;如果操作系統(tǒng)日志中有異常信息應進行分析和處理;對于建有集群的服務器,還應監(jiān)測集群服務地址、獲得接管地址、Cluster節(jié)點狀態(tài)等。
3.4.2 SNMP與MIB 和網絡設備一樣,絕大多數的存儲設備和磁帶庫都支持簡單網絡管理協(xié)議(Simple Network Management Protocol,SNMP),SNMP是應用最為廣泛的TCP/IP協(xié)議,采用Server/ Client的模式,通過管理端與SNMP代理間的交互工作完成對設備的管理。管理信息庫(Management Information Base,MIB)包是設備廠商對設備信息的定義庫,可以從設備代理商處獲取,MIB包以文本形式保存樹狀的代碼信息,每個分支代表一種類型的統(tǒng)計信息或狀態(tài)信息,通過SNMP代理可以響應SNMP管理端關于MIB信息的各種查詢,如get, get-next, set等。被管設備還可以通過TRAP包的形式主動向管理端發(fā)送緊急報警信息,從而實現(xiàn)對存儲設備和磁帶庫的監(jiān)控。
3.5 數據庫
維護數據可靠安全是保證信息系統(tǒng)高可用性的最終目的。進行數據庫的調優(yōu)和管理數據備份是DBA的主要職責。對數據庫的監(jiān)控主要關注可用狀態(tài)、性能和空間容量3個方面??捎脿顟B(tài)是指被監(jiān)控的數據庫是否能正常訪問,特定進程或服務是否狀態(tài)正常;性能指標包括連接數是否過大、讀緩存命中率是否過低、寫緩存命中率是否過低、死鎖數量是否過大、回滾數是否過高等;空間容量是指監(jiān)測表空間和數據文件的大小、狀態(tài)和使用率、數據庫碎片比率等。以Oralce數據庫為例,在實際工作中監(jiān)控了以下指標:(1) Session數。(2)后臺進程狀態(tài)(SMON、PMON、DBWn、LGWR、CKPT等)。(3)PGA狀況(內存爭用比、PGA使用率、PGA命中率)。(4) SGA狀況(Buffer Cache命中率、庫緩存命中率、數據字典命中率、共享池命中率、回滾段爭用比)。(5)表空間利用率、日志使用情況。
3.6 客戶端
雖然單點故障不會影響醫(yī)療業(yè)務的正常運行,但對于重要的客戶端節(jié)點,可以采用撥測的方式監(jiān)控其運行狀態(tài)。如在實際工作中,筆者對遍布院區(qū)的導醫(yī)自助設備進行了監(jiān)控。導醫(yī)自助設備是唯一直接給病人使用的信息系統(tǒng),但因處于公共區(qū)域,常處于無人管理狀態(tài)。通過運行監(jiān)控平臺每10分鐘對終端設備進行一次PING操作,結合遠程桌面管理軟件進行日常管理,取得了不錯的效果。除此之外,客戶端作為IT資產,分布于院區(qū)各個科室,不易管理??梢酝ㄟ^IT運行監(jiān)控定期進行撥測,監(jiān)控其使用狀況,為資產清查提供輔助手段。
3.7 監(jiān)控與報警
在信息部門的辦公區(qū)設置監(jiān)控大屏,播放IT運行監(jiān)控系統(tǒng)的運維門戶視圖,集中顯示信息系統(tǒng)整體運行狀況,包括IT資產統(tǒng)計、報警列表、機房環(huán)境監(jiān)控圖、服務器位置及拓撲、全院網絡拓撲、數據庫狀態(tài)、應用系統(tǒng)定期作業(yè)執(zhí)行情況等。當IT運行監(jiān)控系統(tǒng)收到Snmp Trap報警信息或檢測到超過了預先設定的閥值時,會通過短信模塊向管理員手機發(fā)送短信報警,同時監(jiān)控大廳的報警燈閃爍并蜂鳴報警,運維門戶的拓撲圖上標示出故障位置。故障等級設為3檔,正常、提醒和警告。系統(tǒng)通過撥測自檢,確保自身運轉正常;當發(fā)現(xiàn)異常數據但不影響系統(tǒng)正常使用時生成提示信息;當判斷故障需要緊急處理時顯示為警告。
信息系統(tǒng)運行監(jiān)控系統(tǒng)投入使用以來,既減輕了信息中心運維人員的巡檢壓力,又可實時全面地掌握信息系統(tǒng)各個環(huán)節(jié)的運行狀況。在幾次硬件故障發(fā)生時,均能及時報警,未造成進一步的事故。通過對歷史數據分析,還可以再現(xiàn)事故發(fā)生的過程,排查類似隱患,避免同類情況再次發(fā)生。同時筆者也意識到,在IT運維管理方面需要人防和技防并重,技術只是輔助手段,如果IT運維人員責任心不強,不能重視并及時處理報警,IT運行監(jiān)控系統(tǒng)也不能發(fā)揮作用。另一方面,對報警參數的配置是一個動態(tài)調整和完善的過程,需要在使用過程中,盡可能將所有軟硬件報警信息都納入其中,根據實際情況調整閾值,持續(xù)改進。
1 孟曉陽.醫(yī)院機房改造四大建議[N].計算機世界,2011-04-18(32).
2 中華人民共和國住房和城鄉(xiāng)建設部.電子信息系統(tǒng)機房設計規(guī)范[M]. 北京:中國計劃出版社,2009.
3 全國信息安全標準化技術委員會.信息安全技術 信息系統(tǒng)災難恢復規(guī)范[M].北京: 中國標準出版社,2007.
4 TSO.ITIL V3 服務設計[M].英國:英國商務部,2010.
5 孟曉陽.基于ITIL理念的醫(yī)院IT運維模式改進[J].中國衛(wèi)生質量管理,2013,20(6):94-96.
6 沈碧飛.在醫(yī)院服務器虛擬化環(huán)境中構建存儲性能測試平臺[J].醫(yī)學信息學雜志,2014,35(2):34-38.
7 肖革新,周立平,王俊玲,等.基于三維模型的疾控數據中心運維管理體系建設與實踐[J].醫(yī)學信息學雜志,2012,33(4):21-25.
8 肖革新,張燁,張睿,等.公共衛(wèi)生數據中心安全保障體系建設與思考[J].醫(yī)學信息學雜志,2012,33(2):13-17.
9 肖革新,張睿,馬家奇.中國疾控中心IT運維管理平臺設計思路[J].醫(yī)學信息學雜志,2011,32(8):15-19.
10 張睿,楊永明,于萌,等.公共衛(wèi)生數據統(tǒng)一采集交換平臺[J].醫(yī)學信息學雜志, 2013,34(12):6-10.
Ensuring High Availability of Hospital Information System Using IT Operation Monitoring Syste
MENGXiao-yang,GUOJie-feng,
DepartmentofInformtion,PekingUnionMedicalCollegeHospital,Beijing100730,China
Taking the affiliated hospital area of a three level first-class hospital as an example, the paper analyzes the demands for high availability of the information system, introduces the design idea and application status of operation monitoring system from the aspects of computer room environment, network, server and storage device, database, client, monitoring and alarm, etc.
IT operation monitoring system; Hospital Information System (HIS); High availability
2014-09-25
孟曉陽,碩士,軟件工程師,發(fā)表論文10篇。
國家高技術研究發(fā)展計劃(863計劃)“數字化醫(yī)療醫(yī)院流程研究及應用示范”(項目編號:2012AA02A613)。
R-058
A 〔DOI〕10.3969/j.issn.1673-6036.2015.02.005