王 暉
2008年,北京市衛(wèi)生局結(jié)合實際運維工作情況,自主開發(fā)了IT運維支撐系統(tǒng)。該系統(tǒng)主要由ITIL運維管理工具和網(wǎng)絡(luò)管理輔助系統(tǒng)兩部分組成。ITIL運維管理工具主要包括事件管理、問題管理、變更管理、發(fā)布管理、統(tǒng)計分析和知識庫等模塊;而網(wǎng)絡(luò)管理輔助系統(tǒng)中主要是結(jié)合網(wǎng)絡(luò)部實際工作而開發(fā)的文檔管理、IP地址管理、服務(wù)器管理、合同管理、項目管理和信息安全管理等模塊。該系統(tǒng)在近一年的使用中,發(fā)揮了很大的作用。
北京市電子政務(wù)IT運維服務(wù)支撐系統(tǒng)系列規(guī)范規(guī)定了IT運維服務(wù)支撐系統(tǒng)的應(yīng)用需求,IT運維服務(wù)涉及的管理對象和所需的管理支撐能力,以及支撐IT運維服務(wù)的系統(tǒng)應(yīng)該具備的管理功能、系統(tǒng)結(jié)構(gòu)、技術(shù)指標和相關(guān)接口等技術(shù)要求以及IT運維服務(wù)支撐系統(tǒng)的測試方法。
2009年1月6日,北京市衛(wèi)生局通過北京衛(wèi)生信息網(wǎng)通報,北京確診一例人感染高致病性禽流感病例。1月11日,北京市衛(wèi)生局向全市各級衛(wèi)生機構(gòu)發(fā)出動員令,要求嚴格做好防控工作,采取有效措施,防止禽流感對人的感染。
控制、通報禽流感等重大疫情,只是北京市衛(wèi)生局多項職能中的一項。該局同時還要組織本市醫(yī)療、社區(qū)衛(wèi)生服務(wù)和衛(wèi)生監(jiān)督機構(gòu)防治傳染病,發(fā)布監(jiān)測傳染病名錄,預(yù)防和控制疫情的發(fā)生、蔓延,建設(shè)全市醫(yī)療急救體系,負責(zé)對醫(yī)療機構(gòu)大型醫(yī)療設(shè)備的配置、應(yīng)用質(zhì)量監(jiān)管……
就是這樣一個關(guān)系人民健康的機構(gòu)的IT運維,卻只有4個人在做。
只有4人整天忙著救火
北京市公共衛(wèi)生信息中心是北京市衛(wèi)生局的直屬事業(yè)單位,共有10個部門、45人,承擔(dān)著北京地區(qū)衛(wèi)生信息化工作。該中心依托北京市網(wǎng)絡(luò)資源,不斷整合北京地區(qū)衛(wèi)生信息資源,逐漸形成了聯(lián)接各級衛(wèi)生行政部門、疾病預(yù)防控制機構(gòu)、衛(wèi)生監(jiān)督機構(gòu)、醫(yī)療機構(gòu)和社區(qū)衛(wèi)生服務(wù)機構(gòu)的“縱向到底,橫向到邊”的信息網(wǎng)絡(luò)覆蓋和完善的公共衛(wèi)生應(yīng)用系統(tǒng)。
統(tǒng)計、血液管理、社區(qū)衛(wèi)生服務(wù)、監(jiān)督許可、新農(nóng)合等近20項涵蓋衛(wèi)生管理重要業(yè)務(wù)的信息系統(tǒng)相繼建成并投入應(yīng)用。業(yè)務(wù)工作對信息系統(tǒng)的依賴程度也越來越高,系統(tǒng)出現(xiàn)問題會直接影響到業(yè)務(wù)的正常開展,有的甚至是對業(yè)務(wù)產(chǎn)生致命影響。如何提高信息系統(tǒng)的可用性、持續(xù)性和安全性是這些系統(tǒng)運行維護管理工作的重要任務(wù)。而擺在我們面前的難題也并非就是單純的技術(shù)問題,如何通過規(guī)范的管理來實現(xiàn)業(yè)務(wù)目標,滿足業(yè)務(wù)需求,就成為我們當前的重要課題。
北京市公共衛(wèi)生信息中心網(wǎng)絡(luò)管理部的4名工作人員負責(zé)所有信息系統(tǒng)的運維工作。工作人員要承擔(dān)市衛(wèi)生局、中醫(yī)藥管理局及醫(yī)學(xué)管理協(xié)會等十余家單位的網(wǎng)絡(luò)日常維護工作,涉及計算機400余臺,服務(wù)器及網(wǎng)絡(luò)設(shè)備165臺,可以說是“點多、面廣、線長、量大”。以前網(wǎng)絡(luò)部的運維人員每天如救火隊員一樣忙碌,根本沒有時間考慮各業(yè)務(wù)系統(tǒng)的完善和持續(xù)改進,也就無法更好地滿足業(yè)務(wù)現(xiàn)實需求。針對市衛(wèi)生局信息化建設(shè)中存在的IT服務(wù)管理較弱的問題,我們積極引入國際最佳實踐ITIL的服務(wù)思想并開發(fā)相關(guān)工具,運維水平顯著提高。
從一無所有到ITIL雛形顯現(xiàn)
通過對需求的梳理、分析,我們發(fā)現(xiàn)在這個階段,服務(wù)對象對運維管理的務(wù)實期望就是減少故障,實現(xiàn)對IT技術(shù)設(shè)施的有效掌控。這就要求我們必須做好三件事:一是建立服務(wù)臺,二是細化配置項,三是充實知識庫。只有這樣,才能為將來服務(wù)管理級別的提升打好基礎(chǔ)。
1.建立服務(wù)臺。以前,用戶網(wǎng)絡(luò)或PC遇到故障時通常都是直接給維護工程師打電話。工程師即使手頭有其他工作安排,但為了保證客戶滿意度,也得放下手中工作及時前去維修,有時可能因為其他工作安排而影響響應(yīng)速度。所以網(wǎng)絡(luò)部的工作人員總是感覺工作雜亂無章,天天就像救火隊員,疲于應(yīng)付。
網(wǎng)絡(luò)部面對這種局面進行了工作調(diào)整,建立服務(wù)臺,設(shè)立熱線電話,實現(xiàn)“一口受理,分級轉(zhuǎn)辦”。具體方法是聘請外包公司技術(shù)人員做服務(wù)臺一線處理員。服務(wù)臺一線人員接到申請后,針對用戶提出的問題作出反應(yīng),先通過電話對故障類型進行了解,并嘗試電話指導(dǎo)排除故障。如無法電話解決,或涉及數(shù)據(jù)、權(quán)限等的申請,則提交二線解決。二線管理人員將會派工程師到現(xiàn)場服務(wù)并記錄。通過嚴格的流程、權(quán)限控制,實現(xiàn)對操作流程的規(guī)范,從而達到通過面向用戶統(tǒng)一而專職的服務(wù)聯(lián)系點促進組織業(yè)務(wù)流程與IT運維管理架構(gòu)的集成,實現(xiàn)逐步把網(wǎng)絡(luò)管理部運維人員從“救火隊員”的狀態(tài)解放出來的目標。
2.細化配置項。我們清醒地認識到,就日常工作而言,配置管理尤為重要,它不僅僅是將客戶端、網(wǎng)絡(luò)、服務(wù)器、操作系統(tǒng)、應(yīng)用系統(tǒng)等相關(guān)軟硬件記錄在案,而且能夠幫助一線及二線人員提高效率,減少差錯。我們不僅對所管理的硬件、軟件進行詳細記錄,而且將簽訂合同、各服務(wù)商的聯(lián)系電話、提供的應(yīng)急預(yù)案和服務(wù)響應(yīng)等級協(xié)議等作為配置項的重要關(guān)聯(lián)文檔進行記錄并存檔,為日后變更管理、能力管理以及IT服務(wù)財務(wù)管理提供支持。
3.充實知識庫。運維系統(tǒng)建設(shè)的目的不僅是規(guī)范、記錄、督促、自動化管理工作,而且要幫助各級支持人員提高技能水平,簡化IT服務(wù)任務(wù),同時也是降低對具體個人依賴的手段。
這些需要通過知識經(jīng)驗的積累和共享來完成。要想實現(xiàn)這樣的目的就必須建立知識庫。而要讓知識庫充分發(fā)揮作用就必須在細節(jié)上下功夫。我們要求服務(wù)人員在線完成服務(wù)記錄的同時,要對出現(xiàn)故障的情況進行詳細描述,還要求其對排除故障的步驟、措施以及對問題的分析及建議進行規(guī)范描述,使其有更強的操作性和可用性。
例如,信息中心空調(diào)故障知識庫所涉及的項目包括:時間、氣溫、風(fēng)力、服務(wù)類型、設(shè)備型號、設(shè)備位置、故障現(xiàn)象、解決方法、建議內(nèi)容,以及故障原因等方面的內(nèi)容,從而為日后查找分析問題原因、變更服務(wù)合同直接提供有力支持,同時也為運維人員在日常維護中做到提前預(yù)防、快速排障提供智力支持。
從被動響應(yīng)到主動管理
第一階段實施后,運維質(zhì)量有了明顯改善,但仍未從根本上杜絕“意外問題”的發(fā)生。而要規(guī)避風(fēng)險,技術(shù)上的改進必不可少。我們利用網(wǎng)絡(luò)監(jiān)控軟件對各個系統(tǒng)的服務(wù)器CPU、內(nèi)存、硬盤利用率,各端口流量及通斷狀況進行監(jiān)控,發(fā)現(xiàn)異常,及時處理,實現(xiàn)了預(yù)防關(guān)口的遷移,保證了服務(wù)器良好運行,網(wǎng)絡(luò)狀態(tài)正常。
2008年12月24日,運維工程師通過網(wǎng)絡(luò)監(jiān)控軟件發(fā)現(xiàn)統(tǒng)計平臺應(yīng)用服務(wù)器硬盤空間占用率已高達95%。隨后我們及時通知了系統(tǒng)承建公司,要求他們關(guān)注此問題并對磁盤空間進行清理。2009年1月16日,運維工程師發(fā)現(xiàn)該服務(wù)器硬盤空間使用率高達99%,隨后立即要求系統(tǒng)承建公司馬上進行磁盤數(shù)據(jù)清理。事后系統(tǒng)承建公司主動打電話對我們的提醒表示感謝,因為當時正是統(tǒng)計系統(tǒng)年報數(shù)據(jù)上報階段,如果硬盤滿了會對整個應(yīng)用造成影響。通過這件事,我們看到運維工作的規(guī)范和加強不僅僅提高了系統(tǒng)運行可靠性,而且對系統(tǒng)承建公司也是一種管理和約束。
強調(diào)“技術(shù)、人員、流程”三者結(jié)合的IT服務(wù)管理,成為我們優(yōu)化組織結(jié)構(gòu)、改進管理流程的方法。
首先,構(gòu)筑三級服務(wù)體系是指服務(wù)管理、服務(wù)整合和服務(wù)實施三級服務(wù)組織體系。
其次,我們結(jié)合自身實際,根據(jù)人員崗位、編制,設(shè)立由中心分管領(lǐng)導(dǎo)負總責(zé)、網(wǎng)絡(luò)管理部人員擔(dān)任二線主管和聘請外部人員擔(dān)任一線服務(wù)臺人員的三級流程管理體系,并對崗位職責(zé)進行細化,明確規(guī)定各崗位所需達到的專業(yè)技能水平。而在日常事件管理過程中,我們要求一線人員針對不同問題進行轉(zhuǎn)線。事件主管(二線主管)根據(jù)服務(wù)級別派遣不同技術(shù)人員電話或赴現(xiàn)場解決問題。事件解決后,由二線技術(shù)人員填寫事件記錄。如事件未能解決,事件主管將負責(zé)將事件轉(zhuǎn)交三線技術(shù)或管理人員解決。三線人員解決問題后,填寫事件處理記錄。事件處理完畢后,事件主管核實事件處理情況后,關(guān)閉事件。同時,事件主管根據(jù)事件的解決處理情況進行評估,并根據(jù)事件發(fā)生率及相關(guān)情況決定是否升級到問題或變更。根據(jù)事件管理生成的問題,問題主管應(yīng)分配專業(yè)技術(shù)或管理人員按問題進行管理。針對不同的問題,制定完成計劃,并監(jiān)督進展情況。一旦涉及的問題得到解決,應(yīng)及時編寫知識庫資料并著手進行培訓(xùn),防止問題的再次發(fā)生。正是通過事件管理流程的規(guī)范,才逐步使運維管理流程化、制度化,真正把管理落到實處,防治了出現(xiàn)“燈下黑”或出現(xiàn)管理上的死角。同時這種分級轉(zhuǎn)辦工作模式,幫助我中心實現(xiàn)了服務(wù)管理的SLA,對進一步提高用戶滿意度,保障重點系統(tǒng)的高可用性和服務(wù)的持續(xù)性,發(fā)揮了重要作用。
北京市衛(wèi)生局已經(jīng)逐步由大規(guī)模的信息系統(tǒng)建設(shè)階段轉(zhuǎn)到以系統(tǒng)運維為主的維護階段, 我們發(fā)現(xiàn)運維工作的薄弱環(huán)節(jié)不是在技術(shù)方面。網(wǎng)絡(luò)管理軟件、安全設(shè)備、系統(tǒng)監(jiān)控系統(tǒng)等等有助于運維的技術(shù)手段日漸豐富,但運維工作不是簡單地采購幾套系統(tǒng)幾臺設(shè)備,而是要使用科學(xué)的管理方法。北京市電子政務(wù)IT運維服務(wù)支撐系統(tǒng)系列規(guī)范就是政府部門做好IT運維工作很好的理論指導(dǎo)。