錢逢安 上海鐵路局信息技術(shù)所
信息服務(wù)管理系統(tǒng)設(shè)計與實現(xiàn)
錢逢安 上海鐵路局信息技術(shù)所
基于我局信息運維部門目前面臨的現(xiàn)實困難,設(shè)計并實現(xiàn)了信息服務(wù)管理系統(tǒng),該系統(tǒng)規(guī)范和監(jiān)督運維工作各環(huán)節(jié),降低運維人員勞動強度,提高運維知識共享,保障各信息系統(tǒng)的持續(xù)穩(wěn)定運行。
機房監(jiān)控;運行維護;故障管理
經(jīng)過多年的努力,我局信息化應(yīng)用得到長足發(fā)展。信息系統(tǒng)已經(jīng)成為我局決策支持、客貨運營銷、調(diào)度指揮的重要工具。目前運行的信息系統(tǒng)主要有:客票系統(tǒng)、調(diào)度系統(tǒng)、三級建庫系統(tǒng)、辦公自動化系統(tǒng)、安全平臺系統(tǒng)、其他專業(yè)信息系統(tǒng)等。作為支撐這些應(yīng)用運行的底層平臺小型機、服務(wù)器、網(wǎng)絡(luò)日趨復(fù)雜多樣。目前全局核心小型機多達百余套,主要機型是IBM P系列、HP SuperDome系列、Oracle SPARC系列,存儲涉及IBM、HP、EMC、HDS等多家產(chǎn)品,網(wǎng)絡(luò)設(shè)備涉及思科、華為、港灣,服務(wù)器、微機更是數(shù)以千計。隨著應(yīng)用范圍的不斷延伸,投入運營的軟硬件系統(tǒng)更加龐大復(fù)雜。
信息系統(tǒng)項目投入生產(chǎn)之后,信息運維部門承擔(dān)相關(guān)軟硬件系統(tǒng)的所有監(jiān)控維護責(zé)任。如何保障這些系統(tǒng)24 h不間斷穩(wěn)定運行是對鐵路運維保障部門一個重大挑戰(zhàn)。分析我局實際情況,各信息運維部門普遍存在如下困難:
1.1 故障管理過程不規(guī)范,故障處理效率不能保證
故障管理是對運行生產(chǎn)過程中發(fā)生的故障進行管理,這是信息運行維護部門日常工作的重要內(nèi)容,其主要工作包括故障報告、故障登記、故障解決、故障事后分析總結(jié)等過程。及時、規(guī)范處理故障是保證信息系統(tǒng)持續(xù)運行的首要條件。標(biāo)準(zhǔn)的故障管理規(guī)范要求對故障事件進行科學(xué)、量化分類,并設(shè)定事件的優(yōu)先級。依據(jù)在鐵路內(nèi)部和外部簽訂相應(yīng)的合同與服務(wù)級別協(xié)議,獲得必要的資源和支持,及時解決突發(fā)事件和故障,減少因突發(fā)事件和故障導(dǎo)致的信息服務(wù)中斷。
1.2 缺乏運維知識積累,不利提高運維人員的知識能力
建立運維知識庫是信息運維管理的一項重要的工作。信息運行維護人員在實際工作中經(jīng)常會碰到曾經(jīng)發(fā)生的類似故障和事件,這些故障和事件的解決方案無疑是一筆重要的財富。由于缺乏必要的工具,運維部門常常無法記錄和共享這些寶貴知識。信息運維部門必須建立企業(yè)級別知識庫管理機制,通過建立知識庫框架、建立與變更管理、事件管理等流程的接口、梳理知識分類、定義持續(xù)改進機制等,使得知識管理融入運維日常工作中,持續(xù)提升信息運維部門知識質(zhì)量。
1.3 鐵路計算機核心資源的監(jiān)控
鐵路計算機設(shè)備狀態(tài)以及關(guān)鍵資源對生產(chǎn)系統(tǒng)的穩(wěn)定運行起著重要作用。定期巡視各類設(shè)備狀態(tài)、查看關(guān)鍵資源是鐵路運維人員的首要工作。目前,主要依賴鐵路運維人員定期查看被檢查設(shè)備系統(tǒng)日志和資源使用狀況,這種監(jiān)控方式有很大的局限性:故障發(fā)現(xiàn)依賴運維人員的個人工作態(tài)度和工作能力、運維人員的勞動強度太大、間休期間不可能進行巡視和檢查,期間發(fā)生的故障也就不可能發(fā)現(xiàn)和記錄。
2.1 總體結(jié)構(gòu)
信息服務(wù)管理系統(tǒng)以ASG-SENTRY為基礎(chǔ),以事件為驅(qū)動,從整體架構(gòu)上,系統(tǒng)可以分為:監(jiān)測數(shù)據(jù)采集與加工、異常事件報警、運維過程規(guī)范化管理3大部分。
數(shù)據(jù)采集與加工功能主要是將所有被監(jiān)控系統(tǒng)的監(jiān)控信息采集收集并寫到預(yù)定義的信息交換數(shù)據(jù)庫中。數(shù)據(jù)處理模塊從交換數(shù)據(jù)庫讀取信息,進行分類、加工和整理,再寫入目標(biāo)數(shù)據(jù)庫中。
異常事件報警模塊從目標(biāo)數(shù)據(jù)庫中讀取信息,根據(jù)事件影響的輕重程度,以不同顏色的文字信息等不同形式報警,提醒運維人員及時處理。運維人員隨時通過Web瀏覽器查看監(jiān)控信息,技術(shù)支持人員通過該平臺接收查看故障描述,進行故障分析,故障處理結(jié)束后通過該平臺反饋故障處理結(jié)果。
運維過程規(guī)范化管理部分主要是對信息運維過程中各類過程進行規(guī)范化管理,確保各類過程可控可追溯,確保運維效率和責(zé)任考核。信息服務(wù)管理系統(tǒng)總體框架如圖1所示。
圖1 信息服務(wù)管理系統(tǒng)總體框架
2.2 開發(fā)環(huán)境
2.2.1 系統(tǒng)平臺
2.2.2 ASG軟件
上海鐵路局信息服務(wù)管理系統(tǒng)已經(jīng)實現(xiàn)功能包括:事件管理、值班管理、故障管理、知識庫、文檔管理、系統(tǒng)維護、統(tǒng)計輸出等主要功能模塊。系統(tǒng)采用web方式,用戶通過瀏覽器完成全部操作功能。
3.1 事件管理
事件管理是通過安裝在被監(jiān)控對象(小型機、服務(wù)器、微機等)設(shè)備上的信息采集插件或配置監(jiān)控對象(網(wǎng)絡(luò)設(shè)備),將被監(jiān)控對象的監(jiān)控數(shù)據(jù)主動發(fā)送到交換數(shù)據(jù)庫中,信息服務(wù)管理系統(tǒng)數(shù)據(jù)加工模塊將原始數(shù)據(jù)過濾加工并送到目標(biāo)數(shù)據(jù)庫中,信息服務(wù)管理系統(tǒng)Web服務(wù)器提取這些數(shù)據(jù)并對比相關(guān)字典,產(chǎn)生報警信息。該功能模塊包含如下幾項功能:報警事件查看與處理,報警信息歷史查詢。
3.2 值班管理
我局信息運維部門大多實行倒班制,有三班倒或四班倒。運維人員需要記錄值班期間發(fā)生的各類事項,確保各類信息系統(tǒng)相關(guān)事項可追溯跟蹤。該功能模塊包含以下幾項功能:
值班人員交接班功能,由交班人員向接班人員報告當(dāng)班期間發(fā)生的各類事項,核心內(nèi)容包括上個班遺留的未結(jié)束故障及其處理結(jié)果、本班發(fā)生的故障及其處理結(jié)果、其他需要交接的其他重要事項等;
值班日志功能,記錄和查詢值班期間一些零碎事項,如重要部門通知、本班期間應(yīng)急演練情況、新設(shè)備安裝、舊設(shè)備報廢等;
巡視記錄功能,記錄和查詢值班人員的機房定期巡視信息,主要是對不能自動監(jiān)控設(shè)備和系統(tǒng)進行人工監(jiān)控和現(xiàn)場巡視。
3.3 故障管理
故障管理主要是對信息系統(tǒng)運行過程中發(fā)生的各類軟硬件故障處理過程進行規(guī)范化管理,確保發(fā)生的故障及時有效處理,保證各類信息系統(tǒng)持續(xù)穩(wěn)定運行。故障處理模塊包含以下各項功能,涵蓋故障處理過程的每個環(huán)節(jié):
故障登記對發(fā)生的故障進行登記,確保故障處理技術(shù)人員得到相關(guān)故障信息。故障登記內(nèi)容包括故障現(xiàn)象、發(fā)生時間、負責(zé)故障處理的技術(shù)人員及其主管、故障通知的時間等。故障登記最后生成故障處理工單并分發(fā)相關(guān)技術(shù)人員。
故障通知是當(dāng)故障需要多人員、多部門協(xié)作處理時,通知其他的技術(shù)人員及其主管,協(xié)調(diào)多部門共同處理。故障通知功能主要是為了提高故障處理效率,強化故障處理人員的合作和工效的考核。
技術(shù)支持是故障處理結(jié)束后,故障處理人員對本故障的故障原因以及故障處理過程進行分析總結(jié),并反饋值班人員。值班人員開始結(jié)束故障過程。
故障結(jié)束是在故障處理完成,值班人員收到所有故障處理人員的故障原因及故障處理總結(jié)后,正式關(guān)閉故障的過程。
故障統(tǒng)計提供故障分類查詢統(tǒng)計功能。值班人員可以根據(jù)故障發(fā)生的時間、故障報告單位、故障涉及項目、故障等級、故障責(zé)任部門等條件來統(tǒng)計故障,為相關(guān)決策、考核提供依據(jù)。
3.4 知識庫管理
知識庫的主要內(nèi)容是各類信息系統(tǒng)軟硬件故障的成熟解決方案。知識庫來源于以下途徑:路內(nèi)相同或類似信息系統(tǒng)已發(fā)生故障的成功處理經(jīng)驗、路外廠家提供的各類故障官方處理方案、個人提供且經(jīng)檢驗為正確解決方案。信息服務(wù)管理系統(tǒng)實現(xiàn)以下功能:知識庫錄入、知識庫變更、知識庫審核、知識庫檢索、知識庫刪除等。
3.5 文檔管理
文檔管理是信息運維管理一個組成部分,也是信息系統(tǒng)配置管理的一個重要組成部分。信息服務(wù)管理系統(tǒng)實現(xiàn)了文檔常見的功能:文檔上傳、文檔查閱、文檔刪除等。為了便于查閱故障分析文檔,特別增加故障分析報告文檔專欄。
3.6 系統(tǒng)維護
系統(tǒng)維護主要是對信息服務(wù)管理系統(tǒng)本身進行管理,其主要功能有系統(tǒng)日志管理、用戶及授權(quán)管理以及系統(tǒng)字典管理等。
3.7 統(tǒng)計輸出
統(tǒng)計輸出模塊主要包含值班日報表和歷史報表輸出功能。將電算站、路局值班日志及故障信息按照每天或指定時間段綜合成報表輸出,為相關(guān)領(lǐng)導(dǎo)提供參考。
信息運維監(jiān)控系統(tǒng)實現(xiàn)關(guān)鍵計算機狀態(tài)的自動監(jiān)控,減輕了運維人員的工作強度,有效提高運維部門的工作效率;信息運維監(jiān)控系統(tǒng)對運行生產(chǎn)過程中發(fā)生的故障進行管理,對故障提供相應(yīng)的資源和技術(shù)支持,提高了信息系統(tǒng)故障處理效率;信息運維監(jiān)控系統(tǒng)知識庫收錄技術(shù)人員各類故障處理的解決方案,通過共享管理機制,使知識管理融入運維日常工作中,持續(xù)提升運維部門的工作質(zhì)量。
責(zé)任編輯:王華 胡雄偉
來稿日期:2016-09-22