侯杰華,申玉華,鄒 暾,馬 濤
1.湖南省煙草公司信息中心,長沙市芙蓉南路一段628號 410004
2.湖南省永州市煙草公司信息中心,湖南省永州市冷水灘區(qū)珍珠路909號 425000
3.武漢楚煙信息技術(shù)有限公司,武漢市硚口區(qū)寶豐路6號香溢大酒店7樓 430030
隨著應(yīng)用集成技術(shù)的逐步完善,建立統(tǒng)一、規(guī)范的運維和安全管理已成為湖南省煙草公司(以下簡稱湖南煙草)信息化建設(shè)的一項重要工作,以IT 運維服務(wù)為主體對企業(yè)信息網(wǎng)絡(luò)和應(yīng)用系統(tǒng)進行實時監(jiān)控,可提前發(fā)現(xiàn)系統(tǒng)隱患和潛在風(fēng)險,使企業(yè)信息網(wǎng)絡(luò)和應(yīng)用系統(tǒng)保持高效、穩(wěn)定和安全地運行。國內(nèi)學(xué)者在信息安全[1]和運維服務(wù)管理[2]方面都進行了研究,公安部和國家煙草專賣局對信息安全等級[3]和信息安全運維保障[4-5]也發(fā)布了規(guī)范和建設(shè)指南。煙草行業(yè)在采用SOA(Serviceoriented Architecture)架構(gòu)進行信息系統(tǒng)集成[6]方面進行過探索,但把信息安全和運維服務(wù)管理集成到一個軟件平臺、實現(xiàn)一體化管理還未見報道。湖南煙草在“煙草商業(yè)系統(tǒng)應(yīng)用平臺集成”等重點信息化項目建設(shè)的帶動下,信息化水平已達到較高程度,為實現(xiàn)全省集中統(tǒng)一管理,確保運維工作的安全性和規(guī)范性,采用SOA 架構(gòu)基于ITIL(Information Technology Infrastructure Library)技術(shù)建立了適應(yīng)業(yè)務(wù)和管理需求的信息安全運維服務(wù)一體化管理系統(tǒng),以規(guī)范運維管理流程,實現(xiàn)運維工作的規(guī)范化和監(jiān)控管理的自動化,保證湖南煙草業(yè)務(wù)系統(tǒng)的穩(wěn)定運行。
目前湖南煙草已建立的業(yè)務(wù)系統(tǒng)涉及辦公、煙葉、卷煙、物流、專賣、內(nèi)管、財務(wù)等多個業(yè)務(wù)領(lǐng)域,建立了應(yīng)用集成平臺,形成了以省局、白沙物流、市局三級路由設(shè)備構(gòu)建全省互聯(lián)互通的OSPF(Open Shortest Path First)網(wǎng)絡(luò),利用流量工程技術(shù)保障核心業(yè)務(wù)的數(shù)據(jù)交換。網(wǎng)絡(luò)運維和安全監(jiān)管方面,在省局和各市局、縣局都配置有專業(yè)的數(shù)據(jù)中心機房,以及相應(yīng)的機房管理制度和業(yè)務(wù)運維服務(wù),保證業(yè)務(wù)的連續(xù)性。網(wǎng)絡(luò)接入方面,采用靈活的動態(tài)Vlan 技術(shù),設(shè)置獨立的服務(wù)器Vlan 域,有效地保證了業(yè)務(wù)系統(tǒng)訪問控制機制。系統(tǒng)運維工作以服務(wù)外包的方式,由第三方技術(shù)人員負(fù)責(zé),在統(tǒng)一地點辦公,少數(shù)人員通過VPN 撥入遠程維護,市局、縣局的現(xiàn)場維護工作有嚴(yán)格的審批流程。
盡管湖南煙草已建立了較完善的運維管控制度體系,但在實際工作中仍存在一些安全風(fēng)險,主要是運維行為由各開發(fā)商自動負(fù)責(zé),缺少運維角色集中管理,對信息系統(tǒng)的敏感信息、運維時效、運維監(jiān)控和審計也缺乏管理,存在安全風(fēng)險,信息系統(tǒng)的整體運維缺乏完整性統(tǒng)計和分析,難以獲取具體操作的統(tǒng)計分析數(shù)據(jù)等。
針對湖南煙草安全運維工作存在的風(fēng)險和不足,采用SOA 架構(gòu)[6]建立了統(tǒng)一的信息安全運維服務(wù)一體化管理平臺,集中監(jiān)管全省煙草信息系統(tǒng)所有硬件設(shè)備、網(wǎng)絡(luò)鏈路、數(shù)據(jù)庫、中間件和業(yè)務(wù)系統(tǒng)的運行狀態(tài)和安全狀態(tài)。基于ITIL 技術(shù)[2]建立了統(tǒng)一的事件、問題、配置、變更、日志和安全等管理流程,統(tǒng)一了全省的運維模式,按需授權(quán)和集中審計,滿足各類運維業(yè)務(wù)需要,實現(xiàn)信息系統(tǒng)管理的逐級監(jiān)控、信息共享、運維互助,做到“可視化展示、集成化管理”。
安全運維服務(wù)一體化管理平臺在系統(tǒng)架構(gòu)上分為3 個層面:數(shù)據(jù)采集層、匯總分析層和展現(xiàn)層,見圖1。數(shù)據(jù)采集層主要承擔(dān)基礎(chǔ)數(shù)據(jù)采集業(yè)務(wù),通過數(shù)據(jù)采集器,采集?。ㄊ校┕镜慕粨Q機、路由器、主機、操作系統(tǒng)、中間件、數(shù)據(jù)庫、應(yīng)用系統(tǒng)以及機房設(shè)備的指標(biāo)信息,將指標(biāo)信息保存在數(shù)據(jù)采集的數(shù)據(jù)庫中。匯總分析層進行業(yè)務(wù)處理,完成設(shè)備監(jiān)控、運維管理、安全審計和分析等功能,并形成安全運維知識庫。展現(xiàn)層將匯總分析層處理產(chǎn)生的各類信息以圖形、列表等形式展現(xiàn)給運維管控人員,為運維工作提供依據(jù)。
圖1 信息安全運維服務(wù)一體化管理平臺系統(tǒng)架構(gòu)
如圖2 所示,管理平臺采用支持雙機熱備[4]的硬件設(shè)備,以雙機熱備模式部署于服務(wù)器域,當(dāng)主機出現(xiàn)故障時備機接管會話;平臺的WEB 服務(wù)器、郵件服務(wù)器、審計服務(wù)器、日志服務(wù)器、身份認(rèn)證系統(tǒng)集中部署在省局機房,供全省統(tǒng)一使用;平臺的數(shù)據(jù)采集器、訪問控制設(shè)備、流量分析設(shè)備等軟硬件設(shè)施采用分布式方式,分別部署在省、市信息中心的數(shù)據(jù)中心機房;多功能安全網(wǎng)關(guān)部署在運維管理室接入交換機連接全局的級聯(lián)鏈路上,對運維訪問提供深層防御。
安全運維一體化管理平臺主要實現(xiàn)基礎(chǔ)資源、業(yè)務(wù)監(jiān)控、運維服務(wù)和信息安全4 大管理功能,通過配置管理跟蹤和日志智能分析,實現(xiàn)信息安全事件的自動采集、分析、預(yù)警,為運維人員處理各類事件提供依據(jù)。
圖2 信息安全運維服務(wù)一體化管理平臺設(shè)備部署
基礎(chǔ)管理模塊通過對網(wǎng)絡(luò)、設(shè)備、備份、機房、應(yīng)用系統(tǒng)等信息系統(tǒng)的數(shù)據(jù)采集、分析、告警,建立起配置管理數(shù)據(jù) 庫(CMDB,Configuration Management Database),對操作系統(tǒng)、中間件、數(shù)據(jù)庫、WEB 服務(wù)器等應(yīng)用系統(tǒng)性能進行監(jiān)控管理。數(shù)據(jù)采集由Agent 和AgentServer 兩部分組成,Agent 部署在被監(jiān)控系統(tǒng)上,采用C、C++、Java 開發(fā),數(shù)據(jù)采集插件根據(jù)被監(jiān)控系統(tǒng)的需要采用C、C++、Java、SH 等開發(fā)。AgentServer 在系統(tǒng)中具有管理本地資源、調(diào)度Agent、檢測事件等能力,接收來自Server 的監(jiān)控資源、監(jiān)控指標(biāo)、監(jiān)控策略等信息,放入共享內(nèi)存中,并創(chuàng)建任務(wù)隊列,按照既定的策略發(fā)指令給Agent,由Agent 調(diào)用相應(yīng)的采集程序,將采集的信息反饋給AgentServer,AgentServer 收到后,通過本機上的事件檢測引擎,進行事件的初步檢測并傳遞至數(shù)據(jù)處理層進行處理;Agent 和AgentServer 之間的通信采用SNMP、TCP/IP 協(xié)議;AgentServer 還具有接收來自其他監(jiān)控系統(tǒng)或第三方產(chǎn)品的事件數(shù)據(jù)的能力,實現(xiàn)對IT 系統(tǒng)的集中監(jiān)控和管理。
數(shù)據(jù)分析處理是整個系統(tǒng)的核心,主要對采集的數(shù)據(jù)進行聚合、統(tǒng)計與分析處理工作,并根據(jù)各種性能KPI(Key Performance Indicator)指標(biāo)的特征定義告警門限,通過與事件管理之間的接口及時生成告警信息;事件數(shù)據(jù)處理首先對采集或接收到的各種原始事件進行標(biāo)準(zhǔn)化處理,再對事件進行分類和分級,并根據(jù)各種條件進行事件合并、壓縮和過濾,然后通過相關(guān)性分析盡可能地確定事件發(fā)生根源,提高告警信息的精確性;告警數(shù)據(jù)處理主要對告警信息進行傳遞、升級和前轉(zhuǎn)處理,通過監(jiān)控界面和其他告警渠道通知用戶。為提高系統(tǒng)效率,事件的規(guī)則庫等信息在系統(tǒng)啟動時調(diào)入內(nèi)存中,數(shù)據(jù)處理工作通過操作內(nèi)存完成。
業(yè)務(wù)監(jiān)控[7]管理是從業(yè)務(wù)的角度重新詮釋和展現(xiàn)IT 組件和服務(wù),屏蔽IT 基礎(chǔ)架構(gòu)層次的復(fù)雜性和技術(shù)細(xì)節(jié),按照業(yè)務(wù)影響和故障的嚴(yán)重程度,了解各項業(yè)務(wù)的重要性和緊迫性。監(jiān)控視圖按主機、網(wǎng)絡(luò)、應(yīng)用等不同角度實現(xiàn)多方式、多層次的展現(xiàn),有拓?fù)浜蛨D表兩種展現(xiàn)方式,見圖3。拓?fù)湔宫F(xiàn)包括結(jié)構(gòu)展現(xiàn)和關(guān)系展現(xiàn)。結(jié)構(gòu)展現(xiàn)是按照IT 資源的組成結(jié)構(gòu)逐層次展現(xiàn)IT資源的子資源及其可用性狀態(tài);關(guān)系展現(xiàn)是按照拓?fù)鋱D的方式展現(xiàn)IT 資源之間的關(guān)聯(lián)關(guān)系,同時也包括按顏色展現(xiàn)資源的可用性狀態(tài)及其相互之間的影響。圖表展現(xiàn)能夠按不同層次的管理、運維、業(yè)務(wù)人員以表格與圖形方式展現(xiàn)各類IT 資源每天、每周以及每月的信息報表,同時也能夠展現(xiàn)不同層次管理人員所關(guān)心的各類IT 資源的性能趨勢等報表。
圖3 業(yè)務(wù)監(jiān)控管理功能視圖
事件告警是集中監(jiān)控管理建設(shè)的主要目的,系統(tǒng)通過定義好的發(fā)現(xiàn)策略對所有設(shè)備進行自動發(fā)現(xiàn),數(shù)據(jù)寫入配置管理數(shù)據(jù)庫并同步更新拓?fù)鋱D。當(dāng)告警事件發(fā)生后,系統(tǒng)自動進行業(yè)務(wù)影響分析,通過定義好的模板將告警信息向上傳遞或過濾,實現(xiàn)業(yè)務(wù)預(yù)警。告警方式除聲光告警外,還能利用系統(tǒng)平臺提供的API 實現(xiàn)其他告警方式,如短信、電話語音、E-mail 等。在確認(rèn)告警的基礎(chǔ)上,由人工對業(yè)務(wù)系統(tǒng)、數(shù)據(jù)庫進行信息關(guān)聯(lián),并錄入人員信息等,為領(lǐng)導(dǎo)決策提供依據(jù)。
運維服務(wù)管理基于ITIL 流程框架,實現(xiàn)事件、問題、變更、需求、知識庫[2]等管理功能,見圖4。運維服務(wù)管理的核心是工作流引擎,基于工作流引擎構(gòu)架了ITIL 主要流程,包括服務(wù)臺、事件問題、問題管理等,以及結(jié)合自身經(jīng)驗定制的運維管理流程和需求管理流程。根據(jù)不同權(quán)限定制的控制臺,可以供企業(yè)不同層面用戶使用。服務(wù)管理平臺與底層的監(jiān)控管理平臺以及郵件、短信等系統(tǒng)之間有接口,能夠接受監(jiān)控管理平臺的事件。
在運維服務(wù)管理中,事件管理是問題管理、變更管理、需求管理的來源和基礎(chǔ),主要流程包括:①檢測和記錄。在整個生命周期中對事件進行檢測、跟蹤、監(jiān)視和更新,并將該信息用于問題管理、報告和流程優(yōu)化。②服務(wù)請求的處理。對不同類型的服務(wù)請求以不同的方式處理。③分類和初始支持。對事件劃分類別,并根據(jù)影響和緊迫性確定事件的優(yōu)先級,為事件提供解決。④調(diào)查和診斷。調(diào)查處理事件和收集診斷數(shù)據(jù),并根據(jù)服務(wù)水平協(xié)議(SLA,Service-Level Agreement)要求,進行相應(yīng)事件的升級、管理上報或功能上報。⑤重大事件應(yīng)急處置。為處理超出常規(guī)的嚴(yán)重事件,提供高優(yōu)先級的事件所需要的協(xié)調(diào)、上報、溝通和資源。⑥解決和恢復(fù)。通過與變更管理流程配合以實施補救操作。⑦終結(jié)。用戶對該事件的解決感到滿意,在關(guān)閉事件記錄前,更新事件記錄并將其分配到某個終結(jié)類別中。
圖4 運維服務(wù)管理
安全管理主要實現(xiàn)用戶的統(tǒng)一身份認(rèn)證和訪問權(quán)限控制,運維人員的會話同步監(jiān)控與過程重放、異常維護行為告警及阻斷、運維操作行為記錄與查詢等功能。系統(tǒng)通過帳號同步收集LDAP(Lightweight Directory Access Protocol)技術(shù)實現(xiàn)統(tǒng)一的用戶身份認(rèn)證,帳號同步是雙向的,一方面是帳號管理模塊收集資源中主從帳號的過程,另一方面是帳號管理模塊將創(chuàng)建的主從帳號下發(fā)到資源中。用戶信息保存在LDAP服務(wù)器中,LDAP 服務(wù)器中的主從帳號也可以同步到管理的資源中。系統(tǒng)通過“審計系統(tǒng)帳號”與“服務(wù)器帳號”相關(guān)聯(lián)的方式,為每一個運維人員創(chuàng)建唯一的登錄帳號,運維人員通過自身的“審計系統(tǒng)帳號”,先登錄安全管理系統(tǒng),再登錄目標(biāo)服務(wù)器,從而實現(xiàn)將用戶身份的認(rèn)證落實到“自然人”。
配置管理[5]是通過建立的配置管理數(shù)據(jù)庫對所有的IT 組件、組件的版本和狀態(tài)以及組件之間的相互關(guān)系進行跟蹤,通過維護信息系統(tǒng)和服務(wù)的邏輯模式來協(xié)助管理運維服務(wù)。對網(wǎng)絡(luò)、設(shè)備、業(yè)務(wù)、備份、機房各系統(tǒng)進行配置管理,根據(jù)問題管理提交的變更請求修改配置,核實變更內(nèi)容并準(zhǔn)確記錄。日志智能分析包括系統(tǒng)及事件日志和防火墻、VPN、代理服務(wù)器日志兩部分,實現(xiàn)對主機、業(yè)務(wù)、網(wǎng)絡(luò)、備份和機房的事件日志集中管理,通過日志管理對事件進行分析、過濾并找出故障原因,快速解決問題,從而保障業(yè)務(wù)正常運營。
通過在被監(jiān)控平臺上部署Agent,可以對網(wǎng)絡(luò)、設(shè)備、業(yè)務(wù)、備份、機房5 大系統(tǒng)進行數(shù)據(jù)自動采集、分析、預(yù)警和監(jiān)控,建立起配置管理數(shù)據(jù)庫。主要收集各種性能KPI 和告警KPI 數(shù)據(jù),通過對SYSLOG、SNMP TRAP、ICMP POLL、TCP POLL 和性能閥值定義等手段采集告警信息,并將采集到的信息經(jīng)過過濾、級別定義等處理在系統(tǒng)界面上進行展示。前端SNMP 采集器根據(jù)系統(tǒng)中配置好的性能采集頻率主動輪詢遠端Agent,獲取各項性能數(shù)據(jù)。通過ICMP 協(xié)議可采集部分設(shè)備間端到端網(wǎng)絡(luò)時延指標(biāo),為網(wǎng)絡(luò)性能診斷提供依據(jù)。
湖南煙草安全運維管理系統(tǒng)實現(xiàn)了運維人力資源統(tǒng)一調(diào)度,解決了目前運維和安全管理工作中存在的溝通不暢、效率低下、服務(wù)質(zhì)量無法保證等問題。湖南省局部署安全運維服務(wù)一體化管理系統(tǒng)后,實現(xiàn)了信息安全事件的自動采集、分析、預(yù)警和處理,運維人員由原來的60 多人減少到11 人,提高了工作效率,節(jié)約了人力資源。同時,安全運維管理系統(tǒng)實現(xiàn)了業(yè)務(wù)系統(tǒng)和基礎(chǔ)設(shè)施的實時監(jiān)控,將服務(wù)臺、事件管理等服務(wù)流程電子化,固化崗位職責(zé),對運維人員的操作過程進行痕跡保留,實現(xiàn)人員身份、運維操作和訪問控制的統(tǒng)一管理。系統(tǒng)還將日常運維和信息安全進行了資源整合,通過不斷積累的知識庫,加強了人員間的溝通和協(xié)作,提升了工作人員的專業(yè)化水平。
[1]胡新華,耿剛勇.中國煙草總公司信息系統(tǒng)容災(zāi)中心技術(shù)方案設(shè)計[J].煙草科技,2010(3):22-25.
[2]顧宇.基于ITIL 的IT 運維服務(wù)管理探析[J].信息與電腦:理論版,2011(4):21-25.
[3]中華人民共和國公安部.信息安全等級保護管理辦法[S].2007.
[4]國家煙草專賣局.煙草行業(yè)信息安全保障體系建設(shè)指南[R].2008.
[5]國家煙草專賣局.煙草行業(yè)信息系統(tǒng)運行維護規(guī)范[S].2009.
[6]胡新華,耿剛勇.面向服務(wù)架構(gòu)在煙草信息系統(tǒng)集成中的應(yīng)用[J].煙草科技,2010(5):19-23.
[7]丁偉,肖強,李世祥,等.煙葉收購內(nèi)部監(jiān)管系統(tǒng)的設(shè)計與應(yīng)用[J].煙草科技,2011(7):24-27.