尚 英,陳 武,童宇軒
(1.國(guó)網(wǎng)甘肅省電力公司蘭州供電公司,甘肅 蘭州 730050;2.國(guó)網(wǎng)信通億力科技有限責(zé)任公司, 福建 福州 350001)
自動(dòng)化運(yùn)維作為一種創(chuàng)新的運(yùn)維模式,結(jié)合了運(yùn)維流程、平臺(tái)系統(tǒng)、運(yùn)維人員的基本能力、業(yè)務(wù)規(guī)劃及業(yè)務(wù)建設(shè)。該系統(tǒng)可以解決重復(fù)性問(wèn)題,并促進(jìn)運(yùn)維效率的提升,更好地確保業(yè)務(wù)安全性。
運(yùn)維自動(dòng)化技術(shù)支撐體系建設(shè)通常有4種模式,即分散建設(shè)、集中模式、平臺(tái)模式、自助模式。這4種模式可以看成是企業(yè)運(yùn)維自動(dòng)化能力建設(shè)不斷走向成熟的4個(gè)階段,最終的目標(biāo)是實(shí)現(xiàn)自助運(yùn)維。
采用1(平臺(tái))+N(場(chǎng)景工具)模式的優(yōu)勢(shì)在于如下8點(diǎn)。(1)隨著運(yùn)維規(guī)模的擴(kuò)大,運(yùn)維工具數(shù)量、種類也大幅增加,運(yùn)維工具本身的管理成為必須面對(duì)的問(wèn)題,需要統(tǒng)一集中的運(yùn)維平臺(tái)支撐。(2)平臺(tái)具備廣泛的兼容性,可納管全面的IT設(shè)備和系統(tǒng)。(3)具備與現(xiàn)有運(yùn)維工具集成的能力,最過(guò)往投資保護(hù)。(4)在平臺(tái)上可靈活擴(kuò)展到更多運(yùn)維場(chǎng)景,而不增加平臺(tái)維護(hù)成本.(5)平臺(tái)具備向數(shù)據(jù)化、智能化演進(jìn)的可能性,滿足長(zhǎng)期建設(shè)要求。(6)場(chǎng)景可由實(shí)際使用者根據(jù)自身使用需求提出并建設(shè)。(7)發(fā)揮多方積極性,各取所長(zhǎng).(8)運(yùn)維團(tuán)隊(duì)逐步具有較強(qiáng)的運(yùn)維開(kāi)發(fā)能力[1-2]。
運(yùn)維自動(dòng)化技術(shù)支撐體系繼承ITOM3.0基礎(chǔ)技術(shù)要求,業(yè)務(wù)功能全部覆蓋ITOM3.0業(yè)務(wù)點(diǎn),按“1平臺(tái)+N場(chǎng)景工具”的思路設(shè)計(jì),分為運(yùn)維對(duì)象層、采集控制層、技術(shù)平臺(tái)層、運(yùn)維工具層、統(tǒng)一門戶層及大屏展示層。總體技術(shù)框架如圖1所示[3]。
對(duì)于運(yùn)維對(duì)象層,即服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)、中間件、應(yīng)用、業(yè)務(wù)系統(tǒng)及基礎(chǔ)設(shè)施等運(yùn)維對(duì)象。
對(duì)于技術(shù)平臺(tái)層,由資源中心應(yīng)用(統(tǒng)一CMDB)、作業(yè)中心應(yīng)用、流程中心應(yīng)用、數(shù)據(jù)中心應(yīng)用、模型中心應(yīng)用、監(jiān)控中心應(yīng)用、AI中心應(yīng)用、集成中心應(yīng)用、開(kāi)發(fā)中心應(yīng)用、agent控制中心應(yīng)用,共10個(gè)中心組成公共支撐平臺(tái)。中心內(nèi)部可采用緊耦合設(shè)計(jì),實(shí)現(xiàn)中心內(nèi)部功能;中心之間采用去核心的分布式設(shè)計(jì),實(shí)現(xiàn)分布式、扁平化的應(yīng)用結(jié)構(gòu)。
對(duì)于場(chǎng)景工具層,從資源管理類工具、監(jiān)控巡檢類工具、資源部署類工具、故障處置類工具、運(yùn)行分析類工具、檢修管理類工具、安全管理類工具、備份管理類工具及運(yùn)維能力提升類工具等方面規(guī)劃了9大類多個(gè)自動(dòng)化運(yùn)維工具,涵蓋了主要的運(yùn)維場(chǎng)景。采用平臺(tái)模式,面向場(chǎng)景的工具建設(shè)是完全開(kāi)放和不斷迭代的,未來(lái)各部門、各專業(yè)可以根據(jù)自身情況新增需求,靈活開(kāi)發(fā)配置所需的場(chǎng)景工具。
對(duì)于大屏展現(xiàn)層,提供大屏全景展示和三維可視化展示能力,實(shí)時(shí)反映各類信息系統(tǒng)運(yùn)行狀態(tài),及時(shí)獲取運(yùn)維自動(dòng)化各項(xiàng)操作結(jié)果,協(xié)助調(diào)控運(yùn)行人員及時(shí)把控全局,為決策提供依據(jù)。
自動(dòng)化運(yùn)維技術(shù)支撐體系按照特點(diǎn)可以總結(jié)為“一平臺(tái)、十中心、多場(chǎng)景、輕應(yīng)用”。
圖1 總體技術(shù)框架
Agent控制中心是整個(gè)平臺(tái)的底層管控系統(tǒng),是自動(dòng)化平臺(tái)所有其他服務(wù)的基礎(chǔ),是平臺(tái)服務(wù)體系與用戶機(jī)器的連接器。Agent控制中心是典型的兩層分布式C/S結(jié)構(gòu),主要包含智能統(tǒng)一Agent,提供各種服務(wù)的Server。其中,Agent是部署在業(yè)務(wù)機(jī)器上的程序,每臺(tái)業(yè)務(wù)機(jī)器理論上只可以部署一個(gè);其他模塊部署無(wú)具體要求,可以單獨(dú)部署,也可以混合部署[4-5]。
整個(gè)自動(dòng)化體系中,Agent控制中心沒(méi)有直面用戶,但Agent控制中心在自動(dòng)化平臺(tái)體系中卻是不可或缺的,可為平臺(tái)其他模塊提供人機(jī)交互的通道與能力。
流程中心模塊實(shí)現(xiàn)對(duì)日常運(yùn)行、檢修等運(yùn)維管理流程的支撐需求,為運(yùn)維管理工作提供流程流轉(zhuǎn)、待辦生成及任務(wù)分配等服務(wù)。流程管理需實(shí)現(xiàn)流程的設(shè)計(jì)、建模、模型測(cè)試、模型導(dǎo)入導(dǎo)出及瀏覽等功能。實(shí)例管理可對(duì)具體的業(yè)務(wù)流程實(shí)例進(jìn)行查詢、統(tǒng)計(jì)、分析,并可人工調(diào)整流程走向。業(yè)務(wù)對(duì)象管理應(yīng)實(shí)現(xiàn)對(duì)業(yè)務(wù)對(duì)象的維護(hù)和瀏覽功能。用戶任務(wù)管理實(shí)現(xiàn)相關(guān)人員發(fā)起、審批、查看、回退及作廢流程等任務(wù)操作,并能夠支持自定義功能。系統(tǒng)管理需包括日志管理、權(quán)限管理及數(shù)據(jù)備份等功能。流程引擎作為流程中心應(yīng)用的核心,應(yīng)實(shí)現(xiàn)業(yè)務(wù)流程定義解析、活動(dòng)間的路由網(wǎng)關(guān)協(xié)調(diào)處理、請(qǐng)求處理和引擎自身調(diào)度等功能。統(tǒng)一流程服務(wù)主要實(shí)現(xiàn)與其他中心應(yīng)用的接口功能。流程中心可對(duì)外提供可調(diào)用的流程定義列表、流程實(shí)例列表、即席查詢功能列表及待辦提醒等服務(wù)。
模型中心以智能模型為基礎(chǔ),用于實(shí)時(shí)分析運(yùn)維對(duì)象的健康狀態(tài),并根據(jù)模型對(duì)運(yùn)維對(duì)象的打分情況及時(shí)發(fā)出報(bào)警,同時(shí)基于機(jī)器學(xué)習(xí)的AI模型還可以提供運(yùn)維對(duì)象健康狀態(tài)預(yù)測(cè)。智能模型主要包括5種模型。第一,健康模型。該模型是判別系統(tǒng)是否健康的指標(biāo)模型,通過(guò)一組符合指標(biāo)計(jì)算百分制的分?jǐn)?shù),通過(guò)分?jǐn)?shù)高低表示系統(tǒng)健康狀態(tài)的好壞。第二,性能模型。通過(guò)負(fù)荷指標(biāo)計(jì)算百分制分?jǐn)?shù),通過(guò)分?jǐn)?shù)高低表示系統(tǒng)性能的好壞。第三,負(fù)載模型。通過(guò)負(fù)荷指標(biāo)計(jì)算數(shù)據(jù)庫(kù)的負(fù)載情況,負(fù)載分?jǐn)?shù)越高說(shuō)明系統(tǒng)的負(fù)載越高。第四,資源模型。該模型是運(yùn)維對(duì)象對(duì)資源的消耗情況的動(dòng)態(tài)模型。第五,容量模型。池化、云化環(huán)境的業(yè)務(wù)容量對(duì)應(yīng)資源容量的模型,用于云環(huán)境的擴(kuò)容規(guī)劃、資源調(diào)度等場(chǎng)景。
集成中心模塊通過(guò)提供API,統(tǒng)一以組件的形式對(duì)接企業(yè)服務(wù)總線。
開(kāi)發(fā)中心提供完善的前后臺(tái)開(kāi)發(fā)框架、調(diào)度引擎及公共組件等模塊,可以幫助用戶快速、低成本、免運(yùn)維地構(gòu)建支撐工具和運(yùn)營(yíng)系統(tǒng)。
信息系統(tǒng)日常運(yùn)行維護(hù)中,由于運(yùn)維對(duì)象、運(yùn)維操作、運(yùn)維流程及運(yùn)維角色的不同,存在各種各樣的不同運(yùn)維場(chǎng)景[6]。
某個(gè)運(yùn)維對(duì)象產(chǎn)生監(jiān)控告警后,系統(tǒng)可根據(jù)預(yù)先確定的規(guī)則執(zhí)行某個(gè)應(yīng)急操作(場(chǎng)景1=監(jiān)控+應(yīng)急操作)。
有些情況下,還需要進(jìn)一步自動(dòng)創(chuàng)建一個(gè)事件單(場(chǎng)景2=監(jiān)控+應(yīng)急操作+創(chuàng)建事件單,這里與服務(wù)管理流程進(jìn)行了聯(lián)動(dòng))。
如果滿足預(yù)先定義的一定條件,可能還要求同時(shí)向一定范圍的人員發(fā)送短信通知(場(chǎng)景3=監(jiān)控+應(yīng)急操作+創(chuàng)建事件單+短信通知,這里進(jìn)一步與告警通知自動(dòng)化流程進(jìn)行了聯(lián)動(dòng))。
對(duì)于運(yùn)維工作,場(chǎng)景的特定性和靈活性是很普遍的。例如,應(yīng)用升級(jí)或配置變更,每次實(shí)施的目的和內(nèi)容往往不盡相同,可稱為一個(gè)特定的“運(yùn)維場(chǎng)景”。
2.2.1 補(bǔ)丁管理自動(dòng)化場(chǎng)景
信息安全是IT運(yùn)維管理永恒不變的主題。隨著數(shù)據(jù)中心的規(guī)模日漸增長(zhǎng),大量系統(tǒng)和設(shè)備每月的大量補(bǔ)丁缺乏高效、穩(wěn)定機(jī)制處理,在需要保證補(bǔ)丁最新更新的前提下,對(duì)應(yīng)急補(bǔ)丁要求能夠靈活快速響應(yīng)處理。補(bǔ)丁管理通常包含5項(xiàng)操作:從原廠官方同步補(bǔ)丁信息和補(bǔ)丁文件;在本地?cái)?shù)據(jù)中心進(jìn)行補(bǔ)丁文件的清洗、處理和轉(zhuǎn)存;從安全基線、服務(wù)器及補(bǔ)丁三個(gè)維度進(jìn)行補(bǔ)丁實(shí)時(shí)發(fā)現(xiàn);向有問(wèn)題的系統(tǒng)或應(yīng)用推送補(bǔ)丁,完成補(bǔ)丁升級(jí)操作;對(duì)補(bǔ)丁升級(jí)后的系統(tǒng)或應(yīng)用進(jìn)行持續(xù)監(jiān)測(cè),確保補(bǔ)丁生效后的穩(wěn)定性。
因此,補(bǔ)丁管理場(chǎng)景=下載同步+清洗轉(zhuǎn)儲(chǔ)+監(jiān)控+補(bǔ)丁升級(jí)操作+監(jiān)控。可以采用自動(dòng)化方式開(kāi)發(fā)補(bǔ)丁管理工具,實(shí)現(xiàn)補(bǔ)丁更新工作管理,從權(quán)限顆?;芾?、自定義報(bào)表、服務(wù)器維度、補(bǔ)丁維度及基線維度進(jìn)行補(bǔ)丁的統(tǒng)一更新操作,提升工作效率,保證業(yè)務(wù)平穩(wěn)運(yùn)行。補(bǔ)丁管理自動(dòng)化工具如圖2所示[7]。
圖2 補(bǔ)丁管理自動(dòng)化工具
2.2.2 資源交付自動(dòng)化場(chǎng)景
資源交付是數(shù)據(jù)中心運(yùn)維常見(jiàn)的運(yùn)維場(chǎng)景之一。隨著業(yè)務(wù)創(chuàng)新和用戶需求不斷變化,對(duì)于系統(tǒng)新業(yè)務(wù)快速上線,資源快速交付提出了更高要求。傳統(tǒng)資源交付涉及多個(gè)環(huán)節(jié),需人工創(chuàng)建,耗費(fèi)時(shí)間和人力。
需要構(gòu)建一套基于自動(dòng)化的資源敏捷交付工具,將虛擬機(jī)創(chuàng)建、應(yīng)用組件安裝及網(wǎng)絡(luò)策略配置等操作步驟串聯(lián)到同一流程中,實(shí)現(xiàn)資源在線審批,一鍵策略下發(fā)和無(wú)人值守安裝,從而實(shí)現(xiàn)信息化系統(tǒng)虛擬機(jī)資源的敏捷交付。資源交付實(shí)施過(guò)程如圖3所示。
2.2.3 日常巡檢自動(dòng)化場(chǎng)景
隨著信息系統(tǒng)復(fù)雜性和建設(shè)規(guī)模的不斷增大,各種復(fù)雜設(shè)備對(duì)人的要求越來(lái)越高,信息系統(tǒng)健康巡檢成為日常運(yùn)維中工作量最大、重復(fù)性最高的工作。巡檢工作是一項(xiàng)標(biāo)準(zhǔn)化、批量化的任務(wù)作業(yè),非常適合利用自動(dòng)化方式實(shí)現(xiàn)。
巡檢自動(dòng)化工具,通過(guò)對(duì)作業(yè)中心和配置中心相關(guān)整合編排,實(shí)現(xiàn)對(duì)廣泛設(shè)備的健康巡檢[8]。功能及邏輯架構(gòu)設(shè)計(jì)如圖4所示。
巡檢任務(wù)返回的結(jié)果利用可視化技術(shù),展示到Web頁(yè)面或直接通過(guò)郵件系統(tǒng)發(fā)送給運(yùn)維管理人員。
圖3 資源交付實(shí)施過(guò)程
圖4 巡檢自動(dòng)化功能及邏輯結(jié)構(gòu)
第一階段,構(gòu)建強(qiáng)大的自動(dòng)化基礎(chǔ)技術(shù)支撐平臺(tái),實(shí)現(xiàn)統(tǒng)一采集、統(tǒng)一操作、統(tǒng)一資源、統(tǒng)一監(jiān)控及統(tǒng)一流程;構(gòu)建配置管理、性能監(jiān)控、基線管理、日志分析、備份驗(yàn)證、數(shù)據(jù)拯救、應(yīng)用發(fā)布及電子標(biāo)簽等一系列自動(dòng)化運(yùn)維工具。
第二階段,健全完善運(yùn)維自動(dòng)化體系,實(shí)現(xiàn)自動(dòng)化運(yùn)維一體化管理;優(yōu)化崗位職責(zé),完善技術(shù)手段,強(qiáng)化運(yùn)維數(shù)據(jù)分析能力,實(shí)現(xiàn)應(yīng)用自動(dòng)拓?fù)?、故障自愈、預(yù)警管理,及全管理自動(dòng)化,實(shí)現(xiàn)初步的應(yīng)用管理自動(dòng)化。
第三階段,持續(xù)優(yōu)化運(yùn)維自動(dòng)化體系,實(shí)現(xiàn)自動(dòng)化運(yùn)維智能化(AIOPS),實(shí)現(xiàn)IT服務(wù)價(jià)值管理;提升技術(shù)手段,建立運(yùn)維智能學(xué)習(xí)、趨勢(shì)預(yù)測(cè),實(shí)現(xiàn)運(yùn)維故障智能化處理、端到端的精益化運(yùn)維管理。
通過(guò)運(yùn)維自動(dòng)化平臺(tái)建設(shè),可以大幅提高運(yùn)維生產(chǎn)力,提升IT管理效率,提升管理、經(jīng)濟(jì)及社會(huì)等多方面效益。
關(guān)于管理效益,實(shí)現(xiàn)工作流程規(guī)范化,統(tǒng)一運(yùn)維管理、流程與執(zhí)行充分互動(dòng);實(shí)現(xiàn)故障分析智能化,能夠提前預(yù)防、無(wú)人值守、智能判斷與處理。
關(guān)于經(jīng)濟(jì)效益,通過(guò)運(yùn)維自動(dòng)化平臺(tái)建設(shè),提高設(shè)備資源利用效率,降低采購(gòu)成本;提高信息運(yùn)維服務(wù)工作效率,降低人力成本。
關(guān)于社會(huì)效益,通過(guò)運(yùn)維自動(dòng)化平臺(tái)建設(shè),為IT系統(tǒng)的安全、持續(xù)、不間斷運(yùn)行提供了有利的支持,提高了信息系統(tǒng)運(yùn)行可用率,持續(xù)提升公司運(yùn)維服務(wù)水平的高度,為信息運(yùn)維服務(wù)提供全面支持;IT系統(tǒng)的穩(wěn)定運(yùn)行,可減少客戶投訴,提升服務(wù)水平,樹(shù)立良好的企業(yè)形象,提高企業(yè)品牌意識(shí),更好地服務(wù)于社會(huì)大眾。
本文總結(jié)和提煉出電力行業(yè)的信息自動(dòng)化運(yùn)維建設(shè)思路,主要包含自動(dòng)化運(yùn)維的基本框架體系建設(shè)、平臺(tái)的邏輯設(shè)計(jì)及最佳的實(shí)踐方法等。同時(shí),本文分析了運(yùn)維自動(dòng)化建設(shè)效益。