林志達(dá) 呂華輝 徐歡
關(guān)鍵詞:運(yùn)行監(jiān)控場景;信息運(yùn)維;運(yùn)維大數(shù)據(jù)
中圖分類號(hào):TP277 ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2019)06-0132-03
Abstract:With the development of information technology,all kinds of large energy enterprises have established and continuously improved their IT operation management system based on their own development needs,and continue to promote the enterprises’information construction. Nowadays,the development of IT operation has entered a new stage with the application of advanced technologies like“cloud,big data,IoT,mobile and artificial intelligent”,in which the operation and maintenance of large data is an important part with broad prospects. By using new technologies such as big data and machine learning,the intelligent analysis of IT operation data and the automatic judgment of IT operation as well as maintenance strategy can be realized. The proportion of manual operation can be reduced,while the intelligent development of IT operation and maintenance can be accelerated. Aiming at the big data application of IT operation,this paper introduces the IT operation process under several scenarios of operation and monitoring,analyses the problems existing in the current IT operation,and finally puts forward construction suggestions based on the application of large data of IT operation.
Keywords:IT operation monitoring scenario;IT operation;operation and maintenance of big data
0 ?引 ?言
進(jìn)入21世紀(jì),信息技術(shù)與企業(yè)經(jīng)營管理全面融合,大量企業(yè)業(yè)務(wù)的開展依賴于信息系統(tǒng)的穩(wěn)定運(yùn)行,IT運(yùn)維管理的重要性不斷凸顯。
隨著信息化的不斷發(fā)展,大數(shù)據(jù)運(yùn)維是企業(yè)運(yùn)維管理的重要趨勢之一。如何對(duì)IT運(yùn)維大數(shù)據(jù)加以應(yīng)用,也是企業(yè)在IT轉(zhuǎn)型過程中應(yīng)重點(diǎn)加以關(guān)注的。運(yùn)維大數(shù)據(jù)的應(yīng)用場景通常包括了運(yùn)行監(jiān)控類、性能容量類、分析決策類和科技優(yōu)化類等。
運(yùn)行監(jiān)控類場景是企業(yè)日常運(yùn)維中的一個(gè)重要基礎(chǔ)場景。IT運(yùn)維監(jiān)控管理支撐了信息系統(tǒng)的安全運(yùn)行,為信息化應(yīng)用提供了最基礎(chǔ)的安全保障。安全運(yùn)維是運(yùn)維管理的一大核心原則,然而隨著IT系統(tǒng)的日趨復(fù)雜化,確保運(yùn)維安全成為IT運(yùn)維監(jiān)控管理的一大挑戰(zhàn)。如何進(jìn)一步優(yōu)化IT運(yùn)維監(jiān)控管理,是目前大規(guī)模IT應(yīng)用環(huán)境中必須要考慮的問題。
1 ?運(yùn)行監(jiān)控流程的三個(gè)階段
在IT運(yùn)維的運(yùn)行監(jiān)控類場景中,IT運(yùn)維監(jiān)控流程大致可以分為三個(gè)階段。
1.1 ?事前故障預(yù)測
在事前階段,運(yùn)維管理主要集中在運(yùn)維評(píng)估、運(yùn)維報(bào)告、應(yīng)用系統(tǒng)投運(yùn)前的準(zhǔn)備工作、應(yīng)急預(yù)案修訂及應(yīng)急演練等運(yùn)維管控活動(dòng),運(yùn)維期間對(duì)系統(tǒng)的測試工作,包含發(fā)布測試及補(bǔ)丁測試前的驗(yàn)證測試等。
1.2 ?事中異常識(shí)別
主要集中在巡檢管理、缺陷管理兩方面業(yè)務(wù)事項(xiàng)。缺陷管理則是指對(duì)缺陷處理過程的管理。缺陷是指發(fā)生的可能影響運(yùn)維對(duì)象安全可靠運(yùn)行、性能、壽命或服務(wù)質(zhì)量的異?;螂[患,通過巡檢管理進(jìn)行故障識(shí)別,巡檢管理指對(duì)運(yùn)維對(duì)象的運(yùn)行狀況進(jìn)行巡視、檢查,分為定檢和臨檢。定檢是定期對(duì)運(yùn)維對(duì)象進(jìn)行巡檢;臨檢是臨時(shí)性對(duì)運(yùn)維對(duì)象進(jìn)行巡檢,從而識(shí)別運(yùn)維系統(tǒng)異常。
1.3 ?事后根源分析
著重在故障管理、系統(tǒng)優(yōu)化兩方面業(yè)務(wù)事項(xiàng)。故障是指在沒有預(yù)先安排的情況下出現(xiàn)的用戶服務(wù)中斷,而故障管理指故障處理過程的管理,是出現(xiàn)故障之后對(duì)運(yùn)維系統(tǒng)進(jìn)行分析根因、排除故障的管理過程。排除故障之后,對(duì)應(yīng)用系統(tǒng)、軟硬件平臺(tái)、基礎(chǔ)設(shè)施進(jìn)行增強(qiáng)與優(yōu)化。
2 ?運(yùn)行監(jiān)控現(xiàn)存問題
“IT時(shí)代”向“DT時(shí)代”的演變已逐步成為業(yè)界發(fā)展趨勢,如何充分利用數(shù)據(jù)成為了企業(yè)運(yùn)維管理的新挑戰(zhàn)。近年來,電力行業(yè)數(shù)據(jù)量呈指數(shù)型增長,電力行業(yè)邁入大數(shù)據(jù)時(shí)代。持續(xù)增加數(shù)據(jù)積累、有效挖掘數(shù)據(jù)價(jià)值,在電力生產(chǎn)、電力企業(yè)經(jīng)營管理和社會(huì)能源節(jié)約中都有著重要的意義。當(dāng)前電力通信網(wǎng)逐步發(fā)展成以光纖通信為主,微波、載波通信為輔,多層級(jí)的電力骨干和接入網(wǎng)絡(luò)。網(wǎng)絡(luò)規(guī)模的擴(kuò)大讓電力通信網(wǎng)支持的業(yè)務(wù)范圍和用戶類型越來越多,故障影響和傳播機(jī)理變得更加復(fù)雜,加大了運(yùn)維風(fēng)險(xiǎn)管控的難度。IT運(yùn)維管理被賦予了更多信息挖掘和數(shù)據(jù)分析的重任。然而現(xiàn)有情況下,大型企業(yè)傳統(tǒng)的運(yùn)維管理平臺(tái)無法有效借助數(shù)據(jù)實(shí)現(xiàn)運(yùn)維故障事前預(yù)測、事中監(jiān)控、事后分析的全生命周期管理,不能發(fā)揮運(yùn)維數(shù)據(jù)的巨大潛力。運(yùn)維管理平臺(tái)面臨著三大運(yùn)維痛點(diǎn)。
2.1 ?事前故障預(yù)測
從目前的情況來看,運(yùn)維管理潛在風(fēng)險(xiǎn)點(diǎn)的挖掘和故障預(yù)測功能有待優(yōu)化。一方面是現(xiàn)有運(yùn)維的基礎(chǔ)架構(gòu)越來越復(fù)雜,涉及的技術(shù)和平臺(tái)越來越多,數(shù)據(jù)形態(tài)各異、數(shù)據(jù)資產(chǎn)存放分散、數(shù)據(jù)質(zhì)量及規(guī)范度較差,難以有效整合。另一方面,各類運(yùn)維數(shù)據(jù)生成的維度和顆粒度“井噴”,現(xiàn)有平臺(tái)不具備海量數(shù)據(jù)吞吐及計(jì)算能力。各類運(yùn)維數(shù)據(jù)整合及預(yù)測性分析難以實(shí)現(xiàn),容易導(dǎo)致“救火式”運(yùn)維。運(yùn)維管理運(yùn)行監(jiān)控尚未實(shí)現(xiàn)從被動(dòng)處置到主動(dòng)預(yù)防的轉(zhuǎn)變,需要引入特定數(shù)學(xué)模型進(jìn)行故障預(yù)測,建設(shè)主動(dòng)預(yù)防能力,并對(duì)預(yù)測數(shù)學(xué)模型進(jìn)行訓(xùn)練,不斷提升其精準(zhǔn)度。
2.2 ?事中異常識(shí)別
運(yùn)維安全是電網(wǎng)企業(yè)最重要的生命線,必須保證和強(qiáng)化運(yùn)行監(jiān)控對(duì)異常事件或事故的及時(shí)識(shí)別能力。只有在運(yùn)行監(jiān)控中的信息及時(shí)得到有效反饋,運(yùn)維系統(tǒng)的安全才能夠得到切實(shí)保障。一方面,企業(yè)對(duì)待運(yùn)維數(shù)據(jù)分析結(jié)果的時(shí)效性要求越來越高,傳統(tǒng)的離線計(jì)算場景不能滿足實(shí)時(shí)計(jì)算要求,使得以往離線計(jì)算場景愈發(fā)向?qū)崟r(shí)計(jì)算場景靠攏。另一方面,伴隨企業(yè)信息化建設(shè),越來越多的不同類型、不同顆粒度的運(yùn)維數(shù)據(jù)在迅速產(chǎn)生,企業(yè)能搜集的運(yùn)維數(shù)據(jù)總量在迅速增長,企業(yè)越發(fā)重視運(yùn)維數(shù)據(jù)的處理能力是否能及時(shí)響應(yīng)新需求。如何借助大數(shù)據(jù)處理能力,實(shí)現(xiàn)及時(shí)有效處理多種數(shù)據(jù),并從中識(shí)別運(yùn)行風(fēng)險(xiǎn),成為企業(yè)運(yùn)維管理的新挑戰(zhàn)。
2.3 ?事后根因分析
在傳統(tǒng)的運(yùn)維管理當(dāng)中,面對(duì)復(fù)雜的業(yè)務(wù)監(jiān)控和問題診斷,通常是依靠運(yùn)維人員的經(jīng)驗(yàn)來找到指標(biāo)和事件之間的關(guān)聯(lián)關(guān)系,進(jìn)而進(jìn)行故障的定位。在故障定位的過程中,往往在召集相關(guān)運(yùn)維專家診斷時(shí),已浪費(fèi)不少時(shí)間。在診斷過程中,一方面是依據(jù)經(jīng)驗(yàn)進(jìn)行故障定位存在一定主觀隨意性,當(dāng)面臨迅速更新迭代、層出不窮的新系統(tǒng)以及新的故障風(fēng)險(xiǎn)點(diǎn),難以僅憑相關(guān)人員已有的運(yùn)維經(jīng)驗(yàn)進(jìn)行準(zhǔn)確定位;另一方面,隨著運(yùn)維場景復(fù)雜化,各類系統(tǒng)、平臺(tái)高度集成,傳統(tǒng)運(yùn)維管理下問題根源定位精度低、不及時(shí)的缺點(diǎn)集中暴露。若需提升事后根因分析能力,IT運(yùn)維管理必須從粗放式走向精細(xì)化,借助大數(shù)據(jù)技術(shù),對(duì)根因分析過程進(jìn)行自動(dòng)化改造,減少人力消耗,提升根因分析精度和速度。
3 ?運(yùn)行監(jiān)控優(yōu)化建議
3.1 ?周期性分析技術(shù)強(qiáng)化事前故障預(yù)測
周期性分析用于同指標(biāo)性能、同故障告警、同日志記錄等按周期發(fā)生的規(guī)律性,主要用于時(shí)序挖掘分析和反復(fù)事務(wù)挖掘。周期性分析可應(yīng)用于指標(biāo)基線預(yù)測。
借鑒算法較先進(jìn)的IT運(yùn)維服務(wù)商的成功嘗試,IT運(yùn)維服務(wù)商應(yīng)用周期性分析可在其運(yùn)維大數(shù)據(jù)分析平臺(tái)衍生出一些運(yùn)維大數(shù)據(jù)應(yīng)用,如利用大數(shù)據(jù)自動(dòng)化學(xué)習(xí)業(yè)務(wù)運(yùn)行規(guī)律生成的指標(biāo)動(dòng)態(tài)預(yù)警基線。運(yùn)維人員根據(jù)指標(biāo)基線進(jìn)行實(shí)時(shí)預(yù)警,可擺脫“經(jīng)驗(yàn)式”的故障告警模式,提高運(yùn)行監(jiān)控的準(zhǔn)確性。
以保障業(yè)務(wù)高峰期整個(gè)IT體系的穩(wěn)定性為例,一般的做法是根據(jù)業(yè)務(wù)部門告知的業(yè)務(wù)量上漲預(yù)估值來判斷IT性能增長的百分比。換言之,假設(shè)預(yù)估今年第二季度業(yè)務(wù)上漲量可能達(dá)到50%,那IT運(yùn)維部門就會(huì)通過添加服務(wù)器、集群節(jié)點(diǎn)等整體配置來提升50%的IT性能,以保障業(yè)務(wù)高峰期的IT系統(tǒng)的承載力。這樣的IT運(yùn)維決策缺乏實(shí)際數(shù)據(jù)支撐,存在較大風(fēng)險(xiǎn),如果IT投入過少,將可能導(dǎo)致整個(gè)業(yè)務(wù)運(yùn)營服務(wù)系統(tǒng)的崩潰,反之則造成資源的浪費(fèi)。而以周期性分析技術(shù)為基礎(chǔ)的指標(biāo)基線預(yù)測的優(yōu)勢則在此體現(xiàn):通過對(duì)歷史性的運(yùn)維數(shù)據(jù)的學(xué)習(xí)、分析,預(yù)測出未來一段時(shí)間(如:7天)內(nèi)各項(xiàng)指標(biāo)值的變化趨勢圖,運(yùn)營商運(yùn)維人員便可根據(jù)基線預(yù)測知曉業(yè)務(wù)高峰期各項(xiàng)IT指標(biāo)的可能運(yùn)行形態(tài),進(jìn)而可以提前采取措施,深層次保障業(yè)務(wù)系統(tǒng)的穩(wěn)定性、安全性。
3.2 ?強(qiáng)化大數(shù)據(jù)實(shí)時(shí)計(jì)算處理能力
數(shù)據(jù)是解決運(yùn)維效率、實(shí)現(xiàn)運(yùn)維自動(dòng)化甚至智能化的核心。企業(yè)應(yīng)該著手于在調(diào)度、故障處理、質(zhì)量調(diào)優(yōu)在內(nèi)的多個(gè)場景中,努力實(shí)現(xiàn)自動(dòng)化,優(yōu)化運(yùn)維大數(shù)據(jù)架構(gòu)平臺(tái)建設(shè),發(fā)揮平臺(tái)支撐作用。提高運(yùn)維效率,通過提高運(yùn)維大數(shù)據(jù)自動(dòng)化、智能化水平,實(shí)現(xiàn)運(yùn)維大數(shù)據(jù)的快速處理,有效應(yīng)對(duì)數(shù)據(jù)井噴。
針對(duì)離線數(shù)據(jù)分析,在基于Hadoop的云計(jì)算平臺(tái)上利用數(shù)據(jù)挖掘算法能夠?qū)崿F(xiàn)對(duì)海量廣域運(yùn)維系統(tǒng)數(shù)據(jù)進(jìn)行高效處理。
針對(duì)實(shí)時(shí)數(shù)據(jù)分析,流處理模式下大數(shù)據(jù)處理技術(shù)注重對(duì)動(dòng)態(tài)產(chǎn)生的數(shù)據(jù)進(jìn)行實(shí)時(shí)計(jì)算并及時(shí)反饋結(jié)果,滿足了數(shù)據(jù)快速處理的需要。目前,流式數(shù)據(jù)處理的計(jì)算框架主要有Spark Streaming、Samza、Storm等,在優(yōu)化運(yùn)維大數(shù)據(jù)快速處理時(shí)可以提供一定的參考借鑒。
3.3 ?優(yōu)化運(yùn)維大數(shù)據(jù)價(jià)值化處理
隨著數(shù)據(jù)來源不斷擴(kuò)充,在數(shù)據(jù)井噴的情況下,如何挖掘數(shù)據(jù)價(jià)值,成為運(yùn)維大數(shù)據(jù)處理的一個(gè)重要課題。
一方面,面對(duì)大量模糊的非結(jié)構(gòu)化數(shù)據(jù),通過規(guī)劃運(yùn)維數(shù)據(jù)的使用生命周期、根據(jù)業(yè)務(wù)場景優(yōu)化運(yùn)維數(shù)據(jù)生成時(shí)的相關(guān)參數(shù)、進(jìn)行適當(dāng)數(shù)據(jù)壓縮等多種手段對(duì)運(yùn)維大數(shù)據(jù)進(jìn)行優(yōu)化,對(duì)海量運(yùn)維數(shù)據(jù)進(jìn)行壓縮、重刪,提煉高價(jià)值運(yùn)維數(shù)據(jù),提升故障洞察能力。
另一方面,面對(duì)今天動(dòng)輒數(shù)萬條的告警信息,傳統(tǒng)的、單純的日志事件集中展現(xiàn)難以令運(yùn)維人員鎖定后續(xù)處理的工作重點(diǎn),IT運(yùn)維管理平臺(tái)可基于資產(chǎn)管理角度進(jìn)行關(guān)聯(lián)風(fēng)險(xiǎn)分析,以運(yùn)維大數(shù)據(jù)技術(shù)高速關(guān)聯(lián)計(jì)算取代傳統(tǒng)人員的經(jīng)驗(yàn)分析,優(yōu)先處理重要資產(chǎn)告警事件,使運(yùn)維管理者對(duì)關(guān)鍵事件與重要風(fēng)險(xiǎn)的把握更精準(zhǔn),提升處理效率。
3.4 ?利用相關(guān)性分析技術(shù)強(qiáng)化根因分析
相關(guān)性分析運(yùn)用于跨業(yè)務(wù)系統(tǒng)、跨軟硬件設(shè)備、跨自動(dòng)化工具等產(chǎn)生的多個(gè)指標(biāo)之間的內(nèi)在關(guān)聯(lián)性,主要用于運(yùn)維故障根源挖掘和發(fā)現(xiàn)潛在原因等方面。數(shù)據(jù)相關(guān)性分析方法可應(yīng)用于告警根源挖掘,幫助運(yùn)維管理人員有效地找到告警信息發(fā)生的根源等方面。
舉例說明,A服務(wù)器和B服務(wù)器在業(yè)務(wù)上相鏈接,A服務(wù)器的Tomcat因CPU占用高,發(fā)出了告警;B服務(wù)器的Oracle死鎖數(shù)增長,產(chǎn)生了報(bào)警。調(diào)取歷史運(yùn)維告警數(shù)據(jù)進(jìn)行大數(shù)據(jù)相關(guān)性分析,可發(fā)現(xiàn)這兩個(gè)看似毫無聯(lián)系的指標(biāo)同時(shí)告警的概率高達(dá)90%;此時(shí),通過進(jìn)一步的相關(guān)性挖掘可發(fā)現(xiàn),與A服務(wù)器Tomcat的CPU同時(shí)告警的指標(biāo)還有C交換機(jī)的某端口流量和A服務(wù)器的URL響應(yīng)時(shí)間,且機(jī)率分別達(dá)到85%和80%。利用運(yùn)維大數(shù)據(jù)技術(shù)實(shí)時(shí)學(xué)習(xí)分析的特性,運(yùn)維人員可根據(jù)相關(guān)性概率挖掘出告警產(chǎn)生的根因,進(jìn)而不斷豐富運(yùn)維關(guān)系庫、知識(shí)庫,大大節(jié)省人工排查的人力、物力、財(cái)力,從根本上解決潛在問題、消除安全隱患。
4 ?結(jié) ?論
實(shí)現(xiàn)對(duì)運(yùn)行監(jiān)控的全生命周期管理是企業(yè)智能化、一體化運(yùn)維的重要目標(biāo),也是運(yùn)維大數(shù)據(jù)可以應(yīng)用的一個(gè)典型場景。在這之中,企業(yè)通過明確未來信息化發(fā)展對(duì)運(yùn)維提出的新要求,發(fā)現(xiàn)傳統(tǒng)運(yùn)維管理在運(yùn)行監(jiān)控場景中全生命周期存在的不足,針對(duì)性地利用運(yùn)維大數(shù)據(jù)技術(shù)進(jìn)行優(yōu)化,進(jìn)一步提高企業(yè)的運(yùn)行監(jiān)控場景中的IT運(yùn)維綜合水平,將以往的被動(dòng)式運(yùn)維轉(zhuǎn)變?yōu)橹鲃?dòng)式服務(wù),助推IT運(yùn)維管理向智能化發(fā)展,從而推動(dòng)IT運(yùn)維管理從粗放式走向精細(xì)化。
參考文獻(xiàn):
[1] 楊志農(nóng).智慧型IT運(yùn)維監(jiān)控管理平臺(tái)的技術(shù)特點(diǎn)及實(shí)現(xiàn) [J].計(jì)算機(jī)安全,2014(12):2-4.
[2] 徐英超.運(yùn)維數(shù)據(jù)的大數(shù)據(jù)分析和前瞻性展望 [J].綜合運(yùn)輸,2015,37(11):94-99.
[3] 2018年中國企業(yè)IT運(yùn)維管理市場報(bào)告 [R].艾瑞咨詢,2018.
作者簡介:林志達(dá)(1983-),男,漢族,廣東大埔人,主管,高級(jí)工程師,本科,主要研究方向:信息運(yùn)行管理。