隨著信息化在電力的深入應用,以及下一代互聯(lián)網(wǎng)技術和大數(shù)據(jù)技術的整體環(huán)境影響下,IT信息化建設對業(yè)務運行支撐愈來愈重要,而與此同時IT系統(tǒng)運行穩(wěn)定、IT服務快速響應、IT輔助決策等IT運維的工作,則變得比以往都至關重要。本文詳細調研和摸查廣州供電局實際的運維場景和自動化運維需求,結合當前主流的IT技術:Consul、Netty、Nodejs、Tornado、Nginx、Docker等,以及DevOps運維理念,總結和提煉出廣州供電局的信息自動化運維建設思路,包括自動化運維框架體系、平臺邏輯設計、建設階段與路徑、最佳實踐等內容,并逐步進行廣州供電局部分運維工作的自動化建設。為提高運維效率、減少人為誤差,以及更長遠的應用下一代互聯(lián)網(wǎng)技術、DevOps實踐、故障自愈,和智能運維提供思路與架構模型。
【關鍵詞】自動化運維 PAAS ESB DevOps 故障自愈 SAAS
為實現(xiàn)信息化引領企業(yè)發(fā)展,原有的系統(tǒng)將不斷通過迭代和擴展功能來達到健壯和完善的目標,而與此同時,外部的互聯(lián)網(wǎng)技術、云計算、大數(shù)據(jù)技術也在不斷的為各個行業(yè)創(chuàng)造新的價值。不斷增長的IT規(guī)模,以及各類技術棧在廣州供電局的應用,和日益增高的安全及可用性需求,都對運維工作提出了更高的要求。如何進一步提高業(yè)務穩(wěn)定性,提升IT對業(yè)務的敏捷響應,甚至輔助業(yè)務運營分析,都是未來很長一段時間需要不斷對運維進行思考的問題。
自動化運維是一種運維模式的創(chuàng)新,這種模式會結合平臺系統(tǒng)、運維流程、運維人員能力、以及業(yè)務輔助來規(guī)劃和建設。它既能從實際層面解決運維的重復性工作執(zhí)行效率、提升運維的安全性和準確性,以提升業(yè)務的可靠性,也能幫助將運維模式朝新型的DevOps模式進行轉變,運維可自定義運維工具來滿足多變的場景,提升運維的創(chuàng)造力,提升IT敏捷效率,以及為業(yè)務輔助提供數(shù)據(jù)與平臺。
本文通過技術研究與實踐后,對自動化運維體系的理解,包括自動化運維框架體系、平臺邏輯設計、建設階段與路徑、最佳實踐等內容,參考了當前主流的IT技術:Consul、Netty、Nodejs、Tornado、Nginx、Docker等,以及DevOps運維理念,再深入結合廣州供電局的具體運維場景和現(xiàn)狀,進行了分析和規(guī)劃,并探索出可落地的自動化運維規(guī)劃。
1 IT運維自動化推動背景
隨著業(yè)務模式多樣化的需求,以及IT技術飛速的發(fā)展,廣州供電局對IT系統(tǒng)的運維,已進入一個“新常態(tài)”。在這個“新常態(tài)中”,廣州供電局IT運維有一些顯著的變化:
1.1 規(guī)模大
廣州供電局平臺規(guī)模呈快速增長趨勢,新業(yè)務規(guī)劃需要更龐大而又靈活的IT架構來進行支撐,服務器數(shù)量、運營數(shù)據(jù)、安全風險種類日益增多。
1.2 技術棧復雜
各類操作系統(tǒng)、虛擬化平臺、應用中間件、業(yè)務配置選項等加大了管理復雜度,軟件定義數(shù)據(jù)中心、容器技術、大數(shù)據(jù)、云計算等高效技術的引進增加了IT人員技術儲備的壓力。
1.3 新的開發(fā)模式
業(yè)務系統(tǒng)的開發(fā)運維,從單體、瀑布架構,向Devops、微服務架構演進。
1.4 IT敏捷性的要求
應用發(fā)布、更新比以往更頻繁,應用可用性要求為永久可用等等。
電力的信息系統(tǒng)整體運維也面臨著從舊運維模式到新運維模式的轉變,傳統(tǒng)運維模式的三個重要特征:
(1)依賴于運維人員的運維管理技能與經(jīng)驗;
(2)以腳本作為配置管理的主要手段;
(3)各個系統(tǒng)之間沒有打通,運維管理需要在不同的系統(tǒng)與平臺間手動切換。
而探索新的運維模式需要具備三個方面的特征:
(1)運維管理不再依賴運維腳本,而是基于場景化的運維工具;
(2)運維平臺強調自動化,能夠進行自動化巡檢、故障恢復等;
(3)強調可編排(編程)性,能夠通過編排等手段支持復雜的運維場景。
2 IT運維自動化設計方案
2.1 IT運維自動化設計思路
廣州供電局在自動化運維的過程中也做過很多的探討,除了積累大量的自動化腳本外,也考察過Ansible、Saltstack、Puppet、Chef等自動化運維工具,但是遇到過很多的難點,而從難點中提取出來的經(jīng)驗就是,自動化運維不應以技術和平臺為驅動力,而是要以運維場景為驅動力。
這也是自動化運維落地的難點所在:自動化運維需要滿足且持續(xù)不斷滿足業(yè)務定義的運維場景,而運維場景有著變化、靈活、跟企業(yè)運維模式緊密相關的特點。并且還需要應對運維組織、運維技術能力等帶來的一系列變革和沖擊。
在這種前提下,我們首先需要定義自動化運維的場景并且認識它的特點。運維的場景是指:一系列運維活動與管理活動的聯(lián)動,并遵循流程進行滿足業(yè)務需求的運維設計。例如:軟件安裝,是一個運維活動;而業(yè)務部署,則是一個運維場景,除了軟件安裝的活動外,還有配置、驗證測試、上線切換等運維活動,并且還需要遵循企業(yè)業(yè)務部署的流程和安全規(guī)范。這個場景里面,需要用到資源驅動力、流程集成性、自動化執(zhí)行、流程編排等一系列技術,而這還只是一個場景。
通過詳細的調研,廣州供電局典型的運維場景部分列舉如下:
業(yè)務部署:完成業(yè)務軟件的安裝、配置、驗證測試、上線切換等動作。
配置變更:修改平臺、軟件、用戶等的配置信息以及配置基線管理。
狀態(tài)巡檢:對系統(tǒng)運行狀態(tài)進行常例化巡檢,評估系統(tǒng)運行狀態(tài)。
容量分析:實時分析系統(tǒng)容量信息,輸出容量報表,管理閾值,觸發(fā)容量告警。
故障響應:能夠基于故障類型、業(yè)務類型等信息自動化對故障進行分析處理。
自動化運維框架建設的原則應充分考慮場景化運維的復雜性、擴展性和靈活性。并應該具備如下幾種能力:
(1)自動化運維平臺應具備PAAS的能力,它能驅動企業(yè)各個IT組件,包括新的技術如互聯(lián)網(wǎng)組件、大數(shù)據(jù)平臺等,舊的如已有的一些各個廠商的設備,它的擴展性要比以往的要求更高,而不是局限在廠商自己軟硬件產(chǎn)品的自動化運維工具上,要脫離工具上升到平臺級別;
(2)平臺能高效集成企業(yè)運維流程,將ITSM和ITOM高度聯(lián)動,實現(xiàn)流程真正的自動化;
(3)運維應具備運維開發(fā)的能力,運維IT需要從傳統(tǒng)產(chǎn)品化運維人員,走向開發(fā)運維,自己能通過運維開發(fā)的方式實現(xiàn)自己的個性化運維需求,并幫助業(yè)務實現(xiàn)敏捷交付。
2.2 自動化運維框架
參考ITOM理念和主流自動化運維技術架構,從打造IT運維能力角度出發(fā)(IT運維能力是指企業(yè)信息化運維的一套效能體系),圍繞IT運維能力持續(xù)的建設,將不斷豐富和優(yōu)化企業(yè)的運維模式。設計的自動化運維框架如圖1。
在這一套體系里面,有兩個概念非常重要:
2.2.1 PAAS平臺
自動化運維的運維對象驅動能力至關重要,這也是自動化運維場景得以實現(xiàn)的最大技術阻礙,PAAS的能力在于可以通過Agent、接口、協(xié)議等多種模式來驅動運維對象,無論是硬件還是軟件;并且PAAS提供了企業(yè)可以定制自己運維SAAS的能力,只有按這種模式走,才能去覆蓋企業(yè)定制化的、龐大復雜的運維需求。
2.2.2 運維能力的落地
運維能力不能僅局限于單個產(chǎn)品的功能便捷,它應該是從運維需求和規(guī)劃出發(fā),多個運維SAAS應用來組裝成運維能力,如圖2。
2.3 自動化運維技術關鍵-運維ESB
如何高效驅動各個自動化運維的對象,以及并保留持續(xù)的擴展能力,將是自動化運維技術關鍵所在。這里參考業(yè)務系統(tǒng)的ESB(企業(yè)服務總線)模式,建設一套企業(yè)運維的服務總線,并采取如圖3所示。
運維ESB的模式將解決核心問題:運維流程調度。腳本原子可以實現(xiàn)對資源驅動,原子可以相互組合成服務組件,應用API可以直接注冊到ESB。這種模式的價值體現(xiàn)在將各個IT對象的操作原子化,不僅可充分利用已有對象開發(fā)的API和通用協(xié)議,還可以將企業(yè)已有的腳本沉淀并導入;原子組裝成服務組件,服務組件將具備更大的靈活性,這對場景的支撐將會覆蓋度更完整;服務組件的積累將豐富運維ESB的能力,并可以快捷方便的支撐各類工具和運維應用。
2.4 自動化運維落地模式-運維SAAS
如果定義運維自動化需要一系列的運維工具及產(chǎn)品來滿足各個場景,那在自動化運維平臺上,比較完美的方式則是建設一個開放的SAAS應用環(huán)境?;赟AAS運維APP形成企業(yè)的運維應用商店,滿足各個運維人員的多場景運維需求,并以此為可落地的方式建設企業(yè)運維能力;SAAS應用統(tǒng)一調度平臺的底層驅動能力,從而構建一個可快速、便捷和擴展的整體運維體系與能力;SAAS應用的來源可來源于真正的一線運維人員,讓他們具備運維開發(fā)的能力后,能真正積累出屬于自己的運維應用,并助力IT運維轉型;運維的SAAS應用將會是從運維場景需求出發(fā),而產(chǎn)生的運維工具,如圖4所示。
3 IT運維自動化建設規(guī)劃
冰凍三尺非一日之寒,自動化運維的建設也不僅僅是一套產(chǎn)品、一個項目可以達成的,自動化運維需要按不斷滿足業(yè)務場景,不斷抽象出運維能力的模式來實現(xiàn)。要實現(xiàn)成熟的自動化運維要分三個階段:
(1)梳理階段,進行需求調研,含運維場景梳理,運維需求整理。這個工作是自動化切入的重中之重,調研要覆蓋運維班助的各個運維領域,而且需要了解運維工作、運維自動化需求等運維人員的訴求,以及管理上的需求。以廣州供電局的數(shù)據(jù)庫運維為例,梳理出來的內容有日常工作,巡檢(查看服務狀態(tài)、數(shù)據(jù)庫用戶狀態(tài)、性能狀態(tài)、表空間使用率、CPU、磁盤使用率)、物理備份和邏輯備份檢查;周期性工作,周報(故障、優(yōu)化項工作、處理的告警)、月報(關鍵系統(tǒng)運行情況(CPU、內存、服務狀態(tài)、性能情況));非周期性工作,安裝數(shù)據(jù)庫、賬號管理、數(shù)據(jù)管理-導數(shù)等、安全加固、性能調優(yōu)、表空間擴容、后臺日志清理(監(jiān)控平臺給出)、數(shù)據(jù)庫遷移(1年7-8次)、版本升級。運維人員提出自動化需求含數(shù)據(jù)庫用戶管理,巡檢、部分報告,數(shù)據(jù)庫日志管理,表空間自動擴容,自動導數(shù),數(shù)據(jù)庫環(huán)境交付,安全加固,后臺日志清理。
(2)階段規(guī)劃,包括運維對象接入、運維APP開發(fā)、運維能力集成,定義3-5年的運維SAAS應用建設規(guī)劃,并圍繞持續(xù)的運維能力建設展開,如圖5所示。
(3)持續(xù)改善與運營,包括APP集成、DevOps建設、故障自愈建設,持續(xù)優(yōu)化等;
以DevOps為例,代碼構建、自動化測試、代碼檢查、版本持續(xù)交付,標準化企業(yè)發(fā)布流程,實現(xiàn)自動化發(fā)布。
4 結語
本文針對目前廣州供電局和電網(wǎng)信息系統(tǒng)的運維現(xiàn)狀,結合新型的互聯(lián)網(wǎng)技術架構,提出的自動化運維的理論、自動化運維架構、自動化運維的規(guī)劃建設。主要集成了運維PAAS、運維ESB、運維APP商店等技術概念,并充分結合電網(wǎng)信息系統(tǒng)運維的特點,提出整體的自動化運維建設模式。隨著政府十三五信息化指導意見書明確提出打造智能化運維體系,同時隨著企業(yè)內外部IT環(huán)境的變化,自動化運維將為企業(yè)的運維效率、敏捷業(yè)務支撐、提高業(yè)務可用性帶來全新的局面,然而自動化運維的建設的確不容易,且會對企業(yè)運維的整體架構帶來巨大的改變,所以需要以步步為營、逐步建設的思路來帶動電力信息系統(tǒng)自動化運維建設。本文提出的部分架構和思路,已逐步開始應用于廣州供電局的運維場景,并在提高效率、提高運維質量、提高安全度上取得了不錯的效果,后續(xù)將持續(xù)的建設,使企業(yè)持續(xù)獲得IT的有效支撐與價值呈現(xiàn)。
參考文獻
[1]李亞瓊. 場景化運維—平臺、引擎與自動化,2016 全球運維大會,2013.
[2]毛承國,張衛(wèi)華,張進鐸,等.大規(guī)模集群運維自動化的探索與實踐[J].信息安全與技術,2014(02).
[3]溫超.電力信息系統(tǒng)運維管理自動化解決方案[J].山東電力技術,2012(01).
[4]杜成武.IT運維綜合管理平臺實現(xiàn)科技管理信息化[J].金融科技時代,2012(08).
[5]王慶霞.淺談IT運維管理的應用與實踐[J].信息安全與技術,2012(11).
[6]戚偉強,沈瀟軍,洪建光,等.基于ITIL的電力信自動化運維體系研究[J].現(xiàn)代電子技術,2012(02).
[7]閆龍川,劉軍.企業(yè)信息系統(tǒng)自動化運維工具研究與應用[J]. 供用電,2015(08).
[8]李磊.IT自動化運維平臺建設和應用 信息技術與標準[J].信息技術與標準化,2016(10).
作者簡介
趙靜(1982-),女,湖北省武漢市人。碩士學位。廣州供電局運維工程師。研究方向為信息運維。
作者單位
廣州供電局有限公司 廣東省廣州市 510620