鄭金輝
運維是一個IT人繞不開的話題。過去總是籠統(tǒng)地認為運維是基于人開展的活動,后來認識到運維工具和平臺也很重要,可能很多人沒有仔細想過運維的本質是什么。
有人說運維的本質是可視化,這話粗聽起來似乎沒錯,但是有點本末倒置,可視化是手段不應該是目的,監(jiān)控的目的是實現運維對象的可視化,ITSM是實現流程可視化,運維數據分析更是實現指標可視化。
運維的本質應該是可控,讓IT的一切環(huán)節(jié)變得可控,這才是運維的本質。實現穩(wěn)定性、性能以及安全等各方面的可控,這是運維最核心的思路,推而廣之,運維更應該是推動企業(yè)IT架構落地和持續(xù)優(yōu)化的手段,是讓IT貼近業(yè)務的重要抓手。
智能運維
智能運維(AIOps)最初是由Gartner定義的一個概念。AIOps是一個以實現持續(xù)洞察和改進的目標,運用大數據和機器學習技術作為支撐的軟件平臺。按照Gartner的看法AIOps會增強或部分取代現有的IT運維流程和工具,包括可用性、性能監(jiān)測、事件關聯和分析以及IT服務管理和自動化。AIOps重點關注運維數據全生命周期的管理和利用,從不同數據源的獲取、海量運維數據的存儲和處理以及基于AI和機器學習算法的數據分析。
AIOps的概念從原本基于大數據及算法,擴充為基于AI,期望通過大數據、機器學習及更多高級分析技術,提供具備主動性、人性化和可視化的能力,直接或間接地提升目前傳統(tǒng)IT運維的能力??偨Y來說,就是“監(jiān)控、定位和預測”。
標準化是基礎
智能運維應該先做好標準化的工作,主要是運維對象的標準化和流程的標準化。想要實現標準化,就要識別各個運維對象,我們日常做的所有運維工作都應該是針對這些對象的運維。第一步應該是基礎設施的標準化,例如,識別物理對象,包括服務器、交換機和機柜等硬件,還要識別物理對象的屬性、服務器的序列號、IP地址和廠商等信息;第二步應用的標準化,包括應用服務、中間件和數據庫等,例如,數據庫的表、視圖和存儲過程的標準化;第三步流程標準化,如備份、軟件升級、殺毒和新業(yè)務上線等流程的標準化。此外,還需要關注建立完整、全面的運維管理制度,為自動化運維的實現保駕護航。
需求是關鍵,場景很重要
重點關注的應該是場景和需求,場景化的需求,把用戶在運維側的需求和痛點抽象成若干個場景,說白了就是搞清楚用戶需要面對哪些困難和問題,始終堅持問題導向。
AIOps不是空中樓閣
基礎很重要,AIOps不可能一蹴而就,需要在指標可視化、流程標準化上下功夫,有了這些才好做下一步。自動化的前提是標準化,但是故障處理等應急場景很難標準化,過去對高端技術人員的依賴很重,那AIOps的機會和價值也在于此,借助AI和大數據手段實現從信息到知識躍遷,目的也就達到了??梢暬?、自動化和智能化一步步來,這其中還有標準化和服務化,是跟流程和體系相關的,需要協同考慮。
首先,可視化是一個普遍認同、普遍關注的環(huán)節(jié)。另外,智能運維平臺和ITSM流程平臺的很多客戶都有一定的積累,這需要結合客戶的現狀和需求適時推進,但需要謹慎,是金礦還是泥潭不好說。做好了這2部分,AIOps就順理成章了。
智能運維的成熟度模型
Gartner認為,智能運維是通過工具或者平臺,實現IT基礎設施和應用的日常任務和運維流程自動化,從而提高效率、降低風險,促進組織業(yè)務能力提升。主要包括:日常任務處理自動化、運維流程自動化、IT服務自動化、業(yè)務服務自動化以及整體運維能力升級等內容。從成熟度模型上說,Gartner將企業(yè)實施自動化的成果分為起步、基本、標準、合理以及動態(tài)等5個階段,在每個階段定義了企業(yè)應該達成怎樣的目標?;究梢苑殖苫A架構自動化、應用自動化、IT服務自動化以及業(yè)務運營自動化等幾個層次。
從實際落地層面來說,比較容易切入的是自動化監(jiān)控平臺,然后是運維平臺,同時需要實現對ITSM的對接和聯動。
康威定律與智能運維
在IT轉型的大趨勢引領下,IT運維的轉型成為必須面對的事情,康威定律從某種程度上可用來指導運營架構的轉型。
康威定律:系統(tǒng)架構是公司組織架構的反映,應該按照業(yè)務閉環(huán)進行系統(tǒng)拆分和組織架構劃分,實現閉環(huán)、高內聚及低耦合,減少溝通成本。如果溝通出現問題,應該考慮進行系統(tǒng)和組織架構的調整,在合適的時機進行系統(tǒng)拆分,不要一開始就把系統(tǒng)后服務拆的非常細,雖然閉環(huán),但是每個人維護的系統(tǒng)越多,維護越成本高。
團隊與系統(tǒng)的關系:如果各運維系統(tǒng)開發(fā)團隊和運維團隊分屬不同組織,在推動運維系統(tǒng)建設這件事上一定會遇到或明或暗的巨大困難,尤其一些體制內單位中,人是問題的關鍵。所以很多方案中才強調自動化運維系統(tǒng)建設一定要獲得高層理解和支持。應跟管理層反復解釋這個邏輯,從公司整體運維架構出發(fā),利用組織強大的執(zhí)行力自上而下推動,但是自動化運維系統(tǒng)建設又得自底向上進行,這一點需要明確。智能運維系統(tǒng)建設遠不僅是個技術方案,更應從組織和管理視角促進運維團隊的理解、支持和融合。