杜燁磊
關于開源工具與專有工具的爭論早已不是什么新鮮事。但在AIOps工具方面,還有其他一些特殊的因素需要考量。
AIOps工具市場不僅特別復雜,而且相關工具總是有著很多獨特的性質,例如需要訪問敏感數(shù)據(jù),往往進一步影響到采購方在評估方面的具體判斷。
在深入探討開源與專有問題之前,首先需要明確定義何謂AIOps工具,以此為基礎,再比較2類工具,嘗試解釋企業(yè)應當結合哪些因素在開源與專有AIOps方案之間做出抉擇。
作為一個流行詞匯,不同的人往往對AIOps有著不同的定義與理解。本文中,將AIOps定義為使用人工智能(AI)或機器學習的一切IT工具或服務。很明顯,這是一種相當寬泛的定義方法,也有部分供應商及分析師認為,工具必須要用到復雜的AI與機器學習算法,才有資格被列入AIOps陣營。但是,隨著AIOps市場的迅速發(fā)展,不妨把標準放寬一點。某些工具雖然未被明確劃定為AIOps平臺,但采購方很可能就是想把它當成AIOps工具來使用。對于這類情況,堅持狹義AIOps定義顯然不利于做出確切的判斷。
開源AIOps工具
就目前來看,只有少部分開源項目將自身標榜為AIOps,但不少開源平臺提供的某些功能完全符合AIOps的理念。例如,使用數(shù)據(jù)分析(在一定程度上)實現(xiàn)工作流程編排自動化的Kubernetes正是AIOps平臺的重要特征,Nagios及Zabbix等開源監(jiān)控平臺也能夠提供一部分AIOps基本分析功能。此外,各類開源編程語言模塊或框架,如PyTorch與TensorFlow也有助于實現(xiàn)AIOps功能,而這些顯然不算是完整的AIOps平臺。
從各個角度來看,支持開源AIOps工具的觀點與支持整個開源生態(tài)的思路基本相同,與專有替代方案相比,開源AIOps工具往往成本更低、更易于修改或自定義,同時也降低了供應商及平臺鎖定的風險。
除此之外,評估開源AIOps工具時還應關注一些特殊的注意事項,首先,到目前為止還沒有出現(xiàn)任何端到端開源AIOps平臺。換句話說,沒有哪種單一的開源平臺能夠直接為企業(yè)提供簡化IT運營的全部必要AIOps功能。相反,需要將多種不同開源工具整合起來,每款工具只能提供一部分AIOps功能。要使用這些開源工具并充分發(fā)揮AIOps的優(yōu)勢,IT運營團隊需要面對大量工具選項,自然也就得耗費大量精力。
除此之外,AIOps工具在本質上需要訪問到大量數(shù)據(jù),其中一部分數(shù)據(jù)可能相當敏感,或者可能被攻擊者用于發(fā)動入侵乃至破壞。這意味著使用專有的AIOps工具,買方必須信任賣方,允許后者成為在客戶系統(tǒng)及環(huán)境中提取并分析數(shù)據(jù)的稱職管家。此外,合規(guī)性問題也很重要,目前不少法律已經對供應商工具將用戶數(shù)據(jù)移動至自有基礎設施內以進行處理或存儲的場景做出約束。
如果平臺需要借助外部基礎設施進行數(shù)據(jù)處理,那么開源AIOps工具也會受到同樣的影響。但大多數(shù)開源工具主要運行在用戶的自有數(shù)據(jù)中心內,或者至少是在用戶控制的公有云基礎設施之上運行,因此帶來的合規(guī)性或數(shù)據(jù)隱私問題一般更少。畢竟每個人都可以觀察開源工具的源代碼,確定項目對用戶信息的處理方式,提升數(shù)據(jù)管理流程的透明度與可信度。
專有AIOps工具
與開源領域相反,專有軟件市場上已經出現(xiàn)了大量被明確標榜為AIOps的工具。例如,Broadcom公司就在著力以AIOps產品的名義推銷其可觀察性軟件。Splunk以及Instana與Pager Duty等小型廠商也已經涉足AIOps。作為一種整體趨勢,越來越多專有監(jiān)控與事件響應工具都在用AIOps強化自己的市場影響力。
選擇專有AIOps工具的核心原因,在于其難度往往比開源方案更低。專有工具的用戶友好度一般較高,而且與開源選項相比,前者更傾向于提供較為廣泛的AIOps功能。此外,相當一部分專有AIOps工具都以托管服務的形式運行,所以用戶不必費神建立起用于托管這些服務的自有基礎設施。
但對于部分專有AIOps工具,上述數(shù)據(jù)管理問題可能會構成新的挑戰(zhàn)。因此,一般企業(yè)在選擇供應商時必須認真評估對方的合規(guī)性保障與防止數(shù)據(jù)遭到濫用的能力。好消息是,AIOps領域的大多數(shù)供應商都擁有良好的商業(yè)聲譽,在以合規(guī)且安全方式管理客戶數(shù)據(jù)方面也擁有豐富的經驗。
AIOps開始成為一種極為重要的站點可靠性工程工具。它能夠高效吸納觀察數(shù)據(jù)、參與數(shù)據(jù)以及來自第三方工具的數(shù)據(jù),判斷系統(tǒng)運行狀態(tài)并保證其處于最佳狀態(tài)。
基礎設施與網絡層面發(fā)生的問題,必須以閃電般的速度加以解決,在理想情況下,最好能讓最終用戶或客戶完全感受不到問題的發(fā)生。而隨著全球經濟體系乃至社會數(shù)字化轉型,對事件管理能力的需求也變得愈發(fā)緊迫。
盡管現(xiàn)代應用程序能夠快速響應客戶需求,但其自身的更新與修復又提出了新的要求,同樣對基礎設施可靠性形成巨大壓力。一旦出現(xiàn)性能問題甚至數(shù)字服務中斷,對現(xiàn)代應用程序造成的影響反而比傳統(tǒng)應用更嚴重。
在管理基礎設施可靠性方面,選擇正確工具無疑是達成目標的重要前提。對于SRE及其他員工而言,相當一部分云原生方法確實太過復雜、難以理解。因此,除了良好的可見性之外,他們還需要建立起判斷問題優(yōu)先級、迅速發(fā)現(xiàn)故障并加以解決的能力。AIOps的意義也正在于此。隨著軟件與基礎設施的迅猛拓展,AIOps能夠自動檢測到環(huán)境中的異常、為團隊提供必要的安全性加持,保證在問題擴大化、復雜化之前及時將其解決。
隨著應用程序與基礎設施的蓬勃發(fā)展,AIOps也開始成為一種極為重要的站點可靠性工程工具。它能夠高效判斷系統(tǒng)運行狀態(tài)并保證其處于最佳狀態(tài)。為了幫助團隊識別并診斷問題,算法與機器學習工具被整合至數(shù)據(jù)之內,借此充實現(xiàn)狀,甚至有望自動高效地完成事件響應。
著眼于現(xiàn)實場景,以下5種AIOps應用方法值得關注:
檢測事件
這也是AIOps擴展工具包的核心用例,可幫助團隊快速發(fā)現(xiàn)問題。AI與機器學習能夠自動梳理異常跡象,而后將學習結果用于觀察系統(tǒng)及基礎設施的運行態(tài)勢。憑借這種自動性方法,AIOps能夠及時發(fā)現(xiàn)預警信號,幫助運營團隊在客戶體驗受到影響之前就及時介入。
減少及消除噪音
事件響應當中,警報疲勞一直是個大問題。警報的持續(xù)涌出往往令員工的神經變得麻木,難以發(fā)現(xiàn)真正緊急的狀況。理想情況下,需要準確判斷哪些警報優(yōu)先級較低、哪些警報彼此關聯(lián)。AIOps能夠關聯(lián)、精簡警報并確定優(yōu)先級,借此消除警報疲勞問題、幫助團隊高效處理對可靠性威脅最大的故障。
結合背景
突發(fā)事件往往非?;靵y,而且形勢也瞬息萬變。過多的信息會導致團隊迷失方向,為此必須為運營人員提供背景信息,幫助他們找到正確的方向。AIOps能夠自動對事件做出映射,同時建立起全面了解。除了理解以外,背景信息在事件解決方面同樣有著重要作用。
提升智能化水平
AIOps是一種不斷發(fā)展的有效工具。過往經驗、當前使用方式以及用戶反饋等,共同為AIOps提供良好的訓練數(shù)據(jù),進而可以幫助識別并預防以往曾經發(fā)生過或較為類似的問題。隨著信息的不斷積累,模型智能化程度將持續(xù)提升,最終提供更具針對性的關聯(lián)、洞見與建議。
整合數(shù)據(jù)、統(tǒng)一團隊
任何來源的事件數(shù)據(jù),都會與企業(yè)的現(xiàn)有事件管理工具和工作流集成在一處。輸入的數(shù)據(jù)越多,機器學習模型的訓練度也就越高,產生有針對性、高實用度結果的幾率就更高。AIOps解決方案能夠吸納數(shù)據(jù),通過背景信息豐富數(shù)據(jù)內容,并將結果通報至相關團隊或響應人員手中,以供各個事件管理團隊加以使用。以此為基礎,各團隊將不用把時間浪費在不同工具的切換中。
對于尚未開始使用AIOps的組織而言,這項工作聽起來似乎繁復無比。沒錯,AIOps確有一定門檻,但目前已經有不少實踐標準能夠幫助我們較為輕松地跨過這些門檻。
首先,考慮最適合自身需求的用例,縮小思考范圍,從小處入手開始學習,并在測試中不斷成長。
其次,保證工作流程的透明化。人們天然會抵觸變化,所以大家必須破除迷團、讓AIOps呈現(xiàn)出清晰明確的形象。
最后,為囊括AI及ML元素的新型IT運營體系做好準備。如今,采用AIOps技術支持運營體系的組織越來越多,相信也終將成為顛覆傳統(tǒng)運營理念與運營思維的主流解決方案。
開源與專有AIOps的未來
評估AIOps工具的最后一個因素,在于市場的快速發(fā)展。盡管截至2021年初,AIOps產品中的開源生態(tài)還遠遠落后于專有軟件市場,但隨著更多開源開發(fā)者及支持者向AIOps領域投入資源,雙方的關系與競爭形勢有可能發(fā)生改變。
當然,專有供應商也會繼續(xù)增強AIOps功能。如今,大多數(shù)商業(yè)AIOps工具都集中在監(jiān)控與事件管理方案層面。但在不久的未來,將有更多專有AIOps工具嘗試在日志管理、基礎設施配置以及其他IT運營利基領域發(fā)揮作用。
總而言之,AIOps工具的評估工作需要充分的耐心與對細節(jié)的關注。另外,企業(yè)也不應將選擇視為一勞永逸的工作———只要出現(xiàn)了更好的選擇,大家必須迅速行動、順應變革。