何云瑞 閆祎穎 黨義杰 李揚(yáng) 陳亮 王寧
摘? 要:隨著信息技術(shù)的不斷改進(jìn)與提高,大數(shù)據(jù)時代已經(jīng)來臨,人工智能被應(yīng)用到各行各業(yè)。各類大數(shù)據(jù)中心的出現(xiàn)對IT運(yùn)維的模式提出了新的標(biāo)準(zhǔn)和要求,智能運(yùn)維憑借無可比擬的優(yōu)勢脫穎而出。本文通過分析運(yùn)維的發(fā)展歷程,對比傳統(tǒng)運(yùn)維與智能運(yùn)維的優(yōu)劣勢,提出了大數(shù)據(jù)中心的智能運(yùn)維方案和實(shí)現(xiàn)途徑。
關(guān)鍵詞:智能運(yùn)維;數(shù)據(jù)中心;架構(gòu)
中圖分類號:? ? ? ?文獻(xiàn)標(biāo)識碼:
Abstract: With the continuous improvement of information technology, the age of big data has arrived, and artificial intelligence has been applied to a variety of industries. The emergence of big data centers puts new standards and requirements on the mode of IT operation and maintenance. AIOps stand out with unparalleled advantages. By analyzing the development history of operation and maintenance and comparing the advantages of traditional operation and maintenance with AIOps, we will put forward the structures and implementations of AIOps of big data center.
Key words: AIOps; Big Data Center; Structures
1? 引言
隨著IT行業(yè)的發(fā)展和信息化水平的不斷提高,數(shù)據(jù)中心的規(guī)模也在日益擴(kuò)大,這不僅體現(xiàn)在需維護(hù)的服務(wù)器數(shù)量上,也體現(xiàn)在產(chǎn)生的運(yùn)維數(shù)據(jù)量上,單純依靠投入大量人力進(jìn)行巡檢及監(jiān)控已不能滿足日常運(yùn)維的需求,這對IT運(yùn)維的模式提出了新的標(biāo)準(zhǔn)和要求。另一方面,隨著大數(shù)據(jù)時代的到來,人工智能(Artificial Intelligence,AI)技術(shù)在各行各業(yè)中得到了越來越廣泛的應(yīng)用,智能運(yùn)維便是將AI技術(shù)應(yīng)用到IT運(yùn)維領(lǐng)域的實(shí)例,借助運(yùn)維自動化、大數(shù)據(jù)、桌面虛擬化等技術(shù)手段,實(shí)現(xiàn)對所有設(shè)備的監(jiān)控,能極大提高IT運(yùn)維管理效率。
2? 智能運(yùn)維的概念及優(yōu)勢
2.1? 基本概念
根據(jù)國際上對智能運(yùn)維的最新定義,智能運(yùn)維(Artificial Intelligence for IT Operations, AIOps)是ITSM、ITOM和 IT 自動化三大方面的全面融合,自動化處理傳統(tǒng)IT運(yùn)行和維護(hù),以提升運(yùn)行和維護(hù)效率。作為AI、大數(shù)據(jù)和IT運(yùn)維融合的產(chǎn)物,智能運(yùn)維成為現(xiàn)代傳統(tǒng)企業(yè)數(shù)字化轉(zhuǎn)型的必然選擇。
2.2 智能運(yùn)維的優(yōu)勢
(1)傳統(tǒng)IT運(yùn)維存在的問題
傳統(tǒng)的IT運(yùn)維管理模式是被動的,其存在以下三點(diǎn)問題。一是運(yùn)維成本高。傳統(tǒng)運(yùn)維受限于技術(shù)和人力等原因,系統(tǒng)一旦出現(xiàn)故障產(chǎn)生告警后,運(yùn)維人員需要逐條進(jìn)行手工排查,不僅要付出大量的人力,還要浪費(fèi)大量的時間;二是無預(yù)警。傳統(tǒng)單一的運(yùn)維模式?jīng)]有設(shè)置全面的系統(tǒng)監(jiān)控,對于系統(tǒng)即將出現(xiàn)的故障和問題不能及時預(yù)判和告警,無法做到防患于未然;三是缺乏快速有效的分析解決工具。面對大量的操作和維護(hù)數(shù)據(jù),越來越多的運(yùn)維場景和問題無法用傳統(tǒng)的方法來解決,傳統(tǒng)運(yùn)維手段已經(jīng)不能適應(yīng)現(xiàn)有大數(shù)據(jù)環(huán)境下的新形勢。
(2)智能運(yùn)維的優(yōu)勢與特點(diǎn)
相比傳統(tǒng)運(yùn)維的模式而言,智能運(yùn)維具有不可比擬的優(yōu)勢。從技術(shù)層面上看,智能運(yùn)維的優(yōu)勢和特點(diǎn)主要包括以下四個方面。一是“可存儲”,可以形成龐大的數(shù)據(jù)庫,可以迅速的對系統(tǒng)內(nèi)的各類數(shù)據(jù)數(shù)據(jù)進(jìn)行存儲、檢索和調(diào)用;二是“可關(guān)聯(lián)”,以自身龐大的數(shù)據(jù)庫作為支撐可以對存儲的數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析;三是“可預(yù)測”,通過構(gòu)建數(shù)據(jù)知識庫和自我學(xué)習(xí)能力,對數(shù)據(jù)進(jìn)行對比分析和閾值分析,建立分析預(yù)測系統(tǒng),可以對系統(tǒng)異常等提前告警;四是“可溯源”,針對系統(tǒng)發(fā)出的告警和異常狀態(tài),可以根據(jù)溯源組件實(shí)現(xiàn)根源追溯,查看引起異常的數(shù)據(jù)流和位置,以便快速定位問題根源,實(shí)現(xiàn)自動化修復(fù)等后續(xù)運(yùn)維工作。
總體來說,智能運(yùn)維的工作模式優(yōu)勢在于可以通過自我學(xué)習(xí)實(shí)現(xiàn)自動化運(yùn)維和自動故障判斷處理,是集“自我學(xué)習(xí)、自我監(jiān)控、自我校驗(yàn)、自我修復(fù)”四位一體的運(yùn)維平臺。智能運(yùn)維的推廣和運(yùn)用將可以有效降低傳統(tǒng)IT運(yùn)維高成本低效率的困境,使運(yùn)維管理實(shí)現(xiàn)“易見、易管、易控”。
3? 大數(shù)據(jù)中心的智能運(yùn)維建設(shè)
3.1? 大數(shù)據(jù)中心的現(xiàn)狀及需求
隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)中心建設(shè)的理念也進(jìn)入一個云時代,越來越多的大數(shù)據(jù)中心出現(xiàn)在各大企業(yè)的建設(shè)清單中。第三代以計算機(jī)計算為核心的機(jī)架式服務(wù)器機(jī)房的數(shù)據(jù)中心方興未艾,第四代以大數(shù)據(jù)計算為核心的大數(shù)據(jù)中心已經(jīng)走上舞臺。一個大型的數(shù)據(jù)中心部署擁有多云的數(shù)據(jù)基礎(chǔ)設(shè)施環(huán)境,可以提供機(jī)房、設(shè)計、功能、資源四大服務(wù)類型,裝機(jī)容量均在5000機(jī)架以上甚至上萬機(jī)架,面對如此龐大的容量,大數(shù)據(jù)中心的運(yùn)維工作就更加重要了。
當(dāng)一個數(shù)據(jù)中心的建設(shè)規(guī)模越來越大,承載的業(yè)務(wù)種類和數(shù)量越來越多,對于數(shù)據(jù)的快速處理、高速傳輸、實(shí)時響應(yīng)等要求不斷提高,其面臨的問題和挑戰(zhàn)也日益增加。
3.2? 智能運(yùn)維的解決方案框架
目前,大數(shù)據(jù)中心的IT系統(tǒng)具有數(shù)據(jù)節(jié)點(diǎn)多、系統(tǒng)規(guī)模大、運(yùn)行速度快等特點(diǎn)。因此,大數(shù)據(jù)中心智能運(yùn)維的落地需要循序漸進(jìn),分區(qū)域分步驟的進(jìn)行架構(gòu)。整個大數(shù)據(jù)中心的智能運(yùn)維系統(tǒng)可以分為可以分為五大邏輯板塊來進(jìn)行架構(gòu)。具體如圖1所示。
圖1? 大數(shù)據(jù)中心的智能運(yùn)維系統(tǒng)架構(gòu)示意圖
(1)數(shù)據(jù)采集存儲板塊
該板塊包含數(shù)據(jù)采集器和數(shù)據(jù)存儲器。數(shù)據(jù)采集器采用分布式布局,通過動態(tài)化的采集方式對底層的多種不同的運(yùn)維平臺進(jìn)行數(shù)據(jù)的收集工作;數(shù)據(jù)存儲器使用My SQL和MongoDB結(jié)合的方式,對于數(shù)據(jù)量小和有穩(wěn)定結(jié)構(gòu)的配置類數(shù)據(jù)統(tǒng)一存儲在SQL結(jié)構(gòu)化數(shù)據(jù)庫中,而大量的運(yùn)行數(shù)據(jù)、日志等具有實(shí)時性、不穩(wěn)定性的的數(shù)據(jù)均存儲到非結(jié)構(gòu)化的數(shù)據(jù)庫中。
(2)數(shù)據(jù)學(xué)習(xí)儲備板塊
該板塊將數(shù)據(jù)采集存儲板塊的數(shù)據(jù)進(jìn)行再整理,分為元數(shù)據(jù)、狀態(tài)數(shù)據(jù)和事件數(shù)據(jù)三大類進(jìn)行分門別類,利用自我學(xué)習(xí)的功能,形成數(shù)據(jù)知識庫。通過該板塊的設(shè)置,將數(shù)據(jù)建設(shè)變成一個持續(xù)的過程,是智能運(yùn)維的建設(shè)重要的一部分。
(3)數(shù)據(jù)分析處理板塊
該板塊是智能運(yùn)維最核心關(guān)鍵的一部分,由數(shù)據(jù)計算和數(shù)據(jù)執(zhí)行兩部分組成。數(shù)據(jù)計算主要是對采集存儲的數(shù)據(jù)進(jìn)行實(shí)時處理分析,檢測監(jiān)控數(shù)據(jù)的實(shí)時變化,對數(shù)據(jù)匯聚、數(shù)據(jù)加載、數(shù)據(jù)異常等問題進(jìn)行感知分析并提前告警;數(shù)據(jù)執(zhí)行則是對部署、執(zhí)行命令等數(shù)據(jù)操作控制進(jìn)行寫入操作。
(4)數(shù)據(jù)決策執(zhí)行板塊
該板塊是智能運(yùn)維的“大腦”,控制整個智能運(yùn)維的行為。根據(jù)前三個板塊的采集存儲、自我學(xué)習(xí)和分析處理,根據(jù)邏輯判斷規(guī)則和算法組件的設(shè)置形成異常檢測、故障預(yù)測、止損決策、根因診斷、容量預(yù)測等策略庫,可以根據(jù)整個系統(tǒng)平臺出現(xiàn)的需求自動給出運(yùn)維策略并自動處置,讓決策執(zhí)行過程“可定位、能復(fù)用、有針對”。
(5)數(shù)據(jù)可視化板塊
數(shù)據(jù)可視化板塊將分析結(jié)果、決策策略等數(shù)據(jù)通過可視化組件變?yōu)楹唵我锥膱D表或圖,將數(shù)據(jù)直觀地展現(xiàn)出來,實(shí)現(xiàn)數(shù)據(jù)的可視化、場景化以及實(shí)時交互,以幫助非運(yùn)維人員對數(shù)據(jù)更好的理解,根據(jù)直觀的圖表或圖可以更好的找出包含在海量數(shù)據(jù)中的規(guī)律或者信息。
3.3? 智能運(yùn)維的預(yù)期價值與實(shí)現(xiàn)途徑
智能運(yùn)維在大數(shù)據(jù)中心建立起來之后,將產(chǎn)生不可估量的使用價值,其主要IT運(yùn)維的自動化、智能化實(shí)踐可以從以下幾個方面進(jìn)行實(shí)現(xiàn)。
(1)自動化進(jìn)行日常數(shù)據(jù)巡檢
作為智能運(yùn)維最基礎(chǔ)的任務(wù)就是進(jìn)行日常的巡檢運(yùn)維工作,每日重復(fù)化的巡檢工作,看起來簡單,但需要定時進(jìn)行重復(fù)執(zhí)行。智能運(yùn)維系統(tǒng)通過設(shè)定邏輯組件,可以對大數(shù)據(jù)中心的軟硬件環(huán)境、設(shè)備端口的狀態(tài)和負(fù)載、數(shù)據(jù)流量和空間使用率等日常巡檢工作內(nèi)容進(jìn)行自動巡檢并生成日志和報告。
(2)自動化進(jìn)行配置管理
隨著大數(shù)據(jù)中心的運(yùn)營環(huán)境越來越大,采集存儲基礎(chǔ)組件的管理成為配置管理員的巨大的工作量,尤其是這些組件還在不停的變化和關(guān)聯(lián)。實(shí)施智能運(yùn)維后,對系統(tǒng)的基礎(chǔ)組件進(jìn)行標(biāo)準(zhǔn)化和規(guī)范化設(shè)置,保證運(yùn)維工具可以自動從資源環(huán)境中提取配置庫信息,自動更新到配置庫中,最終實(shí)現(xiàn)配置項(xiàng)和屬性的自動更新。
(3)自動化進(jìn)行系統(tǒng)故障預(yù)判和修復(fù)
作為智能運(yùn)維最突出的價值就是預(yù)判和自動故障修復(fù)功能。智能運(yùn)維通過自我學(xué)習(xí)功能,通過數(shù)據(jù)庫分析、檢測等組件聯(lián)合,可以預(yù)判即將面臨的問題和威脅,將通過提前告警等對故障進(jìn)行預(yù)判。一般系統(tǒng)故障的出現(xiàn)會經(jīng)歷“發(fā)現(xiàn)、診斷、決策、執(zhí)行”四個階段。在這四個階段中,通過前兩個階段(即發(fā)現(xiàn)和診斷)結(jié)合知識庫板塊,明確處理決策執(zhí)行修復(fù)命令。
(4)可視化進(jìn)行數(shù)據(jù)流展示
作為智能運(yùn)維的重要一環(huán),在智能運(yùn)維終端可以通過對采集存儲的數(shù)據(jù)流,通過設(shè)定的可視化大數(shù)據(jù)組件,實(shí)現(xiàn)對全網(wǎng)數(shù)據(jù)的有效識別;對訪問關(guān)系、流量構(gòu)成、異常行為等實(shí)現(xiàn)可視化。將數(shù)據(jù)、組件和終端之間的訪問關(guān)系、會話特征、異常的訪問路徑、非正常的數(shù)據(jù)出口、異常的TCP連接等問題以具象的形式展現(xiàn)出來。
(5)自動化進(jìn)行資源申請調(diào)配
智能運(yùn)維可以利用資源監(jiān)控的手段有效地監(jiān)控一組或多組資源指標(biāo),并且根據(jù)系統(tǒng)資源當(dāng)前的使用情況進(jìn)行適當(dāng)適量的動態(tài)伸縮。當(dāng)資源不足的時候,根據(jù)約定的規(guī)模比例部署節(jié)點(diǎn)并將其添加到當(dāng)前的運(yùn)行環(huán)境中。當(dāng)資源利用率很低時,又可以回收資源以避免造成資源的浪費(fèi)。
4? 結(jié)束語
綜上所述,智能運(yùn)維基于人工智能的自我學(xué)習(xí)和深度學(xué)習(xí)技術(shù),創(chuàng)新了運(yùn)維模式的構(gòu)建和實(shí)現(xiàn)方式,可以提高大數(shù)據(jù)爆炸時代的運(yùn)維工作效率,是未來運(yùn)維工作的主導(dǎo)方向。目前,部分?jǐn)?shù)據(jù)中心已經(jīng)在智能運(yùn)維方向上進(jìn)行了一定的嘗試,并且取得了非常好的效果和用戶體驗(yàn)。未來,針對不同的應(yīng)用場景和需求,更好地利用智能化工具關(guān)聯(lián)分析數(shù)據(jù)、深入挖掘數(shù)據(jù)的價值將是智能運(yùn)維的主要研究方向,本項(xiàng)目將結(jié)合自身的運(yùn)維需求,探討適宜的實(shí)現(xiàn)智能運(yùn)維的技術(shù)路線和方案。
參考文獻(xiàn):
[1]鐘湘瓊.基于云計算的大數(shù)據(jù)只能運(yùn)維系統(tǒng)設(shè)計.信息通信[J],2016.2
[2]羅硯.基于大數(shù)據(jù)的信息系統(tǒng)運(yùn)維智能化研究.郵電設(shè)計技術(shù)[J],2018(3)
[3]毛開梅.大數(shù)據(jù)之智能運(yùn)維系統(tǒng)設(shè)計及應(yīng)用.網(wǎng)絡(luò)與信息工程[J],2018(14)
[4]劉世發(fā),畢永軍.智能化運(yùn)維的探索與實(shí)踐[J].金融電子化,2017,08.
[5]李鵬.基于云計算的大數(shù)據(jù)運(yùn)維系統(tǒng)的設(shè)計與實(shí)現(xiàn)[D].天津大學(xué),2017.
[6]劉瑩旭.智能運(yùn)維中心信息集成技術(shù)研究[D].上海交通大學(xué),2013.