楊猛 張峰 潘磊等
關(guān)鍵詞:人工智能;系統(tǒng)運(yùn)行;風(fēng)險(xiǎn)預(yù)警;識(shí)別技術(shù)
中圖法分類號(hào):TU855 文獻(xiàn)標(biāo)識(shí)碼:A
1引言
當(dāng)前,數(shù)字化轉(zhuǎn)型已經(jīng)成為各大企業(yè)的共識(shí)與必然趨勢(shì),基于大數(shù)據(jù)、人工智能、云計(jì)算等先進(jìn)信息技術(shù)架構(gòu)打造數(shù)字化、智能化運(yùn)維模式將成為企業(yè)數(shù)字化轉(zhuǎn)型的重要支點(diǎn)與技術(shù)手段。海量數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)計(jì)算能力、人工智能算法等可為信息系統(tǒng)運(yùn)行風(fēng)險(xiǎn)的分析預(yù)警提供更加有力的技術(shù)支撐,進(jìn)一步提高系統(tǒng)運(yùn)行智能分析效率及預(yù)警精準(zhǔn)度。
2構(gòu)建數(shù)據(jù)中臺(tái)基礎(chǔ)
為實(shí)現(xiàn)基于人工智能的系統(tǒng)運(yùn)行風(fēng)險(xiǎn)預(yù)警和識(shí)別,首先需要搭建一個(gè)能承載海量、多維運(yùn)維指標(biāo)體的數(shù)據(jù)中臺(tái)。通過集中、統(tǒng)一的方式,將現(xiàn)有分散的IT系統(tǒng)產(chǎn)生的運(yùn)維數(shù)據(jù)進(jìn)行集中采集,對(duì)這些IT運(yùn)維數(shù)據(jù)進(jìn)行海量存儲(chǔ)、高效計(jì)算和關(guān)聯(lián)分析建模,通過靈活的服務(wù)接口方式,利用標(biāo)準(zhǔn)查詢語言提供各類數(shù)據(jù)檢索服務(wù),并在此基礎(chǔ)上研究更上層的數(shù)據(jù)服務(wù)能力和數(shù)據(jù)應(yīng)用能力。
2.1分布式數(shù)據(jù)采集方式
隨著運(yùn)維領(lǐng)域數(shù)據(jù)采集技術(shù)的不斷更新,出現(xiàn)了大量實(shí)時(shí)的非結(jié)構(gòu)化數(shù)據(jù)。研究設(shè)計(jì)新的數(shù)據(jù)采集架構(gòu),可以根據(jù)數(shù)據(jù)體量,分布式部署數(shù)據(jù)采集器。通過對(duì)采集任務(wù)的分解,實(shí)現(xiàn)多任務(wù)并行采集,從而提高數(shù)據(jù)采集效率及準(zhǔn)確性。分布式數(shù)據(jù)采集方式具備針對(duì)不同類型數(shù)據(jù)源的抽取接口的能力,接口程序規(guī)范統(tǒng)一,接口具備設(shè)定采集范圍和采集頻率的能力,平臺(tái)具備觀察接口采集效率、統(tǒng)計(jì)采集的數(shù)據(jù)量的能力。
平臺(tái)采集端可以快速對(duì)接各監(jiān)控工具API,實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)采集,支持集群的集中管理、機(jī)器的集中管理、收集器的集中管理,并支持采集任務(wù)管控。
2.2實(shí)時(shí)大數(shù)據(jù)處理
在面對(duì)海量、高速采集到的數(shù)據(jù)時(shí),只有強(qiáng)大的存儲(chǔ)和離線計(jì)算能力是遠(yuǎn)遠(yuǎn)不夠的,對(duì)數(shù)據(jù)的實(shí)時(shí)處理能力和對(duì)處理結(jié)果的分析挖掘能力變得更加重要,需利用實(shí)時(shí)流式處理技術(shù),實(shí)現(xiàn)實(shí)時(shí)處理海量流式數(shù)據(jù),包括對(duì)數(shù)據(jù)的加載、檢查、清洗、分解、補(bǔ)全、結(jié)構(gòu)化、歸并、引用及異常標(biāo)記等,實(shí)時(shí)處理、實(shí)時(shí)輸出,為在線業(yè)務(wù)提供實(shí)時(shí)應(yīng)用支持。
實(shí)時(shí)數(shù)據(jù)處理的過程,是將數(shù)據(jù)從非結(jié)構(gòu)化到結(jié)構(gòu)化的解析、數(shù)據(jù)清洗、格式轉(zhuǎn)換以及數(shù)據(jù)聚合計(jì)算的數(shù)字化轉(zhuǎn)換過程。采用實(shí)時(shí)流式計(jì)算框架、離線計(jì)算框架,整合數(shù)學(xué)統(tǒng)計(jì)庫、集成常用挖掘算法、機(jī)器學(xué)習(xí)庫,并提供圖形化操作界面,實(shí)現(xiàn)自助式數(shù)據(jù)分析與挖掘算法的模型創(chuàng)建。
2.3大數(shù)據(jù)存儲(chǔ)
大數(shù)據(jù)存儲(chǔ)平臺(tái)作為智能運(yùn)維的基礎(chǔ)數(shù)據(jù)支撐,需要確保平臺(tái)本身安全、可靠,能夠滿足各類監(jiān)控?cái)?shù)據(jù)的采集管理和監(jiān)控,支持實(shí)時(shí)、海量的運(yùn)維數(shù)據(jù)采集、處理、分析和存儲(chǔ),能提供高性能(PB級(jí)數(shù)據(jù)量、毫秒級(jí)響應(yīng))、一站式的運(yùn)維數(shù)據(jù)服務(wù),能夠極大地提升運(yùn)維數(shù)據(jù)的處理效率。
2.4 IT運(yùn)維監(jiān)控指標(biāo)體系
一個(gè)完整的IT運(yùn)維監(jiān)控指標(biāo)體系將是一個(gè)能夠給繁雜的運(yùn)維工作帶來便利且提高效率的服務(wù)體系。傳統(tǒng)的運(yùn)維管理大多由人工完成,在復(fù)雜、煩瑣的IT細(xì)節(jié)上花費(fèi)大量人力資源,而通過數(shù)字化技術(shù)將服務(wù)水平管理、監(jiān)控和診斷結(jié)果呈送給管理者和運(yùn)維人員,不僅能夠讓運(yùn)維人員一目了然,提高運(yùn)維服務(wù)水平,又能為管理者的管理決策提供數(shù)據(jù)支持。
3系統(tǒng)運(yùn)行健康狀態(tài)和趨勢(shì)
在構(gòu)建數(shù)據(jù)中臺(tái)的基礎(chǔ)上,需要進(jìn)一步通過人工智能(算法)對(duì)時(shí)序數(shù)據(jù)進(jìn)行分析來實(shí)現(xiàn)系統(tǒng)運(yùn)行風(fēng)險(xiǎn)識(shí)別和預(yù)警。數(shù)據(jù)流是一組有序、有起點(diǎn)和終點(diǎn)的字節(jié)數(shù)據(jù)序列,與傳統(tǒng)的關(guān)系數(shù)據(jù)模式相比,數(shù)據(jù)流本身具有持續(xù)達(dá)到、到達(dá)速度快、取值范圍廣3個(gè)特點(diǎn)。業(yè)務(wù)運(yùn)行狀態(tài)相關(guān)的數(shù)據(jù)流表現(xiàn)為時(shí)序數(shù)據(jù),即時(shí)間序列數(shù)據(jù)。時(shí)序數(shù)據(jù)依賴于時(shí)間而變化,可以用數(shù)值來反映其變化程度,其具有兩個(gè)關(guān)鍵的指標(biāo):時(shí)間和數(shù)值。從時(shí)序數(shù)據(jù)的理論分析層面看,一般將時(shí)序特征分為趨勢(shì)型(季節(jié))、平穩(wěn)型(噪聲)、周期型。具體如圖1所示。
運(yùn)維場(chǎng)景下,由于應(yīng)用系統(tǒng)異常(如重啟)導(dǎo)致指標(biāo)數(shù)據(jù)嚴(yán)重偏離取值范圍或數(shù)據(jù)缺失,從而使數(shù)據(jù)產(chǎn)生“毛刺”,以及應(yīng)用系統(tǒng)發(fā)生變更,讓整個(gè)指標(biāo)數(shù)據(jù)較變更之前產(chǎn)生“斷層”的情況,這都是在研究中需要避免的預(yù)測(cè)因素。實(shí)際業(yè)務(wù)中,針對(duì)“毛刺”情況需要對(duì)嚴(yán)重偏離的數(shù)據(jù)進(jìn)行剔除,對(duì)“斷層”數(shù)據(jù)進(jìn)行清除,再進(jìn)行模型學(xué)習(xí)。針對(duì)指標(biāo)時(shí)序數(shù)據(jù)的監(jiān)控方式,一般都為固定閾值方式,即由運(yùn)維專家為指標(biāo)設(shè)定一個(gè)固定的閾值,當(dāng)指標(biāo)數(shù)據(jù)大于閾值或小于閾值時(shí),系統(tǒng)進(jìn)行異常告警。固定閾值方法的優(yōu)點(diǎn)是可以利用專家知識(shí)進(jìn)行異常判斷,并且在做異常檢測(cè)時(shí)計(jì)算量低。然而,實(shí)際運(yùn)維場(chǎng)景下,固定閾值方法效益很低。對(duì)于平穩(wěn)型數(shù)據(jù),異常表現(xiàn)形式為過高、過低的異常數(shù)據(jù),固定閾值方法是有效的。但現(xiàn)實(shí)場(chǎng)景下,這類指標(biāo)數(shù)據(jù)極小,且要求運(yùn)維專家為每一個(gè)指標(biāo)制定相應(yīng)的閾值。此外,指標(biāo)數(shù)據(jù)是隨時(shí)間呈現(xiàn)一定的發(fā)展趨勢(shì),模式會(huì)持續(xù)地變化,固定閾值方法無法適應(yīng)時(shí)序數(shù)據(jù)的模式變化。
3.1時(shí)間序列預(yù)測(cè)
通過借鑒時(shí)間序列分解的思路,將時(shí)序數(shù)據(jù)分解為趨勢(shì)項(xiàng)、周期項(xiàng)、節(jié)假日項(xiàng),由此通過疊加不同成分,來適配各種不同模式的時(shí)序序列。
趨勢(shì)特征表示序列整體的變化趨勢(shì),大致可分類3類,即水平發(fā)展趨勢(shì)、上升趨勢(shì)、下降趨勢(shì)。細(xì)分又可分為多種類型,如線性趨勢(shì)、多項(xiàng)式趨勢(shì)、log趨勢(shì)等,不同趨勢(shì)可由不同的方式擬合,如使用線性回歸擬合線性趨勢(shì)、多項(xiàng)式回歸擬合多項(xiàng)式趨勢(shì)等,每一種方式都有適配的趨勢(shì)類型。同時(shí),不存在能夠適配所有類型的方法。
大型運(yùn)維場(chǎng)景下,業(yè)務(wù)場(chǎng)景狀態(tài)比較穩(wěn)定,當(dāng)落實(shí)在個(gè)體設(shè)備的某一指標(biāo)時(shí),影響因素多,不確定性大,指標(biāo)數(shù)據(jù)多變,趨勢(shì)發(fā)展不穩(wěn)定。因此一般使用基于Loes的分段線性回歸或基于Sigmoid的分段Logistic增長模型。
季節(jié)性和周期性一般情況下可視為同一成分,一般可通過傅里葉級(jí)數(shù)、拉普拉斯級(jí)數(shù)等方式進(jìn)行描述、擬合,具體級(jí)數(shù)應(yīng)通過在標(biāo)準(zhǔn)數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)確定。趨勢(shì)特征、季節(jié)性和周期性的描述方式多種多樣,沒有適配所有場(chǎng)景的通用方法。需要結(jié)合場(chǎng)景、通過數(shù)據(jù)實(shí)驗(yàn)研究,獲得匹配當(dāng)前需求的最佳實(shí)踐。
傳統(tǒng)時(shí)間序列預(yù)測(cè)方法,包括ar,ma,arima,ES等,均采用類似自回歸的方式進(jìn)行。這類方法都對(duì)數(shù)據(jù)有較高的要求,如arima等都要求時(shí)序數(shù)據(jù)為平穩(wěn)時(shí)間序列。一般情況下,可通過一階差分、二階差分、取對(duì)數(shù)等方式將數(shù)據(jù)轉(zhuǎn)化為平穩(wěn)數(shù)據(jù)。然而,不同時(shí)序數(shù)據(jù)的轉(zhuǎn)化要求不同方式的平穩(wěn)化操作,并需要結(jié)合專家知識(shí),否則無法實(shí)現(xiàn)自動(dòng)化適配。
為規(guī)避傳統(tǒng)時(shí)間序列預(yù)測(cè)方法的缺陷,可以使用一個(gè)可分解的時(shí)間序列模型,其中包含4個(gè)主要的模型組件,即趨勢(shì)(T)、季節(jié)性(S)、周期性(C)和噪聲(I)。針對(duì)每一個(gè)時(shí)間序列的成分,設(shè)計(jì)對(duì)應(yīng)的特征來提取相應(yīng)成分的信息:基于特征和參數(shù)先驗(yàn),進(jìn)行回歸預(yù)測(cè)。
趨勢(shì)特征表示序列整體的變化趨勢(shì),即序列在較長時(shí)期內(nèi)持續(xù)發(fā)展變化的一種趨向或狀態(tài)。季節(jié)性趨勢(shì)指以時(shí)間為固定周期,呈現(xiàn)循環(huán)變化的成分;周期性趨勢(shì)指不固定周期、程序循環(huán)變化的成分。不過很多時(shí)候也會(huì)將季節(jié)性(S)和周期性(C)視為同一成分。通過趨勢(shì)、季節(jié)性、周期性不同成分的多種組合方式,最大限度地?cái)M合更多的數(shù)據(jù)模式。其中,如何擬合時(shí)間序列的趨勢(shì)成分、周期成分是研究重點(diǎn)。
3.2時(shí)間序列異常檢測(cè)
基于時(shí)間序列擬合、預(yù)測(cè)的結(jié)果,研究智能化適配數(shù)據(jù)的異常檢測(cè)方法,是實(shí)現(xiàn)大規(guī)模數(shù)據(jù)流高準(zhǔn)確度、自動(dòng)化檢測(cè)的關(guān)鍵。在擬合、預(yù)測(cè)結(jié)果的基礎(chǔ)上,研究不同檢測(cè)方式對(duì)異常檢測(cè)結(jié)果的影響,比較各種方式在業(yè)務(wù)場(chǎng)景下異常警告的準(zhǔn)確率、召回率等。
時(shí)間序列異??煞譃閮深?,即數(shù)值異常、模式場(chǎng)景。兩種異常通常同時(shí)存在。在已有的時(shí)序擬合、預(yù)測(cè)結(jié)果的基礎(chǔ)上,以擬合結(jié)果作為基線,將指標(biāo)數(shù)據(jù)與基線做對(duì)比,進(jìn)行異常檢測(cè)。不同的對(duì)比方式,如與基線固定偏差程度判定、基于偏差分布的動(dòng)態(tài)偏差程度判定,基于數(shù)據(jù)上下文的模式對(duì)比等,在尋找到一些異常點(diǎn)時(shí),也會(huì)產(chǎn)生誤告警。此時(shí),需結(jié)合標(biāo)準(zhǔn)數(shù)據(jù)集,做對(duì)比實(shí)驗(yàn),以此挑選適配領(lǐng)域數(shù)據(jù)的異常判斷方式。
4系統(tǒng)智能化感知和識(shí)別
通過分析歷史的日志、告警、報(bào)錯(cuò)等信息,人工智能可以自動(dòng)分析問題出現(xiàn)前頻繁出現(xiàn)的數(shù)據(jù)模式,然后在正常存儲(chǔ)系統(tǒng)上匹配這些人工智能學(xué)習(xí)模式.以形成預(yù)測(cè)。
除故障外,用戶在日常使用存儲(chǔ)的過程中關(guān)注最多的就是容量和性能。系統(tǒng)容量不足會(huì)導(dǎo)致系統(tǒng)不可用,客戶業(yè)務(wù)中斷。性能指標(biāo)主要指時(shí)延、帶寬、IOPS,隨著用戶業(yè)務(wù)的發(fā)展,給系統(tǒng)帶來的性能壓力越來越大,性能不足會(huì)讓用戶的應(yīng)用變慢甚至無響應(yīng),導(dǎo)致用戶體驗(yàn)感下降。利用AI技術(shù),對(duì)存儲(chǔ)的性能、容量變化趨勢(shì)進(jìn)行準(zhǔn)確預(yù)測(cè),一方面可以告知客戶進(jìn)行擴(kuò)容、軟硬件升級(jí)的時(shí)間點(diǎn),另一方面能提供存儲(chǔ)規(guī)劃的具體參考指標(biāo)。
業(yè)務(wù)狀態(tài)評(píng)估系統(tǒng)設(shè)計(jì)的關(guān)鍵在于異??煺盏脑O(shè)計(jì)、特征提取方式、相似度計(jì)算方式的選擇。
異??煺盏脑O(shè)計(jì)需要結(jié)合實(shí)際業(yè)務(wù)進(jìn)行設(shè)定,如請(qǐng)求響應(yīng)時(shí)長、CPU利用率、內(nèi)存利用率、磁盤利用率、IO、網(wǎng)絡(luò)延時(shí)等,并可結(jié)合隨機(jī)森林等特征選擇方式做進(jìn)一步篩選。
特征提取方式包括數(shù)值提取、onehot編碼等,方法的選擇需結(jié)合實(shí)驗(yàn)評(píng)估效果和計(jì)算評(píng)估性能進(jìn)行綜合考量。
相似度計(jì)算方式的選擇需在確定特征提取方式之后進(jìn)行。不同的相似度指標(biāo),召回的相似事件有所不同。需經(jīng)對(duì)比實(shí)驗(yàn)確定最佳適配方式。一般使用的相似度計(jì)算方式包括歐氏距離、Pearson相關(guān)系數(shù)、Tanimote系數(shù):
5結(jié)束語
基于人工智能的系統(tǒng)運(yùn)行風(fēng)險(xiǎn)預(yù)警和識(shí)別技術(shù)需要采用自頂向下的設(shè)計(jì),以及自底向上建設(shè)的形式實(shí)現(xiàn)。從數(shù)據(jù)的角度關(guān)注系統(tǒng)運(yùn)行狀態(tài)變化的原因,根據(jù)系統(tǒng)運(yùn)行時(shí)的異?,F(xiàn)象,將系統(tǒng)可能產(chǎn)生的故障關(guān)聯(lián)到各種資源的可能故障點(diǎn),再根據(jù)具體事件分析并找到引起業(yè)務(wù)故障的根源。對(duì)指標(biāo)、事件、日志數(shù)據(jù)進(jìn)行充分的挖掘和分析,并利用資源運(yùn)行狀態(tài)對(duì)業(yè)務(wù)運(yùn)營狀態(tài)的影響識(shí)別做出科學(xué)的預(yù)測(cè)。
作者簡(jiǎn)介:
楊猛(1987—),碩士,高級(jí)工程師,研究方向:信息系統(tǒng)運(yùn)維。