林國(guó)峰,詹伶俐,沈德仁
(南京萊斯信息技術(shù)股份有限公司,江蘇南京 210000)
航空是我國(guó)的戰(zhàn)略性產(chǎn)業(yè),是建設(shè)獨(dú)立自主國(guó)防的重要基礎(chǔ),也是帶動(dòng)國(guó)民經(jīng)濟(jì)發(fā)展的重要力量。航空在我國(guó)的可持續(xù)發(fā)展道路上正扮演著不可或缺的重要角色,為各地區(qū)協(xié)同發(fā)展帶來(lái)了源源不斷的動(dòng)力。面對(duì)航線數(shù)量以及航班數(shù)量的不斷增長(zhǎng),空管自動(dòng)化系統(tǒng)在實(shí)現(xiàn)平穩(wěn)有序的空中交通管制中發(fā)揮了重要的作用。經(jīng)過(guò)多年的技術(shù)推進(jìn),國(guó)內(nèi)已經(jīng)實(shí)現(xiàn)了航班信息與航空雷達(dá)自動(dòng)化系統(tǒng)、電子進(jìn)程單的關(guān)聯(lián),實(shí)現(xiàn)了空中交通管理的數(shù)字化和集成化。即使如此,空管自動(dòng)化系統(tǒng)還是面臨著很大的技術(shù)變革需求,下一代空管自動(dòng)化系統(tǒng)的研究與應(yīng)用迫在眉睫,因此針對(duì)下一代空管自動(dòng)化系統(tǒng)運(yùn)行保障體系建設(shè)的研究具有重大的戰(zhàn)略意義。
20 世紀(jì)60 年代末70 年代初,美國(guó)聯(lián)邦航空局(Federal Aviation Administration,F(xiàn)AA)開始建設(shè)全國(guó)空中交通管理系統(tǒng),自此對(duì)航空管理的研究引起了關(guān)注。到了20 世紀(jì)80 年代中后期,隨著通信網(wǎng)和互聯(lián)網(wǎng)技術(shù)的進(jìn)步,全球主要國(guó)家的空管自動(dòng)化系統(tǒng)逐步形成了完善的地基導(dǎo)航技術(shù),并且開始采用數(shù)字通信技術(shù)和計(jì)算機(jī)技術(shù)。目前,中國(guó)、美國(guó)、法國(guó)等國(guó)家已經(jīng)構(gòu)建出了完善的空管自動(dòng)化系統(tǒng)。這些系統(tǒng)普遍由通信、導(dǎo)航和監(jiān)視3 部分組成。通信方面包括空地?cái)?shù)據(jù)鏈網(wǎng)絡(luò)、航空移動(dòng)衛(wèi)星通信網(wǎng)以及空地一體化航空通信網(wǎng);導(dǎo)航方面包括以衛(wèi)星技術(shù)為基礎(chǔ)的導(dǎo)航、定位和自動(dòng)著陸系統(tǒng);監(jiān)視方面包括自動(dòng)相關(guān)監(jiān)視以及超視距監(jiān)視。
經(jīng)過(guò)多年的發(fā)展,空管自動(dòng)化系統(tǒng)雖然已能較好地滿足空中交通管理的各項(xiàng)需求,但空管自動(dòng)化系統(tǒng)仍然存在很大的技術(shù)發(fā)展空間。一方面,隨著通用航空、無(wú)人機(jī)航空等領(lǐng)域研究的興起,目前正在積極開展基于航跡運(yùn)行相關(guān)技術(shù)的研究,而現(xiàn)有的空管自動(dòng)化系統(tǒng)將不再適用;另一方面,隨著虛擬化、容器、彈性計(jì)算以及人工智能等先進(jìn)計(jì)算技術(shù)的發(fā)展及其性能優(yōu)勢(shì)的體現(xiàn),各方已經(jīng)將以上技術(shù)作為下一代空管自動(dòng)化系統(tǒng)研制的基礎(chǔ)技術(shù)支撐。這種技術(shù)架構(gòu)、軟硬件設(shè)施的巨大變革,以及業(yè)務(wù)復(fù)雜度、系統(tǒng)規(guī)模的全面提升,對(duì)下一代空管自動(dòng)化系統(tǒng)的可靠性保障提出了全新的、嚴(yán)峻的挑戰(zhàn),尤其在資源管理、數(shù)據(jù)管理等方面,系統(tǒng)的性能異常將更加難以捕捉和追蹤。由此可見,下一代空管自動(dòng)化系統(tǒng)亟需一套與之匹配的運(yùn)行保障體系,能夠?qū)ο到y(tǒng)中的性能異常進(jìn)行智能檢測(cè)和預(yù)警,從而保證空管自動(dòng)化系統(tǒng)的可靠運(yùn)行。
智能運(yùn)維(algorithmic IT operations,AIOps)的出現(xiàn)為空管自動(dòng)化系統(tǒng)的運(yùn)行保障體系建設(shè)提供了可行的解決方案。AIOps 并不是一種具體的算法,而是集成了許多算法(包括數(shù)據(jù)挖掘、統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)等算法)形成一套完善的、自動(dòng)化的運(yùn)維體系,進(jìn)而輔助人工團(tuán)隊(duì)完成大量的、重復(fù)性的運(yùn)維任務(wù),甚至為復(fù)雜的故障排查提供可信的數(shù)據(jù)分析結(jié)果。
面向空管自動(dòng)化系統(tǒng)的智能運(yùn)維體系如圖1所示。該體系通過(guò)前端可視化展示空管自動(dòng)化系統(tǒng)的監(jiān)控服務(wù)模塊,包括網(wǎng)絡(luò)監(jiān)控、服務(wù)器監(jiān)控、存儲(chǔ)監(jiān)控、虛擬化監(jiān)控、數(shù)據(jù)庫(kù)監(jiān)控以及中間件監(jiān)控。計(jì)算平臺(tái)是本體系中的核心,它對(duì)接了空管自動(dòng)化系統(tǒng)的服務(wù)器和數(shù)據(jù)庫(kù),為AIOps 構(gòu)建異常檢測(cè)、異常診斷以及異常預(yù)斷三大主要算法模型,進(jìn)而提供了智能告警、系統(tǒng)管理、配置管理以及權(quán)限管理等核心功能。
圖1 空管自動(dòng)化系統(tǒng)智能運(yùn)維體系示意圖
根據(jù)計(jì)算平臺(tái)中算法模型的技術(shù)原理劃分,目前針對(duì)智能運(yùn)維的主要研究大致分為基于時(shí)間序列分析的方法、基于文本挖掘的方法、基于深度學(xué)習(xí)的方法以及最近提出的基于溯因推理(abductive learning)的方法。
時(shí)間序列分析起始于20 世紀(jì)90 年代,時(shí)間序列的研究涵蓋了相似性查詢、時(shí)序模式挖掘、時(shí)間序列分類和聚類、時(shí)間序列異常檢測(cè)等領(lǐng)域,是各行各業(yè)尤其是復(fù)雜系統(tǒng)研究中密切關(guān)注的內(nèi)容。目前,空管自動(dòng)化系統(tǒng)的許多監(jiān)控項(xiàng)都是時(shí)間序列數(shù)據(jù),因此時(shí)間序列分析是其智能運(yùn)維研究中非常重要的一環(huán)。
時(shí)間序列分析的基礎(chǔ)是統(tǒng)計(jì)分析,國(guó)內(nèi)外早已開展了眾多研究。時(shí)間序列分析的代表算法是差分整合移動(dòng)平均自回歸模型(auto-regressive integrated moving average model,ARIMA)[1],最初用于氣象數(shù)據(jù)以及傳染病數(shù)據(jù)等具有明顯季節(jié)性或周期性的單維時(shí)間序列的異常檢測(cè)。早在2003 年,文獻(xiàn)[2]提出了使用計(jì)算建模技術(shù)實(shí)現(xiàn)對(duì)計(jì)算機(jī)異常的診斷。文獻(xiàn)[3]提出了一種將ARIMA模型應(yīng)用于網(wǎng)絡(luò)流量趨勢(shì)分析的方法,該方法從網(wǎng)絡(luò)流量的原始數(shù)據(jù)中提取出相關(guān)特征并對(duì)各個(gè)特征分別建立ARIMA 模型,將實(shí)際值與模型預(yù)測(cè)值的差值作為偏離度向量,通過(guò)不斷更新偏離度并結(jié)合支持向量機(jī)(support vector machine,SVM)對(duì)網(wǎng)絡(luò)流量進(jìn)行分類實(shí)現(xiàn)實(shí)時(shí)在線分析。文獻(xiàn)[4]提出了基于L1 正則化邏輯回歸算法,并借助統(tǒng)計(jì)學(xué)上的分位點(diǎn),通過(guò)某個(gè)時(shí)間跨度上的服務(wù)器性能指標(biāo)構(gòu)造了狀態(tài)“指紋”,通過(guò)“指紋”的相似度比較來(lái)確定異常事件的具體類型,從而協(xié)助運(yùn)維人員實(shí)施對(duì)應(yīng)的解決方案。文獻(xiàn)[5]介紹了一個(gè)名為DBSherlock的性能異常診斷工具,用于大型線上交易系統(tǒng)數(shù)據(jù)庫(kù)性能異常診斷。DBShelock 集成了異常檢測(cè)和因果分析功能,其中異常檢測(cè)功能基于DBSCAN算法實(shí)現(xiàn),因果分析功能則是一種基于斷言的解釋機(jī)制,類似決策樹算法。不過(guò)該解釋機(jī)制的可靠性在很大程度上取決于反饋信息的精確程度,即使非常小的輸入噪聲都會(huì)對(duì)精度造成較大的影響,從而不得不修改原有的樹形結(jié)構(gòu)。Jeyakumar 等[6]構(gòu)造了一種基于因果概率圖模型的根因分析框架,在框架內(nèi)整合了異常查詢、異常分類以及指標(biāo)關(guān)聯(lián)等功能。由于運(yùn)行過(guò)程依賴于大量的人為操作,隨著系統(tǒng)規(guī)模的擴(kuò)展以及指標(biāo)數(shù)據(jù)量的增加,框架整體的可行性會(huì)有所下降。
指數(shù)平滑(exponential smoothing,ES)是在經(jīng)典的移動(dòng)平均法基礎(chǔ)上發(fā)展起來(lái)的一種時(shí)間序列分析方法,其優(yōu)勢(shì)在于模型簡(jiǎn)潔、參數(shù)少易于訓(xùn)練、計(jì)算開銷少等,早期主要應(yīng)用于中短期經(jīng)濟(jì)發(fā)展的趨勢(shì)預(yù)測(cè)。Holt-Winters 算法[7]又稱為三次指數(shù)平滑(triple-exponential smoothing,TES)。作者所在課題組根據(jù)自動(dòng)化系統(tǒng)監(jiān)控?cái)?shù)據(jù)的特點(diǎn)對(duì)Holt-Winters 模型進(jìn)行了優(yōu)化,設(shè)計(jì)了監(jiān)控項(xiàng)的動(dòng)態(tài)異常檢測(cè)和趨勢(shì)預(yù)測(cè)方法,效果如圖2 所示。
圖2 基于Holt-Winters 模型的空管自動(dòng)化系統(tǒng)監(jiān)控項(xiàng)預(yù)測(cè)和異常檢測(cè)效果圖
我們利用采集到的監(jiān)控項(xiàng)歷史數(shù)據(jù)去訓(xùn)練Holt-Winters 模型的參數(shù)。根據(jù)監(jiān)控項(xiàng)的實(shí)時(shí)數(shù)據(jù),基于3σ 準(zhǔn)則自適應(yīng)生成監(jiān)控項(xiàng)的告警上界和告警下界,上下界共同組成了監(jiān)控項(xiàng)的動(dòng)態(tài)基線,不再使用簡(jiǎn)單的閾值去判斷監(jiān)控項(xiàng)的正?;虍惓?,例如圖2 中的紅色曲線低于下界,因此判定為異常。這種方法的優(yōu)勢(shì)在于克服了當(dāng)前自動(dòng)化系統(tǒng)頻繁出現(xiàn)告警誤報(bào)、漏報(bào)和告警不及時(shí)的問(wèn)題。同時(shí),該方法可根據(jù)監(jiān)控項(xiàng)的實(shí)時(shí)數(shù)據(jù)生成未來(lái)一段時(shí)間(未來(lái)10min、1h 等)的數(shù)值預(yù)測(cè)結(jié)果,在關(guān)鍵監(jiān)控項(xiàng)的監(jiān)控上給予技保人員充分的時(shí)間提前量,提升告警應(yīng)對(duì)能力。
以上方法的技術(shù)基礎(chǔ)均為時(shí)間序列分析,其優(yōu)勢(shì)在于:1)時(shí)間序列數(shù)據(jù)在所有可監(jiān)測(cè)數(shù)據(jù)中的總量占比相當(dāng)大,相關(guān)應(yīng)用非常廣泛;2)時(shí)間序列分析模型結(jié)構(gòu)簡(jiǎn)單,模型訓(xùn)練與部署的計(jì)算負(fù)載較小。其劣勢(shì)在于:現(xiàn)有的時(shí)間序列分析技術(shù)缺乏對(duì)長(zhǎng)期的、具有復(fù)雜關(guān)聯(lián)關(guān)系的數(shù)據(jù)(例如文本)進(jìn)行分析的能力。
在空管自動(dòng)化系統(tǒng)運(yùn)行過(guò)程中,很多復(fù)雜關(guān)聯(lián)關(guān)系的信息都包含在消息以及日志等文本數(shù)據(jù)當(dāng)中。基于文本挖掘開展智能運(yùn)維技術(shù)研究,可以彌補(bǔ)時(shí)間序列分析在這方面的缺陷。
朱麗娜等[8]定義了單步相似度和模式相似度來(lái)分析日志文件,引入拓?fù)渑判蚝喜⑾嗨茊尾絹?lái)計(jì)算模式相似度,通過(guò)模式相似度的度量提前預(yù)判性能異常信息,實(shí)現(xiàn)告警的預(yù)警。文獻(xiàn)[9]提出了一種基于SD 結(jié)構(gòu)的處理頻繁路徑基算法實(shí)現(xiàn)日志文本的關(guān)聯(lián),使得COFI 算法在時(shí)間性能和空間性能上有所提升。楊楊等[10]基于模糊推理策略為規(guī)則前件賦予不同的權(quán)重,對(duì)于權(quán)重不高的失敗join 操作給予一定的容忍度,克服了Rete 算法的精確匹配問(wèn)題,在告警消息缺失、中斷等情景下提升了關(guān)聯(lián)模型的容錯(cuò)性。魯顯光等[11]采用數(shù)組查詢的方式在稀疏項(xiàng)中查找頻繁項(xiàng)集,而使用Top-Down 遍歷查找密集項(xiàng)中的頻繁項(xiàng)集,避免了FPgrowth 算法針對(duì)稀疏數(shù)據(jù)集中的單個(gè)項(xiàng)需要構(gòu)建多個(gè)分支條件模式樹的問(wèn)題。
以上方法對(duì)傳統(tǒng)的文本挖掘方法進(jìn)行了改進(jìn),提升了文本語(yǔ)義、關(guān)聯(lián)等復(fù)雜信息的分析能力。如果將這一類方法應(yīng)用于自動(dòng)化系統(tǒng)監(jiān)控消息和日志的挖掘,將顯著提升自動(dòng)化系統(tǒng)的智能運(yùn)維水平。但是現(xiàn)有的文本挖掘方法的不足在于:1)文本的非結(jié)構(gòu)化以及文本模板的多樣性對(duì)文本挖掘模型的構(gòu)建造成了一定的困擾,需要設(shè)計(jì)相匹配的結(jié)構(gòu)化和特征提取方法;2)現(xiàn)有的文本挖掘方法缺乏對(duì)長(zhǎng)文本數(shù)據(jù)的語(yǔ)法和語(yǔ)義進(jìn)行分析的能力。
不難看出,前述的智能運(yùn)維方法總體上需要經(jīng)過(guò)故障機(jī)理分析、數(shù)據(jù)預(yù)處理、提取特征數(shù)據(jù)、建立模型等一系列流程,既需要花費(fèi)大量時(shí)間又需要運(yùn)維人員具備極強(qiáng)的專業(yè)知識(shí)。隨著空管自動(dòng)化系統(tǒng)的復(fù)雜化和規(guī)?;瑢?duì)端到端的智能運(yùn)維方法的應(yīng)用需求日益迫切,而深度學(xué)習(xí)的發(fā)展和普及恰好提供了新的思路和途徑。
作為深度學(xué)習(xí)的前身,經(jīng)典機(jī)器學(xué)習(xí)在智能運(yùn)維領(lǐng)域也誕生過(guò)一些應(yīng)用。Lin 等[12]考慮到日志文件標(biāo)注的困難性,嘗試?yán)萌罩鞠嗨菩詫?duì)系統(tǒng)日志進(jìn)行聚類實(shí)現(xiàn)無(wú)監(jiān)督的日志異常檢測(cè),但聚類算法不能有效地利用日志文件在時(shí)間維度上的序列特征。Qiu 等[13]提出的SyslogDigest 模型將非結(jié)構(gòu)化的日志消息映射到消息模板上以解析日志消息,然后基于消息模板的序列生成高層次的事件記錄。
后來(lái)基于學(xué)習(xí)開展智能運(yùn)維研究吸引了許多學(xué)者的關(guān)注。文獻(xiàn)[14]基于去噪自編碼器對(duì)多種故障進(jìn)行了診斷,實(shí)驗(yàn)結(jié)果表明其診斷準(zhǔn)確率高于單隱含層的BPNN、多隱含層的BPNN 以及SVM。Brown 等[15]將具備注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)用于分析日志數(shù)據(jù),分析結(jié)果可協(xié)助運(yùn)維人員進(jìn)行系統(tǒng)的入侵檢測(cè)。文獻(xiàn)[16]介紹了一種基于LSTM 的DeepLog模型,避免了RNN 的梯度消失/爆炸問(wèn)題,在離線階段判斷新產(chǎn)生日志序列與模型學(xué)習(xí)到的特征是否相符,如果不相符就認(rèn)為該日志序列是異常的。張林棟等[17]基于雙向長(zhǎng)短期記憶(Bi-directional long short-term memory,Bi-LSTM)網(wǎng)絡(luò)實(shí)現(xiàn)了HDFS 和OpenStack 數(shù)據(jù)集上的異常檢測(cè),有效地結(jié)合了前序事件以及后續(xù)事件對(duì)當(dāng)前異常事件的影響。Meng 等[18]對(duì)DeepLog 進(jìn)行改進(jìn)并設(shè)計(jì)了LogAnomaly 模型,實(shí)現(xiàn)了跨日志類型的遷移。文獻(xiàn)[19]提出利用CNN 來(lái)檢測(cè)大規(guī)模系統(tǒng)日志中的異常情況,基于不同大小的卷積核提取出日志之間的內(nèi)部關(guān)聯(lián)。文獻(xiàn)[20?21]借助專家經(jīng)驗(yàn)從日志序列中提取典型特征,然后在隨機(jī)森林等傳統(tǒng)機(jī)器學(xué)習(xí)方法學(xué)習(xí)日志異常模式,避免了對(duì)海量訓(xùn)練數(shù)據(jù)的過(guò)度依賴。張圣林等[22]基于GloVe 框架提取日志中的語(yǔ)義信息并構(gòu)造了日志的模板向量,在一定程度上克服了不同語(yǔ)法造成的跨類型日志融合困難的問(wèn)題。陳興蜀等[23]在ptrace 監(jiān)控進(jìn)程基礎(chǔ)上利用滑動(dòng)窗口切割生成進(jìn)程的系統(tǒng)調(diào)用短序列,同時(shí)設(shè)計(jì)了一種數(shù)據(jù)結(jié)構(gòu)Map 實(shí)現(xiàn)短序列去重,在有限的訓(xùn)練開銷下基于LSTM 網(wǎng)絡(luò)實(shí)現(xiàn)了進(jìn)程資源調(diào)用異常檢測(cè)功能。隨著生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)相關(guān)研究的深入,文獻(xiàn)[24]提出利用InfoGAN[25]和推理神經(jīng)網(wǎng)絡(luò)生成數(shù)據(jù)的平衡樣本以及對(duì)應(yīng)的標(biāo)注,再利用第二個(gè)GAN 進(jìn)行標(biāo)簽優(yōu)化,最后通過(guò)隨機(jī)森林做分類,結(jié)合Hyperband 算法實(shí)現(xiàn)參數(shù)的快速優(yōu)化。
目前,應(yīng)用于智能運(yùn)維的深度學(xué)習(xí)模型主要包括自動(dòng)編碼器、深度置信網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)以及生成對(duì)抗網(wǎng)絡(luò)。相比傳統(tǒng)的時(shí)間序列分析方法以及文本挖掘方法,深度學(xué)習(xí)方法的優(yōu)勢(shì)在于:1)支持端到端的模型構(gòu)建,不需要過(guò)多地考慮數(shù)據(jù)結(jié)構(gòu)化以及數(shù)據(jù)的特征提??;2)具備對(duì)長(zhǎng)期的、具有復(fù)雜關(guān)聯(lián)關(guān)系的數(shù)據(jù)(包括文本數(shù)據(jù)和數(shù)值數(shù)據(jù))進(jìn)行挖掘的能力。然而,目前深度學(xué)習(xí)方法還存在一些不足,主要包括:1)模型結(jié)構(gòu)復(fù)雜,是否收斂具有一定的不確定性,需要開展大量的調(diào)試工作;2)對(duì)訓(xùn)練數(shù)據(jù)的規(guī)模和質(zhì)量有著非常高的要求;3)盡管在蘊(yùn)含關(guān)系推理上具備較強(qiáng)的能力,但在預(yù)設(shè)關(guān)系推理上存在明顯的不足,具體表現(xiàn)為分析、解釋和推理上遠(yuǎn)遠(yuǎn)達(dá)不到human level。
深度學(xué)習(xí)方法雖然性能強(qiáng)大,但仍然存在許多不足?,F(xiàn)有的深度學(xué)習(xí)技術(shù)基礎(chǔ)主要基于統(tǒng)計(jì)分析實(shí)現(xiàn)自動(dòng)的歸納和演繹,其技術(shù)核心對(duì)數(shù)據(jù)的規(guī)模和質(zhì)量有著非常高的要求且方法的泛用性不好,同時(shí)在敘事[26]、閱讀[27]、反事實(shí)推理[28]等任務(wù)上的表現(xiàn)遠(yuǎn)遠(yuǎn)達(dá)不到Human Level 級(jí)別的水平。其根本原因在于,當(dāng)前基于統(tǒng)計(jì)分析的深度學(xué)習(xí)技術(shù)表現(xiàn)出了優(yōu)秀的蘊(yùn)含關(guān)系推理(entailment inference)能力[29?30],但并不具備預(yù)設(shè)關(guān)系推理(presupposition inference)能力,這種邏輯能力上的缺陷導(dǎo)致其無(wú)法勝任有關(guān)過(guò)程推理、模式解釋的任務(wù)[31]??展茏詣?dòng)化系統(tǒng)要達(dá)到一種更高級(jí)別的智能運(yùn)維水平,就必須突破經(jīng)典的歸納和演繹思維邏輯,實(shí)現(xiàn)一種稱為溯因推理(abductive reasoning)的高階思維能力。
所謂溯因推理是指從其他案例環(huán)境中借鑒觀測(cè)結(jié)果、結(jié)論及相關(guān)知識(shí),同時(shí)深入考察具體事件[32],研究過(guò)程經(jīng)過(guò)循環(huán)往復(fù)“多次迭代”,在經(jīng)驗(yàn)觀察和抽象理論之間靈活移動(dòng),開展更具擴(kuò)展性的事件追蹤[33]。性能異常的溯因推理是通過(guò)一定手段來(lái)尋找處于異常狀態(tài)下的系統(tǒng)故障點(diǎn),進(jìn)而為系統(tǒng)修復(fù)或改進(jìn)提供參考的過(guò)程[34]。相比深度學(xué)習(xí)方法,溯因推理學(xué)習(xí)將著重強(qiáng)化模型模擬預(yù)設(shè)關(guān)系推理的能力,使模型在分析、解釋推理上的能力達(dá)到甚至超越human level。然而,溯因推理僅僅在學(xué)術(shù)界顯現(xiàn)出一小部分的成果,其中有部分成果稱之為反繹學(xué)習(xí)(abductive learning),可見相關(guān)研究尚處于起步階段。
基于溯因推理技術(shù),空管自動(dòng)化系統(tǒng)的智能運(yùn)維有望達(dá)到自動(dòng)化根因診斷的水平,即不需要人為干預(yù),模型自動(dòng)收集監(jiān)控項(xiàng)以及文本數(shù)據(jù)來(lái)判斷系統(tǒng)出現(xiàn)告警甚至是故障的原因。如圖3 所示,模型對(duì)DCP1 服務(wù)磁盤I/O 性能陡降的告警進(jìn)行診斷,首先收集告警前相關(guān)日志文本建立日志序列,其次輸出根因猜測(cè),再次收集告警后相關(guān)日志建立日志序列,然后通過(guò)告警后的日志序列去驗(yàn)證猜測(cè)的合理性,最后推斷出造成DCP1 服務(wù)器磁盤I/O 陡降的根因在于DCP1 服務(wù)器的CPU 負(fù)載過(guò)高。
圖3 基于溯因推理的自動(dòng)化系統(tǒng)告警根因診斷模型
本文圍繞下一代空管自動(dòng)化系統(tǒng)建設(shè),分析了基于智能運(yùn)維的保障體系關(guān)鍵技術(shù),包括基于時(shí)間序列分析的方法、基于文本挖掘的方法、基于深度學(xué)習(xí)的方法,以及最近提出的基于溯因推理學(xué)習(xí)的方法,總結(jié)了各個(gè)技術(shù)領(lǐng)域的研究現(xiàn)狀。
通過(guò)本文系統(tǒng)性的闡述可知,溯因推理是當(dāng)今機(jī)器學(xué)習(xí)領(lǐng)域的熱點(diǎn)問(wèn)題和關(guān)鍵突破口?,F(xiàn)階段溯因推理還有許多問(wèn)題有待解決,包括但不限于以下方面:1)突破現(xiàn)有機(jī)器學(xué)習(xí)方法依賴的IID 假設(shè),實(shí)現(xiàn)穩(wěn)定的推理。2)克服干擾變量、樣本偏差導(dǎo)致的虛假相關(guān)性對(duì)模型穩(wěn)定性的干擾。3)建立具備可解釋性的新學(xué)習(xí)范式??偠灾?,溯因推理研究將在下一代空管自動(dòng)化系統(tǒng)智能運(yùn)維體系建設(shè)中發(fā)揮重要的推動(dòng)作用,即以多元統(tǒng)計(jì)分析為基礎(chǔ),融合因果推理、深度學(xué)習(xí)以及自然語(yǔ)言處理技術(shù),不依賴于對(duì)系統(tǒng)模型的準(zhǔn)確理解,依靠系統(tǒng)運(yùn)行過(guò)程中產(chǎn)生的性能指標(biāo)以及日志文本挖掘出有用的潛在信息,并對(duì)空管自動(dòng)化系統(tǒng)運(yùn)行過(guò)程中出現(xiàn)的性能異常事件做出合理的檢測(cè)、根因診斷以及預(yù)警。相關(guān)的研究將對(duì)航空水平的提升具有重要的參考價(jià)值,將在民航運(yùn)輸業(yè)具有廣泛的應(yīng)用前景。