胡聰,劉翠玲,洪德華,宮政
(國(guó)網(wǎng)安徽省電力有限公司信息通信分公司,合肥 230041)
隨著國(guó)家“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃、云計(jì)算和大數(shù)據(jù)戰(zhàn)略深入推進(jìn),在“十三五”期間,國(guó)家電網(wǎng)公司建成規(guī)模龐大的信息化系統(tǒng),企業(yè)進(jìn)入全面的數(shù)字化轉(zhuǎn)型階段,信息系統(tǒng)的穩(wěn)定運(yùn)行以及日常的風(fēng)險(xiǎn)及時(shí)預(yù)警處置直接關(guān)系到電網(wǎng)的穩(wěn)定運(yùn)行[1-2]。
電網(wǎng)企業(yè)信息系統(tǒng)在運(yùn)行過(guò)程中產(chǎn)生大量的日志信息,這些數(shù)據(jù)類型多樣、產(chǎn)生速度快、其中的某些數(shù)據(jù)可能包含著與系統(tǒng)的運(yùn)行狀態(tài)相關(guān)的信息,信息系統(tǒng)中的數(shù)據(jù)具有典型的大數(shù)據(jù)特征[3-4]。一個(gè)應(yīng)用系統(tǒng)的運(yùn)行數(shù)據(jù)包含程序運(yùn)行周期內(nèi)發(fā)生的事件的相關(guān)信息,包括事件類型、發(fā)生時(shí)間、發(fā)生該事件的對(duì)象等[5-6]。對(duì)電力大數(shù)據(jù)的分析可以直觀地展現(xiàn)電網(wǎng)的運(yùn)行狀態(tài),利用流形學(xué)習(xí)方法對(duì)高維的電力大數(shù)據(jù)進(jìn)行降維處理,可以解決高維電力大數(shù)據(jù)可視化的圖元密集和圖形重疊的問(wèn)題,將數(shù)據(jù)清晰地展現(xiàn),以便于直觀的分析數(shù)據(jù)的價(jià)值[7-8]。
目前電力企業(yè)已經(jīng)全面開(kāi)展數(shù)據(jù)價(jià)值挖掘工作,針對(duì)電力信息系統(tǒng)數(shù)據(jù)格式特點(diǎn),圍繞數(shù)據(jù)采集、數(shù)據(jù)處理、模型創(chuàng)建等方面開(kāi)展相關(guān)的技術(shù)研究和應(yīng)用,對(duì)海量信息進(jìn)行分析處理,深層挖掘信息的潛在價(jià)值,并取得了一定成效[9-10]。隨著信息化建設(shè)和應(yīng)用不斷深入,用戶對(duì)高維數(shù)據(jù)價(jià)值挖掘的需求持續(xù)增長(zhǎng),用戶范圍從信息系統(tǒng)管理部門(mén)擴(kuò)展到全業(yè)務(wù),數(shù)據(jù)挖掘不能再只是面向單個(gè)信息系統(tǒng),需要全面掌握數(shù)據(jù)狀態(tài),及時(shí)發(fā)現(xiàn)故障隱患,提高電力信息系統(tǒng)的智能化運(yùn)維水平。
電力企業(yè)積累了海量的高維數(shù)據(jù),為大數(shù)據(jù)挖掘工作奠定了基礎(chǔ)。但電力企業(yè)信息系統(tǒng)主要從專業(yè)角度出發(fā)開(kāi)展系統(tǒng)高維數(shù)據(jù)格式管理,信息系統(tǒng)中的數(shù)據(jù)內(nèi)容、頻度僅考慮了各專業(yè)當(dāng)前自身業(yè)務(wù)需求,未考慮后期大規(guī)模數(shù)據(jù)分析應(yīng)用和跨業(yè)務(wù)領(lǐng)域的需求,存在系統(tǒng)間高維數(shù)據(jù)標(biāo)準(zhǔn)不一致,以及數(shù)據(jù)缺失等數(shù)據(jù)質(zhì)量問(wèn)題,給日志數(shù)據(jù)價(jià)值挖掘帶來(lái)困難。電力企業(yè)信息系統(tǒng)業(yè)務(wù)在逐步加寬,其業(yè)務(wù)支撐系統(tǒng)的復(fù)雜性也顯著增加,當(dāng)前支撐系統(tǒng)運(yùn)維管理和監(jiān)控系統(tǒng)只是從系統(tǒng)底層指標(biāo)判斷系統(tǒng)的運(yùn)行狀態(tài),為其提供系統(tǒng)監(jiān)控和服務(wù),缺少對(duì)系統(tǒng)整體性能的評(píng)價(jià)和系統(tǒng)健康評(píng)價(jià)標(biāo)準(zhǔn)。
通過(guò)對(duì)海量電網(wǎng)高維數(shù)據(jù)進(jìn)行降維處理,將相似的文本收斂到可處理的量級(jí),同時(shí)結(jié)合相關(guān)的半監(jiān)督學(xué)習(xí)以及隔離森林算法對(duì)降維數(shù)據(jù)文件進(jìn)行分類,設(shè)計(jì)數(shù)據(jù)分類模型算法。
將多源異構(gòu)數(shù)據(jù)進(jìn)行初步整理,針對(duì)其中的多源模糊沖突信息,基于不精確推理理論的隔離森林異常檢測(cè)分類技術(shù),流形學(xué)習(xí)中的t-分布隨機(jī)鄰域嵌入(t-SNE)的非線性降維算法,在保持局部幾何特征的前提下,對(duì)高維度的電網(wǎng)的大數(shù)據(jù)進(jìn)行降維處理。由于t-SNE算法具有對(duì)非線性和高維度數(shù)據(jù)處理的能力,因此適應(yīng)智能電網(wǎng)的多類型數(shù)據(jù)的融合分析處理的需求,為高維電網(wǎng)大數(shù)據(jù)可視化提供了良好的思路。基于t-SNE算法的高維數(shù)據(jù)處理架構(gòu)如圖1所示。
圖1 高維數(shù)據(jù)處理架構(gòu)
電力信息系統(tǒng)在運(yùn)行過(guò)程中產(chǎn)生大量的高維數(shù)據(jù)信息,這些數(shù)據(jù)類型多樣、產(chǎn)生速度快,其中的某些數(shù)據(jù)可能包含著與系統(tǒng)的運(yùn)行相關(guān)的信息,電網(wǎng)運(yùn)行數(shù)據(jù)具有典型的大數(shù)據(jù)特征。由于在電力信息系統(tǒng)的信息具有多源異構(gòu)的特點(diǎn),針對(duì)數(shù)據(jù)的異構(gòu)性和多源性,分別對(duì)異構(gòu)數(shù)據(jù)的信息抽取融合、多源數(shù)據(jù)融合沖突的融合,數(shù)據(jù)降維過(guò)程圖如圖2所示。
圖2 數(shù)據(jù)降維過(guò)程圖
對(duì)融合的高維數(shù)據(jù)信息提取頻繁序列模式,從日志信息中發(fā)現(xiàn)高維數(shù)據(jù)之間的關(guān)聯(lián)性,構(gòu)建日志信息序列,利用滑動(dòng)窗口的特性,將序列分為時(shí)間上等寬的子序列,當(dāng)活動(dòng)時(shí)間窗口進(jìn)入到下一時(shí)間間隔時(shí),從中挖掘?qū)挾葹閕的候選集,構(gòu)建寬度為i的頻繁集,再構(gòu)建i+1的候選集,直到新的頻繁序列為空。高維數(shù)據(jù)間的因果關(guān)系用因果矩陣表示,結(jié)合因果矩陣研究,形成基于滑動(dòng)時(shí)間窗的高維數(shù)據(jù)日志關(guān)聯(lián)挖掘模型。高維數(shù)據(jù)日志關(guān)聯(lián)挖掘模型如圖3所示。
圖3 高維數(shù)據(jù)日志關(guān)聯(lián)挖掘模型
基于滑動(dòng)窗口的高維數(shù)據(jù)日志關(guān)聯(lián)挖掘模型,其階段1即為日志數(shù)據(jù)聚合過(guò)程,按照時(shí)間序列將日志信息進(jìn)行排序并標(biāo)準(zhǔn)格式化;階段2是利用時(shí)間滑動(dòng)窗口進(jìn)行頻繁模式的挖掘;階段3是事件模式檢測(cè),從上一階段挖掘到頻繁序列模式集合之后,對(duì)集合中的序列進(jìn)行關(guān)聯(lián)性分析;階段4是關(guān)聯(lián)規(guī)則的預(yù)測(cè)階段,這一階段對(duì)關(guān)聯(lián)規(guī)則進(jìn)行預(yù)測(cè)生成預(yù)測(cè)規(guī)則;階段5將挖掘出的新的關(guān)聯(lián)模式補(bǔ)充道因果關(guān)系矩陣,并更新因果關(guān)聯(lián)矩陣。經(jīng)過(guò)這五個(gè)階段挖掘得到的高維日志關(guān)聯(lián)模式即為關(guān)聯(lián)模式挖掘的結(jié)果。
基于深度學(xué)習(xí)以及半監(jiān)督學(xué)習(xí)的日志分析方法顯得尤為重要,具有現(xiàn)實(shí)意義。以t-SNE模型為基礎(chǔ),對(duì)海量電網(wǎng)數(shù)據(jù)進(jìn)行聚類處理,將相似的高維數(shù)據(jù)收斂到可處理的量級(jí),同時(shí)結(jié)合相關(guān)的半監(jiān)督學(xué)習(xí)以及深度學(xué)習(xí)對(duì)日志文件進(jìn)行分類。高維數(shù)據(jù)異常檢測(cè)分類流程如圖4所示。
圖4 高維數(shù)據(jù)異常檢測(cè)分類流程
t-SNE向量:日志的量級(jí)較大,先對(duì)日志進(jìn)行聚類處理,將相似的文本收斂到可以處理的量級(jí),對(duì)所有重要子系統(tǒng)的日志進(jìn)行文本清洗,同時(shí)引入詞頻和逆文檔頻率的建模方法對(duì)文檔信息進(jìn)行數(shù)學(xué)建模,得到一個(gè)語(yǔ)料庫(kù)。然后將清洗后的日志信息在語(yǔ)料庫(kù)中映射得到其對(duì)應(yīng)的TF-IDF向量。
語(yǔ)義空間可視化:采用Skip-gram模型預(yù)測(cè)上下文目標(biāo)詞,從而最大化整個(gè)語(yǔ)料庫(kù)∑(w,c)∈D∑wj∈ClogP(w|wj)。w為字典中的任意詞;c為w的上下文詞;D為從調(diào)度語(yǔ)料中抽取出的字典。模型每次從目標(biāo)詞的上下文選擇n個(gè)詞,并將其詞向量映射到對(duì)應(yīng)的TF-IDF向量作為模型的輸入。接著使用Skip-gram模型來(lái)訓(xùn)練電網(wǎng)運(yùn)行數(shù)據(jù)向量,并根據(jù)詞向量構(gòu)成句子向量進(jìn)行文本分類衡量詞向量的質(zhì)量,優(yōu)化訓(xùn)練詞向量的迭代次數(shù)、維度以及調(diào)整訓(xùn)練模型及預(yù)料的大小。經(jīng)過(guò)優(yōu)化后的t-SNE向量作為L(zhǎng)STM模型的輸入,并在二維語(yǔ)義空間進(jìn)行語(yǔ)義化表示。
信息的半監(jiān)督學(xué)習(xí):首先對(duì)有標(biāo)記的訓(xùn)練集學(xué)習(xí)生成一個(gè)隨機(jī)森林,然后對(duì)未標(biāo)記的訓(xùn)練集進(jìn)行學(xué)習(xí)標(biāo)注,標(biāo)記過(guò)程中,樣本的預(yù)測(cè)結(jié)果越一致表面置信度越高,最后取出置信度最小的M個(gè)樣本,并把這類樣本剔除,接著重新訓(xùn)練這顆隨機(jī)森林,直到未標(biāo)記訓(xùn)練集里的置信值都在置信閾值之內(nèi)。
信息相似度分析:采用Jaccard算法來(lái)計(jì)算日志信息的相似度,Jaccard算法簡(jiǎn)潔高效,每檢測(cè)萬(wàn)條日志文本的平均耗時(shí)大概在300ms左右,使用Jaccard距離進(jìn)行預(yù)處理,將相似度相差較大的篩選出去,接著再使用編輯距離進(jìn)行判斷,從而實(shí)現(xiàn)對(duì)日志的聚類收斂,以及給所有數(shù)據(jù)賦值唯一的id。
信息分類:由于傳統(tǒng)的單向LSTM只能獲取前向信息,而無(wú)法做到對(duì)后續(xù)信息的獲取以及預(yù)測(cè)。
本文選取公共數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證,實(shí)驗(yàn)平臺(tái)的深度學(xué)習(xí)框架:PyTorch 1.3 穩(wěn)定版,開(kāi)發(fā)工具:Visual Studio Code,編程語(yǔ)言:Python 3.6。作為對(duì)比,本文使用SVM,KNN和普通LSTM模型對(duì)故障進(jìn)行檢測(cè),檢測(cè)結(jié)果如表1所示。
表1 不同模型準(zhǔn)確率對(duì)比
綜合來(lái)說(shuō),本文設(shè)計(jì)的基于t-SNE算法模型相比傳統(tǒng)機(jī)器學(xué)習(xí)模型擁有更高的降維準(zhǔn)確率。SVM作為經(jīng)典的分類模型,其在訓(xùn)練集上表現(xiàn)出良好的效果,但是測(cè)試集上準(zhǔn)確率顯著下降,存在明顯的過(guò)擬合現(xiàn)象。KNN分類器因?yàn)闆](méi)有顯式的訓(xùn)練過(guò)程,在訓(xùn)練集和測(cè)試集上的診斷效果均較為一般,LSTM在訓(xùn)練集和測(cè)試集上表現(xiàn)較為穩(wěn)定,表明深度學(xué)習(xí)模型能夠?qū)W習(xí)到數(shù)據(jù)中的時(shí)序變化信息。除此之外,隨著數(shù)據(jù)的積累,模型的準(zhǔn)確率能夠進(jìn)一步提高。
為了解決當(dāng)前電力降維處理難題,本文提出了采用數(shù)據(jù)挖掘的高維數(shù)據(jù)降維處理方法模型,給出了數(shù)據(jù)處理系統(tǒng)架構(gòu),闡述了基于日志時(shí)間的降維關(guān)聯(lián)挖掘方法,設(shè)計(jì)了基于隔離森林的數(shù)據(jù)降維檢測(cè)算法,通過(guò)實(shí)驗(yàn)驗(yàn)證了模型的可行性。