萬(wàn) 欣,艾新波
(1.國(guó)能大渡河大數(shù)據(jù)服務(wù)有限公司,四川省成都市 610041;2.北京郵電大學(xué)人工智能學(xué)院,北京市 100876)
近年來(lái),隨著物聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能、云計(jì)算等新技術(shù)的日新月異,海量的工業(yè)數(shù)據(jù)正在向云端遷移,數(shù)據(jù)挖掘與大數(shù)據(jù)分析貫穿于設(shè)備生產(chǎn)運(yùn)行過(guò)程中,這對(duì)于電力企業(yè)設(shè)備的智能化管控[1]提出了更高的要求。然而,傳統(tǒng)電力生產(chǎn)企業(yè)對(duì)于設(shè)備的智能化管理依然存在著某些短板。比如,各種設(shè)備運(yùn)檢類業(yè)務(wù)系統(tǒng)存在信息孤島,系統(tǒng)間信息和數(shù)據(jù)融合度低、互動(dòng)性差,設(shè)備狀態(tài)評(píng)估依賴人工經(jīng)驗(yàn),影響了設(shè)備管理決策的科學(xué)性。
本文以設(shè)備多源信息為基礎(chǔ),利用大數(shù)據(jù)與機(jī)器學(xué)習(xí)技術(shù),建立起設(shè)備間的關(guān)聯(lián)關(guān)系,不斷挖掘設(shè)備故障產(chǎn)生的規(guī)律[2],通過(guò)對(duì)設(shè)備故障發(fā)生的時(shí)間、空間、實(shí)體對(duì)象等特征量的分析,指導(dǎo)設(shè)備的運(yùn)維策略,構(gòu)建“數(shù)據(jù)驅(qū)動(dòng)管理”的設(shè)備管理新模式[3]。
本次研究以大渡河公司流域生產(chǎn)管理系統(tǒng)(工作票、設(shè)備缺陷、設(shè)備隱患等)、各電站設(shè)備手冊(cè)(設(shè)備型號(hào)、生產(chǎn)廠家、設(shè)計(jì)使用年限、投運(yùn)時(shí)間等)、設(shè)備運(yùn)行分析(每周、月度設(shè)備分析等)等多維度數(shù)據(jù)為基礎(chǔ),建立設(shè)備故障關(guān)鍵詞數(shù)據(jù)辭典,通過(guò)對(duì)設(shè)備故障關(guān)鍵詞的辨識(shí)、分析及應(yīng)用,選擇恰當(dāng)?shù)目臻g、時(shí)間維度,挖掘設(shè)備故障率、設(shè)備生命周期、設(shè)備制造廠商的關(guān)聯(lián),探索設(shè)備故障之間的伴生關(guān)系,構(gòu)建起設(shè)備管理策略模型,進(jìn)而得出設(shè)備運(yùn)行維護(hù)、檢修技改、設(shè)備選型輔助策略[4]。整個(gè)建模過(guò)程,采用了CRISP-DM框架模型。
CRISP-DM框架模型(見圖1)分為六個(gè)環(huán)節(jié),分別是:業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)預(yù)處理、模型建立、模型評(píng)估和模型部署。其中,業(yè)務(wù)理解主要是面向電力生產(chǎn)設(shè)備管理這一復(fù)雜系統(tǒng),從系統(tǒng)間故障誘發(fā)關(guān)系出發(fā),定義了數(shù)據(jù)分析的目標(biāo),找準(zhǔn)業(yè)務(wù)痛點(diǎn);數(shù)據(jù)理解,主要是開展EDA探索性數(shù)據(jù)分析;數(shù)據(jù)預(yù)處理,則包括數(shù)據(jù)類型轉(zhuǎn)換、垃圾數(shù)據(jù)清理、數(shù)據(jù)標(biāo)注等。由于現(xiàn)有數(shù)據(jù)大部分是非結(jié)構(gòu)化的文本數(shù)據(jù),因而數(shù)據(jù)預(yù)處理的重點(diǎn)是短文本半自動(dòng)化標(biāo)注與分類;數(shù)據(jù)建模,重在挖掘隱藏在數(shù)據(jù)背后、發(fā)生于系統(tǒng)之間的故障伴生關(guān)聯(lián)關(guān)系;模型評(píng)估,主要從條件概率、因果置信度等角度,對(duì)從系統(tǒng)設(shè)備間故障依存關(guān)系的強(qiáng)度及其有效性進(jìn)行量化。
圖1 CRISP-DM框架模型Figure 1 CRISP-DM framework model
設(shè)備多源數(shù)據(jù)雖有一定的積累(設(shè)備缺陷記錄約1.5萬(wàn)條、設(shè)備樹10萬(wàn)余條、設(shè)備手冊(cè)數(shù)據(jù)萬(wàn)余條),但以短文本、自然語(yǔ)言描述等非結(jié)構(gòu)化數(shù)據(jù)為主,存在描述不規(guī)范、分類不清晰的問(wèn)題。本文采用業(yè)內(nèi)領(lǐng)先的ICTCLAS、THULAC分詞算法、Jaccard距離及余弦相似性原理,對(duì)設(shè)備故障描述內(nèi)容進(jìn)行了結(jié)構(gòu)化解析,對(duì)其中發(fā)生的系統(tǒng)設(shè)備部位及具體描述進(jìn)行了半自動(dòng)化析取和規(guī)范化處理。
其中,A、B分別為不同設(shè)備缺陷描述文本在進(jìn)行分詞之后的關(guān)鍵詞集合;x、y分別為不同缺陷描述文本中的詞頻向量。
通過(guò)集成分詞算法的專業(yè)文本的結(jié)構(gòu)化解析技術(shù),并基于歷史語(yǔ)料庫(kù)、電力百科全書專業(yè)詞典(其中,故障載體類詞匯56361條,故障描述類詞匯13686條),形成了電力設(shè)備故障類專用詞庫(kù)(見圖2),從而實(shí)現(xiàn)對(duì)短文本的精確分詞、詞性標(biāo)注、關(guān)鍵字提取。
圖2 電力設(shè)備故障類專用詞庫(kù)(部分)Figure 2 Special thesaurus for power equipment fault(part)
在盡量少的先驗(yàn)假設(shè)下,采用雷達(dá)圖、對(duì)比詞云現(xiàn)代統(tǒng)計(jì)圖形分析對(duì)系統(tǒng)設(shè)備缺陷發(fā)生的特征量進(jìn)行刻畫,對(duì)不同設(shè)備之間的缺陷發(fā)生頻率、分位數(shù)、趨勢(shì)進(jìn)行分析。
通過(guò)計(jì)算相對(duì)隸屬度,對(duì)不同階段的缺陷狀況進(jìn)行分析,繪制其對(duì)比詞云(見圖3)。
圖3 基于相對(duì)隸屬度的對(duì)比詞云Figure 3 Comparative word cloud based on relative membership
其中,freqi,j為第i個(gè)詞出現(xiàn)在第j個(gè)階段缺陷描述中的頻次。
基于對(duì)比詞云,對(duì)各階段故障頻繁的設(shè)備進(jìn)行刻畫,識(shí)別各系統(tǒng)故障發(fā)生的周期性特征,并通過(guò)相對(duì)熱度的定量計(jì)算。
從缺陷大數(shù)據(jù)可以看出,在檢修期(11月~次年4月),檢修排水系統(tǒng)、調(diào)速系統(tǒng)、圓筒閥系統(tǒng)等出現(xiàn)故障較多;在汛期(6~9月),泄洪閘、風(fēng)機(jī)、技術(shù)供水等系統(tǒng)出現(xiàn)故障較多。
電力生產(chǎn)紛繁復(fù)雜的各類設(shè)備以系統(tǒng)的方式存在,設(shè)備之間千絲萬(wàn)縷的聯(lián)系決定了各類故障的發(fā)生也并非孤立與偶然。不同的設(shè)備故障之間,可能存在的促進(jìn)、誘導(dǎo),或是伴隨、先后關(guān)系,揭示這些潛在的關(guān)系,有利于從系統(tǒng)層面重新認(rèn)識(shí)設(shè)備系統(tǒng)的健康狀況。本文將挖掘設(shè)備故障關(guān)聯(lián)關(guān)系,在此基礎(chǔ)上建立易發(fā)故障的關(guān)聯(lián)網(wǎng)絡(luò),并對(duì)關(guān)鍵節(jié)點(diǎn)進(jìn)行分析。這些關(guān)鍵節(jié)點(diǎn),可能是在故障傳導(dǎo)過(guò)程中,誘發(fā)能力較強(qiáng)的;也可能是故障傳導(dǎo)過(guò)程中,控制能力較強(qiáng)的。關(guān)鍵節(jié)點(diǎn)的防控,有望顯著提升設(shè)備缺陷管理水平。
(1)通過(guò)建立設(shè)備故障率與設(shè)備投運(yùn)時(shí)間以及設(shè)計(jì)使用年限的關(guān)聯(lián)關(guān)系(見圖4),為設(shè)備管理(檢修技改、設(shè)備選型、備品備件儲(chǔ)備)提供科學(xué)決策依據(jù)[5]。
圖4 設(shè)備故障率與設(shè)備投運(yùn)時(shí)間關(guān)聯(lián)關(guān)系圖Figure 4 Relationship between equipment failure rate and equipment operation time
根據(jù)設(shè)備可靠性理論,結(jié)合設(shè)備故障數(shù)據(jù),建立設(shè)備故障發(fā)生隨運(yùn)行時(shí)間t變化的函數(shù),在設(shè)備從投運(yùn)到報(bào)廢的整個(gè)壽命周期內(nèi),引入設(shè)備設(shè)計(jì)使用年限T這個(gè)影響因子,構(gòu)建了Bathtub曲線模型。
在早期故障階段,呈現(xiàn)為以自然常數(shù)e為底的指數(shù)遞減的函數(shù),即:y=ae-bt+c+ε1,其中a、b、c由具體設(shè)備確定,ε1為隨機(jī)項(xiàng),k為不穩(wěn)定周期;在損耗故障階段,表現(xiàn)為自然常數(shù)e為底的指數(shù)遞增函數(shù),與早期故障呈現(xiàn)近似對(duì)稱的趨勢(shì):;在偶然故障階段,缺陷發(fā)生數(shù)趨近于常數(shù)。整體呈現(xiàn)出U形曲線——以運(yùn)行時(shí)間為橫坐標(biāo),以故障率為縱坐標(biāo),形狀呈兩頭高,中間低。
以電站C調(diào)速器系統(tǒng)為例,其Bathtub曲線模型具體擬合過(guò)程如圖5所示(擬合度近95%)。
通過(guò)建立設(shè)備故障率與設(shè)備投運(yùn)時(shí)間以及設(shè)計(jì)使用年限的函數(shù)關(guān)系,構(gòu)建設(shè)備缺陷發(fā)生過(guò)程與時(shí)間關(guān)系的特性曲線,通過(guò)對(duì)其整體趨勢(shì)分析,找出對(duì)于設(shè)備全生命周期不同階段下設(shè)備故障率的關(guān)聯(lián)規(guī)則,為設(shè)備改造以及備品備件更換、儲(chǔ)備提供科學(xué)依據(jù)[6]。
(2)基于列聯(lián)表方法,對(duì)設(shè)備故障和設(shè)備制造廠商之間的關(guān)聯(lián)關(guān)系(見圖6)進(jìn)行分析。列聯(lián)表制作過(guò)程如下:
圖6 設(shè)備故障率與設(shè)備制造廠商關(guān)聯(lián)關(guān)系圖Figure 6 Relationship between equipment failure rate and equipment manufacture
設(shè)備故障總體中的個(gè)體可按所屬設(shè)備和所屬制造商這兩個(gè)屬性進(jìn)行分類,分別為屬性A和屬性B。其中,A有r個(gè)取值水平A1、A2、…、Ar,B有c個(gè)取值水平B1、B2、…、Bc,從現(xiàn)有缺陷記錄進(jìn)行頻次匯總,ni,j個(gè)個(gè)體的屬性屬于水平Ai和Bj,將r×c個(gè)ni,j排列為一個(gè)r行c列的二維列聯(lián)表。
通過(guò)設(shè)備故障率與設(shè)備制造廠商數(shù)據(jù)的有效融合,得出相同或不同設(shè)備制造商生產(chǎn)的設(shè)備在不同電站發(fā)生的故障率,為設(shè)備管理(設(shè)備選型、設(shè)備采購(gòu)、備品備件儲(chǔ)備)提供科學(xué)決策依據(jù),也可指導(dǎo)設(shè)備制造廠商優(yōu)化設(shè)計(jì)。
設(shè)備故障間關(guān)聯(lián)矩陣圖如圖7所示。
圖7 設(shè)備故障間關(guān)聯(lián)矩陣圖Figure 7 Correlation matrix between equipment faults
(3)通過(guò)計(jì)算Pearson相關(guān)系數(shù)和灰色關(guān)聯(lián)度,對(duì)設(shè)備故障之間可能存在的關(guān)聯(lián)關(guān)系進(jìn)行分析。
通過(guò)對(duì)不同設(shè)備故障發(fā)生時(shí)序曲線的幾何相似性進(jìn)行量化,刻畫不同設(shè)備間故障發(fā)生的內(nèi)在關(guān)聯(lián)性,識(shí)別出獨(dú)立性故障和從屬性故障。
由于電力生產(chǎn)是典型的復(fù)雜巨系統(tǒng)(設(shè)備樹內(nèi)部節(jié)點(diǎn)及葉子結(jié)點(diǎn)多達(dá)10多萬(wàn)個(gè)),對(duì)于何時(shí)何地何種情形之下容易出現(xiàn)何種故障,目前并無(wú)有效的模型對(duì)內(nèi)在的規(guī)律進(jìn)行定量刻畫,難以做到各類設(shè)備事故的事前預(yù)防,設(shè)備健康管理離“治未病”的目標(biāo)相去甚遠(yuǎn),影響了設(shè)備管理決策的科學(xué)性。
在融合多源數(shù)據(jù)的基礎(chǔ)上,對(duì)設(shè)備故障發(fā)生的時(shí)間、空間、實(shí)體對(duì)象等特征量進(jìn)行分析,挖掘設(shè)備故障之間的正向依存關(guān)系[7],通過(guò)建立貝葉斯網(wǎng)絡(luò)模型,將業(yè)務(wù)判斷與數(shù)據(jù)積累相融合,更加準(zhǔn)確地提供了故障發(fā)生的可能性。
前導(dǎo)項(xiàng)和后繼項(xiàng)之間的依存關(guān)系通過(guò)以下條件概率求得:
在式(5)中,后繼項(xiàng)對(duì)于前導(dǎo)項(xiàng)的依存關(guān)系主要體現(xiàn)在:一旦觀察到前導(dǎo)項(xiàng)E故障的發(fā)生,對(duì)于后繼項(xiàng)H發(fā)生概率P(H)將進(jìn)行調(diào)整。換言之,將E作為新觀測(cè)到的證據(jù)時(shí),P(E|H)/P(E)可視為該證據(jù)下對(duì)于先驗(yàn)概率P(H)的調(diào)整因子。
本文中選取設(shè)備缺陷數(shù)據(jù)截止日期至2019年7月31日,設(shè)備缺陷貝葉斯網(wǎng)絡(luò)如圖8~圖9所示。
圖8 設(shè)備缺陷貝葉斯網(wǎng)絡(luò)總圖Figure 8 Bayesian network general drawing of equipment defects
圖9 與冷卻水相關(guān)的設(shè)備缺陷貝葉斯網(wǎng)絡(luò)圖Figure 9 Bayesian network diagram of equipment defects related to cooling water
以2019年7月31日前所有缺陷數(shù)據(jù)為基礎(chǔ),選取30天為周期,得出部分依存規(guī)則如表1所示。
表1 貝葉斯依存規(guī)則Table 1 Bayesian dependency rule
續(xù)表
續(xù)表
2019年8~10月設(shè)備缺陷實(shí)際發(fā)生結(jié)果于依存規(guī)則對(duì)比 如表2所示。
表2 設(shè)備缺陷發(fā)生可能性與實(shí)際發(fā)生對(duì)比結(jié)果Table 2 Comparison between the possibility of equipment defects and the actual results
通過(guò)分析不同設(shè)備在特定時(shí)間段內(nèi)發(fā)生缺陷的關(guān)系,進(jìn)一步挖掘設(shè)備之間的聯(lián)系,構(gòu)建設(shè)備故障依存規(guī)則,得出下一時(shí)間段內(nèi)發(fā)生設(shè)備故障的可能性,為設(shè)備運(yùn)行維護(hù)提供針對(duì)性指導(dǎo)。
本文引入文本挖掘技術(shù),實(shí)現(xiàn)以設(shè)備多源結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的融合;通過(guò)計(jì)算相對(duì)隸屬度,對(duì)設(shè)備故障描述進(jìn)行對(duì)比分析并采用對(duì)比詞云進(jìn)行可視化建模;基于Bathtub曲線和灰色關(guān)聯(lián)分析,識(shí)別設(shè)備缺陷與時(shí)間、廠商以及故障之前的關(guān)系;通過(guò)建立設(shè)備缺陷事件貝葉斯網(wǎng)絡(luò),對(duì)事故缺陷的演化發(fā)生進(jìn)行預(yù)測(cè)和推斷。通過(guò)深入的數(shù)據(jù)挖掘分析,構(gòu)建設(shè)備管理策略模型,為設(shè)備管理從業(yè)務(wù)驅(qū)動(dòng)向數(shù)據(jù)驅(qū)動(dòng)轉(zhuǎn)變提供了基礎(chǔ),由依賴人工經(jīng)驗(yàn)向讓數(shù)據(jù)說(shuō)話轉(zhuǎn)變提供了可能,進(jìn)而為設(shè)備運(yùn)行維護(hù)、檢修技改、設(shè)備選型提供決策支持[8]。
同時(shí),受限于現(xiàn)有研究條件及基礎(chǔ),也存在以下幾方面問(wèn)題需要進(jìn)一步提升:
(1)數(shù)據(jù)標(biāo)準(zhǔn)化方面:目前生產(chǎn)數(shù)據(jù)存在維度不統(tǒng)一、人為記錄不規(guī)范、記錄不全等弊端,為數(shù)據(jù)建模及數(shù)據(jù)分析工作帶來(lái)了不小難度,需要進(jìn)一步利用標(biāo)準(zhǔn)化手段不斷提升數(shù)據(jù)質(zhì)量。
(2)數(shù)據(jù)量及數(shù)據(jù)維度方面:目前已初步建立了設(shè)備故障間關(guān)聯(lián)網(wǎng)絡(luò),但局限于大的系統(tǒng)這一層級(jí),對(duì)于細(xì)化到具體設(shè)備的哪一類故障還缺乏有效的數(shù)據(jù)支撐,關(guān)聯(lián)結(jié)果的準(zhǔn)確性有待提高,需要通過(guò)不斷的數(shù)據(jù)積累以及豐富數(shù)據(jù)維度來(lái)持續(xù)訓(xùn)練模型,實(shí)現(xiàn)設(shè)備狀態(tài)評(píng)估等功能。
(3)模型進(jìn)階方面:在現(xiàn)有Bathtub曲線模型的基礎(chǔ)上,探索建立包括投資成本、運(yùn)行維護(hù)成本、損耗成本等邊界條件在內(nèi)的設(shè)備全壽命周期成本模型。