韓彩夏,曹炳欣,郝 偉
(南車青島四方機車車輛股份有限公司 信息技術(shù)部,青島 266011)
基于大數(shù)據(jù)的高速動車組關(guān)鍵部件故障診斷技術(shù)研究
韓彩夏,曹炳欣,郝 偉
(南車青島四方機車車輛股份有限公司 信息技術(shù)部,青島 266011)
高速動車組的零部件故障是由多種因素引起,故障診斷需要對多個環(huán)節(jié)及其相互影響規(guī)則進行分析判斷。關(guān)聯(lián)規(guī)則挖掘技術(shù)在關(guān)聯(lián)性發(fā)現(xiàn)方面有較強的優(yōu)勢,可以充分發(fā)現(xiàn)在高速動車組零部件故障與動車組實時狀態(tài)的關(guān)聯(lián)關(guān)系。本文介紹大數(shù)據(jù)挖掘、關(guān)聯(lián)規(guī)則及Apriori算法等基礎(chǔ)知識。將Apriori算法用于高速動車組故障診斷,發(fā)現(xiàn)故障規(guī)律,以生成強關(guān)聯(lián)規(guī)則,為高速動車組診斷提供決策依據(jù)。
大數(shù)據(jù)分析;故障診斷;關(guān)聯(lián)規(guī)則挖掘;Apriori算法;數(shù)據(jù)預(yù)處理
高速動車組在設(shè)計、制造、運維過程中,必須具有高效、安全、環(huán)保的標(biāo)準(zhǔn)。但是由于高速動車組結(jié)構(gòu)復(fù)雜,運行環(huán)境復(fù)雜及其系統(tǒng)零部件的高負(fù)荷運轉(zhuǎn)等因素,在其全壽命過程難免會出現(xiàn)各種故障。及時高效地處理故障是高速列車高效安全運行的重要保障。故障處理不僅需要關(guān)鍵部件的故障判斷規(guī)則,也需要挖掘相關(guān)因素對故障的影響規(guī)則。
隨著中國信息技術(shù)及高速動車組技術(shù)的發(fā)展,積累了海量的高速動車運維數(shù)據(jù)。通過對這些大數(shù)據(jù)分析,得到與故障關(guān)聯(lián)的信息,能夠指導(dǎo)運維人員及時、高效地處理高速動車組的故障。關(guān)聯(lián)規(guī)則挖掘技術(shù)在關(guān)聯(lián)性發(fā)現(xiàn)方面有較強的優(yōu)勢,可以充分發(fā)現(xiàn)高速動車組在設(shè)計、制造和運維過程的一些關(guān)聯(lián)耦合關(guān)系,在故障發(fā)生時,可以利用發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則準(zhǔn)確及時地進行故障診斷。
1.1 大數(shù)據(jù)分析
大數(shù)據(jù)分析是對規(guī)模巨大數(shù)據(jù)進行分析,獲取智能、深入、有價值的信息。大數(shù)據(jù)的屬性,包括數(shù)量、速度、多樣性等都是呈現(xiàn)了大數(shù)據(jù)不斷增長的復(fù)雜性[1]。大數(shù)據(jù)分析的方法理論有:可視化分析、數(shù)據(jù)挖掘算法、預(yù)測分析等。大數(shù)據(jù)分析的理論核心就是數(shù)據(jù)挖掘算法,各種數(shù)據(jù)挖掘的算法基于不同的數(shù)據(jù)類型和格式才能更加科學(xué)地呈現(xiàn)出數(shù)據(jù)本身具備的特點,挖掘出公認(rèn)的價值,另外一個方面也是因為有這些數(shù)據(jù)挖掘的算法才能更快速地處理大數(shù)據(jù)。
1.2 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是從海量、不完全的、模糊的、有噪聲的、隨機的大型數(shù)據(jù)庫中發(fā)現(xiàn)隱含在其中的有價值、潛在有用的信息。通過數(shù)據(jù)挖掘,得到信息的有效性,有效性取決于樣本集大小、樣本數(shù)據(jù)的真實完整、及高效的挖掘算法。大數(shù)據(jù)環(huán)境下數(shù)據(jù)挖掘的步驟:數(shù)據(jù)預(yù)處理及特征提取、數(shù)據(jù)挖掘算法執(zhí)行、結(jié)果評估,而在該流程中最關(guān)鍵的步驟選擇合適的數(shù)據(jù)挖掘算法[2]。
1.2.1 數(shù)據(jù)預(yù)處理與特征提取
該過程是從原始數(shù)據(jù)庫中獲取感興趣的目標(biāo)數(shù)據(jù),然后對目標(biāo)數(shù)據(jù)進行除噪、補缺失值、除冗余值,最后對數(shù)據(jù)進行轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換實現(xiàn)消減數(shù)據(jù)維數(shù)即降維處理,同時實現(xiàn)將連續(xù)數(shù)據(jù)按照某算法進行離散化處理。數(shù)據(jù)獲取與預(yù)處理目標(biāo)是在海量數(shù)據(jù)中,提取出所需數(shù)據(jù),并從初始的特征中找出有用特征以減少數(shù)據(jù)挖掘算法執(zhí)行周期。
1.2.2 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘算法執(zhí)行階段首先根據(jù)問題任務(wù)確定所需的挖掘算法。常規(guī)的數(shù)據(jù)挖掘算法主要有分類、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)或序列模式發(fā)現(xiàn)等[3]。選擇挖掘算法有兩個考慮因素:(1)根據(jù)數(shù)據(jù)的不同特點,選擇使用與之相關(guān)的算法來挖掘;(2)獲取預(yù)測準(zhǔn)確度盡可能高的預(yù)測知識。
1.2.3 結(jié)果評估
此階段對數(shù)據(jù)挖掘發(fā)現(xiàn)的模式進行解釋和評價,過濾出有用的知識,以得到完備決策信息[4]。數(shù)據(jù)挖掘階段發(fā)現(xiàn)出來的模式,需要經(jīng)過評估,確定挖掘結(jié)果是否準(zhǔn)確無誤,模式是否存在冗余,能否支持最終的決策需求。
關(guān)聯(lián)規(guī)則反映了事務(wù)i間的依賴和關(guān)聯(lián),是從事務(wù)數(shù)據(jù)中挖掘出有價值關(guān)聯(lián)知識的過程。
2.1 基本概念
設(shè)I ={i1,i2,…,im}是一組項的集合;D={t1,t2,…,tn} 是一組事務(wù)集。D 中的每個事務(wù)T 是項的集合,使得T?I,D中每一事務(wù)有一個事物編號TID。設(shè)J是一個項集,事務(wù)TD包含J當(dāng)且J?TD時成立。另一項集V蘊含J(J?V),其中J?I,V?I,且J∩V=φ,稱J?V為聯(lián)規(guī)則。事務(wù)集D,關(guān)聯(lián)規(guī)則J?V具有支持度s,s是事務(wù)J∪V在事務(wù)集D中的百分比,即為概率P(J∪V)。置信度c,c是事務(wù)集D中包含J事務(wù)同時包含V事務(wù)的條件概率[5]。
用公式表達:
關(guān)聯(lián)規(guī)則挖掘即挖掘出滿足支持度s和置信度c的所有的關(guān)聯(lián)關(guān)系。關(guān)聯(lián)規(guī)則挖掘主要步驟如下:
(1)找出所有滿足最小支持度的頻繁項集。
(2)由頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)則。這些規(guī)則必須同時滿足最小支持度和最小置信度。
第2步相對容易,總體性能由第1步?jīng)Q定,因此大部分關(guān)聯(lián)規(guī)則挖掘算法著重研究第1步,即頻繁項集挖掘算法。
2.2 Apriori算法
Apriori算法是最著名的關(guān)聯(lián)規(guī)則挖掘算法。Apriori性質(zhì):任意頻繁項集其子集為頻繁的,同樣,如果存在非頻繁子項集,則包含該子項集的所有超集必然為非頻繁的。
Apriori算法使用一種稱作逐層搜索的迭代方法,k 項集用于探索(k+1)項集。首先,找出頻繁1 項集的集合,該集合記作L1。L1用于找頻繁2 項集的集合L2,而L2用于找L3,如此下去,直到不能找到頻繁k項集。找每個Lk需要一次數(shù)據(jù)庫掃描。由Lk–1找Lk有連接和剪枝2個過程。
(1)連接:為找Lk,通過Lk–1與自己連接產(chǎn)生侯選k項集的集合,該侯選項集的集合記為Ck。
(2)剪枝:連接操作得到候選集Ck,是Lk的超集。Ck中所有滿足最小支持度的項產(chǎn)生頻繁項集Lk。
高速動車組故障診斷是指對列車現(xiàn)實狀態(tài)與理想狀態(tài)偏差的判定[6]。高速動車組故障診斷過程,即在大規(guī)模海量的故障數(shù)據(jù)庫中發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)規(guī)則,產(chǎn)生數(shù)據(jù)模型,并最終可以使用這些數(shù)據(jù)模型對動車組故障做出預(yù)測。高速動車組的故障數(shù)據(jù)庫呈現(xiàn)數(shù)量、速度、多樣性等特點。通過數(shù)據(jù)挖掘得到可視化的預(yù)測分析工具,對提高動車組故障診斷能力有重要作用。
3.1 基于關(guān)聯(lián)規(guī)則挖掘的故障診斷
(1)故障數(shù)據(jù)庫:利用高速動車組運行狀態(tài)數(shù)據(jù)記錄,建立故障數(shù)據(jù)庫;
(2)對故障數(shù)據(jù)庫進行關(guān)聯(lián)規(guī)則挖掘:考慮到當(dāng)故障數(shù)據(jù)庫相當(dāng)龐大,需要對故障數(shù)據(jù)庫進行預(yù)處理,利用關(guān)聯(lián)規(guī)則挖掘算法對處理后的故障庫進行挖掘生成故障規(guī)則;
(3)根據(jù)規(guī)則進行決策:根據(jù)提交的規(guī)則進行決策輸出,并且對輸出的決策進行性能評價,若通過決策性能評價,進行決策實施,否則重新提交規(guī)則并進行決策性能評價。
3.2 高速動車組故障數(shù)據(jù)處理
數(shù)據(jù)處理及特征提取是故障診斷過程中非常重要的一個內(nèi)容,因為高速動車組在實際運行過程中受環(huán)境因素的影響,獲取的原始數(shù)據(jù)可能含有噪聲,并且原始數(shù)據(jù)具有高緯性,冗余性的特點,還可能存在某些維度的值為連續(xù)性非離散性。為了提高挖掘信息的可靠性和可用性,需要對原始數(shù)據(jù)進行預(yù)處理。
高速動車組采集到的狀態(tài)數(shù)據(jù)包含了故障信息及狀態(tài)信息:故障描述,故障編號,動車組編號,列車編號,車廂編號,車廂類型,運行周期,速度,里程數(shù),溫度,經(jīng)度、緯度等信息。故障編號作為故障信息表(如表1所示)的主鍵將故障信息與狀態(tài)信息表聯(lián)合在一起,形成高速動車組故障數(shù)據(jù),如表2所示。利用專家經(jīng)驗,故障知識庫包含動車組編號、列車編號、歷程數(shù)、速度、溫度等。
表1 故障信息表
對于溫度、速度、里程等計量類數(shù)據(jù)為連續(xù)性數(shù)據(jù),Apriori算法對離散型數(shù)據(jù)有意義,因此需要對這些計量類數(shù)據(jù)進行離散化處理。例如里程0~100 000 km,記為M1,100 000~200 000 km記為M2,以100 000 km為一檔,依次記為里程M3、 M4、M5等。溫度0℃以下記為T0,0~10℃記為T1,溫度T2、T3 、T4等。速度0~50 km/h記為S1,50~100 km/h記為S2,速度記為 S3,S4,S5等。得到故障數(shù)據(jù)庫表 ,處理后的故障數(shù)據(jù)如表3所示。
表2 高速動車組故障數(shù)據(jù)
表3 高速動車組故障數(shù)據(jù)表(數(shù)據(jù)處理后)
3.3 高速動車組故障關(guān)聯(lián)規(guī)則挖掘
采用關(guān)聯(lián)規(guī)則挖掘?qū)收戏治鲈\斷,要明確項、項集、事務(wù),然后在此事務(wù)數(shù)據(jù)庫上進行數(shù)據(jù)分析。故障數(shù)據(jù)庫中的任意一條信息記為關(guān)聯(lián)規(guī)則中的事務(wù),每條記錄中的字段記為項集,每個字段為一個項。高速動車組故障事物數(shù)據(jù)如表4所示。關(guān)聯(lián)規(guī)則挖掘需要定義支持度(Support),設(shè)Support為10%。
表4 高速動車組故障事務(wù)數(shù)據(jù)
不同的故障類型為一數(shù)據(jù)塊,對不同的數(shù)據(jù)塊執(zhí)行關(guān)聯(lián)規(guī)則挖掘算法。以故障編號F1003為例,執(zhí)行Apriori后得到的故障關(guān)聯(lián)規(guī)則如表5所示。
Failure diagnosis for key parts of high-speed EMU based on big data
HAN Caixia,CAO Bingxin,HAO Wei
( Department of Information Technology,CSR QINGDAO SIFANG CO.LTD.,Qingdao 266011,China)
Many factors could cause the parts failure of the high-speed EMU.Failure diagnosis should be focused on the analysis of multiple links and their interaction rules.Association rule mining technique has advantages in association discovery,which can discover the relationship between parts failure of EMU and real-time status of highspeed EMU.This article introduced basic concept of big data mining,association rule and Apriori Algorithm.Apriori Algorithm was adopted to diagnose failure of high-speed EMU,fnd the rule of failure,and generate strong association rule.This strong association rule would become helpful to make decisions on the failure diagnosis for key parts of high-speed EMU.
big data analysis;failure diagnosis;association rule mining;Apriori Algorithm;data preprocessing
U266.2∶TP39
A
1005-8451(2016)01-0001-04
2015-05-20
國家863計劃資助項目(2015AA043701)。
韓彩夏,工程師;曹炳欣,高級工程師。