基于隨機(jī)森林的不可靠數(shù)據(jù)化工過(guò)程故障診斷方法

2021-01-27 01:52:12馮子蕓王治紅戴一陽(yáng)

石油學(xué)報(bào)(石油加工) 2021年1期

馮子蕓，王治紅，戴一陽(yáng)

(1.西南石油大學(xué) 化學(xué)化工學(xué)院，四川成都 610500；2.四川大學(xué) 化學(xué)工程學(xué)院，四川成都 610065)

化工過(guò)程的故障診斷技術(shù)是化工過(guò)程在自動(dòng)化程度與日俱增情況下，保障化工行業(yè)安全運(yùn)行的一個(gè)重要手段。隨著化工企業(yè)硬件條件的提升和大數(shù)據(jù)技術(shù)的高速發(fā)展，化工過(guò)程的數(shù)字化、智能化發(fā)展腳步日益加速，基于數(shù)據(jù)驅(qū)動(dòng)的故障診斷方法也成為研究最廣、應(yīng)用前景最廣泛的方法。利用大量的歷史數(shù)據(jù)訓(xùn)練診斷模型，不僅能快速地檢測(cè)出故障，更能有效識(shí)別故障類(lèi)別，從而可以在實(shí)際操作中指導(dǎo)操作員做出正確響應(yīng)。

傳統(tǒng)的基于多元統(tǒng)計(jì)和降維的方法，如：偏最小二乘法(Partial Least Squares，PLS)[1]和主成分分析法(Principal Component Analysis，PCA)[2]等，在故障檢測(cè)的研究中表現(xiàn)出了良好的性能，但在故障類(lèi)型的識(shí)別上表現(xiàn)不盡如人意。而一些基于模式識(shí)別的機(jī)器學(xué)習(xí)方法在故障檢測(cè)和故障識(shí)別領(lǐng)域都有較好的表現(xiàn)，如：支持向量機(jī)(Support Vector Machine，SVM)[3]、k最小近鄰(k-Nearest Neighbors，kNN)[4]、貝葉斯網(wǎng)絡(luò)(Bayesian Network，BN)[5]和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks，ANN)[6]等。隨著深度學(xué)習(xí)的不斷發(fā)展，深度信念網(wǎng)絡(luò)[7](Deep Belief Network，DBN)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks，CNN)[8]方法在大數(shù)據(jù)條件下的故障診斷中表現(xiàn)出了優(yōu)異的能力。

然而，化工過(guò)程現(xiàn)場(chǎng)采集到的監(jiān)測(cè)數(shù)據(jù)，常因傳感器故障、傳輸路線損壞及儀器量程溢出等原因而失真，出現(xiàn)數(shù)據(jù)的缺失、漂移或卡死等問(wèn)題，影響故障診斷方法的準(zhǔn)確性。因此，對(duì)存在不可靠數(shù)據(jù)的化工過(guò)程進(jìn)行故障診斷研究具有重要意義。

基于數(shù)據(jù)不完整情況下的故障診斷已有不少報(bào)道。Liu等[9]針對(duì)數(shù)據(jù)不完整的熱泵故障系統(tǒng)，提出了一種基于反向傳播神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Network，BPNN)和最大似然估計(jì)(Maximum Likelihood Estimation，MLE)的方法，對(duì)不完整的數(shù)據(jù)集進(jìn)行估算，再利用BN建立分類(lèi)器模型，完成故障類(lèi)型的識(shí)別。Askarian等[10]采用了ANN、KNN、均值法等方法完成對(duì)缺失數(shù)據(jù)集的修補(bǔ)，再與不同的分類(lèi)方法進(jìn)行組合，最后通過(guò)魯棒性和準(zhǔn)確性等指標(biāo)對(duì)采用不同組合方法故障診斷結(jié)果進(jìn)行評(píng)價(jià)。然而，先估算不可靠數(shù)據(jù)再進(jìn)行故障診斷的兩步方法，在實(shí)際應(yīng)用過(guò)程中可能會(huì)出現(xiàn)時(shí)間滯后，影響故障的及時(shí)診斷和處置。同時(shí)，在實(shí)際過(guò)程中，監(jiān)測(cè)數(shù)據(jù)不僅存在缺失的現(xiàn)象，同時(shí)還存在漂移、卡死、噪聲等其他異常情況。監(jiān)測(cè)數(shù)據(jù)的異常情況通常更難發(fā)現(xiàn)，導(dǎo)致無(wú)法高效識(shí)別故障類(lèi)型。

隨機(jī)森林(RF)方法具有分類(lèi)精度高和泛化能力強(qiáng)的特點(diǎn)，對(duì)噪聲和異常值的穩(wěn)健性較好。該方法在數(shù)字識(shí)別、圖像處理和數(shù)據(jù)挖掘等眾多領(lǐng)域受到廣泛關(guān)注[11-13]。筆者針對(duì)田納西-伊斯曼過(guò)程(Tennessee Eastman，TE)數(shù)據(jù)缺失、漂移和卡死3種不可靠情況，提出將隨機(jī)森林方法用于不可靠數(shù)據(jù)的化工過(guò)程故障診斷研究，并將該方法與反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)、徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(Radial Basis Function Neural Network，RBFNN)和深度信念網(wǎng)絡(luò)(DBN)方法進(jìn)行比較，以考察基于隨機(jī)森林的方法在處理存在不可靠數(shù)據(jù)的化工過(guò)程故障診斷中的表現(xiàn)。

1 隨機(jī)森林理論

2001年，Breiman將自舉匯聚法(Bagging)與Ho提出的隨機(jī)子空間方法相結(jié)合，在Bagging的基礎(chǔ)上引入了隨機(jī)屬性，提出了隨機(jī)森林(RF)學(xué)習(xí)方法[14]，并闡述了RF的數(shù)學(xué)理論，證明了RF不會(huì)出現(xiàn)決策樹(shù)的過(guò)擬合問(wèn)題。在RF模型訓(xùn)練過(guò)程中隨機(jī)選取樣本和特征屬性，從而能夠提高模型的不確定性和多樣性。具體如下：

(1)隨機(jī)樣本：從原樣本集中有放回地隨機(jī)抽取，得到K個(gè)訓(xùn)練樣本集。未被抽取的數(shù)據(jù)叫做袋外數(shù)據(jù)(OOB, Out of bag)，用于檢驗(yàn)決策樹(shù)的分類(lèi)效果。

(2)隨機(jī)屬性：從M個(gè)總特征中，等概率地隨機(jī)選取m個(gè)特征(m通常取M的平方根)作為特征子集。

RF采用分類(lèi)與回歸樹(shù)(CART)對(duì)K個(gè)訓(xùn)練樣本集進(jìn)行訓(xùn)練，以隨機(jī)的方式構(gòu)建K棵決策樹(shù)。各決策樹(shù)在相應(yīng)的子集中選擇一個(gè)最優(yōu)屬性作為分裂節(jié)點(diǎn)進(jìn)行分裂，并按照最優(yōu)分裂原則進(jìn)行最大化生長(zhǎng)，且各決策樹(shù)的訓(xùn)練相互獨(dú)立。最后采用投票法根據(jù)各決策樹(shù)的預(yù)測(cè)結(jié)果得到最終輸出的分類(lèi)結(jié)果。

基于上述方法構(gòu)建的隨機(jī)森林中，每顆決策樹(shù)的特征變量不完全相同。在分類(lèi)投票時(shí)，即使部分變量不可靠也只會(huì)影響包含該特征變量的一部分決策樹(shù)，不會(huì)影響其他樹(shù)的分類(lèi)結(jié)果，通過(guò)投票能夠減小不可靠變量對(duì)最終分類(lèi)結(jié)果的影響。鑒于此，本研究利用隨機(jī)森林的投票機(jī)制，開(kāi)發(fā)化工過(guò)程故障診斷模型，有望克服無(wú)關(guān)變量的干擾和數(shù)據(jù)不可靠對(duì)診斷結(jié)果的影響。RF算法的流程如圖1所示。

圖1 隨機(jī)森林算法流程圖Fig.1 Flowchart of the random forest algorithm

2 基于RF的TE過(guò)程故障診斷方法

田納西-伊斯曼(TE)過(guò)程是Downs和Vogel根據(jù)美國(guó)Eastman化學(xué)公司的實(shí)際化工反應(yīng)過(guò)程開(kāi)發(fā)的仿真平臺(tái)[15]。該過(guò)程被廣泛應(yīng)用于故障診斷方法的性能測(cè)試，成為評(píng)價(jià)診斷方法的一個(gè)標(biāo)桿?；赗F的故障診斷方法以TE過(guò)程為研究對(duì)象，測(cè)試其診斷存在不可靠數(shù)據(jù)的化工過(guò)程故障的能力。其診斷框架如圖2所示。

圖2 基于隨機(jī)森林的故障診斷框架Fig.2 The framework of fault diagnosis based on RF

基于RF的TE過(guò)程故障診斷流程分為以下幾個(gè)步驟：

(1)采集TE過(guò)程的原始故障數(shù)據(jù)，對(duì)其進(jìn)行歸一化預(yù)處理，并將處理后的數(shù)據(jù)分為：訓(xùn)練集和測(cè)試集，其中X和Y分別是變量特征和故障類(lèi)型標(biāo)簽。

(2)將訓(xùn)練集輸入隨機(jī)森林網(wǎng)絡(luò)進(jìn)行訓(xùn)練，訓(xùn)練過(guò)程中不斷調(diào)整網(wǎng)絡(luò)，得到最優(yōu)的RF分類(lèi)器。即決策樹(shù)的數(shù)量K為2500，隨機(jī)屬性的個(gè)數(shù)m為8。

(3)對(duì)TE過(guò)程的測(cè)試集進(jìn)行數(shù)據(jù)缺失、數(shù)據(jù)漂移和數(shù)據(jù)卡死的處理，得到本研究所需要的不可靠數(shù)據(jù)集。

(4)將存在數(shù)據(jù)不可靠的測(cè)試集輸入訓(xùn)練好的RF分類(lèi)器進(jìn)行故障診斷。采用相對(duì)多數(shù)投票原則，由各決策樹(shù)投票數(shù)量確定最終分類(lèi)結(jié)果，分類(lèi)公式為：

(1)

(2)

(5)采用故障診斷率(Fault Diagnosis Rate,FDR)作為故障診斷的分類(lèi)評(píng)價(jià)指標(biāo)，對(duì)診斷結(jié)果進(jìn)行分析。

(3)

式(3)中：T(True)和P(Positive)分別表示真實(shí)、正類(lèi)；TP為真正類(lèi)，表示樣本的真實(shí)類(lèi)別是正類(lèi)，并且預(yù)測(cè)類(lèi)別也為正類(lèi)；FP為假正類(lèi)，表示樣本的真實(shí)類(lèi)別是負(fù)類(lèi)，但預(yù)測(cè)類(lèi)別為正類(lèi)； TP和FP可由混淆矩陣[16]得到。

測(cè)試數(shù)據(jù)來(lái)自于MIT的BraatzGroup實(shí)驗(yàn)室的標(biāo)準(zhǔn)樣本集。該樣本集包括52個(gè)變量及21種預(yù)先設(shè)定的故障類(lèi)型。每種故障的訓(xùn)練數(shù)據(jù)來(lái)自故障狀態(tài)下仿真24 h產(chǎn)生480組樣本數(shù)據(jù)；其測(cè)試數(shù)據(jù)來(lái)自過(guò)程正常運(yùn)行8 h后引入相應(yīng)故障而得到960組數(shù)據(jù)，其中前160組為正常狀況下的數(shù)據(jù)，后800組樣本為對(duì)應(yīng)故障的數(shù)據(jù)。將52個(gè)變量作為RF分類(lèi)器的輸入，故障類(lèi)型作為輸出。

對(duì)測(cè)試樣本進(jìn)行數(shù)據(jù)不可靠處理，分別得到數(shù)據(jù)缺失、數(shù)據(jù)漂移和數(shù)據(jù)卡死3種情況下的測(cè)試集。以反應(yīng)原料D的進(jìn)料流量為例，對(duì)第100個(gè)采樣點(diǎn)后的數(shù)據(jù)進(jìn)行數(shù)據(jù)缺失、數(shù)據(jù)漂移和數(shù)據(jù)卡死處理，并經(jīng)過(guò)歸一化處理后得到如圖3所示的監(jiān)測(cè)變量數(shù)據(jù)集。

3 診斷結(jié)果分析

針對(duì)TE過(guò)程數(shù)據(jù)缺失、漂移和卡死3種不可靠情況，采用基于RF的故障診斷方法進(jìn)行故障分析測(cè)試，并以FDR為指標(biāo)與采用BPNN、RBFNN和DBN方法診斷進(jìn)行性能比較。

3.1 數(shù)據(jù)缺失

化工過(guò)程的監(jiān)測(cè)數(shù)據(jù)往往存在缺失的現(xiàn)象，使得故障診斷模型的輸入不完整，嚴(yán)重影響故障診斷的準(zhǔn)確性。研究在監(jiān)測(cè)數(shù)據(jù)完整、單變量數(shù)據(jù)缺失、多變量數(shù)據(jù)缺失和隨機(jī)變量數(shù)據(jù)缺失等多種情況下，分析不同故障診斷方法的診斷效果。

3.1.1 數(shù)據(jù)完整和單變量數(shù)據(jù)缺失

在TE過(guò)程的52個(gè)變量數(shù)據(jù)完整和單一變量數(shù)據(jù)缺失2種情況下，采用RF、BPNN、RBFNN、DBN診斷方法的平均診斷率如圖4所示。由圖4可知，在數(shù)據(jù)完整情況下，RF方法的平均診斷率超過(guò)70%，DBN、BPNN、RBFNN方法的平均診斷率依次下降。當(dāng)存在單變量數(shù)據(jù)缺失的情況時(shí)，RF方法的診斷率波動(dòng)最小，診斷效果最好，其中當(dāng)變量21、45、46和51缺失時(shí)，RF方法的平均診斷率有較明顯的下降趨勢(shì)；BPNN和DBN方法僅個(gè)別變量數(shù)據(jù)缺失時(shí)的診斷率保持穩(wěn)定，多數(shù)單一變量數(shù)據(jù)缺失時(shí)診斷率波動(dòng)很大；RBFNN方法的診斷波動(dòng)最大、效果最差。

圖3 D進(jìn)料流量的不可靠數(shù)據(jù)集Fig.3 Unreliable data set of D feed flow(a) Data missing; (b) Data drifting; (c) Data stuck

3.1.2 多變量數(shù)據(jù)缺失

針對(duì)多個(gè)變量數(shù)據(jù)同時(shí)缺失情況，如2個(gè)或3個(gè)變量數(shù)據(jù)同時(shí)缺失時(shí)，考察不同診斷方法的診斷效果。

圖4 單一變量數(shù)據(jù)缺失時(shí)不同診斷方法的診斷率(FDR)Fig.4 FDR of different methods at univariate missing(a) RF; (b) BPNN; (c) RBFNN; (d) DBN

對(duì)于2個(gè)變量同時(shí)缺失的情況，以變量1與k(其他51個(gè)變量之一)同時(shí)數(shù)據(jù)缺失為例，不同診斷方法的診斷結(jié)果如圖5所示。由圖5可知：當(dāng)2個(gè)變量數(shù)據(jù)同時(shí)缺失時(shí)，RF方法的平均診斷率整體上低于數(shù)據(jù)完整和單變量數(shù)據(jù)缺失的診斷率，但診斷基本處于穩(wěn)定狀態(tài)，表明隨機(jī)森林方法具有良好的穩(wěn)健性和泛化性；采用BPNN、RBFNN、DBN方法對(duì)相同數(shù)據(jù)集進(jìn)行分類(lèi)診斷，其診斷結(jié)果波動(dòng)劇烈，且整體上大幅低于數(shù)據(jù)完整時(shí)的診斷率。因此，當(dāng)2個(gè)變量數(shù)據(jù)同時(shí)缺失時(shí)，RF的診斷效果明顯優(yōu)于其他診斷方法。

由于單變量數(shù)據(jù)缺失和雙變量數(shù)據(jù)缺失時(shí)，各方法診斷結(jié)果的趨勢(shì)相同，針對(duì)3個(gè)變量數(shù)據(jù)同時(shí)缺失的情況，僅討論RF方法的診斷結(jié)果。當(dāng)變量1、2與k(其他50個(gè)變量之一)數(shù)據(jù)同時(shí)缺失時(shí)，RF方法的故障診斷結(jié)果如圖6所示。由圖6可知，當(dāng)3個(gè)變量數(shù)據(jù)同時(shí)缺失時(shí)，RF方法的診斷結(jié)果依然能夠保持較好的穩(wěn)定性。

上述結(jié)果表明，RF方法無(wú)論在單變量、雙變量或三變量數(shù)據(jù)缺失時(shí)都能夠有效地識(shí)別故障類(lèi)型。RF方法在不同個(gè)數(shù)變量數(shù)據(jù)缺失時(shí)(類(lèi)型I—數(shù)據(jù)完整；類(lèi)型II—單一變量數(shù)據(jù)缺失；類(lèi)型III—2個(gè)變量數(shù)據(jù)缺失；類(lèi)型IV—3個(gè)變量數(shù)據(jù)缺失)，各故障類(lèi)型的診斷結(jié)果如表1所示。由表1可知，在單變量數(shù)據(jù)缺失情況下，各故障類(lèi)型的平均診斷率僅比數(shù)據(jù)完整情況下的平均診斷率低1.28%；在2個(gè)或3個(gè)變量數(shù)據(jù)同時(shí)缺失時(shí)，其平均診斷率仍然高達(dá)67%。

3.1.3 變量數(shù)據(jù)隨機(jī)缺失

對(duì)TE過(guò)程的測(cè)試樣本數(shù)據(jù)，分別按5%、10%、15%和20%的比例進(jìn)行隨機(jī)變量數(shù)據(jù)缺失處理，獲得相應(yīng)的測(cè)試集，將新的測(cè)試集分別輸入RF、BPNN、RBFNN和DBN診斷方法，診斷結(jié)果如圖7所示。由圖7可知：當(dāng)數(shù)據(jù)完整時(shí)，RF、BPNN、DBN診斷方法的診斷率均超過(guò)60%；當(dāng)缺失數(shù)據(jù)比例為5%時(shí)，BPNN方法的診斷率下降40%， DBN方法的診斷率下降20%，而RF方法的診斷率僅下降8%；隨著缺失比例的增大，RF方法的診斷率的下降幅度較小，其余3種方法的診斷率下降幅度很大；當(dāng)測(cè)試數(shù)據(jù)的缺失達(dá)到20%時(shí)，RF、DBN、RBFNN和BPNN方法的診斷率分別約為55%、30%、10%和10%，RF方法診斷效果最好。由上述結(jié)果顯示可知，隨著變量數(shù)據(jù)缺失比例增加，基于RF的診斷方法仍能保持較好的診斷效果。

圖6 3個(gè)變量數(shù)據(jù)同時(shí)缺失時(shí)RF方法的診斷率Fig.6 FDR of RF at three variables missing

3.2 數(shù)據(jù)漂移

在化工過(guò)程數(shù)據(jù)的采集過(guò)程中，傳感器會(huì)受到環(huán)境的影響，導(dǎo)致監(jiān)測(cè)數(shù)據(jù)較真實(shí)值發(fā)生漂移，進(jìn)而影響故障診斷結(jié)果。采用不同的診斷方法分別對(duì)監(jiān)測(cè)變量數(shù)據(jù)存在正、負(fù)漂移的情況進(jìn)行診斷分析，如圖8和圖9所示。由圖8和圖9可知，對(duì)于數(shù)據(jù)存在正、負(fù)漂移的情況，除個(gè)別變量外，多數(shù)變量數(shù)據(jù)的漂移對(duì)RF方法的故障診斷影響很?。籇BN方法的診斷效果雖優(yōu)于BPNN和RBFNN方法，但波動(dòng)也很大。這說(shuō)明RF方法具有較強(qiáng)的抗噪能力，在數(shù)據(jù)漂移時(shí)的診斷分析中具有較高的精確度。

表1 不同數(shù)據(jù)缺失情況下的診斷效果比較Table 1 Performance of different data missing

圖7 不同數(shù)據(jù)缺失比例下不同診斷方法的平均診斷率Fig.7 Average FDR of different methods at differentdata missing ratios

3.3 變量數(shù)據(jù)卡死

針對(duì)監(jiān)測(cè)變量數(shù)據(jù)卡死的情況，以TE測(cè)試樣本的第100個(gè)監(jiān)測(cè)點(diǎn)卡死為例，各變量數(shù)據(jù)分別卡死情況下，采用RF、BPNN、RBFNN、DBN方法診斷的結(jié)果如圖10所示。由圖10可知，變量數(shù)據(jù)卡死時(shí)，RF方法的診斷效果明顯優(yōu)于其他3種方法，其平均診斷率比數(shù)據(jù)完整情況下診斷率約低0.5%。當(dāng)以RF作為分類(lèi)方法時(shí)，僅在變量9、21、45、51數(shù)據(jù)卡死情況下，其診斷率有較明顯的波動(dòng)。DBN方法整體的診斷率的波動(dòng)也比較小，但其在變量9、10、17、18、19、20、21、44、45、46、50、51、52數(shù)據(jù)卡死時(shí)的診斷效果有較明顯的下降。因此，對(duì)于變量數(shù)據(jù)卡死情況，診斷效果最好的是RF方法，其次是DBN方法。

圖8 變量數(shù)據(jù)正漂移時(shí)不同診斷方法的診斷率Fig.8 FDR of different methods at variable data positive drifting(a) RF; (b) BPNN; (c) RBFNN; (d) DBN

圖9 變量數(shù)據(jù)負(fù)漂移時(shí)不同診斷方法的診斷率Fig.9 FDR of different methods at variable data negative drifting(a) RF; (b) BPNN; (c) RBFNN; (d) DBN

圖10 變量數(shù)據(jù)卡死情況時(shí)不同診斷方法的診斷率Fig.10 FDR of different methods at variable data stuck(a) RF; (b) BPNN; (c) RBFNN; (d) DBN

4 結(jié) 論

針對(duì)TE過(guò)程數(shù)據(jù)缺失、漂移和卡死3種數(shù)據(jù)不可靠的情況，提出了基于RF的故障診斷方法。比較采用RF與BPNN、RBFNN、DBN方法對(duì)化工過(guò)程故障的診斷結(jié)果表明：在數(shù)據(jù)完整情況下，基于RF的故障診斷方法的故障診斷率最高；當(dāng)數(shù)據(jù)存在不可靠的情況時(shí)，RF方法的故障識(shí)別受數(shù)據(jù)不可靠的干擾最小，診斷率波動(dòng)最小，其他3種方法的診斷率明顯下降，且波動(dòng)很大；隨著數(shù)據(jù)不可靠程度的上升，RF方法的故障診斷率下降速率較慢、波動(dòng)較小，其他3種方法的診斷率下降速率較快，下降幅度很大，且波動(dòng)明顯。因此，基于RF的故障診斷方法分類(lèi)精度高、泛化能力強(qiáng)、對(duì)不可靠的數(shù)據(jù)的容錯(cuò)能力較好。

基于RF的故障診斷方法對(duì)絕大多數(shù)變量的數(shù)據(jù)不可靠情況保持穩(wěn)定的故障診斷率，但仍有少數(shù)變量數(shù)據(jù)不可靠會(huì)導(dǎo)致其診斷率有明顯的下降。