李 元,姚宗禹
(沈陽化工大學(xué)信息工程學(xué)院,遼寧 沈陽 110142)
面對不斷變化的市場需求,現(xiàn)代工業(yè)產(chǎn)品的生產(chǎn)過程往往采用多模態(tài)的生產(chǎn)模式。為了提高過程系統(tǒng)運行的安全性和可靠性以及保證化學(xué)工程工藝系統(tǒng)中的產(chǎn)品質(zhì)量,針對多模態(tài)過程的過程監(jiān)控和故障檢測具有巨大的學(xué)術(shù)研究價值[1-5]。特別是基于數(shù)據(jù)驅(qū)動的故障檢測方法引起了越來越多的關(guān)注,如主成分分析(PCA)[6-7]、偏最小二乘法(PLS)[8-9]、典型相關(guān)分析(CCA)[10]等。
主成分分析(PCA)是目前常用的多元統(tǒng)計故障檢測方法。PCA利用了過程變量之間相關(guān)性將原始測量數(shù)據(jù)空間分解為主成分空間與殘差空間,應(yīng)用統(tǒng)計量 Hotelling’s T2和SPE作為相應(yīng)的檢測指標(biāo)。然而,對于具有非線性多模態(tài)的工業(yè)過程,PCA假定過程是線性以及統(tǒng)計量T2和SPE要求過程數(shù)據(jù)服從單模態(tài)高斯分布而使其性能降低。針對非線性問題,通過在PCA中引入核技術(shù),將非線性低維數(shù)據(jù)映射到高維空間,使其高維空間數(shù)據(jù)中存在線性關(guān)系。雖然,基于核的方法在非線性特征提取中優(yōu)于基于線性的方法。但是,若參數(shù)設(shè)置不當(dāng),核方法的故障檢測性能就無法得到保證。此外,計算核函數(shù)耗時較長,影響對實時檢測的需求[11-12]。張[13]等提出了一種基于等距離映射(Isometric Mapping,ISOMAP)的故障檢測方法。該方法用等距離映射進行非線性降維,采用自適應(yīng)準(zhǔn)則選取鄰域參數(shù),能夠有效地挖掘過程的非線性特征。但是當(dāng)流形曲率較大時,流形上的測地距離估計會產(chǎn)生較大的誤差,導(dǎo)致嵌入結(jié)果產(chǎn)生變形。Zhang[14-16]等提出了基于PPA(Principal Polynomial Analysis,PPA)的故障檢測方法,將PCA中的線性主元分量換成一組靈活的曲線主多項式分量,能夠很好的描述過程數(shù)據(jù)中的非線性結(jié)構(gòu),但是由于其統(tǒng)計量的選擇而在多模態(tài)過程中限制了其檢測效果。針對多模態(tài)問題,K-means方法近年來被廣泛應(yīng)用[17]。該方法首先假定k個初始聚類中心,采用計算樣本與聚類中心之間的距離來進行數(shù)據(jù)分類,使用分類數(shù)據(jù)集的均值作為新的聚類中心。然而該方法對過程數(shù)據(jù)集中包含的噪聲和異常值非常敏感,初始聚類中心的選擇不當(dāng)極易出現(xiàn)局部最優(yōu)解。MA[18-19]等提出了一種局部近鄰標(biāo)準(zhǔn)化方法通過建立樣本的近鄰數(shù)據(jù)集,并使用近鄰集的均值和標(biāo)準(zhǔn)差對當(dāng)前樣本進行標(biāo)準(zhǔn)化,夠?qū)⒍嗄B(tài)數(shù)據(jù)融合為單模態(tài)數(shù)據(jù),消除過程數(shù)據(jù)的多模態(tài)特征。但是,當(dāng)標(biāo)準(zhǔn)化時所用的近鄰集來自不同的模態(tài),標(biāo)準(zhǔn)化過程會出現(xiàn)偏差。
針對過程數(shù)據(jù)的多模態(tài)和非線性的特征,提出了改進的局部近鄰標(biāo)準(zhǔn)化和主多項式分析結(jié)合的過程故障檢測方法ILNS-PPA。首先將原始多模態(tài)數(shù)據(jù)經(jīng)過 ILNS的處理以消除數(shù)據(jù)中多模態(tài)特征,然后對標(biāo)準(zhǔn)化后的數(shù)據(jù)應(yīng)用主多項式分析(PPA)建立故障檢測模型,計算其檢測統(tǒng)計量來進行故障檢測。ILNS-PPA不僅具備PPA處理數(shù)據(jù)非線性的能力,還繼承了ILNS能夠?qū)⒍嗄B(tài)數(shù)據(jù)融合為單模態(tài)數(shù)據(jù)的優(yōu)勢,可以有效地對具有非線性多模態(tài)的工業(yè)過程進行故障檢測。
數(shù)據(jù)標(biāo)準(zhǔn)化常用的方法Z-score是采用數(shù)據(jù)全局均值和標(biāo)準(zhǔn)差進行處理,對數(shù)據(jù)進行平移和縮放使得數(shù)據(jù)的中心平移到新坐標(biāo)系的原點,但是該方法沒有考慮多模態(tài)數(shù)據(jù)分布的不同,在數(shù)據(jù)中包含多個模態(tài)分布時,經(jīng)過該方法處理后,數(shù)據(jù)中包含的多模態(tài)特征仍然存在,使用該方法處理后的數(shù)據(jù)沒有消除其多模態(tài)特征[20]。然而,在實際的生產(chǎn)過程中,數(shù)據(jù)的模態(tài)情況很難確定,因此MA[18]提出了局部近鄰標(biāo)準(zhǔn)化的方法。但是需要注意的是,該方法并不會改變數(shù)據(jù)內(nèi)部的分布特征。
對樣本xi在訓(xùn)練樣本X中尋找其前k近鄰樣本集N(xi),對近鄰集N(xi)計算其均值mean(N(xi))和方差std(N(xi)),利用式(1)進行標(biāo)準(zhǔn)化。
(1)
(2)
對待檢測的新樣本xnew標(biāo)準(zhǔn)化時,從X中確定前k個近鄰,組成近鄰樣本M(xi),標(biāo)準(zhǔn)化得到
(3)
其中,mean(M(xi))表示樣本xnew在訓(xùn)練樣本中近鄰集均值,std(M(xi))表示其近鄰集標(biāo)準(zhǔn)差。
(4)
首先尋找第一近鄰樣本,再對第一近鄰樣本所屬模態(tài)尋找前k近鄰樣本集。避免了直接選取前k近鄰時出現(xiàn)模態(tài)跨越的問題,這種方法有效處理了多模態(tài)數(shù)據(jù)中故障數(shù)據(jù)發(fā)生在模態(tài)之間的情況。ILNS方法能夠有效的降低多模態(tài)數(shù)據(jù)中心漂移和方差差異明顯對后續(xù)故障檢測方法帶來的不利影響,能夠?qū)⒍嗄B(tài)數(shù)據(jù)融合為單模態(tài)數(shù)據(jù),消除過程數(shù)據(jù)的多模態(tài)特征。
假設(shè)訓(xùn)練數(shù)據(jù)X為m個測量變量,n個訓(xùn)練樣本,PPA對原始數(shù)據(jù)進行如下分解
(5)
(6)
(7)
Vp=[νp,1,νp,2,…,νp,N]
(8)
(9)
其中V+表示V偽逆。
PPA使用一種計算主多項式成分的順序算法。在每一步的計算中,計算出最佳投影數(shù)據(jù)的向量。通過使用一組主多項式成分從過程數(shù)據(jù)中學(xué)習(xí)數(shù)據(jù)的低維表示,將PCA中的直線主成分更換為曲線的主多項式成分,可以更好的捕捉過程變量的非線性特征。
為了擴展PPA方法在多模態(tài)工業(yè)數(shù)據(jù)下的檢測性能,本文提出了一種基于ILNS-PPA 的故障檢測和診斷方法,其方法故障檢測和診斷策略如下:
(10)
(11)
(12)
其中ΛPPA∈Rρ×ρ表示對角元素為主多項式分量的方差的對角矩陣。PPA的SPE統(tǒng)計量定義如下
(13)
(14)
故障檢測的兩個階段:
a)離線建模
1)獲取正常工業(yè)過程數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集X;
5)分別在主多項式分量空間和殘差空間計算統(tǒng)計量T2與SPE;
7)保存訓(xùn)練模型中所獲得的參數(shù)ep,Ep,Wp和νp;
b)在線檢測
4)將上步求得的統(tǒng)計量與離線建模步驟中的控制限進行對比,若T2與SPE任一統(tǒng)計量超過其對應(yīng)的控制限,則認(rèn)為該樣本為故障樣本。
圖1 ILNS-PPA故障檢測步驟
根據(jù)仿真需求提出一組非線性系統(tǒng)多模態(tài)數(shù)值例子,其主要模型由式(15)組成
(15)
其中e1~e3是服從均值為0,標(biāo)準(zhǔn)差為0.01的高斯分布的3個獨立的白噪聲。s1和s2為系統(tǒng)控制變量,通過改變s1和s2用來對系統(tǒng)的模式進行調(diào)整,以此產(chǎn)生多模態(tài)數(shù)值例子,給出兩個模態(tài)的數(shù)據(jù)代表不同工況分別如式(12)和式(13)所示
(16)
(17)
使用上式中的參數(shù)在每個模態(tài)下產(chǎn)生400個正常數(shù)據(jù)構(gòu)成訓(xùn)練樣本。通過在不同模態(tài)的樣本中添加擾動引入兩種不同故障來證明本文提出的方法能夠解決多模態(tài)非線性問題,具體操作如下:
1)在模態(tài)1的情況下,對變量x1從第201個樣本至400個樣本上添加0.2(k-200)來引入斜坡故障;
2)在模態(tài)2的情況下,對變量x3從第201個樣本至400個樣本上添加幅值25%的階躍故障。
接下來使用上面所提到的數(shù)值例子分別應(yīng)用PCA、PPA和ILNS-PPA這三種方法進行建模分析。在PCA中,通過85%累計貢獻率確定主元個數(shù)為2,并且將PPA和ILNS-PPA中的主多項式成分設(shè)置為2,ILNS-PPA中選取第一近鄰樣本之后再在第一近鄰樣本所屬模態(tài)找局部近鄰的個數(shù)k設(shè)為50。三種方法對該數(shù)值例子的檢測效果如圖4所示,圖2為故障變量x2和x3的原始樣本散點分布圖,可以明顯看出原始數(shù)據(jù)中的多模態(tài)特性,且多模態(tài)數(shù)據(jù)不滿足PCA和PPA方法中T2和SPE統(tǒng)計量對過程數(shù)據(jù)分布的假設(shè),因此從圖4(a)和圖4(b)中可以看出PCA和PPA這兩種方法的檢測率較低。然而ILNS方法在盡量避免近鄰不屬于同一個模態(tài)選取問題,通過尋找樣本第一近鄰的前k個局部近鄰數(shù)據(jù)集,使用局部的信息對樣本進行標(biāo)準(zhǔn)化,將多模態(tài)數(shù)據(jù)縮放至的各個模態(tài)的中心,由圖3可以看出ILNS方法能夠有效的將多模態(tài)數(shù)據(jù)近似融合為高斯分布的單一模態(tài),滿足兩種統(tǒng)計量的假設(shè)條件,ILNS方法能夠有效地將故障數(shù)據(jù)成功的分離,并且因為PPA能夠有效的處理非線性問題,建立較為準(zhǔn)確地檢測模型,所以本文所提ILNS-PPA方法具有非常理想檢測效果。
圖2 原始樣本故障變量散點圖
圖3 ILNS處理后的故障變量散點圖
圖4 三種方法對數(shù)值例子的檢測結(jié)果
田納西-伊斯曼過程由伊士曼化學(xué)品公司創(chuàng)建的檢驗過程系統(tǒng)工程中故障檢測和診斷方法效率的工業(yè)基準(zhǔn)過程[22]。本文仿真使用的為TE過程生產(chǎn)模式1和3,在正常操作條件下,用包含960個訓(xùn)練數(shù)據(jù)建立了模型。測試數(shù)據(jù)包含一組21個不同的過程故障,這些故障被引入到過程中,即在前160個樣品中正常運行,然后從樣品161到最后發(fā)生故障,即對應(yīng)800個故障樣本。
下面將使用TE過程中的21個故障對本文所提出的ILNS-PPA檢測方法進行有效性研究,在PCA中,通過85%累計貢獻率確定主元個數(shù)為28;將PPA和ILNS-PPA中的主多項式空間設(shè)置為2,主多項式的冪設(shè)為3;ILNS-PPA中尋找樣本第一近鄰的前k個局部近鄰的個數(shù)k設(shè)為100;監(jiān)控統(tǒng)計量的控制限均設(shè)置為99%。由圖5看,原始數(shù)據(jù)變量間的多模態(tài)結(jié)構(gòu)十分明顯,經(jīng)過ILNS方法處理將將多模態(tài)數(shù)據(jù)近似融合為服從高斯分布的單模態(tài)數(shù)據(jù),消除過程數(shù)據(jù)的多模態(tài)特征。其結(jié)果如圖6所示。
圖5 多模態(tài)TE過程變量散點圖及對應(yīng)分布
圖6 經(jīng)過ILNS處理后的多模態(tài)TE過程變量散點圖及對應(yīng)分布
表1中列出了基于PCA、PPA和ILNS-PPA方法分別在TE過程的21種故障中所得出的檢測結(jié)果。從表1中可以明顯看出,本文所提出的方法能夠有效監(jiān)控多模態(tài)TE過程中大多數(shù)故障。
表1 三種方法的故障檢測率
由表(1)可知,本文所提出的方法與傳統(tǒng)的PCA、PPA相比,在故障2,10,11,18,19在檢測效果上有極大的改善,而在故障1,4,6,8,13這三種方法均有良好的檢測性能,其故障檢測率均高于85%。三種方法對故障10的檢測結(jié)果如圖7所示,檢測采樣數(shù)從0到960和961到1920別為工作模式1和3條件下采集的觀測樣本,可以很明顯的看出由于樣本多模態(tài)特征的影響,PCA和PPA的兩種故障檢測統(tǒng)計量大多數(shù)都在控制限之下。主要是因為這兩種檢測方法采用的是全局建模的方式,然而這種建模方式并不能夠有效的描述多模態(tài)工業(yè)數(shù)據(jù),需要將多模態(tài)數(shù)據(jù)進行相應(yīng)的處理。傳統(tǒng)的單一檢測模型會受到多模態(tài)中心不一致與方差差異明顯特征的影響,使檢測建立的模型描述范圍擴大,對工業(yè)過程中的隨機故障不敏感,所以PCA和PPA的檢測效果并不好。故障19是一種未知的故障,三種方法的檢測效果如圖8所示,可以明顯看出PCA和PPA這兩種方法模態(tài)1的故障均未有效的檢測出,這是因為兩個模態(tài)的方差差異明顯,PCA和PPA方法構(gòu)建的控制限受其影響較大。而本文提出的方法經(jīng)國ILNS處理后樣本數(shù)據(jù)近似服從高斯分布,同時ILNS方法不僅能夠盡量避免近鄰不屬于同一個模態(tài)選取問題,通過尋找樣本第一近鄰的前k個局部近鄰數(shù)據(jù)集,使用每個樣本局部近鄰集的均值和方差代替了全局建模信息處理得到的均值和方差從而消除了過程數(shù)據(jù)中的多模態(tài)特征,為PPA的檢測提供數(shù)據(jù)基礎(chǔ),因此該方法有良好的故障檢測效果。
圖7 三種檢測方法的故障10檢測結(jié)果
圖8 三種檢測方法的故障19檢測結(jié)果
本文提出了一種基于ILNS-PPA的故障檢測算法,通過ILNS方法去除數(shù)據(jù)中的多模態(tài)結(jié)構(gòu),再使用PPA方法尋找一條曲線的主多項式分量擬合數(shù)據(jù)中的非線性結(jié)構(gòu),本文通過一組非線性數(shù)值例子和田納西-伊斯曼多模態(tài)過程進行仿真分析,仿真結(jié)果證明了基于ILNS-PPA方法的故障檢測算法的有效性與優(yōu)越性。