郭金玉,王 哲,李 元
(沈陽(yáng)化工大學(xué) 信息工程學(xué)院,遼寧 沈陽(yáng) 110142)
在信息數(shù)字科技高度發(fā)達(dá)的今天,云計(jì)算、大數(shù)據(jù)分析、人工智能等全新概念促使每個(gè)行業(yè)都開始謀求技術(shù)迭代甚至商業(yè)模式的全面轉(zhuǎn)型。工業(yè)領(lǐng)域一向重視數(shù)據(jù)分析,尤其是在故障分析與診斷方面,數(shù)據(jù)分析起到了至關(guān)重要的作用。隨著化工過(guò)程規(guī)模的逐漸擴(kuò)大,工業(yè)程序越發(fā)復(fù)雜,故障檢測(cè)變得尤為重要和困難。一個(gè)好的故障檢測(cè)算法不僅可以大大提高工業(yè)過(guò)程故障檢測(cè)的效率,也能保證故障排查的精度,尋找合適的故障檢測(cè)算法成為當(dāng)前主要研究問(wèn)題之一[1]。
最早最經(jīng)典的故障檢測(cè)算法—主成分分析(principal component analysis, PCA)是隨著測(cè)量、數(shù)據(jù)存儲(chǔ)和計(jì)算設(shè)備的發(fā)展而出現(xiàn)的。PCA將數(shù)據(jù)信息投影到主元空間和殘差空間兩個(gè)子空間中,并構(gòu)造了以馬氏距離和歐氏距離為代表的兩個(gè)統(tǒng)計(jì)量,以檢測(cè)兩個(gè)子空間中的變化。其算法實(shí)現(xiàn)簡(jiǎn)潔、處理速度快,在處理高斯分布的高維檢測(cè)數(shù)據(jù)時(shí)可以取得非常好的檢測(cè)效果,因此使用最廣泛。但由于PCA假定過(guò)程數(shù)據(jù)是線性的,對(duì)于某些具有特定非線性特性的復(fù)雜工業(yè)過(guò)程性能較差。近年來(lái),一種新的非線性PCA技術(shù)—核主成分分析(kernel PCA, KPCA)[2]出現(xiàn)并發(fā)展迅速,通過(guò)非線性映射將輸入空間映射到特征空間,然后計(jì)算高維特征空間中的主成分。與其他非線性方法相比,KPCA的主要優(yōu)點(diǎn)是通過(guò)引入核函數(shù)避免了非線性映射和內(nèi)積計(jì)算。KPCA與常規(guī)PCA相似,均通過(guò)構(gòu)造Hetelling T2和平方預(yù)測(cè)誤差(squared prediction error,SPE)兩個(gè)統(tǒng)計(jì)量來(lái)分別監(jiān)視主成分空間和殘差空間,且均在確定統(tǒng)計(jì)量的置信限時(shí)基于獲得的得分變量遵循高斯分布的假設(shè),但這在非線性過(guò)程中難以滿足[3]。KPCA 只利用了過(guò)程變量的方差信息,缺乏有效處理非高斯數(shù)據(jù)的能力。但實(shí)際中,工業(yè)過(guò)程數(shù)據(jù)往往是高斯與非高斯分布共存。在此情況下,Jenssen[4-5]提出一種用于非線性化學(xué)過(guò)程監(jiān)測(cè)的新的多元統(tǒng)計(jì)數(shù)據(jù)轉(zhuǎn)換方法—核熵成分分析(kernel entropy component analysis, KECA),是一種基于角度的故障檢測(cè)方法,放寬了傳統(tǒng)PCA和KPCA方法中的高斯假設(shè)[6-8],可用于非線性工業(yè)過(guò)程監(jiān)控。相比于只考慮二階統(tǒng)計(jì)量方差的KPCA,KECA 試圖最大程度保留原始數(shù)據(jù)的熵值,有助于有效提取數(shù)據(jù)中的高階統(tǒng)計(jì)量即非高斯信息,對(duì)于某些故障的檢測(cè)卓有成效,但因?yàn)樵跀?shù)據(jù)處理過(guò)程中失去對(duì)數(shù)據(jù)高維信息的捕捉,對(duì)微小故障的檢測(cè)較傳統(tǒng)的分析方法相對(duì)弱勢(shì)。齊詠生等[9]改進(jìn)了傳統(tǒng)的KECA方法,提出一種CS(Cauchy-Schwarz)統(tǒng)計(jì)量,該統(tǒng)計(jì)量在微小故障的檢測(cè)方面表現(xiàn)突出,但由于CS統(tǒng)計(jì)量是通過(guò)向量之間的夾角獲得的,對(duì)于樣本信息熵的處理不如互信息,導(dǎo)致檢測(cè)效果不穩(wěn)定?;バ畔?mutual information, MI)[10]是一種脫胎于信息論的信息度量方法,可被看成是一個(gè)隨機(jī)變量中包含關(guān)于另一個(gè)隨機(jī)變量的信息量,或者說(shuō)是一個(gè)隨機(jī)變量由于已知另一個(gè)隨機(jī)變量而減少的不確定性,可以高效地估計(jì)出兩組隨機(jī)變量相互依賴的程度,還可以有效地考慮高維度統(tǒng)計(jì)量[11-12]。但這種方法目前很少應(yīng)用在工業(yè)數(shù)據(jù)分析領(lǐng)域[13-14]。
本研究將KECA與MI結(jié)合起來(lái),提出一種基于互信息和核熵成分分析的故障檢測(cè)算法,利用新型統(tǒng)計(jì)量—基于互信息的平方預(yù)測(cè)誤差(squared prediction error based on mutual information, MISPE),彌補(bǔ)KECA在故障檢測(cè)時(shí)過(guò)多丟失高維度信息的問(wèn)題。相比于之前單純對(duì)向量夾角或距離的度量,MI的引入能夠更加精細(xì)地表達(dá)變量之間的關(guān)系,大大提升KECA方法對(duì)于非微小故障的檢測(cè)效率。
假設(shè)p(x)是生成數(shù)據(jù)集D:x1,x2,…,xN的概率密度函數(shù),則瑞麗熵(Rényi entropy)[15]為:
(1)
(2)
式中:kσ(x,xt)是以xt為中心的Parzen窗,σ是窗口寬度。使用樣本均值來(lái)近似估計(jì)V(p),得到
(3)
式中:K是N×N的核矩陣;I是一個(gè)N×1的單位向量?;诳捎脴颖精@得的瑞麗熵估計(jì)量就是相應(yīng)核矩陣的元素。
將核矩陣進(jìn)行特征分解,K=EDET。其中:D為特征值矩陣;D=diag(λ1,λ2,…,λN);E=(e1,e2,…,eN)為特征向量矩陣。重寫式(3),得到:
(4)
在KPCA中,僅僅基于特征值的大小選擇特征值和特征向量來(lái)執(zhí)行降維,而從熵的角度來(lái)看,特征向量熵的估計(jì)值同時(shí)受特征值和特征向量的影響。因此在式(4)中,Ψi的值可以用作瑞麗熵的估計(jì)。
對(duì)于輸入數(shù)據(jù)集D:x1,x2,…,xN,給定一個(gè)核函數(shù)φ(·),定義從輸入空間到核特征空間的映射xi→φ(xi)(i=1,2,…,N),核特征空間的數(shù)據(jù)集表示為Φ=[φ(x1),φ(x2),…,φ(xN)]。本研究選用高斯核函數(shù)將樣本數(shù)據(jù)映射至高維空間,高斯核函數(shù)對(duì)于數(shù)據(jù)中的噪音有著較好的抗干擾能力,其參數(shù)決定了函數(shù)作用范圍,超過(guò)這個(gè)范圍,數(shù)據(jù)的作用就“基本消失”,通常是通過(guò)交叉驗(yàn)證獲得有效的核參數(shù)。
KECA可以看作是將Φ投影到重要的子空間Us上所獲得的s維數(shù)據(jù)轉(zhuǎn)換,這個(gè)重要的子空間Us是由那些對(duì)數(shù)據(jù)的瑞麗熵估計(jì)貢獻(xiàn)最大的s個(gè)KPCA主軸組成的,不一定與前面的特征值相對(duì)應(yīng)[17]。轉(zhuǎn)換如下:
(5)
式中,得分矩陣T=[t1,t2,…,ts]。新的測(cè)試數(shù)據(jù)通過(guò)函數(shù)Φ′投影到子空間上,即可得到得分矩陣
(6)
式中,K′=Φ′TΦ。定義輸入數(shù)據(jù)集的殘差矩陣
(7)
在兩個(gè)隨機(jī)變量之間的統(tǒng)計(jì)依賴性度量中,互信息由于其信息論背景而被引入。MI在估算KECA算法中每個(gè)樣本的實(shí)際統(tǒng)計(jì)獨(dú)立性中起著重要作用。一個(gè)連續(xù)隨機(jī)變量x=(x1,x2,…,xn)的香農(nóng)(Shannon)熵定義為:
(8)
式中u(x)是x的概率密度函數(shù)。
對(duì)于隨機(jī)變量x和y,x中包含y的信息量可以由互信息度量,其定義為:
(9)
式中:ux,y(x,y)是聯(lián)合概率密度函數(shù),ux和uy是x和y的邊緣概率密度函數(shù)。
根據(jù)變量的熵估計(jì)互信息為:
I(x,y)=H(x)+H(y)-H(x,y)。
(10)
式中:H(x)和H(y)是x和y的邊緣熵,H(x,y)是聯(lián)合熵。聯(lián)合熵的計(jì)算公式為:
(11)
值得注意的是,在實(shí)踐中通過(guò)計(jì)算積分和求和的互信息估計(jì)是密集且效率低的。為了減輕計(jì)算負(fù)擔(dān),一種基于香農(nóng)熵的Kozachenko-Leonenko估計(jì)量的最近鄰策略被提出,用于對(duì)互信息的數(shù)值估計(jì)[18-19]。首先,通過(guò)最近鄰技術(shù)估計(jì)聯(lián)合熵為:
(12)
假設(shè)zi=(xi,yi)代表空間中一個(gè)坐標(biāo)點(diǎn),則式(12)中的ε(i)/2是點(diǎn)zi到其第l個(gè)近鄰的距離;εx(i)/2和εy(i)/2分別表示相同點(diǎn)投影到X和Y子空間的距離,顯然ε(i)=max {εx(i),εy(i)}。此外,ψ(x)=Γ(x)-1dΓ(x)/dx為雙伽瑪函數(shù),Γ(x)=(x-1)!是伽馬函數(shù),其中dx和dy分別表示x和y的維數(shù),cd=πd/2/Γ(1+d/2)/2d是歐幾里得范數(shù)的d維單位立方體的體積。對(duì)于邊緣熵H(x)或H(y),可以通過(guò)關(guān)節(jié)空間投影來(lái)估計(jì):
(13)
式中,τx(i)是與xi的距離小于εx(i)/2的點(diǎn)數(shù)。式(10)減去式(12)、(13),得:
I(x,y)=ψ(l)-〈ψ[τx(i)]+ψ[τy(i)]〉+ψ(n)。
(14)
式中〈·〉表示隨機(jī)樣本所有可能實(shí)現(xiàn)的平均值。在MI的最終方程式中減去用于度量近鄰子空間大小的參數(shù)ε(i)和cd,說(shuō)明互信息的估算結(jié)果與近鄰空間的數(shù)據(jù)規(guī)模無(wú)關(guān)。這種方法可以擴(kuò)展到計(jì)算任意維的變量x和y之間的多維互信息。因此,對(duì)于基準(zhǔn)數(shù)據(jù)集的殘差矩陣FR和監(jiān)視數(shù)據(jù)集的殘差矩陣FM,多維互信息的計(jì)算公式為:
I(FR,FM)=ψ(l)-〈ψ[τR(i)]+ψ[τM(i)]〉+ψ(n)。
(15)
式中:n代表殘差空間中樣本的大小,τR(i)和τM(i)分別代表由εx(i)/2和εy(i)/2確定的近鄰空間中的點(diǎn)數(shù)。式(15)說(shuō)明FM和FR之間的互信息值越小,相異指數(shù)值越大。換句話說(shuō),如果相異指數(shù)較大,則當(dāng)前監(jiān)視的操作模式明顯不同于基準(zhǔn)條件,被視為異常。
相比KPCA,KECA雖然考慮了數(shù)據(jù)信息熵丟失的問(wèn)題,但沒有充分考慮高階統(tǒng)計(jì)量。因此,本研究通過(guò)兩個(gè)近鄰空間之間基于多維互信息的統(tǒng)計(jì)獨(dú)立性來(lái)表征差異性。由于KECA所提取的熵成分可以是非線性、非高斯的,而互信息可以同時(shí)捕捉數(shù)據(jù)中的非高斯統(tǒng)計(jì)關(guān)系和各種隱藏信息,因此本研究將互信息和傳統(tǒng)KECA方法中的SPE統(tǒng)計(jì)量結(jié)合,得到一個(gè)可以面向幾乎所有類型數(shù)據(jù)分布形式且對(duì)于高維統(tǒng)計(jì)信息更加敏感的新統(tǒng)計(jì)量—MISPE。每個(gè)樣本的MISPE統(tǒng)計(jì)量定義為:
(16)
式中
(17)
本研究選用核密度估計(jì)(kernel density estimation,KDE)確定樣本統(tǒng)計(jì)量的控制限。核密度估計(jì)是一種非參數(shù)估計(jì),既不需要數(shù)據(jù)的先驗(yàn)知識(shí),也不做任何假設(shè),被廣泛用于確定數(shù)據(jù)分布非正態(tài)或未知時(shí)的控制限。公式為:
(18)
式中:h為帶寬,K代表高斯核函數(shù)。
基于MIKECA的故障檢測(cè)步驟包括兩部分:離線建模和在線監(jiān)控。
1) 離線建模
正常數(shù)據(jù)用D(N×M)表示,其中N代表樣本數(shù)量,M代表每個(gè)樣本所含變量的個(gè)數(shù)。將數(shù)據(jù)集D作為訓(xùn)練數(shù)據(jù)按照以下步驟進(jìn)行處理。
Ⅰ 給定核函數(shù)以及核參數(shù),利用樣本數(shù)據(jù)構(gòu)建KECA模型,利用式(6)求出得分矩陣T=[t1,t2,…,ts],并利用式(7)計(jì)算殘差矩陣F(N×M);
Ⅱ 利用式(17)計(jì)算樣本數(shù)據(jù)的監(jiān)測(cè)統(tǒng)計(jì)量SPE;
Ⅲ 從F中選出一個(gè)樣本作為標(biāo)準(zhǔn)樣本FR,求出F中各個(gè)樣本與標(biāo)準(zhǔn)樣本的互信息,利用式(16)得到新的監(jiān)測(cè)統(tǒng)計(jì)量MISPE;
Ⅳ 計(jì)算監(jiān)測(cè)統(tǒng)計(jì)量的控制限MISPElim。
2) 在線監(jiān)控
Ⅰ 對(duì)測(cè)試數(shù)據(jù)集Dnew,按離線建模數(shù)據(jù)的均值與方差對(duì)測(cè)試數(shù)據(jù)標(biāo)準(zhǔn)化;
Ⅱ 把當(dāng)前測(cè)試數(shù)據(jù)投影到KECA模型中,利用式(6)提取得分向量Tnew,利用式(7)計(jì)算殘差矩陣FM;
Ⅲ 利用式(17)計(jì)算測(cè)試數(shù)據(jù)的監(jiān)測(cè)統(tǒng)計(jì)量SPEnew;
Ⅳ 根據(jù)式(16),利用殘差矩陣FM得到新的監(jiān)測(cè)統(tǒng)計(jì)量MISPEnew;
Ⅴ 與控制限MISPElim進(jìn)行比較,如果統(tǒng)計(jì)量超出相應(yīng)的控制限,即可判斷工業(yè)過(guò)程發(fā)生了故障;反之,則認(rèn)為測(cè)試數(shù)據(jù)正常,返回繼續(xù)進(jìn)行下一個(gè)測(cè)試數(shù)據(jù)的監(jiān)測(cè)。
田納西-伊斯曼(Tennessee Eastman,TE)過(guò)程是評(píng)估本研究提出的監(jiān)測(cè)方法有效性和實(shí)用性的重要實(shí)驗(yàn)對(duì)象,其工藝流程圖如圖1所示,由5個(gè)主要單元操作組成,包括化學(xué)反應(yīng)器、冷凝器、循環(huán)壓縮機(jī)、氣/液分離器和汽提塔。TE過(guò)程由4種氣態(tài)反應(yīng)物A、C、D、E和惰性的氣態(tài)組分B參與反應(yīng),生產(chǎn)出兩種液態(tài)產(chǎn)物G和H以及副產(chǎn)物F。反應(yīng)器產(chǎn)物流通過(guò)部分冷凝器冷卻,并進(jìn)料至氣/液分離器中進(jìn)行組分分離。此外離開分離器的蒸汽流通過(guò)壓縮機(jī)再循環(huán)至反應(yīng)器進(jìn)料流。凈化一部分循環(huán)物流以防止過(guò)程中惰性和副產(chǎn)物的積累[20]。同時(shí),來(lái)自分離器冷凝的組分(物流10)被泵入汽提塔。離開汽提塔的產(chǎn)品G和H在下游操作中進(jìn)一步處理。
圖1 TE過(guò)程流程圖
TE過(guò)程包括1種正常工況和21種可操作的故障工況。表1為TE過(guò)程21種故障的說(shuō)明。正常和故障工況下的采樣時(shí)間間隔為3 min。在正常工況下,過(guò)程運(yùn)行48 h產(chǎn)生的960個(gè)數(shù)據(jù)被采集作為正常數(shù)據(jù)樣本,21種故障工況是在過(guò)程穩(wěn)定運(yùn)行8 h后引入,故采集的960個(gè)數(shù)據(jù)中前160個(gè)數(shù)據(jù)不含故障,后800個(gè)數(shù)據(jù)含有故障。將正常工況下的960個(gè)數(shù)據(jù)作為訓(xùn)練樣本,所有含故障數(shù)據(jù)作為測(cè)試樣本。
表1 TE過(guò)程的故障說(shuō)明
選取TE過(guò)程中的故障7、11、17和21作為測(cè)試數(shù)據(jù)集,將KPCA、KECA的SPE、CS統(tǒng)計(jì)量與本研究提出的MIKECA進(jìn)行對(duì)比, 通過(guò)故障檢測(cè)率(fault detection rate,F(xiàn)DR)和誤報(bào)率(false alarm rate,F(xiàn)AR)兩個(gè)指標(biāo)評(píng)估算法的好壞。
以故障17為例,圖2是4種方法進(jìn)行故障檢測(cè)的仿真結(jié)果。對(duì)于故障17,4種方法都對(duì)故障樣本和正常樣本進(jìn)行了大致上的甄別。KPCA的誤報(bào)現(xiàn)象最為嚴(yán)重,同時(shí)也有一定數(shù)量的漏報(bào)。KPCA在選取主成分時(shí)僅考慮了特征值的大小,沒有充分考慮高階統(tǒng)計(jì)量,因此KPCA無(wú)法有效提取過(guò)程數(shù)據(jù)中的非高斯特征,導(dǎo)致檢測(cè)效果差。相比KPCA,KECA的誤報(bào)有了明顯改善,但是KECA也漏報(bào)了相當(dāng)一部分的故障樣本。KECA盡可能地保留原有數(shù)據(jù)的熵值,改善了誤報(bào)現(xiàn)象嚴(yán)重的問(wèn)題,但是沒有考慮投影后數(shù)據(jù)的結(jié)構(gòu)特征,因此總體檢測(cè)效果沒有大幅度地提升。與KECA相比,CS統(tǒng)計(jì)量彌補(bǔ)了基于距離的監(jiān)測(cè)指標(biāo)對(duì)那些故障幅度較小、數(shù)據(jù)結(jié)構(gòu)變化不明顯的故障監(jiān)測(cè)效果較差的不足,一定程度上提高了KECA算法的檢測(cè)率,降低了誤報(bào)率。但是這種基于向量夾角計(jì)算得出的統(tǒng)計(jì)量無(wú)法兼顧到樣本的高維信息,誤報(bào)率也相對(duì)偏高。對(duì)比其他3種方法,本研究的MIKECA算法的誤報(bào)率最低,而且故障檢測(cè)率最高。MIKECA不僅結(jié)合了KECA選取主成分的優(yōu)勢(shì),還利用互信息捕捉樣本高維信息,因此總體檢測(cè)效果明顯優(yōu)于其他算法。
圖2 4種算法對(duì)故障17仿真結(jié)果對(duì)比圖
表2列出4種算法的FDR與FAR對(duì)比。由表2可知,對(duì)比其他3種方法,MIKECA算法對(duì)4個(gè)故障檢測(cè)的誤報(bào)率較低,而且檢測(cè)率最高,驗(yàn)證了該方法在故障檢測(cè)中的有效性和優(yōu)勢(shì)。
表2 4種故障檢測(cè)算法的結(jié)果對(duì)比
本研究提出一種基于互信息和核熵成分分析的故障檢測(cè)算法MIKECA,并將其應(yīng)用于田納西-伊斯曼過(guò)程的故障檢測(cè)。該方法與原來(lái)基于角度的CS統(tǒng)計(jì)量不同,不僅充分捕捉了過(guò)程的非高斯特征,而且通過(guò)互信息的計(jì)算,更兼顧了各種維度的數(shù)據(jù)統(tǒng)計(jì)信息。監(jiān)測(cè)結(jié)果表明,MIKECA的故障檢測(cè)效果優(yōu)于KPCA、KECA算法,具有最可靠的故障檢測(cè)能力。
未來(lái)的工作集中在故障診斷部分,通過(guò)基于差異的模式識(shí)別來(lái)隔離故障變量。因此,調(diào)整所提出的方法以適應(yīng)更復(fù)雜的批量操作環(huán)境值得進(jìn)一步研究。此外,該方法在其他化工過(guò)程中的應(yīng)用也需要進(jìn)一步探討。