郭金玉,袁堂明,李 元
?
一種不等長的多模態(tài)間歇過程故障檢測方法
郭金玉,袁堂明,李元
(沈陽化工大學(xué)信息工程學(xué)院,遼寧 沈陽 110142)
摘要:提出一種不等長的多模態(tài)間歇過程故障檢測方法。首先,運(yùn)用局部加權(quán)算法對不等長批次數(shù)據(jù)進(jìn)行預(yù)處理。在訓(xùn)練樣本中確定不等長數(shù)據(jù)的最大可保留長度,利用k近鄰信息,通過加權(quán)重構(gòu)出不等長批次缺失的數(shù)據(jù)點(diǎn)。其次,對等長的訓(xùn)練集構(gòu)造局部近鄰標(biāo)準(zhǔn)化矩陣,運(yùn)用K-means算法進(jìn)行模態(tài)聚類,使用局部離群因子方法確定第一控制限,并剔除離群樣本。最后,對各個(gè)模態(tài)建立MPCA模型并確定第二控制限。根據(jù)各個(gè)模態(tài)控制限的匹配系數(shù)計(jì)算統(tǒng)一的統(tǒng)計(jì)量和控制限,在統(tǒng)一的控制限下進(jìn)行多模態(tài)故障檢測。將提出方法應(yīng)用于半導(dǎo)體工業(yè)過程,仿真結(jié)果表明,與傳統(tǒng)的故障檢測算法相比,本文算法提高了故障檢測率,驗(yàn)證了該方法的有效性。
關(guān)鍵詞:多模態(tài)過程;故障檢測;不等長數(shù)據(jù);主元分析;算法;模型;局部離群因子;局部近鄰標(biāo)準(zhǔn)化矩陣
在制藥、化學(xué)、食物和半導(dǎo)體工業(yè)中,需要不斷提高系統(tǒng)的自動(dòng)化程度來滿足生產(chǎn)操作的平穩(wěn)、安全等要求,與此同時(shí)也使工業(yè)過程的復(fù)雜性越來越高,系統(tǒng)的安全性面臨嚴(yán)峻的挑戰(zhàn)。如何對生產(chǎn)過程進(jìn)行實(shí)時(shí)監(jiān)控,及時(shí)發(fā)現(xiàn)故障成為近年來過程控制領(lǐng)域中的一個(gè)研究熱點(diǎn)[1]。在過程控制領(lǐng)域中,以大量歷史數(shù)據(jù)為基礎(chǔ)的多元統(tǒng)計(jì)過程監(jiān)控方法受到了廣泛的關(guān)注,形成了一批研究成果[2-3]。多向主元分析[4](multiway principal component analysis, MPCA)和多向核主元分析[5](multiway kernel principal component analysis, MKPCA)方法能夠進(jìn)行間歇過程的檢測和診斷。但是對于多工況、多模態(tài)間歇過程的檢測效果往往不理想。
近年來,許多學(xué)者通過不同角度分析多模態(tài)工業(yè)過程,并提出了多種故障診斷方法[6-7]。為了解決具有非高斯、非線性的多模態(tài)間歇過程故障檢測問題,He等[8]提出了基于 k近鄰(k-nearest neighbor, kNN)的故障檢測算法。為了建立單個(gè)模型來實(shí)現(xiàn)多模態(tài)過程的監(jiān)控目的,華東理工大學(xué)的馬賀賀等[9]提出一種基于馬氏距離局部離群因子(local outlier factor,LOF)的方法進(jìn)行故障檢測。劉幫莉等[10]提出一種基于局部密度估計(jì)的多模態(tài)過程監(jiān)控策略。針對間歇過程的多工況和非線性特征,郭小萍等[11]提出一種基于近鄰特征標(biāo)準(zhǔn)化(nearest neighborhood feature standardization, NNFS)樣本的核特征量故障檢測方法,采用近鄰方法標(biāo)準(zhǔn)化樣本,并基于核方法建立故障檢測模型。Deng等[12]提出一種基于局部近鄰相似度分析的多模態(tài)故障檢測方法,將該方法應(yīng)用到連續(xù)過程的故障檢測中。郭金玉等[13]在此基礎(chǔ)上,提出了一種基于在線升級(jí)主樣本建模的批次過程 kNN故障檢測方法。然而這些多模態(tài)故障診斷方法用于間歇過程時(shí),需要假設(shè)間歇生產(chǎn)過程數(shù)據(jù)是等長的,且數(shù)據(jù)沒有污染。
由于間歇過程的生產(chǎn)特點(diǎn),不同批次的生產(chǎn)周期不同,不可避免地會(huì)出現(xiàn)不等長批次問題。解決間歇過程批次不等長問題,通常采用最短長度法[14]。另一種方法是基于統(tǒng)計(jì)特征的分塊法[15],該方法把不等長的間歇過程分成相同數(shù)目的子塊,計(jì)算每個(gè)子塊的均值和方差,將這些統(tǒng)計(jì)特征組合成一個(gè)等長的特征向量,運(yùn)用主元分析(principal component analysis, PCA)進(jìn)行過程監(jiān)視?,F(xiàn)場過程數(shù)據(jù)中不可避免地包含不同程度的誤差、測量噪聲和系統(tǒng)噪聲等,這些問題會(huì)給數(shù)據(jù)帶來一定的污染,使得多模態(tài)生產(chǎn)過程數(shù)據(jù)產(chǎn)生局部的離群點(diǎn)[16]。這種離群點(diǎn)會(huì)使主元方向發(fā)生偏移, 在進(jìn)行故障檢測前,如果不對這類數(shù)據(jù)進(jìn)行分析和預(yù)處理,就會(huì)影響最終故障診斷的準(zhǔn)確性。針對間歇生產(chǎn)過程中的批次不等長和復(fù)雜多模態(tài)過程的故障檢測問題,本文提出一種不等長的多模態(tài)間歇過程故障檢測算法。運(yùn)用局部加權(quán)算法(local weighted algorithm, LWA)進(jìn)行不等長的預(yù)處理。在此基礎(chǔ)上,運(yùn)用局部近鄰標(biāo)準(zhǔn)化矩陣(local neighbor normalized matrix, LNNM) 進(jìn)行多模態(tài)間歇過程故障檢測。該方法可以避免信息的丟失影響多模態(tài)過程的聚類效果[17],同時(shí)剔除離群點(diǎn),通過構(gòu)造局部近鄰標(biāo)準(zhǔn)化矩陣使得多模態(tài)間歇過程故障診斷結(jié)果更加準(zhǔn)確。
在實(shí)際的間歇過程中,由于生產(chǎn)要求不同等情況會(huì)產(chǎn)生不等長的數(shù)據(jù),不等長批次數(shù)據(jù)的三維描述如圖1所示。為了解決間歇過程批次數(shù)據(jù)的不等長問題,本文提出了基于局部加權(quán)算法的預(yù)處理算法。該方法是一種有效的數(shù)據(jù)恢復(fù)算法,其充分利用局部的信息,根據(jù)一定的規(guī)則選擇相應(yīng)的近鄰,求出近鄰對應(yīng)的權(quán)值,由近鄰和權(quán)值重構(gòu)出缺失的數(shù)據(jù)點(diǎn)。
圖1 不等長批次數(shù)據(jù)的三維描述Fig.1 Three-dimensional description of uneven-length batch data
假設(shè)在每個(gè)批次(i=1, 2, …, I) 時(shí)間持續(xù)不定的操作循環(huán)中,K(K = K1, K2, …, KI)為每個(gè)批次的時(shí)間長度,每一時(shí)刻檢測J 個(gè)變量,形成了不規(guī)則的三維數(shù)據(jù)集合X,即
其中,第i個(gè)批次矩陣表示為 Xi(Ki×J),Xi∈RKi×J。分別把每個(gè)批次矩陣按照時(shí)刻的方向展開成批次向量形式,所有批次向量的集合為B,即
其中,Bi∈R1×Ci,Ci=Ki×J,i=1, 2, …, I。
由于每個(gè)批次Xi有不同的時(shí)間長度Ki,三維數(shù)據(jù)集合X展開后的軌跡長度Ci是不相同的。所有批次長度按照從大到小的順序排列成向量L,二維數(shù)據(jù)矩陣B按照向量 L的順序進(jìn)行重新排列,記為B*。
其中,l1≥l2≥…≥li≥…≥lI。
為了有效地利用較長批次的信息,需要將 B*分為完備矩陣F和不完備矩陣M,并確定矩陣的維數(shù)D。一般選取最長批次的長度作為矩陣的維數(shù)D,即D=l1。在極端的情況下,當(dāng)滿足該條件下的批次樣本數(shù)小于近鄰數(shù)k時(shí),需要相應(yīng)地減少D的大小,選擇次長度作為矩陣的維數(shù)D,即D=l2,直到滿足該條件的批次樣本足夠多。本文假設(shè)取D=li,所有長度大于D的批次按照D的維數(shù)進(jìn)行保留,并歸為集合F,而所有維數(shù)小于D的批次對缺失的數(shù)據(jù)點(diǎn)進(jìn)行定位,將這些位置標(biāo)記為 NaN。將存在 NaN標(biāo)記的批次向量歸為不完備矩陣M,這樣保證了矩陣F和M的維數(shù)都相等。假設(shè)F中的樣本數(shù)大小為If,M中的樣本數(shù)大小為Im,則
在不完備樣本矩陣M中,按照完整性的大小對樣本進(jìn)行排序。這里的完整性是指缺失率的大小。缺失率越大,完整性越小。先對完整性最大的樣本M1的缺失數(shù)據(jù)點(diǎn)進(jìn)行恢復(fù)。假設(shè)M1樣本中的數(shù)據(jù)點(diǎn)為lm個(gè),則缺失數(shù)據(jù)點(diǎn)的個(gè)數(shù)為D-lm。為了實(shí)現(xiàn)選取k個(gè)近鄰,M1中的lm個(gè)數(shù)據(jù)點(diǎn)組成向量M1,s。根據(jù)kNN規(guī)則,在F中尋找M1,s的k個(gè)近鄰,將該向量集合記為矩陣M1,k,其中每個(gè)向量的維數(shù)均為lm。按照局部線性重構(gòu)的原理,M1,s可以用k個(gè)近鄰的重構(gòu)近似來表示。M1,s的重構(gòu)表示為
其中,w1,w2,…, wk為樣本M1,s的k個(gè)近鄰重構(gòu)權(quán)值,由它們所組成的向量為W,其中
為了使式(5)中重構(gòu)后的 M1,s盡可能無偏,需要找到一個(gè)最優(yōu)的 wj使得誤差平方和ε(wj)最小。
確定最優(yōu)的wj為
其中,Zj=[M1,1-M1,s, M1,2-M1,s,…,M1,k-M1,s]T,ek,j=[1, 1,…,1k,j]T[18]。
找到權(quán)值wj就可以對M1的缺失數(shù)據(jù)點(diǎn)M1,s進(jìn)行重構(gòu)。在F中近鄰矩陣M1,k所在的列向量組成新的近鄰矩陣 M1,d,其維數(shù)為 D。具有缺失數(shù)據(jù)的M1的加權(quán)重構(gòu)表示為
圖1 基于局部加權(quán)算法的預(yù)處理流程Fig.1 Flow chart of preprocessing based on local weighted algorithm
2.1 局部近鄰標(biāo)準(zhǔn)化矩陣(LNNM)
假設(shè) u是U中的一個(gè)樣本點(diǎn),為了消除不同變量之間量綱的影響,對各個(gè)樣本進(jìn)行標(biāo)準(zhǔn)化。樣本的標(biāo)準(zhǔn)化為
其中,us為標(biāo)準(zhǔn)化后的數(shù)據(jù)點(diǎn);um為該數(shù)據(jù)點(diǎn)所在變量的均值;ustd為該數(shù)據(jù)點(diǎn)所在變量的方差。
經(jīng)過標(biāo)準(zhǔn)化后的所有批次樣本矩陣為Us,其中每個(gè)樣本有I個(gè)近鄰。對Us中的樣本計(jì)算所有近鄰到該樣本的歐氏距離,并對該距離由小到大進(jìn)行排序。該近鄰的距離矩陣Dk為從矩陣Dk可以看出每個(gè)樣本都有I個(gè)近鄰,其中每個(gè)樣本的最近鄰是其本身,對應(yīng)的近鄰距離為零,即di1=0, i=1, 2,…,I。
Dk是每個(gè)樣本到其近鄰的距離矩陣,包含樣本之間的距離信息,具有唯一性和獨(dú)立性。為了充分挖掘距離矩陣Dk與樣本U的關(guān)系,并消除無關(guān)近鄰的影響,本文在Dk基礎(chǔ)上構(gòu)造局部標(biāo)準(zhǔn)化距離矩陣Ds。Ds中的每個(gè)元素ds(ui, ut) 為
經(jīng)過式(12)計(jì)算后,所有樣本之間的距離會(huì)重新定義,所有樣本的近鄰也會(huì)發(fā)生相應(yīng)的變化。每個(gè)樣本到各個(gè)近鄰的距離由小到大進(jìn)行排序,該近鄰矩陣表示為Dks,即
將建模的批次樣本矩陣變換成局部近鄰標(biāo)準(zhǔn)化矩陣,使樣本特征更加明顯。與此同時(shí),原始樣本的維數(shù)降低為 I。由此可見,這種變換也起到了降低維數(shù)的作用。
2.2 模態(tài)的聚類與離群點(diǎn)的剔除
K-means 算法是一種廣泛應(yīng)用的聚類算法。本文運(yùn)用K-means聚類算法對Dks進(jìn)行模態(tài)聚類。假設(shè)有e個(gè)模態(tài),各模態(tài)的中心作為模態(tài)標(biāo)簽(r1, r2,…, re)。為了消除樣本噪聲的影響,需要剔除每類中相似度較低的樣本,本文使用LOF方法確定第一道控制限,剔除各模態(tài)的離群樣本。LOF方法詳見文獻(xiàn)[9]。
2.3 多模態(tài)MPCA模型的建立
假設(shè)Xr=Dks,r∈Rnr×I是Dks經(jīng)過K-means 聚類后的某一模態(tài)矩陣,其中r 為該模態(tài)的標(biāo)簽,nr為該模態(tài)樣本的個(gè)數(shù),I為樣本的維數(shù)。對Xr進(jìn)行主成分分解為
其中,P∈RI×A是最大 A個(gè)特征值對應(yīng)的負(fù)載矩陣,T∈Rnr×A是得分矩陣,E∈Rnr×I是殘差向量。在進(jìn)行故障檢測時(shí),通常用平方預(yù)測誤差(squared prediction error, SPE)(也稱Q統(tǒng)計(jì)量)和Hotelling’s T2來檢測過程是否發(fā)生異常。
SPE指標(biāo)衡量樣本向量在殘差空間投影的變化。模態(tài)r的SPE統(tǒng)計(jì)量為
其中,SPEr,α表示置信水平為α的控制限,定義為
模態(tài)r的Hotelling’s T2統(tǒng)計(jì)量衡量變量在主元空間中的變化,計(jì)算公式為
其中,Λ=diag{λ1,…, λA},表示置信度為α的控制限,定義為
其中,F(xiàn)A,I-A;α是帶有A和I-A個(gè)自由度、置信水平為α的F分布臨界值。
計(jì)算出單個(gè)模態(tài)計(jì)量的控制限后,為了使多模態(tài)數(shù)據(jù)進(jìn)行統(tǒng)一檢測,本文選取公倍數(shù)的方法確定每個(gè)模態(tài)的控制限匹配系數(shù),從而達(dá)到統(tǒng)一控制限的目的。多模態(tài)SPE統(tǒng)計(jì)量統(tǒng)一的控制限如下
其中,e為模態(tài)的總數(shù),第r個(gè)模態(tài)SPE的匹配系數(shù)為
多模態(tài)T2統(tǒng)計(jì)量統(tǒng)一的控制限如下
第r個(gè)模態(tài)T2的匹配系數(shù)為
對測試樣本運(yùn)用K-means進(jìn)行模態(tài)聚類,計(jì)算所屬模態(tài)r下的統(tǒng)計(jì)量SPEr和T2r,分別乘以匹配系數(shù)SPEmc,r和T2mc,r,計(jì)算出統(tǒng)一的統(tǒng)計(jì)量,達(dá)到在統(tǒng)一的控制限下進(jìn)行多模態(tài)過程檢測的目的。
3.1 半導(dǎo)體生產(chǎn)過程數(shù)據(jù)
本文應(yīng)用半導(dǎo)體工業(yè)實(shí)例——A1堆腐蝕過程的數(shù)據(jù)比較不同故障診斷方法的性能。半導(dǎo)體生產(chǎn)過程是個(gè)典型的非線性、時(shí)變、多階段和多工況的復(fù)雜多模態(tài)間歇過程。從40個(gè)測量變量中選取 17個(gè)變量作為檢測變量,參見文獻(xiàn)[21]。半導(dǎo)體工業(yè)數(shù)據(jù)由3個(gè)模態(tài)的107個(gè)正常批次和20個(gè)故障批次構(gòu)成,其中1~34批次為第1模態(tài),35~70批次為第2模態(tài),71~107批次為第3模態(tài)。每個(gè)模態(tài)分別選取32個(gè)批次用于建模,剩下的正常批次作為校驗(yàn)批次用來驗(yàn)證模型的準(zhǔn)確性,因此建模批次為96個(gè),正常校驗(yàn)批次為11個(gè),故障批次為20個(gè)。
3.2 基于局部加權(quán)算法的缺失數(shù)據(jù)恢復(fù)
為了驗(yàn)證本文方法在處理不等長問題上數(shù)據(jù)恢復(fù)的準(zhǔn)確性,將該算法與兩種常用的數(shù)據(jù)恢復(fù)方法進(jìn)行比較。常見的兩種數(shù)據(jù)恢復(fù)的方法為均值法(mean algorithm, MA)[22]和 EM-PCA[23](expectation maximization-principal component analysis)方法。首先對某個(gè)建模批次按最短的長度進(jìn)行截取。截取后的數(shù)據(jù)為 Xu,然后構(gòu)造一定缺失率下的不等長數(shù)據(jù),并記錄各個(gè)缺失點(diǎn)的真實(shí)值,使用相對誤差和總體平均相對誤差來衡量3種算法的恢復(fù)效果。各缺失數(shù)據(jù)點(diǎn)的相對誤差為
總體平均相對誤差為
其中,ma為缺失數(shù)據(jù)個(gè)數(shù),xu表示恢復(fù)后的數(shù)據(jù)點(diǎn),x*表示原始數(shù)據(jù)點(diǎn)。
在半導(dǎo)體數(shù)據(jù)中任選1個(gè)批次,隨機(jī)產(chǎn)生20‰的缺失數(shù)據(jù)點(diǎn),分別運(yùn)用MA法、EM-PCA算法和LWA算法對缺失的數(shù)據(jù)點(diǎn)進(jìn)行恢復(fù),并將3種方法的恢復(fù)結(jié)果進(jìn)行對比分析。在LWA算法中,k的選擇必須要小于F中樣本的大小,且k的值不能太小。如果太小,重構(gòu)的信息就不充分。在恢復(fù)缺失數(shù)據(jù)時(shí),k選擇為8。3種恢復(fù)方法的相對誤差如圖3所示。由圖3可以看出,在不同的缺失數(shù)據(jù)點(diǎn),本文方法的相對誤差都小于平均值法和EM-PCA算法。由此可見,本文提出的局部加權(quán)算法對缺失數(shù)據(jù)進(jìn)行恢復(fù),誤差最小,準(zhǔn)確性最高。
圖3 3種方法在缺失點(diǎn)的相對誤差Fig.3 Relative errors of three methods for missing points
圖4 不同缺失率下3種方法的平均相對誤差Fig.4 Average relative errors of three methods at different missing rates
為了驗(yàn)證本文方法在不同缺失率下數(shù)據(jù)恢復(fù)的有效性,缺失率分別設(shè)置為 5‰、10‰、15‰、20‰、25‰ 和 30‰,3種方法的平均相對誤差如圖4所示。由圖4可以看出,在不同的缺失率下,LWA方法的平均相對誤差最小,恢復(fù)效果最好。
本文將 96個(gè)不等長的建模批次按照局部加權(quán)重構(gòu)的方法恢復(fù)成等長數(shù)據(jù)后,批次的統(tǒng)一長度D為1700,而按照截取最短長度的方法只能保留1479維變量,丟棄了很多信息,使用本文的方法處理間歇過程中的不等長問題將充分挖掘原始數(shù)據(jù)的信息。
3.3 基于局部近鄰標(biāo)準(zhǔn)化矩陣的模態(tài)聚類
計(jì)算等長批次數(shù)據(jù)的近鄰距離矩陣Dk。圖5是每個(gè)樣本到其各個(gè)近鄰距離的三維描述。從圖5中可以看出樣本近鄰的距離矩陣沒有模態(tài)特征,無法進(jìn)行模態(tài)的準(zhǔn)確聚類。
通過將數(shù)據(jù)進(jìn)行局部標(biāo)準(zhǔn)化后,把各個(gè)近鄰距離二次轉(zhuǎn)換成局部近鄰標(biāo)準(zhǔn)化矩陣。在計(jì)算局部近鄰標(biāo)準(zhǔn)化矩陣時(shí),k的選取主要考慮兩個(gè)方面:一方面,k的選擇不能過大,k需要小于單模態(tài)數(shù),即k<32;另一方面,k的選擇不能過小,如果k過小,局部近鄰標(biāo)準(zhǔn)化距離矩陣的模態(tài)特征不明顯。k的值在 20~30之間比較合適,本文中k=28。圖6是局部近鄰標(biāo)準(zhǔn)化矩陣中各個(gè)近鄰距離的三維描述。從圖6中可以看出原始的樣本變換成局部近鄰標(biāo)準(zhǔn)化矩陣后,突顯各個(gè)模態(tài)間和模態(tài)內(nèi)的特征,明顯地呈現(xiàn)出3個(gè)模態(tài),易于樣本的模態(tài)聚類。
圖5 樣本的各個(gè)近鄰距離Fig.5 Distances of neighbor samples
圖6 局部近鄰標(biāo)準(zhǔn)化矩陣的近鄰距離Fig.6 Distances of each neighbor in local neighbor normalized matrix
使用K-means方法分別對近鄰矩陣和局部近鄰標(biāo)準(zhǔn)化矩陣進(jìn)行樣本的分類,如圖7和圖8所示。從圖7可以看出,歐氏距離矩陣不能有效地分開前兩個(gè)模態(tài),而圖8中運(yùn)用局部近鄰標(biāo)準(zhǔn)化矩陣能夠?qū)Ω鱾€(gè)模態(tài)進(jìn)行準(zhǔn)確地聚類。
圖7 近鄰矩陣的K-means 聚類結(jié)果Fig.7 Clustering results of neighbor matrix using K-means
圖8 局部近鄰標(biāo)準(zhǔn)化矩陣的K-means聚類結(jié)果Fig.8 Clustering results of local neighbor normalized matrix using K-means
當(dāng)新的批次到來時(shí),首先運(yùn)用LWA處理成等長的批次,在建模樣本矩陣U中找到它的各個(gè)近鄰,計(jì)算出該樣本的局部近鄰標(biāo)準(zhǔn)化矩陣。對該矩陣使用K-means方法進(jìn)行模態(tài)的聚類,由各訓(xùn)練樣本的模態(tài)標(biāo)簽確定待測批次所屬的模態(tài),然后,在其所屬的模態(tài)下進(jìn)行故障檢測。將該過程稱為自適應(yīng)模態(tài)聚類的故障檢測。基于LNNM的多模態(tài)過程故障檢測結(jié)果如圖9所示。由圖9可以看出,本文方法只有1個(gè)校驗(yàn)批次超出控制限,但是各模態(tài)故障批次數(shù)據(jù)全部都能檢測出來,沒有漏檢批次。
表1 在不同的數(shù)據(jù)恢復(fù)長度下LNNM方法的故障檢測結(jié)果Table 1 Comparisons of fault detection results for LNNM with different data restoration lengths
為了驗(yàn)證缺失數(shù)據(jù)對故障檢測的影響,選擇不同的數(shù)據(jù)恢復(fù)長度,LNNM方法的故障檢測結(jié)果如表1所示。由表1可以看出,當(dāng)批次數(shù)據(jù)的恢復(fù)長度大于1632時(shí),故障檢測結(jié)果最佳,并保持穩(wěn)定。
3.4 與其他算法的性能對比
3.4.1 與不等長間歇過程故障檢測方法的性能對比
為了說明本文方法的有效性,將本文方法與其他幾種處理不等長間歇過程的故障檢測方法進(jìn)行對比。運(yùn)用最短長度法把不等長的批次截成等長的批次,然后運(yùn)用MPCA、MKPCA和NNFS進(jìn)行故障檢測。各方法的主元個(gè)數(shù)通過累計(jì)貢獻(xiàn)率確定。當(dāng)貢獻(xiàn)率大于 85%時(shí),MPCA的主元個(gè)數(shù)為 2。MKPCA和 NNFS的核函數(shù)選用徑向基函數(shù)。MKPCA的主元個(gè)數(shù)為62,核窗寬C=4200。NNFS的主元個(gè)數(shù)為8,近鄰數(shù)k為35。運(yùn)用文獻(xiàn)[15]中基于多塊統(tǒng)計(jì)特征(multiblock statistics, MBS)的不等長間歇過程故障檢測方法進(jìn)行檢測。各方法的檢測結(jié)果如表2所示。由表2可以看出,4種方法的故障批次沒有全部檢測出來,都存在漏報(bào)。
圖9 基于LNNM的多模態(tài)過程故障檢測結(jié)果Fig.9 Fault detection results of multimode process based on LNNM
表3 各方法對20種故障的檢測結(jié)果對比Table 2 Comparisons of detection results for 20 faults with different methods
3.4.2 與多模態(tài)過程故障檢測方法的性能對比 運(yùn)用最短長度法把不等長批次截成等長的批次,然后運(yùn)用基于 kNN、LOF的多模態(tài)故障檢測方法進(jìn)行檢測。kNN中,近鄰數(shù)k=3。各方法的檢測結(jié)果如表2所示。與上述不等長間歇過程的故障檢測方法相比,多模態(tài)算法的檢測性能有所提高。但是兩種方法仍存在漏報(bào)。
各種方法對11個(gè)校驗(yàn)批次的檢測結(jié)果對比如表3所示。由表2和表3可以看出,對于具有 3個(gè)模態(tài)的半導(dǎo)體間歇過程數(shù)據(jù),MKPCA算法的檢測效果最不理想,原因是該算法受核窗寬參數(shù)的影響很大,目前沒有一種有效的方法確定核窗寬的取值。MPCA處理半導(dǎo)體數(shù)據(jù)時(shí),由于數(shù)據(jù)的非線性和多工況等特性的影響,容易產(chǎn)生誤報(bào)。MBS方法的性能受分塊大小的影響?;跉W氏距離的 kNN 和 LOF 算法能檢測出 17個(gè)故障批次,但是對于與邊緣建模樣本距離很近的故障數(shù)據(jù)的檢測效果不佳。與上述算法相比,本文方法的故障檢測效果最好。原因如下。
(1)在處理不等長批次問題上,本文方法能有效地保留不等長數(shù)據(jù)的信息,避免建模數(shù)據(jù)信息的缺失和不完善。
(2)只要選取的近鄰數(shù)k小于單模態(tài)的樣本數(shù),本文方法就能建立局部近鄰標(biāo)準(zhǔn)化矩陣模型。該模型突顯各個(gè)模態(tài)的輪廓特征,能準(zhǔn)確捕捉模態(tài)之間和模態(tài)內(nèi)的非線性位置關(guān)系,降低誤報(bào)和漏報(bào)。
(3)通過剔除離群樣本點(diǎn),減少邊緣建模數(shù)據(jù)的偏離程度,提高SPE和T2控制限的準(zhǔn)確度。其他方法無法檢測出來的微小故障3、5和6,該方法也能成功檢測出來,提高故障檢測率。
表3 各方法對校驗(yàn)批次的檢測結(jié)果對比Table 3 Comparisons of detection results for validation batch with different methods
本文提出一種不等長的多模態(tài)間歇過程故障檢測方法。該算法首先利用局部加權(quán)方法處理不等長的間歇過程數(shù)據(jù),在此基礎(chǔ)上由樣本數(shù)據(jù)構(gòu)造局部近鄰標(biāo)準(zhǔn)化矩陣,放大了各個(gè)模態(tài)的特征,與此同時(shí),也起到了降低維數(shù)的作用。通過對該矩陣的聚類和離群點(diǎn)的剔除,實(shí)現(xiàn)了自適應(yīng)跟隨模態(tài)分離,并確定統(tǒng)一的模型控制限。 將本文的方法應(yīng)用到實(shí)際的半導(dǎo)體工業(yè)數(shù)據(jù)中,仿真結(jié)果表明,與傳統(tǒng)的故障檢測算法相比,本文算法的故障檢測率最高,驗(yàn)證了該方法的有效性。
符 號(hào) 說 明
A, B,C, D ——分別為主元個(gè)數(shù)、批次展開矩陣、批次長度集合和恢復(fù)數(shù)據(jù)的長度。
E, e, eu,lm——分別為殘差向量、模態(tài)總數(shù)、缺失數(shù)據(jù)點(diǎn)的相對誤差和數(shù)據(jù)點(diǎn)的個(gè)數(shù)
F,I,J,K,k ——分別為完備數(shù)據(jù)集、批次總數(shù)、變量個(gè)數(shù)、采樣時(shí)間向量和近鄰個(gè)數(shù)
L, M, N, P ——分別為批次長度集合、不完備矩陣、樣本近鄰編號(hào)矩陣和負(fù)載矩陣
U, M1,——分別為標(biāo)準(zhǔn)化近鄰矩陣、維數(shù)分別為lm和D的樣本
v, W, X, Z——分別為變量、權(quán)值矩陣、多模態(tài)樣本、樣本與近鄰樣本的差值矩陣。
α, λ , Σ——分別為置信水平、特征值和協(xié)方差矩陣
上、下角標(biāo)
i,j——批次序號(hào),變量序號(hào)
r——模態(tài)編號(hào)
If,Im——完備數(shù)據(jù)集,不完備數(shù)據(jù)集
References
[1] 周東華, 李鋼, 李元. 數(shù)據(jù)驅(qū)動(dòng)的工業(yè)過程故障診斷技術(shù)[M]. 北京: 科學(xué)出版社, 2011: 1-14.
ZHOU D H, LI G, LI Y. Industrial Process Fault Diagnosis of Data-driven [M]. Beijing: Science Press, 2011: 1-14.
[2] GE Z Q, SONG Z H, GAO F R. Review of recent research on data-based process monitoring [J]. Industrial & Engineering Chemistry Research, 2013, 52(10): 3543-3562.
[3] 郭金玉, 齊蕾蕾, 李元. 基于DMOLPP的間歇過程在線故障檢測[J]. 儀器儀表學(xué)報(bào), 2015, 36(1): 28-36.
GUO J Y, QI L L, LI Y. On-line fault detection of batch process based on DMOLPP [J]. Chinese Journal of Scientific Instrument, 2015, 36(1): 28-36.
[4] NOMIKOS P, MACGREGOR J F. Monitoring batch processes using multiway principal component analysis [J]. AIChE J., 1994, 40(8): 1361-1375.
[5] JIA M X, XU H Y, LIU X F, et al. The optimization of the kind and parameters of kernel function in KPCA for process monitoring [J]. Computers & Chemical Engineering, 2012, 46(15): 94-104.
[6] ZHAO S J, ZHANG J, XU Y M. Performance monitoring of process with multiple operation modes through multiple PLS models [J]. Journal of Process Control, 2006, 16(7): 763-772.
[7] YU J. A nonlinear kernel Gaussian mixture model based inferential monitoring approach for fault detection and diagnosis of chemical processes [J]. Chemical Engineering Science, 2012, 68(1): 506-519.
[8] HE Q P, WANG J. Fault detection using the k-nearest neighbor rule for semiconductor manufacturing processes [J]. IEEE Transactions on Semiconductor Manufacturing, 2007, 20(4): 345-354.
[9] 馬賀賀, 胡益, 侍洪波. 基于馬氏距離局部離群因子方法的復(fù)雜化工過程故障檢測 [J]. 化工學(xué)報(bào), 2013, 64(5): 1674-1682.
MA H H, HU Y, SHI H B. Fault detection of complex chemical processes using Mahalanobis distance-based local outlier factor [J]. CIESC Journal, 2013, 64(5): 1674-1682.
[10] 劉幫莉, 馬玉鑫, 侍洪波. 基于局部密度估計(jì)的多模態(tài)過程故障檢測 [J]. 化工學(xué)報(bào), 2013, 65(8): 3071-3081.
LIU B L, MA Y X, SHI H B. Multimode process monitoring based on local density estimation [J]. CIESC Journal, 2014, 65(8): 3071-3081.
[11] 郭小萍, 姜芹芹, 李元. 近鄰標(biāo)準(zhǔn)化樣本核特征量驅(qū)動(dòng)的間歇過程故障檢測 [J]. 計(jì)算機(jī)與應(yīng)用化學(xué), 2014, 31(10): 1157-1161.
GUO X P, JIANG Q Q, LI Y. Fault detection based on kernel feature statistics of samples standardized with nearest neighborhood for batch process [J]. Computers and Applied Chemistry, 2014, 31(10): 1157-1161.
[12] DENG X G, TIAN X M. Multimode process fault detection using local neighborhood similarity analysis [J]. Chinese Journal ofChemical Engineering, 2014, 22(11): 1260-1267.
[13] 郭金玉, 陳海彬, 李元. 基于在線升級(jí)主樣本建模的批次過程kNN故障檢測方法 [J]. 信息與控制, 2014, 43(4): 495-500.
GUO J Y, CHEN H B, LI Y. kNN fault detection method for batch process based on principal sample modeling upgraded online [J]. Information and Control, 2014, 43(4): 495-500.
[14] 郭金玉,趙璐璐,李元. 基于統(tǒng)計(jì)特征的不等長間歇過程故障診斷研究 [J]. 計(jì)算機(jī)應(yīng)用研究, 2014, 31(1): 128-130.
GUO J Y, ZHAO L L, LI Y. Fault diagnosis for uneven-length batch processes based on statistic features [J]. Application Research of Computers, 2014, 31(1): 128-130.
[15] GUO J Y, CHEN H B, LI Y. MPCA fault detection method based on multiblock statistics for uneven-length batch processes [J]. Journal of Computational Information Systems, 2013, 9(18): 7181-7190.
[16] SONG B, SHI H B, MA Y X, et al. Multisubspace principal component analysis with local outlier factor for multimode process monitoring [J]. Industrial & Engineering Chemistry Research, 2014, 53(42): 16453-16464.
[17] WANG F, TAN S, PENG J, et al. Process monitoring based on mode identification for multi-mode process with transitions [J]. Chemometrics and Intelligent Laboratory Systems, 2012, 110(1): 144-155.
[18] XIANG S M, NIE F P, PAN C H, et al. Regression reformulations of LLE and LTSA with locally linear transformation [J]. IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics, 2011, 41(5): 1250 -1262.
[19] GUO J Y, YUAN T M, LI Y. Imputation of missing data based on locally weighted algorithm [J]. Journal of Computational Information Systems, 2015, 11(4): 1195-1204.
[20] MA H H, HU Y, SHI H B. Fault detection and identification based on the neighborhood standardized local outlier factor method [J]. Industrial & Engineering Chemistry Research, 2013, 52(6): 2389-2402.
[21] LI Y, ZHANG X M. Diffusion maps based k-nearest-neighbor rule technique for semiconductor manufacturing process fault detection [J]. Chemometrics and Intelligent Laboratory Systems, 2014, 136(15): 47-57.
[22] MUTEKI K, MACGREGOR J F, UEDA T. Estimation of missing data using latent variable methods with auxiliary information [J]. Chemometrics and Intelligent Laboratory Systems, 2005, 78(1): 41-50.
[23] 孫懷宇, 劉芳, 李元. EM-PCA在化工過程隨機(jī)缺失數(shù)據(jù)補(bǔ)值中的應(yīng)用研究 [J].計(jì)算機(jī)與應(yīng)用化學(xué), 2013, 30 (7): 735-738.
SUN H Y, LIU F, LI Y. Imputation of random missing data in chemical engineering process with EM-PCA [J]. Computers and Applied Chemistry, 2013, 30 (7): 735-738.
2015-07-20收到初稿,2015-11-22收到修改稿。
聯(lián)系人:李元。第一作者:郭金玉 (1975-),女,博士研究生,副教授。
Received date: 2015-07-20.
DOI:10.11949/j.issn.0438-1157. 20151157 10.11949/j.issn.0438-1157.20151157
中圖分類號(hào):TP 277
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):0438—1157(2016)07—2916—09
基金項(xiàng)目:國家自然科學(xué)基金重大項(xiàng)目(61490701);國家自然科學(xué)基金項(xiàng)目(61174119);遼寧省教育廳項(xiàng)目(L2013155, L2015432);遼寧省教育廳重點(diǎn)實(shí)驗(yàn)室項(xiàng)目(LZ2015059)。
Corresponding author:LI Yuan, li-yuan@mail.tsinghua.edu.cn supported by the Key Project of National Natural Science Foundation of China (61490701), the National Natural Science Foundation of China (61174119), the Education Department Research Project of Liaoning Province (L2013155, L2015432 ) and the Key Laboratory Project of Education Department of Liaoning Province (LZ2015059).
Fault detection method for uneven-length multimode batch processes
GUO Jinyu, YUAN Tangming, LI Yuan
(College of Information Engineering, Shenyang University of Chemical Technology, Shenyang 110142, Liaoning, China)
Abstract:A fault detection algorithm for uneven-length multimode batch processes is proposed. First, the local weighted algorithm is used to preprocess the uneven-length batch data. In the training sample, the maximum retention length of uneven-length data is determined. Using the k-nearest neighbor information, the missing data points are reconstructed by weighting reconstruction. Secondly, the local neighbor normalized matrix is estimated for the training set of equal length. The K-means algorithm is used to classify the models. The local outlier factor method is used to determine the first control limits and remove outliers. Finally, the MPCA model is established and the second control limits are determined for each model. The unified statistics and control limits are calculated according to the matching coefficients of the control limit of the various models. The multimode fault detection is carried out under the unified control limits. The algorithm is applied to the semiconductor industrial process. Simulation results show that the proposed algorithm improves the fault detection rate relative to the traditional fault detection algorithms. The effectiveness of the proposed method is verified.
Key words:multimode process; fault detection; uneven-length data; principal component analysis; algorithm; model; local outlier factor; local neighbor normalized matrix