朱振杰, 杜付鑫, 楊旺功
(1. 山東大學 a. 高效潔凈機械制造教育部重點實驗室,b. 機械工程國家級實驗教學示范中心,c. 機械工程學院,山東 濟南 250061; 2. 北京林業(yè)大學 信息學院,北京 100083)
工業(yè)4.0概念的提出代表著智能化時代的來臨。為了適應(yīng)世界制造產(chǎn)業(yè)的發(fā)展新需求,我國需要利用各種信息化技術(shù)手段促進工業(yè)制造產(chǎn)業(yè)的新變革[1]; 但是,隨著各種設(shè)備不斷增多并趨于更加智能化,現(xiàn)代工業(yè)系統(tǒng)變得越來越復雜,在整個系統(tǒng)運行過程中發(fā)生各種各樣故障的概率也越來越大,在某些情況下可能引起系統(tǒng)的整體癱瘓[2],因此,必須對工業(yè)系統(tǒng)進行實時、準確的監(jiān)測,從而保證系統(tǒng)安全穩(wěn)定運行[3-4]。
工業(yè)系統(tǒng)的監(jiān)測任務(wù)需要對出現(xiàn)故障進行及時檢測與識別,但是,現(xiàn)代工業(yè)系統(tǒng)十分復雜,故障的檢測與識別面臨巨大的挑戰(zhàn)。傳統(tǒng)的監(jiān)測方法存在故障檢測精度不高、處理速度慢的問題。此外,大部分監(jiān)測方法僅進行故障檢測,對故障的類型無法做到準確識別[5-6],機器學習技術(shù)作為一種先進的計算機輔助手段[7-9],能夠有效解決該問題,對此,研究人員提出了許多的相關(guān)方法。例如,張成等[10]提出了一種基于加權(quán)k近鄰(KNN)規(guī)則的多模態(tài)間歇過程故障檢測方法,將原始數(shù)據(jù)投影到低維空間,對過程數(shù)據(jù)進行降維以便降低計算復雜度,然后通過加權(quán)KNN聚類完成過程故障檢測任務(wù)。作為一種使用最廣泛的數(shù)據(jù)降維算法,多元統(tǒng)計的主成分分析(PCA)在高維數(shù)據(jù)特征提取方面具有優(yōu)異的性能,因此,趙曉君等[11]提出將PCA和KNN聚類相結(jié)合設(shè)計了一種通用的在線故障診斷算法。類似地,Yang等[12]提出了基于PCA-支持向量機的生物化學產(chǎn)品制造過程故障診斷與檢測方法,同樣得到了較好的準確性。
孿生支持向量機(twin support vector machine,TWSVM)是一種新型的基于統(tǒng)計學習理論的機器學習方法[13]。作為傳統(tǒng)SVM的一種變形算法,TWSVM不僅繼承了其優(yōu)秀的學習能力,而且運行效率提高了4倍。本文中利用PCA-TWSVM實現(xiàn)故障類型的識別。首先,采用PCA方法對涉及的復雜故障變量進行降維,并對提取的主要故障變量進行判斷,完成故障檢測;然后,利用TWSVM進行故障類型的識別,結(jié)合PCA方法實現(xiàn)系統(tǒng)監(jiān)測,進一步改善工業(yè)系統(tǒng)故障的識別綜合性能。
在進行常規(guī)的Logistic回歸分析之前,本文中利用統(tǒng)計產(chǎn)品與服務(wù)解決方案軟件SPSS 19.0 的PCA主成分提取功能來進行故障變量的數(shù)據(jù)降維,操作界面如圖1所示。
作為一種最常用的線性降維方法,PCA能夠在盡量保證信息量不丟失的情況下,通過投影對原始特征進行降維。假設(shè)模型樣本由工業(yè)系統(tǒng)故障特征變量構(gòu)成,每個樣本有n個特征,需要從這些特征變量中提取主要影響因子。m個訓練樣本為x1,x2,…,xm,對應(yīng)的標準差為S1,S2, …,Sm, 那么標準化變換的方法為
圖1 統(tǒng)計產(chǎn)品與服務(wù)解決方案軟件SPSS19.0的主成分分析降維操作界面
Yj=aj1x1+aj2x2+…+ajmxm,j=1,2,…,m,
(1)
式中ajm為訓練樣本xm對應(yīng)的系數(shù)因子。
從j=1開始依次對式(1)的變換結(jié)果進行主成分分析。首先,如果Y1的數(shù)值等于相應(yīng)特征值的正交單位向量的2范數(shù),且Y1的方差最大,則可以確定Y1為第一主成分;其次,如果Y2的數(shù)值等于相應(yīng)特征值的正交單位向量的2范數(shù),Y1與Y2的協(xié)方差為0且Y2的方差最大,則可以確定Y2為第二主成分。按照上述方法重復進行m次,以此類推可以得到多個主成分。
在累積方差貢獻率計算過程中,第i個主成分Yi的貢獻率ηi為
(2)
則前m個主成分的總貢獻率c為
(3)
式中:λi為主成分矩陣的特征值;k為保留主成分個數(shù)。
圖2為累積方差貢獻率示意圖,一般情況下確保c的值大于85%。在這個條件下可以確保損失的
圖2 累積方差貢獻率示意圖
信息不至于太多,也能夠達到減少變量、簡化數(shù)據(jù)結(jié)構(gòu)的目的,提取出反映工業(yè)系統(tǒng)整體過程的前k個主成分。以其中一個公因子為例,其統(tǒng)計分析的表達式為
F1=-0.16Z1+0.161Z2+0.145Z3+0.199Z4-
0.131Z5-0.167Z6+0.137Z7+0.174Z8+
0.131Z9-0.037Z7+0.174Z8+0.131Z9-
0.037Z10,
(4)
式中:F1為某個數(shù)據(jù)樣本;Z1—Z10分別為不同公因子; 數(shù)字代表變量間的相關(guān)系數(shù),數(shù)值越大時相關(guān)性越大。
故障檢測可以通過偏離程度的大小來實現(xiàn),而PCA故障檢測的建立需要2個統(tǒng)計量,即HotellingT2統(tǒng)計量(簡稱T2統(tǒng)計量)和平方預報誤差(square prediction error,SPE)統(tǒng)計量。T2統(tǒng)計量的計算公式為
(5)
式中:Λ=diag(λ1,λ2,…,λk)為前k個主成分的特征值矩陣;yi為測試數(shù)據(jù)歸一化后的樣本向量;P為主成分模型的負荷矩陣。
T2統(tǒng)計量的控制限L為
(6)
式中:α為置信度;F(k,m-1),α為自由度為(k,m-1)的F分布臨界值。
當置信度為α時,SPE統(tǒng)計量σSPE為
(7)
式中:I-PPT為殘差子空間的投影;I為單位矩陣。
SPE統(tǒng)計量的控制限Q為
(8)
其中
(9)
(10)
式中cα為高斯分布水平是1-α的置信極限。
本文中選擇T2統(tǒng)計量和SPE統(tǒng)計量都大于各自的控制限作為故障檢測的標準。
作為傳統(tǒng)機器學習(SVM分支)的一種改進版本,TWSVM尋找的是一對不平行的超平面,因此具有更加優(yōu)異的分類能力,非常適用于解決近似類型的樣本分類問題[14-17]。此外,與傳統(tǒng)SVM相比,TWSVM進行2個SVM型問題求解,因此計算效率更高。當樣本個數(shù)為m時,標準SVM的時間復雜度約為O(m3),而TWSVM時間復雜度為O[2(m/2)3],計算時間約為標準SVM計算時間的1/4。
在實際應(yīng)用案例中,大多數(shù)據(jù)樣本都不是簡單的二元分類。由于在故障數(shù)據(jù)特征空間中進行簡單的線性TWSVM分類已經(jīng)無法得到令人滿意的分類結(jié)果,因此,對于非線性分類問題,即線性不可分時,需要引入核函數(shù)解決該問題。假設(shè)在n維實數(shù)空間n中,樣本總數(shù)為m=m1+m2,其中m1為正類樣本點個數(shù),m2為負類樣本點個數(shù),那么尋求非線性TWSVM超平面的方法為
K(xT,CT)u1+b1=0,K(xT,CT)u2+b2=0 ,
(11)
式中:K為核函數(shù), 采用高斯核徑向基核函數(shù)作為TWSVM核函數(shù);x為輸入樣本矩陣;C=(AB)T,其中A為由正類樣本組成的m1×n型樣本矩陣,B為由負類樣本組成的m2×n型矩陣;u1、u2分別為正、負類樣本的超平面法向量;b1、b2分別為正、負類樣本的超平面偏移量。
同理,通過以下2個二次規(guī)劃可以求解得到將正、負類樣本劃分開的平面[13-14]:
s.t.K(B,CT)u1+e2b1≥e2,
(12)
s.t.K(A,CT)u2+e1b2≥e1,
(13)
然后求解分類的超平面,采用的分類決策函數(shù)為
(14)
結(jié)合PCA方法,通過TWSVM對特征變量進行故障類型識別的具體實施步驟如圖3所示。
圖3 基于主成分分析(PCA)-孿生支持向量機(TWSVM)的故障類型識別步驟
為了驗證本文中提出的PCA-TWSVM故障類型識別方法的性能,在MATLAB仿真平臺利用加利福尼亞大學歐文分校(UCI)提出的用于機器學習的標準數(shù)據(jù)庫UCI[15]進行驗證分析。從UCI數(shù)據(jù)庫中選取了隸屬工業(yè)過程數(shù)據(jù)集中的Steel Plates Faults(鋼板故障)數(shù)據(jù)集,共包含7類故障,特征維數(shù)為27。具體實驗樣本數(shù)據(jù)集參數(shù)見表1,其中隨機選擇了800個樣本作為測試樣本。實驗過程中每一類樣本的分類如表2所示。
表1 實驗數(shù)據(jù)集參數(shù)
表2 樣本分類情況
由于本數(shù)據(jù)集的特征數(shù)較多,因此先利用 PCA方法對每個類別的數(shù)據(jù)樣本進行降維處理,設(shè)置c大于或等于90%,計算出相應(yīng)的主成分個數(shù)為9。最后計算出不同置信度時的T2統(tǒng)計量和SPE統(tǒng)計量結(jié)果,如圖4所示。從圖中可以看出:當置信度α=0.85、0.95時,有較多的正常數(shù)據(jù)存在錯誤判斷; 當置信度α=0.99時,T2、SPE統(tǒng)計量的結(jié)果中超過控制限的數(shù)據(jù)均相對較少,因此,對于Steel Plates Faults數(shù)據(jù)集的故障檢測,置信度α的最佳取值為0.99。后續(xù)結(jié)合PCA的TWSVM故障類型識別中,置信度α取值也為0.99。
(a)Hotelling T 2統(tǒng)計量
(b)SPE統(tǒng)計量圖4 不同置信度α時的Hotelling T 2統(tǒng)計量和平方預報誤差(SPE)統(tǒng)計量及控制限
在上述PCA故障數(shù)據(jù)集降維處理之后,進行TWSVM故障類型識別實驗,并且與現(xiàn)有的加權(quán)KNN[10]、PCA-KNN[11]和PCA-SVM[12]3種類型識別方法進行對比分析。為了驗證方法的可行性,實驗重復進行20次,測試樣本與訓練樣本的設(shè)置見表2。4種方法的故障識別準確率如圖5所示,綜合性能對比見表3。從結(jié)果對比可以看出,相比于其他3種方法,本文中提出的PCA-TWSVM方法的識別效果最好,運行時間也有效縮短,對于故障類型識別具有更好的綜合性能。
KNN—k鄰近算法; PCA—主成分分析算法; SVM—支持向量機; TWSVM—孿生支持向量機。圖5 不同方法的鋼板故障識別的準確率
表3 不同方法對鋼板故障類型的綜合識別性能
本文中提出利用PCA實現(xiàn)工業(yè)系統(tǒng)故障的檢測,并使用TWSVM方法進行故障類型的識別。通過UCI數(shù)據(jù)庫中的Steel Plates Faults數(shù)據(jù)集進行了實驗測試,得出如下結(jié)論:相比加權(quán)KNN、PCA-KNN和PCA-SVM這3種方法,PCA-TWSVM方法在工業(yè)系統(tǒng)故障類型識別方面具有更高的準確率和執(zhí)行效率。