張 偉,王連彪,張廣帥
(青島科技大學(xué) 自動(dòng)化與電子工程學(xué)院,山東 青島 266061)
橡膠輪胎、醫(yī)藥原料、服裝染料、食品添加劑等化工產(chǎn)品在社會(huì)生產(chǎn)發(fā)展和人們?nèi)粘I钪姓紦?jù)著重要地位,影響著工業(yè)、農(nóng)業(yè)、國(guó)防等各個(gè)領(lǐng)域的快速發(fā)展[1]。但是,化工生產(chǎn)的工藝流程及過(guò)程控制系統(tǒng)結(jié)構(gòu)復(fù)雜,運(yùn)行系統(tǒng)內(nèi)部各變量之間的關(guān)系相互耦合,某一部分發(fā)生微小故障就有可能誘發(fā)鏈?zhǔn)椒磻?yīng),導(dǎo)致整個(gè)生產(chǎn)系統(tǒng)無(wú)法正常運(yùn)行,嚴(yán)重時(shí)可引發(fā)災(zāi)難性后果。因此,能夠準(zhǔn)確、有效地對(duì)運(yùn)行狀態(tài)進(jìn)行早期預(yù)警,實(shí)現(xiàn)故障的快速診斷排除,是化工生產(chǎn)安全穩(wěn)定運(yùn)行的必要前提。
自20世紀(jì)90年代以來(lái),隨著故障診斷技術(shù)的不斷發(fā)展,診斷方法得到了不斷的擴(kuò)充和完善,一般可分為基于機(jī)理模型的方法、基于知識(shí)的方法和基于數(shù)據(jù)的方法。過(guò)去,由于科技水平的條件限制,大部分異常工況的故障識(shí)別依賴于人工經(jīng)驗(yàn),這種基于知識(shí)的方法不僅帶來(lái)了故障診斷效率低的問(wèn)題,而且一旦經(jīng)驗(yàn)不足導(dǎo)致判斷失誤則會(huì)影響產(chǎn)品質(zhì)量。目前,隨著工業(yè)自動(dòng)化PLC和DCS系統(tǒng)的發(fā)展,依靠如溫度、流速、壓力等各類(lèi)型傳感器可以實(shí)現(xiàn)運(yùn)行數(shù)據(jù)的實(shí)時(shí)采集,對(duì)收集數(shù)據(jù)中包含的多維度變量通過(guò)建立合適的故障診斷模型,預(yù)測(cè)故障的發(fā)生變化趨勢(shì),從而能夠有效減少工業(yè)生產(chǎn)的經(jīng)濟(jì)損失[2]。
基于數(shù)據(jù)驅(qū)動(dòng)的故障診斷建模方法主要可以分為三類(lèi),多元統(tǒng)計(jì)學(xué)習(xí)、深度學(xué)習(xí)以及綜合性學(xué)習(xí)方法[3]。經(jīng)典的多元統(tǒng)計(jì)方法如主元分析(PCA)[4]、獨(dú)立分量分析(ICA)[5]、因子分析(FA)[6],通過(guò)將高維數(shù)據(jù)投影映射到低維空間,計(jì)算低維空間新變量之間的特征信息,并與閾值比較,進(jìn)而分析故障診斷結(jié)果。深度學(xué)習(xí)方法如神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)(SVM)主要是通過(guò)參數(shù)尋優(yōu)進(jìn)而可以實(shí)現(xiàn)多維數(shù)據(jù)的批量處理,以一種更加合理復(fù)雜的訓(xùn)練機(jī)制實(shí)現(xiàn)故障的有效診斷。
基于多元統(tǒng)計(jì)方法的故障診斷模型診斷結(jié)果準(zhǔn)確率低、模型簡(jiǎn)單且容易丟失主要信息;基于深度學(xué)習(xí)方法的故障診斷模型對(duì)高維數(shù)據(jù)的訓(xùn)練和預(yù)測(cè)時(shí)間長(zhǎng),參數(shù)依賴性強(qiáng),容易出現(xiàn)過(guò)擬合和欠擬合現(xiàn)象[7]。為此,本工作結(jié)合兩種學(xué)習(xí)方法的優(yōu)缺點(diǎn),提出一種基于隨機(jī)森林(RF)[8]和支持向量機(jī)(SVM)的故障診斷模型;其中,RF學(xué)習(xí)器作為一種自身可實(shí)現(xiàn)分類(lèi)效果的模型,結(jié)合交叉驗(yàn)證遞歸特征消除算法(RFECV)對(duì)高維數(shù)據(jù)特征進(jìn)行篩選,防止特征映射時(shí)出現(xiàn)信息丟失;并將獲取的低維特征樣本作為SVM的輸入值,結(jié)合粒子群優(yōu)化算法(PSO)確定模型超參數(shù),從而獲得最佳的故障診斷模型。同時(shí)應(yīng)用TE化工仿真過(guò)程,與不同數(shù)據(jù)融合方法作對(duì)比,進(jìn)一步驗(yàn)證了該方法的合理性。
傳統(tǒng)的多元統(tǒng)計(jì)方法在數(shù)據(jù)預(yù)處理過(guò)程中,將輸入的高維樣本數(shù)據(jù)映射到低維空間,以新變量代替原變量,從而丟失了部分隱含信息,對(duì)原始數(shù)據(jù)的分布特性造成了破壞。因此,為了增強(qiáng)模型魯棒性,引入RFECV特征提取方法,以RF作為監(jiān)督學(xué)習(xí)估計(jì)器,分兩步先計(jì)算每個(gè)特征的重要性,再按照重要性評(píng)級(jí)依次選擇不同數(shù)量的特征交叉驗(yàn)證,去除原始數(shù)據(jù)中與診斷結(jié)果無(wú)關(guān)的冗余特征,在不產(chǎn)生新變量的前提下確定特征集[9]。
1.1.1 RF的實(shí)現(xiàn)
RF在處理高維特征輸入樣本時(shí),由于決策樹(shù)[10]的存在可以不用降維,因此,選擇RF作為RFECV的監(jiān)督學(xué)習(xí)估計(jì)器能夠很好的保留原始樣本信息。同時(shí),在訓(xùn)練時(shí)可以得到不同特征之間的相關(guān)性,從而判斷出每個(gè)特征在分類(lèi)結(jié)果上的重要性,其過(guò)程如圖1所示。
圖1 隨機(jī)森林算法流程圖Fig.1 Diagram of random forest algorithm flowchart
1.1.2 RFECV的 實(shí) 現(xiàn)
RFECV的實(shí)現(xiàn)分成遞歸特征消除(RFE)和交叉驗(yàn)證(CV)兩個(gè)部分,首先通過(guò)遞歸特征消除對(duì)特征進(jìn)行重要性評(píng)級(jí),然后使用交叉驗(yàn)證選擇最佳的特征數(shù)量。RFE是一種尋找最優(yōu)特征子集的貪心算法,通過(guò)反復(fù)的構(gòu)建基底模型即監(jiān)督學(xué)習(xí)估計(jì)器,根據(jù)重要性對(duì)所有特征實(shí)現(xiàn)評(píng)級(jí)。初始的特征集包含輸入樣本的所有特征,通過(guò)基底模型計(jì)算每個(gè)特征的重要性,然后刪除最不重要的一個(gè)或多個(gè)特征,更新特征集并重復(fù)上述過(guò)程,直到遍歷所有特征,其中特征逐漸被刪除的次序就是對(duì)特征的排序。
CV可以用來(lái)尋找特征的最佳數(shù)量,根據(jù)RFE階段確定的特征重要性,依次選擇出不同數(shù)量的特征,對(duì)選出的特征集由基底模型即監(jiān)督學(xué)習(xí)估計(jì)器(RF)計(jì)算出平均得分,確定平均分最高的特征數(shù)量,完成特征選擇?;啄P徒徊骝?yàn)證時(shí),首先計(jì)算沒(méi)有刪除任何特征時(shí)的平均得分,接著計(jì)算刪除n個(gè)特征的所有組合的得分,對(duì)所有組合的得分求出均值,以此類(lèi)推,一直重復(fù),直到找到最小刪除特征數(shù),從而確定最優(yōu)特征子集。
本工作根據(jù)樣本數(shù)據(jù)分布呈現(xiàn)出的非線性和高斯性,在SVM線性判別式中引入高斯核函數(shù),并通過(guò)PSO對(duì)核函數(shù)系數(shù)γ和懲罰系數(shù)C尋求結(jié)構(gòu)風(fēng)險(xiǎn)最小化[11],擬合出一條曲線或者一個(gè)超平面實(shí)現(xiàn)正常、故障二分類(lèi),從而獲得全局最佳的故障診斷模型。
1.2.1 KSVM的實(shí)現(xiàn)
根據(jù)Logistic回歸函數(shù),假設(shè)給定的訓(xùn)練樣本數(shù)據(jù)集D={(x1,y1),(x2,y2),…,(x m,y m)},其中輸出y={+1,-1},劃分超平面的線性方程描述為[12]
其中,W=(ω1,ω2,…,ωd)為超平面的法向量,b為位移項(xiàng)。
為了提高分類(lèi)的確信度,需要讓所選擇的超平面能夠最大化“幾何間隔”值,同時(shí)允許數(shù)據(jù)點(diǎn)在一定程度上偏離超平面,因此,引入松弛變量、拉格朗日乘子αi≥0將線性判別式轉(zhuǎn)換為求解以下非線性約束優(yōu)化式:
式中,ξi為松弛變量,C為控制參數(shù),κ(x i,x)為高斯徑向基核函數(shù)。
將上式問(wèn)題等價(jià)轉(zhuǎn)換后,約束函數(shù)相當(dāng)于求解公式:
其中乘子α可通過(guò)序列優(yōu)化算法(SMO)求解得出。
1.2.2 PSO搜索算法的實(shí)現(xiàn)
定義粒子群{x i|i=1,2,…,N},其中N為粒子群的數(shù)量。每個(gè)粒子可以看作目標(biāo)空間中的一個(gè)解,x i表示為第i個(gè)粒子在空間中的位置矢量,v i表示為第i個(gè)粒子的速度矢量。
在每次迭代過(guò)程中,粒子群會(huì)有兩個(gè)極值,一個(gè)為局部極值pbest即粒子自身的最優(yōu)解,另一個(gè)為全局極值gbest即種群的當(dāng)前最優(yōu)解。粒子位置和速度的更新公式如下:
其中,v i(k)是粒子在第k次迭代時(shí)的速度,x i(k)是粒子在第k次迭代時(shí)的位置;ω是慣性權(quán)重,其值在0到1之間;c1和c2是學(xué)習(xí)因子,c1能夠調(diào)節(jié)粒子向個(gè)體的歷史最優(yōu)值pbest學(xué)習(xí)的步長(zhǎng),c2能夠調(diào)節(jié)粒子向群體的歷史最優(yōu)值gbest學(xué)習(xí)的步長(zhǎng);r1和r2的取值范圍是在0到1之間的隨機(jī)數(shù)。
為了防止粒子更新時(shí)跳出搜索范圍,降低模型的搜索時(shí)間,需要將粒子位置變化的范圍限定在最大值xmax和最小值xmin之間,速度的隨機(jī)取值范圍限制在[0,1]之間。
1.2.3 故障診斷方法的實(shí)現(xiàn)
本工作提出的故障診斷方法主要分為兩部分,第一部分為數(shù)據(jù)預(yù)處理,即對(duì)高維數(shù)據(jù)的特征降維,第二部分為模型訓(xùn)練,即找到最優(yōu)超參數(shù)的SVM二分類(lèi)模型。兩部分相互結(jié)合,實(shí)現(xiàn)對(duì)連續(xù)化工過(guò)程中異常工況的故障診斷,算法主要流程如下所示。
步驟1:數(shù)據(jù)預(yù)處理。
步驟1.1:加載訓(xùn)練集、測(cè)試集數(shù)據(jù),以均值代替Nan值。
步驟1.2:使用RF-RFECV實(shí)現(xiàn)特征降維。
步驟1.2.1:設(shè)交叉驗(yàn)證規(guī)則cv=[2,5,8],監(jiān)督學(xué)習(xí)估計(jì)器estimator=rf,遞歸特征消除步長(zhǎng)step=1,平均得分指標(biāo)為預(yù)測(cè)準(zhǔn)確率scoring=′accuracy′。
步驟1.2.2:定義循環(huán)for n in range(length(cv))。
步驟1.2.2.1:定義函數(shù)RFECV(estimator,step,scoring,cv[n]),返回特征重要性。
步驟1.2.2.2:訓(xùn)練函數(shù)RFECV,得到特征優(yōu)先級(jí)、特征降維數(shù)、cv平均得分。
步驟1.2.2.3:保存模型訓(xùn)練結(jié)果。
步驟1.2.3:比較cv平均得分,根據(jù)最高值確定特征維度、特征集。
步驟1.3:根據(jù)特征集篩選訓(xùn)練集、測(cè)試集,并做相同的標(biāo)準(zhǔn)化處理。
步驟2:訓(xùn)練模型。
步驟2.1:搭建PSO-SVM模型,加載新的訓(xùn)練集、測(cè)試集,并隨機(jī)劃分20%驗(yàn)證集。
步驟2.2:設(shè)PSO慣性權(quán)重ω=0.5,局部學(xué)習(xí)因子c1=0.2,全局學(xué)習(xí)因子c2=0.5,訓(xùn)練步長(zhǎng)iterations=10,粒子群數(shù)量particles=3,Max=inf。
步驟2.3:初始化粒子位置向量particle position vector=[γ,C],初始化速度向量velocity vector,每個(gè)粒子的個(gè)體極值 設(shè)置為當(dāng)前位置,初始化一對(duì)(α1,α2)。
步驟2.4:定義外循環(huán)while iteration<iterations。
步驟2.4.1:定義內(nèi)循環(huán)for j in range(length(particles))。
步驟2.4.1.1:定義函數(shù)train function(particle position vector[j],train dataset)。
步驟2.4.1.2:定義SMO函數(shù)由公式(3)更新拉格朗日乘子(α1,α2),返回(α,b)。
步驟2.4.1.3:執(zhí)行函數(shù)model((α,b),validation dataset),根據(jù)混淆矩陣計(jì)算粒子的適應(yīng)度函數(shù)F=FP+FN。
步驟2.4.1.4:if max>F:max=F,保存模型best model。
步驟2.4.1.5:if pbest>F:pbest=F,pbest position=particle position vector[j]。
步驟2.4.1.6:if gbest>pbest:gbest=pbest。
步驟2.4.1.7:公式(4)、(5)更新particle position vector、velocity vector。
步驟2.5:比較所有模型gbest,確定最終SVM模型并保存。
步驟3:測(cè)試模型。
TE過(guò)程是一種模擬實(shí)際化工生產(chǎn)的仿真平臺(tái),里面包含Tennessee Eastman化學(xué)公司提供的正常和21種故障運(yùn)行工況下的數(shù)據(jù)集。每份數(shù)據(jù)集包含仿真平臺(tái)運(yùn)行時(shí)的52個(gè)測(cè)量變量,共有22個(gè)連續(xù)過(guò)程變量、11個(gè)控制變量以及19個(gè)成分變量,即數(shù)據(jù)集的特征維度為52維[13]。為了更加合理的解釋大部分故障特點(diǎn),并減少建模時(shí)間,本工作選取正常工況、常見(jiàn)階躍故障類(lèi)型1作為研究對(duì)象。
2.1.1 樣本數(shù)據(jù)介紹
為了防止故障診斷模型出現(xiàn)未知的過(guò)擬合或欠擬合現(xiàn)象,將TE過(guò)程仿真平臺(tái)提供的正常工況、故障類(lèi)型1的數(shù)據(jù)樣本劃分為訓(xùn)練集和測(cè)試集。在訓(xùn)練集中,正常工況運(yùn)行下的TE過(guò)程仿真周期設(shè)計(jì)為25 h,每1 h對(duì)運(yùn)行數(shù)據(jù)采樣20次,間隔周期為3 min,共采樣500組觀測(cè)數(shù)據(jù);故障類(lèi)型1工況運(yùn)行下的TE過(guò)程仿真周期設(shè)計(jì)為48 h,仿真運(yùn)行后的前8 h沒(méi)有故障引入,采樣間隔同正常運(yùn)行工況一致,運(yùn)行結(jié)束后共采樣960組觀測(cè)數(shù)據(jù),前160組數(shù)據(jù)無(wú)故障正常運(yùn)行。在測(cè)試集中,正常工況、故障類(lèi)型1工況運(yùn)行下的仿真周期設(shè)計(jì)為48 h,其中故障運(yùn)行時(shí)的故障引入時(shí)刻和訓(xùn)練集保持一致,共采集到正常工況運(yùn)行數(shù)據(jù)1 120組,故障工況運(yùn)行數(shù)據(jù)800組。因此,本研究選取的訓(xùn)練集為正常工況660×52,故障工況800×52,測(cè)試集為正常工況1 120×52,故障工況800×52。
2.1.2 特征降維
將上述TE過(guò)程獲取的訓(xùn)練集和測(cè)試集,加入代表正常工況和故障工況的正負(fù)類(lèi)標(biāo)簽,組合成新的訓(xùn)練集和測(cè)試集。通過(guò)RF-RFECV算法對(duì)訓(xùn)練集進(jìn)行特征篩選,其中設(shè)置每次迭代時(shí)的遞歸特征消除長(zhǎng)度為1,交叉驗(yàn)證規(guī)則選為2、5、8。根據(jù)不同特征維度對(duì)應(yīng)的平均分值確定最終的特征子集,如圖2所示。
圖2 RF-RFECV不同特征維度得分圖Fig.2 Diagram of RF-RFECV scores in different features dimensions
可以發(fā)現(xiàn),當(dāng)設(shè)置的交叉驗(yàn)證規(guī)則分別為2、5時(shí),訓(xùn)練集不同數(shù)量特征提取對(duì)應(yīng)的平均得分波動(dòng)起伏較大,不如8折交叉驗(yàn)證規(guī)則的穩(wěn)定。在對(duì)比特征重要性的排序結(jié)果以及平均得分后,發(fā)現(xiàn)特征數(shù)量控制在41維度時(shí),RF-RFECV的平均得分最高,此時(shí)對(duì)應(yīng)的特征信息可用來(lái)解釋整體樣本信息,其特征優(yōu)先級(jí)排序結(jié)果如圖3所示。
圖3 特征優(yōu)先級(jí)排序示意圖Fig.3 Diagram of feature prioritization
2.1.3 性能指標(biāo)
在確定特征維度后,對(duì)新的訓(xùn)練集樣本進(jìn)行數(shù)據(jù)預(yù)處理即歸一化操作,作為SVM的輸入值,并使用PSO算法搜索核函數(shù)系數(shù)γ和懲罰系數(shù)C。通過(guò)混淆矩陣如表1所示,將F1分?jǐn)?shù)作為模型精度的衡量指標(biāo),預(yù)測(cè)值的錯(cuò)誤數(shù)量作為PSO的目標(biāo)優(yōu)化函數(shù)[14]。
表1 混淆矩陣Table 1 Confusion matrix
F1分?jǐn)?shù)兼顧了分類(lèi)模型的準(zhǔn)確率和召回率,是兩者的加權(quán)平均,其值處于0、1之間:
其中,precision=TP/(TP+FP),是準(zhǔn)確率,recall=TP/(TP+FN),是召回率。為了更好地證明提出的故障診斷模型的有效性,使用故障檢測(cè)率(FDR),故障誤報(bào)率(FAR)和診斷準(zhǔn)確率(ACC)等指標(biāo)評(píng)估模型性能[15]。
2.1.4 模型訓(xùn)練
通過(guò)K折交叉驗(yàn)證法將測(cè)試集劃分出一部分作為驗(yàn)證集,并根據(jù)上述訓(xùn)練集確定的特征維度對(duì)驗(yàn)證集做相同處理。在訓(xùn)練集上通過(guò)PSO算法訓(xùn)練超參數(shù)懲罰系數(shù)C和核函數(shù)系數(shù)γ,并不斷的優(yōu)化由驗(yàn)證集得出的誤差值。如圖4所示,通過(guò)不斷迭代的粒子群搜索算法得到徑向基核函數(shù)下SVM故障診斷模型的最優(yōu)超參數(shù)組合為{C=1.14,γ=3.96},且在訓(xùn)練集、驗(yàn)證集的識(shí)別準(zhǔn)確率均超過(guò)95.8%。
圖4 訓(xùn)練集和測(cè)試集損失函數(shù)曲線圖Fig.4 Diagram of training set and test set loss function curve
為了檢驗(yàn)?zāi)P头夯芰?防止過(guò)擬合情況發(fā)生,將RF-RFECV處理后的剩余部分測(cè)試集數(shù)據(jù)作為已訓(xùn)練好模型的輸入值。對(duì)于正常工況、故障1的聯(lián)合診斷結(jié)果通過(guò)計(jì)算混淆矩陣得出,其中F1分?jǐn)?shù)為99.64%,FDR故障檢測(cè)率為99.62%,FAR故障誤報(bào)率為0.44%,預(yù)測(cè)準(zhǔn)確率為99.58%。由圖4可以發(fā)現(xiàn),模型在訓(xùn)練集和新的測(cè)試集上的識(shí)別準(zhǔn)確率都很高,診斷誤差收斂且很小,未出現(xiàn)高方差和高偏差情況。因此,本工作提出的經(jīng)過(guò)RF-RFECV算法處理后的PSO-SVM故障診斷模型,泛化能力效果良好,魯棒性強(qiáng)且診斷準(zhǔn)確率高。
為了驗(yàn)證本工作提出的隨機(jī)森林與高斯核支持向量機(jī)融合算法在挖掘顯著特征和抑制不相關(guān)特征方面的優(yōu)勢(shì),與經(jīng)典特征提取方法PCA、FA、ICA(FastICA)進(jìn)行比較,并通過(guò)PSO搜索算法確定性能最佳的SVM模型。
2.2.1 PCA、FA、FastICA特 征 提 取
PCA降維的主要思想是將n維特征映射到k維,新的k維正交特征被稱為主成分,是在原有n維特征的基礎(chǔ)上重新構(gòu)造出來(lái)的k維特征[16]。
通過(guò)PCA算法將52維的訓(xùn)練集樣本數(shù)據(jù)先投射到低維特征空間,再計(jì)算每個(gè)特征對(duì)樣本貢獻(xiàn)率確定維度范圍。如圖5所示,PCA的維數(shù)確定一方面可以根據(jù)用戶指定,另一方面可由設(shè)置的重構(gòu)閾值即累計(jì)方差閾值拐點(diǎn)確定,通過(guò)查閱參考文獻(xiàn)[14,16],確定新的正交特征至少需要保留原始樣本90%以上的信息即新選擇的主成分方差和應(yīng)該大于總方差的90%,滿足100∶1的壓縮比,因此,新的正交特征維度為25。
圖5 主成分方差和累計(jì)方差貢獻(xiàn)率圖Fig.5 Diagram of principal component variance and cumulative variance contribution rate
FA可以認(rèn)定為PCA的擴(kuò)展算法,兩者的主要區(qū)別在于數(shù)學(xué)模型存在差異。PCA是把主成分表示成各原始變量的線性組合,且主成分之間互不相關(guān),FA是把變量表示成各公因子的線性組合,從數(shù)據(jù)中提取對(duì)變量起解釋作用的少數(shù)公共因子,傾向描述原始變量之間的相關(guān)關(guān)系[17],其模型如公式8所示。在使用因子分析之前,使用Kaiser-Meyer-Olkin(KMO)算法對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行充分性檢測(cè),由檢測(cè)值0.88驗(yàn)證了FA方法降維的可行性,從而確定了因子數(shù)目為12,即降維后的維度為12維。
ICA是一種信號(hào)分離方法,其基本思路是通過(guò)提取高階統(tǒng)計(jì)量處理非高斯分布情況以去除原始變量相關(guān)性,使得主成分之間相互獨(dú)立。假設(shè)樣本數(shù)據(jù)為X∈Rm×n,其中:n為樣本個(gè)數(shù),m為特征個(gè)數(shù),對(duì)矩陣進(jìn)行分解,即
其 中,A∈Rm×r為混合矩陣,S∈Rr×n為獨(dú)立成分矩陣,E∈Rm×n為殘差矩陣,r獨(dú)立成分?jǐn)?shù)。
2.2.2 結(jié)果分析及對(duì)比
通過(guò)PSO搜索算法可以得到PCA特征降維后的K-SVM最 優(yōu) 超 參 數(shù) 組 合 為{C=9.11,γ=6.43},診斷準(zhǔn)確率為91.2%;FA特征降維后的KSVM最優(yōu)超參數(shù)組合為{C=1.80,γ=7.26},診斷準(zhǔn)確率為82.81%;FastICA特征降維后的KSVM最優(yōu)超參數(shù)組合為{C=2.14,γ=9.15},診斷準(zhǔn)確率為83.08%。訓(xùn)練集上的參數(shù)尋優(yōu)過(guò)程如圖6所示。
圖6 訓(xùn)練集上的參數(shù)尋優(yōu)過(guò)程Fig.6 Parameter optimization of training set
PCA、FA、FastICA、RF特征降維方法,結(jié)合PSO和K-SVM的故障診斷模型在測(cè)試集上的性能對(duì)比如表2所示。對(duì)比本研究提出的故障診斷模型,未經(jīng)過(guò)特征降維處理的KSVM模型保留了原始數(shù)據(jù)中的冗余特征,受噪聲影響診斷準(zhǔn)確率最低;PCA特征降維時(shí)需要假設(shè)變量服從高斯分布且具有線性相關(guān)性,在對(duì)數(shù)據(jù)特性完全無(wú)知的情況下,并不能保留較好的數(shù)據(jù)信息,最終導(dǎo)致PCA-KSVM模型的診斷準(zhǔn)確率并不是很突出;FA是對(duì)原始變量的重新組合并找出影響變量的公共因子,無(wú)法解釋相關(guān)性弱的部分變量信息,破壞了原始樣本的完整性;FastICA可以處理滿足非高斯分布特性的數(shù)據(jù),并從混亂信號(hào)中分離出獨(dú)立源信號(hào),但是對(duì)于未知源的信號(hào)無(wú)法準(zhǔn)確確定獨(dú)立成分?jǐn)?shù)目;因此,FAKSVM和FastICA-KSVM模型的識(shí)別準(zhǔn)確率相對(duì)比較低,難以滿足復(fù)雜情況下的故障診斷。
表2 故障診斷方法對(duì)比Table 2 Comparison of fault diagnosis methods
綜上,相比單一K-SVM和PCA、FA、FastICA結(jié)合K-SVM的故障診斷模型,本工作提出的RF-KSVM融合模型在保留完整原始樣本數(shù)據(jù)分布特性的前提下,可以有效去除冗余特征,降低特征維度,并且對(duì)故障的識(shí)別準(zhǔn)確率更高,發(fā)生故障誤報(bào)的概率更低。
通過(guò)將RF-RFECV與PSO-SVM融合方法應(yīng)用于化工過(guò)程故障診斷中,最大限度地利用已有數(shù)據(jù)的特征信息,在去除冗余特征未產(chǎn)生新特征的前提下,采用RF-RFECV有效降低了化工過(guò)程的高維數(shù)據(jù)。然后應(yīng)用PSO算法和K折交叉驗(yàn)證搜索并建立最佳超參數(shù)的K-SVM模型,從而精準(zhǔn)判斷故障是否發(fā)生,及時(shí)地保障安全生產(chǎn)。以TE化工仿真過(guò)程中正常工況和常見(jiàn)階躍故障類(lèi)型1運(yùn)行下的高維數(shù)據(jù)進(jìn)行驗(yàn)證,新方法在測(cè)試集上的故障診斷率達(dá)到99.5%以上;同時(shí),與FA、PCA、FastICA等特征提取方法相比,該方法的故障識(shí)別率有一定提升,未出現(xiàn)過(guò)擬合情況,能有效解決復(fù)雜化工過(guò)程中的故障診斷問(wèn)題。