范傳翰,宋禮威,劉厚林,董 亮,肖幸鑫,陳澤宇
(1.江蘇大學(xué)流體機(jī)械工程技術(shù)研究中心,江蘇 鎮(zhèn)江 212000;2.中廣核工程有限公司核電安全監(jiān)控技術(shù)與裝備國家重點(diǎn)實(shí)驗(yàn)室,廣東 深圳 518172)
離心泵廣泛應(yīng)用于國民經(jīng)濟(jì)的各個(gè)領(lǐng)域。由于離心泵工作環(huán)境復(fù)雜,運(yùn)行工況調(diào)節(jié)頻繁從而導(dǎo)致離心泵發(fā)生故障的概率增大,造成效率降低,甚至?xí)霈F(xiàn)安全事故。轉(zhuǎn)子是離心泵中的重要組件之一,機(jī)組在長(zhǎng)期運(yùn)行過程中容易導(dǎo)致轉(zhuǎn)子發(fā)生故障。其中,轉(zhuǎn)子不平衡、不對(duì)中故障最為常見[1]。近年來,隨著計(jì)算機(jī)技術(shù)的進(jìn)步,國內(nèi)外學(xué)者利用不同的方法為不同設(shè)備的故障診斷提供了很多參考[2]。屈梁生[3]系統(tǒng)研究了全息譜技術(shù)所衍生各項(xiàng)技術(shù)及在各類機(jī)械故障診斷實(shí)踐中的應(yīng)用。Dong[4]等人將小波包分解(WPD)與主成分分析(PCA)和徑向基函數(shù)(RBF)神經(jīng)網(wǎng)絡(luò)相結(jié)合,完成了對(duì)離心泵汽蝕狀態(tài)進(jìn)行檢測(cè),并取得了較好的結(jié)果。董明[5]等人利用典型故障氣體的相對(duì)含量在高維空間的分布特性輸入到SVM(支持向量機(jī))中對(duì)變壓器故障類型診斷。薛延剛[6]等人改進(jìn)了SVM 模型并引入故障分類準(zhǔn)確性判定因子對(duì)水電機(jī)組進(jìn)行了智能診斷。張麗平[7]研究了PSO(粒子群)算法的基本結(jié)構(gòu)、算法特點(diǎn)、改進(jìn)方法、實(shí)現(xiàn)模式及應(yīng)用等方面并將其引入到BP 神經(jīng)網(wǎng)絡(luò)中,取得了滿意的結(jié)果。蔡振宇[8]等人將PSO-SVM(粒子群優(yōu)化支持向量機(jī))模型應(yīng)用到振動(dòng)機(jī)械故障診斷實(shí)例中,其結(jié)果表明相較于傳統(tǒng)神經(jīng)網(wǎng)絡(luò),PSO-SVM具有更高的準(zhǔn)確性。
隨機(jī)森林是通過集成學(xué)習(xí)的思想將多棵樹(決策樹)集成的一種算法,有著較高的準(zhǔn)確率、可解釋性及能夠評(píng)估各個(gè)特征重要性等優(yōu)勢(shì)。Wang[9]等人通過提取振動(dòng)信號(hào)的無量綱指數(shù)做為特征參數(shù),利用隨機(jī)森林訓(xùn)練,預(yù)測(cè)精度高達(dá)100%。馬富齊[10]利用隨機(jī)森林的特性通過剔除掉冗余的特征向量,進(jìn)行了對(duì)機(jī)組的故障診斷。單增海[11]等人將得到的多傳感器信息融合后,進(jìn)行特征篩選,利用多粒度級(jí)聯(lián)森林模型完成了對(duì)液壓泵健康狀態(tài)評(píng)估。段智勇[12]等人利用隨機(jī)森林算法對(duì)屏蔽泵進(jìn)行故障診斷,并取得了滿意的效果。徐書凡[13]將潛油螺桿泵井的參數(shù)數(shù)據(jù)輸入隨機(jī)森林模型,完成了對(duì)潛油螺桿泵采油系統(tǒng)故障診斷。
當(dāng)前在針對(duì)離心泵轉(zhuǎn)子故障能夠評(píng)估其故障特征重要性特征的研究較少,并且非重要特征之間的相關(guān)性會(huì)進(jìn)一步削弱故障識(shí)別的效果,從而影響故障診斷效率及準(zhǔn)確率。本文旨在通過隨機(jī)森林對(duì)提取出的故障特征重要性進(jìn)行分析、篩選,結(jié)合PSO-SVM 對(duì)離心泵轉(zhuǎn)子常見故障狀態(tài)進(jìn)行識(shí)別。通過在離心泵上放置振動(dòng)加速度傳感器進(jìn)行原始信號(hào)采集,利用時(shí)域、頻域處理方法,提取原始信號(hào)的時(shí)、頻域特征參數(shù)矩陣,通過隨機(jī)森林得到重要性較高的特征,并將之與隨機(jī)森林分類得到的分類結(jié)果進(jìn)行組合,得到新的故障特征參數(shù)矩陣,進(jìn)入PSOSVM 中進(jìn)行訓(xùn)練、驗(yàn)證。這樣既能降低非重要故障特征對(duì)離心泵轉(zhuǎn)子故障識(shí)別效果的影響,也能減少故障特征參數(shù)矩陣的維度,從而減少冗余的故障信息,降低計(jì)算的復(fù)雜程度。
隨機(jī)森林(Random Forest,簡(jiǎn)稱RF)是Bagging 的一個(gè)擴(kuò)展變體[14]。它首先基于bagging 思想,無放回的可重復(fù)的對(duì)初始數(shù)據(jù)集進(jìn)行采樣,再利用這些采樣集訓(xùn)練決策樹,同傳統(tǒng)決策樹選擇特征(信息增益)不同的是RF 選擇特征時(shí)隨機(jī)從特征集中抽取一部分特征子集,并從這些子集中選擇一個(gè)最優(yōu)屬性用于構(gòu)建決策樹的節(jié)點(diǎn),進(jìn)行下一步的分裂。由于構(gòu)建每一顆決策樹時(shí)是從數(shù)據(jù)集中進(jìn)行隨機(jī)可重復(fù)進(jìn)行采樣,因此還有部分?jǐn)?shù)據(jù)集是沒有被采樣到的,這部分?jǐn)?shù)據(jù)稱為袋外數(shù)據(jù)(oob),將這部分?jǐn)?shù)據(jù)代入已建立的決策樹中,可以用于計(jì)算決策樹的預(yù)測(cè)錯(cuò)誤率(袋外數(shù)據(jù)誤差,oobErr)。
由于原始信號(hào)具有信息量大、特征隱蔽和包含較多的噪聲等特點(diǎn),單純直觀分析無法獲得被監(jiān)測(cè)對(duì)象的具體健康狀態(tài)信息,因此需要通過不同的信號(hào)處理方法對(duì)原始信號(hào)進(jìn)行轉(zhuǎn)換和處理,從而提取出能夠反映運(yùn)行設(shè)備的狀態(tài)特征信息[15]。均方根值、峰值、峰值因子、峭度、脈沖因子、裕度因子和波形因子是振動(dòng)信號(hào)進(jìn)行時(shí)域統(tǒng)計(jì)分析最常用的參數(shù)指標(biāo)[16]。為了更多反應(yīng)原始信號(hào)攜帶的特征信息。另外選取了較為常用的4個(gè)時(shí)域特征和3個(gè)頻域統(tǒng)計(jì)指標(biāo),時(shí)域特征為方差、均值、峭度因子、偏度;頻域?yàn)橹匦念l率、均方根頻率、標(biāo)準(zhǔn)差頻率。本文統(tǒng)計(jì)共14個(gè)時(shí)、頻域指標(biāo)作為故障特征的統(tǒng)計(jì)指標(biāo),計(jì)算公式如表1。
表1 特征計(jì)算方法Tab.1 Calculation method of characteristics
表中的x(n)為信號(hào)的時(shí)域序列,n=1,2,3,…,N,N為樣本點(diǎn)數(shù);U(i)表示的是信號(hào)x(n)的頻譜,其中i=1,2,3,…,m,m為譜線的個(gè)數(shù);fi表示的是第i根譜線的頻率值。
對(duì)于隨機(jī)森林中某個(gè)特征重要性a的計(jì)算步驟如下:
(1)假設(shè)隨機(jī)森林中共有n顆決策樹,對(duì)于一棵樹Ti,其中i=1,2,3,…,n,用袋外數(shù)據(jù)oob(i)代入已建立的決策樹Ti中,計(jì)算該樹的袋外數(shù)據(jù)誤差,記作oobErr01(i)。
(2)然后隨機(jī)置換oob(i)中第j列的特征參數(shù),置換的方法是通過permutation 方式將oob(i)中所有樣本的第j個(gè)特征參數(shù)重新打亂分布,保持其他特征參數(shù)不變,重新計(jì)算該樹的袋外數(shù)據(jù)誤差,記作oobErr02(i)。
(3)則該特征重要性a的計(jì)算公式如下:
若加入噪聲后袋外數(shù)據(jù)準(zhǔn)確率下降,即oobErr02(i)上升,特征重要性a增大,則該特征重要程度比較高。
本文利用隨機(jī)森林算法和PSO-SVM 進(jìn)行離心泵轉(zhuǎn)子不平衡、不對(duì)中故障診斷的流程圖見圖1。
圖1 診斷流程圖Fig.1 Diagnostic flow chart
以一臺(tái)離心泵作為實(shí)驗(yàn)對(duì)象,離心泵的主要參數(shù)為:額定流量10.6 m3∕h;額定轉(zhuǎn)速2 900 r∕min;額定揚(yáng)程26 m;比轉(zhuǎn)速49.88。信號(hào)采集選用的振動(dòng)加速度傳感器精度為±1%。
振動(dòng)加速度傳感器布置在離心泵進(jìn)口法蘭水平徑向。實(shí)驗(yàn)過程中先調(diào)節(jié)變頻電機(jī)的轉(zhuǎn)速使其達(dá)到設(shè)定轉(zhuǎn)速,然后調(diào)節(jié)泵的出口閥門,使其達(dá)到設(shè)定的流量位置,待運(yùn)行穩(wěn)定時(shí)采集數(shù)據(jù)。
轉(zhuǎn)子不平衡故障復(fù)現(xiàn)時(shí)分別用2.6、6.3、9 g 的配重塊安裝在聯(lián)軸器的螺栓上,使其產(chǎn)生質(zhì)量偏心。不同重量的配重實(shí)驗(yàn)時(shí),配重塊安裝在同一位置。為了提高該診斷模型在不同工況下的診斷率,根據(jù)泵的相似定律,每個(gè)配重實(shí)驗(yàn)分別在0.7n、0.85n、1.0n轉(zhuǎn)速工況,0.7Qn、0.85Qn、1.0Qn流量工況下進(jìn)行,共27組實(shí)驗(yàn)。
圖2 實(shí)驗(yàn)現(xiàn)場(chǎng)測(cè)點(diǎn)布置圖Fig.2 Layout of experimental points
轉(zhuǎn)子平行不對(duì)中故障復(fù)現(xiàn)時(shí),通過移動(dòng)電機(jī)的位置,使轉(zhuǎn)子產(chǎn)生不對(duì)中現(xiàn)象。不同平行不對(duì)中故障(30 絲、40 絲、50 絲)實(shí)驗(yàn)時(shí),分別在0.7n、0.85n、1.0n轉(zhuǎn)速工況,0.7Qn、0.85Qn、1.0Qn流量工況下進(jìn)行,共27組實(shí)驗(yàn)。
實(shí)驗(yàn)所用傳感器采集設(shè)定采集頻率為25 600 Hz,采樣時(shí)間1 s。其中正常、不平衡、不對(duì)中在1.0n、1.0Qn工況下進(jìn)口法蘭水平徑向的振動(dòng)加速度信號(hào)時(shí)域圖形如圖3所示。
圖3 不同設(shè)備狀態(tài)下時(shí)域圖Fig.3 Time domain diagram under different device states
由于不平衡、不對(duì)中的特征頻率主要出現(xiàn)在低頻段,本文分析頻譜圖時(shí)只截取0~500 Hz作為分析頻段。
圖4為正常工況下、不平衡程度為6.3 g、不對(duì)中程度為30絲時(shí)額定轉(zhuǎn)速、流量的軸承座測(cè)點(diǎn)的頻域圖。不平衡工況下對(duì)比正常工況下的頻域圖,可以看到圖中一倍頻(48.33 Hz)的幅值有所增大,這符合不平衡故障發(fā)生時(shí)的特征表現(xiàn),頻譜圖中出現(xiàn)6倍頻是由于實(shí)驗(yàn)泵所用葉輪為6葉片葉輪,出現(xiàn)的6倍頻為葉頻。不對(duì)中工況下對(duì)比相較于正常工況下的頻域圖,可以看到頻譜圖中二倍頻的幅值有所增大,同時(shí)一倍頻幅值有所降低,這符合轉(zhuǎn)子平行不對(duì)中故障發(fā)生時(shí)的特征表現(xiàn)。
圖4 頻域圖Fig.4 Frequency domain diagram
將實(shí)驗(yàn)采集獲得的數(shù)據(jù)進(jìn)行處理,按照上節(jié)特征提取方法提取故障特征參數(shù),得到一個(gè)315×14的故障特征矩陣并進(jìn)行標(biāo)簽標(biāo)記,采用模型訓(xùn)練方法主要分為以下幾個(gè)步驟進(jìn)行。
(1)故障特征集再構(gòu)建,將故障特征集作為隨機(jī)森林的輸入,利用隨機(jī)森林每次會(huì)有約1∕3 的樣本沒有參與決策樹的建立,得到每個(gè)特征的重要性測(cè)度指標(biāo),將重要性前6個(gè)的故障特征及隨機(jī)森林分類器得到的分類結(jié)果作為新特征集的組成,得到新故障特征集。
(2)SVM 算法屬于有監(jiān)督學(xué)習(xí)算法,是最優(yōu)秀的分類算法之一,廣泛的應(yīng)用于科學(xué)技術(shù)領(lǐng)域,因此本文選擇SVM 為故障識(shí)別的學(xué)習(xí)算法。由于支持向量機(jī)(SVM)中核函數(shù)半徑(g)、懲罰因子(c)難以選擇最優(yōu)的[17],本文選擇RBF 作為SVM 的核函數(shù),利用粒子群優(yōu)化支持向量機(jī)(PSO-SVM),尋找最優(yōu)的粒子點(diǎn)為SVM 的最優(yōu)核函數(shù)半徑和懲罰因子。將得到的新故障特征集等比例分組,50%作為SVM 的訓(xùn)練集,用于訓(xùn)練模型;50%作為SVM的測(cè)試集,用于驗(yàn)證模型。
本文中,隨機(jī)森林決策樹數(shù)量設(shè)為400,最小葉節(jié)點(diǎn)設(shè)置為5,將原始特征矩陣輸入得到每個(gè)特征的重要性評(píng)估由大到小排序如圖5所示。
圖5 特征重要性評(píng)估Fig.5 Characteristics importance evaluation
取重要性排序前6 的特征分別為峭度、方差、均方根、重心頻率、均方根頻率、標(biāo)準(zhǔn)差頻率。同時(shí)將隨機(jī)森林分類器得到的不同故障的分類概率結(jié)果作為新的故障特征,同重要性較高的6個(gè)特征最終得到一個(gè)新的315×9特征集。
故障特征矩陣進(jìn)行分組,分組情況如表2所示。
表2 故障特征分組情況Tab.2 Grouping of fault features
將分組后的原始故障特征矩陣與新故障特征矩陣的訓(xùn)練集分別輸入PSO-SVM 中進(jìn)行分類訓(xùn)練,PSO-SVM 適應(yīng)度曲線如圖6所示,從圖6中可以看出重構(gòu)后的原始特征在通過PSO算法計(jì)算最佳的適應(yīng)度在經(jīng)過第4 次迭代后達(dá)到最優(yōu),此時(shí)的最優(yōu)核函數(shù)半徑g等于0.01,懲罰因子c等于12.395 9,SVM 訓(xùn)練精度100%,相較于原始特征矩陣輸入SVM 中通過PSO 算法計(jì)算最佳的適應(yīng)度在經(jīng)過第33次迭代后達(dá)到最優(yōu),訓(xùn)練精度為85.6%,無論是迭代次數(shù)還是訓(xùn)練精度都有大幅度改善。
圖6 PSO-SVM 適應(yīng)度曲線Fig.6 PSO-SVM fitness curve
利用測(cè)試數(shù)據(jù)進(jìn)行故障診斷,得到的結(jié)果如圖7。從圖7中可以看出利用原始故障特征集進(jìn)行驗(yàn)證時(shí)有大部分正常狀態(tài)下的數(shù)據(jù)被識(shí)別成了不對(duì)中或不平衡,模型對(duì)正常狀態(tài)下的故障特征數(shù)據(jù)識(shí)別表現(xiàn)不好,不能很好的區(qū)分正常與不對(duì)中故障。數(shù)據(jù)顯示重構(gòu)特征矩陣訓(xùn)練的SVM 故障診斷模型對(duì)測(cè)試集的分類精度達(dá)到99.36%,相較于原始故障訓(xùn)練的SVM 故障診斷模型的識(shí)別精確度86.7%,對(duì)故障的識(shí)別精度有明顯的提升,其部分診斷概率詳情見表3。
表3 進(jìn)口法蘭水平徑向測(cè)點(diǎn)部分概率詳情Tab.4 Partial probability details of inlet flange horizontal and radial measurement points
圖7 進(jìn)口法蘭水平徑向測(cè)點(diǎn)PSO-SVM 診斷結(jié)果Fig.7 PSO-SVM diagnosis results of horizontal and radial measurement points of inlet flange
利用隨機(jī)森林篩選出的重要特征,并將其與隨機(jī)森林的分類結(jié)果重新組合形成新的故障特征矩陣,通過將原始特征矩陣與重構(gòu)后的特征矩陣分別輸入進(jìn)PSO-SVM,得到每組特征向量對(duì)應(yīng)不同標(biāo)簽的預(yù)測(cè)結(jié)果,主要的結(jié)論如下。
(1)重構(gòu)后的故障特征矩陣在進(jìn)入PSO-SVM 中進(jìn)行訓(xùn)練時(shí),表現(xiàn)出更好的適應(yīng)度,在尋優(yōu)過程中僅迭代4 次,便達(dá)到最佳訓(xùn)練精度,且訓(xùn)練精度明顯高于原始故障矩陣的訓(xùn)練精度,達(dá)到100%;
(2)進(jìn)行模型精度測(cè)試時(shí),重構(gòu)后的故障特征矩陣表現(xiàn)明顯好于原始故障特征矩陣,其測(cè)試精度達(dá)到99.36%,能夠明顯區(qū)分出正常、不對(duì)中、不平衡下的數(shù)據(jù)。