陳代兵,袁壽其,裴吉,王文杰
(江蘇大學(xué)國家水泵及系統(tǒng)工程技術(shù)研究中心,江蘇 鎮(zhèn)江 212013)
離心泵廣泛應(yīng)用于人們的生產(chǎn)和生活各個領(lǐng)域.離心泵在偏工況下運(yùn)行時,其內(nèi)部流動趨于紊亂,激振力增強(qiáng),將導(dǎo)致效率下降,能耗上升,嚴(yán)重時引發(fā)安全事故[1].目前實際應(yīng)用中,仍存在大量離心泵未在其設(shè)計工況下運(yùn)行的情況[2].因此,為確保離心泵在設(shè)計工況下運(yùn)行,提出一種高效且可靠的工況識別方法對于離心泵在實際運(yùn)行中的調(diào)整具有重要意義.
對于泵類旋轉(zhuǎn)機(jī)械工況的識別診斷,目前研究主要集中在振動信號的分析處理、特征提取和分類器的設(shè)計及建模等方面.振動信號的分析處理和特征提取方法包括時域分析法、頻域分析法和時頻域分析法[3-4].在分類器的設(shè)計和建模方面,機(jī)器學(xué)習(xí)的方法應(yīng)用較廣泛.
時域分析和頻域分析能夠反映信號所包含的整體特征和頻率分量,但只能處理平穩(wěn)信號[5].小波變換[6]和希爾伯特黃變換[7]等時頻域分析方法雖然可以在時頻域?qū)φ駝有盘栠M(jìn)行有效處理,但都存在一定不足.小波變換的分解尺度與頻率沒有聯(lián)系,希爾伯特黃變換中經(jīng)驗?zāi)B(tài)分解方法存在模態(tài)混疊現(xiàn)象.因此,在應(yīng)用這些方法對離心泵振動信號分析時,需要做出相應(yīng)的改進(jìn).
人工神經(jīng)網(wǎng)絡(luò)[8-10]雖然在泵的工況識別中有大量的研究并取得一定成果,但神經(jīng)網(wǎng)絡(luò)的規(guī)則并不明確,存在網(wǎng)絡(luò)無法解釋的問題,并且需要大量的數(shù)據(jù)樣本對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,同時對計算機(jī)硬件要求較高.主成分分析方法[11]雖然對數(shù)據(jù)的主要成分進(jìn)行提取,降低了特征數(shù)據(jù)的維度,減小了計算成本,但與原始數(shù)據(jù)相比,可能會丟失一些信息,進(jìn)而對分類結(jié)果造成影響.支持向量機(jī)算法[12]被廣泛應(yīng)用于工況識別,一方面是因為它在小樣本中表現(xiàn)較好,另一方面,它的識別效率較高.支持向量機(jī)算法是一種二分類算法,在應(yīng)用到多分類任務(wù)時,往往需要對其進(jìn)行改進(jìn).
基于上述分析,文中對比研究經(jīng)驗?zāi)B(tài)分解及其改進(jìn)方法,選擇補(bǔ)充集合經(jīng)驗?zāi)B(tài)分解作為特征提取方法,并提出一種改進(jìn)二叉樹支持向量機(jī)模型用于離心泵工況識別.
希爾伯特黃變換(HHT)的本質(zhì)是通過經(jīng)驗?zāi)B(tài)分解(EMD)將多頻率分量的信號分解為一系列滿足單頻率分量條件的IMF.
為了計算HHT中的瞬時頻率,定義了IMF概念,HUANG等[13]提出IMF需滿足以下2個條件:
1) 所有數(shù)據(jù)的極值點(diǎn)、過零點(diǎn)數(shù)目相等或只差1個.
2) 任意時刻,上包絡(luò)線(局部極大值點(diǎn)定義)和下包絡(luò)線(局部極小值點(diǎn)定義)的平均值為0.
EMD可將復(fù)雜的非平穩(wěn)信號分解為若干個IMF,其頻率從高到低,各IMF頻率成分均不同.分解過程具有自適應(yīng)性,具體分解過程如下:
1) 計算原始數(shù)據(jù)x(t)的所有局部極大值和局部極小值,用三次樣條(cubic spline)分別將局部極大值串連為上包絡(luò)線v1(t),將局部極小值串連為下包絡(luò)線v2(t).
2) 將上下包絡(luò)線進(jìn)行平均,得到均值包絡(luò)線m(t)=v1(t)+v2(t).
3) 將原始信號x(t)與均值包絡(luò)線m(t)相減,得到第1個分量h1(t)=x(t)-m(t).
4) 檢查h1(t)是否符合IMF的條件,如果符合,則將h1(t)作為第1個IMF分量;如果不符合,將h1(t)作為原始數(shù)據(jù)返回步驟1),直到hk(t)符合IMF的條件,即得到第1個IMF分量c1(t)=h1(t).
5) 將原始信號減去c1(t)得到第1個剩余量r1(t)=x(t)-c1(t).
6) 將r1(t)重復(fù)上述步驟,依次得到第2個、第3個、…、第n個IMF分量,記作c1(t),c2(t),…,cn(t).當(dāng)分解到最后剩余分量rn(t)為單調(diào)函數(shù)時,分解過程結(jié)束.此時,信號x(t)可表示為
(1)
EMD方法雖然可以將信號按頻率從高到低順序分解,但也會導(dǎo)致不同IMF之間存在相近的時間尺度或同一IMF中包含較大差異的時間尺度信號,這種現(xiàn)象稱為模態(tài)混疊.
集合經(jīng)驗?zāi)B(tài)分解(ensemble empirical mode decomposition,EEMD)算法是針對模態(tài)混疊問題而提出的解決方法.EEMD算法通過在整個時頻空間中多次添加高斯白噪聲,再分解得到多個均值IMF分量作為最終結(jié)果[14], 即
xi(t)=x(t)+zi(t).
(2)
EEMD算法通過對信號添加噪聲來抑制模態(tài)分解,因此,由EEMD生成的IMF不可避免地受到增加的噪聲污染.
為消除EEMD算法產(chǎn)生的噪聲污染,YEH等[15]提出了互補(bǔ)集合經(jīng)驗?zāi)B(tài)分解(complementary ensemble empirical mode decomposition,CEEMD).CEEMD在原始信號中加入N對正、負(fù)輔助白噪聲,得到2N個信號,并對每個信號進(jìn)行EMD,最后組合計算結(jié)果.CEEMD過程與EEMD一樣,只是添加一種噪聲后再添加相反符號的噪聲,按照EMD分解得到IMFs.CEEMD不僅解決了模態(tài)混疊問題,而且對原始信號進(jìn)行了精確重構(gòu).
為了對EMD,EEMD和CEEMD進(jìn)行比較分析,文中設(shè)計了一個測試函數(shù),該測試函數(shù)由pulstran函數(shù)和正弦函數(shù)疊加而成,如圖1所示.圖中y1為pulstran函數(shù),y2為正弦函數(shù),y為疊加后的測試函數(shù).pulstran函數(shù)是基于連續(xù)的或采樣的原型脈沖生產(chǎn)脈沖序列,常用于分析振動數(shù)據(jù).
圖1 測試函數(shù)Fig.1 Test function
分別使用EMD,EEMD和CEEMD方法對信號進(jìn)行分解,結(jié)果如圖2所示.
圖2 3種方法的信號分解結(jié)果Fig.2 Results of three methods
由圖2可以看出,EMD方法的imf1和imf2分量明顯存在模態(tài)混疊現(xiàn)象,而EEMD和CEEMD方法的imf1和imf2分量無明顯的模態(tài)混疊跡象;EEMD方法中imf1和imf2分量的噪聲影響較大,而在CEEMD方法中,由于同時添加了正負(fù)2種噪聲,抵消了噪聲的影響.這表明CEEMD方法不僅可以克服EMD方法的模態(tài)混疊現(xiàn)象,而且可消除EEMD方法的噪聲影響.
測試函數(shù)分解結(jié)果說明,CEEMD克服了EMD和EEMD的缺點(diǎn),可將信號分解為不同頻帶內(nèi)穩(wěn)定的IMF分量.因此,在CEEMD的基礎(chǔ)上,計算各個IMF分量,并作為能量特征向量.計算步驟如下:
1) 使用CEEMD方法,對振動信號進(jìn)行分解,得到各個IMF分量,即
2) 計算前n個IMF分量的能量,即
(3)
3) 計算前n個IMF分量的能量總和,即
(4)
4) 構(gòu)建能量特征向量,即
F=E1,E2, …,En/E.
(5)
特征提取是將原始的振動信號轉(zhuǎn)換為不同工況的特征向量,通過特征向量的值判斷工況.然而特征向量與工況類型之間的函數(shù)關(guān)系很難用公式推導(dǎo)直接得出,文中根據(jù)數(shù)據(jù)樣本特性,采用支持向量機(jī)進(jìn)行分類.
支持向量機(jī)(support vector machine,SVM)[16]是一種在分類與回歸分析中分析數(shù)據(jù)的監(jiān)督式學(xué)習(xí)模型算法.SVM基于統(tǒng)計學(xué)理論的VC維和結(jié)構(gòu)風(fēng)險最小化原理,在小樣本時具有較好的性能表現(xiàn).
給定二維訓(xùn)練樣本集D={(x1,y1),(x2,y2),…,(xm,ym)},yi∈{-1,1},基于訓(xùn)練樣本集D在樣本空間中找到一個劃分超平面,將不同類別的樣本分開.劃分超平面可由式(6)表示,即
ωTx+b=0,
(6)
式中:ω=(ω1,ω2,…,ωd)為法向量;b為位移項.
假設(shè)超平面可將訓(xùn)練樣本正確分類,即對于(xi,yi)∈D,若yi=1,則有ωTxi+b>0;若yi=-1,則有ωTxi+b<0.即
(7)
如圖3所示,距離超平面最近的幾個訓(xùn)練樣本點(diǎn)使式(7)成立,稱這些樣本為“支持向量”(support vector),稱2個異類支持向量到超平面的距離之和為間隔(margin),其數(shù)學(xué)描述為
圖3 支持向量機(jī)示意圖Fig.3 Schematic diagram of support vector machine
(8)
為了保證分類的準(zhǔn)確率和系統(tǒng)的魯棒性,需找到具有最大間隔的劃分超平面,即
(9)
式(9)就是經(jīng)典SVM算法的數(shù)學(xué)模型.
SVM是一種二分類算法,在實際的多分類任務(wù)中,往往需要對其進(jìn)行推廣和改進(jìn).常用的多分類SVM簡單模型主要有一對一支持向量機(jī)(OVO-SVM)模型、一對多支持向量機(jī)(OVR-SVM)模型及二叉樹支持向量機(jī)(BT-SVM)模型等.其中,一對一支持向量機(jī)所需要構(gòu)造的子分類器的數(shù)量關(guān)于類別k呈超線性增長,共k(k-1)/2個,一對多支持向量機(jī)因訓(xùn)練樣本不對稱使得泛化誤差無界.
文中采用二叉樹支持向量機(jī)進(jìn)行多分類,但BT-SVM存在錯誤具有傳遞性的問題,即若上一節(jié)點(diǎn)分類錯誤,則此錯誤會沿二叉樹傳遞至下一節(jié)點(diǎn).為解決此問題,文中設(shè)計了一種基于k-means算法改進(jìn)的BT-SVM模型,通過k-means聚類算法,可以將樣本進(jìn)行聚類,求解樣本的簇索引和每個簇的質(zhì)心位置.根據(jù)簇索引,可知k-means將哪些數(shù)據(jù)樣本聚到一個簇.根據(jù)質(zhì)心位置,可得到各個簇在空間中的分布情況,以此構(gòu)建相應(yīng)結(jié)構(gòu)的二叉樹.
給定訓(xùn)練樣本集D={x1,x2,…,xm},k-means算法針對聚類所得簇劃分C={C1,C2,…,Ck}的最小化平方誤差[17]為
(10)
直觀看,式(10)在一定程度上刻畫了簇內(nèi)樣本圍繞簇均值向量的緊密程度,e值越小,表明簇內(nèi)樣本相似度越高.k-means算法采用貪心策略,通過迭代優(yōu)化近似求解式(10).k-means算法流程如圖4所示.
圖4 k-means算法流程圖Fig.4 Flow chart of k-means algorithm
改進(jìn)的二叉樹支持向量機(jī)模型是一種先聚類再分類的方法,即先使用k-means算法將k類樣本聚類成2個簇,再對每個簇進(jìn)行聚類,直到新的簇只包含一個類別.文中設(shè)計的改進(jìn)二叉樹支持向量機(jī)算法的工況識別流程如圖5所示.
圖5 改進(jìn)的BT-SVM工況識別流程Fig.5 Improved BT-SVM working condition identification process
為了對改進(jìn)的BT-SVM分類模型進(jìn)行驗證,搭建相應(yīng)的試驗臺,圖6為試驗臺示意圖.
圖6 試驗臺示意圖Fig.6 Schematic diagram of test stand
試驗臺主要由直流離心泵、渦輪流量計、進(jìn)口電動閥、出口電動閥、水箱以及相關(guān)管路組成,其中離心泵設(shè)計性能參數(shù)分別為揚(yáng)程H=10 m,流量Q=9 L/min,最高轉(zhuǎn)速n=6 400 r/min,最大功率P=45 W,整體尺寸70.0 mm×99.0 mm×99.5 mm.因離心泵較小,使用鋼架對其進(jìn)行固定,振動信號測點(diǎn)選擇為離心泵蝸殼.使用一臺計算機(jī)和一塊采集卡控制試驗臺出口閥門,并對流量進(jìn)行讀取.選用上海澄科CT1010LC型IEPE加速度傳感器,其靈敏度為100 mV/g,頻率為0.5~5 000.0 Hz,量程為±50 g,線性度≤1%,輸出阻抗R≤100 Ω,工作溫度為-20~100 ℃,采用磁鐵或者M(jìn)5螺絲固定安裝.使用振動信號采集系統(tǒng)對離心泵振動信號進(jìn)行采集.根據(jù)香農(nóng)采樣定律,實際應(yīng)用中采樣率至少為被采信號頻率的2.56倍,將采樣率設(shè)置為32 kHz.
試驗步驟如下:
1) 試驗臺搭建后啟動離心泵,觀察漏水情況,確保試驗安全和測量數(shù)據(jù)可靠.
2) 將電動機(jī)轉(zhuǎn)速調(diào)至6 400 r/min,出口閥門開度為100%,待離心泵穩(wěn)定運(yùn)行后,采集離心泵蝸殼振動信號0.1 s,共100組.
3) 調(diào)節(jié)出口閥門開度為75%,待離心泵穩(wěn)定運(yùn)行后,采集離心泵蝸殼振動信號0.1 s,共100組.
4) 調(diào)節(jié)出口閥門開度至50%,待離心泵穩(wěn)定運(yùn)行后,采集離心泵蝸殼振動信號0.1 s,共100組.
5) 調(diào)節(jié)出口閥門開度至25%,待離心泵穩(wěn)定運(yùn)行后,采集離心泵蝸殼振動信號0.1 s,共100組.
繪制4種工況下振動信號均值a曲線如圖7所示,可以看出,轉(zhuǎn)速為6 400 r/min時,出口閥門開度為100%工況的振動信號均值與其他3種出口閥門開度工況的有明顯區(qū)別,而閥門開度為25%,50%和75%時的振動信號仍存在交叉現(xiàn)象,其工況無法識別.
圖7 不同出口閥門開度時振動信號均值Fig.7 Average value of vibration signal of different outlet valve opening
定義出口閥門開度由小到大4種工況分別為class1,class2,class3和class4,每種工況的振動信號數(shù)據(jù)由100個樣本組構(gòu)成,總共400個樣本組.對4種工況的振動信號進(jìn)行特征提取,結(jié)果如圖8所示.
圖8 4種工況能量特征Fig.8 Energy characteristics of four operation conditions
由圖8可以看出,雖然不同工況振動信號特征提取的IMF分量的數(shù)量不同,但它們的能量分布都主要集中在前5個分量上,從第6個分量開始,特征的數(shù)量級已經(jīng)下降到10-5.因此,文中選擇前5個能量特征作為特征向量.
完成特征提取后,按照7∶3的比例對數(shù)據(jù)樣本進(jìn)行劃分,即class1到class4中,每類有70個訓(xùn)練樣本和 30個測試樣本.
應(yīng)用改進(jìn)的BT-SVM分類模型對離心泵的運(yùn)行工況進(jìn)行識別,并與OVO-SVM模型和OVR-SVM模型對比分析.采用訓(xùn)練集數(shù)據(jù)對3種多分類SVM模型進(jìn)行訓(xùn)練,利用測試集數(shù)據(jù)進(jìn)行預(yù)測,并將計算測試集中正確分類數(shù)占總數(shù)目的比例作為分類準(zhǔn)確率,同時記錄各個多分類SVM模型的訓(xùn)練時間.
OVO-SVM模型在進(jìn)行四分類任務(wù)時,一共要訓(xùn)練6個子SVM,其子SVM和整體模型分類準(zhǔn)確率T如表1所示.
表1 OVO-SVM分類結(jié)果Tab.1 OVO-SVM classification results
OVR-SVM模型在進(jìn)行四分類任務(wù)時,只需訓(xùn)練4個子SVM模型,其子SVM和整體模型分類準(zhǔn)確率如表2所示.
表2 OVR-SVM分類結(jié)果Tab.2 OVR-SVM classification results
BT-SVM模型在進(jìn)行四分類任務(wù)時,先使用k-means對訓(xùn)練樣本集進(jìn)行聚類,將樣本分為2個簇,查看每個簇對應(yīng)樣本的索引.再對每個子簇進(jìn)行聚類,并記錄新的子簇索引,直到每個子簇不可再分.最終得到如圖9所示的二叉樹支持向量機(jī)模型.
圖9 基于k-menas改進(jìn)的BT-SVM模型Fig.9 Improved BT-SVM model based on k-menas
由圖9可以看出,BT-SVM模型需要訓(xùn)練的子SVM模型數(shù)量最小,僅為3個,其子SVM和整體模型分類準(zhǔn)確率如表3所示.可以看出,改進(jìn)的BT-SVM模型整體分類準(zhǔn)確率可達(dá)82.17%.
表3 改進(jìn)BT-SVM分類結(jié)果Tab.3 Improved BT-SVM classification results
OVO-SVM模型、OVR-SVM模型、改進(jìn)BT-SVM模型的訓(xùn)練時間分別為4.129,1.350,1.343 s.
從3種多分類SVM模型的準(zhǔn)確率看,OVO-SVM模型和改進(jìn)的BT-SVM模型都有較好的表現(xiàn).其中OVO-SVM模型分類準(zhǔn)確率最高,改進(jìn)BT-SVM模型的分類準(zhǔn)確率次之,但差別較小,OVR-SVM模型的分類準(zhǔn)確率最低.
OVO-SVM模型之所以具有最高的分類準(zhǔn)確率,是因為它使用了更多的子SVM分類器.但OVO-SVM模型存在2個問題:一是其運(yùn)算時間是3種多分類模型中最長的,在面對更多類別分類問題時,將會消耗更多的時間成本;二是這種分類方法雖然更加細(xì)致,但在分類時,每個類都不止計算一次,在結(jié)果統(tǒng)計方面也更加復(fù)雜.
OVR-SVM模型由于樣本的不對稱性,在訓(xùn)練時,模型會對數(shù)據(jù)量更大的類別做出傾斜.因此,在樣本相似度較高的時候,分類準(zhǔn)確率會相應(yīng)降低.雖然BT-SVM的樣本也不對稱,但二叉樹的結(jié)構(gòu)使得每次分類時都是將區(qū)別最大的樣本分出,因此準(zhǔn)確率相對更高.
綜上所述,文中設(shè)計的基于k-means改進(jìn)的BT-SVM模型相比于其他多分類SVM模型,分類準(zhǔn)確率較高,模型訓(xùn)練時間短,具有更好的綜合表現(xiàn).
1) CEEMD作為EMD及EEMD的改進(jìn)算法,不僅解決了EMD存在的模態(tài)混疊現(xiàn)象,而且克服了EEMD添加白噪聲的影響,能夠?qū)υ夹盘栠M(jìn)行更加精確重構(gòu).
2) 相較于OVO-SVM模型和OVR-SVM模型,改進(jìn)的BT-SVM模型分類準(zhǔn)確率更好,并且其結(jié)構(gòu)簡單,大大縮減了計算時間,綜合表現(xiàn)更好.