王得雪,林 意,陳俊杰
1.江南大學(xué) 數(shù)字媒體學(xué)院,江蘇 無錫214122
2.江蘇省媒體設(shè)計(jì)與軟件技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 無錫214122
3.西門子中國(guó)研究院,北京100102
滾動(dòng)軸承是旋轉(zhuǎn)機(jī)械中最常見、最容易損壞的部件之一。在工程實(shí)踐中,滾動(dòng)軸承的失效會(huì)造成巨大的生產(chǎn)損失和人員傷亡。因此,研究滾動(dòng)軸承的故障診斷,對(duì)于防止意外發(fā)生具有重要的意義[1]。
滾動(dòng)軸承的故障診斷主要包括特征提取和狀態(tài)識(shí)別。針對(duì)原始振動(dòng)信號(hào),往往從時(shí)域、頻域或時(shí)頻域等方面提取反映機(jī)械設(shè)備運(yùn)行狀態(tài)的量化指標(biāo)。然而特征指標(biāo)的增多會(huì)造成特征空間維數(shù)災(zāi)難,特征集不可避免地包含干擾甚至噪聲特征[2],使診斷效果變差。并且在傳統(tǒng)的軸承故障診斷中,需要使用大量標(biāo)記樣本訓(xùn)練模型以預(yù)測(cè)未知樣本的標(biāo)記,數(shù)據(jù)的標(biāo)記需要消耗大量的人力、物力,實(shí)際應(yīng)用中往往會(huì)出現(xiàn)少量“昂貴的”有標(biāo)記數(shù)據(jù)與大量“廉價(jià)的”未標(biāo)記數(shù)據(jù)共存的情況[3]。
近年來,特征向量維數(shù)高和標(biāo)記樣本稀缺問題引起廣泛的關(guān)注。李軍利等[4]提出SVDD-KFCM算法,該算法通過支持向量數(shù)據(jù)描述(SVDD)方法,利用已知的正常樣本建立超球邊界,再對(duì)未知樣本進(jìn)行判斷。選擇正常和潛在故障樣本在輸入空間的中心作為模糊核聚類(KFCM)的初始聚類中心,克服了無監(jiān)督模糊核聚類算法初始聚類中心隨機(jī)確定導(dǎo)致分類盲目性的不足。然而該算法是針對(duì)在故障樣本缺失情況下,如何進(jìn)行故障檢測(cè),不能做進(jìn)一步的故障診斷;李磊等[5]提出半監(jiān)督線性局部切空間排列算法(SS-LLTSA),利用部分標(biāo)簽信息來調(diào)整樣本點(diǎn)與點(diǎn)之間的距離以形成新的距離矩陣,通過新的距離矩陣進(jìn)行鄰域構(gòu)建,實(shí)現(xiàn)了數(shù)據(jù)本質(zhì)流行結(jié)構(gòu)和類別標(biāo)簽信息的結(jié)合,能夠提取區(qū)分度更好的低維特征。但該算法在選擇合適的目標(biāo)維數(shù)d和鄰域參數(shù)k時(shí),需要通過多次實(shí)驗(yàn)才能確定;楊望燦等[6]提出基于改進(jìn)半監(jiān)督局部保持投影算法(ISS-LPP),自適應(yīng)地調(diào)整鄰域參數(shù),充分利用帶有標(biāo)簽的樣本,重新構(gòu)建原始特征空間中樣本間的權(quán)值矩陣,從而得到有利于分類的低維特征向量和投影轉(zhuǎn)換矩陣。該算法提高了低維特征向量的辨識(shí)度,且利用參數(shù)尋優(yōu)為最小二乘支持向量機(jī)(LS-SVM)分類器設(shè)置了合適的參數(shù),提高了軸承故障診斷正確率。但對(duì)原空間的降維,依然需要設(shè)置合適的目標(biāo)維數(shù)和初始鄰域參數(shù),不同工況的數(shù)據(jù)集,設(shè)置的參數(shù)不同,這給實(shí)際應(yīng)用帶來不便。
鑒于Co-Forest算法是以隨機(jī)樹(Random Tree)作為基分類器的集成分類器,隨機(jī)樹是基于特征集中少數(shù)幾個(gè)特征而構(gòu)建的,這可以避免“維數(shù)災(zāi)難”問題的發(fā)生[7]。且隨機(jī)森林有一個(gè)重要的優(yōu)點(diǎn)是,沒有必要對(duì)它進(jìn)行交叉驗(yàn)證或者用一個(gè)獨(dú)立的測(cè)試集來獲得誤差的一個(gè)無偏估計(jì),它在內(nèi)部進(jìn)行評(píng)估,在生成的過程中就對(duì)誤差建立一個(gè)無偏估計(jì)[8]?;贑o-Forest的軸承故障診斷算法,改善了維數(shù)災(zāi)難和標(biāo)記樣本稀缺問題,提高了故障診斷的正確率,不需要進(jìn)行維數(shù)約簡(jiǎn)參數(shù)和分類器參數(shù)的尋優(yōu)操作,給實(shí)際的應(yīng)用帶來便利。
半監(jiān)督學(xué)習(xí)是在數(shù)據(jù)集上尋找最優(yōu)的分類器,目的是利用帶標(biāo)簽數(shù)據(jù)和未標(biāo)記數(shù)據(jù)學(xué)習(xí)設(shè)計(jì)分類模型,使得該模型比僅使用帶標(biāo)簽數(shù)據(jù)分類性能更好[9]。
按學(xué)習(xí)方式的不同,常見的半監(jiān)督分類算法可大致分為四類:基于生成模型的算法、基于支持向量機(jī)、基于圖的算法以及基于分歧的算法[10]。基于分歧的算法由于其受到模型假設(shè)影響少、學(xué)習(xí)方法簡(jiǎn)單、理論基礎(chǔ)堅(jiān)實(shí)等優(yōu)點(diǎn),被廣泛地應(yīng)用于文本分析、網(wǎng)絡(luò)入侵檢測(cè)、圖像識(shí)別等領(lǐng)域?;诜制绲乃惴ㄆ鹗加?998年Blum等人提出的Co-Training算法[11],當(dāng)滿足充分視圖和冗余視圖的要求時(shí),分類器在未標(biāo)記數(shù)據(jù)上的一致性最大化,泛化誤差較小[12]。此后,為解決視圖不充分、置信度估計(jì)、分類準(zhǔn)確率等問題,出現(xiàn)了一系列的改進(jìn)算法。周志華等人先后提出的基于三個(gè)和多個(gè)基分類器進(jìn)行協(xié)同訓(xùn)練的Tri-Training算法[13]和Co-Forest算法[14]最具有代表性,后來的研究人員將這兩種算法應(yīng)用到不同領(lǐng)域[15-17]。
周志華等(2005)提出了Tri-Training算法:在原始數(shù)據(jù)集上抽取出有差異的子集,通過訓(xùn)練得到有差異的分類器。Tri-Training采用了三個(gè)基分類器(hi,hj,hk,其中i≠j≠k),未標(biāo)記樣本的標(biāo)記由簡(jiǎn)單投票法則確定。詳細(xì)情況是:如果分類器hi和hj對(duì)未標(biāo)記樣本xi的標(biāo)記是相同的,那么就把未標(biāo)記樣本xi及其標(biāo)記結(jié)果y加入到分類器hk的標(biāo)記訓(xùn)練樣本集中。
Tri-training算法通過判斷分類器的預(yù)測(cè)一致性來隱式地對(duì)不同未標(biāo)記樣本的標(biāo)記置信度進(jìn)行比較,這一做法使得該算法不需要頻繁使用耗時(shí)的統(tǒng)計(jì)測(cè)試技術(shù),但與顯式地估計(jì)置信度的方法相比,這一隱式處理往往不夠準(zhǔn)確,特別是如果初始分類器較弱,未標(biāo)記樣本可能被錯(cuò)誤標(biāo)記,從而給第三個(gè)分類器的訓(xùn)練引入噪音[18]。周志華等對(duì)Tri-training進(jìn)行了擴(kuò)展,提出了可以更好發(fā)揮集成學(xué)習(xí)作用的Co-Forest算法。
Co-Forest算法擁有多個(gè)基分類器,對(duì)于單個(gè)分類器hi( i ∈{1,2,…,N}),它的協(xié)同分類器集合是Hi(除hi之外的所有的基分類器)。Hi將高置信度的未標(biāo)記樣本加入到已標(biāo)記訓(xùn)練樣本中,以迭代更新的基分類器hi,從而提高分類器的整體性能[19]。核心步驟如下:
步驟1采用隨機(jī)子空間和抽樣方法,利用已標(biāo)記數(shù)據(jù)集L抽取出多個(gè)子集L*={l1,l2,…,lN} ,初始化多個(gè)基分類器,由此構(gòu)成初始分類器集合H*={h1,h2,…,hN}。
步驟2對(duì)于每一個(gè)基分類器hi,利用袋外數(shù)據(jù)(out of bag)估計(jì)Hi在第t輪訓(xùn)練后的分類誤差ei,t。若ei,t<ei,t-1,Hi挑選出未標(biāo)記樣本集U中的高置信度樣本集Li,t,并將其加入到hi的原訓(xùn)練集中,利用L?Li,t訓(xùn)練更新基分類器hi。
步驟3重復(fù)步驟2,直到所有基分類器都不再滿足更新條件。
步驟2中協(xié)同分類器集合Hi對(duì)未知樣本xi(xi∈U)的標(biāo)記置信度wxi計(jì)算如下:
其中,y∈{1,2,…,M},M表示故障的類別數(shù),N表示Co-Forest中樹的數(shù)目,也是基分類器的個(gè)數(shù)。表示Hi中對(duì)樣本xi的標(biāo)記類別為y的分類器個(gè)數(shù)。標(biāo)記后的未知樣本xi是不是高置信度樣本,判斷如下:
置信度閾值θ(0~1)不宜設(shè)置太大,防止過擬合,一般設(shè)置為0.75。
高置信度的新標(biāo)記樣本的錯(cuò)誤標(biāo)記是不可避免的,周志華等在Co-Forest算法中加入了在噪聲環(huán)境下確保分類錯(cuò)誤率收斂的控制條件??紤]一個(gè)關(guān)于訓(xùn)練樣本集容量m,分類器的預(yù)測(cè)錯(cuò)誤率ε與數(shù)據(jù)噪聲率η的關(guān)系式如下:
其中,c是固定常數(shù)。式(1)中wxi表示樣本xi的置信度,為了降低使用大量無標(biāo)記樣本帶來的負(fù)面影響,使用置信度對(duì)訓(xùn)練樣本進(jìn)行加權(quán),則L中所有樣本的權(quán)重之和:
其中,m0表示L中樣本個(gè)數(shù)。同樣Li,t的權(quán)重之和:
其中,mi,t表示在t輪迭代中Li,t的個(gè)數(shù),wi,t,j表示在t輪迭代中未知樣本xj的標(biāo)記置信度。
第t輪,hi是在大小為m0的初始標(biāo)記樣本集L和大小為mi,t的新標(biāo)記樣本集Li,t上進(jìn)行更新。令ei,t表示Hi在Li,t分類錯(cuò)誤率,加權(quán)后的樣本集Li,t中被錯(cuò)誤分類的個(gè)數(shù)是ei,twi,t。令ηL表示L的噪音率,加權(quán)后的樣本集L中噪音數(shù)據(jù)的個(gè)數(shù)是ηLw0。求第t輪訓(xùn)練樣本集 |Li?Li,t|上的噪音率:
將式(7)代入式(4)得出:
步驟2中不斷地更新訓(xùn)練hi,要保證hi在第t輪的預(yù)測(cè)錯(cuò)誤率小于上一輪的預(yù)測(cè)錯(cuò)誤率,即εi,t<εi,t-1,由式(4)知在訓(xùn)練過程中就必須滿足μi,t>μi,t-1,得到:
考慮到L的噪音率η0很小,當(dāng)式(9)左邊第一項(xiàng)大于右邊第一項(xiàng),即wi,t>wi,t-1,同時(shí)左邊第二項(xiàng)大于右邊第二項(xiàng)時(shí),即ei,twi,t<ei,t-1wi,t-1時(shí),公式(9)不等式關(guān)系必成立。進(jìn)一步精煉得到的約束條件:
根據(jù)式(10)要確保ei,t<ei,t-1和wi,t>wi,t-1同時(shí)成立。對(duì)于wi,t?wi,t-1,導(dǎo)致ei,twi,t>ei,t-1wi,t-1這一情況,需要抽取Li,t的子集L′i,t作為新標(biāo)記樣本集:
Hi對(duì)子集L′i,t中每一個(gè)數(shù)據(jù)遍歷,保留高置信度的樣本,同時(shí)更改新標(biāo)記樣本的置信度之和wi,t,使得:
如圖1所示,SQI-MFS實(shí)驗(yàn)平臺(tái)由電機(jī)、變頻器、軸承、底座支撐架組成。其中軸承型號(hào)為MBER-16K,實(shí)驗(yàn)平臺(tái)利用PCB公司生產(chǎn)的608A11型號(hào)加速度傳感器和NI公司的數(shù)據(jù)采集卡NI9234采集軸承的振動(dòng)信號(hào)。該平臺(tái)可以模擬健康或各類故障軸承在不同轉(zhuǎn)速和不同負(fù)載下的運(yùn)行狀態(tài)。
圖1 SQI-MFS實(shí)驗(yàn)平臺(tái)
如圖2所示,從左至右、從上至下,分別為混合故障軸承、內(nèi)圈故障軸承、外圈故障軸承以及滾珠故障軸承的實(shí)物圖。
圖2 四種故障狀態(tài)的軸承實(shí)物圖
實(shí)驗(yàn)采集了不同轉(zhuǎn)速,不同負(fù)載下的振動(dòng)數(shù)據(jù),分別為:3種負(fù)載(0、1、3個(gè)轉(zhuǎn)子負(fù)載)×3種轉(zhuǎn)速(10 Hz、20 Hz、30 Hz)×5種類型。這5種類型分別是:健康、滾珠故障、內(nèi)圈故障、外圈故障軸承以及混合故障(故障軸承的故障點(diǎn)大小為19.05 mm)。其中轉(zhuǎn)子負(fù)載數(shù)為3個(gè),轉(zhuǎn)速為30 Hz的混合故障數(shù)據(jù)缺失,但并不影響實(shí)驗(yàn)。將數(shù)據(jù)分別按負(fù)載(3種)和電機(jī)轉(zhuǎn)速(3種)分成9組(采樣頻率為25.6 kHz)。
首先,利用窗口大小是2 048,步長(zhǎng)是1 024的滑動(dòng)窗口劃過軸承數(shù)據(jù),得到多段非平穩(wěn)的時(shí)間序列;然后,再對(duì)每一段時(shí)間序列求得時(shí)域特征和頻域特征。選擇的時(shí)域和頻域特征指標(biāo)如表1所示。9組數(shù)據(jù)經(jīng)過特征提取后,特征數(shù)、數(shù)據(jù)大小和數(shù)據(jù)類別如表2所示。
表1 特征表
表2 實(shí)驗(yàn)數(shù)據(jù)
將每一組數(shù)據(jù)分為訓(xùn)練集train和測(cè)試集test,比例為1∶1,其中train分為已標(biāo)記樣本集L和未標(biāo)記樣本集U。
實(shí)驗(yàn)1上述9組數(shù)據(jù)中隨機(jī)選擇一組數(shù)據(jù),觀察Co-Forest算法診斷正確率、算法的運(yùn)行時(shí)間與樹的數(shù)量之間的關(guān)系,這里選擇第4組數(shù)據(jù)做實(shí)驗(yàn),結(jié)果如表3所示。
表3 正確率、運(yùn)行時(shí)間與樹的數(shù)量之間的關(guān)系
實(shí)驗(yàn)2從表3可以看出,隨著樹的數(shù)量增加,Co-Forest算法在軸承故障診斷中的正確率提高不明顯,但是算法的運(yùn)行時(shí)間顯著地增加。將Co-Forest算法中樹的數(shù)量設(shè)置為100棵,在已標(biāo)記數(shù)據(jù)(L)占訓(xùn)練集(訓(xùn)練集∶測(cè)試集=1∶1)20%、50%、80%情況下,比較同類型的三種協(xié)同訓(xùn)練半監(jiān)督學(xué)習(xí)算法的故障診斷正確率。
通過進(jìn)行多次分類器選擇嘗試,其中為了讓Co-Training算法具有較好的置信度估計(jì)依據(jù),基分類器選擇樸素貝葉斯分類器,后驗(yàn)概率作為置信度估算依據(jù)。Tri-Training的基分類器選擇以信息增益率作為劃分屬性的決策樹,實(shí)驗(yàn)結(jié)果如表4所示。
實(shí)驗(yàn)3進(jìn)一步將Co-Forest算法與當(dāng)前針對(duì)特征向量高維、標(biāo)記樣本稀缺問題的ISS-LPP算法[6]、SS-LLTSA算法[5]作比較,實(shí)驗(yàn)結(jié)果如表5所示。表中目標(biāo)維數(shù)d值、鄰域參數(shù)k值經(jīng)過大范圍尋優(yōu),然后縮小范圍,最后多次實(shí)驗(yàn)確定,對(duì)應(yīng)的是較理想的故障診斷精度。
實(shí)驗(yàn)4表4、表5顯示的是已標(biāo)記數(shù)據(jù)集在訓(xùn)練集的占比為20%、50%、80%的情況下,幾種算法的診斷正確率對(duì)比情況。實(shí)驗(yàn)結(jié)果顯示:Co-Forest算法具有較高的診斷正確率,參數(shù)配置簡(jiǎn)單。接下來模擬幾種算法在連續(xù)占比為0.05~0.8下的正確率情況,隨機(jī)選擇第1、6這兩組數(shù)據(jù)做實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖3、圖4所示。
綜合以上4個(gè)實(shí)驗(yàn),可得出以下結(jié)論:
由于Co-Forest算法的分類器是隨機(jī)森林,隨機(jī)森林的基分類器是串行的,故會(huì)隨著樹的數(shù)量增加,算法的運(yùn)行時(shí)間增加。表1中正確率并沒有因?yàn)闃涞臄?shù)量增加而顯著增加,不建議將樹的數(shù)量設(shè)置很大。
表4 幾種協(xié)同算法的診斷結(jié)果比較
圖3 第1組數(shù)據(jù)的診斷正確率情況
表4在不同的L/(L+U)情況下,Co-Forest算法結(jié)合了協(xié)同訓(xùn)練和集成學(xué)習(xí)的思想,故障診斷正確率較高于Co-Training、Tri-Training算法。表5中的ISS-LPP、Co-forest都具有較好的診斷效果,但I(xiàn)SS-LPP算法使用最小二乘支持向量機(jī)(LS_SVM)分類器進(jìn)行故障診斷,LS_SVM分類器的參數(shù)選擇需要進(jìn)行參數(shù)尋優(yōu)操作,且該算法需要對(duì)特征空間進(jìn)行降維,過程中的參數(shù)選擇需要多次試驗(yàn)才能確定。
圖3、圖4顯示隨著標(biāo)記樣本的增多,Co-Forest、ISSLPP算法的診斷正確率提高,最后趨于穩(wěn)定,但Co-Forest算法在第1組數(shù)據(jù)上診斷效果優(yōu)于ISS-LPP算法,且Co-Forest算法在標(biāo)記樣本非常少的情況下,也有較好的診斷效果。
表5 Co-forest算法與ISS-LPP、SS-LLTSA算法對(duì)比
圖4 第6組數(shù)據(jù)的診斷正確率情況
基于Co-Forest的軸承故障診斷算法利用SQI實(shí)驗(yàn)平臺(tái)的軸承數(shù)據(jù),進(jìn)行多種算法的對(duì)比性實(shí)驗(yàn)。與同類型的算法Co-Training和Tri-Training相比:在已標(biāo)記數(shù)據(jù)占訓(xùn)練集20%、50%、80%情況下,Co-Forest的診斷正確率有所提高;與用標(biāo)記訓(xùn)練樣本協(xié)助維數(shù)約簡(jiǎn)的半監(jiān)督學(xué)習(xí)算法(SS-LLTSA、ISS-LPP)相比:Co-Forest算法具有較好診斷效果,參數(shù)配置簡(jiǎn)單,且不需要復(fù)雜的維數(shù)約簡(jiǎn)處理。在特征提取方面,這里提取了時(shí)域和頻域中常見的、易得到的特征,Co-Forest算法直接對(duì)樣本的特征空間進(jìn)行分析和預(yù)測(cè),實(shí)驗(yàn)顯示Co-Forest算法具有很高的診斷正確率。因此,Co-Forest算法在滾動(dòng)軸承故障診斷方面有著較好的實(shí)際推廣意義。軸承狀態(tài)的變化是漸變的過程,能敏感識(shí)別出軸承故障狀態(tài)突變點(diǎn)是今后努力的方向。
致謝 感謝西門子中國(guó)研究院提供的幫助。