莊 燕
(九州職業(yè)技術(shù)學(xué)院,江蘇 徐州 221116)
滾動(dòng)軸承是旋轉(zhuǎn)設(shè)備中極其重要的零部件,常被稱(chēng)為“工業(yè)的關(guān)節(jié)”。軸承一般在高溫、重載、變載荷等極端環(huán)境中長(zhǎng)時(shí)間工作,因此容易發(fā)生裂紋、腐蝕失效、塑性變形等多種形式的故障。軸承故障會(huì)使機(jī)械設(shè)備或生產(chǎn)線停產(chǎn),嚴(yán)重時(shí)造成設(shè)備損毀或威脅人身安全[1]。因此,研究滾動(dòng)軸承的故障診斷技術(shù)具有重要的經(jīng)濟(jì)意義和安全意義。
對(duì)滾動(dòng)軸承故障進(jìn)行診斷主要流程包括3個(gè)重要方面,即信號(hào)采集、特征提取和模式診斷。3個(gè)流程具體為:(1)信號(hào)采集是依據(jù)診斷對(duì)象結(jié)構(gòu)特征,選擇傳感器和信號(hào)類(lèi)型,包括聲信號(hào)、溫度信號(hào)、振動(dòng)信號(hào)等。(2)特征提取是對(duì)采樣信號(hào)進(jìn)行處理和變換,得到能夠表征故障模式的特征參數(shù),包括時(shí)域參數(shù)、頻域參數(shù)、時(shí)頻域參數(shù)[2,3]、圖形參數(shù)特征等。(3)故障模式診斷主要有2種,即基于模型驅(qū)動(dòng)和基于數(shù)據(jù)驅(qū)動(dòng)的模式。其中,基于模型的診斷技術(shù)需要建立軸承動(dòng)力學(xué)模型,而精確模型和參數(shù)一般難以獲得,因此基于模型診斷方法使用較少?;跀?shù)據(jù)驅(qū)動(dòng)的診斷方法依據(jù)大量歷史數(shù)據(jù)進(jìn)行故障診斷,包括神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)[4]、深度神經(jīng)網(wǎng)絡(luò)[5]等。
范春旸等人[6]采用希爾伯特邊際譜的11個(gè)統(tǒng)計(jì)參數(shù)構(gòu)造了軸承故障的初始特征,而后對(duì)其進(jìn)行了降維,最終使用隨機(jī)森林算法對(duì)軸承進(jìn)行了故障模式識(shí)別;該方法雖然能有效地提取軸承故障特征,但是隨機(jī)森林算法存在無(wú)差別對(duì)待隨機(jī)樹(shù)的問(wèn)題。孫巖等人[7]使用多尺度卷積核Inception結(jié)構(gòu)和空間注意力機(jī)制替代神經(jīng)網(wǎng)絡(luò)的卷積層,從而提取了不同尺度、重點(diǎn)突出的軸承故障特征參數(shù),同時(shí)基于改進(jìn)膠囊網(wǎng)絡(luò)實(shí)現(xiàn)了對(duì)軸承的故障診斷;雖然該方法在噪聲環(huán)境下仍能取得較好診斷結(jié)果,但是膠囊網(wǎng)絡(luò)參數(shù)的整定較為困難,且一般要依賴(lài)人工經(jīng)驗(yàn)。王金東等人[8]使用復(fù)合多尺度模糊熵提取了軸承的間隙故障特征,并使用支持向量機(jī)對(duì)其進(jìn)行了故障識(shí)別;雖然該方法有效提取了軸承的故障時(shí)頻域特征,但是忽視了其他域的敏感特征,因此其故障診斷的準(zhǔn)確率有限。
針對(duì)特征參數(shù)敏感度問(wèn)題和隨機(jī)森林無(wú)差別對(duì)待隨機(jī)樹(shù)的問(wèn)題,筆者從故障特征提取和故障模式識(shí)別兩個(gè)角度對(duì)其進(jìn)行研究,即在故障特征提取方面,結(jié)合KPCA和t-SNE方法分別提取基礎(chǔ)故障庫(kù)的全局和局部結(jié)構(gòu)特征;而在故障模式診斷方面,為每個(gè)隨機(jī)樹(shù)賦予不同發(fā)言權(quán),從而提出基于專(zhuān)家森林算法的故障診斷方法。
首先,筆者從時(shí)域、頻域、時(shí)頻域等多個(gè)維度出發(fā),選擇能夠刻畫(huà)軸承故障狀態(tài)的初始特征庫(kù);而后,依據(jù)核主成分分析法(KPCA)提取初始參數(shù)中的全局非線性特征,并依據(jù)t-SNE挖掘高維特征參數(shù)的局部流形結(jié)構(gòu),提取局部結(jié)構(gòu)特征;最終,獲得用于故障診斷的低維特征參數(shù)。
筆者從時(shí)域、頻域、時(shí)頻域等3個(gè)維度中選擇軸承故障特征參數(shù)作為初始特征庫(kù);后續(xù)從初始特征庫(kù)中選擇較為敏感的參數(shù)作為模式識(shí)別參數(shù)。采用該方法可以大范圍概略地選擇時(shí)域、頻域、時(shí)頻域特征參數(shù)。
初始特征庫(kù)如表1所示。
表1 初始特征庫(kù)
KPCA依據(jù)非線性函數(shù)Φ,使低維線性不可分的參數(shù)映射為高維的線性可分;而后使用PCA降維方法,提取出初始特征庫(kù)中的全局非線性特征參數(shù)[9]。
筆者將原始數(shù)據(jù)記為(x1,x2,…,xM),使用非線性函數(shù)Φ將其映射到高維空間F后,協(xié)方差矩陣表示為:
(1)
式中:CF—協(xié)方差矩陣。
求解協(xié)方差矩陣CF的特征值和特征向量[10],即:
CFv=λv
(2)
式中:λ—矩陣CF的特征值;v—矩陣CF的特征向量。
特征向量v可以由Φ(xi)線性表示為:
(3)
式中:αi—線性系數(shù)。
結(jié)合式(1~3),則有:
(4)
定義一個(gè)M×M維的矩陣K,令Kij=[Φ(xi)Φ(xj)],則式(2)可以變形為:
Mλα=Kα
(5)
對(duì)矩陣K的特征值進(jìn)行排序,為λ1>λ2>…>λM,則前i個(gè)特征值的累積貢獻(xiàn)率ηi為:
(6)
式(6)中,特征值越大,表明對(duì)應(yīng)的特征向量越能夠代表軸承的故障特征。此處,筆者選擇累積貢獻(xiàn)率不小于95%的前s個(gè)主成分特征。
t-分布隨機(jī)鄰域嵌入(t-SNE)是一種用于非線性降維的機(jī)器學(xué)習(xí)算法,它將高維數(shù)據(jù)向低維映射時(shí),最大程度實(shí)現(xiàn)了相互間分布概率的相似性,解決了樣本數(shù)據(jù)的擁擠問(wèn)題[11]?;趖-SNE的參數(shù)降維與提取可由以下6個(gè)步驟來(lái)實(shí)現(xiàn)。
步驟1。計(jì)算高維聯(lián)合密度函數(shù)。筆者將初始高維數(shù)據(jù)序列維度設(shè)置為D,初始數(shù)據(jù)序列記為X=(x1,x2,…,xN)∈RD,則高維空間中任意兩點(diǎn)xi、xj的距離用概率密度函數(shù)衡量[12],即:
(7)
式中:σi—xi的高斯方差。
為了避免異常值問(wèn)題,將高維數(shù)據(jù)的聯(lián)合密度函數(shù)修正為:
(8)
式中:pij—修正后的聯(lián)合密度函數(shù);N—數(shù)據(jù)序列長(zhǎng)度。
步驟2。初始化低維數(shù)據(jù)。筆者將蘊(yùn)含在X中的低維流形記為Y=(y1,y2,…,yn)∈Rd。其中,d為低維流形維度,且d 則低維數(shù)據(jù)Y使用隨機(jī)初始化方法,即: Y(0)=N(0,10-4I) (9) 式中:Y(0)—初始化的低維數(shù)據(jù);I—D維單位向量。 步驟3。依據(jù)t分布計(jì)算低維數(shù)據(jù)的概率密度qij為[13]: (10) 步驟4。計(jì)算目標(biāo)函數(shù)梯度。以高維分布P和低維分布Q的相似度為代價(jià)函數(shù)C: (11) 式中:KL(P‖Q)—Y和Q之間的Kullback-Leibler散度。 則目標(biāo)函數(shù)梯度為: (12) 步驟5。低維數(shù)據(jù)的迭代公式。以迭代方式得到低維數(shù)據(jù)Y(t)為: (13) 式中:t—迭代次數(shù);η—學(xué)習(xí)效率;μ(t)—?jiǎng)恿恳蜃印?/p> 步驟6。重復(fù)步驟3~步驟5直到達(dá)到最大迭代次數(shù)T,而后得到低維數(shù)據(jù)Y(T)。 按照以上步驟,可以從高維數(shù)據(jù)中提取局部的流形結(jié)構(gòu)特征,得到低維特征參數(shù)。 基于KPCA全局特征與t-SNE局部特征的特征參數(shù)降維步驟為: 步驟1。采集軸承的原始振動(dòng)數(shù)據(jù),計(jì)算表1中的參數(shù)構(gòu)造原始故障特征參數(shù),而后進(jìn)行參數(shù)歸一化,得到初始故障特征庫(kù)X; 步驟2。以徑向基函數(shù)為核函數(shù),使用KPCA進(jìn)行參數(shù)降維,得到貢獻(xiàn)率不小于95%的特征參數(shù),以及基于全局特征的降維參數(shù)X1; 步驟3。以X1為高維數(shù)據(jù),使用t-SNE對(duì)數(shù)據(jù)進(jìn)行降維處理,得到基于局部流形結(jié)構(gòu)特征的降維特征參數(shù)X2。 故障特征的提取效果可以采用類(lèi)間間距Sw和類(lèi)內(nèi)間距Sb進(jìn)行評(píng)價(jià)。筆者將原始序列記為X=(x1,x2,…,xN)∈RD。 假設(shè)該數(shù)據(jù)序列具有L個(gè)模式類(lèi),第i類(lèi)的樣本數(shù)量為Ni,則類(lèi)間間距Sw和類(lèi)內(nèi)間距Sb分別為: (14) 隨機(jī)森林算法中一棵樹(shù)為一個(gè)決策單元,多個(gè)決策樹(shù)組成一個(gè)隨機(jī)森林,隨機(jī)森林算法中森林的決策結(jié)果為多數(shù)決策樹(shù)的輸出結(jié)果[15]。這種決策方式充分發(fā)揮了決策樹(shù)的民主作用,但是卻忽略了決策樹(shù)的個(gè)體差異,也即忽略了決策樹(shù)的專(zhuān)家屬性差異。為了解決這一問(wèn)題,筆者提出了一種專(zhuān)家森林算法。 筆者將原始數(shù)據(jù)集記為D,樣本數(shù)量記為N′,輸入特征數(shù)量記為M′,分類(lèi)標(biāo)簽記為Y。隨機(jī)森林的構(gòu)造包括抽樣、決策樹(shù)訓(xùn)練、決策樹(shù)決策、森林決策等步驟[14]。 (1)抽樣。使用bootstrap抽樣法從原始數(shù)據(jù)集D中有放回地抽取K個(gè)訓(xùn)練樣本,稱(chēng)為bootstrap樣本[16]; (2)決策樹(shù)訓(xùn)練?;诜诸?lèi)回歸樹(shù)構(gòu)建決策樹(shù),在決策樹(shù)的每個(gè)節(jié)點(diǎn)位置,從所有輸入特征中隨機(jī)選擇m個(gè)作為該節(jié)點(diǎn)的分裂特征集,而后依據(jù)基尼指數(shù)最小化準(zhǔn)則選擇最優(yōu)分裂特征和切分點(diǎn),從而將訓(xùn)練樣本劃分到兩個(gè)子節(jié)點(diǎn)中。重復(fù)以上步驟,直至決策樹(shù)訓(xùn)練完畢; (3)決策樹(shù)決策。使用bootstrap樣本按照上述步驟訓(xùn)練決策樹(shù),訓(xùn)練完畢的決策樹(shù)組成一個(gè)隨機(jī)森林{ti,i=1,2,…,K},ti表示決策樹(shù)i。將測(cè)試樣本x輸入到該隨機(jī)森林中,得到各決策樹(shù)的決策結(jié)果{ti(x),i=1,2,…,K}; (4)隨機(jī)森林決策。隨機(jī)森林的決策方式較為簡(jiǎn)單,一般取決策樹(shù)輸出的眾數(shù)作為隨機(jī)森林的決策結(jié)果,即[17]: (15) 式中:T(x)—隨機(jī)森林針對(duì)樣本x的決策結(jié)果。 如前所述,為決策樹(shù)賦予完全相同的投票權(quán)忽略了個(gè)體之間的專(zhuān)家屬性差異,即這是一種將專(zhuān)家決策和普通人決策同等視之的決策方法,因此其存在明顯的不合理。 為了解決這一問(wèn)題,筆者提出了專(zhuān)家森林算法,其基本思想為:在決策樹(shù)訓(xùn)練完畢后,增加一個(gè)預(yù)測(cè)試過(guò)程,根據(jù)決策樹(shù)的預(yù)測(cè)試準(zhǔn)確率為決策樹(shù)賦予不同的專(zhuān)家屬性和專(zhuān)家權(quán)值。 在傳統(tǒng)隨機(jī)森林算法[18]中,抽樣的K個(gè)bootstrap樣本全部為訓(xùn)練集。而在專(zhuān)家森林算法中,以隨機(jī)方式選擇0.8K個(gè)bootstrap樣本作為訓(xùn)練集,另外0.2K個(gè)bootstrap樣本作為預(yù)測(cè)試集。 決策樹(shù)i的預(yù)測(cè)試準(zhǔn)確率記為Ri,為: (16) 式中:Kcorrect—預(yù)測(cè)試集中決策正確的樣本數(shù)量;0.2K—預(yù)測(cè)試集中的樣本總數(shù)。 毫無(wú)疑問(wèn),決策樹(shù)預(yù)測(cè)試的準(zhǔn)確率可以代表決策樹(shù)的專(zhuān)家屬性。預(yù)測(cè)試準(zhǔn)確率越高,表示決策樹(shù)的專(zhuān)家性越強(qiáng),其做出的決策信服力也就越強(qiáng)。 為了讓專(zhuān)家決策樹(shù)充分發(fā)揮專(zhuān)家作用,筆者依據(jù)其預(yù)測(cè)試準(zhǔn)確率賦予其不同權(quán)重,即: (17) 式中:wi—決策樹(shù)i的專(zhuān)家權(quán)重。 專(zhuān)家森林根據(jù)加權(quán)決策值做出最終決定,為: (18) 式中:Tex(x)—專(zhuān)家森林決策結(jié)果。 此處筆者以美國(guó)凱斯西儲(chǔ)大學(xué)的軸承實(shí)驗(yàn)公開(kāi)數(shù)據(jù)作為數(shù)據(jù)來(lái)源,選擇SKF6205型軸承試驗(yàn)數(shù)據(jù);使用電火花加工技術(shù)在內(nèi)圈、外圈和滾動(dòng)體上加工出點(diǎn)蝕故障,障礙點(diǎn)直徑為0.177 8 mm,數(shù)據(jù)采樣頻率為48 kHz。 實(shí)驗(yàn)中,分正常狀態(tài)、內(nèi)圈故障、外圈故障、滾動(dòng)體故障等4種狀態(tài),每種狀態(tài)下各包含200個(gè)樣本,共800個(gè)樣本,每個(gè)樣本隨機(jī)截取0.1 s的原始數(shù)據(jù)。 首先,驗(yàn)證軸承故障特征提取方法的優(yōu)劣。為了進(jìn)行比較,筆者同時(shí)使用KPCA、t-SNE、KPCA與t-SNE結(jié)合的特征參數(shù)降維與提取方法。 3種方法對(duì)應(yīng)的參數(shù)降維后的空間分布如圖1所示。 圖1 不同方法提取的特征 圖2 不同提取方法的評(píng)價(jià)指標(biāo) 由圖2可知: 使用KPCA與t-SNE相結(jié)合提取的故障特征指標(biāo)參數(shù)值最大,其次為KPCA方法和t-SNE方法; 參數(shù)指標(biāo)值與圖1特征分布相對(duì)應(yīng),KPCA+t-SNE提取的特征不僅類(lèi)與類(lèi)之間區(qū)分明顯,而且類(lèi)內(nèi)樣本的聚集度較好; KPCA提取的特征類(lèi)間區(qū)分也較好,但是類(lèi)內(nèi)樣本的聚集度明顯差于KPCA+t-SNE組合法; T-SNE提取的外圈故障而后滾動(dòng)體故障間還存在交叉現(xiàn)象,因此其指標(biāo)參數(shù)最小。 從理論上講,KPCA法只提取了故障特征的全局特征,t-SNE只提取了故障特征的局部流形結(jié)構(gòu)特征;而KPCA+t-SNE方法充分挖掘了故障特征的全局和局部結(jié)構(gòu)特征,因此提取效果好于另外兩種方法。 筆者從每個(gè)狀態(tài)的200組樣本中抽取160組作為Bootstrap樣本。在傳統(tǒng)隨機(jī)森林算法中,該160組Bootstrap樣本直接用于決策樹(shù)訓(xùn)練。在專(zhuān)家森林算法中,隨機(jī)選擇其中的80%(即128組)作為訓(xùn)練集,其余的20%(即32組)作為預(yù)測(cè)試集。 待隨機(jī)森林算法和專(zhuān)家森林算法訓(xùn)練完畢后,筆者使用隨機(jī)森林算法和專(zhuān)家森林算法分別對(duì)剩余的40×4=160組測(cè)試樣本進(jìn)行故障診斷,其結(jié)果如圖3所示。 圖3 兩種森林算法的診斷結(jié)果 圖3所示的實(shí)驗(yàn)中,隨機(jī)森林算法的診斷準(zhǔn)確率為96.25%,專(zhuān)家森林算法的診斷準(zhǔn)確率為99.38%。 在本次實(shí)驗(yàn)中,專(zhuān)家森林的診斷準(zhǔn)確率高于隨機(jī)森林算法。為了進(jìn)行更加有力的比較,筆者按照上述步驟重復(fù)實(shí)驗(yàn)10次,每次實(shí)驗(yàn)抽取的訓(xùn)練樣本和測(cè)試樣本不同,統(tǒng)計(jì)10次實(shí)驗(yàn)的診斷準(zhǔn)確率參數(shù)。 兩種森林算法診斷準(zhǔn)確率如表2所示。 表2 兩種森林算法診斷準(zhǔn)確率 由表2可知: 隨機(jī)森林算法的診斷準(zhǔn)確率均值為96.14%,標(biāo)準(zhǔn)差為3.26%;而專(zhuān)家森林算法的診斷準(zhǔn)確率為99.48%,比隨機(jī)森林算法提高了3.47%;專(zhuān)家森林算法診斷準(zhǔn)確率標(biāo)準(zhǔn)差為0.87%,遠(yuǎn)小于隨機(jī)森林算法,說(shuō)明專(zhuān)家森林算法診斷結(jié)果更加穩(wěn)定。 以上數(shù)據(jù)說(shuō)明,專(zhuān)家森林算法的故障診斷準(zhǔn)確率高于隨機(jī)森林算法,且診斷穩(wěn)定性好于隨機(jī)森林算法。 這是因?yàn)閷?zhuān)家森林算法中,在訓(xùn)練階段對(duì)決策樹(shù)的專(zhuān)家屬性進(jìn)行了預(yù)測(cè)試,能夠較為準(zhǔn)確地評(píng)價(jià)決策樹(shù)的專(zhuān)家屬性,從而依據(jù)專(zhuān)家屬性賦予不同的專(zhuān)家權(quán)值,使其發(fā)言權(quán)與自身診斷能力成正比;而隨機(jī)森林將所有決策樹(shù)視為同等決策權(quán),忽略了個(gè)體間的差異,因此隨機(jī)森林算法的診斷性能差于專(zhuān)家森林算法。 針對(duì)特征參數(shù)敏感度問(wèn)題和隨機(jī)森林無(wú)差別對(duì)待隨機(jī)樹(shù)的問(wèn)題,筆者從故障特征提取和故障模式識(shí)別兩個(gè)角度對(duì)其進(jìn)行了研究,即在故障特征提取方面,結(jié)合KPCA和t-SNE方法分別提取基礎(chǔ)故障庫(kù)的全局和局部結(jié)構(gòu)特征;在故障診斷方面,為決策樹(shù)賦予專(zhuān)家屬性和專(zhuān)家權(quán)值,從而提出了專(zhuān)家森林算法。 經(jīng)驗(yàn)證得出以下研究結(jié)論: (1)基于KPCA與t-SNE結(jié)合方法提取的故障特征優(yōu)于兩種方法獨(dú)立提取的特征; (2)通過(guò)故障特征提取,不僅可以降低特征維度,降低計(jì)算量,而且可以提高特征向量對(duì)故障敏感程度; (3)專(zhuān)家森林算法由于在隨機(jī)樹(shù)上賦予了專(zhuān)家屬性,因此故障診斷準(zhǔn)確率高于隨機(jī)森林算法。 從軸承故障診斷的研究熱點(diǎn)和發(fā)展趨勢(shì)看,在今后的工作中筆者可以展開(kāi)以下3個(gè)方面的研究: (1)研究高敏感特征提取方法,使故障特征對(duì)故障模式更加敏感; (2)研究更加準(zhǔn)確的分類(lèi)方法,使模式識(shí)別更加精準(zhǔn); (3)研究基于深度學(xué)習(xí)的故障特征提取與模式識(shí)別一體化方法。1.4 特征參數(shù)降維步驟與評(píng)價(jià)參數(shù)
2 基于專(zhuān)家森林算法的故障識(shí)別
2.1 隨機(jī)森林算法
2.2 專(zhuān)家森林算法
3 實(shí)驗(yàn)與結(jié)果分析
3.1 實(shí)驗(yàn)設(shè)置與特征提取
3.2 故障模式診斷結(jié)果
4 結(jié)束語(yǔ)