朱 朋,董紹江,李 洋,裴雪武,潘雪嬌
(重慶交通大學 機電與車輛工程學院,重慶 400074)
滾動軸承作為旋轉(zhuǎn)機械的關(guān)鍵零部件之一,其健康狀態(tài)直接關(guān)系到設(shè)備的運行可靠性,一旦發(fā)生故障,將可能對人員安全與經(jīng)濟效益產(chǎn)生巨大的影響[1]。通常,旋轉(zhuǎn)機械由于功率時變而經(jīng)常以時變的速度運行,且實際工作環(huán)境對軸承振動信號將會產(chǎn)生較大的干擾[2]。在時變轉(zhuǎn)速、強噪音的變工況環(huán)境下采集到的滾動軸承振動信號存在特征漂移,傳統(tǒng)故障診斷模型泛化性較差,需提出新的智能診斷算法。
階次跟蹤[3]是診斷時變轉(zhuǎn)速軸承故障的主要方法之一,其主要步驟為轉(zhuǎn)速提取、重采樣、階次頻譜分析和故障診斷。但該方法受轉(zhuǎn)速計安裝位置和等角度重采樣精度影響較大,針對此問題,高冠琪等[4]提出了一種基于時頻擠壓的轉(zhuǎn)頻估計方法;趙德尊等[5]提出了基于自適應(yīng)廣義解調(diào)變換的滾動軸承時變非平穩(wěn)故障特征提取方法。但這些方法都存在不足:準確提取速度的時頻算法在很大程度上依賴于信號處理技術(shù)的先驗知識;即使能夠準確提取出滾動軸承運行時的時變速度,也需要大量的專家知識才能準確診斷出是否發(fā)生故障。
近年來,隨著計算機網(wǎng)絡(luò)技術(shù)的發(fā)展,深度學習理論在故障診斷中受到了廣泛的研究。An等[6]針對時變轉(zhuǎn)速工況下滾動軸承的故障診斷問題,受無窮小思想的啟發(fā)結(jié)合長短時記憶(long short-term memory,LSTM)網(wǎng)絡(luò),提出了基于遞歸神經(jīng)網(wǎng)絡(luò)的時變工況下滾動軸承智能故障診斷算法。Han等[7]針對轉(zhuǎn)速波動對滾動軸承故障識別精度影響較大的問題,提出一種新的深度神經(jīng)網(wǎng)絡(luò)模型,主要創(chuàng)新是采用稀疏過濾提取振動信號特征,并將批歸一化操作添加到每一網(wǎng)絡(luò)層后以減少速度波動的影響。這些智能診斷算法獲取較高準確率的前提是具有足量的含有標簽的訓練樣本[8]。但是,在實際工業(yè)環(huán)境中,獲取含有足量標簽的故障樣本費時費力,制約了神經(jīng)網(wǎng)絡(luò)在軸承診斷中的應(yīng)用。
針對以上問題,遷移學習把少量含有標簽的源域知識遷移到無標簽的目標域中,使得網(wǎng)絡(luò)模型具有較好的泛化性、魯棒性。Li等[9]提出了基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的深度遷移框架,通用特征提取器采用多層卷積神經(jīng)網(wǎng)絡(luò),特定任務(wù)自適應(yīng)層采用多核最大均值差異(multi-kernel maximum mean discrepancies,MK-MMD)度量準則進行源域與目標域的自適應(yīng)。較多學者[10-11]針對變負載工況下軸承的故障診斷問題提出了遷移學習模型,并獲得了較好的診斷效果。但是,強噪音環(huán)境對遷移學習任務(wù)的影響,以上文獻未進行進一步研究。
針對滾動軸承待測樣本在強噪音、時變轉(zhuǎn)速的工況下診斷困難的問題。本文結(jié)合殘差網(wǎng)絡(luò)(residual neural network,ResNet)和通道注意力機制搭建了殘差通道注意力弱共享網(wǎng),進行通用特征的提取。在源域與目標域數(shù)據(jù)分布差異較大時,能使網(wǎng)絡(luò)模型更好的學習目標域的特征。域自適應(yīng)層采用局部最大均值差異(local maximum mean discrepancy,LMMD)度量準則進行源域與目標域的條件分布對齊,在強噪音、時變轉(zhuǎn)速條件下模型具有較好的泛化性、魯棒性。
在卷積神經(jīng)網(wǎng)絡(luò)中,隨著網(wǎng)絡(luò)層數(shù)的加深,將會面臨梯度消失、性能退化等問題。針對該問題,學者He等[12]提出深度殘差網(wǎng)絡(luò),通過跨層連接來抑制網(wǎng)絡(luò)加深過程中出現(xiàn)性能退化的缺點。殘差單元結(jié)構(gòu)圖如圖1所示,假設(shè)其神經(jīng)網(wǎng)絡(luò)的輸入為x,期望輸出為H(x),直接將x跨層到后面作為輸出結(jié)果,則學習目標變成為F(x)=H(x)-x。
圖1 殘差單元示意圖Fig.1 Schematic diagram of residual unit
為了實現(xiàn)源域和目標域之間的領(lǐng)域自適應(yīng),需要相應(yīng)的測試統(tǒng)計量來度量分布差異[13]。其中一種較常用的統(tǒng)計量是最大均值差異(maximum mean discrepancy,MMD),該統(tǒng)計量是度量兩個數(shù)據(jù)集分布差異的非參數(shù)距離指標。源域數(shù)據(jù)集Xs和目標域數(shù)據(jù)集Xt之間的MMD的平方被定義為
(1)
式中:H為再生核希爾伯特空間(reproducing kernel Hilbert space,RKHS);φ∶Xs,Xt→H及K(·,·)為高斯核函數(shù)。
(2)
式中,σ為核寬度。
考慮強噪音、時變轉(zhuǎn)速下滾動軸承振動信號數(shù)據(jù)特征分布存在漂移,待測樣本不含標簽,傳統(tǒng)深度學習模型泛化能力差。本文結(jié)合殘差網(wǎng)絡(luò)和注意力機制的特點,提出了遷移學習通用特征提取網(wǎng)絡(luò),即殘差通道注意力弱共享網(wǎng)絡(luò);自適應(yīng)層采用LMMD度量準則減小源域與目標域的條件分布差異。
現(xiàn)有的大多數(shù)領(lǐng)域自適應(yīng)研究都采用強共享通用特征提取網(wǎng)絡(luò)進行遷移特征的提取,并通過相應(yīng)的度量準則減少特定任務(wù)層中的領(lǐng)域域差異。但是,當源域與目標域分布差異較大時,完全采用強共享網(wǎng)絡(luò)模型的方法會造成神經(jīng)網(wǎng)絡(luò)模型過多學習源域與目標域不相關(guān)的特征,不利于目標域的遷移學習。因為較強的源域監(jiān)督學習,網(wǎng)絡(luò)將提取更多與源域相關(guān)的特征,而弱化目標域的特征,從而阻礙了領(lǐng)域特定的特征表示學習,并導致目標域分類錯誤。
為解決上述問題,本文引入通道注意力弱共享模塊(channel attention weak sharing module,CAWSM),通過保留源域可遷移信息的同時抑制每個領(lǐng)域的無用信息,促進卷積層中的特征重新校準。
本文構(gòu)建的通道注意力弱共享模塊如圖2所示。參考文獻[14]通道注意力網(wǎng)絡(luò)搭建方式。首先,將中間層源域和目標域特征嵌入表示為{Xs,Xt}∈H×W×C,其中H,W分別為空間尺寸的高度和寬度,C為通道數(shù)。每個域生成通道描述器為d∈1×1×C,對{Xs,Xt}進行全局平均池化以提取每個通道中的整體信息
(3)
式中:dC為第C個通道所有像素的平均值;(i,j)為位置坐標。
圖2 通道注意力弱共享模塊Fig.2 Channel attention weak sharing module(CAWSM)
ωs/t=σ{FC[ReLU(FCs/t(ds/t))]}
(4)
式中:σ(·)=1/(1+e-x)為Sigmoid函數(shù);FC(·)為共享FC層,用于增維的線性變換,而FCs(·)和FCt(·)為源域和目標域的單獨降維變換。注意力權(quán)重ωs,ωt反映了跨域通道的重要性。
然后,通過在通道上將原始特征Xs,Xt分別與多個通道權(quán)重相乘來獲得激活的特征映射,其公式為
(5)
若將圖2中全局池化后源域與目標域共享一條數(shù)據(jù)特征流路線,即為通道注意力強共享模塊(channel attention strong sharing module,CASSM),相關(guān)理論公式與上述類似。
本文結(jié)合殘差網(wǎng)絡(luò)和通道注意力機制所提出的強噪音下時變轉(zhuǎn)速無監(jiān)督遷移學習網(wǎng)絡(luò)模型,如圖3所示。卷積層運算后均進行批歸一化(batch normalization,BN)和線性激活(ReLU)操作,圖中進行了省略。本文提出的通道注意力弱共享模塊與殘差網(wǎng)絡(luò)的跨層連接形成了殘差通道注意力弱共享模塊,如圖3中所示的3個殘差注意力塊。自適應(yīng)層選擇為全局平均池化后的全連接層,如圖3右上所示,度量準則采用LMMD。
圖3 所提方法故障診斷網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 The proposed method fault diagnosis network structure
本模型的主要診斷流程:首先,將采集到的一維時變轉(zhuǎn)速振動信號利用連續(xù)小波變換(continuous wavelet transform,CWT)生成源域與目標域圖像數(shù)據(jù)集;其次,利用本文提出的網(wǎng)絡(luò)結(jié)構(gòu)進行淺層可遷移特征提??;然后,采用LMMD自適應(yīng)度量準則進行網(wǎng)絡(luò)自適應(yīng)層的源域與目標域的條件分布差異匹配;最后,進行滾動軸承不同故障種類的診斷、識別,并分析不同模型的診斷效果。
訓練過程中優(yōu)化的目標函數(shù)為
(6)
(7)
式中:m為當前訓練步數(shù);M為總的訓練次數(shù)。
作為兩個數(shù)據(jù)特征分布之間的非參數(shù)距離估計,基于MMD函數(shù)的域自適應(yīng)方法主要是學習全局域移動,即對齊全局的源域分布和目標域分布,沒有考慮全局域中兩個子領(lǐng)域之間的關(guān)系(條件分布),導致遷移學習性能不理想,沒有捕捉到細粒度信息[15]。針對該問題,引入局部最大均值差異
(8)
(9)
(10)
式中,zl為第l層(l∈L={1,2,3,…,|L|})的激活。
為了進一步驗證所提方法的有效性與優(yōu)越性,對變速運行的軸承進行試驗驗證。試驗裝置如圖4所示,由交流驅(qū)動器控制變速電機驅(qū)動轉(zhuǎn)軸旋轉(zhuǎn)。試驗裝置安裝有兩個軸承來支撐軸,左側(cè)的軸承是健康的,右側(cè)的軸承為不同故障狀態(tài)下的試驗軸承,分別進行試驗,即有外圈缺陷、內(nèi)圈缺陷、滾動體缺陷、復(fù)合故障和健康的5類狀態(tài)的軸承,其中復(fù)合故障是內(nèi)圈、外圈和滾動體的綜合故障。右側(cè)軸承殼體上安裝有加速度計,用于收集振動信號。
試驗所采集的一維振動信號總共有60個數(shù)據(jù)集,對于每個數(shù)據(jù)集,有兩個試驗設(shè)置:軸承健康狀態(tài)和變速狀態(tài)。運行轉(zhuǎn)速狀態(tài)為增速度、減速、增速度后減速、減速后增速度4種變速狀態(tài),每種變速狀態(tài)下每類故障軸承做三次試驗。采樣頻率均為200 kHz,采樣持續(xù)時間為10 s[16]。
選取數(shù)據(jù)集中轉(zhuǎn)速數(shù)據(jù)進行分析,不同變速階段轉(zhuǎn)速的變化情況,如圖5所示,軸承故障狀態(tài)的振動數(shù)據(jù)具有時變特點。與恒速相比,時變轉(zhuǎn)速下采集到的振動信號幅值隨轉(zhuǎn)速的增加而變大,如圖6所示。
圖6 加速下滾動體故障信號Fig.6 Rolling element failure signal under acceleration
由于一維的振動信號樣本長度的局限性,存在輸入數(shù)據(jù)量不足的問題而影響模型診斷精度。小波時頻圖具有較好的時頻分辨能力,可提供振動信號的時域、頻域特征,故將一維振動信號采用連續(xù)小波變換生成本文故障診斷模型所需的圖像集。
圖像集的生成過程如圖7所示。首先,因傳感器采樣頻率較高為200 k,為包含豐富的時域信息,本文從原始振動信號中選取10 240個連續(xù)采樣點為一個樣本;其次,使用CWT將選定的10 240個點轉(zhuǎn)換成時頻圖像,小波基選擇為cmor3-3;最后,因軸承故障引起的共振頻率主要在低頻段,故時頻圖的頻率范圍設(shè)置在0~10 k,將時頻圖像灰度化并轉(zhuǎn)換為模型可輸入的三通道灰度圖,圖片大小為224×224×3。數(shù)據(jù)選取過程中采用滑動窗口的形式,連續(xù)兩段數(shù)據(jù)相差6 000個數(shù)據(jù)點,即重疊區(qū)為4 240個數(shù)據(jù)點。
圖7 生成灰度圖的流程圖Fig.7 Diagram of the process of generating grayscale images
為進一步說明CWT的優(yōu)越性,采用短時傅里葉變換(short-time Fourier transform,STFT)進行對比分析說明,將不同方法生成的時頻圖采用典型的CNN網(wǎng)絡(luò)(3.3節(jié)中的模型M1)進行分類識別,診斷精度如表1所示。由表1可知,STFT由于時頻窗口固定,時頻域內(nèi)的故障信息分辨率較低難以完全展現(xiàn)時頻域信息,導致CNN模型診斷精度較低。采用CWT的時頻圖集方法在兩個遷移任務(wù)中均獲得較高的識別精度,說明了本文CWT的時頻表達的優(yōu)異性。試驗中詳細細節(jié)見3.3節(jié)。
表1 不同時頻圖生成方法的診斷精度Tab.1 Diagnosis accuracy of different time-frequency diagram generation methods %
為驗證本文算法的有效性與優(yōu)越性,將進行對比試驗驗證分析。表2為本文所提模型網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)表。
對比模型一(M1)為傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型CNN,主要含有三層卷積操作,每層卷積后進行BN、ReLU及步長為2的最大池化操作,最后為兩個FC全連接層。
對比模型2(M2)為圖像集預(yù)訓練ResNet-50,在全局池化后添加兩層全連接層進行微調(diào)遷移學習。
模型6(M6)為本文提出的方法,詳細網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如表2所示。
表2 所提模型網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)表Tab.2 The proposed model network structure parameter table
對比模型3(M3)是將M6模型中的自適應(yīng)度量準則替換為MMD,其余網(wǎng)絡(luò)結(jié)構(gòu)保持不變。
對比模型4(M4)是將M6模型中的自適應(yīng)度量準則替換為Coral,其余網(wǎng)絡(luò)結(jié)構(gòu)保持不變。
對比模型5(M5)是將M6模型中的通道注意力弱共享(CAWSM)模塊替換為通道注意力強共享(CASSM)模塊,即通用特征提取層為強共享網(wǎng)絡(luò)結(jié)構(gòu)。
3.3.1 試驗一:不同變速狀態(tài)下遷移故障診斷
在工程實際中,由于機械設(shè)備功率的變化會造成軸承運行在波動的速度下,因此,源域與目標域為不同時變速度下采集到的振動信號。為模擬遷移學習任務(wù),根據(jù)不同的變速情況分為4個全局域(IN、DE、INDE、DEIN),每個全局域包含5類狀態(tài)數(shù)據(jù),即5個子領(lǐng)域,分別為正常(NO)、內(nèi)圈故障(IF)、外圈故障(OF)、滾動體故障(BF)、復(fù)合故障(CF)。每種故障類型生成300個灰度圖像樣本集,即每種變速階段共含有1 500張灰度圖。不同模型診斷平均精度及標準差如表3所示,遷移任務(wù)IN→DE表示IN為源域,DE為目標域。
不同模型的診斷精度結(jié)果如表3所示。由表3可知,所有模型中CNN診斷效果最差,一方面,是三層的卷積網(wǎng)絡(luò)難以提取深層次故障特征;另一方面,采用域自適應(yīng)遷移學習故障診斷方法,可以將源域?qū)W習到的知識直接傳遞給目標域,提高模型的故障診斷效果,故方法3~方法5診斷效果較好。在所有對比方法中,本文提出的方法在不同遷移任務(wù)中平均診斷精度最高,為99.85%,標準差最小,為0.18%,說明本文采用的域自適應(yīng)度量準則LMMD通過匹配源域與目標域的條件分布差異,即采用軟偽標簽考慮不同子領(lǐng)域的分布差異。相對于MMD準則、Coral準則考慮全局域的邊緣分布,具有更好的自適應(yīng)性能,故本文提出方法相對于其他模型具有較好的泛化性能和魯棒性。模型M1~M6的故障診斷的平均正確率均達到94.94%以上,主要由于每個模型中卷積運算后均進行了批歸一化(BN)操作,BN操作能一定程度的抑制速度變化的引起的振動信號幅值波動。進一步通過對比模型M5和M6的診斷效果可知,本文提出的弱共享通用特征提取網(wǎng)絡(luò)在強共享通用特征提取網(wǎng)絡(luò)的基礎(chǔ)上診斷率有所提高,主要原因是強共享網(wǎng)絡(luò)結(jié)構(gòu)存在過多學習源域,弱化目標域相關(guān)特征的不足,其較優(yōu)的性能在后面的對比試驗將進一步行說明。
表3 不同模型的診斷精度Tab.3 Diagnostic accuracy of different models %
3.3.2 試驗二:強噪音、變轉(zhuǎn)速狀態(tài)下遷移故障診斷
在實際的工業(yè)生產(chǎn)環(huán)境中,被診斷的機械設(shè)備往往工作環(huán)境比較惡劣,采集到的信號容易受到其他設(shè)備或周圍環(huán)境的影響,不可避免地帶來噪音。但是,實驗室的環(huán)境相對干凈,所受到的其他干擾相對較少,采集到的振動數(shù)據(jù)受噪音的影響較小。因此,有必要研究本文提出的無監(jiān)督遷移學習方法在嘈雜環(huán)境下的遷移性能。主要以目標域為DEIN的三個遷移任務(wù)為診斷對象,源域不添加噪音信號,目標域添加高斯白噪音信號,信噪比(signal-to-noise ratio,SNR)為-6~2 dB,詳細細則參考Li等的研究。選擇M2、M4、M5與本文所提方法M6進行對比分析,不同模型在不同遷移任務(wù)中的診斷精度如圖8所示。
圖8 強噪音環(huán)境下不同模型的診斷精度Fig.8 The diagnostic accuracy of different models in a strong noise environment
由圖8可知,本文提出的方法在不同噪音水平下均能獲得較高的平均診斷精度,信噪比在-6 dB以上時,平均診斷精度能保持在90%以上。源域與目標域含有一定范圍的噪音差異時,模型的診斷精度波動相對較小,表明本文提出的方法在源域與目標域分布差異較大時,仍具有較強的泛化性、魯棒性。
3種遷移學習任務(wù)中,模型M2的識別精度最低,一方面由于采用微調(diào)網(wǎng)絡(luò)的遷移學習方法對不同噪音水平下時變轉(zhuǎn)速故障診斷泛化能力較差,越強的高斯白噪音干擾,數(shù)據(jù)特征分布差異越大;另一方面本文提出的殘差通道注意力弱共享模型不僅具有殘差網(wǎng)絡(luò)的特點,能在網(wǎng)絡(luò)模型加深過程抑制梯度消失,還具有通道注意力機制的特點,能夠?qū)崿F(xiàn)不同特征加權(quán)表達的特點。弱共享網(wǎng)絡(luò)結(jié)構(gòu)更能有效提取強噪音環(huán)境下振動數(shù)據(jù)的故障特征,提高模型的平均診斷精度。
采用局部最大均值差異的遷移學習方法能較好的匹配子類任務(wù)的條件分布差異,捕獲源域與目標域的細粒度差異,提高模型的診斷精度,而Coral度量準則在強噪音下匹配源域與目標域的效果較差,故M5,M6在所有遷移任務(wù)中診斷精度較高。
對比模型M5,M6可知,本文提出的弱共享通用特征提取層在源域與目標域差異數(shù)據(jù)特征分布差異較大時,效果提升效果相對較明顯,在噪音水平為-6 dB時,兩者分類精度相差4%左右。主要是弱共享通用特征提取層在學習可遷移信息的同時,可以抑制過多保留源域無用信息來促進卷積層中的特征重新校準,進而強化目標域的相關(guān)特征。
為進一步說明本文提出的遷移學習方法特征對齊能力,選取遷移任務(wù)INDE-DEIN中-2 dB噪音下4個模型進行t-SNE可視化操作,如圖9所示。由圖可知,本文引入的LMMD通過子領(lǐng)域自適應(yīng),能最大限度的分開不同種類的故障,但受噪音的影響,復(fù)合故障與滾動體故障、內(nèi)圈故障存在混疊。
圖9 -2 dB噪音下遷移任務(wù)INDE-DEIN的不同模型特征可視化Fig.9 Visualization of different model features of the transfer task INDE-DEIN under -2 dB noise
針對強噪音、時變轉(zhuǎn)速下滾動軸承故障數(shù)據(jù)特征分布存在漂移、傳統(tǒng)模型泛化性差的問題,提出了一種基于殘差注意力機制和子領(lǐng)域自適應(yīng)的時變轉(zhuǎn)速下滾動軸承故障診斷無監(jiān)督遷移學習方法,并進行了試驗驗證,得出以下相關(guān)結(jié)論:
(1)結(jié)合殘差和注意力機制特點提出的殘差注意力弱共享模型能有效提取出強噪音、時變轉(zhuǎn)速環(huán)境下的故障特征,比僅用殘差網(wǎng)絡(luò)效果較好。
(2)本文提出的弱共享殘差注意力機制通用特征提取模型相比于強共享策略,能更好的保留目標域相關(guān)特征,抑制網(wǎng)絡(luò)模型過多學習源域的特征,能在源域與目標域數(shù)據(jù)特征分布差異較大時,更好進行源域與目標域的遷移學習。
(3)網(wǎng)絡(luò)自適應(yīng)層采用局部最大均值差異進行域自適應(yīng)度量,通過利用偽標簽以匹配不同域的條件分布,能較好的縮小子類任務(wù)的特征差異,捕獲源域與目標域的細粒度差異,提高模型的診斷精度。
(4)通過不同模型在強噪音、時變轉(zhuǎn)速工況下滾動軸承診斷性能的分析,驗證了本文提出方法的優(yōu)越性,且相比于其他模型具有較好的泛化性、魯棒性。