江蕾,唐建,楊超越,呂婷婷
(陸軍工程大學(xué)野戰(zhàn)工程學(xué)院,江蘇 南京 210004)
機(jī)械故障診斷在保障工業(yè)生產(chǎn)正常、有序進(jìn)行中起著舉足輕重的作用。深度學(xué)習(xí)憑借其強(qiáng)大的特征學(xué)習(xí)能力和深度模型可以模擬人類復(fù)雜的大腦學(xué)習(xí)過程來獲取更多的內(nèi)部信息從而達(dá)到更好的識(shí)別目的。在過去的幾年里,越來越多的研究人員將數(shù)據(jù)驅(qū)動(dòng)方法應(yīng)用于提高故障診斷準(zhǔn)確性。Lei等人提出了一種基于稀疏濾波與無監(jiān)督特征學(xué)習(xí)相結(jié)合的機(jī)械振動(dòng)信號(hào)特征提取方法,并利用softmax回歸確定故障類別;然而,該方法存在一些不足:訓(xùn)練速度慢、易陷入局部極小值以及無法處理過強(qiáng)或較弱的噪聲干擾。Liu等人將堆疊式自動(dòng)編碼器用于齒輪箱故障診斷中,并介紹了丟棄法中的Dropout與ReLU,較好地解決了過擬合的問題。
但是,這些方法都需要大量的訓(xùn)練數(shù)據(jù),且計(jì)算復(fù)雜。而實(shí)際生產(chǎn)過程中存在大量的噪聲或干擾信息,使得設(shè)備出現(xiàn)異常時(shí)診斷結(jié)果也會(huì)發(fā)生偏差。這就需要我們根據(jù)現(xiàn)場(chǎng)情況對(duì)采集的信號(hào)進(jìn)行適當(dāng)修正,以提高診斷精度。在實(shí)際應(yīng)用過程中,缺乏對(duì)機(jī)械設(shè)備運(yùn)行狀態(tài)信息和故障數(shù)據(jù)之間關(guān)系的了解;而這幾種方法對(duì)于診斷非平衡故障的問題通常性能較差,甚至不能確定故障類別。針對(duì)上述問題,提出了一種基于非平衡樣本的故障診斷方法。生成對(duì)抗網(wǎng)絡(luò)(GAN)是近年來發(fā)展起來的對(duì)輸入樣本進(jìn)行學(xué)習(xí)與訓(xùn)練的新技術(shù)。GAN有著廣闊的應(yīng)用前景,目前在圖像識(shí)別、語音處理和信息安全等領(lǐng)域都有很好的應(yīng)用;目前,GAN已經(jīng)被成功地應(yīng)用到許多實(shí)際問題中,例如故障檢測(cè)與診斷等。
為了提高故障診斷的效率和準(zhǔn)確性,本文將LSGAN應(yīng)用于非平衡故障診斷。首先,構(gòu)建了一個(gè)最小二乘生成對(duì)抗網(wǎng)絡(luò)(LSGAN),并用[7]中的方法對(duì)樣本進(jìn)行學(xué)習(xí),生成偽樣本補(bǔ)充原始不平衡數(shù)據(jù)集;然后,對(duì)增強(qiáng)后的數(shù)據(jù)集進(jìn)行特征提取,利用SAE劃分不同故障類型。
生成對(duì)抗網(wǎng)絡(luò)包括兩部分,生成器的輸入是隨機(jī)噪聲Z,判別器的輸入是原始樣本或者生成樣本。生成器產(chǎn)生大量的樣本數(shù)據(jù),而判別器則判別這些樣本是否為生成的偽樣本。該模型的最終目的是,不僅要提高判別器的判斷精度,而且要得到連判別器都分辨不出來的生成樣本,同時(shí),不影響雙方的參數(shù)。G和D的函數(shù)如下。
由于原始GAN中判別器采用sigmoid交叉熵?fù)p失函數(shù)作為分類器進(jìn)行訓(xùn)練,因此可能存在梯度消失和訓(xùn)練不穩(wěn)的情況。針對(duì)這些問題,本文提出了基于最小二乘生成對(duì)抗網(wǎng)絡(luò)(LSGAN)的改進(jìn)方法。在該算法中,LSGAN首先將原始數(shù)據(jù)投影到一個(gè)低維空間上進(jìn)行分類處理,然后再利用得到的結(jié)果作為輸入對(duì)新訓(xùn)練樣本進(jìn)行預(yù)測(cè)。與原始GAN相比較,LSGAN能夠產(chǎn)生質(zhì)量更高、訓(xùn)練過程更加平穩(wěn)的數(shù)據(jù)。LSGAN的損失函數(shù)如下:
其中,G是生成器,D是判別器,Z是噪聲,Pdata(x)是真實(shí)數(shù)據(jù)所遵循的概率分布,Pz(z)為z的概率分布,a,b是真實(shí)樣本與生成樣本的標(biāo)簽,c是在設(shè)置時(shí)使判別器確定生成數(shù)據(jù)是真實(shí)數(shù)據(jù)的值。
針對(duì)軸承故障樣本數(shù)據(jù)總量少、非均衡等特點(diǎn),提出一種基于LSGAN故障樣本集均衡方法。該算法通過對(duì)傳統(tǒng)GAN進(jìn)行改進(jìn),在迭代過程中使其能夠適應(yīng)不同類型的測(cè)試集以及具有較好的泛化能力。見圖1,首先對(duì)不均衡樣本集進(jìn)行區(qū)分,然后向LSGAN輸入樣本量較少的樣本數(shù)據(jù)以產(chǎn)生新數(shù)據(jù),并通過生成器與判別器之間的對(duì)抗訓(xùn)練對(duì)原始樣本進(jìn)行強(qiáng)化處理,直至小樣本量等于大樣本量后不再產(chǎn)生,最終獲得均衡故障樣本數(shù)據(jù)集。
圖1 基于LSGAN的樣本平衡流程圖
SAE屬于無監(jiān)督學(xué)習(xí)算法。該方法通過在自動(dòng)編碼器中加入一個(gè)隱藏層h來實(shí)現(xiàn)。SAE還包括一個(gè)或多個(gè)編碼器和一個(gè)或多個(gè)解碼器;編碼器對(duì)輸入數(shù)據(jù)進(jìn)行隱藏表示映射,解碼器對(duì)數(shù)據(jù)進(jìn)行重建。編碼過程表示為
式中,f表示編碼函數(shù),W表示編碼器的權(quán)重矩陣,1b表示偏置向量。
式中,g表示解碼函數(shù),WT表示解碼器的權(quán)重矩陣,表示偏置向量。對(duì)自動(dòng)編碼器的參數(shù)進(jìn)行優(yōu)化,如下式:
自動(dòng)編碼器層層迭加構(gòu)成深層神經(jīng)網(wǎng)絡(luò);即上層輸出為下層輸入。在每層中采用反向傳播算法來學(xué)習(xí)各層神經(jīng)元之間的連接關(guān)系。通過對(duì)多層網(wǎng)絡(luò)進(jìn)行訓(xùn)練獲得層與層之間的權(quán)值矩陣,從而實(shí)現(xiàn)層間數(shù)據(jù)信息傳遞。
針對(duì)現(xiàn)有技術(shù)中軸承故障數(shù)據(jù)少、不均衡等特點(diǎn),提出一種基于LSGAN與SAE相結(jié)合的故障診斷方法。該方法首先對(duì)采集的軸承故障振動(dòng)信號(hào)利用LSGAN建立模型,然后通過設(shè)計(jì)的生成器和判別器來生成用于診斷的故障樣本,得到均衡故障樣本集;然后把均衡樣本集送入SAE進(jìn)行特征提取和故障分類,得到故障診斷結(jié)果。具體步驟見圖2。
圖2 故障診斷流程圖
本文選取的數(shù)據(jù)集是CWRU數(shù)據(jù)集,選取的軸承是轉(zhuǎn)速1750rmp,采樣頻率12kHz深溝球軸承SKF6205。其失效狀態(tài)有滾動(dòng)體失效,內(nèi)圈失效和外圈失效。在此基礎(chǔ)上建立了相應(yīng)的故障診斷模型并進(jìn)行診斷試驗(yàn)研究。故障尺寸分別是0.007、0.014、0.021寸。參數(shù)的具體情況見表1。
表1 CWRU數(shù)據(jù)集參數(shù)
文中生成器G結(jié)構(gòu)由3層組成,各層神經(jīng)元個(gè)數(shù)分別是200、600、1200個(gè)。為了提高計(jì)算效率,G采用了一種基于反向傳播算法(RRT)的方法對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化。鑒別器D的構(gòu)造為4層,每一層分別為1200、600、200、1神經(jīng)元。每層都有自己獨(dú)立的Re LU激活函數(shù)。SAE共有5層結(jié)構(gòu),每層都相當(dāng)于1個(gè)編碼器,上一層抽取的特征為下一層提供了輸入。數(shù)據(jù)生成模塊其學(xué)習(xí)速率為1E-4,每次迭代次數(shù)為1000次左右;新的數(shù)據(jù)集訓(xùn)練SAE得到最終的分類結(jié)果。
軸承故障生成信號(hào)與原始信號(hào)頻譜對(duì)比如圖3所示。從圖3中可知,生成信號(hào)的頻譜特征與原始信號(hào)相似,不同故障間生成信號(hào)的特征差異顯著,生成信號(hào)蘊(yùn)含了原始信號(hào)的故障信息。取軸承的正常狀態(tài)振動(dòng)信號(hào)10組數(shù)據(jù),3種故障狀態(tài)各取5組數(shù)據(jù)。通過LSGAN算法生成3種故障數(shù)據(jù)各5組。此時(shí),軸承正常、滾動(dòng)體故障、內(nèi)圈故障、外圈故障狀態(tài)樣本各10組,樣本集平衡。
圖3 生成樣本與真實(shí)樣本頻域特性對(duì)比
為了進(jìn)一步檢驗(yàn)生成樣本,本文采用T-SNE(t-distributed stock hastic neighbor embedding)方法將真實(shí)樣本與生成樣本特征可視化,并比較分布情況來評(píng)價(jià)生成樣本的真實(shí)性。從圖4中可以看出,二者的特征基本上都在重合區(qū)域內(nèi),這說明生成樣本已經(jīng)學(xué)會(huì)了絕大部分特征,而一些離散的點(diǎn)將局部差異性保留下來。
圖4 生成樣本與真實(shí)樣本分布情況對(duì)比
將LSGAN產(chǎn)生的新平衡故障樣本集輸入SAE中,其輸出結(jié)果證明模型分類精度達(dá)到99%以上,證明了該算法有較好的分類能力。然后,將文中的診斷方法和隨機(jī)森林(Random Forest)、支持向量機(jī)(Support Vector Machine)進(jìn)行了比較試驗(yàn)。表2給出了3種方法的對(duì)比結(jié)果。由此可以看出, LSGAN產(chǎn)生的高質(zhì)量均衡數(shù)據(jù)集在故障診斷中能夠識(shí)別出較多的特征得到較好的診斷能力,這也更加表明了文中所提模型在表征能力與泛化能力上都有較大的提升。
表2 診斷精度比較結(jié)果
本文針對(duì)軸承故障診斷樣本數(shù)據(jù)不均衡的問題,利用LSGAN算法產(chǎn)生新樣本來充實(shí)數(shù)據(jù)集,從而使難以獲取的故障數(shù)據(jù)達(dá)到均衡。在此基礎(chǔ)上,利用平衡數(shù)據(jù)集對(duì)基于SAE的故障分類進(jìn)行訓(xùn)練和測(cè)試。通過在CWRU軸承數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了所提方法的正確性和數(shù)據(jù)樣本質(zhì)量的可靠性。結(jié)果表明,所建模型魯棒性較好,故障識(shí)別準(zhǔn)確率較高。