趙志宏, 李 晴, 楊紹普, 李樂豪
(1. 石家莊鐵道大學 信息科學與技術學院,石家莊 050043;2. 石家莊鐵道大學 省部共建交通工程結構力學行為與系統(tǒng)安全國家重點實驗室,石家莊 050043)
當今社會已進入工業(yè)化快速發(fā)展的階段,對于各種機械設備的要求也越來越高,在各個應用領域剩余使用壽命(remaining useful life,RUL)預測技術都尤為重要。剩余使用壽命預測是預測某一機械設備從當前時刻保持正常運行的剩余時間或者失效時間[1]。理想情況下,剩余使用壽命預測側重于在系統(tǒng)或者某一設備發(fā)生故障之前預警,給維修人員預留足夠的時間,對于機械設備進行維護[2],能夠降低設備的維修成本,節(jié)約維護時間。
剩余使用壽命預測方法大致可以分為兩類:基于模型的方法和基于數(shù)據(jù)驅動的方法[3]。基于模型的方法主要是通過構建一個數(shù)學模型來描述機械設備的退化過程。某一機械設備的剩余使用壽命受自身制造工藝和操作環(huán)境等影響。理想情況下,構建過程不但需要經(jīng)過測量后系統(tǒng)的實際參數(shù),而且需要研究者對系統(tǒng)有充足的先驗知識[4]。然而在現(xiàn)實中,實際情況非常復雜,出現(xiàn)的情況各不相同,大多數(shù)機械設備不能用簡單的數(shù)學模型來預測RUL。
基于數(shù)據(jù)驅動的剩余使用壽命預測一般分為兩種:機器學習方法和統(tǒng)計學方法。傳統(tǒng)機器學習剩余使用壽命預測方法主要分為兩個步驟:①分別在時域、頻域或時頻域人工提取特征;②構建剩余使用壽命預測模型[5],方法有人工神經(jīng)網(wǎng)絡[6]、灰色預測方法[7]、馬爾科夫模型[8]、支持向量機[9]等。但傳統(tǒng)機器學習的剩余使用壽命預測方法通常是淺層機器學習模型,存在著對多元復雜時間序列預測時選擇模型及參數(shù)和特征提取困難、函數(shù)關系難以表達、預測結果受工況和環(huán)境影響等問題。
近年來,深度學習作為機器學習的新方法,具有強大的自動提取特征能力,被廣泛應用在不同領域?;谏疃葘W習的剩余使用壽命預測摒棄了傳統(tǒng)剩余使用壽命預測手工提取特征的方法,通過構建一個多層的深度體系結構神經(jīng)網(wǎng)絡從獲取的原始時間序列中自主的學習層次化的特征。Babu等[10]提出了一種基于卷積神經(jīng)網(wǎng)絡(convolutional neural networks,CNN)的剩余使用壽命預測方法,將卷積層和池化層應用于多通道傳感器數(shù)據(jù)的時間維上,通過深層結構學習低層原始傳感器信號的抽象表示,獲取深層次特征信息。楊宇等[11]提出了全參數(shù)動態(tài)學習深度信念網(wǎng)絡,在原始振動信號中提取深層特征信息,減少了訓練時間,提高了預測結果精度。唐旭等[12]通過從多元時間序列中提取到的時域特征輸入到長短期記憶網(wǎng)絡(long short-term memory,LSTM)中進行剩余使用壽命預測,取得了較準確的結果。Ren等[13]利用深度自動編碼器聯(lián)合時頻特征壓縮和計算結果輸入到DNN(deep neural networks)中進行剩余使用壽命預測。
以上基于深度學習的剩余使用壽命預測方法未能充分利用深度學習模型提取多元時間序列中深層特征信息。雙向長短期記憶網(wǎng)絡(bi-directional long short term memory,BiLSTM)對于處理基于時間序列的預測具有一定的優(yōu)勢,可以有效避免時間依賴帶來的梯度消失或者梯度爆炸等問題。Mnih等[14]提出的注意力機制(Attention)被廣泛應用于各個方面。注意力機制通過計算不同特征的注意力概率,對模型中的不同特征賦予不同權重,已有研究表明,注意力機制可以更好地利用提取到的特征信息[15]。
本文提出一種基于BiLSTM與注意力機制(BiLSTM-Attention)的剩余使用壽命預測模型。BiLSTM的優(yōu)點是可以將前向和后向信息相結合,自動獲取其中隱藏的特征信息,以提高剩余使用壽命預測能力。在剩余使用壽命預測中,BiLSTM是將獲取的全部時間序列統(tǒng)一作為神經(jīng)網(wǎng)絡的輸入,以進行特征提取。此外,本文采用了注意力機制對于各個BiLSTM輸出的特征值分配不同的權重,以提高剩余使用壽命預測的準確性。將本文所提出的BiLSTM-Attention預測模型與現(xiàn)有的LSTM、BiLSTM模型在公共數(shù)據(jù)集上進行試驗。試驗結果表明本文提出的BiLSTM-Attention預測模型可以更準確地預測剩余使用壽命。
由于RNN(recurrent neural network)在處理時間序列存在長期依賴、梯度消失或者梯度爆炸等問題,研究人員提出了LSTM用于解決RNN出現(xiàn)的問題[16],但LSTM只能處理前向信息輸入神經(jīng)網(wǎng)絡獲取預測的結果,BiLSTM通過前向和后向信息神經(jīng)網(wǎng)絡獲取預測的結果,往往在預測方面BiLSTM的預測結果優(yōu)于LSTM[17]。BiLSTM結構如圖1所示。
圖1 BiLSTM結構圖
在前向層某一時刻ti(i=1,2,…,n)正向計算,將獲得的時刻ti前向隱含層的輸出保存,得到Mf,Mf計算公式如式(1);在后向層ti(i=n,…,2,1)反向計算,將獲得的時刻ti后向隱含層的輸出保存,得到Mb,Mb計算公式如式(2);然后將前向層和后向層每個時刻ti獲得對應的輸出相結合獲得最后的輸出Yt,Yt計算公式如式(3),其中wi(i=1,2,…,6)為權重
Mf=f(w1xt+w2Mf-1)
(1)
Mb=f(w3xt+w5Mb-1)
(2)
Yt=g(w4Mf+w6Mb)
(3)
本文研究的是基于時間的序列數(shù)據(jù),通過以上分析使用BiLSTM用于提取輸入數(shù)據(jù)的特征,獲取隱藏在時間序列中的特征信息。
注意力機制最早應用于機器翻譯[18],現(xiàn)在已經(jīng)廣泛應用于各種時間序列處理[19]。注意力機制的本質(zhì)為計算某一特征向量的的加權求和[20]。注意力機制有很多種實現(xiàn)方式,本文采用的是乘法注意力機制中的Scaled Dot-Product Attention方法,其計算主要分為3個步驟。
步驟1將query和每個key進行點積計算得到權重。
步驟2使用Softmax函數(shù)對權重歸一化處理。
步驟3將權重和對應的value加權求和獲得Attention。
Attention計算公式為
(4)
式中: queries,keys,values的矩陣表示Q,K,V,Q=K=V=L,L為注意力層的輸入;dk為queries,keys,values的向量維度。
本文設計的基于BiLSTM與注意力機制相結合的網(wǎng)絡結構如圖2所示。主要由批標準化(batch normalization,BN)層、BiLSTM層、注意力層和全連接層組成。BiLSTM中LSTM單元數(shù)設為64;全連接層為2層,Dense_1輸出維度設置為10,Dense_2輸出維度設置為1;在輸入層之后和注意力層之后使用BN層。該模型既能夠自動提取原始信號時序特征信息,又能夠突出關鍵特征信息,具有較強的特征提取能力。
圖2 基于BiLSTM與注意力機制預測模型圖
基于BiLSTM與注意力機制預測的主要步驟如圖3所示。
圖3 基于BiLSTM與注意力機制預測模型流程圖
首先,對于多元時間序列的預測,先通過設定周期長度獲得連續(xù)的時間序列,然后依次向后滑動直至一個周期結束,此時將獲得若干組多元時間序列,即為不同發(fā)動機的時間序列訓練集。將原始信號經(jīng)過數(shù)據(jù)處理后,輸入到BN層,BN層具有一定的正則化作用,可以避免過擬合和梯度消失的問題,提高模型穩(wěn)定性和泛化性、加快訓練速度并提高深度神經(jīng)網(wǎng)絡的性能。
其次,BiLSTM通過學習每個時刻ti前、后向的單元信息獲得各個時間步輸出值,學習時間序列前向和后向之間蘊含的信息,在解決時間序列依賴性和梯度爆炸等問題的基礎上自動獲取全面的特征信息。
然后Attention層對時序數(shù)據(jù)信息的進一步篩選,有選擇的學習模型訓練過程中的中間特征,通過權重分配的方式,將其與輸出序列關聯(lián)起來,過濾無用信息,突出關鍵信息,提高模型預測結果的準確性。
最后,全連接層進行降維,得到最終的剩余使用壽命預測結果,為提高預測結果準確性,采用加權平均降噪的方法對于預測結果處理。
選擇公開的C-MAPSS[21]數(shù)據(jù)集進行剩余使用壽命預測試驗,C-MAPSS數(shù)據(jù)集如表1所示。分為4個子數(shù)據(jù)集,使用美國國家航空航天局開發(fā)的基于模型的模擬程序C-MAPSS生成的模擬數(shù)據(jù)[22]。
表1 C-MAPSS數(shù)據(jù)集
C-MAPSS數(shù)據(jù)集存儲為n×26矩陣,其中n對應于每個子集中的數(shù)據(jù)點的數(shù)量。每一行是在一個操作時間周期內(nèi)獲取的數(shù)據(jù),共有26列,其中第1列為引擎號,第2列為操作周期號,第3~第5列為3個操作設置,第6~第26列為21個傳感器值[23]。數(shù)據(jù)中的3個操作設置會顯著影響發(fā)動機性能。假設發(fā)動機內(nèi)的每個軌跡是發(fā)動機的壽命周期,當每臺發(fā)動機在不同的初始條件下進行模擬時,這些條件被認為是正常條件(無故障)。對于訓練集中的每個發(fā)動機軌跡,最后一個數(shù)據(jù)條目對應于發(fā)動機被宣布為不正?;蚬收蠣顟B(tài)的時刻。另一方面,測試集包含故障前一段時間的數(shù)據(jù),目的是預測每臺發(fā)動機測試集中的RUL。對于C-MAPSS數(shù)據(jù)集中每個子集都有測試軌跡的實際RUL值。
由于不同的操作設置可能導致不同的傳感器值,而得到的數(shù)據(jù)代表的物理特性不同。因此,為消除數(shù)據(jù)不規(guī)范對預測效果的影響,在進行任何訓練和測試之前,必須進行數(shù)據(jù)歸一化處理,原始數(shù)據(jù)通過處理將限定在[0,1]內(nèi),計算公式如式(5)
(5)
為了比較評估模型在測試數(shù)據(jù)上的性能,需要一些客觀的性能度量,主要采用了兩種評價指標:評分函數(shù)和平均絕對誤差(mean absolute error,MAE)。
本文使用PHM2008數(shù)據(jù)挑戰(zhàn)中的評分函數(shù),計算公式如式(6)
(6)
式中:n為測試集中的引擎數(shù);S為計算的評分;d=Restimated-Rreal,Restimated為剩余使用壽命預測值,Rreal為剩余使用壽命真實值。
MAE[24]:單一依靠評分函數(shù)有時會因為異常值(比如d過大或過小)的出現(xiàn)影響對模型整體預測性能的評價,因此需要結合MAE共同評價。MAE值越小表示結果越精確,模型越有效。MAE的使用還可以避免人為降低評分函數(shù)值的現(xiàn)象發(fā)生,其計算公式如式(7)
(7)
3.4.1 數(shù)據(jù)處理
本節(jié)主要以C-MAPSS數(shù)據(jù)集子集FD001的數(shù)據(jù)為例進行描述試驗。FD001數(shù)據(jù)集分為訓練數(shù)據(jù)、測試數(shù)據(jù)和測試數(shù)據(jù)對應的真實RUL,其中訓練數(shù)據(jù)有20 631個運行周期樣本的訓練數(shù)據(jù),測試數(shù)據(jù)有13 096個運行周期樣本的測試數(shù)據(jù)。訓練集和測試集記錄了發(fā)動機在若干運行周期下3個操作設置值和21個傳感器監(jiān)測數(shù)據(jù),其中操作設置值如圖4所示。首先是對于輸入的數(shù)據(jù)序列進行歸一化的數(shù)據(jù)預處理,對于得到的特征值可視化,去除不隨時間變換的特征以減少計算量,提高計算性能。通過操作設置值和傳感器監(jiān)測數(shù)據(jù)分析可知,刪去在發(fā)動機退化過程中始終未改變的一個操作設置和7個傳感器數(shù)據(jù),使用18個通道數(shù)據(jù)進行分析,將獲取的數(shù)據(jù)進行歸一化處理,使數(shù)據(jù)大小在[0,1]內(nèi)。
圖4 操作設置值
3.4.2 試驗結果
根據(jù)訓練集的設置,提取FD001對應的測試集和測試集對應的真實RUL。分別提取FD001中的兩個操作設置和16個傳感器監(jiān)測值組成的18個變化的待預測序列,輸入到訓練集得到的預測模型中進行預測,最后將訓練得到的預測RUL和真實RUL輸入到評分函數(shù)中進行處理,獲取對應的分數(shù)。利用BiLSTM-Attention方法得到的發(fā)動機預測RUL結果如圖5所示,由圖5可知,運行周期數(shù)較小時預測較為準確,隨著運行周期數(shù)增加,設備出現(xiàn)故障,預測曲線出現(xiàn)波動,準確性降低。FD001和FD003為單故障類型數(shù)據(jù),F(xiàn)D002和 FD004為多故障類型數(shù)據(jù),F(xiàn)D001和FD003預測結果與FD002和FD004相比較為準確。
圖5 C-MAPSS測試集發(fā)動機的預測RUL結果
3.4.3 評價結果比較
為說明本文提出的BiLSTM-Attention預測模型的有效性和可行性,選擇了LSTM、BiLSTM與已有論文中深度卷積神經(jīng)網(wǎng)絡(deep convolutional neural network,DCNN)、隨機森林(random forest,RF)和支持向量機(support vector machine, SVM)預測模型在同樣的C-MAPSS數(shù)據(jù)集中4組子集試驗訓練,獲取不同預測方法得到的評分和MAE進行比較。不同預測方法評分函數(shù)、MAE對比如表2所示。從表2可知,本文提出的BiLSTM-Attention預測模型與LSTM和BiLSTM方法相比,BiLSTM-Attention預測方法在評分函數(shù)和MAE兩個方面均獲得較好的結果。以FD001為例,評分函數(shù)LSTM最高,依次為BiLSTM和BiLSTM-Attention,降低了77.13%;MAE中BiLSTM最高,依次為LSTM和BiLSTM-Attention,降低7.12%(見表2)。
表2 C-MAPSS數(shù)據(jù)集預測結果比較
將表2與已有論文方法相比,BiLSTM-Attention預測模型的評分函數(shù)在子集FD001中低于DCNN 和SVM方法,但高于RF方法;在子集FD002中低于DCNN、SVM和RF方法;在子集FD003中低于SVM方法,高于DCNN和RF方法;在子集FD004中低于RF和SVM方法,高于DCNN方法。
通過以上結果分析可知本文提出的BiLSTM-Attention預測模型比LSTM和BiLSTM具有更好的數(shù)據(jù)特征提取能力。綜上所述,本文提出的BiLSTM-Attention預測模型在航空發(fā)動機剩余使用壽命預測結果更準確。
3.4.4 不確定性試驗
為了評估不確定性對傳感器測量結果的影響,使用BiLSTM-Attention預測模型進行多次試驗,不同子集不同評價指標波動值,如表3所示。所獲得的均方根誤差(root mean squard error,RMSE)和MAE顯示了所提出模型的顯著穩(wěn)定的性能。
表3 BiLSTM-Attention不確定性試驗
3.4.5 復雜度比較
為了說明本文所提出的BiLSTM-Attention預測模型與LSTM和BiLSTM預測模型相比的優(yōu)點,對于以上3種模型進行復雜性對比,包括模型參數(shù)量和訓練時間的對比。
模型參數(shù)量對比結果如表4所示。由表4可知,BiLSTM-Attention預測模型參數(shù)量多于LSTM和BiLSTM預測模型。模型訓練時間取決與硬件情況,本文試驗采用的硬件為:處理器:lntel(R) Core(TM) i5-6200U CPU @2.30 GHz 2.40 GHz;已安裝的內(nèi)存(RAM):8.00 GB;系統(tǒng)類型:64位操作系統(tǒng),基于x64的處理器。模型訓練時間如表5所示。由表5可知,BiLSTM-Attention預測模型訓練時間多于LSTM和BiLSTM預測模型。
表4 不同預測方法參數(shù)量對比
表5 不同預測方法訓練時間對比
為驗證本文所提出的BiLSTM-Attention預測模型的泛化能力,使用PHM2012軸承數(shù)據(jù)集[27]進行驗證。該數(shù)據(jù)集包括3種工況下17個軸承水平方向和垂直方向兩個加速度傳感器采樣得到的的全壽命周期振動數(shù)據(jù),第1種和第2種工況各7個軸承,第3種工況3個軸承,分別命名為Bearing 1-1~Bearing 1-7,Bearing 2-1~Bearing 2-7,Bearing 3-1~Bearing 3-3,采樣頻率為25.6 kHz,每10 s采集一次數(shù)據(jù),每次采樣時間為0.1 s。本文驗證采用的是水平方向的振動數(shù)據(jù)。本文在不考慮工況影響的情況下,使用14個軸承的數(shù)據(jù)作為訓練集,將剩余的軸承數(shù)據(jù)作為測試集進行試驗。以Bearing 2-6為例,軸承水平方向原始全壽命周期振動信號如圖6所示。對于原始數(shù)據(jù)進行處理,行數(shù)等于加速度采集的次數(shù),列數(shù)等于采集一次的數(shù)據(jù)長度。每行數(shù)據(jù)的標簽,表示該行對應的軸承剩余使用壽命。假設第i行數(shù)據(jù)的剩余使用壽命標簽為yi,表示當前時刻的剩余使用壽命與使用壽命的比值如式(8)所示。式8中m為行數(shù),即軸承的實際壽命。經(jīng)過歸一化處理后的剩余使用壽命標簽,可以降低不同軸承、不同工況、不同剩余使用壽命值之間的影響,提高剩余使用壽命預測的準確性。
圖6 軸承全壽命周期原始信號
(8)
按照C-MAPSS數(shù)據(jù)集相同的試驗方法使用基于BiLSTM與注意力機制預測模型對于PHM2012數(shù)據(jù)進行試驗。Bearing 2-6在LSTM、BiLSTM和BiLSTM-Attention不同模型剩余使用壽命預測結果如圖7所示。由圖7可知,BiLSTM-Attention預測結果與真實值相比浮動較小,優(yōu)于LSTM和BiLSTM。Bearing 2-6在LSTM、BiLSTM和BiLSTM-Attention不同模型剩余使用壽命預測評價指標如表6所示。由表6可知,BiLSTM-Attention預測結果評價指標均小于LSTM和BiLSTM。
圖7 不同模型剩余使用壽命預測結果
表6 不同預測方法對比
本文提出一種基于BiLSTM與注意力機制的設備剩余使用壽命預測模型,從多元時間序列數(shù)據(jù)中估計設備的剩余使用壽命。本文主要結論:
(1) 基于BiLSTM-Attention設備剩余使用壽命預測方法利用BiLSTM網(wǎng)絡能夠提取設備運行狀態(tài)特征信息,通過注意力機制給提取到的特征信息分配不同的權重,從而更好地提取設備的健康狀態(tài)信息。
(2) 注意力機制的引入能夠提高深度神經(jīng)網(wǎng)絡模型剩余使用壽命預測的準確性。
(3) BiLSTM-Attention模型與LSTM、BiLSTM方法相比得到的壽命預測評價指標更好,壽命預測的準確性更高。