易利容 王紹宇 殷麗麗 楊青 顧欣
Abstract: The forecasting of sensor timing series is a key process for industrial automation and intelligentization, and is of great significance for automated production supervision, risk prevention and technological improvement. Considering the weak generality of traditional statistical-based time series analysis methods and the long-term dependence problem of common Recurrent Neural Network models, a method of Long Short-Term Memory Neural Network based on multivariable analysis is proposed to solve these problems, especially for forecasting temperature, pressure, and current intensity of industrial equipment. This method uses the long-term information of the data and multi-variable correlation, effectively improves the accuracy. The experiment selects a Swedish company's mechanical sensor dataset for training and testing, and compares the proposed method with the univariate long short-term memory model and other major temporal prediction algorithms. The experimental results show that the proposed method has better prediction performance and versatility.
引言
物聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算[1]等新興產(chǎn)業(yè)的發(fā)展極大地推動(dòng)了工業(yè)自動(dòng)化進(jìn)程。工業(yè)生產(chǎn)過(guò)程中通過(guò)物聯(lián)網(wǎng)匯總的各類傳感器采集的大量信息構(gòu)成了傳感器大數(shù)據(jù),這些數(shù)據(jù)都具備典型的時(shí)序數(shù)據(jù)特征,通過(guò)對(duì)這些時(shí)序數(shù)據(jù)的處理和預(yù)測(cè)可以有效地監(jiān)督自動(dòng)化生產(chǎn)過(guò)程、預(yù)防風(fēng)險(xiǎn)隱患和改進(jìn)工業(yè)技術(shù)。
目前對(duì)工業(yè)傳感器時(shí)序預(yù)測(cè)的研究方法主要分為2類。一類是基于統(tǒng)計(jì)學(xué)的經(jīng)典模型[2],如移動(dòng)平均法、指數(shù)平滑法、ARIMA模型和狀態(tài)空間模型等,由于統(tǒng)計(jì)模型過(guò)分依賴平穩(wěn)性、穩(wěn)定性等假設(shè),對(duì)數(shù)據(jù)要求較高,通用性弱,因此不適用于工業(yè)用途。另一類是基于機(jī)器學(xué)習(xí)的預(yù)測(cè)模型,如KNN回歸、SVM回歸[3]、BP神經(jīng)網(wǎng)絡(luò)[4-5]和深度神經(jīng)網(wǎng)絡(luò)等。其中,KNN回歸、SVM回歸、BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)潔、性能穩(wěn)定,但預(yù)測(cè)精度有所局限。隨著云計(jì)算、大數(shù)據(jù)時(shí)代的到來(lái),計(jì)算能力的提高和訓(xùn)練數(shù)據(jù)的大幅增加對(duì)深度學(xué)習(xí)提供了支持[6],以循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)[7]為代表的深度網(wǎng)絡(luò)以其通用性強(qiáng)、預(yù)測(cè)精度高等優(yōu)點(diǎn)逐漸成為時(shí)序預(yù)測(cè)的熱門(mén)的研究方向。實(shí)際應(yīng)用中傳感器數(shù)據(jù)規(guī)律多與遠(yuǎn)距離時(shí)間數(shù)據(jù)有關(guān),然而普通RNN隨著循環(huán)進(jìn)行發(fā)生的梯度爆炸或梯度彌散使模型只能學(xué)習(xí)到短周期的依賴關(guān)系[8]。為解決此問(wèn)題,引入長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)[9] (Long Short-Term Memory Neural Network, LSTM NN或LSTM)。LSTM的長(zhǎng)短時(shí)記憶單元能夠控制信息的累積速度,并在預(yù)測(cè)遠(yuǎn)距離依賴型時(shí)序數(shù)據(jù)上展現(xiàn)了優(yōu)越的能力??紤]到同一工業(yè)設(shè)備平臺(tái)的各類傳感器數(shù)據(jù)之間往往具有很強(qiáng)的相關(guān)性,本文基于數(shù)據(jù)的橫向信息(遠(yuǎn)距離相關(guān)性)和縱向信息(多變量相關(guān)性),提出了改進(jìn)的基于多變量LSTM的工業(yè)傳感器時(shí)序數(shù)據(jù)預(yù)測(cè)方法。該方法避免了統(tǒng)計(jì)學(xué)方法中數(shù)據(jù)假設(shè)的過(guò)分依賴性,對(duì)工業(yè)傳感器時(shí)序預(yù)測(cè)具有通用性。
1LSTM傳感器時(shí)序預(yù)測(cè)
Connor等人[10]依據(jù)傳統(tǒng)RNN算法提出了基于魯棒性濾波的RNN時(shí)序預(yù)測(cè)模型,以精簡(jiǎn)的訓(xùn)練方式實(shí)現(xiàn)了優(yōu)于傳統(tǒng)統(tǒng)計(jì)學(xué)時(shí)序分析方法的預(yù)測(cè)性能。但與傳統(tǒng)RNN模型一樣,該模型對(duì)輸入配置要求高,并且由于對(duì)長(zhǎng)期依賴型時(shí)序預(yù)測(cè)存在內(nèi)部缺陷,因此該模型無(wú)法滿足更高的精度需求。隨著深度學(xué)習(xí)的發(fā)展,LSTM作為一種改進(jìn)的RNN算法被提出,基于這種算法建立傳感器時(shí)序預(yù)測(cè)模型,可以有效彌補(bǔ)普通RNN的缺陷。
1.1工業(yè)傳感器時(shí)序數(shù)據(jù)預(yù)處理
訓(xùn)練及測(cè)試數(shù)據(jù)為瑞典某公司機(jī)械裝載傳感器時(shí)序數(shù)據(jù)集,該數(shù)據(jù)集包括一個(gè)同步時(shí)間段內(nèi)的壓力、熱力、電量等24個(gè)不同種類的傳感器時(shí)序數(shù)據(jù)。數(shù)據(jù)采集的總時(shí)長(zhǎng)為6天、時(shí)間間隔為1 min??倲?shù)據(jù)集共有24組、8 641條原生數(shù)據(jù),其中包括3組標(biāo)簽數(shù)據(jù)和21組連續(xù)型數(shù)據(jù)。圖1展示了其中4組傳感器數(shù)據(jù)的可視化特征,橫軸為時(shí)間索引,縱軸為樣本值。由圖1可知,數(shù)據(jù)具有明顯的周期性,并且不同數(shù)據(jù)間的相關(guān)性也較為顯著。考慮到其中油桶溫度、 排放過(guò)濾器壓力及室外動(dòng)力單元溫度這3類數(shù)據(jù)對(duì)監(jiān)督工業(yè)生產(chǎn)的正常運(yùn)行尤為關(guān)鍵,實(shí)驗(yàn)?zāi)P蛯⒎謩e對(duì)這3類數(shù)據(jù)進(jìn)行預(yù)測(cè)。
數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗、標(biāo)簽數(shù)據(jù)One-hot編碼及數(shù)據(jù)歸一化。訓(xùn)練集為前4天的5 760條數(shù)據(jù),測(cè)試集為余下的2 876條數(shù)據(jù)。
1.2LSTM模型
RNN使用帶有自反饋的神經(jīng)元,不斷將自身上一刻的輸出當(dāng)作輸入,能夠?qū)W習(xí)任意長(zhǎng)度的時(shí)序邏輯特征。然而RNN在訓(xùn)練后期,容易出現(xiàn)梯度彌散或梯度爆炸,亦即當(dāng)時(shí)序間隔不斷增大,這種神經(jīng)網(wǎng)絡(luò)無(wú)法學(xué)習(xí)到遠(yuǎn)距離信息。
研究中擬預(yù)測(cè)的傳感器數(shù)據(jù)具有遠(yuǎn)距離依賴特性,為彌補(bǔ)普通RNN的缺陷,本文提出了基于LSTM模型來(lái)預(yù)測(cè)工業(yè)傳感器數(shù)據(jù)。LSTM是循環(huán)神經(jīng)網(wǎng)絡(luò)的一個(gè)變體,由德國(guó)學(xué)者Hochreiter和Schmidhuber于1997年提出。LSTM通過(guò)有針對(duì)性設(shè)計(jì)避免了長(zhǎng)期依賴問(wèn)題,在大量實(shí)驗(yàn)中證明了其優(yōu)越性。不同于普通RNN的單一隱藏層,LSTM將信息存放在RNN正常信息流之外的控制單元中,即引入一個(gè)新的狀態(tài)單元C,如圖2所示,LSTM的設(shè)計(jì)核心是門(mén)限機(jī)制,包括輸入門(mén)、遺忘門(mén)和輸出門(mén)。對(duì)其功能設(shè)計(jì)可分述如下。
1.3多變量LSTM傳感器預(yù)測(cè)模型
針對(duì)實(shí)際工業(yè)傳感器數(shù)據(jù)的遠(yuǎn)距離相關(guān)性及不同傳感器數(shù)據(jù)間多變量相關(guān)性特征,本文提出了改進(jìn)的多變量LSTM傳感器時(shí)序預(yù)測(cè)模型。該模型的網(wǎng)絡(luò)結(jié)構(gòu)包括3層:輸入層、隱藏層和輸出層。其中,輸入層控制輸入數(shù)據(jù)的格式;隱藏層是包含了若干LSTM單元的結(jié)構(gòu),通過(guò)反復(fù)迭代、調(diào)整權(quán)值來(lái)降低誤差直至收斂。輸出層將結(jié)果還原為原始數(shù)據(jù)格式,拓?fù)浣Y(jié)構(gòu)如圖3所示。
由圖3可知,輸入層將預(yù)處理后的工業(yè)傳感器時(shí)序數(shù)據(jù)轉(zhuǎn)為可用于監(jiān)督學(xué)習(xí)的數(shù)據(jù)。選取T個(gè)時(shí)間步為間隔,以每個(gè)時(shí)刻前T個(gè)時(shí)間步的數(shù)據(jù)作為該時(shí)刻的輸入,該時(shí)刻對(duì)應(yīng)的樣本值作為目標(biāo)輸出,將數(shù)據(jù)劃分為輸入集和相應(yīng)的輸出集。為了使輸入數(shù)據(jù)包含多變量性,將24類傳感器數(shù)據(jù)整合為3維數(shù)據(jù):[樣本值 ,時(shí)間步,特征],接著以時(shí)間步為唯一索引輸入到隱藏層中。
隱藏層數(shù)根據(jù)數(shù)據(jù)特征和實(shí)驗(yàn)結(jié)果靈活調(diào)整,本文數(shù)據(jù)具有較強(qiáng)的規(guī)律性,隱層數(shù)量過(guò)多容易導(dǎo)致過(guò)擬合,因此本文中的模型為單隱層結(jié)構(gòu)。由公式(1)~(3)可知,門(mén)限激活函數(shù)σ(·)的選擇是模型建立的關(guān)鍵,由于ReLU函數(shù)能減輕梯度彌散問(wèn)題且計(jì)算速度較快,因此選其作為門(mén)限激活函數(shù)。過(guò)擬合是多變量多參數(shù)深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中的一個(gè)嚴(yán)重問(wèn)題,本文在隱層加入Dropout[8]算法,核心是訓(xùn)練期間從神經(jīng)網(wǎng)絡(luò)中隨機(jī)丟棄單元(及其連接),這種方法能夠有效緩解過(guò)擬合問(wèn)題。輸出層對(duì)預(yù)測(cè)輸出i與目標(biāo)輸出yi計(jì)算平均絕對(duì)值誤差(Mean absolute Error,MAE)作為損失函數(shù),MAE是平均誤差幅度的明確度量,適用于大部分模型的平均誤差比較[9]。隱藏層將損失函數(shù)計(jì)算得出的梯度反向傳播調(diào)整公式中的所有權(quán)值,使用Adam算法為每一次迭代學(xué)習(xí)生成優(yōu)化參數(shù),直到損失函數(shù)收斂。模型訓(xùn)練結(jié)束后,輸出層對(duì)結(jié)果進(jìn)行反歸一化等處理,將預(yù)測(cè)值還原為與輸入相符的時(shí)序數(shù)據(jù)格式。
2實(shí)驗(yàn)
實(shí)驗(yàn)分為模型訓(xùn)練與模型測(cè)試2部分,分別對(duì)油桶溫度、排放過(guò)濾器壓力及室外動(dòng)力單元溫度3組時(shí)序數(shù)據(jù)進(jìn)行預(yù)測(cè)。輸入數(shù)據(jù)的時(shí)間間隔T為5,模型訓(xùn)練的Epoch為50, Batch size為512。使用相同數(shù)據(jù)集訓(xùn)練及測(cè)試單變量LSTM預(yù)測(cè)模型、BP神經(jīng)網(wǎng)絡(luò)、KNN回歸及SVM回歸作為對(duì)比實(shí)驗(yàn)。
2.1實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)操作系統(tǒng)為Ubuntu16.04,編程語(yǔ)言為python2.7,算法平臺(tái)為T(mén)ensorflow;硬件配置為CPU Intel i7,內(nèi)存8 G。
2.2實(shí)驗(yàn)結(jié)果
其中,yi和i分別表示第i個(gè)樣本的真實(shí)值和預(yù)測(cè)值,n是樣本數(shù)量。RMAE和MAPE的值越小,說(shuō)明預(yù)測(cè)結(jié)果越準(zhǔn)確。
研究中得到5種模型對(duì)3組數(shù)據(jù)的預(yù)測(cè)結(jié)果比較可見(jiàn)表1。除單變量LSTM模型外,其它模型均為多變量輸入。由比較結(jié)果可知,多變量LSTM在3組測(cè)試結(jié)果中RMSE值均為最低,2組測(cè)試結(jié)果中MAPE值最低,預(yù)測(cè)誤差最小。實(shí)驗(yàn)中,KNN回歸和SVM回歸的訓(xùn)練速度最快,但預(yù)測(cè)結(jié)果誤差較大。多變量LSTM的訓(xùn)練時(shí)間低于單變量LSTM,這是由于Dropout算法使多變量LSTM模型的網(wǎng)絡(luò)節(jié)點(diǎn)復(fù)雜度降低,且ReLU激活函數(shù)計(jì)算速度快等原因。
3結(jié)束語(yǔ)
本文提出了一種基于多變量分析的LSTM預(yù)測(cè)工業(yè)傳感器時(shí)序數(shù)據(jù)的方法,該方法不但克服了傳統(tǒng)機(jī)器學(xué)習(xí)方法的長(zhǎng)期依賴問(wèn)題,同時(shí)利用實(shí)際工業(yè)生產(chǎn)平臺(tái)上多類傳感器數(shù)據(jù)存在遠(yuǎn)距離依賴和相關(guān)的特點(diǎn),有效提高了時(shí)序數(shù)據(jù)的預(yù)測(cè)精度。實(shí)驗(yàn)結(jié)果證明:該模型對(duì)工業(yè)傳感器時(shí)序數(shù)據(jù)的預(yù)測(cè)能力優(yōu)于BP神經(jīng)網(wǎng)絡(luò)、SVM回歸、KNN回歸及單變量LSTM模型。論文的未來(lái)工作將考慮通過(guò)擴(kuò)大數(shù)據(jù)集,提高模型的泛化能力。
參考文獻(xiàn)
[1] 羅軍舟,金嘉暉,宋愛(ài)波,等. 云計(jì)算:體系架構(gòu)與關(guān)鍵技術(shù)[J]. 通信學(xué)報(bào),2011,32(7):3-21.
[2] BOX G E P, JENKINS G M, REINSEL G C, et al. Time series analysis: Forecasting and control[M]. New York:John Wiley & Sons, 2015.
[3] ZHANG Fan, DEB C, LEE S E, et al. Time series forecasting for building energy consumption using weighted Support Vector Regression with differential evolution optimization technique[J]. Energy and Buildings, 2016, 126: 94-103.
[4] WONG F S. Time series forecasting using backpropagation neural networks[J]. Neurocomputing, 1991, 2(4): 147-159.
[5] WANG Lin, ZENG Yi, CHEN Tao. Back propagation neural network with adaptive differential evolution algorithm for time series forecasting[J]. Expert Systems with Applications, 2015, 42(2): 855-863.
[6] 程學(xué)旗,靳小龍,王元卓,等. 大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J]. 軟件學(xué)報(bào),2014,25(9):1889-1908.
[7] CONNOR J, ATLAS L. Recurrent neural networks and time series prediction[C]//IJCNN-91-Seattle International Joint Conference on Neural Networks. Seattle, WA, USA:IEEE, 1991: 301-306.
[8] 焦李成,趙進(jìn),楊淑媛,等. 深度學(xué)習(xí)、優(yōu)化與識(shí)別[M]. 北京:清華大學(xué)出版社,2017.
[9] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural computation, 1997, 9(8): 1735-1780.
[10]CONNOR J T, MARTIN R D, ATLAS L E. Recurrent neural networks and robust time series prediction[J]. IEEE transactions on neural networks, 1994, 5(2): 240-254.
[11]SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: A simple way to prevent neural networks from overfitting[J]. The Journal of Machine Learning Research, 2014, 15(1): 1929-1958.
[12]WILLMOTT C J, MATSUURA K. Advantages of the mean absolute error (MAE) over the root mean square error (RMSE) in assessing average model performance[J]. Climate research, 2005, 30(1): 79-82.