◆張 鑫 李志剛
EMD-LSSVM模型預(yù)測(cè)高爐煤氣產(chǎn)生量
◆張 鑫1李志剛2
(1.華北理工大學(xué)電氣工程學(xué)院 河北 063210;2.華北理工大學(xué)信息工程學(xué)院 河北 063210)
鋼鐵企業(yè)實(shí)際生產(chǎn)中產(chǎn)生海量數(shù)據(jù),在數(shù)據(jù)中隱藏著潛在的規(guī)律,針對(duì)高爐煤氣產(chǎn)生量波動(dòng)頻繁,傳統(tǒng)的預(yù)測(cè)算法精度低誤差大的問題,本文通過對(duì)數(shù)據(jù)進(jìn)行經(jīng)驗(yàn)?zāi)B(tài)分解,建立一種EMD和LSSVM相結(jié)合的預(yù)測(cè)模型。首先將原始數(shù)據(jù)運(yùn)用EMD方法分解成多個(gè)IMF分量和Res分量,對(duì)每個(gè)分量單獨(dú)建立LSSVM預(yù)測(cè)模型,最后將各個(gè)分量的預(yù)測(cè)結(jié)果進(jìn)行疊加重構(gòu)得到最終的預(yù)測(cè)結(jié)果。本文所提出的方法,對(duì)某鋼鐵企業(yè)的實(shí)際生產(chǎn)中數(shù)據(jù)進(jìn)行預(yù)測(cè)實(shí)驗(yàn),結(jié)果表明,EMD-LSSVM算法確實(shí)可以提高預(yù)測(cè)的精度。
高爐煤氣預(yù)測(cè);SVM;LSSVM;EMD;灰色關(guān)聯(lián)度;BP網(wǎng)絡(luò)
高爐煤氣(BFG)不僅僅是在煉鐵過程中重要的副產(chǎn)物而且也是重要的二次能源,其回收利用率影響著生產(chǎn)的成本和環(huán)境污染程度,對(duì)企業(yè)有著重要的經(jīng)濟(jì)和環(huán)保意義[1]。生產(chǎn)中的煤氣過?;蛘呙簹饩o缺現(xiàn)象很容易導(dǎo)致設(shè)備熄火進(jìn)而影響用戶生產(chǎn)。煤氣產(chǎn)生量大于煤氣調(diào)度量會(huì)導(dǎo)致BFG放散到大氣中,勢(shì)必對(duì)環(huán)境造成污染[2]。因此在鋼鐵生產(chǎn)過程中,為了配合各個(gè)環(huán)節(jié)對(duì)高爐煤氣的需求,要實(shí)時(shí)把握高爐煤氣的發(fā)生量和趨勢(shì)。煉鐵的過程發(fā)生著復(fù)雜的化學(xué)反應(yīng),因而影響高爐煤氣發(fā)生量的因素復(fù)雜,其中摻雜著周期波動(dòng)和隨機(jī)擾動(dòng)和噪聲,實(shí)際采集到的高爐煤氣數(shù)據(jù)具有非線性的特點(diǎn)往往難以準(zhǔn)確預(yù)測(cè)[3]。
相關(guān)學(xué)者對(duì)BFG產(chǎn)生量的預(yù)測(cè)進(jìn)行了大量的研究。劉穎等人為改進(jìn)傳統(tǒng)的EMD存在只能靠經(jīng)驗(yàn)方法確定結(jié)構(gòu)的缺陷,提出了改進(jìn)的高斯過程回聲網(wǎng)絡(luò)[4]。張琦等人通過加入灰色關(guān)聯(lián)度分析從而提高了BP網(wǎng)絡(luò)的預(yù)測(cè)精度[5]。孫雪瑩提出了一種自適應(yīng)遺忘因子的極限學(xué)習(xí)機(jī)[6]。
本文根據(jù)高爐煤氣發(fā)生量的非線性特點(diǎn),采用LSSVM非線性預(yù)測(cè)模型。為了達(dá)到提高預(yù)測(cè)精度從而減小誤差的目的,為此本文采取EMD和LSSVM相結(jié)合的方法。
SVM在處理小樣本問題時(shí)具有優(yōu)良的估計(jì)能力,但是對(duì)過擬合問題不敏感。Suykens等對(duì)SVM進(jìn)行改進(jìn),提出了最小二成支持向量機(jī)(LSSVM)[7]。由于SVM中的損失函數(shù)不敏感,LSSSVM在其基礎(chǔ)上采用誤差的二次平方項(xiàng)將其代替,約束條件也由不等式變成等式,把原本的二次規(guī)劃問題巧妙的轉(zhuǎn)化為求解線性方程組,求解速度和收斂精度從而得到提高,在函數(shù)逼近和分類等領(lǐng)域得到應(yīng)用[8-9]。LSSVM原理如下:
根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論,此線性回歸問題可表示為一個(gè)等式約束問題。LSSVM目標(biāo)函數(shù)為:
通過拉格朗日乘子法得到如下拉格朗日函數(shù):
經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)是1998年由黃鍔等人提出的一種針對(duì)非線性、非平穩(wěn)信號(hào)的分解算法,將信號(hào)分解成不同頻率的IMF分量和剩余分量,IMF需要滿足的兩個(gè)條件:(1)在整個(gè)數(shù)據(jù)序列中,極值點(diǎn)的數(shù)量(包括極大值點(diǎn)和極小值點(diǎn))與零點(diǎn)的數(shù)量必須相等,或是最多相差不過1個(gè)。(2)在任一時(shí)間點(diǎn)上,信號(hào)局部極大值確定的上包絡(luò)線和局部極小值確定的下包絡(luò)線的均值為零。其算法步驟如下:
最終信號(hào)成為個(gè)基本模式分量和余量的和:
因?yàn)槊總€(gè)IMF分量代表一個(gè)特征尺度的數(shù)據(jù)序列,實(shí)際上是將分解為各種不同特征波動(dòng)序列的疊加過程[10]。
EMD作為一種處理信號(hào)的方法,它不需要先選擇基函數(shù),能夠根據(jù)信號(hào)的特點(diǎn)生成合適的表示函數(shù),從而很好地表示信號(hào)的局部特征;LSSVM能夠找到模型復(fù)雜性和學(xué)習(xí)能力的最佳折中,具有全局唯一最優(yōu)解,泛化能力強(qiáng)。結(jié)合這兩個(gè)方法的特點(diǎn),首先找出對(duì)高爐煤氣產(chǎn)生量關(guān)系大的因素,然后運(yùn)用EMD將原始數(shù)據(jù)序列分解成若干相對(duì)平穩(wěn)的IMF分量和殘余分量Res,將信號(hào)中存在的不同尺度波動(dòng)或趨勢(shì)逐級(jí)分解出來。針對(duì)各IMF分量分別建立LSSVM預(yù)測(cè)模型進(jìn)行預(yù)測(cè),最后將每個(gè)LSSVM模型的預(yù)測(cè)結(jié)果進(jìn)行疊加,從而得到最終的高爐煤氣發(fā)生量,流程如圖1。
圖1 EMD-LSSVM預(yù)測(cè)模型
以唐山某鋼鐵企業(yè)為例,使用2017年7月至10月的高爐生產(chǎn)中每2s采集一次而形成的數(shù)據(jù)集。
(1)異常數(shù)據(jù)處理
來自實(shí)際生產(chǎn)的數(shù)據(jù),往往存在噪聲高的現(xiàn)象,為了降低噪聲的影響,找到并剔除數(shù)據(jù)中的異常值,本文采用箱線圖分析的方法,而對(duì)于缺失的數(shù)據(jù)采用插值法來進(jìn)行填補(bǔ)。
(2)數(shù)據(jù)歸一化
不同類型數(shù)據(jù)的數(shù)據(jù)區(qū)間差異過大會(huì)嚴(yán)重影響到不同數(shù)據(jù)間的關(guān)聯(lián)性度,為消除這方面干擾,同時(shí)提高計(jì)算的速度和預(yù)測(cè)精度,本文采用Min-Max標(biāo)準(zhǔn)化方法將采集到的所有數(shù)據(jù)都約束在區(qū)間[0,1]之中。
(3)訓(xùn)練集和測(cè)試集劃分
在采集到的四個(gè)月數(shù)據(jù)中,將每月的前20天作為訓(xùn)練集,后10天的數(shù)據(jù)作為測(cè)試集。
由于生產(chǎn)過程復(fù)雜,BFG產(chǎn)生量受很多因素影響,為了提高計(jì)算的速度和預(yù)測(cè)準(zhǔn)確性,需要從采集到的多種數(shù)據(jù)中,找到最主要的影響因素。我們通過計(jì)算各個(gè)因素對(duì)高爐煤氣產(chǎn)生量的灰色關(guān)聯(lián)度,選取相關(guān)度高的影響因素進(jìn)行下一步分析。本實(shí)驗(yàn)選取關(guān)聯(lián)度大于0.6的影響因素作為預(yù)測(cè)的特征項(xiàng),見表1。
表1 高爐煤氣產(chǎn)生量的相關(guān)影響因素
高爐煤氣產(chǎn)生量非線性的特點(diǎn),屬于非平穩(wěn)信號(hào),采用EMD對(duì)其進(jìn)行分解,將Res分量不滿足IMF條件作為停止標(biāo)準(zhǔn),得五個(gè)IMF分量和一個(gè)Res分量,如圖2。
圖2反映出了原始數(shù)據(jù)的周期性、隨機(jī)性和趨勢(shì)性,更好的觀察出原始數(shù)據(jù)的特征??梢钥闯龈郀t煤氣發(fā)生量數(shù)據(jù)IMF分量的波動(dòng)性逐漸降低,代表了影響因素對(duì)高爐煤氣發(fā)生量的周期變化和波動(dòng)的影響,殘差量表示了高爐煤氣發(fā)生量在時(shí)間尺度上的變化趨勢(shì)。IMF1和IMF2頻率高,隨機(jī)無序性更高,能看出外部的隨機(jī)擾動(dòng)對(duì)高爐煤氣發(fā)生量影響較大。IMF3和IMF4顯示出波動(dòng)周期明顯,比IMF1和IMF2平穩(wěn),但是波動(dòng)周期性依然不夠穩(wěn)定。本文通過將高爐煤氣數(shù)據(jù)進(jìn)行EMD分解,通過各分量的特點(diǎn),可以反映出數(shù)據(jù)的隱含變化信息和一些局部特點(diǎn)。
將原始數(shù)據(jù)進(jìn)行預(yù)處理后,用搭建好的模型進(jìn)行訓(xùn)練,訓(xùn)練流程如圖1所示,將高爐煤氣發(fā)生量EMD分解后得到的IMF和Res分量分別進(jìn)行LSSVM模型訓(xùn)練,模型的核函數(shù)選擇徑向基核函數(shù),輸入變量為通過灰色關(guān)聯(lián)度分析得到的10個(gè)高爐煤氣主要的影響因素,輸出變量為1個(gè),通過此方法得到的LSSVM模型對(duì)測(cè)試集進(jìn)行預(yù)測(cè),將對(duì)IMF分量和Res分量的預(yù)測(cè)結(jié)果進(jìn)行疊加得到最終想要預(yù)測(cè)結(jié)果。
本文選用均方根誤差這種常用的預(yù)測(cè)模型評(píng)估指標(biāo)對(duì)模型進(jìn)行評(píng)估。公式如下:
為了驗(yàn)證EMD-LSSVM的預(yù)測(cè)效果有更高的準(zhǔn)確性,將其與LSSVM和BP網(wǎng)絡(luò)預(yù)測(cè)的結(jié)果分別與真實(shí)結(jié)果進(jìn)行比較,對(duì)比結(jié)果如圖3。BP網(wǎng)絡(luò)具有任意精度逼近復(fù)雜模型的能力,但學(xué)習(xí)速度慢,容易陷入局部極小值。通過圖3中各個(gè)模型的預(yù)測(cè)結(jié)果和真實(shí)結(jié)果對(duì)比曲線可以直觀地看出,BP網(wǎng)絡(luò)預(yù)測(cè)效果不理想。LSSVM模型在波動(dòng)較大的拐點(diǎn)處有嚴(yán)重的偏差。
圖3 預(yù)測(cè)值和實(shí)際值對(duì)比
選擇的性能指標(biāo)為均方根誤差,計(jì)算三個(gè)模型的均方根誤差,由表2可知,EMD-LSSVM模型得到的均方根誤差為2.475;而單獨(dú)使用LSSVM模型和BP網(wǎng)絡(luò)模型得到的均方根誤差分別為3.948和5.077,可以清楚看到LSSVM模型比BP模型有更好的效果,預(yù)測(cè)結(jié)果更接近真實(shí)值。LSSVM和EMD相結(jié)合比LSSVM模型的預(yù)測(cè)結(jié)果更進(jìn)一步提高預(yù)測(cè)精度,預(yù)測(cè)的時(shí)間序列趨勢(shì)也和實(shí)際吻合度高,可以看出通將數(shù)據(jù)進(jìn)行EMD分解后確實(shí)可以提高LSSVM模型的性能。
表2 各模型均方根誤差對(duì)比
針對(duì)傳統(tǒng)高爐煤氣發(fā)生量預(yù)測(cè)精度低和預(yù)測(cè)誤差較大的問題,使用了一種EMD-LSSVM組合預(yù)測(cè)模型。對(duì)采集到的工廠數(shù)據(jù)進(jìn)行經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)方法,將原始數(shù)據(jù)分解成多個(gè)IMF分量和一個(gè)Res分量,用LSSVM方法對(duì)這些分量分別進(jìn)行建模進(jìn)行預(yù)測(cè),再將各自的預(yù)測(cè)結(jié)果進(jìn)行疊加,得到最終的預(yù)測(cè)結(jié)果。通過實(shí)驗(yàn)驗(yàn)證,EMD-LSSVM組合模型確實(shí)可以提高預(yù)測(cè)的精度,有比傳統(tǒng)方法更好的效果,為高爐煤氣發(fā)生量的預(yù)測(cè)提供了一個(gè)新方法和思路。
[1]張琦,李鴻亮,趙曉宇,賈輝.高爐煤氣產(chǎn)生量與消耗量動(dòng)態(tài)預(yù)測(cè)模型及應(yīng)用[J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2016,48(01):101-106.
[2]孟繁濱.鋼廠高爐煤氣受入量預(yù)測(cè)方法的研究[D].大連理工大學(xué),2012.
[3]李紅娟,王建軍,王華,孟華.建立PNN-HP-ENN-LSSVM模型預(yù)測(cè)鋼鐵企業(yè)高爐煤氣發(fā)生量[J].過程工程學(xué)報(bào),2013,13(03):451-457.
[4]劉穎,趙珺,王偉,吳毅平,陳偉昌.基于數(shù)據(jù)的改進(jìn)回聲狀態(tài)網(wǎng)絡(luò)在高爐煤氣發(fā)生量預(yù)測(cè)中的應(yīng)用[J].自動(dòng)化學(xué)報(bào),2009,35(06):731-738.
[5]張琦,谷延良,提威,蔡九菊.鋼鐵企業(yè)高爐煤氣供需預(yù)測(cè)模型及應(yīng)用[J].東北大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,31(12):1737-1740.
[6]孫雪瑩,胡靜濤,王卓,張吉龍.基于自適應(yīng)遺忘因子極限學(xué)習(xí)機(jī)的高爐煤氣預(yù)測(cè)[J].計(jì)算機(jī)測(cè)量與控制,2017,25(07):235-238.
[7]SUYKENS J A,VANDEWALLE J.Least squares support vector machine classifiers[J].Neural Processing Letters,1999,9(3):293-300.
[8]張永康,李春祥,鄭曉芬,徐化喜.基于混合人工蜂群和人工魚群優(yōu)化的LSSVM脈動(dòng)風(fēng)速預(yù)測(cè)[J].振動(dòng)與沖擊,2017,36(15):203-209.
[9]顧清華,李夢(mèng)然,閆寶霞.基于DE-BA-LSSVM的露天礦邊坡穩(wěn)定性預(yù)測(cè)[J].礦業(yè)研究與開發(fā),2018,38(08):1-5.
[10]王妍鵬.基于數(shù)據(jù)的高爐煤氣受入量的預(yù)測(cè)[D].天津工業(yè)大學(xué),2017.
河北省自然科學(xué)基金資助項(xiàng)目(F2016209165)。