王 偉, 汪 坤, 楊 帆, 戴超男, 金繼民, 金寶寶
(1.中國(guó)石化武漢分公司,湖北 武漢 430082;2.聯(lián)想大數(shù)據(jù)智能應(yīng)用實(shí)驗(yàn)室,四川 成都 610041)
催化裂化(FCC)是煉油廠重質(zhì)油輕質(zhì)化的主要工藝之一,該工藝在高溫和催化劑的作用下將蠟油和重油轉(zhuǎn)化成液化氣、汽油、柴油等輕質(zhì)油品,在煉油工業(yè)生產(chǎn)中占有重要的地位[1-5]。由于催化裂化系統(tǒng)裝置工藝復(fù)雜,連續(xù)程度高,反應(yīng)機(jī)理復(fù)雜,其反應(yīng)過(guò)程和產(chǎn)物收率受原料油性質(zhì)、反應(yīng)再生催化劑性質(zhì)以及操作條件相互影響,是一個(gè)高度非線(xiàn)性和相互強(qiáng)關(guān)聯(lián)的系統(tǒng),難以全面地用傳統(tǒng)的數(shù)學(xué)模型來(lái)描述[6-8]。近年來(lái),使用基于數(shù)據(jù)挖掘技術(shù)的分析方法成為解決該類(lèi)問(wèn)題的新方向[9-14]。
目前,數(shù)據(jù)挖掘技術(shù)被應(yīng)用于各種行業(yè),包括國(guó)內(nèi)外金融業(yè)[15]、互聯(lián)網(wǎng)[16]、通信[17]、電子商務(wù)[18]等,并呈現(xiàn)快速發(fā)展的趨勢(shì)。得益于日益完善的采集裝置及數(shù)據(jù)存儲(chǔ)設(shè)備,可以采集到各種原料、催化劑、操作條件等實(shí)時(shí)數(shù)據(jù)。這些數(shù)據(jù)可以有效反映催化裂化的反應(yīng)過(guò)程。因此,相比傳統(tǒng)的機(jī)理分析方法,可以基于數(shù)據(jù)分析尋找新的優(yōu)化方式。通過(guò)已有數(shù)據(jù)建立合理的統(tǒng)計(jì)學(xué)分析模型,對(duì)重要指標(biāo)以及反應(yīng)過(guò)程進(jìn)行分析,進(jìn)一步提高原料利用率與對(duì)應(yīng)產(chǎn)品的收率。
近年來(lái),數(shù)據(jù)挖掘已逐步被用于催化裂化等工藝的優(yōu)化。李鵬等[19]使用非線(xiàn)性主成分分析法確定了結(jié)焦關(guān)鍵性參數(shù),并結(jié)合神經(jīng)網(wǎng)絡(luò)等預(yù)測(cè)方法針對(duì)結(jié)焦趨勢(shì)構(gòu)建了結(jié)焦診斷模型。Zahedi等[20]基于誤差反向傳播神經(jīng)網(wǎng)絡(luò)和徑向基神經(jīng)網(wǎng)絡(luò)建立了催化重整的預(yù)測(cè)模型,并使用單變量?jī)?yōu)化方法對(duì)溫度和壓力等工藝參數(shù)進(jìn)行優(yōu)化。Hao等[21]通過(guò)多種軟測(cè)量建模方法分別對(duì)相關(guān)指標(biāo)與產(chǎn)品收率進(jìn)行分析,并使用最小二乘支持向量機(jī)(LSSVM)算法建立催化裂化產(chǎn)品收率的預(yù)測(cè)模型。目前,現(xiàn)有的優(yōu)化預(yù)測(cè)模型多由神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)(SVM)、決策樹(shù)等算法構(gòu)建,且用于模型建立的參數(shù)多為基于反應(yīng)原理與生產(chǎn)經(jīng)驗(yàn)篩選出的經(jīng)驗(yàn)影響參數(shù)。通過(guò)對(duì)現(xiàn)有方法的研究和改進(jìn)方法的嘗試,發(fā)現(xiàn)在模型中僅使用工業(yè)經(jīng)驗(yàn)已知的關(guān)鍵影響參數(shù)進(jìn)行擬合,得到的擬合結(jié)果有一定欠缺。其中可直接調(diào)控的參數(shù)權(quán)重較小,不利于模型的改進(jìn)和實(shí)際生產(chǎn)中的尋優(yōu)。如果在此基礎(chǔ)上加入不可控的參數(shù)進(jìn)行訓(xùn)練,則會(huì)出現(xiàn)一定的過(guò)擬合現(xiàn)象,結(jié)論在測(cè)試數(shù)據(jù)以及實(shí)際生產(chǎn)中的表現(xiàn)都有所下降。為了改進(jìn)方法的不足,增大模型中經(jīng)驗(yàn)可控參數(shù)的權(quán)重,使模型的擬合泛化能力增強(qiáng),需要選擇建立其他的模型,對(duì)催化裂化裝置的產(chǎn)品產(chǎn)率進(jìn)行擬合。
筆者根據(jù)某煉油化工公司催化裂化裝置提供的實(shí)時(shí)過(guò)程數(shù)據(jù),使用GBDT算法建立了基于經(jīng)驗(yàn)可控指標(biāo)與重要相關(guān)參數(shù)的汽油收率預(yù)測(cè)模型。在該算法的基礎(chǔ)上,引入特征權(quán)重和采樣比率,通過(guò)人工調(diào)整不同特征在模型中的權(quán)重大小以及模型每次迭代時(shí)所采用的特征數(shù)量,從而調(diào)整經(jīng)驗(yàn)可控指標(biāo)以及其他指標(biāo)對(duì)模型的影響,優(yōu)化模型,提高模型的擬合能力和泛化能力。
筆者以從某石油化工企業(yè)的集散控制系統(tǒng)(Distributed control system, DCS)及實(shí)驗(yàn)室信息管理系統(tǒng)(Laboratory information management system, LIMS)采集到的數(shù)據(jù)作為研究對(duì)象,進(jìn)行整理后得到初始數(shù)據(jù)庫(kù)。通過(guò)LIMS系統(tǒng)采集到從2016年8月4日至2018年3月20日的數(shù)據(jù)樣本,分析頻次為每周1次。LIMS數(shù)據(jù)包括原料油和再生催化劑的性質(zhì)相關(guān)數(shù)據(jù)。DCS系統(tǒng)裝置的采集時(shí)間段為2017年10月21日至2018年4月25日共6個(gè)月,記錄頻次約為每15 s 1次,該裝置主要采集操作變量和系統(tǒng)物料平衡數(shù)據(jù)。將采集到的數(shù)據(jù)按照鍵值對(duì)的格式整理,每條數(shù)據(jù)由時(shí)間戳和指標(biāo)值2個(gè)字段構(gòu)成,分別保存為鍵和值,并將所有數(shù)據(jù)按時(shí)間戳進(jìn)行升序排序,方便進(jìn)一步清洗及計(jì)算。
采集到的數(shù)據(jù)需要通過(guò)數(shù)據(jù)清洗來(lái)保證訓(xùn)練數(shù)據(jù)的正確性和有效性,以提高模型運(yùn)算的效率。由于一些客觀原因,如裝置測(cè)量波動(dòng)、數(shù)據(jù)采集系統(tǒng)偶發(fā)問(wèn)題或者人為因素等,原始數(shù)據(jù)可能存在異常情況,如部分?jǐn)?shù)據(jù)存在異常值、缺失、重復(fù)、不完整、噪音等,此外,還可能存在部分冗余數(shù)據(jù)。對(duì)于這些異常數(shù)據(jù),需要根據(jù)經(jīng)驗(yàn)與對(duì)催化裂化工藝參數(shù)的理解進(jìn)行清洗。數(shù)據(jù)清洗的原則遵循以下幾點(diǎn):
(1)剔除數(shù)據(jù)格式錯(cuò)誤的數(shù)據(jù)。
(2)利用萊特準(zhǔn)則判定異常數(shù)據(jù),并使用時(shí)間臨近數(shù)據(jù)的加權(quán)平均值替代異常值;對(duì)于缺省值,也看作異常值進(jìn)行處理。
(3)統(tǒng)一相同時(shí)間戳的記錄,選擇其中合法的數(shù)值并取均值。
通過(guò)分析清洗后數(shù)據(jù)的特點(diǎn),發(fā)現(xiàn)2個(gè)采集系統(tǒng)的數(shù)據(jù)采集頻率差異較大,需要對(duì)分析指標(biāo)的監(jiān)控采集頻率進(jìn)行統(tǒng)一處理。筆者以60 min作為統(tǒng)一間隔,將采集間隔小于60 min的數(shù)據(jù)進(jìn)行平均處理,在時(shí)間間隔內(nèi)采樣并取該間隔內(nèi)的均值;將采集間隔大于60 min的指標(biāo)進(jìn)行插值處理,合理擴(kuò)充已有的參數(shù)。根據(jù)原始數(shù)據(jù)的特點(diǎn),一般由DCS裝置采集的數(shù)據(jù)需要進(jìn)行采樣處理,而由LIMS裝置采集到數(shù)據(jù)需要進(jìn)行插值處理。
為了使插值得到的數(shù)據(jù)曲線(xiàn)更平滑,筆者采用3種插值方法結(jié)合進(jìn)行插值:(1)直接使用前一次的測(cè)量值插值;(2)線(xiàn)性插值;(3)二階B樣條插值。
將采用3種插值方法分別插值后的均值作為最終插值的結(jié)果。對(duì)于測(cè)量值前后差異較大的數(shù)據(jù)而言,3種插值方法都能有效彌補(bǔ)采樣時(shí)間段內(nèi)的缺省值,且處理得到結(jié)果值差異不大。將它們的均值作為插值結(jié)果,得到的數(shù)據(jù)穩(wěn)定性更高,更可能反映出未測(cè)量到的趨勢(shì)。
經(jīng)過(guò)數(shù)據(jù)清洗與插值的LIMS和DCS數(shù)據(jù)包含近2000個(gè)分析特征指標(biāo),其中包括可控指標(biāo)和監(jiān)控所得參數(shù)。直接將所有指標(biāo)應(yīng)用于產(chǎn)品收率預(yù)測(cè),會(huì)增大計(jì)算的復(fù)雜度,影響模型的可解釋性、容易出現(xiàn)過(guò)擬合,同時(shí)可能會(huì)降低重要參數(shù)的所得權(quán)重。因此,篩選收集到的數(shù)據(jù)特征指標(biāo)中可能影響產(chǎn)品收率的關(guān)鍵特征指標(biāo)是一個(gè)優(yōu)化模型特征的過(guò)程。此外,進(jìn)行特征篩選可以有效消除冗余特征,降低訓(xùn)練數(shù)據(jù)的維度和計(jì)算的復(fù)雜度,同時(shí)提高模型的泛化能力。
篩選模型特征一般從系統(tǒng)工藝流程、催化裂化反應(yīng)過(guò)程以及采集數(shù)據(jù)自身特點(diǎn)等方面來(lái)考慮。筆者將采集數(shù)據(jù)按照60 min的粒度進(jìn)行時(shí)間對(duì)齊,并構(gòu)建相應(yīng)的特征篩選算法如下所示。
算法:特征篩選算法。
輸入:來(lái)自LIMS和DCS的全部分析指標(biāo)構(gòu)成的特征總集合A。
輸出:篩選后的有效特征集F。
(1)從特征總集合A中刪除部分意義重復(fù)或無(wú)效的特征。
(2)根據(jù)行業(yè)經(jīng)驗(yàn):分析系統(tǒng)工藝流程、催化裂化反應(yīng)過(guò)程篩選特征,選擇經(jīng)過(guò)機(jī)理驗(yàn)證的對(duì)催化裂化過(guò)程有重要影響的因素作為特征指標(biāo),稱(chēng)為經(jīng)驗(yàn)可控指標(biāo)并構(gòu)成對(duì)應(yīng)集合S1。
(3)依據(jù)采集指標(biāo)與收率的相關(guān)性構(gòu)建filter進(jìn)行過(guò)濾:計(jì)算各指標(biāo)與收率的Pearson相關(guān)系數(shù)或傳遞熵,并以此篩選得到部分模型特征。筆者使用Pearson相關(guān)性系數(shù)計(jì)算指標(biāo)與汽油收率的相關(guān)性,選擇相關(guān)性最高的M個(gè)指標(biāo),作為特征集合S2。
(4)合并S1與S2所得模型特征,進(jìn)行特征處理并作為候選特征集F。
(5)選擇可對(duì)輸入特征進(jìn)行權(quán)重打分的機(jī)器學(xué)習(xí)模型構(gòu)建wrapper用于篩選特征:
選擇隨機(jī)森林算法構(gòu)建預(yù)測(cè)模型,使用已有特征集F進(jìn)行訓(xùn)練,篩選出訓(xùn)練后特征權(quán)重最小的m個(gè)特征,構(gòu)成待剔除特征集Q,并移除Q中的經(jīng)驗(yàn)可控特征,使用Q′更新Q,其中Q=Q′-S1。
對(duì)于Q中的每個(gè)特征q:
①構(gòu)建新的候選特征集F′=F-q,使用 K-Folder 交叉驗(yàn)證的方式訓(xùn)練隨機(jī)森林模型,并與使用特征集F交叉驗(yàn)證得到的訓(xùn)練結(jié)果進(jìn)行對(duì)比。
②選擇訓(xùn)練結(jié)果更好的特征集作為新的F。
③若未遍歷完Q中的全部特征,則重復(fù)①②;否則,執(zhí)行(6)。
(6)最終得到的特征集合F為特征篩選結(jié)果。
使用該算法篩選特征,結(jié)合工業(yè)經(jīng)驗(yàn),從操作條件、原料、催化劑等方面可以篩選出對(duì)汽油收率有重要影響且直接可控的10個(gè)經(jīng)驗(yàn)指標(biāo),其中包括原料入口溫度控制、提升管出口溫度、汽提蒸汽(中)流量和回?zé)捰腿胩嵘芰髁康?。?jì)算指標(biāo)與汽油收率的Pearson相關(guān)性進(jìn)行篩選,當(dāng)所得相關(guān)系數(shù)值高,表明其一定程度上能真實(shí)反映或逼近產(chǎn)品收率的變化,可能是影響催化裂化系統(tǒng)中汽油收率的關(guān)鍵指標(biāo)。部分經(jīng)驗(yàn)可控指標(biāo)可能與汽油收率的相關(guān)性并不顯著,需要結(jié)合所得的2個(gè)特征集合共同構(gòu)成候選特征集。
隨機(jī)森林模型是將多棵決策樹(shù)集成學(xué)習(xí)的一種算法,使用該算法構(gòu)建特征選擇模型穩(wěn)定性較好,在訓(xùn)練中會(huì)對(duì)特征和樣本進(jìn)行有放回的隨機(jī)抽樣,多次抽樣有利于選擇到最優(yōu)的特征。使用交叉驗(yàn)證篩選用于訓(xùn)練的模型特征,剔除了64個(gè)特征,其中包括粗汽油入塔-吸收解吸塔、穩(wěn)定汽油入塔-吸收解吸塔和吸收解吸塔上中段回流流量控制等指標(biāo)。通過(guò)構(gòu)建模型wrapper對(duì)特征進(jìn)行篩選,得到除經(jīng)驗(yàn)可控指標(biāo)外172個(gè)模型重要性較高的特征。
通過(guò)特征篩選,最終得到182個(gè)原始特征指標(biāo),可以被應(yīng)用于特征處理與模型訓(xùn)練。除此之外,為了避免隨機(jī)波動(dòng)的影響,增加特征數(shù)據(jù)的穩(wěn)定性,筆者通過(guò)處理原始特征指標(biāo),增加對(duì)應(yīng)的滾動(dòng)均值作為新的特征。使用簡(jiǎn)單移動(dòng)平均的方式計(jì)算各特征參數(shù)每4 h的滾動(dòng)均值,忽略累計(jì)量的影響,并將滾動(dòng)均值作為新的特征與原有特征數(shù)據(jù)合并。得到的滾動(dòng)均值曲線(xiàn)可以有效平滑可能的異常值以及隨機(jī)突變,同時(shí)反映實(shí)際數(shù)據(jù)的變化趨勢(shì)。通過(guò)對(duì)篩選后的數(shù)據(jù)進(jìn)行特征平滑,擴(kuò)增后的總特征數(shù)為364,包括原有特征指標(biāo)與對(duì)應(yīng)的滾動(dòng)特征均值。
為評(píng)估現(xiàn)有模型,筆者首先采用均值預(yù)測(cè),即采用訓(xùn)練集中所有汽油收率的均值作為未來(lái)汽油收率的預(yù)測(cè)值,并以該模型的預(yù)測(cè)效果作為現(xiàn)有模型評(píng)估的基準(zhǔn);其次,采用GBDT算法構(gòu)建汽油收率預(yù)測(cè)模型,進(jìn)行汽油收率預(yù)測(cè)。
僅使用單一評(píng)估標(biāo)準(zhǔn)來(lái)評(píng)價(jià)汽油收率預(yù)測(cè)模型的效果會(huì)得到不完全的結(jié)論,如僅使用平均絕對(duì)誤差(Mean absolute error, MAE),可能多個(gè)模型之間的值差異不大,不能夠得到明顯的判別;同時(shí),也無(wú)法反映真實(shí)收率與預(yù)測(cè)值的擬合情況。為了更好地評(píng)估回歸模型的效果,筆者采用3種方式共同評(píng)價(jià)模型的準(zhǔn)確度和擬合效果:準(zhǔn)確率(Precision)、決定系數(shù)(R2)和均方根誤差(Root mean square error, RMSE)。
(1)
準(zhǔn)確率用來(lái)衡量預(yù)測(cè)值與實(shí)際值的整體偏差程度,一定程度上而言,準(zhǔn)確率越高,模型的預(yù)測(cè)值與真實(shí)數(shù)據(jù)的偏差越小。
除此之外,由于真實(shí)汽油收率的分布近似正態(tài)分布,且較為集中,使用歷史汽油收率的均值作為預(yù)測(cè)值的準(zhǔn)確率也可以達(dá)到97.32%。在使用準(zhǔn)確率作為評(píng)價(jià)標(biāo)準(zhǔn)的基礎(chǔ)上,還需要去掉收率的均值來(lái)評(píng)價(jià)收率的變化程度,同時(shí)評(píng)估模型對(duì)汽油收率的預(yù)測(cè)效果。針對(duì)真實(shí)汽油收率的整體特點(diǎn),使用決定系數(shù)R2作為評(píng)估標(biāo)準(zhǔn),可以很好地反映預(yù)測(cè)模型的擬合效果。R2的表達(dá)公式如式(2)所示。
(2)
相比R2和準(zhǔn)確率,均方根誤差表示預(yù)測(cè)值與實(shí)際值誤差的平方和與預(yù)測(cè)次數(shù)N比值的平方根,能更好地用來(lái)衡量預(yù)測(cè)值與實(shí)際值之間的偏差。均方根誤差的值由式(3)計(jì)算。
(3)
均方根誤差和準(zhǔn)確率主要反映預(yù)測(cè)值與實(shí)際值之間的偏離程度;而R2更傾向反映預(yù)測(cè)值與實(shí)際值之間的線(xiàn)性相關(guān)性和擬合程度,并與直接使用均值進(jìn)行預(yù)測(cè)的效果進(jìn)行對(duì)比。同時(shí)使用上述3個(gè)評(píng)估標(biāo)準(zhǔn)作為指標(biāo),可以全面地反映原有模型的預(yù)測(cè)效果以及尋優(yōu)模型的改進(jìn)效果。
通過(guò)Boosting方式集成的梯度提升決策樹(shù)(Gradient boosting decision tree,GBDT) 算法是一種迭代的決策樹(shù)算法。其采用加法模型(即基函數(shù)的線(xiàn)性組合),以及不斷減小訓(xùn)練過(guò)程產(chǎn)生的殘差來(lái)完成數(shù)據(jù)分類(lèi)或者回歸。在GBDT算法的基礎(chǔ)上,可以對(duì)模型進(jìn)行改進(jìn):參考隨機(jī)森林的思想,對(duì)訓(xùn)練特征進(jìn)行有放回采樣,賦予不同的采樣權(quán)重以保證經(jīng)驗(yàn)可調(diào)的特征對(duì)應(yīng)采樣概率更高。為了對(duì)比改進(jìn)方法的模型效果,使用GBDT算法構(gòu)建模型并訓(xùn)練,將基礎(chǔ)模型調(diào)優(yōu)得到的結(jié)果作為尋優(yōu)與改進(jìn)的基礎(chǔ)標(biāo)準(zhǔn)。
筆者采用GBDT算法的開(kāi)源系統(tǒng)實(shí)現(xiàn)lightGBM回歸模型,以預(yù)測(cè)汽油收率為目標(biāo)建立回歸樹(shù)模型,并將預(yù)測(cè)結(jié)果作為基準(zhǔn)值與優(yōu)化后的模型預(yù)測(cè)效果進(jìn)行對(duì)比。為了保證篩選出的所有特征指標(biāo)都有合理的數(shù)據(jù),截取2017年11月4日至2018年3月19日期間的數(shù)據(jù)作為整體數(shù)據(jù)集;選擇2017年11月4日至2018年3月12日期間的特征數(shù)據(jù)和汽油收率實(shí)際值作為訓(xùn)練集,共3096條數(shù)據(jù);將其余2018年3月13日到2018年3月19日期間的數(shù)據(jù)共168條作為測(cè)試集,用來(lái)驗(yàn)證模型的預(yù)測(cè)效果和擬合程度。
GBDT算法可以由式(4)來(lái)表示。
(4)
其中,T(x,θm)為擬合殘差得到的決策樹(shù);θm為樹(shù)的參數(shù);M為迭代次數(shù)。對(duì)于GBDT算法而言,每一次都在之前建立決策樹(shù)損失函數(shù)的梯度下降方向上建立新的樹(shù)。即每輪迭代開(kāi)始時(shí),計(jì)算當(dāng)前損失函數(shù)的負(fù)梯度的值,并將其作為殘差的估計(jì)去擬合一個(gè)新的回歸樹(shù)。將每輪迭代訓(xùn)練得到的樹(shù)加權(quán)求和,可以得到最終的模型輸出。
通過(guò)經(jīng)驗(yàn)設(shè)置與局部網(wǎng)格搜索的方法調(diào)整GBDT回歸模型的超參數(shù),并對(duì)比其交叉驗(yàn)證的結(jié)果,根據(jù)2.1節(jié)中的3個(gè)評(píng)估標(biāo)準(zhǔn),可以得到使用該算法進(jìn)行學(xué)習(xí)的相對(duì)較好的預(yù)測(cè)模型。真實(shí)測(cè)量的汽油收率可能出現(xiàn)過(guò)大或過(guò)小的異常值,采用萊特準(zhǔn)則處理異常值之后,繪制實(shí)際收率數(shù)據(jù)的曲線(xiàn),并對(duì)比GBDT模型對(duì)催化裂化汽油收率的預(yù)測(cè)結(jié)果,得到工業(yè)實(shí)際值與預(yù)測(cè)值的對(duì)比曲線(xiàn)如圖1所示。由圖1可知:模型的預(yù)測(cè)值總體趨勢(shì)與工業(yè)實(shí)際值吻合較好;當(dāng)實(shí)際的汽油收率短時(shí)間內(nèi)波動(dòng)較大時(shí),模型的預(yù)測(cè)值與汽油收率實(shí)際值之間的偏差較大。
圖1 汽油收率預(yù)測(cè)值與實(shí)際值的對(duì)比Fig.1 Gasoline yield prediction comparison with actual yield
對(duì)于已得到的較優(yōu)的模型,其評(píng)估結(jié)果如表1所示??梢钥闯觯篏BDT預(yù)測(cè)模型的準(zhǔn)確率達(dá)到98.65%,明顯高于直接使用均值預(yù)測(cè)的準(zhǔn)確率,驗(yàn)證了該預(yù)測(cè)模型的可行性和有效性;R2為0.67,表明GBDT模型特征可以有效解釋汽油收率的部分變化趨勢(shì),且明顯優(yōu)于直接使用均值進(jìn)行收率預(yù)測(cè)的效果;汽油收率預(yù)測(cè)值與實(shí)際值的均方根誤差為0.80%,相對(duì)于均值預(yù)測(cè),誤差明顯降低。計(jì)算R2時(shí)使用訓(xùn)練集的均值作為數(shù)據(jù)整體均值,更能反映模型對(duì)未來(lái)數(shù)據(jù)的預(yù)測(cè)能力,同時(shí)與直接使用均值預(yù)測(cè)汽油收率的效果進(jìn)行對(duì)比。由準(zhǔn)確率和均方根誤差可知,基于GBDT構(gòu)建的收率預(yù)測(cè)模型對(duì)汽油收率能夠起到較為良好的預(yù)測(cè)效果,得到的預(yù)測(cè)值與實(shí)際值的整體誤差較小,但預(yù)測(cè)所得的R2較小,且無(wú)法準(zhǔn)確擬合汽油收率中部分變化較大的波動(dòng),說(shuō)明其擬合效果有待提升。
表1 GBDT和均值預(yù)測(cè)結(jié)果Table 1 Results of GBDT model and mean value model
同時(shí),基于GBDT的模型經(jīng)驗(yàn)可控參數(shù)特征的權(quán)重較小,部分權(quán)重較大的特征為依賴(lài)監(jiān)控的其他特征參數(shù),不利于工業(yè)控制中的參數(shù)尋優(yōu)。因此,需要嘗試新的尋優(yōu)方法,對(duì)汽油收率預(yù)測(cè)模型進(jìn)行改進(jìn)或優(yōu)化,嘗試使經(jīng)驗(yàn)可控參數(shù)的權(quán)重更大,同時(shí)提升模型的預(yù)測(cè)效果和泛化能力。
在實(shí)際的工業(yè)生產(chǎn)過(guò)程中,不同的裝置對(duì)催化裂化裝置產(chǎn)品收率的影響程度不同,整個(gè)生產(chǎn)系統(tǒng)對(duì)不同裝置的偏好也有所不同。因此,在構(gòu)建算法模型時(shí),模型也應(yīng)該具備對(duì)不同的特征指標(biāo)具有不同偏好的特性。針對(duì)真實(shí)數(shù)據(jù)的狀態(tài),筆者提出了基于GBDT的改進(jìn)算法P-GBDT模型。
基于GBDT集成學(xué)習(xí)框架構(gòu)建P-GBDT算法模型,依據(jù)部分特征在實(shí)際工藝中的重要性引入特征擾動(dòng)和特征權(quán)重,即采樣比率P和特征權(quán)重W。引入特征擾動(dòng)以及依賴(lài)權(quán)重設(shè)置的特征偏向,可保證該類(lèi)指標(biāo)在預(yù)測(cè)模型中的特征重要性更高,并顯著增大經(jīng)驗(yàn)可控指標(biāo)在模型中訓(xùn)練所得的參數(shù)權(quán)重。
P-GBDT的基學(xué)習(xí)器采用與GBDT算法相同的CART分類(lèi)回歸樹(shù),將訓(xùn)練中損失函數(shù)的負(fù)梯度作為樹(shù)的學(xué)習(xí)目標(biāo)。該模型的重要超參數(shù)包括模型最大迭代次數(shù)、采樣比率P和特征權(quán)重W,需要在訓(xùn)練前進(jìn)行人為設(shè)定。其中,權(quán)重W為由二維數(shù)組構(gòu)成的矩陣,矩陣最大行數(shù)表示模型迭代的最大次數(shù),對(duì)應(yīng)列數(shù)表示輸入數(shù)據(jù)的特征個(gè)數(shù)。權(quán)重矩陣W的一行表示一次迭代中訓(xùn)練數(shù)據(jù)的特征權(quán)重分布,使不同的特征在迭代采樣中根據(jù)特征重要性產(chǎn)生對(duì)應(yīng)的采樣偏好,同時(shí)為模型引入特征擾動(dòng)。
采樣比率P表示對(duì)特征進(jìn)行采樣的比例。用一維數(shù)組構(gòu)建模型中每次迭代的樣本采樣比率。該數(shù)組的長(zhǎng)度表示模型迭代的次數(shù),其中各數(shù)值表示該層模型選取的特征數(shù)量占全部特征數(shù)的比例。每次迭代開(kāi)始時(shí),同時(shí)依據(jù)特征的權(quán)重大小和采樣比率對(duì)特征進(jìn)行采樣。
用T表示訓(xùn)練數(shù)據(jù)集及模型的輸入,其中T={(x1,y1),(x2,y2),……,(xN,yN)},xi∈Rn,yi∈R;模型迭代最大次數(shù)M,損失函數(shù)為L(zhǎng)(y,f(x)),P-GBDT模型的構(gòu)建過(guò)程如3.3節(jié)中所示。
通過(guò)分析操作裝置、反應(yīng)過(guò)程以及真實(shí)采集數(shù)據(jù),結(jié)合業(yè)務(wù)經(jīng)驗(yàn)和訓(xùn)練特征的實(shí)際物理意義,筆者將篩選出的訓(xùn)練特征初步劃分為經(jīng)驗(yàn)可控特征和普通特征兩組特征分組。經(jīng)驗(yàn)可控特征由經(jīng)業(yè)務(wù)經(jīng)驗(yàn)分析或驗(yàn)證的對(duì)產(chǎn)品收率有重要影響的特征組成。當(dāng)該部分特征指標(biāo)的參數(shù)值發(fā)生變化時(shí),僅對(duì)產(chǎn)品收率值產(chǎn)生影響,不對(duì)其他參與訓(xùn)練的特征指標(biāo)值或整個(gè)生產(chǎn)系統(tǒng)產(chǎn)生顯著影響。普通特征由其他經(jīng)Pearson相關(guān)性分析和模型篩選得到的特征指標(biāo)構(gòu)成,與產(chǎn)品收率存在一定的線(xiàn)性或非線(xiàn)性關(guān)系。
依據(jù)特征分組對(duì)特征權(quán)重進(jìn)行設(shè)置,在訓(xùn)練中分別為經(jīng)驗(yàn)可控特征和普通特征設(shè)置一個(gè)固定的權(quán)重值,且經(jīng)驗(yàn)特征的權(quán)重值大于普通特征的權(quán)重值。為經(jīng)驗(yàn)可控的特征賦予更高的權(quán)重,即該組特征在模型的構(gòu)建過(guò)程中重要性更高,可以使其被采樣的概率更高,加速模型的收斂;增大經(jīng)驗(yàn)可控參數(shù)的權(quán)重,也緩解了GBDT模型對(duì)訓(xùn)練特征缺乏偏好的問(wèn)題。
本次實(shí)驗(yàn)所使用的數(shù)據(jù)集與GBDT模型相同。其中,2017年11月04日至2018年03月12日期間的數(shù)據(jù)作為訓(xùn)練集;2018年03月13日至2018年03月19日期間的數(shù)據(jù)作為驗(yàn)證集。構(gòu)建P-GBDT模型的部分重要訓(xùn)練參數(shù)設(shè)置如表2所示,并使用以下算法步驟構(gòu)建P-GBDT模型:
(5)
其中,K為特征總數(shù)。
(2)模型初始化:給定訓(xùn)練數(shù)據(jù),由此訓(xùn)練出第0顆樹(shù),其表達(dá)式如式(6)所示。
(6)
其中,f0(x)表示第0棵數(shù);L(·)為損失函數(shù);N為樣本個(gè)數(shù);yi為第i個(gè)樣本的汽油收率;c為決策樹(shù)參數(shù),c0為c的最優(yōu)值。
(3)對(duì)于當(dāng)前模型迭代次數(shù)m,m為1、2、…、M,每次迭代的步驟如下:
(a)對(duì)于訓(xùn)練樣本i為1、2、…、N,計(jì)算損失函數(shù)在當(dāng)前模型的負(fù)梯度值rmi:
(7)
(b)根據(jù)已知的特征權(quán)重和特征采樣比率,按照式(5)中的概率對(duì)特征進(jìn)行采樣,并作為第m次迭代的訓(xùn)練特征。
(c)對(duì)rm擬合一個(gè)回歸樹(shù),訓(xùn)練得到第m棵樹(shù)。如果該樹(shù)有J個(gè)葉子節(jié)點(diǎn),則第j個(gè)葉節(jié)點(diǎn)表示為Rmj,j為1、2、…、J。
(d)對(duì)j為1、2、…、J,計(jì)算線(xiàn)性搜索的最優(yōu)步長(zhǎng)cmj,即參數(shù)c的最優(yōu)值:
(8)
(4)在M次迭代后,得到P-GBDT模型:
(9)
表2中的重要參數(shù)主要包括P-GBDT模型特征和樣本采樣所需參數(shù)。將每次迭代的樣本采樣比例統(tǒng)一設(shè)置為0.92,分別設(shè)置經(jīng)驗(yàn)可控特征與其他普通特征的權(quán)重均設(shè)置為2.0和1.0,通過(guò)設(shè)置不同的權(quán)重從而控制采樣概率的差異。使用網(wǎng)格尋優(yōu)搜索得到其他訓(xùn)練參數(shù)的最優(yōu)取值。對(duì)比經(jīng)過(guò)參數(shù)調(diào)優(yōu)的P-GBDT模型與基礎(chǔ)模型的擬合效果,分別繪制測(cè)試集的預(yù)測(cè)結(jié)果如圖2所示。
表2 重要訓(xùn)練參數(shù)及權(quán)重設(shè)置Table 2 Typical hyperparameters and weights
圖2 GBDT和P-GBDT模型汽油收率預(yù)測(cè)對(duì)比Fig.2 Gasoline yield prediction of GBDT and P-GBDT models
在相同時(shí)間段的測(cè)試集上,分別使用P-GBDT模型和GBDT模型對(duì)汽油收率進(jìn)行預(yù)測(cè)。測(cè)試集驗(yàn)證時(shí)間較短,汽油收率實(shí)際值隨著時(shí)間的變化相對(duì)驗(yàn)證集數(shù)據(jù)更不穩(wěn)定,在3月17日至19日之間有明顯波折。P-GBDT模型對(duì)汽油收率的預(yù)測(cè)結(jié)果在前期有較小偏離,對(duì)14日之后的曲線(xiàn)趨勢(shì)擬合較好,可以真實(shí)預(yù)測(cè)出汽油收率曲線(xiàn)的突變。使用GBDT模型的預(yù)測(cè)結(jié)果相對(duì)更為平穩(wěn),可以擬合出部分變化趨勢(shì)較小的汽油收率曲線(xiàn),但無(wú)法對(duì)汽油收率的突然變化進(jìn)行預(yù)測(cè)。對(duì)比2種模型對(duì)汽油收率趨勢(shì)的擬合,基于P-GBDT模型的預(yù)測(cè)效果顯然更優(yōu)。該模型與其他基礎(chǔ)模型在訓(xùn)練集和測(cè)試集上的評(píng)估標(biāo)準(zhǔn)值如表3所示。
表3 GBDT和P-GBDT回歸模型對(duì)比結(jié)果Table 3 Results of GBDT and P-GBDT regression models
由表3可知,在測(cè)試集上P-GBDT的模型準(zhǔn)確率相比GBDT提高了0.06百分點(diǎn),可知P-GBDT在預(yù)測(cè)準(zhǔn)確性上優(yōu)于GBDT。對(duì)于R2而言,P-GBDT 模型測(cè)試集的R2值在GBDT模型的基礎(chǔ)上提高了0.04,其對(duì)汽油收率變化趨勢(shì)的擬合效果明顯優(yōu)于GBDT模型。此外,GBDT和P-GBDT在測(cè)試集上的均方根誤差值分別為0.80%和0.75%,誤差降低了0.05百分點(diǎn),表明P-GBDT模型預(yù)測(cè)的汽油收率與實(shí)際值的偏差更小。結(jié)合2個(gè)模型在測(cè)試集上對(duì)模型準(zhǔn)確率、R2和均方根誤差的對(duì)比結(jié)果可知,P-GBDT模型對(duì)汽油收率預(yù)測(cè)的擬合效果明顯優(yōu)于采用GBDT構(gòu)建的預(yù)測(cè)模型。
分別對(duì)比2個(gè)模型在訓(xùn)練集上和測(cè)試集上的表現(xiàn),P-GBDT和GBDT模型都存在一定程度上的過(guò)擬合。但是P-GBDT的過(guò)擬合現(xiàn)象明顯比GBDT更弱,其訓(xùn)練集上的準(zhǔn)確率小于GBDT在訓(xùn)練集上的準(zhǔn)確率,R2之間的差值更小。說(shuō)明P-GBDT改進(jìn)算法不僅可以提升模型預(yù)測(cè)的性能,對(duì)模型過(guò)擬合現(xiàn)象也有一定的緩解。
為了對(duì)比相同條件下GBDT與P-GBDT模型的預(yù)測(cè)效果,利用P-GBDT的決策樹(shù)深度和最大迭代次數(shù)訓(xùn)練對(duì)應(yīng)lightGBM模型,該模型并非使用網(wǎng)格搜索得到的最優(yōu)模型,因此,其訓(xùn)練效果比原有GBDT參考模型效果更差。使用相同超參數(shù)訓(xùn)練GBDT及P-GBDT回歸模型的對(duì)比評(píng)估標(biāo)準(zhǔn)值如表3 所示。
從同參數(shù)GBDT模型的訓(xùn)練集表現(xiàn)可以看出,未使用最佳參數(shù)時(shí),GBDT模型的表現(xiàn)依然優(yōu)于直接使用平均值對(duì)汽油收率的預(yù)測(cè)。該模型在訓(xùn)練集上的表現(xiàn)很差,在預(yù)測(cè)集上反而較好,但預(yù)測(cè)曲線(xiàn)較為平緩,僅能擬合真實(shí)汽油收率的部分波動(dòng)趨勢(shì),依然存在較大的誤差。訓(xùn)練集與預(yù)測(cè)集的差異表明,使用與P-GBDT相同的超參數(shù)訓(xùn)練GBDT模型,會(huì)出現(xiàn)欠擬合。該模型的表現(xiàn)和P-GBDT模型預(yù)測(cè)結(jié)果的對(duì)比如圖2所示。
通過(guò)分析并對(duì)比P-GBDT模型與GBDT參考模型的效果,P-GBDT的各項(xiàng)評(píng)估表現(xiàn)明顯優(yōu)于GBDT,且能較好地?cái)M合真實(shí)汽油收率的波動(dòng)趨勢(shì),緩解了模型構(gòu)建中的過(guò)擬合。這證明該P(yáng)-GBDT改進(jìn)模型是合理可行的,可以提升催化裂化反應(yīng)中汽油收率的預(yù)測(cè)性能,并提升經(jīng)驗(yàn)可控指標(biāo)在模型中的權(quán)重。
基于LIMS及DCS系統(tǒng)中的工業(yè)生產(chǎn)數(shù)據(jù),通過(guò)分析指標(biāo)與真實(shí)汽油收率的相關(guān)性,結(jié)合工業(yè)經(jīng)驗(yàn)可控參數(shù)以及模型重要性篩選、關(guān)聯(lián)指標(biāo)的剔除,選擇了182個(gè)潛在影響催化裂化汽油收率的關(guān)鍵參數(shù)作為模型的輸入特征,并進(jìn)行進(jìn)一步的特征處理。利用GBDT算法構(gòu)建催化裂化汽油收率的預(yù)測(cè)模型,并將模型對(duì)汽油收率的預(yù)測(cè)效果作為基準(zhǔn)值,可以得到以下結(jié)論:
(1)基于GBDT集成學(xué)習(xí)框架構(gòu)建P-GBDT模型,加入特征擾動(dòng)和特征權(quán)重,并增大經(jīng)驗(yàn)可控參數(shù)的權(quán)重。結(jié)果發(fā)現(xiàn),由P-GBDT算法構(gòu)建的汽油收率預(yù)測(cè)模型預(yù)測(cè)結(jié)果的準(zhǔn)確率為98.71%,R2為0.71,均方根誤差為0.75%,相比由GBDT算法構(gòu)建的基準(zhǔn)模型的預(yù)測(cè)結(jié)果明顯更好,對(duì)真實(shí)汽油收率的擬合效果更為接近。
(2)通過(guò)對(duì)比原GBDT模型的預(yù)測(cè)效果,筆者構(gòu)建的P-GBDT模型能更為精確地預(yù)測(cè)催化裂化裝置中汽油收率,相比于基礎(chǔ)模型的擬合效果更優(yōu),針對(duì)經(jīng)驗(yàn)可控的重要指標(biāo)增大其參數(shù)權(quán)重,解決了GBDT模型對(duì)特征缺乏偏好,經(jīng)驗(yàn)可控參數(shù)特征的權(quán)重較小的問(wèn)題。增大模型中經(jīng)驗(yàn)可控特征指標(biāo)的權(quán)重,對(duì)優(yōu)化改進(jìn)實(shí)際可控裝置操作條件具有良好的指導(dǎo)意義。