田 旺, 秦 康, 李明豐, 胡元沖, 梁家林, 褚小立
(中國(guó)石化 石油化工科學(xué)研究院,北京 100083)
蠟油加氫作為催化裂化、加氫裂化重要的前處理工藝,除脫除產(chǎn)品中的一部分硫、氮,降低下游裝置的負(fù)擔(dān)外,還能對(duì)催化裂化或加氫裂化的原料進(jìn)行改質(zhì)[1]。隨著環(huán)保要求的日益嚴(yán)格,國(guó)家對(duì)汽、柴油中硫含量制定了更為苛刻的標(biāo)準(zhǔn)[2],這給汽、柴油的主要生產(chǎn)單元——催化裂化裝置帶來(lái)了極大的壓力。蠟油加氫裝置作為催化裂化原料的供應(yīng)者,為了減輕催化裂化裝置在脫硫方面的負(fù)擔(dān),控制精制蠟油的硫含量在合理的范圍內(nèi)顯得尤為重要。
實(shí)際生產(chǎn)中,精制蠟油硫含量超標(biāo)或者過(guò)低,通常是由于原料發(fā)生較大變化或者操作波動(dòng)較大所導(dǎo)致的。對(duì)于此情況,操作人員通常會(huì)對(duì)操作參數(shù)進(jìn)行相應(yīng)的調(diào)整,當(dāng)調(diào)整不充分時(shí),會(huì)導(dǎo)致精制蠟油中硫含量過(guò)高,出現(xiàn)“極大點(diǎn)”;當(dāng)調(diào)整過(guò)度時(shí),會(huì)導(dǎo)致精制蠟油中硫含量過(guò)低,出現(xiàn)“極小點(diǎn)”,造成過(guò)多的能耗損失。這些邊際點(diǎn)雖然不多,但給正常生產(chǎn)帶來(lái)了極大的挑戰(zhàn)。建立相應(yīng)的精制蠟油硫含量預(yù)測(cè)模型,準(zhǔn)確預(yù)測(cè)少數(shù)硫含量邊際點(diǎn),成為迫切需要解決的問(wèn)題。
常用的蠟油加氫建模方法主要有機(jī)理建模法和數(shù)據(jù)驅(qū)動(dòng)建模法2種。由于蠟油的加氫反應(yīng)是一個(gè)高度非線性且相互耦合的過(guò)程,原料性質(zhì)、操作條件、催化劑等因素均會(huì)影響反應(yīng)過(guò)程和產(chǎn)物收率,使用傳統(tǒng)的機(jī)理模型很難描述這一復(fù)雜體系,因此數(shù)據(jù)驅(qū)動(dòng)建模法則是解決這一問(wèn)題的有效工具。
目前,基于大數(shù)據(jù)的統(tǒng)計(jì)模型發(fā)展迅速,并已經(jīng)在航空[3]、電力[4]、電子商務(wù)[5]以及醫(yī)療[6]等領(lǐng)域取得了巨大成功。隨著PI實(shí)時(shí)數(shù)據(jù)庫(kù)系統(tǒng)(Plant information system)在石油化工領(lǐng)域的逐步普及[7],各種原料數(shù)據(jù)、工藝條件數(shù)據(jù)、催化劑性能數(shù)據(jù)等都可從裝置的數(shù)據(jù)庫(kù)平臺(tái)中采集,這些長(zhǎng)期積累的數(shù)據(jù),為數(shù)據(jù)挖掘技術(shù)在石油化工領(lǐng)域的應(yīng)用提供了良好的基礎(chǔ)條件[8]。將數(shù)據(jù)挖掘技術(shù)應(yīng)用于石油化工反應(yīng)過(guò)程,建立完善的統(tǒng)計(jì)學(xué)分析模型,多角度全方位地對(duì)反應(yīng)過(guò)程及其影響機(jī)制進(jìn)行分析,具有傳統(tǒng)機(jī)理模型無(wú)法比擬的優(yōu)勢(shì)[9]。楊帆等[10]基于梯度提升決策樹(shù)(Gradient boosting decision tree, GBDT)算法構(gòu)建了催化裂化汽油收率的預(yù)測(cè)模型,模型預(yù)測(cè)結(jié)果與實(shí)際汽油收率的誤差小于1%。王偉等[11]在梯度提升決策樹(shù)GBDT算法的基礎(chǔ)上,構(gòu)建了P-GBDT模型,相比GBDT算法,該算法對(duì)于催化裂化裝置汽油收率的預(yù)測(cè)效果更好。任小甜等[12]采用隨機(jī)森林回歸算法,建立了直餾減壓餾分油(VGO)中噻吩硫化物組成分布的預(yù)測(cè)模型,該模型可實(shí)現(xiàn)減壓蠟油(VGO)中苯并噻吩、二苯并噻吩、萘苯并噻吩以及總噻吩含量的準(zhǔn)確預(yù)測(cè)。Ivana等[13]以神經(jīng)網(wǎng)絡(luò)算法為基礎(chǔ),選取6個(gè)操作參數(shù)作為輸入變量,建立了加氫蠟油中硫含量的預(yù)測(cè)模型,結(jié)果表明,該模型可準(zhǔn)確預(yù)測(cè)硫含量。胡元沖等[14]以神經(jīng)網(wǎng)絡(luò)框架keras為基礎(chǔ),為柴油產(chǎn)物中硫、氮、單環(huán)芳烴、多環(huán)芳烴質(zhì)量分?jǐn)?shù)分別建立預(yù)測(cè)模型,使用該模型對(duì)工藝參數(shù)進(jìn)行優(yōu)化,確定了最適宜的操作條件。田水苗等[15]基于BP神經(jīng)網(wǎng)絡(luò)建立數(shù)據(jù)驅(qū)動(dòng)模型,預(yù)測(cè)石腦油、液化氣、燃料氣、精制蠟油流量以及精制蠟油中硫、氮質(zhì)量分?jǐn)?shù),仿真結(jié)果表明BP神經(jīng)網(wǎng)絡(luò)模型具有較高的預(yù)測(cè)精度。
就蠟油加氫工業(yè)裝置而言,所建的數(shù)據(jù)驅(qū)動(dòng)模型預(yù)測(cè)精制蠟油中硫含量,要獲得較好的泛化能力,除選取合適的算法外,還需要對(duì)錯(cuò)誤的精制蠟油硫含量數(shù)據(jù)點(diǎn)進(jìn)行甑別剔除以及關(guān)注這些數(shù)據(jù)中的邊際點(diǎn)。因此,筆者提出兩步法來(lái)構(gòu)建模型,第一步,構(gòu)建精制蠟油硫含量異常點(diǎn)判定新方法,將一部分隱藏的異常點(diǎn)篩選出來(lái)并剔除,得到所有硫含量正常點(diǎn)數(shù)據(jù);第二步,在保留所有硫含量邊際點(diǎn)的基礎(chǔ)上,從正常范圍點(diǎn)中隨機(jī)挑選數(shù)據(jù),增加精制蠟油中硫含量邊際點(diǎn)所占比例,進(jìn)而使其符合統(tǒng)計(jì)學(xué)模型的特點(diǎn),提高模型對(duì)測(cè)試集中硫含量邊際點(diǎn)預(yù)測(cè)的準(zhǔn)確度。
利用數(shù)據(jù)驅(qū)動(dòng)模型預(yù)測(cè)產(chǎn)品性質(zhì)的方法被越來(lái)越多的研究人員使用,其中,神經(jīng)網(wǎng)絡(luò)是使用最多的算法。神經(jīng)網(wǎng)絡(luò)的優(yōu)勢(shì)在于強(qiáng)大的非線性擬合能力,較適合煉油工業(yè)中加氫裝置的生產(chǎn)體系,且搭建模型方便,自學(xué)能力較強(qiáng)。但缺點(diǎn)同樣明顯,需調(diào)節(jié)的超參數(shù)多,要想獲得理想的結(jié)果,尋優(yōu)耗時(shí)較長(zhǎng);而且,模型易過(guò)擬合,所需數(shù)據(jù)量大,整個(gè)過(guò)程類似于“黑箱”,對(duì)于結(jié)果的解釋性較差?;谏鲜龇治?,結(jié)合實(shí)際生產(chǎn)的需要,筆者決定采用另一種非線性擬合能力較強(qiáng)的算法——極限梯度提升XGBOOST (eXtreme Gradient Boosting)。
極限梯度提升XGBOOST是基于Boosting思想的集成學(xué)習(xí)算法,它是以決策樹(shù)的方式(設(shè)置樹(shù)枝和葉子),以信息增益(自變量特征本身所含的信息量對(duì)因變量結(jié)果的影響程度)和殘差逐步減小(分為n個(gè)小模型,第n個(gè)模型以第n-1個(gè)模型的殘差為基準(zhǔn),調(diào)整特征權(quán)重,得到最小殘差)選擇特征并構(gòu)建模型。
XGBOOST算法建立的模型不需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,就可計(jì)算出特征的重要程度,進(jìn)而使模型更加關(guān)注重要的特征。該方法對(duì)于預(yù)測(cè)類問(wèn)題解釋性強(qiáng),穩(wěn)健性好,有較強(qiáng)的泛化能力,可保證較高的準(zhǔn)確度,使得其在工業(yè)應(yīng)用方面具有更大的潛力和優(yōu)勢(shì)。
以國(guó)內(nèi)某石油化工企業(yè)蠟油加氫裝置為研究對(duì)象,采集3年(2015—2018年)的運(yùn)行數(shù)據(jù),這些數(shù)據(jù)包含LIMS(Laboratory information management system)數(shù)據(jù)和DCS(Distributed control system)數(shù)據(jù),LIMS數(shù)據(jù)主要包含原料油和精制蠟油2部分,原料油數(shù)據(jù)包括密度、硫含量、氮含量、餾程、殘?zhí)亢?、金屬含量等特征參?shù);精制蠟油數(shù)據(jù)包括硫、氮含量以及餾程特征參數(shù)。DCS數(shù)據(jù)包括:進(jìn)料量、各原料比例、反應(yīng)器各床層溫度、進(jìn)出口壓力、循環(huán)氫流量等特征參數(shù)。由于實(shí)際的分析項(xiàng)目和分析頻次會(huì)根據(jù)生產(chǎn)需要進(jìn)行調(diào)整,所以,不同時(shí)間同一項(xiàng)目的分析指標(biāo)可能不一致。為最大限度利用收集到的數(shù)據(jù),筆者按照模型的架構(gòu)對(duì)特征參數(shù)進(jìn)行了篩選,保留20個(gè)特征參數(shù)作為模型的輸入和輸出。其中,輸入?yún)?shù)為19個(gè),輸出參數(shù)為1個(gè)。模型的輸入?yún)?shù)包括原料參數(shù)(密度、餾程、硫含量、氮含量等)、操作參數(shù)(原料進(jìn)料量、原料比例、循環(huán)氫量、新氫量、反應(yīng)壓力、各床層溫度等);輸出參數(shù)為精制蠟油中硫含量。
數(shù)據(jù)質(zhì)量關(guān)系著模型建立的好壞,因此,收集到的數(shù)據(jù)還要進(jìn)行清洗,剔除一些重復(fù)、不對(duì)應(yīng)、不完整、異常的數(shù)據(jù)。相應(yīng)的數(shù)據(jù)清洗方法如下:
(1)對(duì)每組數(shù)據(jù)進(jìn)行詳細(xì)檢查,如果有重復(fù)的數(shù)據(jù)組應(yīng)進(jìn)行刪除。
(2)按照時(shí)間的先后順序采集數(shù)據(jù),保證每組數(shù)據(jù)輸入和輸出對(duì)應(yīng)。
(3)每一組數(shù)據(jù)嚴(yán)格進(jìn)行物料平衡計(jì)算,保證輸入、輸出數(shù)據(jù)的一致性。
(4)計(jì)算每個(gè)輸入?yún)?shù)的平均值和標(biāo)準(zhǔn)差,使用聚類法、假設(shè)性檢驗(yàn)等方法進(jìn)行刪除。
上述方法主要針對(duì)輸入?yún)?shù)的數(shù)據(jù),對(duì)于輸出參數(shù)的數(shù)據(jù),由于其本身是因變量,它的數(shù)值變化受自變量的影響較大,所以,需要使用專門(mén)的方式進(jìn)行篩選。
精制蠟油硫含量作為模型的輸出參數(shù),屬于因變量,而傳統(tǒng)的觀察、聚類、統(tǒng)計(jì)檢驗(yàn)等方法,主要針對(duì)自變量的情況,對(duì)于因變量的處理,極易導(dǎo)致誤判。因?yàn)橛行╇x群點(diǎn)是由于輸入?yún)?shù)中的某些變量數(shù)值變化大導(dǎo)致的。為此,針對(duì)因變量,筆者提出了一種異常點(diǎn)判定的新方法,其具體流程示意圖如圖1所示。
圖1 精制蠟油硫含量異常點(diǎn)判定流程圖Fig.1 Outliers determination flow chart for sulfur content of hydrogenated waxy oils
該方法判別硫含量異常點(diǎn)的過(guò)程主要分為2步。第一步,初步篩選出正常點(diǎn)和可能的異常點(diǎn);第二步,用正常點(diǎn)建立模型,對(duì)可能的異常點(diǎn)進(jìn)行預(yù)測(cè),確定真正的異常點(diǎn)。整個(gè)過(guò)程的步驟如下:
(1)對(duì)LIMS上采集的153個(gè)精制蠟油硫含量數(shù)據(jù)點(diǎn)進(jìn)行整理,所有硫含量數(shù)據(jù)點(diǎn)的分布如圖2所示。
圖2 所有精制蠟油硫含量數(shù)據(jù)點(diǎn)分布圖Fig.2 Distribution of all sulfur data points of hydrogenated waxy oils
(2)構(gòu)建硫含量異常點(diǎn)的判別函數(shù)(f(x)),其具體表達(dá)式如下:
圖3 初篩出來(lái)的正常點(diǎn)和可能的異常點(diǎn)Fig.3 Normal and possible outliers by initial screen procedure Blue points—Normal data points; Yellow points—Possible abnormal data points
(3)整理第一步篩選出的正常點(diǎn)集B所對(duì)應(yīng)的原料性質(zhì)和操作參數(shù)作為模型的輸入;點(diǎn)集B所對(duì)應(yīng)的精制蠟油硫含量數(shù)據(jù)點(diǎn)作為模型的輸出,模型的輸入和輸出一一對(duì)應(yīng)。
(4)利用Python進(jìn)行模型的編寫(xiě),使用已經(jīng)安裝好的XGBOOST算法包,調(diào)用模型的輸入和輸出,搭建模型。利用開(kāi)源的機(jī)器學(xué)習(xí)庫(kù)Sklearn將數(shù)據(jù)集隨機(jī)劃分為訓(xùn)練集、測(cè)試集。
(5)訓(xùn)練集用于訓(xùn)練模型,測(cè)試集用于檢驗(yàn)?zāi)P偷念A(yù)測(cè)效果,為了保證所建模型的可靠性,采用五折交叉驗(yàn)證,直到評(píng)價(jià)指標(biāo)平均絕對(duì)誤差(MAE)達(dá)到最小。
1.冬奧會(huì)的成功申辦為冰雪產(chǎn)業(yè)帶來(lái)了廣闊的發(fā)展前景。北京冬奧會(huì)助推了冰雪運(yùn)動(dòng)在中國(guó)的推廣與普及,同時(shí)也帶動(dòng)了冰雪旅游、冰雪文化、冰雪裝備制造業(yè)等產(chǎn)業(yè)的發(fā)展。預(yù)計(jì)到2025年,我國(guó)冰雪產(chǎn)業(yè)總規(guī)模將達(dá)到萬(wàn)億元,直接參加冰雪運(yùn)動(dòng)的人數(shù)可達(dá)5000萬(wàn)人,并帶動(dòng)3億人參與冰雪運(yùn)動(dòng)。冰雪產(chǎn)業(yè)無(wú)疑有著廣闊的發(fā)展前景。
圖4 最終確定的異常點(diǎn)和正常點(diǎn)Fig.4 Final outliers and normal data points Blue points—Normal data points; Red points—Final abnormal data points
(9)將確定的3個(gè)硫含量異常點(diǎn)剔除,所得硫含量正常點(diǎn)個(gè)數(shù)為150,將這些點(diǎn)所對(duì)應(yīng)的原料性質(zhì)和操作參數(shù)數(shù)據(jù)整理好,以備后續(xù)建模使用。
將篩選出來(lái)的3個(gè)硫含量異常點(diǎn)及其所在的數(shù)組刪除后,得到輸入、輸出對(duì)應(yīng)的數(shù)據(jù)150組,來(lái)自LIMS系統(tǒng)中的原料性質(zhì)數(shù)據(jù)見(jiàn)表1,來(lái)自DCS系統(tǒng)中操作變量數(shù)據(jù)見(jiàn)表2。
表1 來(lái)自LIMS系統(tǒng)的原料性質(zhì)數(shù)據(jù)Table 1 Main properties of feedstocks from LIMS system
表2 來(lái)自DCS系統(tǒng)中的部分操作變量數(shù)據(jù)Table 2 Selected operational variables from DCS system
模型輸入變量的選擇基于工藝經(jīng)驗(yàn),模型的輸出變量為精制蠟油產(chǎn)品中的硫含量。將挑選出來(lái)的輸入變量與輸出變量一一對(duì)應(yīng),便于模型調(diào)用。
將整理好的所有數(shù)據(jù)組,按照70∶15∶15劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。訓(xùn)練集用于訓(xùn)練模型,驗(yàn)證集用于調(diào)節(jié)模型的超參數(shù),測(cè)試集不參與模型的訓(xùn)練和調(diào)優(yōu)。模型調(diào)優(yōu)完畢后,對(duì)測(cè)試集數(shù)據(jù)進(jìn)行一次性預(yù)測(cè)。
利用Python編寫(xiě)代碼,調(diào)用開(kāi)源的機(jī)器學(xué)習(xí)包XGBOOST,搭建模型架構(gòu)。由于XGBOOST屬于決策樹(shù)算法,為了保證模型較好的學(xué)習(xí)能力,需要設(shè)置很多參數(shù),這些參數(shù)由模型在驗(yàn)證集上的預(yù)測(cè)效果確定。模型主要設(shè)定3類參數(shù):常規(guī)參數(shù)、增強(qiáng)器參數(shù)、學(xué)習(xí)任務(wù)參數(shù)。常規(guī)參數(shù)只需選擇gbtree(基于樹(shù)的模型),其他默認(rèn);學(xué)習(xí)任務(wù)參數(shù)中objective選擇為回歸,其他默認(rèn);增強(qiáng)器參數(shù)十分重要,可調(diào)參數(shù)較多,由于人工調(diào)參無(wú)法兼顧所有參數(shù)的最佳組合,且耗時(shí)費(fèi)力,因此,筆者采用網(wǎng)格搜索確定增強(qiáng)器參數(shù),這些參數(shù)包括學(xué)習(xí)速率、樹(shù)的最大深度、葉子節(jié)點(diǎn)數(shù)、正則化等。模型以驗(yàn)證集中精制蠟油的平均絕對(duì)誤差最小為停止訓(xùn)練指標(biāo),確定超參數(shù)后,即可對(duì)測(cè)試集一次預(yù)測(cè),其預(yù)測(cè)效果如圖5所示。
圖5 測(cè)試集中精制蠟油硫含量預(yù)測(cè)效果Fig.5 Sulfur content prediction results of hydrogenated waxy oils
為了排除建模數(shù)據(jù)集劃分不均勻?qū)δP蜏y(cè)試集預(yù)測(cè)效果的影響,筆者在編寫(xiě)代碼的過(guò)程中,引入隨機(jī)種子對(duì)訓(xùn)練集和驗(yàn)證集數(shù)據(jù)隨機(jī)劃分10次,調(diào)用模型,觀察測(cè)試集精制蠟油硫含量預(yù)測(cè)結(jié)果,發(fā)現(xiàn)上述現(xiàn)象依然存在,對(duì)此現(xiàn)象進(jìn)行分析,原因主要有2點(diǎn):
(1)非線性預(yù)測(cè)本身的特點(diǎn)。由于蠟油加氫的脫硫反應(yīng)是復(fù)雜的強(qiáng)耦合反應(yīng),在數(shù)據(jù)模型中屬于非線性預(yù)測(cè),過(guò)去規(guī)律和未來(lái)規(guī)律完全一致幾乎不可能,所以必然存在一定的誤差。這一點(diǎn)不同于線性預(yù)測(cè)(大多數(shù)情況可以完全符合)。
(2)統(tǒng)計(jì)模型的固有缺點(diǎn)。數(shù)據(jù)驅(qū)動(dòng)模型終止訓(xùn)練的標(biāo)準(zhǔn)為均方根誤差(RMSE)或平均絕對(duì)誤差(MAE)達(dá)到最小,必然會(huì)忽略少數(shù)點(diǎn)的誤差,來(lái)滿足多數(shù)點(diǎn)的誤差。
為解決這一問(wèn)題,通過(guò)對(duì)精制蠟油硫含量邊際點(diǎn)所對(duì)應(yīng)的原料參數(shù)、操作參數(shù)進(jìn)行檢查。發(fā)現(xiàn)只有當(dāng)原料出現(xiàn)較大變化、操作出現(xiàn)波動(dòng)或者裝置出現(xiàn)突發(fā)情況時(shí),才會(huì)出現(xiàn)精制蠟油硫含量過(guò)大或過(guò)小的情況,此時(shí),雖然操作人員對(duì)工藝條件進(jìn)行了調(diào)整,由于調(diào)整不夠或者過(guò)度,導(dǎo)致邊際點(diǎn)的出現(xiàn)。對(duì)所有建模數(shù)據(jù)中精制蠟油硫含量數(shù)據(jù)點(diǎn)進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)邊際點(diǎn)數(shù)據(jù)量與正常范圍點(diǎn)數(shù)據(jù)量的比例基本為1/9左右,說(shuō)明實(shí)際生產(chǎn)中,精制蠟油中硫含量邊際點(diǎn)出現(xiàn)較少。所以,筆者在充分認(rèn)識(shí)這些邊際點(diǎn)出現(xiàn)原因的基礎(chǔ)上,根據(jù)數(shù)據(jù)模型的特點(diǎn),保留所有邊際點(diǎn),從精制蠟油硫含量正常范圍點(diǎn)中隨機(jī)挑選數(shù)據(jù)點(diǎn)與邊際點(diǎn)放一起,通過(guò)改變模型精制蠟油硫含量邊際點(diǎn)所占的比例,使模型的終止訓(xùn)練指標(biāo)盡可能兼顧到所有的硫含量數(shù)據(jù)點(diǎn)。
為了改變建模數(shù)據(jù)集中精制蠟油硫含量邊際點(diǎn)的比例,筆者提出了刻意挑選數(shù)據(jù)建模的思路。具體實(shí)施方法:首先,抽出初始建模數(shù)據(jù)集中所有精制蠟油硫含量邊際點(diǎn);其次,隨機(jī)抽取精制蠟油硫含量正常點(diǎn);最后,保證抽取的硫含量邊際點(diǎn)數(shù)據(jù)量與正常范圍點(diǎn)數(shù)據(jù)量之比(邊際點(diǎn)/正常點(diǎn))為2/8和3/7,以這些被抽出來(lái)的數(shù)據(jù)所對(duì)應(yīng)的原料性質(zhì)、操作參數(shù)作為模型的輸入,抽取出來(lái)的精制蠟油硫含量作為模型的輸出,建立模型。采用這種方式的目的是:人為使模型在訓(xùn)練過(guò)程中評(píng)估模型的訓(xùn)練效果時(shí),能兼顧所有數(shù)據(jù)點(diǎn)預(yù)測(cè)值與實(shí)測(cè)值的偏差;不至于出現(xiàn)多數(shù)硫含量正常范圍點(diǎn)預(yù)測(cè)值與實(shí)測(cè)值的偏差小,而少數(shù)硫含量邊際點(diǎn)預(yù)測(cè)值與實(shí)測(cè)值的偏差大的情況。模型訓(xùn)練完畢,采用測(cè)試集數(shù)據(jù)檢驗(yàn)?zāi)P偷念A(yù)測(cè)效果。當(dāng)抽取的邊際點(diǎn)/正常點(diǎn)為2/8時(shí),模型的預(yù)測(cè)效果如圖6(a)所示;當(dāng)抽取的邊際點(diǎn)/正常點(diǎn)為3/7時(shí),模型的預(yù)測(cè)效果如圖6(b)所示。
圖6 不同邊際點(diǎn)/正常點(diǎn)比例的建模預(yù)測(cè)效果Fig.6 Prediction results for models with different marginal point/normal point ratios(a) The ratio of marginal point to normal point of 2/8 model; (b) The ratio of marginal point to normal point of 3/7 model
將邊際點(diǎn)/正常點(diǎn)為1/9的初始模型與邊際點(diǎn)/正常點(diǎn)為2/8和3/7的模型對(duì)測(cè)試集精制蠟油硫含量的預(yù)測(cè)效果進(jìn)行對(duì)比,統(tǒng)計(jì)結(jié)果見(jiàn)表3。
表3 不同邊際點(diǎn)/正常點(diǎn)比例的模型對(duì)測(cè)試集 精制蠟油硫含量的預(yù)測(cè)結(jié)果Table 3 Sulfur content prediction results for models with different marginal point/normal point ratios
對(duì)比圖5和圖6可以明顯看出,與邊際點(diǎn)/正常點(diǎn)為1/9的初始模型相比,邊際點(diǎn)/正常點(diǎn)為2/8和3/7的模型對(duì)硫質(zhì)量分?jǐn)?shù)大于4000 μg/g、小于3100 μg/g數(shù)據(jù)點(diǎn)預(yù)測(cè)值與實(shí)測(cè)值的偏差明顯縮小。從表3可以看出,與邊際點(diǎn)/正常點(diǎn)為1/9的初始模型相比,邊際點(diǎn)/正常點(diǎn)為2/8和3/7的模型,MAE分別縮小了35.97和57.95 μg/g,MRE分別降低了0.95百分點(diǎn)和1.6百分點(diǎn),R2分別增大了0.117和0.15,說(shuō)明建模過(guò)程中增大精制蠟油硫含量邊際點(diǎn)的占比,可顯著提高模型對(duì)測(cè)試集精制蠟油硫含量的預(yù)測(cè)效果。從圖6還可以看出,對(duì)硫質(zhì)量分?jǐn)?shù)大于4000 μg/g、小于3100 μg/g的數(shù)據(jù)點(diǎn),邊際點(diǎn)/正常點(diǎn)為3/7的模型(見(jiàn)圖6(b))預(yù)測(cè)值與實(shí)測(cè)值的偏差小于邊際點(diǎn)/正常點(diǎn)為2/8的模型(見(jiàn)圖6(a)),說(shuō)明邊際點(diǎn)/正常點(diǎn)為3/7的模型對(duì)于邊際點(diǎn)的預(yù)測(cè)效果更好。從表3也可以看出,與邊際點(diǎn)/正常點(diǎn)為2/8的模型相比,邊際點(diǎn)/正常點(diǎn)為3/7的模型對(duì)測(cè)試集精制蠟油硫質(zhì)量分?jǐn)?shù)的預(yù)測(cè),MAE縮小了21.98 μg/g,MRE降低了0.65百分點(diǎn),R2增加0.033,說(shuō)明精制蠟油硫含量邊際點(diǎn)/正常點(diǎn)的比值越高,模型對(duì)測(cè)試集中精制蠟油硫含量的預(yù)測(cè)效果越好。
雖然刻意挑選數(shù)據(jù),改變精制蠟油硫含量邊際點(diǎn)/正常點(diǎn)比例的建模思路,一定程度上解決了由于統(tǒng)計(jì)模型的固有缺陷,導(dǎo)致少數(shù)邊際點(diǎn)預(yù)測(cè)效果差的問(wèn)題。但人為篩選數(shù)據(jù),會(huì)導(dǎo)致建模數(shù)據(jù)量變少,且邊際點(diǎn)/正常點(diǎn)的比值越高,用來(lái)建模的有效數(shù)據(jù)越少。當(dāng)建模數(shù)據(jù)量不夠時(shí),模型會(huì)因?yàn)閿?shù)據(jù)范圍不夠廣,而影響其泛化能力。因此,在實(shí)際應(yīng)用過(guò)程中,需要在邊際點(diǎn)/正常點(diǎn)比例和建模數(shù)據(jù)量之間進(jìn)行權(quán)衡。當(dāng)建模數(shù)據(jù)量較多時(shí),可以刻意選擇更高的邊際點(diǎn)/正常點(diǎn)比例用來(lái)建模;當(dāng)建模數(shù)據(jù)量較少時(shí),則需要適當(dāng)選擇較低的邊際點(diǎn)/正常點(diǎn)比例,來(lái)保證模型的泛化能力。
(1)根據(jù)蠟油加氫裝置實(shí)際生產(chǎn)情況,對(duì)收集到的精制蠟油硫含量數(shù)據(jù)進(jìn)行處理,構(gòu)建新的判別方法,分兩步找出硫含量中隱藏的異常點(diǎn),使選入模型的數(shù)據(jù)更為準(zhǔn)確,避免了異常點(diǎn)對(duì)模型泛化能力的影響。
(2)對(duì)模型預(yù)測(cè)硫含量邊際點(diǎn)時(shí)誤差大的原因進(jìn)行了深入分析,發(fā)現(xiàn)統(tǒng)計(jì)模型終止訓(xùn)練標(biāo)準(zhǔn)的固有缺陷,該缺陷決定模型在訓(xùn)練過(guò)程中會(huì)忽略少數(shù)邊際點(diǎn)預(yù)測(cè)值與實(shí)測(cè)值之間的偏差,來(lái)保證多數(shù)點(diǎn)的準(zhǔn)確性。
(3)通過(guò)刻意選擇數(shù)據(jù),改變?cè)紨?shù)據(jù)中精制蠟油硫含量邊際點(diǎn)數(shù)據(jù)量與正常范圍點(diǎn)數(shù)據(jù)量的比例,使模型在訓(xùn)練過(guò)程中,盡可能兼顧到所有樣本點(diǎn)預(yù)測(cè)值與實(shí)測(cè)值之間的偏差。使用測(cè)試集數(shù)據(jù)對(duì)訓(xùn)練好的模型進(jìn)行測(cè)試,與硫含量邊際點(diǎn)/正常點(diǎn)為1/9的模型相比,邊際點(diǎn)/正常點(diǎn)為2/8和3/7的模型對(duì)精制蠟油硫質(zhì)量分?jǐn)?shù)預(yù)測(cè)的平均絕對(duì)誤差分別縮小35.97 μg/g和57.95 μg/g,平均相對(duì)誤差分別縮小0.95百分點(diǎn)和1.6百分點(diǎn),基本解決了原料發(fā)生變化或操作波動(dòng)時(shí)精制蠟油硫含量預(yù)測(cè)不準(zhǔn)的問(wèn)題。