怡豪 仲梁維
摘 ?要:針對汽油催化裂化過程中減少辛烷值損失值的問題,基于某企業(yè)催化裂化汽油精制脫硫設備的樣本數據庫數據,通過數據挖掘技術建立汽油精制過程中的辛烷值(RON)模型。首先,對初始數據進行規(guī)范化,然后運用隨機森林法對數據變量進行降維,提取出因變量貢獻程度較大的30 個主要變量;其次,利用BP神經網絡,建立辛烷值損失模型;最后,在建立的模型中確定初始樣本,結合遺傳算法對操作變量進行優(yōu)化。結果表明:優(yōu)化后的辛烷值損失值下降的幅度為42.14%,降幅大于30%,有助于在實際生產中減少辛烷值損失,降低企業(yè)經濟損失。
關鍵詞:隨機森林法;汽油辛烷值;BP神經網絡模型;遺傳算法
中圖分類號:TP183 ? ? 文獻標識碼:A
Abstract: Aiming at the problem of reducing octane number loss in the process of gasoline catalytic cracking, this paper proposes to establish a research octane number (RON) model in the gasoline refining process through data mining technology, based on the sample database data of a company's catalytic cracking gasoline refinement and desulfurization equipment. Firstly, initial data is normalized. Then, random forest method is used to reduce the dimensionality of the data variables, and the 30 main variables that contribute to the dependent variable are extracted. Secondly, BP neural network is used to establish the RON loss model. Finally, the initial sample is determined in the model, and the operating variables are optimized in combination with genetic algorithm. Results show that the optimized RON loss value decreases by 42.14%, which is more than 30%. The proposed model helps to reduce the octane loss in actual production, so to reduce the economic losses of enterprises.
Keywords: random forest method; gasoline octane number; BP neural network model; genetic algorithm
1 ? 引言(Introduction)
隨著計算機的發(fā)展,數據分析、算法在科學技術領域中的應用越來越廣泛[1]。汽油作為當前主要燃料之一,在實際生產的催化裂化過程中是通過降低汽油辛烷值的手段來進行脫硫、脫烯烴的,雖然能達到降低硫、烯烴含量的目的,但是辛烷值作為汽油抗震抗爆的主要指標,辛烷值的降低將帶來較大的經濟損失[2]。在生產環(huán)節(jié)中,需要建立辛烷值損失模型對影響因素進行分析和優(yōu)化,達到減少辛烷值損失的目的[3]。本文通過數據挖掘技術結合隨機森林法對數據樣本進行剔除和篩選,建立基于BP神經網絡的辛烷值損失模型,該模型對降低辛烷值損失值有明顯優(yōu)化,為汽油催化裂化過程中提高辛烷值數值提供解決方法。
2 ? 樣本數據處理(Sample data processing)
2.1 ? 數據預處理
數據來源為某企業(yè)催化裂化汽油精制脫硫設備的樣本數據庫數據,數據包括原料性質、待生吸附劑性質、再生吸附劑性質等操作變量,共計367 個變量。將數據文件命名為附件1,對初始數據進行處理,刪除樣本中數據全部為空值的位點。對于只含有部分時間點的位點,如果其殘缺數據較多,無法補充,將此類位點刪除。根據工藝要求與操作經驗,總結出原始數據變量的操作范圍,然后采用最大最小的限幅方法剔除一部分不在此范圍的樣本[4]。根據拉依達準則法尋找操作變量中異常值,將其數值設置為0。根據數據分析中的二八法則,如果操作變量中0值和缺省值樣本數所占總樣本數的比例超過20%,那么將該操作因子直接去除;如果小于20%,統(tǒng)計計算除了0值以外的其他數的平均值,再替換原來的0值。對特征進行方差計算,剔除方差值特別小的因子。為了統(tǒng)一判斷,需要先將數據歸一化處理,歸一化到[0,1],然后計算某一列的方差,若某一個特征中的數據基本一致,認為該特征包含的可用信息比較少,方差閾值s2定為0.01,如果方差小于0.01,將該特征剔除。歸一化公式如公式(1)所示。
經過數據處理過后通過讀取得到新的樣本數據,處理樣本數據格式。其中第一列為因變量,為了便于讀取數據將其列名修改為ronLose,后面列均為自變量,如圖2所示。
2.2 ? 模型主要變量
選取辛烷值損失值作為因變量,分析樣本數據可知,若將所有操作變量輸入,可能會導致過擬合,影響結果,且操作變量的關系存在高度耦合,呈現非線性關系,傳統(tǒng)的降維方法是不合適的。采用隨機森林法作為特征的篩選算法,將特征基于因變量貢獻程度進行排序,選擇靠前的30 個特征作為主要變量,進行降維得出的30 個主要變量[5]如圖3所示。
3 ? ?辛烷值損失預測模型(RON loss prediction model)
3.1 ? 模型選擇
考慮到辛烷值損失受到多種操作變量的影響,呈現難以解析的非線性關系,BP神經網絡算法具有解決多重因素交叉影響的復雜非線性問題的能力,有效處理多層網絡模型中隱含層的連接權問題,大幅優(yōu)化神經網絡的組織和自學習能力,因此采用BP神經網絡算法對辛烷值損失建立預測模型[6-7]。
BP神經網絡是多層的前饋神經網絡,其主要的特征是信號是前向傳播的,而誤差是反向傳播的。它模擬了人腦的神經網絡結構,人腦傳遞信息的基本單位是神經元,人腦中有大量的神經元,每個神經元與多個神經元相連接。每層神經網絡都是由神經元構成的,單獨的每個神經元相當于一個感知器。輸入層是單層結構的,輸出層也是單層結構的,而隱藏層可以有多層,也可以是單層的。輸入層、隱藏層、輸出層之間的神經元都是相互連接的。總的來說,BP神經網絡結構流程是輸入層得到信息后會把信息傳給隱藏層,隱藏層則會根據神經元相互聯系的權重并根據規(guī)則把這個信息傳給輸出層,輸出層對比結果,如果不在預計范圍內,則返回調整神經元相互聯系的權值,不斷進行訓練,直至到達預期結果[8]。BP神經網絡模型算法流程圖如圖4所示。
3.2 ? 模型建立
建立辛烷值損失的BP神經網絡模型,模型建立過程如下所示:
(1)選取訓練樣本以及測試樣本。樣本是依據時間測定的,為了避免隨機選取過程中可能存在某個時間段樣本較多的情況,且并不確定樣本數據可能與時間序列有某種關聯,故通過均勻方式選取樣本。數據文件中樣本按序號排列,能被4整除的樣本序號定為測試樣本,反之為訓練樣本。最終獲得244 個訓練樣本,81 個測試樣本。
(2)對數值進行歸一化。由于輸入數據的單位不一樣,有些數據的范圍可能特別大,導致的結果是神經網絡收斂慢、訓練時間長。數據范圍大的輸入在模式分類中的作用可能會偏大,而數據范圍小的輸入作用就可能會偏小。由于神經網絡輸出層的激活函數的值域是有限制的,因此需要將網絡訓練的目標數據映射到激活函數的值域。例如,神經網絡的輸出層若采用雙曲正切S形激活函數,由于雙曲正切S形函數的值域限制在(-1,1),也就是說神經網絡的輸出只能限制在(-1,1),因此訓練數據的輸出就要歸一化到[-1,1]區(qū)間。
當激活函數采用雙極S形函數進行歸一化處理時,如公式(2)所示,其中min為矩陣中最小值,max為最大值。
(3)使用函數創(chuàng)建神經網絡。該函數需要幾個重要參數,包括隱含層層數、隱含層神經元數量、輸出層神經元個數以及激活函數和訓練算法。其中輸入層由隱含層作用于輸出層,通過非線性變換獲取輸出量,訓練中的每個數據都擁有輸入值和期望輸出值,網絡輸出值與期望輸出值兩者的偏差經過修改閾值和網絡權值,使誤差沿梯度方向下降,最終使期望輸出和實際輸出在預定范圍中[9]。
設輸出層有m 個神經元,BP神經網絡的實際輸出是y,期望輸出是y',函數如公式(3)所示。
式中,為輸入單元i到隱含層單元j的權重,是學習效率,是中間第j 個隱含層的傳輸函數。使用提取到的30 個建模主要變量(辛烷值除外)作為神經網絡模型的輸入參數,確定輸入端點數為30。該BP神經網絡模型采用三層網絡,結構為30-n-1,其網絡結構圖如圖5所示。
在其他條件完全相同的情況下,只改變隱含層神經元數量,每次固定隱含層神經元數量后,獲取四次預測結果,取平均值作為該組數據的最終結果。
對于激活函數的選取,由于操作變量(控制變量)之間具有高度非線性,此外,樣本數據歸一化處理后的值域為[-1,1],故激活函數選取雙曲正切S形函數,如公式(5)所示。
模型最終要預測出辛烷值損失這一個量,故輸出層神經元個數為1,訓練算法選取最小二乘法,其收斂速度較快,并能使所求數據與實際數據之間誤差的平方和為最小。
(4)BP神經網絡參數設置,如表1所示。
(5)模型訓練完成后,輸入測試樣本,獲取預測值,計算絕對誤差,并繪制誤差頻率直方圖、誤差變化圖。
3.3 ? 模型分析
在其他條件完全相同的情況下,只改變隱含層神經元數量,每次固定隱含層神經元數量后,獲取四次預測結果,取平均值作為該組數據的最終結果,如表2所示。
從表2中的分析可知,當隱含層神經元個數為10時,81 個預測樣本的預測辛烷值損失與實際值的均方誤差誤差最小,故隱含層神經元個數取10。
選定隱含層神經元個數后,求解辛烷值損失預測模型,如圖6—圖10所示。
4 ? 樣本變量優(yōu)化(Sample variable optimization)
4.1 ? 樣本選擇
根據BP神經網絡建立的辛烷值損失預測模型,篩選數據作為優(yōu)化樣本,從篩選出的樣本中保持原料、待生吸附劑、再生吸附劑的性質不變。對于其他篩選出來的主要變量,在各自變量的范圍內隨機產生數據,產生的數據利用遺傳算法結合建立的預測模型進行尋優(yōu),進行該樣本的操作變量方案的優(yōu)化。
選取某一個樣本進行分析和優(yōu)化,其他樣本的分析和優(yōu)化完全一致。樣本選擇確定原則:S的含量要低于5 μg/g;選擇眾數值為3.2的樣品;原料中的辛烷值不能過低,選擇平均數89.7;辛烷值初始損失值不能過低,否則沒有優(yōu)化的意義,這里選擇眾數值為1.4。結合這幾點最終挑選樣本號為264的樣本作為分析對象來研究操作變量的優(yōu)化。
4.2 ? 優(yōu)化模型建立與分析
初始樣本確定后,結合操作變量和操作變量的取值區(qū)間,隨機產生1,000 個隨機數據作為初始種群,將建立的BP神經網絡作為適應度函數表示,優(yōu)化目標為最小化辛烷值損失值。初始種群進行交叉、遺傳、變異、選擇操作,設置迭代次數為100 次,篩選出最優(yōu)的個體作為優(yōu)化值[10]。但是由于初始種群的問題可能會導致無法求解到最優(yōu)值,可能陷入局部最優(yōu)的狀態(tài),因此逐步增大初始種群的大小進行反復驗算[11]。我們發(fā)現隨著初始種群規(guī)模的增大,辛烷值損失值的變化剛開始存在波動,但是當初始種群大于8萬個左右時,辛烷值的損失值逐步下降最后趨于穩(wěn)定狀態(tài),最終得到最優(yōu)的操作變化的優(yōu)化條件和辛烷值損失值。
隨著隨機樣本數量的增加,剛開始辛烷值的損失值會存在波動,但是當初始樣本數量大于80,000左右的時候,辛烷值的損失值逐步穩(wěn)定,接近0.81。辛烷值的損失值隨著初始樣本數量變化的關系趨勢如圖11所示。
最終經過優(yōu)化,優(yōu)化后的辛烷值損失值為0.81,相較于原來數據樣本中的初始值1.4,下降的幅度為42.14%,降幅大于30%,說明操作變量起到優(yōu)化的作用。優(yōu)化后的操作變量的取值如表3所示。
5 ? 結論(Conclusion)
基于建立的辛烷值損失模型,結合遺傳算法對操作變量進行改變,得到優(yōu)化后的辛烷值損失值為0.81,相較于原來數據樣本中的初始值1.4,下降的幅度為42.14%,利用該模型對降低辛烷值損失值起到優(yōu)化效果。
參考文獻(References)
[1] 王浩瀅.深度學習及其發(fā)展趨勢研究綜述[J].電子制作,? ? ? ?2021(10):92-95.
[2] 胥紅玉.淺談汽油辛烷值的影響因素[J].品牌與標準化,? ? ? 2020(05):49-50,52.
[3] ZHU J J, LAN B. Research on model of octane number loss based on XgBoost[J]. International Core Journal of Engineering, 2021,7(1):496-501.
[4] 楊斌,田永青,朱仲英.智能建模方法中的數據預處理[J].信息與控制,2002(04):380-384.
[5] 楊森彬.線性回歸和隨機森林算法融合在餐飲客流量的預測[J].軟件工程,2018,21(07):24-27.
[6] 張宏,馬巖,李勇,等.基于遺傳BP神經網絡的核桃破裂功預測模型[J].農業(yè)工程學報,2014,30(18):78-84.
[7] 鐘健,閻春平,曹衛(wèi)東,等.基于BP神經網絡和FPA的高速干? ? 切滾齒工藝參數低碳優(yōu)化決策[J].工程設計學報,2017,? ? ?24(04):449-458.
[8] 張喆,張永林,陳書錦.基于遺傳BP神經網絡的攪拌摩擦焊溫度模型[J].熱加工工藝,2020,49(03):142-145.
[9] 薛風華,徐微微,王洪寅,等.基于神經網絡的并網光伏電站自適應距離保護[J].電工電氣,2020(04):25-29.
[10] 張曉麗,肖滿生,葉紫璇.基于遺傳算法的圖像多特征權重自動賦值方法[J].軟件工程,2019,22(10):22-26.
[11] 徐壽臣,王春玲,趙澤昆,等.基于GA-BP神經網絡的電池儲能系統(tǒng)軟故障模糊綜合評價[J].電器與能效管理技術,2017(13):74-81.
作者簡介:
葉怡豪(1998-),男,碩士生.研究領域:計算機輔助設計與智能開發(fā).
仲梁維(1962-),男,碩士,教授.研究領域:計算機輔助設計,企業(yè)信息化.