• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    數(shù)據(jù)挖掘方法在汽油辛烷值損失計算中的應(yīng)用

    2022-04-25 05:35:36吳蘋鐘儀華雍雪張茜
    科學(xué)技術(shù)與工程 2022年10期
    關(guān)鍵詞:辛烷值汽油數(shù)據(jù)挖掘

    吳蘋,鐘儀華,雍雪,張茜

    (西南石油大學(xué)理學(xué)院,成都 610500)

    當(dāng)今的燃料能源多種多樣,對應(yīng)不同的機器和設(shè)備,其使用的能源燃料各不相同。小型車輛燃燒汽油,其排放對大氣環(huán)境存在重要影響。為了保護大氣環(huán)境,汽油清潔化是當(dāng)今一個重要問題,其重點[1]在于降低汽油中的硫、烯烴含量,同時要盡量保持其辛烷值即降低辛烷值的損失。因此如果能對辛烷值的損失進行較為精細的預(yù)測,并在實際汽油清潔化方案進行過程中加以配合使用,就可以盡早評估出清潔化方案的合理性,可以有效避免某些汽油清潔化方案的低效性,提高實際生產(chǎn)中清潔化的效率。

    關(guān)于辛烷值的損失預(yù)測,關(guān)鍵在于變化的辛烷值的計算,通常是同一清潔化時間段前后辛烷值的差值,因此問題轉(zhuǎn)化為對終端的辛烷值進行定量計算進而返回計算差值預(yù)測出辛烷值的損失。

    目前,中外相關(guān)研究已從不同視角對辛烷值(research octane number,RON)的定量計算進行了合理的探索,如采用符合美國材料實驗協(xié)會和美國聯(lián)邦法案標(biāo)準(zhǔn)的辛烷值機檢測計算[2],但其缺點不少,如存在耗時長、操作復(fù)雜、價格高和檢驗用量大等。另外,由于汽油辛烷值與其組成成分有著密切的關(guān)聯(lián),進而通過汽油的自身組分及其相關(guān)信息進行計算,如分析汽油混合物的組分以及含量,其由氣相色譜實現(xiàn),然后分析與汽油辛烷值之間相關(guān)性來計算辛烷值。這個方法稱為色譜法[3]。但是很多時候,通過汽油的自身組分及其相關(guān)信息進行計算的方法是在光譜、色譜等精密儀器的組分分析上實現(xiàn),對儀器的要求較高。在實際應(yīng)用中汽車數(shù)量眾多,因此實現(xiàn)汽油清潔化的覆蓋面廣,但其實際清潔全覆蓋只是借助辛烷值機和色譜儀等精密儀器難以在實際生活中實現(xiàn),因此計算辛烷值損失即汽油辛烷值的定量計算一直是難點。

    除了以上借助儀器進行定量計算外,還有部分研究通過分析理化指標(biāo),借助數(shù)學(xué)理論來實現(xiàn)汽油辛烷值的定量計算。其中韓志歧[4]探究了汽油理化指標(biāo)與辛烷值之間的聯(lián)系,進而借助數(shù)學(xué)與統(tǒng)計理論,構(gòu)建了理化指標(biāo)計算汽油辛烷值的回歸方程,但存在一定的主觀性,因為需要人工不斷處理和比較來篩選方程每一種參數(shù)和模型的建立,而且該方法只能建立線性模型,這樣得到的模型的精度不足,存在極大可能所得結(jié)果不是最優(yōu)。除此另一類常用的線性模型偏最小二乘法(partial least squares,PLS)[3]也同樣存在以上不足。近年來,隨著中國石化企業(yè)實驗室信息管理系統(tǒng)的建成,積累了質(zhì)量數(shù)據(jù)并共享了一定的數(shù)據(jù)。因此,以現(xiàn)有數(shù)據(jù)庫中的汽油理化指標(biāo)數(shù)據(jù)集為基礎(chǔ),開始探索和采用一些非線性的建模方法[3],進行辛烷值的定量計算,如人工神經(jīng)網(wǎng)絡(luò)(artificial neural networks,ANN)的方法[5]。

    具體各組分的體積溶度輸入ANN,輸出各個對應(yīng)的RON,通過大量實驗可以得到精度較高的模型。如秦玉翠[6]以誤差反向傳播人工神經(jīng)網(wǎng)絡(luò)(back propagation neural network,BP)為基礎(chǔ), 對近紅外光譜儀測定數(shù)據(jù)進行相關(guān)分析,如光譜吸光度與汽油辛烷值,然后計算得到了較小的誤差,進一步說明ANN方法的可行性。另外也有研究用支持向量機回歸法[3],如朱曉等[7]應(yīng)用有關(guān)方法,以分子結(jié)構(gòu)為依據(jù),構(gòu)建基于烷烴馬達法的辛烷值計算模型,然后采用留一法驗證模型,實驗表明其有較高的穩(wěn)定性。這些研究工作說明了采用非線性的建模方法有利于進一步精確對辛烷值進行定量計算,進而精確對辛烷值的損失定量計算,有利于提高汽油清潔化的效率。

    因此,基于以上的工作,現(xiàn)結(jié)合ANN等非線性建模方法的優(yōu)點,利用數(shù)據(jù)挖掘方法[8]研究辛烷值損失的定量計算問題。針對前面所述的問題,在前人基礎(chǔ)上,更關(guān)注從應(yīng)用的角度獲得高泛化度的模型,關(guān)鍵在把握常用的挖掘方法的理論和各自特點的條件下,選擇正確的使用步驟;通過有效的數(shù)據(jù)處理,利用合理的算法進行特征選擇;并從多種挖掘方法構(gòu)建的模型中經(jīng)過實驗優(yōu)選出最優(yōu)模型。以某石化企業(yè)為例,對比研究支持向量機回歸、BP神經(jīng)網(wǎng)絡(luò)、廣義回歸神經(jīng)網(wǎng)絡(luò)(generalized regression neural network,GRNN)、隨機森林和K近鄰回歸這5種方法進行辛烷值損失的定量計算,以期尋找出最佳的計算辛烷值損失的挖掘方法。

    1 數(shù)據(jù)挖掘方法

    數(shù)據(jù)挖掘方法是一種數(shù)據(jù)驅(qū)動式的應(yīng)用方法,即它不強求人們需要事先完全理解所需解決問題的所有背景和各類性質(zhì),如汽油清潔化降低硫含量、辛烷值的所有化學(xué)性質(zhì)和變化規(guī)律等,而只需要一定量的背景知識;然后根據(jù)現(xiàn)有的數(shù)據(jù),從對數(shù)據(jù)的分析和處理建立模型;最后結(jié)合實際對模型進行應(yīng)用和分析,以解決實際問題。在汽油清潔化中降低辛烷值損失,即對辛烷值的損失進行較為精確的定量計算對應(yīng)著數(shù)據(jù)挖掘方法的預(yù)測和回歸任務(wù)。為提高數(shù)據(jù)挖掘方法在解決問題的效率,設(shè)計了以下數(shù)據(jù)挖掘方法的應(yīng)用流程,如圖1所示。

    圖1 數(shù)據(jù)挖掘方法流程

    2 影響辛烷值損失的因素

    在實際汽油清潔化中,影響辛烷值損失的因素很多,如包括原料性質(zhì)、產(chǎn)品性質(zhì)、待生吸附劑性質(zhì)、再生吸附劑性質(zhì)和操作變量這5個大類,其中原料性質(zhì)即與其相關(guān)的化學(xué)性質(zhì),主要有硫含量、初始辛烷值和飽和烴。在工業(yè)上,飽和烴可分為烷烴、環(huán)烷烴、烯烴和芳烴等,待生吸附劑性質(zhì)主要以焦炭為主。另外,結(jié)合實際工業(yè)生產(chǎn),眾多影響因素中操作變量占比較大,而且對辛烷值損失程度的影響[9]也很大。例如,①氫油比,它的增大會加快烯烴通過加氫飽和成烷烴的反應(yīng)速率,進而加快辛烷值的損失;②吸附劑載硫量,如果它變低,會使得吸附劑活性會變高和烯烴會變大,然后通過加氫飽和成烷烴反應(yīng)程度的方式來變大,這同樣會使得辛烷值損失會變大;③反應(yīng)溫度,當(dāng)其他操作條件基本不變時,溫度的升高,使得汽油辛烷值損失會逐漸減少。

    3 基于數(shù)據(jù)挖掘辛烷值損失計算方法

    以某石化企業(yè)積累的數(shù)據(jù)為例,應(yīng)用數(shù)據(jù)挖掘方法和辛烷值影響因素分析的結(jié)果,尋找出最佳的辛烷值損失的定量計算方法。

    3.1 數(shù)據(jù)清洗

    3.1.1 缺失值處理

    如果某些特征屬性的殘缺數(shù)據(jù)較多,使得無法補充,就刪除此類點。另外,直接刪除樣本中該因素全部為空值的點。對于數(shù)據(jù)只有部分存在空值的點,空值處用其前后數(shù)據(jù)的平均值進行插值替換。具體通過Python 3.7進行編程實現(xiàn),并統(tǒng)計了所有特征屬性缺失占其自身的缺失比例如圖2和表1所示。表1中展示了前20個缺失比例較大的特征元素及其缺失所占比例。

    G1~G32為對應(yīng)的特征元素

    表1 前20個缺失比例較大的特征元素

    由表1和圖2可得缺失值占比較多的為補充氫壓縮機出口返回管流量、進料調(diào)節(jié)閥旁路流量、緊急氫氣去D-102流量和新氫進裝置流量等,進行了刪除;然后對比例較小如非凈化風(fēng)進裝置流量以及D-123蒸汽出口流量等進行插值處理。

    3.1.2 異常值處理

    先根據(jù)企業(yè)的工藝要求與操作經(jīng)驗,獲得影響因素的存在區(qū)間;然后對不在此區(qū)間的樣本即異常值進行剔除;除此還根據(jù)拉依達準(zhǔn)則進一步去除異常值,同樣借助Python 3.7進行編程實現(xiàn),并統(tǒng)計異常值較多的因素并作圖如圖3所示。由圖3可得異常值較多的如催化汽油進裝置總流量、精制汽油出裝置硫含量和再生煙氣氧含量等直接剔除。

    H1~H8分別為精制汽油出裝置硫含量、原料緩沖罐液位、再生煙氣氧含量、新氫進裝置流量、原料進裝置流量累計、R-101床層中部溫度、SZorbAT-0012號吸附和反應(yīng)器料位

    3.1.3 歸一化

    由于影響辛烷值損失的各個因素性質(zhì)及其數(shù)據(jù)本身的含義存在差異,相互之間的量綱普遍存在差距過大,因此必須對數(shù)據(jù)進行歸一化處理。為最大限度保留數(shù)據(jù)特性,對數(shù)據(jù)進行最常用的線性放縮法,具體公式為

    (1)

    式(1)中:xmin和xmax分別為該因素數(shù)據(jù)中的最大值和最小值,歸一化到0~1。

    3.2 特征工程

    針對影響因素復(fù)雜繁多,對它們進行主要因素提取就十分必要。因為一般原始因素數(shù)據(jù)的特征和屬性多樣,具體表現(xiàn)為包含大量的干擾特征如噪音和冗余特征等,它們不但會影響構(gòu)建模型的可靠度如產(chǎn)生過擬合,同時也會對模型應(yīng)用有著一定的影響。主要特征的提取方法有很多,其中最常見的是主成分分析法,但它為線性方法,且一般這類方法得到的低維特征是其他高維特征通過線性組合而來,難以具有一定的物理解釋與含義,不便于對辛烷值損失的主要因素的提取進行合理解釋,故其并不適用于本文研究。

    以某石化企業(yè)為例,其提供數(shù)據(jù)中影響辛烷值損失的因素有366個,因素較多且存在一定的干擾因素,故需提取出其主要因素。在查閱有關(guān)資料[10],采用Wrapper方法類中的一種非線性方法即基于回歸的隨機森林的遞歸特征消除算法[11](ecursive feature elimination algorithm based on regression random forest,RFR-RFE),提取主要影響因素的算法步驟如下。

    假設(shè)數(shù)據(jù)集為T(X,Y),其中X∈Rn×m,Y∈R,R為實數(shù)集,n為樣本個數(shù),m為因素個數(shù),RFE算法最終提取結(jié)果為最優(yōu)特征子集Best-T。

    步驟1初始化,當(dāng)前特征子集Current-T包含全部的因素,此時Best-T為空。

    步驟2設(shè)定每次迭代需要刪除的特征數(shù)量百分比,這里設(shè)為β%。

    步驟3開始迭代,結(jié)束條件為Current-T為空,根據(jù)Current-T特征構(gòu)建RFR模型,得到RFR特征重要性序列;移除當(dāng)前特征子集Current-T重要性序列末尾的β%個特征。

    步驟4將訓(xùn)練得到最優(yōu)的RFR模型,若此時Current-T準(zhǔn)確率大于Best-T,則令二者相等。

    步驟5將Best-T的特征序列作為最終結(jié)果返回。

    因此,在進行了數(shù)據(jù)清洗后,根據(jù)以上算法步驟提取出了28個辛烷值損失的主要影響因素(M1~M28),并計算了主要因素之間相關(guān)系數(shù),再根據(jù)所計算出的結(jié)果作出了相關(guān)性圖,如圖4所示。

    圖4 主要因素間的相關(guān)性圖

    通過對比分析,發(fā)現(xiàn)28個特征相互之間的相關(guān)性大部分在0~0.4即相關(guān)性很低,進一步說明RFR-RFE方法的適用性和提取出的因素的合理性。最后,經(jīng)過合理提取主要因素,影響辛烷值損失的主要因素M1~M28依次如表2所示。

    表2 提取出的影響辛烷值損失的主要因素

    3.3 基于數(shù)據(jù)挖掘的辛烷值損失預(yù)測模型

    在對已有數(shù)據(jù)集進行數(shù)據(jù)清洗和特征工程即對影響辛烷值損失的主要因素進行提取后,下面應(yīng)用數(shù)據(jù)挖掘方法構(gòu)建計算辛烷值損失的模型,即先通過構(gòu)建的模型進行辛烷值的定量計算,然后再進行辛烷值損失的計算。以數(shù)據(jù)挖掘常用的方法[9-10]為依據(jù),結(jié)合辛烷值損失的主要因素和性質(zhì)特點分析,得出傳統(tǒng)的線性回歸、邏輯回歸等方法不適用于本文的建模。因為它們存在丟失信息量,而且文中的數(shù)據(jù)包含動態(tài)數(shù)據(jù)、具有較為復(fù)雜的內(nèi)在結(jié)構(gòu),所以需要采用其他常用數(shù)據(jù)挖掘方法進行建模。

    3.3.1 支持向量機回歸模型

    它是一種基于核方法的模型,依據(jù)其基本的原理[12],結(jié)合本問題,找出一個映射函數(shù),把原始低維空間的辛烷值損失的影響因素集映射到一個更高維的空間中去;然后非線性問題由此可以近似為一個線性問題,在高維空間中解決該問題。首先構(gòu)造最優(yōu)決策函數(shù)[12]為

    f(x)=wΤK(xi,zi)+b

    (2)

    式(2)中:K(xi,zi)為核函數(shù);對于辛烷值的損失而言;xi為其中某一個樣本;zi為另一個樣本;w為權(quán)重量;b為閾值。核函數(shù)即所找映射函數(shù),它的正確選擇對構(gòu)建支持向量機回歸模型的性能至關(guān)重要。高斯核函數(shù)由于參數(shù)較少和計算靈活,是非線性問題中最常用的,結(jié)合本問題特點選用高斯核函數(shù),其表達式為

    K(xi,zi)=e-γ‖xi-zi‖2

    (3)

    式(3)中:γ為伽馬參數(shù),其作用為調(diào)整高斯核的帶寬。

    根據(jù)文獻資料[12],在構(gòu)建支持向量機回歸模型時,可以同時最小化模型的復(fù)雜度, 并且通??梢允諗康揭粋€局部最優(yōu)解。以前面為基礎(chǔ),將其轉(zhuǎn)化為拉格朗日函數(shù), 其轉(zhuǎn)換的方法為,利用對偶原理引入拉格朗日乘子和Karush-Kuhn-Tucker條件進行消參,進而可以得出計算辛烷值損失的支持向量機回歸模型為

    (4)

    3.3.2 BP神經(jīng)網(wǎng)絡(luò)模型

    它是目前應(yīng)用最廣泛的一種神經(jīng)網(wǎng)絡(luò)。將本問題結(jié)合其 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)計算過程如下:在正向傳播時,輸入影響辛烷值損失的因素從輸入層進入隱含層,當(dāng)其中一個神經(jīng)元xi接收到來自上一個的計算值后,會通過權(quán)重wi傳遞的總輸入和閾值進行比較,其中訓(xùn)練網(wǎng)絡(luò)時會根據(jù)網(wǎng)絡(luò)的計算誤差且wi為各神經(jīng)元相互間的權(quán)重,通過反向傳播調(diào)整網(wǎng)絡(luò)的權(quán)重wi和閾值θ,最后通過設(shè)定的激活函數(shù)計算出最終辛烷值損失值,其中一個重要表達式為

    (5)

    為得到更好地計算辛烷值損失模型,分別建立單隱層和多隱層的兩種BP 網(wǎng)絡(luò)進行計算。BP 網(wǎng)絡(luò)參數(shù)設(shè)置對其計算結(jié)果有較大的影響,以趙煜等[13]和甄超等[14]的研究為基礎(chǔ),其中甄超等[14]指出通過試算法求得隱含層神經(jīng)元個數(shù)且學(xué)習(xí)步長 lr 取值在0.01~0.2時,訓(xùn)練是平穩(wěn)且收斂的;結(jié)合辛烷值損失問題和其主要因素的特點,本問題單隱含層節(jié)點數(shù)設(shè)置為8層,多隱含層網(wǎng)絡(luò)層數(shù)依次設(shè)置為6和5,以及多次的網(wǎng)絡(luò)訓(xùn)練,為防止過擬合采用提取停止法終止訓(xùn)練過程。最終,單隱含層網(wǎng)絡(luò)的學(xué)習(xí)率lr設(shè)置為 0.2,目標(biāo)誤差0.000 4,訓(xùn)練次數(shù)500,設(shè)置tansig函數(shù)作為隱含層神經(jīng)閾值函數(shù),線性函數(shù)輸出。多隱含層學(xué)習(xí)率 lr設(shè)置為 0.1,目標(biāo)誤差為0.000 1,訓(xùn)練次數(shù)400,其他與單隱含層設(shè)置類似,因而分別構(gòu)建好預(yù)測辛烷值損失的單隱層和多隱層BP網(wǎng)絡(luò)預(yù)測模型,分別簡記為Single BP和Multiple BP。

    3.3.3 GRNN神經(jīng)網(wǎng)絡(luò)模型

    GRNN結(jié)構(gòu)由輸入層、模式層、求和層和輸出層構(gòu)成。另外,它的模式層和激活函數(shù)分別采用為徑向神經(jīng)元和徑向基函數(shù)。它的基礎(chǔ)是傳統(tǒng)非線性回歸且應(yīng)用 Parzen非參數(shù)估計,并以最大概率原則通過求和層計算結(jié)果。在本問題中,以辛烷值損失的數(shù)據(jù)集為空間,其空間中每一點對應(yīng)主要影響因素,以辛烷值的損失值為中心,采用最常用的高斯函數(shù)[15]計算點到中心的歐氏距離, 其表達式為

    j=1,2,…,n

    (6)

    式(6)中:xn為主要影響因素,n=28;cj為第j個徑向基神經(jīng)元的中心;δ為高斯函數(shù)的方差,即光滑因子,再進入模式層進行加權(quán)求和。對于GRNN神經(jīng)網(wǎng)絡(luò),確定其網(wǎng)絡(luò)的結(jié)構(gòu)和各神經(jīng)元之間的連接權(quán)值,是以根據(jù)輸入的樣本為依據(jù),故其需要確定的參數(shù)只有一個光滑因子,其一般取值范圍[15]為[0,2]。本文以取值范圍為基礎(chǔ),以輸入的影響因素通過十折交叉驗證的方法對δ進行一維尋優(yōu),以訓(xùn)練和實際的均方差為評價指標(biāo),將誤差最小時的δ為最佳光滑因子進行構(gòu)建網(wǎng)絡(luò)。在實際辛烷值損失的計算中,當(dāng)?shù)降?次交叉驗證時,得到最佳光滑因子為0.8,進而以它構(gòu)建好預(yù)測辛烷值損失的GRNN網(wǎng)絡(luò)模型。

    3.3.4 隨機森林模型

    它是一種以決策樹為基礎(chǔ)的組合算法。針對本問題,采用多顆決策樹分別獨立計算辛烷值損失值,然后綜合各個決策樹的計算結(jié)果,以投票方式?jīng)Q定最終的結(jié)果,其過程如圖5所示。具體計算步驟[16]如下。

    D1~Dn為隨機采樣后劃分的訓(xùn)練樣本;C1~Cn為對應(yīng)匹配;D1~Dn所構(gòu)建好的CART決策樹

    步驟1隨機抽樣。從訓(xùn)練的主要影響因素數(shù)據(jù)集中,通過有放回地 Boostrasp 抽樣,生成若干組主要影響因素數(shù)據(jù)集,每組分為被抽中與未被抽中這兩種,然后每組通過訓(xùn)練產(chǎn)生一顆決策樹。

    步驟2生長。訓(xùn)練每個決策樹通過已有的主要影響因素數(shù)據(jù)進行。然后開始充分生長,具體表現(xiàn)為在每次分節(jié)點時,以若干影響因素為基礎(chǔ),然后以隨機方式選取出特征,用Gini指標(biāo)識別出最優(yōu)特征來生長,持續(xù)到不能再生長為止。

    步驟3校正。利用未被抽中的主要影響因素數(shù)據(jù)檢驗構(gòu)建的隨機森林模型精度,且模型的效果和泛化能力在一定程度上可以通過它進行檢驗。另外,還可以通過對未被選中的影響因素計算誤差,確定計算辛烷值損失的最佳決策樹的棵數(shù)且調(diào)整模型。如果效果不佳,甚至可重新構(gòu)建模型。

    步驟4將確定出的每棵決策樹模型加權(quán)計算得到最終隨機森林模型的預(yù)測結(jié)果。

    此外,在構(gòu)建隨機森林過程中,有兩個重要參數(shù)。一個為隨機特征數(shù),其值一般為自變量總數(shù)的1/3;另一個為決策樹的棵數(shù),它的確定一般是結(jié)合訓(xùn)練效果擇優(yōu)。根據(jù)資料[16],基于以上思想和方法步驟,結(jié)合本問題特點以及訓(xùn)練模型的效果,設(shè)置隨機特征數(shù)為9,決策樹的棵數(shù)為800,進而構(gòu)建好預(yù)測辛烷值損失的隨機森林模型,簡記為RF。

    3.3.5K近鄰回歸模型

    它是一種以實例為基礎(chǔ)的方法。與前面幾個方法不同,它是將模型的構(gòu)建與未知屬性特征的 定量計算同時進行,比較已知和未知的相似度,然后尋找最相似的K個樣本用作未知的計算。根據(jù)劉長良等[17]的研究結(jié)果,提出計算辛烷值損失如下:以已有的影響因素數(shù)據(jù)集建立一個向量空間,再以某種距離度量為基礎(chǔ),本文選用歐氏距離,通過近鄰樣本的搜尋找到主要影響因素和所需計算辛烷值損失的點最接近的K個鄰近點構(gòu)成一個簇,對搜尋出的已知影響因素點進行投票,利用各簇中最多的類點對所求點進行平均計算,即K個鄰近點輸出的均值作為結(jié)果。

    除此,搜尋近鄰樣本方法常用球樹搜尋法和K-Dimension 搜尋法(即KD 樹搜尋法),本文在 Python 3.7環(huán)境下根據(jù)主要因素數(shù)據(jù)的特征自動選擇最佳的搜尋方法。在K近鄰回歸建模中,只有一個需要確定的關(guān)鍵參數(shù)為K,如果K選取不當(dāng),則對構(gòu)建的模型有較大的影響。對此,采用十折交叉驗證,通過以訓(xùn)練和實際的均方差為評價指標(biāo),確定K值。可以由圖 6得到,當(dāng)K=15 時趨于平穩(wěn),故最佳K值為15,因此構(gòu)建好預(yù)測辛烷值損失的K近鄰回歸模型,簡記為KNN。

    圖6 K值變化圖

    4 實驗過程及結(jié)果分析

    基于前面的理論和方法,以某石化企業(yè)的積累數(shù)據(jù)為例,根據(jù)所提取的28個主要因素:烯烴、硫含量和氫油比等的操作變量,穩(wěn)定塔頂壓力和精制汽油出裝置溫度等計算辛烷值損失值。首先劃分生成訓(xùn)練集D1和測試集D2;再采用隨機打亂數(shù)據(jù)再進行劃分,訓(xùn)練集D1為前面所構(gòu)建模型所需的訓(xùn)練數(shù)據(jù)且占比為0.8,測試集D2為模型測試及評價的數(shù)據(jù)且占比為 0.2。為對模型有效訓(xùn)練和確定模型的關(guān)鍵參數(shù),以前人的研究經(jīng)驗為基礎(chǔ),結(jié)合交叉驗證的方法[12],先將訓(xùn)練集D1劃分為k個類似大小的互斥子集,即

    D1=D11∪D12∪…∪D1k-1∪D1k

    (7)

    且不同子集間交為空集,每個子集Di都盡可能保持?jǐn)?shù)據(jù)分布的一致性,從D1中通過分層采樣而來。然后每次用k-1個子集的并集來訓(xùn)練,余下的用于測試,從而進行k次訓(xùn)練和測試。通過訓(xùn)練輸出的值和實際值來計算均方差為評價指標(biāo)確定模型的關(guān)鍵參數(shù),模型經(jīng)過以上訓(xùn)練達到最優(yōu)擬合效果之后,再對測試集中辛烷值損失進行定量計算,最后通過對比檢驗?zāi)P偷倪m用性和可靠性。

    由于計算結(jié)果較多不便于直接展示,通過可視化圖像將隨機森林、支持向量機回歸和K近鄰回歸的計算結(jié)果和如7(a)所示,K近鄰回歸作為中間樞紐比較,將其和兩類神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果如圖7(b)所示。

    圖7(a)可以看出,預(yù)測辛烷值損失值最準(zhǔn)確地為隨機森林,支持向量機回歸的計算偏差較大;而從圖7(b)可以看出 GRNN 神經(jīng)網(wǎng)絡(luò)的預(yù)測結(jié)果最準(zhǔn)確,單隱層BP神經(jīng)網(wǎng)絡(luò)偏差較大,K近鄰回歸和多隱層BP神經(jīng)網(wǎng)絡(luò)的計算結(jié)果比較接近。

    圖7 辛烷值損失預(yù)測結(jié)果

    由于只從結(jié)果圖形直觀可視化比較,存在一定主觀性,為了更加客觀進行分析比較,所以下面引入幾個評價指標(biāo),分別為平均絕對誤差(mean absolute error,MAE)、均方根誤差(root mean square error,RMSE)、平均絕對百分比誤差(mean absolute percentage error,MAPE)和擬合優(yōu)度(goodness of fit,R2)。

    (8)

    (9)

    (10)

    (11)

    表3 各評價指標(biāo)結(jié)果

    除此,還對R2進行可視化分析,如圖8所示。

    由表3和圖8可得,整體上隨機森林的各項誤差指標(biāo)均與其他各方法相比最小,擬合效果最接近實際值,且實驗過程中多次的隨機交叉訓(xùn)練,對辛烷值損失的計算差異小,較為穩(wěn)健。其次為GRNN神經(jīng)網(wǎng)絡(luò),其各項誤差指標(biāo)也相對在較為合理的范圍,且在收斂于優(yōu)化回歸面,表現(xiàn)為收斂于樣本積聚最多的優(yōu)化回歸面。再其次為 BP 神經(jīng)網(wǎng)絡(luò),雖然存在一些不足,但是通過合理增加其隱含層的層數(shù)可以對效果進行一定范圍內(nèi)的改善。最后,支持向量機回歸和K近鄰回歸二者的計算效果比較接近,但精度存在的一定不足。

    圖8 各自的擬合優(yōu)度圖

    此外為進一步結(jié)合實際應(yīng)用,根據(jù)現(xiàn)行國家標(biāo)準(zhǔn)以及有關(guān)資料[18],辛烷值為90~100的汽油差值|E|不大于0.2個單位則滿足重復(fù)性要求,而再現(xiàn)性要求為差值|E|不大于 0.7個單位。隨機森林計算辛烷值損失對應(yīng)的終端辛烷值如表4所示。

    由表4可得,RF計算結(jié)果有86.2%的在 0.7個單位以內(nèi),符合再現(xiàn)性要求,進一步說明構(gòu)建的隨機森林模型的合理性。綜上所述,隨機森林預(yù)測辛烷值損失的精度高且較為穩(wěn)健,具有很大的實際應(yīng)用意義。

    表4 隨機森林計算對應(yīng)終端辛烷值

    5 結(jié)論

    (1)基于某石化企業(yè)所積累的數(shù)據(jù),其存在影響辛烷值損失的眾多因素,采用RFR-RFE算法提取主要影響因素。最終成功提取了28個辛烷值損失的主要影響因素,包含硫含量、烯烴、氫油比和穩(wěn)定塔壓力等,結(jié)合相關(guān)性分析和有關(guān)資料,得出所提取的因素為影響辛烷值損失特性的代表因素,進一步說明RFR-RFE算法在影響辛烷值損失特征提取上的合理性和有效性。

    (2)針對汽油清潔化中辛烷值損失預(yù)測問題是多種復(fù)雜因素相互影響的辛烷值損失的定量計算問題,從數(shù)據(jù)驅(qū)動這一角度構(gòu)建了可靠的高性能計算模型。以某石化企業(yè)為例,通過數(shù)據(jù)挖掘方法包括數(shù)據(jù)清洗、特征提取和挖掘建模進行分析計算。其實驗結(jié)果表明:隨機森林方法預(yù)測精度較高,是非??煽康?,能為在實際汽油清潔化中提前預(yù)測辛烷值的損失,進而提前做出合理的清潔化方案提供有力的技術(shù)支撐。

    猜你喜歡
    辛烷值汽油數(shù)據(jù)挖掘
    揚州市查處一起非法經(jīng)營汽油案
    黨建+經(jīng)營催化汽油提效
    探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
    質(zhì)量比改變壓縮比的辛烷值測定機
    軟件(2020年3期)2020-04-20 01:45:24
    PNNL開發(fā)車載分離技術(shù)將乙醇從汽油中分離出來使辛烷值隨需變化
    基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
    電力與能源(2017年6期)2017-05-14 06:19:37
    研究法辛烷值和馬達法辛烷值對直噴汽油機性能的影響
    汽車文摘(2016年8期)2016-12-07 01:05:40
    一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
    大數(shù)據(jù)是“原油”,不是“汽油”
    聲屏世界(2015年8期)2015-02-28 15:20:26
    基于辛烷值調(diào)合效應(yīng)模型的在線更新方法及其應(yīng)用
    中江县| 大庆市| 金湖县| 天气| 昭平县| 金门县| 图木舒克市| 西畴县| 普宁市| 图木舒克市| 普格县| 沛县| 铜川市| 鹤峰县| 建瓯市| 丹凤县| 岢岚县| 六安市| 南平市| 无棣县| 湟源县| 七台河市| 淮安市| 林口县| 开鲁县| 呼伦贝尔市| 邢台市| 喀喇沁旗| 天长市| 象山县| 阳高县| 高碑店市| 舒城县| 邵武市| 利津县| 张家界市| 聂拉木县| 西平县| 安吉县| 马边| 麟游县|