• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      虛擬樣本生成方法及其在重整數(shù)據(jù)建模中的應(yīng)用

      2021-06-14 06:55:00賀許龍王鑫磊
      石油煉制與化工 2021年6期
      關(guān)鍵詞:高斯分布重整芳烴

      賀許龍,張 蕾,周 涵,王鑫磊,苗 準(zhǔn)

      (中國(guó)石化石油化工科學(xué)研究院,北京 100083)

      隨著煉油廠智能化轉(zhuǎn)型,利用數(shù)據(jù)挖掘技術(shù)對(duì)裝置生產(chǎn)數(shù)據(jù)進(jìn)行分析處理與建模,并用于對(duì)實(shí)際裝置的模擬與優(yōu)化,成為很多煉油廠提高經(jīng)濟(jì)效益的有效手段[1-2]。但是,由于工業(yè)裝置長(zhǎng)期處于穩(wěn)定生產(chǎn)狀態(tài)或加工的原料相對(duì)固定,使工業(yè)數(shù)據(jù)存在重復(fù)性高、多樣性低和分布不均衡等特點(diǎn),學(xué)術(shù)上普遍將其稱為小樣本問(wèn)題。若使用這種信息不完整的小樣本建立數(shù)據(jù)驅(qū)動(dòng)模型,將難以實(shí)現(xiàn)對(duì)特征空間分布規(guī)律的有效學(xué)習(xí),造成模型存在檢驗(yàn)誤差較大和適用性較差等問(wèn)題[3]。

      虛擬樣本生成方法可以有效解決上述小樣本問(wèn)題[4]。常用的虛擬樣本生成方法包括:基于先驗(yàn)知識(shí)的生成方法和基于某種概率分布的方法[5-7]。前者主要是根據(jù)特定領(lǐng)域的先驗(yàn)知識(shí),在模型中加入適當(dāng)約束條件,將模型的求解問(wèn)題轉(zhuǎn)化為優(yōu)化問(wèn)題,使得產(chǎn)生更適合于問(wèn)題的解(虛擬樣本),但該方法要求研究者對(duì)特定領(lǐng)域有深入且全面的認(rèn)識(shí),否則會(huì)因添加的約束條件不當(dāng)而導(dǎo)致虛擬樣本的合理性差;后者是在真實(shí)樣本的概率分布模型的基礎(chǔ)上,通過(guò)選取合適的樣本概率分布,建立問(wèn)題的近似概率模型,然后抽樣得到虛擬樣本。該方法合理性基本滿足要求,且不需要充分了解特定領(lǐng)域的經(jīng)驗(yàn)知識(shí),具有較強(qiáng)的適應(yīng)性。

      在綜合分析重整原料油數(shù)據(jù)的基礎(chǔ)上,以重整原料按碳數(shù)分布的烴族組成(PNA×Cn)為輸入特征,產(chǎn)品中的芳烴收率為輸出特征,建立決策樹回歸模型,并采用流程模擬軟件Aspen HYSYS對(duì)該裝置反應(yīng)過(guò)程進(jìn)行模擬。針對(duì)真實(shí)樣本的小樣本問(wèn)題,基于Aspen HYSYS軟件已經(jīng)內(nèi)置有較為成熟的重整反應(yīng)器模型,并在一定工藝條件下能夠?qū)崿F(xiàn)原料組成變化對(duì)產(chǎn)品分布影響的準(zhǔn)確模擬。本研究提出一種將樣本多元高斯分布模型與HYSYS模擬軟件相結(jié)合的虛擬樣本生成方法。該方法首先借助多元高斯分布生成由輸入特征組成的虛擬樣本;然后采用標(biāo)定過(guò)的HYSYS重整機(jī)理模型計(jì)算對(duì)應(yīng)的芳烴產(chǎn)物收率,進(jìn)而得到建立數(shù)據(jù)模型所需的完整虛擬樣本;最后將虛擬樣本與真實(shí)樣本組合,考察虛擬樣本的引入對(duì)數(shù)據(jù)模型預(yù)測(cè)準(zhǔn)確性與適應(yīng)性的影響。

      1 重整進(jìn)料虛擬樣本的生成

      若隨機(jī)變量X服從一個(gè)位置參數(shù)為μ、尺度參數(shù)為σ的概率分布,且其概率密度函數(shù)曲線呈鐘形,則稱這個(gè)隨機(jī)變量為高斯隨機(jī)變量,其服從的分布則稱為高斯分布,記作X~N(μ,σ2)。高斯分布主要適用于一些隨機(jī)變量連續(xù)、樣本量較大和概率密度函數(shù)符合其統(tǒng)計(jì)特性的場(chǎng)合。

      對(duì)實(shí)際樣本中重整進(jìn)料的16個(gè)PNA×Cn特征變量進(jìn)行統(tǒng)計(jì)分析,結(jié)果如表1所示。其中,CnP,CnN,CnA分別表示碳數(shù)為n的烷烴、環(huán)烷烴、芳烴。每個(gè)特征在其取值范圍內(nèi)基本實(shí)現(xiàn)連續(xù)性取值,且其偏度和峰度統(tǒng)計(jì)量也趨近于0,即每個(gè)特征的分布規(guī)律近似為高斯分布,故可選擇基于多元高斯分布的方法生成重整進(jìn)料的虛擬樣本。

      表1 重整進(jìn)料的16個(gè)PNA×Cn 特征的描述統(tǒng)計(jì)量 w,%

      1.1 生成步驟

      虛擬樣本的生成共分5個(gè)步驟,分別為:

      (1)對(duì)實(shí)際數(shù)據(jù)所服從的高斯分布進(jìn)行標(biāo)準(zhǔn)化處理,轉(zhuǎn)化為標(biāo)準(zhǔn)高斯分布。

      (2)采用最大似然估計(jì)法,求得高斯分布的均值和方差。

      假設(shè)樣本服從高斯分布X~N(μ,σ2),則似然函數(shù)如式(1)所示。

      (1)

      經(jīng)取對(duì)數(shù)、求導(dǎo),計(jì)算可得位置參數(shù)(μ)和尺度參數(shù)(σ)的平方如式(2)所示。

      (2)

      (3)根據(jù)得到的μ與σ2構(gòu)建高斯分布X~N(μ,σ2)。

      (3)

      (4)根據(jù)每個(gè)PNA×Cn特征變量對(duì)應(yīng)的高斯分布概率密度函數(shù),在3σ范圍內(nèi)生成該特征變量的高斯隨機(jī)數(shù),然后將對(duì)應(yīng)于16個(gè)特征的高斯隨機(jī)數(shù)分別進(jìn)行隨機(jī)組合,得到虛擬樣本集。

      (5)定義:以每個(gè)進(jìn)料虛擬樣本中16個(gè)特征的和值偏離100的誤差限小于0.1為刪減機(jī)制,刪除不符合條件的個(gè)別樣本。

      1.2 重整進(jìn)料虛擬樣本的合理性評(píng)估與篩選

      t分布隨機(jī)鄰域嵌入(t-SNE)[8]是根據(jù)高維空間數(shù)據(jù)的內(nèi)在結(jié)構(gòu),將數(shù)據(jù)內(nèi)在的分布特點(diǎn)在低維空間中進(jìn)行可視化表達(dá)的一種降維算法。其基本思想就是將高維空間中數(shù)據(jù)點(diǎn)之間的距離轉(zhuǎn)化為數(shù)據(jù)點(diǎn)之間相似性的條件概率,進(jìn)而根據(jù)在高維空間中數(shù)據(jù)點(diǎn)的條件概率確定其在低維空間中重組數(shù)據(jù)點(diǎn)的位置,從而實(shí)現(xiàn)高維特征空間數(shù)據(jù)在低維特征空間中映射。

      為了評(píng)估所生成的虛擬樣本的合理性與可靠性,以可視化的方式展示虛擬樣本對(duì)真實(shí)樣本的覆蓋情況,本研究通過(guò)t-SNE降維算法[9]分別對(duì)真實(shí)樣本與虛擬樣本進(jìn)行降維,并可視化得到樣本分布對(duì)比圖。該過(guò)程隨機(jī)從總虛擬樣本中抽取了6次子樣本集,從中選擇一組對(duì)真實(shí)樣本覆蓋范圍較好,且降維后的新特征取值范圍較小的子樣本集。既保證了虛擬樣本的多樣性特征,又保證了虛擬樣本點(diǎn)不會(huì)偏離真實(shí)樣本點(diǎn)太遠(yuǎn),從而實(shí)現(xiàn)對(duì)原重整進(jìn)料真實(shí)樣本多樣性與均衡性的有效補(bǔ)充。

      圖1為虛擬樣本與真實(shí)樣本在二維空間的映射視圖,其中橫、縱坐標(biāo)分別表示從16維重整進(jìn)料PNA×Cn特征降至2維平面所生成的2個(gè)新特征。這2個(gè)新特征是原特征的非線性組合,其物理意義仍然是質(zhì)量分?jǐn)?shù),用w1、w2表示;此外,由于t-SNE在對(duì)樣本特征降維過(guò)程中做了中心化處理,因而圖1中2個(gè)特征的取值范圍是位于原點(diǎn)的左右兩側(cè),且在一個(gè)較小的區(qū)間內(nèi),保證了虛擬樣本的合理性。

      圖1 t-SNE降維后的虛擬樣本與真實(shí)樣本的分布●—真實(shí)樣本; ●—虛擬樣本

      1.3 重整進(jìn)料虛擬樣本對(duì)應(yīng)產(chǎn)品數(shù)據(jù)的獲取

      重整進(jìn)料16個(gè)PNA×Cn特征變量構(gòu)成的虛擬數(shù)據(jù)樣本,并不能直接用于訓(xùn)練數(shù)據(jù)模型,而需要先得到每個(gè)虛擬進(jìn)料數(shù)據(jù)樣本對(duì)應(yīng)的芳烴收率數(shù)據(jù)。本研究使用某煉化企業(yè)重整裝置反應(yīng)系統(tǒng)的標(biāo)定數(shù)據(jù)對(duì)HYSYS重整機(jī)理模型進(jìn)行校準(zhǔn)[10],得到適用于此裝置的校準(zhǔn)因子集。進(jìn)而用HYSYS模擬該裝置的反應(yīng)過(guò)程,計(jì)算虛擬進(jìn)料樣本對(duì)應(yīng)的芳烴收率數(shù)據(jù),從而產(chǎn)生由16個(gè)原料特征變量和1個(gè)芳烴收率特征變量組成的600組完整虛擬樣本。

      2 虛擬樣本的可靠性檢驗(yàn)

      由于虛擬樣本的生成是經(jīng)高斯分布和HYSYS模擬兩步完成,所以在探究補(bǔ)充虛擬樣本對(duì)于數(shù)據(jù)模型性能的影響之前,需要對(duì)虛擬樣本的可靠性進(jìn)行檢驗(yàn),以保證其反應(yīng)規(guī)律與實(shí)際樣本相符。因此,本研究用清洗后的528組真實(shí)樣本作為訓(xùn)練集,600組虛擬樣本作為測(cè)試集,采用決策樹回歸算法[11]進(jìn)行建模,通過(guò)模型預(yù)測(cè)值與實(shí)際值誤差大小來(lái)驗(yàn)證虛擬樣本的可靠性。

      分類和回歸決策樹(CART)算法[12-13]是決策樹中比較常用的算法,CART算法既可以用于創(chuàng)建分類樹,也可以用于創(chuàng)建回歸樹?;貧w樹的主要構(gòu)造流程包括:先進(jìn)行遞歸構(gòu)建二叉決策樹,然后依據(jù)平方誤差最小化原則確定回歸樹的最優(yōu)劃分并生成二叉樹,最后再進(jìn)行決策樹的剪枝。本研究將CART決策樹算法應(yīng)用在重整原料PNA×Cn特征對(duì)芳烴收率的預(yù)測(cè)上,相關(guān)參數(shù)設(shè)置包括:最大深度(max_depth)為默認(rèn)值None,每個(gè)葉子結(jié)點(diǎn)包含的最少的樣本數(shù)(min_samples_leaf)為1,每個(gè)內(nèi)部節(jié)點(diǎn)包含的最少的樣本數(shù)(min_samples_split)為2,其他參數(shù)均取默認(rèn)值。

      圖2表示了決策樹回歸模型的預(yù)測(cè)輸出與實(shí)際輸出的擬合效果,橫坐標(biāo)表示樣本數(shù),縱坐標(biāo)表示芳烴收率。由圖2可知,前200組測(cè)試樣本的平均絕對(duì)誤差僅為1.406 8,說(shuō)明由HYSYS重整機(jī)理模型計(jì)算的芳烴收率數(shù)據(jù)與真實(shí)數(shù)據(jù)的誤差較小,同時(shí)也證明了基于多元高斯分布方法與HYSYS機(jī)理模型結(jié)合生成完整虛擬樣本方法的可行性。需要說(shuō)明的是,剩余測(cè)試樣本的平均絕對(duì)誤差與前200組相近。

      圖2 虛擬樣本作測(cè)試集時(shí)模型的預(yù)測(cè)值與實(shí)際值對(duì)比●—實(shí)際輸出; ●—預(yù)測(cè)輸出

      3 虛擬樣本的引入對(duì)提升模型預(yù)測(cè)性能的影響

      將實(shí)際樣本的70%用作訓(xùn)練樣本,30%用作測(cè)試樣本,建立決策樹回歸模型。為了進(jìn)一步驗(yàn)證虛擬樣本的引入對(duì)模型預(yù)測(cè)性能的影響,試驗(yàn)過(guò)程中每次向訓(xùn)練樣本中增加200組虛擬樣本,并重新訓(xùn)練模型,觀察模型預(yù)測(cè)準(zhǔn)確度的變化,結(jié)果如表2所示。從表2可以看出,隨著訓(xùn)練樣本中引入虛擬樣本數(shù)量的增加,模型預(yù)測(cè)的平均絕對(duì)誤差從1.409 7逐漸降至0.631 8,即模型對(duì)于測(cè)試樣本的預(yù)測(cè)準(zhǔn)確度逐漸提高。

      表2 引入不同數(shù)目虛擬樣本后決策樹 回歸模型的平均絕對(duì)誤差

      圖3為引入虛擬樣本前后模型的預(yù)測(cè)絕對(duì)誤差的對(duì)比。其中,Model 1為引入虛擬樣本前模型的預(yù)測(cè)絕對(duì)誤差,Model 2為引入全部虛擬樣本后模型的預(yù)測(cè)絕對(duì)誤差。由圖3可知,引入虛擬樣本后,95.3%測(cè)試樣本預(yù)測(cè)的絕對(duì)誤差小于2.0,78%測(cè)試樣本預(yù)測(cè)的絕對(duì)誤差小于1.0。該預(yù)測(cè)誤差已經(jīng)接近實(shí)驗(yàn)室對(duì)重整芳烴收率的標(biāo)準(zhǔn)測(cè)定誤差,能夠滿足裝置工業(yè)控制與優(yōu)化的預(yù)測(cè)需求。

      圖3 引入虛擬樣本前后模型的測(cè)試誤差對(duì)比 ●—Model 1; ●—Model 2

      因此,催化重整芳烴收率建模預(yù)測(cè)的結(jié)果表明:虛擬樣本的引入,有效提升了訓(xùn)練樣本的多樣性與均衡性,使數(shù)據(jù)模型能夠?qū)W習(xí)到各種重整進(jìn)料組成分布;而且,其對(duì)未知進(jìn)料樣本預(yù)測(cè)的適應(yīng)性得到了明顯的改善。表明基于樣本多元高斯分布與HYSYS機(jī)理模型相結(jié)合的虛擬樣本生成方法,可以有效解決煉油廠數(shù)據(jù)存在的小樣本問(wèn)題。

      4 結(jié) 論

      針對(duì)煉油廠實(shí)際數(shù)據(jù)存在的小樣本問(wèn)題,基于多元高斯分布生成催化重整進(jìn)料虛擬樣本,并與HYSYS機(jī)理模型相結(jié)合建模計(jì)算芳烴的收率數(shù)據(jù),生成完整虛擬樣本,具備多樣性高、分布更均勻的特點(diǎn)。虛擬樣本的引入,有效提升了芳烴收率預(yù)測(cè)決策樹回歸模型的性能,模型的適用性和準(zhǔn)確性得到了明顯的改善,芳烴收率預(yù)測(cè)的平均絕對(duì)誤差由引入虛擬樣本前的1.409 7降至0.631 8。

      猜你喜歡
      高斯分布重整芳烴
      信托公司在破產(chǎn)重整實(shí)務(wù)中的機(jī)會(huì)
      銀行家(2022年5期)2022-05-24 12:54:58
      關(guān)于重芳烴輕質(zhì)化與分離的若干思考
      利用Box-Cox變換對(duì)移動(dòng)通信中小區(qū)級(jí)業(yè)務(wù)流量分布的研究
      2種非對(duì)稱廣義高斯分布模型的構(gòu)造
      一種基于改進(jìn)混合高斯模型的前景檢測(cè)
      輪胎填充油中8種多環(huán)芳烴的檢測(cè)
      高芳烴環(huán)保橡膠填充油量產(chǎn)
      環(huán)保型橡膠填充油中芳烴及多環(huán)芳烴組成研究
      醫(yī)患關(guān)系需重整“程序”
      旋轉(zhuǎn)真空浸漬法制備NiO/MgO=γ=Al2 O3催化劑用于CO2/CH4重整研究
      富平县| 新疆| 新闻| 东平县| 唐山市| 台南县| 隆尧县| 陇南市| 吕梁市| 乌兰察布市| 临夏县| 扶沟县| 屏东县| 宁河县| 旌德县| 鸡泽县| 呼图壁县| 浦江县| 永年县| 蒙城县| 偏关县| 元谋县| 西吉县| 佛山市| 阳高县| 揭阳市| 麻阳| 黎平县| 绥阳县| 麻江县| 邻水| 南召县| 磐安县| 大关县| 崇信县| 大理市| 南汇区| 常熟市| 上饶市| 平山县| 马鞍山市|