柴油餾分碳數(shù)分布的預(yù)測(cè)研究

2018-12-11 07:47:24任小甜褚小立田松柏

石油煉制與化工 2018年12期

任小甜，褚小立，田松柏

(中國(guó)石化石油化工科學(xué)研究院，北京 100083)

對(duì)于柴油來說，其沸程、密度等各項(xiàng)物性以及十六烷值、潤(rùn)滑性、低溫流動(dòng)性等使用性能都與其分子組成有關(guān)[1]，不同來源(不同產(chǎn)地的原油和不同的加工工藝)的柴油分子組成差別較大，其從根本上決定了柴油的各項(xiàng)性質(zhì)及其使用性能。傳統(tǒng)的表征方法只能得到柴油餾分的烴類組成，為了滿足目前清潔、優(yōu)質(zhì)柴油的生產(chǎn)需求，需要從分子水平上深入認(rèn)識(shí)柴油的詳細(xì)組成，探究其各項(xiàng)物性及使用性能和分子組成的關(guān)系。目前，基于軟電離技術(shù)的氣相色譜飛行時(shí)間質(zhì)譜(GC-TOF MS)是一種快速有效的柴油分子組成的表征方法[2-3]。但該儀器平臺(tái)價(jià)格昂貴，分析過程比較復(fù)雜，需要專業(yè)的技術(shù)人員進(jìn)行操作，不能滿足工業(yè)生產(chǎn)中快速實(shí)時(shí)分析的要求。而柴油的基本物性由常規(guī)分析手段就可以得到，大多數(shù)煉油廠都具備這樣的分析條件；另外，由柴油餾分的基本物性數(shù)據(jù)，尤其是近紅外光譜數(shù)據(jù)又可以準(zhǔn)確計(jì)算其烴類組成信息[4]。如果能夠利用這些常規(guī)物性和組成數(shù)據(jù)快速預(yù)測(cè)柴油餾分的詳細(xì)碳數(shù)分布信息，將對(duì)石油的分子水平煉制產(chǎn)生重要影響。

現(xiàn)有文獻(xiàn)已經(jīng)報(bào)道了一些基于常規(guī)物性計(jì)算來預(yù)測(cè)柴油餾分的分子組成包括碳數(shù)分布組成的方法[5-6]，其基本研究思路是預(yù)先設(shè)定一個(gè)虛擬分子庫(kù)，確定每個(gè)虛擬分子的各項(xiàng)物性數(shù)據(jù)，再利用混合規(guī)則來計(jì)算柴油餾分的宏觀物性，最后通過優(yōu)化各項(xiàng)宏觀物性的損失函數(shù)來確定各分子的含量，以這些虛擬分子的組成來表示柴油。這種方法存在很大的局限性，首先，虛擬分子的設(shè)定不一定準(zhǔn)確，而且需要確定大量單體分子的各項(xiàng)物性數(shù)據(jù)，許多物性存在缺失的情況，準(zhǔn)確度也不能保證；另一方面，從優(yōu)化計(jì)算的角度來講，虛擬分子的數(shù)量遠(yuǎn)大于宏觀物性的數(shù)目，這樣會(huì)導(dǎo)致計(jì)算結(jié)果不唯一，即使引入人為簡(jiǎn)化的分布函數(shù)減少變量個(gè)數(shù)，其本質(zhì)也是一個(gè)非凸優(yōu)化的過程，求解難度很大，準(zhǔn)確度也不夠高。

本研究從機(jī)器學(xué)習(xí)的角度出發(fā)建模，以一定數(shù)量的柴油樣本為基礎(chǔ)，確定其標(biāo)準(zhǔn)的物性數(shù)據(jù)和烴類組成數(shù)據(jù)作為特征，以其詳細(xì)的碳數(shù)分布組成數(shù)據(jù)作為輸出，結(jié)合最近鄰回歸算法(KNR)和過采樣技術(shù)建立回歸模型，實(shí)現(xiàn)由柴油餾分的物性數(shù)據(jù)和烴類組成數(shù)據(jù)快速預(yù)測(cè)其詳細(xì)碳數(shù)分布組成信息。

1 算法原理

1.1 KNR算法

最近鄰算法(KNN)是一種有監(jiān)督的機(jī)器學(xué)習(xí)算法，不同于其它算法的是，其屬于消極學(xué)習(xí)，即模型不需要訓(xùn)練，無需估計(jì)參數(shù)，根據(jù)輸出目標(biāo)種類的不同又分為KNR和最近鄰分類算法(KNC)。該算法的基本思想是距離相近的樣本具有相似的屬性，預(yù)測(cè)時(shí)先分別計(jì)算待測(cè)樣本到每個(gè)訓(xùn)練集樣本在特征空間中的歐式距離，找出距離最近的k個(gè)樣本，再利用最鄰近的這k個(gè)樣本進(jìn)行決策，對(duì)于分類問題，k個(gè)樣品中哪種類別的訓(xùn)練樣本占多數(shù)，待測(cè)樣本就屬于這一類，對(duì)于回歸問題，則將k個(gè)樣本屬性的平均值作為待測(cè)樣本的屬性。對(duì)于柴油餾分，假設(shè)各項(xiàng)物性數(shù)據(jù)和烴類組成相似的樣本，其本質(zhì)上就是相似的，反映到分子組成上就是其碳數(shù)分布組成信息都是類似的。所以，本研究選擇KNR算法建模，即先根據(jù)物性數(shù)據(jù)和烴類組成找到與待測(cè)樣本距離最近的k個(gè)訓(xùn)練樣本，將這幾個(gè)樣本的碳數(shù)分布組成數(shù)據(jù)按照距離的不同進(jìn)行加權(quán)線性加和，即同時(shí)得到待測(cè)樣本的包含300多項(xiàng)集總含量的碳數(shù)分布信息。其中，引入高斯函數(shù)來計(jì)算不同距離樣本的權(quán)重ω，計(jì)算式如下：

(1)

(2)

式中：k為最近樣本的個(gè)數(shù)，Si表示第i個(gè)最近樣本的高斯函數(shù)值；ωi為第i個(gè)最近樣本對(duì)應(yīng)的權(quán)重；di為待測(cè)樣本和第i個(gè)最近樣本的歐式距離；σ為高斯函數(shù)的參數(shù)，本研究取值為10。待測(cè)樣本的碳數(shù)分布組成數(shù)據(jù)的預(yù)測(cè)計(jì)算式如下：

(3)

式中：y為待測(cè)樣本的碳數(shù)分布組成數(shù)據(jù)，yi為k個(gè)最近樣本中第i個(gè)樣本的碳數(shù)分布組成數(shù)據(jù)。

1.2 過采樣技術(shù)

對(duì)于KNR算法，庫(kù)中的訓(xùn)練樣本越多，越能找到與待測(cè)樣本距離更近的樣本，即碳數(shù)分布組成信息相似的樣本，從而保證預(yù)測(cè)結(jié)果的準(zhǔn)確性。而在實(shí)際應(yīng)用場(chǎng)景中，收集大量組成數(shù)據(jù)和物性數(shù)據(jù)都完備的樣本是比較困難的，尤其是對(duì)于分析成本較高的性質(zhì)，如碳數(shù)分布組成信息等。另外，對(duì)于不同待測(cè)樣本，尤其是不同種類的樣本，很難保證在庫(kù)中能找到距離足夠近的樣本來滿足KNR的計(jì)算。所以，本研究利用過采樣技術(shù)來解決訓(xùn)練樣本不足的問題。該算法的基本思想是，先從庫(kù)中找到與待測(cè)樣本距離最近的幾個(gè)樣本，然后將這幾個(gè)近鄰樣本按照任意質(zhì)量比進(jìn)行混合，這樣可以得到大量的虛擬樣本，同時(shí)虛擬樣本的物性數(shù)據(jù)和組成數(shù)據(jù)也可以由線性加和計(jì)算得到，其計(jì)算式如下：

(4)

利用過采樣技術(shù)，在每個(gè)待測(cè)樣本的周圍都生成大量的、物性和組成數(shù)據(jù)完備的虛擬樣本，這樣就可以保證KNR算法能準(zhǔn)確地找到最相似的樣本，進(jìn)而保證預(yù)測(cè)結(jié)果的準(zhǔn)確性。需要注意的是，要利用過采樣技術(shù)生成虛擬樣本，庫(kù)中各樣本的各項(xiàng)屬性都必須滿足線性加和的規(guī)則，或者經(jīng)過數(shù)學(xué)轉(zhuǎn)換后符合線性加和規(guī)則。具體到柴油餾分中，就是要選擇符合線性加和的物性數(shù)據(jù)作為輸入特征，烴類組成數(shù)據(jù)和碳數(shù)分布組成信息自然是滿足線性加和條件的。

2 實(shí) 驗(yàn)

2.1 測(cè)定樣品數(shù)據(jù)

收集直餾柴油樣品78個(gè)，這些樣品從不同產(chǎn)地的原油分餾而得，具有一定的代表性。用標(biāo)準(zhǔn)方法測(cè)定其硫含量、氮含量、酸值，這3項(xiàng)物性能滿足線性加和條件。用氣相色譜-質(zhì)譜聯(lián)用儀分析柴油樣品的烴類組成信息(SHT 0606)，用帶場(chǎng)電離源(FI)的GC-TOF MS測(cè)定樣品的詳細(xì)碳數(shù)分布信息。

2.2 數(shù)據(jù)預(yù)處理

以柴油樣本的3個(gè)物性數(shù)據(jù)、11個(gè)烴類(分別為鏈烷烴、單環(huán)環(huán)烷烴、雙環(huán)環(huán)烷烴、三環(huán)環(huán)烷烴、烷基苯、茚滿四氫萘、茚類、萘類、苊類、苊烯類和三環(huán)芳烴)的組成信息作為模型的輸入特征X。對(duì)于碳數(shù)分布信息，根據(jù)標(biāo)準(zhǔn)方法中的模板，用一個(gè)由碳數(shù)分布范圍在7～30的13種烴類同系物的族組成的矩陣表示，將該碳數(shù)分布矩陣按照不同的列依次展開，共計(jì)312個(gè)碳數(shù)項(xiàng)，構(gòu)成模型的輸出值Y，由此確定模型的數(shù)據(jù)庫(kù)。

對(duì)于KNR算法，其中會(huì)涉及到樣本間距離的計(jì)算，而柴油樣品的物性數(shù)據(jù)和烴類組成數(shù)據(jù)的量綱不同，取值范圍也有很大的差異，所以要對(duì)樣本的輸入特征X進(jìn)行標(biāo)準(zhǔn)化預(yù)處理，消除量綱的影響，進(jìn)一步保證預(yù)測(cè)結(jié)果的準(zhǔn)確性。

2.3 建立預(yù)測(cè)模型

上述庫(kù)中的78個(gè)樣本作為訓(xùn)練集。模型計(jì)算的流程如下：取一個(gè)待測(cè)樣本，首先將其輸入特征X進(jìn)行標(biāo)準(zhǔn)化預(yù)處理，再計(jì)算其與庫(kù)中各樣本的歐式距離，找出最近的6個(gè)樣本，利用過采樣技術(shù)生成5 000個(gè)虛擬樣本，將待測(cè)樣本周圍的特征空間密集化；然后通過KNR算法，從生成的虛擬樣本中找出最近鄰的k個(gè)樣本，然后通過線性加權(quán)求和計(jì)算出碳數(shù)分布組成的預(yù)測(cè)值，并與實(shí)驗(yàn)值進(jìn)行比對(duì)。

3 結(jié)果與討論

3.1 相似度分析

本研究的模型以柴油的3項(xiàng)物性和11個(gè)烴類組成數(shù)據(jù)作為輸入特征，這些特征能否充分反映出樣本的本質(zhì)區(qū)別是模型準(zhǔn)確預(yù)測(cè)的先決條件，即通過這些特征從庫(kù)中找出兩個(gè)相似樣本，在碳數(shù)分布組成上也必須保持基本一致的相似度。為此，本研究考察了樣本在特征和碳數(shù)分布組成上的相似度，隨機(jī)抽取一個(gè)柴油樣本CY656，從庫(kù)中找出與其歐氏距離最近的3個(gè)樣本(CY540，CY621，CY624)，分別計(jì)算這3個(gè)近鄰樣本和待測(cè)樣本CY656在特征和碳數(shù)分布組成上的相似度(sd1、sd2)，計(jì)算結(jié)果如表1所示。其中相似度的計(jì)算式如下：

(5)

式中：sd表示兩個(gè)樣本之間的相似度；d表示樣本之間的歐式距離；m表示特征的維度。

表1 近鄰樣本的相似度比較

計(jì)算結(jié)果表明，待測(cè)樣本CY656與近鄰樣本CY540，CY621，CY624在特征和碳數(shù)分布組成上的相似度基本一致，根據(jù)直餾柴油的14項(xiàng)特征可以從庫(kù)中找出與待測(cè)樣本碳數(shù)分布組成基本相似的樣本，進(jìn)而可以用這些近鄰樣本擬合計(jì)算待測(cè)樣本的碳數(shù)分布組成，因此本研究的預(yù)測(cè)模型能保證足夠的準(zhǔn)確度。

3.2 模型的超參數(shù)

KNR模型中一般有一個(gè)重要的超參數(shù)需要優(yōu)化，即最近鄰樣本數(shù)目k，若k值太小，模型的泛化性能則很差，很可能在庫(kù)中找不出k個(gè)最近鄰樣本；假如k值太大，則可能找出不是最相似的樣本，模型的準(zhǔn)確性又下降。本研究利用交叉驗(yàn)證的方法來確定模型中k的最優(yōu)取值。在庫(kù)中任意抽取5個(gè)樣本，利用過采樣技術(shù)在這5個(gè)樣本之間生成5 000個(gè)虛擬樣本，然后用這些樣本構(gòu)建KNR的10折交叉驗(yàn)證模型。首先將樣本平均分為10份，依次取出1份作為測(cè)試集，剩下的9份作為訓(xùn)練集，接著利用KNR算法分別對(duì)每1份測(cè)試集的碳數(shù)分布組成進(jìn)行計(jì)算，并計(jì)算這些訓(xùn)練集樣本的平均標(biāo)準(zhǔn)偏差(RMSECV)。選定不同的k值(1～15)，依次進(jìn)行上述的計(jì)算，根據(jù)RMSECV的取值最小確定模型的最佳k值。超參數(shù)k的交叉驗(yàn)證計(jì)算的結(jié)果如圖1所示。由圖1可知，當(dāng)k=5時(shí)，RMSECV的取值最小，說明模型的最佳k值為5。

圖1 k值的10折交叉驗(yàn)證計(jì)算

3.3 待測(cè)樣本的預(yù)測(cè)分析

新取一個(gè)待測(cè)樣本，用標(biāo)準(zhǔn)方法測(cè)定其硫含量、氮含量、酸值以及11項(xiàng)烴類組成數(shù)據(jù)，將這14個(gè)輸入特征X進(jìn)行標(biāo)準(zhǔn)化預(yù)處理，然后代入上述的預(yù)測(cè)模型進(jìn)行碳數(shù)分布組成的計(jì)算。將14個(gè)輸入特征進(jìn)行主成分分析，選取前兩個(gè)主成分的得分(PC1、PC2)進(jìn)行作圖，樣本在特征空間中的分布如圖2所示，其中紅色的點(diǎn)為待測(cè)樣本，黑色的點(diǎn)為與待測(cè)樣本相似的6個(gè)庫(kù)中真實(shí)樣本，藍(lán)色的點(diǎn)表示由這6個(gè)近鄰樣本生成的5 000個(gè)虛擬樣本。由圖2可知，通過過采樣技術(shù)，可以將待測(cè)樣本周圍的空間有效地密集化，進(jìn)而滿足算法的要求，保證預(yù)測(cè)模型的準(zhǔn)確性。

圖2 樣本在特征空間中的分布

石油中的化合物類型通常用缺氫數(shù)Z加上雜原子來表示，分子中每增加1個(gè)雙鍵或者1個(gè)環(huán)，Z值就減少2，如苯并噻吩類化合物可由-10S表示。柴油的碳數(shù)分布組成數(shù)據(jù)中一般包括13種分子類型，分別為鏈烷烴、單環(huán)環(huán)烷烴、雙環(huán)環(huán)烷烴、三環(huán)環(huán)烷烴、烷基苯、茚滿四氫萘、茚類、苯并噻吩、萘類、苊類、苊烯類、二苯并噻吩和三環(huán)芳烴，對(duì)應(yīng)的Z值分別為+2，0，-2，-4，-6，-8，-10，-10S，-12，-14，-16，-16S，-18。待測(cè)樣本的飽和烴、單環(huán)芳烴、雙環(huán)芳烴和三環(huán)芳烴的碳數(shù)分布對(duì)比如圖3所示，其中折線為模型的預(yù)測(cè)值，散點(diǎn)為實(shí)測(cè)值。從圖3可以看出，飽和烴和雙環(huán)及三環(huán)芳烴的碳數(shù)分布的預(yù)測(cè)偏差都比較小，預(yù)測(cè)值和實(shí)測(cè)值都比較吻合，單環(huán)芳烴在低碳數(shù)處有一定的預(yù)測(cè)偏差，總的來說，本研究所建立模型的預(yù)測(cè)精度較高。圖4為整個(gè)碳數(shù)分布矩陣預(yù)測(cè)值和實(shí)測(cè)值的氣泡圖對(duì)比。從圖4可以看出，所有氣泡基本都能完全契合，只是在少數(shù)含量很低的高碳數(shù)組分處出現(xiàn)了一定的偏差。上述結(jié)果表明，本研究的模型預(yù)測(cè)精度高，能得到和標(biāo)準(zhǔn)分析方法基本一致的結(jié)果，具有一定的應(yīng)用價(jià)值。此外，在預(yù)測(cè)時(shí)發(fā)現(xiàn)，當(dāng)待測(cè)樣本處于界外，即在庫(kù)中找出的近鄰樣本相距都較遠(yuǎn)時(shí)，就會(huì)出現(xiàn)預(yù)測(cè)偏差增大的情況，在樣本的空間分布圖上也會(huì)顯示出虛擬樣本不能包圍覆蓋待測(cè)樣本，所以必須保證庫(kù)中有大量樣本，在后續(xù)的模型維護(hù)中，主要的工作就是增加各類型的柴油餾分樣本。

這種模型不需要訓(xùn)練，沒有參數(shù)估計(jì)，方便部署，計(jì)算速度快，準(zhǔn)確度高，可以一次性計(jì)算出多達(dá)312項(xiàng)的碳數(shù)分布信息，另一方面，模型的維護(hù)也比較容易，面對(duì)一個(gè)新的應(yīng)用環(huán)境時(shí)，不需要再進(jìn)行訓(xùn)練，直接在庫(kù)中增加樣本即可。同時(shí)，對(duì)于不同種類的柴油餾分，也不需要分別單獨(dú)建模，只要保證庫(kù)中有足夠的各類型樣本，再結(jié)合過采樣技術(shù)同步在待測(cè)樣本周圍生成虛擬樣本，就可以給出比較準(zhǔn)確的預(yù)測(cè)。

模型預(yù)測(cè)值： —鏈烷烴； —單環(huán)烷烴； —雙環(huán)烷烴； —三環(huán)烷烴。實(shí)測(cè)值： ▲—鏈烷烴；單環(huán)烷烴； ●—雙環(huán)烷烴； ★—三環(huán)烷烴

模型預(yù)測(cè)值： —烷基苯； —茚滿或四氫萘； —茚類； —苯并噻吩。實(shí)測(cè)值： ▲—烷基苯；茚滿或四氫萘； ●—茚類； ★—苯并噻吩

模型預(yù)測(cè)值： —萘類； —苊類； —苊烯類； —二苯并噻吩； —三環(huán)芳烴。

圖4 碳數(shù)分布的預(yù)測(cè)值和實(shí)驗(yàn)值氣泡圖

4 結(jié) 論

(1)結(jié)合KNR算法和過采樣技術(shù)提出了一種由物性數(shù)據(jù)和烴類組成數(shù)據(jù)快速預(yù)測(cè)柴油餾分中碳數(shù)分布組成的方法。

(2)利用上述算法，對(duì)直餾柴油進(jìn)行了建模研究，以柴油的硫含量、氮含量、酸值以及11項(xiàng)烴類組成(分別為鏈烷烴、單環(huán)環(huán)烷烴、雙環(huán)環(huán)烷烴、三環(huán)環(huán)烷烴、烷基苯、茚滿四氫萘、茚類、萘類、苊類、苊烯類和三環(huán)芳烴)信息作為模型的輸入特征進(jìn)行模型計(jì)算，結(jié)果表明該方法預(yù)測(cè)精度高，能一次性快

速地計(jì)算出直餾柴油中312項(xiàng)碳數(shù)分布組成信息，同時(shí)模型維護(hù)簡(jiǎn)單，通過增加庫(kù)中的樣本就可以擴(kuò)大模型的適用范圍，具有一定的實(shí)用價(jià)值。