基于網(wǎng)格搜索-隨機(jī)森林算法的水合物結(jié)構(gòu)與生成條件預(yù)測

2021-05-06 03:14:50蔡文慧田東海梁昌晶

石油工程建設(shè) 2021年2期

關(guān)鍵詞：水合物摩爾組分

楊威，薛釗，蔡文慧，王婷，田東海，梁昌晶

1.華北石油管理局有限公司蘇里格勘探開發(fā)分公司，內(nèi)蒙古鄂爾多斯150626

2.中國石油華北油田公司友信勘探開發(fā)服務(wù)有限公司，河北任丘062552

3.中國石油華北油田公司第二采油廠，河北霸州065700

4.中國石油華北油田公司二連分公司，內(nèi)蒙古錫林浩特026000

目前，水合物生成條件的預(yù)測方法主要有經(jīng)驗圖解法、關(guān)聯(lián)公式法和熱力學(xué)模型法[1-3]，其中經(jīng)驗圖解法和關(guān)聯(lián)公式法在油氣田現(xiàn)場應(yīng)用較多，但預(yù)測精度及效果不好，熱力學(xué)模型法是基于室內(nèi)試驗的結(jié)果，通過引入狀態(tài)方程以提高預(yù)測結(jié)果精度，但涉及的參數(shù)較多，專業(yè)性較強(qiáng)，不能很好地推廣使用。

隨著機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展，越來越多的學(xué)者采用人工智能算法對水合物的生成條件進(jìn)行預(yù)測[4]。卞小強(qiáng)等[5]通過引入CO2和H2S 的貢獻(xiàn)因子，采用SVM 對含酸性氣體的水合物生成條件進(jìn)行了預(yù)測，其平均相對偏差為5.7%；Mesbah 等[6]為了解決SVM 算法產(chǎn)生局部最優(yōu)問題，引入了最小二乘向量機(jī)，可有效預(yù)測高酸天然氣水合物的生成；唐永紅等[7]將小波分析和神經(jīng)網(wǎng)絡(luò)相結(jié)合，通過求解權(quán)值向量、平滑因子、伸縮因子等變量，對I 型水合物的生成溫度進(jìn)行了預(yù)測；馬貴陽等[8]將遺傳算法與SVM 相結(jié)合，通過數(shù)值計算擬合了相平衡曲線，其精度與熱力學(xué)模型的精度接近。綜上所述，以上研究均基于大量的試驗數(shù)據(jù)，本身容易陷入局部最優(yōu)，出現(xiàn)超參數(shù)選取困難的現(xiàn)象，且未考慮抑制劑、水中鹽類的影響，對水合物結(jié)構(gòu)進(jìn)行智能算法分類也未見報道。在此，采用具有分類和回歸功能的隨機(jī)森林算法[9-10]，以不同的氣體組分為輸入變量，對水合物結(jié)構(gòu)進(jìn)行分類；以氣體組分、壓力、抑制劑、鹽類等為輸入變量，對水合物的生成溫度進(jìn)行預(yù)測，以期為水合物的相關(guān)研究提供理論依據(jù)和實際參考。

1 水合物相平衡影響因素

影響水合物相平衡的因素可分為氣體組分和外部因素兩方面，外部因素包括抑制劑、鹽類、溫度、壓力等[11]。

（1）氣體組分。首先，水合物結(jié)構(gòu)的形成主要與氣體組分相關(guān)，CH4、C2H6等小分子氣體和非烴類氣體可形成I 型水合物；C3H8、i-C4H10和非烴類氣體可形成II 型水合物；H 型水合物的形成需要2，2-二甲基丁烷、甲基環(huán)己烷、甲基環(huán)戊烷等大分子配合CH4、N2等小分子[12]，在現(xiàn)場未檢測到有關(guān)組分，在此不予討論。其次，氣體組分的差異化可改變相平衡曲線，在純CH4中分別加入C2H6和C3H8可以促進(jìn)水合物的生成，且C3H8與十六面體大空腔的結(jié)合作用更強(qiáng)；加入H2S 和CO2也會使相平衡曲線右移，由于H2S 的溶解度更高，對水合物的促進(jìn)作用更強(qiáng)。

（2）水合物抑制劑。常用的水合物抑制劑有甲醇、乙醇、乙二醇、二甘醇、三甘醇[13]，不同抑制劑的抑制效果不同。隨著抑制劑摩爾分?jǐn)?shù)的增加，甲醇的抑制效果基本不變，乙醇和二甘醇的抑制效果變小，乙二醇的抑制效果變大，三甘醇的抑制效果先變小后變大，主要與氣- 水兩相體系中非電荷基團(tuán)的數(shù)量和性能有關(guān)。

（3）水中鹽類。對于氣田采出水，水中鹽類的成分和含量對水合物相平衡影響較大[14]。由于水中溶解的離子會形成強(qiáng)弱不同的電場，而水合物形成籠型結(jié)構(gòu)需要額外的能量來破壞這種電場，根據(jù)分子間氫鍵的破壞程度，Cl-對水合物的抑制作用比S要強(qiáng)[15]。

（4）溫度、壓力。高壓、低溫環(huán)境下容易生成水合物，這是水合物生成的最重要熱力學(xué)因素[16]。低壓下相平衡曲線較敏感，高壓下敏感程度降低；低溫下相平衡曲線不敏感，高溫下敏感程度上升很快。

2 數(shù)據(jù)來源及研究方法

2.1 數(shù)據(jù)來源

分類問題方面，以不同的氣體組分為輸入變量，其中C1+C2的摩爾分?jǐn)?shù)為第一變量，C3+C4+N2的摩爾分?jǐn)?shù)為第二變量，C5+摩爾分?jǐn)?shù)為第三變量，CO2摩爾分?jǐn)?shù)為第四變量，H2S 摩爾分?jǐn)?shù)為第五變量，以水合物的結(jié)構(gòu)類型為輸出值，對結(jié)構(gòu)類型進(jìn)行數(shù)字化標(biāo)簽轉(zhuǎn)化，I 型水合物定義為1，II 型水合物定義為2?；貧w問題方面，以氣體組分、壓力、抑制劑含量、鹽類含量等為輸入變量，其中氣體組分變量輸入與回歸模型一致，抑制劑中以甲醇和乙二醇應(yīng)用最為廣泛，且一般不同時使用，以甲醇+乙二醇摩爾分?jǐn)?shù)為第六變量，對水合物形成影響最大的孔隙水中主要含有NaCl 和MgCl2，以NaCl+MgCl2的摩爾分?jǐn)?shù)為第七變量，以井口壓力為第八變量，以Du-Guo 公式計算的水合物形成溫度為輸出變量。

采用華北油田2018—2019 年氣井的水合物數(shù)據(jù)，包括氣質(zhì)組分、水質(zhì)組分、抑制劑注入量、壓力、溫度等，這些數(shù)據(jù)充分考慮了不同影響因素對水合物生成的貢獻(xiàn)程度，按照現(xiàn)場工況，CH4摩爾分?jǐn)?shù)為80%～96%，C2H6摩爾分?jǐn)?shù)為0%～5%，C3H8摩爾分?jǐn)?shù)為0%～5%，H2S 摩爾分?jǐn)?shù)為0%～5%，CO2摩爾分?jǐn)?shù)為0%～10%，N2摩爾分?jǐn)?shù)為0%～6%，抑制劑在水相中的摩爾分?jǐn)?shù)為0% ～30% ，NaCl+MgCl2在水相中的摩爾分?jǐn)?shù)為3%～8%，井口經(jīng)節(jié)流后壓力不超過5 MPa。取100 組數(shù)據(jù)，按照4∶1 的比例，取其中80 組作為訓(xùn)練集用于建立模型，取其中20 組作為測試集用于評價模型，部分?jǐn)?shù)據(jù)見表1。

表1 水合物生成條件部分?jǐn)?shù)據(jù)

2.2 隨機(jī)森林算法

隨機(jī)森林算法RF（Random Forest）由Leo Breiman 在2001 年提出，根據(jù)bootstrap 重抽樣方法，從原始數(shù)據(jù)樣本中隨機(jī)抽取M 個觀測值，同時再隨機(jī)抽取k 個自變量作為分類樹的節(jié)點，產(chǎn)生成百上千個分類樹，是決策樹的隨機(jī)集成[17]。對于分類問題，可根據(jù)不同分類樹的投票結(jié)果，按照特征判定標(biāo)準(zhǔn)決定分類結(jié)果，模型為RFC（Random Forest Classification）；對于回歸問題，可根據(jù)預(yù)測均值，按照待回歸屬性決定回歸結(jié)果，模型為RFR（Random Forest Regression）。隨機(jī)森林算法中最為重要的兩個超參數(shù)為樹的數(shù)量（Nt）和候選特征子集的數(shù)量（Mt）[18]，同時隨機(jī)森林算法本身對節(jié)點最小樣本數(shù)（Nodesize）不敏感，在此不予考慮。采用運(yùn)算速度最快的網(wǎng)格搜索法GS（Grid Search），通過對不同固定范圍內(nèi)的超參數(shù)進(jìn)行尋優(yōu)，得到最優(yōu)解。

2.3 評價指標(biāo)

為了防止模型出現(xiàn)高方差或高偏差問題，需要對模型的適應(yīng)性進(jìn)行評估，在此采用K 折交叉驗證的方式，K 取5。采用二維混淆矩陣對分類模型的預(yù)測結(jié)果進(jìn)行評價，評價指標(biāo)為召回率Recall、精確率Precision 以及召回率和精確率的調(diào)和均值Fβ，為了加大Recall 的相對重要程度，β 值取2，公式如下：

采用相對誤差百分比、平均絕對百分比誤差MAPE、均方根誤差RMSE 對回歸模型的預(yù)測結(jié)果進(jìn)行評價，公式如下：

式中：n 為測試集樣本的個數(shù)，n=16；y 為實際值；y'為預(yù)測值，即經(jīng)隨機(jī)森林算法計算的預(yù)測值。

3 結(jié)果與討論

3.1 水合物結(jié)構(gòu)類型預(yù)測

（1）超參數(shù)Mt預(yù)選。采用GS 對超參數(shù)Mtry進(jìn)行預(yù)選，采用殘差均方值（mean of squared residuals）和擬合優(yōu)度（var explained）作為判定依據(jù)，見表2。當(dāng)Mt=3 時，殘差均方值最小，擬合優(yōu)度最大，模型在計算精度、運(yùn)算時間、擬合程度上最優(yōu)。

表2 不同Mt 的殘差均方值和擬合優(yōu)度

當(dāng)Mt=3 時，對不同決策樹的數(shù)量Nt的殘差均方值變化進(jìn)行驗算，見圖1。當(dāng)Nt＞100 時，模型誤差較小，但Nt在100～200 之間時，仍有小幅波動。Nt數(shù)量過小，訓(xùn)練不穩(wěn)定，容易過擬合，過大則影響運(yùn)算速度，綜合各方因素，Nt取300。

圖1 Nt 數(shù)量與殘差均方值的關(guān)系

（2）模型的適應(yīng)性對比。為了進(jìn)一步評價模型的適應(yīng)性，對比不同的超參數(shù)尋優(yōu)方法和分類模型，選取經(jīng)網(wǎng)格搜索優(yōu)化后的支持向量機(jī)分類模型（GS-SVC）、經(jīng)遺傳算法優(yōu)化后的支持向量機(jī)分類模型（GA-SVC）、神經(jīng)網(wǎng)絡(luò)分類模型（BP）與經(jīng)網(wǎng)格搜索優(yōu)化后的隨機(jī)森林分類模型（GS-RFC）進(jìn)行對比，見表3。

表3 不同超參數(shù)尋優(yōu)方法和分類模型的交叉驗證結(jié)果

GA-SVC 和BP 算法的訓(xùn)練集和測試集的準(zhǔn)確率均較低，訓(xùn)練集的準(zhǔn)確率不超過88%，測試集的準(zhǔn)確率不超過83%，這是由于SVC 求解的是二次規(guī)劃問題，計算量較大，雖然經(jīng)過GA 算法進(jìn)行了超參數(shù)尋優(yōu)，但適應(yīng)性較差；BP 算法由于不同層數(shù)神經(jīng)元的連接，容易造成參數(shù)膨脹，出現(xiàn)過擬合，且網(wǎng)絡(luò)深度太淺，數(shù)據(jù)區(qū)分度不高，因此適應(yīng)性最差。GS-SVC 算法的訓(xùn)練集準(zhǔn)確率為92.8%，測試集準(zhǔn)確率為87.6%，較GA-SVC 有所提高，證明GS 比GA 的尋優(yōu)方式更好，模型適應(yīng)性有所提高。GS-RFC 算法訓(xùn)練集和測試集的準(zhǔn)確率均超過了92%，對于不同水合物結(jié)構(gòu)類型，雖然不同氣體組分形成的水合物類型具有明顯的指向性，但具體輕微的含量差別對于水合物結(jié)構(gòu)的內(nèi)在影響不易區(qū)分，不同組分的區(qū)分度不大，隨機(jī)森林算法可以處理離散型或連續(xù)性數(shù)據(jù)，也可以處理異常數(shù)據(jù)的缺失，因此模型的適應(yīng)型最佳。

（3）預(yù)測結(jié)果對比。不同分類模型的預(yù)測結(jié)果對比見表4。

表4 不同分類模型的預(yù)測結(jié)果

BP 算法的召回率、精確率和Fβ值最小，共出現(xiàn)了4 個分類錯誤，BP 模型需要具有獨立的分類假設(shè)，因此分類效果不佳；GA-SVC 算法出現(xiàn)了3個分類錯誤，數(shù)據(jù)集的數(shù)據(jù)具有離散非線性特點，對于除二元分類問題外，表現(xiàn)效果不佳；GS-RFC算法的召回率、精確率和Fβ值分別為0.94、0.91和0.915，共出現(xiàn)了1 個分類錯誤，在4 種算法模型中的準(zhǔn)確率最高，分類效果最好。

3.2 水合物生成溫度預(yù)測

水合物生成溫度預(yù)測模型與水合物結(jié)構(gòu)類型預(yù)測模型相比，輸入變量增加了壓力、抑制劑和鹽類等參數(shù)。超參數(shù)尋優(yōu)過程與分類模型相同，其中Mt=3，Nt=300。選取經(jīng)網(wǎng)格搜索優(yōu)化后的支持向量機(jī)回歸模型（GS-SVR）和基于徑向基核函數(shù)的支持向量機(jī)模型（RBF-SVR）與經(jīng)網(wǎng)格搜索優(yōu)化后的隨機(jī)森林回歸模型（GS-RFR）進(jìn)行對比，預(yù)測結(jié)果見圖2、圖3、表5。其中GS-SVR 和RBF-SVR 的平均絕對誤差和均方根誤差較大，預(yù)測模型效果較差，而GS-RFR 預(yù)測模型的誤差最小，平均絕對誤差為1.91%，均方根誤差為0.35。主要是由于SVR 模型雖然是將非線性的數(shù)據(jù)映射到高維空間后再進(jìn)行分類處理，但仍然屬于淺層模型，對于區(qū)分度不大、維度較高的數(shù)據(jù)集預(yù)測效果不好，而隨機(jī)森林算法抗過擬合能力較強(qiáng)，對于預(yù)測不平衡的數(shù)據(jù)集誤差很小，屬于無偏估計數(shù)據(jù)驅(qū)動的深層模型，更適合水合物生成條件的預(yù)測。從相關(guān)系數(shù)R 來看，GS-RFR預(yù)測模型的相關(guān)系數(shù)最大為0.987，證明預(yù)測結(jié)果與實際值更接近。

圖2 水合物生成溫度預(yù)測結(jié)果

圖3 水合物生成溫度預(yù)測結(jié)果相對誤差

表5 預(yù)測結(jié)果評價

4 結(jié)論

（1）通過交叉驗證，GS-RFC 算法訓(xùn)練集和測試集的準(zhǔn)確率均超過了92%，模型的適應(yīng)性最佳，召回率、精確率和Fβ值分別為0.94、0.91 和0.915，共出現(xiàn)了1 個分類錯誤，分類效果最好。

（2）對于水合物形成溫度的預(yù)測，GS-RFR預(yù)測模型的誤差最小，平均絕對誤差為1.91%，均方根誤差為0.35，相關(guān)系數(shù)為0.987，模型的準(zhǔn)確性和保守性最好，屬于無偏估計數(shù)據(jù)驅(qū)動的深層模型，證明機(jī)器學(xué)習(xí)算法可為水合物的相關(guān)研究提供理論依據(jù)和實際參考。

（3）研究表明，可通過預(yù)測結(jié)果判斷是否采取添加抑制劑或電加熱等措施。