楊 威,薛 釗,蔡文慧,王 婷,田東海,梁昌晶
1.華北石油管理局有限公司蘇里格勘探開發(fā)分公司,內(nèi)蒙古鄂爾多斯150626
2.中國石油華北油田公司友信勘探開發(fā)服務(wù)有限公司,河北任丘062552
3.中國石油華北油田公司第二采油廠,河北霸州065700
4.中國石油華北油田公司二連分公司,內(nèi)蒙古錫林浩特026000
目前,水合物生成條件的預(yù)測方法主要有經(jīng)驗圖解法、關(guān)聯(lián)公式法和熱力學(xué)模型法[1-3],其中經(jīng)驗圖解法和關(guān)聯(lián)公式法在油氣田現(xiàn)場應(yīng)用較多,但預(yù)測精度及效果不好,熱力學(xué)模型法是基于室內(nèi)試驗的結(jié)果,通過引入狀態(tài)方程以提高預(yù)測結(jié)果精度,但涉及的參數(shù)較多,專業(yè)性較強(qiáng),不能很好地推廣使用。
隨著機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展,越來越多的學(xué)者采用人工智能算法對水合物的生成條件進(jìn)行預(yù)測[4]。卞小強(qiáng)等[5]通過引入CO2和H2S 的貢獻(xiàn)因子,采用SVM 對含酸性氣體的水合物生成條件進(jìn)行了預(yù)測,其平均相對偏差為5.7%;Mesbah 等[6]為了解決SVM 算法產(chǎn)生局部最優(yōu)問題,引入了最小二乘向量機(jī),可有效預(yù)測高酸天然氣水合物的生成;唐永紅等[7]將小波分析和神經(jīng)網(wǎng)絡(luò)相結(jié)合,通過求解權(quán)值向量、平滑因子、伸縮因子等變量,對I 型水合物的生成溫度進(jìn)行了預(yù)測;馬貴陽等[8]將遺傳算法與SVM 相結(jié)合,通過數(shù)值計算擬合了相平衡曲線,其精度與熱力學(xué)模型的精度接近。綜上所述,以上研究均基于大量的試驗數(shù)據(jù),本身容易陷入局部最優(yōu),出現(xiàn)超參數(shù)選取困難的現(xiàn)象,且未考慮抑制劑、水中鹽類的影響,對水合物結(jié)構(gòu)進(jìn)行智能算法分類也未見報道。在此,采用具有分類和回歸功能的隨機(jī)森林算法[9-10],以不同的氣體組分為輸入變量,對水合物結(jié)構(gòu)進(jìn)行分類;以氣體組分、壓力、抑制劑、鹽類等為輸入變量,對水合物的生成溫度進(jìn)行預(yù)測,以期為水合物的相關(guān)研究提供理論依據(jù)和實際參考。
影響水合物相平衡的因素可分為氣體組分和外部因素兩方面,外部因素包括抑制劑、鹽類、溫度、壓力等[11]。
(1) 氣體組分。首先,水合物結(jié)構(gòu)的形成主要與氣體組分相關(guān),CH4、C2H6等小分子氣體和非烴類氣體可形成I 型水合物;C3H8、i-C4H10和非烴類氣體可形成II 型水合物;H 型水合物的形成需要2,2-二甲基丁烷、甲基環(huán)己烷、甲基環(huán)戊烷等大分子配合CH4、N2等小分子[12],在現(xiàn)場未檢測到有關(guān)組分,在此不予討論。其次,氣體組分的差異化可改變相平衡曲線,在純CH4中分別加入C2H6和C3H8可以促進(jìn)水合物的生成,且C3H8與十六面體大空腔的結(jié)合作用更強(qiáng);加入H2S 和CO2也會使相平衡曲線右移,由于H2S 的溶解度更高,對水合物的促進(jìn)作用更強(qiáng)。
(2) 水合物抑制劑。常用的水合物抑制劑有甲醇、乙醇、乙二醇、二甘醇、三甘醇[13],不同抑制劑的抑制效果不同。隨著抑制劑摩爾分?jǐn)?shù)的增加,甲醇的抑制效果基本不變,乙醇和二甘醇的抑制效果變小,乙二醇的抑制效果變大,三甘醇的抑制效果先變小后變大,主要與氣- 水兩相體系中非電荷基團(tuán)的數(shù)量和性能有關(guān)。
(3) 水中鹽類。對于氣田采出水,水中鹽類的成分和含量對水合物相平衡影響較大[14]。由于水中溶解的離子會形成強(qiáng)弱不同的電場,而水合物形成籠型結(jié)構(gòu)需要額外的能量來破壞這種電場,根據(jù)分子間氫鍵的破壞程度,Cl-對水合物的抑制作用比S要強(qiáng)[15]。
(4) 溫度、壓力。高壓、低溫環(huán)境下容易生成水合物,這是水合物生成的最重要熱力學(xué)因素[16]。低壓下相平衡曲線較敏感,高壓下敏感程度降低;低溫下相平衡曲線不敏感,高溫下敏感程度上升很快。
分類問題方面,以不同的氣體組分為輸入變量,其中C1+C2的摩爾分?jǐn)?shù)為第一變量,C3+C4+N2的摩爾分?jǐn)?shù)為第二變量,C5+摩爾分?jǐn)?shù)為第三變量,CO2摩爾分?jǐn)?shù)為第四變量,H2S 摩爾分?jǐn)?shù)為第五變量,以水合物的結(jié)構(gòu)類型為輸出值,對結(jié)構(gòu)類型進(jìn)行數(shù)字化標(biāo)簽轉(zhuǎn)化,I 型水合物定義為1,II 型水合物定義為2?;貧w問題方面,以氣體組分、壓力、抑制劑含量、鹽類含量等為輸入變量,其中氣體組分變量輸入與回歸模型一致,抑制劑中以甲醇和乙二醇應(yīng)用最為廣泛,且一般不同時使用,以甲醇+乙二醇摩爾分?jǐn)?shù)為第六變量,對水合物形成影響最大的孔隙水中主要含有NaCl 和MgCl2,以NaCl+MgCl2的摩爾分?jǐn)?shù)為第七變量,以井口壓力為第八變量,以Du-Guo 公式計算的水合物形成溫度為輸出變量。
采用華北油田2018—2019 年氣井的水合物數(shù)據(jù),包括氣質(zhì)組分、水質(zhì)組分、抑制劑注入量、壓力、溫度等,這些數(shù)據(jù)充分考慮了不同影響因素對水合物生成的貢獻(xiàn)程度,按照現(xiàn)場工況,CH4摩爾分?jǐn)?shù)為80%~96%,C2H6摩爾分?jǐn)?shù)為0%~5%,C3H8摩爾分?jǐn)?shù)為0%~5%,H2S 摩爾分?jǐn)?shù)為0%~5%,CO2摩爾分?jǐn)?shù)為0%~10%,N2摩爾分?jǐn)?shù)為0%~6%,抑制劑在水相中的摩爾分?jǐn)?shù)為0% ~30% ,NaCl+MgCl2在水相中的摩爾分?jǐn)?shù)為3%~8%,井口經(jīng)節(jié)流后壓力不超過5 MPa。取100 組數(shù)據(jù),按照4∶1 的比例,取其中80 組作為訓(xùn)練集用于建立模型,取其中20 組作為測試集用于評價模型,部分?jǐn)?shù)據(jù)見表1。
表1 水合物生成條件部分?jǐn)?shù)據(jù)
隨機(jī)森林算法RF(Random Forest) 由Leo Breiman 在2001 年提出,根據(jù)bootstrap 重抽樣方法,從原始數(shù)據(jù)樣本中隨機(jī)抽取M 個觀測值,同時再隨機(jī)抽取k 個自變量作為分類樹的節(jié)點,產(chǎn)生成百上千個分類樹,是決策樹的隨機(jī)集成[17]。對于分類問題,可根據(jù)不同分類樹的投票結(jié)果,按照特征判定標(biāo)準(zhǔn)決定分類結(jié)果,模型為RFC(Random Forest Classification);對于回歸問題,可根據(jù)預(yù)測均值,按照待回歸屬性決定回歸結(jié)果,模型為RFR(Random Forest Regression)。隨機(jī)森林算法中最為重要的兩個超參數(shù)為樹的數(shù)量(Nt) 和候選特征子集的數(shù)量(Mt)[18],同時隨機(jī)森林算法本身對節(jié)點最小樣本數(shù)(Nodesize) 不敏感,在此不予考慮。采用運(yùn)算速度最快的網(wǎng)格搜索法GS(Grid Search),通過對不同固定范圍內(nèi)的超參數(shù)進(jìn)行尋優(yōu),得到最優(yōu)解。
為了防止模型出現(xiàn)高方差或高偏差問題,需要對模型的適應(yīng)性進(jìn)行評估,在此采用K 折交叉驗證的方式,K 取5。采用二維混淆矩陣對分類模型的預(yù)測結(jié)果進(jìn)行評價,評價指標(biāo)為召回率Recall、精確率Precision 以及召回率和精確率的調(diào)和均值Fβ,為了加大Recall 的相對重要程度,β 值取2,公式如下:
采用相對誤差百分比、平均絕對百分比誤差MAPE、均方根誤差RMSE 對回歸模型的預(yù)測結(jié)果進(jìn)行評價,公式如下:
式中:n 為測試集樣本的個數(shù),n=16;y 為實際值;y'為預(yù)測值,即經(jīng)隨機(jī)森林算法計算的預(yù)測值。
(1) 超參數(shù)Mt預(yù)選。采用GS 對超參數(shù)Mtry進(jìn)行預(yù)選,采用殘差均方值(mean of squared residuals) 和擬合優(yōu)度(var explained) 作為判定依據(jù),見表2。當(dāng)Mt=3 時,殘差均方值最小,擬合優(yōu)度最大,模型在計算精度、運(yùn)算時間、擬合程度上最優(yōu)。
表2 不同Mt 的殘差均方值和擬合優(yōu)度
當(dāng)Mt=3 時,對不同決策樹的數(shù)量Nt的殘差均方值變化進(jìn)行驗算,見圖1。當(dāng)Nt>100 時,模型誤差較小,但Nt在100~200 之間時,仍有小幅波動。Nt數(shù)量過小,訓(xùn)練不穩(wěn)定,容易過擬合,過大則影響運(yùn)算速度,綜合各方因素,Nt取300。
圖1 Nt 數(shù)量與殘差均方值的關(guān)系
(2) 模型的適應(yīng)性對比。為了進(jìn)一步評價模型的適應(yīng)性,對比不同的超參數(shù)尋優(yōu)方法和分類模型,選取經(jīng)網(wǎng)格搜索優(yōu)化后的支持向量機(jī)分類模型(GS-SVC)、經(jīng)遺傳算法優(yōu)化后的支持向量機(jī)分類模型(GA-SVC)、神經(jīng)網(wǎng)絡(luò)分類模型(BP) 與經(jīng)網(wǎng)格搜索優(yōu)化后的隨機(jī)森林分類模型(GS-RFC)進(jìn)行對比,見表3。
表3 不同超參數(shù)尋優(yōu)方法和分類模型的交叉驗證結(jié)果
GA-SVC 和BP 算法的訓(xùn)練集和測試集的準(zhǔn)確率均較低,訓(xùn)練集的準(zhǔn)確率不超過88%,測試集的準(zhǔn)確率不超過83%,這是由于SVC 求解的是二次規(guī)劃問題,計算量較大,雖然經(jīng)過GA 算法進(jìn)行了超參數(shù)尋優(yōu),但適應(yīng)性較差;BP 算法由于不同層數(shù)神經(jīng)元的連接,容易造成參數(shù)膨脹,出現(xiàn)過擬合,且網(wǎng)絡(luò)深度太淺,數(shù)據(jù)區(qū)分度不高,因此適應(yīng)性最差。GS-SVC 算法的訓(xùn)練集準(zhǔn)確率為92.8%,測試集準(zhǔn)確率為87.6%,較GA-SVC 有所提高,證明GS 比GA 的尋優(yōu)方式更好,模型適應(yīng)性有所提高。GS-RFC 算法訓(xùn)練集和測試集的準(zhǔn)確率均超過了92%,對于不同水合物結(jié)構(gòu)類型,雖然不同氣體組分形成的水合物類型具有明顯的指向性,但具體輕微的含量差別對于水合物結(jié)構(gòu)的內(nèi)在影響不易區(qū)分,不同組分的區(qū)分度不大,隨機(jī)森林算法可以處理離散型或連續(xù)性數(shù)據(jù),也可以處理異常數(shù)據(jù)的缺失,因此模型的適應(yīng)型最佳。
(3) 預(yù)測結(jié)果對比。不同分類模型的預(yù)測結(jié)果對比見表4。
表4 不同分類模型的預(yù)測結(jié)果
BP 算法的召回率、精確率和Fβ值最小,共出現(xiàn)了4 個分類錯誤,BP 模型需要具有獨立的分類假設(shè),因此分類效果不佳;GA-SVC 算法出現(xiàn)了3個分類錯誤,數(shù)據(jù)集的數(shù)據(jù)具有離散非線性特點,對于除二元分類問題外,表現(xiàn)效果不佳;GS-RFC算法的召回率、精確率和Fβ值分別為0.94、0.91和0.915,共出現(xiàn)了1 個分類錯誤,在4 種算法模型中的準(zhǔn)確率最高,分類效果最好。
水合物生成溫度預(yù)測模型與水合物結(jié)構(gòu)類型預(yù)測模型相比,輸入變量增加了壓力、抑制劑和鹽類等參數(shù)。超參數(shù)尋優(yōu)過程與分類模型相同,其中Mt=3,Nt=300。選取經(jīng)網(wǎng)格搜索優(yōu)化后的支持向量機(jī)回歸模型(GS-SVR) 和基于徑向基核函數(shù)的支持向量機(jī)模型(RBF-SVR) 與經(jīng)網(wǎng)格搜索優(yōu)化后的隨機(jī)森林回歸模型(GS-RFR) 進(jìn)行對比,預(yù)測結(jié)果見圖2、圖3、表5。其中GS-SVR 和RBF-SVR 的平均絕對誤差和均方根誤差較大,預(yù)測模型效果較差,而GS-RFR 預(yù)測模型的誤差最小,平均絕對誤差為1.91%,均方根誤差為0.35。主要是由于SVR 模型雖然是將非線性的數(shù)據(jù)映射到高維空間后再進(jìn)行分類處理,但仍然屬于淺層模型,對于區(qū)分度不大、維度較高的數(shù)據(jù)集預(yù)測效果不好,而隨機(jī)森林算法抗過擬合能力較強(qiáng),對于預(yù)測不平衡的數(shù)據(jù)集誤差很小,屬于無偏估計數(shù)據(jù)驅(qū)動的深層模型,更適合水合物生成條件的預(yù)測。從相關(guān)系數(shù)R 來看,GS-RFR預(yù)測模型的相關(guān)系數(shù)最大為0.987,證明預(yù)測結(jié)果與實際值更接近。
圖2 水合物生成溫度預(yù)測結(jié)果
圖3 水合物生成溫度預(yù)測結(jié)果相對誤差
表5 預(yù)測結(jié)果評價
(1) 通過交叉驗證,GS-RFC 算法訓(xùn)練集和測試集的準(zhǔn)確率均超過了92%,模型的適應(yīng)性最佳,召回率、精確率和Fβ值分別為0.94、0.91 和0.915,共出現(xiàn)了1 個分類錯誤,分類效果最好。
(2) 對于水合物形成溫度的預(yù)測,GS-RFR預(yù)測模型的誤差最小,平均絕對誤差為1.91%,均方根誤差為0.35,相關(guān)系數(shù)為0.987,模型的準(zhǔn)確性和保守性最好,屬于無偏估計數(shù)據(jù)驅(qū)動的深層模型,證明機(jī)器學(xué)習(xí)算法可為水合物的相關(guān)研究提供理論依據(jù)和實際參考。
(3) 研究表明,可通過預(yù)測結(jié)果判斷是否采取添加抑制劑或電加熱等措施。