何佑偉 賀質(zhì)越 湯勇 秦佳正 宋俊杰 汪勇
西南石油大學油氣藏地質(zhì)及開發(fā)工程國家重點實驗室
常規(guī)儲層天然氣產(chǎn)量已不能滿足市場需求,全球頁巖氣藏已成為非常規(guī)天然氣勘探開發(fā)的重要領(lǐng)域。中國頁巖氣資源量豐富,在國家產(chǎn)業(yè)政策的指導和支持下,該產(chǎn)業(yè)快速發(fā)展。截至2020年2月,長寧、威遠和昭通頁巖氣示范區(qū)塊已累計提交探明儲量10 610×108m3,累產(chǎn)頁巖氣超200×108m3[1]。加大頁巖氣開發(fā)和利用對保障能源安全,改善能源結(jié)構(gòu),減少環(huán)境污染,建設清潔低碳、安全高效的能源體系具有十分重要的戰(zhàn)略意義。
頁巖氣藏孔隙度和滲透率極低,單井一般無自然產(chǎn)能或自然產(chǎn)能低于工業(yè)氣流下限,需要采用水平井和水力壓裂改造技術(shù)進行開發(fā),形成天然裂縫和壓裂裂縫相互連通的復雜裂縫網(wǎng)絡,提高氣體在儲層中的滲流能力[2-4]。但壓裂后縫網(wǎng)關(guān)系復雜、裂縫動態(tài)變化、多井平臺中井間壓竄現(xiàn)象顯著、氣-水-壓裂液多相流動規(guī)律復雜,導致頁巖氣井產(chǎn)量難以預測,致使后續(xù)開發(fā)方案設計與調(diào)整缺乏科學依據(jù)。高效、準確地評價與預測頁巖氣井產(chǎn)量對于提高頁巖氣資源開發(fā)效果至關(guān)重要。
國內(nèi)外學者采用經(jīng)驗公式、解析方法及數(shù)值方法開展了大量頁巖氣產(chǎn)量預測方面的研究。其中,經(jīng)驗公式及解析模型難以考慮頁巖氣藏復雜滲流特征,不同模型的適用條件及適用階段都各有不同,導致預測結(jié)果與實際相差較大[5-6];基于數(shù)值模型的產(chǎn)量預測方法對實際儲層特征進行了簡化,包括對復雜動態(tài)縫網(wǎng)刻畫不夠精確、未考慮井組壓竄干擾特征等[7-10],且頁巖氣井組縫網(wǎng)數(shù)值模型計算量較大,歷史擬合難度大,產(chǎn)量預測效率較低,結(jié)果不確定性高,故現(xiàn)場推廣性一般。因此,需借助新方法開展頁巖氣井產(chǎn)量預測研究。
機器學習是一種多領(lǐng)域交叉學科,其理論和方法已被廣泛應用于解決工程應用和科學領(lǐng)域的復雜問題[11],包括在石油與天然氣領(lǐng)域[12-18]。劉巍等[19]根據(jù)實際油藏靜態(tài)資料和開發(fā)動態(tài)資料,使用機器學習方法實現(xiàn)油井日產(chǎn)油量預測;辛欣等[20]基于機器學習方法構(gòu)建水合物降壓開采傳熱—流動—力學數(shù)值模擬模型及可以替代數(shù)值模擬模型的機器學習模型,找到了累計產(chǎn)氣量最優(yōu)值與地層穩(wěn)定性的關(guān)系。在頁巖氣產(chǎn)能預測方面,Gong等[21]及Yu等[22]針對頁巖氣產(chǎn)量預測中的不確定性問題進行了研究;馬文禮等[23]提出了一種基于機器學習的頁巖氣產(chǎn)能非確定性預測方法;李菊花等[24]通過對儲層物性和壓裂施工參數(shù)分析,引入隨機森林算法對頁巖氣壓裂水平井產(chǎn)量進行預測,并指出測深、垂深、延伸壓力、脆性指數(shù)、密度測井值和總液量是多段壓裂井產(chǎn)量的主要影響因素;嚴子銘等[25]基于涪陵頁巖氣藏水平井的現(xiàn)場數(shù)據(jù),分別采用深度神經(jīng)網(wǎng)絡、支持向量回歸以及極限梯度爬升等3種機器學習方法,建立了從儲層和施工參數(shù)到采收率的預測模型,分析了各類模型的優(yōu)缺點,以及相關(guān)參數(shù)的重要性。目前,基于機器學習方法的頁巖氣井產(chǎn)量預測多以部分因素(地質(zhì)因素或壓裂因素等)為基礎(chǔ)進行研究,指標體系不完善,結(jié)果可靠性有待進一步驗證。
鑒于產(chǎn)量評價及預測需要全面考慮頁巖氣地質(zhì)、鉆井、壓裂、生產(chǎn)等多方面因素,并精細處理地質(zhì)及工程數(shù)據(jù),筆者利用機器學習方法進行頁巖氣井產(chǎn)量評價及預測研究。首先對初始數(shù)據(jù)進行缺失值分析,利用多重插補法對缺失值進行插補。之后運用皮爾遜相關(guān)系數(shù)法對各類數(shù)據(jù)進行相關(guān)性分析,利用分析結(jié)果對數(shù)據(jù)進行異常值處理。由于因素數(shù)量較多,使用主成分分析對其進行降維處理,基于最終降維的結(jié)果進行頁巖氣井產(chǎn)量的聚類分析,并劃分A區(qū)塊頁巖氣井產(chǎn)量等級,最后采用隨機森林方法對頁巖氣井產(chǎn)量進行預測。
加利福尼亞數(shù)學教授Breiman于2001年完善并推廣了隨機森林這一經(jīng)典機器學習模型[26],其所擁有的出色性能以及解決問題領(lǐng)域的寬泛性已經(jīng)得到了學術(shù)界的廣泛認可。隨機森林作為一個集成評估器,其基評估器是決策樹[27]。對于決策樹模型,其回歸、分類的能力有限,存在過擬合風險[28],數(shù)據(jù)微小波動可能導致結(jié)果出現(xiàn)較大偏差,因此使用集成算法(隨機森林)來解決上述問題。集成算法綜合考慮多評估器建模結(jié)果,以此獲取相較于單評估器更好的回歸或分類表現(xiàn)。隨機森林是由多個決策樹組成的集成評估器,其原理見圖1。
圖1 隨機森林原理示意圖Fig. 1 Schematic principle of random forest
首先進行數(shù)據(jù)處理,使用的數(shù)據(jù)類型全為連續(xù)型,數(shù)據(jù)質(zhì)量需要進行相關(guān)性分析。觀察原始數(shù)據(jù)發(fā)現(xiàn)缺失值較多,需要插補。插補過后需要進行異常值分析,處理異常值。此次所用數(shù)據(jù)的特征較多(表1),若將全部特征放入模型進行訓練,將大幅增加模型復雜程度及計算量,因此通過主成分分析將可能存在相關(guān)性的特征變?yōu)榫€性不相關(guān)的特征,來對數(shù)據(jù)進行降維以提高模型計算效率,轉(zhuǎn)換后的特征稱為主成分。
表1 A區(qū)塊頁巖氣井產(chǎn)量影響因素Table 1 Factors influencing the production rates of shale gas wells in A Block
對原始數(shù)據(jù)進行分析,結(jié)果表明缺失數(shù)據(jù)高達34.61%,因此不建議采用眾數(shù)與平均數(shù)替換方法插補缺失值。筆者采用多重插補法對缺失值進行插補:基于除缺失值外的變量建立線性模型,以此預測要填補的數(shù)據(jù)。對插補后的數(shù)據(jù)進行分析,未出現(xiàn)明顯異常值,因此多重插補結(jié)果可信度較高,但仍需進一步進行異常值檢測來檢查插補數(shù)據(jù)的質(zhì)量。
現(xiàn)場數(shù)據(jù)量大且復雜程度高,因此存在一定的誤差。明顯異常的數(shù)據(jù)(如數(shù)量級異常)易于分辨,而對于不明顯的異常,人工篩選效果較差。在異常值處理中可以選用的方法有很多,例如:箱型法、馬氏距離法、庫克距離法等。最簡單的是箱型法,其可判斷單個因素中的異常值,但對于多個因素相關(guān)性較強的情況而言,箱型法得出結(jié)論較片面。在進行異常值判斷時,需找到不同因素彼此之間的關(guān)聯(lián):對于獨立性較強的因素(如主壓裂液量)采用箱型法篩選異常值,對于與其他因素相關(guān)性較高的因素(如返排率)采用馬氏距離法來篩選異常值。
在異常值處理后,采用皮爾遜相關(guān)系數(shù)法對連續(xù)數(shù)據(jù)進行分析(圖2),結(jié)果表明大多數(shù)變量間的相關(guān)性是正常的(如壓裂段數(shù)、射孔簇數(shù)及改造體積等),部分相關(guān)性存在異常,例如:總有機碳含量、脆性指數(shù)與平均累產(chǎn)氣量為負相關(guān),表明該特征對應的數(shù)據(jù)不合理,因此需要進一步處理數(shù)據(jù),刪除相關(guān)性異常的因素。
圖2 皮爾遜相關(guān)系數(shù)法分析結(jié)果Fig. 2 Analysis result of Pearson correlation coefficient method
將與平均累產(chǎn)氣相關(guān)性較弱的因素剔除,在確保數(shù)據(jù)量充足的前提下提高計算效率,篩選后的與累產(chǎn)氣相關(guān)的備選因素剩余15個:壓裂段數(shù)、射孔簇數(shù)、改造體積、水平段長、壓裂段長、入地液量、入地砂量、滲透率、孔隙度、總含氣量、最小水平主應力、脆性礦物、黏土礦物、井間干擾影響比例、井間干擾恢復比例。分別確定上述15個因素對應的相關(guān)因素,結(jié)果見表2。
表2 各備選因素對應的相關(guān)因素Table 2 Correlation factors corresponding to different candidate factors
除最小水平主應力外,其余備選因素皆有與其相關(guān)的因素,因此選用箱型法篩選最小水平主應力異常值,馬氏距離法篩選其余因素異常值,篩選結(jié)果見表3。除最小水平主應力存在2個異常值,其余插補后的數(shù)據(jù)均未見異常值。并且最小水平主應力異常值數(shù)量很少,可刪除。
表3 異常值篩選結(jié)果Table 3 Outlier selecting result
在聚類分析時若使用全部因素進行分析,那么數(shù)據(jù)噪聲過大,若直接刪除與累產(chǎn)量相關(guān)性較差的因素,可能損失部分有用信息。針對異常值處理及相關(guān)性分析后得到的15個備用因素進行主成分分析,對數(shù)據(jù)進行降維,以此提取得到由備用因素組合形成的影響因子,最終選定其中5個特征值大于1的變量。計算得到影響因子與備選因素之間的相關(guān)性矩陣見表4。
表4 影響因子與備選因素對應系數(shù)矩陣Table 4 Corresponding coefficient matrix of influential factors and candidate factors
利用k均值聚類法對樣本進行分析(表5),優(yōu)等井、中等井、劣等井分別占比36.4%、37.8%、25.8%,其中優(yōu)等井、劣等井的聚類中心差值絕對值最大的為Y1影響因子,因此其對A區(qū)塊頁巖氣藏產(chǎn)量評價結(jié)果影響最大,Y1影響因子的主控因素為壓裂因素(壓裂段長、壓裂段數(shù)、射孔簇數(shù)、入地液量),在壓裂因素中占比最大的為壓裂段長。
表5 聚類分析結(jié)果Table 5 Cluster analysis result
基于Python語言,采用隨機森林算法對A區(qū)塊頁巖氣井進行產(chǎn)量預測。由于不同評價指標往往具有不同量綱,各指標之間可比性較差,因此首先將數(shù)據(jù)歸一化,以進行綜合對比評價。歸一化使預處理數(shù)據(jù)被限定在[0,1]之內(nèi),讓數(shù)量級較小的指標也具有“發(fā)言權(quán)”。隨后確定數(shù)據(jù)標簽及特征(標簽為平均累產(chǎn)氣,特征為其余14個因素),并隨機劃分訓練集和測試集,以避免偶然性。最后將隨機森林回歸器實例化,通過交叉驗證觀察模型穩(wěn)定性:將數(shù)據(jù)劃分為10份,依次使用其中1份作為測試集,其他作為訓練集,通過多次計算檢驗模型精確度及泛化性,交叉驗證得到均方誤差(MSE)為0.083 5。為進一步檢查模型的準確度,隨機生成測試集放入模型進行預測,4口井預測結(jié)果的均方誤差(MSE)為0.014 2,預測準確率為89.32%。
對隨機森林模型調(diào)參,首先調(diào)整最優(yōu)隨機狀態(tài)值,繪制學習曲線,選出最優(yōu)隨機狀態(tài)值為30。固定隨機狀態(tài)值,針對樹模型數(shù)量繪制學習曲線,尋找最優(yōu)樹模型數(shù)量。以此類推,遍歷各變量尋找最優(yōu)參數(shù),包括:樹模型數(shù)量、樹最大深度、分枝時考慮最大特征數(shù)、葉子節(jié)點最少樣本數(shù),中間節(jié)點分枝所需最小樣本數(shù)。結(jié)果表明在對中間節(jié)點分枝所需最小樣本數(shù)進行調(diào)參時,模型準確度不增反降,認為此時模型達到最優(yōu),此時調(diào)參后模型交叉驗證結(jié)果MSE為0.055 7,最優(yōu)參數(shù)見表6。
表6 調(diào)參結(jié)果Table 6 Parameter adjustment result
調(diào)參后模型相較于未調(diào)參模型MSE下降了0.027 8,模型準確率提高了33.29%,可見模型調(diào)參效果明顯。隨機選取的4口井預測結(jié)果準確率達98.05%(圖3),表明本文建立的基于隨機森林的頁巖氣井產(chǎn)量預測模型具有較高應用價值。
圖3 模型預測結(jié)果Fig. 3 Model prediction result
(1)提出了一種基于機器學習的頁巖氣井產(chǎn)量評價與預測方法。運用了較完整的數(shù)據(jù)處理方法,使用多重插補法對缺失數(shù)據(jù)進行插補,應用相關(guān)性分析得到平均累積產(chǎn)氣量以及其他因素之間的相關(guān)性,篩選出15個備選因素。
(2)針對異常值處理及相關(guān)性分析后得到的15個備選因素進行主成分分析,對數(shù)據(jù)進行降維,最終采用主成分分析法對特征進行降維,以此在保證數(shù)據(jù)不失真的前提下獲取更高的計算效率。
(3)采用聚類分析方法對A區(qū)塊頁巖氣井產(chǎn)量進行了評價,劃分出優(yōu)等井、中等井、劣等井3個等級,并對每口頁巖氣井進行等級劃分。結(jié)果表明壓裂因素是對A區(qū)塊頁巖氣井產(chǎn)量影響最大的因素,其中壓裂段長起主要作用,因此為提高產(chǎn)量未來在壓裂過程中可著重對壓裂段長進行優(yōu)化設計。
(4)應用隨機森林方法對A區(qū)塊頁巖氣井進行產(chǎn)量預測,逐步對模型進行調(diào)參,得到最優(yōu)模型,并運用最優(yōu)模型進行產(chǎn)能預測。結(jié)果顯示調(diào)參后的模型相較于未調(diào)參模型均方誤差MSE下降了0.027 8,準確率提高33.29%,可見模型調(diào)參效果明顯,預測準確率達90%以上,證明本文建立的預測模型具有較強實用性。