張 慶,何 封,何佑偉
(1.中國石油集團川慶鉆探工程有限公司頁巖氣勘探開發(fā)項目經理部,四川成都 610051;2.西南石油大學油氣藏地質及開發(fā)工程國家重點實驗室,四川成都 610500)
中國頁巖氣技術可采量位居全球頁巖氣技術可采資源量前列,頁巖氣在中國能源體系中具有重要的地位。特別是在四川威遠、長寧頁巖氣示范區(qū)塊,累產頁巖氣量已超100×108m3[1-2]?!疤贾泻汀⑻歼_峰”背景下,繼續(xù)加大頁巖氣資源的勘探開發(fā)力度對保障國家能源安全、改善能源結構、助力“雙碳目標”實現均具有十分重要的現實意義。
頁巖氣藏滲透率和孔隙度極低,通常采用“井工廠”模式鉆井和壓裂,形成復雜裂縫網絡[3],為頁巖氣提供有效流動通道。由于井距較?。ㄒ话銥?00~500 m)且部分井還會進行重復壓裂,導致井間干擾較嚴重,甚至壓竄[4],并且井間距伴隨頁巖氣開采規(guī)模的增大而不斷減小,導致井間干擾發(fā)生的概率及影響程度大幅增加[5]。壓竄后,井間部分裂縫連通,導致子井壓裂液進入母井,母井產氣量降低,產水量上升,嚴重影響氣井產能發(fā)揮。井間干擾逐漸成為影響頁巖氣井產量的重要因素之一,開展頁巖氣井間干擾評價與預測對提高頁巖氣井產量十分重要。
國內外學者采用解析方法或數值模擬手段等開展了頁巖氣井間干擾評價及主控因素研究[6-7],提出頁巖氣井間干擾診斷的試井分析、產量遞減分析、灰色關聯分析和數值模擬等方法[8-12]。通過地質工程一體化研究,提出合理井距并優(yōu)化壓裂參數[13-14],提出防壓竄建議。HE 等[15]分析了頁巖氣藏井間壓竄干擾主控因素及干擾模式,并提出了減緩頁巖氣井間壓竄干擾的方法。位云生等[16]以長寧區(qū)塊為例,建立了4 種不同的井網井距設計方法并論證了井網井距優(yōu)化流程。李維等[17]提出了精細控壓作業(yè)方案,為解決頁巖氣井井間干擾復雜處理提供了方法。
對于頁巖氣井間干擾程度評價,特別是定量預測方面的研究較少[18]。頁巖氣井間干擾程度評價主要有解析及半解析方法、灰色關聯法、數值模擬法以及機器學習方法4 種研究方向。以解析及半解析方法中常用的試井分析及產量遞減分析方法為例,因其使用簡單而被現場廣泛使用;但是解析及半解析方法的假設條件與實際頁巖氣井差距較大,難以準確預測頁巖氣井井間干擾程度?;疑P聯法所建立的灰色關聯模型只能定性分析與井間干擾程度相關性大的因素,不能定量評價井間干擾程度,難以滿足實際現場對頁巖氣井井間干擾程度量化評價的需求??紤]復雜裂縫以及多相流動的數值模擬方法建模復雜且計算量大,模型歷史擬合困難,且應用局限性大,所使用建立模型的過程及最終建立的模型都只能應用到所使用的目標油氣藏中,不利于推廣。使用機器學習方法建立頁巖氣井井間干擾程度評價及預測模型時,不僅可以充分挖掘頁巖氣藏地質、鉆井、壓裂、生產動態(tài)數據,考慮更全面的因素以增加模型精確度,而且通過學習頁巖氣井實際數據進行評價與預測時,評價結果更符合頁巖氣井實際情況。同時建模工作量較小,計算效率高,使用的建模流程可以擴展于其他頁巖氣藏井間壓竄評價及預測中,易于推廣應用。最終建立的模型不僅可以對頁巖氣井井間干擾做定性分析,還可以進行定量計算。當后續(xù)新數據隨著生產的進行產生時,可加入模型以提升模型的后期表現。
機器學習是一個交叉學科,憑借數據挖掘程度高、計算精度高、應用簡單等特點廣泛應用于石油與天然氣領域。嚴子銘等[19]應用不同機器學習方法預測頁巖氣采收率,對比不同的機器學習方法優(yōu)缺點以及相關參數的重要性;錢辰等[20]提出了一種基于機器學習的頁巖氣“甜點”評價方法;李菊花等[21]使用隨機森林算法提出了頁巖氣壓裂水平井井產量預測模型,分析了影響多段壓裂井產量的主要因素;孫藝涵[22]使用機器學習方法建立了頁巖有機質含量預測模型。但在基于機器學習的頁巖氣井井間干擾評價及預測方面的研究鮮有報道。使用機器學習方法進行建模時,都有以下缺點:機器學習是一種數據驅動方法,使用的數據決定最終建模效果;但在大多數的研究中考慮因素不全面,數據并不完整,且數據處理結果較差,影響最終預測結果。
針對井間干擾評價難,預測精度差的問題,使用機器學習方法進行頁巖氣井間干擾程度評價及預測。首先建立較為完整的影響因素體系(包含地質、鉆井、壓裂、生產等15種因素),對現場傳回的數據進行缺失值處理,并使用馬氏距離法以及箱型法對缺失值處理后的數據進行異常值檢驗;然后使用PCA算法對數據進行降維處理,獲得質量更好的數據集增快建模效率;最終使用聚類算法及隨機森林方法建立可用于實際頁巖氣井井間干擾評價的頁巖氣井間干擾程度評價及預測模型,并使用學習曲線以及交叉驗證方法進行調參,以獲得最優(yōu)的頁巖氣井井間干擾評價及預測模型。該模型精度較高,可以應用到實際頁巖氣井井間干擾評價與預測中,對頁巖氣藏高效開發(fā)具有重要的意義。
使用A 頁巖氣藏現場數據針對A 頁巖氣井井間干擾程度進行建模。通過與現場結合并調研相關文獻[15,23-24],綜合考慮地質因素、鉆井因素、壓裂因素以及生產因素,建立了一個包含15 個指標較為完整的頁巖氣井井間干擾影響因素體系(滲透率、孔隙度、總含氣量、最小水平主應力、脆性礦物、黏土礦物、水平段長、壓裂段數、壓裂簇數、改造體積、壓裂段長、入地液量、入地砂量、平均累產氣量以及井間干擾影響程度)。根據所建影響因素體系,篩選出可用的現場數據進行下一步數據處理。由于數據中的缺失值較多,數據的質量較低,故首先需要對數據進行處理,提高數據質量對保證模型預測精度具有直接影響。
在數據處理過程中,缺失值處理是十分重要的。本次使用數據集的數據缺失值較多,使用簡單的平均值插補或者中位數插補都會導致插補后的數據集噪聲更多。如果只是簡單地對缺失數據的井組進行刪除,最終得到的數據將難以描述整體參數的變化趨勢。多重插補法:基于除缺失值外的變量建立線性模型,以此預測要填補的數據。盡管數據間的線性關系較小,但是多重插補法的插補結果要比簡單的平均值插補或者中位數插補精確。
表1為部分井多重插補結果,插補數據并無明顯異常值,但是不能確定異常值不存在,要進一步對數據進行異常值檢驗。
表1 A頁巖氣藏部分井多重插補結果Table 1 Multiple interpolation results of some wells in A reservoir
經過缺失值處理的數據并未顯示出明顯的異常值,但是不能確定無異常值,需要對插補后的數據進行異常值檢驗。
誤差超過數量級的異常值,十分明顯的可直接刪除。一些誤差并不是十分明顯的異常值無法由人工判別,但是不能任由這些疑似異常值的數據存在。當使用馬氏距離法檢驗異常值時,馬氏距離法將各個指標的相關性考慮到異常值檢測中(在檢測異常值時考慮了各個指標間的聯系),如果有某一指標并無其他指標與其有相關關系,則使用箱型法來進行異常值檢驗。這種使用箱型法與馬氏距離法結合檢測異常值的手段顯然更加準確。
先判斷上述15 個指標的相關性,其中除最小水平主應力以外的14 個指標都有其他指標與之相關。使用箱型法檢測最小水平主應力的異常值,使用馬氏距離法檢測其余14個指標的異常值。
經檢測發(fā)現使用馬氏距離法檢測的指標中并無異常值存在,而使用箱型法檢測的最小水平主應力含有一個異常值,表明多重插補法處理的數據可靠性較高。
目前的各種頁巖氣井井間干擾研究所選用的研究因素都注重與頁巖氣井井間干擾影響程度之間有相關關系,從而得到定性的影響關系模型。這種研究方式固然正確,但是當使用過于繁多的影響因素進行研究時,會產生多余的工作量,甚至根據這種研究方法得到的數據集所建立的模型結果也會出現一定的偏差。使用統計分析手段研究頁巖氣井井間干擾這種多變量問題的工作量大、復雜度高且難度大,需要找到一個變量個數較少但是可以保留信息較多的方式。
主成分分析主要用于減少數據維度,建立盡可能少的新變量,這些由主成分分析所建立的新變量可保留絕大部分原數據集信息,并且這些新變量之間是互不相關的,可大幅減少后續(xù)所建立的頁巖氣產量評價模型的復雜性及計算時間。將這些由主成分分析得出的各個新變量稱為影響因子。
基于Python 語言,選擇除井間干擾比例外的其余全部參數進行主成分分析。分析結果顯示:前8組影響因子占全部數據信息(方差)的90%以上(圖1),使用前8 組影響因子作為頁巖氣井井間干擾評價模型特征,表2為影響因子與備選因素對應系數矩陣。
圖1 影響因子方差貢獻度Fig.1 Contribution graph of impact factor variance
表2 影響因子與備選因素對應系數矩陣Table 2 Corresponding coefficient matrix of impact factors and candidate factors
基于Python 語言,使用處理完的數據建立井間干擾程度劃分模型,并建立井間干擾程度預測模型。
現場給出的井間干擾程度,以及各種其他可能影響井間干擾程度的因素通常為一系列的連續(xù)值,對這些連續(xù)值劃分等級,從而定性地判斷所用區(qū)塊中某一口井的井間干擾程度的等級是十分重要的。劃分等級需要將一系列連續(xù)值劃分到各個等級的簇中。聚類算法可以實現上述工作中分簇的部分,并給出不同簇中所用指標的聚類中心,但是不能劃分等級。所以得到不同簇中各種指標的聚類中心后,還需找到評價所分簇的等級指標。這樣可以建立一個完整的頁巖氣井井間干擾程度評價模型。如果井間干擾程度單獨進行分簇,盡管可以得到預期要求,但是所建立的評價模型太過于簡單,而且不能根據所建頁巖氣井井間干擾評價模型得到更具有意義的結果,所以要選擇不同的可能影響井間干擾程度的因素,與井間干擾程度一同作為特征放入聚類模型中進行分簇。
聚類算法包括:K-Means 聚類算法、均值偏移聚類算法、DBSCAN 聚類算法、使用高斯混合模型(GMM)的期望最大化(EM)聚類以及層次聚類算法。由于所做的只是計算點和群中心之間的距離,其優(yōu)勢在于速度非???、實現起來比較簡單、聚類效果較好,因此應用很廣泛。
K-Means聚類原理[25]:①隨機選擇所需聚類簇數個數,作為聚類簇各自的中心;②通過計算數據點和每個簇質心之間的距離進行分類,將這個數據點分類為計算距離最小的簇中;③計算得到的各個簇的中心,如果在該數據點分類前后的中心相同,則聚類中心不變,如果不同則將分類后的聚類中心作為下一次數據點分類前的數據中心;④不斷重復②、③步,直到所有的數據都完成分類與聚類,輸出最終聚類中心。
圖2 為使用K-Means 算法建立頁巖氣井間干擾程度評價模型流程。
圖2 頁巖氣井間干擾評價流程Fig.2 Flow chart of interference evaluation between shale gas wells
頁巖氣井間干擾對頁巖氣產量及井距確定影響較大,如何量化評價和預測井間干擾程度十分重要。因此,基于Python 語言,建立頁巖氣井間干擾影響程度回歸預測模型。機器學習回歸模型包括很多類型,例如:線性回歸、多重線性回歸、決策樹、隨機森林、支持向量機、XGBoost 以及神經網絡等。在各種回歸模型中,隨機森林因其較高的準確性以及較低的復雜性而受到廣泛應用。
隨機森林是一種集成模型[26],其基礎評估器是決策樹,決策樹分為分類樹以及回歸樹。決策樹的回歸以及分類能力較低,預測結果較差,因此,加利福尼亞數學教授BREIMAN 完善并推廣了隨機森林模型。
隨機森林原理(圖3):①一個樣本容量為N的樣本,有放回地抽取N次,每次抽取1 個,最終形成了N個樣本。選出的N個樣本用來訓練一個決策樹,作為決策樹根節(jié)點處的樣本;②當每個樣本有K個特征,在決策樹的每個節(jié)點需要分裂時,隨機從這K個特征中選取出k個特征,滿足條件k<K。然后從這k個特征中采用某種策略(如信息增益)來選擇1 個屬性作為該節(jié)點的分裂屬性;③決策樹形成過程中每個節(jié)點都要按照步驟②來分裂,一直到不能夠再分裂為止;④按照步驟①—③建立大量的決策樹,每棵決策樹都產生一個結果;⑤隨機森林最終決策是由每棵決策樹結果投票產生。
圖3 隨機森林原理Fig.3 Principle of random forest method
圖4 為使用隨機森林算法建立頁巖氣井間干擾程度回歸模型流程。
圖4 頁巖氣井間干擾程度回歸模型流程Fig.4 Flow chart of the regression model for interference degree between shale gas wells
K-Means 算法建立井間干擾程度評價模型,使用數據處理生成的影響因子,并以井間干擾程度作為標準將井間干擾程度評價等級劃分為高、中、低3個等級,其中高等級的井數占37.04 %,中等級的井數占37.03%,低等級的井數占25.93%。表3為頁巖氣井井間干擾影響因子聚類中心(標準化)。
表3 頁巖氣井井間干擾程度影響因子聚類中心(標準化)Table 3 Influencing factor clustering center(standardization)of shale gas well interference
圖5 為頁巖氣井井間干擾程度影響因子聚類中心,可見等級高與等級低聚類中心差的絕對值最大的影響因子為Y1與Y3,由表2 可知,占影響因子Y1信息最多的為壓裂級數與壓裂段數,占影響因子Y3信息最多的為水平段長與壓裂級數,即影響頁巖氣井井間干擾程度最大的為壓裂因素與鉆井因素。建議今后設計該區(qū)塊的頁巖氣開采方案時,應注重對壓裂因素以及鉆井因素方案設計的優(yōu)化,以避免較大的井間干擾現象發(fā)生。
圖5 頁巖氣井井間干擾程度影響因子聚類中心Fig.5 Cluster center diagram of influencing factors of well interference degree of shale gas
使用處理過后的數據(井間干擾影響程度為標簽,其余8 個影響因子作為特征)建立頁巖氣井井間干擾影響程度隨機森林回歸預測模型。調參在建立模型流程中占極為重要的地位。調參前先使用基礎參數進行建模,得出基礎模型預測精度:MSE(均方誤差)=0.105,MAE(平均絕對誤差)=0.259。隨機抽取4口井運用基礎模型進行預測,其精度為75.97%,用于之后調參結果衡量的基準。使用學習曲線對建模效果影響顯著的參數(隨機模式、樹模型數量、中間節(jié)點分枝所需的最小樣本數、分枝時考慮的最大特征數)進行調參,不同參數與均方誤差關系(圖6)中學習曲線的順序便是調參順序。
圖6 不同參數與均方誤差關系Fig.6 Learning curves of different parameters
在調參過程中模型的精確度逐漸提高,即MSE不斷減小,最終的調參結果見表4。
表4 隨機森林方法調參結果Table 4 Optimized results using Random forest method
優(yōu)化后的隨機森林預測精度為:MSE=0.093,MAE=0.240。隨機抽取4 口井運用優(yōu)化后的頁巖氣井井間干擾影響程度隨機森林回歸模型進行預測,預測結果如圖7所示,其精度達到92.07%,較調參前模型準確度提升16.1%。優(yōu)化后的頁巖氣井井間干擾影響程度隨機森林回歸模型可用于實際頁巖氣井井間干擾程度預測。
圖7 模型預測結果Fig.7 Prediction results based on developed model
使用K-Means 算法建立的頁巖氣井井間干擾評價模型,可對實際頁巖氣藏井間干擾進行定性分級評價。進一步采用隨機森林方法建立頁巖氣井井間干擾預測模型。模型預測準確率達到92.07%,可用于實際頁巖氣井井間干擾程度定量預測,解決了現有方法假設條件與實際不符、模型考慮因素不全面的問題,為頁巖氣井定性分類評價與井間干擾程度定量預測提供了一種方法。
1)提出了一種基于機器學習的頁巖氣井井間干擾程度評價及預測方法。將頁巖氣藏地質、鉆井、壓裂及生產數據進行處理后,使用聚類算法劃分頁巖氣井井間干擾程度評價等級,采用隨機森林方法建立頁巖氣井井間干擾影響程度預測回歸模型來預測頁巖氣井井間干擾程度。
2)建立了完整的數據處理方法,使用多重插補法處理缺失值,應用馬氏距離法以及箱型法檢測異常值,使用PCA算法對特征降維,提高了數據質量。
3)使用聚類算法建立A 頁巖氣藏井間干擾影響程度評價模型,將井間干擾程度劃分低、中、高3類,其井數占比分別為:25.93 %、37.03 %、37.04 %。評價結果顯示壓裂因素對該頁巖氣藏井間干擾程度影響最大,因此,通過優(yōu)化壓裂設計方案能夠降低頁巖氣井井間干擾程度。使用此評價模型能夠對實際頁巖氣井井間干擾進行定性分級評價。
4)應用隨機森林方法對A 頁巖氣藏建立頁巖氣井井間干擾程度預測模型,并使用調參后的模型進行井間干擾程度預測。抽取4 口井進行井間干擾程度預測,符合率為92.07%,預測精度較高,表明該模型能夠用于實際頁巖氣井井間干擾程度定量預測,為頁巖氣井定性分類評價與井間干擾程度定量預測提供了一種可靠的方法。