孔 鵬,李忠城,楊晨曦,張云鵬,汪若璇
(1.西南石油大學,四川 成都 610500; 2.中聯(lián)煤層氣有限責任公司晉城分公司,山西 晉城 048000; 3.中聯(lián)煤層氣有限責任公司,北京 100016; 4.中海油能源發(fā)展股份有限公司工程技術(shù)分公司,天津 300452)
截至 2017 年年底,中國已發(fā)現(xiàn)包括沁水,川南等在內(nèi)的20余個煤層氣田,累計探明煤層氣地質(zhì)儲量為6 345×108m3[1]。水力壓裂是實現(xiàn)煤層氣有效開發(fā)的重要技術(shù)手段之一[2]。柿莊南區(qū)塊煤層氣儲量豐富,勘探開發(fā)潛力大,但由于煤儲層普遍具備低壓、低滲、低飽和特征,同時受地質(zhì)構(gòu)造和工程施工方面的影響,目前部分排采井產(chǎn)量較低[3-6]。因此,建立煤層氣井產(chǎn)量預測方法有利于煤層氣井壓裂前選井選層以及壓裂施工參數(shù)的優(yōu)化,從而提高煤層氣井的產(chǎn)量。
傳統(tǒng)煤層氣井產(chǎn)量預測方法主要有數(shù)值模擬、數(shù)理統(tǒng)計、無因次產(chǎn)能圖版法、物質(zhì)平衡法等方法[7-11],重點集中在數(shù)學模型的建立和求解,注重選取參數(shù)及各參數(shù)與產(chǎn)能之間的關系。隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,最近鄰算法、層次分析法、BP神經(jīng)網(wǎng)絡方法以及支持向量機方法[12-15]廣泛應用在石油及天然氣產(chǎn)量預測當中。而最近鄰算法計算量大;層次分析法定性的成分過多,導致結(jié)果主觀性過強;BP神經(jīng)網(wǎng)絡所需要的目標函數(shù)非常復雜,導致計算速度慢;支持向量機方法對大規(guī)模樣本適應性差且在多分類預測中存在困難。因此,提出基于主成分分析-樸素貝葉斯方法的煤層氣井壓裂后產(chǎn)量預測模型。樸素貝葉斯算法廣泛應用在煤與瓦斯突出預測、檔案管理及分類、醫(yī)療衛(wèi)生中[16-19],具有堅實的數(shù)學基礎、穩(wěn)定的分類及預測效率[20]。不僅可以運用到大型數(shù)據(jù)庫中,而且能同時處理多分類任務,方法簡單、速度快,但該方法做出了特征獨立的假設,對于一些相關性較強的參數(shù)會造成誤差,因此,采取主成分分析法[21-22]提取相互獨立的主成分,之后利用樸素貝葉斯模型對煤層氣產(chǎn)量進行預測。
設有n個煤層氣井樣本,每口井包含p個指標,將原始數(shù)據(jù)寫成矩陣形式。
(1) 原始數(shù)據(jù)標準化。
(1)
利用標準差標準化方法將數(shù)據(jù)標準化,將各個變量劃定在(0,1)范圍內(nèi),且服從正態(tài)分布。其中, 為各個指標數(shù)據(jù)標準化后的值。
(2) 建立變量相關系數(shù)矩陣。
R=(rij)pp
(2)
(3) 求R的特征根λ1、λ2…λp,使其滿足λ1≥λ2≥…λp≥0;并求得特征值對應的單位特征向量a1、a2…ap。
(3)
(4) 計算主成分貢獻率Cλi及累計貢獻率 ∑Cλi。
(4)
(5)
取累計貢獻率大于85%時的特征值λ1、λ2…λm對應的第1、第2、第m(m
(5) 寫出主成分。
Fi=ai1X1+ai2X2+…aipXp(i=1,2,…,m)
(6)
給定n個訓練數(shù)據(jù)集(X,Y),將訓練集中每個樣本的指標通過主成分分析法化為m個主成分,即F=(F1,F(xiàn)2…Fm)。Y集合即類集合,包含了q個產(chǎn)量類別,即Y=(y1,y2…yq)。樸素貝葉斯方法的思想是,有一口待預測的井,判斷這口井屬于哪種產(chǎn)量類別的概率大,則該井預測的產(chǎn)量就屬于該類別。具體方法如下:
(1) 計算先驗概率P(yq)。所謂先驗概率是指訓練集中各個產(chǎn)量類別出現(xiàn)的概率,也就是每個產(chǎn)量類別的樣本數(shù)與總訓練樣本數(shù)的比值。
(2) 計算條件概率P(F|yq)。條件概率為每一產(chǎn)量類別下每一主成分出現(xiàn)的概率,表達式為:
P(F|yq)=P(F1,F(xiàn)2,…Fm|yq)
(7)
樸素貝葉斯算法對條件概率分布做出了獨立性的假設,即指標F1,F(xiàn)2,…Fm之間相互獨立,前文計算所得的主成分滿足了指標相互獨立的假設,因此,條件概率公式可以寫成:
(8)
(3) 計算后驗概率P(yq|F)及最大后驗概率。后驗概率為待預測井主成分確定的情況下,該井屬于某一產(chǎn)量類別的概率,即:
(9)
將式(8)帶入式(9)可得,
(10)
最大后驗概率表示待預測井在每個產(chǎn)量類別中出現(xiàn)概率的最大值,則該井預測的產(chǎn)量屬于取最大概率時的產(chǎn)量類別。
(11)
以山西沁水盆地東南部某區(qū)塊煤層氣井為例。目標區(qū)3號煤層埋深為450~1 380 m,平均為890 m;煤層厚度為4~7 m,平均為6 m;煤層含氣量為3.11~21.51 m3/t,平均為12.02 m3/t。區(qū)塊面積為763.206 km2,完鉆井1 671口,投產(chǎn)井1 013口,平均單井產(chǎn)量為350 m3/d,不產(chǎn)氣井或者低產(chǎn)氣井較多,選取223口井(T1—T223)作為PCA-NB產(chǎn)量預測的訓練樣本,30口井作為預測的驗證樣本。
建立煤層氣產(chǎn)量影響指標對煤層氣產(chǎn)量的預測至關重要,選取含氣量、含氣飽和度、儲層壓力、臨儲比、儲層壓力梯度、滲透率、煤層厚度作為影響壓裂后產(chǎn)量的地質(zhì)因素;平均砂比、每米加砂強度、最大施工排量、前置液量占壓裂液量的百分比(前置液比)作為影響壓裂后產(chǎn)量的壓裂施工因素;其他因素包括煤層井徑擴大率、壓裂液浸泡時間(表1)。煤層井徑擴大,會使鉆井液進入煤層從而損害儲層,并且影響后期壓裂施工及產(chǎn)氣[23-25];壓裂液不能及時返排會對儲層造成傷害,從而影響采氣效果[26-27]。
表1 基礎數(shù)據(jù)
認為累計貢獻率達到85%以上的主成分基本涵蓋了因素的主要信息,利用式(5)計算累計貢獻率并提取主成分。 13個指標的主成分特征值及累計貢獻率如表2所示,第8個主成分時累計貢獻率
表2 各主成分貢獻率
為87%,因此提取前8個成分為主成分。每個主成分的貢獻率代表了該主成分所包含的13個評價指標中所含信息大小。
根據(jù)式(3)計算特征向量,并提取8個主成分的所對應特征向量,即主成分中13個指標的系數(shù)(表3),每個指標系數(shù)在不同主成分中值不同,因此,每個主成分反映的信息不同。
根據(jù)8個主成分的系數(shù),其表達式為:
(12)
表3 主成分系數(shù)
將訓練樣本的各指標值帶入主成分表達式,建立樸素貝葉斯訓練數(shù)據(jù)庫。利用建立的樸素貝葉斯模型對223口井的預測效果進行訓練,再利用30口井進行測試,其中產(chǎn)能劃分類型和穩(wěn)定產(chǎn)氣峰值對應情況如表4所示,將煤層氣井的穩(wěn)定產(chǎn)氣
表4 產(chǎn)能劃分類型
峰值從低產(chǎn)到高產(chǎn)劃分為5個等級。
根據(jù)提取的8個主成分表達式,將每口井的13個指標轉(zhuǎn)化為8個主成分的值,穩(wěn)定產(chǎn)氣峰值依據(jù)表4的產(chǎn)能劃分標準轉(zhuǎn)化為產(chǎn)能類型,形成樸素貝葉斯訓練數(shù)據(jù)庫如表5所示。
根據(jù)建立的樸素貝葉斯訓練數(shù)據(jù)庫進行訓練以及對30口井進行預測,利用主成分-樸素貝葉斯模型對產(chǎn)量預測的準確率達到了84.1%,其準確率高于基于主成分分析法的64.8%和樸素貝葉斯方法的76.4%以及神經(jīng)網(wǎng)絡預測方法的73.5%的準確率,說明該方法的準確性。
表5 樸素貝葉斯訓練數(shù)據(jù)庫
(1) 煤層氣產(chǎn)量預測對于煤層氣儲層壓裂選井選層,壓裂施工參數(shù)優(yōu)化以及經(jīng)濟評價具有重要意義,選取恰當準確的方法至關重要,實例表明,建立的主成分分析-樸素貝葉斯方法簡便易行,預測準確率高。
(2) 產(chǎn)量預測選取的參數(shù)對預測結(jié)果會產(chǎn)生一定影響,參數(shù)的選取應遵循系統(tǒng)性、科學性、可選性等原則,文中選取的參數(shù)綜合考慮了儲層地質(zhì)因素和工程因素,參數(shù)獲取方便,且能全面反映煤層氣產(chǎn)量影響因素。
(3) 增加各個產(chǎn)量類別的樣本量能夠提高模型的訓練精度,從而提高預測結(jié)果的準確率,模型建立應因地制宜,不同研究區(qū)塊需重新訓練樣本。