魏佳明 韓家新
Abstract: Traditional reservoir porosity calculation mainly adopts statistical regression method. However, in the real environment, reservoir conditions are complex and heterogeneity is strong. The reservoir porosity error calculated by the traditional method is large. In view of the above problems, based on the logging curve, a Random Forest method is introduced into the prediction of reservoir porosity to establish a nonlinear relationship between logging data and reservoir porosity. The experimental results show that the reservoir porosity error predicted by this method is less. Compared with multiple linear regression, it can effectively improve the accuracy of reservoir logging interpretation model and provide reliable geological parameters for reservoir comprehensive evaluation.
引言
儲(chǔ)層孔隙度是描述儲(chǔ)層特性、流體模式和建立儲(chǔ)層地質(zhì)模型最重要的參數(shù)之一,也是油層識(shí)別、含油飽和度計(jì)算和油藏精細(xì)評(píng)價(jià)的基礎(chǔ)[1-2]。目前,針對(duì)儲(chǔ)層孔隙度計(jì)算的方法很多,包括測(cè)井響應(yīng)方程、交會(huì)圖、利用巖心分析與聲波時(shí)差、密度或中子測(cè)井曲線建立回歸關(guān)系等方法,這些方法在一定程度上實(shí)現(xiàn)了儲(chǔ)層孔隙度的計(jì)算[3],也取得了良好的效果。但儲(chǔ)層實(shí)際環(huán)境復(fù)雜,非均質(zhì)性強(qiáng),由于受沉積和成巖作用等地質(zhì)因素的影響,儲(chǔ)層孔隙度和測(cè)井?dāng)?shù)據(jù)之間往往是非線性的關(guān)系,利用單純的多元統(tǒng)計(jì)回歸等方法,難以充分反映儲(chǔ)層孔隙度和測(cè)井?dāng)?shù)據(jù)之間的關(guān)系,由此建立的模型難以達(dá)到預(yù)期效果,誤差較大[4]。
為了精確描述儲(chǔ)層狀況,提高儲(chǔ)層孔隙度預(yù)測(cè)精度,本文在基于測(cè)井?dāng)?shù)據(jù)的基礎(chǔ)上,引入了效果較好的隨機(jī)森林方法,該方法在設(shè)計(jì)中不僅兼顧了研究問(wèn)題的復(fù)雜性,而且還呈現(xiàn)出預(yù)測(cè)準(zhǔn)確率高、對(duì)異常值和噪聲數(shù)據(jù)容忍度高的優(yōu)點(diǎn)。對(duì)比多元線性回歸[5],實(shí)驗(yàn)證明該方法可以有效提高儲(chǔ)層孔隙度預(yù)測(cè)的精度,取得比較理想的結(jié)果。
1隨機(jī)森林理論
作為一種機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)習(xí)理論,隨機(jī)森林[6]是Bagging集成學(xué)習(xí)[7]思想的一個(gè)擴(kuò)展,是在Bagging的基礎(chǔ)上,進(jìn)一步在決策樹的訓(xùn)練過(guò)程中融入了隨機(jī)屬性選擇。隨機(jī)森林使用Bootstrap重抽樣方法[8]從原始樣本中抽取多個(gè)樣本,再對(duì)每個(gè)樣本展開決策樹建模,并組成多棵決策樹進(jìn)行預(yù)測(cè)。對(duì)于分類問(wèn)題,通過(guò)少數(shù)服從多數(shù)的投票方法決定分類結(jié)果;對(duì)于回歸問(wèn)題,將所有回歸決策樹輸出值的平均值作為預(yù)測(cè)結(jié)果[9],其基本算法的設(shè)計(jì)代碼可見如下。
隨機(jī)森林具有調(diào)節(jié)參數(shù)少、操作方便、訓(xùn)練速度快的優(yōu)點(diǎn)[10],而且還有較好的抗噪性,也不易發(fā)生過(guò)擬合,尤其適用于諸如分類、回歸等技術(shù)問(wèn)題的研究。
2隨機(jī)森林在孔隙度預(yù)測(cè)中的應(yīng)用
2.1預(yù)測(cè)模型的樣本數(shù)據(jù)
本文的實(shí)驗(yàn)數(shù)據(jù)擬以某測(cè)井為例,采集深度為1 882~2 132 m,以0.500 m的間隔采集樣本,孔隙度POR介于10%~28%之間,其深度—孔隙度散點(diǎn)圖如圖1所示。通過(guò)分析該測(cè)井?dāng)?shù)據(jù)及孔隙度數(shù)據(jù),共有500個(gè)樣本,分為訓(xùn)練樣本和測(cè)試樣本,其中80%的數(shù)據(jù)(400個(gè)訓(xùn)練樣本)用于訓(xùn)練模型,20%的數(shù)據(jù)(100個(gè)測(cè)試樣本)用于測(cè)試模型。每個(gè)樣本主要有自然伽馬GR、聲波時(shí)差A(yù)C、密度DEN、補(bǔ)償中子CNL、自然電位SP、中感應(yīng)電阻率RILM、深感應(yīng)電阻率RILD、井徑CAL等8個(gè)測(cè)井參數(shù)[11]。這里,基于對(duì)最終更好預(yù)測(cè)效果的考慮,研究中對(duì)所有樣本進(jìn)行了歸一化處理。
2.2實(shí)驗(yàn)過(guò)程與結(jié)果分析
本文實(shí)驗(yàn)以python的scikit-learn[12]工具包為基礎(chǔ),部署建立本次實(shí)驗(yàn)的基礎(chǔ)環(huán)境。研究知道孔隙度POR為連續(xù)值,因此本文實(shí)驗(yàn)即屬于回歸問(wèn)題,主要將用到隨機(jī)森林回歸。對(duì)每個(gè)測(cè)試樣本而言,取所有樹預(yù)測(cè)的孔隙度POR的平均值作為最終孔隙度POR的預(yù)測(cè)結(jié)果。通過(guò)反復(fù)實(shí)驗(yàn),確定本次實(shí)驗(yàn)隨機(jī)森林樹的個(gè)數(shù)為2 000、特征集合的子集合為4,最大深度為50。實(shí)驗(yàn)中擬將采用不放回的隨機(jī)采樣,抽取400個(gè)樣本為訓(xùn)練集,剩余100個(gè)樣本為測(cè)試集,這樣可以保證訓(xùn)練集中不包含測(cè)試樣本,從而有效改善預(yù)測(cè)模型自身的泛化性。如圖2所示,為單次實(shí)驗(yàn)采樣的過(guò)程,400個(gè)訓(xùn)練樣本均勻覆蓋了所有樣本,如此訓(xùn)練得到的預(yù)測(cè)模型更具健壯性,在100個(gè)測(cè)試樣本上預(yù)測(cè)精度會(huì)更高。
為了提升實(shí)驗(yàn)結(jié)果的可靠性,可將本次實(shí)驗(yàn)重復(fù)10次,每次實(shí)驗(yàn)的平均真實(shí)孔隙度(100個(gè)測(cè)試樣本真實(shí)孔隙度的平均值)如圖3所示。而在每次實(shí)驗(yàn)中分別采用多元線性回歸和采用隨機(jī)森林回歸運(yùn)算得到的平均預(yù)測(cè)的孔隙度(100個(gè)測(cè)試樣本預(yù)測(cè)孔隙度的平均值)、平均絕對(duì)誤差(100個(gè)測(cè)試樣本絕對(duì)誤差的平均值)和平均相對(duì)誤差(100個(gè)測(cè)試樣本相對(duì)誤差的平均值)在經(jīng)對(duì)比研究繪制后,最終結(jié)果即如圖4~圖6所示。
分析圖4結(jié)果可知,多元線性回歸在設(shè)計(jì)儲(chǔ)層孔隙度模型時(shí),只是簡(jiǎn)單建立測(cè)井?dāng)?shù)據(jù)和孔隙度之間的線性關(guān)系,擬合效果并不理想,其預(yù)測(cè)值與真實(shí)值偏差較大。而隨機(jī)森林回歸以非線性方式建立測(cè)井?dāng)?shù)據(jù)和孔隙度之間的關(guān)系,預(yù)測(cè)值要更為接近真實(shí)值。同時(shí),參考圖5、圖6的性能統(tǒng)計(jì)后判斷可知,在誤差分析方面,每次實(shí)驗(yàn)中隨機(jī)森林回歸的平均絕對(duì)誤差和平均相對(duì)誤差均要小于多元線性回歸的結(jié)果數(shù)值,這也說(shuō)明其孔隙度預(yù)測(cè)值偏離真實(shí)值較小,更為接近真實(shí)值。
對(duì)比隨機(jī)森林回歸與多元線性回歸10次實(shí)驗(yàn)結(jié)果,詳情可參見表1。分析后發(fā)現(xiàn),運(yùn)用隨機(jī)森林回歸預(yù)測(cè)得到的總的平均絕對(duì)誤差為2.12%,平均相對(duì)誤差為11.48%,明顯要小于多元線性回歸得到的平均絕對(duì)誤差2.63%和平均相對(duì)誤差13.57%,預(yù)測(cè)效果要高于線性預(yù)測(cè)結(jié)果。
同時(shí),上述結(jié)果表明,當(dāng)測(cè)井?dāng)?shù)據(jù)和儲(chǔ)層孔隙度之間相關(guān)性不強(qiáng)且呈現(xiàn)非線性關(guān)系時(shí),運(yùn)用簡(jiǎn)單的多元線性回歸,只是線性擬合測(cè)井?dāng)?shù)據(jù),其預(yù)測(cè)結(jié)果整體誤差較大,預(yù)測(cè)效果并未臻至理想。究其原因即是和該區(qū)的沉積特征、地質(zhì)情況有關(guān)。而隨機(jī)森林回歸是以非線性的方式擬合測(cè)井?dāng)?shù)據(jù),充分考慮了測(cè)井?dāng)?shù)據(jù)和孔隙度之間存在的潛在聯(lián)系和實(shí)際可能,就可明顯提高預(yù)測(cè)的精度,尤其有助于在研究中運(yùn)用測(cè)井?dāng)?shù)據(jù)來(lái)預(yù)測(cè)孔隙度。
3結(jié)束語(yǔ)
儲(chǔ)層孔隙度是精確描述儲(chǔ)層的基礎(chǔ),在儲(chǔ)層環(huán)境復(fù)雜,非均質(zhì)性較強(qiáng)時(shí),測(cè)井?dāng)?shù)據(jù)與孔隙度之間往往是非線性關(guān)系。運(yùn)用簡(jiǎn)單的多元線性回歸得到的預(yù)測(cè)模型效果較差,可以應(yīng)用隨機(jī)森林回歸等方法進(jìn)行對(duì)比研究,優(yōu)選效果最佳的方法實(shí)現(xiàn)建模。隨機(jī)森林回歸具有較高的準(zhǔn)確率,能更好地容忍噪聲數(shù)據(jù)和異常值,當(dāng)測(cè)井?dāng)?shù)據(jù)和孔隙度之間關(guān)系復(fù)雜時(shí),利用隨機(jī)森林回歸可以更為精準(zhǔn)、有效地挖掘測(cè)井?dāng)?shù)據(jù)和孔隙度之間的關(guān)系。此外,與常用的非線性方法一樣,隨機(jī)森林回歸也可能存在過(guò)擬合的問(wèn)題,在后續(xù)的工作中將對(duì)此展開有針對(duì)性的研究改進(jìn)。作為一種新的儲(chǔ)層孔隙度預(yù)測(cè)方法,隨機(jī)森林回歸仍亟待學(xué)界的更多關(guān)注和研究投入。
參考文獻(xiàn)
[1] 楊東民, 秦志強(qiáng), 徐艷萍,等. 雙孔隙度預(yù)測(cè)技術(shù)在油藏描述中的應(yīng)用[J]. 斷塊油氣田, 2004, 11(5):23-25.
[2] 顧偉欣, 周紅, 耿鋒. 多元統(tǒng)計(jì)方法在儲(chǔ)層孔隙度模型建立中的應(yīng)用[J]. 斷塊油氣田, 2008, 15(3):58-61.
[3] 魏曉, 陳天一, 周邵鵬,等. 基于三孔隙度測(cè)井對(duì)致密砂巖儲(chǔ)層流體識(shí)別綜述[J]. 科技創(chuàng)新導(dǎo)報(bào), 2015(27):80-81.
[4] 張靜, 王志章, 趙永軍,等. 支持向量機(jī)在致密砂巖儲(chǔ)層孔隙度預(yù)測(cè)中應(yīng)用[J]. 河南科學(xué), 2015(6):993-997.
[5] 杜波, 于正軍, 韓建軍. 多元線性回歸法在DX北帶砂礫巖儲(chǔ)層孔隙度定量預(yù)測(cè)中的應(yīng)用[J]. 天然氣勘探與開發(fā), 2012, 35(4):36-40.
[6] 曹正鳳. 隨機(jī)森林算法優(yōu)化研究[D]. 北京:首都經(jīng)濟(jì)貿(mào)易大學(xué), 2014.
[7] BREIMAN L. Bagging predictors[J]. Machine Learning, 1996, 24(2):123-140.
[8] 謝益輝, 朱鈺. Bootstrap方法的歷史發(fā)展和前沿研究[J]. 統(tǒng)計(jì)與信息論壇, 2008, 23(2):90-96.
[9] 宋建國(guó), 高強(qiáng)山, 李哲. 隨機(jī)森林回歸在地震儲(chǔ)層預(yù)測(cè)中的應(yīng)用[J]. 石油地球物理勘探, 2016, 51(6):1202-1211.
[10]李貞貴. 隨機(jī)森林改進(jìn)的若干研究[D]. 廈門:廈門大學(xué), 2014.
[11]柴愈坤, 馮沙沙, 王華. 致密砂巖儲(chǔ)層物性參數(shù)建模方法探討[J]. 中外能源, 2017,27(5):39-43.
[12]PEDREGOSA F, VAROQUAUX G, GRAMFORT A, et al. Scikit-learn: Machine learning in Python[J]. Journal of Machine Learning Research, 2012, 12(10):2825-2830.