孫常凱,張?jiān)品?/p>
(1.黑龍江省高校油氣藏形成機(jī)理與資源評(píng)價(jià)重點(diǎn)實(shí)驗(yàn)室,黑龍江 大慶 163318; 2.東北石油大學(xué) 地球科學(xué)學(xué)院,黑龍江 大慶 163318)
地震屬性是利用數(shù)學(xué)手段對(duì)地震資料的幾何學(xué)、運(yùn)動(dòng)學(xué)、動(dòng)力學(xué)及統(tǒng)計(jì)學(xué)等特征的一種表征形式,是地層信息和地質(zhì)現(xiàn)象在地震資料中的反映[1]。不同巖性的地層在地震資料上的反映也不同,可以利用地震屬性來(lái)預(yù)測(cè)地層的砂體厚度。然而,地震屬性具有多解性,單一地震屬性受到多種地質(zhì)因素的共同影響,同時(shí)單一的地震屬性難以全面地反映地層的特征,一個(gè)地質(zhì)特征往往會(huì)在多個(gè)地震屬性中都有體現(xiàn)[2]。因此,在預(yù)測(cè)砂體厚度時(shí),需要將多種與砂體厚度有著較強(qiáng)相關(guān)性的地震屬性結(jié)合起來(lái)。機(jī)器學(xué)習(xí)具有較好的解決非線性問(wèn)題的能力,目前隨機(jī)森林[3]、神經(jīng)網(wǎng)絡(luò)[4]和支持向量機(jī)[5]等機(jī)器學(xué)習(xí)方法均廣泛應(yīng)用于砂體厚度的預(yù)測(cè)中。
LightGBM(Light Gradient Boosting Machine)是一個(gè)實(shí)現(xiàn)梯度提升決策樹(Gradient Boosting Decision Tree,GBDT) 算法的開源框架,由微軟發(fā)布[6]。它具有更快的訓(xùn)練速度、更高的效率、更好的準(zhǔn)確度以及更低的內(nèi)存使用,并支持分布式、并行學(xué)習(xí)和GPU加速,以處理大規(guī)模數(shù)據(jù)。
支持向量機(jī)(Support Vector Machine,SVM)于1995年正式發(fā)表[7],在1996年被用于回歸問(wèn)題[8]。作為一種新的機(jī)器學(xué)習(xí)方法,已逐漸成為國(guó)內(nèi)外研究熱點(diǎn)之一[9]。該方法以統(tǒng)計(jì)學(xué)習(xí)理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小化為基礎(chǔ),利用核函數(shù)將有限維的低維空間映射到高維空間,以尋找合適的劃分超平面來(lái)使樣本可分,以解決低維空間的非線性問(wèn)題[10]。該方法在解決小樣本、非線性的問(wèn)題上尤為合適,可以應(yīng)對(duì)研究區(qū)樣本少、斷陷盆地砂體厚度變化復(fù)雜的問(wèn)題[11]。
陸東凹陷位于開魯盆地陸家堡凹陷的東部,是發(fā)育于海西期褶皺基底上的中生代凹陷。凹陷受北北東向區(qū)域性斷裂控制,構(gòu)造走向由近東西向轉(zhuǎn)北東向,具有南陡北緩、單斷式斷拗型的構(gòu)造背景,即早白堊世以斷陷為主,而晚白堊世則以拗陷為主[12]。
陸東凹陷構(gòu)造演化可分為強(qiáng)烈斷陷階段(義縣期)、快速沉降階段(九佛堂期)、穩(wěn)定沉降階段(沙海期)、回返萎縮階段(阜新期)。其中,九佛堂期的快速沉降階段是由于陡坡帶邊界斷裂強(qiáng)烈活動(dòng)、盆地快速下降造成的。九佛堂早期沉降中心在后河地區(qū),到九佛堂組晚期湖盆逐漸擴(kuò)大。
盆地基地為古生界石炭、二疊系變質(zhì)巖,其上依次覆蓋中生界下白堊統(tǒng)義縣組、九佛堂組、沙海組、阜新組[13],如圖1所示。九佛堂組發(fā)育的半深湖—深湖相暗色泥巖沉積和近岸水下扇及扇三角洲沉積,形成了該區(qū)主要生、儲(chǔ)巖系。
層位標(biāo)定是儲(chǔ)層預(yù)測(cè)研究的基礎(chǔ),也是屬性分析的前提條件[14]。研究層位為九佛堂組,該層位由一個(gè)3級(jí)層序控制,可進(jìn)一步劃分為低位體系域、湖侵體系域和高位體系域[15]。其中,高位體系域主要為近岸水下扇—半身湖沉積體系,以泥巖、頁(yè)巖為主,儲(chǔ)層物性差,主要視為烴源巖和頁(yè)巖油儲(chǔ)層;對(duì)于低位體系域,由于鉆遇義縣組的井較少,導(dǎo)致可獲得的低位體系域砂體厚度信息較少,難以進(jìn)行模型訓(xùn)練。因此,湖侵體系域?yàn)檠芯康哪康膶佣?該體系域主要為扇三角洲—濱淺湖沉積體系。前后河地區(qū)九佛堂組體系域如圖2所示。
圖1 陸東凹陷綜合柱狀Fig.1 Comprehensive histogram of Ludong sag
圖2 前后河地區(qū)九佛堂組體系域Fig.2 Jiufotang Formation system tract in Qianhouhe area
整個(gè)陸東凹陷屬于典型兩洼夾一隆的構(gòu)造格局,包括交力格、前后河和三十方地3個(gè)區(qū)塊,前后河地區(qū)位于交力格洼陷和三十方地洼陷之間,如圖3所示[16]。它包括前、后河斷裂背斜及廣發(fā)斷裂背斜3個(gè)構(gòu)造帶,面積約170 km2,是陸東凹陷勘探的重要地區(qū)[17]。研究區(qū)東南部井網(wǎng)較密,而西北部井網(wǎng)較稀,難以僅用鉆井資料描述砂體分布規(guī)律。因此,需要利用地震屬性加以輔助。
研究利用Geoeast的GeoAttributeAnalysis子程序?qū)ρ芯繉游贿M(jìn)行地震屬性提取,共提取99種地震屬性,包括瞬時(shí)屬性、時(shí)窗及振幅屬性、子波屬性、功率譜屬性、自相關(guān)屬性、單頻屬性、層序地層統(tǒng)計(jì)屬性等。
砂巖厚度由井位錄井資料確定,結(jié)合提取的地震屬性,建立了樣本集。研究區(qū)共35口鉆穿湖侵體系域的井,因此樣本數(shù)量為35。
研究利用LightGBM來(lái)進(jìn)行特征選擇。LightGBM屬于樹模型,可以用來(lái)評(píng)估特征的重要性[18]。如果一個(gè)特征被選為分割點(diǎn)的次數(shù)越多,那么這個(gè)特征的重要性就越強(qiáng)。依據(jù)這個(gè)原理,可以進(jìn)行特征選擇。將所有地震屬性作為特征進(jìn)行模型訓(xùn)練,并留出30%的樣本檢驗(yàn)是否過(guò)擬合。訓(xùn)練得到的特征重要性見表1。其中,重要性為0的特征被省略。此時(shí)該模型的誤差見表2。
表1 初次特征選擇的特征重要性Tab.1 Feature importance of initial feature selection
表2 初次特征選擇的模型誤差Tab.2 Model error of initial feature selection
其中,MSE為均方誤差,RMSE為均方根誤差,MAE為平均絕對(duì)誤差,R2為決定系數(shù)。
可以看出,該模型發(fā)生了過(guò)擬合現(xiàn)象,將進(jìn)一步進(jìn)行特征選擇。經(jīng)過(guò)多次模型后,最終特征選擇的結(jié)果見表3。
表3 最終特征選擇的特征重要性Tab.3 Feature importance of final feature selection
此時(shí)該模型的誤差見表4。
可以看出,此時(shí)模型的精度和泛化能力都較好。因此,選擇這7種屬性作為輸入特征來(lái)進(jìn)行模型訓(xùn)練,這7種屬性如圖4所示。然而,利用該模型得到的結(jié)果與實(shí)際地質(zhì)情況不符,因而改用支持向量機(jī)進(jìn)行預(yù)測(cè),以發(fā)揮其在小樣本問(wèn)題上的優(yōu)勢(shì)。這7種屬性分別為振幅斜率(Amplitude Slope,AmpSlp)、瞬時(shí)帶寬(Instantaneous Bandwidth,IBand)、絕對(duì)振幅積分(Integrated Absolute Amplitude,IntAbsAmp)、相對(duì)層厚度(Thickness of Stratigraphic,ThkStrat)、單頻振幅(Single Frequency Amplitude)、單頻相位(Single Frequency Phase)、弧長(zhǎng)(Arc Length)。
圖4 地震屬性圖Fig.4 Diagram of seismic attributes
振幅斜率是時(shí)窗間隔內(nèi)道記錄振幅值隨時(shí)間變化率的平均,可以表示儲(chǔ)層中流體成分的變化、指示沉積環(huán)境以及識(shí)別斷層[19];瞬時(shí)帶寬是時(shí)窗數(shù)據(jù)內(nèi)頻率分布范圍的統(tǒng)計(jì)量,地震波在油氣等高衰減介質(zhì)中傳播時(shí),會(huì)產(chǎn)生帶寬的變化[20];絕對(duì)振幅積分是時(shí)窗間隔內(nèi)所有振幅絕對(duì)值之和,可以預(yù)測(cè)地層的巖性[21];相對(duì)層厚度為光滑后的反射強(qiáng)度取相鄰峰值之間的差值;單頻振幅與單頻相位是利用時(shí)頻分析技術(shù)對(duì)地震信號(hào)進(jìn)行分頻解釋,提高解釋精度和可靠性,研究中選取的特征分別為30 Hz的單頻振幅和20 Hz的單頻相位;弧長(zhǎng)是時(shí)窗內(nèi)地震信號(hào)波形的弧長(zhǎng),它間接反映了地震信號(hào)的振幅與頻率[22]。
LightGBM屬于樹模型,數(shù)值的縮放不影響分裂點(diǎn)的位置,因此無(wú)需對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。不同于LightGBM,支持向量機(jī)需要對(duì)特征進(jìn)行標(biāo)準(zhǔn)化處理。不同的地震屬性通常具有不同的量綱和數(shù)量級(jí),而且不同地震屬性之間的差距可能很大。為了消除地震屬性之間的量綱和數(shù)量級(jí)對(duì)模型訓(xùn)練的影響,包括研究使用的支持向量機(jī)在內(nèi)的多數(shù)機(jī)器學(xué)習(xí)算法,需要對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。研究使用z-score法進(jìn)行標(biāo)準(zhǔn)化。z-score也叫標(biāo)準(zhǔn)分?jǐn)?shù),能夠?qū)⒉煌考?jí)的數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一量度的z-score分值,使其具有可比性。其公式如下:
(1)
式中,x*為變換后的值;x為某一地震屬性的每個(gè)值;μ為該地震屬性的均值;σ為該地震屬性的標(biāo)準(zhǔn)差。
z-score變換后的地震數(shù)據(jù)符合正態(tài)分布,即均值為0,標(biāo)準(zhǔn)差為1[23]。
z-score標(biāo)準(zhǔn)化對(duì)數(shù)據(jù)分布有一定要求,正態(tài)分布的數(shù)據(jù)最有利于z-score標(biāo)準(zhǔn)化的計(jì)算,而非正態(tài)分布可能會(huì)導(dǎo)致z-score標(biāo)準(zhǔn)化的效果較差。繪制了7種屬性的直方圖來(lái)判斷其是否服從正態(tài)分布,如圖5所示??梢钥闯?除了瞬時(shí)帶寬屬性,其他屬性雖然不是嚴(yán)格正態(tài)分布,但都有一定的正態(tài)性。因此,需要對(duì)瞬時(shí)帶寬屬性進(jìn)行Yeo-Johnson變換[24],使其在一定程度上符合正態(tài)分布,改善其標(biāo)準(zhǔn)化效果。Yeo-Johnson變換公式如下所示:
(2)
式中,λ根據(jù)最大似然估計(jì)求得。
變換后的IBand屬性的直方圖如圖5所示,可見其一定程度上符合了正態(tài)分布。
將標(biāo)準(zhǔn)化處理后的特征利用支持向量機(jī)進(jìn)行模型訓(xùn)練,核函數(shù)使用高斯核,使用網(wǎng)格搜索法進(jìn)行超參數(shù)的優(yōu)化。由于樣本集較少,使用十次十折交叉驗(yàn)證法來(lái)避免過(guò)擬合。最終模型誤差見表5。
由表5可以看出,模型誤差較LightGBM模型大,但實(shí)際上卻更符合實(shí)際地質(zhì)情況。
表5 訓(xùn)練模型誤差Tab.5 Training model error
依據(jù)訓(xùn)練模型得到的預(yù)測(cè)結(jié)果如圖6所示,經(jīng)過(guò)了平滑處理。由圖6可以看出,東南部陡坡帶砂體最厚,該區(qū)域?yàn)檠芯繀^(qū)的沉積中心,也是研究區(qū)地層最厚的部分。砂體向北延伸,厚度逐漸減薄,至北部物源區(qū)又逐漸變厚。西部砂體相對(duì)較薄,西南部可見交力格地區(qū)砂體末端,被構(gòu)造帶所阻擋。
圖6 預(yù)測(cè)砂體厚度Fig.6 Predicted sand body thickness diagram
利用LightGBM預(yù)測(cè)的砂體厚度如圖7所示。為方便對(duì)比,圖7與圖6的色標(biāo)設(shè)置相同。
圖7 利用LightGBM預(yù)測(cè)的砂體厚度Fig.7 Sand body thickness predicted by LightGBM
由圖7可以看出,與SVM預(yù)測(cè)結(jié)果相比,LightGBM模型預(yù)測(cè)厚度下限更高而上限更低,更靠近組中值。造成這個(gè)結(jié)果,是由于基于LightGBM的模型在包括訓(xùn)練集和測(cè)試集的樣本集上過(guò)擬合了,因此模型在訓(xùn)練集和測(cè)試集上效果都很好,預(yù)測(cè)結(jié)果卻不符合實(shí)際地質(zhì)情況。而該現(xiàn)象的本質(zhì)原因是樣本集太小,且井位的分布范圍有限,而LightGBM通過(guò) leaf-wise(best-first)策略[25]來(lái)生長(zhǎng)樹,當(dāng)樣本集較小的時(shí)候,可能會(huì)造成過(guò)擬合。通??梢岳贸瑓?shù)max_depth來(lái)限制樹的深度并避免過(guò)擬合,而研究選擇利用SVM來(lái)進(jìn)行模型訓(xùn)練,以發(fā)揮其在解決小樣本問(wèn)題上的優(yōu)勢(shì)??梢钥闯?基于SVM的模型在研究中表現(xiàn)更好,結(jié)果更符合實(shí)際地質(zhì)情況。同時(shí),雖然基于SVM的模型的誤差相對(duì)較大,但制圖時(shí)通常要進(jìn)行平滑處理,削弱了異常值的影響,一定程度上減小了誤差。因此,研究最終選擇SVM算法進(jìn)行砂體厚度的預(yù)測(cè)。
特征選擇在機(jī)器學(xué)習(xí)中有著重要意義。研究中,特征選擇是指從獲取的大量地震屬性中篩選出一個(gè)合適的子集作為訓(xùn)練集和模型輸入。特征選擇的意義有3個(gè)方面[26]:①特征選擇加快模型的訓(xùn)練速度。規(guī)模更小的地震屬性子集可以減少運(yùn)算量,因而加快模型的訓(xùn)練速度。②特征選擇可以改善模型的性能。特征選擇可以去掉無(wú)效的或者噪聲特征,有些地震屬性對(duì)模型訓(xùn)練無(wú)益甚至有害。③特征選擇可以增強(qiáng)模型的可解釋性。研究中選擇的7個(gè)地震屬性均與砂體厚度存在直接或間接的聯(lián)系,能更好地理解模型訓(xùn)練的過(guò)程和結(jié)果,提高模型的說(shuō)服力并找到提升模型精度的方法。一些復(fù)雜的模型(如神經(jīng)網(wǎng)絡(luò))即使有著很高的準(zhǔn)確性,但很難了解模型內(nèi)部的細(xì)節(jié)和特征的重要性。
特征選擇主要分為3類:過(guò)濾式、包裹式和嵌入式[27]。過(guò)濾式是最簡(jiǎn)單也最常用的方法,它不依賴于模型,直接將特征按照價(jià)值高低進(jìn)行排序,而后選擇一定數(shù)量或比例的特征進(jìn)行模型訓(xùn)練。該方法有3種評(píng)價(jià)標(biāo)準(zhǔn):①依據(jù)特征包含的信息量。該標(biāo)準(zhǔn)通常使用方差法來(lái)進(jìn)行評(píng)估,如果特征方差較低,說(shuō)明其對(duì)結(jié)果影響不大,可以舍棄。該方法需要先對(duì)特征進(jìn)行標(biāo)準(zhǔn)化或歸一化處理才能相互比較,以消除數(shù)量級(jí)的影響。該方法可作為數(shù)據(jù)預(yù)處理,以減少計(jì)算開銷。②基于統(tǒng)計(jì)學(xué)理論。該標(biāo)準(zhǔn)的方法包括皮爾遜相關(guān)系數(shù)、斯皮爾曼相關(guān)系數(shù)等,根據(jù)計(jì)算結(jié)果確定相關(guān)性。③基于信息論。該標(biāo)準(zhǔn)的方法包括互信息、最大信息系數(shù)和Copula熵等,同樣根據(jù)計(jì)算結(jié)果確定相關(guān)性。過(guò)濾式方法不依賴于模型,因而無(wú)法針對(duì)特定模型選擇最合適的特征子集。同時(shí)在評(píng)價(jià)相關(guān)性時(shí),特征之間相互獨(dú)立,一些相關(guān)性低但組合使用具有較高價(jià)值的特征會(huì)被舍棄。另外,保留特征的數(shù)量或比例也需要根據(jù)經(jīng)驗(yàn)或結(jié)果來(lái)調(diào)整。
包裹式方法是對(duì)于某一模型,在所有特征中選擇效果最好的特征子集,因?yàn)槠溆?jì)算量巨大,通常使用序貫選擇或啟發(fā)式算法,以減少計(jì)算開銷。但無(wú)論哪種方法,其計(jì)算開銷依然很大。
嵌入式方法是在訓(xùn)練模型的同時(shí)完成特征選擇,該方法包括基于L1正則化的特征選擇和基于樹模型的特征選擇等。該方法有著過(guò)濾式和包裹式二者的優(yōu)點(diǎn),依托模型進(jìn)行特征選擇的同時(shí),大大減少了計(jì)算開銷。
本研究使用的LightGBM就是基于樹模型的框架。本工區(qū)地震資料品質(zhì)低,地震波主頻為18 Hz左右,因此計(jì)算得到的地震屬性質(zhì)量較差,各個(gè)地震屬性與砂體厚度的各種相關(guān)系數(shù)都不高。研究所選特征的部分相關(guān)系數(shù)見表6。可以看出,絕對(duì)振幅積分、相對(duì)層厚度、弧長(zhǎng)等屬性具有較高相關(guān)性,而其余屬性,尤其是單頻振幅_30的相關(guān)性較低。如使用過(guò)濾式方法,前者會(huì)被選中,而后者會(huì)被舍棄。然而,后者在模型中也有著重要作用,如果舍棄會(huì)造成模型性能差。這說(shuō)明了嵌入式方法的優(yōu)越性。
表6 所選特征的部分相關(guān)系數(shù)Tab.6 Part of correlation coefficient of the selected feature
如上文所述,研究區(qū)地震信號(hào)主頻在18 Hz左右,地震資料品質(zhì)低、分辨率差,影響了地震屬性的提取結(jié)果,進(jìn)而影響了模型的預(yù)測(cè)精度。因此,若能提高地震資料的分辨率,如反Q濾波法[28],則可以進(jìn)一步提高預(yù)測(cè)精度。
研究的目標(biāo)層段為九佛堂組的湖侵體系域,工區(qū)并沒(méi)有對(duì)九佛堂組進(jìn)行進(jìn)一步的層序劃分,這在一定程度上影響了地震屬性的提取,進(jìn)而影響了預(yù)測(cè)精度。
單一地震屬性在預(yù)測(cè)砂體厚度時(shí)具有多解性,難以進(jìn)行準(zhǔn)確預(yù)測(cè)。研究提出了基于LightGBM和SVM的地震多屬性砂體厚度預(yù)測(cè)方法,并通過(guò)對(duì)陸東凹陷前后河地區(qū)九佛堂組湖侵體系域的實(shí)際應(yīng)用,驗(yàn)證了該方法的可行性。結(jié)果表明,相比于常用的過(guò)濾式特征選擇方法,基于嵌入式的特征選擇方法得到的特征子集有著更好的效果。同時(shí),基于SVM算法的模型在小樣本的條件下表現(xiàn)更好,結(jié)果更符合實(shí)際地質(zhì)情況。因此,通過(guò)聯(lián)合LightGBM和SVM算法,可以有效提高砂體厚度的預(yù)測(cè)精度。