基于交叉檢驗法的地質預測模型優(yōu)選

2013-09-05 07:51:02宋永康王兵杰

石油化工應用 2013年12期

宋永康，舒曉，王兵杰

（1.中國石油遼河油田分公司，遼寧盤錦 124109；2.中國石油大學（華東）地球科學與技術學院，山東青島 266580；3.南京大學內生金屬礦床成礦機制研究國家重點實驗室，江蘇南京 210093；4.南京大學地球科學與工程學院，江蘇南京 210093）

隨著我國大部分油田進入開發(fā)中晚期階段，對于精細地質模型的要求越來越高。在地質建模領域常遇到的一個問題是，同一地質模型可以根據多種建模方法和變差函數組合實現，因此有效地優(yōu)選出最能夠反映地質變量空間非均質性和連續(xù)性特征的地質預測模型（建模算法與參數組合）便成了地質統(tǒng)計建模中的一個關鍵問題。常用的一種方法是經驗對比法，即地質學家憑借自身經驗根據估值（模擬）結果對地質預測模型（估值方法、參數等）的好壞進行評估及選擇。這種方法在實踐中廣為使用，但其準確性取決于研究人員的地質知識、經驗以及對研究區(qū)的認識程度，帶有較大的主觀性和隨意性。由于缺乏準確的衡量標準，常出現不同研究人員認識不一致甚至完全相反的情況。此外，這種方法存在滯后性，往往需要得到估值（模擬）結果后才能判斷地質預測模型的好壞，工作量很大，當認定模型預測效果不好后，還需從頭進行模型的建立工作，效率很低，且還無法預知下一個建立的模型的效果好壞。為解決這一問題，Delfiner首先提出應用“交叉檢驗法”來對地質統(tǒng)計結果進行定量的分析[1-2]。這一方法利用原始樣本數據提供的信息，根據定量指標檢驗其與多個候選預測模型的符合程度，擇優(yōu)選出最佳模型。由于該方法簡便易行，極大程度地解決了方法及參數選擇的隨意化問題，因此廣泛應用在各個領域中[3-8]。本文首先對其基本原理進行了講解，最后結合工區(qū)實例優(yōu)選并建立了最佳的地質預測模型，并對其預測效果進行了加密井檢驗。

1 交叉檢驗

所謂地質預測模型優(yōu)選，即從一組地質預測模型中選擇出最符合研究區(qū)實際情況及特定研究目標的模型。對于本文來說，一組模型指的是不同估值方法與變差函數模型的組合。交叉檢驗法（cross validation)是一類用來評估模型與已知數據符合程度的分析技術，其認為預測模型的質量好壞取決于其預測效果，能夠用于評估源自同一數據的多個地質預測模型的優(yōu)劣，在實踐中主要分為K重交叉驗證（k-fold cross validation）和去一驗證法（leave-one-out method），由于K重交叉驗證法驗證結果以及驗證統(tǒng)計量隨k取值不同變化較大，優(yōu)選結果不穩(wěn)定，下面重點對去一驗證法進行介紹。

1.1 去一驗證法（leave-one-out method）

該方法首先從原始樣本數據集中去除一個樣本點，從多種待選預測模型中選出一種將剩余的樣本值作為條件數據對該位置進行估值，得到該樣本點處估計值和真實值之間的差異（誤差）。如此循環(huán)，得到各個樣本點處的誤差，最終按照事先確定好的誤差分析指標選出最優(yōu)的預測模型。對于預測模型優(yōu)選來說，誤差衡量指標是根據克里格估值本身要求的無偏、最小方差確定的，其具體形式如下：

（1）誤差均值ME：衡量估值結果的無偏程度，即估值的準確性，值越小越準確，公式如下：

（2）誤差均方根RMSE：衡量模型預測結果與真實值的接近程度，值越小越接近，公式如下：

（3）平均標準誤差MSE：表示預測標準誤差的平均值：

（4）標準化均方根誤差:當值大于1時說明對地質變量可變性估計不足，而當小于1時說明對可變性估計過大。該值越接近1，預測的標準誤差越有效，公式如下：

式（1）、（2）、（3）、（4）中，Z^（xi）是采樣點xi的估計值，Z（xi）是采樣點xi的真實觀測值，n為進行交叉驗證的樣本點數量。

2 研究實例

為了說明交叉驗證法在地質預測模型優(yōu)選方面的有效性，本文針對實際工區(qū)氣井初始產能值，建立了多個估值模型，并應用加密井對優(yōu)選得到的預測模型和非優(yōu)選預測模型進行了驗證。

2.1 樣本數據及分析處理

研究區(qū)勘探面積22 km×22 km，烴類產自晚泥盆世時的砂巖、粉砂巖地層[9]。樣本數據為油氣井初始產能，是一種衡量油氣井生產能力的指標。圖1是樣本分布圖，共有樣本點674個，其中藍色點表示的是應用簡單隨機抽樣法得到的用于建模的574個樣本，采用這種抽放方法能夠保證抽樣是完全隨機進行的，而不以主觀意識提高抽樣的代表性。而紅色點則是100個加密驗證井樣本點。樣本分布圖（見圖1）顯示，研究區(qū)樣本分布不均勻，大部分地區(qū)油氣井生產能力較低，只有少數幾口高產能井。

由于樣本數據不規(guī)則分布將產生從聚效應，影響空間數據統(tǒng)計結果準確性[10-11]。因此首先要判斷樣本是否存在聚類及聚類位置。這里應用Getis-Ord General G統(tǒng)計量對高值或低值的聚集程度進行度量。G統(tǒng)計量是一種推論統(tǒng)計，零假設認為不存在樣本點數值的空間聚類，分析結果將在零假設的基礎下解釋[12]。計算表明樣本集G統(tǒng)計量值為16.8，這反映了高產能油井聚集分布的特征。此時如果直接應用原始樣本數據進行統(tǒng)計則會造成統(tǒng)計值的高估，這是由于高產能井附近的優(yōu)勢取樣（鉆井）造成的。這里應用基于單元的去從聚效應法對原始樣本數據進行去從聚效應處理。該法的基本原理是對樣本數據進行權值校正，給密集分布的樣本點分配較小的權值，給稀疏分布的樣本點分配較大的權值，以減弱從聚效應對包括變差函數在內的統(tǒng)計結果產生的不利影響。應用這種方法，要選擇恰當的單元大小來給樣本賦予合理的權值。圖2是不同單元大小下計算得到的加權樣本平均值。

由于已知道高值數據密集分布，因此應選擇最小的加權樣本均值。此時單元大小為2 250 m，加權后的樣本直方圖（見圖3），相比于原始樣本分布圖，其平均值和方差都變小了，更客觀地反映樣本數據的真實統(tǒng)計情況。

由于樣本數據呈偏態(tài)分布（見圖3），而準確計算變差函數和使用普通克里格（OK）和簡單克里格法（SK）需要樣本數據服從正態(tài)分布，應對去從聚效應后的樣本數據進行正態(tài)變換。經多次試驗發(fā)現，對樣本數據進行對數變換后即可以較好地服從正態(tài)分布。

2.2 實驗變差函數計算及擬合

精確實驗變差函數計算及擬合是得到準確的地質統(tǒng)計模型的關鍵環(huán)節(jié)，由于文章的目地是對預測模型進行優(yōu)選，其它可控變量應盡可能地保持穩(wěn)定，因此這里使用全部樣本集進行計算。首先確定滯后距（步長）參數，這是因為滯后距若設置過大，短距離的相關性可能被遮掩；過小則會由于缺乏樣本產生許多空值。這里使用平均最近鄰法進行滯后距的確定。該方法能夠計算各采樣點與其最近相鄰樣本之間的平均距離[12]。由于其確定性地包含了一定數量的樣本對，因此提供了更為準確的滯后距參數。經過計算得到采樣間平均距離為450.2 m。但由于原始數據存在聚集現象，雖然數據值的從聚效應被消除，但其本身密集分布的空間關系并未改變，即存在許多樣本值之間的實際距離遠遠小于平均最近臨法計算得到的平均距離。因此這里采用平均距離的一半225 m作為滯后距，最終計算得到了變差函數球狀圖（見圖4）。

第二種是孔洞效應模型。由于實驗變差函數曲線中表現出一定的高低值上下往返現象，變差函數球狀圖中實驗變差函數值隨著滯后距離的增大非單調增加，高低值相間出現，則有可能存在孔洞效應。因此，這里選用G.Journel提出的各向異性孔洞效應模型來擬合實驗變差函數[13]，擬合過程中要注意孔洞效應模型的周期和相位要與實驗變差函數一致[14]，擬合結果（見圖6）。

2.3 地質預測模型的優(yōu)選

為了實現對油氣井初始產能值的預測，這里將使用簡單克里格法和普通克里格法結合上述兩種變差函數進行估值，因而一共有4種預測模型。對這4種組合模型應用去一法進行交叉驗證來進行預測模型優(yōu)選，計算結果（見表1）。

表1 4種候選組合的交叉驗證結果Table.1 Cross validation results of four alternative combinations

預測模型的優(yōu)選主要有兩方面要考慮，一方面是其最優(yōu)性，另一方面是有效性。當均方根誤差和平均誤差較小時，模型可以認為是最優(yōu)的。但在多個模型之間對比時，由于進行未知點估值時只能通過標準誤差來評估預測模型的不確定性，因此根據交叉驗證得到的均方根誤差與估值的平均標準誤差越接近，模型有效性越高。從表1可以看出，模型2和模型3的標準均方根都過大，因此不是合適的預測模型。而模型4的均方根誤差和平均標準誤差接近程度不如模型1，因此模型1是最終優(yōu)選出的地質預測模型。

2.4 預測結果及對比驗證

最終應用優(yōu)選得到的球狀模型及普通克里格估值方法組合建立起了該研究區(qū)的油氣井初始勢能平面估值圖（見圖7a），同時給出了其他3種非優(yōu)選方法得到的估值圖（見圖7b，c，d）作為對比驗證，各圖中均標示出了100口驗證井的位置。

根據圖7給出的估值結果計算各個模型在100口驗證井位置處真實值與估計值的平均相對誤差（見表2）。

表2 各預測模型平均相對誤差Table.2 Average relative error of 4 geological prediction model

根據表2顯示的結果可知，模型1的預測結果是最為精準的。這一驗證結果表明：通過交叉驗證法優(yōu)選得到的地質預測模型，在對油氣井初始產能值預測方面有著最高的準確性。即應用交叉驗證法從多個候選模型中選出最佳的地質預測模型，這一方法是可行的。

3 結論

針對地質建模過程中常遇到的無法從多種可選建模方法和變差函數組合中選擇出最佳地質預測模型的問題，本文提出根據交叉驗證理論應用誤差均值、均方根誤差、標準均方根誤差和標準化平均誤差4項定量指標實現地質預測模型的優(yōu)選。實際氣田初始產能值預測結果表明，應用交叉驗證法能夠有效地從多種建模方法和變差函數模型中選擇出最優(yōu)方案，實現對未知點位置處的有效估值。

［1］Delfiner P.Liner estimation of nonstationary spatial phenomenon［C］.Guarascio M,David M，Huijbregts C.Advance Geostatistics in Mining Industry.Netherlands:Springer，1976:49-68.

［2］David M.The practice of kriging［C］.Guarascio M，David M，Huijbregts C.Advance Geostatistics in Mining Industry.Netherland:Springer，1976：31-48.

［3］Clark I.The Art of Cross Validation in Geostatistical Applications ［C］.Ramani R V.Proceedings of the 19th APCOM.Colorado：Society of Mining Engineers，1986：211-220.

［4］Journel A G，Huijbregts C.Mining Geostatistics［M］.New York：Academic Press，1978.

［5］Parker H M，Journel A G，Dixon W C.The use of conditional lognormal probability distribution for the estimation of open-pit ore reserves in strata-bound uranium deposits-a case study［C］.Proceedings of the 16th APCOM Symposium.New York：Society of Mining Engineers，1976：133-148.

［6］Arlot S.A survey of cross-validation procedures for model selection［J］.Statistics Surveys，2010，（4）：40-79.

［7］Bouckaert R R.Choosing between two learning algorithms based on calibrated tests［C］.Proceedings of the 20th International Conference on Machine Learning.Washington DC：IMCL，2003：51-58.

［8］Braga-Neto U M，Dougherty E R.Is cross-validation valid for small-sample microarray classification［J］.Bioiniformatics，2004，20（3）：374-380.

［9］Hohn M E.Geostatistics and Petroleum Geology［M］.Dordrecht：Kluwer Academic Publishers，1999.

［10］Deutsch C V，A.G.Journel A G.GSLIB Geostatistical Software Library and User's Guide［M］.Second Edition.New York，Oxford University Press，1998：213-214.

［11］Olea R A.Declustering of Clustered Preferential Sampling for Histogram and Semivariogram Inference［J］.Mathematical Geology，2007，39：453-467.

［12］Mitchell，andy.The ESRI Guide to GIS Analysis，Volume 2［M］.ESRI Press，2005：75-133.

［13］Journel A G，Froidevaux R.Anisotropic hole-effect modeling［J］.Mathematical Geology，1982，14（3）：217-239.

［14］Ma Y Z，Jones T A.Teacher’s aide modeling hole-effect variograms of lithology-Indicator variables［J］.Mathematical Geology，2001，33（5）：631-648.