郭林 沈東義 毛火明 袁秋霞
關鍵詞:大數(shù)據;測井;數(shù)據挖掘;Apache Spark;并行計算
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2023)03-0054-03
1 引言
隨著互聯(lián)網和云計算技術的發(fā)展,大數(shù)據的理念和技術的應用已經在工作和生活中發(fā)揮了越來越重要的作用。海量數(shù)據的出現(xiàn),催生了新的科研模式,為更綜合且更復雜的系統(tǒng)問題提供了更多的解決方案,即面對海量數(shù)據,科研人員可以從數(shù)據中直接查找或挖掘所需要的信息、知識,更加快捷地得出所需的結論[1] 。
石油行業(yè)大數(shù)據的開發(fā)應用還處于起步階段,但很多石油公司在信息化建設中,已針對多年積累的數(shù)據建立了數(shù)據模型,并研發(fā)了對應的大數(shù)據分析軟件,例如油井數(shù)據的實時采集、實時生產監(jiān)控分析系統(tǒng)等,都是大數(shù)據在石油行業(yè)的基本體現(xiàn)[2]。對此,渤海石油研究院近幾年在測井巖性分析、儲層預測、壓力預測等多方面也進行了大數(shù)據的分析與研究。本文重點介紹在測井巖性分析方面的研究,對于未進行鉆井取心的新井,某些層段復雜巖性不易判斷時,通過從一個工區(qū)甚至更大范圍內自動找到類比的參考井,以大數(shù)據分析手段確定目標井的巖性,進而類比參考井已有資料進一步判斷目標井含油氣性和產能。
2 測井解釋的大數(shù)據適應性分析
測井解釋能否適用大數(shù)據分析方法,要從測井解釋的原理和數(shù)據特點出發(fā),根據目前行業(yè)對大數(shù)據的認識,大數(shù)據指是一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據庫軟件工具能力范圍的數(shù)據集合,具有海量的數(shù)據規(guī)模、快速的數(shù)據流轉、多樣的數(shù)據類型和價值密度低四大特征。大數(shù)據的意義在于利用相關數(shù)據進行分析和統(tǒng)計得出預期結果甚至是傳統(tǒng)方法無法得出的結論,可以幫助我們降低成本、提高效率、開發(fā)新產品、做出更明智的業(yè)務決策等[3]。因此,結合實際,測井數(shù)據符合大數(shù)據的以下“5個V”的特點:
(1) 數(shù)據規(guī)模大(Volume) :油田幾千口井乃至上萬口井的數(shù)據,上千米的井深且每隔0.1米一個采樣間隔,同時對應著多條常規(guī)測井曲線,從數(shù)據量上完全可以達到大數(shù)據的分析要求并得出正確的結論;
(2) 數(shù)據多樣性(Variety) :測井解釋的過程中,除了常規(guī)測井曲線外,還需同時綜合參考DST測試、核磁共振測井、陣列聲波測井、成像測井、生產動態(tài)、巖礦分析等資料;
(3) 數(shù)據處理時效性(Velocity) :測井解釋的數(shù)據可以進行及時處理,滿足一定的響應性能要求;
(4) 結果準確性(Veracity) :油田多年來積累的測井數(shù)據和經過驗證的解釋結果,足以保證數(shù)據處理的準確性;
(5) 深度價值(Value) :通過全局的大數(shù)據分析,有利于進一步挖掘潛力儲層。
3 大數(shù)據計算技術與系統(tǒng)的選取
大數(shù)據并行化計算系統(tǒng)是整個大數(shù)據技術中的計算核心層,近幾年出現(xiàn)了多種不同的典型大數(shù)據計算模式,并涌現(xiàn)了一批適應這些計算模式的大數(shù)據計算系統(tǒng)。其中,Hadoop是目前最流行的分布式數(shù)據和計算框架,其MapReduce是一種典型的大數(shù)據批處理計算模式,它簡單易用的兩階段Map和Reduce的數(shù)據處理過程,使其成為主流并行計算模式。但在本文中,我們選取了Apache Spark,Spark為了克服MapRe?duce缺乏對迭代計算模式支持的缺陷,對MapReduce進行了很多改進。目前,在迭代計算方面,Spark是最廣為使用的一個基于分布式內存的彈性數(shù)據集模型的高效迭代計算系統(tǒng)[4]。
4 基于曲線相似度的大數(shù)據技術在巖性分析中的應用
渤海油田近幾年除了建成數(shù)據處理中心用于數(shù)據的存儲、管理和共享之外,還建立了勘探開發(fā)項目知識庫和勘探成果數(shù)據庫,進行勘探開發(fā)生產活動的參數(shù)采集、數(shù)據積累與管理?;A數(shù)據庫中已經存儲了數(shù)千口井的測井曲線相關數(shù)據,具備大數(shù)據分析的數(shù)據基礎。
4.1 基本原理與流程
科研工作中,不同井的測井曲線形狀存在某種相似性,測井曲線與地層特征間也具有一定的對應關系。因此,通過利用測井曲線數(shù)據進行相關分析,根據給定某一口井深度段的測井曲線組合的形狀,在數(shù)據庫中快速檢索具有類似曲線組合形狀的井,并根據測井大數(shù)據分析算法,精準擬合出測井曲線與地層特征之間的對應關系,同時根據命中概率進行巖性的識別。具體包括以下幾步:
(1) 搜索具有“相似形態(tài)”的測井曲線(深度段),并按相似度進行排序;
(2) 搜索具有某一測井曲線特征的老井,使用新的技術方法重新認識老井;
(3) 搜索、統(tǒng)計測井曲線特征與地層特征的對應關系和分布情況,論證科研人員的分析結果,并為科研人員的研究工作提供輔助支持。
數(shù)據挖掘的具體過程中利用分類與預測、聚類分析、關聯(lián)規(guī)則、偏差檢測等方法,發(fā)現(xiàn)數(shù)據之間的關系,用以解決實際問題?;具^程包括:定義挖掘目標、數(shù)據取樣、數(shù)據預處理、挖掘建模和模型評價,基本過程如下圖1所示。
4.2 底層Apache Spark 并行計算平臺搭建
在具體的數(shù)據分析與計算過程中,我們首先要搭建計算平臺,Apache Spark 并行計算平臺的邏輯結構,具體如下圖2所示。
主要工作任務包括:在一個主管理節(jié)點(虛擬機)和多個工作節(jié)點(虛擬機)中,安裝和調試ApacheSpark運行環(huán)境;配置運行參數(shù),包括網絡參數(shù)、CPU資源分配策略、內存資源分配策略等。
4.3 數(shù)據準備
數(shù)據收集環(huán)節(jié)中,需要準備原始數(shù)據,包括測井曲線數(shù)據和地層巖性數(shù)據。之后,對數(shù)據進行規(guī)范化處理,使測井曲線命名一致,并對測井曲線和地層巖性數(shù)據進行清洗。最后,建立測井曲線的數(shù)據緩存,將規(guī)范化的測井曲線數(shù)據在各個工作節(jié)點(虛擬機)上建立分布、多層結構的數(shù)據緩存,用于加快分析計算的速度。
數(shù)據準備工作完成后,再加入區(qū)域位置信息,形成區(qū)域位置—測井曲線—地層巖性結構的關系數(shù)據,最后根據區(qū)域位置、深度段和測井曲線,分析對應區(qū)域位置和深度段的地層巖性的可能性。
4.4 模型建立
首先,對某一口井的測井曲線濾波,平滑測井曲線。通過滑動對比樣本窗口(某一深度段的一組測井曲線),計算測井曲線形狀的相似度,找出最相似的測井曲線的深度段,其原理簡單描述如下:
(1) 將需要預測的目標井所選測井曲線的組合形成一個m*n的矩陣(所選的測井曲線數(shù)*所選深度段的采樣點數(shù))。
(2) 目標井的m*n數(shù)據集與數(shù)千口現(xiàn)有井的數(shù)據集從采樣點初始索引開始的m*n數(shù)據集比較,并平滑移動逐點計算。
(3) 將數(shù)據進行歸一化處理,并采用均方根算法,計算每條測井曲線間的差異,即相對差異。
(4) 結合其他算法多維度判斷相似度,例如根據箱形圖(Boxplot) 法,排除異常值,最終確定曲線某一深度段的最大值、最小值、平均值等特征值,并進行歸一化處理,然后將多條曲線的特征值進行組合后進行綜合判斷。
(5) 將搜索結果按相似度由高到低進行排序,找出最相似的測井曲線的深度段,形成測井曲線與測井曲線之間的相似度模型。
其次,在搜索結果的已知巖性數(shù)據基礎上,通過數(shù)據挖掘,歸納測井曲線與地層巖性間的關系特征,推導目標深度段的巖性類別,并按概率由高到低進行排序。建立測井曲線樣本與地層巖性間的分布關系,使用大量的測試數(shù)據集,驗證和調整模型。
4.5 速度優(yōu)化
由于參與計算的井超過七千口,數(shù)據量巨大,且在計算過程中需要滑動樣本點進行逐個計算,由于計算節(jié)點有限,如果僅依賴CPU,每進行一次地層識別將耗費至少十幾分鐘的時間,這在科研過程中是無法接受的。為了保證數(shù)據的計算速度,代碼編寫中采用OpenCL并行計算技術結合GPU進行性能優(yōu)化。OpenCL并行計算技術是一個通用多CPU、GPU和其他芯片異構計算的標準,充分利用GPU強大的并行計算能力以及與CPU的協(xié)同工作,更高效地利用硬件高效地完成大規(guī)模的尤其是并行度高的計算[5],通過GPU的加速,使得單次的處理時間縮短到了10秒以內,優(yōu)化效果顯著。
5 應用案例
以某C油田某J井數(shù)據為例,通過選取需要預測的深度段測井曲線數(shù)據,并選擇需要匹配的曲線,如:GR、ZDEN、CNCF一定范圍內的數(shù)值組合,系統(tǒng)通過對所有井的測井數(shù)據進行全量的數(shù)據匹配分析計算,匹配得到有效的測井曲線組合與地層巖性的對應關系,在19 個相似的地層中,有18 個地層都是玄武巖,從而初步判定該深度段巖性大概率與玄武巖具有對應關系。分析過程圖如圖3所示。
實際應用中除了概率問題,還需考慮置信度的問題,例如匹配到的井只有3口,而其中兩口巖性相同,這時由于數(shù)據量太少,無法作為最終判斷依據,因此,必須將數(shù)據的總量和數(shù)據準確度達到足夠的高度,才能保證應用的準確性。地層巖性分析結果效果如圖4。
6 結論
在大數(shù)據時代,數(shù)據已經成為重要的生產因素,石油和天然氣勘探在數(shù)字化和大數(shù)據集成上,將會有越來越多的需求,構建專業(yè)化的測井大數(shù)據分析平臺,實現(xiàn)從一口井的單打獨斗,到區(qū)域的多井聯(lián)動,幫助科研人員進行決策,有利于測井數(shù)據向地質分析、區(qū)域評價和工程應用等方向拓展。而本文所探討的基于大數(shù)據曲線形態(tài)識別的巖性判斷方法,就是針對該需求所做的研究,通過更前沿的大數(shù)據技術提高工作效率,是信息化建設在渤海油田的發(fā)展方向和工作重點。未來隨著數(shù)據建設逐步完善,還可利用深度學習等人工智能算法進一步優(yōu)化應用效果,并進行流體性質自動解釋等功能的研究。