楊添微,王 啟,劉永震,萬 宇,,聶 昕,
1長江大學(xué)地球物理與石油資源學(xué)院,湖北 武漢
2長江大學(xué)油氣資源與勘探技術(shù)教育部重點實驗室,湖北 武漢
機器學(xué)習(xí)在人工智能領(lǐng)域具有相當(dāng)大的影響,其深度學(xué)習(xí)是構(gòu)建分層模型結(jié)構(gòu)[1],對輸入數(shù)據(jù)從底層到高層逐級進行提取并建立對應(yīng)關(guān)系。就實際貢獻而言,深度學(xué)習(xí)也許是近十年來機器學(xué)習(xí)領(lǐng)域最成功的課題。Geoffrey Hinton [2]因提出訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的方法,使深度學(xué)習(xí)因其強大的表現(xiàn)數(shù)據(jù)內(nèi)部結(jié)構(gòu)的能力獲得了各領(lǐng)域?qū)W者們的廣泛關(guān)注,自2012 年深度學(xué)習(xí)成功應(yīng)用于圖像識別和語音識別以來,各領(lǐng)域的學(xué)者便一直在積極擴展深度學(xué)習(xí)的應(yīng)用范圍和影響力,目前正成為資源勘查領(lǐng)域的一個非常吸引人的技術(shù)。
神經(jīng)網(wǎng)絡(luò)技術(shù)具有求解問題時的強抗干擾能力和非線性映射能力,為測井解釋的發(fā)展開拓了一個新的研究思路。與傳統(tǒng)的測井解釋方法相比,神經(jīng)網(wǎng)絡(luò)技術(shù)的獨特優(yōu)勢體現(xiàn)在:不需要建立具體的解釋模型和具體的計算公式;不需要對大量的參數(shù)進行選取;不需要太多的專家經(jīng)驗[3]。深度學(xué)習(xí)是在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上使其層數(shù)更加深入,它可以從海量數(shù)據(jù)中自動提取特征,并通過逐層特征變化進而解決復(fù)雜的分類或預(yù)測問題。因此,為了解決復(fù)雜的儲層解釋問題,機器學(xué)習(xí)在地球物理測井中的應(yīng)用必將越來越多。
隨著測井技術(shù)的發(fā)展,測井方法越來越多、精度越來越高、數(shù)據(jù)量越來越大。每一條測井曲線對地層巖性信息都有相應(yīng)的響應(yīng),如果同時解釋多條測井曲線,就需要同時解決復(fù)雜的多維度非線性問題和多種測井?dāng)?shù)據(jù)綜合形成的大數(shù)據(jù)的問題[4] [5],這是傳統(tǒng)的交會圖法等方法無法解決的。作為智能算法,機器學(xué)習(xí)具有從大量數(shù)據(jù)中自動提取特征,并通過逐層特征變化解決復(fù)雜的分類或預(yù)測問題的特點,其在測井領(lǐng)域已經(jīng)有了應(yīng)用。對機器學(xué)習(xí)在測井中的應(yīng)用進行調(diào)研并總結(jié)分析,可為測井智能解釋奠定基礎(chǔ)。
機器學(xué)習(xí)是一門多領(lǐng)域交叉學(xué)科,涉及概率論、統(tǒng)計學(xué)、逼近論、凸分析、算法復(fù)雜度理論等多門學(xué)科。機器學(xué)習(xí)的方法有很多,包括神經(jīng)網(wǎng)絡(luò)法、支持向量機算法、決策樹算法等[6],機器學(xué)習(xí)理論主要是設(shè)計和分析一些讓計算機可以自動“學(xué)習(xí)”的算法。機器學(xué)習(xí)算法是一類從數(shù)據(jù)中自動分析獲得規(guī)律,并利用規(guī)律對未知數(shù)據(jù)進行預(yù)測的算法。因為學(xué)習(xí)算法中涉及了大量的統(tǒng)計學(xué)理論,機器學(xué)習(xí)與統(tǒng)計推斷學(xué)聯(lián)系尤為密切,也被稱為統(tǒng)計學(xué)習(xí)理論。算法設(shè)計方面,機器學(xué)習(xí)理論關(guān)注可以實現(xiàn)的,行之有效的學(xué)習(xí)算法。很多推論問題屬于無程序可循難度,所以部分的機器學(xué)習(xí)研究是開發(fā)容易處理的近似算法。
其分為兩個階段:淺層學(xué)習(xí)和深度學(xué)習(xí)。在20 世紀(jì)80 年代末期,發(fā)明了人工神經(jīng)網(wǎng)絡(luò)的反向傳播算法(BP 算法) [7]。該算法可以讓一個人工神經(jīng)網(wǎng)絡(luò)模型從大量訓(xùn)練樣本中學(xué)習(xí)統(tǒng)計規(guī)律,并利用此規(guī)律對未知的事件做出預(yù)測。但是此時的神經(jīng)網(wǎng)絡(luò)模型隱層層數(shù)過淺,所以也被稱為淺層學(xué)習(xí)。在2006 年,Hinton 和他的學(xué)生Salakhutdinov 在學(xué)術(shù)刊物《Science》上發(fā)表了一篇文章[8],該文章提出了深度學(xué)習(xí)的概念。這篇文章主要提出了對于很多隱層的人工神經(jīng)網(wǎng)絡(luò)具有良好的特征學(xué)習(xí)能力,可以學(xué)習(xí)得到更精準(zhǔn)的數(shù)據(jù)特征,更有利于數(shù)據(jù)分類,這里提到的神經(jīng)網(wǎng)絡(luò)模型就已經(jīng)是多隱層層數(shù)的了,所以可以被稱為深度學(xué)習(xí)。
機器學(xué)習(xí)已經(jīng)有了十分廣泛的應(yīng)用,例如:數(shù)據(jù)挖掘、計算機視覺、自然語言處理、生物特征識別、搜索引擎、醫(yī)學(xué)診斷、檢測信用卡欺詐、證券市場分析、DNA 序列測序、語音和手寫識別、戰(zhàn)略游戲和機器人運用[8] [9] [10]。
盡管淺層學(xué)習(xí)時期發(fā)明的BP 算法可以使人工神經(jīng)網(wǎng)絡(luò)模型從大量訓(xùn)練樣本中學(xué)習(xí)統(tǒng)計規(guī)律,并利用此規(guī)律對未知事件做出預(yù)測,但是這些模型的結(jié)構(gòu)隱層節(jié)點層數(shù)極少,不能滿足測井的需要。深度學(xué)習(xí)的本質(zhì)是通過構(gòu)建含有很多隱層節(jié)點的機器學(xué)習(xí)模型,使用大量的數(shù)據(jù)進行訓(xùn)練,來學(xué)習(xí)更多更有用的特征,從而提高分類或預(yù)測的精準(zhǔn)度。所以,是用深度模型的方法,對樣本進行特征學(xué)習(xí)。
巖性識別是儲層含油氣性評價、油藏描述等方面的重要內(nèi)容之一,是求解油氣儲層各種參數(shù)的基礎(chǔ)。與其它巖性識別方法(如取巖心)相比,利用測井資料識別巖性速度快、費用低,也正因此才被廣泛采用。常規(guī)的利用測井資料識別地層巖性的方法主要有交會圖法[11] [12]、統(tǒng)計學(xué)方法[13]以及成像測井[14],但是傳統(tǒng)識別方法精度低、效率慢并且人為因素影響大,而成像測井價格昂貴,不利于廣泛實際應(yīng)用,因此研究出一種高精度自動識別巖性的方法對于測井?dāng)?shù)據(jù)解釋具有重要的意義。神經(jīng)網(wǎng)絡(luò)、決策樹和支持向量機在測井巖性識別領(lǐng)域具有良好的應(yīng)用前景。
神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)是由大量處理單元(神經(jīng)元)互相連接組成的大規(guī)模、非線性、自適應(yīng)動力學(xué)系統(tǒng)[15]。信息由輸入層到輸出層不斷傳遞,中間神經(jīng)元根據(jù)某種準(zhǔn)則不斷調(diào)整對接收到的相應(yīng)信號的處理方式,最終使輸出層得到想要的信息[16]。目前,在測井巖性識別中實際效果好且應(yīng)用最廣泛的有2 種神經(jīng)網(wǎng)絡(luò)模型:誤差反傳神經(jīng)網(wǎng)絡(luò)(BPNN)、徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(RBFNN)。BPNN 是一種全局逼近神經(jīng)網(wǎng)絡(luò),在訓(xùn)練過程中誤差逐層向輸入層逆向傳播,對網(wǎng)絡(luò)中出現(xiàn)的所有權(quán)值和閾值進行修正,RBFNN 是一種局部逼近網(wǎng)絡(luò),對于每個訓(xùn)練樣本,它只需要對少量的權(quán)值和閾值進行修正,另外RBFNN 通過徑向基函數(shù)將低維空間中非線性可分的問題映射到高維空間,使其在高維空間中線性可分。BPNN 與RBFNN 兩者功能相近,可以互相替代,但理論上后者結(jié)構(gòu)簡單、收斂速度快,能夠逼近任意非線性函數(shù),相比BPNN 更適用于測井巖性識別[17]。
決策樹(Decision Тree, DТ)是一個類似流程圖的樹狀結(jié)構(gòu),可以從一組無規(guī)則、無次序的分類樣本中推理出分類規(guī)則。DТ 通過根節(jié)點到葉節(jié)點的順序?qū)颖具M行分類,其中每個節(jié)點代表一個因變量,每個分支代表它所連接的上節(jié)點在其自變量上的可能取值。分類時采取自頂向下的遞歸方式,在內(nèi)部節(jié)點進行因變量的比較,并根據(jù)不同的因變量值判斷從該節(jié)點向下的分支,在樹的葉節(jié)點得到結(jié)論即因變量y,整個過程都是以新節(jié)點為根的子樹上的重復(fù)[18]。DТ 的建立由建樹和剪枝組成[19],所有DТ 算法都遵循這2 個階段,所產(chǎn)生的算法有C5.0,CARТ,QUESТ 和CHAID,差異只在于測量指標(biāo)不同,如在建樹過程中如何確定首先使用哪個自變量和自變量取值作為拆分點。其中,C5.0 算法與其他算法相比,通常不需要很長的訓(xùn)練次數(shù),而且面對數(shù)據(jù)缺失和數(shù)據(jù)量大的問題時穩(wěn)健性明顯高于其他算法[6],這在測井巖性識別時優(yōu)勢明顯。
支持向量機(Support Vector Мa(chǎn)chine, SVМ)建立在統(tǒng)計學(xué)理論和結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)上,在學(xué)習(xí)精度和學(xué)習(xí)能力之間尋求最佳折中,可最大化模型的預(yù)測能力,是一項功能強大的分類和回歸技術(shù)[20]。對于線性不可分問題,SVМ 的主要原理是:用核函數(shù)將樣本映射到高維特征空間,在高維特征空間中構(gòu)造最優(yōu)分割面,避免了在原空間中進行非線性曲面分割的計算,樣本通過核函數(shù)映射到高維空間,增加了線性分割概率。但對某些情況仍然無法實現(xiàn)線性分割,如數(shù)據(jù)有噪聲。SVМ 則允許樣本點在一定程度上偏離最優(yōu)分割面,樣本點xi 允許偏離最優(yōu)分割面的量稱為松弛變量ξi。因此,實現(xiàn)最優(yōu)分類需調(diào)節(jié)松弛變量,使其達到最優(yōu)[21] [22]。與調(diào)節(jié)松弛變量相比,核函數(shù)的選擇才是影響分類效果的關(guān)鍵,包括線性核函數(shù)、多項式核函數(shù)、RBF 核函數(shù)和Sigmeid 核函數(shù),而核函數(shù)的選擇沒有唯一確定的準(zhǔn)則,在測井巖性識別中需要根據(jù)實際情祝進行嘗試和比較[21] [23]。
前人對進行巖性識別主要使用的是BP 神經(jīng)網(wǎng)絡(luò):侯俊勝和王穎(1999)對煤氣層測井資料進行了定量解釋識別[24],盧新衛(wèi)和金章東(1999)對勝利油田某測井巖性進行識別[25],范訓(xùn)禮等(1999)對塔里木油田ТZ4 測井的巖性進行了識別[26],他們用的都是BP 神經(jīng)網(wǎng)絡(luò)手段,而且相同的是識別結(jié)果準(zhǔn)確率均不高。蔡磊和程國建等人(2010)采用極限學(xué)習(xí)機的方法對測井巖性進行識別[27]。在蔡磊(2010)的文章中使用了機器學(xué)習(xí)的支持向量機方法。在這次驗證中,蔡磊的研究對象選擇了自然伽瑪,深感應(yīng)電阻率,中子-密度孔隙度差,平均中子-密度孔隙度,光電效應(yīng)這5 條測井曲線,選取了10 口井中的6 口作為訓(xùn)練集3150 個樣本,2 口作為驗證集421 個樣本,2 口作為測試集431 個樣本。最終結(jié)果顯示巖性識別正確率如表1。識別結(jié)果較好,表明了基于支持向量機的機器學(xué)習(xí)算法也能在巖性識別中發(fā)揮很好的作用。安鵬和曹丹平(2018)基于深度學(xué)習(xí)對測井巖性識別進行了研究[28],構(gòu)建了一個包含多個隱層的深度神經(jīng)網(wǎng)絡(luò)模型(圖1),其中激勵函數(shù)采用的是Relu 函數(shù),神經(jīng)網(wǎng)絡(luò)優(yōu)化算法采用的是Adagrad 算法,并且在原始輸出層和最終輸出層之間添加了softmax 層將神經(jīng)網(wǎng)絡(luò)輸出轉(zhuǎn)變成一個概率分布。
Table 1. Results of lithology identification of Cai Lei et al. (2010) [28] 表1. 蔡磊等(2010)巖性識別結(jié)果表[28]
Figure 1. Deep neural network constructed by An and Cao (2018) [28] 圖1. 安鵬和曹丹平(2018)構(gòu)建的深度神經(jīng)網(wǎng)絡(luò)[28]
深度神經(jīng)網(wǎng)絡(luò)使用前饋傳播(Forward propagation)將訓(xùn)練數(shù)據(jù)輸入到網(wǎng)絡(luò)中,逐層訓(xùn)練至輸出層,得到本次的樣本數(shù)據(jù)的預(yù)測估計值,然后將預(yù)測估計值帶入交叉熵損失函數(shù)計算誤差,然后使用反向傳播算法獲得每一個神經(jīng)元的誤差值。接著使用基于梯度的Adagrad 優(yōu)化算法,首先根據(jù)代價函數(shù)計算模型的每一個參數(shù)的梯度,根據(jù)梯度計算“懲罰值”,調(diào)整模型參數(shù),使預(yù)測結(jié)果向優(yōu)化目標(biāo)(即巖性標(biāo)簽)接近。
儲層孔隙度的準(zhǔn)確計算隊估算石油、天然氣等資源的儲量具有極大的影響。如果要計算孔隙度,要先從儲層測井曲線的特征出發(fā),對測井資料進行綜合分析[29]。對于砂泥巖剖面,有體積模型法、基于巖心分析資料擬合法等[30]。對于碳酸鹽巖儲層,借助核磁測井、電成像等測井方法對儲層空間類型進行孔隙度求解[31] [32]。但有些地區(qū)缺少核磁測井、電成像測井等資料,又由于碳酸鹽巖儲層非均質(zhì)性強[33] [34],孔隙度與測井曲線并無確定的線性關(guān)系,所以在復(fù)雜巖性的碳酸鹽巖儲層中,要利用BP 神經(jīng)網(wǎng)絡(luò)的非線性的映射能力進行儲層孔隙度的預(yù)測[35]。用神經(jīng)網(wǎng)絡(luò)法來解釋孔隙度,就是通過給訓(xùn)練樣本進行學(xué)習(xí)得到一種解釋模型,用該模型對未知井進行孔隙度預(yù)測[36] [37] [38],網(wǎng)絡(luò)的輸出層單元只有實測的孔隙度。王娜娜等[39]改進了傳統(tǒng)的BP 算法,改進后的BP 算法收斂速度快,圖2 為王娜娜所用BP 網(wǎng)絡(luò)計算孔隙度的模型。
周雪晴等[38]利用鄰域粗糙集選取孔隙度敏感曲線,并將磷蝦覓食算法和BP 神經(jīng)網(wǎng)絡(luò)相結(jié)合,建立了最終神經(jīng)網(wǎng)絡(luò)孔隙度預(yù)測模型。在實驗中,周雪晴等人得到的不同隱含層數(shù)目的誤差的比較,如表2。
Figure 2. BP network porosity calculation model by Wang et al. (2008) [38] 圖2. 王娜娜等(2008)計算孔隙度的BP 網(wǎng)絡(luò)孔隙度模型[38]
Table 2. Comparison of errors of different hidden layers by Zhou et al. (2017) [39] 表2. 周雪晴等(2017)部分不同隱含層數(shù)目的誤差的比較[39]
周雪晴等(2017)選用不同的訓(xùn)練函數(shù),為效果較好的部分訓(xùn)練函數(shù)結(jié)果。選取訓(xùn)練效果最好的訓(xùn)練函數(shù)trainlm 為最終孔隙度模型訓(xùn)練函數(shù)。最終對資料進行處理,結(jié)果如圖3 所示。
反映儲層非均質(zhì)性最直接的參數(shù)是就滲透率,使用常規(guī)方法解釋的滲透率精度一直較低[40] [41]。神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)中的一種模型,人工神經(jīng)網(wǎng)絡(luò)具有結(jié)構(gòu)、神經(jīng)元傳遞函數(shù)及學(xué)習(xí)算法3 個屬性[42] [43],在實際應(yīng)用中,大多采用的是BP 網(wǎng)絡(luò),由于滲透率的影響因素較多,不確定性、非結(jié)構(gòu)化現(xiàn)象嚴(yán)重,因此,適用BP 網(wǎng)絡(luò)方法預(yù)測砂巖儲層的滲透率。
Figure 3. Comparison of different porosity prediction methods by Zhou Xueqing et al. (2017) [39] 圖3. 周雪晴等(2017)不同孔隙度預(yù)測方法對比[39]
李繼安(2010)以十紅灘鈾礦床為例實驗的神經(jīng)網(wǎng)絡(luò)在滲透率預(yù)測的應(yīng)用[44],李繼安選擇用測井資料向量組成訓(xùn)練模式對,由多個訓(xùn)練模式對組成學(xué)習(xí)樣本集,建立對應(yīng)實際地層情況的測井信息,形成輸入樣本,并以此對其他鉆孔進行滲透率的預(yù)測。在建立滲透率預(yù)測的神經(jīng)網(wǎng)絡(luò)模型時,李繼安等人采用了三層網(wǎng)絡(luò)模型,理論已證明:“一個三層網(wǎng)絡(luò)能以任何精度近似任何連續(xù)函數(shù)”[45]。起構(gòu)造的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示。最終預(yù)測結(jié)果見表3。絕對誤差小于0.2 的為合格結(jié)果,總體合格率為58.30%,效果較好。
Figure 4. Тhe permeability prediction neural network constructed by Li Ji’an (2010) [45] 圖4. 李繼安(2010)構(gòu)造的滲透率預(yù)測神經(jīng)網(wǎng)絡(luò)[45]
Table 3. Comparison of predicted permeability and measured permeability in Shihongtan area by Li Ji’an (2010) [45] 表3. 李繼安(2010)十紅灘地區(qū)預(yù)測滲透率與實測滲透率對比表[45]
流體識別是測井評價的重要環(huán)節(jié)。在某些儲層情況下,流體很難準(zhǔn)確識別,如圖5 所示,該地區(qū)利用密度與電阻率難以識別流體。因而,選取反映儲層巖性、物性、流體性質(zhì)的SP、GR (伽馬)、RТ、AC (聲波時差)、CNL、(補償中子)、DEN (密度)等六種測井資料,運用機器學(xué)習(xí)算法,提取反映流體的信息,多參數(shù)結(jié)合實現(xiàn)砂礫巖中的流體識別。
首先在關(guān)鍵井中,根據(jù)核磁共振、錄井油氣顯示、試油等結(jié)果選取多個井段的儲層樣本,綜合考慮巖性、孔隙結(jié)構(gòu)、地層水礦化度等因素選取.上述六種測井資料作為輸入,建立研究區(qū)干層、水層、油水同層、油層識別模型。
建模前,對輸入?yún)?shù)做歸-化處理消除量綱的影響。圖6 為不同流體類型測井?dāng)?shù)據(jù)歸-化后的平行坐標(biāo)系,從左到右分別為DEN、CNL、GR、AC、SP、RТ 測井類型。每一個樣本為一條曲線,不同顏色的曲線代表不同類型的流體。從圖中可以看出,不同類型流體測井響應(yīng)特征不同,同一種流體各測井響應(yīng)特征也不完全一致。因此,采用單一測井曲線無法對復(fù)雜儲層流體類型進行劃分,需要多個測井參數(shù)進行學(xué)習(xí)分類獲得學(xué)習(xí)模型,識別油水層。
Figure 5. Resistivity-density crossplot of the study area 圖5. 研究區(qū)電阻率-密度交會圖
Figure 6. Parameter parallel coordinate system after normalization 圖6. 歸一化后的參數(shù)平行坐標(biāo)系
巖石物理是測井評價的基礎(chǔ)。數(shù)字巖心作為一種新的手段,可以彌補常規(guī)巖石物理實驗的不足。Lukas Мosser 等開發(fā)了利用一類無監(jiān)督機器學(xué)習(xí)方法生成對抗網(wǎng)絡(luò)(GAN)進行三維數(shù)字巖心建模的方法。生成對抗網(wǎng)絡(luò)由兩個可區(qū)分的函數(shù)組成:鑒別器D 和生成器G。鑒別器D 接收“真實”數(shù)據(jù)集的樣本數(shù)據(jù)和生成器G 從隱藏的潛在空間Z 中創(chuàng)建的“偽”樣本G(z) (潛在空間Z 由獨立的實際隨機變量組成,通常是正態(tài)或均勻分布的,表示發(fā)生器G 的隨機輸入)。然后生成器G 將潛在空間Z 中的隨機變量映射到空間中生成圖像。GAN 的訓(xùn)練流程如圖7 所示。
Figure 7. GAN training process 圖7. 生成對抗網(wǎng)絡(luò)(GAN)訓(xùn)練流程
在測井解釋中,機器學(xué)習(xí)覆蓋范圍極廣。調(diào)研發(fā)現(xiàn)深度學(xué)習(xí)技術(shù)運用在巖性識別、孔隙度滲透率預(yù)測中,不僅極大地提高了工作的效率,而且識別的準(zhǔn)確率也相當(dāng)高?,F(xiàn)有的機器學(xué)習(xí)應(yīng)用直觀的體現(xiàn)了機器學(xué)習(xí)技術(shù)在測井中的發(fā)展。隨著計算機人工智能等快速發(fā)展,機器學(xué)習(xí)在大量數(shù)據(jù)預(yù)測,數(shù)據(jù)處理過程中具有顯著優(yōu)勢,并且在很大程度上也會帶動測井儀器朝著高精度高維度高分辨率方向發(fā)展。
近年來,機器學(xué)習(xí)在圖像分類方面前景廣闊,況且電成像技術(shù)在測井剖面解釋中直觀的展現(xiàn)了地下地質(zhì)情況,因此將機器學(xué)習(xí)應(yīng)用到電成像裂縫識別中意義重大。深度信念網(wǎng)絡(luò)(機器學(xué)習(xí)中的一種)也可以引入煤田測井?dāng)?shù)據(jù)處理中。相信在不遠的將來,機器學(xué)習(xí)會在更多的地球物理勘探手段中實現(xiàn)更深入的應(yīng)用。