李 健,楊明任,杜玉山,申輝林,劉 麗,孫啟鵬
(1.中國石化勝利油田分公司勘探開發(fā)研究院,山東東營 257015;2.中國石油大學(xué)(華東)地球科學(xué)與技術(shù)學(xué)院,山東青島 266580)
近年來,中國各油田經(jīng)過長期的注水開發(fā)已經(jīng)進(jìn)入中后期階段,復(fù)雜的地質(zhì)條件及過高的注水開發(fā)比例導(dǎo)致水淹問題日益嚴(yán)峻。由于油田的地質(zhì)特征、水驅(qū)開發(fā)及資源條件不同,尚未有一套通用且有效的水淹層測(cè)井識(shí)別方法[1]。用于水淹層識(shí)別的自然電位基線偏移法、徑向電阻率對(duì)比法、傳統(tǒng)的交會(huì)圖技術(shù)等受到儀器精度、測(cè)井環(huán)境等因素的影響效果不佳[2],同時(shí)水淹機(jī)理研究不透徹,測(cè)井響應(yīng)特征復(fù)雜多變,多解性較強(qiáng)。對(duì)于核磁共振測(cè)井等方法雖然對(duì)水淹層識(shí)別精度較高,但成本過高未能廣泛應(yīng)用。
近年來機(jī)器學(xué)習(xí)方法快速發(fā)展,在科學(xué)和工程領(lǐng)域應(yīng)用廣泛并獲得突破性的成果,為提高水淹層的識(shí)別精度提供了新的思路和方法。諸多專家對(duì)此進(jìn)行了深入研究,已將常規(guī)的機(jī)器學(xué)習(xí)方法應(yīng)用于水淹層識(shí)別,如支持向量機(jī)(SVM)[3-4]、模糊邏輯模型(FLM)[5-6]等算法,在一定條件下取得了較好的預(yù)測(cè)效果。馬隴飛等利用決策樹方法有效解決了交會(huì)圖版法存在的多解性問題,且能快速高效地處理大量數(shù)據(jù)并自動(dòng)分類[7-10]。王振偉對(duì)碳酸鹽巖儲(chǔ)層進(jìn)行了分類,針對(duì)不同儲(chǔ)層類型分別建立了水淹層測(cè)井評(píng)價(jià)方法,取得了較好效果[11],但也存在決策樹算法在分類較多時(shí)精度會(huì)下降,支持向量機(jī)算法無法訓(xùn)練大規(guī)模樣本,難以解決多分類等相關(guān)問題。由HINTON 等提出的深度學(xué)習(xí)方法是當(dāng)前機(jī)器學(xué)習(xí)領(lǐng)域最熱門的方向之一,其網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜且具有多個(gè)隱含層,不僅能通過提取每層特征將樣本的原始空間特征轉(zhuǎn)換成新的高維空間特征來表示,還能為數(shù)據(jù)建立更加抽象的特征描述,從而將回歸預(yù)測(cè)或分類問題簡單化且提高準(zhǔn)確性[12-14]。概率神經(jīng)網(wǎng)絡(luò)(PNN)作為深度學(xué)習(xí)的研究熱點(diǎn)之一,其實(shí)質(zhì)是基于貝葉斯最小風(fēng)險(xiǎn)準(zhǔn)則發(fā)展而來的一種并行算法,同時(shí)不像傳統(tǒng)的多層前向網(wǎng)絡(luò)需要用BP算法進(jìn)行反向誤差傳播的計(jì)算,而是完全前向的計(jì)算,其訓(xùn)練時(shí)間短、不易產(chǎn)生局部最優(yōu),且分類正確率較高,可保證獲得貝葉斯準(zhǔn)則下的最優(yōu)解。相比之下,Adaboost 算法作為當(dāng)前深度學(xué)習(xí)分類效果較好的網(wǎng)絡(luò)模型之一,具有分類速度快,可應(yīng)用多個(gè)弱分類器經(jīng)過線性組合成強(qiáng)分類器。
勝利油區(qū)埕島油田注入水主要是以海水、污水混注為主,水淹類型主要是鹽水水淹,地層電阻率隨水淹程度增強(qiáng)呈單調(diào)遞減的特征,但地層電阻率遞減量與水淹程度關(guān)系極其復(fù)雜,至今無有效識(shí)別水淹層及其水淹程度的方法。為此,筆者提出一種基于概率神經(jīng)網(wǎng)絡(luò)的鹽水水淹層識(shí)別方法,并利用Adaboost 算法進(jìn)行對(duì)比分析,在分析測(cè)井特征參數(shù)與水淹程度相關(guān)性基礎(chǔ)上,選取井徑(CAL)、自然電位(SP)、密度(DEN)、深側(cè)向電阻率(Rt)和淺側(cè)向電阻率(RS)等5條敏感曲線的平均值作為輸入?yún)?shù)來預(yù)測(cè)靶區(qū)的水淹級(jí)別,預(yù)測(cè)結(jié)果表明,利用深度學(xué)習(xí)方法中的概率神經(jīng)網(wǎng)絡(luò)算法能有效提高鹽水水淹層識(shí)別精度。
FREUND 等在1999 年提出Boosting 算法[15],該算法在Probably Approximately Correct 學(xué)習(xí)問題框架模型下能提高任意給定弱分類器分類精度,為了解決實(shí)際應(yīng)用中的問題,在2003 年又提出了Adaboost(自適應(yīng)增強(qiáng))算法[16],該算法是一種迭代算法,其預(yù)測(cè)準(zhǔn)確、分類快、幾乎不出現(xiàn)過擬合現(xiàn)象,核心是對(duì)每個(gè)訓(xùn)練樣本賦予相同的初始權(quán)重,每一輪弱分類器訓(xùn)練過后均會(huì)根據(jù)其表現(xiàn)對(duì)每個(gè)錯(cuò)誤分類樣本的權(quán)重作出相應(yīng)調(diào)整,增加錯(cuò)誤分類樣本的權(quán)重,這樣之前出錯(cuò)的訓(xùn)練樣本在下一輪學(xué)習(xí)訓(xùn)練中即可得到更多關(guān)注,按這樣的迭代過程重復(fù)訓(xùn)練出M個(gè)弱分類器,最后進(jìn)行線性加權(quán)組合成一個(gè)強(qiáng)分類器[17](圖1)。
圖1 Adaboost算法原理示意Fig.1 Principle of Adaboost algorithm
輸入過程 假設(shè)給定一個(gè)二類分類的訓(xùn)練樣本為:
其中,每個(gè)樣本點(diǎn)由實(shí)例和標(biāo)記組成。實(shí)例為xi∈X∈Rn,標(biāo)記為yi∈Y∈{-1,1},弱分類器為Gm(x)。
輸出過程 假設(shè)給定一個(gè)強(qiáng)分類器為G(x)。
①訓(xùn)練樣本上的權(quán)值分布為:
②訓(xùn)練樣本各項(xiàng)參數(shù)的計(jì)算與更新
將具有權(quán)值分布Dm的訓(xùn)練樣本用于學(xué)習(xí)訓(xùn)練,得到弱分類器表達(dá)式為:
計(jì)算弱分類器分類目標(biāo)為最小化在權(quán)值分布下訓(xùn)練樣本的分類誤差率:
弱分類器系數(shù)的計(jì)算公式為:
新的訓(xùn)練樣本權(quán)值分布的計(jì)算公式為:
③建立弱分類器的線性組合方程式為:
由(1)—(10)式得到的強(qiáng)分類器表達(dá)式為:
概率神經(jīng)網(wǎng)絡(luò)(Probabilistic Neural Network,簡稱PNN)最早于1990 年由數(shù)學(xué)家SPECHT[18]提出。PNN 是一種基于概率密度函數(shù)且泛化能力很強(qiáng)的神經(jīng)網(wǎng)絡(luò),結(jié)合了徑向基函數(shù)和概率密度函數(shù)的優(yōu)點(diǎn),具有結(jié)構(gòu)簡單、復(fù)雜度低等特性,多用于模式分類,也可用于插值[19]。概率神經(jīng)網(wǎng)絡(luò)由輸入層、模式層、求和層、輸出層等組成(圖2)。
圖2 概率神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of probabilistic neural network
輸入層 輸入層的每個(gè)神經(jīng)元均為單輸入、單輸出,將輸入單元X用分布的方式表示并傳遞給模式層的所有神經(jīng)元,其傳遞函數(shù)是線性的。其中X=[X1,X2,…,Xn]。
模式層 模式層與輸入層之間通過權(quán)重Wij連接,該層第j個(gè)神經(jīng)元的實(shí)際輸入為:
模式層的傳遞函數(shù)用徑向基函數(shù)表示,其表達(dá)式為:
這是PNN 與全連接神經(jīng)網(wǎng)絡(luò)的不同之處,若X和Wij均為統(tǒng)一量綱的單位長度,則(14)式相當(dāng)于:
由于模式層采用的是徑向基非線性函數(shù)映射,可避免反向傳播神經(jīng)網(wǎng)絡(luò)的局部最小值問題[20]。
求和層 求和層具有線性求和功能,有選擇地對(duì)模式層的輸出進(jìn)行求和,計(jì)算屬于未水淹、弱水淹、中水淹、強(qiáng)水淹和特強(qiáng)水淹的概率,計(jì)算公式為:
輸出層 該層具有判決功能,取求和層中最大的一個(gè)作為輸出的類別,計(jì)算公式為:
根據(jù)上述理論研制開發(fā)了概率神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)水淹層處理軟件,為水淹層測(cè)井PNN 自動(dòng)識(shí)別奠定了理論基礎(chǔ)。
對(duì)埕島油田鹽水水淹層進(jìn)行測(cè)井曲線響應(yīng)特征分析發(fā)現(xiàn),每1 條測(cè)井曲線對(duì)水淹層均有或多或少的響應(yīng)特征,但是因?yàn)槊糠N測(cè)井方法均是基于一種物理原理基礎(chǔ)上提取的地球物理測(cè)井信息,所以測(cè)井曲線均不可避免地存在較嚴(yán)重的多解性。為此,根據(jù)埕島油田實(shí)際測(cè)井資料和生產(chǎn)測(cè)試結(jié)論進(jìn)行測(cè)井特征參數(shù)與水淹層產(chǎn)水率的相關(guān)性分析。由于每條測(cè)井曲線在不同水淹級(jí)別的測(cè)井響應(yīng)特征不同,應(yīng)用偏最小二乘法進(jìn)行所有測(cè)井特征參數(shù)與產(chǎn)水率的相關(guān)性分析(圖3)可以看出,水淹層測(cè)井特征參數(shù)相關(guān)性頻率為正值,則表明提取的特征參數(shù)與產(chǎn)水率呈正相關(guān),否則呈負(fù)相關(guān),且水淹層測(cè)井特征參數(shù)相關(guān)性頻率的絕對(duì)值越大表明提取的特征參數(shù)與產(chǎn)水率相關(guān)性越好;自然電位、密度、淺側(cè)向電阻率與產(chǎn)水率的正相關(guān)性最好,而井徑、深側(cè)向電阻率與產(chǎn)水率的負(fù)相關(guān)性最好。由此擇優(yōu)選取上述最能有效反映埕島油田鹽水水淹層測(cè)井響應(yīng)特征的5個(gè)特征參數(shù)對(duì)靶區(qū)鹽水水淹層進(jìn)行識(shí)別。
圖3 測(cè)井特征參數(shù)與產(chǎn)水率相關(guān)性頻率直方圖Fig.3 Correlation frequency between logging characteristic parameters and water cut
測(cè)井曲線歸一化處理將確保各測(cè)井參數(shù)處于規(guī)范的分布范圍內(nèi),使網(wǎng)絡(luò)模型更易學(xué)習(xí)到各參數(shù)之間的關(guān)聯(lián)性。由于各曲線數(shù)據(jù)量綱不一致,在進(jìn)入概率神經(jīng)網(wǎng)絡(luò)和Adaboost算法之前訓(xùn)練樣本和測(cè)試樣本必須進(jìn)行歸一化處理,將其刻度在統(tǒng)一的數(shù)值量綱范圍內(nèi)。對(duì)于近似線性特征的輸入數(shù)據(jù),可采用線性歸一化公式為:
而對(duì)于電阻率曲線等非線性對(duì)數(shù)特征的曲線,可采用對(duì)數(shù)歸一化公式為:
按照埕島油田鹽水水淹級(jí)別標(biāo)準(zhǔn)劃分的5個(gè)水淹級(jí)別(表1),選取靶區(qū)具有代表性的實(shí)際測(cè)井?dāng)?shù)據(jù)作為訓(xùn)練樣本數(shù)組,具體選取了63個(gè)樣本數(shù)據(jù)作為訓(xùn)練樣本,以未水淹、弱水淹、中水淹、強(qiáng)水淹和特強(qiáng)水淹等5個(gè)水淹級(jí)別作為期望輸出向量。在訓(xùn)練過程中將井徑、自然電位、密度、深側(cè)向電阻率和淺側(cè)向電阻率等5條敏感測(cè)井曲線的均值作為輸入?yún)?shù)輸入到概率神經(jīng)網(wǎng)絡(luò)和Adaboost算法中進(jìn)行水淹層識(shí)別,PNN 網(wǎng)絡(luò)模型的權(quán)值是迭代更新的,不斷優(yōu)化平滑因子是訓(xùn)練網(wǎng)絡(luò)模型的核心,盡可能降低訓(xùn)練樣本的誤差,并使用多層感知器優(yōu)化。訓(xùn)練時(shí)使用求和層神經(jīng)元返回的所有訓(xùn)練樣本的所有值來評(píng)價(jià)不同組平滑因子的誤差標(biāo)準(zhǔn)[21]。在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)方面,建立一個(gè)輸入層節(jié)點(diǎn)數(shù)為5、模式層節(jié)點(diǎn)數(shù)為15、求和層節(jié)點(diǎn)數(shù)為10、輸出層節(jié)點(diǎn)數(shù)為5的概率神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),訓(xùn)練網(wǎng)絡(luò)從而得到水淹層識(shí)別的PNN 網(wǎng)絡(luò)模型[22]。Adaboost 算法也采用相同的模型參數(shù)和算法結(jié)構(gòu)以保證訓(xùn)練與預(yù)測(cè)結(jié)果的可靠性與可對(duì)比性。
表1 埕島油田鹽水水淹層劃分標(biāo)準(zhǔn)Table1 Classification standard of saline water flooded layers in Chengdao Oilfield
在網(wǎng)絡(luò)訓(xùn)練完成后進(jìn)行網(wǎng)絡(luò)性能測(cè)試,將每層神經(jīng)元間的連接權(quán)重代回到網(wǎng)絡(luò)中,重新對(duì)訓(xùn)練樣本進(jìn)行水淹層預(yù)測(cè)。從表2 中可以看出,訓(xùn)練樣本的水淹級(jí)別與概率神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果完全相同,證明完善的概率神經(jīng)網(wǎng)絡(luò)和Adaboost算法已訓(xùn)練完成,可以用于測(cè)試樣本的水淹層識(shí)別[23]。
表2 訓(xùn)練樣本的概率神經(jīng)網(wǎng)絡(luò)和Adaboost算法水淹層識(shí)別結(jié)果Table2 Flooded layer identification by probabilistic neural network and Adaboost algorithm of training samples
通過對(duì)網(wǎng)絡(luò)模型泛化后,將訓(xùn)練成功的概率神經(jīng)網(wǎng)絡(luò)和Adaboost 算法用于識(shí)別鹽水水淹層。為此,在靶區(qū)隨機(jī)選取30個(gè)測(cè)試樣本進(jìn)行水淹層實(shí)際預(yù)測(cè)(表3,表4)。從預(yù)測(cè)結(jié)果發(fā)現(xiàn),PNN 模型在靶區(qū)水淹級(jí)別樣本分類正確的有27個(gè)樣本,預(yù)測(cè)準(zhǔn)確率達(dá)到90%;Adaboost 算法在靶區(qū)水淹級(jí)別樣本分類正確的有24 個(gè)樣本,預(yù)測(cè)準(zhǔn)確率達(dá)到80%;PNN模型的水淹層識(shí)別精度提高了10%,錯(cuò)誤分類樣本都集中在中水淹、強(qiáng)水淹和特強(qiáng)水淹級(jí)別,并且預(yù)測(cè)誤差沒有出現(xiàn)水淹級(jí)別跨級(jí)別的現(xiàn)象,取得了理想效果。在水淹層測(cè)井PNN 模型預(yù)測(cè)時(shí),若能選取更具有區(qū)域代表性的學(xué)習(xí)樣本,則將取得更好的水淹層測(cè)井識(shí)別效果[24]。
表3 測(cè)試樣本的概率神經(jīng)網(wǎng)絡(luò)和Adaboost算法水淹層識(shí)別結(jié)果Table3 Flooded layer identification by probabilistic neural network and Adaboost algorithm of testing samples
表4 概率神經(jīng)網(wǎng)絡(luò)與Adaboost算法水淹層預(yù)測(cè)結(jié)果與試油結(jié)論對(duì)比分析Table4 Comparison analysis of flooded layer prediction results from probabilistic neural network and Adaboost algorithm with test results
從靶區(qū)A85 井水淹層測(cè)井解釋成果(圖4)可以看出,測(cè)試井段為1 916.0~1 923.5 m,日產(chǎn)油量為15.2 t/d,日產(chǎn)液量為17.2 t/d,綜合含水率為11.63%,自然伽馬曲線顯示低值且有明顯的正韻律沉積特征,自然電位曲線呈正異常和微弱的基線偏移現(xiàn)象,聲波時(shí)差值呈局部極大,深淺側(cè)向電阻率底部呈低值且有顯著的泥漿低侵特征,呈現(xiàn)典型的弱水淹層特征。依據(jù)變倍數(shù)物質(zhì)平衡法定量計(jì)算的產(chǎn)水率平均為19.15%,測(cè)井定量解釋結(jié)論為弱水淹層,而應(yīng)用PNN 模型和Adaboost 算法對(duì)A85 井測(cè)試井段預(yù)測(cè)水淹級(jí)別均為2,即為弱水淹層,與定量解釋和生產(chǎn)測(cè)試結(jié)論完全一致。
圖4 埕島油田A85井鹽水水淹層測(cè)井預(yù)測(cè)及定量解釋成果Fig.4 Well logging prediction and quantitative interpretation of saline water flooded layers in Well A85 of Chengdao Oilfield
綜上所述,概率神經(jīng)網(wǎng)絡(luò)PNN 模型在埕島油田鹽水水淹層識(shí)別中具有適用性強(qiáng)、應(yīng)用方便、易于實(shí)現(xiàn)、精確度高等特點(diǎn)。
鹽水水淹層電阻率隨水淹程度增強(qiáng)呈現(xiàn)單調(diào)遞減的特征,但地層電阻率遞減量與水淹程度關(guān)系極其復(fù)雜,是鹽水水淹層定量評(píng)價(jià)的關(guān)鍵,至今還沒有有效識(shí)別水淹層及其水淹程度的方法。為此提出的概率神經(jīng)網(wǎng)絡(luò)與當(dāng)前深度學(xué)習(xí)分類效果較好的Adaboost 算法和其他機(jī)器學(xué)習(xí)的分類模型相比,具有訓(xùn)練速度快、結(jié)構(gòu)簡單、分類精度高等特點(diǎn),便于實(shí)現(xiàn)和推廣應(yīng)用。結(jié)合測(cè)井特征參數(shù)和測(cè)試結(jié)論對(duì)判識(shí)樣本進(jìn)行水淹層預(yù)測(cè),結(jié)果表明深度學(xué)習(xí)方法中的概率神經(jīng)網(wǎng)絡(luò)的水淹層預(yù)測(cè)精度提升了10%,可以有效地提高鹽水水淹層識(shí)別精度,為研究區(qū)塊水淹層評(píng)價(jià)提供參考和借鑒;概率神經(jīng)網(wǎng)絡(luò)不僅可以應(yīng)用到水淹層識(shí)別上,還可以應(yīng)用在巖性、裂縫、產(chǎn)能等不同儲(chǔ)層特征參數(shù)的預(yù)測(cè)上,具有較高的理論參考和推廣應(yīng)用價(jià)值。
符號(hào)解釋
D1——權(quán)值集合;
Dm+1——權(quán)值分布;
Dm——權(quán)值集合;
em——分類誤差率;
f(x)——線性函數(shù);
g——徑向基函數(shù);
g(X,Wj)——模式層的輸出;
G(x)——強(qiáng)分類器;
Gm(x)——弱分類器;
Gm(xi)——第i個(gè)弱分類器;
i——序號(hào);
I——分類錯(cuò)誤的樣本;
j——模式層神經(jīng)元個(gè)數(shù);
m,M——弱分類器個(gè)數(shù);
n——第i類的神經(jīng)元個(gè)數(shù);
N——樣本個(gè)數(shù);
P——分類錯(cuò)誤的樣本概率;
Rn——實(shí)數(shù);
T——測(cè)井?dāng)?shù)據(jù)的訓(xùn)練樣本;
Vi——第i類別的輸出;
W——權(quán)值矩陣;
W1i——第i個(gè)樣本點(diǎn)的權(quán)值;
Wj,Wij——模式層與輸入層之間的權(quán)值;
Wmi,Wni——每個(gè)樣本的權(quán)值;
Wm+1,i——第i個(gè)訓(xùn)練樣本的權(quán)值;
Wnj——第n個(gè)標(biāo)記點(diǎn)第j個(gè)神經(jīng)元的權(quán)值;
x——向量集合;
xi——第i個(gè)實(shí)物樣本;
xn——第n個(gè)向量;
Xn——第n個(gè)實(shí)例樣本;
Xi——實(shí)例樣本,i=1,2,…,n;
X——輸入矩陣,樣本集合(測(cè)井?dāng)?shù)據(jù));
X*——經(jīng)過歸一化后的測(cè)井?dāng)?shù)據(jù);
Xmax——測(cè)井曲線的最大值;
Xmin——測(cè)井曲線的最小值;
y——輸出層中的輸出,即為最終預(yù)測(cè)結(jié)果;
yn——第n個(gè)標(biāo)記樣本;
yi——標(biāo)記樣本,i=1,2,…,n;
Y——輸出矩陣,標(biāo)記集合;
Ym——預(yù)測(cè)數(shù)據(jù)值;
Zm——規(guī)范化因子;
Zj——模式層第j個(gè)神經(jīng)元和實(shí)際輸入值;
αm——弱分類器的系數(shù);
σ——平滑參數(shù)。