白洋, 譚茂金* , 肖承文, 韓闖, 武宏亮, 羅偉平, 徐彬森
1 中國地質(zhì)大學(xué)(北京)地球物理與信息技術(shù)學(xué)院, 北京 100083 2 中國石油塔里木油田公司勘探開發(fā)研究院, 新疆庫爾勒 841000 3 中國石油勘探開發(fā)研究院, 北京 100083
致密砂巖氣已成為我國非常規(guī)油氣增儲上產(chǎn)的重要資源,廣泛分布于鄂爾多斯盆地蘇里格地區(qū)、四川盆地廣安地區(qū)、塔里木盆地庫車地區(qū)等.其中,塔里木盆地庫車坳陷致密氣資源賦存潛力大,尤其在侏羅系、白堊系地層深層勘探獲得突破性進(jìn)展.然而,致密砂巖儲層具有物性差、孔隙結(jié)構(gòu)復(fù)雜、非均質(zhì)性強等特征,天然氣對測井響應(yīng)貢獻(xiàn)小,氣水層識別難度大.為此,前人采用并改進(jìn)了多種智能算法進(jìn)行致密砂巖儲層的流體識別,例如Fisher判別(凡睿等,2015)、神經(jīng)網(wǎng)絡(luò)(Tan et al.,2013;陳俊等,2019)、貝葉斯判別(晏信飛等,2012;洪忠等,2015)等.但在實際應(yīng)用中,上述智能算法受限于訓(xùn)練集、超參數(shù)等因素,模型訓(xùn)練難度大、可靠性不好,需要探索和構(gòu)建新的智能算法.
近年來,國內(nèi)外很多學(xué)者采用多種智能算法集成的思想來提升智能模型的整體性能,這種聯(lián)合算法被稱為集成學(xué)習(xí)或委員會機(jī)器(王飛等,2015;王黎雪,2017).這種思想來源于人類的委員會機(jī)制,在算法框架中體現(xiàn)為由輸入層、專家層、組合器和輸出層組成的復(fù)合系統(tǒng)(Ansari,2014).其中,專家層聯(lián)合多種專家(智能算法)進(jìn)行輸入數(shù)據(jù)的訓(xùn)練或預(yù)測,組合器利用投票機(jī)制將上述專家的輸出模型或結(jié)果組合起來,得到最終輸出(Horrocks et al., 2015).這種集成策略有利于提高分類準(zhǔn)確度和模型穩(wěn)定性,但專家自身性能無法被提升,即集成模型的性能提升空間受限,因此稱之為靜態(tài)分類委員會機(jī)器.在上述委員會機(jī)器的基礎(chǔ)上,在輸入層和組合器間并列增加門網(wǎng)絡(luò)可以構(gòu)建門網(wǎng)絡(luò)委員會機(jī)器.然而,這種方法存在收斂難、可解釋性差的問題.因此,針對測井智能流體識別的實際需求,本文構(gòu)建了動態(tài)分類委員會機(jī)器方法.該方法針對輸入數(shù)據(jù)距離特征劃分子數(shù)據(jù)集,再利用專家訓(xùn)練子模型,最后通過組合器對子模型組合進(jìn)行優(yōu)化,達(dá)到訓(xùn)練任務(wù)“分而治之”的效果(Shazeer et al., 2017).這種學(xué)習(xí)方式通過簡化數(shù)據(jù)結(jié)構(gòu)來簡化子模型,有助于提升專家訓(xùn)練模型性能,從而提高分類系統(tǒng)整體的準(zhǔn)確率和穩(wěn)定性,適合于致密砂巖儲層的測井解釋工作.
委員會機(jī)器(committee machine,CM)是Nilsson(1965)為克服多層感知器無自適應(yīng)學(xué)習(xí)規(guī)則而提出的,后來在不同領(lǐng)域的應(yīng)用中發(fā)展出了多種改進(jìn)模型,通常由輸入層、專家層、組合器和輸出層組成(Ghiasi-Freez et al., 2012; Barzegar et al., 2016; Dashti et al., 2018).而門網(wǎng)絡(luò)委員會機(jī)器是Jacobs和Jordan(1991)在委員會機(jī)器的輸入層和組合器間并列增加門網(wǎng)絡(luò)構(gòu)建的學(xué)習(xí)框架,使其能夠自適應(yīng)的計算各專家加權(quán)系數(shù),提升模型的精度(圖1).然而,原方法專家層采用的是相同的單層網(wǎng)絡(luò),專家性能受限,組合效果不佳.而如果僅僅簡單替換專家為不同的、性能更好的專家,又會導(dǎo)致收斂難、可解釋性差的問題.本文在上述學(xué)習(xí)框架的基礎(chǔ)上,與測井流體識別實際問題相結(jié)合,針對實際預(yù)測任務(wù)對各層進(jìn)行了算法設(shè)計與改進(jìn),構(gòu)建了針對致密砂巖含氣性預(yù)測的動態(tài)分類委員會機(jī)器(DCM).
圖1 靜態(tài)委員會機(jī)器基礎(chǔ)上引入門網(wǎng)絡(luò)的動態(tài)委員會機(jī)器學(xué)習(xí)框架(Jacobs et al., 1991a, b,有修改)Fig.1 Dynamic committee machine learning framework that introduces gate network to static committee machine (Jacobs et al., 1991a, b, modified)
輸入層既是委員會機(jī)器數(shù)據(jù)導(dǎo)入的端口,也承擔(dān)輸入數(shù)據(jù)預(yù)處理的任務(wù).針對數(shù)據(jù)預(yù)處理問題,由于不同測井方法對不同流體的測井響應(yīng)存在較大差異,敏感程度不同,篩選對流體敏感的測井系列作為訓(xùn)練輸入有利于后續(xù)專家訓(xùn)練.測井解釋中常用的敏感測井系列篩選方法有圖版法(周永嬌等,2018)、降維分析(丁世村,2014)等,然而這些方法很難表征非線性關(guān)系,實際應(yīng)用效果不好.因此,本研究基于智能算法自身輸入層與輸出層間的響應(yīng)關(guān)系構(gòu)建了新的敏感性評價指標(biāo),即平均影響值(MIV).假設(shè)輸入數(shù)據(jù)的組別序號為i,維數(shù)序號為j,則每個元素可表示為xij.首先利用該數(shù)據(jù)集作為輸入,訓(xùn)練得到一個初始預(yù)測模型I.然后對數(shù)據(jù)集X中的第j維數(shù)據(jù)進(jìn)行一定比例的正擾動和負(fù)擾動,得到數(shù)據(jù)集X+和X-,將兩個擾動數(shù)據(jù)集作為模型I的輸入,得到預(yù)測輸出Y+和Y-.最后根據(jù)式(1)得到對應(yīng)j維度的平均影響值.
MIVj=Ej(Y+-Y-).
(1)
通過上述步驟逐次計算全部測井系列的輸入端變化對輸出端影響程度大小的平均值,可以對不同類型測井?dāng)?shù)據(jù)對初始訓(xùn)練模型的敏感程度進(jìn)行評價.
門網(wǎng)絡(luò)委員會機(jī)器中,門網(wǎng)絡(luò)一般采用模糊C均值聚類算法(FCM聚類),位于輸入層和組合器之間(Rambabu et al.,2020).針對致密砂巖流體識別問題,在動態(tài)分類委員會機(jī)器中,為了加快網(wǎng)絡(luò)收斂,提升組合過程可解釋性,將門網(wǎng)絡(luò)前置于輸入層和專家層間,同時,依然保留門網(wǎng)絡(luò)與組合器間的連通.作為一種典型的門網(wǎng)絡(luò)算法,F(xiàn)CM聚類是在硬C均值聚類的基礎(chǔ)上引入模糊集合理論發(fā)展而來,其通過式(2)反復(fù)迭代聚類中心V和隸屬度矩陣U來優(yōu)化目標(biāo)函數(shù)J,得到最佳聚類結(jié)果(魏友華等,2012).
(2)
式中,M為數(shù)據(jù)集大小,C為聚類類別,q為模糊指數(shù),uik為第i組數(shù)據(jù)屬于k類的隸屬度,xi為第i組數(shù)據(jù),vk為第k類聚類簇的質(zhì)心,‖·‖2為2范數(shù).利用式(3)和式(4)循環(huán)迭代U和V可以使J達(dá)到極小值或滿足終止條件停止迭代.
(3)
(4)
FCM聚類結(jié)果即為目標(biāo)函數(shù)最優(yōu)狀態(tài)下的隸屬度矩陣U和聚類中心V.此外,為了專家層能夠識別輸入數(shù)據(jù),利用隸屬度最大原則進(jìn)行反模糊化可以得到明確劃分的子數(shù)據(jù)集.同時,由于隸屬度表征的是數(shù)據(jù)點與聚類中心的模糊關(guān)系,后續(xù)步驟需要考慮重新恢復(fù)兩者的模糊關(guān)系,構(gòu)建出足夠穩(wěn)健的組合策略(Xing and Hua, 2008).
專家層是動態(tài)分類委員會機(jī)器的主要組成部分,主要承擔(dān)子模型訓(xùn)練和專家預(yù)測結(jié)果輸出的工作.專家層一般由相同類型的專家組成,比如AdaBoost算法(Guo et al., 2016;楊笑等, 2019)和bagging算法(柴明銳等,2017),門網(wǎng)絡(luò)委員會機(jī)器也是采用了相同的單層神經(jīng)網(wǎng)絡(luò).實際上,專家也可以由不同智能算法組成.研究表明,異質(zhì)專家往往比同質(zhì)專家的集成效果更好(周志華,2016).而且,專家間存在足夠的差異,有利于動態(tài)分類委員會機(jī)器專家訓(xùn)練的子模型組合最優(yōu)化.因此,本文采用5種不同的智能算法,即BP神經(jīng)網(wǎng)絡(luò)、概率神經(jīng)網(wǎng)絡(luò)、決策樹、最近鄰算法和貝葉斯分類算法建立專家層.
BP神經(jīng)網(wǎng)絡(luò)也被稱為反向前饋神經(jīng)網(wǎng)絡(luò),是一種應(yīng)用最廣的智能算法.該算法以MP神經(jīng)元模型作為基本構(gòu)成,數(shù)據(jù)前向傳播而誤差反向傳播,通過梯度下降法不斷更新權(quán)重和偏置使得代價函數(shù)最小,主要用于逼近和分類問題(圖2a).概率神經(jīng)網(wǎng)絡(luò)是在徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上結(jié)合貝葉斯算法構(gòu)建而成,省去了模型參數(shù)的迭代步驟,加快收斂的同時仍能保證任意的非線性逼近,主要用于模式分類問題(圖2b).決策樹通過遞歸的方式逐層建立反映屬性與對象值關(guān)系的樹狀結(jié)構(gòu),每個決策節(jié)點通過信息增益或增益率來選擇劃分屬性,從而得到能夠直觀表征映射關(guān)系的樹狀模型(圖2c).最近鄰算法通過記錄樣本點附近屬于某類樣本數(shù)量最多的類別作為該樣本類別,是一種依托特征空間距離的算法,特別適合多分類問題(圖2d).貝葉斯分類算法首先假設(shè)各屬性相互獨立,然后利用概率統(tǒng)計規(guī)律計算某個樣本屬于某一類的概率,最后選擇概率最大的類作為判別結(jié)果,在分布獨立假設(shè)成立時具有顯著的預(yù)測效果(圖2e).
圖2 動態(tài)委員會機(jī)器專家層構(gòu)成(a) BP神經(jīng)網(wǎng)絡(luò); (b) 概率神經(jīng)網(wǎng)絡(luò); (c) 決策樹; (d) 最近鄰算法; (e) 貝葉斯分類算法.Fig.2 Dynamic committee machine expert layer composition(a) BP neural network; (b) Probabilistic neural network; (c) Decision tree; (d) Nearest neighbor algorithm; (e) Bayesian classification.
組合器是動態(tài)分類委員會機(jī)器的核心,一般進(jìn)行專家權(quán)重的計算和分配.本文針對實際測井流體識別問題,為其增加數(shù)據(jù)集-專家適應(yīng)關(guān)系及聯(lián)合適應(yīng)性評價功能.首先,它要對不同專家訓(xùn)練的子模型進(jìn)行評估,得到子數(shù)據(jù)集與專家間的適應(yīng)關(guān)系矩陣D.其次,由于FCM聚類輸出的子數(shù)據(jù)集是模糊集合,而專家訓(xùn)練是利用了最大隸屬度準(zhǔn)則轉(zhuǎn)換得到的明確劃分的子數(shù)據(jù)集,因此組合器需要利用上述隸屬度矩陣重新構(gòu)建數(shù)據(jù)集間的模糊關(guān)系,與適應(yīng)關(guān)系矩陣共同構(gòu)建得到子模型的聯(lián)合適應(yīng)性矩陣D(U).
針對致密砂巖測井解釋流體識別問題,采用上述步驟構(gòu)建出能夠進(jìn)行動態(tài)流體識別的分類委員會機(jī)器(圖3).該委員會機(jī)器首先對輸入數(shù)據(jù)進(jìn)行預(yù)處理,包括歸一化和測井系列敏感性分析;然后對整理好的數(shù)據(jù)集進(jìn)行FCM聚類,得到隸屬度矩陣和對應(yīng)子數(shù)據(jù)集;之后將這些子數(shù)據(jù)集輸入到專家層中,訓(xùn)練得到N個子模型或預(yù)測得到N個輸出序列yn;在此過程中,組合器實時記錄并更新子數(shù)據(jù)集與專家間的適應(yīng)關(guān)系矩陣D;最后根據(jù)得到的適應(yīng)關(guān)系矩陣D和隸屬度矩陣U計算得到子模型和專家間的聯(lián)合適應(yīng)性矩陣D(U),作為權(quán)重進(jìn)行加權(quán)組合得到最終輸出YDCM.
(5)
圖3 針對測井流體識別的動態(tài)分類委員會機(jī)器流程Fig.3 Dynamic classification committee machine structure for logging fluid identification
塔里木盆地北緣庫車坳陷巴什基奇克組為一套扇三角洲前緣亞相砂泥互層沉積,是重要的產(chǎn)氣儲層.該地層以巖屑長石砂巖為主,主要礦物包括石英、斜長石、方解石、鉀長石和黏土礦物,孔隙度介于1.5%~7.5%,滲透率介于1.0×10-5μm2~5.0×10-4μm2,屬于低孔特低滲儲層,物性較差.而且,黏土礦物、氯鹽、地應(yīng)力、地層傾角等因素導(dǎo)致該地區(qū)電阻率異常,增加了儲層流體判別難度.篩選該地區(qū)大北、克深、博孜3個研究區(qū)塊共8口井98層1696組測井?dāng)?shù)據(jù),測井系列包括自然伽馬測井(GR)、陣列感應(yīng)測井(RT10、RT20、RT30、RT60、RT90)、聲波測井(DT)、補償密度測井(DEN)和中子密度測井(CNL),作為訓(xùn)練目標(biāo)的流體類型包括氣層、氣水同層、水層和干層.其中,流體類型標(biāo)簽數(shù)據(jù)為測試數(shù)據(jù)或已明確流體類型地層的數(shù)據(jù).隨機(jī)劃分上述數(shù)據(jù)集中的80%作為訓(xùn)練輸入以得到流體識別模型,其余20%作為驗證集驗證模型性能,利用該模型以BZ9井為例進(jìn)行了流體類型判別.
數(shù)據(jù)預(yù)處理有利于提高智能算法訓(xùn)練效率和模型性能.由于陣列感應(yīng)測井系列數(shù)值上相近,在智能算法訓(xùn)練中容易造成特征冗余,只取更能反映地層電阻率的RT90作為輸入陣列感應(yīng)測井?dāng)?shù)據(jù).而且,還引入能夠反映地層流體特征的陣列感應(yīng)測井幅度差,即ΔRT=RT90-RT10.因此,輸入層共包含6種類型的測井?dāng)?shù)據(jù).利用上述測井?dāng)?shù)據(jù)和標(biāo)簽數(shù)據(jù)構(gòu)建得到1696×6的輸入數(shù)據(jù)集,采用平均影響值法對其進(jìn)行測井系列敏感性分析結(jié)果如表1所示.平均影響值表示輸入樣本數(shù)值成比例的變化對輸出的影響程度,輸入樣本變化程度不同,影響程度也不同.實驗結(jié)果表明,隨著輸入端擾動率從±10%提高到±50%,智能算法輸出的變化也逐漸增大,且變化趨勢相同.
表1 不同測井系列在不同擾動率下的平均影響值Table 1 Mean influence value with different disturbance rates of various logging series
對不同擾動率的影響值求均值,計算不同測井系列影響值的貢獻(xiàn)率,得到反映測井系列對訓(xùn)練目標(biāo)(流體類型標(biāo)簽)敏感程度貢獻(xiàn)的相對大小.根據(jù)敏感程度貢獻(xiàn)從大到小依次采用不同測井系列組合進(jìn)行動態(tài)委員會機(jī)器的訓(xùn)練,并取訓(xùn)練模型驗證準(zhǔn)確率最高的組合作為訓(xùn)練集輸入(圖4).敏感程度從大到小依次為ΔRT、RT90、DEN、DT、CNL、GR.其中,GR對模型輸出端敏感程度最小,是由于GR雖然反映了儲層巖性變化,但訓(xùn)練模型是針對儲層進(jìn)行的(流體類型標(biāo)簽只分布在儲層段),敏感性分析同樣也只針對儲層,因此,GR可被認(rèn)為對儲層流體不敏感.而且,按平均影響值從大到小依次將不同測井系列組合作為動態(tài)分類委員會機(jī)器輸入進(jìn)行訓(xùn)練,驗證集準(zhǔn)確率分別為31.80%、66.15%、77.55%、80.61%、92.76%、84.18%.優(yōu)選準(zhǔn)確率最高的測井系列組合,即ΔRT、RT90、DEN、DT、CNL共5個系列,和對應(yīng)的流體類型標(biāo)簽共同構(gòu)建訓(xùn)練集.預(yù)處理后共得到1696×5的訓(xùn)練數(shù)據(jù),其中氣層數(shù)據(jù)478組,氣水同層數(shù)據(jù)387組,水層數(shù)據(jù)352組,干層數(shù)據(jù)479組.
圖4 不同測井系列的平均影響值貢獻(xiàn)率及測井系列組合訓(xùn)練模型性能對比Fig.4 Contribution rate of mean influence value of various logging series and combination performance of various logging series training model
此外,考慮到量綱和測井?dāng)?shù)值的差異會對訓(xùn)練過程產(chǎn)生較大影響,對輸入數(shù)據(jù)進(jìn)行了歸一化處理.而且,歸一化可以使誤差梯度下降更快,加快智能算法的收斂速度.
以BZ9井為例,首先使用門網(wǎng)絡(luò),即FCM聚類算法對訓(xùn)練輸入和BZ9井測井?dāng)?shù)據(jù)進(jìn)行聚類分析,聚類簇數(shù)量設(shè)定為5,分別對應(yīng)氣層、氣水同層、水層、干層和非儲層.聚類輸出為隸屬度矩陣,采用最大隸屬度原則將其轉(zhuǎn)化為聚類簇得到聚類結(jié)果(表2).將聚類結(jié)果與測井流體識別結(jié)果進(jìn)行對應(yīng)性分析,結(jié)果顯示聚類簇1主要對應(yīng)干層、聚類簇2主要對應(yīng)水層、聚類簇3主要對應(yīng)氣層、聚類簇4對應(yīng)關(guān)系不明顯、聚類簇5主要對應(yīng)非儲層(圖5).總體來看,聚類結(jié)果與流體類型的匹配率僅為60.59%,表明利用無監(jiān)督的聚類算法無法精細(xì)表征儲層流體類型,而將聚類結(jié)果進(jìn)一步通過有監(jiān)督學(xué)習(xí)的方式進(jìn)行調(diào)整,能夠有效實現(xiàn)儲層流體的精細(xì)表征.
表2 聚類隸屬度矩陣及聚類簇劃分部分結(jié)果(井BZ9)Table 2 Partial results of membership matrix and clusters (Well BZ9)
圖5 井BZ9的FCM聚類結(jié)果與測井解釋結(jié)論對應(yīng)關(guān)系Fig.5 Correspondence between FCM clustering results and logging interpretation in Well BZ9
利用FCM聚類后,初始數(shù)據(jù)集被劃分為5個子數(shù)據(jù)集,將這些子數(shù)據(jù)集作為輸入進(jìn)行有監(jiān)督學(xué)習(xí),可以得到子模型.由于子數(shù)據(jù)集中的數(shù)據(jù)結(jié)構(gòu)相對簡單,數(shù)據(jù)方差小,更容易構(gòu)建出高精度、高穩(wěn)定的子模型.圖6是智能算法為決策樹時,隨著聚類簇數(shù)量的增加,子數(shù)據(jù)集不斷分裂,利用這些分裂的子數(shù)據(jù)構(gòu)建的子模型性能發(fā)生分化.一些性能較好的子模型得到保留,而表現(xiàn)較差的子模型被淘汰.實際上,該過程是將與決策樹適應(yīng)性好的數(shù)據(jù)篩選出來,利用這些自動構(gòu)建的子數(shù)據(jù)集實現(xiàn)決策樹訓(xùn)練性能的提升.
圖6 決策樹子模型在不同聚類簇數(shù)量時的準(zhǔn)確率分布Fig.6 Accuracy distribution of decision tree submodels under different numbers of clusters
當(dāng)決策樹算法無法利用圖中負(fù)向更新區(qū)域的數(shù)據(jù)集訓(xùn)練得到較好的子模型時,采用其他智能算法進(jìn)行替換,可以改善模型訓(xùn)練效果.圖7顯示了分別使用決策樹、概率神經(jīng)網(wǎng)絡(luò)、貝葉斯分類、BP神經(jīng)網(wǎng)絡(luò)、最近鄰算法共5種類型的智能算法對子模型組優(yōu)化的結(jié)果.其中,每種類型的智能算法準(zhǔn)確率填充范圍的下限為子模型的最小準(zhǔn)確率,上限為子模型的最大準(zhǔn)確率.子模型組共進(jìn)行了5次優(yōu)化,每次優(yōu)化都有一些子模型的性能更優(yōu),性能較差的子模型被替換,子模型組準(zhǔn)確率范圍得到提升.最終,針對訓(xùn)練集,在聚類簇數(shù)量為5的情況下,最優(yōu)化的流體識別子模型組的準(zhǔn)確率范圍分布在97.63%~100%之間;針對驗證集,最優(yōu)化的子模型組準(zhǔn)確率范圍分布在86.83%~95.83%之間.表3顯示了當(dāng)聚類數(shù)為5時,不同專家針對不同子數(shù)據(jù)集構(gòu)建子模型準(zhǔn)確率的變化,通過5個專家構(gòu)建的25個子模型的最優(yōu)組合可以實現(xiàn)流體識別模型性能最大程度的提升.
圖7 多智能算法聯(lián)合下的子模型組合最優(yōu)化(不同聚類簇數(shù)量的優(yōu)化趨勢)(a)訓(xùn)練集;(b)驗證集.Fig.7 Optimization of submodel combination when multiple intelligent algorithms are integrated (the optimization trend of different numbers of clusters)(a) Training set; (b) Validation set.
表3 訓(xùn)練集和驗證集中的不同專家子模型準(zhǔn)確率(C=5)Table 3 Accuracy of submodels from different experts in the training and validation set (C=5)
上述過程完成了動態(tài)分類委員會機(jī)器子模型的訓(xùn)練、組合和優(yōu)化過程.其中,由于動態(tài)分類委員會機(jī)器的門網(wǎng)絡(luò)采用了模糊聚類算法,在組合器中將隸屬度矩陣與適應(yīng)關(guān)系矩陣組合構(gòu)建的聯(lián)合適應(yīng)關(guān)系矩陣作為加權(quán)因子,對上述最優(yōu)化的子模型組合進(jìn)行加權(quán),建立關(guān)于子模型的模糊關(guān)系并實現(xiàn)動態(tài)分類委員會機(jī)器的最終輸出.動態(tài)分類委員會機(jī)器訓(xùn)練模型的性能采用訓(xùn)練集和驗證集準(zhǔn)確率來評價,其中,訓(xùn)練集準(zhǔn)確率可以表征模型的擬合能力,驗證集準(zhǔn)確率可以表征模型的泛化能力.根據(jù)測井流體識別實際問題,構(gòu)建了如圖8、圖9所示的訓(xùn)練模型性能表征方法.圖8的性能表示方法簡單直接,其表示的分類準(zhǔn)確率信息對模型在訓(xùn)練集中的性能評估是足夠的.對于驗證集,由于其預(yù)測結(jié)果更能表征模型性能,采用圖9中能夠反映更豐富模型信息的混淆矩陣是更為合適的.因此,如圖8所示,展示了訓(xùn)練集中各專家與動態(tài)分類委員會機(jī)器在氣層、氣水同層、水層和干層的訓(xùn)練結(jié)果對比.藍(lán)色柱狀表示正確分類樣本數(shù)量,橘色柱狀表示錯誤分類樣本數(shù)量.其中,決策樹分類模型的準(zhǔn)確率為90.81%,概率神經(jīng)網(wǎng)絡(luò)分類模型的準(zhǔn)確率為89.99%,貝葉斯分類模型的準(zhǔn)確率為92.22%,BP神經(jīng)網(wǎng)絡(luò)分類模型的準(zhǔn)確率為91.92%,最近鄰算法分類模型的準(zhǔn)確率為93.70%,動態(tài)分類委員會機(jī)器的準(zhǔn)確率為96.29%.圖9顯示了驗證集中,各專家與動態(tài)分類委員會機(jī)器輸出的混淆矩陣.藍(lán)色方塊表示正確分類樣本數(shù)量,橘色方塊表示錯誤分類樣本數(shù)量.橫向表示各層標(biāo)簽樣本數(shù)量(真實樣本數(shù)量),縱向表示各層預(yù)測樣本數(shù)量.通過不同層的標(biāo)簽樣本數(shù)量和預(yù)測樣本數(shù)量,可以計算準(zhǔn)確率、精確率、召回率和特異度.為方便對比,當(dāng)只考慮準(zhǔn)確率時,決策樹分類模型的準(zhǔn)確率為80.12%,概率神經(jīng)網(wǎng)絡(luò)分類模型的準(zhǔn)確率為82.79%,貝葉斯分類模型的準(zhǔn)確率為82.49%,BP神經(jīng)網(wǎng)絡(luò)分類模型的準(zhǔn)確率為84.57%,最近鄰算法分類模型的準(zhǔn)確率為86.35%,動態(tài)分類委員會機(jī)器的準(zhǔn)確率為91.39%.
圖8 訓(xùn)練集中專家和動態(tài)分類委員會機(jī)器的分類結(jié)果對比(a) 決策樹; (b) 概率神經(jīng)網(wǎng)絡(luò); (c) 貝葉斯分類; (d) BP神經(jīng)網(wǎng)絡(luò); (e) 最近鄰算法; (f) 動態(tài)分類委員會機(jī)器.Fig.8 Classification results comparison of the experts and dynamic classification committee machine in the training set(a) Decision tree; (b) Probabilistic neural network; (c) Bayesian classifier; (d) BP neural network; (e) Nearest neighbor algorithm; (f) Dynamic classification committee machine.
圖9 驗證集中專家和動態(tài)分類委員會機(jī)器的分類結(jié)果對比(a) 決策樹; (b) 概率神經(jīng)網(wǎng)絡(luò); (c) 貝葉斯分類; (d) BP神經(jīng)網(wǎng)絡(luò); (e) 最近鄰算法; (f) 動態(tài)分類委員會機(jī)器.Fig.9 Classification results comparison of the experts and dynamic classification committee machine in the validation set(a) Decision tree; (b) Probabilistic neural network; (c) Bayesian classifier; (d) BP neural network; (e) Nearest neighbor algorithm; (f) Dynamic classification committee machine.
為了對比流體識別模型效果,分別利用靜態(tài)委員會機(jī)器(驗證集準(zhǔn)確率為85.94%)與上述構(gòu)建的動態(tài)分類委員會機(jī)器對BZ9井進(jìn)行流體類型預(yù)測,預(yù)測結(jié)果如圖10所示.第6道為靜態(tài)委員會機(jī)器(SCM)流體識別結(jié)果,第7道為動態(tài)分類委員會機(jī)器(DCM)流體識別結(jié)果,黃色填充為氣層,橘色填充為氣水同層,藍(lán)色填充為水層,灰色填充為干層,無填充為非儲層.第8道為對應(yīng)的動態(tài)分類委員會機(jī)器解釋結(jié)論,第9道為測井解釋結(jié)論,第11道為測試結(jié)果.其中,SCM與DCM流體識別結(jié)果在圖中序號1~3處存在差異.位置1為7792.30~7794.60 m處,SCM與DCM在干層識別上存在差異,根據(jù)飽和度分析可知DCM識別結(jié)果更為合適;位置2為7809.30~7813.50 m處,SCM識別結(jié)果為氣層、氣水同層和水層相互混雜,DCM識別為氣水同層,更符合氣水分布規(guī)律;位置3為7831.70~7834.80 m處,SCM識別為氣水同層,7832.99 m深度處的MDT測試結(jié)論判斷為水層,與DCM的流體識別結(jié)論一致.
圖10 井BZ9動態(tài)分類委員會機(jī)器(DCM)測井流體識別結(jié)果Fig.10 Logging fluid identification results of dynamic classification committee machine in Well BZ9
利用上述流體識別模型在大北、克深、博孜3個研究區(qū)塊5口井進(jìn)行了流體類型識別,共有測試層數(shù)11個,判別結(jié)果符合率為100%(表4).結(jié)果表明,利用動態(tài)分類委員會機(jī)器可以對致密砂巖儲層進(jìn)行快速的流體識別,識別準(zhǔn)確率高,在該地區(qū)應(yīng)用效果顯著.
表4 庫車大北、克深、博孜區(qū)塊5口井智能流體識別符合率Table 4 Coincidence rate of intelligent fluid identification for 5 wells in Dabei, Keshen and Bozi of Kuqa Depression
本文針對致密砂巖儲層流體識別難題構(gòu)建了分類委員會機(jī)器動態(tài)模型,與其他智能算法相比,該方法克服了智能算法實際應(yīng)用中數(shù)據(jù)集質(zhì)量差或智能算法調(diào)優(yōu)難導(dǎo)致的預(yù)測結(jié)果準(zhǔn)確率低、穩(wěn)定性差、泛
化性能不佳等問題.而且,由于將模糊聚類算法和多智能算法兩種無監(jiān)督和有監(jiān)督學(xué)習(xí)模式很好的結(jié)合在一起,在實際模型訓(xùn)練和預(yù)測中,能夠有效避免人為因素的影響,實現(xiàn)測井資料的動態(tài)分析和解釋.然而,上述過程是通過專家對FCM算法聚類得到的子數(shù)據(jù)集進(jìn)行訓(xùn)練,且多次優(yōu)化對應(yīng)子模型的組合模式,這一過程依賴于模型評價指標(biāo)對所有子模型的遍歷(如訓(xùn)練集準(zhǔn)確率或驗證集準(zhǔn)確率),如何采取更有效的方式更新子模型組合是需要繼續(xù)研究的內(nèi)容.
本文針對致密砂巖儲層,采用門網(wǎng)絡(luò),即模糊聚類得到子數(shù)據(jù)集,通過多種專家多次優(yōu)化子模型,構(gòu)建了動態(tài)分類委員會機(jī)器,能夠根據(jù)輸入數(shù)據(jù)自動對自身結(jié)構(gòu)進(jìn)行調(diào)整.利用該方法在塔里木盆地庫車坳陷大北、克深、博孜地區(qū)致密砂巖流體類型預(yù)測中顯示了較高的準(zhǔn)確度、穩(wěn)定性和泛化能力.
(1)平均影響值是表示測井系列對流體敏感性的指示因子,它通過智能算法輸入端變化對輸出端影響程度的大小來指示敏感性,與智能算法耦合性高,結(jié)果直觀可靠;
(2)門網(wǎng)絡(luò)算法采用模糊C均值聚類算法,能夠較好的實現(xiàn)復(fù)雜學(xué)習(xí)任務(wù)的模糊分割,簡化數(shù)據(jù)結(jié)構(gòu),便于后續(xù)子模型訓(xùn)練;
(3)多專家聯(lián)合能夠有效避免單一智能算法預(yù)測結(jié)果不可靠的問題.利用模糊聚類指導(dǎo)專家聯(lián)合,改進(jìn)了投票策略,進(jìn)一步提升了預(yù)測結(jié)果的準(zhǔn)確率和動態(tài)分類委員會機(jī)器的泛化能力;
(4)組合器對不同專家構(gòu)建的子模型性能進(jìn)行評估,采用“優(yōu)勝劣汰”的策略優(yōu)化子模型組合,有利于全局最優(yōu),比投票法組合效率更高,效果更好;
(5)動態(tài)分類委員會機(jī)器在數(shù)據(jù)預(yù)處理、輸入層、門網(wǎng)絡(luò)、專家層、組合器等階段采用了動態(tài)的數(shù)據(jù)處理、訓(xùn)練和預(yù)測方式,避免了人為因素的影響,實現(xiàn)了致密砂巖流體類型的準(zhǔn)確預(yù)測.