姬建飛,毛 敏,楊 毅,袁勝斌,郭明宇,李戰(zhàn)奎
(1.中法渤海地質(zhì)服務(wù)有限公司,天津 300457;2.中海石油(中國)有限公司天津分公司,天津 300459;3.中海油能源發(fā)展股份有限公司工程技術(shù)分公司,天津 300459)
膠囊網(wǎng)絡(luò)是一種深度學(xué)習(xí)方法,原理是使用兩層向量間的動態(tài)路由機(jī)制算法代替?zhèn)鹘y(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的池化層,能夠較好地表征待識別對象的空間結(jié)構(gòu)關(guān)系[1]。膠囊網(wǎng)絡(luò)深度學(xué)習(xí)方法主要應(yīng)用于計算機(jī)科學(xué)、醫(yī)學(xué)、圖像識別等方面,地質(zhì)學(xué)方面的應(yīng)用極少,尤其是針對儲層流體快速評價方面的應(yīng)用尚未發(fā)現(xiàn)。目前,已有專家及學(xué)者基于錄井資料采用多種數(shù)學(xué)方法在儲層流體性質(zhì)識別方面開展研究,包括Fisher 判別分析、貝葉斯、支持向量機(jī)及神經(jīng)網(wǎng)絡(luò)等方法[2-4],取得了一定的應(yīng)用效果,同時也面臨一些難題,其最主要原因?yàn)閷τ阡浘Y料及其評價參數(shù)在不同儲層流體的關(guān)系挖掘不夠,流體識別準(zhǔn)確率有待提高。膠囊網(wǎng)絡(luò)深度學(xué)習(xí)方法在地質(zhì)領(lǐng)域已有應(yīng)用,與其他學(xué)習(xí)方法的最大不同在于膠囊網(wǎng)絡(luò)能夠提取局部序列結(jié)構(gòu)特征,依靠向量表達(dá)特征信息,運(yùn)用膠囊向量表達(dá)不同目標(biāo)的不變性與共變性特征,這些特征提取與分類方式與儲層流體識別思路有著共同點(diǎn),這些優(yōu)點(diǎn)可以精細(xì)地表征儲層流體與錄井資料評價參數(shù)之間的關(guān)系,最終形成高精度膠囊網(wǎng)絡(luò)識別模型,并實(shí)現(xiàn)高精度流體識別[5-6]。
以渤海海域黃河口凹陷新近系油田群為研究對象,在儲層流體類型識別中引入膠囊網(wǎng)絡(luò)方法,錄井資料特征選取巖屑熒光面積、氣測全量絕對值、氣測組分C1絕對值、氣測全量絕對值與氣測背景值之比、氣測組分C1絕對值與氣測組分C1背景值之比和氣測組分C1占比六種錄井評價參數(shù),構(gòu)建基于膠囊網(wǎng)絡(luò)的儲層流體識別模型,與Fisher 向量距離法進(jìn)行深入的對比分析,探討基于膠囊網(wǎng)絡(luò)的儲層流體識別方法的可行性及有效性,進(jìn)一步提高傳統(tǒng)儲層流體識別方法的準(zhǔn)確率。
膠囊網(wǎng)絡(luò)結(jié)構(gòu)由普通卷積層、初級膠囊層、數(shù)字膠囊層三個部分組成。根據(jù)膠囊網(wǎng)絡(luò)結(jié)構(gòu)所示流程,輸入數(shù)據(jù)通過卷積層提取特征圖后被劃分為多個初級膠囊,再運(yùn)用動態(tài)路由器的算法將初級膠囊再次組合為數(shù)字膠囊,最后將數(shù)字膠囊通過映射的方式進(jìn)行結(jié)果的分類(圖1)。
圖1 膠囊網(wǎng)絡(luò)結(jié)構(gòu)
如圖1 膠囊網(wǎng)絡(luò)結(jié)構(gòu)所示,膠囊網(wǎng)絡(luò)使用兩層卷積結(jié)構(gòu)提取數(shù)據(jù)的淺層特征后將特征圖傳入初級膠囊層進(jìn)行初級膠囊劃分,劃分后的初級膠囊內(nèi)部包含相同維度的向量,這些膠囊向量代表數(shù)據(jù)的通道間信息和局部特征。這些初級膠囊運(yùn)用動態(tài)路由器算法獲取初級膠囊與數(shù)字膠囊的權(quán)重,進(jìn)而聚合為數(shù)字膠囊,主要用來表達(dá)低級膠囊特征的一致性。膠囊向量進(jìn)行非線性映射能夠提升模型的表達(dá)能力,因此需要運(yùn)用激活函數(shù)來將每個節(jié)點(diǎn)的數(shù)據(jù)進(jìn)行非線性映射,這種對膠囊向量使用的激活函數(shù)稱為Squash(v)激活函數(shù)。將Squash(v)激活函數(shù)用于膠囊的輸入向量映射到輸出向量,并有效地壓縮膠囊向量的長度,壓縮后的膠囊向量長度標(biāo)為膠囊的特殊性。Squash(v)激活函數(shù)對于膠囊向量的處理尤其重要。Squash(v)激活函數(shù)公式為:
數(shù)字膠囊層中不同的初級膠囊的特征向量通過動態(tài)路由器算法聚合后形成數(shù)字膠囊特征向量,因此使用高維度的高級膠囊能夠更好地表現(xiàn)低維度的低級膠囊的共性。動態(tài)路由算法將I個初級膠囊聚合成J個數(shù)字膠囊層。首先使用仿射矩陣Wji對初級膠囊的向量做仿射變換得到子膠囊:
每個初級膠囊通過不同的Wji仿射變換得到J個子膠囊。初級膠囊層的I個膠囊經(jīng)過仿射變換后的結(jié)果分組,得到J組(每組I個膠囊),每組初級膠囊組合成一個數(shù)字膠囊。
膠囊層的結(jié)構(gòu)和原理決定了膠囊網(wǎng)絡(luò)具有更強(qiáng)的泛化性。膠囊網(wǎng)絡(luò)的膠囊層中的參數(shù)能夠動態(tài)變化,對于特征的提取有針對性,所形成的模型為動態(tài)模型,始終對數(shù)據(jù)保持高敏感度。其優(yōu)點(diǎn)為當(dāng)同類數(shù)據(jù)存在不同結(jié)構(gòu)時,運(yùn)用每個數(shù)字膠囊代表每一種不同的結(jié)構(gòu),將特征圖分為膠囊并組成數(shù)字膠囊的過程等于將所有樣本按特征劃分成不同的子空間。最終數(shù)字膠囊映射到分類結(jié)果,相當(dāng)于對不同特征的子空間進(jìn)行結(jié)果分類。膠囊網(wǎng)絡(luò)的這些特點(diǎn)使其在多個領(lǐng)域得到廣泛應(yīng)用并取得較好的應(yīng)用效果[9-10]。
行業(yè)內(nèi)對于訓(xùn)練模型的評價參數(shù)主要包括:Accuracy、Precision、Recall、F1-measure,分別代表準(zhǔn)確率、精確率、召回率、F1 得分。所計算的樣本數(shù)據(jù)為以下幾類樣品數(shù)據(jù):第一類樣本(TP),被分類器判斷為正樣本實(shí)際標(biāo)簽為正樣本;第二類樣品(FP),被分類器判定為正樣本實(shí)際標(biāo)簽為負(fù)樣本;第三類樣品(FN),被分類器判定為負(fù)樣本實(shí)際標(biāo)簽為正樣本;第四類樣品(TN),被分類器判定為負(fù)樣本實(shí)際標(biāo)簽為負(fù)樣本。
準(zhǔn)確率(Accuracy)為被分類器確定為正樣本數(shù)所占樣品總數(shù)的比率,公式為:
渤海海域黃河口凹陷油氣資源極為豐富,已鉆井資料揭示,新近系、古近系均發(fā)現(xiàn)了大中型油氣田,油氣藏種類多種多樣,稠油油藏、輕質(zhì)油氣藏均有發(fā)現(xiàn)。以黃河口凹陷新近系為例,油氣時空分布特征復(fù)雜,儲層油氣水關(guān)系的準(zhǔn)確評價難度日趨增大?;阡浘Y料的流體識別方法難以解決儲層流體評價難題,油氣水層快速識別準(zhǔn)確率偏低(低于70%);而基于錄井資料以Fisher 判別分析法構(gòu)造儲層流體評價模型,符合率得到進(jìn)一步提升,整體符合率接近80%。流體識別分類主要為油層、含油水層、水層三類,其主要問題為多變量構(gòu)成的多維空間重疊現(xiàn)場,造成部分井準(zhǔn)確率較低,難以滿足實(shí)際生產(chǎn)需求[11-16]。
訓(xùn)練數(shù)據(jù)是對研究區(qū)37 口井的錄井、測井、測試等資料進(jìn)行統(tǒng)計分析與數(shù)據(jù)處理以滿足膠囊網(wǎng)絡(luò)訓(xùn)練樣本點(diǎn)的數(shù)據(jù)量要求。對于37 口井中的每個樣品點(diǎn),分別選取相鄰垂向上下各5 個樣品點(diǎn)作為區(qū)域序列數(shù)據(jù),所形成的數(shù)據(jù)集作為輸入特征向量,經(jīng)過錄井、測井及測試取樣資料的精細(xì)分析及標(biāo)定,形成381 個樣本數(shù)據(jù),其中氣層21 個樣本,油層140 個樣本,含油水層107 個樣本,水層113個樣本,樣本分布較均衡且具有代表性。選取研究區(qū)二級構(gòu)造帶X 井區(qū)21 口累計132 個樣本為測試數(shù)據(jù),對該數(shù)據(jù)集進(jìn)行流體類型預(yù)測。通過對不同流體類型錄井參數(shù)解析,錄井參數(shù)及其衍生參數(shù)較多,與流體類型識別有一定程度相關(guān)性,通過錄井參數(shù)建立的散點(diǎn)圖對流體識別的不確定性較高。
在基于膠囊網(wǎng)絡(luò)的流體類型識別模型設(shè)計中,由數(shù)字膠囊代表不同流體樣本在空間中的結(jié)構(gòu)特征,數(shù)據(jù)的特征圖被依次提取、組合、劃分為不同膠囊的過程中,完成不同流體樣本的分類。而數(shù)字膠囊最終得到的分類結(jié)果就是其特征空間的分類結(jié)果。膠囊網(wǎng)絡(luò)中子膠囊代表不同時序空間結(jié)構(gòu)和不同垂向空間結(jié)構(gòu),讓模型保持不同特征的高度敏感,在基于錄井資料的不同流體類型識別中可有效解決由時序特征與空間結(jié)構(gòu)造成的精度低的問題。每種流體類型對應(yīng)不同的結(jié)構(gòu),為了提高模型精度,需針對不同流體類型的特征設(shè)計模型。
為了準(zhǔn)確提取數(shù)據(jù)的有效信息,膠囊網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計至關(guān)重要,需結(jié)合錄井?dāng)?shù)據(jù)特征并設(shè)計相應(yīng)的結(jié)構(gòu)。在流體識別的錄井?dāng)?shù)據(jù)集中部分?jǐn)?shù)據(jù)具備結(jié)構(gòu)多樣性,主要為同類流體的不同垂向錄井參數(shù)特征以及不同流體類型交界處的錄井參數(shù)特征基于錄井?dāng)?shù)據(jù)集的多樣性特征,在時序特征的特區(qū)應(yīng)與不同通道的參數(shù)特征相結(jié)合來完成。最大程度地保留樣本點(diǎn)的淺層信息,保證網(wǎng)絡(luò)能夠準(zhǔn)確地識別數(shù)據(jù)中的不同結(jié)構(gòu)。在相鄰流體類型的多樣性結(jié)構(gòu)設(shè)計中,主要利用膠囊網(wǎng)絡(luò)的數(shù)據(jù)膠囊完成,每種數(shù)據(jù)膠囊代表數(shù)據(jù)的不同結(jié)構(gòu)。在膠囊網(wǎng)絡(luò)的結(jié)構(gòu)模型中,數(shù)據(jù)經(jīng)左側(cè)進(jìn)入卷積層后再通過膠囊層到達(dá)分類器完成分類(圖2)。卷積層的目的是提取樣本垂向空間特征,工具為多尺度卷積核,利用卷積層內(nèi)3、5、7 卷積核來提取數(shù)據(jù)時序特征。數(shù)據(jù)由卷積核1 經(jīng)過到2 組多尺度卷積后保留下特征圖,并由卷積核提取其多樣性特征,再次跳躍連接后逐次保留數(shù)據(jù)原始特征,經(jīng)過不同大小的卷積核就留下不同的特征,大大縮減了結(jié)構(gòu)產(chǎn)生的平均化效應(yīng)。為了減小特征的冗繁信息并降低特征的維度,對提取的特征在通過卷積核1 時進(jìn)行通道間的壓縮及融合。根據(jù)初級膠囊與數(shù)字膠囊的動態(tài)路由算法,當(dāng)特征進(jìn)入初級膠囊層時會被再次重新聚合為分別代表著不同錄井參數(shù)結(jié)構(gòu)的高級膠囊。通過全連接層完成數(shù)字膠囊與識別結(jié)果的映射,得到最終的分類結(jié)果。
圖2 儲層流體識別的膠囊網(wǎng)絡(luò)結(jié)構(gòu)
選取研究區(qū)37 口井的錄井資料共計381 個樣本數(shù)據(jù)作為試驗(yàn)數(shù)據(jù)進(jìn)行流體類型識別,分析模型為Fisher 判別分析法及膠囊網(wǎng)絡(luò)法。黃河口凹陷流體錄井識別方法正確率如表1 所示,表中正確率為符合樣本數(shù)與樣本總數(shù)比值。
表1 黃河口凹陷流體錄井識別方法正確率
如表2 所示,膠囊網(wǎng)絡(luò)法與Fisher 向量距離法識別的混淆矩陣中各項(xiàng)評價標(biāo)準(zhǔn)參數(shù)差異明顯,可以準(zhǔn)確地呈現(xiàn)出模型的識別分類與真實(shí)分類的差異。由表2 識別結(jié)果可知,基于膠囊網(wǎng)絡(luò)法提取時序和垂向結(jié)構(gòu)特征的精準(zhǔn)度更高。線性Fisher 判別分析法模型未能提煉錄井評價參數(shù)的差異特征,正確率識別較低,尤其是對樣本數(shù)量較少的氣層流體類型,識別能力較差,該類識別效果不能應(yīng)用于實(shí)際生產(chǎn)(圖3)。膠囊網(wǎng)絡(luò)法正確率較Fisher 判別分析法提高10.23%,表明膠囊網(wǎng)絡(luò)能夠較為精確地識別儲層流體類型,膠囊網(wǎng)絡(luò)法各種流體類型的F1 得分良好,高于Fisher 判別分析法,證明該方法受樣本不均衡影響較小,能夠保證在不同類別的分類結(jié)果中均為精確的識別結(jié)果。
表2 黃河口凹陷膠囊網(wǎng)絡(luò)法與Fisher 判別分析法的混淆矩陣
選取二級構(gòu)造帶X 井區(qū)21 口井累計132 個樣本的錄井評價參數(shù),分別使用Fisher 判別分析法與膠囊網(wǎng)絡(luò)法進(jìn)行流體類型識別,進(jìn)一步證明模型的泛化能力,識別的正確率見表3,表中正確率為符合樣本數(shù)與樣本總數(shù)比值。Fisher 判別分析法沒有考慮錄井參數(shù)的時序特征,且受樣本不均衡影響,對樣本數(shù)量較少的氣層,識別能力較差(圖3);由表4可知,基于膠囊網(wǎng)絡(luò)的錄井流體識別結(jié)果優(yōu)于Fisher判別分析法。卷積神經(jīng)網(wǎng)以神經(jīng)元的形式將特征一個一個地展開,并高效地通過連接層映射到最終的流體類型中,X1 井的實(shí)際應(yīng)用示例可以直觀地反映出兩種評價方法的識別差異(圖4),不同方法識別錯誤的樣品區(qū)域主要為位于不同流體類型交界處和同種流體類型錄井參數(shù)變化異常的區(qū)域。以深度為2 590 m 和2 630 m 附近流體垂向結(jié)構(gòu)為例,錄井評價參數(shù)縱向結(jié)構(gòu)發(fā)生變化,流體類型需要考慮錄井評價參數(shù)的時序特征,膠囊網(wǎng)絡(luò)法在氣層、油層、含油水層交界處識別能力明顯強(qiáng)于Fisher 向量距離判別法。膠囊網(wǎng)絡(luò)法通過數(shù)字膠囊表達(dá)不同錄井參數(shù)的時序特征,在改善流體類型交界處復(fù)雜結(jié)構(gòu)的多樣性識別具有一定的優(yōu)勢。
圖3 黃河口凹陷Fisher 判別分析法的應(yīng)用效果
圖4 膠囊網(wǎng)絡(luò)法與Fisher 判別分析法對X1 井流體識別結(jié)果的流體解釋
表3 二級構(gòu)造帶X 流體錄井識別方法正確率
表4 二級構(gòu)造帶X 膠囊網(wǎng)絡(luò)法與Fisher 判別分析法的混淆矩陣
(1)膠囊網(wǎng)絡(luò)的卷積結(jié)構(gòu)能夠有效提取錄井參數(shù)的局部特征,優(yōu)于常規(guī)的砂泥巖儲層錄井流體識別方法,傳統(tǒng)線性向量距離模型局限于點(diǎn)對點(diǎn)的學(xué)習(xí)模式,無法有效提取錄井評價參數(shù)的局部特征。因此,膠囊網(wǎng)絡(luò)識別流體類型具有一定的優(yōu)勢。
(2)膠囊網(wǎng)絡(luò)法能夠精準(zhǔn)且高效地利用子膠囊劃分不同流體類型,其快速提取錄井評價參數(shù)序列信息的特點(diǎn)對于流體類型交界處的識別效果更好。與Fisher 判別分析法相比較,基于膠囊網(wǎng)絡(luò)的流體識別模型的正確率提高約10%,均高于85%。
(3)基于二級構(gòu)造帶X 井區(qū)中數(shù)據(jù)樣本預(yù)測結(jié)果表明,基于膠囊網(wǎng)絡(luò)的流體識別模型能夠有效挖掘錄井各評價參數(shù)和流體類型之間的關(guān)系,識別正確率較高且具有較強(qiáng)的泛化性,對于膠囊網(wǎng)絡(luò)方法在其他地質(zhì)方面的研究具有一定的借鑒價值。