蒲堡萍, 魏建光*, 周曉峰, 尚德淼
(1.陸相頁巖油氣成藏及高效開發(fā)教育部重點(diǎn)實(shí)驗(yàn)室, 大慶 163711; 2.東北石油大學(xué)石油工程學(xué)院, 大慶 163319)
據(jù)估計(jì),約2/3的石油在初次生產(chǎn)后留在油藏中[1]。低滲透砂巖儲(chǔ)層是可觀的采油儲(chǔ)層,但由于儲(chǔ)層物性、化學(xué)劑、注入能力等因素的限制,化學(xué)驅(qū)在低滲透儲(chǔ)層的應(yīng)用較少。低滲透儲(chǔ)層非均質(zhì)性顯著,油層的非均質(zhì)性及水油的黏度差導(dǎo)致注入水前緣不規(guī)則,出現(xiàn)水未波及區(qū)的剩余油和水波及區(qū)的殘余油。因此,以提高宏觀波及系數(shù)為主,以提高微觀洗油效率為輔,主要利用聚合物增加注入水的黏度,降低油水流度比,提高波及系數(shù),可有效提高采收率[2]。
前人研究中,在現(xiàn)場規(guī)模應(yīng)用前,提出的化學(xué)提高采收率方案都要進(jìn)行實(shí)驗(yàn)室評(píng)估[3-6]。巖心驅(qū)替實(shí)驗(yàn)需要耗費(fèi)研究人員大量的時(shí)間、精力和成本,而機(jī)器學(xué)習(xí)可以成為提高篩選效率和研究變量關(guān)系的更快速、準(zhǔn)確、智能的方式,從而解決這些問題。研究表明,對(duì)低滲透油藏的采收率預(yù)測分為現(xiàn)場生產(chǎn)資料預(yù)測和實(shí)驗(yàn)室數(shù)據(jù)預(yù)測?,F(xiàn)場預(yù)測可以直接促進(jìn)粗放調(diào)整生產(chǎn)[7-10],實(shí)驗(yàn)室預(yù)測可以促進(jìn)精細(xì)油藏科學(xué)問題研究[11]。目前,學(xué)者們針對(duì)現(xiàn)場預(yù)測的研究較多,而關(guān)于實(shí)驗(yàn)室預(yù)測研究較少。機(jī)器學(xué)習(xí)方法已經(jīng)廣泛應(yīng)用于石油工程領(lǐng)域,巖心化學(xué)驅(qū)替實(shí)驗(yàn)為增產(chǎn)措施提供第一手資料。但由于天然巖心不易獲得且實(shí)驗(yàn)過程耗時(shí)較長,礦場在未取得實(shí)驗(yàn)數(shù)據(jù)時(shí)憑借經(jīng)驗(yàn)開始采取增產(chǎn)措施,缺乏科學(xué)的決策過程。因此,建立可靠有效的采收率預(yù)測模型對(duì)化學(xué)驅(qū)方案快速的實(shí)施,給予決策科學(xué)的論證過程及可靠的采收率數(shù)據(jù),促進(jìn)實(shí)驗(yàn)變量關(guān)系的進(jìn)一步探索具有重要意義。但目前針對(duì)不同機(jī)器學(xué)習(xí)算法進(jìn)行低滲透砂巖聚合物驅(qū)替實(shí)驗(yàn)預(yù)測模型的綜合比較研究鮮見報(bào)道,尚未建立實(shí)驗(yàn)-模型一體化研究體系。
鑒于此,首先進(jìn)行了3個(gè)聚合物驅(qū)替實(shí)驗(yàn)項(xiàng)目獲取實(shí)驗(yàn)數(shù)據(jù),其次構(gòu)建14種機(jī)器學(xué)習(xí)模型進(jìn)行評(píng)估,最后選出最優(yōu)的模型進(jìn)行特征重要性分析,建立可靠有效的采收率預(yù)測模型。研究成果有助于篩選聚合物驅(qū)方案和研究影響采收率的元素,穩(wěn)健且快速地在低滲透儲(chǔ)層應(yīng)用。
如圖1所示,主要的實(shí)驗(yàn)材料和條件:50 mD滲透率的天然露頭方巖心,巖心尺寸為4.5 cm(長) × 4.5 cm(寬) × 30 cm(高);模擬地層油45 ℃下黏度為9.7 mPa·s;粉狀抗鹽中分JD1200-1600;模擬地層水礦化度為2 520 mg/L(弱礦化水);恒溫箱實(shí)驗(yàn)溫度為45 ℃。
圖1 實(shí)驗(yàn)主要材料Fig.1 Principal experimental materials
如圖2所示,主要的實(shí)驗(yàn)裝置:ZMY型致密巖心滲流特性測定儀(海安石油科研儀器有限公司);恒速恒壓注入泵;DF-101S集熱式恒溫加熱磁力攪拌器;EUROSTART 20攪拌器;FY-ZK型抽真空預(yù)處理系統(tǒng)(南通市飛宇石油科技開發(fā)有限公司);并聯(lián)巖心夾持器;滲透率自動(dòng)測定儀。
圖2 實(shí)驗(yàn)主要設(shè)備裝置Fig.2 Principal experimental equipments
設(shè)計(jì)了單巖心不同聚合物注入量驅(qū)油實(shí)驗(yàn)5組,不同聚合物注入濃度驅(qū)油實(shí)驗(yàn)5組,如表1所示。聚合物最大注入量為0.3 PV,最小注入量為0.1 PV,注入量增量為0.05 PV。聚合物溶液質(zhì)量最高注入為2 500 mg/L,最低注入為500 mg/L,注入增量有兩種步長,分別為700 mg/L和300 mg/L。為了控制注入速度剪切變量,將聚合物溶液注入速度定為0.1 mL/min。此外,設(shè)計(jì)了并聯(lián)巖心不同變異系數(shù)(0.4 、0.7)條件下驅(qū)油實(shí)驗(yàn)2組,考察聚合物在非均質(zhì)儲(chǔ)層對(duì)驅(qū)油效果的影響。
表1 聚合物不同注入量和濃度實(shí)驗(yàn)方案Table 1 Experimental schemes of different injection amounts and concentrations of polymers
1.3.1 單巖心不同聚合物注入量
①測量實(shí)驗(yàn)用巖心的基本物性參數(shù),如表2所示;②實(shí)驗(yàn)準(zhǔn)備工作,安裝雙向閥檢查裝置氣密性;③抽真空并飽和水,抽真空時(shí)間為48 h;④飽和模擬地層油,并放置45°恒溫箱熟化48 h;⑤水驅(qū)至平均含水率達(dá)98%,恒速驅(qū)替0.01 mL/min;⑥抗鹽中分JD1200-1600不同聚合物注入量驅(qū)替(0.1、0.15、0.2、0.25、0.3 PV);⑦后續(xù)水驅(qū)至含水率達(dá)98 %。實(shí)驗(yàn)步驟及過程狀態(tài)如圖3所示。
表2 聚驅(qū)注入量和注入濃度實(shí)驗(yàn)巖心基礎(chǔ)參數(shù)Table 2 Core basic parameters of polymer flooding injection amount and injection concentration experiment
圖3 實(shí)驗(yàn)步驟及過程狀態(tài)Fig.3 Experimental phases and state of the process
1.3.2 單巖心不同聚合物濃度
①測量實(shí)驗(yàn)用巖心的基本物性參數(shù);②重復(fù)1.3.1節(jié)的步驟②~步驟⑤;③抗鹽中分JD1200-1600不同聚合物注入濃度驅(qū)替(500、1 200、1 800、2 500 mg/L);④后續(xù)水驅(qū)至含水率達(dá)98 %。實(shí)驗(yàn)步驟及過程狀態(tài)如圖3所示。
1.3.3 雙管并聯(lián)巖心不同變異系數(shù)
①篩選驅(qū)油實(shí)驗(yàn)用巖心;②配置模擬地層水,地層水礦化度2 520 mg/L,模擬地層油,45 ℃條件下模擬地層油黏度為9.7 mPa·s;③利用手搖泵對(duì)巖心加圍壓維持在5 MPa;④利用真空泵對(duì)巖心抽真空48 h;⑤利用手搖泵飽和地層水,以壓力表讀數(shù)維持在0.5 MPa不變停止飽和過程;⑥飽和模擬地層油,驅(qū)替至出口端不再產(chǎn)水為止。之后將巖芯夾持器放置于45°恒溫箱熟化48 h;⑦按照不同實(shí)驗(yàn)方案,采用恒速進(jìn)行巖心水驅(qū)油實(shí)驗(yàn),并聯(lián)驅(qū)油實(shí)驗(yàn)時(shí),注入端統(tǒng)一注、采出端單獨(dú)計(jì)量;⑧利用抗鹽中分JD1200-1600聚合物驅(qū)替,聚合物濃度1 500 mg/L、注入量0.2 PV;⑨后續(xù)水驅(qū)至含水率達(dá)到98 %,每隔一定時(shí)間記錄出口端采油量、采水量和注入壓力,當(dāng)采出端綜合含水率連續(xù)3個(gè)點(diǎn)達(dá)到98 %時(shí),終止實(shí)驗(yàn)。不同變異系數(shù)條件下巖心基礎(chǔ)參數(shù)如表3所示。
表3 不同變異系數(shù)條件下巖心基礎(chǔ)參數(shù)Table 3 Core foundation parameters under different coefficient of variation
原始數(shù)據(jù)來自1.3節(jié)3個(gè)實(shí)驗(yàn)。收集的數(shù)據(jù)集涉及395條數(shù)據(jù)記錄,這些數(shù)據(jù)記錄分為訓(xùn)練集(80%)和測試集(20%)。特征輸入數(shù)據(jù)由9個(gè)影響因素組成:聚合物濃度、聚合物注入量、變異系數(shù)、滲透率、孔隙度、聚合物類型、注入壓力、累計(jì)注入孔隙量、含水率。唯一輸出目標(biāo)為采收率。原始數(shù)據(jù)基本統(tǒng)計(jì)描述如表4所示。
表4 原始數(shù)據(jù)基本統(tǒng)計(jì)描述Table 4 Basic statistical description of original data
使用隨機(jī)森林填補(bǔ)法進(jìn)行缺失值處理,它具備隨機(jī)性和不確定性,更加符合真實(shí)數(shù)據(jù)分布。
使用皮爾遜相關(guān)系數(shù)計(jì)算,用熱力圖呈現(xiàn)圖像,并用歐氏距離及內(nèi)平方距離法進(jìn)行聚類優(yōu)化相關(guān)系數(shù)等級(jí)。如圖4所示,滲透率與孔隙度的相關(guān)性最高,含水率與采收率相關(guān)0.85,在低滲透注水油藏中每日配注水應(yīng)格外注意吸水。此外,聚合物濃度與壓力相關(guān)0.62,這是因?yàn)榫酆衔锓舛铝溯^高滲透層,阻力系數(shù)變大,壓力升高。值得注意的是,低滲透油藏普遍存在聚合物注入困難,殘余阻力系數(shù)應(yīng)小于10?;魻枌?dǎo)數(shù)是一種新的注入能力評(píng)價(jià)方法[12],該方法已應(yīng)用于俄羅斯蘇托爾明斯克油田二元復(fù)合驅(qū)。此外,皮爾遜只能表示線性相關(guān),而非因果關(guān)系。皮爾遜相關(guān)系數(shù)的計(jì)算公式為
圖4 變量之間的皮爾遜相關(guān)性Fig.4 Pearson relationship among variables
(1)
針對(duì)不同的機(jī)器學(xué)習(xí)算法特性進(jìn)行歸一化或標(biāo)準(zhǔn)化處理,計(jì)算公式為
(2)
(3)
式中:(Xmin,Xmax)取值范圍為(0,1),其中,Xmin為最小特征值;Xmax為最大特征值;Xstd為離散標(biāo)準(zhǔn)化;Xscaled為特征相對(duì)縮放;X為特征值;μ為樣本平均值;S為標(biāo)準(zhǔn)偏差;Z為標(biāo)準(zhǔn)化。
通過標(biāo)準(zhǔn)化計(jì)算,特征值被定心和縮放,平均值和標(biāo)準(zhǔn)偏差被存儲(chǔ)。
對(duì)離散數(shù)值進(jìn)行分類標(biāo)簽編碼或熱獨(dú)碼處理。分類標(biāo)簽的內(nèi)涵為對(duì)原始數(shù)據(jù)進(jìn)行集合運(yùn)算,并且將順序標(biāo)簽映射到對(duì)應(yīng)的數(shù)值。若存在矩陣[145.0 140.0 38.5 … 38.5],經(jīng)過順序分類標(biāo)簽后轉(zhuǎn)變?yōu)閇0 1 2 … 2]。
熱獨(dú)碼的內(nèi)涵為每個(gè)類別創(chuàng)建一個(gè)二進(jìn)制列,返回稀疏矩陣或密集數(shù)組。若存在2個(gè)特征向量PV[0.2 0.1 0.15]和PC[1 500 500]
則有寄存器狀態(tài)矩陣為
(4)
式(4)中:第一排數(shù)字編碼00101表示Line0攜帶PV2=PV[2]?PV=0.15(聚合物注入量0.15 PV)和PC1=PC[1]?PC=500(聚合物濃度500 mg/L)特征信息,它擴(kuò)展了離散特征的歐式空間。
應(yīng)用孤立森林算法檢測異常值。在驅(qū)油物理實(shí)驗(yàn)過程中,設(shè)備故障或不穩(wěn)定時(shí)獲取的數(shù)據(jù)可能存在異常。孤立森林算法核心在于,假定隨機(jī)超平面劃分(蒙特卡洛)數(shù)據(jù)空間,密度低的數(shù)據(jù)將被孤立,而密度高的點(diǎn)將被多次劃分。
在這項(xiàng)工作中,應(yīng)用6類機(jī)器學(xué)習(xí)算法來討論在低滲透砂巖聚合物驅(qū)預(yù)測的表現(xiàn):線性回歸、最近鄰回歸、支持向量回歸、神經(jīng)網(wǎng)絡(luò)回歸、獨(dú)立樹回歸、集成樹回歸。
使用Python編程語言,Visual Studio Code編輯器,scikit-learn、tensorflow、xgboost、scipy.stats、matplotlib、pandas、numpy、tpot軟件包,graphviz,draw.io軟件,以及自定義模塊來輔助完成這項(xiàng)工作。
簡單線性回歸在石油開發(fā)領(lǐng)域的應(yīng)用是有限的,因?yàn)樵诖蠖鄶?shù)情況下,存在多個(gè)相關(guān)變量的預(yù)測。多元線性回歸用于對(duì)多個(gè)獨(dú)立預(yù)測變量和單個(gè)因結(jié)果變量之間的關(guān)系進(jìn)行建模。這種方法的優(yōu)點(diǎn)是可以更準(zhǔn)確地理解每個(gè)單獨(dú)因素與結(jié)果的關(guān)聯(lián)[13]。它還可以理解所有因素作為一個(gè)整體與結(jié)果的關(guān)聯(lián),以及各種預(yù)測變量本身之間的關(guān)聯(lián)。
將訓(xùn)練集使用多元線性回歸模型(multiple linear regression model,LR)初步擬合,而模型的最優(yōu)參數(shù)是在自定義函數(shù)下獲得的,并進(jìn)行預(yù)測。除此之外,使用了最小絕對(duì)收縮和選擇算子模型(least absolute shrinkage and selection operator,Lasso)、嶺回歸模型(ridge regression,Ridge)和彈性網(wǎng)絡(luò)回歸模型(elastic net regression,EN)。它們之間的區(qū)別在于懲罰項(xiàng),即損失函數(shù)。Lasso使用L1正則化、Ridge使用L2正則化、EN使用L1或L2正則化。
K鄰近算法(k nearest neighbor,KNN)可用于回歸和分類問題。它通過重新采樣將當(dāng)前特征向量對(duì)應(yīng)于為特征空間的一點(diǎn),用加權(quán)樣本表示它的K個(gè)最鄰近時(shí)間,并假設(shè)依賴于一個(gè)基于已知的歐幾里得距離,從而得到類別標(biāo)簽或者預(yù)測值[14]。利用自定義函數(shù)和超參數(shù)網(wǎng)格搜索,將權(quán)重與k值聯(lián)合優(yōu)化,最終確定使用p=2歐式距離以及最優(yōu)的k為2。
支持向量機(jī)(support vector machine,SVM)最近在模式識(shí)別和函數(shù)逼近應(yīng)用中引起了極大的興趣。支持向量回歸(support vector regression,SVR)是從支持向量機(jī)發(fā)展而來。SVR的優(yōu)勢在于模型對(duì)異常值具有魯棒性,具有全局最優(yōu),并且支持在高維構(gòu)建非線性關(guān)系,具備較好的泛化能力[15]。
使用徑向基函數(shù)(radial basis function,RBF)擬合模型。RBF通過測量輸入向量和徑向基函數(shù)中心之間的歐幾里得距離來發(fā)揮作用,并在隱藏層中執(zhí)行非線性變換。超參數(shù)由網(wǎng)格搜索進(jìn)行優(yōu)化選擇懲罰因子C和Gamma函數(shù)。參數(shù)先驗(yàn)設(shè)置為0.001≤C≤10 000和0.001≤Gamma≤100,如圖5所示。
圖5 懲罰因子和Gamma的變化對(duì)R2的影響(訓(xùn)練集)Fig.5 Influence of penalty factor and change in Gamma on R2 (training set)
多層感知機(jī)(multilayer perceptron,MLP)也稱為前饋神經(jīng)網(wǎng)絡(luò),被廣泛應(yīng)用在分類或回歸問題。MLP的輸出由隱藏層節(jié)點(diǎn)的輸出的線性組合產(chǎn)生,其中每個(gè)神經(jīng)元通過函數(shù)映射輸入的加權(quán)平均值[16]。
MLP模型基礎(chǔ)計(jì)算公式為
Out=F[∑(WX)+b]
(5)
式(5)中:Out為輸出向量;W為每一層神經(jīng)元之間的權(quán)重;X為輸入變量;b為偏置向量;F為隱藏層內(nèi)激活函數(shù)。
使用修正線性單元(linear rectification function,ReLU)作為激活函數(shù),本質(zhì)為分段線性函數(shù),將所有負(fù)值轉(zhuǎn)變?yōu)?,這稱為單側(cè)抑制。它在避免梯度爆炸和梯度消失問題具有優(yōu)勢,適合采收率預(yù)測,因?yàn)椴墒章什粸樨?fù)數(shù)。ReLU定義為
F[∑(WX)+b]=max[0,∑(WX)+b]
(6)
采用自適應(yīng)矩估計(jì)(adaptive moment estimation optimizer,Adam)優(yōu)化器,一種基于低階矩自適應(yīng)估計(jì)的隨機(jī)目標(biāo)函數(shù)一階梯度優(yōu)化算法。它適用于非平穩(wěn)目標(biāo)、噪音和稀疏梯度的情況。在非均質(zhì)聚合物調(diào)驅(qū)實(shí)驗(yàn)中,高、低滲透層的分流采收率變化較大的,因此Adam優(yōu)化器可以有效捕捉這些差異。
本文模型由一個(gè)輸入層(21個(gè)神經(jīng)元)、2個(gè)隱藏層,分別具有128、32個(gè)神經(jīng)元和一個(gè)輸出層組成。在分析中,學(xué)習(xí)率和一階矩向量指數(shù)衰減率的網(wǎng)絡(luò)參數(shù)分別設(shè)置為0.001和0.9。
決策樹(decision tree,ET)屬于非監(jiān)督算法,應(yīng)用于回歸或分類問題,是數(shù)據(jù)挖掘中常用的技術(shù)。它表示屬性和對(duì)象的映射關(guān)系。每個(gè)節(jié)點(diǎn)代表對(duì)象,決策點(diǎn)表示預(yù)測值[17]。值得注意的是,決策樹的預(yù)測為分段常數(shù)近似,而非連續(xù)。它屬于貪婪算法,通過局部最優(yōu)逼近整體最優(yōu)。但有時(shí)它并不能達(dá)到全局最優(yōu),集成樹算法可以優(yōu)化此問題。
在初步建模中,樹枝無限分級(jí)的最大深度為16,空間及時(shí)間消耗較大且泛化能力較弱,在模型剪枝中優(yōu)化確定最大深度超參數(shù)為8。
引導(dǎo)聚類算法分別為:袋裝分類器(bagging classifier,Bag)、隨機(jī)森林(random forest,RF)和極限隨機(jī)樹(extra tree,ET)。
Bag通常引入相同的樣本大小,有放回地(含原始值的3/4和剩余1/4的隨機(jī)選擇替換)。每個(gè)引導(dǎo)樣本都有弱分類器,它可以是線性回歸或決策樹算法。對(duì)于回歸問題,最終模型是基于所有獨(dú)立分類器的預(yù)測平均值構(gòu)建的。
RF是引導(dǎo)聚集算法的一種應(yīng)用。它的優(yōu)勢在于可以處理高維度數(shù)據(jù),無需降維,與單一決策樹相比不容易過擬合,并且可以判斷特征重要性。通常情況下,需要隨機(jī)抽樣訓(xùn)練決策樹,隨機(jī)選擇屬性節(jié)點(diǎn)分裂屬性(重復(fù)),最后直到不能分裂,建立大量決策樹形成森林。使用網(wǎng)格交叉驗(yàn)證搜索找到超參數(shù)的最佳值。
與Bag和RF相比,ET也是裝袋算法的應(yīng)用,它將每顆決策樹組合在一起獲得最好的預(yù)測結(jié)果。同樣,使用網(wǎng)格交叉驗(yàn)證搜索最佳超參數(shù)。
假設(shè)存在一顆隨機(jī)向量樹Θ,使得預(yù)測樹h(X,Θ)可以用數(shù)值表示。假設(shè)訓(xùn)練集獨(dú)立于隨機(jī)向量Y、X,那么預(yù)測值h(X)的均方泛化誤差可表示為
EX,Y[Y-h(X)]2
(7)
通過取第k顆樹的平均值來形成{h(X,Θk)}。當(dāng)森林中的樹木趨向于無窮大時(shí),有
(8)
將式(8)表示PE*(forest)作為向量森林的泛化誤差,其中,forest為向量森林;PE*為泛化誤差;ak為第k顆樹的平均值;Θk為第k顆向量樹;EΘ為隨機(jī)向量Θ的概率平均值。
因此將向量樹tree的平均泛化誤差定義為
PE*(tree)=EΘEX,Y[Y-h(X,Θ)]2
(9)
假設(shè)對(duì)于所有Θ,EY=EXh(X,Θ)有
(10)
討論3種提升算法,分別為:自適應(yīng)提升(adaptive boosting,AB)、梯度提升(gradient boosting,GB)和極限梯度提升(extreme gradient boosting,XGB)。
提升方法和裝袋方法一樣,屬于集成弱分類器方法,比獨(dú)立分類器更可靠。一般情況下,提升方法通過加法模型將基礎(chǔ)模型進(jìn)行線性結(jié)合,每次訓(xùn)練將篩選偏差更小的模型并提升權(quán)重,迭代此過程最終使得訓(xùn)練數(shù)據(jù)擬合而沒有明顯的錯(cuò)誤。
AB模型遵循此原則,很好地利用了弱分類器進(jìn)行級(jí)聯(lián)。通過先驗(yàn)值最終確定估計(jì)器為150和學(xué)習(xí)率為0.1。
GB模型通過在之前建立模型損失函數(shù)的梯度下降方向建立模型,即通過優(yōu)化損失函數(shù)來生成模型。使用先驗(yàn)值確定損失類型、學(xué)習(xí)率和估計(jì)器分別為平方誤差、0.1和100。
XGB模型遵循梯度提升原理,并且它使用了帶正則項(xiàng)的目標(biāo)函數(shù)來避免過擬合,采用近似分割算法(全局和局部)和列壓縮存儲(chǔ)來減少計(jì)算量提速,應(yīng)用稀疏感知來處理缺失值問題[18]。使用隨機(jī)搜索來尋找最佳超參數(shù)。
假設(shè)IL和IR分別為二叉樹分裂后的左節(jié)點(diǎn)和右節(jié)點(diǎn),則令I(lǐng)=IL∪IR,分裂后的損失減少定義為
(11)
式(11)中:I為當(dāng)前節(jié)點(diǎn)的實(shí)例集;gi為一階梯度統(tǒng)計(jì)量(二階泰勒展開);hi為二階梯度統(tǒng)計(jì)量;λ為葉子權(quán)重懲罰因子,γ為葉子數(shù)懲罰因子。
此外,提取分裂點(diǎn)。令集合Dk={(x1k,hn),(x2k,hn),…,(xnk,hn)}表示第k個(gè)特征值和二階梯度統(tǒng)計(jì)量。
定義一個(gè)秩函數(shù)表示特征值k小于z的實(shí)例的比例為
(12)
式(12)中:z為輸入樹集合;x為特征值;h為二階梯度度量。
秩函數(shù)的目標(biāo)是找到分裂點(diǎn){sk1,sk2,…,skl},減少計(jì)算和提速,使得
(13)
XGB模型通過篩選每棵樹的最小損失和分裂點(diǎn)增加預(yù)測值準(zhǔn)確度和提高計(jì)算速度。
選擇5個(gè)指標(biāo)作為模型的評(píng)估標(biāo)準(zhǔn)。平均絕對(duì)誤差(mean absolute error,MAE)計(jì)算公式為
(14)
均方誤差(mean square error,MSE)是對(duì)MAE的補(bǔ)充,其內(nèi)涵為預(yù)測值與真實(shí)值的偏差,越小則表明預(yù)測值越接近真實(shí)值。
(15)
平均絕對(duì)百分比誤差(mean absolute percentage error,MAPE)與量綱無關(guān),對(duì)負(fù)值誤差的懲罰大于正值誤差,取值越小越準(zhǔn)確。
(16)
均方根誤差(root mean square error,RMSE)表示預(yù)測值與真實(shí)值的樣本標(biāo)準(zhǔn)差,對(duì)離群點(diǎn)有更大的懲罰。
(17)
決定系數(shù)(coefficient of determination,R2)是準(zhǔn)確度參數(shù),計(jì)算公式為
(18)
建立14種模型來驗(yàn)證最佳的性能,并在模型的基礎(chǔ)上分析特征參數(shù),模型評(píng)價(jià)結(jié)果如表5、圖6和圖7所示,根據(jù)決定系數(shù)可知,LR模型是預(yù)測能力最差的模型。如圖8、圖9所示,MLP模型、XGB模型和RF模型在預(yù)測階段表現(xiàn)出色。這3種模型幾乎完美的捕捉到采收率實(shí)際值,不足之處在于RF與XGB模型在雙管并聯(lián)巖心變異系數(shù)較大時(shí),分流轉(zhuǎn)向點(diǎn)的采收率誤差較大,而MLP模型捕捉的采收率誤差較小。這意味著神經(jīng)網(wǎng)絡(luò)在預(yù)測非均質(zhì)性巖心分流轉(zhuǎn)向性有潛力,預(yù)測能力更強(qiáng)大,但MLP模型的復(fù)雜程度(計(jì)算時(shí)間與儲(chǔ)存空間)比RF與XGB模型大。在模型表達(dá)上RF與XGB比MLP模型更簡潔,對(duì)計(jì)算機(jī)硬件要求更低,穩(wěn)定性更強(qiáng),更容易解釋模型結(jié)果。盡管預(yù)測數(shù)據(jù)局部存在誤差,但這是由于數(shù)據(jù)量太小所致,當(dāng)有充足的數(shù)據(jù)量支持時(shí)誤差將會(huì)減小。
表5 14種模型泛化性能評(píng)價(jià)指標(biāo)(測試集)Table 5 Evaluation indexes of generalization performance of 14 models (test set)
圖6 14種模型評(píng)價(jià)性能對(duì)比(測試集)Fig.6 Comparative evaluation performance of 14 models (test set)
圖7 11種模型在訓(xùn)練集及測試集與實(shí)際值的對(duì)比散點(diǎn)圖Fig.7 Scatter diagrams of 11 models in the drive and test set with respect to actual values
圖8 表現(xiàn)最佳的3種模型在測試集預(yù)測實(shí)際值能力圖Fig.8 Capability map of the three best performing models to predict actual values in the test set
圖9 預(yù)測性能最好的3種模型預(yù)測值與實(shí)際值散點(diǎn)對(duì)比圖Fig.9 Dispersion comparison between predicted and actual values for the three best predictor models
當(dāng)進(jìn)行采收率預(yù)測時(shí),對(duì)比3種模型的5項(xiàng)性能評(píng)價(jià)指標(biāo),如表5所示,RF、XGB和MLP模型5項(xiàng)指標(biāo)差異非常小,這表明結(jié)果相當(dāng)穩(wěn)定與可靠。根據(jù)感興趣的觀測點(diǎn)繪制趨勢差異圖,如圖8所示,可以看出,在觀測點(diǎn)20~30預(yù)測值與實(shí)際值之間存在波動(dòng),這與聚合物封堵高滲透層使流量轉(zhuǎn)向低滲透層有關(guān)。如圖10所示,實(shí)驗(yàn)室采收率數(shù)據(jù)分布與XGB模型數(shù)據(jù)分布幾乎一致,這從概率統(tǒng)計(jì)學(xué)表明模型十分可靠。并且采收率服從非參數(shù)核平滑分布,正態(tài)分布無法準(zhǔn)確描述采收率數(shù)值分布,這也解釋了多元線性回歸模型R2僅為0.795,因?yàn)椴墒章什皇呛唵尉€性分布。此外,觀察到采收率最大分布在30%~35%,表明此區(qū)塊大規(guī)??刹捎推款i采收率為35%,調(diào)驅(qū)后部分最大可動(dòng)油約為45%。
柱狀圖為散點(diǎn)分布數(shù)量統(tǒng)計(jì);藍(lán)色曲線為非參數(shù)核平滑分布圖10 采收率數(shù)據(jù)集分布散點(diǎn)及分布圖Fig.10 Distribution distribution and distribution diagram of the retrieval factor dataset
此外,對(duì)比了3種模型的絕對(duì)誤差分布,如圖11所示,XGB模型的誤差離群點(diǎn)最少,高度集中在-0.5 ~ 0.5,呈對(duì)稱分布整體可靠度最高;RF模型次之,誤差離群點(diǎn)較多,負(fù)數(shù)一側(cè)比正數(shù)一側(cè)多,表示了比實(shí)際值更低的采收率;MLP模型誤差的離群點(diǎn)多,統(tǒng)計(jì)分布表明正數(shù)一側(cè)較多,意味著比實(shí)際值更高的采收率,3種模型的誤差均呈正態(tài)分布,表示良好的模型適用性。
藍(lán)色曲線為正態(tài)分布圖11 絕對(duì)誤差散點(diǎn)及分布圖Fig.11 Scatter and distribution diagram of absolute errors
如表5所示,3種模型的決定系數(shù)均為0.99,表現(xiàn)出特征值對(duì)采收率的解釋程度,該模型的參考價(jià)值高。RF、XGB和MLP的平均絕對(duì)MAPE分別為0.016、0.019和0.037,它是模型預(yù)測值準(zhǔn)確性的統(tǒng)計(jì)標(biāo)準(zhǔn),越小越準(zhǔn)確。MAE表明模型具有描述采收率的精確度,RMSE表明模型具備良好的測量精密度。
聚合物在低滲透砂巖驅(qū)替中的采收率,與儲(chǔ)層物性(滲透率、孔隙度、變異系數(shù))、外來流體(聚合物濃度、聚合物注入量、聚合物類型)和油藏指標(biāo)(含水率、累計(jì)注入孔隙體積、壓力)的關(guān)系是復(fù)雜的。因此,研究不同的機(jī)器學(xué)習(xí)的結(jié)果是必要的,選出預(yù)測準(zhǔn)確度最高的3種模型來分析聚合物驅(qū)在低滲透油藏中采收率的影響。
如圖12所示,XGB模型特征重要性表明,含水率與累計(jì)注入孔隙量在采收率貢獻(xiàn)中占比0.6和0.225,這與注水開發(fā)補(bǔ)充油藏能量一致[19]。含水率隨聚合物濃度增加而降低,注入聚合物通過增加黏度來減少含水率,濃度越高含水率降幅越大。
圖12 XGB模型與RF模型特征重要性Fig.12 Important characteristics of the XGB and RF models
(19)
式(19)中:fw為含水率,%;Qw為產(chǎn)水量,cm3;Qo為產(chǎn)油量,cm3;Kw為水相滲透率,mD;Ko為油相滲透率,mD;μw為水的黏度,mPa·s;μo為油的黏度,mPa·s。
XGB模型捕捉到含水率特征變量對(duì)于采收率的重要性,不僅在數(shù)值上幾乎完美的預(yù)測變化而且與油層物理采油過程相契合。
RF模型特征重要性基本與XGB模型相一致,值得注意的是RF模型提高了孔隙度的重要性,削弱了非均質(zhì)性的重要性,這可能表明精細(xì)油藏在采收率貢獻(xiàn)上具有潛力。
將MLP模型的神經(jīng)網(wǎng)絡(luò)可視化,如圖13所示。可以推斷,聚合物濃度為1 500 mg/L、非均質(zhì)系數(shù)0.7、注入壓力和累計(jì)注入孔隙體積對(duì)模型比較重要,并且聚合物濃度1 500 mg/L產(chǎn)生積極影響,非均質(zhì)系數(shù)0.7產(chǎn)生積極與消極影響,因?yàn)樵诔跏甲⑺畷r(shí),高滲透層的采收率占據(jù)主導(dǎo)地位,此時(shí)為積極影響,而低滲透層貢獻(xiàn)較少,此時(shí)為消極影響。注入壓力與累計(jì)注入孔隙體積協(xié)同積極或消極。
PC_2500表示聚合物溶液濃度2 500 mg/L;PT_JD1200-1600和PT_DQ-10表示聚合物名稱;VF_0.7表示變異系數(shù)0.7;PV_0.3表示注入聚合物溶液劑量0.3 PV圖13 MLP模型連接21個(gè)輸入特征和第一個(gè)隱藏層(128個(gè)神經(jīng)元)的權(quán)重Fig.13 Weight of the MLP model connecting 21 input features and the first hidden layer (128 neurons)
對(duì)某低滲透砂巖試驗(yàn)區(qū)進(jìn)行室內(nèi)大型巖心聚合物驅(qū)替實(shí)驗(yàn),篩選395條真實(shí)有效的實(shí)驗(yàn)數(shù)據(jù)?;隍?qū)替物理過程,建立了14種應(yīng)用廣泛的機(jī)器學(xué)習(xí)預(yù)測采收率模型,并對(duì)它們進(jìn)行了評(píng)估,得到以下結(jié)論。
(1)室內(nèi)天然巖心化學(xué)驅(qū)替實(shí)驗(yàn)是低滲透儲(chǔ)層開發(fā)重要的環(huán)節(jié),給予增產(chǎn)措施關(guān)鍵的參數(shù)。建立巖心驅(qū)替關(guān)系預(yù)測模型和數(shù)據(jù)庫可促進(jìn)化學(xué)驅(qū)篩選效率,并且建立的模型可在相似區(qū)塊充當(dāng)“先知”,快速科學(xué)的得到關(guān)鍵參數(shù)及采收率,避免經(jīng)驗(yàn)主義,為昂貴和費(fèi)時(shí)的物理實(shí)驗(yàn)爭取時(shí)間和節(jié)約成本。
(2)所構(gòu)建的14種機(jī)器學(xué)習(xí)預(yù)測模型中,隨機(jī)樹、多層感知機(jī)和極限梯度提升模型表現(xiàn)性能很好,可以較好地捕捉驅(qū)油采收率變化,它們在測試集的確定系數(shù)均為0.99,表明較高的變量解釋程度。隨機(jī)樹模型采收率預(yù)測的均方根誤差僅為0.836%,多層感知機(jī)為0.855%、極限梯度提升為0.859%,表明采收率預(yù)測值較高的測量精密度。
(3)隨機(jī)樹和極限梯度提升模型特征重要性表明影響采收率數(shù)值由強(qiáng)至弱分別為:含水率、累積注入孔隙體積、滲透率、非均質(zhì)系數(shù)、孔隙度、聚合物注入量、聚合物濃度、注入壓力。多層感知機(jī)第一個(gè)隱藏層權(quán)重表明累積注入孔隙體積與壓力對(duì)采收率有重大影響。