李春生,張圣權(quán),張 巖,張可佳
(東北石油大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,黑龍江 大慶 163318)
制定科學(xué)的清防垢方案是油田解決采出系統(tǒng)結(jié)垢的主要手段,清、防垢劑的藥量控制是方案實(shí)施的關(guān)鍵,因此更加精確的預(yù)測(cè)加藥量對(duì)油田的穩(wěn)產(chǎn)具有重要意義。
目前,國(guó)內(nèi)外對(duì)清防垢加藥量預(yù)測(cè)主要有以下三個(gè)方向:
(1)室內(nèi)模擬試驗(yàn)。針對(duì)不同油田,室內(nèi)模擬預(yù)測(cè)加藥量。由于不同油田具有差異性,該方法泛化能力弱,可移植性差,難以推廣應(yīng)用。
(2)數(shù)據(jù)分析預(yù)測(cè)。通過挖掘數(shù)據(jù)間的聯(lián)系進(jìn)行數(shù)學(xué)建模,得到加藥量預(yù)測(cè)模型。主要有決策樹、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)等類別。CART多用于分類,處理特征多、相關(guān)性強(qiáng)的數(shù)據(jù)時(shí)準(zhǔn)確率低。SVM難以訓(xùn)練大規(guī)模樣本,難與油田大數(shù)據(jù)匹配。ANN收斂速度慢、易過擬合,在波動(dòng)劇烈時(shí)段常出現(xiàn)較大偏差,且其多數(shù)研究是對(duì)浮選過程加藥量預(yù)測(cè)。
(3)人工經(jīng)驗(yàn)預(yù)測(cè)。通過經(jīng)驗(yàn)預(yù)測(cè)不同結(jié)垢階段的加藥量。該方法具有效率慢、預(yù)測(cè)精度低、清防垢效果差等弊端。
經(jīng)研究發(fā)現(xiàn)隨機(jī)森林回歸應(yīng)用在采出井結(jié)垢預(yù)測(cè)領(lǐng)域效果較好,而結(jié)垢預(yù)測(cè)與加藥量預(yù)測(cè)相似程度較高,通過大量研究,發(fā)現(xiàn)隨機(jī)森林回歸泛化能力強(qiáng)、對(duì)誤差的敏感度不高、可分析特征重要度,且能同時(shí)處理連續(xù)、離散屬性,運(yùn)行效率高。綜上所述,該文應(yīng)用隨機(jī)森林回歸算法進(jìn)行清防垢加藥量預(yù)測(cè)。
隨機(jī)森林是Leo Breiman在21世紀(jì)提出的基于決策樹的機(jī)器學(xué)習(xí)算法,在機(jī)器學(xué)習(xí)算法中,隨機(jī)森林回歸預(yù)測(cè)精度較高,在環(huán)境、電力、醫(yī)學(xué)等領(lǐng)域得到了廣泛應(yīng)用,但將其應(yīng)用在油田領(lǐng)域的卻少之又少。
n
個(gè)樣本,然后按隨機(jī)選取一定數(shù)目特征的方法將n
個(gè)子訓(xùn)練集生成決策回歸樹,以構(gòu)成隨機(jī)森林,最后,對(duì)于n
個(gè)測(cè)試樣本,以每棵決策回歸樹輸出的均值為最終結(jié)果。其示意圖如圖1所示。圖1 隨機(jī)森林回歸示意圖
隨機(jī)森林應(yīng)用隨機(jī)特征子空間和裝袋算法,使模型的泛化能力得到提高。通過研究表明,決策樹的數(shù)量、最大特征數(shù)和樹最大深度對(duì)隨機(jī)森林回歸模型的預(yù)測(cè)影響很大,所以這三個(gè)參數(shù)的取值至關(guān)重要。
影響模型效果的因素有很多,其中最為關(guān)鍵的就是參數(shù)選擇,它可以有效避免過擬合,從而提高模型的泛化能力。在機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)中常用K折交叉驗(yàn)證的方法評(píng)價(jià)模型的泛化能力,K折交叉驗(yàn)證基本流程如下:
(1)將原始訓(xùn)練集進(jìn)行互不相交的劃分處理,分成K
個(gè)子集;(2)將K
個(gè)子集中的K
-1份取出,用于訓(xùn)練,剩余1份用于測(cè)試;(3)重復(fù)K
次訓(xùn)練,將各次指標(biāo)的均值作為交叉驗(yàn)證模型的指標(biāo)。網(wǎng)格搜索是一種調(diào)參方法,通過指定參數(shù)值,循環(huán)遍歷參數(shù)范圍,采用交叉驗(yàn)證方法得到最優(yōu)參數(shù)。該方法既簡(jiǎn)單又高效,同時(shí)又有很強(qiáng)的通用性,因此,該文采用網(wǎng)格搜索算法進(jìn)行參數(shù)選擇,進(jìn)而得到參數(shù)最優(yōu)的模型。
在評(píng)價(jià)模型時(shí),采取通用的模型精度和效率作為評(píng)價(jià)指標(biāo),作為模型結(jié)論與實(shí)際值的吻合程度的衡量標(biāo)準(zhǔn)。
(1)模型精度。
平均相對(duì)誤差MRE和確定性系數(shù)R是評(píng)價(jià)模型預(yù)測(cè)精度的兩個(gè)主要指標(biāo),MRE越小、R越大,則模型精度越高。
(1)
(2)
(2)模型效率。
模型效率主要以模型的訓(xùn)練時(shí)間作為評(píng)價(jià)依據(jù),訓(xùn)練時(shí)間越短,則模型效率越高。
E
,對(duì)樣本特征值a
增加噪聲干擾,現(xiàn)模型的袋外誤差為E
,則該特征的重要度F
為:(3)
其中,K
為模型先驗(yàn)輸入的特征集。經(jīng)過對(duì)油田專家充分的調(diào)研和實(shí)驗(yàn)分析,選取預(yù)測(cè)加藥濃度、實(shí)際加藥濃度、計(jì)算排量等20種特征因素作為特征分析對(duì)象。表1列出了選取出的具體特征因素。
表1 特征因素選取
其中采出井的生產(chǎn)數(shù)據(jù)、藥劑濃度、加藥泵流量、加藥泵計(jì)算排量屬于數(shù)值型特征,其余為非數(shù)值型特征。該文對(duì)非數(shù)值型特征進(jìn)行量化,轉(zhuǎn)化為數(shù)值型特征并放入“[]”中。例如:“預(yù)測(cè)結(jié)垢類型”取值為“[1,2]”,分別代表2種結(jié)垢類型:碳酸鹽垢、硅酸鹽垢;“藥劑類型”取值為“[1,2,3]”,分別代表3種藥劑類型:碳酸鹽防垢劑、硅酸鹽防垢劑、緩釋阻垢劑;“結(jié)垢階段”的取值為“[1,2,3]”,代表3種結(jié)垢階段:結(jié)垢前期、結(jié)垢中期、結(jié)垢后期;“加藥類型”取值為“[1,2]”,代表2種加藥類型:井口加藥、計(jì)量間加藥;“加藥方式”取值為“[1,2,3,4]”,代表4種加藥方式:間歇加藥、集中加藥、連續(xù)點(diǎn)滴加藥、清防一體加藥。
根據(jù)隨機(jī)森林基本原理,隨機(jī)森林回歸預(yù)測(cè)清防垢加藥量的模型構(gòu)建流程如圖2所示。
圖2 隨機(jī)森林回歸模型預(yù)測(cè)流程
由圖2可知,隨機(jī)森林回歸預(yù)測(cè)清防垢加藥量的模型構(gòu)建的具體步驟如下:
步驟一:特征選取與預(yù)處理。根據(jù)經(jīng)驗(yàn)選取輸入特征,收集數(shù)據(jù)并進(jìn)行預(yù)處理,得到樣本集。
步驟二:網(wǎng)格搜索及交叉驗(yàn)證??煞譃橐韵?個(gè)子步驟:
(1)將樣本集劃分為訓(xùn)練集和測(cè)試集,對(duì)訓(xùn)練集進(jìn)行K
折劃分;(2)根據(jù)經(jīng)驗(yàn)和特征維度設(shè)定網(wǎng)格搜索的參數(shù)范圍,設(shè)定決策樹數(shù)量n
、最大特征數(shù)m
、樹最大深度d
;(3)選取訓(xùn)練集中的任意K
-1折數(shù)據(jù);(4)選取網(wǎng)格搜索范圍內(nèi)的任一組參數(shù),從選取的K
-1折數(shù)據(jù)中有放回地抽取樣本數(shù)據(jù)(等于樣本總數(shù))作為單棵決策樹的樣本;(5)利用網(wǎng)格搜索參數(shù)中的特征集選擇方法從特征集中選取z
個(gè)特征,當(dāng)樹深小于樹最大深度時(shí),根據(jù)最優(yōu)分支特征和分割點(diǎn),將該節(jié)點(diǎn)樣本分支到下一層兩個(gè)節(jié)點(diǎn)中,直到達(dá)到預(yù)定的樹的棵數(shù)n
;(6)對(duì)上述隨機(jī)森林預(yù)測(cè)剩余的一折數(shù)據(jù)進(jìn)行計(jì)算,得出預(yù)測(cè)數(shù)據(jù)的確定性系數(shù),將其作為評(píng)價(jià)指標(biāo);
(7)重復(fù)步驟(4)~(6),完成測(cè)試集數(shù)據(jù)K
-1種組合的遍歷,計(jì)算出所有組合的評(píng)價(jià)指標(biāo),并求其平均值,作為該組參數(shù)所確定的模型的評(píng)價(jià)指標(biāo);(8)重復(fù)步驟(3)~(6),直到遍歷網(wǎng)格搜索的所有參數(shù)組合,選取最優(yōu)的模型參數(shù)。
步驟三:構(gòu)建隨機(jī)森林回歸模型。根據(jù)步驟(8)選取的最優(yōu)參數(shù),對(duì)測(cè)試集的所有數(shù)據(jù)重復(fù)步驟(5)建立隨機(jī)森林回歸模型。
步驟四:特征篩選。整理樣本的各個(gè)特征取值,并對(duì)其進(jìn)行噪聲處理,用公式(3)計(jì)算各個(gè)特征的重要度。
步驟五:將特征重要度比較高的t
個(gè)特征篩選出來,重復(fù)步驟二,構(gòu)建參數(shù)優(yōu)化后的隨機(jī)森林回歸模型。步驟六:輸入測(cè)試集數(shù)據(jù),得到每棵樹的回歸結(jié)果,進(jìn)行取均值操作,最終得到模型預(yù)測(cè)結(jié)果。
該文選取大慶市某采油廠某三元復(fù)合驅(qū)區(qū)塊的189口采出井2020年1月至9月的清防垢數(shù)據(jù),先驗(yàn)輸入特征選取結(jié)垢預(yù)測(cè)數(shù)據(jù)、生產(chǎn)數(shù)據(jù)及加藥數(shù)據(jù)等20維數(shù)據(jù),其中,訓(xùn)練集為9月1日零時(shí)前的數(shù)據(jù),共6 086個(gè),測(cè)試集為9月1日零時(shí)后的數(shù)據(jù),共764個(gè)。
參數(shù)設(shè)定的范圍決定了網(wǎng)格搜索計(jì)算的時(shí)間,范圍越大,計(jì)算時(shí)間就越長(zhǎng)。該文根據(jù)經(jīng)驗(yàn)確定了決策樹數(shù)量的范圍,參考樣本條件確定了最大特征數(shù)和樹最大深度的范圍,設(shè)定參數(shù)范圍如表2所示。最終通過計(jì)算,得到各個(gè)參數(shù)在訓(xùn)練集上的交叉驗(yàn)證表現(xiàn)情況,其中交叉驗(yàn)證分?jǐn)?shù)最高為0.531 0,對(duì)應(yīng)的參數(shù)如下:決策樹數(shù)量為27,最大特征數(shù)為12,樹最大深度為3。
表2 初始模型參數(shù)設(shè)定
通過網(wǎng)格搜索確定參數(shù)后,改變訓(xùn)練集各個(gè)特征的取值,得到各特征的重要性,分別如圖3所示。
圖3 特征重要度分布
由該結(jié)果可知原特征集20維特征中重要性最高的為預(yù)測(cè)日當(dāng)天的計(jì)算排量數(shù)據(jù),其次為前一天的實(shí)際加藥量數(shù)據(jù),剩余18項(xiàng)特征的重要性排序依次為:實(shí)際加藥濃度、預(yù)測(cè)加藥濃度、泵流量和前兩天實(shí)際加藥量數(shù)據(jù),而其他14項(xiàng)特征與預(yù)測(cè)日實(shí)際加藥量的關(guān)聯(lián)性較低,不會(huì)對(duì)加藥量預(yù)測(cè)模型效果產(chǎn)生影響,所以將這14項(xiàng)特征進(jìn)行剔除。最終選取輸入特征6個(gè),分別為預(yù)測(cè)日當(dāng)天的計(jì)算排量數(shù)據(jù)、前一天的實(shí)際加藥量數(shù)據(jù)、實(shí)際加藥濃度、預(yù)測(cè)加藥濃度、泵流量和前兩天實(shí)際加藥量數(shù)據(jù)。
利用網(wǎng)格搜索方法,計(jì)算各個(gè)參數(shù)在新的樣本訓(xùn)練集上的交叉驗(yàn)證得分情況,其中交叉驗(yàn)證分?jǐn)?shù)最高為0.592 0,對(duì)應(yīng)的參數(shù)為決策樹數(shù)量為44,最大特征數(shù)為3,樹最大深度為4。參考上述結(jié)果,選取最優(yōu)參數(shù)如表3所示。
表3 預(yù)測(cè)模型參數(shù)設(shè)定
為了避免隨機(jī)森林回歸在構(gòu)建模型過程中的隨機(jī)性,該文進(jìn)行了60次試驗(yàn),得到所有結(jié)果中的最小值、最大值及平均值,如表4所示。其中指標(biāo)MSE、R分別為預(yù)測(cè)集上的均方誤差、確定性系數(shù),time、oobscore分別為模型運(yùn)行時(shí)間和袋外誤差。
表4 隨機(jī)森林模型預(yù)測(cè)結(jié)果統(tǒng)計(jì)
從表4得知,R的平均值為0.763,說明模型的精度較高,oobscore的平均值達(dá)到了0.835,說明模型的泛化能力較強(qiáng),因此,模型的預(yù)測(cè)結(jié)果是比較穩(wěn)定的。
為了驗(yàn)證特征篩選方法和隨機(jī)森林回歸模型在清防垢加藥量預(yù)測(cè)的實(shí)用效果,該文使用相同數(shù)據(jù)集進(jìn)行相同次數(shù)的訓(xùn)練實(shí)驗(yàn),分別利用人工神經(jīng)網(wǎng)絡(luò)回歸模型、支持向量機(jī)回歸模型、決策回歸樹進(jìn)行預(yù)測(cè),得出了各個(gè)模型在最優(yōu)參數(shù)下的預(yù)測(cè)結(jié)果,數(shù)據(jù)如表5所示。其中RFR代表未經(jīng)特征篩選,RFR’代表經(jīng)過特征篩選。
表5 模型預(yù)測(cè)結(jié)果對(duì)比
整體分析以上預(yù)測(cè)結(jié)果可以得出如下結(jié)論:
(1)從模型預(yù)測(cè)的平均誤差來看,經(jīng)特征篩選后的隨機(jī)森林模型取得了最高的預(yù)測(cè)精度,與ANN、CART和SVR相比,平均誤差分別減少了25.3%、34.4%和24.4%;未經(jīng)特征篩選的隨機(jī)森林模型預(yù)測(cè)精度也比較高,比ANN、CART和SVR的平均誤差分別減少了23.7%、33%和23%;
(2)從特征篩選的結(jié)果來看,經(jīng)特征篩選后的隨機(jī)森林模型的預(yù)測(cè)精度更高,平均誤差較未經(jīng)特征篩選的隨機(jī)森林回歸模型減小了1.86%,證明了特征篩選對(duì)提高模型的預(yù)測(cè)精度具有一定作用;
(3)在訓(xùn)練時(shí)間方面,人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)的訓(xùn)練時(shí)間是隨機(jī)森林模型的幾十倍,說明隨機(jī)森林模型計(jì)算效率更高,具有明顯的時(shí)間優(yōu)勢(shì),更適合大規(guī)模樣本的訓(xùn)練。
綜上所述,經(jīng)特征篩選后的隨機(jī)森林回歸模型比其他預(yù)測(cè)模型具有更強(qiáng)的優(yōu)越性。
該文將隨機(jī)森林回歸應(yīng)用于復(fù)合驅(qū)清防垢加藥量的預(yù)測(cè),為了提高預(yù)測(cè)精度,通過隨機(jī)森林特征重要性評(píng)估功能對(duì)輸入的20維特征進(jìn)行篩選,以此來剔除不必要的干擾項(xiàng),分析清防垢數(shù)據(jù)特點(diǎn),完成加藥量預(yù)測(cè)模型的構(gòu)建。對(duì)于模型的預(yù)測(cè)結(jié)果,通過真實(shí)數(shù)據(jù)進(jìn)行驗(yàn)證,證實(shí)該模型預(yù)測(cè)精度高、穩(wěn)定性強(qiáng),并且經(jīng)過特征篩選后,模型預(yù)測(cè)精度更高。因此,將基于隨機(jī)森林回歸的預(yù)測(cè)模型應(yīng)用于清防垢作業(yè)中來解決加藥量預(yù)測(cè)問題是一種切實(shí)可行的思路和方法。