• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于隨機(jī)森林回歸的清防垢加藥量預(yù)測(cè)方法

    2022-02-22 12:20:40李春生張圣權(quán)張可佳
    關(guān)鍵詞:藥量結(jié)垢森林

    李春生,張圣權(quán),張 巖,張可佳

    (東北石油大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,黑龍江 大慶 163318)

    0 引 言

    制定科學(xué)的清防垢方案是油田解決采出系統(tǒng)結(jié)垢的主要手段,清、防垢劑的藥量控制是方案實(shí)施的關(guān)鍵,因此更加精確的預(yù)測(cè)加藥量對(duì)油田的穩(wěn)產(chǎn)具有重要意義。

    目前,國(guó)內(nèi)外對(duì)清防垢加藥量預(yù)測(cè)主要有以下三個(gè)方向:

    (1)室內(nèi)模擬試驗(yàn)。針對(duì)不同油田,室內(nèi)模擬預(yù)測(cè)加藥量。由于不同油田具有差異性,該方法泛化能力弱,可移植性差,難以推廣應(yīng)用。

    (2)數(shù)據(jù)分析預(yù)測(cè)。通過挖掘數(shù)據(jù)間的聯(lián)系進(jìn)行數(shù)學(xué)建模,得到加藥量預(yù)測(cè)模型。主要有決策樹、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)等類別。CART多用于分類,處理特征多、相關(guān)性強(qiáng)的數(shù)據(jù)時(shí)準(zhǔn)確率低。SVM難以訓(xùn)練大規(guī)模樣本,難與油田大數(shù)據(jù)匹配。ANN收斂速度慢、易過擬合,在波動(dòng)劇烈時(shí)段常出現(xiàn)較大偏差,且其多數(shù)研究是對(duì)浮選過程加藥量預(yù)測(cè)。

    (3)人工經(jīng)驗(yàn)預(yù)測(cè)。通過經(jīng)驗(yàn)預(yù)測(cè)不同結(jié)垢階段的加藥量。該方法具有效率慢、預(yù)測(cè)精度低、清防垢效果差等弊端。

    經(jīng)研究發(fā)現(xiàn)隨機(jī)森林回歸應(yīng)用在采出井結(jié)垢預(yù)測(cè)領(lǐng)域效果較好,而結(jié)垢預(yù)測(cè)與加藥量預(yù)測(cè)相似程度較高,通過大量研究,發(fā)現(xiàn)隨機(jī)森林回歸泛化能力強(qiáng)、對(duì)誤差的敏感度不高、可分析特征重要度,且能同時(shí)處理連續(xù)、離散屬性,運(yùn)行效率高。綜上所述,該文應(yīng)用隨機(jī)森林回歸算法進(jìn)行清防垢加藥量預(yù)測(cè)。

    1 隨機(jī)森林回歸算法

    隨機(jī)森林是Leo Breiman在21世紀(jì)提出的基于決策樹的機(jī)器學(xué)習(xí)算法,在機(jī)器學(xué)習(xí)算法中,隨機(jī)森林回歸預(yù)測(cè)精度較高,在環(huán)境、電力、醫(yī)學(xué)等領(lǐng)域得到了廣泛應(yīng)用,但將其應(yīng)用在油田領(lǐng)域的卻少之又少。

    1.1 隨機(jī)森林回歸算法原理

    隨機(jī)森林回歸算法以其子模型決策回歸樹為基學(xué)習(xí)器,在結(jié)合Bagging方法的基礎(chǔ)上,在決策回歸樹的訓(xùn)練過程中引入隨機(jī)特征屬性的選擇,該算法由多棵決策回歸子樹構(gòu)成。其原理為:首先,采用bootstrap抽樣方式從原訓(xùn)練集中抽取相同樣本容量的

    n

    個(gè)樣本,然后按隨機(jī)選取一定數(shù)目特征的方法將

    n

    個(gè)子訓(xùn)練集生成決策回歸樹,以構(gòu)成隨機(jī)森林,最后,對(duì)于

    n

    個(gè)測(cè)試樣本,以每棵決策回歸樹輸出的均值為最終結(jié)果。其示意圖如圖1所示。

    圖1 隨機(jī)森林回歸示意圖

    隨機(jī)森林應(yīng)用隨機(jī)特征子空間和裝袋算法,使模型的泛化能力得到提高。通過研究表明,決策樹的數(shù)量、最大特征數(shù)和樹最大深度對(duì)隨機(jī)森林回歸模型的預(yù)測(cè)影響很大,所以這三個(gè)參數(shù)的取值至關(guān)重要。

    1.2 模型參數(shù)確定及評(píng)價(jià)標(biāo)準(zhǔn)

    影響模型效果的因素有很多,其中最為關(guān)鍵的就是參數(shù)選擇,它可以有效避免過擬合,從而提高模型的泛化能力。在機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)中常用K折交叉驗(yàn)證的方法評(píng)價(jià)模型的泛化能力,K折交叉驗(yàn)證基本流程如下:

    (1)將原始訓(xùn)練集進(jìn)行互不相交的劃分處理,分成

    K

    個(gè)子集;(2)將

    K

    個(gè)子集中的

    K

    -1份取出,用于訓(xùn)練,剩余1份用于測(cè)試;(3)重復(fù)

    K

    次訓(xùn)練,將各次指標(biāo)的均值作為交叉驗(yàn)證模型的指標(biāo)。

    網(wǎng)格搜索是一種調(diào)參方法,通過指定參數(shù)值,循環(huán)遍歷參數(shù)范圍,采用交叉驗(yàn)證方法得到最優(yōu)參數(shù)。該方法既簡(jiǎn)單又高效,同時(shí)又有很強(qiáng)的通用性,因此,該文采用網(wǎng)格搜索算法進(jìn)行參數(shù)選擇,進(jìn)而得到參數(shù)最優(yōu)的模型。

    在評(píng)價(jià)模型時(shí),采取通用的模型精度和效率作為評(píng)價(jià)指標(biāo),作為模型結(jié)論與實(shí)際值的吻合程度的衡量標(biāo)準(zhǔn)。

    (1)模型精度。

    平均相對(duì)誤差MRE和確定性系數(shù)R是評(píng)價(jià)模型預(yù)測(cè)精度的兩個(gè)主要指標(biāo),MRE越小、R越大,則模型精度越高。

    (1)

    (2)

    (2)模型效率。

    模型效率主要以模型的訓(xùn)練時(shí)間作為評(píng)價(jià)依據(jù),訓(xùn)練時(shí)間越短,則模型效率越高。

    2 特征篩選與數(shù)據(jù)預(yù)處理

    2.1 隨機(jī)森林特征篩選

    特征選取涉及影響清防垢加藥量的不同要素,在預(yù)測(cè)的時(shí)候,將先驗(yàn)樣本輸入模型,會(huì)出現(xiàn)特征相關(guān)性較小的現(xiàn)象。因此,建立預(yù)測(cè)模型的關(guān)鍵,就是篩選出信息量大的、有關(guān)聯(lián)的、有差異的影響特征。為了使預(yù)測(cè)模型更加準(zhǔn)確,該文利用隨機(jī)森林回歸篩選出樣本中的關(guān)鍵特征,算法原理是隨機(jī)改變某特征的取值,認(rèn)為對(duì)訓(xùn)練樣本的特征加入噪聲,對(duì)訓(xùn)練集上的袋外錯(cuò)誤率進(jìn)行計(jì)算。袋外誤差是一種無偏估計(jì),經(jīng)過多次重復(fù),它們的平均數(shù)接近參數(shù)真值。袋外錯(cuò)誤率代表了模型的泛化能力。如果誤差增加得越大,說明該特征越重要,因此可以得到輸入樣本特征的重要程度分布,根據(jù)分布可以對(duì)輸入特征進(jìn)行篩選,忽略與預(yù)測(cè)無關(guān)或者相關(guān)性系較小的特征,從而提高模型的預(yù)測(cè)精確度,增加模型的魯棒性。設(shè)模型原袋外誤差為

    E

    ,對(duì)樣本特征值

    a

    增加噪聲干擾,現(xiàn)模型的袋外誤差為

    E

    ,則該特征的重要度

    F

    為:

    (3)

    其中,

    K

    為模型先驗(yàn)輸入的特征集。

    2.2 數(shù)據(jù)預(yù)處理

    經(jīng)過對(duì)油田專家充分的調(diào)研和實(shí)驗(yàn)分析,選取預(yù)測(cè)加藥濃度、實(shí)際加藥濃度、計(jì)算排量等20種特征因素作為特征分析對(duì)象。表1列出了選取出的具體特征因素。

    表1 特征因素選取

    其中采出井的生產(chǎn)數(shù)據(jù)、藥劑濃度、加藥泵流量、加藥泵計(jì)算排量屬于數(shù)值型特征,其余為非數(shù)值型特征。該文對(duì)非數(shù)值型特征進(jìn)行量化,轉(zhuǎn)化為數(shù)值型特征并放入“[]”中。例如:“預(yù)測(cè)結(jié)垢類型”取值為“[1,2]”,分別代表2種結(jié)垢類型:碳酸鹽垢、硅酸鹽垢;“藥劑類型”取值為“[1,2,3]”,分別代表3種藥劑類型:碳酸鹽防垢劑、硅酸鹽防垢劑、緩釋阻垢劑;“結(jié)垢階段”的取值為“[1,2,3]”,代表3種結(jié)垢階段:結(jié)垢前期、結(jié)垢中期、結(jié)垢后期;“加藥類型”取值為“[1,2]”,代表2種加藥類型:井口加藥、計(jì)量間加藥;“加藥方式”取值為“[1,2,3,4]”,代表4種加藥方式:間歇加藥、集中加藥、連續(xù)點(diǎn)滴加藥、清防一體加藥。

    3 基于隨機(jī)森林的清防垢加藥量預(yù)測(cè)模型建立

    根據(jù)隨機(jī)森林基本原理,隨機(jī)森林回歸預(yù)測(cè)清防垢加藥量的模型構(gòu)建流程如圖2所示。

    圖2 隨機(jī)森林回歸模型預(yù)測(cè)流程

    由圖2可知,隨機(jī)森林回歸預(yù)測(cè)清防垢加藥量的模型構(gòu)建的具體步驟如下:

    步驟一:特征選取與預(yù)處理。根據(jù)經(jīng)驗(yàn)選取輸入特征,收集數(shù)據(jù)并進(jìn)行預(yù)處理,得到樣本集。

    步驟二:網(wǎng)格搜索及交叉驗(yàn)證??煞譃橐韵?個(gè)子步驟:

    (1)將樣本集劃分為訓(xùn)練集和測(cè)試集,對(duì)訓(xùn)練集進(jìn)行

    K

    折劃分;(2)根據(jù)經(jīng)驗(yàn)和特征維度設(shè)定網(wǎng)格搜索的參數(shù)范圍,設(shè)定決策樹數(shù)量

    n

    、最大特征數(shù)

    m

    、樹最大深度

    d

    ;(3)選取訓(xùn)練集中的任意

    K

    -1折數(shù)據(jù);(4)選取網(wǎng)格搜索范圍內(nèi)的任一組參數(shù),從選取的

    K

    -1折數(shù)據(jù)中有放回地抽取樣本數(shù)據(jù)(等于樣本總數(shù))作為單棵決策樹的樣本;(5)利用網(wǎng)格搜索參數(shù)中的特征集選擇方法從特征集中選取

    z

    個(gè)特征,當(dāng)樹深小于樹最大深度時(shí),根據(jù)最優(yōu)分支特征和分割點(diǎn),將該節(jié)點(diǎn)樣本分支到下一層兩個(gè)節(jié)點(diǎn)中,直到達(dá)到預(yù)定的樹的棵數(shù)

    n

    ;

    (6)對(duì)上述隨機(jī)森林預(yù)測(cè)剩余的一折數(shù)據(jù)進(jìn)行計(jì)算,得出預(yù)測(cè)數(shù)據(jù)的確定性系數(shù),將其作為評(píng)價(jià)指標(biāo);

    (7)重復(fù)步驟(4)~(6),完成測(cè)試集數(shù)據(jù)

    K

    -1種組合的遍歷,計(jì)算出所有組合的評(píng)價(jià)指標(biāo),并求其平均值,作為該組參數(shù)所確定的模型的評(píng)價(jià)指標(biāo);

    (8)重復(fù)步驟(3)~(6),直到遍歷網(wǎng)格搜索的所有參數(shù)組合,選取最優(yōu)的模型參數(shù)。

    步驟三:構(gòu)建隨機(jī)森林回歸模型。根據(jù)步驟(8)選取的最優(yōu)參數(shù),對(duì)測(cè)試集的所有數(shù)據(jù)重復(fù)步驟(5)建立隨機(jī)森林回歸模型。

    步驟四:特征篩選。整理樣本的各個(gè)特征取值,并對(duì)其進(jìn)行噪聲處理,用公式(3)計(jì)算各個(gè)特征的重要度。

    步驟五:將特征重要度比較高的

    t

    個(gè)特征篩選出來,重復(fù)步驟二,構(gòu)建參數(shù)優(yōu)化后的隨機(jī)森林回歸模型。

    步驟六:輸入測(cè)試集數(shù)據(jù),得到每棵樹的回歸結(jié)果,進(jìn)行取均值操作,最終得到模型預(yù)測(cè)結(jié)果。

    4 實(shí)例驗(yàn)證

    4.1 特征集選取

    該文選取大慶市某采油廠某三元復(fù)合驅(qū)區(qū)塊的189口采出井2020年1月至9月的清防垢數(shù)據(jù),先驗(yàn)輸入特征選取結(jié)垢預(yù)測(cè)數(shù)據(jù)、生產(chǎn)數(shù)據(jù)及加藥數(shù)據(jù)等20維數(shù)據(jù),其中,訓(xùn)練集為9月1日零時(shí)前的數(shù)據(jù),共6 086個(gè),測(cè)試集為9月1日零時(shí)后的數(shù)據(jù),共764個(gè)。

    4.2 初始模型參數(shù)設(shè)定

    參數(shù)設(shè)定的范圍決定了網(wǎng)格搜索計(jì)算的時(shí)間,范圍越大,計(jì)算時(shí)間就越長(zhǎng)。該文根據(jù)經(jīng)驗(yàn)確定了決策樹數(shù)量的范圍,參考樣本條件確定了最大特征數(shù)和樹最大深度的范圍,設(shè)定參數(shù)范圍如表2所示。最終通過計(jì)算,得到各個(gè)參數(shù)在訓(xùn)練集上的交叉驗(yàn)證表現(xiàn)情況,其中交叉驗(yàn)證分?jǐn)?shù)最高為0.531 0,對(duì)應(yīng)的參數(shù)如下:決策樹數(shù)量為27,最大特征數(shù)為12,樹最大深度為3。

    表2 初始模型參數(shù)設(shè)定

    4.3 特征篩選

    通過網(wǎng)格搜索確定參數(shù)后,改變訓(xùn)練集各個(gè)特征的取值,得到各特征的重要性,分別如圖3所示。

    圖3 特征重要度分布

    由該結(jié)果可知原特征集20維特征中重要性最高的為預(yù)測(cè)日當(dāng)天的計(jì)算排量數(shù)據(jù),其次為前一天的實(shí)際加藥量數(shù)據(jù),剩余18項(xiàng)特征的重要性排序依次為:實(shí)際加藥濃度、預(yù)測(cè)加藥濃度、泵流量和前兩天實(shí)際加藥量數(shù)據(jù),而其他14項(xiàng)特征與預(yù)測(cè)日實(shí)際加藥量的關(guān)聯(lián)性較低,不會(huì)對(duì)加藥量預(yù)測(cè)模型效果產(chǎn)生影響,所以將這14項(xiàng)特征進(jìn)行剔除。最終選取輸入特征6個(gè),分別為預(yù)測(cè)日當(dāng)天的計(jì)算排量數(shù)據(jù)、前一天的實(shí)際加藥量數(shù)據(jù)、實(shí)際加藥濃度、預(yù)測(cè)加藥濃度、泵流量和前兩天實(shí)際加藥量數(shù)據(jù)。

    4.4 預(yù)測(cè)模型參數(shù)設(shè)定

    利用網(wǎng)格搜索方法,計(jì)算各個(gè)參數(shù)在新的樣本訓(xùn)練集上的交叉驗(yàn)證得分情況,其中交叉驗(yàn)證分?jǐn)?shù)最高為0.592 0,對(duì)應(yīng)的參數(shù)為決策樹數(shù)量為44,最大特征數(shù)為3,樹最大深度為4。參考上述結(jié)果,選取最優(yōu)參數(shù)如表3所示。

    表3 預(yù)測(cè)模型參數(shù)設(shè)定

    4.5 模型預(yù)測(cè)結(jié)果

    為了避免隨機(jī)森林回歸在構(gòu)建模型過程中的隨機(jī)性,該文進(jìn)行了60次試驗(yàn),得到所有結(jié)果中的最小值、最大值及平均值,如表4所示。其中指標(biāo)MSE、R分別為預(yù)測(cè)集上的均方誤差、確定性系數(shù),time、oobscore分別為模型運(yùn)行時(shí)間和袋外誤差。

    表4 隨機(jī)森林模型預(yù)測(cè)結(jié)果統(tǒng)計(jì)

    從表4得知,R的平均值為0.763,說明模型的精度較高,oobscore的平均值達(dá)到了0.835,說明模型的泛化能力較強(qiáng),因此,模型的預(yù)測(cè)結(jié)果是比較穩(wěn)定的。

    4.6 模型對(duì)比

    為了驗(yàn)證特征篩選方法和隨機(jī)森林回歸模型在清防垢加藥量預(yù)測(cè)的實(shí)用效果,該文使用相同數(shù)據(jù)集進(jìn)行相同次數(shù)的訓(xùn)練實(shí)驗(yàn),分別利用人工神經(jīng)網(wǎng)絡(luò)回歸模型、支持向量機(jī)回歸模型、決策回歸樹進(jìn)行預(yù)測(cè),得出了各個(gè)模型在最優(yōu)參數(shù)下的預(yù)測(cè)結(jié)果,數(shù)據(jù)如表5所示。其中RFR代表未經(jīng)特征篩選,RFR’代表經(jīng)過特征篩選。

    表5 模型預(yù)測(cè)結(jié)果對(duì)比

    整體分析以上預(yù)測(cè)結(jié)果可以得出如下結(jié)論:

    (1)從模型預(yù)測(cè)的平均誤差來看,經(jīng)特征篩選后的隨機(jī)森林模型取得了最高的預(yù)測(cè)精度,與ANN、CART和SVR相比,平均誤差分別減少了25.3%、34.4%和24.4%;未經(jīng)特征篩選的隨機(jī)森林模型預(yù)測(cè)精度也比較高,比ANN、CART和SVR的平均誤差分別減少了23.7%、33%和23%;

    (2)從特征篩選的結(jié)果來看,經(jīng)特征篩選后的隨機(jī)森林模型的預(yù)測(cè)精度更高,平均誤差較未經(jīng)特征篩選的隨機(jī)森林回歸模型減小了1.86%,證明了特征篩選對(duì)提高模型的預(yù)測(cè)精度具有一定作用;

    (3)在訓(xùn)練時(shí)間方面,人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)的訓(xùn)練時(shí)間是隨機(jī)森林模型的幾十倍,說明隨機(jī)森林模型計(jì)算效率更高,具有明顯的時(shí)間優(yōu)勢(shì),更適合大規(guī)模樣本的訓(xùn)練。

    綜上所述,經(jīng)特征篩選后的隨機(jī)森林回歸模型比其他預(yù)測(cè)模型具有更強(qiáng)的優(yōu)越性。

    5 結(jié)束語

    該文將隨機(jī)森林回歸應(yīng)用于復(fù)合驅(qū)清防垢加藥量的預(yù)測(cè),為了提高預(yù)測(cè)精度,通過隨機(jī)森林特征重要性評(píng)估功能對(duì)輸入的20維特征進(jìn)行篩選,以此來剔除不必要的干擾項(xiàng),分析清防垢數(shù)據(jù)特點(diǎn),完成加藥量預(yù)測(cè)模型的構(gòu)建。對(duì)于模型的預(yù)測(cè)結(jié)果,通過真實(shí)數(shù)據(jù)進(jìn)行驗(yàn)證,證實(shí)該模型預(yù)測(cè)精度高、穩(wěn)定性強(qiáng),并且經(jīng)過特征篩選后,模型預(yù)測(cè)精度更高。因此,將基于隨機(jī)森林回歸的預(yù)測(cè)模型應(yīng)用于清防垢作業(yè)中來解決加藥量預(yù)測(cè)問題是一種切實(shí)可行的思路和方法。

    猜你喜歡
    藥量結(jié)垢森林
    碳化對(duì)飛灰穩(wěn)定化加藥量測(cè)評(píng)的影響
    兩倍藥量
    油田采出水結(jié)垢影響因素分析
    Study on Scaling Law of Oilfield Produced Water with High Ca2+ and Ba2+
    哈Q森林
    哈Q森林
    哈Q森林
    小型水池抗爆炸沖擊極限藥量分析
    哈Q森林
    藥量適中
    小說月刊(2015年6期)2015-12-16 14:55:45
    弋阳县| 焉耆| 宁都县| 湘乡市| 化德县| 西贡区| 河曲县| 高安市| 交城县| 盘山县| 日喀则市| 临桂县| 千阳县| 章丘市| 炎陵县| 齐齐哈尔市| 镇赉县| 丘北县| 唐河县| 漯河市| 玉山县| 聂拉木县| 海淀区| 景东| 永城市| 徐州市| 扶风县| 甘南县| 宁夏| 永济市| 彰化县| 莱阳市| 合阳县| 虞城县| 桃园县| 阳朔县| 蓬莱市| 泸定县| 南岸区| 遂溪县| 永寿县|