• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于隨機漂移粒子群優(yōu)化的隨機森林預測模型及水文應用實例

    2019-03-22 08:58:42崔東文
    三峽大學學報(自然科學版) 2019年2期
    關鍵詞:決策樹個數(shù)實例

    崔東文 郭 榮

    (1.云南省文山州水務局,云南 文山 663000;2.云南省文山州文山市水務局,云南 文山 663000)

    1 研究背景

    隨機森林(random forest,RF)是由Leo Breiman提出的一種集成機器學習方法,可應用于分類問題、回歸問題以及特征選擇問題,其主要利用Bootsrap重抽樣方法從原始樣本中抽取多個樣本,對每個Bootsrap樣本進行決策樹建模,然后組合多棵決策樹通過投票方式得出最終評價結果[1].由于RF是基于決策樹分類器的融合算法,可以看成由很多弱分類器(決策樹)集成的強分類器,可有效避免“過擬合”和“欠擬合”現(xiàn)象的發(fā)生,對解決多變量預測具有很好的效果,被譽為當前最好的機器學習算法之一[2-3],已在各領域及水利行業(yè)[2-7]中得到應用.在實際應用中,對于不同的預測對象,RF決策樹數(shù)量ntree和分裂屬性個數(shù)mtry是不同的,二者成為決定RF預測或分類性能的關鍵性因素.目前普遍采用試湊的方法[3,8]或網(wǎng)絡搜索的方法[1,9]確定決策樹數(shù)量、分裂屬性個數(shù),但取值效果往往不理想.群體智能算法(SIA)由于具有靈活性、穩(wěn)健性等特點以及分布性、簡單性、可擴充性等優(yōu)點已在RF決策樹數(shù)量、分裂屬性個數(shù)的優(yōu)化中得到應用,如趙東等人[10]利用果蠅優(yōu)化算法(FOA)對RF關鍵參數(shù)進行優(yōu)化,通過構建FOA-RF模型對蟲害數(shù)據(jù)進行預測,結果表明該模型具有較好的預測精度.王杰等人[11]提出一種基于粒子群優(yōu)化(PSO)算法的加權隨機森林分類模型,通過6組實驗數(shù)據(jù)驗證了該模型具有良好的分類效果.周博翔等人[12]提出一種蜜蜂交配優(yōu)化隨機森林算法(HBMORF)用于人體姿態(tài)識別,并通過實驗證明了該模型的識別性能和穩(wěn)定性能.

    為進一步拓展群智能算法優(yōu)化RF兩個關鍵參數(shù)的應用范疇,本文提出一種基于隨機漂移粒子群(random drift particle swarm optimization,RDPSO)算法優(yōu)化的RF預測方法,利用RDPSO算法優(yōu)化RF決策樹數(shù)量和分裂屬性個數(shù)兩個關鍵參數(shù),構建RDPSO-RF預測模型,并構建基于RDPSO算法優(yōu)化的支持向量機(SVM)、BP神經(jīng)網(wǎng)絡預測模型作對比,以云南省某水文站枯水期1~3月月徑流預測為例進行實例研究,旨在驗證RDPSO-RF模型用于水文預測預報的可行性和有效性.

    2 RDPSO-RF預測模型

    2.1 隨機漂移粒子群算法

    隨機漂移粒子群(RDPSO)算法是孫俊等人受PSO算法的軌跡分析和金屬導體中自由電子定向漂移運動、隨機無規(guī)則熱運動啟發(fā)而提出來的一種具有較強全局搜索的群體智能算法.RDPSO算法中自由電子的定向漂移運動類似于粒子的局部搜索,隨機無規(guī)則熱運動類似于粒子的全局搜索[13].參考文獻[13-15],RDPSO算法數(shù)學描述如下:

    設RDPSO算法搜索過程中第t+1代的第i個粒子在第j維的定向漂移運動速度表示,隨機熱運動速度表示則第t+1代粒子運動速度的更新公式表示為:

    基于PSO算法粒子趨向局部位置原理,定義定向漂移運動速度

    式中,c1、c2表示常數(shù),本文均設置為表示在(0,1)區(qū)間內均勻分布的隨機數(shù);表示第i個粒子當前最佳位置表示所有粒子個體當前最優(yōu)位置.

    式(2)可表示如下:

    基于無規(guī)則隨機運動Maxwell速率分布率,定義無規(guī)則隨機熱運動速度如式(6):

    綜上,RDPSO算法中粒子速度和位置更新公式表示為:

    2.2 隨機森林算法

    隨機森林(RF)算法是由Leo Breiman[16]提出的基于決策樹分類器的融合算法,該算法通過隨機的方法建立一個由許多決策樹組成的森林,每棵決策樹之間沒有關聯(lián);每棵決策樹均采用bootstrap方法進行采樣,隨機產(chǎn)生k個訓練集,利用每個訓練集生成對應的決策樹;再從所有M個決策屬性中隨機抽取m個屬性進行預測;在訓練過程中,一般m的取值維持不變;訓練結束后,當測試樣本輸入時,每棵決策樹均對測試樣本進行預測,并將所有決策樹中出現(xiàn)最多的投票結果作為最終預測結果,具體算法步驟見文獻[4,11,17].

    假設對于一個測試樣本x,第l棵決策樹的輸出為ftree,l(x)=i,i=1,2,…,c,即為其對應的輸出值,l=1,2,…,L,L為RF中的決策樹棵數(shù),則RF的輸出可表示為:

    式中,I(·)表示滿足括號中表達式的樣本個數(shù).

    研究表明,決策樹數(shù)量ntree和分裂屬性個數(shù)mtry的合理選取是提高RF預測精度的關鍵,ntree設置過小易使RF訓練不充分而導致模型“欠擬合”,設置太大又易使RF過度訓而導致“過擬合”;同樣,mtry設置太小易使RF過度訓練而導致“過擬合”,設置太大會使得RF訓練不充分而導致模型“欠擬合”.“過擬合”、“過擬合”均會降低RF模型的預測或分類性能[18].本文基于Matlab軟件環(huán)境和隨機森林工具箱,利用RDPSO算法尋優(yōu)RF關鍵參數(shù)決策樹數(shù)量(ntree)和分裂屬性個數(shù)(mtry).

    2.3 RDPSO-RF預測實現(xiàn)步驟

    RDPSO-RF模型預測實現(xiàn)步驟可歸納如下(RDPSO-SVM、RDPSO-BP模型預測步驟可參考實現(xiàn)):

    Step1:合理劃分訓練樣本和預測樣本.設定決策樹數(shù)量ntree和分裂屬性個數(shù)mtry搜尋范圍.

    Step2:確定RDPSO-RF模型適應度函數(shù).本文選用訓練樣本平均相對誤差絕對值之和作為適應度函數(shù),描述如式(13):

    式中,yi為第i個樣本實測值為第i個樣本模擬值.

    Step3:設置RDPSO算法群體大小N,最大迭代次數(shù)T,最大、最小熱敏系數(shù)α,常數(shù)c1和c2.設置當前迭代次數(shù)t=0,初始化粒子位置和速度.

    Step4:計算漂移系數(shù)β,依據(jù)式(8)群體平均最優(yōu)位置.

    Step5:基于式(13)計算目標適應度值,更新全局最優(yōu)位置G和粒子局部最優(yōu)位置P.

    Step6:根據(jù)式(11)、式(12)更新粒子的速度和位置.

    Step7:判斷RDPSO算法是否滿足終止條件,若滿足則轉至Step8,否則令t=t+1,執(zhí)行Step4~Step7.

    Step8:輸出RDPSO算法全局最優(yōu)個體空間位置和適應度值,即待優(yōu)化問題最優(yōu)解.

    Step9:利用RDPSO算法優(yōu)化獲得的決策樹數(shù)量ntree和分裂屬性個數(shù)mtry代入RDPSO-RF模型對預測樣本進行預測.

    3 應用實例

    1)數(shù)據(jù)來源及分析.實例數(shù)據(jù)來源于云南省某水文站,共有54年的實測水文資料.經(jīng)分析,該水文站上年度月徑流與次年度1~3月月徑流存在較好的相關關系[19],見表1.

    表1 上年度1~12月月均流量與次年1~3月月相關系數(shù)

    本文分別選取上年度4月、8月~12月,上年度4月、8月~12月及次年1月、上年度4月、8月~12月及次年1~2月月均徑流量作為影響因子預測次年枯水期1月、2月、3月均徑流量,輸入維度分別為6維、7維和8維.

    2)參數(shù)設置.RDPSO算法最大迭代次數(shù)T=200,最大、最小熱敏系數(shù)α分別設置為0.9、0.3,常數(shù)c1、c2均設置為2.RF、SVM、BP待優(yōu)化參數(shù)搜索空間設置為:RF決策樹數(shù)量ntree∈[1,500],分裂屬性個數(shù)mtry∈[1,20];SVM懲罰因子C∈[2-10,210]、核函數(shù)參數(shù)g∈[2-10,210]、不敏感系數(shù)ε∈[2-10,210]、交叉驗證參數(shù)V=5;BP神經(jīng)網(wǎng)絡權、閾值搜索空間[-1,1],隱含層數(shù)為輸入維度的2倍減1,隱含層和輸出層傳遞函數(shù)均分別采用logsig和purelin,訓練函數(shù)均采用traingdx,最大訓練輪回200次,期望誤差0.001.

    3)模型構建及預測.基于上述分析,分別構建6輸入1輸出、7輸入1輸出和8輸入1輸出的次年枯水期1~3月月徑流預測模型(對SVM、BP輸入數(shù)據(jù)需進行歸一化處理,RF輸入數(shù)據(jù)無需處理).選取平均相對誤差絕對值MRE和最大相對誤差絕對值Max RE作為評價指標,利用RDPSO-RF、RDPSOSVM、RDPSO-BP模型對實例枯水期1~3月月徑流進行預測,見表2,并繪制1~3月的擬合-預測相對誤差效果圖,如圖1~3所示.

    表2 實例枯水期1~3月月徑流預測結果及其比較表

    圖1 枯水期1月月徑流擬合-預測相對誤差效果圖

    圖2 枯水期2月月徑流擬合-預測相對誤差效果圖

    圖3 枯水期3月月徑流擬合-預測相對誤差效果圖

    依據(jù)表1~2及圖1~3可以得出以下結論:

    1)RDPSO-RF模型對實例1~3月月徑流訓練、預測的平均相對誤差絕對值分別為4.28%、3.88%、5.67%和3.74%、4.57%、4.88%,無論訓練樣本還是預測樣本,其精度均優(yōu)于RDPSO-SVM模型(訓練、預測的平均相對誤差絕對值分別為7.52%、5.49%、9.03% 和4.04%、4.93%、5.37%)和 RDPSO-BP模型(訓練、預測的平均相對誤差絕對值分別為5.52%、5.67%、11.26% 和 6.06%、6.38%、7.12%),表現(xiàn)出較好的預測精度和泛化能力;同時驗證了本文提出的RDPSO-RF模型用于水文預測預報是可行和有效的,可為相關預測研究提供參考和借鑒.

    2)由于RDPSO-RF模型融合了RDPSO算法良好的全局搜索能力和RF強分類集成器二者的優(yōu)點,使得RDPSO-RF模型對于實例1~3月月徑流的擬合、預測效果最好,有效避免預測過程中“過擬合”和“欠擬合”現(xiàn)象的發(fā)生;對于RDPSO-SVM模型,除2月份外,其預測樣本精度遠優(yōu)于訓練樣本精度,表現(xiàn)出“欠擬合”特征;RDPSO-BP模型對于實例3月的預測同樣表現(xiàn)出“欠擬合”特征.

    3)3種模型比較而言,RDPSO-RF模型擬合-預測精度最高;RDPSO-SVM模型與RDPSO-BP模型各有優(yōu)劣,但RDPSO-SVM模型擬合-預測精度略優(yōu)于RDPSO-BP模型.

    4 結 論

    依據(jù)隨機漂移粒子群(RDPSO)算法良好的全局搜索能力和隨機森林(RF)強分類集成器二者的優(yōu)點,本文提出RDPSO-RF水文預測模型,利用RDPSO算法對RF關鍵參數(shù)進行優(yōu)化,并對云南省某水文站1~3月月徑流進行擬合及預測.結果表明,RDPSO-RF模型對實例1~3月月徑流的擬合-預測精度均優(yōu)于RDPSO-SVM、RDPSO-BP模型,具有較高的預測精度和泛化能力,將RDPSO-RF模型用于水文預測預報是可行和有效的,可為相關預測研究提供參考和借鑒.

    猜你喜歡
    決策樹個數(shù)實例
    怎樣數(shù)出小正方體的個數(shù)
    等腰三角形個數(shù)探索
    一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
    怎樣數(shù)出小木塊的個數(shù)
    怎樣數(shù)出小正方體的個數(shù)
    決策樹和隨機森林方法在管理決策中的應用
    電子制作(2018年16期)2018-09-26 03:27:06
    基于決策樹的出租車乘客出行目的識別
    基于肺癌CT的決策樹模型在肺癌診斷中的應用
    完形填空Ⅱ
    完形填空Ⅰ
    铁力市| 青海省| 潜江市| 仁寿县| 黔西县| 宁海县| 泰顺县| 崇礼县| 灵川县| 犍为县| 屏东市| 剑川县| 平远县| 和龙市| 利川市| 湖南省| 宝山区| 贵溪市| 阳城县| 昭觉县| 新泰市| 英德市| 鄄城县| 贺兰县| 西城区| 泸水县| 宜都市| 儋州市| 湖州市| 彭山县| 神木县| 彭州市| 米易县| 枞阳县| 招远市| 嵊州市| 江都市| 巫山县| 鸡西市| 威远县| 嘉兴市|