李月玉 崔東文 高增穩(wěn)
摘要:為有效提高水文預測預報精度,提出了一種基于多組群教學優(yōu)化(MGTLO)的隨機森林(RF)預測方法,利用MGTLO算法對RF兩個關鍵參數(shù)進行優(yōu)化,構建MGTLO-RF預測模型,并與基于MGTLO算法優(yōu)化的支持向量機(SVM)、BP神經(jīng)網(wǎng)絡兩種常規(guī)預測模型作對比分析。以云南省龍?zhí)墩驹聫搅骱湍陱搅黝A測為例進行實例研究,利用前44 a和后10 a資料對MGTLO-RF等3種模型進行訓練和預測。結果表明:所提出的MGTLO-RF模型具有更好的預測精度和泛化能力,可作為水文預測預報和相關預測研究的一種有效工具。
關 鍵 詞:徑流預測; 多組群教學優(yōu)化算法; 隨機森林; 參數(shù)優(yōu)化
1 研究背景
提高徑流預測精度一直是水文預測預報中的熱點和難點。由于受自然條件、人類活動等眾多確定性因素和隨機因素的影響,徑流的形成和變化過程非常復雜,致使常規(guī)的回歸分析、數(shù)理統(tǒng)計等方法用于徑流預測預報難以達到理想的應用效果。近年來,一些非常規(guī)方法被嘗試用于徑流預測預報,并獲得較好的預測效果,如BP、GRNN、RBF神經(jīng)網(wǎng)絡法[1-3]、支持向量機法[4-5]、集對分析法[6-7]、投影尋蹤回歸法[8]、小波分解混合法[9-10]、組合預測法[11]。隨機森林(random forest,RF)是由Leo Breiman提出的一種集成機器學習方法,可應用于分類問題、回歸問題以及特征選擇問題,主要利用Bootstrap重抽樣方法從原始樣本中抽取多個樣本,對每個Bootstrap樣本進行決策樹建模,然后組合多棵決策樹通過投票方式得出最終評價結果[12],可有效避免“過擬合”和“欠擬合”現(xiàn)象的發(fā)生,對解決多變量預測具有很好的效果,被譽為當前最好的機器學習算法之一[13-14],已在各領域及徑流預測[15]中得到應用。在實際應用中,對于不同的預測對象,RF決策樹數(shù)量ntree和分裂屬性個數(shù)mtry是不同的,二者成為決定RF預測或分類性能的關鍵性因素。目前普遍采用試湊的方法[14-16]或網(wǎng)絡搜索的方法[12,17]確定決策樹數(shù)量、分裂屬性個數(shù),但取值效果往往不理想。此外,粒子群優(yōu)化算法[18]、蜜蜂交配優(yōu)化算法[19]和果蠅優(yōu)化算法[20]嘗試用于RF關鍵參數(shù)優(yōu)化,并獲得較好的優(yōu)化應用效果。但基于智能算法優(yōu)化決策樹數(shù)量、分裂屬性個數(shù)的RF模型用于水文預測預報的文獻并不多見。
為進一步拓展智能算法優(yōu)化RF兩個關鍵參數(shù)的應用范疇,本文提出了一種基于多組群教學優(yōu)化(multi-group teaching-learning optimization,MGTLO)算法優(yōu)化的RF預測方法,利用MGTLO算法優(yōu)化RF決策樹數(shù)量和分裂屬性個數(shù)兩個關鍵參數(shù),構建MGTLO-RF預測模型,并構建基于MGTLO算法優(yōu)化的支持向量機(SVM)、BP神經(jīng)網(wǎng)絡兩種常規(guī)預測模型作對比分析,以云南省龍?zhí)墩究菟?2月徑流和年徑流預測為例進行實例研究,旨在驗證MGTLO-RF模型用于水文預測預報的可行性和有效性。
2 MGTLO-RF預測模型
2.1 多組群教學優(yōu)化算法
多組群教學優(yōu)化(MGTLO)算法是文獻[21]提出的一種基于多組群改進的教學優(yōu)化算法,已被證明其尋優(yōu)精度和穩(wěn)定性優(yōu)于TLBO、粒子群優(yōu)化等算法。MGTLO算法利用分組策略定義學生(種群)數(shù)量、組數(shù)和每組學生數(shù)量,通過選擇每組學生中適應值度最好的學生作為該教師并對各組教師適應度值進行比較,最終確定所有組學生中適應度值最好的學生作為教師,即待優(yōu)化問題最優(yōu)解。參考文獻[21],MGTLO算法簡述如下:
(1) 定義學生數(shù)量N和組數(shù)G,確定每組學生數(shù)量S=N/G;隨機將S個學生分配給每個組(G-1),將剩下學生分配給最后一個小組。
4 結 語
本文鑒于水文預測預報的復雜性和不確定性,基于多組群教學優(yōu)化(MGTLO)算法良好的全局搜索能力和隨機森林(RF)強分類集成器二者的優(yōu)點,提出MGTLO-RF水文預測模型,以云南省龍?zhí)墩究菟谠聫搅?、年徑流預測為例進行實例驗證,并與MGTLO-SVM、MGTLO-BP兩種常規(guī)預測模型作對比分析。結果表明,無論是訓練樣本還是預測樣本,MGTLO-RF模型均表現(xiàn)出更高的預測精度和泛化能力,不但可作為水文預測預報的有效工具,而且可為相關預測研究提供參考。
參考文獻:
[1] 崔東文,金波.花授粉算法-BP神經(jīng)網(wǎng)絡模型及其在月徑流預測中的應用[J].人民珠江, 2016, 37(4): 36-40.
[2] 覃光華,宋克超,周澤江,等.基于WA-GRNN模型的年徑流預測[J].工程科學與技術,2013,45(6):39-46.
[3] 黃劍竹. 改進RBF-Adaboost模型及其在年徑流預測中的應用[J]. 人民珠江, 2015, 36(1): 32-36.
[4] 崔東文,金波.基于改進的回歸支持向量機模型及其在年徑流預測中的應用[J].水力發(fā)電學報, 2015, 34(2): 7-14.
[5] 崔東文.幾種智能算法與支持向量機融合模型在中長期月徑流預測中的應用[J].華北水利水電大學學報(自然科學版),2016,37(5):51-57.
[6] 歐源,張瓊,王文圣,等.基于秩次集對分析的年徑流預測模型[J]. 人民長江, 2009, 40(3): 63-65.
[7] 王延亭,王建群,張玉杰.基于加權秩次集對分析法的年徑流預報模型[J]. 水電能源科學, 2012 (3): 17-19,67.
[8] 崔東文,金波.鳥群算法-投影尋蹤回歸模型在多元變量年徑流預測中的應用[J]. 人民珠江, 2016, 37(11): 26-30.
[9] 周婷,金菊良,李榮波,等. 基于小波支持向量機的徑流預測性能優(yōu)化分析[J]. 水力發(fā)電學報, 2017, 36(10): 45-55.
[10] 紀昌明,李榮波,張驗科,等. 基于小波分解的投影尋蹤自回歸組合模型及其在年徑流預測中的應用[J]. 水力發(fā)電學報,2015, 34(7): 27-35.
[11] 崔東文.多重組合神經(jīng)網(wǎng)絡模型在年徑流預測中的應用[J].水利水電科技進展,2014,34(2):59-63.
[12] 溫博文,董文瀚,解武杰,等.基于改進網(wǎng)格搜索算法的隨機森林參數(shù)優(yōu)化[J]. 計算機工程與應用, 2018, 54(10): 154-157.
[13] 王盼,陸寶宏,張瀚文,等.基于隨機森林模型的需水預測模型及其應用[J].水資源保護,2014(1):34-37.
[14] 賴成光,陳曉宏,趙仕威,等.基于隨機森林的洪災風險評價模型及其應用[J].水利學報,2015,46(1):58-63
[15] 趙文秀,張曉麗,李國會. 基于隨機森林和RBF神經(jīng)網(wǎng)絡的長期徑流預報[J]. 人民黃河, 2015, 37(2): 10-12.
[16] 溫廷新,張波,邵良杉. 煤與瓦斯突出預測的隨機森林模型[J]. 計算機工程與應用, 2014, 50(10): 233-237.
[17] 陳元鵬,羅明,彭軍還,等.基于網(wǎng)格搜索隨機森林算法的工礦復墾區(qū)土地利用分類[J].農(nóng)業(yè)工程學報,2017,33(14):250-257.
[18] 王杰,程學新,彭金柱.一種基于粒子群算法優(yōu)化的加權隨機森林模型[J].鄭州大學學報(理學版),2018,50(1):72-76.
[19] 周博翔,李平,李蓮. 改進隨機森林及其在人體姿態(tài)識別中的應用[J]. 計算機工程與應用, 2015, 51(16): 86-92.
[20] 趙東,臧雪柏,越宏偉.基于果蠅優(yōu)化的隨機森林預測方法[J]. 吉林大學學報(工學版),2017,47(2):609-614.
[21] Kommadath R,Sivadurgaprasad C, Kotecha P.Single Phase Multi-Group Teaching Learning Algorithm for Single Objective Real-Parameter Numerical Optimization (CEC2016)[C]∥IEEE World Congress on Computational Intelligence, 2016:2989-2995.
[22] Breiman L. Random Forests[J]. Machine Learning,2001, 45(1):5-32.
[23] 崔東文,金波.基于隨機森林回歸算法的水生態(tài)文明綜合評價[J].水利水電科技進展,2014,34(5):56-60.
[24] 黃永剛,李龍,基于隨機森林算法的礦井涌水量預測[J].煤炭技術,2017,36(1):220-221.
(編輯:常漢生)