楊明悅,毛獻(xiàn)忠
基于變量重要性評(píng)分-隨機(jī)森林的溶解氧預(yù)測(cè)模型——以深圳灣為例
楊明悅,毛獻(xiàn)忠*
(清華大學(xué)深圳國際研究生院海洋工程研究院,廣東 深圳 518055)
運(yùn)用Pearson相關(guān)性分析,變量重要性評(píng)分和隨機(jī)森林方法構(gòu)建了溶解氧(DO)實(shí)時(shí)預(yù)測(cè)模型,并以深圳灣為例采用浮標(biāo)資料預(yù)測(cè)1,3,6和12h的溶解氧.模型預(yù)測(cè)結(jié)果表明,模型最優(yōu)的輸入條件為pH值,水溫,葉綠素a,氧化還原電位和藍(lán)綠藻5個(gè)水質(zhì)指標(biāo),1h預(yù)報(bào)的相關(guān)系數(shù)在0.9以上,6h預(yù)報(bào)結(jié)果一定程度上可以滿足工程要求,但對(duì)低溶解氧事件的預(yù)報(bào)必須在3h以內(nèi).
溶解氧;預(yù)測(cè)模型;變量重要性評(píng)分;隨機(jī)森林
隨著社會(huì)經(jīng)濟(jì)發(fā)展,污染不斷增加導(dǎo)致水環(huán)境惡化,并對(duì)全球水生生態(tài)系統(tǒng)構(gòu)成嚴(yán)重威脅[1].溶解氧(DO)水平對(duì)水生生物的多樣化至關(guān)重要,是評(píng)估水環(huán)境質(zhì)量的重要指標(biāo)之一[2],及時(shí)準(zhǔn)確地預(yù)報(bào)DO具有重要意義.水體DO建??勺匪莸?0世紀(jì)20年代,DO模型主要是基于Streeter-Phelps方程,其機(jī)理是包含DO相互作用過程的質(zhì)量平衡理論[3].隨著環(huán)境在線監(jiān)測(cè)技術(shù)的普及,數(shù)據(jù)驅(qū)動(dòng)建模成為環(huán)境質(zhì)量管理和預(yù)測(cè)的重要手段.比如,人工神經(jīng)網(wǎng)絡(luò)方法預(yù)測(cè)水庫[4],濕地[5]和河流[6]中的DO;支持向量機(jī)[7]以及基于模糊邏輯和深度學(xué)習(xí)方法[8]等用于DO建模.Tung等[9]綜述了209項(xiàng)人工智能模型的研究成果,表明2000~2020年數(shù)據(jù)驅(qū)動(dòng)建模已成為重要的研究方法之一.
隨機(jī)森林方法[10]對(duì)輸入數(shù)據(jù)的質(zhì)量要求相對(duì)較低,對(duì)異常值不敏感,可處理大量高維數(shù)組,計(jì)算密集程度也較低.這些優(yōu)點(diǎn)使得模型可采用環(huán)境水質(zhì)數(shù)據(jù)集作為模型輸入,用于回歸和分類問題,以開發(fā)特定的預(yù)測(cè)模型.該方法在水文和環(huán)境領(lǐng)域中有成功的應(yīng)用案例,如水質(zhì)預(yù)警模型[11],使用衛(wèi)星圖像進(jìn)行全球降水分析[12],長江徑流預(yù)報(bào)[13],近地面NO2濃度估算[14],海灣環(huán)境容量評(píng)價(jià)[15]和水華預(yù)警[16]等.然而目前預(yù)測(cè)模型建模復(fù)雜,預(yù)報(bào)時(shí)間短,較少結(jié)合在線監(jiān)測(cè)數(shù)據(jù)實(shí)時(shí)預(yù)測(cè)DO.本文采用Pearson相關(guān)性分析,變量重要性評(píng)分和隨機(jī)森林方法構(gòu)建了DO實(shí)時(shí)預(yù)測(cè)模型,并以深圳灣浮標(biāo)監(jiān)測(cè)資料為例,對(duì)模型結(jié)果進(jìn)行分析,對(duì)海灣溶解氧的預(yù)報(bào)具有重要意義.
深圳灣位于珠江口伶仃洋東側(cè),是一個(gè)半封閉型淺水海灣,屬亞熱帶季風(fēng)氣候,年均氣溫22℃,年均降雨量1830mm,受珠江口和陸源污染的影響,水質(zhì)嚴(yán)重富營養(yǎng)化[17].深圳市海洋監(jiān)測(cè)預(yù)報(bào)中心在深圳灣布設(shè)浮標(biāo)自動(dòng)監(jiān)測(cè)儀,位置如圖1所示.本文采用該浮標(biāo)在線監(jiān)測(cè)資料(2014年11月1日~2017年9月6日,每0.5h一個(gè)數(shù)據(jù)),以DO作為目標(biāo)變量,其它8項(xiàng)水質(zhì)指標(biāo)包括水溫,pH值,葉綠素a,氧化還原電位,藍(lán)綠藻,電導(dǎo)率,鹽度和渾濁度作為輸入因子,建立最優(yōu)化的DO預(yù)測(cè)模型.
圖1 研究區(qū)域及浮標(biāo)監(jiān)測(cè)點(diǎn)
審圖號(hào):GS(2016)2556號(hào)
經(jīng)過適當(dāng)數(shù)據(jù)清洗與插值處理后,表1統(tǒng)計(jì)了各項(xiàng)水質(zhì)參數(shù)特征.深圳灣平均水溫為30.07℃,平均葉綠素a含量為15.50μg/L,最高能夠達(dá)到89.30μg/L.平均DO為5.36mg/L,最低為2.03mg/L,DO低于3mg/L的頻率為2.2%,低于4mg/L的頻率為11.5%,由此可見,深圳灣低氧現(xiàn)象頻發(fā),DO的預(yù)報(bào)對(duì)深圳灣水質(zhì)管理非常重要.
表1 水質(zhì)參數(shù)特征的統(tǒng)計(jì)
相關(guān)系數(shù)是研究變量間相關(guān)程度的量,本文采用皮爾遜相關(guān)系數(shù)計(jì)算相關(guān)系數(shù)矩陣.通過計(jì)算2個(gè)相應(yīng)變量之間的線性相關(guān)度得到矩陣的單元值,對(duì)于可能存在多重共線性的重要信息也可以通過相關(guān)系數(shù)矩陣來可視化.對(duì)于變量和,其相關(guān)系數(shù)矩陣為:
式中: Cov是方差,Var是協(xié)方差.采用顯著性水平(值)來檢驗(yàn)相關(guān)系數(shù)中樣本統(tǒng)計(jì)值和假設(shè)的總體參數(shù)之間的顯著性差異.若£0.01,檢驗(yàn)高度顯著; 0.01<£0.05,檢驗(yàn)顯著;>0.05,檢驗(yàn)不顯著.
選擇最佳數(shù)量的預(yù)測(cè)變量對(duì)數(shù)據(jù)驅(qū)動(dòng)模型至關(guān)重要[18].變量重要性評(píng)分(VIM)主要評(píng)估每個(gè)特征在隨機(jī)森林的每顆樹上做了多大貢獻(xiàn),這個(gè)貢獻(xiàn)通常可以用基尼系數(shù)或者袋外數(shù)據(jù)誤差等作為評(píng)價(jià)指標(biāo)來衡量,每個(gè)變量的得分可根據(jù)下列均方誤差矩陣(MSE)估計(jì).
通過誤差矩陣確定第個(gè)特征變量的相對(duì)重要性,VIM的計(jì)算公式為:
為選擇最有影響力的預(yù)測(cè)變量組合,并將其用于最終模型,本研究采用以下步驟進(jìn)行篩選:
(1)使用VIM對(duì)預(yù)測(cè)變量的重要性進(jìn)行排序.
(2)挑選排名靠前的預(yù)測(cè)變量創(chuàng)建第一個(gè)隨機(jī)林,并計(jì)算評(píng)估模型性能.
(3)依次添加排名后一位的變量,重新創(chuàng)建隨機(jī)林,并重新評(píng)估模型性能.
(4)重復(fù)上述過程,直到再次添加變量不會(huì)顯著提高模型整體效率為止.
最終模型被稱為“最優(yōu)(簡(jiǎn)化)模型”[19],它包含一組最少的變量,并能夠最大限度地提高預(yù)測(cè)模型的準(zhǔn)確性.
隨機(jī)森林聚合了許多決策樹,其結(jié)果是由多個(gè)決策樹輸出的匯總.決策樹是一種決策支持工具,它使用樹狀結(jié)構(gòu),由節(jié)點(diǎn)和鏈接組成.每個(gè)決策樹都以一個(gè)父節(jié)點(diǎn)開始,該父節(jié)點(diǎn)表示一個(gè)審議和決策點(diǎn),并創(chuàng)建分支,直到做出決策.本研究通過袋外誤差法確定了決策樹的最佳數(shù)量,具體步驟如下:
(1)原始訓(xùn)練集有個(gè)樣本,且每個(gè)樣本有維特征.從數(shù)據(jù)集中隨機(jī)抽取個(gè)樣本組成訓(xùn)練子集,一共進(jìn)行次采樣,即生成個(gè)訓(xùn)練子集.
(2)每個(gè)訓(xùn)練子集形成一棵決策樹,一共形成棵決策樹.
(3)針對(duì)單個(gè)決策樹,樹的每個(gè)節(jié)點(diǎn)處從個(gè)特征中隨機(jī)挑選個(gè)特征,并根據(jù)結(jié)點(diǎn)不純度最小原則進(jìn)行分裂.每棵樹都依照此方法分裂下去,直到該節(jié)點(diǎn)的所有訓(xùn)練樣本均屬于同一類,在此過程中不剪枝.
(4)根據(jù)生成的多個(gè)決策樹分類器進(jìn)行預(yù)測(cè),統(tǒng)計(jì)每棵樹的投票結(jié)果,利用平均值得到最終結(jié)果.
本研究使用隨機(jī)森林構(gòu)建的DO實(shí)時(shí)預(yù)測(cè)模型有以下3點(diǎn)前提假設(shè)與適用條件: (1)DO的變化具有一定的規(guī)律性,目標(biāo)值與變量間存在一定的關(guān)聯(lián)性,受其中一個(gè)或多個(gè)變量共同影響; (2)短期內(nèi)DO的變化是連續(xù)的,不會(huì)突變; (3)當(dāng)前DO狀態(tài)受前一相鄰時(shí)段的影響更大,即數(shù)據(jù)之間的間隔越遠(yuǎn),其相關(guān)性越弱.
選擇4種性能指標(biāo)評(píng)估模型性能,包括: 納什效率系數(shù)(NSE),均方根誤差(RMSE),平均絕對(duì)誤差(MAE)以及均方根誤差與標(biāo)準(zhǔn)偏差之比(RSR).計(jì)算公式為:
式中:是數(shù)據(jù)點(diǎn)數(shù),Yo是觀測(cè)真實(shí)值, Ym是建模預(yù)測(cè)值, Ymean是觀測(cè)值的平均值.
NSE是廣泛使用的統(tǒng)計(jì)評(píng)分指標(biāo)之一,其范圍從負(fù)無窮到1,接近1的值表示模型擬合完美,負(fù)NSE則表明擬合不良.RSR值為評(píng)估模型校準(zhǔn)和驗(yàn)證提供了基礎(chǔ),并建議模型應(yīng)該被接受還是被拒絕[20].采用RSR值評(píng)價(jià)模型擬合效果,分別以RSR值為0~0.5,0.5~0.6,0.6~0.7和>0.7范圍分為完美模型,良好模型,一般模型和較差模型.此外,RMSE和MAE接近0表示模型和觀測(cè)值完美擬合.
DO和其他8項(xiàng)水質(zhì)指標(biāo)的相關(guān)系數(shù)矩陣見圖2.其中,DO與水溫和pH值呈中度相關(guān)性(= 0.464~0.505),與葉綠素a呈弱相關(guān)性(=0.382).并具有統(tǒng)計(jì)學(xué)意義(£0.05).其他預(yù)測(cè)因子如氧化還原電位,藍(lán)綠藻,電導(dǎo)率,鹽度和渾濁度與DO的相關(guān)性非常弱(=-0.058~0.197),其中與藍(lán)綠藻的相關(guān)性不顯著(>0.05).此外,結(jié)果還顯示各預(yù)測(cè)因子間存在中度至強(qiáng)多重共線性.例如,電導(dǎo)率和鹽度具有強(qiáng)相關(guān)性(=0.997);藍(lán)綠藻與葉綠素a具有中等相關(guān)性(= 0.444),與pH值和氧化還原電位均具有弱相關(guān)性(||=0.285~0.383); pH值與氧化還原電位,電導(dǎo)率和鹽度表現(xiàn)出中度相關(guān)性(||=0.416~ 0.569).
隨機(jī)森林的變量重要性評(píng)分結(jié)果如圖3所示.pH值是預(yù)測(cè)DO最有影響力的因子,重要性為25.56%;而后依次是水溫,葉綠素a,氧化還原電位等,重要性分?jǐn)?shù)高于10%的有4個(gè);渾濁度的影響力最弱,僅3.52%.對(duì)比圖2和圖3可知,基于VIM的預(yù)測(cè)因子重要性排序與Pearson相關(guān)矩陣結(jié)果不同,這種差異可能源于數(shù)據(jù)相關(guān)矩陣存在多重共線性.此外,DO動(dòng)力學(xué)的非線性特性也無法從相關(guān)系數(shù)的線性分析中體現(xiàn)出來.因此,在數(shù)據(jù)驅(qū)動(dòng)模型建模過程中,一般采用VIM而不是相關(guān)性來選擇主要的預(yù)測(cè)變量,這可避免受到多重共線性效應(yīng)的影響.
根據(jù)以上分析,按照各變量重要性相對(duì)排名順序,可以產(chǎn)生8種不同的預(yù)測(cè)變量組合方案(表2)作為模型的輸入條件.
圖2 水質(zhì)預(yù)測(cè)因子間的Pearson相關(guān)系數(shù)
圖3 各種變量重要性評(píng)分
表2 不同預(yù)測(cè)變量組合的8種方案
選取80%的觀測(cè)數(shù)據(jù)用于不同預(yù)測(cè)變量組合的隨機(jī)森林決策樹模型建模,剩余20%的觀測(cè)數(shù)據(jù)用于驗(yàn)證評(píng)估模型的精度.如圖4所示,當(dāng)僅使用pH值作為唯一變量輸入時(shí),NSE為0.25,RSR為0.909,表明此時(shí)模型擬合不良,效果較差; 隨著輸入模型變量數(shù)量增加,NSE呈現(xiàn)上升趨勢(shì),RMSE,MAE和RSR也隨之降低,表明模型的精度逐漸提高,擬合效果也越來越好.從方案5開始(即5個(gè)及以上的輸入變量),NSE>0.8,RSR<0.5,表明模型可解釋>80%的數(shù)據(jù)方差,達(dá)到較好的擬合效果.
圖4 8種變量組合輸入方案的模型性能
圖5 方案5模型的DO驗(yàn)證
但值得注意的是,并非輸入的變量越多,模型的性能就會(huì)越好.本模型試驗(yàn)表明,6個(gè)以上輸入變量模型精度趨于穩(wěn)定,輸入變量繼續(xù)增加,NSE值不升反降,說明模型性能在下降.造成這一現(xiàn)象的原因是排名較后的預(yù)測(cè)因子重要性較低,且與其他因子間還存在中度至強(qiáng)多重共線性,相當(dāng)于為訓(xùn)練集增加了“噪聲”.因此,合理選擇輸入預(yù)測(cè)因子的種類和數(shù)量是建模的基礎(chǔ).
根據(jù)模型的精度和簡(jiǎn)約原則,選擇方案5(即pH值,水溫,葉綠素a,氧化還原電位,藍(lán)綠藻5個(gè)模型輸入變量)作為最終模型的輸入方案,用于預(yù)測(cè)DO,此時(shí)的NSE,RMSE,MAE和RSR分別為0.873,0.398,0.285和0.383.方案5的模型驗(yàn)證結(jié)果如圖5所示,散點(diǎn)均沿=直線兩側(cè)分布,位于95%置信區(qū)間內(nèi)占比94.4%,表明應(yīng)用VIM-隨機(jī)森林模型的DO預(yù)測(cè)精度較高,模型的擬合效果較好.
表3 不同預(yù)測(cè)期的誤差與相關(guān)系數(shù)
圖6 不同預(yù)測(cè)期模型預(yù)測(cè)值和實(shí)測(cè)值對(duì)比
目前大部分DO預(yù)測(cè)模型在1~2h的短期預(yù)測(cè)效果較好[21-22],但是對(duì)于預(yù)測(cè)模型來說,在滿足精度的基礎(chǔ)上預(yù)測(cè)期越長說明功能越強(qiáng)大.參考文獻(xiàn)[23]將預(yù)測(cè)期分為短期(1,3h),中期(6h)和長期(12h),測(cè)試模型的有效性.采用隨機(jī)森林模型在不同時(shí)段的預(yù)測(cè)誤差與相關(guān)系數(shù)如表3所示,模型預(yù)測(cè)值和實(shí)測(cè)值對(duì)比見圖6.模型的精度隨著預(yù)測(cè)時(shí)長的增加而降低,預(yù)測(cè)期為1h預(yù)測(cè)效果最好,此時(shí)RMSE,MAE和相關(guān)系數(shù)分別為0.481,0.317和0.913.
從相關(guān)系數(shù)和精度看,隨機(jī)森林模型預(yù)測(cè)6h后的RMSE,MAE和相關(guān)系數(shù)分別為0.801,0.627和0.633,表明預(yù)測(cè)結(jié)果在一定程度能滿足工程實(shí)踐要求.但是預(yù)測(cè)低氧過程,比如DO濃度小于4mg/L時(shí),1和3h預(yù)測(cè)的效果更好,幾乎與實(shí)測(cè)值同步變化(圖6),說明模型能夠預(yù)報(bào)極端值從而達(dá)到及時(shí)預(yù)警的效果.
在觀測(cè)數(shù)據(jù)的時(shí)間序列中,數(shù)據(jù)之間的間隔越遠(yuǎn),相關(guān)性越弱,隨著預(yù)報(bào)時(shí)長的增加,模型誤差也會(huì)逐步積累,從而影響預(yù)報(bào)精度[24];同時(shí),在預(yù)測(cè)過程中模型提取信息隨時(shí)間的推移越來越困難,因?yàn)殡S時(shí)間的推移,信息的不確定性越大.這些都是數(shù)據(jù)驅(qū)動(dòng)模型的局限性.當(dāng)預(yù)測(cè)期為12h時(shí),RMSE值大于1,相關(guān)系數(shù)僅為0.201,說明構(gòu)建的DO模型對(duì)于長期預(yù)測(cè)的表現(xiàn)仍有待提高.
盡管本文構(gòu)建的DO模型在短、中期預(yù)測(cè)上表現(xiàn)良好,但長期預(yù)測(cè)的準(zhǔn)確性仍有待提高.盡早預(yù)測(cè)低氧事件可以為緊急預(yù)案處置提供充分的反應(yīng)時(shí)間,其重要性不言而喻.因此,如何提高模型長期預(yù)測(cè)能力將是今后的研究重點(diǎn).
3.1 采用變量重要性評(píng)分和隨機(jī)森林相結(jié)合的方法構(gòu)建了DO預(yù)測(cè)模型,并以深圳灣為例通過變量重要性評(píng)分方法篩選了pH值,水溫,葉綠素a,氧化還原電位,藍(lán)綠藻5個(gè)模型輸入變量,建立了性能評(píng)價(jià)最優(yōu)模型,其中NSE,RMSE,MAE和RSR分別為0.873,0.398,0.285和0.383.
3.2 模型預(yù)測(cè)結(jié)果表明,在深圳灣采用隨機(jī)森林模型預(yù)測(cè)6h內(nèi)的DO在一定程度上能滿足工程要求;但是如果要精準(zhǔn)預(yù)測(cè)低氧過程及極端缺氧事故,預(yù)報(bào)時(shí)長應(yīng)該小于3h.
[1] Ji X,Shang X,Dahlgren R A,et al. Prediction of dissolved oxygen concentration in hypoxic river systems using support vector machine: A case study of Wen-Rui Tang River,China [J]. Environmental Science and Pollution Research,2017,24(19):16062-16076.
[2] Wen X,Fang J,Diao M,et al. Artificial neural network modeling of dissolved oxygen in the Heihe River,Northwestern China [J]. Environmental Monitoring and Assessment,2013,185(5):4361-4371.
[3] Li G.Stream temperature and dissolved oxygen modeling in the lower Flint River basin,GA [D]. University of Georgia,2006.
[4] Antanasijevi? D,Pocajt V,Peri?-Gruji? A,et al. Modelling of dissolved oxygen in the Danube River using artificial neural networks and Monte Carlo Simulation uncertainty analysis [J]. Journal of Hydrology,2014,519:1895-1907.
[5] 江春波,張明武,楊曉蕾.華北衡水湖濕地的水質(zhì)評(píng)價(jià) [J]. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2010,50(6):848-851.
Jiang C B,Zhang M W,Yang X L. Water quality evaluation for the Hengshui Lake wetland in northern China [J]. Journal of Tsinghua University (Science and Technology),2010,50(6):848-851.
[6] Ahmed A A M. Prediction of dissolved oxygen in Surma River by biochemical oxygen demand and chemical oxygen demand using the artificial neural networks (ANNs) [J]. Journal of King Saud University-Engineering Sciences,2017,29(2):151-158.
[7] Heddam S,Kisi O. Modelling daily dissolved oxygen concentration using least square support vector machine,multivariate adaptive regression splines and M5model tree [J]. Journal of Hydrology,2018,559:499-509.
[8] Ay M,Ki?i ?. Estimation of dissolved oxygen by using neural networks and neuro fuzzy computing techniques [J]. KSCE Journal of Civil Engineering,2017,21(5):1631-1639.
[9] Tung T M,Yaseen Z M. A survey on river water quality modelling using artificial intelligence models: 2000~2020 [J]. Journal of Hydrology,2020,585:124670.
[10] 姚登舉,楊 靜,詹曉娟.基于隨機(jī)森林的特征選擇算法 [J]. 吉林大學(xué)學(xué)報(bào)(工學(xué)版),2014,44(1):137-141.
Yao D J,Yang J,Zhan X J. Feature selection algorithm based on random forest [J]. Journal of Jilin University (Engineering and Technology Edition),2014,44(1):137-141.
[11] 李若楠,王 琦,劉書明.基于典型相關(guān)系數(shù)和隨機(jī)森林的水質(zhì)預(yù)警方法 [J]. 中國環(huán)境科學(xué),2021,41(9):4457-4464.
Li R N,Wang Q,Liu S M. Water quality warning method based on canonical correlation coefficient and random forest [J]. China Environmental Science,2021,41(9):4457-4464.
[12] Bhuiyan M A E,Nikolopoulos E I,Anagnostou E N,et al. A nonparametric statistical technique for combining global precipitation datasets: development and hydrological evaluation over the Iberian Peninsula [J]. Hydrology and Earth System Sciences,2018,22(2): 1371-1389.
[13] 趙銅鐵鋼,楊大文,蔡喜明,等.基于隨機(jī)森林模型的長江上游枯水期徑流預(yù)報(bào)研究 [J]. 水力發(fā)電學(xué)報(bào),2012,31(3):18-24,38.
Zhao T T G,Yang D W,Cai X M,et al. Predict seasonal low flows in the upper Yangtze River using random forests model [J]. Journal of Hydroelectric Engineering,2012,31(3):18-24,38.
[14] 游介文,鄒 濱,趙秀閣,等.基于隨機(jī)森林模型的中國近地面NO2濃度估算 [J]. 中國環(huán)境科學(xué),2019,39(3):969-979.
You J W,Zou B,Zhao X G,et al. Estimating ground-level NO2concentrations across mainland China using random forests regression modeling [J]. China Environmental Science,2019,39(3):969-979.
[15] 鄒佳奇,張亦飛,方 欣,等.基于隨機(jī)森林的入海污染源對(duì)海灣環(huán)境容量的影響排序研究 [J]. 海洋環(huán)境科學(xué),2021,40(5):675-682.
Zou J Q,Zhang Y F,Fang X,et al. Impact ranking of pollution source discharge on the bay environmental capacity based on the random forest algorithm [J]. Marine Environmental Science,2021,40(5):675-682.
[16] 劉云翔,吳 浩.基于隨機(jī)森林算法的水華預(yù)警模型 [J]. 人民黃河,2018,40(8):75-77,90.
Liu Y X,Wu H. Water bloom early warning model based on random forest [J]. Yellow River,2018,40(8):75-77,90.
[17] Zhou Y,Wang L,Zhou Y,et al. Eutrophication control strategies for highly anthropogenic influenced coastal waters [J]. Science of the Total Environment,2020,705:135760.
[18] Asadollah S B H S,Sharafati A,Motta D,et al. River water quality index prediction and uncertainty analysis: A comparative study of machine learning models [J]. Journal of Environmental Chemical Engineering,2021,9(1):104599.
[19] Laird J. The law of parsimony [J]. The Monist,1919,29(3):321-344.
[20] Moriasi D N,Arnold J G,Van Liew M W,et al. Model evaluation guidelines for systematic quantification of accuracy in watershed simulations [J]. Transactions of the ASABE,2007,50(3):885-900.
[21] Cao W,Huan J,Liu C,et al. A combined model of dissolved oxygen prediction in the pond based on multiple-factor analysis and multi-scale feature extraction [J]. Aquacultural Engineering,2019,84:50-59.
[22] Khan U T,Valeo C. Optimising fuzzy neural network architecture for dissolved oxygen prediction and risk analysis [J]. Water,2017,9(6):381.
[23] Liu Y,Zhang Q,Song L,et al. Attention-based recurrent neural networks for accurate short-term and long-term dissolved oxygen prediction [J]. Computers and Electronics in Agriculture,2019,165:104964.
[24] Kamranzad B,Etemad-Shahidi A,Kazeminezhad M H. Wave height forecasting in Dayyer,the Persian Gulf [J]. Ocean Engineering,2011,38(1):248-255.
Dissolved oxygen prediction model based on variable importance measures and random forest: A case study of Shenzhen Bay.
YANG Ming-yue,MAO Xian-zhong*
(Institute for Ocean Engineering,Shenzhen International Graduate School,Tsinghua University,Shenzhen 518055,China).,2022,42(8):3876~3881
A real-time prediction model for dissolved oxygen was established by using Pearson correlation analysis,variable importance measures and random forest method. Taking Shenzhen Bay as an example,the model was used to predict the dissolved oxygen in 1h,3h,6h and 12h based on the buoy data. The results showed that the optimal input conditions of the model were pH,water temperature,chlorophyll A,redox potential and blue-green algae. The correlation coefficient of 1h prediction results was more than 0.9,and the 6h prediction results could meet the engineering requirements to a certain extent. However,the prediction of low dissolved oxygen events might be within 3h.
dissolved oxygen;prediction model;variable importance measures;random forest
X832
A
1000-6923(2022)08-3876-06
2022-01-17
國家自然科學(xué)基金資助項(xiàng)目(42076150)
* 責(zé)任作者,副教授,maoxz@sz.tsinghua.edu.cn
楊明悅(1999-),男,安徽六安人,清華大學(xué)深圳國際研究生院碩士研究生,主要從事海洋環(huán)境預(yù)測(cè)研究.