熊劍智,熊睿,魯海燕,等.基于機(jī)器學(xué)習(xí)的深圳灣水質(zhì)預(yù)報(bào)[J].人民珠江,2024,45(7):10-18.
摘要:基于深圳灣浮標(biāo)在線監(jiān)測(cè)系統(tǒng)采集的高頻監(jiān)測(cè)數(shù)據(jù),測(cè)試人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)、支持向量回歸(Support Vector Regression,SVR)和隨機(jī)森林(Rendom Forest,RF)等機(jī)器學(xué)習(xí)方法,對(duì)溶解氧(DO)、葉綠素a(Chl.a)、總氮(TN)和總磷(TP)等水質(zhì)參數(shù)進(jìn)行短期預(yù)報(bào)。研究結(jié)果表明:利用高頻原位水質(zhì)監(jiān)測(cè)數(shù)據(jù),機(jī)器學(xué)習(xí)可實(shí)現(xiàn)深圳灣24 h內(nèi)水質(zhì)的準(zhǔn)確預(yù)報(bào),其中,ANN最適合DO、Chl.a和TN的預(yù)報(bào),24 h內(nèi)預(yù)報(bào)結(jié)果的納什系數(shù)(NSE)值均大于0.60,而RF模型最適合TP的預(yù)報(bào),24 h內(nèi)的NSE值均大于0.76。研究結(jié)論為粵港澳大灣區(qū)的水污染精準(zhǔn)防治提供了方法支撐。
關(guān)鍵詞:水質(zhì)預(yù)報(bào);機(jī)器學(xué)習(xí);深圳灣
中圖分類號(hào):TV21文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1001-9235(2024)07-0010-09
Machine Learning-based Water Quality Forecasting for Shenzhen Bay
XIONG Jianzhi1,XIONG Rui2,3*,LU Haiyan2,ZHENG Yi2
(1.Eco-Environmental Monitoring and Research Center,Pearl River Valley and South China Sea Ecology and EnvironmentAdministration,Ministry of Ecology and Environment,Guangzhou 510611,China;2.School of Environmental Science and Engineering,Southern University of Science and Technology,Shenzhen 518055,China;3.The Open Research Fund of Key Laboratory of WaterSecurity Guarantee in Guangdong-Hong Kong-Marco Greater Bay Area of Ministry of Water Resources,Guangzhou 510611,China)
Abstract:Based on high-frequency monitoring data collected by the buoy online monitoring system in Shenzhen Bay,machine learning methods including artificial neural networks(ANN),support vector regression(SVR),and random forest(RF)are employed to conduct short-term forecasting of water quality parameters such as dissolved oxygen(DO),chlorophyll-a(Chl.a),total nitrogen(TN),and total phosphorus(TP).The research findings indicate that utilizing high-frequency in-situ water quality monitoring data enables accurate prediction of water quality in Shenzhen Bay within 24 hours.Specifically,ANN is found to be the most suitable for forecasting DO,Chl.a,and TN,with nash-sutcliffe efficiency(NSE)values greater than 0.60 for the 24-hour forecast period.Meanwhile,the RF model is found to be the most suitable for TP forecasting,with NSE values greater than 0.76 within 24 hours.The findings of this study have important implications for the precise prevention and control of water pollution in the Guangdong-Hong Kong-Macao Greater Bay Area.
Keywords:water quality forecasting;machine learning;Shenzhen Bay
水質(zhì)預(yù)報(bào)是指運(yùn)用數(shù)學(xué)模型對(duì)水質(zhì)監(jiān)測(cè)數(shù)據(jù)進(jìn)行分析,預(yù)測(cè)未來水質(zhì)變化的趨勢(shì)及可能出現(xiàn)的水質(zhì)超標(biāo)情況,從而能幫助管理者及時(shí)采取防范措施[1]。然而,傳統(tǒng)的水質(zhì)監(jiān)測(cè)需要收集水樣后在實(shí)驗(yàn)室進(jìn)行檢測(cè),監(jiān)測(cè)頻次較低,難以及時(shí)發(fā)現(xiàn)水環(huán)境污染問題。機(jī)理模型作為水質(zhì)預(yù)報(bào)的常用手段,所需要的數(shù)據(jù)類型較多、質(zhì)量較高,建模費(fèi)時(shí)費(fèi)力,且嚴(yán)重依賴建模者的專業(yè)知識(shí)水平[2]。隨著科技的發(fā)展,水質(zhì)在線監(jiān)測(cè)系統(tǒng)逐漸成為一種高效的手段,不僅能實(shí)時(shí)反映水質(zhì)的變化,迅速檢測(cè)水體中出現(xiàn)的異常情況,還可以得到高頻、連續(xù)且長(zhǎng)期的監(jiān)測(cè)數(shù)據(jù),為決策者提供即時(shí)、準(zhǔn)確的信息。雖然機(jī)理模型能夠以小時(shí)或更短的時(shí)間步長(zhǎng)輸出模擬結(jié)果,但往往缺乏相應(yīng)的高頻驅(qū)動(dòng)數(shù)據(jù)和水質(zhì)觀測(cè)數(shù)據(jù)(用于校準(zhǔn)和驗(yàn)證),無(wú)法在小時(shí)或更精細(xì)的時(shí)間尺度進(jìn)行水質(zhì)的準(zhǔn)確預(yù)測(cè)。當(dāng)發(fā)生水質(zhì)突發(fā)事件時(shí)(如化學(xué)品泄漏、工業(yè)事故或其他緊急情況),及時(shí)準(zhǔn)確的短期預(yù)報(bào)可幫助管理者實(shí)時(shí)了解水質(zhì)狀態(tài)和變化,從而能夠做出科學(xué)決策,保障海洋的水環(huán)境和水生態(tài)安全。因此,亟需探索適用于變化環(huán)境下水質(zhì)短期預(yù)報(bào)的數(shù)據(jù)驅(qū)動(dòng)模型,為海灣水環(huán)境精準(zhǔn)管理提供支撐。
數(shù)據(jù)驅(qū)動(dòng)模型的常見類型包括經(jīng)典統(tǒng)計(jì)模型、貝葉斯統(tǒng)計(jì)模型以及機(jī)器學(xué)習(xí)模型等。經(jīng)典統(tǒng)計(jì)模型預(yù)測(cè)未來值?;诰€性關(guān)系,如多元線性回歸和整合移動(dòng)平均自回歸模型等[3-5]。貝葉斯統(tǒng)計(jì)模型需要考慮給出先驗(yàn)分布,常用于水質(zhì)參數(shù)的不確定性分析[6-7]。隨著算力的快速發(fā)展,人工智能已在圖形識(shí)別、回歸預(yù)測(cè)和自然語(yǔ)言處理等方面取得廣泛成功[8-10]。機(jī)器學(xué)習(xí)作為人工智能的一個(gè)重要分支,在水質(zhì)研究方面也發(fā)揮著越來越重要的作用[11-13]。水環(huán)境預(yù)測(cè)中常用的機(jī)器學(xué)習(xí)方法包括人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)、支持向量機(jī)(Support Vector Machine,SVM)和隨機(jī)森林(Random Forest,RF)等[14-16]。ANN可以映射復(fù)雜的非線性關(guān)系,有較強(qiáng)的容錯(cuò)能力,在水環(huán)境研究中受到最多的關(guān)注。Piotrowski等[17]采用基于氣象和水文變量的ANN模型預(yù)測(cè)波蘭東部河水的溫度,結(jié)果表明ANN比小波分析方法在短期水溫預(yù)測(cè)效果更好。Wen等[18]開發(fā)了一種具有三層反向傳播的ANN模型來預(yù)測(cè)中國(guó)黑河的溶解氧,獲得良好的模擬效果。SVM是適合于小樣本學(xué)習(xí)的機(jī)器學(xué)習(xí)方法,也廣泛應(yīng)用于水質(zhì)研究。Najah等[19]采用SVM方法來對(duì)馬來西亞Johor河的DO和COD進(jìn)行預(yù)測(cè),發(fā)現(xiàn)SVM比ANN預(yù)測(cè)水質(zhì)的精度更高,且可以避免過擬合的發(fā)生。袁從貴[20]對(duì)東江流域某水質(zhì)監(jiān)測(cè)站的COD進(jìn)行預(yù)測(cè),發(fā)現(xiàn)采用多核最小二乘支持向量機(jī)(LS-SVM)比傳統(tǒng)SVM誤差更小。RF是一種由決策樹構(gòu)成的集成算法,可用來解決回歸和分類問題,也是經(jīng)典的機(jī)器學(xué)習(xí)算法之一。Khan等[21]基于近30 a的月尺度電導(dǎo)率數(shù)據(jù),采用RF方法來預(yù)測(cè)印度河的鹽度,結(jié)果表明RF模擬精度較高。Castrillo等[22]采用不同機(jī)器學(xué)習(xí)模型方法,基于原位測(cè)量數(shù)據(jù)預(yù)測(cè)營(yíng)養(yǎng)鹽濃度,發(fā)現(xiàn)RF結(jié)果最好。
深圳灣是廣東省深圳市與香港特別行政區(qū)之間的跨界海灣,一半歸香港管轄。深圳灣內(nèi)有2個(gè)重要的自然保護(hù)區(qū),分別是位于深圳市的福田紅樹林自然保護(hù)區(qū)和位于香港的米埔自然保護(hù)區(qū)。本研究利用人工神經(jīng)網(wǎng)絡(luò)、支持向量回歸和隨機(jī)森林等機(jī)器學(xué)習(xí)方法,基于小時(shí)尺度的高頻原位水質(zhì)監(jiān)測(cè)數(shù)據(jù),對(duì)深圳灣代表性水質(zhì)參數(shù)溶解氧(DO)、葉綠素a(Chl.a)、總氮(TN)和總磷(TP)進(jìn)行了短期預(yù)報(bào)研究,探討了海灣水質(zhì)預(yù)報(bào)的新方法,為中國(guó)沿海地區(qū)的海灣水污染精準(zhǔn)防治提供了科學(xué)依據(jù),以幫助管理者應(yīng)對(duì)復(fù)雜多變的海灣水質(zhì)提供實(shí)時(shí)的決策支持。
1研究區(qū)概況
深圳灣是深圳市與香港之間的跨界海灣,具有半封閉性,東面連接深圳河,西面與珠江口交匯(圖1)。深圳灣水域面積約90 km2,平均水深3.58 m,多年平均潮差1.37 m,潮流方向?yàn)橥鶑?fù)流。2個(gè)保護(hù)區(qū)(福田紅樹林自然保護(hù)區(qū)和米埔自然保護(hù)區(qū))是國(guó)際候鳥遷徙的重要中轉(zhuǎn)站,在維護(hù)生物多樣性功能和凈化水體等方面具有重要作用,其中福田紅樹林自然保護(hù)區(qū)是國(guó)家級(jí)自然保護(hù)區(qū),米埔自然保護(hù)區(qū)是名列《拉姆薩爾公約》的國(guó)際重要濕地之一。深圳灣一直以來都存在較嚴(yán)重的水環(huán)境問題,其中有機(jī)污染物和營(yíng)養(yǎng)鹽長(zhǎng)期超標(biāo)[23]。在20世紀(jì)80年代,深圳灣的主要污染物負(fù)荷來自農(nóng)用化肥和動(dòng)物糞便中的氮和磷,以及洗滌劑中的磷[24]。在20世紀(jì)90年代,深圳和香港特區(qū)兩地政府通過協(xié)同合作,緩解了海灣的總磷污染。但隨著深圳市經(jīng)濟(jì)的高速發(fā)展和人口的快速增多,以及污水收集管道和處理設(shè)施的建設(shè)滯后,大量偷排漏排的污水進(jìn)入深圳灣,導(dǎo)致深圳灣水質(zhì)總體情況不斷惡化。進(jìn)入21世紀(jì)后,深圳市加大了污水收集和處理設(shè)施建設(shè),污水收集率和處理率顯著提高;同時(shí)香港特區(qū)政府也鼓勵(lì)畜禽養(yǎng)殖者自愿退還飼養(yǎng)牌照,終止農(nóng)場(chǎng)運(yùn)作[25]。在兩地政府的不斷努力下,深圳灣水質(zhì)惡化的趨勢(shì)終于在2007年基本得到遏制。不過,由于深圳側(cè)支線管網(wǎng)建設(shè)較薄弱,部分污水處理廠出水標(biāo)準(zhǔn)偏低,且香港側(cè)畜禽養(yǎng)殖污染嚴(yán)重,加上深圳灣水體交換能力弱,深圳灣的水污染問題依然存在。近年來,深圳灣的海水水質(zhì)一直為劣Ⅳ類海水,無(wú)機(jī)氮和磷酸鹽的年平均濃度都是第Ⅳ類海水水質(zhì)標(biāo)準(zhǔn)的2倍以上,空間上由內(nèi)灣向外灣逐漸降低,水質(zhì)和生態(tài)狀況相對(duì)20世紀(jì)80年代的情況仍然較差[26]。
2數(shù)據(jù)與方法
2.1數(shù)據(jù)來源
2020年12月,在深圳市環(huán)境物聯(lián)網(wǎng)技術(shù)與應(yīng)用工程實(shí)驗(yàn)室建設(shè)項(xiàng)目的支持下,向深圳灣內(nèi)113.99°E、21.51°N處投放搭載水質(zhì)在線監(jiān)測(cè)系統(tǒng)的浮標(biāo)(圖2)。該浮標(biāo)在線監(jiān)測(cè)系統(tǒng)主要包括浮標(biāo)設(shè)備、通信設(shè)備及數(shù)據(jù)采集設(shè)備。浮標(biāo)位置在深圳灣的中部,深圳市和香港的污染都對(duì)該觀測(cè)點(diǎn)的水質(zhì)有影響,所以浮標(biāo)監(jiān)測(cè)數(shù)據(jù)有較好的水質(zhì)代表性,能反映深圳灣的污染特征。浮標(biāo)位置通訊條件良好,運(yùn)行維護(hù)較為方便,也可避免人為破壞的影響。另外,維護(hù)人員會(huì)對(duì)在線監(jiān)測(cè)系統(tǒng)進(jìn)行一月一次的日常運(yùn)行維護(hù),主要包括浮標(biāo)體的清潔保養(yǎng)、通信設(shè)備的傳輸檢查、傳感器的校準(zhǔn)和試劑更換等。當(dāng)設(shè)備發(fā)生故障或不正常漂移時(shí),維護(hù)人員會(huì)在1 h接受到響應(yīng),并在8 h內(nèi)趕到現(xiàn)場(chǎng)進(jìn)行修理或者更換,從而保證浮標(biāo)在線監(jiān)測(cè)系統(tǒng)的穩(wěn)定運(yùn)行。
深圳灣浮標(biāo)上搭載的傳感器為氣象監(jiān)測(cè)儀(型號(hào)EXO2)、水質(zhì)多參數(shù)分析儀(型號(hào)GMX541)和原位營(yíng)養(yǎng)鹽分析儀(型號(hào)Anna Chem NIA2000),監(jiān)測(cè)參數(shù)主要包括氣溫、氣壓、相對(duì)濕度、風(fēng)速、風(fēng)向、雨量、水溫、電導(dǎo)率、鹽度、pH、氧化還原電位、溶解氧、濁度、葉綠素a、總磷、總氮、氨氮等環(huán)境參數(shù),并可根據(jù)需要擴(kuò)展其他的監(jiān)測(cè)參數(shù)。對(duì)于營(yíng)養(yǎng)鹽參數(shù)(總氮、總磷和氨氮),監(jiān)測(cè)頻次為每8 h一次(即每天3個(gè)監(jiān)測(cè)數(shù)據(jù),時(shí)間點(diǎn)分別為北京時(shí)間03:30、11:30和19:30);對(duì)于氣象數(shù)據(jù)和其他水質(zhì)參數(shù),監(jiān)測(cè)頻次為每半小時(shí)一次(即每天48個(gè)監(jiān)測(cè)數(shù)據(jù))。本研究所用數(shù)據(jù)的時(shí)間段為2021年3月1日至2023年10月1日。
2.2研究方法
ANN[27]是一種模擬生物神經(jīng)網(wǎng)絡(luò)的非線性模型,主要包含輸入層、隱藏層和輸出層。一個(gè)ANN由大量相互連接的神經(jīng)元組成,包括輸入信號(hào)、輸出信號(hào)和激活函數(shù)等。人工神經(jīng)網(wǎng)絡(luò)的輸入和輸出之間的公式見式(1):
yi=f(bj+(xi·wij))(1)
式中:xi為輸入信號(hào);n為個(gè)數(shù);j為神經(jīng)元;wij為權(quán)重值;bj為神經(jīng)元的內(nèi)部狀態(tài);yi為神經(jīng)元的輸出;f為激活函數(shù)。
SVR[28]是支持向量機(jī)對(duì)回歸問題的一種運(yùn)用。支持向量回歸的基本原理是要找出一個(gè)超平面,使得所有數(shù)據(jù)到這個(gè)超平面的距離最小。支持向量回歸的公式見式(2):
y=w·φ(x)+b(2)
式中:y為輸出值;φ(x)為非線性映射函數(shù);x為輸入數(shù)據(jù);w、b為模型參數(shù)。引入拉格朗日乘子λi和λ,以及核函數(shù)k(x,xi),滿足λi·λ=0,最終轉(zhuǎn)換為:
y=(λi-λ)·k(x,xi)+b(3)
RF[29]算法構(gòu)造了多個(gè)決策樹,當(dāng)需要對(duì)某個(gè)樣本進(jìn)行預(yù)測(cè)時(shí),統(tǒng)計(jì)每個(gè)決策樹對(duì)該樣本的預(yù)測(cè)結(jié)果,然后通過投票法從這些預(yù)測(cè)結(jié)果中選出最后的結(jié)果。
隨機(jī)森林回歸模型假設(shè)特定數(shù)據(jù)集X為輸入數(shù)據(jù),Y為輸出結(jié)果,(X,Y)獨(dú)立同分布,并隨機(jī)生成訓(xùn)練集θ,預(yù)測(cè)結(jié)果為g(X),所以期望泛化誤差可以表示為:
EX,Y[Y-g(X)]2(4)
假設(shè)有h棵決策樹,則決策樹的預(yù)測(cè)平均值gh(X,θh)為隨機(jī)森林回歸的預(yù)測(cè)結(jié)果。當(dāng)h趨近于無(wú)窮大時(shí),式(5)-(8)成立:
EX,Y[Y-gh(X,θh)]2→EX,Y[Y-Eθ(X,θh)]2(5)
式中:PE**為泛化誤差;PE*為單個(gè)決策樹的平均泛化誤差;ρ為加權(quán)關(guān)聯(lián)系數(shù)。最終,隨機(jī)森林的回歸函數(shù)為:
Y=Eθg(X,θ)(9)
2.3模型參數(shù)設(shè)置
機(jī)器學(xué)習(xí)的相關(guān)研究經(jīng)常把多元線性回歸(MLR)當(dāng)作基準(zhǔn)測(cè)試(Benchmark),用來對(duì)比機(jī)器學(xué)習(xí)模型性能[2]。ANN、SVR和RF是常見的機(jī)器學(xué)習(xí)算法,其中ANN和RF分別是神經(jīng)網(wǎng)絡(luò)模型和樹模型的典型代表,在機(jī)器學(xué)習(xí)領(lǐng)域有廣泛的應(yīng)用,常用來做預(yù)測(cè)[30-31];而SVR是非線性回歸,跟MLR的對(duì)比更直觀[32]。本研究利用深圳灣浮標(biāo)在線監(jiān)測(cè)系統(tǒng)采集的高頻監(jiān)測(cè)數(shù)據(jù),對(duì)溶解氧、葉綠素a、總氮和總磷等水質(zhì)參數(shù)進(jìn)行短期預(yù)報(bào)。利用開源的TensorFlow機(jī)器學(xué)習(xí)框架,測(cè)試ANN、SVR和RF等機(jī)器學(xué)習(xí)方法,并與MLR對(duì)比。
在測(cè)試機(jī)器學(xué)習(xí)方法之前,需要針對(duì)不同的水質(zhì)參數(shù)(輸出變量)選定輸入變量。一般來說,除輸出變量本身的自相關(guān)外,輸入變量要在機(jī)理過程上影響輸出變量。但實(shí)際情況是,不同水質(zhì)的監(jiān)測(cè)數(shù)據(jù)往往時(shí)間尺度不一樣,如營(yíng)養(yǎng)鹽數(shù)據(jù)監(jiān)測(cè)頻次為8 h,而其他水質(zhì)參數(shù)監(jiān)測(cè)頻次為0.5 h。另外,通過預(yù)實(shí)驗(yàn)剔除降低預(yù)報(bào)精度的噪聲數(shù)據(jù),如氣壓、酸堿度、鹽度等,并發(fā)現(xiàn)間隔為0.5 h或1 h的水質(zhì)預(yù)報(bào)精度不佳。最終,當(dāng)對(duì)溶解氧和葉綠素a進(jìn)行短期預(yù)報(bào)時(shí),選擇的輸入變量為溫度、濁度、溶解氧、葉綠素a、降雨和光照,預(yù)報(bào)期為48 h,預(yù)報(bào)間隔為2 h,時(shí)間滯后期為48 h。當(dāng)對(duì)總氮和總磷進(jìn)行短期預(yù)報(bào)時(shí),輸入變量為總氮、總磷和氨氮,預(yù)報(bào)期為48 h,預(yù)報(bào)間隔為8 h,時(shí)間滯后期為48 h。機(jī)器學(xué)習(xí)方法存在不確定性,因此對(duì)每個(gè)參數(shù)模擬100次,求出納什系數(shù)平均值,以及5%至95%百分位區(qū)間。數(shù)值試驗(yàn)見表1。
在進(jìn)行模擬之前,對(duì)數(shù)據(jù)進(jìn)行清洗,剔除超出參數(shù)監(jiān)測(cè)范圍的值(比如,去掉溶解氧小于0的值)。剔除前,溶解氧和葉綠素a的總樣本數(shù)為45 312個(gè),總氮和總磷的總樣本為2 832個(gè)。剔除后,溶解氧和葉綠素a的總樣本數(shù)為43 548個(gè),總氮和總磷的總樣本為2 634個(gè)。使用剔除后的數(shù)據(jù)集作為模型輸入,其中70%劃分為訓(xùn)練集,30%為測(cè)試集。然后進(jìn)行數(shù)據(jù)的歸一化處理,本研究選擇的是標(biāo)準(zhǔn)分?jǐn)?shù)方法(z-score)。對(duì)ANN模型而言,設(shè)計(jì)2個(gè)隱藏層,通過多次調(diào)試確定第一層為8個(gè)神經(jīng)元,激活函數(shù)為elu,第二層也為8個(gè)神經(jīng)元,激活函數(shù)為relu。優(yōu)化算法選擇Adam算法,模型評(píng)價(jià)指標(biāo)選擇納什系數(shù),學(xué)習(xí)速率設(shè)置為0.03,步長(zhǎng)設(shè)置為300。對(duì)SVR模型而言,通過多次調(diào)試選擇核函數(shù)為rbf,核函數(shù)系數(shù)gamma設(shè)計(jì)為auto;懲罰因子C設(shè)計(jì)為0.1~100;epsilon為在訓(xùn)練損失函數(shù)中預(yù)測(cè)值與實(shí)際值之間距離值,設(shè)置為0.2。對(duì)RF模型而言,通過多次調(diào)試選擇決策樹的個(gè)數(shù)(n_estimators)為300;bootstrap表示是否進(jìn)行放回抽樣來構(gòu)建決策樹,參數(shù)設(shè)置為true;交叉驗(yàn)證方法(oob_score)設(shè)置為true。模型參數(shù)見表2。
對(duì)于機(jī)器學(xué)習(xí)模型,本研究采用了多個(gè)評(píng)價(jià)指標(biāo)進(jìn)行全面評(píng)估。納什系數(shù)可以用于衡量模型對(duì)觀測(cè)值的擬合程度,數(shù)值越接近1表示模型性能越好。平均絕對(duì)誤差是評(píng)估模型預(yù)測(cè)誤差的常見指標(biāo),它衡量了模型在每個(gè)樣本上預(yù)測(cè)誤差的平均絕對(duì)值,提供了對(duì)整體誤差的直觀認(rèn)識(shí)。均方根誤差考慮了預(yù)測(cè)誤差的平方,更加重視較大誤差的樣本,是對(duì)模型整體性能更敏感的指標(biāo)。預(yù)測(cè)值與實(shí)際值的回歸系數(shù)則提供了對(duì)預(yù)測(cè)與實(shí)際趨勢(shì)一致性的度量,其值介于-1~1,越接近1表示模型擬合得越好。
3結(jié)果分析
3.1統(tǒng)計(jì)分析
圖3顯示了溶解氧和葉綠素a短期預(yù)測(cè)輸入變量的概率分布和皮爾遜相關(guān)系數(shù)。從圖可知,溶解氧和葉綠素a呈一定的正相關(guān),相關(guān)系數(shù)為0.32。溫度和太陽(yáng)輻射、葉綠素a相關(guān)性較弱,相關(guān)系數(shù)分別為0.14和0.16。另外,溶解氧和溫度呈一定的負(fù)相關(guān),相關(guān)系數(shù)為-0.33。
圖4顯示了總氮和總磷短期預(yù)測(cè)輸入變量的概率分布和皮爾遜相關(guān)系數(shù)。從圖可知,總氮和氨氮呈一定的正相關(guān),相關(guān)系數(shù)為0.32;氨氮和總磷相關(guān)系數(shù)為0.13,總氮和總磷相關(guān)系數(shù)為0.07。
3.2預(yù)報(bào)分析
對(duì)溶解氧而言,ANN模型2~48 h預(yù)見期的平均NSE和r值分別由0.76和0.87降低到了0.21和0.46,MAE和RMSE分別由0.43、0.63 mg/L上升到了1.68、2.28 mg/L;SVR模型2~48 h預(yù)見期的平均NSE和r值分別由0.74和0.86降低到了0.05和0.22,MAE和RMSE分別由0.44、0.65 mg/L上升到了3.54、5.89 mg/L;而RF模型2~48 h預(yù)見期的平均NSE和r值分別由0.77和0.87降低到了0.21和0.46,MAE和RMSE分別由0.43、0.63 mg/L上升到了1.73、2.44 mg/L。對(duì)葉綠素a而言,ANN模型2~48 h預(yù)見期的平均NSE和r值分別由0.77和0.87降低到了0.12和0.35,MAE和RMSE分別由2.55、4.98μg/L上升到了6.77、10.26μg/L;SVR模型2~48 h預(yù)見期的平均NSE和r值分別由0.64和0.80降低到了0.41和0.64,MAE和RMSE分別由3.23、6.45μg/L上升到了4.77、7.97μg/L;而RF模型2~48 h預(yù)見期的平均NSE和r值分別由0.69和0.83降低到了0.12和0.35,MAE和RMSE分別由2.97、5.64μg/L上升到了7.11、11.62μg/L。
圖5展示了溶解氧和葉綠素a的2~48 h預(yù)見期的平均NSE。對(duì)溶解氧而言,4個(gè)模型的NSE值隨著預(yù)見期延長(zhǎng)逐漸降低,ANN模型的NSE結(jié)果要好于其他3個(gè)模型,在24 h內(nèi)ANN模型的NSE值大于0.6,SVR模型結(jié)果最差。對(duì)葉綠素a而言,4個(gè)模型總體NSE值也呈下降趨勢(shì),但2~6 h以及24~28 h迅速降低,其他時(shí)間保持平穩(wěn),ANN模型結(jié)果最好,在24 h內(nèi)NSE值大于0.68,MLR模型結(jié)果最差。
對(duì)總氮而言,ANN模型8~48 h預(yù)見期的平均NSE和r值分別由0.78和0.88降低到了0.61和0.78,MAE和RMSE分別由0.28、0.42 mg/L上升到了0.36、0.53 mg/L;SVR模型8~48 h預(yù)見期的平均NSE和r值分別由0.70和0.83降低到了0.60和0.77,MAE和RMSE分別由0.39、0.64 mg/L上升到了0.45、0.74 mg/L;而RF模型8~48 h預(yù)見期的平均NSE和r值分別由0.72和0.84降低到了0.61和0.78,MAE和RMSE分別由0.33、0.57 mg/L上升到了0.47、0.73 mg/L。對(duì)總磷而言,ANN模型8~48 h預(yù)見期的平均NSE和r值分別由0.76和0.87降低到了0.61和0.78,MAE和RMSE分別由0.16、0.40 mg/L上升到了0.28、0.75 mg/L;SVR模型8~48 h預(yù)見期的平均NSE和r值分別由0.74和0.86降低到了0.54和0.73,MAE和RMSE分別由0.17、0.42 mg/L上升到了0.32、0.87 mg/L;而RF模型8~48 h預(yù)見期的平均NSE和r值分別由0.78和0.88降低到了0.61和0.78,MAE和RMSE分別由0.15、0.38mg/L上升到了0.29、0.78 mg/L。
圖6說明了總氮和總磷的8~48 h預(yù)見期的平均NSE。無(wú)論是總氮和總磷,4個(gè)模型的NSE值逐漸降低。但總氮的ANN模型結(jié)果最好,在24 h內(nèi)NSE值大于0.75,SVR模型結(jié)果最差;總磷的RF模型結(jié)果最好,在24 h內(nèi)NSE值大于0.76,SVR模型結(jié)果最差。
另一方面,機(jī)器學(xué)習(xí)模型存在一定的不確定性。根據(jù)100次模擬結(jié)果,雖然溶解氧和葉綠素a的ANN模型NSE平均值較高,但ANN模型的整體分布卻不如RF模型集中,5%~95%百分位區(qū)間更寬,說明RF模型穩(wěn)健性(Robustness)更好,對(duì)數(shù)據(jù)變化的容忍度更高。隨著預(yù)見期變長(zhǎng),3種機(jī)器學(xué)習(xí)模型的NSE值5%~95%百分位區(qū)間逐漸變寬,說明模型穩(wěn)健性逐漸下降。與溶解氧和葉綠素a的NSE值5%~95%百分位區(qū)間結(jié)果一致,總氮和總磷的RF模型的穩(wěn)健性更好。
總體而言,4種水質(zhì)參數(shù)在2~48 h的預(yù)見期內(nèi),預(yù)報(bào)精度隨著預(yù)報(bào)期的延長(zhǎng)逐漸降低。在24 h內(nèi)的預(yù)報(bào)期,4種水質(zhì)參數(shù)的預(yù)報(bào)精度較好。在3種機(jī)器學(xué)習(xí)方法中,ANN模型最適合溶解氧、葉綠素a和總氮;RF模型最適合總磷。隨著預(yù)報(bào)期的延長(zhǎng),4種水質(zhì)參數(shù)的ANN模型、SVR模型和RF模型的穩(wěn)健性逐漸降低。
4討論
傳統(tǒng)的水質(zhì)監(jiān)測(cè)頻次較低,難以及時(shí)發(fā)現(xiàn)水環(huán)境污染問題。隨著科技的發(fā)展,水質(zhì)監(jiān)測(cè)工作開始向自動(dòng)化、智能化發(fā)展。水質(zhì)在線監(jiān)測(cè)系統(tǒng)逐漸成為一種高效的手段,不僅可以高頻、連續(xù)監(jiān)測(cè),還能遠(yuǎn)程實(shí)時(shí)發(fā)送監(jiān)測(cè)數(shù)據(jù)給管理者,形成可視化效果。與內(nèi)陸地表水的在線監(jiān)測(cè)相比,海洋水質(zhì)監(jiān)測(cè)一般都遠(yuǎn)離陸地,維護(hù)和修理都更為復(fù)雜。另外,海洋的鹽水會(huì)使得傳感器經(jīng)常受到腐蝕,導(dǎo)致儀器性能下降,使用壽命縮短。海洋生物非常豐富,長(zhǎng)期在水下工作的傳感器難免被浮游植物和海洋動(dòng)物附著及破壞,影響其光學(xué)路徑,尤其一些敏感部件的腐蝕會(huì)嚴(yán)重影響設(shè)備的工作性能,導(dǎo)致測(cè)量結(jié)果出現(xiàn)錯(cuò)誤,從而降低整個(gè)系統(tǒng)的可靠性。因此,海洋水質(zhì)監(jiān)測(cè)儀器需要有較強(qiáng)的環(huán)境耐受性和抗干擾能力,并且能抗腐蝕和抗生物附著等。
在線監(jiān)測(cè)系統(tǒng)是指在浮標(biāo)上搭載傳感器,實(shí)時(shí)監(jiān)測(cè)海洋的水文、氣象、水質(zhì)等環(huán)境要素,并可以通過通信設(shè)備將監(jiān)測(cè)數(shù)據(jù)發(fā)送至服務(wù)器。海洋在線監(jiān)測(cè)系統(tǒng)為海洋的生態(tài)保護(hù)提供了數(shù)據(jù)保障,并能夠幫助管理者及時(shí)了解水質(zhì)變化。海洋在線監(jiān)測(cè)系統(tǒng)采用原位監(jiān)測(cè),可以實(shí)時(shí)反映海洋水環(huán)境的變化;同時(shí)采用自動(dòng)監(jiān)測(cè),可以得到高頻、連續(xù)且長(zhǎng)期的監(jiān)測(cè)數(shù)據(jù)。隨著海洋水質(zhì)監(jiān)測(cè)數(shù)據(jù)的增多,如何利用這些大數(shù)據(jù)將成為未來研究的重點(diǎn),采用機(jī)器學(xué)習(xí)模型的海灣水質(zhì)短期預(yù)報(bào)就是一個(gè)重要的方向。另外,短期和長(zhǎng)期預(yù)報(bào)相互協(xié)同,共同構(gòu)成了全面的水質(zhì)信息體系。長(zhǎng)期預(yù)報(bào)更注重長(zhǎng)期趨勢(shì)和變化的預(yù)測(cè),而短期預(yù)報(bào)更注重實(shí)時(shí)性和高精度,能夠在短時(shí)間內(nèi)提供更準(zhǔn)確的水質(zhì)信息。
融合原位高頻水質(zhì)監(jiān)測(cè)數(shù)據(jù)和機(jī)器學(xué)習(xí)模型的單點(diǎn)預(yù)報(bào)結(jié)果,對(duì)粵港澳大灣區(qū)水安全保障具有一定的啟示作用。首先,要加強(qiáng)海灣氣象和水質(zhì)監(jiān)測(cè)。水質(zhì)預(yù)報(bào)通常需要依賴大量的數(shù)據(jù),可增大監(jiān)測(cè)頻率和增加浮標(biāo)點(diǎn)位數(shù)量,從而獲得更多的氣象和水質(zhì)監(jiān)測(cè)數(shù)據(jù)。在時(shí)間方面,要針對(duì)營(yíng)養(yǎng)鹽開發(fā)監(jiān)測(cè)頻率更短且更先進(jìn)的傳感器,目前深圳灣營(yíng)養(yǎng)鹽指標(biāo)(包括總氮、總磷和氨氮)的監(jiān)測(cè)頻率為8 h一次,難以滿足短期水質(zhì)預(yù)報(bào)。其次,要提前做好水質(zhì)污染預(yù)案。機(jī)器學(xué)習(xí)可實(shí)現(xiàn)深圳灣24 h內(nèi)水質(zhì)的準(zhǔn)確預(yù)報(bào),當(dāng)24 h預(yù)報(bào)值超過設(shè)定閾值范圍時(shí),說明海灣水質(zhì)已經(jīng)受到了一定的污染,所以需要針對(duì)不同水質(zhì)參數(shù)做好污染預(yù)案。管理部門可設(shè)立不同的水質(zhì)污染等級(jí),建立分級(jí)應(yīng)對(duì)機(jī)制,從而更好地處理污染事件。最后,要提升海灣水質(zhì)應(yīng)急能力。在海灣水質(zhì)的日常管理工作中,應(yīng)定期開展針對(duì)水質(zhì)污染事件的培訓(xùn)和演練,才能在24 h水質(zhì)預(yù)報(bào)期內(nèi)迅速采取響應(yīng)措施,從而最大限度地減少水質(zhì)污染事件造成的損失。綜上,基于機(jī)器學(xué)習(xí)的水質(zhì)短期預(yù)報(bào)可以提高水質(zhì)管理效率,促進(jìn)水質(zhì)監(jiān)測(cè)技術(shù)的發(fā)展,從而降低應(yīng)急處理成本,提高對(duì)策制定的科學(xué)性,提升社會(huì)公眾參與意識(shí)。
5結(jié)論
本研究利用深圳灣單點(diǎn)浮標(biāo)高頻水質(zhì)監(jiān)測(cè)數(shù)據(jù),測(cè)試ANN、SVR和RF等機(jī)器學(xué)習(xí)方法,對(duì)重要水質(zhì)參數(shù)溶解氧、葉綠素a、總氮和總磷進(jìn)行短期預(yù)報(bào),主要結(jié)論如下。
a)預(yù)報(bào)精度隨著預(yù)報(bào)期的延長(zhǎng)逐漸降低。其中,在24 h內(nèi)的預(yù)報(bào)期,4種水質(zhì)參數(shù)的預(yù)報(bào)精度較好。在3種機(jī)器學(xué)習(xí)方法中,ANN模型最適合溶解氧、葉綠素a和總氮,24 h內(nèi)預(yù)報(bào)結(jié)果的NSE值均大于0.60;RF模型最適合總磷,24 h內(nèi)的NSE值均大于0.76。
b)機(jī)器學(xué)習(xí)方法的穩(wěn)健性隨著預(yù)報(bào)期的延長(zhǎng)逐漸降低。在3種機(jī)器學(xué)習(xí)方法中,RF模型的穩(wěn)健性最好,ANN模型的穩(wěn)健性次之,SVR模型的穩(wěn)健性最差。
參考文獻(xiàn):
[1]魯言波,陳湛峰,李曉芳.基于粒子群優(yōu)化的GRU廣東省跨境斷面水質(zhì)預(yù)測(cè)模型研究[J].生態(tài)環(huán)境學(xué)報(bào),2023,32(9):1673-1681.
[2]XIONG R,ZHENG Y,CHEN N W,et al.Predicting dynamic riverine nitrogen export in unmonitored watersheds:Leveraging insights of AI from data-rich regions[J].Environmental Scienceamp;Technology,2022,56(14):10530-10542.
[3]ADAMOWSKI J,F(xiàn)UNG CHAN H,PRASHER S O,et al.Comparison of multiple linear and nonlinear regression,autoregressive integrated moving average,artificial neural network,and wavelet artificial neural network methods for urban water demand forecasting in Montreal,Canada[J].Water Resources Research,2012,48(1):112-123.
[4]ARORA S,KESHARI A K.Estimation of re-aeration coefficient using MLR for modelling water quality of rivers in urban environment[J].Groundwater for Sustainable Development,2018(7):430-435.
[5]VICCIONE G,GUARNACCIA C,MANCINI S,et al.On the use of ARIMA models for short-term water tank levels forecasting[J].Water Supply,2020,20(3):787-799.
[6]KRUEGER T.Bayesian inference of uncertainty in freshwater quality caused by low-resolution monitoring[J].Water Research,2017,115:138-148.
[7]SHIHAB K,CHALABI N.Bayesian methods for assessing water quality[C]//Fourth International Conference on Computer Scienceamp;Information Fechnology,2014,4(2):397-407.
[8]SCHULZ M A,YEO B T,VOGELSTEIN J T,et al.Different scaling of linear models and deep learning in UKBiobank brain images versus machine-learning datasets[J].Nature Communications,2020,11(1):4238-4253.
[9]彭偉,熊佳藝,江顯群,等.基于神經(jīng)網(wǎng)絡(luò)的小型水庫(kù)洪水預(yù)報(bào)研究[J].人民珠江,2023,44(3):1-8.
[10]SARKER I H.Machine learning:Algorithms,real-world applications and research directions[J].SN Computer Science,2021,2(3):160-181.
[11]KIM J,HAN H,JOHNSON L E,et al.Hybrid machine learning framework for hydrological assessment[J].Journal of Hydrology,2019,577(1/2):123-135.
[12]KISI O,AZAD A,KASHI H,et al.Modeling groundwater quality parameters using hybrid neuro-fuzzy methods[J].Water Resources Management,2019,33:847-861.
[13]李玉翠,周正,彭漪,等.基于機(jī)器學(xué)習(xí)的東湖富營(yíng)養(yǎng)化研究[J].人民長(zhǎng)江,2018,49(17):12-17.
[14]陳能汪,余鎰琦,陳紀(jì)新,等.人工神經(jīng)網(wǎng)絡(luò)模型在水質(zhì)預(yù)警中的應(yīng)用研究進(jìn)展[J].環(huán)境科學(xué)學(xué)報(bào),2021,41(12):4771-4782.
[15]伏吉祥.水庫(kù)型飲用水水源地水質(zhì)綜合評(píng)價(jià)RDPSO-RF模型及應(yīng)用[J].人民珠江,2019,40(3):101-106,127.
[16]MOHAMMADPOUR R,SHAHARUDDIN S,CHANG C K,et al.Prediction of water quality index in constructed wetlands using support vector machine[J].Environmental Science and Pollution Research,2015,22:6208-6219.
[17]PIOTROWSKI A P,NAPIORKOWSKI M J,NAPIORKOWSKI J J,et al.Comparing various artificial neural network types for water temperature prediction in rivers[J].Journal of Hydrology,2015,529:302-315.
[18]WEN X H,F(xiàn)ANG J,DIAO M N,et al.Artificial neural network modeling of dissolved oxygen in the Heihe River,Northwestern China[J].Environmental Monitoring and Assessment,2013,185:4361-4371.
[19]NAJAH A,EL-SHAFIE A,KARIM O A,et al.Application of artificial neural networks for water quality prediction[J].Neural Computing and Applications,2013,22:187-201.
[20]袁從貴.最小二乘支持向量回歸及其在水質(zhì)預(yù)測(cè)中的應(yīng)用研究[D].廣州:廣東工業(yè)大學(xué),2012.
[21]KHAN M A,SHAH M I,JAVED M F,et al.Application of random forest for modelling of surface water salinity[J].Ain Shams Engineering Journal,2022,13(4):101-121.
[22]CASTRILLO M,GARCíAáL.Estimation of high frequency nutrient concentrations from water quality surrogates usingmachine learning methods[J].Water Research,2020,172.DOI:10.1016/j.water.2020.115490.
[23]ZHAO C C,ZHANG S Y,MAO X Z.Variations of annual load of TN and TP in the deep bay watershed,Shenzhen[J].Huan Jing Ke Xue,2014,35(11):4111-4117.
[24]NEUMANN M,DUDGEON D.The impact of agricultural runoff on stream benthos in Hong Kong,China[J].Water Research,2002,36(12):3103-3109.
[25]XU J,YIN K D,LEE J H,et al.Long-term and seasonal changes in nutrients,phytoplankton biomass,and dissolved oxygen in Deep Bay,Hong Kong[J].Estuaries and Coasts,2010,33:399-416.
[26]ZHOU Y,WANG L L,ZHOU Y Y,et al.Eutrophication control strategies for highly anthropogenic influenced coastal waters[J].Science of the Total Environment,2019,705:123-135.
[27]ZADOR A M.A critique of pure learning and what artificial neural networks can learn from animal brains[J].Nature Communications,2019,10(1):3770-3779.
[28]ESSAM Y,HUANG Y F,NG J L,et al.Predicting streamflow in Peninsular Malaysia using support vector machine and deep learning algorithms[J].Scientific Reports,2022,12(1):3883-3896.
[29]TYRALIS H,PAPACHARALAMPOUS G,LANGOUSIS A.A brief review of random forests for water scientists and practitioners and their recent history in water resources[J].Water,2019,11(5):910-926.
[30]NOORI N,KALIN L,ISIK S.Water quality prediction using SWAT-ANN coupled approach[J].Journal of Hydrology,2020,590(3):125-136.
[31]WANG F E,WANG Y X,ZHANG K,et al.Spatial heterogeneity modeling of water quality based on random forest regression and model interpretation[J].Environmental Research,2021,202(6):111-123.
[32]DAI Y,WANG H J,WANG J F,et al.Prediction of water quality based on SVR by fluorescence excitation-emission matrix and UV-Vis absorption spectrum[J].Spectrochimica Acta Part A:Molecular and Biomolecular Spectroscopy,2022,273.DOI:10.1016/j.saa.2022.121059.
(責(zé)任編輯:高天揚(yáng))