顧 杰,王 嘉,鄧俊暉,王榮昌
(1. 浙江嘉科信息科技有限公司,浙江嘉興 314000;2. 同濟(jì)大學(xué)環(huán)境科學(xué)與工程學(xué)院,長江水環(huán)境教育部重點(diǎn)實(shí)驗(yàn)室,上海 200092)
對水質(zhì)預(yù)測,目前普遍是根據(jù)現(xiàn)在值和某一變量對未來值進(jìn)行預(yù)測。兩種主要工具,一是根據(jù)時(shí)間序列方法進(jìn)行預(yù)測,二是利用灰色系統(tǒng)原理進(jìn)行預(yù)測[1]。這兩種方法預(yù)測結(jié)果相比,精度更高的是時(shí)間序列方法[2]。由于ARIMA模型的靈活性、簡單性以及可行性,在時(shí)間序列預(yù)測方法中已經(jīng)成為主要的時(shí)間預(yù)測方法[3]。在現(xiàn)實(shí)中絕大多數(shù)時(shí)間序列含有非線性的因素,但是,ARIMA模型中時(shí)間序列變量的未來值被認(rèn)為是變量過去觀測值和隨機(jī)誤差值的線性函數(shù)。因此,單獨(dú)使用該模型進(jìn)行預(yù)測會(huì)產(chǎn)生較大的誤差。通過大量數(shù)據(jù)的訓(xùn)練,神經(jīng)網(wǎng)絡(luò)模型能夠挖掘數(shù)據(jù)背后復(fù)雜的非線性關(guān)系,具有較強(qiáng)的學(xué)習(xí)能力,已經(jīng)在數(shù)據(jù)預(yù)測領(lǐng)域得到廣泛的應(yīng)用,并成為一種主要的預(yù)測方法[4]。實(shí)際研究中總是或多或少地含有非線性因素,當(dāng)非線性因素影響較小,或在某一范圍內(nèi)影響較小時(shí),尚可采用線性模型來描述或逼近。但是,非線性影響較大或用線性逼近也得不到較好結(jié)果時(shí),非線性時(shí)間序列模型的運(yùn)用就顯露了其特有的優(yōu)勢。神經(jīng)網(wǎng)絡(luò)模型為非線性模型預(yù)測提供了新思路。由于是具備自動(dòng)學(xué)習(xí)、逼近能夠反映樣本數(shù)據(jù)規(guī)律的最優(yōu)函數(shù),且當(dāng)函數(shù)形式越復(fù)雜時(shí),神經(jīng)網(wǎng)絡(luò)預(yù)測的效果越好[5],其在預(yù)測高復(fù)雜度的非線性時(shí)間序列方面明顯優(yōu)于傳統(tǒng)的線性預(yù)測方法。為了規(guī)避單個(gè)預(yù)測模型無法充分捕獲時(shí)間序列中所包含的信息缺陷,通過組合不同預(yù)測模型的優(yōu)勢,盡可能多的獲取時(shí)間序列數(shù)據(jù)中的信息[6]。有學(xué)者將上述方法集成進(jìn)行時(shí)間序列預(yù)測研究,以提高模型的預(yù)測效果,例如,趙成柏等[2]基于ARIMA和BP神經(jīng)網(wǎng)絡(luò)組合模型的我國碳排放強(qiáng)度預(yù)測。因此,本文提出了一種基于ARIMA方法和改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)組合模型對水質(zhì)進(jìn)行預(yù)測,提高預(yù)測的精度。采集的待預(yù)測流域水質(zhì)時(shí)間序列數(shù)據(jù)可能包含多種季節(jié)性等特點(diǎn),線性數(shù)據(jù)使用ARIMA自回歸積分滑動(dòng)平均模型預(yù)測,對于非線性數(shù)據(jù),使用BP神經(jīng)網(wǎng)絡(luò)預(yù)測??紤]到水質(zhì)數(shù)據(jù)中大部分是非線性數(shù)據(jù),在BP神經(jīng)網(wǎng)絡(luò)中加入氣象因素對模型進(jìn)行訓(xùn)練[7]。最后,將ARIMA自回歸積分滑動(dòng)平均模型預(yù)測值與BP神經(jīng)網(wǎng)絡(luò)模型誤差值結(jié)果在待預(yù)測各時(shí)間點(diǎn)的值進(jìn)行相加,得到最終的水質(zhì)預(yù)測結(jié)果。本文采用2019年1月1日—2019年11月19日嘉興市某站點(diǎn)水質(zhì)歷史數(shù)據(jù)和嘉興周邊氣象數(shù)據(jù),建立ARIMA和BP神經(jīng)網(wǎng)絡(luò)組合預(yù)測模型,并分別利用單個(gè)ARIMA模型和ARIMA-BP組合模型對2019年11月20日—2019年12月7日該站點(diǎn)水質(zhì)電導(dǎo)率、溶解氧、總磷、總氮、高錳酸鹽、氨氮進(jìn)行預(yù)測。
ARIMA (auto regressive integrated moving average) 方法可對時(shí)間序列進(jìn)行預(yù)測,常被用于需求預(yù)測和規(guī)劃中。博克思(Box)和詹金斯(Jenkins)于70年代初提出這一著名的時(shí)間序列預(yù)測方法,又稱box-jenkins模型、博克思-詹金斯法[8],可用來對隨機(jī)過程的特征隨著時(shí)間變化而非固定、導(dǎo)致時(shí)間序列非平穩(wěn)的原因是隨機(jī)而非確定的問題。為了得到一個(gè)平穩(wěn)的序列,假設(shè)從平穩(wěn)的時(shí)間序列開始,首先應(yīng)當(dāng)做差分。模型的思想就是從歷史的數(shù)據(jù)中學(xué)習(xí)到隨時(shí)間變化的模式來預(yù)測未來。其中ARIMA(p,d,q)稱為差分自回歸移動(dòng)平均模型,d是差分的階數(shù),用來得到平穩(wěn)序列[9];AR是自回歸,p為相應(yīng)的自回歸項(xiàng);MA為移動(dòng)平均,q為相應(yīng)的移動(dòng)平均項(xiàng)數(shù)。
建立ARIMA時(shí)間序列模型包括3個(gè)步驟。
(1)數(shù)據(jù)的平穩(wěn)性處理
判斷樣本的平穩(wěn)性,需對一個(gè)時(shí)間序列進(jìn)行ARIMA(p,d,q)模型建模,如果不是平穩(wěn)序列,需利用一次或多次差分將其轉(zhuǎn)化為平穩(wěn)序列。原序列值相距一期的兩個(gè)序列值之間的減法運(yùn)算是一階差分;相距K期的兩個(gè)序列值之間相減是k階差分;差分平穩(wěn)序列表現(xiàn)為一個(gè)時(shí)間序列經(jīng)過差分運(yùn)算后有平穩(wěn)性,可以使用ARIMA模型進(jìn)行分析。
(2)確定模型參數(shù)
參數(shù)估計(jì)主要有3種方法:矩估計(jì)、最小二乘法和極大似然法。3種方法各有利弊,為達(dá)到最佳的模型擬合效果,需對這3種方法進(jìn)行嘗試,最后根據(jù)樣本數(shù)據(jù)選取最優(yōu)估計(jì)方法[10]。
(3)模型驗(yàn)證
驗(yàn)證所擬合的時(shí)間序列模型的參數(shù)估計(jì)值是否有顯著性和驗(yàn)證所擬合的時(shí)間序列模型的殘差序列是否是白噪聲序列,即殘差序列的獨(dú)立性檢驗(yàn)。
BP神經(jīng)網(wǎng)絡(luò)是一種通過BP算法實(shí)現(xiàn)的人工神經(jīng)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)是受自然神經(jīng)元靜息和動(dòng)作電位產(chǎn)生機(jī)制啟發(fā)而建立的一個(gè)運(yùn)算模型。神經(jīng)元大致可以分為樹突、突觸、細(xì)胞體和軸突,神經(jīng)元通過位于樹突上的突觸接受信號(hào)[11]。當(dāng)信號(hào)量超過某個(gè)閾值時(shí),細(xì)胞體就會(huì)被激活,產(chǎn)生電脈沖。電脈沖沿著軸突并通過突觸傳遞到其他神經(jīng)元,且可能激活別的神經(jīng)元,神經(jīng)元生理結(jié)構(gòu)如圖1所示。
圖1 神經(jīng)元生理結(jié)構(gòu)Fig.1 Physiological Structure of Neuron
人工神經(jīng)元模型已經(jīng)把自然神經(jīng)元的復(fù)雜性進(jìn)行了高度抽象的符號(hào)性概括。神經(jīng)元模型基本上包括多個(gè)輸入(類似突觸),這些輸入分別被不同的權(quán)值相乘(收到的信號(hào)強(qiáng)度不同),然后被一個(gè)數(shù)學(xué)函數(shù)用來計(jì)算決定是否激發(fā)神經(jīng)元,該函數(shù)被稱作激活函數(shù)[12],如圖2所示。人工神經(jīng)網(wǎng)絡(luò)把這些人工神經(jīng)元融合一起用于處理信息。
圖2 人工神經(jīng)網(wǎng)絡(luò)激活函數(shù)Fig.2 Activation Function of Artificial Neural Network
權(quán)值越大表示輸入的信號(hào)對神經(jīng)元影響越大。通過調(diào)整權(quán)值可得到固定輸入下需要的輸出值。調(diào)整權(quán)重的過程稱為“學(xué)習(xí)”或“訓(xùn)練”[13]。
以最簡單的一維線性函數(shù)y=wx+b為例,通過調(diào)整w和b兩個(gè)參數(shù)可以使該函數(shù)左右上下移動(dòng),在引入激活函數(shù)σ(wx+b)后,線性函數(shù)即可變成更復(fù)雜的非線性函數(shù)[14],如圖3所示。
圖3 神經(jīng)網(wǎng)絡(luò)模型及對應(yīng)的函數(shù)1Fig.3 Neural Network Model and Corresponding Functions 1
在神經(jīng)網(wǎng)絡(luò)神經(jīng)元上運(yùn)行的函數(shù)即為激活函數(shù),主要負(fù)責(zé)將神經(jīng)元的輸入映射到輸出端。常見的激活函數(shù)包括TanHyperbolic(tanh)、Sigmoid、TanHyperbolic(tanh)、ReLu、 TanHyperbolic(tanh)以及softmax函數(shù)[15]。非線性函數(shù)作為這些函數(shù)的的共同點(diǎn),引入非線性函數(shù)作為激勵(lì)函數(shù),神經(jīng)網(wǎng)絡(luò)就可以逼近任意函數(shù)。
基于神經(jīng)網(wǎng)絡(luò)算法可以構(gòu)造出任意復(fù)雜函數(shù)的理論依據(jù)[16],可以建立一個(gè)特定的神經(jīng)網(wǎng)絡(luò)模型,使用前幾天水質(zhì)誤差數(shù)據(jù)和氣象數(shù)據(jù)作為特征值,對應(yīng)當(dāng)天水質(zhì)誤差數(shù)據(jù)作為特征標(biāo)簽,進(jìn)行訓(xùn)練并不斷調(diào)整網(wǎng)絡(luò)模型的權(quán)重,擬合出一個(gè)對應(yīng)的函數(shù),然后使用該函數(shù)做校準(zhǔn)[17]。
本文使用的BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)包括水質(zhì)誤差數(shù)據(jù)和氣象數(shù)據(jù),每個(gè)維度之間的數(shù)量級(jí)差別較大,直接訓(xùn)練會(huì)導(dǎo)致每一維的梯度下降不同,使用同一個(gè)學(xué)習(xí)率也很難迭代到代價(jià)函數(shù)最低點(diǎn)。經(jīng)過歸一化處理后,易進(jìn)行梯度下降,便于提高訓(xùn)練速度[18]。常用歸一化方法有最大-最小標(biāo)準(zhǔn)化、Z-score標(biāo)準(zhǔn)化、函數(shù)轉(zhuǎn)化等[19]。使用最大-最小標(biāo)準(zhǔn)化對原始數(shù)據(jù)進(jìn)行線性變換,設(shè)minA和maxA分別為A的最小值和最大值,將A的一個(gè)原始值x通過最大-最小標(biāo)準(zhǔn)化映射到區(qū)間[0,1]的值x′,如式(1)。
(1)
其中:x——(-∞,+∞)的實(shí)數(shù)值;
A——原始數(shù)據(jù)值。
本文只描述水質(zhì)電導(dǎo)率指標(biāo)的建模過程,其他幾個(gè)指標(biāo)的建模過程類似,不再描述。整個(gè)建模過程采用R語言實(shí)現(xiàn),建模流程如圖4所示。
圖4 建模流程圖Fig.4 Flow Chart of Modeling
(1)數(shù)據(jù)準(zhǔn)備
本次觀測對象為嘉興市某水質(zhì)站點(diǎn)采集的水質(zhì)電導(dǎo)率時(shí)間序列日均指標(biāo),時(shí)間為2019年1月1日—2019年11月19日,時(shí)間序列有323個(gè)數(shù)據(jù)。
(2)數(shù)據(jù)導(dǎo)入
data<-read.xlsx("水質(zhì)電導(dǎo)率數(shù)據(jù).xlsx",sheetName=“Sheet1”,header=T,encoding="UTF-8")
(3)平穩(wěn)性檢驗(yàn)
根據(jù)以上信息,運(yùn)用R語言中的繪圖程序,繪制水質(zhì)電導(dǎo)率指標(biāo)隨時(shí)間的趨勢圖(圖5)。
data1<-data[-1]
ddl<-ts(data1,start=2019-01-01)
dev.off()
plot(ddl)
圖5 水質(zhì)電導(dǎo)率趨勢Fig.5 Trend Diagram of Water Quality Conductivity
如圖5所示,水質(zhì)電導(dǎo)率指標(biāo)圍繞一個(gè)常數(shù)上下波動(dòng),是一個(gè)平穩(wěn)序列。因此,不需要對時(shí)間序列進(jìn)行差分,確定d=0。
(4)自相關(guān)圖和偏自相關(guān)圖
確定好階數(shù)d的選擇后,再確定ARIMA模型中的參數(shù)p與q。時(shí)間序列的自相關(guān)系數(shù)(ACF)與偏自相關(guān)系數(shù)(PACF)可以判斷參數(shù)p與q。 對平穩(wěn)后的時(shí)間序列繪制自相關(guān)圖與偏自相關(guān)圖(圖6)。
自相關(guān)圖顯示自相關(guān)值基本沒有超過虛線邊界值,雖然有個(gè)別介數(shù)自相關(guān)值超出邊界,但很可能屬于偶然出現(xiàn),其他均沒有超出顯著邊界。偏自相關(guān)圖顯示,基本上也沒有超過邊界值??梢钥紤]p=2,q=0,即ARIMA(2,0,0)模型。
(5)白噪聲檢驗(yàn)
Box.test(arima200$residual,type="Box-Pierce",lag=5)
對殘差序列進(jìn)行白噪聲檢驗(yàn),得出p值=0.457 2>0.05,殘差序列白噪聲檢驗(yàn)說明,模型顯著成立,ARIMA(2,0,0) 模型對該時(shí)間序列擬合成功。
(6)模型預(yù)測
運(yùn)用上述得到的 ARIMA(2,0,0)模型,調(diào)用forecast函數(shù)預(yù)測2019年11月20日—2019年12月7日數(shù)據(jù)。
predict.fore<-forecast(arima200,h=20)
圖6 水質(zhì)電導(dǎo)率自相關(guān)圖和偏自相關(guān)圖Fig.6 ACF Diagram and PACF Diagram of Water Quality Conductivity
predict.fore
(7)模型擬合
使用auto.arima函數(shù)自動(dòng)生成擬合參數(shù)進(jìn)行擬合:
auto.arima(ddl)
auto.arima給出的建議參數(shù)是(2,0,0)(1,1,1)[12]
fit<-arima(data,order=c(2,0,0),seasonal=list(order=c(1,1,1),period=12)) #
擬合結(jié)果如圖7所示,實(shí)線為真實(shí)值,虛線為擬合值。
圖7 水質(zhì)電導(dǎo)率真實(shí)值和擬合值Fig.7 Real Value and Fitted Value of Water Quality Conductivity
本文只描述了水質(zhì)電導(dǎo)率指標(biāo)誤差的BP神經(jīng)網(wǎng)絡(luò)建模過程,其他幾個(gè)指標(biāo)的建模過程類似不再描述。
(1)準(zhǔn)備數(shù)據(jù)
通過ARIMA模型的擬合結(jié)果,可以生成323個(gè)由原始值減去擬合值的誤差數(shù)據(jù)以及對應(yīng)每日嘉興市的氣溫、氣壓、降雨量作為訓(xùn)練樣本數(shù)據(jù)。
(2)構(gòu)建模型
(3)訓(xùn)練模型
模型訓(xùn)練部分R語言代碼片段如下。
# 讀取訓(xùn)練數(shù)據(jù)
input <- read.csv("水質(zhì)電導(dǎo)率誤差訓(xùn)練樣本數(shù)據(jù).csv",header=TRUE,sep=",")
# 設(shè)置訓(xùn)練參數(shù)
dataCol <- “ddl_error_day1_before”
labelCol <- “ddl_error_now”
inputCols <-c(dataCol,“ddl_error_day2_before”,“ddl_error_day3_before”,“temperature”,“pressure”,“rainfall”)
# 設(shè)置訓(xùn)練數(shù)據(jù)樣本比率
trainingSetRatio <-0.9
# 歸一化
Maxs <- apply(input,2,max)
Mins <- apply(input,2,min)
# 訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型
net<-Training(input,trainingSetRatio,dataCol, labelCol,inputCols, 0.0111)
# 讀取驗(yàn)證數(shù)據(jù)
ca_input <- read.csv("水質(zhì)電導(dǎo)率誤差驗(yàn)證數(shù)據(jù).csv",header=TRUE,sep=",")
# 使用訓(xùn)練好的模型驗(yàn)證數(shù)據(jù)
predict<-Calibrate(net,ca_input,inputCols,Maxs,Mins,labelCol)
# 計(jì)算性能指標(biāo)
label<-as.data.frame(ca_input[labelCol])
r2<-RSquare(predict,label)
mse<-Mse(predict,label)
運(yùn)用模型預(yù)測統(tǒng)計(jì)分析方法,對比水質(zhì)指標(biāo)預(yù)測數(shù)據(jù)與實(shí)際水質(zhì)指標(biāo)監(jiān)測數(shù)據(jù),分別計(jì)算平均百分比誤差值[式(2)]、均方根誤差值[式(3)]、平均偏差值[式(4)],對水質(zhì)預(yù)測數(shù)據(jù)準(zhǔn)確率進(jìn)行分析。
(2)
其中:MRE——平均百分比誤差;
Gi,o——實(shí)測值;
Gi,m——預(yù)測值;
n——數(shù)量。
(3)
其中:RMSE——均方根誤差;
Gi,o——實(shí)測值;
Gi,m——預(yù)測值;
n——數(shù)量。
(4)
其中:MBE——平均偏差;
Gi,o——代表實(shí)測值;
Gi,m——預(yù)測值;
n——數(shù)量。
分別利用建立的ARIMA模型預(yù)測嘉興某個(gè)水質(zhì)站點(diǎn)2019年11月20日—2019年12月7日各項(xiàng)水質(zhì)參數(shù)的值,得出某個(gè)水質(zhì)站點(diǎn)電導(dǎo)率、溶解氧、總磷、總氮、高錳酸鹽指數(shù)、氨氮的預(yù)測數(shù)據(jù)分析結(jié)果,如圖8~圖13所示。
圖8 電導(dǎo)率預(yù)測分析預(yù)測結(jié)果對比Fig.8 Comparison Chart of Prediction Results of Conductivity Prediction Analysis
圖9 溶解氧預(yù)測分析預(yù)測結(jié)果對比Fig.9 Comparison Results of Dissolved Oxygen Prediction Analysis
將嘉興某個(gè)水質(zhì)站點(diǎn)2019年11月20日—2019年12月7日各項(xiàng)水質(zhì)參數(shù)(溶解氧、總磷、總氮、高錳酸鹽指數(shù)、氨氮)的實(shí)際監(jiān)測數(shù)據(jù)和模型預(yù)測數(shù)據(jù)進(jìn)行對比,分析MRE(平均百分比誤差)、RMSE(均方根誤差)、MBE(平均誤差)3個(gè)誤差統(tǒng)計(jì)參數(shù),如表1所示。
圖10 總磷預(yù)測分析預(yù)測結(jié)果對比Fig.10 Comparison Results of Total Phosphorus Prediction Analysis
圖12 高錳酸鹽指數(shù)預(yù)測分析預(yù)測結(jié)果對比Fig.12 Comparison Chart of Prediction Results of Permanganate Index Prediction Analysis
圖11 總氮預(yù)測分析預(yù)測結(jié)果對比Fig.11 Comparison Results of Total Nitrogen Prediction Analysis
圖13 氨氮預(yù)測分析預(yù)測結(jié)果對比Fig.13 Comparison Chart of Prediction Results of Ammonia Nitrogen Prediction Analysis
表1 ARIMA水質(zhì)預(yù)測數(shù)據(jù)模型統(tǒng)計(jì)分析Tab.1 Statistical Analysis of ARIMA Water Quality Forecast Data Model
分析各項(xiàng)水質(zhì)監(jiān)測指標(biāo)的平均百分比誤差[式(2)],得出電導(dǎo)率、溶解氧、總磷、總氮、高錳酸鹽指數(shù)、氨氮對應(yīng)指標(biāo)的平均百分比誤差,分別為4.61%、13.50%、16.60%、40.77%、15.56%、38.59%。其中,總氮的平均百分比誤差最大,其次為氨氮、總磷、高錳酸鹽指數(shù)、溶解氧,電導(dǎo)率平均百分比誤差最小。
分析各項(xiàng)水質(zhì)監(jiān)測指標(biāo)的均方根誤差[式(3)],得出電導(dǎo)率、溶解氧、總磷、總氮、高錳酸鹽指數(shù)、氨氮對應(yīng)的均方根誤差,分別為25.019、1.066 0、0.026 2、1.472 5、0.890 5、0.148 1。其中,電導(dǎo)率的均方根誤差最大,其次為總氮、溶解氧、高錳酸鹽指數(shù)、氨氮,總磷的均方根誤差最小。
分析各項(xiàng)水質(zhì)監(jiān)測指標(biāo)的平均誤差[式(4)],得出電導(dǎo)率、溶解氧、總磷、總氮、高錳酸鹽指數(shù)、氨氮對應(yīng)的平均誤差,分別為-0.738、-0.082 5、-0.002 0、0.012 5、-0.020 0、-0.010 0。其中,電導(dǎo)率的平均誤差絕對值最大,其次為總氮、溶解氧、高錳酸鹽指數(shù)、氨氮,總磷的平均誤差絕對值最小。
圖14 電導(dǎo)率預(yù)測分析預(yù)測結(jié)果對比Fig.14 Comparison Results of Conductivity Prediction Analysis
圖16 總磷預(yù)測分析預(yù)測結(jié)果對比Fig.16 Comparison Results of Total Phosphorus Prediction Analysis
圖18 高錳酸鹽指數(shù)預(yù)測分析預(yù)測結(jié)果對比Fig.18 Comparison Results of Permanganate Index Prediction Analysis
圖15 溶解氧預(yù)測分析預(yù)測結(jié)果對比Fig.15 Comparison Results of Dissolved Oxygen Prediction Analysis
圖17 總氮預(yù)測分析預(yù)測結(jié)果對比Fig.17 Comparison Results of Total Nitrogen Prediction Analysis
圖19 氨氮預(yù)測分析預(yù)測結(jié)果對比Fig.19 Comparison Chart of Prediction Results of Ammonia Nitrogen Prediction Analysis
利用建立的ARIMA模型和改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)模型組合方式,預(yù)測嘉興某個(gè)水質(zhì)站點(diǎn)2019年11月20日—2019年12月7日各項(xiàng)水質(zhì)參數(shù)的值,得出某個(gè)水質(zhì)站點(diǎn)電導(dǎo)率、溶解氧、總磷、總氮、高錳酸鹽指數(shù)、氨氮的預(yù)測數(shù)據(jù)分析結(jié)果,如圖14~圖19所示。
將嘉興某個(gè)水質(zhì)站點(diǎn)2019年11月20日—2019年12月7日各項(xiàng)水質(zhì)參數(shù)(溶解氧、總磷、總氮、高錳酸鹽指數(shù)、氨氮)的實(shí)際監(jiān)測數(shù)據(jù)和模型預(yù)測數(shù)據(jù)進(jìn)行對比,分析MRE(平均百分比誤差)、RMSE(均方根誤差)、MBE(平均誤差)3個(gè)誤差統(tǒng)計(jì)參數(shù),如表2所示。
表2 水質(zhì)預(yù)測數(shù)據(jù)模型統(tǒng)計(jì)分析Tab.2 Statistical Analysis of Water Quality Forecast Data Model
分析各項(xiàng)水質(zhì)監(jiān)測指標(biāo)的平均百分比誤差[式(2)],得出電導(dǎo)率、溶解氧、總磷、總氮、高錳酸鹽指數(shù)、氨氮對應(yīng)的平均百分比誤差,分別為2.23%、5.49%、8.64%、31.86%、5.23%、22.61%。其中,總氮的平均百分比誤差最大,其次為氨氮、總磷、溶解氧、高錳酸鹽指數(shù),電導(dǎo)率平均百分比誤差最小。
分析各項(xiàng)水質(zhì)監(jiān)測指標(biāo)的均方根誤差[式(3)],得出電導(dǎo)率、溶解氧、總磷、總氮、高錳酸鹽指數(shù)、氨氮對應(yīng)的均方根誤差,分別為15.607 6、0.451 0、0.015 2、1.305 5、0.271 4、0.105 7。其中,電導(dǎo)率的均方根誤差最大,其次為總氮、溶解氧、高錳酸鹽指數(shù)、氨氮,總磷的均方根誤差最小。
分析各項(xiàng)水質(zhì)監(jiān)測指標(biāo)的平均誤差[式(4)],得出電導(dǎo)率、溶解氧、總磷、總氮、高錳酸鹽指數(shù)、氨氮對應(yīng)的平均誤差,分別為0.137 5、0.153 0、-0.005 0、0.008 5、-0.049 5、0.050 8。其中,溶解氧的平均誤差絕對值最大,其次為電導(dǎo)率、氨氮、高錳酸鹽指數(shù)、總氮,總磷的平均誤差絕對值最小。
從試驗(yàn)結(jié)果看,使用ARIMA-BP組合模型預(yù)測的各項(xiàng)指標(biāo)的平均百分比誤差和均方根誤差比單獨(dú)使用ARIMA模型預(yù)測的各項(xiàng)指標(biāo)的平均百分比誤差和均方根誤差有顯著的減小。因此,采用ARIMA模型預(yù)測水質(zhì)的線性規(guī)律,用改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)預(yù)測水質(zhì)的非線性規(guī)律,形成的組合模型預(yù)測水質(zhì)指標(biāo),達(dá)到優(yōu)勢互補(bǔ)。相對于單一模型,該模型不但預(yù)測精度高、結(jié)果也更為可靠、合理,是實(shí)現(xiàn)科學(xué)分析水質(zhì)監(jiān)測數(shù)據(jù)的重要依據(jù)。
(1)使用ARIMA、BP神經(jīng)網(wǎng)絡(luò)對嘉興某個(gè)水質(zhì)站點(diǎn)2019年11月20日—2019年12月7日的水質(zhì)各項(xiàng)參數(shù)進(jìn)行預(yù)測。試驗(yàn)結(jié)果表明,與傳統(tǒng)的ARIMA預(yù)測模型相比,ARIMA-BP組合模型相結(jié)合的方法對水質(zhì)的預(yù)測達(dá)到了更好的趨勢和精度。
(2)未來的研究方向:可以考慮使用集成算法將ARIMA算法和更加復(fù)雜的神經(jīng)網(wǎng)絡(luò)算法進(jìn)行結(jié)合,使用組合模型;同時(shí),提取水質(zhì)數(shù)據(jù)的線性和非線性規(guī)律,達(dá)到更好的預(yù)測效果。