趙春蘭,李 屹,何 婷,武 剛,王 兵
(1.西南石油大學(xué)理學(xué)院,四川 成都 610500;2.西南石油大學(xué)人工智能研究院,四川 成都 610500;3.中國(guó)石油天然氣股份有限公司大港油田分公司,天津 300280,4.西南石油大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,四川 成都 610500)
岷江是長(zhǎng)江上游的重要支流之一,也是成都平原最重要的水資源,其水質(zhì)與人民的生活緊密相關(guān)。由于工業(yè)廢水和生活污水的排放,以及超量化肥和農(nóng)藥的使用,岷江的污染也日益嚴(yán)重。因此,對(duì)未來(lái)一段時(shí)間水質(zhì)進(jìn)行較為準(zhǔn)確的動(dòng)態(tài)預(yù)測(cè)是該流域水資源管理的當(dāng)務(wù)之急。
國(guó)內(nèi)外關(guān)于水質(zhì)預(yù)測(cè)有許多模型,可以分為機(jī)理模型和非機(jī)理模型2類。機(jī)理模型是依據(jù)物質(zhì)能量守恒和質(zhì)量守恒原理,通過(guò)流體力學(xué)中的連續(xù)方程、運(yùn)動(dòng)方程和能量方程推導(dǎo)得出[1]。1925年美國(guó)工程師Streeter和Phelps提出的氧平衡S-P模型開(kāi)創(chuàng)了水質(zhì)模擬模型的先河,隨后又出現(xiàn)了其他一系列水質(zhì)模擬模型,如QUAL、WASP、BASINS和MIKE模型等[2]。機(jī)理模型考慮了生物化學(xué)等因素,預(yù)測(cè)精度較高,但其模型往往較為復(fù)雜,且所需采集的數(shù)據(jù)非常多。而非機(jī)理模型是指利用統(tǒng)計(jì)方法或人工智能方法建立的水質(zhì)預(yù)測(cè)數(shù)學(xué)模型,只需對(duì)水質(zhì)指標(biāo)數(shù)據(jù)進(jìn)行研究分析。在過(guò)去幾十年中,時(shí)間序列預(yù)測(cè)法、回歸分析預(yù)測(cè)法、灰色模型法、人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)法和支持向量機(jī)等非機(jī)理模型已成功地應(yīng)用于水質(zhì)預(yù)測(cè)。如Sarkar等[3]利用人工神經(jīng)網(wǎng)絡(luò)模型對(duì)馬圖拉下游的溶解氧濃度進(jìn)行了預(yù)測(cè),取得了較好的預(yù)測(cè)效果;Kisi等[4]考慮水質(zhì)數(shù)據(jù)的非線性特性,分別利用最小二乘支持向量機(jī)和多元自適應(yīng)回歸樣條2種模型對(duì)印度Yamuna河的水質(zhì)進(jìn)行了預(yù)測(cè),認(rèn)為非線性預(yù)測(cè)模型有較好的預(yù)測(cè)性能;Avila等[5]使用回歸分析、分類樹(shù)和馬爾科夫鏈等統(tǒng)計(jì)模型對(duì)游樂(lè)場(chǎng)水質(zhì)中的大腸桿菌進(jìn)行了預(yù)測(cè)研究,發(fā)現(xiàn)貝葉斯模型在處理缺失數(shù)據(jù)和異常值方面很靈活,并且允許實(shí)時(shí)的連續(xù)更新,是一種有參考價(jià)值的預(yù)測(cè)方法。
由于單獨(dú)的預(yù)測(cè)模型大都存在一定的短板,如回歸分析對(duì)數(shù)據(jù)量需求較大,泛化能力不足;BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)存在收斂速度慢、容易陷入局部最優(yōu)的缺點(diǎn)。目前國(guó)內(nèi)外學(xué)者為了提高水質(zhì)預(yù)測(cè)精度,通常將多種方法聯(lián)合使用,以此來(lái)克服單獨(dú)使用一種方法的缺點(diǎn)[6]。如Faruk[7]采用ARIMA(AutoRegressive Integrated Moving Average)模型與人工神經(jīng)網(wǎng)絡(luò)模型相結(jié)合的方法,提取水質(zhì)數(shù)據(jù)的線性和非線性趨勢(shì),對(duì)BuyukMenderes河的水溫、硼和溶解氧進(jìn)行了預(yù)測(cè),取得了比單一模型更高的預(yù)測(cè)精度;Liao等[8]將神經(jīng)網(wǎng)絡(luò)與決策樹(shù)模型相結(jié)合,建立了一種改進(jìn)的決策樹(shù)學(xué)習(xí)IDTL(Improved Decision Tree Learning)模型,對(duì)中國(guó)最大的淡水湖之一巢湖的水質(zhì)數(shù)據(jù)進(jìn)行了預(yù)測(cè),在犧牲了較小分類精度的情況下,能夠?yàn)榉诸愄峁┮恍┟鞔_的啟發(fā)式方法,提高了水質(zhì)監(jiān)測(cè)水平和預(yù)測(cè)能力;Liu等[9]提出了一種將實(shí)值遺傳算法RGA(Real-value Genetic Algorithm)與支持向量回歸SVR(Support Vector Regression)結(jié)合的混合模型RGA-SVR,對(duì)宜興市水產(chǎn)養(yǎng)殖場(chǎng)水質(zhì)數(shù)據(jù)進(jìn)行了預(yù)測(cè)。混合模型利用實(shí)值遺傳算法優(yōu)化了SVR的參數(shù),故RGA-SVR模型比BP神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)SVR模型更適合于水質(zhì)預(yù)測(cè)。以上研究表明,混合方法的預(yù)測(cè)精度通常高于單獨(dú)方法的,故將多種方法聯(lián)合使用進(jìn)行水質(zhì)預(yù)測(cè),是一種可行的提高預(yù)測(cè)精度的辦法。
考慮到水質(zhì)時(shí)間序列數(shù)據(jù)一般都具有季節(jié)性、非線性和模糊性等多種復(fù)雜特性,又因?yàn)閭鹘y(tǒng)的時(shí)序預(yù)測(cè)對(duì)數(shù)據(jù)的完整性和準(zhǔn)確性要求較高,本文提出了一種基于動(dòng)態(tài)隸屬度的模糊時(shí)間序列模型。首先,將水質(zhì)時(shí)間序列處理成平穩(wěn)序列;其次,根據(jù)水質(zhì)時(shí)間序列的特點(diǎn)以及模糊方法在處理不確定性問(wèn)題和模糊問(wèn)題的有效性,將數(shù)據(jù)模糊化,利用模糊C均值FCM(Fuzzy C-Means)聚類算法得到聚類中心和動(dòng)態(tài)子隸屬度序列;隨后對(duì)每個(gè)子隸屬度序列建立ARIMA乘積季節(jié)模型,在提取季節(jié)效應(yīng)的同時(shí)預(yù)測(cè)下一個(gè)時(shí)刻的隸屬度;最后去模糊化,得到水質(zhì)預(yù)測(cè)結(jié)果。為了驗(yàn)證模型的預(yù)測(cè)效果,本文收集了岷江某斷面2011年1月至2017年8月逐月監(jiān)測(cè)的水質(zhì)污染指標(biāo)的數(shù)據(jù),對(duì)水質(zhì)進(jìn)行了未來(lái)3個(gè)月的預(yù)測(cè)分析,并與ARIMA乘積季節(jié)模型和經(jīng)典模糊時(shí)間序列FTS(Fuzzy Time Series)模型進(jìn)行了對(duì)比分析。
由于水質(zhì)數(shù)據(jù)表現(xiàn)出明顯的季節(jié)性特征,故本文采用ARIMA乘積季節(jié)模型作為對(duì)照。簡(jiǎn)單的季節(jié)模型認(rèn)為序列的季節(jié)效應(yīng)、長(zhǎng)期趨勢(shì)和隨機(jī)效應(yīng)之間是很容易分開(kāi)的;但乘積季節(jié)模型認(rèn)為序列的長(zhǎng)期趨勢(shì)、季節(jié)效應(yīng)和隨機(jī)效應(yīng)之間相互影響,且它們之間的關(guān)系比較復(fù)雜[10]。
ARIMA乘積季節(jié)模型的建模思路為:對(duì)序列進(jìn)行d階差分和D階以周期S為步長(zhǎng)的差分運(yùn)算;當(dāng)序列仍然存在短期相關(guān)性時(shí),使用低階ARIMA(p,d,q)提取短期相關(guān)性,p和q分別表示非季節(jié)自回歸階數(shù)和移動(dòng)平均階數(shù);當(dāng)序列還存在季節(jié)效應(yīng)時(shí),則使用以周期步長(zhǎng)為單位的ARIMA(P,D,Q)模型提取相關(guān)關(guān)系,P和Q分別表示季節(jié)自回歸階數(shù)和移動(dòng)平均階數(shù)。
此時(shí)擬合的模型為2個(gè)模型的乘積,如式(1)~式(5)所示:
(1)
θ(B)=1-θ1BS-θ2BS-…-θqBS
(2)
(3)
ΘS(B)=1-Θ1BS-Θ2BS-…-ΘQBS
(4)
ΦS(B)=1-Φ1BS-Φ2BS-…-ΦPBS
(5)
ARIMA模型常用于時(shí)間序列預(yù)測(cè),經(jīng)典的ARIMA模型預(yù)測(cè)流程可分為3步:首先對(duì)原始數(shù)據(jù)進(jìn)行ADF(Augmented Dickey-Fuller)平穩(wěn)性和白噪聲檢驗(yàn),若非平穩(wěn),可進(jìn)行差分處理;其次根據(jù)AIC(Akaike Information Criterion)最小準(zhǔn)則進(jìn)行模型的識(shí)別與定階;最后對(duì)ARIMA(p,d,q)模型進(jìn)行參數(shù)估計(jì)與檢驗(yàn),模型的建立與預(yù)測(cè)流程如圖1所示。參數(shù)估計(jì)常用的方法有最大似然估計(jì)、無(wú)約束最小二乘法和條件最小二乘法[11]。本文采用條件最小二乘估計(jì)法對(duì)模型的參數(shù)進(jìn)行估計(jì)。
Figure 1 The modeling &predition of ARIMA model圖1 ARIMA模型建模和預(yù)測(cè)流程
1994年,Song等[12,13]運(yùn)用模糊集合、隸屬函數(shù)等概念,對(duì)時(shí)間序列數(shù)據(jù)建立了經(jīng)典的模糊時(shí)間序列預(yù)測(cè)模型(FTS),隨后該模型及其改進(jìn)模型被廣泛地應(yīng)用于各個(gè)領(lǐng)域??紤]水質(zhì)數(shù)據(jù)存在模糊性的特點(diǎn),本文將水質(zhì)數(shù)據(jù)模糊化后再進(jìn)行預(yù)測(cè)分析。
定義1[12,14]設(shè)U為論域,且U={u1,u2,…,un} 是給定U上的一個(gè)次序分割集,定義A為U上的語(yǔ)義變量集(模糊集),如式(6)所示:
(6)
或表達(dá)為向量形式,如式(7)所示:
A={fA(u1),fA(u2),…,fA(un)}
(7)
其中,fA(·)是模糊集A上的模糊隸屬度函數(shù),且fA(·):U→[0,1];fA(ui)是ui在模糊集A上的模糊隸屬度值,且有fA(ui)∈[0,1],1≤i≤n。
定義2[12,14]設(shè)Z(t)(t=0,1,2,…)為實(shí)數(shù)域R的一個(gè)子集,Z(t)上定義了一組模糊集fi(t),假設(shè)F(t)={f1(t),f2(t),…},稱F(t)為Z(t)上的模糊時(shí)間序列。
這里的F(t)為語(yǔ)言變量,fi(t)為F(t)中可能的語(yǔ)言值,即定義1中的fA(ui)。因?yàn)閷?duì)于不同的時(shí)刻t,F(xiàn)(t)是不同的,故F(t)為t的函數(shù)。
定義3[12,14]設(shè)R(t,t-1)為從F(t-1)到F(t)的模糊關(guān)系,且滿足F(t)=F(t-1)°R(t,t-1),則稱F(t)是由F(t-1)通過(guò)模糊關(guān)系R(t,t-1)推導(dǎo)得到的,其中“°”代表合成運(yùn)算,關(guān)系R(t,t-1)稱為定義在F(·)上的一階模糊關(guān)系。
定義4[12,14]設(shè)F(t)是一個(gè)模糊時(shí)間序列。令F(t-1)=Ai,F(xiàn)(t)=Aj,這2個(gè)連續(xù)的觀測(cè)值F(t-1)和F(t)之間可以用一個(gè)模糊邏輯關(guān)系來(lái)表示,記為Ai→Aj,其中Ai和Aj分別被稱為“左件”和“右件”,Ai對(duì)應(yīng)第i個(gè)模糊概念。
定義5[12,14]定義關(guān)系矩陣R的運(yùn)算方法如式(8)所示:
R=R(t,t-1)=∪i,jRi,j
(8)
經(jīng)典的模糊時(shí)間序列建模步驟一般為:
(1)根據(jù)序列確定論域U,對(duì)U進(jìn)行劃分。為方便計(jì)算,基于序列的最小值和最大值,對(duì)最小值向下減一個(gè)合適的正數(shù),最大值向上加一個(gè)合適的正數(shù),將得到的2個(gè)數(shù)作為區(qū)間的2個(gè)端點(diǎn),該區(qū)間也即論域,隨后對(duì)論域進(jìn)行等間距的模糊劃分。
(2)定義模糊集和數(shù)據(jù)模糊化。論域U被劃分成了k個(gè)子區(qū)間,相對(duì)應(yīng)地就有k個(gè)模糊概念A(yù)i。根據(jù)相應(yīng)的隸屬函數(shù),求出數(shù)據(jù)對(duì)每個(gè)模糊集的隸屬度向量,并將數(shù)據(jù)模糊化為最大隸屬度所對(duì)應(yīng)的模糊集。
(3)建立模糊邏輯關(guān)系并確定模糊關(guān)系矩陣?;跀?shù)據(jù)的模糊概念及其出現(xiàn)的先后順序,建立模糊邏輯關(guān)系。根據(jù)定義5可求得模糊關(guān)系矩陣R。
(4)去模糊化后進(jìn)行預(yù)測(cè)。選擇合適的去模糊化方法,將輸出去模糊化后得到的預(yù)測(cè)值。
本文參照國(guó)家的水質(zhì)分類標(biāo)準(zhǔn),將序列等分為5個(gè)模糊區(qū)間,按照I和II 類的水質(zhì)為優(yōu)、III 類的水質(zhì)為良、IV 類的水質(zhì)為輕度污染、V 類的水質(zhì)為中度污染、劣 V 類的水質(zhì)為重度污染進(jìn)行劃分,隨后根據(jù)上述步驟進(jìn)行預(yù)測(cè)分析。
時(shí)間序列ARIMA模型基礎(chǔ)理論完善,方法簡(jiǎn)單易行,但模型的建立依賴于數(shù)據(jù),要求數(shù)據(jù)完整且較為精準(zhǔn),而且在預(yù)測(cè)中主要考慮了時(shí)間因素,忽略了引起序列本身變化的一些不確定因素。但是,某些水質(zhì)數(shù)據(jù)存在固有的不確定性問(wèn)題,例如測(cè)量不準(zhǔn)確、觀測(cè)集不完整或難以獲得測(cè)量值等[13]。模糊時(shí)間序列預(yù)測(cè)模型作為常用的不確定信息處理方法,為水質(zhì)預(yù)測(cè)開(kāi)辟了新路徑。但是,經(jīng)典的模糊時(shí)間序列模型對(duì)實(shí)現(xiàn)步驟的要求較高,其預(yù)測(cè)步驟所應(yīng)用的方法不同也會(huì)對(duì)預(yù)測(cè)結(jié)果造成很大的影響。根據(jù)國(guó)內(nèi)外學(xué)者將不同模型結(jié)合以提高模型性能和預(yù)測(cè)精度的經(jīng)驗(yàn),以及水質(zhì)數(shù)據(jù)本身的模糊性和季節(jié)性特性,本文結(jié)合時(shí)間序列分析和模糊理論,提出了一種基于動(dòng)態(tài)隸屬度的模糊時(shí)間序列預(yù)測(cè)模型。該模型以模糊時(shí)間序列預(yù)測(cè)模型為基礎(chǔ),將ARIMA 模型加入其中,對(duì)隸屬度進(jìn)行動(dòng)態(tài)的季節(jié)性預(yù)測(cè),簡(jiǎn)化運(yùn)算步驟的同時(shí)還提高了預(yù)測(cè)精度。
(9)
其中,N為樣本總數(shù);k為聚類數(shù)目,在本文中即k個(gè)模糊概念;m是控制模糊重疊程度的模糊劃分矩陣指數(shù),且m>1;‖xt-ch‖表示t時(shí)刻的樣本值xt到聚類中心ch的歐幾里得距離;uth表示樣本xt對(duì)第h個(gè)聚類的隸屬度。引入拉格朗日參數(shù)λ,利用拉格朗日方法對(duì)以上問(wèn)題求解,令拉格朗日函數(shù)如式(10)所示:
(10)
令?F/?uth=0,?F/?λ=0,通過(guò)一系列計(jì)算,可以得到聚類中心,如式(11)所示:
(11)
隸屬度函數(shù)如式(12)所示:
(12)
由此可以得到FCM算法的步驟為:
(1)隨機(jī)初始化聚類成員值uth;
(2)利用式(11)計(jì)算聚類中心,按最小距離的原則進(jìn)行聚類;
(3)根據(jù)式(12)更新隸屬度uth的值,通常情況下,m的值取為2;
(4)計(jì)算目標(biāo)函數(shù)Jm的值;
(5)重復(fù)步驟2~步驟4,直到Jm的值小于指定的最小閾值,或者達(dá)到最大迭代次數(shù)之后停止迭代,得到最后的聚類結(jié)果;
(6)確定聚類個(gè)數(shù)k后,利用上述步驟,便可以得到k個(gè)聚類中心。
模型的預(yù)測(cè)步驟主要包括:原始數(shù)據(jù)平穩(wěn)化、構(gòu)建論域并劃分子論域、模糊化數(shù)據(jù)、子隸屬度序列時(shí)間序列預(yù)測(cè)、去模糊化得到預(yù)測(cè)值。圖2展示了其預(yù)測(cè)流程,具體執(zhí)行步驟如下所示:
(1)原始數(shù)據(jù)平穩(wěn)化。
判斷序列是否為平穩(wěn)序列,若非平穩(wěn),則需要通過(guò)差分化處理得到平穩(wěn)的序列用于后續(xù)分析,以確保后續(xù)分析的有效性和準(zhǔn)確性。
(2)構(gòu)建論域并劃分子論域。
找到建模數(shù)據(jù)中的最大值DMax和最小值DMin,為方便劃分論域,選擇2個(gè)合適的正實(shí)數(shù)d1和d2,則得到論域U={DMin-d1,DMax+d2}。
利用式(10)確定聚類個(gè)數(shù):
(13)
其中,N為樣本總數(shù);xt和xt-1分別為t時(shí)刻和t-1時(shí)刻的樣本值。
將聚類中心按從小到大排序,可得到聚類中心c1,c2,c3,…,ck,設(shè)聚類中心ch和ch+1之間的中點(diǎn)為bh,那么bh就為子論域的邊界值。假設(shè)子隸屬度序列為Y={Y1,Y2,…,Yk},則它們的論域分別為:u1:[DMin-d1,b1],u2:[b1,b2],u3:[b2,b3],…,uk:[bk-1,DMax+d2]。
(3)模糊化數(shù)據(jù)。
FCM聚類算法在得到聚類中心的同時(shí)還得到一個(gè)隸屬度矩陣(uht)k×N(1≤h≤k,1≤t≤N),如式(14)所示:
(14)
在隸屬度矩陣中,每一行代表每個(gè)子論域所對(duì)應(yīng)的子隸屬度序列。假設(shè)u12是第2列中數(shù)值最大的值,就代表原始序列的第2個(gè)值隸屬于第一個(gè)論域的程度最大,矩陣中其他數(shù)值的意義依次類推,即:
Y1={u11,u21,…,uN1},
Y2={u12,u22,…,uN2},
?
Yk={u1k,u2k,…,uNk}
(15)
其中,uth(t=1,2,…,N;h=1,2,…,k)是樣本xt對(duì)區(qū)間uh的隸屬度,且uth∈[0,1]。
(4)子隸屬度序列的時(shí)間序列預(yù)測(cè)。
平穩(wěn)序列X={x1,x2,…,xN}通過(guò)FCM聚類算法中的k個(gè)隸屬度函數(shù)模糊化后,得到k個(gè)子隸屬度序列Y={Y1,Y2,…,Yk}。分別對(duì)每個(gè)子隸屬度序列進(jìn)行時(shí)間序列預(yù)測(cè),并利用ARIMA乘積季節(jié)模型提取季節(jié)趨勢(shì),若乘積季節(jié)模型無(wú)法擬合,則選擇傳統(tǒng)的ARIMA(p,d,q)模型進(jìn)行隸屬度的預(yù)測(cè)。
(5)去模糊化得到預(yù)測(cè)值。
FCM算法可得到k個(gè)聚類中心c1,c2,c3,…,ck,則利用如式(16)所示的隸屬度加權(quán)平均法得到預(yù)測(cè)值G(t):
(16)
其中,fth表示t時(shí)刻對(duì)應(yīng)的數(shù)值隸屬于第h個(gè)模糊集的程度,即隸屬度。
Figure 2 Flow chart of model prediction圖2 模型預(yù)測(cè)流程圖
本文對(duì)岷江某斷面2011年1月至2017年11月共83個(gè)月逐月監(jiān)測(cè)的6項(xiàng)指標(biāo)的水質(zhì)數(shù)據(jù),按照國(guó)家規(guī)定的《地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)》(GB3878-2002)中相應(yīng)的評(píng)價(jià)標(biāo)準(zhǔn)進(jìn)行評(píng)價(jià),利用最常用的單因子法對(duì)其逐月評(píng)價(jià)完畢之后發(fā)現(xiàn),其中溶解氧與總磷的污染較為嚴(yán)重,于是確定再對(duì)這2個(gè)水質(zhì)指標(biāo)進(jìn)行預(yù)測(cè)分析,以達(dá)到污染防治的目的。原始數(shù)據(jù)如表1所示,其中,前80個(gè)樣本點(diǎn)作為模型訓(xùn)練集,后3個(gè)樣本點(diǎn)作為模型預(yù)測(cè)集。
Table 1 Water quality indicator data表1 水質(zhì)指標(biāo)數(shù)據(jù)
Figure 3 Time series fitting diagrams of dissolved oxygen sub-membership series圖3 溶解氧數(shù)據(jù)子隸屬度序列時(shí)間序列擬合圖
為了更科學(xué)準(zhǔn)確地評(píng)價(jià)預(yù)測(cè)效果,并比較不同模型的優(yōu)劣,本文選用式(17)~式(19)所示的3個(gè)指標(biāo)來(lái)評(píng)價(jià)模型的預(yù)測(cè)性能。
(1)均方根誤差(RMSE):
(17)
(2)平均絕對(duì)誤差(MAE):
(18)
(3)平均絕對(duì)百分誤差(MAPE):
(19)
本節(jié)以溶解氧數(shù)據(jù)為例展示模型的預(yù)測(cè)過(guò)程,總磷的預(yù)測(cè)過(guò)程同理。將溶解氧數(shù)據(jù)進(jìn)行一階差分得到平穩(wěn)數(shù)據(jù)后,計(jì)算聚類個(gè)數(shù),并利用FCM聚類算法中的隸屬度函數(shù),得到4個(gè)子隸屬度序列如表2所示。隨后對(duì)這4個(gè)子隸屬度序列Y1,Y2,Y3和Y4依次進(jìn)行傳統(tǒng)的時(shí)間序列分析。
Table 2 Dynamic sub-membership sequence表2 動(dòng)態(tài)子隸屬度序列
對(duì)4個(gè)子隸屬度序列按照2.1節(jié)中的流程進(jìn)行預(yù)測(cè),分別擬合如下模型:
Y1:ARIMA(3,1,0)
Y2:ARIMA(3,1,0)
Y3:ARIMA(0,1,1)×(0,1,1)12
Y4:ARIMA(1,1,0)×(1,1,0)12
可得到4個(gè)子隸屬度序列的擬合效果,如圖3所示。
通過(guò)對(duì)4個(gè)子隸屬度序列的預(yù)測(cè),得到每個(gè)子隸屬度序列最后3個(gè)月的預(yù)測(cè)值以及去模糊化之后的值,如表3所示。表3中每一行的值表示同一個(gè)預(yù)測(cè)點(diǎn)隸屬于不同子論域的程度,每一列的值表示不同預(yù)測(cè)點(diǎn)隸屬于同一個(gè)子論域的程度。利用式(16)對(duì)每一行進(jìn)行去模糊化操作,得到的值如表3最后一列所示,該值表示每一個(gè)點(diǎn)去模糊化后的真實(shí)預(yù)測(cè)值。將預(yù)測(cè)值還原到差分前的值,可得到原始數(shù)據(jù)后3個(gè)月的預(yù)測(cè)值。
Table 3 Predicted values of membership表3 隸屬度預(yù)測(cè)值
為比較本文所提的新模糊時(shí)間序列模型與其他模型對(duì)水質(zhì)指標(biāo)的預(yù)測(cè)效果,表4給出了不同模型對(duì)不同水質(zhì)指標(biāo)的預(yù)測(cè)結(jié)果。對(duì)預(yù)測(cè)結(jié)果進(jìn)行可視化分析,得到模型預(yù)測(cè)的走勢(shì)圖,分別如圖4和圖5所示。
Table 4 Model prediction results表4 模型預(yù)測(cè)結(jié)果
Figure 4 Prediction trend of dissolved oxygen圖4 溶解氧預(yù)測(cè)走勢(shì)圖
Figure 5 Prediction trend of total phosphorus圖5 總磷預(yù)測(cè)走勢(shì)圖
從圖4和圖5可以看出,對(duì)2個(gè)水質(zhì)指標(biāo)未來(lái)3個(gè)月的預(yù)測(cè)中,基于動(dòng)態(tài)隸屬度的新模糊時(shí)間序列模型的預(yù)測(cè)值與真實(shí)值的偏差最小,說(shuō)明該模型擬合最好。
為更科學(xué)貼切地反映預(yù)測(cè)效果,利用前文所述的3個(gè)評(píng)價(jià)指標(biāo),分別對(duì)上述3個(gè)模型進(jìn)行評(píng)價(jià),如表5所示。3個(gè)指標(biāo)的評(píng)價(jià)結(jié)果表明:本文構(gòu)建的基于動(dòng)態(tài)隸屬度的模糊時(shí)間序列預(yù)測(cè)模型的預(yù)測(cè)性能最好,預(yù)測(cè)誤差指標(biāo)均優(yōu)于其他對(duì)比模型的。
Table 5 Comparison of prediction error indicators of various models表5 各模型預(yù)測(cè)誤差指標(biāo)的比較
將評(píng)價(jià)指標(biāo)的結(jié)果進(jìn)行可視化分析如圖6所示。從圖6可以看出,基于動(dòng)態(tài)隸屬度的新模糊時(shí)間序列模型的預(yù)測(cè)精度最高,表明其預(yù)測(cè)效果最好,其次由于ARIMA乘積季節(jié)模型能提取較為復(fù)雜的季節(jié)效應(yīng),其預(yù)測(cè)效果次之,經(jīng)典的模糊時(shí)間序列預(yù)測(cè)模型效果最差。就3種評(píng)價(jià)指標(biāo)而言,本文提出的模型預(yù)測(cè)的溶解氧的RMSE相對(duì)于FTS和ARIMA乘積季節(jié)模型分別提高64.1%和30.1%,MAE分別提高68.0%和26.5%,MAPE相對(duì)于FTS和ARIMA乘積季節(jié)模型分別提高68.4%和27.5%。而預(yù)測(cè)的總磷的RMSE、MAE和MAPE都遠(yuǎn)小于其他對(duì)比模型的。故本文根據(jù)水文時(shí)間序列的特點(diǎn),將數(shù)據(jù)模糊化后再利用ARIMA乘積季節(jié)模型進(jìn)行動(dòng)態(tài)隸屬度的預(yù)測(cè),并盡量建立ARIMA乘積季節(jié)模型提取隸屬度序列的季節(jié)趨勢(shì),成功地提高了預(yù)測(cè)精度。
Figure 6 Comparison of evaluation results of dissolved oxygen prediction accuracy圖6 溶解氧預(yù)測(cè)精度評(píng)價(jià)結(jié)果柱狀圖對(duì)比
針對(duì)復(fù)雜多變的水質(zhì)時(shí)間序列,本文基于時(shí)間序列分析方法和模糊數(shù)學(xué)基礎(chǔ)理論,提出了一種基于動(dòng)態(tài)隸屬度的模糊時(shí)間序列預(yù)測(cè)模型。首先采用模糊C均值聚類將平穩(wěn)的序列進(jìn)行論域劃分,既避免了經(jīng)典的模糊時(shí)間序列中等分導(dǎo)致的數(shù)據(jù)分布不均勻問(wèn)題,也考慮到了水質(zhì)數(shù)據(jù)屬于各個(gè)污染類別時(shí)存在的亦此亦彼性;其次,將數(shù)據(jù)模糊化后得到的動(dòng)態(tài)子隸屬度序列進(jìn)行傳統(tǒng)的時(shí)間序列預(yù)測(cè),充分結(jié)合了水質(zhì)數(shù)據(jù)的模糊性特點(diǎn)和傳統(tǒng)時(shí)間序列預(yù)測(cè)法在處理動(dòng)態(tài)時(shí)間序列上的優(yōu)點(diǎn),克服了傳統(tǒng)時(shí)間序列預(yù)測(cè)方法要求數(shù)據(jù)較為完整和精確的弊端,與經(jīng)典的模糊時(shí)間序列模型相比,無(wú)需建立模糊邏輯關(guān)系矩陣,大大簡(jiǎn)化了計(jì)算過(guò)程。將新模型對(duì)污染較為嚴(yán)重的總磷和溶解氧的預(yù)測(cè)結(jié)果與FTS、ARIMA乘積季節(jié)模型的預(yù)測(cè)結(jié)果分別進(jìn)行了比較,預(yù)測(cè)結(jié)果表明,新模糊時(shí)間序列模型的預(yù)測(cè)精度相對(duì)于其他2種模型的有較大的提高,是一種有效的短期預(yù)測(cè)模型,可為水質(zhì)預(yù)警與保護(hù)提供有價(jià)值的參考。另外,是否有更加適合水質(zhì)數(shù)據(jù)的模糊化方法?其他人工智能方法(如神經(jīng)網(wǎng)絡(luò)和支持向量機(jī))能否與該方法進(jìn)行結(jié)合,從而進(jìn)一步提高預(yù)測(cè)模型的精度?今后將在這方面進(jìn)行更深入的探索分析。