楊利納, 李文竹, 劉 心
(河北工程大學(xué), 河北 邯鄲 056038)
從宏觀而言,準(zhǔn)確有效的水資源預(yù)測可為社會和經(jīng)濟的發(fā)展、糧食和生態(tài)環(huán)境安全提供重要保障[1]。具體到校園的水資源管理,由于學(xué)校校園人口密集,需水量大,所以做好校園的定量用水預(yù)測,可以及時發(fā)現(xiàn)校園用水異常,以此來合理地下達(dá)用水指標(biāo)[2]。
關(guān)于需水量研究的方法,國內(nèi)外構(gòu)建了許多與需水預(yù)測相關(guān)的模型,例如ARIMA模型[3]、灰色建模模型[4]、神經(jīng)網(wǎng)絡(luò)模型[5]。除了上述的方法,有很多學(xué)者也將多種預(yù)測方法組合在一起。例如,宋帆等[6]利用聚類方法和灰色關(guān)聯(lián)分析的方法結(jié)合起來,對吉林省的用水量進(jìn)行了預(yù)測;查木哈等[7]利用BP神經(jīng)網(wǎng)絡(luò)的雙層隱層模型,對老哈河流域的用水量進(jìn)行了預(yù)測。但將灰色關(guān)聯(lián)分析和神經(jīng)網(wǎng)絡(luò)結(jié)合起來的比較少,因此本文嘗試將兩種算法結(jié)合,另外,在神經(jīng)網(wǎng)絡(luò)中加入遺傳算法優(yōu)化,不容易陷入局部極小的問題[8]。
本文建立了以灰色關(guān)聯(lián)分析方法和遺傳算法的遺傳神經(jīng)網(wǎng)絡(luò)區(qū)間預(yù)測模型,該模型首先采用灰色關(guān)聯(lián)分析方法,通過設(shè)置灰色關(guān)聯(lián)度閾值確定需水量主要影響因子,用于提取特征變量,從而降低冗余輸入變量的復(fù)雜性;其次在神經(jīng)網(wǎng)絡(luò)中加入遺傳算法優(yōu)化,不容易陷入局部極小的問題;最后提出了區(qū)間需水預(yù)測[9],根據(jù)模型先得出點的預(yù)測值,再根據(jù)點預(yù)測和實際值兩者的殘差值來估計預(yù)測區(qū)間的上界和下界,區(qū)間預(yù)測能準(zhǔn)確地預(yù)測用水量在未來時段的波動范圍。此模型可以克服校園區(qū)間水預(yù)測比較復(fù)雜、信息比較單一的缺點,從而避免了灰色關(guān)聯(lián)分析方法及模型在非線性預(yù)測方面的缺陷,具有良好的泛化能力和訓(xùn)練效果。通過與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)方法相比,該模型應(yīng)用于校園需水預(yù)測是可行的。
目前最常用的數(shù)學(xué)方法是對校園數(shù)據(jù)用水進(jìn)行灰色關(guān)聯(lián)分析,對影響校園用水的數(shù)據(jù)進(jìn)行處理分析,從而確定各個影響因素的權(quán)重[10]。影響校園用水有很多復(fù)雜的因素,例如節(jié)假日、當(dāng)日最高氣溫、最低氣溫、天氣等,本文以天為單位采集了2018年4月份共30 d的校園數(shù)據(jù),通過灰色關(guān)聯(lián)分析來對校園用水?dāng)?shù)據(jù)進(jìn)行處理,求出關(guān)聯(lián)系數(shù)和關(guān)聯(lián)度,通過比較大小進(jìn)行排序,得出影響校園用水的主要因素,然后將其作為輸入層,輸入到神經(jīng)網(wǎng)絡(luò)進(jìn)行校園用水的預(yù)測。
2.1.1 原始數(shù)據(jù)的處理 用灰色關(guān)聯(lián)方法去分析系統(tǒng)的發(fā)展趨勢,該方法可以在信息貧乏、樣本小的系統(tǒng)中提取出對系統(tǒng)指標(biāo)影響較大的因素,解決計算量過大、樣本不服從一定的概率分布、計算結(jié)果會出現(xiàn)量化結(jié)果和定向結(jié)果不同的缺點,本文用區(qū)間值化處理方法處理校園原始用水?dāng)?shù)據(jù)[11]。
2.1.2 灰色關(guān)聯(lián)系數(shù)及關(guān)聯(lián)度求解 關(guān)聯(lián)程度可以反映數(shù)列形狀 ,校園用水的灰色關(guān)聯(lián)的系數(shù)為:
(1)
式中:Δnmax和Δnmin分別為所有校園用水比較數(shù)列中的最大值和最小值;ρ為分辨函數(shù);m為參考序列,即校園用水量;n為比較序列,即當(dāng)日最高氣溫、最低氣溫、節(jié)假日和天氣4個序列;i取值為30,表示2018年4月份的30 d;Δmn(i)為參考序列m與比較序列n第i個點的絕對差值。
關(guān)聯(lián)度計算公式如下:
(2)
式中:s為參考序列長度,本文取值為30;θmn(i)為參考序列m與比較序列n第i個值的關(guān)聯(lián)系數(shù);λ(xm,yn)為x曲線上參考序列m與y曲線上比較序列n對應(yīng)的關(guān)聯(lián)度。
2.1.3 關(guān)聯(lián)度排序分析 根據(jù)數(shù)值代表節(jié)假日、1天中最高和最低氣溫,將它們排順序。關(guān)聯(lián)度描述了參考序列和比較序列相對變化,通俗來講就是如果兩者關(guān)聯(lián)度大,則校園用水和影響因素變化基本一致,反之,關(guān)聯(lián)度小[12]。
非線性問題用遺傳算法解決,進(jìn)而得到網(wǎng)絡(luò)的連接權(quán),步驟如下:
(1)采用BP神經(jīng)網(wǎng)絡(luò)3層結(jié)構(gòu)確定其權(quán)、閾值的長度。
利用訓(xùn)練樣本對輸入的神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,權(quán)值和閾值長度確定后,組成向量[13]。
(2)確定遺傳算法的編碼方式及長度和種群初始化。
因為參數(shù)比較多,采用實數(shù)進(jìn)行編碼,可以提高準(zhǔn)確性,使運算更加方便快捷。其中每個實數(shù)串都包含了網(wǎng)絡(luò)的權(quán)值和閾值的維數(shù)即為編碼的長度。
(3)用BP神經(jīng)網(wǎng)絡(luò)中的誤差定義適應(yīng)度函數(shù):
(3)
(4)用適應(yīng)度來進(jìn)行評測,得出適應(yīng)度最高的個體在群體中保留下來。
(5)完成交叉和變異操作,則新一代種群由此生成。
(6)得到適應(yīng)度最高的個體,從而得出神經(jīng)網(wǎng)絡(luò)最優(yōu)的權(quán)值和閾值。
當(dāng)研究一個系統(tǒng)時,將影響因素作為神經(jīng)網(wǎng)絡(luò)的輸入,當(dāng)影響因素比較復(fù)雜時,神經(jīng)網(wǎng)絡(luò)也變得復(fù)雜。文中加入灰色關(guān)聯(lián)分析方法,故降低了網(wǎng)絡(luò)的性能,減少了計算難度和時間,可以對大量的數(shù)據(jù)進(jìn)行處理,其模型計算流程圖如圖1所示。
圖1 模型計算流程圖
由圖1可知,通過對數(shù)據(jù)的分析,將歷史數(shù)據(jù)以及對校園需水影響最大的幾個因素作為輸入量,輸入到神經(jīng)網(wǎng)絡(luò)中,各層神經(jīng)元對影響因素發(fā)生作用以后,生成輸出量。神經(jīng)網(wǎng)絡(luò)的權(quán)值和閾值經(jīng)過遺傳算法的優(yōu)化,得出適應(yīng)度的數(shù)值,以此找出適應(yīng)度最優(yōu)的個體。再以輸出誤差為目標(biāo)函數(shù),修正誤差直到達(dá)到要求后,經(jīng)過訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)就可以進(jìn)行預(yù)測。
由于校園原始數(shù)據(jù)中沒有需水區(qū)間的預(yù)測上下界,本文通過求出校園用水的點預(yù)測值與實際值之間的殘差來估計出校園用水預(yù)測區(qū)間的上界和下界。具體步驟如下:
(1)根據(jù)模型求出的校園用水點預(yù)測值和實際的數(shù)值進(jìn)行兩者間殘差計算。
(2)用模糊算法[14]將用水?dāng)?shù)據(jù)樣本輸入聚類,根據(jù)殘差大小排序樣本。
(3)計算預(yù)測區(qū)間的上區(qū)間和下區(qū)間的方法如公式(4)所示。
p=am
(4)
(4)計算校園用水樣本的預(yù)測區(qū)間。
(5)
(5)計算校園區(qū)間上下界,其中Ry表示模型輸出的點的預(yù)測值。
Ty=Ey+Ry
(6)
式(5)和(6)中:Ej為用水樣本的預(yù)測區(qū)間,包括用水樣本預(yù)測的上區(qū)間和下區(qū)間;f為聚類的總數(shù),其取值為30;Ty為校園區(qū)間上、下界;Ry為模型輸出點的預(yù)測值。
為了衡量預(yù)測區(qū)間是否可靠準(zhǔn)確,文中引入了預(yù)測區(qū)間覆蓋率(PICP)和預(yù)測區(qū)間平均帶寬指標(biāo)(PINAW)的綜合指標(biāo)CWC[15]。假設(shè)規(guī)定置信水平為100(1-α)%。
2.5.1 預(yù)測區(qū)間覆蓋率(PICP)
(7)
式中:N為樣本總數(shù),若預(yù)測值在預(yù)測區(qū)間內(nèi),則ρi=1,否則為0。若PICP很明顯小于1-α,則說明預(yù)測的區(qū)間不可靠。
2.5.2 預(yù)測區(qū)間平均帶寬指標(biāo)(PINAW)
(8)
式中:m和n分別為校園用水預(yù)測區(qū)間的上、下界;N為樣本總數(shù);R為檢驗樣本目標(biāo)值的最大值與最小值之間的差值。
2.5.3CWC綜合評價指標(biāo)
CWC=PINAW+δ(PICP)eχ(PICP-η)
(9)
式中:η=1-α,當(dāng)PICP<η時,δ(PICP)=1,否則δ(PICP)=0;χ為懲罰參數(shù);CWC越小區(qū)間構(gòu)建的越好。
影響校園區(qū)間用水有許多因素,如氣象、人文經(jīng)濟和自然因素[16]。本文以河北工程大學(xué)每日的用水量為研究對象,選取2018年4月份每日的用水量作為輸出因子,選取節(jié)假日(r1)、當(dāng)日最高氣溫(r2)、當(dāng)日最低氣溫(r3)和天氣(r4)4個因素作為輸入因子構(gòu)建模型。在2018年4月份的30 d中,校園每天的用水量分別與以上4個因素之間的關(guān)系如圖2所示。
由圖2可知,天氣因素有晴朗天氣、多云天氣、下雨天氣和陰天。其他的影響校園區(qū)間用水的因素還包括當(dāng)日最高氣溫和當(dāng)日最低氣溫。圖中有1個極值點表示用水量最低的時刻,即在4月9日,這天是正常的上課時間,最低氣溫很低,最高氣溫也比較低。由此可以看出氣溫與校園用水量有很大的關(guān)系。其影響因素的關(guān)聯(lián)系數(shù)經(jīng)過Matlab仿真的結(jié)果如表1所示。
圖2 2018年4月份用水量與氣溫、節(jié)假日及天氣的關(guān)系
當(dāng)天最高氣溫當(dāng)天最低氣溫節(jié)假日天氣0.82400.89060.76740.5742
由表1可知,影響因素的關(guān)聯(lián)度依次為:當(dāng)天最低氣溫>當(dāng)天最高氣溫>節(jié)假日>天氣。當(dāng)關(guān)聯(lián)度小于0.6,認(rèn)為兩個序列無關(guān),若關(guān)聯(lián)度大于0.8,則兩序列相關(guān)性很好;在0.6與0.8之間時,兩者關(guān)聯(lián)度好[17]。表1中關(guān)聯(lián)度大于0.6的因素有當(dāng)日最低氣溫、當(dāng)日最高氣溫和節(jié)假日3個因素。
為了得到更好的預(yù)測效果,對BP神經(jīng)網(wǎng)絡(luò)和遺傳算法進(jìn)行了最佳的參數(shù)的設(shè)置,如表2、3所示。
表2 BP神經(jīng)網(wǎng)絡(luò)初始參數(shù)設(shè)置
表3 遺傳算法參數(shù)設(shè)置
本文以河北工程大學(xué)校園的用水量為研究對象,所采用的數(shù)據(jù)來源于河北工程大學(xué)節(jié)能節(jié)水監(jiān)管平臺。首先根據(jù)灰色關(guān)聯(lián)分析方法得出校園區(qū)間需水量的3個主要影響因素,得出輸入節(jié)點數(shù)為m=3,n=2m+1,即隱含層節(jié)點數(shù)為n=7,可得BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)為3-7-1。此模型用河北工程大學(xué)2018年4月份一個月前29 d每天24 h的數(shù)據(jù)作為訓(xùn)練值,然后計算出的點預(yù)測值見圖3。
圖3 預(yù)測模型點預(yù)測曲線
從圖3可以看出此模型預(yù)測值與實測值基本吻合,但是點預(yù)測方式一般不能對預(yù)測結(jié)果做出可靠性描述,因此必須進(jìn)行模型的區(qū)間預(yù)測。
對于校園區(qū)間需水預(yù)測,本文引入了灰色關(guān)聯(lián)分析方法,找到影響校園區(qū)間用水的主要因素,并結(jié)合遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)解決自動尋優(yōu)的問題,從而增強了其穩(wěn)定性和適應(yīng)能力,通過此方法與BP神經(jīng)網(wǎng)絡(luò)預(yù)測值進(jìn)行比較,如圖4所示。
圖4 用水量實際值與GA-BP和BP預(yù)測值比較圖
從圖4中可以看出優(yōu)化后的神經(jīng)網(wǎng)絡(luò)不易陷入到極小化的問題,從而使預(yù)測結(jié)果更精確。
本文采用河北工程大學(xué)2018年4月每天的用水量作為樣本,假設(shè)置信區(qū)間為90%。根據(jù)點預(yù)測的結(jié)果和實際值進(jìn)行殘差計算,可以求出區(qū)間的上下界,從而清楚地看到區(qū)間預(yù)測的結(jié)果,見圖5。
圖5 預(yù)測區(qū)間上下界及預(yù)測結(jié)果曲線
從圖5中可以看出無論預(yù)測值還是實際值,基本落入了預(yù)測區(qū)間上下界區(qū)間內(nèi),證明該區(qū)間預(yù)測模型十分有效。
區(qū)間預(yù)測值的可靠性可以用區(qū)間覆蓋率指標(biāo)PICP、區(qū)間平均帶寬指標(biāo)(PINAW)、綜合指標(biāo)CWC進(jìn)行判斷。從圖5中可以看出,實際觀測數(shù)據(jù)中有兩個未完全落在預(yù)測區(qū)間上下限范圍內(nèi),而訓(xùn)練樣本共有29個,因而由公式(7)可得出PICP=93.10%。再根據(jù)公式(8)、(9)分別得出PINAW和CWC的值。3個指標(biāo)值的計算結(jié)果見表4。
表4 區(qū)間預(yù)測性能指標(biāo)表
由表4可知,預(yù)測區(qū)間覆蓋率PICP大于90%,證明此模型建立的預(yù)測區(qū)間是可靠的。在構(gòu)建區(qū)間模型時,發(fā)現(xiàn)PICP足夠大時,PINAW的寬度也越大,而PINAW越小則PICP又越小,因而引入CWC綜合指標(biāo),CWC的值若足夠小,證明本文建立的預(yù)測模型是可靠的。
為了驗證此算法的精確度,本文引入了誤差分析,分析要素包括誤差均值、最大誤差、最小誤差。根據(jù)預(yù)測值和實際值求出相對誤差值[18]。公式如下:
(10)
式中:E為相對誤差;γp為預(yù)測值;γa為真實值。
根據(jù)公式(10)可以求出誤差均值、最大誤差、最小誤差如表5所示。
表5 誤差分析表 %
由表5可知,本文方法所計算的誤差均小于10%,模型的仿真精確度可達(dá)到90.32%,證明此方法預(yù)測校園區(qū)間需水是十分有效的。
本文結(jié)合校園用水?dāng)?shù)據(jù),用灰色關(guān)聯(lián)法分析出影響校園用水的主要因素,結(jié)合遺傳算法優(yōu)化后的神經(jīng)網(wǎng)絡(luò)模型可以準(zhǔn)確地得到校園用水的點預(yù)測值。然后通過輸出的點的預(yù)測值和實際值的殘差來尋找最優(yōu)的預(yù)測區(qū)間上下限,可以看出,預(yù)測值基本落入了預(yù)測區(qū)間上下限內(nèi)。主要結(jié)論如下:
(1)通過灰色關(guān)聯(lián)分析方法,找出影響校園用水主要有3個因素,即當(dāng)日最低氣溫、當(dāng)日最高氣溫和節(jié)假日,將主要因素作為遺傳算法輸入層,由計算結(jié)果可以看出,預(yù)測值曲線和真實值曲線基本一致。引入?yún)^(qū)間預(yù)測,在90%的區(qū)間置信水平下,預(yù)測值基本落入了預(yù)測區(qū)間上下限內(nèi)。
(2)為了證明此區(qū)間預(yù)測的可靠性,引入了預(yù)測區(qū)間覆蓋率、預(yù)測區(qū)間平均帶寬指標(biāo)和CWC綜合評價指標(biāo)。通過誤差分析,得到相對誤差均值為3.22%、最大誤差為9.68%,證明其仿真精度可以達(dá)到90.32%。
(3)校園需水預(yù)測受很多因素影響,為了描述和量化主要因素的影響程度,以河北工程大學(xué)為例,引入了上述算法,此模型可以有效地進(jìn)行校園用水?dāng)?shù)據(jù)的預(yù)測,能夠及時發(fā)現(xiàn)校園用水異常,以此對校園供水進(jìn)行合理調(diào)度,達(dá)到節(jié)約用水的目的。