于軍琪,邊 策,趙安軍,解云飛,惠蕾蕾
(西安建筑科技大學(xué)建筑設(shè)備科學(xué)與工程學(xué)院,陜西西安 710055)
在建筑能耗各大主要的源頭中,空調(diào)系統(tǒng)能耗占比超過了40%,是重要的能耗系統(tǒng)之一[1].提高能源利用率和節(jié)約資源尤為重要,而空調(diào)具有巨大的節(jié)能潛力[2].Richalet和Cutler[3]提出的模型預(yù)測控制(model predictive control,MPC)被視為一種解決空調(diào)系統(tǒng)高能耗問題的有效方法.MPC算法本質(zhì)特征包括預(yù)測模型、滾動優(yōu)化和反饋校正[4].由模型失配、擾動等造成的的不確定性可以通過不斷滾動的局部優(yōu)化及時得到補償,從而得到較好的動態(tài)控制性能.基于負荷預(yù)測的MPC策略使系統(tǒng)可以實時追蹤空調(diào)運行的動態(tài)特性,并根據(jù)需求實時調(diào)節(jié)設(shè)備參數(shù),實現(xiàn)供需匹配,在保證人員舒適度的前提下,降低系統(tǒng)能耗[5].其中,負荷預(yù)測模型的精度是實現(xiàn)HVAC系統(tǒng)非線性MPC策略的重要基礎(chǔ)和關(guān)鍵所在[6].
空調(diào)負荷預(yù)測模型主要分為物理模型和數(shù)據(jù)驅(qū)動模型.物理建模方法計算量大,求解復(fù)雜.近年來,涌現(xiàn)出一大批機器學(xué)習(xí)和人工智能方法結(jié)合的研究.對空調(diào)逐時負荷預(yù)測常采用的方法大致分為人工神經(jīng)網(wǎng)絡(luò)(ANN)[7]、時間序列[8]、回歸分析[9]以及支持向量機(SVM)[10]等.
ANN通過訓(xùn)練一定數(shù)量神經(jīng)元,可以對冷負荷與輸入特征變量之間的復(fù)雜非線性關(guān)系進行擬合[7].近年來,基于深度神經(jīng)網(wǎng)絡(luò)(DNN)方法的預(yù)測效果顯著,其處理大量樣本、高維數(shù)據(jù)的能力較強,也在短期負荷預(yù)測領(lǐng)域中逐漸展開了研究[11].有學(xué)者通過選取強相關(guān)性的特征作為模型的輸入,可以有效提升DNN模型的預(yù)測精度[12].隱層數(shù)的增加可以降低誤差,但會導(dǎo)致模型訓(xùn)練時間過長,甚至?xí)霈F(xiàn)“過擬合”情況[13].上述文獻并未考慮負荷序列的分解特性,且模型對于數(shù)據(jù)的依賴性太強,難以解決小樣本容量的建筑冷負荷預(yù)測的問題.
時間序列預(yù)測的基本準(zhǔn)則是用事物本身過去的變化特征描述預(yù)測未來的變化特征,其計算速度快,能反映負荷近期的連續(xù)變化,但對原始時間序列的平穩(wěn)性要求高[14],而實際空調(diào)負荷一般不滿足嚴格平穩(wěn)性的要求,而回歸法在解決非線性問題有一定的缺陷,因此預(yù)測效果不理想.
SVM[15]是由Vapnik等人提出的一種專門研究小樣本情況下機器學(xué)習(xí)規(guī)律的理論,解決了ANN等智能算法需要大量訓(xùn)練樣本的問題.而Suykens在SVM的目標(biāo)函數(shù)中引入誤差平方和項,并提出最小二乘支持向量機(least-square support vector machines,LSSVM)方法,該方法收斂精度高[16],解決了樣本訓(xùn)練過程中計算速度慢的問題,且具有較好的非線性擬合能力,被許多學(xué)者成功應(yīng)用于負荷預(yù)測中[17].極端梯度提升樹(eXtreme-gradient boosting,XGBoost)模型是一種特殊的梯度提升決策樹,是基于樹結(jié)構(gòu)并結(jié)合集成學(xué)習(xí)的一種方法,在分類回歸樹(CART)的基礎(chǔ)上引入了集成學(xué)習(xí)方法,以出色的魯棒性和高效的運算速度在負荷預(yù)測領(lǐng)域得到廣泛應(yīng)用[18].
建模應(yīng)當(dāng)根據(jù)數(shù)據(jù)本身的特點來構(gòu)造合適的預(yù)測模型.空調(diào)負荷數(shù)據(jù)具有非線性、非平穩(wěn)特性,且隨著人流波動、天氣等因素的影響體現(xiàn)出一定的隨機性.而單一預(yù)測模型未能充分考慮負荷序列中隱含的重要信息,很難反映原始信號的變化機制.為了進一步挖掘冷負荷序列的局部細節(jié)特征,各種信號分析分解方法被廣泛地運用在預(yù)測中,用以挖掘時間序列所蘊含的更深層次信息,如小波變換法[19]、經(jīng)驗?zāi)B(tài)分解法(EMD)[20]、局域均值分解法[21]等.Dragomiretskiy[22]提出了變分模態(tài)分解(variational mode decomposition,VMD)的信號處理方法,實現(xiàn)固有模態(tài)分量(intrinsic mode functions,IMF)的有效分離、信號的頻域劃分,表現(xiàn)出更好的噪聲魯棒性[23].
本文在已有研究基礎(chǔ)上,利用VMD算法對負荷序列從頻域的角度挖掘、提取負荷的局部細節(jié)特征,通過隨機森林(random forest,RF)剔除輸入變量之間的冗余信息,分別采用LSSVM、XGBoost模型建立負荷的非線性、線性子序列預(yù)測模型,對噪聲部分的概率分布進行擬合,最后重構(gòu)疊加各子序列預(yù)測結(jié)果得到最終負荷預(yù)測結(jié)果,仿真實驗結(jié)果表明了所提出方法的有效性和可行性.
VMD采用完全非遞歸的方式求變分模型的最優(yōu)解,根據(jù)各分解分量的中心頻率和帶寬,自適應(yīng)地將原始信號分解為具有特定稀疏性的有限帶寬的模態(tài)集合.其模態(tài)的帶寬是通過希爾伯特變換獲得單側(cè)頻譜,然后通過混合中心頻率將模態(tài)頻譜調(diào)制到相應(yīng)的基頻帶信號,并計算解析信號的梯度平方L2范數(shù)而得到的,因此,分解過程是通過解決一個約束變分問題來實現(xiàn)的,如式(1)所示:
式中:{uk}={u1,u2,···,uK}為模態(tài)分量集合;{ωk}={ω1,ω2,···,ωK}為模態(tài)中心頻率集合;δ(t)為單位脈沖函數(shù);r(t)為輸入負荷序列.
引入二次懲罰因子α和拉格朗日乘子λ,將式(1)轉(zhuǎn)換為無約束變分問題,如式(2)所示:
用乘子交替方向法迭代更新uk,ωk及λ,得到各模態(tài)分量最優(yōu)解
直到滿足約束條件(5),輸出最終模態(tài)分量.
式中e>0為判別精度.
LSSVM用等式代替不等式約束,并將線性最小二乘準(zhǔn)則應(yīng)用于損失函數(shù)優(yōu)化,實現(xiàn)了凸二次規(guī)劃問題向線性方程組問題的求解轉(zhuǎn)變,提高了收斂速度.其實現(xiàn)過程如下:
1) 訓(xùn)練數(shù)據(jù)集{(x1,y1),(x2,y2),···,(xn,yn)}中xi是第i個輸入樣本,yi是輸出變量,采用核函數(shù)映射在高維空間中構(gòu)造回歸函數(shù)
式中:ω為為權(quán)向量,φ(x)是非線性核映射函數(shù),b為偏差參數(shù),“·”表示內(nèi)積.
2) 根據(jù)結(jié)構(gòu)風(fēng)險最小準(zhǔn)則,最優(yōu)ω和b可經(jīng)下述函數(shù)最小化得到
式中:γ為正則化參數(shù),ξi為松弛變量.
3) 構(gòu)造如下拉格朗日函數(shù):
此處αi是對應(yīng)于xi的Lagrange乘子.
4) 根據(jù)KKT(Karush–Kuhn–Tucker)條件,分別求解L(ω,b,ξ,α)對(ω,b,ξ,α)的偏微分,并消去xi和ω之后,可得到如下矩陣表達形式:
其中:e=[1 1···1]T,α=[α1α2··· αn]T,I為單位矩陣,Wij=φ(xi)·φ(xj)=k(xi,xj),k(xi,xj)是核函數(shù)矩陣.
5) 求解優(yōu)化問題后LSSVM模型的輸出為
XGBoost模型是對GBDT模型的改進,由多棵決策樹迭代組成.其回歸算法主要步驟如下:
1) 構(gòu)造目標(biāo)函數(shù).
式中:yi與分別為真實值與預(yù)測值;K為學(xué)習(xí)器個數(shù);T為葉子節(jié)點個數(shù);ω為葉節(jié)點的數(shù)值;C為常數(shù);l為誤差函數(shù);?(fk)為正則化項;γ與λ為控制參數(shù),用來防止過擬合.
2) 基于GB思想,第t輪的學(xué)習(xí)器等于前t ?1輪的學(xué)習(xí)器加上ft,逐步優(yōu)化每一棵樹,獲得代價最小CART樹
3) 在構(gòu)建第t個學(xué)習(xí)器時要尋找最佳的ft,來最小化目標(biāo)函數(shù).利用ft=0處的泰勒二階展開并去除常數(shù)項將目標(biāo)函數(shù)近似為
4) 令集合Ij={i|q(xi)=j}為葉子j的集合,化簡式(13)得
本文所提出的VMD-LSSVM-XGBoost-ERR模型具體實現(xiàn)過程如下:
步驟1特征選擇(feature selection,FS).通過RF篩選出特征重要度較高的因素.
步驟2信息提取.利用VMD將冷負荷序列分解成離散的具有不同的中心頻率的子序列IMF1,IMF2,···,IMFn.在確保數(shù)據(jù)分解的保真度前提下減弱原始序列的非平穩(wěn)特性,以提高預(yù)測的精度.
步驟3模型的訓(xùn)練和驗證.采用第一步所得因素作為LSSVM、XGBoost模型輸入,分別對IMF1和IMF2序列進行預(yù)測,采用正態(tài)分布模型對IMF3序列進行預(yù)測.各個子序列的預(yù)測結(jié)果進行線性疊加即為冷負荷的最終預(yù)測結(jié)果.
步驟4模型評價.采用MAPE,RMSPE和R2評估所提出的模型的性能.
本文以西安某大型公共建筑6月,7月每天早八點至晚十點實際采集的數(shù)據(jù)為例進行分析.該建筑物總面積30萬m2,商業(yè)面積28萬m2,其中建筑空調(diào)采暖面積28萬m2.數(shù)據(jù)采樣間隔為1 h,樣本容量為700組,其中80%作為訓(xùn)練集,20%作為測試集.所提算法均使用Python3.3實現(xiàn),實驗均在內(nèi)存為8 GB、處理器為Intel Corei5-6200U CPU 2.30 GHz的計算機中進行.
3.1.1 數(shù)據(jù)降維
通常以T時刻的數(shù)據(jù)作為冷負荷預(yù)測模型的輸入,考慮到冷負荷的時間序列性,還將(T ?1)h以及(T ?2)h時刻冷負荷作為模型輸入變量.
表1為各特征變量重要度排序.從表1可以看出,設(shè)定重要度閾值為0.1,最終選擇(T ?1)h冷負荷、太陽輻射、(T ?1)h太陽輻射、(T ?2)h冷負荷、室外干球溫度和相對濕度作為模型輸入.
表1 影響負荷特征變量重要度Table 1 Importance of variables affecting coolingload
3.1.2 VMD負荷序列分解
參數(shù)設(shè)置:懲罰參數(shù)α=1500,初始中心頻率ω=0,收斂判據(jù)r=10?8.模態(tài)數(shù)量K通過各模態(tài)的中心頻率是否出現(xiàn)相近模態(tài)來確定.模態(tài)函數(shù)個數(shù)經(jīng)過多次實驗得出表2,可以看出在模態(tài)分量個數(shù)K=4時,中心頻率922 Hz和1186 Hz相距較近,K=5時,中心頻率896 Hz和1075 Hz相距較近,均可能出現(xiàn)模態(tài)混疊.為了保證實際信號分解的保真度,模態(tài)個數(shù)選為3較適宜.
表2 不同K值對應(yīng)的中心頻率Table 2 Center frequency corresponding to different K
當(dāng)K=3時,采用VMD分解的結(jié)果如圖1所示,可以看出每條分量反映出不同的信息.
圖1 VMD分解結(jié)果Fig.1 VMD decomposition results
從圖1中可以看出,IMF1反映出冷負荷的大體變化趨勢,具有明顯的非線性特性.IMF2具有波動特性,且周期性明顯.ERR序列隨機分布在0附近,其規(guī)律性較差.對各序列分別進行ADF檢驗[24].設(shè)原假設(shè)H0:存在單位根,即該序列為非平穩(wěn)序列;備擇假設(shè)H1:不存在單位根.檢驗結(jié)果如表3所示.
表3 ADF檢驗結(jié)果Table 3 ADF test results
由表3可知,IMF1序列的ADF統(tǒng)計量為?0.736,該值明顯高于各顯著性水平下的臨界值,且p-值大于各顯著性水平,因此,接受原假設(shè),認為該序列為非平穩(wěn)序列;IMF2 和ERR 序列的ADF 統(tǒng)計量分別為?4.582和?20.644,均小于各顯著性水平下的臨界值,證明兩者不存在單位根,屬于平穩(wěn)序列.ERR序列散點在0附近隨機波動,沒有明顯的趨勢,因此可以看作是噪聲部分.該序列的頻率直方圖及擬合概率分布如圖2所示.則設(shè)定正態(tài)分布為待檢驗的分布類型,對ERR作出相應(yīng)的正態(tài)Q-Q圖及去趨勢正態(tài)Q-Q圖,如圖3所示.
圖2 ERR序列的頻率直方圖及擬合概率分布圖Fig.2 Frequency histogram and fitting probability distribution of ERR sequence
圖3 ERR序列正態(tài)檢驗結(jié)果Fig.3 Normal test results of ERR sequence
在圖3(a)中,絕大部分的樣本點基本呈直線分布,這表明被檢驗的樣本分布與已知分布基本一致,并且散點分布在斜率為1892.311,截距為0.001的直線附近.
殘差情況如圖3(b)所示.可以看出,殘差散布基本上是隨機的,在0值上下波動,具有均勻性和對稱性.Q-Q圖主要偏差范圍在區(qū)間[?0.25,0.25]內(nèi),偏差變化值小,并且在置信范圍內(nèi).用Kolmogorov–Smirnow進行一元正態(tài)性檢驗[25],結(jié)果為p值大于0.05.通過上述分析可知ERR 序列服從均值為0.001,標(biāo)準(zhǔn)差為1892.311的正態(tài)分布.
3.2.1 IMF1子序列預(yù)測結(jié)果
首先對IMF1子序列采用LSSVM,XGBoost,LSTM和CNN 4種模型分別進行預(yù)測,各預(yù)測模型的超參數(shù)設(shè)置如下:
LSSVM:核函數(shù)為rbf,其系數(shù)為1500,γ為300;
XGBoost:選擇提升器為gbtree,樹深度為5,學(xué)習(xí)率為0.09,最小葉子節(jié)點樣本權(quán)重為4,隨機采樣比例為0.08,迭代次數(shù)為1000;
LSTM:神經(jīng)元數(shù)量為40,20,隱藏層為2,學(xué)習(xí)率為0.05,輸入步長為8,輸出步長為6;
CNN:卷積核數(shù)依次為32,64,128和256,核大小為1,操作步長為1,輸入量延遲為0.01 s,激活函數(shù)Relu.
圖4為4種模型的預(yù)測誤差分布統(tǒng)計圖,可以直觀的看到,XGBoost和CNN在高誤差區(qū)分布較多,分布數(shù)據(jù)的標(biāo)準(zhǔn)差較大.而LSSVM模型相比于LSTM模型,誤差分布更加集中在小誤差區(qū),對IMF1的預(yù)測結(jié)果最精確.
圖4 不同模型對IMF1序列的預(yù)測誤差分布Fig.4 Distribution of prediction error of IMF1 by different models
表4展示了各模型對IMF1子序列訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)的擬合精度以及模型運行耗時.由表4可得,LSSVM模型的MAPE指標(biāo)和CVRMSE指標(biāo)均低于XGBoost,LSTM和CNN模型,分別為1.341%,0.0170,且R2為0.9582,均高于其他3種模型.其中,LSTM模型的運行時間較長,而XGBoost模型的運行時間最短,但其預(yù)測誤差較大.綜合來看,LSSVM模型的預(yù)測效果更好.
表4 各模型對IMF1子序列預(yù)測精度及效率比較結(jié)果Table 4 Comparison results of prediction accuracy and efficiency of each model for IMF1
3.2.2 IMF2子序列預(yù)測結(jié)果
同理,采用上述模型對IMF2子序列的預(yù)測結(jié)果分別如圖5和表5所示.由圖5可以看出,XGBoost模型的預(yù)測誤差分布的標(biāo)準(zhǔn)差較小,基本集中分布在低誤差帶,表5表明XGBoost模型的各項評價指標(biāo)均略優(yōu)于其他3種模型,且在模型時間復(fù)雜度上也具有明顯優(yōu)勢.因此在本文研究中選擇它作為IMF2序列的預(yù)測模型.
表5 各模型對IMF2子序列預(yù)測精度及效率比較結(jié)果Table 5 Comparison results of prediction accuracy and efficiency of each model for IMF2
圖5 不同模型對IMF2序列的預(yù)測誤差分布Fig.5 Distribution of prediction error of IMF2 by different models
3.2.3 ERR子序列預(yù)測結(jié)果
由第3.1.2節(jié)分析可知,分解后的ERR子序列服從均值為0.001,標(biāo)準(zhǔn)差為1892.311的正態(tài)分布,通過該分布密度得到ERR序列的預(yù)測值,將其預(yù)測結(jié)果與ERR序列真實值進行對比檢驗,結(jié)果如圖6所示.
圖6 ERR序列的正態(tài)分布擬合結(jié)果Fig.6 Normal distribution fitting results of the ERR sequence
從圖6中可以看出擬合的結(jié)果與ERR序列真實值均符合正態(tài)分布,且?guī)缀醴耐徽龖B(tài)分布,準(zhǔn)確體現(xiàn)出該序列的隨機誤差分布特性.
3.2.4 負荷預(yù)測結(jié)果
采用LSSVM,XGBoost,LSTM,CNN,VMD–LSSVM,VMD–XGBoost,VMD–LSSVM–XGBoost 和VMD–LSSVM–XGBoost–ERR等8種模型進行建筑冷負荷預(yù)測,并分別計算各模型MAPE,CVRMSE,R2.其訓(xùn)練精度和測試精度如表6所示.
分析表6可知,VMD–LSSVM–XGBoost和VMD–LSSVM–XGBoost–ERR這兩種復(fù)合模型預(yù)測結(jié)果明顯更接近實際負荷.前者的預(yù)測結(jié)果體現(xiàn)了負荷的總體趨勢和非線性特性,但不能完全反映負荷隨人流量等因素帶來的隨機波動特性.后者模型充分考慮了隨機性和不確定性,預(yù)測效果是幾個模型中最好的,還原了實際負荷的動態(tài)特征.兩者模型的各項誤差指標(biāo)差異很小,這是因為ERR序列服從均值為0的正態(tài)分布,因此沒有顯著提高模型預(yù)測精度,也沒有影響VMD–LSSVM–XGBoost模型預(yù)測的整體趨勢.雖然這兩者模型的誤差指標(biāo)相似,但后者加入了隨機誤差序列,反映了負荷的隨機波動,通過減小模型誤差的離散度和波動范圍提高了預(yù)測模型穩(wěn)定性.
表6 不同模型對冷負荷的預(yù)測精度及效率Table 6 Prediction accuracy and efficiency of different models for cooling load
各模型的預(yù)測值與實際值逐點相對誤差柱狀圖如圖7所示.可以直觀地看出,8種模型的相對誤差中,VMD–LSSVM–XGBoost–ERR模型的相對誤差柱明顯最小,從而進一步驗證了所提方法的有效性.
圖7 各模型預(yù)測值與實際值相對誤差柱狀圖Fig.7 Histogram of relative error between predicted value and actual value of each model
用9月4個未參與建模的工作日運行樣本進行測試,得到各模型的預(yù)測誤差,如表7所示.
對比表7可知,單一預(yù)測模型的誤差基本在10%,性能最差.VMD–LSSVM–XGBoost–ERR模型能夠較為準(zhǔn)確地反映冷負荷變化趨勢,進而驗證了本文所提模型在小樣本的情況下也可保證良好的擬合精度,同時還有著較強的泛化能力.
表7 泛化能力的驗證Table 7 Verification of generalization ability
表8為運行8種預(yù)測模型特征選擇前后所消耗的時間.分析表8可知,通過RF進行特征選擇,在維持預(yù)測精度的前提下,預(yù)測模型的時間復(fù)雜度大大降低,但因為在同一實驗環(huán)境下本文所提出的預(yù)測方法在時間上相比于其他七種算法的運行時間略高,因此可以看成本文所提出的預(yù)測方法是以犧牲時間復(fù)雜度來提高預(yù)測精度,但所提升的預(yù)測精度遠高于所犧牲的時間復(fù)雜度代價,且在實際工程應(yīng)用中,所提出模型的耗時的增量不會引起滯后問題.
表8 不同模型預(yù)測效率對比Table 8 Comparison of efficiency of different models
準(zhǔn)確的空調(diào)負荷預(yù)測是系統(tǒng)節(jié)能優(yōu)化控制策略的關(guān)鍵.本文通過RF算法對采集到的影響因素數(shù)據(jù)進行特征選擇,提高了預(yù)測效率,利用VMD算法對大型公共建筑負荷序列進行分解,能夠細致把握負荷信號的不同頻率中心的變化所表現(xiàn)出來的特征;分別對分解后的趨勢序列建立LSSVM預(yù)測模型,時序平穩(wěn)序列建立XGBoost預(yù)測模型,采用正態(tài)分布擬合隨機誤差,將這3部分進行重構(gòu),建立了VMD–LSSVM–XGBoost–ERR網(wǎng)絡(luò)的空調(diào)負荷預(yù)測模型,彌補單一模型對原始信號預(yù)測的局限性.通過對比仿真實驗結(jié)果,證明了該模型在空調(diào)負荷預(yù)測中的有效性和可靠性,可以準(zhǔn)確描述負荷的非線性、波動性以及隨機性特征,為空調(diào)節(jié)能優(yōu)化運行策略提供較為可靠的數(shù)據(jù)支撐.