孫智超 王 波
(重慶大學(xué)計(jì)算機(jī)學(xué)院 重慶 400044)
基于數(shù)據(jù)挖掘技術(shù)的建筑能耗分析集成方法
孫智超 王 波
(重慶大學(xué)計(jì)算機(jī)學(xué)院 重慶 400044)
傳統(tǒng)的建筑能耗監(jiān)測(cè)方法難以有效地發(fā)現(xiàn)能耗數(shù)據(jù)特點(diǎn)以及能耗數(shù)據(jù)之間的潛在關(guān)系,對(duì)異常能耗數(shù)據(jù)的判斷缺乏準(zhǔn)確性。針對(duì)上述問題,提出基于多種數(shù)據(jù)挖掘方法的建筑能耗分析集成方法。通過優(yōu)選分類、離群點(diǎn)分析、關(guān)聯(lián)分析,以及預(yù)測(cè)等數(shù)據(jù)挖掘相關(guān)算法,新集成方法挖掘蘊(yùn)含在建筑能耗數(shù)據(jù)中有價(jià)值的知識(shí),實(shí)現(xiàn)能耗模式分類、能耗異常數(shù)據(jù)識(shí)別、找出影響能耗的相關(guān)因素、能耗預(yù)測(cè),提供建筑節(jié)能輔助決策。通過美國國家再生能源實(shí)驗(yàn)室研究支持機(jī)構(gòu)使用的建筑能耗數(shù)據(jù)集,驗(yàn)證了新集成方法的可行性和有效性。
建筑能耗 數(shù)據(jù)挖掘 能耗分析 集成方法
隨著我國經(jīng)濟(jì)實(shí)力的不斷提升,建筑能耗量在不斷增大。目前中國95% 以上的建筑都是高能耗建筑,單位面積的能耗量是發(fā)達(dá)國家的3倍以上[1]。隨著建筑用能逐年增加,許多能耗量較大的建筑已經(jīng)建立了能耗數(shù)據(jù)監(jiān)管平臺(tái),對(duì)建筑能耗數(shù)據(jù)進(jìn)行統(tǒng)計(jì),為建筑能耗數(shù)據(jù)分析做好了基礎(chǔ)工作。
Seem利用統(tǒng)計(jì)方法對(duì)建筑能耗異常數(shù)據(jù)進(jìn)行監(jiān)測(cè)[2];在能耗預(yù)測(cè)方面,Pappas等采用時(shí)間序列ARMA模型對(duì)電力需求負(fù)荷進(jìn)行預(yù)測(cè)[3]。但傳統(tǒng)建筑能耗數(shù)據(jù)分析方法無法得到能耗數(shù)據(jù)之間的潛在關(guān)系,難以對(duì)數(shù)據(jù)進(jìn)行深度分析。
通過一些智能分析方法,可以有效解決上述問題。卿曉霞等使用DBSCAN聚類算法識(shí)別建筑能耗的能耗模式[4];Li等使用GESR算法對(duì)建筑能耗異常數(shù)據(jù)進(jìn)行離群點(diǎn)分析[5];芮挺等通過主成分分析方法對(duì)能耗數(shù)據(jù)進(jìn)行關(guān)聯(lián)分析[6]。上述建筑能耗數(shù)據(jù)智能分析方法可以對(duì)能耗數(shù)據(jù)進(jìn)行更深入的分析,但單一的智能分析方法無法從多角度實(shí)現(xiàn)能耗數(shù)據(jù)分析。
從應(yīng)用角度看,建筑能耗數(shù)據(jù)智能分析技術(shù)的集成應(yīng)用更有實(shí)用價(jià)值。我們通過研究多種數(shù)據(jù)挖掘技術(shù)的集成應(yīng)用,試圖較全面地對(duì)建筑能耗數(shù)據(jù)進(jìn)行深度利用。其中包括采用數(shù)據(jù)挖掘技術(shù)中的聚類分析方法進(jìn)行能耗模式分類,離群點(diǎn)分析方法對(duì)能耗異常數(shù)據(jù)進(jìn)行識(shí)別,關(guān)聯(lián)分析方法找出能耗數(shù)據(jù)影響因素,神經(jīng)網(wǎng)絡(luò)方法預(yù)測(cè)未來能耗情況。
傳統(tǒng)建筑能耗數(shù)據(jù)分析是基于數(shù)據(jù)模型的分析方法[7],存在以下不足:
1) 傳統(tǒng)的建筑能耗數(shù)據(jù)分類通過分項(xiàng)計(jì)量統(tǒng)計(jì)的方法將建筑中不同的能耗模式進(jìn)行分類,不能夠提供結(jié)果驗(yàn)證手段,準(zhǔn)確率不高[8]。
2) 傳統(tǒng)的建筑能耗數(shù)據(jù)異常點(diǎn)分析通過設(shè)定閾值對(duì)異常數(shù)據(jù)進(jìn)行識(shí)別、報(bào)警,這種方式無法判斷超出閾值的能耗數(shù)據(jù)屬于失真數(shù)據(jù)(例如計(jì)量、傳輸問題導(dǎo)致)還是故障數(shù)據(jù)(例如用能設(shè)備故障導(dǎo)致)。
3) 傳統(tǒng)的建筑能耗數(shù)據(jù)分析方法只能對(duì)能耗數(shù)據(jù)本身進(jìn)行分析,沒有利用影響能耗的相關(guān)因素,無法分析能耗數(shù)據(jù)與相關(guān)因素之間的潛在關(guān)系。
4) 基于統(tǒng)計(jì)的傳統(tǒng)建筑能耗預(yù)測(cè)方法通過能耗歷史數(shù)據(jù)預(yù)測(cè)未來能耗量,沒有考慮影響能耗的相關(guān)因素,準(zhǔn)確性較低。
為了獲得建筑能耗數(shù)據(jù)智能分析集成應(yīng)用的效果,需要找到適用于能耗數(shù)據(jù)的智能分析方法和每種能耗數(shù)據(jù)智能分析方法中多種算法的優(yōu)選算法。
2.1 適用于建筑能耗數(shù)據(jù)的智能分析方法
對(duì)于傳統(tǒng)建筑能耗數(shù)據(jù)分析方法的不足,可以通過基于數(shù)據(jù)挖掘技術(shù)的能耗分析方法解決。基于數(shù)據(jù)挖掘的聚類算法不僅僅按照能耗數(shù)值分類,而且選取具有實(shí)際意義的特征屬性對(duì)不同的能耗模式進(jìn)行更準(zhǔn)確的分類。離群點(diǎn)分析通過能耗數(shù)據(jù)的異常因子的數(shù)值對(duì)能耗異常數(shù)據(jù)進(jìn)行識(shí)別,判斷能耗數(shù)據(jù)屬于失真數(shù)據(jù)還是故障數(shù)據(jù)。關(guān)聯(lián)分析通過計(jì)算能耗數(shù)據(jù)與其關(guān)聯(lián)因子的關(guān)聯(lián)度,選擇出能耗數(shù)據(jù)的重要影響因素?;谏窠?jīng)網(wǎng)絡(luò)的預(yù)測(cè)方法通過歷史能耗數(shù)據(jù)和能耗影響因素對(duì)未來能耗量進(jìn)行預(yù)測(cè),大大提高了預(yù)測(cè)準(zhǔn)確性?;谝陨戏治觯岢龆喾N數(shù)據(jù)挖掘技術(shù)的新集成方法,對(duì)建筑能耗數(shù)據(jù)進(jìn)行深度分析,提取出能耗數(shù)據(jù)中蘊(yùn)含的知識(shí)。新集成方法的應(yīng)用流程如圖1所示。
圖1 新集成方法的應(yīng)用流程
使用聚類算法識(shí)別出能耗模式,根據(jù)能耗模式對(duì)能耗數(shù)據(jù)進(jìn)行分類。將聚類分析產(chǎn)生的能耗模式標(biāo)簽以及時(shí)間作為屬性,建立能耗判別決策樹。當(dāng)進(jìn)行異常能耗數(shù)據(jù)識(shí)別時(shí),首先對(duì)能耗數(shù)據(jù)進(jìn)行模式判別,然后通過離群點(diǎn)分析判斷數(shù)據(jù)是否為異常數(shù)據(jù)。采用關(guān)聯(lián)分析方法找出影響能耗的重要因素,并將這些因素作為能耗預(yù)測(cè)中的訓(xùn)練屬性,建立能耗預(yù)測(cè)模型。通過預(yù)測(cè)模型,對(duì)未來的能耗量進(jìn)行預(yù)測(cè)。
2.2 聚類算法優(yōu)選
在聚類算法分為劃分法、層次法、基于密度的方法等[9]。層次法適用于數(shù)據(jù)集的多層分類?;诿芏鹊姆椒ǖ拿芏葏?shù)選取對(duì)聚類結(jié)果影響較大。根據(jù)建筑能耗數(shù)據(jù)量大、部分?jǐn)?shù)據(jù)存在失真的特點(diǎn),選用基于劃分的聚類分析方法。在基于劃分的聚類分析中,K-mediods[10]算法可以處理大量數(shù)據(jù)集,簇與簇之間顯著分明,且對(duì)于噪聲不敏感,因此選用基于劃分的K-mediods算法。
算法K-mediods算法
輸入:結(jié)果簇的個(gè)數(shù)k,包含n個(gè)對(duì)象的數(shù)據(jù)集合D。
輸出:k個(gè)簇的集合。
算法步驟:
步驟1從D中隨機(jī)選擇k個(gè)對(duì)象座位初始的代表對(duì)象或種子;
步驟2重復(fù);
步驟3將剩余對(duì)象分配到最近的代表對(duì)象或種子;
步驟4隨機(jī)地選擇一個(gè)非代表對(duì)象Orandom;
步驟5計(jì)算用Orandom代替代表對(duì)象Oj的總代價(jià)S;
步驟6如果SOrandom 步驟7直到不發(fā)生變化。 2.3 分類算法優(yōu)選 常用的數(shù)據(jù)挖掘分類算法有決策樹、貝葉斯、支持向量機(jī)、遺傳算法、KNN算法等[11]。其中,貝葉斯分類決策錯(cuò)誤率較高。支持向量機(jī)受缺失數(shù)據(jù)影響較大,并且對(duì)非線性問題沒有通用解決方案。遺傳算法的參數(shù)大多數(shù)靠經(jīng)驗(yàn)來選取,誤差率較大。KNN算法速度較慢,輸出的可解釋性不強(qiáng)。決策樹算法易于理解和解釋,在較短時(shí)間內(nèi)能夠?qū)Υ笮蛿?shù)據(jù)源做出可行且準(zhǔn)確的效果,高效且準(zhǔn)確。根據(jù)建筑能耗數(shù)據(jù)特點(diǎn),采用C4.5算法[12],可以快速且有效地對(duì)能耗數(shù)據(jù)進(jìn)行分類。C4.5使用信息增益率進(jìn)行來選擇屬性,信息增益率計(jì)算方法如化式所示: gain_ratio=gain(V)/split_info(V) (1) 其中:split_info(V)為屬性V的信息增益,gain(V)為屬性V的信息熵。通過信息增益率,可以為決策樹確定的最佳分組變量和分割點(diǎn)。 2.4 離群點(diǎn)分析算法優(yōu)選 離群點(diǎn)檢測(cè)方法分為基于統(tǒng)計(jì)分布的離群點(diǎn)檢測(cè)、基于距離的離群點(diǎn)檢測(cè)、基于密度的局部離群點(diǎn)檢測(cè)、基于偏差的離群點(diǎn)檢測(cè)[13]。通過聚類分析,建筑能耗數(shù)據(jù)分成了多個(gè)密度不同的簇,因此選取基于密度的局部離群點(diǎn)檢測(cè)算法(LOF)進(jìn)行離群點(diǎn)分析。 LOF算法通過對(duì)象P的異常因子表示P為異常的程度,異常因子越大,異常的可能性越大。對(duì)象P的異常因子計(jì)算如公式所示: (2) 其中:NMinPts(p)為P的可達(dá)密度,lrdMinPts(p)為P的k-距離鄰域。 2.5 關(guān)聯(lián)分析算法優(yōu)選 灰關(guān)聯(lián)分析方法可以在減少信息不對(duì)稱帶來的損失,對(duì)樣本數(shù)據(jù)要求較低,計(jì)算速度快。在灰關(guān)聯(lián)分析方法中,若母因素與子因素變化的趨勢(shì)同步變化程度較高,即二者關(guān)聯(lián)程度較高。通過灰關(guān)聯(lián)度計(jì)算母因素與子因素的關(guān)聯(lián)程度,值越大說明子因素對(duì)母因素的影響越大[14]?;谊P(guān)聯(lián)度的計(jì)算如公式所示: (3) 其中:ξi(k)為關(guān)聯(lián)系數(shù),計(jì)算方法如公式所示: (4) 其中:Δ是同一時(shí)刻母序列與子序列的絕對(duì)差值,Δmax和Δmin分別為最大差值與最小差值,α為分辨系數(shù),一般在0~1之間,一般取0.5[15]。 2.6 預(yù)測(cè)算法優(yōu)選 數(shù)據(jù)挖掘預(yù)測(cè)算法通常分為定性預(yù)測(cè)和定量預(yù)測(cè)。本文要求得出具體的預(yù)測(cè)數(shù)值,屬于定量預(yù)測(cè)的分析,采用BP神經(jīng)網(wǎng)絡(luò)。算法步驟[16]如下: 步驟1初始化權(quán)值W和閾值b,即把所有權(quán)值和閾值都設(shè)置成較小的隨機(jī)數(shù)。 步驟2提供訓(xùn)練樣本集,包括輸入向量P和要求的預(yù)期輸出T。 步驟3計(jì)算隱含層和輸出層的輸出。 步驟4調(diào)整權(quán)值和閾值。 步驟5計(jì)算網(wǎng)絡(luò)誤差均方和E。 步驟6循環(huán)步驟2到步驟5,直至均方誤差和E滿足設(shè)置精度ε為止,即E<ε,ε一般取0.001以下。 為驗(yàn)證新方法的有效性,利用美國國家再生能源實(shí)驗(yàn)室研究支持機(jī)構(gòu)使用的建筑能耗數(shù)據(jù)集[17]進(jìn)行聚類分析、離群點(diǎn)分析、關(guān)聯(lián)分析和能耗預(yù)測(cè)算法的模擬實(shí)驗(yàn)。 3.1 聚類分析算法模擬實(shí)驗(yàn) 由于建筑在不同時(shí)段的能耗量差異較大[18],需要識(shí)別其在時(shí)間序列上的能耗模式。通過聚類算法可以分析出建筑能耗的時(shí)間分布規(guī)律,將能耗值差異較大的數(shù)據(jù)分在不同的類中。 最后,在對(duì)學(xué)生進(jìn)行測(cè)試時(shí),應(yīng)當(dāng)依托作業(yè)盒子等應(yīng)用程序?yàn)閷W(xué)生布置個(gè)性化的作業(yè)內(nèi)容,并借助平臺(tái)所具備的大數(shù)據(jù)分析功能對(duì)學(xué)生的作業(yè)完成情況進(jìn)行統(tǒng)計(jì)、分析和匯總,以此發(fā)現(xiàn)學(xué)生在知識(shí)學(xué)習(xí)、掌握方面存在的問題。 使用數(shù)據(jù)集中的采樣周期為1小時(shí)的1 000條分項(xiàng)能耗監(jiān)測(cè)數(shù)據(jù)作為原始數(shù)據(jù),進(jìn)行聚類分析。噪聲對(duì)K-medoids算法的影響不大,所以對(duì)于缺省值采取丟棄的方法進(jìn)行處理。由于不同時(shí)段的能耗量差異較大,將每小時(shí)能耗量EM和前一小時(shí)、當(dāng)前和后一小時(shí)的平均能耗量EA作為特征向量來反映能耗模式,即特征向量E=(EM,EA)。由于能耗數(shù)據(jù)數(shù)值較大,且存在異常數(shù)據(jù),不便于可視化顯示。因此在聚類之前使用z-score方法和min-max方法進(jìn)行規(guī)范化和歸一化處理,使結(jié)果值映射到[-1, 1]之間。z-score如公式所示: (5) (6) 其中xmax為樣本數(shù)據(jù)的最大值,xmin為樣本數(shù)據(jù)的最小值。屬性v′的值基于v歸一化。 對(duì)樣本數(shù)據(jù)應(yīng)用K-medoids算法進(jìn)行聚類分析得到的能耗模式如圖2所示。從圖中可得到數(shù)據(jù)集中建筑能耗數(shù)據(jù)存在3種模式。 圖2 建筑能耗模式聚類分析 在識(shí)別建筑存在的能耗模式之后,將聚類得到的數(shù)據(jù)簇添加能耗分類標(biāo)簽,并根據(jù)日期判斷是否為周末。對(duì)添加了能耗模式、是否為周末屬性的能耗數(shù)據(jù)應(yīng)用C4.5算法進(jìn)行分類,得到能耗模式判別決策樹如圖3所示。 圖3 能耗判別決策樹 通過建立能耗判別決策樹,得到構(gòu)造新屬性之后的能耗數(shù)據(jù)。通過這些能耗數(shù)據(jù)可以得到不同時(shí)間段的能耗模式信息,如表1所示。 表1 能耗模式分析結(jié)果 3.2 離群點(diǎn)分析算法模擬實(shí)驗(yàn) 圖4為數(shù)據(jù)集中一天的能耗數(shù)據(jù)。依照此前通過分類得到的能耗模式判別決策樹,圖中11:00時(shí)間點(diǎn)能耗數(shù)據(jù)對(duì)應(yīng)的能耗模式Cluster2,為確定此時(shí)的能耗數(shù)據(jù)是否為能耗異常數(shù)據(jù),將得到的能耗數(shù)據(jù)與100條能耗模式相同的歷史數(shù)據(jù)使用LOF算法進(jìn)行離群點(diǎn)分析。 圖4 日能耗數(shù)據(jù) 設(shè)Cluster2簇中正常數(shù)據(jù)點(diǎn)的LOF值近似為1,設(shè)定閾值為1.5。實(shí)驗(yàn)得出Cluster2簇中的正常能耗數(shù)據(jù)LOF值范圍是[0.784 8,1.447 2]。結(jié)果如圖5所示。 圖5 能耗數(shù)據(jù)LOF值 實(shí)驗(yàn)發(fā)現(xiàn)表中11:00點(diǎn)的能耗數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)點(diǎn)的LOF值是3.754 8,遠(yuǎn)大于給定的聚類簇中的LOF值區(qū)間,因此為離群點(diǎn),可判斷當(dāng)日14:00的能耗數(shù)據(jù)是異常數(shù)據(jù)。 文獻(xiàn)[19]中的能耗離群點(diǎn)分析是對(duì)包含異常數(shù)據(jù)的一天數(shù)據(jù)進(jìn)行分析。由于一天內(nèi)各個(gè)時(shí)段的能耗模式是不同的,所以不同能耗模式的能耗數(shù)據(jù)在離群點(diǎn)分析中得到的LOF值是不同的,導(dǎo)致識(shí)別異常數(shù)據(jù)有時(shí)會(huì)產(chǎn)生誤差。在新集成方法中,基于聚類的離群點(diǎn)分析通過對(duì)能耗數(shù)據(jù)的分類,可以判斷出能耗數(shù)據(jù)所屬的能耗模式,相同能耗模式的能耗數(shù)據(jù)在離群點(diǎn)分析中得到的LOF值是相近的。因此,將異常數(shù)據(jù)與相同模式的歷史能耗數(shù)據(jù)使用LOF算法進(jìn)行離群點(diǎn)分析,可以增強(qiáng)對(duì)能耗異常數(shù)據(jù)判斷的準(zhǔn)確性。 3.3 關(guān)聯(lián)分析算法模擬實(shí)驗(yàn) 影響建筑能耗的因素主要可分為三個(gè)方面:外部氣候條件、建筑結(jié)構(gòu)、工作狀態(tài)(工作時(shí)間)[20]。由于建筑結(jié)構(gòu)已經(jīng)確定,所以只考慮外部氣候條件和工作狀態(tài)對(duì)建筑能耗的影響。通過文獻(xiàn)查閱,了解到影響建筑能耗主要外部氣候因素有濕球溫度、干球溫度、濕度、風(fēng)速[21]?;诰垲惙治龊湍M實(shí)驗(yàn)驗(yàn)證,可將工作狀態(tài)分為工作日和非工作日。通過以上對(duì)建筑能耗影響因素的分析,對(duì)濕球溫度、干球溫度、濕度、風(fēng)速、是否是正常工作日這五類數(shù)據(jù)進(jìn)行能耗數(shù)據(jù)的關(guān)聯(lián)分析。 使用數(shù)據(jù)集中60天的建筑能耗數(shù)據(jù)、濕球溫度數(shù)據(jù)、干球溫度數(shù)據(jù)、濕度數(shù)據(jù)、風(fēng)速數(shù)據(jù)及是否工作日的狀態(tài)數(shù)據(jù)進(jìn)行分析。根據(jù)灰關(guān)聯(lián)分析法計(jì)算各因素與建筑能耗的關(guān)聯(lián)度,選取建筑能耗數(shù)據(jù)為母因素,濕球溫度、干球溫度、濕度、風(fēng)速、是否工作日為子因素。經(jīng)過數(shù)據(jù)關(guān)聯(lián)度的平均值處理之后,各因素與建筑能耗關(guān)聯(lián)度如圖6所示。 圖6 各因素與建筑能耗關(guān)聯(lián)度 從圖6可以看出,選取因素與用電量的關(guān)聯(lián)系數(shù)都在0.6以上。若關(guān)聯(lián)系數(shù)在0.6以上,說明該因素對(duì)建筑能耗影響比較大。所以綜上所述,濕球溫度、干球溫度、濕度、風(fēng)速、是否工作日對(duì)大型公建建筑能耗具有重要影響。 3.4 預(yù)測(cè)算法模擬實(shí)驗(yàn) BP神經(jīng)網(wǎng)絡(luò)模型的實(shí)現(xiàn)過程包括網(wǎng)絡(luò)的創(chuàng)建、訓(xùn)練、預(yù)測(cè)3個(gè)步驟。 1) 網(wǎng)絡(luò)創(chuàng)建 課題選取數(shù)據(jù)集中200天的能耗數(shù)據(jù),對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練;采用150條樣本數(shù)據(jù),對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行仿真;50條數(shù)據(jù)進(jìn)行測(cè)試。選取影響能耗數(shù)據(jù)的重要因素濕球溫度、干球溫度、濕度、風(fēng)速、是否是工作日這5個(gè)屬性進(jìn)入數(shù)據(jù)挖掘過程,建立神經(jīng)網(wǎng)絡(luò)。 將干球溫度、濕球溫度、濕度、風(fēng)速、是否是正常工作日作為神經(jīng)網(wǎng)絡(luò)的5個(gè)輸入變量,輸出變量1個(gè),為建筑能耗值。所以,輸入節(jié)點(diǎn)為5個(gè),輸出節(jié)點(diǎn)為1個(gè)。如果選取太小的隱含層節(jié)點(diǎn)數(shù),預(yù)測(cè)誤差會(huì)變大,BP神經(jīng)網(wǎng)絡(luò)的映射關(guān)系就不能準(zhǔn)確地反映出來;如果節(jié)點(diǎn)數(shù)選取太大,網(wǎng)絡(luò)訓(xùn)練時(shí)間會(huì)增加。由于輸入節(jié)點(diǎn)較少,采取試湊法選擇隱含層節(jié)點(diǎn)數(shù),如公式所示: (7) 式中:a為0~10之間的常數(shù),m為輸出層節(jié)點(diǎn)數(shù),b為隱含層節(jié)點(diǎn)數(shù),n為輸入層節(jié)點(diǎn)數(shù)。試湊法結(jié)果表明當(dāng)b=8時(shí),預(yù)測(cè)誤差最小,所以隱含層節(jié)點(diǎn)數(shù)為8,網(wǎng)絡(luò)結(jié)構(gòu)為5-8-1,如圖7所示。 圖7 BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖 2) 訓(xùn)練 利用BP神經(jīng)網(wǎng)絡(luò)算法,在隱含層和輸出層采用Sigmoid函數(shù)[23],按照5-8-1的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行訓(xùn)練。根據(jù)訓(xùn)練情況,最終設(shè)定能耗數(shù)據(jù)設(shè)定學(xué)習(xí)誤差ε0=0.001,最大循環(huán)次數(shù)為2 000次。訓(xùn)練結(jié)束后,得到能耗預(yù)測(cè)模型的訓(xùn)練結(jié)果如圖8所示。 圖8 能耗預(yù)測(cè)模型的訓(xùn)練結(jié)果 如圖8可以看出,網(wǎng)絡(luò)通過1 989步訓(xùn)練控制,網(wǎng)絡(luò)已達(dá)到要求,可以用于預(yù)測(cè)。從圖9看出,能耗數(shù)據(jù)經(jīng)過BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)平均相對(duì)誤差率為7.57%,通過模型預(yù)測(cè)的準(zhǔn)確率可以看出基于BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型是可行的。 3) 預(yù)測(cè) 將建立的網(wǎng)絡(luò)應(yīng)用于能耗預(yù)測(cè),使用數(shù)據(jù)集中的200條的樣本數(shù)據(jù)作為輸入數(shù)據(jù)。利用樣本數(shù)據(jù)來預(yù)測(cè)未來50天的能耗數(shù)據(jù),并與真實(shí)能耗數(shù)據(jù)進(jìn)行對(duì)比。 能耗預(yù)測(cè)的輸出結(jié)果如圖9所示,兩條曲線分別代表實(shí)際能耗數(shù)據(jù)和預(yù)測(cè)能耗數(shù)據(jù)。 圖9 能耗數(shù)據(jù)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果 從圖10看出,能耗數(shù)據(jù)經(jīng)過BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)平均相對(duì)誤差率為7.57%,通過模型預(yù)測(cè)的準(zhǔn)確率可以看出基于BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型是可行的。 圖10 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)誤差 文獻(xiàn)[24]中的BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)方法沒有對(duì)能耗影響因素進(jìn)行篩選,影響能耗預(yù)測(cè)的準(zhǔn)確性。在新集成方法中,灰關(guān)聯(lián)分析可以更準(zhǔn)確地選出影響能耗數(shù)據(jù)的重要因素,BP神經(jīng)網(wǎng)絡(luò)通過對(duì)歷史能耗數(shù)據(jù)和基于灰關(guān)聯(lián)分析選擇的影響因素可以更準(zhǔn)確地預(yù)測(cè)未來能耗。 通過對(duì)傳統(tǒng)建筑能耗分析方法和已有單一建筑能耗數(shù)據(jù)挖掘方法存在問題的分析,以及現(xiàn)有數(shù)據(jù)挖掘方法的優(yōu)選,提出了基于多種數(shù)據(jù)挖掘技術(shù)的建筑能耗數(shù)據(jù)分析的新集成方法。新集成方法不僅可以實(shí)現(xiàn)對(duì)建筑異常能耗數(shù)據(jù)的監(jiān)測(cè),也可以分析出能耗數(shù)據(jù)之間的潛在關(guān)系。利用美國國家再生能源實(shí)驗(yàn)室研究支持機(jī)構(gòu)使用的建筑能耗數(shù)據(jù)集,模擬實(shí)驗(yàn)的結(jié)果表明,建筑能耗數(shù)據(jù)分析的新集成方法對(duì)于建筑能耗數(shù)據(jù)的分類、異常數(shù)據(jù)的識(shí)別、影響能耗數(shù)據(jù)的相關(guān)因素提取、未來能耗預(yù)測(cè)是可行的和有效的。 理論分析表明,新集成方法中的離群點(diǎn)分析和能耗預(yù)測(cè)方法與單一的離群點(diǎn)分析和能耗預(yù)測(cè)方法相比,準(zhǔn)確性更高。 新集成方法也可供工業(yè)、交通等領(lǐng)域的能耗數(shù)據(jù)分類、能耗異常數(shù)據(jù)識(shí)別、能耗影響因素篩選、未來能耗預(yù)測(cè)作為參考。 [1] 李濤.中國建筑能耗淺談[J].科學(xué)導(dǎo)報(bào),2016(4):285-285. [2] Seem J E.Using intelligent data analysis to detect abnormal energy consumption in buildings[J].Energy & Buildings,2007,39(1):52-58. [3] Pappas S S,Ekonomou L,Karampelas P,et al.Electricity demand load forecasting of the Hellenic power system using an ARMA model[J].Electric Power Systems Research,2010,80(3):256-264. [4] 卿曉霞,肖丹,王波.能耗實(shí)時(shí)監(jiān)測(cè)的數(shù)據(jù)挖掘方法[J].重慶大學(xué)學(xué)報(bào),2012,35(7):133-137. [5] Li X,Bowers C P,Schnier T.Classification of Energy Consumption in Buildings With Outlier Detection[J].IEEE Transactions on Industrial Electronics,2010,57(11):3639-3644. [6] 芮挺,沈春林,TIAN,等.ICA與PCA特征抽取能力的比較分析[J].模式識(shí)別與人工智能,2005,18(1):124-128. [7] 周卿,蘇華.建筑能耗分析方法與現(xiàn)狀[J].中國科技信息,2008(18):67-67. [8] 馬利.基于數(shù)據(jù)挖掘的聚類分析和傳統(tǒng)聚類分析的對(duì)比研究[J].數(shù)理醫(yī)藥學(xué)雜志,2008,21(5):530-531. [9] 金建國.聚類方法綜述[J].計(jì)算機(jī)科學(xué),2014,41(s2):288-293. [10] 姚麗娟,羅可,孟穎.一種新的k-medoids聚類算法[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(19):153-157. [11] 董賀,榮光怡.數(shù)據(jù)挖掘中數(shù)據(jù)分類算法的比較分析[J].吉林師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,29(4):107-108. [12] 胡美春,田大鋼.一種改進(jìn)的C4.5決策樹算法[J].軟件導(dǎo)刊,2015,14(7):54-56. [13] 張曉.基于聚類和LOF算法的異常數(shù)據(jù)檢測(cè)方法[J].伊犁師范學(xué)院學(xué)報(bào)(自然科學(xué)版),2011(2):48-50. [14] 賈媛,閆增峰.基于灰關(guān)聯(lián)分析的使用者行為對(duì)建筑能耗影響研究[J].建筑科學(xué),2016,32(4):108-113. [15] 申卯興,薛西鋒,張小水.灰色關(guān)聯(lián)分析中分辨系數(shù)的選取[J].空軍工程大學(xué)學(xué)報(bào)(自然科學(xué)版),2003,4(1):68-70. [16] 陳斌,胡麗,李昂,等.基于BP神經(jīng)網(wǎng)絡(luò)算法的仿真研究[J].信息技術(shù),2016(8):85-88. [17] Sheppy M,Beach A,Pless S.Metering Best Practices Applied in the National Renewable Energy Laboratory's Research Support Facility:A Primer to the 2011 Measured and Modeled Energy Consumption Datasets[J].Office of Scientific & Technical Information Technical Reports,2013,2(2):159-175. [18] 耿陽,林波榮,彭渤.作息模式對(duì)建筑能耗模擬的影響分析[J].建筑技術(shù)開發(fā),2016(4):78-84. [19] 徐琰,肖基毅.離群點(diǎn)分析在高校能耗監(jiān)控系統(tǒng)中的應(yīng)用[J].南華大學(xué)學(xué)報(bào)(自然科學(xué)版),2014(2):89-93. [20] 蔡偉光.中國建筑能耗影響因素分析模型與實(shí)現(xiàn)研究[D].重慶大學(xué),2011. [21] 周卿.建筑能耗模擬對(duì)氣象數(shù)據(jù)的敏感性分析[D].西華大學(xué),2006. [22] 張光華,傅志盛,田紅光.造紙濕部因素灰關(guān)聯(lián)分析法的適宜性研究[C]//中國造紙學(xué)會(huì)學(xué)術(shù)年會(huì),1999:78-81. [23] 李祚泳,徐源蔚,汪嘉楊,等.基于前向神經(jīng)網(wǎng)絡(luò)的廣義環(huán)境系統(tǒng)評(píng)價(jià)普適模型[J].環(huán)境科學(xué)學(xué)報(bào),2015,35(9):2996-3005. [24] 何磊.基于BP神經(jīng)網(wǎng)絡(luò)的建筑能耗預(yù)測(cè)[J].浙江建筑,2008,25(12):47-50. ANINTEGRATIONMETHODOFBUILDINGENERGYCONSUMPTIONANALYSISBASEDONDATAMININGALGORITHMS Sun Zhichao Wang Bo (CollegeofComputerScience,ChongqingUniversity,Chongqing400044,China) Traditional monitoring methods of building energy consumption are difficult to find the features of energy consumption data and the potential relationships among energy consumption data effectively. So the identification of abnormal energy consumption data is the lack of accuracy. Aiming at above problems, a new integration method of building energy consumption analysis based on many kinds of data mining algorithms is proposed. Valuable knowledge contained in building energy consumption data can be explored in the new method with the suitable data mining algorithms such as classification, outlier analysis, association analysis and prediction. The classification of energy consumption patterns, the identification of abnormal energy consumption data, the related factors affecting energy consumption and the energy consumption prediction can be realized by the new method to assist the decision making of building energy saving. The feasibility and effectiveness of the new integrated approach are validated by building energy consumption data sets from the US national renewable energy laboratory research support agency. Building energy consumption Data mining Energy consumption analysis Integration method 2017-01-09。孫智超,碩士生,主研領(lǐng)域:智慧城市與建筑智能化。王波,副教授。 TP391 A 10.3969/j.issn.1000-386x.2017.11.0193 能耗數(shù)據(jù)智能分析算法的模擬實(shí)驗(yàn)
4 結(jié) 語