趙 山,蘇一帆
(華北水利水電大學土木與交通學院,河南 鄭州 450045)
建筑能耗在通常情況下是指建筑從建設前的材料、施工、到投入使用的整個過程中產(chǎn)生的能耗,這些能耗的計算是每個建筑企業(yè)管理過程中不可或缺的內(nèi)容[1]。能耗計算是建筑的一種高級能耗分析形式,可針對建筑中的全部用能項目類別數(shù)據(jù)進行統(tǒng)計和計算,其可用于建筑成本的分析,掌握建筑各個項目類別的能耗情況,對建筑成本掌控具有重要意義[2]。但是在對這些數(shù)據(jù)計算時,會存在缺失或者受損,以及無效等異常數(shù)據(jù),這些異常數(shù)據(jù)對于計算的結(jié)果存在較大影響。當數(shù)據(jù)中含有的數(shù)據(jù)類別較多時,識別的結(jié)果越容易受到影響。因此,在對各類能耗計算時,需準確識別能耗數(shù)據(jù)中的異常數(shù)據(jù),保證計算結(jié)果的準確性?;貧w分析是一種用于數(shù)據(jù)分析的方法,其可通過相關(guān)的數(shù)據(jù)統(tǒng)計結(jié)果,針對數(shù)據(jù)間存在的某些關(guān)聯(lián)構(gòu)建回歸分析方程,用于完成數(shù)據(jù)分析。回歸分析存在兩種方式,分別為線性以及非線性分析,回歸分析使用過程中需要以數(shù)據(jù)為依據(jù),構(gòu)建回歸方程后求解回歸系數(shù),采用相關(guān)性對其進行檢驗,獲取相關(guān)系數(shù),將其與實際情況相結(jié)合,確定目標的實際情況,實現(xiàn)需求的分析[3]。
當下用于識別建筑能耗異常數(shù)據(jù)的方法較多,例如文獻[4]提出的基于分層聚合的異常數(shù)據(jù)識別算法和文獻[5]提出的基于DCNDA算法的異常數(shù)據(jù)識別算法,均可完成單屬性數(shù)據(jù)集中的異常數(shù)據(jù)識別,但是在多屬性數(shù)據(jù)集中的異常數(shù)據(jù)識別的效果相對不夠理想,異常數(shù)據(jù)數(shù)量越多,其識別效果越差,識別的相關(guān)系數(shù)較低?;诖耍疚奶岢龌诨貧w分析的建筑能耗異常數(shù)據(jù)識別算法,以回歸分析理論為依據(jù),構(gòu)建回歸模型,實現(xiàn)建筑能耗異常數(shù)據(jù)的識別,保證異常數(shù)據(jù)可被準確識別。
2.1.1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是識別的基礎,為完成異常數(shù)據(jù)識別,需對建筑能耗數(shù)據(jù)進行挖掘[6],本文采用梯度提升回歸樹完成建筑能耗數(shù)據(jù)挖掘,將建筑能耗數(shù)據(jù)定義為目標數(shù)據(jù)。該算法挖掘目標數(shù)據(jù)過程中,以挖掘目標數(shù)據(jù)的關(guān)聯(lián)主特征為目標,則輸出為
(1)
式中:f表示特征;k和k-1分別表示第k個和第k-1個數(shù)據(jù)。
為獲取目標數(shù)據(jù)的密度特征,通過回歸樹分析方法完成,該特征屬于統(tǒng)計分布概率,其計算公式為
(2)
式中:一個更新周期的差距存在tn+1和tn兩個時刻;D表示量化特征分布集,屬于本文算法進行挖掘的目標數(shù)據(jù),求解互為信息量,且屬于目標數(shù)據(jù),采用梯度提升回歸樹完成[7],其計算公式為
(3)
(4)
梯度提升回歸模型的建立依據(jù)多隊列調(diào)度方法完成,si={xj:d(xj,yi)≤d(xj,yl)}表示訓練集,其中,d表示交互性統(tǒng)計數(shù)據(jù),其屬于目標數(shù)據(jù);以其為依據(jù)獲取目標數(shù)據(jù)的挖掘幀序列[8]
MinWH=min{w(cc),h(cc)}
(5)
(6)
核函數(shù)依據(jù)式(5)和(6)的結(jié)果構(gòu)建,對加權(quán)進行調(diào)整后可得出目標數(shù)據(jù)的統(tǒng)計輸出和幾何鄰域[9],分別為Nj*和NEj*(t),同時獲取目標數(shù)據(jù)挖掘的模糊聚類中心,其為
U={μik|i=1,2,…,c,k=1,2,…,n}
(7)
為獲取回歸樹目標數(shù)據(jù)的分析目標函數(shù),以關(guān)聯(lián)規(guī)則為參考,其公式為
(8)
優(yōu)化后聚類中心為
(9)
(10)
式中:適應度函數(shù)用m表示;xk表示目標數(shù)據(jù)樣本;Vi表示關(guān)聯(lián)數(shù)據(jù)樣本;dik表示兩者間的測度距離??臻g聚類分布通過挖掘結(jié)果獲取,其為
(11)
式(11)需滿足(12)的條件:
(12)
2.1.2 數(shù)據(jù)融合聚類
如果x(t)表示目標數(shù)據(jù)挖掘區(qū)域的離散序列,t=0,1,…,n-1;梯度提升基函數(shù)則用式(13)表示,且其屬于設置的每一個隊列范圍內(nèi)
u=[u1,u2,…,uN]∈RmN
(13)
目標數(shù)據(jù)挖掘最大梯度差的獲取,需對目標數(shù)據(jù)的丟包率和傳送延時進行分析后計算得出[10],其公式為
(14)
關(guān)聯(lián)指向性特征通過式(15)獲取,且屬于目標數(shù)據(jù)回歸樹,其為
(15)
目標數(shù)據(jù)梯度差異化信息特征的提取在差異程度明顯的情況下完成,且該差異屬于梯度特征;為獲取挖掘目標數(shù)據(jù)的輸出,對挖掘到的數(shù)據(jù)進行融合[11],得出輸出結(jié)果
(16)
式中:差異化的隊列融合屬性數(shù)據(jù)分別用X、Y表示;密度函數(shù)分別用P(X)、P(Y)表示;概率分布用P(X∩Y)表示。
2.2.1 自回歸模型
基于回歸分析理論構(gòu)建自回歸模型,其可根據(jù)變量自身存在的規(guī)律完成。為準確識別目標數(shù)據(jù)中的異常數(shù)據(jù),本文將殘差平方和(SSE)引入模型中,完成新的統(tǒng)計量建立,用于識別數(shù)據(jù)中的異常數(shù)據(jù)[12]?;貧w模型公式為
yi=β0+β1xi1+β2xi2+…+βpxip+εi,i=1,2,…,n
(17)
式中:回歸系數(shù)用βj(j=0,1,…,p)表示;隨機誤差和階數(shù)分別用εi和p表示。
異常數(shù)據(jù)識別變量用γi表示,將其引入各個識別數(shù)據(jù)中,引入γi后模型成為均值轉(zhuǎn)移模型,其為
yi=β0+β1xi1+β2xi2+…+βpxip+δiγi+εi,
i=1,2,…,n
(18)
根據(jù)式(18)可知數(shù)據(jù)是否為異常值,可通過γi判斷。
模型在進行異常數(shù)據(jù)識別時,無法確定是否存在異常數(shù)據(jù),因此,如果異常數(shù)據(jù)不存在模型中,則模型可通過式(19)表示
Y=Xβ+ε
(19)
SSE=YT(I-H(X))Y
(20)
2.2.2 異常數(shù)據(jù)的計算和識別
將獲取的差異化屬性數(shù)據(jù)特征分別輸入至模型中,通過模型進行異常數(shù)據(jù)的計算和識別。
如果輸入模型中的數(shù)據(jù)為異常數(shù)據(jù),則表示γk=1,δk則表示該異常數(shù)據(jù)的大?。怀酥獾臄?shù)據(jù)均為非異常數(shù)據(jù),則此刻SSE的計算公式為
SSEk=(Y-δkIk)T(I-H(X))(Y-δkIk)
(21)
(22)
將式(22)的結(jié)果帶入式(21)中進行求解后得出SSEk=SSE-Δk,其中
(23)
式中:在數(shù)據(jù)為異常數(shù)據(jù)的情況下,Δk表示殘差平方和。
選取某建筑企業(yè)2019年多屬性建筑能耗統(tǒng)計數(shù)據(jù)集為測試對象,數(shù)據(jù)集數(shù)量共1550個,該數(shù)據(jù)數(shù)量中包含兩種異常數(shù)據(jù),分別為缺失數(shù)據(jù)和無效數(shù)據(jù)。數(shù)據(jù)集中包含三種屬性數(shù)據(jù),分別為建筑材料數(shù)據(jù)數(shù)量650個(異常數(shù)據(jù)24個)、施工數(shù)據(jù)550個(異常數(shù)據(jù)17個)、投入使用數(shù)據(jù)350個(異常數(shù)據(jù)5個)。采用Matlab軟件完成,回歸樹迭代次數(shù)為200次。
數(shù)據(jù)特征分布集的挖掘是異常數(shù)據(jù)識別的基礎。采用本文算法挖掘數(shù)據(jù)集,獲取數(shù)據(jù)特征分布集,結(jié)果見圖1。
圖1 數(shù)據(jù)特征分布集
根據(jù)圖1測試結(jié)果可知:獲取的數(shù)據(jù)特征分布集中,分散三種數(shù)據(jù)的特征,說明本文算法具備數(shù)據(jù)特征挖掘性能,可獲取數(shù)據(jù)集中不同屬性的數(shù)據(jù)特征分布集,為異常數(shù)據(jù)識別提供依據(jù)。
為分析本文算法的特征挖掘效果,采用文本算法對圖1獲取的數(shù)據(jù)特征分布集進行挖掘,獲取不同屬性數(shù)據(jù)特征,用于分析本文算法數(shù)據(jù)挖掘效果,結(jié)果見圖2。
圖2 空間聚類分布結(jié)果
根據(jù)圖2測試結(jié)果可知:本文算法可根據(jù)不同特征的聚類中心,有效完成不同屬性數(shù)據(jù)特征聚類,并且實現(xiàn)不同屬性特征的分類聚類。該結(jié)果表明:本文算法的聚類效果良好,可有效依據(jù)不同數(shù)據(jù)特征屬性,可靠完成數(shù)據(jù)的特征分類聚類。
為測試本文算法對于異常數(shù)據(jù)的識別效果,進行異常數(shù)據(jù)識別,在單屬性施工數(shù)據(jù)特征中第35個識別數(shù)據(jù)上引入大小為-22的缺失數(shù)據(jù),測試本文算法對其識別效果,見圖3;在單屬性建筑材料數(shù)據(jù)特征中第125個和155個識別數(shù)據(jù)上,分別引入大小為19和-16的無效數(shù)據(jù)和缺失數(shù)據(jù),測試本文算法對其識別效果,見圖4;在多屬性數(shù)據(jù)中,第445個識別數(shù)據(jù)上,同時引入大小為31和-34的無效數(shù)據(jù)和缺失數(shù)據(jù)、第1265個識別數(shù)據(jù)上,同時引入大小為38和-44的無效數(shù)據(jù)和缺失數(shù)據(jù),測試本文算法的識別效果,見圖5。
圖3 單一屬性數(shù)據(jù)中的一種異常數(shù)據(jù)識別結(jié)果
圖4 單一屬性數(shù)據(jù)中的多種異常數(shù)據(jù)識別結(jié)果
圖5 多屬性數(shù)據(jù)中的多種異常數(shù)據(jù)識別結(jié)果
根據(jù)圖3、圖4和圖5測試結(jié)果可知:單一類型數(shù)據(jù)中只存在一種異常數(shù)據(jù)時,本文算法可較好完成異常數(shù)據(jù)的識別;當存在的異常數(shù)據(jù)為多種時,依舊可準確識別出引入的所有數(shù)據(jù);在綜合類數(shù)據(jù)中,當兩種異常數(shù)據(jù)同時出現(xiàn)在一個識別數(shù)據(jù)上時,本文算法仍能夠可靠完成異常數(shù)據(jù)的識別;同時,在識別引入的異常數(shù)據(jù)的同時,數(shù)據(jù)集中原有的異常數(shù)據(jù)均可有效識別出。該結(jié)果表明:本文算法可同時完成單一數(shù)據(jù)中已有的和引入的異常數(shù)據(jù)識別;綜合數(shù)據(jù)中的已有的和引入的并發(fā)多種異常數(shù)據(jù)識別,并且識別效果良好,在不同類別的異常數(shù)據(jù)同時存在一個數(shù)據(jù)上時,依據(jù)可準確識別。
為進一步衡量本文算法對于異常數(shù)據(jù)的識別性能,將文獻[4]的基于分層聚合的異常數(shù)據(jù)識別算法和文獻[5]的基于DCNDA算法的異常數(shù)據(jù)識別算法作為本文算法的對比算法,以相關(guān)系數(shù)作為衡量標準,采用三種算法對數(shù)據(jù)中的異常數(shù)據(jù)進行識別,計算三種算法識別的相關(guān)系數(shù),以此分析三種算法的異常數(shù)據(jù)識別性能,結(jié)果見圖6。相關(guān)系數(shù)值越高,表示算法的識別性能越好。
相關(guān)系數(shù)計算公式為:
(24)
圖6 三種算法的相關(guān)系數(shù)測試結(jié)果
根據(jù)圖6測試結(jié)果可知:對多屬性數(shù)據(jù)集的異常數(shù)據(jù)進行識別時,本文算法識別相關(guān)系數(shù)值最佳,并且異常數(shù)據(jù)量的增加,相關(guān)系數(shù)值的變化較小,沒有受到數(shù)量增加的影響,呈現(xiàn)緩慢小幅度的增長趨勢;兩種對比算法異常數(shù)據(jù)識別的相關(guān)系數(shù)值明顯低于本文算法,并且異常數(shù)據(jù)數(shù)量的增加,兩種算法相關(guān)系數(shù)呈顯著下降趨勢,說明在多屬性數(shù)據(jù)集中的異常數(shù)據(jù)數(shù)量越多,兩種算法的識別效果降低。該測試結(jié)果表明:本文算法的異常數(shù)據(jù)識別性能良好,多屬性數(shù)據(jù)集中異常數(shù)據(jù)識別的相關(guān)系數(shù)均在0.972以上,顯著優(yōu)于兩種對比算法。
建筑能耗數(shù)據(jù)對于建筑企業(yè)的成本預算和利潤計算存在直接關(guān)聯(lián),因此,各建筑企業(yè)需依據(jù)建筑能耗數(shù)據(jù)完成能耗計算。由于數(shù)據(jù)中會存在各種異常數(shù)據(jù),對于計算結(jié)果存在直接影響,本文提出基于回歸分析的建筑能耗異常數(shù)據(jù)識別算法,識別建筑能耗數(shù)據(jù)中的異常數(shù)據(jù)。經(jīng)測試:該算法具備較好的數(shù)據(jù)分類聚類效果,可根據(jù)數(shù)據(jù)屬性的差異完成數(shù)據(jù)特征挖掘,并且有效完成多屬性數(shù)據(jù)中異常數(shù)據(jù)的識別,識別性能優(yōu)于兩種對比方法,可用于建筑能耗異常數(shù)據(jù)的識別,保證識別結(jié)果具備良好的可靠性,為建筑企業(yè)的成本預算以及利潤核算提供可靠依據(jù)。