馬忠嬌 張吉禮
大連理工大學(xué)建設(shè)工程學(xué)部
2018 年,我國建筑能耗占社會(huì)總能耗的36%,其中建造能耗占比為14%,建筑運(yùn)行能耗占比為22%[1]。目前,我國已在33 個(gè)省市建立了國家機(jī)關(guān)辦公建筑和大型公共建筑能耗監(jiān)測系統(tǒng),累計(jì)對11000 余棟建筑完成了能耗在線監(jiān)測[2],形成了建筑能耗海量數(shù)據(jù)。然而,由于感知層信道的干擾和平臺(tái)能耗監(jiān)測技術(shù)的不成熟,數(shù)據(jù)丟失、瞬時(shí)異常值和平臺(tái)固有偏差等問題數(shù)據(jù)質(zhì)量問題普遍存在于我國大部分建筑能耗監(jiān)測平臺(tái),嚴(yán)重影響了設(shè)備用能特征的深入研究以及后續(xù)建筑節(jié)能相關(guān)措施的實(shí)施。因此,提升數(shù)據(jù)質(zhì)量至關(guān)重要,是數(shù)據(jù)深入分析的前提。近年來,許多學(xué)者及研究機(jī)構(gòu)對建筑能耗監(jiān)測平臺(tái)的異常數(shù)據(jù)檢測及修復(fù)方法進(jìn)行了研究[3-9],為本文的研究提供了很好的借鑒。本文提出了一種將本征正交分解,線性隨機(jī)估計(jì)和分形關(guān)聯(lián)維數(shù)相結(jié)合的POD-LSE-FCD 方法用于檢測異常能耗數(shù)據(jù),并將該方法應(yīng)用于大連某高校節(jié)能監(jiān)測管理平臺(tái)實(shí)際監(jiān)測數(shù)據(jù)的異常值檢測。
本征正交分解 POD(Proper Orthogonal Decomposition)是一種源于矢量數(shù)據(jù)統(tǒng)計(jì)分析的方法,利用降維的思想,在損失少量信息的前提下,把多個(gè)指標(biāo)轉(zhuǎn)化為幾個(gè)綜合指標(biāo)的多元統(tǒng)計(jì)方法[10-11]。
若將POD 法應(yīng)用于能耗數(shù)據(jù),則原始能耗數(shù)據(jù)可表示為矩陣E(x,t)={c(xi,tj)},其中xi(i=1,2,…,m)為空間坐標(biāo),tj(j=1,2,…,n)為時(shí)間坐標(biāo)。理論上,若要精確重構(gòu)能耗數(shù)據(jù)矩陣需要一個(gè)無限項(xiàng)加和的表達(dá)式,而實(shí)際上有限數(shù)量的POD 模態(tài)即可體現(xiàn)數(shù)據(jù)的變化,故使用下式重構(gòu)原始數(shù)據(jù)矩陣:
POD 模態(tài)的描述方法不是唯一的,直接法需要求解每個(gè)變量在整個(gè)場上的任意兩點(diǎn)相關(guān)系數(shù)。
式中:COV(E(x,τ))為m×m 維度的協(xié)方差矩陣,根據(jù)線性代數(shù)與拉格朗日函數(shù),COV(E(x,τ))協(xié)方差矩陣是一個(gè)半正定矩陣;EX{E(x,τ)}為各空間坐標(biāo)能耗數(shù)據(jù)在矩陣表示時(shí)間段內(nèi)的期望值,則:
由式(4)可見,λ1,λ2,λ3,…,λm(λ1≥λ2≥λ3≥…≥λm)為協(xié)方差矩陣COV(E(x,τ))的m 個(gè)特征根,,分別為各特征根對應(yīng)的標(biāo)準(zhǔn)正交特征向量。此時(shí),已經(jīng)應(yīng)用POD 法完成了原始數(shù)據(jù)矩陣的本征正交分解,并同時(shí)給出了原始數(shù)據(jù)重構(gòu)后矩陣的均方誤差。應(yīng)用上述方法可用本征正交分解的時(shí)間系數(shù)來估計(jì)原始能耗數(shù)據(jù)矩陣,再利用基函數(shù)重構(gòu)整個(gè)能耗數(shù)據(jù)矩陣。根據(jù)線性隨機(jī)估計(jì)(Linear stochastic estimation,LSE)方法原理,能耗數(shù)據(jù)的估計(jì)矩陣En*(x,τ)表示為:
式(5)中估計(jì)的時(shí)間系數(shù)αk*(t)由式(6)計(jì)算:
Aisk 是是第k 個(gè)POD 模態(tài)在第i 個(gè)測點(diǎn)的線性隨機(jī)估計(jì)系數(shù)矩陣,由下式計(jì)算:
式(7)中E(xi,τ)是原本征正交分解中使用的第i個(gè)測點(diǎn)的原測量事件,αk(τ)是根據(jù)式(2)計(jì)算的第k 個(gè)POD 模態(tài)的實(shí)際時(shí)間系數(shù),ms是用于估計(jì)整個(gè)時(shí)間系數(shù)的指定空間數(shù)據(jù)點(diǎn)的數(shù)量。
分形關(guān)聯(lián)維數(shù) FCD(Fractal Correlation Dimension)是在相空間重構(gòu)過程中求解嵌入維數(shù)的一種重要方法。G-P(Grassberger-Procaccia)算法是從一組隨機(jī)分布的點(diǎn)估計(jì)分形標(biāo)準(zhǔn)的分形關(guān)聯(lián)維數(shù)的一種主要算法。通過對時(shí)間序列的相空間重構(gòu),構(gòu)造的奇怪吸引子在一定程度上反映系統(tǒng)的演化規(guī)律。通過分析相空間重構(gòu)吸引子的結(jié)構(gòu)來評價(jià)動(dòng)力系統(tǒng)的混沌特性,即為G-P 算法的基本思想[12-13]。當(dāng)應(yīng)用G-P 方法與POD 耦合時(shí),時(shí)間系數(shù)αk(tj)應(yīng)描述如下:
式(8)中n 為表示第k 個(gè)POD 模態(tài)的一組時(shí)間系數(shù)序列的長度,時(shí)間序列可簡化表示如下:
時(shí)間序列x(τj)表示在時(shí)間τj=τ0+j△τ 處x 值,假設(shè)時(shí)間序列{x(τj)}的統(tǒng)計(jì)量不隨時(shí)間變化。除非測量值獨(dú)立同分布,否則連續(xù)測量值之間將存在相關(guān)性。利用Takens 時(shí)延嵌入定理,設(shè)m 為嵌入維數(shù)且每個(gè)相空間有m 個(gè)數(shù)據(jù)點(diǎn),τs=△τ 為時(shí)滯參數(shù),則空間數(shù)據(jù)的相位可以表示為m 維空間中的一系列點(diǎn),第j 個(gè)時(shí)間序列x(τj,m,τs)為:
根據(jù)上述方法,n 個(gè)數(shù)據(jù)點(diǎn)的時(shí)間序列被分成nm組,nm=n-(m-1)τs,nm為分形數(shù)組中點(diǎn)的數(shù)量或坐標(biāo)向量的數(shù)量,m 維超球半徑用歐氏距離表示:
超球體的中心可以定義為半徑,且對于每一個(gè)i值均可應(yīng)用球面三角形法從相空間距離中求出一個(gè)半徑,改變重構(gòu)的超球體的中心將得到一系列的小球體。如果將r 定義為長度刻度,小球數(shù)與總球數(shù)之比定義為關(guān)聯(lián)積分函數(shù)f(r):
為了避免距離的雙重計(jì)算導(dǎo)致計(jì)算量增大,可將式(12)轉(zhuǎn)換為式(15):
由于r 足夠小且觀測值數(shù)量nm足夠大,分形關(guān)聯(lián)維數(shù)重構(gòu)相空間吸引子為:
綜上,C(r)與距離小于r 的分形集的點(diǎn)對數(shù)成正比,若所考察的點(diǎn)系是分形集,則DC為雙坐標(biāo)對數(shù)圖log2C(r)-log2r 在線性區(qū)的斜率,斜率DC即為系統(tǒng)的分形維數(shù)。
統(tǒng)計(jì)學(xué)中基于直接殘差的方法通常以實(shí)測數(shù)據(jù)和估計(jì)數(shù)據(jù)之間殘差來判斷是否有異常值產(chǎn)生。針對能耗數(shù)據(jù)的非線性特點(diǎn),本文提出了一種以直接POD和POD-LSE 時(shí)間系數(shù)的FCD 偏差代替直接殘差的方法,即基于POD-LSE-FCD 的異常數(shù)據(jù)檢測方法,該方法的流程圖見圖1。
圖1 POD-LSE-FCD 法邏輯流程圖
研究結(jié)果表明,LSE 時(shí)間系數(shù)能夠準(zhǔn)確反映能耗監(jiān)測平臺(tái)的性能特征。如果直接POD 和POD-LSE 時(shí)間系數(shù)的FCD 偏差存在較大的差異,則表明直接計(jì)算整個(gè)域數(shù)據(jù)的時(shí)間系數(shù)可能不是正確的系數(shù)。因此,可以根據(jù)上述原理檢測異常的能耗數(shù)據(jù)。直接POD 和POD-LSE 時(shí)間系數(shù)的FCD 標(biāo)準(zhǔn)差由式(17)計(jì)算:
本文應(yīng)用Matlab 自編程序?qū)崿F(xiàn)了POD-LSE-FCD算法,以大連某高校校園節(jié)能監(jiān)測與管理平臺(tái)的創(chuàng)新園大樓的照明與插座分項(xiàng)實(shí)際監(jiān)測用電量數(shù)據(jù)為例,驗(yàn)證了基于POD-LSE-FCD 的異常數(shù)據(jù)檢測方法的有效性。該建筑群分為中央主樓、西側(cè)學(xué)生實(shí)驗(yàn)樓、東側(cè)創(chuàng)新實(shí)驗(yàn)基地,該建筑共有10 個(gè)照明與插座用電監(jiān)測點(diǎn),應(yīng)用這10 個(gè)支路的數(shù)據(jù)進(jìn)行研究,應(yīng)用2017 年3月1 日-2018 年2 月28 日的逐日數(shù)據(jù)構(gòu)成10×365 維能耗數(shù)據(jù)矩陣。
全域是指所有測點(diǎn),選定域指的是從所有測點(diǎn)中選取的測點(diǎn)。為了應(yīng)用本征正交分解降維需驗(yàn)證全域時(shí)間系數(shù)和選定域時(shí)間系數(shù)的一致性,本文應(yīng)用實(shí)測能耗數(shù)據(jù)進(jìn)行了多次模擬計(jì)算與驗(yàn)證,POD-LSE 的詳細(xì)流程圖如圖2 所示。
圖2 POD-LSE 法邏輯流程圖
如圖2 所示,第一部分的全域時(shí)間系數(shù)和選定域時(shí)間系數(shù)由式(4)的最大特征值計(jì)算確定,第二部分的時(shí)間系數(shù)根據(jù)選定域數(shù)據(jù)和參考時(shí)間系數(shù)的線性隨機(jī)估計(jì)由式(6)和式(7)確定。參考時(shí)間系數(shù)是由選定的無數(shù)據(jù)異常的能耗數(shù)據(jù)樣本段計(jì)算確定的(2017 年3 月1 日-2017 年6 月1 日),在計(jì)算樣本段以外的時(shí)間區(qū)域內(nèi),若存在異常能耗數(shù)據(jù),則該異常數(shù)據(jù)點(diǎn)的POD 時(shí)間系數(shù)的趨勢將顯示出明顯的誤差。
根據(jù)式(3),本文計(jì)算了不同時(shí)間跨度協(xié)方差矩陣,結(jié)果顯示不同時(shí)間跨度協(xié)方差矩陣的特征值的能量分布高度一致。協(xié)方差矩陣第i 個(gè)特征值的能量占比表示為Eip,由式(18)計(jì)算。圖3 為由10×10 協(xié)方差矩陣計(jì)算出的10 個(gè)特征值的能量分布,這表明最大特征值即第1 個(gè)特征值捕獲了超過81.04%的能量。
圖3 特征值能量分布圖
根據(jù)圖3,單一的時(shí)間跨度并不代表所有情況,需要驗(yàn)證不同時(shí)間跨度異常數(shù)據(jù)檢測結(jié)果的區(qū)別。本文計(jì)算了所有測點(diǎn)和選定測點(diǎn)在相同時(shí)間端內(nèi)的時(shí)間系數(shù)向量,兩個(gè)時(shí)間系數(shù)向量具有相同的維度。圖4(a)、圖4(b)和圖4(c)分別為時(shí)間跨度Span=14,Span=28 和Span=56 時(shí)直接POD 和POD-LSE 時(shí)間系數(shù)計(jì)算結(jié)果對比圖。
圖4 不同時(shí)間跨度的時(shí)間系數(shù)分布圖
由圖4 可見,隨著時(shí)間跨度Span 的增加,全域POD 時(shí)間系數(shù)和選定域POD 時(shí)間系數(shù)曲線趨于一致,而線性隨機(jī)估計(jì)的POD-LSE 時(shí)間系數(shù)與全域POD 時(shí)間系數(shù)和選定域POD 時(shí)間系數(shù)雖然處于不同的坐標(biāo)系,其動(dòng)態(tài)變化趨勢卻保持一致性。
圖5 顯示了當(dāng)時(shí)間跨度Span=28 時(shí),部分時(shí)間的時(shí)間系數(shù)與能耗數(shù)據(jù)。由圖5 可以看出,盡管時(shí)間系數(shù)與能耗數(shù)據(jù)處于不同的坐標(biāo)軸且量綱不一致,兩組數(shù)據(jù)的動(dòng)態(tài)變化趨勢卻顯示了明顯的一致性,異常數(shù)據(jù)的檢測正是基于正常情況下時(shí)間系數(shù)與能耗數(shù)據(jù)變化趨勢一致這一特性。
圖5 時(shí)間系數(shù)與能耗數(shù)據(jù)趨勢對比圖
通過比較直接POD 和POD-LSE 時(shí)間系數(shù)的FCD,對實(shí)時(shí)能耗數(shù)據(jù)異常值檢測方法進(jìn)行了評價(jià)。若將時(shí)間跨度設(shè)為28,只需要確定1 個(gè)參數(shù)——步長。若步長設(shè)定為Step=7,則每次使用7 個(gè)新數(shù)據(jù)和21個(gè)歷史數(shù)據(jù)來計(jì)算FCD。同時(shí),在正常情況下選擇的參考時(shí)間系數(shù)的維度與步長相同,應(yīng)用該算法可檢測出異常的能耗數(shù)據(jù)。直接POD 和POD-LSE 時(shí)間系數(shù)的FCD 標(biāo)準(zhǔn)差由式(17)計(jì)算,圖6,圖7 和圖8 分別為不同步長Step=14,Step=7 和Step=4 的異常數(shù)據(jù)檢測測結(jié)果。
圖6 異常數(shù)據(jù)實(shí)時(shí)檢測結(jié)果(Step=14)
圖7 異常數(shù)據(jù)實(shí)時(shí)檢測結(jié)果(Step=7)
圖8 異常數(shù)據(jù)實(shí)時(shí)檢測結(jié)果(Step=4)
如圖6 所示,當(dāng)Step=14 時(shí),檢測結(jié)果顯示在Step No.=12 時(shí),即第12 步時(shí),直接POD 和POD-LSE 時(shí)間系數(shù)的FCD 標(biāo)準(zhǔn)差SD=8.04%,明顯高于其余計(jì)算步驟的標(biāo)準(zhǔn)差,該數(shù)據(jù)點(diǎn)出現(xiàn)的時(shí)間為[Start time:End timetime]=[171:198];如圖7 所示,當(dāng)Step=7 時(shí),檢測結(jié)果顯示在Step No.=11 和Step Noo.=24 時(shí),即第11步和第24 步時(shí),直接POD 和POD-LSE 時(shí)間系數(shù)的FCD 標(biāo)準(zhǔn)差分別為SD=-12.41%和SD=15.76%,明顯高于其余計(jì)算步驟的標(biāo)準(zhǔn)差,這兩個(gè)數(shù)據(jù)點(diǎn)出現(xiàn)的時(shí)間分別為[Start time:End timetime]=[78:105]和[Start time:End timetime]=[169:196];如圖8 所示,當(dāng)Step=4 時(shí),檢測結(jié)果顯示在Step No.=19 和Step No.=42 時(shí),即第19步和第42 步時(shí),直接POD 和POD-LSE 時(shí)間系數(shù)的FCD 標(biāo)準(zhǔn)差分別為SD=-13.58%和SD=11.66%,明顯高于其余計(jì)算步驟的標(biāo)準(zhǔn)差,這兩個(gè)數(shù)據(jù)點(diǎn)出現(xiàn)的時(shí)間分別為[Start time:End timetime]=[77:104] 和[Start time:End time-time]=[169:196]。
由圖6,圖7 和圖8 還可以看出,當(dāng)時(shí)間跨度Span=28 時(shí),不同步長檢測異常值結(jié)果略有不同。當(dāng)Step=14 時(shí),只檢測出1 個(gè)異常數(shù)據(jù)點(diǎn),而當(dāng)Step=7 和Step=4 時(shí),檢測出2 個(gè)異常數(shù)據(jù)點(diǎn)且2 個(gè)數(shù)據(jù)點(diǎn)的位置一致。檢測出異常值的步驟,其直接POD 和POD-LSE 時(shí)間系數(shù)的FCD 標(biāo)準(zhǔn)差SD 均大于8%,明顯高于其余計(jì)算步驟的標(biāo)準(zhǔn)差。綜上,當(dāng)檢測時(shí)間跨度Span=28 時(shí),步長Step=7 時(shí)最為合適,與Step=14相比較更能準(zhǔn)確地檢測出異常值的位置,與Step=4 相比減少了計(jì)算量。
本文提出了POD-LSE-FCD 能耗數(shù)據(jù)異常值檢測方法,該方法將本征正交分解,線性隨機(jī)估計(jì)和分型關(guān)聯(lián)維數(shù)相結(jié)合。將該方法應(yīng)用于大連市某高校能耗監(jiān)測數(shù)據(jù),通過比較直接POD 和POD-LSE 時(shí)間系數(shù)的FCD,對實(shí)時(shí)能耗數(shù)據(jù)異常值檢測方法進(jìn)行了評價(jià)。分別模擬計(jì)算了當(dāng)時(shí)間跨度Span=28 時(shí),不同步長Step=14,Step=7 和Step=4 的異常數(shù)據(jù)檢測測結(jié)果,得出以下結(jié)論:
1)當(dāng)時(shí)間跨度Span=28 時(shí),不同步長檢測異常值結(jié)果略有不同:當(dāng)Step=14 時(shí),只檢測出1 個(gè)異常數(shù)據(jù)點(diǎn)。當(dāng)Step=7 和Step=4 時(shí),檢測出2 個(gè)異常數(shù)據(jù)點(diǎn),且兩個(gè)數(shù)據(jù)點(diǎn)的位置一致。
2)檢測出異常值的步驟,直接POD 和POD-LSE時(shí)間系數(shù)的FCD 標(biāo)準(zhǔn)差均大于8%,明顯高于其余計(jì)算步驟的標(biāo)準(zhǔn)差。
3)當(dāng)檢測時(shí)間跨度Span=28 時(shí),步長Step=7 時(shí)最為合適,與Step=14 相比較更能準(zhǔn)確地檢測出異常值的位置,與Step=4 相比減少了計(jì)算量。
綜上,POD-LSE-FCD 法可以準(zhǔn)確并快速的檢測出能耗異常數(shù)據(jù),適宜應(yīng)用于iBES 建筑能耗監(jiān)測平臺(tái)異常數(shù)據(jù)診斷。