清華大學(xué) 生態(tài)規(guī)劃與綠色建筑教育部重點實驗室 王 曼 生態(tài)規(guī)劃與綠色建筑教育部重點實驗室 清華大學(xué)中國新型城鎮(zhèn)化研究院 黃 莉 清華大學(xué) 生態(tài)規(guī)劃與綠色建筑教育部重點實驗室 李 書 周 浩 林波榮
2013年以來,中國互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)產(chǎn)業(yè)進入高速發(fā)展階段。伴隨著IDC產(chǎn)業(yè)的迅速發(fā)展,國內(nèi)數(shù)據(jù)中心的建設(shè)量和耗電量呈現(xiàn)逐年增加的態(tài)勢,僅2016年一年,數(shù)據(jù)中心的耗電量就相當(dāng)于三峽水電站一年的發(fā)電量[1]。因此,數(shù)據(jù)中心已成為全國的能耗大戶之一,對其進行節(jié)能研究對我國節(jié)能降耗具有重要意義。
歐洲和北美地區(qū)開展數(shù)據(jù)中心節(jié)能研究起步較早。歐洲綠色網(wǎng)格組織提出的電能利用效率PUE(power usage effectiveness)指標(biāo)是目前評價數(shù)據(jù)中心能效的最權(quán)威指標(biāo),PUE越接近1,則數(shù)據(jù)中心的能效越高?;赑UE指標(biāo),綠色網(wǎng)格組織和美國環(huán)境保護署分別提出了各自的能效分級[2]。為促進歐洲數(shù)據(jù)中心的節(jié)能降耗,歐盟行為準(zhǔn)則設(shè)立了數(shù)據(jù)中心能效項目,收集了歐洲數(shù)據(jù)中心的能耗情況。經(jīng)統(tǒng)計分析,截至2016年,加入該項目的268個歐洲數(shù)據(jù)中心PUE普遍分布在1.6~2.0范圍內(nèi),其次為1.4~1.6。根據(jù)綠色網(wǎng)格的標(biāo)準(zhǔn),普遍處于平均水平和高效水平之間。且其PUE平均值總體呈下降趨勢,由2009年的1.87下降至2016年的1.64,歐洲數(shù)據(jù)中心能效有明顯提升[3]。與歐美相比,國內(nèi)目前尚未有詳細完整的數(shù)據(jù)中心PUE數(shù)據(jù)調(diào)研情況?,F(xiàn)有文獻顯示,國內(nèi)數(shù)據(jù)中心的PUE大部分處于2.2~3.0及更高水平[4],與歐美還存在很大差距,國內(nèi)數(shù)據(jù)中心節(jié)能潛力巨大。
目前,對于數(shù)據(jù)中心空調(diào)系統(tǒng)的節(jié)能研究主要集中在數(shù)據(jù)中心冷源或末端性能的開發(fā)或局部改造上,缺乏對數(shù)據(jù)中心的系統(tǒng)性優(yōu)化。耿海波等人對昆明市某數(shù)據(jù)中心進行了封閉冷通道和新風(fēng)自然冷卻節(jié)能改造[5];馮瀟瀟提出了一種以間接蒸發(fā)冷卻塔代替?zhèn)鹘y(tǒng)冷卻塔的數(shù)據(jù)中心機房冷卻系統(tǒng)[6]。研究方法也以模擬為主:Patankar使用CFD模擬方法研究了數(shù)據(jù)中心架空地板形式的末端氣流組織[7];Fakhim等人對數(shù)據(jù)中心房間內(nèi)各個機架處的溫度進行了測試并在此基礎(chǔ)上驗證了溫度場的模擬結(jié)果[8]?;跀?shù)據(jù)中心運維數(shù)據(jù)的節(jié)能研究相對較少,如美國勞倫斯伯克利實驗室對22個運行中的數(shù)據(jù)中心進行了測試,分析了其空調(diào)系統(tǒng)形式,并對節(jié)能數(shù)據(jù)中心的設(shè)計提出了建議[9]。由于數(shù)據(jù)中心能耗數(shù)據(jù)量的龐大和各參數(shù)之間的相互耦合關(guān)系,使得從其中抽象出合理的數(shù)學(xué)模型并根據(jù)已有的工程經(jīng)驗公式對其能耗情況進行預(yù)測優(yōu)化非常困難。傳統(tǒng)研究方法在數(shù)據(jù)中心能耗研究問題上適用性不強。
數(shù)據(jù)挖掘是數(shù)據(jù)庫知識發(fā)現(xiàn)的一個步驟,一般指從大量數(shù)據(jù)中通過算法搜索隱藏于其中的信息的過程?;跀?shù)據(jù)中心運行能耗和空調(diào)系統(tǒng)數(shù)據(jù)特性,引入數(shù)據(jù)挖掘方法對其進行研究可有效解決海量數(shù)據(jù)知識發(fā)現(xiàn)困難和參數(shù)耦合問題。
目前引入數(shù)據(jù)挖掘方法對數(shù)據(jù)中心能耗進行研究尚處于起步階段。Gao建立了數(shù)據(jù)中心能耗管理的神經(jīng)網(wǎng)絡(luò)模型,實現(xiàn)了PUE預(yù)測誤差僅為4%的精準(zhǔn)預(yù)測,在此基礎(chǔ)上進一步實現(xiàn)了PUE值的降低[10]。Li等人基于數(shù)據(jù)中心冷卻系統(tǒng)的人為設(shè)定模型,提出了一種冷卻系統(tǒng)端到端控制算法CCA,可實現(xiàn)11%的數(shù)據(jù)中心節(jié)能率[11]。但在文獻[10]中,由于研究者暖通空調(diào)背景知識不足,在研究參數(shù)的選取上存在諸如同時出現(xiàn)空氣濕球溫度和空氣比焓并列的參數(shù)耦合情況;文獻[11]在研究方法上將數(shù)據(jù)中心各區(qū)域描述為單點熱源,存在簡化過度等問題,訓(xùn)練模型選用的參數(shù)也較少。因此,數(shù)據(jù)挖掘在數(shù)據(jù)中心節(jié)能控制中的應(yīng)用還很不充分。
國內(nèi)學(xué)者對于數(shù)據(jù)挖掘技術(shù)在建筑節(jié)能領(lǐng)域也進行了一定探索,如利用C4.5決策樹分析寒冷地區(qū)居住建筑供暖能耗與建筑圍護結(jié)構(gòu)特性、供暖系統(tǒng)形式與房間位置的相關(guān)性[12];探索有監(jiān)督和無監(jiān)督2種模式下的深度學(xué)習(xí)算法在教育建筑冷負荷預(yù)測中的表現(xiàn)[13];利用隨機森林對VRF系統(tǒng)進行故障診斷等[14]。但數(shù)據(jù)挖掘技術(shù)尚未應(yīng)用在國內(nèi)數(shù)據(jù)中心的空調(diào)系統(tǒng)節(jié)能研究中。
為對數(shù)據(jù)中心空調(diào)系統(tǒng)進行節(jié)能優(yōu)化控制,使用Lasso回歸和人工篩選2種方式篩選了進行數(shù)據(jù)中心能耗預(yù)測模型訓(xùn)練的參數(shù)?;谝陨?種方法篩選的參數(shù),使用XGBoost算法對北京某數(shù)據(jù)中心能耗和空調(diào)系統(tǒng)數(shù)據(jù)進行數(shù)據(jù)挖掘,實現(xiàn)了對該數(shù)據(jù)中心的PUE預(yù)測及空調(diào)系統(tǒng)對PUE的定量化影響相關(guān)性排序,以XGBoost的精確度檢驗數(shù)據(jù)挖掘方法是否適用于數(shù)據(jù)機房PUE預(yù)測參數(shù)篩選,為進一步實現(xiàn)數(shù)據(jù)中心節(jié)能優(yōu)化控制提供依據(jù)。
本文技術(shù)路線如圖1所示。首先對數(shù)據(jù)中心空調(diào)系統(tǒng)運行現(xiàn)狀進行調(diào)研,實現(xiàn)對數(shù)據(jù)中心運維情況的了解和研究數(shù)據(jù)的采集。進而對采集到的數(shù)據(jù)進行分析,進行基本的數(shù)據(jù)清洗。在此基礎(chǔ)上進行數(shù)據(jù)挖掘研究,并對數(shù)據(jù)挖掘結(jié)果進行分析。
圖1 研究技術(shù)路線
現(xiàn)狀調(diào)研主要通過實地調(diào)研進行,選取具備典型國內(nèi)數(shù)據(jù)中心空調(diào)形式的北京某大型數(shù)據(jù)中心進行研究,采集其運行能耗及空調(diào)系統(tǒng)數(shù)據(jù)。
本文研究對象為北京匯天云端產(chǎn)業(yè)園14號樓數(shù)據(jù)中心機房,占地面積3 711 m2,總建筑面積20 271 m2,共10層。地下1層為動力設(shè)備層,布置冷水機房、2個變配電室和蓄冷罐間;地上6層為IT設(shè)備層,1層設(shè)置會議室、若干辦公室、中控室和展示機房;其余樓層均為IT機柜機房。機房區(qū)總冷負荷12 083 kW,其中建筑負荷1 099 kW,IT負荷10 984 kW,設(shè)計冷水供/回水溫度12 ℃/18 ℃。前室、新風(fēng)系統(tǒng)總冷負荷1 298 kW。
數(shù)據(jù)主要來自數(shù)據(jù)中心監(jiān)控系統(tǒng)自動記錄的運行數(shù)據(jù),在運維人員協(xié)助下獲得了研究對象于2019年1月9日00:00至4月10日15:00的運行數(shù)據(jù),共計31 299 878條,記錄時間包含全年內(nèi)的冬季和部分過渡季,系統(tǒng)自動記錄時間間隔約為10 min,由于傳感器自身原因略有時間誤差,以下將基于這些數(shù)據(jù)進行能耗數(shù)據(jù)挖掘研究。由于數(shù)據(jù)中心未進行相關(guān)氣象數(shù)據(jù)監(jiān)測,考慮到研究對象距離北京首都國際機場較近,本次研究所使用的氣象數(shù)據(jù)來源于網(wǎng)上下載的北京首都國際機場氣象數(shù)據(jù)監(jiān)測記錄,記錄時間間隔為30 min。
基于采集到的數(shù)據(jù)中心能耗及空調(diào)系統(tǒng)數(shù)據(jù),進行初步的數(shù)據(jù)清洗,篩選出進行數(shù)據(jù)挖掘的相關(guān)參數(shù),排除冗余數(shù)據(jù)干擾。同時,完成不同參數(shù)的時間節(jié)點校對,使得其時間節(jié)點統(tǒng)一。在此基礎(chǔ)上,對得到的各個參數(shù)進行描述性分析,了解數(shù)據(jù)的特點,從而對其適用的數(shù)據(jù)挖掘方法進行篩選。
本次共收集數(shù)據(jù)31 299 878條,每條數(shù)據(jù)有效信息僅包含時間戳和某一參數(shù)值2項。經(jīng)過對數(shù)據(jù)進行研判,數(shù)據(jù)中包含大量與此次研究相關(guān)性不高的供配電系統(tǒng)參數(shù),予以剔除。另因本次研究著眼于系統(tǒng)全局參數(shù),尚未深入進行到對于各個設(shè)備和末端具體工況的分析,故在數(shù)據(jù)量中占比很高的各個設(shè)備的運行參數(shù)此次未進行相關(guān)挖掘。共篩選出604 186條數(shù)據(jù)中心全局控制數(shù)據(jù)用于研究。將以上各個參數(shù)處理后的結(jié)果進行匯總,使得單個時間戳可以對應(yīng)多個參數(shù)在該時間點的運行參數(shù)后,共得到13 193個時間節(jié)點的數(shù)據(jù),其中由于2019年1月18日至2月17日及3月份部分時間制冷裝置的運行啟停狀態(tài)記錄缺失,剔除壞值后,最終共得到7 593個有效時間記錄點數(shù)據(jù)。時間跨度為2019年1月9日00:00至17日00:30、2月18日14:30至3月7日17:30、3月12日14:10至4月10日14:50,包含部分冬季和部分過渡季。每條時間記錄點包含參數(shù)有:1) 室外氣象參數(shù)(室外濕球溫度);2) 功率類參數(shù)(IT設(shè)備有功功率、總有功功率、UPS功率、UPS功率損耗、動力功率、空調(diào)功率、其他功率);3) 空調(diào)系統(tǒng)參數(shù)(送風(fēng)溫度、回風(fēng)溫度、冷水溫度、冷水泵運行臺數(shù)、冷水機組運行臺數(shù)、回風(fēng)濕度、機房精密空調(diào)(CRAC)水閥開度、送回風(fēng)溫差、CRAC蒸發(fā)扇速度)。數(shù)據(jù)篩選及后續(xù)的數(shù)據(jù)挖掘過程均基于Python 3.7進行。
基于數(shù)據(jù)清洗后的數(shù)據(jù)特點的分析,對比分析合適的計算機篩選參數(shù)的算法。用確定的計算機算法和人工篩選2種方法進行數(shù)據(jù)中心能耗預(yù)測的空調(diào)參數(shù)篩選工作,以2種方法得到的空調(diào)系統(tǒng)參數(shù)為輸入?yún)?shù),以PUE為輸出參數(shù),使用XGBoost算法訓(xùn)練數(shù)據(jù)中心能耗預(yù)測模型。
XGBoost是一套提升樹可擴展的機器學(xué)習(xí)系統(tǒng),其原理是基于多個弱分類決策樹聯(lián)合決策,在各數(shù)據(jù)挖掘大賽中有良好表現(xiàn)[15],性能甚至超過了一度應(yīng)用廣泛的神經(jīng)網(wǎng)絡(luò)算法。由于數(shù)據(jù)中心空調(diào)系統(tǒng)的復(fù)雜性,上述得到的空調(diào)系統(tǒng)參數(shù)可能存在共線關(guān)系。引入數(shù)據(jù)挖掘算法進行特征提取旨在通過算法排除耦合性較高的參數(shù),選取有代表性的獨立性參數(shù),同時得到輸入?yún)?shù)對PUE影響的相關(guān)性排序。為此,經(jīng)文獻調(diào)研初步選取了3種算法:嶺回歸、邏輯回歸和Lasso回歸。3種算法的特性比較見表1。
表1 適用回歸方法對比[16]
邏輯回歸算法由于一般應(yīng)用于因變量僅有1或0(是或否)2種情況,所以常用來處理分類問題,不適用于連續(xù)值的擬合計算。嶺回歸和Lasso回歸都可處理多元共線性變量對單變量的擬合問題,但嶺回歸僅會將無關(guān)項的相關(guān)系數(shù)降到較小值,無法徹底消除共線性和排除影響較小的參數(shù)。Lasso回歸方法是一種壓縮估計,它通過構(gòu)造一個懲罰函數(shù)得到一個較為精煉的模型,使得它壓縮一些回歸系數(shù),即強制系數(shù)絕對值之和小于某個固定值。通過這種方法可將與因變量關(guān)系不大的自變量剔除,實現(xiàn)計算機自動篩選,局限性較小,可將無關(guān)項的相關(guān)系數(shù)壓縮為0,從而突出較大影響參數(shù)。綜合以上目標(biāo)和算法特點,引入Lasso回歸進行特征篩選。
通過比較基于以上2種參數(shù)篩選方法得到的XGBoost數(shù)據(jù)中心能耗預(yù)測模型精度,檢驗計算機方法在數(shù)據(jù)中心能耗預(yù)測參數(shù)篩選中的可靠性。通過對計算機參數(shù)篩選方法中輸出的空調(diào)系統(tǒng)參數(shù)對能耗的相關(guān)性排序及XGBoost算法生成的相關(guān)性排序進行比較,對比存在差異的原因,為進一步的研究工作提供參考。
由于數(shù)據(jù)中心已有數(shù)據(jù)記錄系統(tǒng)的限制,未能全部采集所需參數(shù),預(yù)期與實際得到的參數(shù)統(tǒng)計對比見表2。
2.2.1數(shù)據(jù)清洗
實時PUE為總功率與IT功率之比,由PUE定義可知,功率項會對PUE預(yù)測產(chǎn)生很大影響,初步數(shù)據(jù)挖掘也印證了如上觀點,故為排除多余功率項對PUE預(yù)測的干擾,體現(xiàn)空調(diào)系統(tǒng)參數(shù)對PUE的影響,后續(xù)數(shù)據(jù)挖掘中電力系統(tǒng)參數(shù)僅保留IT功率和實時PUE。由于該數(shù)據(jù)中心系統(tǒng)較為復(fù)雜,涉及設(shè)備眾多,本文中的研究尚不涉及各臺設(shè)備的具體工況,而著眼于整個系統(tǒng),因此,各臺設(shè)備的相關(guān)參數(shù)未作為模型訓(xùn)練選用參數(shù)。為了實現(xiàn)用一個參數(shù)體現(xiàn)更多信息的目的,在送風(fēng)溫度、回風(fēng)溫度和送回風(fēng)溫差3個耦合參數(shù)中選取送回風(fēng)溫差,室外氣象參數(shù)選擇濕球溫度進行數(shù)據(jù)挖掘,最終得到進行數(shù)據(jù)挖掘的參數(shù)列項,見表3。
表2 所需參數(shù)與取得參數(shù)的對比
表3 數(shù)據(jù)挖掘參數(shù)列項
2.2.2描述性分析
對數(shù)據(jù)進行描述性分析,了解數(shù)據(jù)的整體情況,借助Python 3.7最終可得到各個參數(shù)的描述性分析結(jié)果,見表4。
表4 數(shù)據(jù)挖掘參數(shù)描述性統(tǒng)計
同時,各參數(shù)的概率密度分布如圖2所示。由圖2可見,部分變量不服從正態(tài)分布,故傳統(tǒng)進行相關(guān)性分析的皮爾遜(Pearson)系數(shù)法不適用。
圖2 輸入?yún)?shù)概率密度分布曲線
經(jīng)過Lasso回歸運算,表3中涉及的輸入?yún)?shù)的Lasso回歸系數(shù)如表5所示。經(jīng)過Lasso回歸篩選后,僅有5項參數(shù)被保留下來。以系數(shù)進行比較,5項參數(shù)對PUE的影響相關(guān)性排序為:回風(fēng)相對濕度>CRAC水閥開度>冷水機組運行臺數(shù)>室外濕球溫度>IT設(shè)備功率。結(jié)合專業(yè)知識,人工選擇特征參數(shù)見表6。
表5 Lasso回歸得到的各參數(shù)回歸系數(shù)
表6 人工篩選XGBoost訓(xùn)練參數(shù)
僅保留Lasso回歸得到的5項參數(shù),使用XGBoost進行PUE訓(xùn)練,最終可得預(yù)測方差為0.000 891 97,相對誤差為0.015 08,方差和相對誤差越小代表模型預(yù)測精度越高。預(yù)測PUE與實測PUE的對比如圖3所示,XGBoost算法得到的參與模型訓(xùn)練的5項參數(shù)的特征重要性如圖4所示。XGBoost是基于多個決策樹聯(lián)合決策的算法,其重要性分?jǐn)?shù)衡量了特征在決策樹構(gòu)建中的價值。被用來構(gòu)建決策樹的某個屬性越多,它的重要性就相對越高。圖4中f0~f4分別代表室外濕球溫度、IT設(shè)備功率、冷水機組運行臺數(shù)、回風(fēng)相對濕度、CRAC水閥開度,即XGBoost算法中得到的上述5項參數(shù)對PUE的影響相關(guān)性排序為:CRAC水閥開度>回風(fēng)相對濕度>IT設(shè)備功率>室外濕球溫度>冷水機組運行臺數(shù)。對比Lasso系數(shù)得到的相關(guān)性排序,二者存在較大差異,且冷水機組運行臺數(shù)在XGBoost訓(xùn)練中的權(quán)重相較其他4項參數(shù)占比很小,Lasso算法特征篩選結(jié)果未達到預(yù)期。
圖3 Lasso算法5項參數(shù)預(yù)測PUE與實測PUE對比
圖4 Lasso算法確定的5項參數(shù)在XGBoost 中輸出的特征重要度
選用如上所述的人工篩選的輸入?yún)?shù)在XGBoost進行PUE訓(xùn)練,最終可得預(yù)測方差為0.000 654 89,相對誤差為0.012 94。人工參數(shù)篩選方法的預(yù)測PUE與實測PUE的對比如圖5所示,XGBoost算法得到的參與模型訓(xùn)練的6項參數(shù)的特征重要度如圖6所示,其中f0~f5分別代表室外濕球溫度、IT設(shè)備功率、送回風(fēng)溫差、冷水機組運行臺數(shù)、回風(fēng)相對濕度、CRAC水閥開度,即XGBoost算法中得到的上述6項參數(shù)對PUE的影響相關(guān)性排序為:CRAC水閥開度>回風(fēng)相對濕度>送回風(fēng)溫差>室外濕球溫度>IT設(shè)備功率>冷水機組運行臺數(shù)。
圖5 人工篩選6項參數(shù)PUE預(yù)測值與實測值對比
圖6 人工篩選6項參數(shù)在XGBoost中輸出的特征重要度
Lasso回歸算法與其對應(yīng)的XGBoost算法得到的輸入?yún)?shù)對PUE的影響排序存在差異的原因可能是算法自身的差異。Lasso回歸得到的系數(shù)仍然是基于線性回歸邏輯生成的,XGBoost算法則是基于多個決策樹聯(lián)合決策形成的非線性模型。且此次使用Python自帶的Lasso回歸算法包為Lasso回歸系列中最基礎(chǔ)的版本,其默認(rèn)每個維度上的特征權(quán)重都有相同的正則化系數(shù),算法自身也存在局限性。尋找更具有代表性的輸入?yún)?shù)篩選算法很有必要。
與完全使用Lasso算法得到的5項參數(shù)訓(xùn)練的XGBoost算法相比,人工篩選的6項參數(shù)訓(xùn)練得到的模型方差更小,精確度更高。但對比Lasso算法得到的5項參數(shù)和人工篩選得到的6項參數(shù)列項,可見2種篩選方法得到的輸入?yún)?shù)非常類似,差別僅存在于送回風(fēng)溫差一項。因此,Lasso回歸得到的XGBoost模型輸入?yún)?shù)仍具有一定的參考意義,在后續(xù)研究中輸入?yún)?shù)較多難以進行人工篩選的情況下,使用Lasso回歸可為輸入?yún)?shù)的確定提供參考,結(jié)合專業(yè)背景知識進行判別可得到較理想的預(yù)測模型訓(xùn)練參數(shù)。
實時PUE定義為數(shù)據(jù)中心總功率與IT功率之比,如式(1)所示:
(1)
式中Pt為數(shù)據(jù)中心總功率,包含IT功率PIT、照明系統(tǒng)功率PL、UPS供配電系統(tǒng)功率PUPS和空調(diào)系統(tǒng)功率PAC。
PL在一定時間內(nèi)變化不大,PIT在服務(wù)器訪問量基本不變的情況下變化極小,PUPS與PIT相關(guān)性較高,PIT基本不變時其也保持基本不變,故這3項在一定時間內(nèi)可作為常量進行處理。設(shè)
(2)
(3)
則式(1)可轉(zhuǎn)化為
PUE=1+α+βPAC
(4)
PAC包含制冷站能耗、輸配系統(tǒng)能耗和末端系統(tǒng)能耗,制冷站能耗又包含冷卻塔能耗∑P′CL、冷卻水泵能耗∑P′CT和冷水機組能耗∑P′C,輸配系統(tǒng)能耗主要包含冷水泵能耗∑P′CW,末端系統(tǒng)能耗包含機房精密空調(diào)能耗∑P′CRAC、除濕機或加濕機能耗∑P′H、新風(fēng)機能耗∑P′MAU。故式(4)可轉(zhuǎn)化為
PUE=1+α+β(∑P′CL+∑P′C+∑P′CT+
∑P′CW+∑P′CRAC+∑P′MAU+∑P′H)
(5)
冷水機組能耗、除濕機或加濕機能耗、新風(fēng)機能耗可根據(jù)設(shè)備COP進行計算,冷卻塔能耗、水泵能耗和精密空調(diào)能耗可根據(jù)風(fēng)機和水泵的相似率進行計算。結(jié)合項目情況,同類型的多組設(shè)備采用完全相同的配置,且各個機組間相互獨立。設(shè)數(shù)據(jù)中心室內(nèi)顯熱負荷為Q,新風(fēng)冷負荷為q,室內(nèi)濕負荷為W,新風(fēng)濕負荷為w,則式(5)可轉(zhuǎn)化為
(6)
式中PCL為冷卻塔額定能耗;VCLi為第i臺冷卻塔的實際流量;VCLr為冷卻塔的額定流量;Qi為第i臺冷水機組承擔(dān)的顯熱負荷;COPC為冷水機組的額定COP;PCT為冷卻水泵的額定能耗;VCTi為第i臺冷卻水泵的實際流量;VCTr為冷卻水泵的額定流量;PCW為冷水泵額定能耗;VCWi為第i臺冷水泵的實際流量;VCWr為冷水泵的額定流量;PCRAC為機房精密空調(diào)的額定能耗;VCRACi為第i臺機房精密空調(diào)的實際送風(fēng)量;VCRACr為機房精密空調(diào)的額定送風(fēng)量;qi為第i臺新風(fēng)機的新風(fēng)冷負荷;wi為第i臺新風(fēng)機的新風(fēng)濕負荷;Wi為第i臺除濕機或加濕機所承擔(dān)的濕負荷;COPH為除濕機或加濕機的額定COP。
由于設(shè)備額定功率和額定流量為定值,故冷卻塔能耗、水泵能耗和精密空調(diào)能耗主要受其實際流量影響。而實際流量與各設(shè)備的供回水、送回風(fēng)溫度密切相關(guān),設(shè)某設(shè)備能耗與其額定流量的三次冪之比為一常數(shù),單臺冷卻塔和冷卻水泵所承擔(dān)的熱負荷為Q′i,單臺冷卻塔單位質(zhì)量流量空氣的全熱交換量為ri,則式(6)可以進一步轉(zhuǎn)化為
(7)
式中γCL為冷卻塔能耗與其額定流量的三次冪之比;γCT為冷卻水泵能耗與其額定流量的三次冪之比;TCTr為冷卻水回水溫度;TCTs為冷卻水供水溫度;γCW為冷水泵能耗與其額定流量的三次冪之比;TCWr為冷水回水溫度;TCWs為冷水供水溫度;γCRAC為機房精密空調(diào)風(fēng)扇能耗與其額定送風(fēng)量的三次冪之比;Tar為機房精密空調(diào)回風(fēng)溫度;Tas為機房精密空調(diào)送風(fēng)溫度。
僅從式(6)、(7)的結(jié)果來看,PUE所受的影響因素較多。在本研究對象中,為實現(xiàn)室內(nèi)溫濕度的精密控制,采用溫濕度獨立控制方式,末端CRAC數(shù)量和濕膜加濕器數(shù)量要遠多于冷水機組、冷卻塔和水泵數(shù)量,故在XGBoost模型訓(xùn)練過程中,與CRAC較為相關(guān)的CRAC水閥開度、送回風(fēng)溫差及與加濕器較為相關(guān)的回風(fēng)濕度這3個參數(shù)在XGBoost模型訓(xùn)練中對PUE的影響相關(guān)性較高。在與制冷站相關(guān)的其他3個參數(shù)中,室外濕球溫度將極大地影響冷卻塔自然冷卻的效果,即會影響其單位質(zhì)量流量空氣的全熱交換量,室外濕球溫度越低,則冷卻塔所需空氣流量越小,冷卻塔風(fēng)機能耗越??;同時,室外濕球溫度越低,自然冷卻可以制得的冷水的溫度越低,冷水機組的出力越小。而IT功率在數(shù)據(jù)采集時間段內(nèi)波動較小,冷水機組運行臺數(shù)在一定時間內(nèi)基本保持不變,且為一離散值,對連續(xù)值的PUE影響不明顯,故這2項在XGBoost得出的PUE影響因素相關(guān)性排序中占比最小。
因此,數(shù)據(jù)挖掘得出的PUE影響因素相關(guān)性排序與式(6)、(7)相一致,數(shù)據(jù)挖掘結(jié)果具有可信度。且由于式(6)、(7)涉及參數(shù)較多,單純使用傳統(tǒng)的敏感性分析方法很難得到較為準(zhǔn)確的PUE影響因素相關(guān)性大小,故可在進一步研究中引入更多的空調(diào)系統(tǒng)參數(shù),使用數(shù)據(jù)挖掘方法分析其對PUE的影響程度。
1) 基于對數(shù)據(jù)的描述性分析可見,數(shù)據(jù)中心的運維實測數(shù)據(jù)并非都遵循正態(tài)分布,不適宜采用傳統(tǒng)的皮爾遜系數(shù)法探究其與PUE的相關(guān)性關(guān)系。
2) Lasso回歸和XGBoost模型訓(xùn)練得到的輸入?yún)?shù)對于PUE的相關(guān)性排序不一致,這可能是由于2種算法的原理不同及Lasso回歸自身的局限性造成的。
3) 人工篩選的6項參數(shù)在XGBoost中進行訓(xùn)練后,得到的PUE預(yù)測模型方差僅為0.000 654 89,與實測PUE吻合度較好,使用XGBoost算法對數(shù)據(jù)中心PUE進行預(yù)測較為可行。
4) Lasso回歸確定的5項輸入?yún)?shù)在XGBoost中的訓(xùn)練精確度不及人工篩選的6項參數(shù)高,但二者基本一致,Lasso回歸在參數(shù)較多時仍可作為排除參數(shù)共線性、確定獨立變量的有效手段。在下一步的研究工作中,可搜尋更可靠的輸入?yún)?shù)篩選方法替代Lasso回歸,從而實現(xiàn)輸入?yún)?shù)的高效篩選,進而提高數(shù)據(jù)挖掘結(jié)果的準(zhǔn)確性。由于當(dāng)前我國數(shù)據(jù)中心基礎(chǔ)數(shù)據(jù)相對不全,本研究所用數(shù)據(jù)尚不能涵蓋全年特性。未來還可在進一步完善數(shù)據(jù)源的基礎(chǔ)上,采用更多數(shù)據(jù)中心全年的更多數(shù)據(jù),沿用上述方法分析,為完善基于數(shù)據(jù)挖掘方法優(yōu)化數(shù)據(jù)中心運行節(jié)能控制策略提供參考。