摘 要:IT設(shè)備是數(shù)據(jù)中心的最大耗電設(shè)施,現(xiàn)有的IT設(shè)備能耗預(yù)測方法一方面僅能獲取特征間的時序依賴關(guān)系,無法挖掘特征間的空間依賴性;另一方面無法根據(jù)任務(wù)的類型,動態(tài)的預(yù)測能耗,導(dǎo)致對IT設(shè)備能耗預(yù)測的不準(zhǔn)確。針對以上問題,提出了一種基于長短時記憶網(wǎng)絡(luò)(long short-term memory network, LSTM)和圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional neural network, GCN)的IT設(shè)備能耗預(yù)測方法,首先使用LSTM捕捉IT設(shè)備能耗特征自身的時序依賴性,然后構(gòu)建圖結(jié)構(gòu),在通過GCN在圖結(jié)構(gòu)上挖掘特征間的空間依賴關(guān)系,并且階段性地捕捉IT設(shè)備的動態(tài)能耗模式,接下來采用注意力模塊根據(jù)特征重要性不同對特征加權(quán)學(xué)習(xí),最終得出能耗預(yù)測結(jié)果。實驗結(jié)果表明,本文提出的能耗預(yù)測模型的平均絕對百分比誤差為1.48%,均方根誤差為1.55,均優(yōu)于現(xiàn)有方法。通過能耗預(yù)測結(jié)果可以有效的對IT設(shè)備進行配置和調(diào)度,實現(xiàn)了數(shù)據(jù)中心的節(jié)能減排。
關(guān)鍵詞:能耗預(yù)測;IT設(shè)備自動配置;長短時記憶網(wǎng)絡(luò);圖卷積網(wǎng)絡(luò)
DOI:10.15938/j.jhust.2024.05.007
中圖分類號: TP316
文獻標(biāo)志碼: A
文章編號: 1007-2683(2024)05-0056-09
IT Equipment Automatic Configuration Method Based on Energy Consumption Prediction
CHEN Xiaojiang1, HUANG Hongcong1, CAI Xuelong1, DING Bo2
(1.China Southern Power Grid Digital Grid Group Information and Telecommunication Technology Co., Ltd., Guangzhou 510663, China;
2.School of Computer Science and Technology, Harbin University of Science and Technology, Harbin 150080, China)
Abstract:IT equipment is the largest electricity consumer in data centers. However, existing IT equipment energy consumption prediction methods can only capture temporal dependencies between features and cannot uncover spatial dependencies between features. Furthermore, these methods cannot dynamically predict energy consumption based on the type of task, which leads to inaccurate predictions. To address these problems, this paper proposes an IT equipment energy consumption prediction method based on Long Short-Term Memory Network (LSTM) and Graph Convolutional Neural Network (GCN). In this method, the LSTM is first used to capture the temporal dependencies of IT equipment energy consumption features. And then a graph structure is constructed and the spatial dependencies between features are uncovered through GCN, and periodically captures the dynamic energy consumption patterns of IT equipment. Next, an attention module is used to weight the features for different importance levels, and the final energy consumption prediction is obtained. Experimental results show that the proposed energy consumption prediction method achieves MAPE of 1.48% and RMSE of 1.55, which are much better than other existing methods. IT equipment can be configured and scheduled based on energy consumption prediction results, which can achieve energy saving and emission reduction in the data center.
Keywords:energy consumption prediction; IT equipment automatic configuration; long short-term memory network; graph convolutional network
0 引 言
隨著智能城市使全世界變得更加互聯(lián),基于云的服務(wù)、物聯(lián)網(wǎng)(IoT)和大數(shù)據(jù)分析等先進技術(shù)的出現(xiàn)促進了全球數(shù)據(jù)中心的增長,滿足不斷增長的計算需求的同時,導(dǎo)致了高能耗。數(shù)據(jù)中心是大規(guī)模、耗能的基礎(chǔ)設(shè)施,數(shù)據(jù)中心能源消耗的激增不僅帶來了成本(運營和維護)飆升的問題,而且還對環(huán)境產(chǎn)生了不利影響[1]。在激烈的云計算市場的競爭和日益受到關(guān)注的環(huán)保壓力中,如何有效地控制和降低數(shù)據(jù)中心的能耗成本以及碳排放已經(jīng)引起工業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。
數(shù)據(jù)中心的主要功耗包括:①數(shù)據(jù)中心的IT設(shè)備(如計算服務(wù)器和存儲)消耗的電力(56%);②基礎(chǔ)設(shè)施的功耗,如冷卻系統(tǒng)(30%),配電/調(diào)節(jié)系統(tǒng)(8%)和照明(1%);③網(wǎng)絡(luò)消耗的電力(5%)[2]。其中,IT設(shè)備在數(shù)據(jù)中心的能耗占比最大。IT設(shè)備主要指的就是服務(wù)器,運行在數(shù)據(jù)中心內(nèi)的服務(wù)器若不采取合理的管理模式和調(diào)度策略,會導(dǎo)致大量服務(wù)器空閑或服務(wù)器過載,影響系統(tǒng)的穩(wěn)定性和性能。這不僅造成大量功率浪費,也不利于服務(wù)器維護和提高服務(wù)質(zhì)量。為了提高資源利用率和降低數(shù)據(jù)中心服務(wù)器的能耗,對IT設(shè)備進行有效的能耗預(yù)測和資源分配,提高IT設(shè)備的利用率至關(guān)重要[3]。
目前大多已有工作是基于人工智能方法預(yù)測數(shù)據(jù)中心的能耗,然而影響數(shù)據(jù)中心能耗的因素極其復(fù)雜。首先,現(xiàn)有的能耗預(yù)測模型只能提取能耗數(shù)據(jù)的時序性特征,難以充分挖掘數(shù)據(jù)間的空間依賴性,導(dǎo)致能耗預(yù)測誤差較大。再者由于服務(wù)器上運行著不同類型的任務(wù),因此服務(wù)器的能耗模式會隨著任務(wù)不同而發(fā)生變化。然而現(xiàn)有模型都是針對特定任務(wù)或數(shù)據(jù)集進行靜態(tài)的建模預(yù)測,顯然無法很好地捕捉服務(wù)器的動態(tài)能耗模式,一旦能耗模式發(fā)生變化,那么模型的預(yù)測效果就會迅速下降。
針對上述問題,本文從實際場景出發(fā),提出了一種基于基于長短時記憶網(wǎng)絡(luò)(long short-term memory network, LSTM)和圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional neural network, GCN)的IT設(shè)備能耗預(yù)測方法,該方法首先使用LSTM獲取IT設(shè)備能耗特征間的時序依賴性;然后構(gòu)建圖結(jié)構(gòu),形成關(guān)鍵特征有向圖,在圖結(jié)構(gòu)上挖掘特征間的空間依賴關(guān)系,作為圖卷積模塊的輸入。同時,階段性地捕捉服務(wù)器的動態(tài)能耗模式;接下來采用注意力模塊根據(jù)特征重要性不同對特征加權(quán)學(xué)習(xí),最后得出能耗預(yù)測結(jié)果。本文提出的方法可充分利用隨時間推移與數(shù)據(jù)中心能耗相關(guān)的歷史數(shù)據(jù)中的有效信息來預(yù)測數(shù)據(jù)中心的能耗。
數(shù)據(jù)中心的能耗預(yù)測可以更好地控制和調(diào)度IT設(shè)備。通過實時監(jiān)測數(shù)據(jù)中心能耗和IT設(shè)備的負(fù)載情況,能夠預(yù)測未來一段時間內(nèi)數(shù)據(jù)中心的能耗趨勢和IT設(shè)備的負(fù)載情況,從而制定相應(yīng)的能耗調(diào)度策略和IT設(shè)備的調(diào)度計劃。結(jié)合模型給出的能耗預(yù)測結(jié)果,我們可以調(diào)節(jié)電壓頻率、服務(wù)器的休眠和喚醒、負(fù)載均衡以及合理的溫濕度來進行電力優(yōu)化,以最大程度降低能耗。能耗預(yù)測可以實現(xiàn)提高能源利用效率、優(yōu)化能源管理、降低能源成本的目的,不僅節(jié)省了企業(yè)成本,又響應(yīng)國家綠色低碳的能源使用策略,降低我國碳排放量。
1 相關(guān)工作
IT設(shè)備在數(shù)據(jù)中心的能耗占比最大。IT設(shè)備的作用是在數(shù)據(jù)中心系統(tǒng)運行過程中進行業(yè)務(wù)處理,IT設(shè)備大部分能耗是由物理服務(wù)器產(chǎn)生的。服務(wù)器的各個子系統(tǒng)包括 CPU、GPU、內(nèi)存和磁盤等[4]。對IT設(shè)備進行精準(zhǔn)的能耗預(yù)測,并將結(jié)果反饋給任務(wù)調(diào)度器,可以有效提高IT設(shè)備的提效降耗。
目前主流的能耗預(yù)測方法將能耗視為時間序列數(shù)據(jù),采用建立時間序列模型的方法進行能耗預(yù)測[5]。時間序列預(yù)測方法主要有統(tǒng)計學(xué)方法[6-7]和基于機器學(xué)習(xí)的方法[8]。基于統(tǒng)計學(xué)方法的模型通常,用于平穩(wěn)序列或周期性較強的數(shù)據(jù)。機器學(xué)習(xí)方法是構(gòu)建神經(jīng)網(wǎng)絡(luò)模型對時間序列進行預(yù)測。典型的序列模型如循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[9-10]、長短時記憶網(wǎng)絡(luò)(long short-term memory network,LSTM)[11]和門控循環(huán)單元網(wǎng)絡(luò)(gated recurrent unit network,GRU)[12]。RNN會出現(xiàn)梯度消失和梯度爆炸的問題。LSTM在RNN的基礎(chǔ)上增加了記憶單元,使得模型能夠?qū)v史節(jié)點的信息保存并隨時間變化向后傳遞,從而解決時間序列的“長期記憶”問題。
IT設(shè)備主要指的就是服務(wù)器,針對服務(wù)器能耗預(yù)測問題,Li等[13]提出了兩種基于深度學(xué)習(xí)的預(yù)測模型,分為細(xì)粒度模型和粗粒度模型,在細(xì)粒度模型中采用AE進行短時預(yù)測,在粗粒度模型中使用AE對海量細(xì)粒度歷史數(shù)據(jù)進行編碼,作為長期預(yù)測的數(shù)據(jù)預(yù)處理。Bai等[14]深入對比了CNN和RNN模型在序列建模任務(wù)上的性能,并提出了能捕捉更長歷史模式的TCN模型。Gonzalez等[15]將多元回歸模型和LSTM混合模型相結(jié)合進行殘差預(yù)測。Galicia等[16-17]基于Spark框架和決策樹提出了一種針對多元時間序列的建模流程。Foo等[18]通過靈敏分析的機器學(xué)習(xí)方法,確定了影響云數(shù)據(jù)中心能耗的關(guān)鍵因素。Li等[19]提出了一種多元線性回歸與 LSTM混合的預(yù)測模型,并通過真實電力負(fù)荷數(shù)據(jù)的測試對比,結(jié)果表明所提方法的精度最高。
2 本文方法
2.1 總體框架
本文提出了一種基于能耗預(yù)測的IT設(shè)備自動配置方法,該方法通過有效預(yù)測IT設(shè)備的能耗,達到為IT設(shè)備合理分配任務(wù)的目的。通過合理的IT設(shè)備配置,進一步降低數(shù)據(jù)中心的能量,實現(xiàn)節(jié)能減排。整體流程如圖1所示。
研究發(fā)現(xiàn),提供計算服務(wù)的服務(wù)器中約15%的服務(wù)器處于空閑狀態(tài),而處于忙碌狀態(tài)的服務(wù)器中約75%的CPU使用率不足20%,但這些服務(wù)器卻占據(jù)了數(shù)據(jù)中心用電量的43%。因此,提高服務(wù)器的能源效率、是降低IT設(shè)備的能源消耗的首要問題。
本文提出了一種基于LSTM和GCN相結(jié)合的IT能耗預(yù)測方法,該方法由LSTM模塊、圖卷積模塊、注意力模型三部分組成,如圖2所示。本文方法首先通過LSTM捕捉服務(wù)器能耗特征自身的時序依賴性,然后構(gòu)建圖結(jié)構(gòu),在圖結(jié)構(gòu)上挖掘特征間的空間依賴關(guān)系。同時,本文將負(fù)載任務(wù)分為CPU 密集型、I/O 密集型、WEB 事務(wù)型三種類型,通過圖卷積捕捉IT設(shè)備的動態(tài)能耗模式。接下來采用注意力模塊根據(jù)特征重要性不同對特征加權(quán)學(xué)習(xí),最終得出能耗預(yù)測結(jié)果。本文提出的方法在不同類型的負(fù)載任務(wù)均具有較高的能耗預(yù)測精度。
2.2 LSTM
IT設(shè)備能耗數(shù)據(jù)集包含CPU使用率、內(nèi)存使用率,磁盤讀寫速度等上百個特征。能耗預(yù)測就是根據(jù)這些性能指標(biāo)來預(yù)測服務(wù)器未來一段時間內(nèi)的平均能耗,其本質(zhì)上歸屬于多元時間序列預(yù)測問題。因此,本文采用LSTM提取這些特征間的時序信息,獲取具有時序信息的動態(tài)時序特征。圖3是 LSTM單元結(jié)構(gòu)圖,一個 LSTM單元包含遺忘門、輸入門和輸出門,其中ft、it、ot分別為輸入門、遺忘門、輸出門。
遺忘門的作用是選擇對前一狀態(tài)中的某些信息進行遺棄。
ft=σ(Wf·[ht-1,xt]+bf)(1)
其中:xt為當(dāng)前單元的輸入;ht-1為上一單元的輸出;Wf和bf分別為對應(yīng)的權(quán)重系數(shù)矩陣和偏置項;σ為激活函數(shù)。
輸入門的作用是讓輸入有選擇性的被記憶下來,確定哪些新信息需要被保存到單元狀態(tài)中。
it=σ(Wi·[ht-1,xt]+bi)(2)
C~t=σ(WC·[ht-1,xt]+bC)(3)
Ct=σ(ftCt-1+itC~t)(4)
其中:C~表示新的候選信息;Ct為新的單元狀態(tài)。
輸出門的作用是選擇輸出信息。
ot=σ(Wo[ht-1,xt]+bo)(5)
ht=ottanh(Ct)(6)
在本文提出的能耗預(yù)測模型中,在任意時刻t,輸入序列為{x11,x12,…,x1m,x21…,xn1,…},其中,m為特征個數(shù),n為服務(wù)器個數(shù)。本文采用兩個LSTM層,前一層LSTM輸出的隱藏狀態(tài)信息將作為后一層LSTM層的輸入,相比單層的LSTM,這種方式能夠提取到更復(fù)雜的時間相關(guān)信息,以便對IT設(shè)備的能耗進行更準(zhǔn)確的預(yù)測。
2.3 圖卷積模塊
學(xué)習(xí)特征間的時序信息和空間信息對于能耗預(yù)測有著十分重要的作用。本文使用LSTM對時序信息進行學(xué)習(xí),但LSTM無法學(xué)習(xí)到特征的空間信息。例如在CPU密集型任務(wù)中,服務(wù)器產(chǎn)生的能耗很大一部分來自于高速運轉(zhuǎn)的CPU,線性時序關(guān)系只能捕捉CPU使用率和服務(wù)器能耗間的數(shù)量關(guān)系,而無法確定CPU使用率和內(nèi)存間的因果關(guān)系,也就是說,空間關(guān)系可以捕捉和CPU使用率相關(guān)的所有特征。為了彌補這一問題,本文使用GCN在空間上對特征進行建模,每一個特征對應(yīng)于一個圖節(jié)點,通過鄰居節(jié)點的信息傳遞獲取特征的三維空間信息。同時,本文將負(fù)載任務(wù)分為CPU 密集型、I/O 密集型、WEB 事務(wù)型三種類型,通過圖卷積捕捉IT設(shè)備的動態(tài)能耗模式。由于本文采用LSTM模塊和圖卷積模塊分別學(xué)習(xí)了特征的一維時序信息和三維空間信息,并且可以動態(tài)捕捉IT設(shè)備的能耗模式,因此本文提出的方法保證了在不同任務(wù)類型中,均可以有效提升能耗預(yù)測的精度。
本文的圖結(jié)構(gòu)G=(V,E),將預(yù)先設(shè)置好的能耗特征作為圖結(jié)構(gòu)中頂點的集合V,特征間的空間距離作為邊的集合E,表達式如下所示:
V={vi|i∈{1,2,…,m}}(7)
E={eij|i,j∈{1,2,…,m}}(8)
eij=dis(vi,vj)," i,j∈{1,2,…,m}(9)
其中:vi為第i個頂點所對應(yīng)特征的坐標(biāo);eij為頂點間的邊;dis (·)表示歐氏距離。根據(jù)頂點間的邊eij找到每個頂點的相鄰頂點,表示為鄰接矩陣A,表達式如下:
A=ψ(mindis(vi,vj);θl),i,j∈{1,2,…,m}(10)
其中:ψ (·)表示對數(shù)據(jù)進行索引后通過線性運算得到鄰接矩陣A;θl為線性運算的參數(shù)。
具體來說,圖卷積中頂點V對應(yīng)于時序特征{x11,x12,…,x1m,x21…,xn1,…}。各個頂點之間的關(guān)系組成一個m×m的鄰接矩陣A,L=D-A表示圖上的拉普拉斯矩陣,其中D為度矩陣,歸一化后的拉普拉斯矩陣定義為L=In-D12AD-12,其中In∈Rm×m為單位矩陣,為規(guī)范化的鄰接矩陣,GCN層與層之間的關(guān)系式如下:
Hl+1=σ(D12AD-12HlWlg)(11)
其中:Hl為l層頂點的特征;Wlg為l層的權(quán)重矩陣;σ (·)為激活函數(shù)。
本文使用兩層圖卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,將時序特征{x11,x12,…,x1m,x21…,xn1,…}作為特征矩陣,通過兩層GCN得到輸出{y11,y12,…,y1m,y21…,yn1,…},其中,m為特征個數(shù),n為服務(wù)器個數(shù),表達式如下:
ynm=fgcn(A,xnm)=σ(Aσ(AxnmW0g)W1g)(12)
其中:Wg為GCN的參數(shù)矩陣;σ(·)為激活函數(shù);fgcn(·)為兩層GCN運算。
2.4 注意力模塊
上述模塊聚合了能耗特征的動態(tài)時序和空間位置信息。然而不同特征對于能耗預(yù)測的重要性是不同的。因此,本文引入注意力模塊,根據(jù)重要性不同對特征加權(quán)學(xué)習(xí),對于能耗預(yù)測更具辨識力的特征賦予更高的權(quán)重。
注意力模塊由多頭自注意力和多層感知器(multilayer perceptron,MLP)構(gòu)成,以動態(tài)時序特征{x11,x12,…,x1m,x21…,xn1,…}作為輸入,輸入到多頭注意力塊中執(zhí)行并行運算,輸出值連接后通過MLP得到最終值,完成多頭注意力運算,表達式如下所示:
MultiHead(xnm)=φ(Concat(head1,…,head4),θq)(13)
wm=softmax(MultiHead(xnm))(14)
其中:MultiHead(·)為多頭注意力運算;Concat(·)為連接運算;φ(·)為MLP運算;θq為運算參數(shù);Attention(·)為注意力運算;headp為第p頭的注意力運算;wm為權(quán)重序列。多頭注意力允許模型關(guān)注來自不同特征維度的全局信息,而并行運算有效的提高了實驗效率和準(zhǔn)確率,本文設(shè)置頭數(shù)為4。
將注意力模塊獲取的注意力權(quán)重wi,i∈{1,2,…,m}和圖卷積網(wǎng)絡(luò)模塊提取的特征{y11,y12,…,y1m,y21…,yn1,…}進行加權(quán)運算后輸入到池化層,池化后得到最終的特征描述符Ffinal,表達式如下:
Ffinal=max(ynmwm)(15)
將Ffinal輸入到全連接層(fully connected layer,F(xiàn)C)中完成能耗預(yù)測。
2.5 基于能耗預(yù)測的IT設(shè)備自動配置
IT設(shè)備能耗主要由CPU和GPU組成,CPU和GPU的利用率占與能耗存在著線性關(guān)系,利用率越高則能耗越高。當(dāng)硬件資源空閑或者負(fù)載較低時,將其設(shè)置為休眠或低功耗狀態(tài),以達到節(jié)省能耗的目的。當(dāng)有新任務(wù)到達時,再將其喚醒。同時,研究表明數(shù)據(jù)中心的能耗與每個服務(wù)器的完成時間基本呈線性關(guān)系。任務(wù)總的執(zhí)行時間即每臺服務(wù)器執(zhí)行任務(wù)所需的時間之和,如式(16)所示:
Ts=∑ni=1Ti(16)
其中:Ts為系統(tǒng)執(zhí)行任務(wù)的總時間;Ti為第i臺服務(wù)器執(zhí)行任務(wù)的時間。
本文的功耗預(yù)測模型能夠有效預(yù)測當(dāng)前服務(wù)器的能耗,P(u)為能耗預(yù)測結(jié)果。由于硬件資源利用率時隨著時間不斷變化,那么在一段時間內(nèi)的IT設(shè)備能耗即可用P(u)在這段時間的積分表示,如式(17)所示:
E=∫T2T1P(u)dT(17)
其中:u為服務(wù)器的資源利用率,作為功耗預(yù)測模型的輸入。
綜上,IT設(shè)備消耗的總能耗,如式(18)所示:
E=P(u)Ts(18)
其中:E為單臺IT設(shè)備在一段時間內(nèi)消耗的總能耗;Ts為IT設(shè)備運行的總時長;P為IT設(shè)備的功率。
在IT設(shè)備配置過程中需要同時關(guān)注數(shù)據(jù)中心能耗和完成時間,因此任務(wù)調(diào)度的目標(biāo)函數(shù)為min(E)。
3 實驗結(jié)果與分析
3.1 數(shù)據(jù)集
本文構(gòu)建仿真平臺,收集與IT設(shè)備能耗相關(guān)的數(shù)據(jù)。仿真平臺主要包括3臺被測服務(wù)器、1個記錄設(shè)備、1個智能電表和電源。智能電表與被測試服務(wù)器連接。智能電表的主要功能是獲取測試服務(wù)器的能耗數(shù)據(jù)和負(fù)載特征數(shù)據(jù),并通過記錄設(shè)備保存數(shù)據(jù)。電源給智能電表供電。本文采用監(jiān)控軟件Zabbix對服務(wù)器的工作狀態(tài)進行監(jiān)控,實時采集CPU、內(nèi)存和GPU等與能耗相關(guān)的數(shù)據(jù)。同時,Zabbix 支持二次定制開發(fā),以監(jiān)視其他所需的性能參數(shù)。
文本自定義能耗采集頻率均為1min,共采集CPU 密集型、I/O 密集型和WEB 事務(wù)型三種類型的負(fù)載數(shù)據(jù),統(tǒng)計信息如表1所示。其中,SPEC是使用SPEC CPU 2006模擬CPU密集型任務(wù)得到的數(shù)據(jù)集,WC98是wc98模擬I/O密集型任務(wù)得到的數(shù)據(jù)集,Loader是LoaderRunner模擬Web事務(wù)型任務(wù)得到的數(shù)據(jù)集,以此模擬數(shù)據(jù)中心內(nèi)服務(wù)器的運行狀態(tài)。IT設(shè)備能耗數(shù)據(jù)集包含CPU使用率、內(nèi)存使用率,磁盤讀寫速度等上百個特征,本文采用因果特征選擇算法Hiton-PC[20]進行特征分析,挑選出110個關(guān)鍵特征,部分特征的命名方式及物理意義如表2所示。
本文對采樣得到的與服務(wù)器的相關(guān)數(shù)據(jù)進行歸一化處理,計算如下:
x′=x-xminxmax-xmin(19)
其中:x′為標(biāo)準(zhǔn)化后的值;x為原始數(shù)據(jù);xmin為原始數(shù)據(jù)中的最小值;xmax為原始數(shù)據(jù)中的最大值。
3.2 實驗參數(shù)設(shè)置
本文首先采用LSTM提取IT設(shè)備能耗數(shù)據(jù)的特征,LSTM的層數(shù)為2。然后將含有時序信息的特征分別輸入到圖卷積網(wǎng)絡(luò)和多頭自注意力網(wǎng)絡(luò),其中圖卷積神經(jīng)網(wǎng)絡(luò)的層數(shù)為2,多頭自注意力的頭數(shù)Heads為4,注意力模塊層數(shù)為8。最后將兩部分的輸出進行加權(quán)運算得到最終的能耗預(yù)測結(jié)果。本文提出的端到端能耗預(yù)測網(wǎng)絡(luò)使用Adam優(yōu)化器進行訓(xùn)練,其中網(wǎng)絡(luò)的初始學(xué)習(xí)率為10-2,每10次迭代學(xué)習(xí)率降低一半。在第15次迭代的時候?qū)W(xué)習(xí)率改為10-3,衰減率為10-3,動量為0.9。
本文首先將采集到的關(guān)鍵能耗特征數(shù)據(jù)進行歸一化處理,然后將數(shù)據(jù)集按照70%、30%劃分為訓(xùn)練集和測試集,對訓(xùn)練集進行參數(shù)搜索和建模,對測試集進行結(jié)果預(yù)測以檢驗?zāi)P托阅堋?/p>
3.3 與其它能耗模型對比
本文的模型性能評價指標(biāo)采用平均絕對百分比誤差(MAPE)、均方根誤差(RMSE)和決定系數(shù)(R2)。其中,MAPE描述了誤差值的相對大小。RMSE反映了真實值與預(yù)測值的誤差大小。R2的值越大模型性能越好。MAPE、 RMSE、R2的計算公式如下:
MAPE=1n∑ni=1i-yiyi(20)
RMSE=1n∑ni=1|i-yi|(21)
R2=1-∑ni=1(i-yi)2∑ni=1(yi-i)2(22)
其中:n為樣本點數(shù)目;為樣本均值;i、yi表示預(yù)測值與實際值。
為了評估本文提出方法的可行性和有效性,在相同的實驗環(huán)境和數(shù)據(jù)集上,將本文提出的能耗模型與CMP[21]、FSDL[22]、ENN-PM [23]、ECMS[24]和RGS[8]進行比較分析,結(jié)果如圖4和圖5所示。
可以看出,本文提出的能耗預(yù)測模型在CPU密集、I/O密集型和WEB事務(wù)型數(shù)據(jù)集上均取得了最優(yōu)的預(yù)測效果。本文提出的模型在CPU密集、I/O密集型和WEB事務(wù)型數(shù)據(jù)集上,MAPE分別為2.30%、1.22%和0.91%,RMSE分別為2.15、0.89和1.60。與RGS 能耗模型相比,本文方法的MAPE 平均降低0.63%, RMSE 平均降低了0.59。這是因為本文的能耗模型不僅可以提取IT能耗特征間的時序關(guān)系,還能提取它們之間的空間關(guān)系,并且適用于不同類型的任務(wù),因此本文所提出的能耗模型具有更高的預(yù)測精度。
3.4 消融實驗
本文提出的基于LSTM和GCN的IT設(shè)備能耗預(yù)測模型由3個模塊構(gòu)成,分別為:LSTM模塊、GCN模塊、注意力模塊。為驗證這些模塊在提升模型性能上的有效性,本文在保證其他條件不變的情況下進行消融實驗,實驗結(jié)果如表3所示。從表3中可以看出,當(dāng)能耗預(yù)測模型包含所有模塊時,達到了最好的效果。當(dāng)能耗預(yù)測模型僅包含LSTM模塊時,在SPEC、WC98和Loader這3個數(shù)據(jù)集上的MAPE的值分別是3.31%、2.86%和2.21%。當(dāng)增加了GCN模塊后,MAPE分別下降了0.65%、0.89%和0.84%,說明GCN模塊可以有效的提取能耗特征間的空間關(guān)系,進而提升了能耗預(yù)測的精度。本文方法在LSTM模塊和GCN模塊的基礎(chǔ)上,又增加了自注意力模塊,MAPE分別下降了0.36%、0.75%和0.46%。本文提出的方法,在3個數(shù)據(jù)集上的平均MAPE為1.48%。同時,隨著模塊的增加,在SPEC、WC98和Loader 3個數(shù)據(jù)集上的RMSE的值不斷降低,R2的值不斷提高,在3個數(shù)據(jù)集上的平均RMSE為1.55,平均R2為0.96,證明了本文方法的有效性。同時,可以看出GCN模塊對能耗預(yù)測效果提升最為明顯,說明提取能耗特征間的空間關(guān)系對能耗預(yù)測至關(guān)重要。
3.5 IT設(shè)備配置
在本文構(gòu)建的仿真平臺中,對三臺服務(wù)器一天的實際能耗進行測量,并使用本文的網(wǎng)絡(luò)結(jié)構(gòu)進行能耗預(yù)測,在實際的能耗中三臺服務(wù)器在24小時的總能耗分別為:85千瓦時、88千瓦時、86千瓦時。在使用本文網(wǎng)絡(luò)模型預(yù)測服務(wù)器能耗變化后,采取優(yōu)化機房溫度,通過控制空調(diào)系統(tǒng),將機房的溫度保持在最適宜的范圍內(nèi),平均每臺服務(wù)器每天能減少1.8千瓦時的能耗。啟用電源管理,通過電源管理軟件或硬件,可以將空閑服務(wù)器的電源關(guān)閉或進入低功耗模式,平均每臺服務(wù)器每天能減少2.9千瓦時的能耗。優(yōu)化負(fù)載均衡:將用戶請求或應(yīng)用程序負(fù)載均衡分布到多個服務(wù)器或虛擬機上,以確保各服務(wù)器或虛擬機的負(fù)載相對均衡,并充分利用西部地區(qū)風(fēng)力發(fā)電的特點,合理安排數(shù)據(jù)中心的算力和負(fù)載分布,提高系統(tǒng)性能和可用性。將服務(wù)器的負(fù)載均衡優(yōu)化到最佳狀態(tài),可以避免服務(wù)器出現(xiàn)過度使用或空閑浪費的情況,平均每臺服務(wù)器每天能減少3.5千瓦時能耗。在采用以上方法進行能耗預(yù)測后,在本文仿真環(huán)境下,每天可以節(jié)約24.6千瓦時能耗,一年可節(jié)約8979千瓦時能耗。
4 結(jié) 論
隨著數(shù)據(jù)中心數(shù)量和規(guī)模的不斷增加,導(dǎo)致數(shù)據(jù)中心的能耗大幅增長,造成了一系列經(jīng)濟和環(huán)境問題。本文提出了一種基于LSTM和GCN的IT設(shè)備能耗預(yù)測方法,該方法不僅能夠提取IT設(shè)備能耗特征間的時序關(guān)系,還能夠挖掘特征間的空間依賴關(guān)系,并且階段性地捕捉IT設(shè)備的動態(tài)能耗模式,因此使IT設(shè)備能耗預(yù)測的精度大幅度提高。通過該方法可以對數(shù)據(jù)中心的能耗進行有效預(yù)測,輔助數(shù)據(jù)中心基于能耗實施調(diào)度策略,緩解了巨大的能耗問題,為數(shù)據(jù)中心節(jié)能提供了有利思路。
參 考 文 獻:
[1] ISMAIL L, MATERWALA H. Computing Server Power Modeling in a Data Center: Survey, Taxonomy, and Performance Evaluation[J]. ACM Computing Surveys (CSUR), 2020, 53(3): 1.
[2] ZHENG Kuangyu, WANG Xiaodong, LI Li,et al. Joint Power Optimization of Data Center Network and Servers with Correlation Analysis[C]// In IEEE INFOCOM 2014-IEEE Conference on Computer Communications. IEEE, 2024: 2598.
[3] ZHOU R, SHI Y, ZHU C. Axpue: Application Level Metrics for Power Usage Effectiveness in Data Centers[C]//2013 IEEE International Conference on Big Data, 2013: 110.
[4] 周清, 張諝晟, 沈子鈺, 等. 數(shù)據(jù)中心內(nèi)服務(wù)器能耗數(shù)據(jù)采集及特征分析[J].數(shù)據(jù)采集與處理, 2021, 36(5): 986.
ZHOU Qing, ZHANG Xusheng, SHEN Ziyu, et al. Data Collection and Feature Analysis of Server Energy Consumption in Data Center[J]. Journal of Data Acquisition and Processing, 2021, 36(5): 986.
[5] LI Y, HU H, WEN Y, et al. Learning-based Power Prediction for Data Centre Operations Via Deep Neural Networks[C]// Proceedings of the 5th International Workshop on Energy Efficient Data Centres,2016: 1.
[6] TAYLOR S J, LETHAM B. Forecasting at Scale[J]. The American Statistician,2018, 72(1): 37.
[7] BARAK S, SADEGH S S. Forecasting Energy Consumption Using Ensemble ARI-MA-ANFIS Hybrid Algorithm[J]. International Journal of Electrical Power amp; Energy Systems, 2016, 82: 92.
[8] 盧洪明, 劉先鋒, 周舟, 等 . 機器學(xué)習(xí)方法的云數(shù)據(jù)中心能耗模型研究[J]. 小型微型計算機系統(tǒng), 2022: 1.
LU Hongming, LIU Xianfeng, ZHOU Zhou, et al. Research on Energy Consumption Model of Cloud Data Center Based on a Machine Learning Method[J]. Journal of Chinese Computer Systems, 2022: 1.
[9] NUGALIYADDE A, SOMARATNE U, WONG K W. Predicting Electricity Consumption Using Deep Recurrent Neural Networks[J]. arXiv Preprint arXiv: 1909.08182, 2019.
[10]SUHAGIYA J, RAVAL D, PANDEY S V, et al. Recurrent Neural Based Electricity Load Forecasting of G-20 Members[J]. arXiv Preprint arXiv: 2010. 12934, 2020.
[11]KARIM F, MAJUMDAR S, DARABI H, et al. LSTM Fully Convolutional Networks for Time Series Classification[J]. IEEE Access, 2017, 6: 1662.
[12]REZAEI N, RAJABI R, ESTEBSARI A. Electricity Price Forecasting Model Based on Gated Recurrent Units[C]//2022 IEEE International Conference on Environment and Electrical Engineering and 2022 IEEE Industrial and Commercial Power Systems Europe, 2022:1.
[13]LI Y, HU H, WEN Y, et al. Learning-based Power Prediction for Data Centre Operations Via Deep Neural Networks[C]//Proceedings of the 5th International Workshop on Energy Efficient Data Centres, 2016: 1.
[14]BAI S, KOLTER J Z, KOLTUN V. An Empirical Evaluation of Generic Convoluteional and Recurrent Networks for Sequence Modeling[J]. arXiv Preprint arXiv: 1803.01271, 2018.
[15]GONZALEZ Grandon T, SCHWENZER J, STEENS T, et al. Electricity Demand Forecasting with Hybrid Statistical and Machine Learning Algorithms: Case Study of Ukraine[J]. arXiv eprints arXiv: 2304. 05174, 2023.
[16]GALICIA A, TORRES J F, MARTNEZLVAREZ F, et al. A Novel Spark-based Multistep Forecasting Algorithm for Big Data Time Series[J]. Information Sciences, 2018, 467: 800.
[17]GALICIA A, TALAVERA-LLAMES R, TRONCOSO A, et al. Multistep Forecasting for Big Data Time Series Based on Ensemble Learning[J]. Knowledge-Based Systems, 2019, 163: 830.
[18]FOO Y W, GOH C, LI Y. Machine Learning with Sensitivity Analysis to Determine Key Factors Contributing to Energy Consumption in Cloud Data Centers[C]// 2016 International Conference on Cloud Computing Research and Innovations (ICCCRI). IEEE,2016: 107.
[19]LI J, DENG D Y, ZHAO J B, et al. A Novel Hybrid Short-Term Load Forecasting Method of Smart Grid Using MLR and LSTM Neural Network[J]. IEEE Transactions on Industrial Informatics, 2021, 17(4): 2443.
[20]ALIFERIS C F, TSAMARDINOS I, STANIKOV A. HITON:a Novel Markov Blanket Algorithm for Optimal Variable Selection[C]// AMIA Annual Symposium Proceedings. American Medical Informatics Association, 2003: 21.
[21]YU Junyang, HU Zhizhang, ZHOU Zhou, et al. A Cmp Energy Consumption Estimate Model for Computer Systems[J]. Journal of Computer Research and Development, 2015, 44(3): 422.
[22]LIANG Y, HU Z, LI K. Power Consumption Model Based on Feature Selection and Deep Learning in Cloud Computing Scenarios[J].IET Communications, 2020,14(10):1610.
[23]LIN W, WU G, WANG X, et al. An Artificial Neural Network Approach to Power Consumption Model Construction for Servers in Cloud Data Centers[J]. IEEE Transactions on Sustainable Computing, 2019, 5(3): 329.
[24]ZHOU Z, SHOJAFAR M, LU Hongming, et al. ECMS: An Edge Intelligent Energy Efficient Model in Mobile Edge Computing[J]. IEEE Transactions on Green Communications and Networking, 2022, 6(1): 238.
(編輯:溫澤宇)
基金項目: 南方電網(wǎng)公司2021年資源池建設(shè)項目(JY-JF-03-ZY-21-006-TQ-011);國家自然科學(xué)基金面上項目(61673142).
作者簡介:"陳曉江(1992—),男,高級工程師;
黃宏聰(1987—),男,碩士,高級工程師.
通信作者:"蔡學(xué)龍(1991—),男,高級工程師,E-mail:caixl@csg.cn.