• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心能耗優(yōu)化調(diào)度策略研究

    2024-12-18 00:00:00楊鷗羿
    無線互聯(lián)科技 2024年23期
    關(guān)鍵詞:強(qiáng)化學(xué)習(xí)數(shù)據(jù)中心

    摘要:隨著云計(jì)算的飛速發(fā)展,數(shù)據(jù)中心能耗問題日益突出,亟須探索更加智能高效的節(jié)能優(yōu)化新方法。文章分析了數(shù)據(jù)中心的能耗問題,闡述了強(qiáng)化學(xué)習(xí)技術(shù)在數(shù)據(jù)中心能耗調(diào)度中的應(yīng)用潛力,構(gòu)建了一個(gè)涵蓋服務(wù)器、制冷等關(guān)鍵設(shè)施的數(shù)據(jù)中心系統(tǒng)模型并基于該模型搭建了一個(gè)精細(xì)化的數(shù)據(jù)中心能耗評估框架,將調(diào)度問題形式化為一個(gè)馬爾可夫決策過程,設(shè)計(jì)了一種融合圖神經(jīng)網(wǎng)絡(luò)與長短期記憶網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)算法,最后搭建了仿真平臺(tái)驗(yàn)證所提出策略的有效性。

    關(guān)鍵詞:數(shù)據(jù)中心;能耗優(yōu)化;強(qiáng)化學(xué)習(xí);調(diào)度策略

    中圖分類號:TP39""文獻(xiàn)標(biāo)志碼:A

    0"引言

    高額的電力成本不僅增加了數(shù)據(jù)中心運(yùn)營開支,也帶來了巨大的碳排放,引發(fā)了環(huán)境可持續(xù)發(fā)展的隱憂。因此,如何在保障數(shù)據(jù)中心服務(wù)質(zhì)量的同時(shí)最小化其能源消耗,已成為學(xué)術(shù)界和工業(yè)界共同關(guān)注的研究課題。近年來,強(qiáng)化學(xué)習(xí)以其從環(huán)境反饋中自主學(xué)習(xí)最優(yōu)控制策略的能力,在眾多序貫決策問題上取得了豐富進(jìn)展。本文針對數(shù)據(jù)中心能耗優(yōu)化這一挑戰(zhàn),基于一種多技術(shù)融合驅(qū)動(dòng)的深度強(qiáng)化學(xué)習(xí)調(diào)度架構(gòu),提出了創(chuàng)新的強(qiáng)化學(xué)習(xí)驅(qū)動(dòng)的閉環(huán)自優(yōu)化調(diào)度方法,為算法評測提供了穩(wěn)定的實(shí)驗(yàn)環(huán)境,亦期望所構(gòu)建的端到端閉環(huán)自優(yōu)化系統(tǒng)框架,能夠?qū)鹘y(tǒng)的基于模型預(yù)測或反饋控制的能效管理方法形成有益補(bǔ)充[1]。

    1"數(shù)據(jù)中心能耗問題分析

    數(shù)據(jù)中心的能耗問題主要體現(xiàn)在以下幾個(gè)方面:(1)核心設(shè)備服務(wù)器能耗在數(shù)據(jù)中心總能耗中的占比高達(dá)50%以上,受限于服務(wù)器芯片制造工藝和材料性能,其能效提升的空間已十分有限;(2)制冷系統(tǒng)能耗占數(shù)據(jù)中心總能耗的比例可達(dá)30%~50%。傳統(tǒng)的制冷方式(風(fēng)冷、水冷)能效比(PUE)普遍較低,導(dǎo)致大量能源被浪費(fèi);(3)數(shù)據(jù)中心workload呈現(xiàn)顯著的動(dòng)態(tài)性和突發(fā)性,其負(fù)載水平常在20%~80%大幅波動(dòng),低負(fù)載下的能效比會(huì)急劇下降。

    2"強(qiáng)化學(xué)習(xí)及其在本研究中的基本應(yīng)用思路

    2.1"強(qiáng)化學(xué)習(xí)的基本原理

    強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)的新分支,其核心思想是:智能體感知環(huán)境狀態(tài)(State)并根據(jù)當(dāng)前策略(Policy)采取一個(gè)動(dòng)作(Action),環(huán)境對該動(dòng)作做出反饋,返回一個(gè)即時(shí)獎(jiǎng)勵(lì)(Reward)和新的狀態(tài)。智能體根據(jù)獎(jiǎng)勵(lì)信號不斷調(diào)整策略,最終學(xué)習(xí)到一個(gè)最優(yōu)策略,使累積獎(jiǎng)勵(lì)最大化。馬爾可夫決策過程(Markov Decision Process,MDP)為強(qiáng)化學(xué)習(xí)提供了理論基礎(chǔ),MDP由狀態(tài)空間、動(dòng)作空間、狀態(tài)轉(zhuǎn)移概率和獎(jiǎng)勵(lì)函數(shù)構(gòu)成,滿足馬爾可夫性質(zhì),即下一狀態(tài)僅取決于當(dāng)前狀態(tài)和動(dòng)作[2]。

    2.2"基本應(yīng)用思路

    如圖1所示,本文的研究思路可歸納為以下幾個(gè)關(guān)鍵環(huán)節(jié)。

    (1)數(shù)據(jù)中心能耗問題分析:深入剖析數(shù)據(jù)中心能耗問題的成因、特點(diǎn)及技術(shù)挑戰(zhàn),為后續(xù)研究奠定問題基礎(chǔ)。

    (2)系統(tǒng)建模與能效指標(biāo)定義:針對數(shù)據(jù)中心的IT、制冷、供電等子系統(tǒng),構(gòu)建細(xì)粒度的系統(tǒng)模型,提出全面的能效評估指標(biāo)體系。

    (3)馬爾可夫決策過程(MDP)描述:以MDP為理論框架,將數(shù)據(jù)中心能耗調(diào)度問題進(jìn)行形式化描述,設(shè)計(jì)緊湊的狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù)。

    (4)深度強(qiáng)化學(xué)習(xí)(DRL)算法設(shè)計(jì):面向MDP模型,創(chuàng)新性地設(shè)計(jì)融合圖神經(jīng)網(wǎng)絡(luò)(GNN)、長短時(shí)記憶網(wǎng)絡(luò)(LSTM)、近端策略優(yōu)化(PPO)和Actor-Critic架構(gòu)等前沿技術(shù)的DRL優(yōu)化算法。其中,GNN負(fù)責(zé)提取系統(tǒng)狀態(tài)的結(jié)構(gòu)化特征,LSTM負(fù)責(zé)建模狀態(tài)的時(shí)序依賴關(guān)系,PPO和Actor-Critic則保證了策略訓(xùn)練的高效穩(wěn)定。

    (5)仿真實(shí)驗(yàn)與性能評估:搭建逼真的數(shù)據(jù)中心仿真平臺(tái),使用真實(shí)世界的負(fù)載軌跡數(shù)據(jù),全面評估DRL調(diào)度算法的性能,驗(yàn)證其在降低能耗、保障服務(wù)質(zhì)量等方面的優(yōu)越性。

    宏觀層面來看,數(shù)據(jù)中心能耗問題分析是整個(gè)研究的邏輯起點(diǎn),它為系統(tǒng)建模、MDP描述等后續(xù)環(huán)節(jié)提供問題背景和優(yōu)化目標(biāo)。而仿真實(shí)驗(yàn)與性能評估則是研究的邏輯終點(diǎn),通過定量分析論證本文所提方法的可行性和有效性。由此,在目標(biāo)驅(qū)動(dòng)和閉環(huán)反饋的研究范式下,本文形成了一套完整的、具有普適性的數(shù)據(jù)中心能耗優(yōu)化問題求解方法。

    3"數(shù)據(jù)中心能耗優(yōu)化調(diào)度模型構(gòu)建

    3.1"系統(tǒng)模型的構(gòu)建

    為了對數(shù)據(jù)中心能耗優(yōu)化調(diào)度問題進(jìn)行建模和求解,首先構(gòu)建一個(gè)數(shù)據(jù)中心系統(tǒng)模型。該模型涵蓋了數(shù)據(jù)中心的各個(gè)關(guān)鍵組件,包括物理服務(wù)器(Physical Machine,PM)、虛擬機(jī)(Virtual Machine,VM)、制冷設(shè)備(Computer Room Air Conditioning,CRAC)等。采用一個(gè)三元組(S=lt;P,V,Cgt;)來表示數(shù)據(jù)中心系統(tǒng),其中P=p1,…,pM,表示共有M臺(tái)物理服務(wù)器;V=v1,…,vN,表示共有N臺(tái)虛擬機(jī);C=c1,…,cK,表示共有K臺(tái)CRAC。

    對于物理服務(wù)器,主要關(guān)注其多維資源容量(如CPU、內(nèi)存等)和功耗特性,用分段線性函數(shù)來擬合服務(wù)器功耗Pm與CPU利用率um之間的非線性關(guān)系:

    Pm(um)=P0m+P10m-P0m10%um,0≤umlt;10%

    P90m+P100m-P90m10%(um-90%),90%≤um≤100%

    對于虛擬機(jī),借鑒通用做法,假設(shè)虛擬機(jī)請求到達(dá)服從泊松過程,持續(xù)時(shí)間服從指數(shù)分布。

    對于制冷設(shè)備,假設(shè)制冷量與能耗成正比:Qk=ηkPk。其中Qk表示制冷設(shè)備ck的制冷量,Pk表示其能耗,ηk表示其能效比(COP)。COP與CRAC的工況和環(huán)境溫度相關(guān),可從設(shè)備手冊或?qū)崪y數(shù)據(jù)獲取。在此基礎(chǔ)上,數(shù)據(jù)中心能耗優(yōu)化調(diào)度問題可形式化為一個(gè)混合整數(shù)規(guī)劃模型[3],目標(biāo)是在滿足各類約束條件(如資源容量約束、服務(wù)質(zhì)量約束、溫度約束等)的前提下,最小化數(shù)據(jù)中心總能耗:

    min"∑Mm=1Pm(um)+∑Kk=1Pk

    3.2"能耗模型的構(gòu)建

    在系統(tǒng)模型的基礎(chǔ)上,進(jìn)一步構(gòu)建數(shù)據(jù)中心能耗模型,用于準(zhǔn)確評估不同調(diào)度策略下的能耗表現(xiàn)。結(jié)合前文的功耗擬合函數(shù),物理服務(wù)器Pm的能耗表示為:

    Pm=ymPm(um)=ymPidlem+∑Ll=1PBlm-PBl-1mBl-Bl-1(um-Bl-1

    其中,ym表示服務(wù)器的開關(guān)機(jī)狀態(tài)(ym=1表示開機(jī),ym=0表示關(guān)機(jī));L表示功耗擬合函數(shù)的分段數(shù);Bl表示第l段的利用率斷點(diǎn)。

    根據(jù)前述熱平衡原理,設(shè)定制冷設(shè)備的耗電量與其抽取的熱量成正比(Pk=Qk/ηk)。其中,制冷設(shè)備的制冷量Qk可通過機(jī)房的總熱負(fù)荷Qtotal和該設(shè)備所占的制冷份額αk計(jì)算得到,即Qk=αkQtotal。機(jī)房的總熱負(fù)荷包括IT設(shè)備的發(fā)熱量和其他雜熱Qother,可表示為:

    Qtotal=∑Mm=1Pm+Qother

    將上式代入,即可得到制冷設(shè)備ck的能耗計(jì)算公式:

    Pk=αkηk(∑Mm=1Pm+Qother

    綜合IT設(shè)備能耗和制冷能耗,數(shù)據(jù)中心的總能耗PDC可表示為:

    PDC=∑Mm=1Pm+∑Kk=1Pk=1+∑Kk=1αkηk∑Mm=1Pm+∑Kk=1αkηkQother

    實(shí)際優(yōu)化時(shí)可通過調(diào)整服務(wù)器的開關(guān)機(jī)狀態(tài)、CPU頻率、虛擬機(jī)放置等決策變量來降低IT設(shè)備能耗,通過優(yōu)化制冷設(shè)備的送風(fēng)溫度、送風(fēng)量等參數(shù)來提高其能效比。

    3.3"馬爾可夫決策過程的轉(zhuǎn)化

    上述系統(tǒng)模型和能耗模型可轉(zhuǎn)化為一個(gè)馬爾可夫決策過程。

    (1)狀態(tài)空間S包含了數(shù)據(jù)中心的各類狀態(tài)信息,例如物理服務(wù)器的開關(guān)機(jī)狀態(tài)、資源利用率、功耗,虛擬機(jī)的放置情況、資源需求,制冷設(shè)備的工況參數(shù),機(jī)房的溫度分布等。一個(gè)狀態(tài)s∈S可表示為:

    s=(y,u,x,d,q,T)

    其中,y=(y1,…,yM)表示物理服務(wù)器的開關(guān)機(jī)向量;u=(u1,…,uM)表示物理服務(wù)器的利用率向量;x=(x11,…,xMN)表示虛擬機(jī)的放置矩陣;d=(d1,…,dN)表示虛擬機(jī)的資源需求矩陣;q=(q1,…,qK)表示制冷設(shè)備的工況參數(shù);T=(T1,…,TI)表示各溫度區(qū)域的溫度值。

    (2)動(dòng)作空間A包含了數(shù)據(jù)中心可采取的各種調(diào)度動(dòng)作,例如開關(guān)物理服務(wù)器、調(diào)整服務(wù)器的CPU頻率、遷移虛擬機(jī)、調(diào)整制冷設(shè)備的送風(fēng)溫度和風(fēng)量等。一個(gè)動(dòng)作a∈A可表示為:

    a=(Δy,Δf,Δx,Δq)

    其中,Δy=(Δy1,…,ΔyM)表示對物理服務(wù)器的開關(guān)機(jī)操作;Δf=(Δf1,…,ΔfM)表示對服務(wù)器CPU頻率的調(diào)整;Δx=(Δx11,…,ΔxMN)表示對虛擬機(jī)放置的調(diào)整;Δq=(Δq1,…,ΔqK)表示對制冷設(shè)備工況的調(diào)整。

    (3)狀態(tài)轉(zhuǎn)移概率P(s′|s,a)刻畫了在當(dāng)前狀態(tài)s下采取動(dòng)作a后轉(zhuǎn)移到下一狀態(tài)s′的概率。模型中,狀態(tài)轉(zhuǎn)移涉及多個(gè)隨機(jī)過程,包括虛擬機(jī)的到達(dá)和離去、服務(wù)器的故障和維護(hù)等,需要根據(jù)實(shí)際數(shù)據(jù)對概率分布進(jìn)行估計(jì)或擬合。獎(jiǎng)勵(lì)函數(shù)R(s,a,s′)定義了MDP優(yōu)化的目標(biāo),即在狀態(tài)s下采取動(dòng)作a并轉(zhuǎn)移到狀態(tài)s′后獲得的即時(shí)獎(jiǎng)勵(lì):

    R(s,a,s′)=-PDC(s,a,s′),if滿足所有約束條件

    -∞,otherwise

    其中,PDC(s,a,s′)表示在狀態(tài)s下采取動(dòng)作a并轉(zhuǎn)移到狀態(tài)s′后數(shù)據(jù)中心的總能耗。如果新狀態(tài)滿足所有約束條件(如物理資源容量約束、虛擬機(jī)性能約束、機(jī)房溫度約束等),則獎(jiǎng)勵(lì)等于負(fù)的總能耗;否則,給予一個(gè)大的懲罰項(xiàng)(負(fù)無窮)。

    4"基于深度強(qiáng)化學(xué)習(xí)的能耗優(yōu)化調(diào)度算法

    4.1"狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù)的定義

    在將數(shù)據(jù)中心能耗優(yōu)化調(diào)度問題轉(zhuǎn)化為馬爾可夫決策過程后,進(jìn)一步設(shè)計(jì)了基于深度強(qiáng)化學(xué)習(xí)的調(diào)度算法。

    首先,對MDP的狀態(tài)空間、動(dòng)作空間和獎(jiǎng)勵(lì)函數(shù)進(jìn)行明確定義,提出了一種層次化的狀態(tài)空間表示方法:提取服務(wù)器的開關(guān)機(jī)狀態(tài)ym、CPU利用率umcpu、內(nèi)存利用率ummem、功耗Pm等特征;提取虛擬機(jī)的放置情況Xn、CPU需求dncpu、內(nèi)存需求dnmem等特征;提取制冷設(shè)備的送風(fēng)溫度Tsup、送風(fēng)量Vsup、COP等特征;機(jī)房環(huán)境中提取各溫度區(qū)域的實(shí)時(shí)溫度Ti、濕度Hi等特征。將特征按照一定順序排列,即得到一個(gè)高維狀態(tài)向量s:

    s=[y,ucpu,umem,P,X,dcpu,dmem,Tsup,Vsup,COP,Ti,Hi]

    其中,y、P、Tsup等均為列向量,X為矩陣,s的維度等于各分量維度之和。

    動(dòng)作空間的設(shè)計(jì)需要充分考慮數(shù)據(jù)中心的可控變量和調(diào)度約束,采用一種混合連續(xù)-離散的動(dòng)作空間表示,既包括連續(xù)的資源調(diào)控動(dòng)作,也包括離散的開關(guān)機(jī)和遷移決策。動(dòng)作向量a包含4個(gè)部分:服務(wù)器的開關(guān)機(jī)動(dòng)作Δy、服務(wù)器的CPU頻率調(diào)整動(dòng)作Δf、虛擬機(jī)的遷移動(dòng)作ΔX以及制冷設(shè)備的送風(fēng)溫度和風(fēng)量調(diào)整動(dòng)作ΔTsup和ΔVsup

    a=[Δy,Δf,ΔX,ΔTsup,ΔVsup]

    其中,Δy為二值向量,Δym=1表示打開服務(wù)器m,Δym=0表示關(guān)閉服務(wù)器m;Δf為連續(xù)向量,Δfmin∈[fmmin,fmmax]表示服務(wù)器m的CPU頻率調(diào)整幅度;ΔX為整數(shù)矩陣,Δxmn表示是否將虛擬機(jī)n遷移至服務(wù)器m;ΔTsup和ΔVsup為連續(xù)向量,分別表示制冷設(shè)備的送風(fēng)溫度和風(fēng)量調(diào)整幅度[4]。獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)采用了一種加權(quán)求和的獎(jiǎng)勵(lì)函數(shù)形式,將各優(yōu)化目標(biāo)量化為對應(yīng)的獎(jiǎng)勵(lì)分量,再賦予適當(dāng)?shù)臋?quán)重系數(shù)進(jìn)行組合。獎(jiǎng)勵(lì)函數(shù)r(s,a,s′)定義為:

    r(s,a,s′)=∑Ni=1wiri(s,a,s′)

    其中,N為優(yōu)化目標(biāo)數(shù);wi為目標(biāo)i的權(quán)重系數(shù);ri(s,a,s′)為動(dòng)作a在狀態(tài)s下導(dǎo)致狀態(tài)轉(zhuǎn)移至s′后獲得的第i項(xiàng)獎(jiǎng)勵(lì)分量。

    4.2"深度神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)與訓(xùn)練

    基于上述MDP建模,設(shè)計(jì)了一種深度強(qiáng)化學(xué)習(xí)算法來求解數(shù)據(jù)中心能耗優(yōu)化調(diào)度問題。算法采用了Actor-Critic架構(gòu),即同時(shí)學(xué)習(xí)值函數(shù)和策略函數(shù)。Actor網(wǎng)絡(luò)(策略網(wǎng)絡(luò))πθ(a|s)以狀態(tài)s為輸入,輸出在該狀態(tài)下采取動(dòng)作a的概率分布;Critic網(wǎng)絡(luò)(值函數(shù)網(wǎng)絡(luò))Vφ(s)以狀態(tài)s為輸入,輸出該狀態(tài)下的期望累積獎(jiǎng)勵(lì)值。

    將數(shù)據(jù)中心環(huán)境建模為一個(gè)異構(gòu)圖G=(V,E),其中節(jié)點(diǎn)集V包括服務(wù)器節(jié)點(diǎn)、虛擬機(jī)節(jié)點(diǎn)和制冷節(jié)點(diǎn),邊集E包括服務(wù)器-虛擬機(jī)邊、服務(wù)器-服務(wù)器邊和服務(wù)器-制冷邊等。每個(gè)節(jié)點(diǎn)和邊都有一組特征向量,分別表示節(jié)點(diǎn)狀態(tài)和邊屬性。利用圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)來學(xué)習(xí)圖結(jié)構(gòu)數(shù)據(jù)中的特征,得到節(jié)點(diǎn)的嵌入表示[5],捕捉節(jié)點(diǎn)之間的相互影響和關(guān)聯(lián)性,聚合不同類型節(jié)點(diǎn)的信息,得到隱藏狀態(tài)表示ht,輸入Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò),得到動(dòng)作概率分布πθ(a|s)和狀態(tài)值函數(shù)Vφ(s):

    πθ(a|s)=softmax(Wπht+bπ)

    V(s)=WVht+bV

    其中,Wπ、bπ、WV、bV分別為Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)的參數(shù)矩陣和偏置項(xiàng)。

    在訓(xùn)練階段,采用基于策略梯度和時(shí)序差分(Temporal Difference,TD)的方法來更新Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)的參數(shù)。對于一個(gè)狀態(tài)-動(dòng)作-獎(jiǎng)勵(lì)序列(st,at,rt,st+1)t=1T,Critic網(wǎng)絡(luò)的損失函數(shù)Lossφ(s)定義為:

    LossV()=1T∑Tt=1[V(st)-yt]2

    其中,yt=rt+γV(st+1),為TD目標(biāo)值。Critic網(wǎng)絡(luò)的目標(biāo)是最小化預(yù)測值函數(shù)與實(shí)際回報(bào)之間的均方誤差。

    Actor網(wǎng)絡(luò)的目標(biāo)是最大化期望回報(bào),其梯度為:

    θJ(θ)=Eπθ[θlogπθ(a|s)Qπθ(s,a)]

    其中,Q為在策略πθ下狀態(tài)-動(dòng)作對(s,a)的期望回報(bào),可以用Critic網(wǎng)絡(luò)的輸出VΦ(s)來近似。

    上述神經(jīng)網(wǎng)絡(luò)模型和訓(xùn)練算在PyTorch框架下進(jìn)行,使用近端策略優(yōu)化(PPO)算法穩(wěn)定Actor網(wǎng)絡(luò)的訓(xùn)練過程。

    4.3"在線實(shí)時(shí)優(yōu)化調(diào)度策略的實(shí)現(xiàn)

    為將訓(xùn)練好的強(qiáng)化學(xué)習(xí)模型應(yīng)用到實(shí)際的數(shù)據(jù)中心在線調(diào)度中,本文設(shè)計(jì)了一套完整的實(shí)時(shí)優(yōu)化調(diào)度系統(tǒng),主要包括如下所述。

    4.3.1"數(shù)據(jù)采集與預(yù)處理模塊

    負(fù)責(zé)實(shí)時(shí)采集數(shù)據(jù)中心各設(shè)備的運(yùn)行數(shù)據(jù)(如服務(wù)器的CPU利用率、制冷設(shè)備的送風(fēng)溫度等),并對其進(jìn)行清洗、歸一化等預(yù)處理操作,將其轉(zhuǎn)化為強(qiáng)化學(xué)習(xí)模型可接受的狀態(tài)特征。使用Zabbix、Ganglia等開源監(jiān)控軟件采集數(shù)據(jù),使用Kafka、Flume等消息隊(duì)列和流處理工具預(yù)處理和緩存數(shù)據(jù)。

    4.3.2"強(qiáng)化學(xué)習(xí)決策模塊

    加載預(yù)訓(xùn)練的Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò),根據(jù)當(dāng)前狀態(tài)特征生成調(diào)度決策。為了適應(yīng)數(shù)據(jù)中心環(huán)境的非平穩(wěn)性和不確定性,在決策過程中引入了滾動(dòng)更新機(jī)制,即維護(hù)一個(gè)固定長度的歷史決策序列,并根據(jù)最新的狀態(tài)-動(dòng)作-獎(jiǎng)勵(lì)樣本來更新強(qiáng)化學(xué)習(xí)模型的參數(shù)。

    4.3.3"調(diào)度執(zhí)行模塊

    將強(qiáng)化學(xué)習(xí)模型給出的決策指令轉(zhuǎn)化為具體的調(diào)度動(dòng)作,并通過相應(yīng)的接口或協(xié)議(如IPMI、SSH等)下發(fā)到各設(shè)備。調(diào)度執(zhí)行模塊與設(shè)備之間通過消息總線(如RabbitMQ)進(jìn)行通信,以實(shí)現(xiàn)調(diào)度指令的異步下發(fā)和執(zhí)行狀態(tài)的實(shí)時(shí)反饋。

    5"實(shí)驗(yàn)結(jié)果與分析

    5.1"平臺(tái)搭建

    為評估所提出的調(diào)度策略,本文研究搭建了一個(gè)數(shù)據(jù)中心能耗優(yōu)化調(diào)度仿真平臺(tái),使用真實(shí)的數(shù)據(jù)中心負(fù)載軌跡作為輸入。將原始軌跡數(shù)據(jù)進(jìn)行了清洗和預(yù)處理,提取了任務(wù)的資源需求和性能約束等關(guān)鍵特征,根據(jù)任務(wù)的提交時(shí)間戳,在仿真平臺(tái)中動(dòng)態(tài)生成相應(yīng)的任務(wù)請求事件[6]

    5.2"對比實(shí)驗(yàn)

    本文選取了3個(gè)典型的數(shù)據(jù)中心配置:小規(guī)模(500臺(tái)服務(wù)器)、中規(guī)模(5000臺(tái)服務(wù)器)和大規(guī)模(50000臺(tái)服務(wù)器),分別代表不同層次的數(shù)據(jù)中心。在每個(gè)數(shù)據(jù)中心配置下,分別使用了Google Cluster Trace和Alibaba Cluster Trace作為工作負(fù)載輸入,測試了以下6種調(diào)度策略。

    (1)Round-Robin(RR):將任務(wù)按照先來先服務(wù)的原則,輪流分配到不同的服務(wù)器。

    (2)Least-Loaded(LL):總是將任務(wù)分配到當(dāng)前負(fù)載最輕的服務(wù)器。

    (3)Genetic Algorithm(GA):使用遺傳算法搜索最優(yōu)的任務(wù)放置方案,適應(yīng)度函數(shù)為總能耗。

    (4)MILP:使用混合整數(shù)線性規(guī)劃求解器,對任務(wù)放置和服務(wù)器開關(guān)機(jī)進(jìn)行聯(lián)合優(yōu)化。

    (5)TAA:本文提出的基于深度強(qiáng)化學(xué)習(xí)的任務(wù)分配智能體。

    (6)TAA+DVFS:在TAA的基礎(chǔ)上,增加動(dòng)態(tài)電壓頻率調(diào)節(jié)(DVFS)的優(yōu)化維度。

    5.3"實(shí)驗(yàn)結(jié)果與分析

    在單數(shù)據(jù)中心環(huán)境下,不同調(diào)度策略的能耗優(yōu)化效果對比如表1所示。可以看出,研究的TAA和TAA+DVFS調(diào)度策略在單數(shù)據(jù)中心環(huán)境下取得了最優(yōu)的能耗優(yōu)化效果,與最簡單的RR策略相比,最高可節(jié)省20.69%的能耗。這得益于強(qiáng)化學(xué)習(xí)模型從數(shù)據(jù)中自主學(xué)習(xí)并挖掘出了負(fù)載模式、設(shè)備特性等隱含的規(guī)律性知識(shí),并通過端到端的訓(xùn)練將其內(nèi)化于最終的調(diào)度決策。相比之下,傳統(tǒng)的啟發(fā)式調(diào)度算法(如RR和LL)缺乏對系統(tǒng)全局狀態(tài)和長期收益的考慮,優(yōu)化效果有限;基于數(shù)學(xué)規(guī)劃的MILP算法盡管可以求得理論最優(yōu)解,但在實(shí)際復(fù)雜環(huán)境中求解效率較低,且難以建模多樣化的約束條件。

    6"結(jié)語

    數(shù)據(jù)中心能耗優(yōu)化是一個(gè)復(fù)雜的系統(tǒng)工程,涉及IT、熱力學(xué)、控制論等多個(gè)學(xué)科領(lǐng)域,需要軟硬件設(shè)施與管理策略的協(xié)同創(chuàng)新。本文在已有研究的基礎(chǔ)上,將前沿的強(qiáng)化學(xué)習(xí)技術(shù)引入數(shù)據(jù)中心能耗調(diào)度領(lǐng)域,提出了一種數(shù)據(jù)驅(qū)動(dòng)、自適應(yīng)的智能調(diào)度新范式。強(qiáng)化學(xué)習(xí)在數(shù)據(jù)中心能耗優(yōu)化調(diào)度中的應(yīng)用尚處于起步階段,未來仍需在算法泛化、模型輕量化、部署工程化等方面開展深入探索。

    參考文獻(xiàn)

    [1]徐基雅.基于空間位置的高性能計(jì)算集群能耗感知調(diào)度技術(shù)研究[D]. 濟(jì)南:齊魯工業(yè)大學(xué),2024.

    [2]吳金戈.基于深度強(qiáng)化學(xué)習(xí)的云資源調(diào)度方法研究[D]. 貴陽:貴州大學(xué),2023.

    [3]李丹陽,吳良基,劉慧,等.基于深度強(qiáng)化學(xué)習(xí)的數(shù)據(jù)中心熱感知能耗優(yōu)化方法[J].計(jì)算機(jī)科學(xué),2024(增刊1):738-745.

    [4]王東清,李道童,彭繼陽,等.面向數(shù)據(jù)中心的服務(wù)器能耗模型綜述[J].計(jì)算機(jī)測量與控制,2023(11):7-15.

    [5]沈林江,曹暢,崔超,等.基于策略約束強(qiáng)化學(xué)習(xí)的算網(wǎng)多目標(biāo)優(yōu)化研究[J].電信科學(xué),2023(8):136-148.

    [6]劉陳偉,孫鑒,雷冰冰,等.基于改進(jìn)粒子群算法的云數(shù)據(jù)中心能耗優(yōu)化任務(wù)調(diào)度策略[J].計(jì)算機(jī)科學(xué),2023(7):246-253.

    (編輯"沈"強(qiáng))

    Research on data center energy consumption optimization scheduling strategy based on reinforcement learning

    YANG "Ouyi

    (University of Ottawa, Ottawa K1N 6N5,Canada)

    Abstract: The rapid growth of cloud computing has exacerbated data center energy consumption issues,necessitating intelligent and efficient optimization methods.This paper analyzes the problem,explores the potential of reinforcement learning in energy scheduling, constructs a comprehensive data center model, formalizes the scheduling problem as a Markov decision process,and proposes a deep reinforcement learning algorithm combining graph neural networks and long short-term memory networks.Simulations verify the effectiveness of the proposed strategy.

    Key words: data center; energy optimization; reinforcement learning; scheduling

    猜你喜歡
    強(qiáng)化學(xué)習(xí)數(shù)據(jù)中心
    酒泉云計(jì)算大數(shù)據(jù)中心
    數(shù)據(jù)中心制冷節(jié)能技術(shù)及應(yīng)用
    電子測試(2018年11期)2018-06-26 05:56:38
    民航綠色云數(shù)據(jù)中心PUE控制
    電子測試(2018年11期)2018-06-26 05:56:24
    智能車自主避障路徑規(guī)劃研究綜述
    一種記憶可修剪型仿生機(jī)器人的速度跟蹤算法研究
    基于強(qiáng)化學(xué)習(xí)的在線訂單配送時(shí)隙運(yùn)能分配
    論“以讀促寫”在初中英語寫作教學(xué)中的應(yīng)用
    智能交通車流自動(dòng)導(dǎo)引系統(tǒng)
    分布式系統(tǒng)中基于非合作博弈的調(diào)度算法
    基于云計(jì)算的交通運(yùn)輸數(shù)據(jù)中心實(shí)現(xiàn)與應(yīng)用
    天津市| 桐柏县| 交城县| 小金县| 无为县| 横山县| 额济纳旗| 和田市| 永泰县| 湛江市| 临漳县| 叙永县| 砚山县| 武安市| 竹溪县| 额敏县| 凤城市| 衡南县| 高雄县| 兴化市| 三亚市| 鸡泽县| 寻乌县| 新民市| 濮阳市| 大英县| 永靖县| 屯留县| 庄河市| 汕头市| 汉中市| 莎车县| 巩义市| 阿拉善盟| 苏尼特右旗| 蕉岭县| 增城市| 永仁县| 织金县| 西华县| 新余市|