張春光,袁軍寶,張金帥,梅玉娜
(北京中電普華信息技術(shù)有限公司,北京 100192)
作為企業(yè)數(shù)據(jù)與信息管理的核心和業(yè)務(wù)管理應(yīng)用的處理中心,數(shù)據(jù)中心肩負(fù)海量的關(guān)鍵任務(wù)。同時(shí),數(shù)據(jù)中心的能耗問題也因?yàn)閿?shù)據(jù)中心的體量不斷增加被提上議程,“高效能數(shù)據(jù)中心”的話題也被業(yè)界廣泛關(guān)注[1]。
如圖1所示,數(shù)據(jù)中心能耗中兩大主要的能耗來源是IT設(shè)備能耗和制冷的能耗。由于存在地理環(huán)境等因素的影響,數(shù)據(jù)中心不同設(shè)備的能耗占比存在波動(dòng),但對于多數(shù)情況,IT設(shè)備和制冷設(shè)備的能耗都能占據(jù)到數(shù)據(jù)中心總能耗的80%以上,因此對其的能耗管理與優(yōu)化對于企業(yè)來說至關(guān)重要[2]。
對數(shù)據(jù)中心的能耗優(yōu)化管理是實(shí)現(xiàn)高效能數(shù)據(jù)中心的必由之路。本文將分別從供電、制冷、IT設(shè)備及業(yè)務(wù)調(diào)度四個(gè)方面對數(shù)據(jù)中心的能耗進(jìn)行管理優(yōu)化,實(shí)現(xiàn)數(shù)據(jù)中心的全鏈路能耗管理[3]。
圖1 數(shù)據(jù)中心能耗構(gòu)成
數(shù)據(jù)中心能耗總量大主要是因?yàn)閿?shù)據(jù)中心在工作時(shí),大部分組件都將承受負(fù)載,這也是傳統(tǒng)的動(dòng)態(tài)電壓調(diào)節(jié)方法只調(diào)節(jié)單一模塊難以有效降低數(shù)據(jù)中心總能耗的主要原因。為了實(shí)現(xiàn)“高效能數(shù)據(jù)中心”,本文將采用基于位置的負(fù)載平衡策略來管理數(shù)據(jù)中心供電系統(tǒng)的能耗[4]。
基于地理位置的負(fù)載平衡(Geographic Load Balancing,GLB)是利用不同數(shù)據(jù)中心所在地區(qū)的電價(jià)、碳補(bǔ)償系數(shù)等的差異進(jìn)行相應(yīng)的負(fù)載調(diào)度及路由。數(shù)據(jù)訪問操作的流程為:首先用戶發(fā)起訪問請求,請求被前端服務(wù)器接收,然后服務(wù)器將請求重定向到相對最優(yōu)的地區(qū)的數(shù)據(jù)中心進(jìn)行處理,由多個(gè)互斥的優(yōu)化目標(biāo)決定請求流量的大小。GLB的結(jié)構(gòu)如圖2所示。
圖2 GLB結(jié)構(gòu)圖
氣流循環(huán)的綜合優(yōu)化是數(shù)據(jù)中心制冷能耗優(yōu)化的關(guān)鍵。對供氣模式的選擇,建筑結(jié)構(gòu)和參數(shù)的選擇以及制冷的布局等都是優(yōu)化設(shè)計(jì)的一部分。通過優(yōu)化設(shè)計(jì),可以有效減低制冷系統(tǒng)的能耗。一方面,優(yōu)化氣流組織使得氣流的循環(huán)穩(wěn)定,大大減少冷熱氣流的相互作用,使得冷氣流能夠被充分利用,所以制冷設(shè)備能耗量能得到優(yōu)化;另一方面,因?yàn)闄C(jī)房機(jī)柜布局合理,使得機(jī)房整體溫度均勻,無局部熱點(diǎn),整體的工作溫度可以維持在一個(gè)較高的值[5]。
(1)選擇送回風(fēng)的方式
一般數(shù)據(jù)中心機(jī)房送風(fēng)方式分為兩種,一種是上送風(fēng),另一種是下送風(fēng)。送回風(fēng)方式則分為開放式、局部管道式及全管道式。由不同的樓層設(shè)計(jì)模式和不同的送回風(fēng)方式可以組合成多種送回風(fēng)的模式。通過大量的實(shí)驗(yàn)對比,目前數(shù)據(jù)中心主要采取兩種送回風(fēng)模式,一種是硬地板結(jié)合開放式送回風(fēng),另一種是架空地板結(jié)合開放式送回風(fēng)。前者形成了典型的上送風(fēng)模式,如圖3所示;后者是下送風(fēng)模式,如圖4所示。
圖3 典型的上送風(fēng)形式
圖4 典型的下送風(fēng)形式
(2)機(jī)柜布置優(yōu)化
如圖5所示,在早期的數(shù)據(jù)中心中,由于經(jīng)驗(yàn)不足,沒有考慮氣流組織的因素,通常采用統(tǒng)一朝向的機(jī)柜排布。機(jī)柜排布經(jīng)過優(yōu)化設(shè)計(jì)后,如圖6所示,一般采用面對面,背靠背的布置方式。
在這種布置模式中,機(jī)柜將冷熱氣流的通道隔離開,冷氣流通過架空地板層從冷通道進(jìn)入機(jī)柜,熱氣流通過熱通道也就是機(jī)柜背部升至上方返回制冷單元。冷熱通道的隔離意義重大,防止了冷熱氣流之間的相互作用,大大增加了冷氣流冷卻效率,節(jié)省了制冷系統(tǒng)的能耗。在采取這種布置模式時(shí),還可以采用擋板將冷熱通道更加徹底的隔離,進(jìn)一步提高制冷效率,實(shí)現(xiàn)冷氣流的高效利用。
圖5 統(tǒng)一朝向的機(jī)柜排布
圖6 面對面、背靠背的機(jī)柜排布
為了實(shí)現(xiàn)“高效能數(shù)據(jù)中心”,本文提出了基于數(shù)據(jù)中心節(jié)點(diǎn)重部署的能耗管理算法。該算法的基本思想就是將原本無規(guī)律的、隨機(jī)部署的節(jié)點(diǎn)重部署,使得它們有序化聚集,從而使得數(shù)據(jù)中心一部分節(jié)點(diǎn)充分發(fā)揮自身的計(jì)算能力,另一部分節(jié)點(diǎn)采取深度休眠等措施,同時(shí)與節(jié)點(diǎn)相關(guān)聯(lián)的制冷設(shè)備也可以進(jìn)入休眠狀態(tài),使得數(shù)據(jù)中心在保障了QoS的同時(shí),達(dá)到高效能的目標(biāo)。
算法所基于的系統(tǒng)模型如圖7所示。計(jì)算與存儲(chǔ)設(shè)備上包含了節(jié)點(diǎn)資源管理模塊、節(jié)點(diǎn)控制模塊、數(shù)據(jù)遷移模塊、訪問記錄管理模塊和節(jié)點(diǎn)運(yùn)行監(jiān)測模塊;溫控系統(tǒng)包含了環(huán)境監(jiān)測模塊和溫控設(shè)備控制模塊。其中溫控系統(tǒng)與計(jì)算設(shè)備協(xié)同工作,特別根據(jù)節(jié)點(diǎn)運(yùn)行監(jiān)測模塊和環(huán)境監(jiān)測模塊感知的情況,再利用溫控設(shè)備控制模塊來決定溫控設(shè)備是否開啟以及開啟的程度,使得溫控系統(tǒng)可以實(shí)現(xiàn)數(shù)據(jù)中心各區(qū)域的精確溫度控制[6]。
圖7 系統(tǒng)模型
該策略具有如下優(yōu)勢。
(1)降低了數(shù)據(jù)中心總體的能耗。由于數(shù)據(jù)和節(jié)點(diǎn)聚集之后,部分區(qū)域節(jié)點(diǎn)的工作負(fù)載增加,使得功耗隨之上升,但是部分區(qū)域的節(jié)點(diǎn)進(jìn)入了休眠狀態(tài),同時(shí)制冷設(shè)備也無需運(yùn)行,從而降低了總體能耗。
(2)提高了資源利用率。由于數(shù)據(jù)聚集之后,節(jié)點(diǎn)在開機(jī)運(yùn)行時(shí),都將處在高負(fù)載的狀態(tài),進(jìn)而提高了資源的利用率。
(3)系統(tǒng)的QoS得到保障。得益于算法采用的運(yùn)行規(guī)律相反,節(jié)點(diǎn)數(shù)據(jù)的相互備份實(shí)現(xiàn)服務(wù)的持續(xù)提供和數(shù)據(jù)的不間斷訪問,使得系統(tǒng)QoS也得到了保障。
(4)通過輪換運(yùn)行延長了硬件設(shè)備的使用壽命以及提升硬件設(shè)備的穩(wěn)定性。
當(dāng)前數(shù)據(jù)中心亟需解決的問題是,如何在降低整體的能耗成本的情況下,滿足用戶的資源需求。因此,相應(yīng)的數(shù)據(jù)調(diào)度算法對于當(dāng)前的數(shù)據(jù)中心至關(guān)重要。本文將分別對在線和離線兩種場景介紹適用的算法。
(1)在線遷移節(jié)能調(diào)度算法
該算法適用于在線請求分配場景。算法首先開啟一臺服務(wù)器接收虛擬機(jī)請求,當(dāng)該服務(wù)器不能再接收請求分配時(shí),則申請新的服務(wù)器進(jìn)行分配。在設(shè)定的遷移時(shí)刻,將服務(wù)器隊(duì)列中的所有服務(wù)器,按照服務(wù)器上的虛擬機(jī)數(shù)量進(jìn)行排序,篩選出負(fù)載低于設(shè)定的最低閥值的服務(wù)器集合,依次將這些服務(wù)器上的虛擬機(jī)按照服務(wù)器負(fù)載由低到高依次遷移到服務(wù)器隊(duì)列中剩余的服務(wù)器上。當(dāng)服務(wù)器上的所有虛擬機(jī)遷移后,如果有空負(fù)載的服務(wù)器,則關(guān)閉該服務(wù)器,保證以較少數(shù)量的服務(wù)器滿足所有的任務(wù)請求[7]。
算法流程如圖8所示。
圖8 在線遷移節(jié)能調(diào)度算法流程圖
(2)離線負(fù)載跨度最大節(jié)能算法
該算法適用于離線請求分配場景。算法首先將相鄰請求的開始時(shí)間和結(jié)束時(shí)間的間隔劃分成時(shí)隙;然后依次計(jì)算每個(gè)時(shí)隙內(nèi)所有虛擬機(jī)請求的CPU負(fù)載總和;根據(jù)負(fù)載計(jì)算出每個(gè)時(shí)隙所需的最大服務(wù)器數(shù)量,將服務(wù)器數(shù)量相同且相鄰的時(shí)隙劃分為一個(gè)個(gè)的連續(xù)區(qū)間;統(tǒng)計(jì)服務(wù)器數(shù)量最大的連續(xù)時(shí)隙構(gòu)成的區(qū)間,考慮位于該區(qū)間里面的所有虛擬機(jī)請求,優(yōu)先分配執(zhí)行時(shí)間最長的虛擬機(jī)請求。
算法流程如圖9所示。
圖9 離線負(fù)載跨度最大節(jié)能算法流程圖
圖10為高效能數(shù)據(jù)中心能耗管理及優(yōu)化技術(shù)的運(yùn)行模式示意圖。
圖10 運(yùn)行模式示意圖
如圖10所示,該方案設(shè)計(jì)涵蓋控制中心的調(diào)度策略以及基礎(chǔ)環(huán)境數(shù)據(jù)的處理等。
控制中心是數(shù)據(jù)中心能耗管理方案的“大腦”,采集系統(tǒng)將所有的采集數(shù)據(jù)遞交給控制中心,由控制中心對各類數(shù)據(jù)通過神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)行處理分析,采取最優(yōu)措施,反饋給各個(gè)系統(tǒng),以實(shí)現(xiàn)對整個(gè)系統(tǒng)的管理和控制。
采集系統(tǒng)由各類傳感器所組成,遍布于整個(gè)數(shù)據(jù)中心,對數(shù)據(jù)中心IT基礎(chǔ)設(shè)備全鏈路節(jié)點(diǎn)進(jìn)行監(jiān)控,并把相關(guān)信息傳遞給控制中心,由控制中心實(shí)現(xiàn)對IT基礎(chǔ)設(shè)備全鏈路各個(gè)節(jié)點(diǎn)的控制。
在數(shù)據(jù)中心的能耗管理控制過程中,所有鏈路上的IT基礎(chǔ)資源都將進(jìn)行閉環(huán)控制,如圖11所示。對于每個(gè)鏈路節(jié)點(diǎn),都將由采集系統(tǒng)采集相應(yīng)的能耗數(shù)據(jù),遞交給控制中心分析存儲(chǔ),再由控制中心依據(jù)相應(yīng)的算法給出管理控制策略,反饋控制鏈路節(jié)點(diǎn)。
圖11 閉環(huán)控制
隨著新興的技術(shù)理論不斷突破[8],數(shù)據(jù)中心在支撐經(jīng)濟(jì)社會(huì)發(fā)展的同時(shí),其能耗管理將會(huì)更加精細(xì),能源效率不斷提高,數(shù)據(jù)中心會(huì)變得越來越高效,越來越環(huán)保。