王 旭,李志鋒,劉文飛,何其振
(中國移動通信集團南方基地,廣東 廣州 510640)
?
新型數(shù)據(jù)中心動力系統(tǒng)的研究和應用
王旭,李志鋒,劉文飛,何其振
(中國移動通信集團南方基地,廣東 廣州 510640)
摘要:隨著信息和互聯(lián)網(wǎng)業(yè)務的迅速發(fā)展,國內(nèi)外數(shù)據(jù)中心產(chǎn)業(yè)進入了快車道。數(shù)據(jù)中心部署著以動力系統(tǒng)為主的大量的基礎設施,但傳統(tǒng)技術和粗放的建設模式帶來了投資、運維和能效等方面的低效率。為解決"高效率、高可靠、低成本"的瓶頸,文中通過研究供電、供冷系統(tǒng)的結構和工作原理,提出了一種新型的數(shù)據(jù)中心動力系統(tǒng)模式,并搭建試驗機房和測試平臺,驗證了該模式的可行性。
關鍵詞:數(shù)據(jù)中心;動力系統(tǒng);高壓直流;熱傳導;高效
隨著企業(yè)和個人對互聯(lián)網(wǎng)的需求增加,我國互聯(lián)網(wǎng)、云計算和大數(shù)據(jù)產(chǎn)業(yè)加速發(fā)展,數(shù)據(jù)中心產(chǎn)業(yè)進入了大規(guī)模的規(guī)劃建設階段。高速發(fā)展的數(shù)據(jù)中心帶來了巨大的能耗投入,已成為影響數(shù)據(jù)中心產(chǎn)業(yè)高效低成本運營的瓶頸。
2006年Christian Belady提出能源利用率(PUE)的概念,至今PUE已發(fā)展成為一個全球性的數(shù)據(jù)中心能耗標準。
PUE數(shù)值越小,表示數(shù)據(jù)中心的能源利用率越高,越符合低碳、節(jié)能的標準。
數(shù)據(jù)中心按照邏輯功能劃分為機房設施系統(tǒng)、網(wǎng)絡系統(tǒng)、資源系統(tǒng)、業(yè)務系統(tǒng)和管理系統(tǒng)[1],其中機房設施系統(tǒng)為數(shù)據(jù)中心提供機房、供電、空調、消防、安防、布線等。數(shù)據(jù)機房的動力系統(tǒng)屬于機房設施系統(tǒng),提供電力、冷卻功能。
1.2.1系統(tǒng)原理
數(shù)據(jù)中心供電系統(tǒng)通常由輸電、變電、配電、電源、機柜配電和服務器電源構成。實際工作中大部分機房直接引入380 V交流市電。為方便對比和研究,本文機房供電系統(tǒng)從機樓配電為起點,以服務器電源為終點進行討論,如圖1。
圖1 機房供電系統(tǒng)組成
市電經(jīng)過機樓配電進入樓層,由不間斷電源(UPS)將380 V三相交流電整流為標稱電壓為384 V/480 V的直流電,分別供給蓄電池和逆變器,再轉換為三路220 V單相交流電,經(jīng)機柜配電單元(PDU)分配給服務器電源,最后再次經(jīng)過整流和降壓轉換為12 V/5 V/3.3 V直流電源。
1.2.1能耗表現(xiàn)
傳統(tǒng)電力損耗主要集中在遠距離輸電、變電上,而機房供電系統(tǒng)則以配電損耗(機樓配電、列間配電)、不間斷電源損耗(IGBT整流、逆變、控制電路、隔離變壓器)和諧波損耗(引起的線損和變壓器額外損耗等)為主。其中不間斷電源設備的損耗占絕大部分。
以最常見的UPS為例,其運行效率和負載率存在經(jīng)驗關系。UPS運行效率與負載率相關,并且低于某負載率后,效率突然下降,而在負載率>40%情況下,效率較高,約為92%。
以典型的2N結構電源拓撲為例, UPS單機負載率要求不大于25%,對應的運行效率約為85%,即使采用高頻UPS等高效電源,其運行效率仍然在90%左右,即每100 kW的IT設備負載運行中,約10 kW電能額外消耗在了電源系統(tǒng)上。
1.3.1系統(tǒng)原理
機房空調分為風冷和水冷兩大類,小型機房專用空調多為風冷型,而具備一定規(guī)模的IDC數(shù)據(jù)中心多采用冷凍水式中央空調機組。
整個空調系統(tǒng)除了壓縮機做工外,還經(jīng)過了冷卻水冷卻、制冷劑冷凝、制冷劑蒸發(fā)、風柜降溫四個熱交換過程。另外,服務器自身通過風冷,將內(nèi)部熱量散發(fā)至機房空間。
1.3.2能耗表現(xiàn)
有關數(shù)據(jù)顯現(xiàn),數(shù)據(jù)中心能耗占比中空調系統(tǒng)能耗在數(shù)據(jù)中心總能耗中排名第二位,占40%左右,所以,從空調系統(tǒng)方面開展節(jié)能降耗就成為數(shù)據(jù)中心節(jié)能卓有成效的路徑之一。以某運營商數(shù)據(jù)中心為例,業(yè)務生產(chǎn)機樓空調耗電量占比約為32%:冬季占比30.4%(2014年1月統(tǒng)計數(shù)據(jù));夏季占比34.2%(2013年8月統(tǒng)計數(shù)據(jù))。對比當前業(yè)內(nèi)IDC空調能耗占比40%的平均水平具有優(yōu)勢,但仍存在較大的優(yōu)化節(jié)能空間。
數(shù)據(jù)中心對服務器的冷卻方式均采用傳統(tǒng)的“空氣冷卻”,即首先冷卻服務器機房的環(huán)境,使服務器機房的環(huán)境溫度保持在19~25 ℃內(nèi),然后通過服務器的風扇將冷空氣吸入,進一步降低服務器內(nèi)電子元器件的溫度。由于空氣的比熱和熱傳導率均低于水,所以單純依靠風送冷散熱,效率低,能耗大,機房CLF(數(shù)據(jù)中心中空調制冷系統(tǒng)耗能與IT設備耗能的比)值高。同時,由于設備元件發(fā)熱不均衡、散熱不精準,數(shù)據(jù)中心機房也面臨著熱島效應、功率密度難以提高等諸多問題。
不間斷電源設備自身能耗主要分為三類:空載損耗、比例損耗和平方損耗??蛰d損耗是指在0負載下UPS變壓器、電容、控制電路、通訊電路等設備的固定損耗,與負載率無關,約占UPS損耗的40%以上;比例損耗主要隨負載的增長成比例增長,由晶體管的開關、整流器的導通等損耗組成;平方損耗則是指隨電流增長而增長的“I2R”損耗。
根據(jù)前文闡述的供電系統(tǒng)結構,電能在配電后端經(jīng)過整流、逆變、整流、降壓等多個環(huán)節(jié)由380 V交流變?yōu)?2 V/5 V/3.3 V直流供給服務器各部件所需。由于冗余和負載率限制,電源工作在低效工況下。要提高供電系統(tǒng)效率,應從減少系統(tǒng)空載損耗、精簡轉換環(huán)節(jié)入手。
(1)高壓直流
直流電網(wǎng)在1887年前仍然占主導地位,但自從喬治·威斯汀豪斯的西屋電氣開始遠距離傳輸交流電后,直流電網(wǎng)供電漸漸退出。數(shù)據(jù)中心供電系統(tǒng)存在著大量的交直流轉換,服務器主要部件最終需要直流電。
系統(tǒng)中UPS直流母線常見標稱電壓為384 V(運行電壓為432 V),服務器PSU升壓斬波電路輸出母線電壓為400 V左右(與UPS直流母線電壓相當),再經(jīng)DC/DC變換至12 V輸出。如果將逆變器移除,并簡化服務器電源,得到如圖2所示系統(tǒng)。
圖2 簡化了的直流供電系統(tǒng)一
UPS和HVDC供電系統(tǒng)對比如表1。
表1 UPS和HVDC對比
通過服務器電源定制化,可將PSU遷移至機架,與機架PDU集成后集中向服務器供給12 V直流電源,形成系統(tǒng)如圖3。
機架電源的集中管理將PSU歸入數(shù)據(jù)中心電源系統(tǒng)范疇,動力系統(tǒng)管理人員擔負起PSU的運維,能夠更加清晰地認識末端負載的運行情況,而業(yè)務系統(tǒng)運維人員也能夠更加專注于自己的領域。
(2)電池組降容
在市電異常時數(shù)據(jù)中心不間斷電源能提供毫秒級的應急電源切換能力,同時保證主后備電源啟動前提供負載臨時供電。所以與基站電源不同,數(shù)據(jù)中心往往配備了固定柴油發(fā)電機作為主后備電源,UPS/開關電源所承擔的任務不再是提供數(shù)小時的通信電力供給,而是填補柴油發(fā)電機啟動和市電恢復需要的短時供電切換間隙。
對某數(shù)據(jù)中心發(fā)電機組進行帶載啟動和恢復測試,得到數(shù)據(jù)如表2。
表2 發(fā)電器啟動測試
根據(jù)柴油發(fā)電機組啟動和市電切換的測試結果,并考慮到設備性能的差異性和維護人員在應急預案執(zhí)行過程中熟練度,蓄電池10~15分鐘容量配置完全可滿足切換需求。根據(jù)蓄電池放電率/放電時間曲線,15分鐘容量配置需要蓄電池組提供1~2C10倍率的放電電流。短時間大電流放電對蓄電池大電流放電能力提出了一定的要求,且超過30%的放電深度對蓄電池的壽命也造成影響。
鐵鋰電池的應用將會滿足這樣的發(fā)展趨勢,可以2C10的電流充放電,最大可達到3C10。經(jīng)試驗,常溫1C10充放電情況下,單體2 000次循環(huán)后容量仍大于80%,且能正常工作在55 ℃的外部環(huán)境下[2]。
蓄電池組降容對于建設投資和運維成本的降低直接而有效,包括系統(tǒng)投資輕量化,日常維護和周期性深度維護人工成本降低。同時節(jié)約大量的機房空間和電源系統(tǒng)充電功率占用的容量空間,間接提高了電源系統(tǒng)的可用率。
(3)混合供電
為保證電力供應的可靠,服務器自身形成了雙電源冗余的供電結構如圖4,還有一些服務器采用4個電源模塊供電。
圖4 服務器冗余電源結構
輸入總線220 V,負載總線12 V,輸出控制模塊通過共享總線分配各自的輸出功率,從而保障在單路故障時服務器工作不受斷電影響。
服務器自身冗余電源的工作方式緩解了前端供電系統(tǒng)的冗余要求,即如果上級供電電源來自兩個不同系統(tǒng),兩個系統(tǒng)不會或者極小可能同時發(fā)生故障,那么這兩個供電系統(tǒng)并不需要部署成一模一樣,可以盡可能發(fā)揮不同供電系統(tǒng)的特長,如一種供電方式在經(jīng)濟性上效果明顯,而另一種在供電可靠性上占據(jù)優(yōu)勢。
高壓直流技術、UPS技術大大提高了供電系統(tǒng)可靠性,雖然效率不斷提高,但交直流轉換難以克服功率器件不斷通斷過程中的各種損耗。交流市電直接供電又不能完全可靠,一類市電全年供電可用率>99.9 315%,全年<6 h的供電中斷對于數(shù)據(jù)中心重要業(yè)務也是難以承受的。
市電直供和電源供電結合形成的系統(tǒng)如圖5。
圖5 交直流混合供電系統(tǒng)可靠性示意圖
高壓直流市電直供混合供電系統(tǒng)中,直流系統(tǒng)(48 V/240 V)在采用N+1的配置下,供電可靠性達到99.99 999%[3],中國移動的336 V標準僅電壓等級不同,可靠性上幾乎沒有區(qū)別。而2013年廣東省城市用戶供電可用率為99.968%[4]。那么負載端供電系統(tǒng)可用率將達到8個9。
能耗方面,系統(tǒng)工作在交流市電主用、高壓直流熱備的運行方式下,正常情況下供電系統(tǒng)的電能損耗僅存在高壓直流設備的靜態(tài)損耗。而兩套同樣的高壓直流設備組成的2N結構系統(tǒng),其可用率僅提高了不到百億分之1,但需要多一倍的電源投資,多占用一倍的機房空間資源,而且在后期的維護過程中,產(chǎn)生更多的人工、設備維保費用。
GreenGrid將服務器電源功耗劃入IT設備總功耗[5],因為服務器電源損耗測量上存在困難。但其實高壓直流技術為更高效的服務器電源策略提供了條件。
高壓直流供電給服務器電源改造提供了可能,服務器電源經(jīng)過PFC的Boost電路或者全橋變換器輸出400 V左右的直流電,再經(jīng)過DC/DC將電壓轉換為12 V輸出。那么如果采用336 V高壓直流供電技術,實際運行電壓為378 V左右,完全可以將PFC的AC/DC模塊精簡,直接連接至DC/DC輸入母線,從而進一步簡化供電回路,降低了整個供電系統(tǒng)轉換損耗。
(1)機房熱源
一臺標稱功率300~400 W的服務器,CPU功耗可以達到260 W左右,所以服務器80%的熱量來自CPU。目前數(shù)據(jù)中心大量服務器機房采用精密空調或者風柜制冷,空氣作為導熱介質分別與服務器發(fā)熱原件熱交換,再和空調翅片進行熱交換,散熱目標不明確,導熱效率明顯較低。
如果能夠改變原有“既冷環(huán)境,又冷設備”的高能耗、粗放式冷卻模式,使服務器設備80%以上的熱量直接通過有效散熱方式導出室外,整體降低數(shù)據(jù)中心30%的能耗,同時有效解決機房熱島和功率密度低等問題。
(2)精確散熱
數(shù)據(jù)中心散熱系統(tǒng)以精確導熱、直接換熱、高效散熱為目標,所以出現(xiàn)了通道隔離技術、水冷背板技術等。拋棄傳統(tǒng)的設備熱量完全通過機房環(huán)境散熱,采用熱管、水/制冷劑為介質,通過高效換熱器件,形成熱量通道,直接傳導至室外,利用自然冷源散熱。
通過“熱管+液體冷卻”方式將服務器主要元器件(CPU、DDR、硬盤等)的熱量帶到室外,主要是通過熱管將服務器主要元器件熱量傳導至液體載冷劑,再由液體載冷劑將熱量帶到室外。由于服務器主要元器件溫度較高(50~70 ℃),已經(jīng)遠高于夏季最高室外空氣溫度(廣東夏季約35 ℃),所以通過大溫差并利用熱傳導方式可以實現(xiàn)數(shù)據(jù)中心芯片級高效散熱。
服務器主要部件(CPU)熱量由熱管傳熱至熱管換熱模塊,換熱模塊內(nèi)部與純凈水熱交換。
內(nèi)循環(huán)純凈水與外循環(huán)冷卻水組成二級換熱,服務器熱量經(jīng)純凈水帶出機架,在板式換熱器中與室外冷卻水循環(huán)熱交換。
由于核心發(fā)熱量被排除,系統(tǒng)整體能效得到大幅提升:一是機房環(huán)境溫度閾值可提升;二是機架功率密度可提升; 三是由于熱傳導系統(tǒng)動力能耗低,可以有效降低機房空調系統(tǒng)能耗。
根據(jù)以上分析,本文搭建了一套試驗系統(tǒng)如圖6,設計容量為60 kW的IT設備,目前裝機約20 kW(部分假負載)。
圖6 綠色動力系統(tǒng)試驗機房建設模型
如圖7所示,供電系統(tǒng)采用市電直供(主用)+高壓直流(備用)混和供電,正常情況下僅存在高壓直流靜態(tài)功耗和蓄電池組的浮充功耗。
圖7 市電直供+高壓直流混合供電系統(tǒng)結構圖
應用中部署了90 kW的高壓直流設備(含充電功率),200 Ah蓄電池組保證約15分鐘的緊急供電支撐。
服務器電源采用交直流通用電源,輸入范圍交流100 V~240 V/50~60 HZ,直流240 V/5 A。
(1)服務器散熱
在環(huán)境溫度為30 ℃左右、水流量為0.5 L/min的條件下,采用冷卻水散熱,目標將CPU內(nèi)核溫度控制在70 ℃以內(nèi)的安全溫度,如圖8。
圖8 服務器散熱系統(tǒng)
(2)機房散熱
熱量從服務器熱管導出后,經(jīng)內(nèi)循環(huán)水路匯集,通過板式換熱器與外循環(huán)水路進行熱交換,然后送至室外冷卻塔散熱,水路動力由2臺水泵提供動力,如圖9。
圖9 機房散熱系統(tǒng)
(1)監(jiān)控對象
為了開展測試,監(jiān)控系統(tǒng)部署了大量的傳感器、智能儀表,主要監(jiān)控內(nèi)容如表3。
表3 監(jiān)控數(shù)據(jù)
(2)測量結果
經(jīng)測量,當前室外環(huán)境下,CPU保持在50 ℃以下,內(nèi)存溫度在60 ℃以下,機房整體運行在PUE=1.2左右,基本達到了設計目標。由于目前IT負載僅為20 kW左右(設計值的30%),預計IT負荷達到設計目標60 kW時,有更佳的能耗表現(xiàn)。
a.可靠性表現(xiàn)
利用SPECPOWER對服務器CPU進行100%壓力測試(不間斷運行時間約7~8 h),取一天的早中晚三個時間點的測量數(shù)據(jù)(取一天中溫度較高的時間段),如表4。
表4 不同時間點CPU的環(huán)境數(shù)據(jù)測量
b.能效表現(xiàn)
測試時機房作為封閉環(huán)境,測試期間室內(nèi)溫度基本維持在30 ℃以內(nèi),4機架中間配置的精密行間空調處于備用狀態(tài),未達到輔助制冷門限。這種情況下的能效數(shù)據(jù)如表5。
表5 封閉環(huán)境下機房的能效數(shù)據(jù)
考慮到裝機負荷提高后,服務器部分元器件也有一定的散熱需求,屆時啟用輔助空調冷卻,PUE值會略有上升,估算指標將維持在1.2~1.3。
本課題針對新型數(shù)據(jù)中心綠色動力系統(tǒng),從供電系統(tǒng)、散熱系統(tǒng)和監(jiān)控系統(tǒng)三個組成部分論述了目前數(shù)據(jù)中心、數(shù)據(jù)機房在能耗上存在的一些問題;同時展開了理論分析和研究,提出了交流市電直供+高壓直流混合供電模式、基于熱傳導技術的機房散熱技術和更加主動的動環(huán)監(jiān)控系統(tǒng);最后將研究結果在試驗機房實現(xiàn),建成了一套小型的試驗平臺,經(jīng)過初步的測試驗證,達到了預期目標。
參考文獻:
[1]YD/T 5193-2010.互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)工程設計規(guī)范[S].2010.
[2]喬健,李志華. 鐵鋰電池在機房備電系統(tǒng)中的應用[J]. 2014 ,31:110-112.
[3]李典林. 數(shù)據(jù)中心的高壓直流之路[Z].騰訊計算機系統(tǒng)網(wǎng)絡平臺,2012.
[4]中華人民共和國發(fā)改委經(jīng)濟運行調節(jié)局. 南方電網(wǎng)著力加強城市供電可靠性管理取得積極成效[EB/OL]. http://yxj.ndrc.gov.cn/gjyx/dl/201406/t20140624_616196.html.
[5]Harmonizing Global Metrics for Data Center Energy Efficiency[Z]. March 13 2014.
設計應用
Study and Application of a New Datacenter Power and Cooling System
WANG Xu, LI Zhi-feng, LIU Wen-fei, HE Qi-zhen
(Southern Base of China Mobile Communication Group, Guangzhou 510640, China)
Abstract:With the rapid development of information and Internet services, development of datacenter industry speeds up at home and abroad. There are large amounts of infrastructure in datacenters, mainly consisting of power and cooling system. But traditional technique and rough construction mode bring over low efficiency in aspects of investment, operation and maintenance and energy utilization. To solve the problem, this article presents research on structure and principle of power and cooling system, and then introduces a new model of them. A testing system is built and verifies the feasibility of the theory.
Key words:datacenter; power and cooling system; HVDC; heat transmission; high efficiency
中圖分類號:TN86
文獻標識碼:A
文章編號:1009-3664(2015)02-0055-05