柯媛華,成 軍,楊瑛潔,閆 健(.中國建設(shè)銀行北京生產(chǎn)園區(qū)管理辦公室,北京 000;.環(huán)球電信資本合伙控股有限公司,香港 999077;.中訊郵電咨詢設(shè)計院有限公司,北京 00048)
隨著信息通信技術(shù)的發(fā)展,數(shù)據(jù)中心的單柜功耗在逐漸攀升。面對數(shù)據(jù)中心的能耗壓力及“雙碳”目標對行業(yè)節(jié)能降碳的要求,工業(yè)和信息化部、國家發(fā)展和改革委員會等有關(guān)部門近年來發(fā)布了一系列關(guān)于數(shù)據(jù)中心節(jié)能、建設(shè)的規(guī)劃和指導(dǎo)意見,其中明確了數(shù)據(jù)中心電能利用效率(PUE)指標要求。目前空調(diào)系統(tǒng)能耗約占數(shù)據(jù)中心總能耗的35%,因此降低數(shù)據(jù)中心空調(diào)系統(tǒng)能耗對實現(xiàn)低PUE 具有重要意義。與現(xiàn)有風冷式空調(diào)先冷環(huán)境再冷設(shè)備的低效制冷方式相比,液冷技術(shù)是通過直接與信息通信設(shè)備發(fā)熱器件(CPU、GPU、DIMM 等)進行換熱,減少路徑冷損耗,是一種更精準的制冷方式,液冷系統(tǒng)相對較高的供回液溫度設(shè)計,可充分利用自然冷源進行散熱,實現(xiàn)高效、綠色制冷,逐漸在數(shù)據(jù)中心領(lǐng)域得到應(yīng)用和推廣。
對數(shù)據(jù)中心而言,熱流密度在不同空間維度上的差異很大。傳統(tǒng)風冷式空調(diào)只能對機房整體或局部環(huán)境溫度進行調(diào)節(jié),但機柜內(nèi)部的服務(wù)器設(shè)備中不同發(fā)熱器件存在較大的發(fā)熱功率梯度,例如,CPU芯片的發(fā)熱功率遠高于其他發(fā)熱元件,而內(nèi)存、PSU等僅占服務(wù)器整體功耗的20%~30%。因此,傳統(tǒng)風冷式空調(diào)會導(dǎo)致不同發(fā)熱器件出現(xiàn)“過冷”或“過熱”的現(xiàn)象,這種無法實現(xiàn)發(fā)熱器件精確制冷的方式只能通過加大機房空調(diào)制冷量或降低送風溫度等方式來降低“過熱”器件的溫度,但這樣會引起過多的能源浪費。
隨著CPU 芯片算力及封裝技術(shù)的不斷發(fā)展,CPU的發(fā)熱功率逐年增長。當前高性能CPU 芯片的表面熱流密度為30~50 W/cm2,但芯片自身結(jié)構(gòu)尺寸不斷縮小,芯片表面的熱流密度將持續(xù)增大,預(yù)測5年后將達到100~150 W/cm2。高性能封裝CPU 芯片的性能預(yù)測(IEEE/IDRS Roadmap2017)如表1所示。
表1 高性能封裝CPU芯片的性能預(yù)測
從數(shù)據(jù)中心橫向及空間維度分析(具體見圖1),數(shù)據(jù)中心功率密度大約比機柜功率密度低1 個數(shù)量級,而機柜的功率密度又比服務(wù)器CPU 芯片功率密度低約1 個數(shù)量級,機房功率密度與CPU 芯片功率密度相差2 個數(shù)量級,因此數(shù)據(jù)中心主要的發(fā)熱源集中在CPU芯片。
圖1 數(shù)據(jù)中心器件熱特性
通過對數(shù)據(jù)中心發(fā)熱器件熱特性進行分析,并結(jié)合液冷技術(shù)的優(yōu)勢,可以發(fā)現(xiàn)針對高功率密度散熱場景,液冷技術(shù)更加適用和高效。相關(guān)研究表明,當CPU 芯片的熱設(shè)計功耗(Thermal Design Power,TDP)不大于50 W 時,宜采用自然散熱方式,當TDP 在50~100 W 時,宜采用風冷散熱方式;當TDP 在100~200 W 時,宜采用精密風冷空調(diào),而當TDP 超過200 W 時,建議采用液冷散熱方式。液冷技術(shù)按照冷卻液是否與發(fā)熱器件(含散熱器)接觸分為直接式液冷技術(shù)和間接式液冷技術(shù)。
2.1.1 直接式液冷技術(shù)
直接式液冷技術(shù)是指通過冷卻液與發(fā)熱器件(含散熱器)接觸式換熱,將發(fā)熱器件的熱量傳遞給冷卻液,最終通過冷卻液的循環(huán)將熱量釋放到大氣環(huán)境中。根據(jù)冷卻液物性參數(shù)的不同,直接液冷技術(shù)分為單相液冷和相變液冷。單相液冷是指冷卻液在與發(fā)熱器件(含散熱器)換熱過程中不發(fā)生相態(tài)變化,而相變液冷是指冷卻液在與發(fā)熱器件(含散熱器)換熱過程中發(fā)生相態(tài)變化。
2.1.2 間接式液冷技術(shù)
間接式液冷技術(shù)是指通過冷卻液與發(fā)熱器件(含散熱器)非接觸式換熱,主要是以熱傳導(dǎo)的方式進行熱量傳遞。由于冷卻液與發(fā)熱器件非接觸式換熱,因此對冷卻液的要求與直接液冷技術(shù)有所不同。
2.2.1 高效能
直接式液冷或間接式液冷技術(shù),其末端或冷卻液更靠近發(fā)熱源,能夠直接把熱量進行轉(zhuǎn)移,實現(xiàn)精準制冷,減少沿程冷損耗。相比于水冷系統(tǒng),液冷系統(tǒng)可以進一步提高供回液溫度設(shè)計值,在部分區(qū)域可實現(xiàn)無壓縮機配置,全年實現(xiàn)自然冷,液冷數(shù)據(jù)中心全年P(guān)UE可低至1.05。
2.2.2 高可靠
美國空軍航空電子整體研究項目(US Air Force Avionics Integrity Program)認為,溫度、振動、濕度和粉塵是導(dǎo)致電子設(shè)備故障的主要因素,其中,溫度引發(fā)的故障率占55%,灰塵引發(fā)的故障率占6%,濕度引發(fā)的故障率占19%,振動引發(fā)的故障率占20%。液冷尤其是直接式液冷技術(shù),將發(fā)熱設(shè)備完全浸沒在不導(dǎo)電冷卻液中,使發(fā)熱設(shè)備完全脫離空氣,避免了風機震動及空氣灰塵的影響,從而使系統(tǒng)具有更高的可靠性。
2.2.3 超靜音
目前,在應(yīng)用液冷技術(shù)時,需要對服務(wù)器進行改造和適配。對于直接式液冷服務(wù)器,需要拆除風扇組件,使系統(tǒng)運行時,無氣流及風扇震動噪聲;而間接式液冷則通過冷板解決了主要發(fā)熱器件的散熱問題,其他熱量通過風扇組件進行氣流循環(huán)換熱。在這種方式下,風扇的轉(zhuǎn)速更低,從而極大地降低了氣流及震動噪聲。
2.2.4 節(jié)約空間
液冷系統(tǒng)適用于AI等高算力場景,采用液冷技術(shù)在同等的空間內(nèi)可部署更高的算力,從而減少物理設(shè)備數(shù)量。液冷系統(tǒng)可采用無壓縮機配置,全年利用自然冷源進行散熱,無需專用動力機房配置,從而降低整體空調(diào)系統(tǒng)的占地面積。
2.3.1 冷板式液冷
冷板式液冷屬于間接式液冷,在應(yīng)用時需對服務(wù)器進行相應(yīng)的改造,其主要解決了高功率密度發(fā)熱器件的散熱問題,對服務(wù)器內(nèi)存、PSU等低功率密度器件仍舊采用風冷散熱。對于冷板式液冷數(shù)據(jù)中心而言,根據(jù)功率密度的不同采用液冷技術(shù)和風冷技術(shù)實現(xiàn)了“分區(qū)”溫控,使數(shù)據(jù)中心空調(diào)系統(tǒng)更加高效、節(jié)能。冷板式液冷按照熱傳遞過程的不同分為溫水式冷板液冷和熱管式冷板液冷2種。目前常用的冷板式液冷服務(wù)器有1U單節(jié)點服務(wù)器、2U 4節(jié)點服務(wù)器等。
溫水式冷板液冷(見圖2 和圖3)存在多個發(fā)熱器件連路的單節(jié)點服務(wù)器,發(fā)熱器件連通管路可采用硬接和軟接2 種方式,硬接方式可采用紫銅或無氧銅進行焊接,但對安裝尺寸及結(jié)構(gòu)要求高,安裝時難度較大。軟管方式可采用波紋管、橡膠管(如FEP/PTFE/EPDM 等材質(zhì))等進行連通,對安裝尺寸及結(jié)構(gòu)要求低,但PCB板需具備軟管固定所需空間。
圖2 溫水式冷板液冷服務(wù)器(硬接)
圖3 溫水式冷板液冷服務(wù)器(軟接)
根據(jù)服務(wù)器算力性能要求及耐溫性,溫水式冷板液冷的供回液設(shè)計溫度可采用40 ℃/45 ℃,或更大散熱溫差,供回液設(shè)計溫度采用40 ℃/50 ℃,因此相比于水冷機房空調(diào),液冷較高的供回液溫度,在大部分區(qū)域可實現(xiàn)全年自然冷,進一步降低數(shù)據(jù)中心能耗,實現(xiàn)低PUE運行。
熱管式冷板液冷(見圖4、圖5 和圖6)主要通過熱管實現(xiàn)發(fā)熱器件與水環(huán)路之間的熱傳導(dǎo),熱管的吸熱端通過固定裝置與發(fā)熱器件貼鄰敷設(shè),熱管的放熱端通過水冷基板把熱量釋放至水環(huán)路中,熱管內(nèi)部液體介質(zhì)一般為相變介質(zhì),可實現(xiàn)周期性的相變循環(huán)。相比于溫水式冷板液冷,水環(huán)路不進服務(wù)器,從而避免了因水滲漏所帶來的PCB板短路風險。
圖4 熱管式冷板液冷服務(wù)器
圖5 熱管
圖6 熱管傳熱原理
冷板(見圖7 和圖8)與發(fā)熱器件之間通過熱傳導(dǎo)的方式實現(xiàn)熱量傳遞。冷板一般是由基板(底座)、上蓋或固定架等組成,基板(底座)一般采用ADC10(壓鑄鋁合金)制成,基板(底座)與上蓋或固定架之間形成密閉的流道腔體,腔體內(nèi)設(shè)有翅片用于強化換熱。根據(jù)腔體內(nèi)強化換熱方式的不同,冷板可分為埋管式、銑槽道式、擾流片式、微通道式。冷板與發(fā)熱器件之間通常填充導(dǎo)熱硅脂或金屬墊片以加強導(dǎo)熱。相對于直接式液冷技術(shù)(如浸沒式液冷、噴淋式液冷等),冷板式液冷技術(shù)對服務(wù)器改造的工程量較少且更易實施。
圖7 上蓋或固定架示例
圖8 基板(底座)及流道示例
2.3.2 浸沒式液冷
浸沒式液冷屬于直接式液冷,服務(wù)器所有低功率密度發(fā)熱器件和高功率密度發(fā)熱器件完全浸沒在冷卻液中。對于單相浸沒式液冷(見圖9),冷卻液環(huán)路實現(xiàn)液冷機柜與冷量分配單元之間的連通,而相變浸沒式液冷通過在液冷柜內(nèi)設(shè)置冷凝器,管內(nèi)為冷卻水,氣化的冷卻液遇冷液化滴落至液冷柜實現(xiàn)循環(huán)。相變浸沒式液冷原理如圖10 所示,Tank 液冷柜如圖11所示。
圖9 單相浸沒式液冷
圖10 相變浸沒式液冷
圖11 Tank浸沒艙
由于服務(wù)器完全浸沒在冷卻液中,包括服務(wù)器本身的結(jié)構(gòu)設(shè)計及特殊的器件如光模塊、機械硬盤等均需要特殊處理,圖12所示為浸沒液冷PCB 板對光模塊進行封裝處理,圖13所示為浸沒液冷柜對線纜進行密封處理。不同于風冷式機架服務(wù)器,在對服務(wù)器設(shè)備進行維護操作時,浸沒式液冷柜宜采用專用吊臂車對服務(wù)器進行取出或存放(見圖14)。
圖13 密封線纜
圖14 服務(wù)器吊臂車維護操作示例
2.3.3 噴淋式液冷
噴淋式液冷(見圖15、圖16)屬于直接式液冷,由于其自上而下采用噴淋式結(jié)構(gòu)設(shè)計,目前被廣泛應(yīng)用于機架式服務(wù)器。噴淋液體能夠完全覆蓋服務(wù)器發(fā)熱器件,同時根據(jù)不同發(fā)熱器件的功率密度,可以對噴淋板上的液孔進行精準化開孔設(shè)計,以滿足不同功率發(fā)熱器件的散熱需求。相比于浸沒式液冷,噴淋式液冷的每臺服務(wù)器獨立化液冷設(shè)計,不需要改變現(xiàn)有的機架式服務(wù)器部署形態(tài)。噴淋式液冷所需的冷卻液總量較少,降低了對建筑承重的要求,目前噴淋式液冷采用較多的冷卻液是硅油、礦物油或植物油等,相比于浸沒式液冷用電子氟化液成本較低。
圖15 噴淋式液冷原理
圖16 噴淋式液冷服務(wù)器
2.3.4 霧化噴射式液冷
霧化噴射式液冷是目前學(xué)術(shù)研究的重要方向,相比于現(xiàn)有的液冷技術(shù),霧化噴射液冷是更為高效的CPU散熱技術(shù),但目前仍處于研究階段,尚未有成品應(yīng)用,其原理是通過霧化噴管借助高壓氣體(氣助噴射)或依賴液體本身的壓力(壓力噴射)使液體霧化,將其強制噴射到發(fā)熱物體表面,從而實現(xiàn)對物體的有效冷卻。這種冷卻方式換熱強烈,具有很高的臨界熱流密度值(CHF),且冷卻均勻,適用于一些對溫度要求很嚴格的領(lǐng)域(如在微電子、激光技術(shù)、國防、航天技術(shù)等),并顯出獨特的優(yōu)勢和重要性。研究表明,當液流噴射速度達到47 m/s 時,其散熱能力高達1 700 W/cm2,霧化噴射式液冷原理如圖17所示。
圖17 霧化噴射式液冷原理
溫水冷板式液冷用冷卻用水一般采用去離子水、甲醇、乙二醇、丙三醇、氨等,其主要物性參數(shù)如表2所示。
表2 冷板式液冷冷卻用水部分物性參數(shù)
從表2 可以看出,去離子水是比較理想的冷卻液材料,但若能在去離子水中添加少許乙二醇、丙三醇等黏度較大的液體,可改善其性能,提高其比熱容、導(dǎo)熱系數(shù),降低揮發(fā)性,從而改善冷卻效果,使水冷散熱器的散熱效果更加顯著,提高其開發(fā)和應(yīng)用價值。
目前,3M 和Shell 等企業(yè)都在生產(chǎn)單相冷卻液。其中,3M 的冷卻液為氟化液,而Shell 的冷卻液是由天然氣制成的合成油,屬于碳氫化合物。部分電子氟化液(單相)主要物性參數(shù)如表3所示。
表3 電子氟化液(單相)部分物性參數(shù)
單相冷卻液通常沸點較高,以確保冷卻液在循環(huán)散熱過程中始終保持液態(tài)。氟碳化合物和碳氫化合物(如礦物油、硅油、植物油等)均可用于單相冷卻液。
目前相變冷卻液較多采用了3M 公司的電子氟化液,電子氟化液部分型號的物性參數(shù)見表4。
相變冷卻液充分利用了冷卻液的蒸發(fā)潛熱,可以滿足高功率密度發(fā)熱器件對散熱的極端要求,使信息通信設(shè)備可以保持滿功率運行。但相變的存在也使得相變液冷系統(tǒng)必須保持密閉,以防止蒸汽外溢流失,同時必須考慮相變過程導(dǎo)致的氣壓變化,以及系統(tǒng)維護時維護人員吸入氣體的健康風險。
直接式液冷技術(shù)冷卻液與服務(wù)器內(nèi)部發(fā)熱器件直接接觸,因此服務(wù)器內(nèi)部器件及所使用的材質(zhì)需要進行改造和適配,以滿足冷卻液與材質(zhì)的兼容性。目前,直接式液冷技術(shù)所使用的服務(wù)器都是通過常規(guī)服務(wù)器進行改造而成的,如對PSU、SUB、VGA 等線路接口進行改造等。對于機械硬盤及光模塊等性能受冷卻液影響的器件,需要進行獨立的封裝設(shè)計或更換。
與直接式液冷技術(shù)不同,間接式液冷技術(shù)僅解決了CPU、GPU 等高功率密度發(fā)熱器件的散熱問題,而對服務(wù)器內(nèi)存、PSU 等低功率密度發(fā)熱器件仍舊采用風冷散熱。因此對于間接式液冷數(shù)據(jù)中心,需要同時配置風冷精密空調(diào)和液冷空調(diào)系統(tǒng),以滿足數(shù)據(jù)中心“分區(qū)”溫控需求,通常建議液冷占比達60%以上。
液冷占比是指液冷系統(tǒng)中直接通過液體帶走的熱量(功耗)與設(shè)備總功耗的比值。液冷占比體現(xiàn)液冷系統(tǒng)直接利用液體冷卻帶走熱量的效率,液冷占比越高,冷卻效率越高,推薦采用高液冷占比的系統(tǒng),以提升能源利用效率。
式中,LPE 為液冷性能效率,簡稱液冷占比;PL 為直接液冷功耗(是直接由液冷帶走的冷卻功耗);P0為系統(tǒng)總功耗,包含直接液冷功耗和風冷功耗2部分。
目前液冷技術(shù)應(yīng)用主要集中在超算中心、AI 等高算力場景,在數(shù)據(jù)中心領(lǐng)域尚處于推廣應(yīng)用階段,但隨著能耗管控壓力及PUE 限令的執(zhí)行,液冷將逐漸成為一種綠色、低碳、高效的數(shù)據(jù)中心制冷解決方案。目前液冷技術(shù)應(yīng)用較多的方式是采用“風液配比”策略,既在風冷式數(shù)據(jù)中心采用部分液冷技術(shù),既可以降低數(shù)據(jù)中心整體PUE 以滿足建設(shè)或運行要求,又可以控制建設(shè)投資。
由于液冷技術(shù)高效的散熱方式,液冷系統(tǒng)設(shè)計供液溫度普遍在40 ℃以上,供回液溫差為3~10 ℃,相比于水冷系統(tǒng)(供水溫度12 ℃或18 ℃)提高了供液溫度,減少了中間環(huán)節(jié)的溫差換熱損失,提高了系統(tǒng)自然冷源的時間利用。
與傳統(tǒng)的風冷空調(diào)不同,應(yīng)用液冷技術(shù)時,必須充分考慮液冷系統(tǒng)運行的安全性、操作和維護的方便性以及防止泄漏的措施。此外,在數(shù)據(jù)中心應(yīng)用液冷技術(shù)時,應(yīng)充分考慮設(shè)備的散熱功率和成本投資等因素,或者結(jié)合現(xiàn)有數(shù)據(jù)中心的制冷空調(diào)方式,選擇適合的液冷應(yīng)用(如冷板式、浸沒式、噴淋式等)及“風液配比”,以提高或滿足數(shù)據(jù)中心最大化的節(jié)能效益。