當(dāng)前,我國(guó)經(jīng)濟(jì)已由高速增長(zhǎng)轉(zhuǎn)向高質(zhì)量發(fā)展階段,數(shù)字經(jīng)濟(jì)正深刻地改變著人類生產(chǎn)和生活方式。作為產(chǎn)業(yè)升級(jí)的新動(dòng)能,企業(yè)數(shù)字化轉(zhuǎn)型在迎來發(fā)展新機(jī)遇的同時(shí),也對(duì)信息產(chǎn)業(yè)的持續(xù)創(chuàng)新和突破發(fā)展提出了更高要求。
曙光信息產(chǎn)業(yè)股份有限公司作為在中國(guó)科學(xué)院大力推動(dòng)下組建的國(guó)家高新技術(shù)企業(yè),是中國(guó)高性能計(jì)算、服務(wù)器、云計(jì)算、大數(shù)據(jù)領(lǐng)域的領(lǐng)軍企業(yè)。自成立以來,曙光的服務(wù)器、存儲(chǔ)、安全、數(shù)據(jù)中心等計(jì)算產(chǎn)品、 解決方案及云計(jì)算、大數(shù)據(jù)、人工智能、先進(jìn)計(jì)算服務(wù)已被廣泛應(yīng)用于政府、能源、互聯(lián)網(wǎng)、教育、氣象、醫(yī)療及公共事業(yè)等社會(huì)各個(gè)領(lǐng)域。
其中,在深圳市氣象局超級(jí)計(jì)算中心項(xiàng)目中,曙光用優(yōu)質(zhì)的產(chǎn)品、專業(yè)的服務(wù)交上了令深圳市氣象局乃至氣象局業(yè)主們滿意的答卷,也為深圳市乃至整個(gè)粵港澳大灣區(qū)帶來了更高效的計(jì)算能力、更精細(xì)化的氣象預(yù)報(bào)水平,更為城市的防災(zāi)減災(zāi)工作、智慧城市的建設(shè)和數(shù)字經(jīng)濟(jì)的發(fā)展作出了巨大貢獻(xiàn)。
天氣預(yù)報(bào),“準(zhǔn)”字當(dāng)先。但對(duì)深圳市氣象局來說,一套2010年采購(gòu)的超級(jí)計(jì)算機(jī),其計(jì)算性能及存儲(chǔ)容量已經(jīng)遠(yuǎn)不能滿足業(yè)務(wù)開展和科研創(chuàng)新的運(yùn)行需求。隨著氣象局業(yè)務(wù)種類的日益增加、各行各業(yè)對(duì)預(yù)報(bào)水平精細(xì)化要求的日益提高,深圳市氣象局需建立一個(gè)氣象預(yù)報(bào)更精準(zhǔn)、氣象業(yè)務(wù)更智慧便民、氣象研究更深入的新一代氣象超級(jí)計(jì)算平臺(tái)。
在充分了解深圳市氣象局業(yè)務(wù)模式和功能需求后,曙光快速成立專項(xiàng)業(yè)務(wù)組,并制定了可大幅度縮減項(xiàng)目交付周期的部署流程,確保了新氣象超級(jí)計(jì)算平臺(tái)快速、穩(wěn)定的交付使用。在具體實(shí)施過程中,曙光HPC產(chǎn)品事業(yè)部氣象行業(yè)技術(shù)團(tuán)隊(duì)充分發(fā)揮新氣象超級(jí)計(jì)算平臺(tái)的計(jì)算能力,在整體提高天氣預(yù)報(bào)精確性的同時(shí),定制化編制了詳細(xì)完善的遷移方案,保障氣象業(yè)務(wù)系統(tǒng)的順利遷移,確保超級(jí)計(jì)算平臺(tái)與氣象局業(yè)務(wù)系統(tǒng)的完美匹配和結(jié)合。
曙光氣象超級(jí)計(jì)算平臺(tái)的核心優(yōu)勢(shì),主要體現(xiàn)在計(jì)算性能、網(wǎng)絡(luò)性能、存儲(chǔ)性能、冷卻技術(shù)和綠色節(jié)能、行業(yè)應(yīng)用模式研究、專業(yè)在線服務(wù)等多個(gè)方面。而在此次項(xiàng)目中, 最大的突破創(chuàng)新主要有以下兩點(diǎn):
1.冷板式液冷——打破高性能計(jì)算平臺(tái)運(yùn)算力瓶頸的節(jié)能關(guān)鍵
眾所周知,傳統(tǒng)數(shù)據(jù)中心的散熱方式是風(fēng)冷,即通過空調(diào)或風(fēng)扇設(shè)備,借助降低空氣溫度、加快冷空氣流速等方式直接對(duì)流走計(jì)算設(shè)備運(yùn)行所產(chǎn)生的熱量。隨著超級(jí)計(jì)算機(jī)的發(fā)展,芯片的集成度和計(jì)算的速度愈來愈高,與此相對(duì)應(yīng)的是計(jì)算設(shè)備運(yùn)行所產(chǎn)生的熱量也越來越高。為了降低溫度,數(shù)據(jù)中心不得不部署更多的風(fēng)冷設(shè)備降溫,與之相伴的高能耗已經(jīng)成為數(shù)據(jù)中心建設(shè)的最大難點(diǎn)。
而且,當(dāng)熱流密度大于10瓦每平方厘米時(shí),風(fēng)冷技術(shù)就無(wú)能為力了。散熱技術(shù)的天花板,已成為制約服務(wù)器和數(shù)據(jù)中心發(fā)展的瓶頸。如何才能突破風(fēng)冷散熱極限,滿足滿載工作的服務(wù)器的散熱需求,成為了擺在全世界高性能計(jì)算機(jī)研發(fā)人員面前的一道難題。
曙光依托多年來在服務(wù)器研發(fā)制造領(lǐng)域所積累的深厚經(jīng)驗(yàn),引入先進(jìn)理念與技術(shù),潛心研發(fā),于2015年率先推出了冷板式液冷服務(wù)器TC4600E-LP。該款服務(wù)器是國(guó)內(nèi)首款實(shí)現(xiàn)產(chǎn)品化、商業(yè)化的液冷服務(wù)器,也是國(guó)內(nèi)首款實(shí)現(xiàn)量產(chǎn)和大規(guī)模商業(yè)應(yīng)用的液冷服務(wù)器。
實(shí)現(xiàn)精確制冷
對(duì)服務(wù)器而言,CPU是其主要發(fā)熱源,其次為內(nèi)存,通過冷板式液冷技術(shù),將制冷系統(tǒng)由機(jī)房外部轉(zhuǎn)移到服務(wù)器內(nèi)部,分別針對(duì)CPU和內(nèi)存進(jìn)行散熱,實(shí)現(xiàn)了部件級(jí)的精確制冷。
提高散熱效率
與空氣相比,液體的比熱容更大,導(dǎo)熱系數(shù)更高,傳熱效率是空氣的1000~3000倍,因此液冷散熱效率遠(yuǎn)遠(yuǎn)高于風(fēng)冷散熱。
節(jié)能降耗
與傳統(tǒng)風(fēng)冷散熱模式相比,使用液冷技術(shù)的CPU在滿載工作時(shí)核溫降低了20℃,降低了30%-40%的基礎(chǔ)設(shè)施冷卻能耗,數(shù)據(jù)中心整體 PUE 值可達(dá)1.2 以下。
提升服務(wù)器性能
在傳統(tǒng)風(fēng)冷散熱模式下,CPU的運(yùn)行溫度高達(dá)80℃至90℃,而使用冷板式液冷散熱的CPU,滿載運(yùn)行溫度可維持在40℃至50℃。不僅可以使CPU的性能提高約5%,完全釋放CPU的超頻性能,并且可以延長(zhǎng)器件的使用壽命。
降低噪聲
經(jīng)第三方權(quán)威機(jī)構(gòu)檢測(cè),曙光液冷服務(wù)器TC4600E-LP(僅CPU采用液冷)的滿載運(yùn)行噪音小于60dB,比普通服務(wù)器降低約30dB左右。這得益于曙光液冷服務(wù)器采用液冷+風(fēng)冷混合散熱的模式,90%以上的熱量可通過液冷方式帶走,其它元器件散發(fā)的不到10%的熱量仍然采用風(fēng)冷散熱方式,因此對(duì)服務(wù)器內(nèi)部風(fēng)扇的轉(zhuǎn)速要求大大降低,風(fēng)扇的功耗和噪聲也隨之減小。
降低TCO
采用液冷散熱模式的數(shù)據(jù)中心,在初期建設(shè)時(shí)成本比傳統(tǒng)風(fēng)冷散熱模式高15%左右(含服務(wù)器與基礎(chǔ)設(shè)施)。但因液冷散熱模式能耗更低,在正常情況下,采用液冷散熱模式的數(shù)據(jù)中心運(yùn)營(yíng)3年左右,其間所節(jié)省的運(yùn)營(yíng)費(fèi)用即可與初期多投入的成本抵消,其后每年所節(jié)省的運(yùn)營(yíng)費(fèi)用都可視為正收益。除此之外,如果將采用液冷散熱模式所帶來的服務(wù)器性能的提升也折算到收益當(dāng)中,那么約2年左右即可收回初期建設(shè)時(shí)多投入的成本。
方便維護(hù)
液冷服務(wù)器全部部件均采用熱插拔設(shè)計(jì),其安裝和維護(hù)與普通服務(wù)器相近。同時(shí),為保障產(chǎn)品的可靠性,所有接口部件均采用自封閉無(wú)滴漏的接口技術(shù),且液冷系統(tǒng)內(nèi)部具備完善的漏液監(jiān)測(cè)和處理機(jī)制,大大縮減了維護(hù)成本,降低了維護(hù)難度。
2.分布式存儲(chǔ)——來自ParaStor存儲(chǔ)方案的核心優(yōu)勢(shì)
曙光ParaStor分布式存儲(chǔ)系統(tǒng)是基于一種開放式的存儲(chǔ)架構(gòu),將多臺(tái)物理存儲(chǔ)設(shè)備的存儲(chǔ)空間虛擬成一個(gè)具有統(tǒng)一訪問接口和管理界面的存儲(chǔ)池。應(yīng)用服務(wù)器通過統(tǒng)一訪問接口(NFS/CIFS/POSIX/HDFS)獲得所需要的存儲(chǔ)資源,將用戶數(shù)據(jù)按照一定的負(fù)載均衡策略,均勻地分布到后端的存儲(chǔ)設(shè)備上,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)的并行讀寫,并獲得更高的并發(fā)訪問性能。同時(shí),所有的存儲(chǔ)設(shè)備在WEB界面中進(jìn)行統(tǒng)一的管理和監(jiān)控,大大減輕管理工作負(fù)擔(dān)。
液冷方案的關(guān)鍵優(yōu)勢(shì):
單一命名存儲(chǔ)空間,集中化共享虛擬存儲(chǔ)池;Scale-out擴(kuò)展方式,性能和容量隨數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn)數(shù)量的增加而線性增長(zhǎng);支持高并發(fā)IO,提供高達(dá)數(shù)百TB/s級(jí)的聚合帶寬;單一命名空間支持千億級(jí)文件數(shù)量;全冗余架構(gòu)、糾刪碼等多種數(shù)據(jù)保護(hù)機(jī)制,無(wú)單點(diǎn)故障。
如今,深圳市氣象局超級(jí)計(jì)算平臺(tái)的部署及運(yùn)行,不僅大幅度提升了氣象數(shù)據(jù)計(jì)算的速度和精度,讓氣象信息采集點(diǎn)倍數(shù)級(jí)密度增加成為可能,實(shí)現(xiàn)了天氣預(yù)報(bào)精準(zhǔn)化、精細(xì)化,更實(shí)現(xiàn)了對(duì)氣象高風(fēng)險(xiǎn)區(qū)域的實(shí)時(shí)監(jiān)測(cè)、實(shí)況通報(bào)及定時(shí)定點(diǎn)定量預(yù)估的“點(diǎn)對(duì)點(diǎn)”預(yù)報(bào)服務(wù),滿足了氣象數(shù)據(jù)運(yùn)算及預(yù)報(bào)多元化需求的全覆蓋。同時(shí),運(yùn)算能力的跨越式提升,讓大區(qū)域氣象數(shù)據(jù)的整合處理、存儲(chǔ)、查詢、分析和統(tǒng)計(jì)成為可能,實(shí)現(xiàn)了氣象趨勢(shì)預(yù)報(bào)的深度挖掘和分析,讓天氣趨勢(shì)的預(yù)測(cè)更加完善、更為準(zhǔn)確。這是曙光高性能計(jì)算業(yè)務(wù)在氣象行業(yè)應(yīng)用、高性能項(xiàng)目的實(shí)施與部署、新型液冷解決方案的建設(shè)上又一份扎實(shí)的實(shí)戰(zhàn)經(jīng)驗(yàn),也是曙光立足核心技術(shù)、賦能數(shù)字經(jīng)濟(jì),堅(jiān)持創(chuàng)新驅(qū)動(dòng)、強(qiáng)化基礎(chǔ)支撐,為中國(guó)企業(yè)數(shù)字化轉(zhuǎn)型和數(shù)字經(jīng)濟(jì)發(fā)展提供創(chuàng)新空間和強(qiáng)大動(dòng)力的經(jīng)典案例。
曙光,依托自身科研實(shí)力和創(chuàng)新能力,推動(dòng)“百城百行”數(shù)據(jù)化進(jìn)程,帶動(dòng)產(chǎn)業(yè)創(chuàng)新,服務(wù)社會(huì)轉(zhuǎn)型。通過深耕計(jì)算產(chǎn)業(yè)的研究探索,不斷打造計(jì)算、數(shù)據(jù)、智能、安全四大領(lǐng)域的數(shù)字經(jīng)濟(jì)核心技術(shù),形成垂直一體化生態(tài),賦能各領(lǐng)域數(shù)字化轉(zhuǎn)型與產(chǎn)業(yè)變革,讓全社會(huì)共享數(shù)據(jù)價(jià)值,為中國(guó)數(shù)字經(jīng)濟(jì)發(fā)展提供強(qiáng)勁動(dòng)力。