周煒丹 郭傳江
[摘 要]本文主要介紹了南京大學(xué)大氣科學(xué)學(xué)院高性能計算及海量數(shù)據(jù)中心機(jī)房的建設(shè)和運(yùn)維管理實(shí)例,對比討論了當(dāng)前普通高校下屬院系自建機(jī)房的合理性,并對相關(guān)工作改進(jìn)和發(fā)展做出了探討,旨在為相關(guān)研究提供借鑒。
[關(guān)鍵詞]高性能計算;自建機(jī)房;運(yùn)維管理
doi:10.3969/j.issn.1673 - 0194.2019.14.103
[中圖分類號]TP308[文獻(xiàn)標(biāo)識碼]A[文章編號]1673-0194(2019)14-0-02
0? ? ?引 言
現(xiàn)代大氣科學(xué)為實(shí)現(xiàn)對天氣和氣候過去狀態(tài)的模擬及未來狀態(tài)的預(yù)報或預(yù)估,需要將控制大氣運(yùn)動的動力學(xué)控制方程組數(shù)學(xué)模型離散化,借助計算機(jī)計算時間積分。自1950年ENIAC成功計算數(shù)值天氣預(yù)報起,數(shù)值模式越來越精密和復(fù)雜,對計算和存儲的需求越來越高。隨著經(jīng)濟(jì)和技術(shù)條件進(jìn)步,各單位自建機(jī)房變得更常見。本文結(jié)合校屬學(xué)院自建機(jī)房建設(shè)及運(yùn)維管理實(shí)例,討論了近年來的使用經(jīng)驗(yàn),并與其他計算及存儲解決方案進(jìn)行對比,探討了自建機(jī)房未來發(fā)展的前景。
1? ? ?學(xué)院機(jī)房建設(shè)概況
南京大學(xué)自2010年起建有校級高性能計算集群平臺,大氣科學(xué)學(xué)院自行購置科研用途的服務(wù)器、存儲系統(tǒng)等專用IT設(shè)備更早。學(xué)院自建的高性能計算及海量數(shù)據(jù)中心機(jī)房(以下簡稱學(xué)院機(jī)房)工程自2013年參照國家標(biāo)準(zhǔn)開始實(shí)施,2014年暑期投入使用。機(jī)房正式運(yùn)行面積232 m2,包括(79+69) m2主機(jī)房兩間及UPS間、電池室、消防鋼瓶室,另有68 m2作為二期工程預(yù)留。機(jī)房工程以學(xué)科建設(shè)經(jīng)費(fèi)為主,總投入約650萬元人民幣,主要子系統(tǒng)組成見表1,空調(diào)、UPS、集中監(jiān)控等主要配套設(shè)備設(shè)計壽命8~10年,機(jī)房建設(shè)方提供3年免費(fèi)質(zhì)保。后續(xù)招標(biāo)的配套設(shè)備維保每年支出在工程總價的5%以內(nèi)。
2? ? ?機(jī)房使用及運(yùn)維管理現(xiàn)狀
目前,主機(jī)房內(nèi)已經(jīng)安裝500余臺IT設(shè)備,機(jī)柜空間利用率約85%。各種設(shè)備品牌型號多,采購?fù)緩郊澳甏稚?,少部分為全學(xué)院共享,其余為學(xué)院內(nèi)各課題組自行購置。大多數(shù)機(jī)房服務(wù)器運(yùn)行Linux系統(tǒng),主要依靠開源、免費(fèi)或自行編寫的應(yīng)用軟件,用于科學(xué)計算及數(shù)據(jù)分析,多為雙路CPU/2RU規(guī)格,另有數(shù)套高密度刀片式服務(wù)器,總計算能力約100 TFlops(雙精度)。存儲服務(wù)器主要為使用3.5英寸機(jī)械硬盤的SAN存儲,絕大部分通過光纖或SAS通道直接連接至服務(wù)器HBA擴(kuò)展卡,另有數(shù)套并行存儲系統(tǒng)為中小型高性能集群服務(wù),總?cè)萘考s20 PB。機(jī)房網(wǎng)絡(luò)對外由10 GbE光纖接入校園網(wǎng),對內(nèi)以GbE速率下行交換機(jī)居多,另有少量10 GbE設(shè)備。部分服務(wù)器通過40/56 Gbps IB高速低延遲互聯(lián)組成高性能并行集群,目前有數(shù)套1 000左右CPU計算核心規(guī)模的集群和更小規(guī)模300左右CPU計算核心的集群。集群并行計算一般通過MPI,與本學(xué)科主流方案相同,運(yùn)行成熟軟件方便,同時也與學(xué)校平臺環(huán)境類似,可以較方便地遷移程序至學(xué)校平臺執(zhí)行更大規(guī)模的任務(wù)。隨著信息技術(shù)深入發(fā)展,網(wǎng)絡(luò)安全形勢日益嚴(yán)峻。為防范非法入侵、同時減少對高速數(shù)據(jù)傳輸?shù)挠绊懀瑱C(jī)房還配備全并行處理的NGFW(Next Generation Fire Wall)防火墻和堡壘機(jī)系統(tǒng)。前者用于機(jī)房對外網(wǎng)絡(luò)出入管控,后者用于學(xué)院公共平臺等重要系統(tǒng)的訪問認(rèn)證與安全審計。目前,機(jī)房有兩名工作人員,自2014年以來,突發(fā)意外需要大面積關(guān)機(jī)的情況平均每年不到一次,均為空調(diào)故障導(dǎo)致,因及時處置未造成IT設(shè)備損壞。
3? ? ?自建機(jī)房與其他購買服務(wù)方式的對比
筆者所在學(xué)院的各科研項(xiàng)目對并行計算和數(shù)據(jù)存儲都有較大需求。一般中小規(guī)模的計算學(xué)院機(jī)房內(nèi)設(shè)備可滿足,較大規(guī)模的計算可交由學(xué)校大型平臺或校外超算中心計算。大規(guī)模并行計算后期海量數(shù)據(jù)的長期存儲和分析仍主要在學(xué)院機(jī)房內(nèi)進(jìn)行,以低成本、高可靠、大容量為主要需求。以學(xué)校計算平臺為例,其計算能力是學(xué)院機(jī)房的總和,但存儲系統(tǒng)以高速高性能為主,總?cè)萘績H有學(xué)院機(jī)房的1/10左右。
目前,高校機(jī)房常見的其他可選項(xiàng)包括自購硬件托管至校外商業(yè)機(jī)房,購買校外超算中心的計算服務(wù),采購“云計算”服務(wù)等。學(xué)院機(jī)房目前平均運(yùn)行功率約180 kW,PUE值約1.7。每年電費(fèi)、配套維保和運(yùn)維薪資合計后,每月維持費(fèi)用約
100元/RU,僅為托管至校外商業(yè)機(jī)房的幾分之一。與從校外超算中心購買機(jī)算服務(wù)相比,校內(nèi)平臺收費(fèi)標(biāo)準(zhǔn)略低于校外,且數(shù)據(jù)經(jīng)內(nèi)部網(wǎng)絡(luò)傳輸快,對產(chǎn)生海量數(shù)據(jù)應(yīng)用非常重要。超算中心一般不提供大規(guī)模存儲,與采購“云計算”服務(wù)相比,以阿里云ECS為例,零散付費(fèi)計算機(jī)的單價較校外超算中心還要高約50%,即使按最大優(yōu)惠5年整包,機(jī)時單價也僅與校內(nèi)平臺優(yōu)惠后零散單價相當(dāng),同時校內(nèi)包括學(xué)院內(nèi)的集群內(nèi)部高性能互聯(lián)速率更快,更有利于大規(guī)??茖W(xué)計算任務(wù)。在存儲方面,阿里云32 TB高效云盤5年整包價34萬余元,比學(xué)院機(jī)房采用的方案總費(fèi)用高出一個數(shù)量級。
與已經(jīng)規(guī)模化的商業(yè)方案比,對特定的計算和存儲需求而言,學(xué)院自建機(jī)房仍有優(yōu)勢。究其原因,可解釋為高校院系仍以公益類科研為主,成本投入占很大比例,包括機(jī)房建設(shè)、設(shè)備采購甚至人力成本等,并不以直接經(jīng)營收入為考核出發(fā)點(diǎn)。
4? ? ?對學(xué)院機(jī)房相關(guān)工作進(jìn)一步發(fā)展的探討
學(xué)院機(jī)房按較高標(biāo)準(zhǔn)籌建,基本順應(yīng)了近年來技術(shù)發(fā)展、科研投入增加和需求快速增長的趨勢。結(jié)合實(shí)際規(guī)劃未來,在以下方面的工作可做進(jìn)一步改善和提高。
(1)學(xué)校和學(xué)院的資源環(huán)境、機(jī)房規(guī)模等決定了可投入的人力物力無法與大型數(shù)據(jù)中心相比,但可考慮開發(fā)適用于本地軟硬件環(huán)境、易于部署的運(yùn)維自動化功能,提高機(jī)房運(yùn)行的安全性和可靠性,使運(yùn)維管理人員將更多精力轉(zhuǎn)移到學(xué)習(xí)與研究如何提升各類設(shè)備利用效能上來。
(2)新的數(shù)據(jù)中心設(shè)計規(guī)范國家標(biāo)準(zhǔn)已于2018年開始實(shí)施,結(jié)合了數(shù)據(jù)中心發(fā)展趨勢、經(jīng)驗(yàn)以及新技術(shù),修訂了電氣、空調(diào)、環(huán)境等方面的內(nèi)容,對學(xué)院已建機(jī)房具有一定的參考借鑒意義。例如,可以參考新標(biāo)準(zhǔn)適度提高空調(diào)設(shè)定溫度,同時監(jiān)控各設(shè)備溫度變化,在安全范圍內(nèi)降低空調(diào)系統(tǒng)負(fù)荷,節(jié)約能源。同時,還可考慮在空調(diào)室外機(jī)處加裝水噴霧系統(tǒng),以期同時達(dá)成節(jié)能和減少空調(diào)設(shè)備故障率。
(3)目前,各課題組設(shè)備分散,研究生自行管理水平參差不齊。高校應(yīng)將公共平臺為核心和范例,逐步推動全院設(shè)備管理與資源融合,減少閑置。
(4)雖然學(xué)院機(jī)房在運(yùn)行成本、性能等方面有特定優(yōu)勢,但對于特定需求,如公開數(shù)據(jù)共享、下載數(shù)據(jù)預(yù)處理等,仍可考慮與商業(yè)“云計算”服務(wù)相結(jié)合,運(yùn)維管理工作可從機(jī)房內(nèi)向外拓展,充分利用和整合內(nèi)外各種條件,滿足未來需求。
主要參考文獻(xiàn)
[1]游偉倩,盛樂標(biāo),張予倩.南京大學(xué)高性能計算集群系統(tǒng)管理與運(yùn)維研究[J].中國設(shè)備工程,2018(22).
[2]中國電子工程設(shè)計院.電子信息系統(tǒng)機(jī)房設(shè)計規(guī)范:GB50174-2008[S].北京:中國計劃出版社,2009.
[3]趙立成,沈文海,肖華東,等.高性能計算技術(shù)在氣象領(lǐng)域的應(yīng)用[J].應(yīng)用氣象學(xué)報,2016(5).
[4]游偉倩,盛樂標(biāo),張予倩.南京大學(xué)大型高性能計算集群平臺建設(shè)研究[J].科技創(chuàng)新導(dǎo)報,2018(4).
[5]游偉倩,盛樂標(biāo),周慶林,等.高性能計算集群存儲系統(tǒng)搭建方式的對比研究[J].電腦知識與技術(shù),2018(9).
[6]湖南大學(xué)國家超級計算長沙中心.關(guān)于超算中心收費(fèi)執(zhí)行標(biāo)準(zhǔn)的通知[EB/OL].(2018-08-03)[2019-03-28].http://nscc.hnu.edu.cn/info/1004/1282.htm.
[7]中國電子工程設(shè)計院.數(shù)據(jù)中心設(shè)計規(guī)范:GB50174-2017[S].北京:中國計劃出版社,2017.
[8]邱培剛.空調(diào)室外機(jī)水噴霧節(jié)能技術(shù)在大型通信局所的應(yīng)用[J].電信技術(shù),2010(8).