文 / 劉佳 王興虎 張玉
科學(xué)計算已成為與理論分析和科學(xué)實驗并列的第三種科學(xué)研究方法,是促進重大科學(xué)發(fā)現(xiàn)和社會經(jīng)濟發(fā)展的戰(zhàn)略性支撐技術(shù)。高性能計算中心是利用高性能計算平臺和技術(shù)開展科學(xué)計算、支撐科技創(chuàng)新的基地,對于推動科學(xué)研究、工程應(yīng)用和經(jīng)濟發(fā)展具有不可或缺的作用。
2020年,南京航空航天大學(xué)(簡稱“南航”)正式成立校級高性能計算中心,以“服務(wù)科研應(yīng)用,兼顧教學(xué)實驗”為工作導(dǎo)向,結(jié)合校情完成一期建設(shè)并投入運行,并且在運維管理、科研服務(wù)、課程開發(fā)等方面開展了一系列有益的實踐與探索。
南京航空航天大學(xué)作為一所以工為主、理工結(jié)合、多學(xué)科協(xié)調(diào)發(fā)展、具有航空航天民航特色的研究型大學(xué),對高性能計算有著天然且旺盛的應(yīng)用需求,但卻長期為以下問題所困擾:
1.建設(shè)和管理的主體不明確,缺乏統(tǒng)一規(guī)劃;
2.整體計算資源匱乏,只有少量院系或課題組建設(shè)了計算集群,且以自用為主,算力有限,地點分散,配置差異大,難以共享;
3.經(jīng)費少的院系無力獨自承擔(dān)計算集群的建設(shè)、使用和維護工作;
4.計算集群多由非專業(yè)人員管理,應(yīng)用水平低,安全風(fēng)險高;
5.計算集群多由教師和研究生使用,本科生基本無緣接觸此類設(shè)備。
為推動學(xué)科發(fā)展,促進創(chuàng)新研究,滿足師生對高性能計算資源和服務(wù)的迫切需求,南航以“服務(wù)科研應(yīng)用,兼顧教學(xué)實驗”為工作導(dǎo)向,由信息化處負責(zé),從平臺建設(shè)、科研服務(wù)、課程建設(shè)和實驗室建設(shè)4個方面打造校級高性能計算中心(簡稱“中心”)。中心建設(shè)構(gòu)架見圖1,其中:
圖1 高性能計算中心建設(shè)構(gòu)架
1.平臺建設(shè)重點在于建立校級高性能計算平臺,合理購置和部署相關(guān)軟硬件,開展人員培訓(xùn),是中心建設(shè)的根基和載體;
2.科研服務(wù)重點在于根據(jù)學(xué)校學(xué)科建設(shè)的要求和特點,為科研項目和工程應(yīng)用提供計算資源、部署計算軟件,以及其他相關(guān)的技術(shù)支持和服務(wù);
3.課程建設(shè)重點在于沿著高性能計算的行業(yè)應(yīng)用和技術(shù)發(fā)展兩條主線,由淺入深開設(shè)課程,推動高性能計算在學(xué)校的教學(xué)發(fā)展;
4.實驗室建設(shè)重點在于一方面輔助課程建設(shè),開設(shè)相應(yīng)的實驗課程;另一方面為師生提供高性能計算環(huán)境和培訓(xùn),推動自主創(chuàng)新活動。
高性能計算平臺是整個高性能計算中心的核心,是融合了計算、網(wǎng)絡(luò)、存儲和軟件的綜合體系。南航高性能計算平臺(下文簡稱“平臺”)一期采用浪潮天梭TS10000集群,整體架構(gòu)見圖2。
圖2 高性能計算平臺架構(gòu)
師生用戶通過網(wǎng)絡(luò)遠程登錄到平臺的管理節(jié)點上提交計算作業(yè);作業(yè)調(diào)度系統(tǒng)根據(jù)計算作業(yè)的請求分配計算資源,執(zhí)行和管理計算作業(yè);計算結(jié)果保存在存儲系統(tǒng)中,供用戶取回和處理。
平臺的計算資源包括:
1.CPU節(jié)點62個,每個節(jié)點配置2顆Intel Xeon 6248 20核2.5GHz處理器;其中33個節(jié)點配置192GB內(nèi)存,29個節(jié)點配置384G內(nèi)存。
2.GPU節(jié)點31個,其中29個為4卡節(jié)點,每個節(jié)點配置2顆Intel Xeon 4210 10核2.4GHz處理器、192GB內(nèi)存、4塊NVIDIA Tesla V100 32GB GPU卡;2個為8卡節(jié)點,每個節(jié)點配置2顆Intel Xeon 6248 20核2.5GHz處理器、192GB內(nèi)存、8塊NVIDIA Tesla V100 32GB GPU卡。
平臺的理論雙精度峰值浮點計算能力達到1173.3Tflops,其中CPU部分249.3Tflops,GPU部分924Tflops。
平臺的網(wǎng)絡(luò)系統(tǒng)包括100G計算網(wǎng)、萬兆帶內(nèi)管理網(wǎng)和千兆帶外IPMI網(wǎng)3套網(wǎng)絡(luò)。
1.100G計算網(wǎng)以1臺Mellanox QM8790 InfiniBand交換機為核心,配備HDR 200G/s端口,采用Splitter Cables連接HDR100 100G/s端口,實現(xiàn)所有計算節(jié)點和存儲節(jié)點之間100G高速互聯(lián)。
2.萬兆帶內(nèi)管理網(wǎng)采用3臺48口萬兆接入交換機,實現(xiàn)所有節(jié)點10G接入,并通過40G端口上連至1臺匯聚交換機實現(xiàn)集群互通。在計算網(wǎng)出現(xiàn)故障時,萬兆帶內(nèi)管理網(wǎng)可以作為臨時的計算網(wǎng)絡(luò),保障計算作業(yè)正常運行。
3.IPMI網(wǎng)采用3臺48口千兆接入交換機,下連至各節(jié)點BMC獨立管理端口,并通過10G端口上連至匯聚交換機,實現(xiàn)集群IPMI管理互通。
平臺的存儲系統(tǒng)采用聯(lián)想DSS-G220存儲系統(tǒng),包含2臺SR650 IO節(jié)點及4臺磁盤擴展柜,裸容量達1PB。通過GPFS文件系統(tǒng)實現(xiàn)高性能IO,讀寫帶寬均可達20GB/s。
平臺選用CentOS 7.6 64位版操作系統(tǒng),使用Slurm作業(yè)調(diào)度系統(tǒng)管理計算作業(yè),將用戶請求的計算作業(yè)分配到合適的計算節(jié)點上運行。
平臺部署了高性能計算必需的集群并行環(huán)境、編譯調(diào)試環(huán)境和開發(fā)軟件包,安裝了學(xué)校各學(xué)科領(lǐng)域常用的開源或商用軟件,并對常用軟件配置了modulefile以方便加載應(yīng)用軟件所需的環(huán)境變量。
平臺管理系統(tǒng)(見圖3)提供用戶管理、計費管理、作業(yè)管理、資產(chǎn)管理等模塊,實時監(jiān)控計算資源的分配占用、計算作業(yè)的運行調(diào)度、計算設(shè)備的工作情況等數(shù)據(jù)。
圖3 高性能計算平臺管理系統(tǒng)
機房環(huán)境監(jiān)控系統(tǒng)負責(zé)監(jiān)控機房的溫濕度、用電量、水浸、煙火、電力配送、UPS、精密空調(diào)、備用電池等數(shù)據(jù)或設(shè)備,是保障安全和實現(xiàn)高性能計算平臺高可用的重要系統(tǒng)。其提供的數(shù)據(jù)還是平臺系統(tǒng)調(diào)優(yōu)、節(jié)能降耗的重要依據(jù)。
為保障平臺安全、平穩(wěn)、有效運行,信息化處發(fā)布和實施了一系列規(guī)章制度,主要包括《高性能計算平臺服務(wù)管理辦法》《高性能計算中心機房安全管理規(guī)定》《高性能計算室管理條例》等,從不同層次、不同角度規(guī)范了平臺的服務(wù)和管理。
鑒于中心成立時間短且事項繁雜,專職人員少且較難招募,運維管理采用了“校內(nèi)專人+服務(wù)外包”的模式。
校內(nèi)專人:由學(xué)校在職人員專職從事中心和平臺的管理工作,包括:設(shè)備現(xiàn)場巡檢;用戶的開戶激活、協(xié)議簽訂、費用結(jié)算、技術(shù)支持;學(xué)校相關(guān)政策和制度的制定、執(zhí)行和解答等。校內(nèi)專人具有航空航天學(xué)科背景和學(xué)術(shù)能力,同時具備高性能計算的使用經(jīng)驗,既可以從專業(yè)角度幫助指導(dǎo)用戶開展計算工作,又可以在師生用戶和運維團隊之間起到溝通橋梁的作用。
服務(wù)外包:由專業(yè)的高性能計算服務(wù)廠商承擔(dān)平臺的運維工作,包括:設(shè)備遠程和現(xiàn)場巡檢;平臺管理、作業(yè)調(diào)度等系統(tǒng)的維護與開發(fā);計算軟件的安裝與維護;用戶技術(shù)支持與培訓(xùn),如作業(yè)腳本糾錯、失敗作業(yè)分析、計算軟件測試運行等。
用戶通過學(xué)校網(wǎng)上辦事大廳“高性能計算平臺用戶申請”流程申請開戶,登記項目信息和軟硬件需求,并與中心簽訂使用協(xié)議,以獲得平臺使用權(quán)。開戶流程見圖4。
圖4 高性能計算平臺用戶申請流程
平臺將為用戶建立獨立的訪問目錄,用戶之間相互隔離,不能訪問他人的目錄和作業(yè)內(nèi)容。用戶可以在自己的目錄中上傳、下載數(shù)據(jù)文件,提交計算作業(yè),也可以安裝計算所需要的軟件,而不使用平臺提供的軟件版本。用戶必須通過作業(yè)管理系統(tǒng)提交作業(yè)、查詢計算隊列和計算結(jié)果,嚴禁繞過作業(yè)管理系統(tǒng)使用計算資源。
中心提供的科研服務(wù)包括科學(xué)計算和仿真計算,覆蓋學(xué)校所有理工科學(xué)院、科研技術(shù)部門和部分文科學(xué)院。服務(wù)內(nèi)容主要包括:
1.一對一技術(shù)支持:中心為每個簽訂使用協(xié)議的老師設(shè)立用戶組(老師及其學(xué)生各自擁有獨立的平臺賬號,但歸于同一個用戶組之下),單獨建立微信群,在微信群里配置學(xué)校專職人員和運維廠商技術(shù)人員,指導(dǎo)用戶正確合理地使用平臺,幫助用戶解決計算中出現(xiàn)的各類問題,提高技術(shù)支持的針對性和時效性。
2.定期提醒:定期檢查運行中的計算作業(yè),根據(jù)各個用戶組的計算作業(yè)特點對超時的長任務(wù)(如計算時常超過1個月)或者出現(xiàn)錯誤的計算作業(yè),及時提醒用戶檢查作業(yè)情況,終止錯誤作業(yè),節(jié)約計算經(jīng)費。
3.用戶培訓(xùn):通過多種形式培訓(xùn)用戶,包括在中心官網(wǎng)發(fā)布和及時修訂平臺資源信息和用戶手冊,定期開展線下用戶培訓(xùn)等活動。
4.圖形化節(jié)點:針對多數(shù)仿真計算用戶使用圖形化軟件進行仿真建模和結(jié)果數(shù)據(jù)處理等工作的習(xí)慣,平臺單獨配置1個圖形化節(jié)點,與存儲系統(tǒng)打通,安裝帶GUI的CentOS系統(tǒng)以及常用仿真軟件的圖形化版本,使用體驗與Windows版本一致。用戶遠程登錄此節(jié)點,便可以直接在平臺上處理模型和計算數(shù)據(jù),取回處理后的結(jié)果數(shù)據(jù)或圖形圖像,既符合用戶的操作習(xí)慣,又節(jié)省了下載和處理數(shù)據(jù)的時間,解決了數(shù)據(jù)量過大時用戶難以下載到本地處理等問題。
5.計算室建設(shè):配合南航“一校兩地四區(qū)”的辦學(xué)格局,為各學(xué)院建設(shè)了20個高性能計算室,通過獨立光纖與平臺直接連接,實現(xiàn)高速穩(wěn)定的網(wǎng)絡(luò)接入,解決通過校園網(wǎng)等公共網(wǎng)絡(luò)訪問平臺時用戶多、網(wǎng)速慢的問題。
除了為《云計算》《人工智能》《分布與并行計算》等課程提供教學(xué)和實驗平臺,中心還積極探索新工科背景下的新型教學(xué)思路,推進本科生高性能計算相關(guān)課程實踐,與公共實驗教學(xué)部協(xié)同,面向?qū)W校長空學(xué)院開展“高性能計算平臺探索”教學(xué)活動。
活動包括參觀高性能計算中心、高性能計算宣講、計算作業(yè)操作演示等環(huán)節(jié),每次安排本科生70人,時間1.5小時,共有800多人參加,通過體驗科學(xué)計算和工程應(yīng)用案例,提高了本科生對高性能計算的認知水平。中心還為100多名本科生安排了1.5小時的上機操作課程,讓學(xué)生親自執(zhí)行計算作業(yè),體會平臺的計算能力和使用的難易程度,破除學(xué)生眼中高性能計算的神秘感,推廣平臺應(yīng)用。
中心本著“堅持共享原則,打通共享渠道,實現(xiàn)共享結(jié)算,降低使用成本”的原則,在平臺建設(shè)伊始就積極參與學(xué)校大型儀器設(shè)備共享工作。與國資處協(xié)調(diào)制定了平臺收費標準、使用與結(jié)算流程(見圖5),并與學(xué)校大型儀器設(shè)備共享平臺(簡稱“大儀平臺”)同期建設(shè),完成了“高性能計算平臺->大儀平臺->財務(wù)平臺”的無縫對接,成為最早落地大儀平臺,落實大儀共享的校級平臺。
圖5 高性能計算平臺使用及結(jié)算流程
通過向大儀平臺定時推送計算日志數(shù)據(jù)等技術(shù)手段,實現(xiàn)了:1.計算作業(yè)查詢與統(tǒng)計、賬單制作與結(jié)算、服務(wù)協(xié)議管理等功能;2.基于用戶組的多種使用模式的作業(yè)計費;3.“高性能計算平臺使用->大儀平臺結(jié)算->財務(wù)平臺繳費”全流程管理。通過開放共享,平臺實際使用機時、經(jīng)費結(jié)算等指標在學(xué)校大型儀器設(shè)備中遙遙領(lǐng)先。
平臺于2020年6月上線運行,全校師生廣泛參與,注冊用戶超過540人,覆蓋學(xué)校所有理工科學(xué)院和專業(yè)技術(shù)部門。承載科研項目400余項,基本覆蓋學(xué)校全部理工類學(xué)科,有效滿足了航空航天、機械設(shè)計、電氣工程、電子信息、材料科學(xué)、人工智能、數(shù)理基礎(chǔ)等學(xué)科的計算需求,對航空航天相關(guān)學(xué)科的支撐尤為明顯。項目的學(xué)院和學(xué)科分布見圖6。
圖6 項目的學(xué)院分布和學(xué)科分布
學(xué)校立項建設(shè)高性能計算平臺后,已不再批準各單位自行建設(shè)高性能計算的相關(guān)采購。經(jīng)初步估算,累計節(jié)約建設(shè)經(jīng)費約500萬元,累計節(jié)約計算費近80萬元。
平臺上線以來,累計完成計算作業(yè)近190萬個(圖7),累計完成計算量超過2090萬核時,每個作業(yè)平均計算量在10核時左右。其中最長的作業(yè)占用CPU資源40核,運行2229小時,計算量達89189核時,充分驗證了平臺的穩(wěn)定性和可靠性。
圖7 計算作業(yè)數(shù)量統(tǒng)計
將計算隊列的作業(yè)數(shù)和核時數(shù)餅圖(圖8)對比可發(fā)現(xiàn):1.計算作業(yè)主要由CPU完成,占比達96%,針對這種情況,中心已啟動二期建設(shè),擴充CPU節(jié)點。2.雖然GPU作業(yè)數(shù)量只占3.56%,但核時數(shù)占比達18.8%,說明每個GPU作業(yè)的計算量都非常大。
圖8 計算隊列的作業(yè)數(shù)和核時數(shù)對比
從作業(yè)狀態(tài)的作業(yè)數(shù)和核時數(shù)餅圖(圖9)對比可見,95%以上的作業(yè)能夠正常完成(COMPLETED)。但取消(CANCELLED)的作業(yè)所占的核時達到了43%,說明存在不少試算、程序錯誤、計算不收斂且耗時長的作業(yè),中心針對這種情況提供了定期提醒服務(wù)。
從作業(yè)核數(shù)-作業(yè)數(shù)、作業(yè)核數(shù)-核時數(shù)(圖10)的對比中發(fā)現(xiàn),雖然使用10核以下計算資源完成的作業(yè)數(shù)占比達94.6%,但核時數(shù)只占4.6%。而40核以上的多核計算貢獻了絕大部分的計算量,占比達86.2%,是平臺應(yīng)用的主力和中心關(guān)注的重點。
圖10 核數(shù)-作業(yè)、核數(shù)-核時對比
通過兩年的探索和實踐,南京航空航天大學(xué)高性能計算中心圍繞平臺建設(shè)、運維管理、科研服務(wù)和課程建設(shè),建立了穩(wěn)定高效的工作模式,形成了校級平臺應(yīng)有的服務(wù)保障能力,推動了學(xué)校高性能計算的應(yīng)用和發(fā)展。通過運營數(shù)據(jù)分析,證明了優(yōu)秀的計算資源、創(chuàng)新的服務(wù)模式、專業(yè)的技術(shù)支持是吸引用戶,提高平臺利用率,促進高性能計算中心發(fā)展的關(guān)鍵因素。