趙奇奇
(上海超級計(jì)算中心,上海 201203)
進(jìn)入信息社會,人類對數(shù)據(jù)處理的要求越來越高,為了滿足科學(xué)計(jì)算、工程計(jì)算等海量數(shù)據(jù)的處理需求,超級計(jì)算機(jī)被廣泛應(yīng)用到各行各業(yè)。2019年7月“魔方-3”高性能計(jì)算機(jī)在上海超級計(jì)算中心建成并投入使用?!澳Х?3”能顯著提升上海超算的計(jì)算能力,為天文氣象、生命科學(xué)、能源勘探等領(lǐng)域的模擬計(jì)算提供有力支撐。
為了保障“魔方-3”的穩(wěn)定運(yùn)行,提高運(yùn)維效率,需要有一套能對軟硬件進(jìn)行監(jiān)控管理的系統(tǒng)。由于上海超級計(jì)算中心是一個面向社會的開放計(jì)算平臺,應(yīng)用場景紛繁復(fù)雜。而主機(jī)廠商提供的集群管理軟件作為一套通用化的軟件,并沒有針對上海超算的應(yīng)用場景進(jìn)行優(yōu)化和定制,日常使用過程中存在諸多不便。正是在這樣的需求推動下,上海超級計(jì)算中心系統(tǒng)運(yùn)維部組織開發(fā)了一套適合超算中心運(yùn)行模式的主機(jī)運(yùn)維管理平臺。
主機(jī)運(yùn)維管理平臺采用瀏覽器/服務(wù)器(B/S)結(jié)構(gòu)[1]。平臺的運(yùn)行離不開數(shù)據(jù)的支撐,本平臺的基本數(shù)據(jù)主要分成2大類:集群硬件數(shù)據(jù)和用戶作業(yè)數(shù)據(jù)。平臺通過調(diào)用“魔方-3”的IPMI(Intelligent Platform Management Interface)管理網(wǎng)絡(luò)接口獲取集群運(yùn)行的溫度、CPU、內(nèi)存、硬盤、網(wǎng)絡(luò)等硬件信息,通過IBM Platform LSF作業(yè)調(diào)度軟件接口獲取用戶作業(yè)運(yùn)行信息,并將獲取的信息進(jìn)行組織、篩選、分析,最終實(shí)現(xiàn)平臺的各項(xiàng)功能。各類數(shù)據(jù)的采集頻率可根據(jù)集群運(yùn)行狀況隨時調(diào)節(jié),獲取數(shù)據(jù)之后定時導(dǎo)入MySQL數(shù)據(jù)庫。用戶通過終端瀏覽器訪問Web服務(wù)器獲取數(shù)據(jù)庫里的信息,如圖1所示。
Figure 1 Framework of Magic Cube-3 maintenance and management platform圖1 “魔方-3”運(yùn)維管理平臺架構(gòu)
平臺采用模塊化架構(gòu),針對功能需要動態(tài)性、可擴(kuò)展性,構(gòu)建運(yùn)維管理平臺軟件模塊“熱插拔”機(jī)制,靈活應(yīng)對平臺的動態(tài)擴(kuò)展需求。這種模塊插件架構(gòu)體系的核心理念是基于松散的模塊積累方式,通過新增模塊插件以及升級原有模塊插件的方法來完善平臺的功能。一個模塊的更新不需要對整個運(yùn)維管理平臺進(jìn)行重新編譯,不會影響其它模塊。模塊插件架構(gòu)體系的優(yōu)點(diǎn)非常明顯,像硬件一樣即插即用。在開發(fā)的初期只需劃分好模塊,只要遵循接口協(xié)議,就能開發(fā)出互不影響的模塊插件,方便開發(fā)和調(diào)試;由于其靈活性,可以實(shí)現(xiàn)平臺的靈活定制,當(dāng)需要新增功能或者修改功能時,只需要對相應(yīng)模塊插件進(jìn)行修改即可實(shí)現(xiàn),為平臺的后續(xù)擴(kuò)展帶來了極大的靈活度。
目前平臺集成了機(jī)房運(yùn)維、集群監(jiān)控、自動巡檢和數(shù)據(jù)統(tǒng)計(jì)分析4大模塊。為了提升操作便利性,顯示內(nèi)容直觀明了,該平臺采用了基于Web的圖形界面。使用者只要通過Web Portal登錄運(yùn)維管理平臺,點(diǎn)擊鼠標(biāo)打開界面即可獲取當(dāng)前主機(jī)運(yùn)行狀況,包括各結(jié)點(diǎn)CPU使用率、集群當(dāng)前負(fù)載、各隊(duì)列作業(yè)數(shù)量等眾多信息,可生成統(tǒng)計(jì)分析報(bào)表,也可對集群的軟硬件故障進(jìn)行處置。
硬件配置:Intel Xeon E5-2620,32 GB 內(nèi)存,雙網(wǎng)卡獨(dú)立服務(wù)器;
操作系統(tǒng):選用CentOS release 6.4版本;
數(shù)據(jù)庫軟件:選用MySQL共享版;
服務(wù)器端軟件:選用Tomcat;
主機(jī)端開發(fā)工具:Java、shell腳本語言;
服務(wù)器端開發(fā)工具:選用Java、JSP語言、echart繪圖插件。
主機(jī)運(yùn)維管理平臺通過數(shù)據(jù)采集引擎對多種采集方式進(jìn)行封裝,并對底層硬件以及作業(yè)調(diào)度軟件進(jìn)行數(shù)據(jù)采集。在保存這些信息時引入硬件池、指標(biāo)池、線程池和數(shù)據(jù)池概念,對采集的各類數(shù)據(jù)進(jìn)行分類存儲,從而搭建運(yùn)維管理平臺的采集框架。通過采集框架對數(shù)據(jù)進(jìn)行統(tǒng)一分發(fā),為上層監(jiān)控、巡檢、統(tǒng)計(jì)分析等模塊提供數(shù)據(jù)支撐。
“魔方-3”擁有管理網(wǎng)絡(luò)、IPMI網(wǎng)絡(luò)[1]和OPA(Omni-Path Architecture)計(jì)算存儲網(wǎng)絡(luò)3套網(wǎng)絡(luò)系統(tǒng),如圖2所示。其中IPMI由千兆以太網(wǎng)組成網(wǎng)絡(luò),并通過一臺萬兆交換機(jī)匯聚所有千兆IPMI交換機(jī)。刀箱通過管理模塊的千兆網(wǎng)口接入IPMI網(wǎng)絡(luò)。系統(tǒng)管理員通過計(jì)算結(jié)點(diǎn)的IPMI網(wǎng)絡(luò)接口和機(jī)柜中的IPMI監(jiān)控交換機(jī)構(gòu)建IPMI遠(yuǎn)程管理網(wǎng)絡(luò)。通過IPMI網(wǎng)絡(luò)接口,對集群內(nèi)各個結(jié)點(diǎn)的CPU、內(nèi)存、硬盤、網(wǎng)卡、功耗、溫度等信息進(jìn)行采集監(jiān)控,以實(shí)現(xiàn)日志歷史查詢、遠(yuǎn)程開關(guān)機(jī)、遠(yuǎn)程訪問結(jié)點(diǎn)圖形界面等功能。
Figure 2 IPMI topographic map of Magic Cube-3圖2 “魔方-3”的IPMI網(wǎng)絡(luò)拓?fù)鋱D
“魔方-3”預(yù)裝了Gridview軟件,開機(jī)后啟動Gridview服務(wù)進(jìn)程,該軟件會通過IPMI網(wǎng)絡(luò)采集集群硬件信息并導(dǎo)入Gridview自帶的數(shù)據(jù)庫。系統(tǒng)管理員可以通過Gridview數(shù)據(jù)庫接口和Gridview API接口2種方式來獲取實(shí)時硬件信息。
利用mysqldump命令遠(yuǎn)程登錄Gridview的數(shù)據(jù)庫安裝節(jié)點(diǎn),獲取并壓縮數(shù)據(jù);通過管道符號將傳回的數(shù)據(jù)導(dǎo)入“魔方-3”運(yùn)維管理平臺的數(shù)據(jù)庫。例如:“mysqldump-h 遠(yuǎn)程ip-u用戶名-p密碼-P 指定端口--opt--compress 數(shù)據(jù)表--skip-lock-tables | mysql-h 本地ip-u用戶名-p密碼 本地?cái)?shù)據(jù)庫”。這種方法的優(yōu)點(diǎn)是獲取數(shù)據(jù)簡便直接,可以通過一次傳輸獲取所有的硬件信息。缺點(diǎn)是在后期進(jìn)行數(shù)據(jù)篩選時,需要知曉Gridview源數(shù)據(jù)庫中每個字段以及對應(yīng)數(shù)值的含義,耦合性較高。
Gridview API接口為HTTP形式,支持HTTP協(xié)議。接口采用基于HTTP cookie與session用戶認(rèn)證機(jī)制,調(diào)用接口時需要先調(diào)用登錄接口進(jìn)行登錄,服務(wù)器將在cookie中返回登錄的會話信息,在調(diào)用接口時將會話信息同時傳遞。默認(rèn)返回結(jié)果為JSON格式,接口中定義的對象都將轉(zhuǎn)換為JSON格式,字符編碼格式為UTF-8。數(shù)據(jù)返回時客戶端首先需要判斷HTTP響應(yīng)的狀態(tài)碼(Status Code),如果狀態(tài)碼為404,500這一類請求錯誤狀態(tài),則按照瀏覽器等常用HTTP客戶端的慣例處理;如果返回狀態(tài)碼為200,表示服務(wù)器處理正常。返回結(jié)果的對象屬性基本類型如下:string:字符型;integer:數(shù)值型;boolean:布爾型true/false。對象在接口中都將被轉(zhuǎn)換為JSON格式,對象的屬性為key,對象實(shí)例值為value。例如,機(jī)房對象實(shí)際格式為:
{"id":10001,"name":"room001","displayName":"Data Center","description":"This is the first Data Center"}。
“魔方-3”集群選用IBM Platform LSF作為作業(yè)調(diào)度軟件來統(tǒng)一管理和調(diào)度所有軟硬件資源,同時監(jiān)控并收集用戶作業(yè)信息。作業(yè)信息分為運(yùn)行中作業(yè)信息和已完成作業(yè)信息。運(yùn)行中作業(yè)信息保存在LSF服務(wù)器的內(nèi)存中,可通過LSF命令行形式輸出作業(yè)信息。已完成作業(yè)信息以文本形式保存在lsb.acct文件中。
獲取LSF作業(yè)數(shù)據(jù)的方式有2種:一是通過ElasticSearch分布式的搜索與數(shù)據(jù)分析引擎,這種方式需要另外安裝elasticsearch-head客戶端;二是通過LSF提供的命令行腳本方式獲取。在此本文選用第2種方式。
使用bjobs-u all-r命令可獲取運(yùn)行中作業(yè)信息,但默認(rèn)輸出的格式并不符合本文的要求,需要用awk、sed等文本處理工具進(jìn)行篩選、轉(zhuǎn)換后將數(shù)據(jù)保存到文件,然后導(dǎo)入數(shù)據(jù)庫。bacct命令可輸出已完成作業(yè)信息,同樣需要對輸出格式進(jìn)行篩選轉(zhuǎn)換再導(dǎo)入數(shù)據(jù)庫。本文在調(diào)試作業(yè)采集腳本時發(fā)現(xiàn),LSF提供的bacct命令隨著歷史作業(yè)的累積增加,輸出的數(shù)據(jù)量非常龐大,頻繁運(yùn)行bacct命令會使服務(wù)器負(fù)載上升,輸出響應(yīng)時間變長,影響數(shù)據(jù)采集效率。LSF的作業(yè)記賬信息是保存在lsb.acct文件中的,當(dāng)執(zhí)行bacct這個命令腳本時其實(shí)會去讀取lsb.acct的內(nèi)容并且輸出作業(yè)信息,那么可以改用Java程序直接讀取lsb.acct文件內(nèi)容,僅篩選截取本文需要的數(shù)據(jù)內(nèi)容,并按既定格式輸出數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫[3]。這樣可以大大降低服務(wù)器負(fù)載,提高數(shù)據(jù)采集效率。
“魔方-3”運(yùn)維管理平臺實(shí)現(xiàn)的功能均基于“魔方-3”集群運(yùn)維需求,可按使用者角色和應(yīng)用場景提供不同的功能,顯示界面簡潔直觀,具有良好的交互性和操作體驗(yàn),如圖3所示。
平臺主要功能模塊如下所示:
(1)系統(tǒng)監(jiān)控模塊。
(2)自動巡檢模塊。
(3)機(jī)房運(yùn)維管理模塊。
(4)數(shù)據(jù)統(tǒng)計(jì)分析模塊。
Figure 3 Home page of Magic Cube-3 maintenance and management platform圖3 魔方-3運(yùn)維管理平臺
系統(tǒng)監(jiān)控模塊可分為2類,一類是對“魔方-3”集群的硬件運(yùn)行狀態(tài)進(jìn)行監(jiān)控,另一類是對集群上運(yùn)行的作業(yè)和隊(duì)列進(jìn)行監(jiān)控。
硬件監(jiān)控主要對集群CPU利用率、內(nèi)存利用率、磁盤I/O利用率和網(wǎng)絡(luò)I/O利用率等進(jìn)行監(jiān)控。圖4所示監(jiān)控界面又分為單結(jié)點(diǎn)監(jiān)控和全機(jī)監(jiān)控、實(shí)時監(jiān)控和歷史監(jiān)控。“魔方-3”集群一共有21個機(jī)柜。每一小方格代表一個計(jì)算結(jié)點(diǎn),根據(jù)結(jié)點(diǎn)CPU利用率的高低,小方格的顏色會發(fā)生變化,利用率為0~50顯示綠色,利用率為51~80顯示黃色,利用率為80以上顯示紅色。左下方的3個圓形碼表顯示集群全機(jī)實(shí)時CPU使用率、內(nèi)存使用率和1分鐘負(fù)載。右下方的柱狀圖以小時為單位顯示集群全機(jī)歷史使用率,時間軸長度為12小時。
Figure 4 Monitoring interface of Magic Cube-3 maintenance and management platform圖4 運(yùn)維管理系統(tǒng)監(jiān)控界面
圖5所示作業(yè)監(jiān)控系統(tǒng)實(shí)時顯示“魔方-3”集群各個作業(yè)隊(duì)列中運(yùn)行的作業(yè)。界面左側(cè)以核數(shù)進(jìn)行分塊,每個計(jì)算結(jié)點(diǎn)32核,全機(jī)共35 840核。不同用戶提交的作業(yè)用不同顏色顯示,當(dāng)前有哪些作業(yè)運(yùn)行在哪些結(jié)點(diǎn)上、共占用了多少核數(shù)可一目了然。右側(cè)的柱狀圖滾動顯示當(dāng)前提交作業(yè)的用戶單位、賬號、核數(shù)、作業(yè)數(shù)等信息。下方的餅圖按作業(yè)占用核數(shù)的比例顯示全機(jī)運(yùn)行的作業(yè)規(guī)模分布,按0~4核、5~16核、17~64核、65~128核、129~512核來劃分。
Figure 5 Job state of Magic Cube-3 maintenance and management platform圖5 “魔方-3”運(yùn)維管理平臺作業(yè)監(jiān)控界面
圖6所示為隊(duì)列監(jiān)控界面,上方以柱狀圖的形式顯示“魔方-3”集群各隊(duì)列中運(yùn)行作業(yè)和排隊(duì)作業(yè)的數(shù)量,時間軸長度為3天。通過這種形式可直觀反映集群各隊(duì)列作業(yè)排隊(duì)和運(yùn)行情況,為今后隊(duì)列調(diào)整提供參考依據(jù)。下方滾動顯示作業(yè)ID、用戶賬號、作業(yè)名、提交隊(duì)列、占用核數(shù)、作業(yè)狀態(tài)、結(jié)點(diǎn)號等實(shí)時信息。
Figure 6 Queue state of Magic Cube-3 maintenance and management platform圖6 “魔方-3”運(yùn)維管理平臺隊(duì)列監(jiān)控界面
自動巡檢功能是通過IPMI管理網(wǎng)絡(luò)和SNMP及采集代理對計(jì)算刀片、機(jī)箱、功能結(jié)點(diǎn)、磁盤陣列、網(wǎng)絡(luò)交換機(jī)等硬件設(shè)備的運(yùn)行指標(biāo)進(jìn)行定時采集[4],并通過自動巡檢引擎進(jìn)行數(shù)據(jù)篩選和分析。如果發(fā)現(xiàn)設(shè)備異常,會觸發(fā)主動報(bào)警,以此實(shí)現(xiàn)7*24小時的集群全面監(jiān)控,保障集群的正常運(yùn)行。系統(tǒng)管理員可通過Web客戶端界面查看自動巡檢引擎的返回信息,如圖7和圖8所示,直觀掌握各類設(shè)備的運(yùn)行狀態(tài),并可以依據(jù)獲取的監(jiān)控?cái)?shù)據(jù)對設(shè)備狀態(tài)進(jìn)行分析,預(yù)測集群運(yùn)行風(fēng)險(xiǎn)和隱患,提高運(yùn)維管理的效率,保障集群始終運(yùn)行在穩(wěn)定的健康狀態(tài)。自動巡檢主要監(jiān)測項(xiàng)目如表1所示。
Figure 7 Fault list of Magic Cube-3 maintenance and management platform圖7 “魔方-3”運(yùn)維管理平臺故障列表
Figure 8 Troubleshooting interface of Magic Cube-3 maintenance and management platform圖8 “魔方-3”運(yùn)維管理平臺故障處理界面
當(dāng)自動巡檢引擎發(fā)現(xiàn)某個設(shè)備出現(xiàn)故障時,會啟動郵件發(fā)送功能向系統(tǒng)管理員發(fā)送故障告警郵件,并且會在Web客戶端界面彈出告警窗口顯示故障信息。系統(tǒng)管理員可根據(jù)這些信息快速定位發(fā)生故障的設(shè)備,并初步判定故障類型。系統(tǒng)管理員也可結(jié)合結(jié)點(diǎn)健康度和集群運(yùn)行負(fù)載情況對告警閾值進(jìn)行靈活調(diào)整,以提高巡檢準(zhǔn)確率。自動巡檢還可根據(jù)某一設(shè)備健康指標(biāo)的歷史表現(xiàn),結(jié)合該設(shè)備的固有故障模型,預(yù)測出未來某段時間的設(shè)備故障概率,從而將設(shè)備告警從事后處理提前到事前預(yù)防。
Table 1 Automatic detection services of Magic Cube-3 maintenance and management platform表1 魔方-3運(yùn)維管理平臺自動巡檢項(xiàng)目
故障處理流程如下所示:
(1)監(jiān)控集群:根據(jù)集群現(xiàn)狀實(shí)時采集各設(shè)備運(yùn)行信息。
(2)自動告警:巡檢程序判斷異常后向系統(tǒng)管理員發(fā)送告警信息,并生成故障case。
(3)故障判斷:系統(tǒng)管理員在收到告警并判斷故障問題后,對故障case給出解決方案。
(4)故障處置:按解決方案修復(fù)故障,如無法修復(fù)故障可將case反饋主機(jī)廠商解決。
(5)處置完成:故障修復(fù)后平臺會更新case狀態(tài),每月匯總故障case生成運(yùn)維月報(bào)。
上海超級計(jì)算中心擁有多套主機(jī)系統(tǒng)及外圍基礎(chǔ)設(shè)備,涵蓋了科學(xué)計(jì)算、工程計(jì)算、大數(shù)據(jù)和云計(jì)算等多個應(yīng)用領(lǐng)域,運(yùn)維人員在控制機(jī)房內(nèi)對這些設(shè)備進(jìn)行操控和管理。通過本平臺的機(jī)房運(yùn)維管理模塊對控制機(jī)房內(nèi)的日常運(yùn)維工作實(shí)現(xiàn)信息化管理,使整個運(yùn)維過程變得有序、連貫、可控,如圖9所示。
Figure 9 Control room management platform interface圖9 魔方-3運(yùn)維管理平臺機(jī)房管理界面
日報(bào)發(fā)送功能將自動記錄當(dāng)日集群運(yùn)行的各項(xiàng)性能指標(biāo)以及發(fā)生的故障情況,并生成報(bào)表通過郵件方式發(fā)送,接班的系統(tǒng)管理員閱覽郵件即可快速了解上一個班次集群運(yùn)行狀況。機(jī)房環(huán)境記錄和運(yùn)行監(jiān)測記錄是要求當(dāng)班的運(yùn)維人員在規(guī)定的機(jī)房巡視檢查時間段-10分鐘 ~+30分鐘內(nèi)將水冷、UPS供電、環(huán)境溫濕度等數(shù)據(jù)錄入平臺,同時提供歷史數(shù)據(jù)查詢功能,超過規(guī)定時間將無法錄入數(shù)據(jù)。通過上述一系列方式將運(yùn)維人員的日常工序形成數(shù)字化記錄管理,使得日常工作考核有據(jù)可依,有助于減少運(yùn)維人員簡單、重復(fù)工作,提高員工的工作效率,并提升管理集群的能力和水平。
數(shù)據(jù)統(tǒng)計(jì)分析是通過采集用戶提交的作業(yè)信息統(tǒng)計(jì)“魔方-3”集群在某時間段內(nèi)的CPU利用率、內(nèi)存使用率、作業(yè)平均運(yùn)行效率、平均排隊(duì)時間、作業(yè)吞吐量和應(yīng)用對資源的使用情況,并通過多角度的數(shù)據(jù)挖掘生成分析報(bào)表,能直觀反映“魔方-3”集群運(yùn)行效率,找出影響系統(tǒng)性能的資源瓶頸[5],為今后升級優(yōu)化,改善用戶使用體驗(yàn)提供科學(xué)的決策依據(jù)。
機(jī)時查詢可統(tǒng)計(jì)“魔方-3”集群所有用戶賬號在某一時間段內(nèi)提交作業(yè)的運(yùn)行時間,統(tǒng)計(jì)單位為“core/小時”,統(tǒng)計(jì)結(jié)果默認(rèn)包含該時間段內(nèi)正在運(yùn)行還未結(jié)束的作業(yè)機(jī)時,也可輸入某一用戶賬號,進(jìn)行精確匹配統(tǒng)計(jì),如圖10所示。
Figure 10 User CPU time statistics interface圖10 用戶機(jī)時統(tǒng)計(jì)界面
作業(yè)規(guī)模查詢按作業(yè)使用核數(shù)規(guī)模劃分來統(tǒng)計(jì)某一時間段內(nèi)在“魔方-3”上運(yùn)行作業(yè)的規(guī)模比例,如圖11所示?!澳Х?3”單個計(jì)算結(jié)點(diǎn)為32核,故作業(yè)規(guī)模通常按32的倍數(shù)來劃分,也可小于32。有典型代表的規(guī)模區(qū)間為1~16核、17~32核、33~64核、65~128核和256核以上。通過作業(yè)規(guī)模分析可得出某一時間段內(nèi)大小作業(yè)的運(yùn)行比例,并據(jù)此來調(diào)整隊(duì)列配置和作業(yè)提交策略。
Figure 11 Job scale statistics interface圖11 作業(yè)規(guī)模統(tǒng)計(jì)界面
CPU利用率查詢可按天顯示在指定時間段內(nèi)程序占用集群CPU資源的情況,反映集群的使用負(fù)荷。core占用率可按天顯示指定時間段內(nèi)程序占用全機(jī)核數(shù)的百分比。上海超級計(jì)算中心作為一個開放計(jì)算平臺,有來自各領(lǐng)域不同類別的用戶提交不同的作業(yè),有些作業(yè)運(yùn)行時會占用大量CPU資源,而有些作業(yè)特性是雖然占用了內(nèi)核運(yùn)行,但CPU利用率并不高。這種情況下單純通過CPU利用率不能準(zhǔn)確反映“魔方-3”集群使用情況,結(jié)合core占用率這個指標(biāo)可更全面完整地反映集群使用情況,“魔方-3”core占用率如圖12所示。
Figure 12 Occupancy rate of core of Magic Cube-3 computer圖12 “魔方-3”core占用率
主機(jī)運(yùn)維管理平臺通過軟件和硬件不同渠道對“魔方-3”集群進(jìn)行全面監(jiān)控、數(shù)據(jù)校對和分析、告警,根據(jù)數(shù)據(jù)分析結(jié)果提供自動巡檢功能,進(jìn)行集群巡檢,并根據(jù)故障結(jié)點(diǎn)的數(shù)量和健康狀況調(diào)整監(jiān)控頻率及監(jiān)控閾值。利用歷史數(shù)據(jù)通過故障模型來實(shí)現(xiàn)故障預(yù)測。能實(shí)時將各管理點(diǎn)傳輸來的監(jiān)控?cái)?shù)據(jù)從數(shù)據(jù)隊(duì)列中取出,通過各資源池進(jìn)行分類匯總后存儲到數(shù)據(jù)庫中,通過瀏覽器為用戶提供統(tǒng)一的界面入口,使得運(yùn)維人員能夠清晰地瀏覽集群中各服務(wù)器結(jié)點(diǎn)的實(shí)時狀態(tài)及監(jiān)控?cái)?shù)據(jù)。
根據(jù)高性能計(jì)算、深度學(xué)習(xí)、大數(shù)據(jù)和云計(jì)算幾類應(yīng)用特征,借助IPMI網(wǎng)絡(luò)協(xié)議并融合作業(yè)調(diào)度軟件,通過可訂制化的策略配置,實(shí)現(xiàn)運(yùn)維管理平臺靈活、彈性部署在“魔方-3”高性能計(jì)算機(jī)之上,對所有軟件、硬件、虛擬化資源進(jìn)行統(tǒng)一的管理、監(jiān)控和調(diào)度,保障集群高效運(yùn)行。