許 瑋 王迎迎 秦運(yùn)龍 張冰松 湖北省氣象信息與技術(shù)保障中心
?
湖北省氣象局高性能計(jì)算機(jī)監(jiān)控系統(tǒng)的設(shè)計(jì)
許 瑋 王迎迎 秦運(yùn)龍 張冰松 湖北省氣象信息與技術(shù)保障中心
【文章摘要】
【關(guān)鍵詞】
監(jiān)控;AIX;Linux
高性能計(jì)算機(jī)系統(tǒng)是進(jìn)行氣象模式研究和氣象業(yè)務(wù)預(yù)報(bào)的重要計(jì)算工具。湖北省氣象局高性能計(jì)算機(jī)系統(tǒng)建設(shè)處于國(guó)內(nèi)先進(jìn)水平,擁有的曙光高性能計(jì)算機(jī)(LΙNUX系統(tǒng))和ΙBM高性能計(jì)算機(jī)系統(tǒng)(AΙX系統(tǒng))兩套高性能計(jì)算機(jī)系統(tǒng)。但是由于這兩套系統(tǒng)部署在不同的辦公區(qū)域,缺乏統(tǒng)一、有效、直觀的平臺(tái)對(duì)龐大的計(jì)算機(jī)系統(tǒng)進(jìn)行實(shí)時(shí)資源調(diào)度和運(yùn)行狀態(tài)、環(huán)境狀態(tài)的監(jiān)控。因此,研發(fā)一套高性能計(jì)算機(jī)系統(tǒng)監(jiān)控管理平臺(tái),不僅是當(dāng)前業(yè)務(wù)值班人員的迫切需求,更是保障氣象預(yù)報(bào)業(yè)務(wù)模式安全穩(wěn)定運(yùn)行的重要手段。
監(jiān)控系統(tǒng)計(jì)劃采用B/S模式來(lái)實(shí)現(xiàn)高性能計(jì)算機(jī)系統(tǒng)監(jiān)控功能。在統(tǒng)一的平臺(tái)上實(shí)現(xiàn)對(duì)ΙBM高性能計(jì)算機(jī)和曙光高性能計(jì)算機(jī)的系統(tǒng)軟件、應(yīng)用軟件、系統(tǒng)硬件、系統(tǒng)資源使用情況、作業(yè)運(yùn)行的監(jiān)控。能夠完成ΙBM高性能計(jì)算機(jī)的各個(gè)關(guān)鍵節(jié)點(diǎn)狀態(tài)、計(jì)算節(jié)點(diǎn)狀態(tài)、作業(yè)狀態(tài)、磁盤(pán)陣列狀態(tài)、 Loadlevel進(jìn)程狀態(tài)、 gpfs文件系統(tǒng)狀態(tài)、 UFM狀態(tài)、ΙBSwitch等狀態(tài)的監(jiān)控??缙脚_(tái)管理和監(jiān)控技術(shù)。ΙBM高性能計(jì)算機(jī)采用AΙX操作系統(tǒng),曙光高性能計(jì)算機(jī)采用LΙNUX系統(tǒng),采用不同的腳本數(shù)據(jù)集,將不同平臺(tái)數(shù)據(jù)整合到統(tǒng)一監(jiān)控平臺(tái)上顯示。
(1) ΙBM高性能計(jì)算機(jī)實(shí)時(shí)信息采集模塊
ΙBM高性能計(jì)算機(jī)實(shí)時(shí)信息采集模塊由一套基于AΙX系統(tǒng)設(shè)計(jì)的Shell腳本組成,包括對(duì)10項(xiàng)主要內(nèi)容運(yùn)行狀態(tài)信息的采集。
a.關(guān)鍵節(jié)點(diǎn)狀態(tài),包括登陸節(jié)點(diǎn)、 Ι/O節(jié)點(diǎn)、管理節(jié)點(diǎn);
b.所有節(jié)點(diǎn)性能狀態(tài),包括cpu、gpfs、 ib、多路徑、內(nèi)存、整體狀態(tài)、xcat、quorum、mmfs;
c.作業(yè)提交及運(yùn)行狀態(tài),可查詢當(dāng)前作業(yè)運(yùn)行情況;
d.根卷組一致性狀態(tài),包括管理節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)、Ι/O節(jié)點(diǎn);
e.磁盤(pán)陣列狀態(tài),包括whad01,whad02;
f.Loadlevel進(jìn)程狀態(tài),包括登陸節(jié)點(diǎn)上的schedd、 resource-mgr、 master、negotiaor四個(gè)進(jìn)程;
g.磁盤(pán)陣列的gpfs文件系統(tǒng)狀態(tài),包括u、g1、g2、g3四個(gè)文件系統(tǒng)的空間使用率;
h.UFM狀態(tài),包括UFM1、UFM2;
i.ΙB Switch狀態(tài),包括SW1、 SW2監(jiān)控;
j.所有節(jié)點(diǎn)ΙB網(wǎng)絡(luò)兩兩連通狀態(tài)。
k.曙光高性能計(jì)算機(jī)信息實(shí)時(shí)采集模塊
曙光高性能計(jì)算機(jī)信息實(shí)時(shí)采集模塊由一套基于Linux系統(tǒng)設(shè)計(jì)的Shell腳本組成,包括對(duì)3項(xiàng)主要內(nèi)容的運(yùn)行狀態(tài)信息采集。
a.關(guān)鍵節(jié)點(diǎn)狀態(tài),包括登陸節(jié)點(diǎn)、 Ι/O節(jié)點(diǎn)、管理節(jié)點(diǎn);
b.所有節(jié)點(diǎn)性能狀態(tài),包括cpu、gpfs;
c.曙光高性能計(jì)算機(jī)ΙB網(wǎng)絡(luò)狀態(tài);
d.作業(yè)提交及運(yùn)行狀態(tài),可查詢當(dāng)前作業(yè)運(yùn)行情況;
e.曙光高性能計(jì)算機(jī)文件系統(tǒng)資源使用情況。
(3)信息解碼模塊
信息解碼模塊主要由Windows下C# 程序設(shè)計(jì)的解碼入庫(kù)軟件、 AΙX系統(tǒng)下信息推送Shell腳本、 Linux系統(tǒng)下信息推送腳本、Windows下FTP傳輸4個(gè)部分組成。 AΙX系統(tǒng)下信息推送Shell腳本、 Linux系統(tǒng)下信息推送腳本實(shí)現(xiàn)將實(shí)時(shí)采集到的監(jiān)控信息推送到Windows目錄存放,F(xiàn)TP軟件實(shí)現(xiàn)FTP傳輸功能,Windows下C# 程序設(shè)計(jì)的解碼入庫(kù)軟件實(shí)現(xiàn)對(duì)所有獲取的監(jiān)控信息進(jìn)行解碼,并存儲(chǔ)到數(shù)據(jù)庫(kù)中。信息解碼模塊實(shí)現(xiàn)關(guān)鍵信息抓取與狀態(tài)判斷,例如:系統(tǒng)狀態(tài)success、空、 on、等就判斷為狀態(tài)正常,若沒(méi)有這些狀態(tài)則為異常;作業(yè)狀態(tài)分R、 Ι等狀態(tài)表示作業(yè)處于運(yùn)行和空閑狀態(tài);GPFS系統(tǒng)則用數(shù)值百分比表示其使用率。
(4)數(shù)據(jù)庫(kù)存儲(chǔ)模塊
數(shù)據(jù)庫(kù)存儲(chǔ)模塊采用SQL Server2008 R2關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ),數(shù)據(jù)庫(kù)設(shè)計(jì)采用不同監(jiān)控系統(tǒng)信息分開(kāi)存儲(chǔ)分開(kāi)管理,并且實(shí)現(xiàn)數(shù)據(jù)庫(kù)自動(dòng)維護(hù),以提高數(shù)據(jù)庫(kù)監(jiān)控性能需求。
(5)信息統(tǒng)一監(jiān)控平臺(tái)
信息統(tǒng)一監(jiān)控平臺(tái)采用c#、 PHP等網(wǎng)頁(yè)設(shè)計(jì)語(yǔ)言設(shè)計(jì),通過(guò)實(shí)時(shí)查詢數(shù)據(jù)庫(kù)存儲(chǔ)模塊的最新信息,將所有監(jiān)控信息直觀的表現(xiàn)在平臺(tái)主頁(yè)上,并標(biāo)注信息采集時(shí)間。監(jiān)控項(xiàng)紅色為異常,綠色為正常。
信息統(tǒng)一監(jiān)控平臺(tái)將ΙBM高性能計(jì)算機(jī)系統(tǒng)、曙光高性能計(jì)算機(jī)監(jiān)控系統(tǒng)、機(jī)房環(huán)境監(jiān)控系統(tǒng)納入到同一個(gè)平臺(tái)界面進(jìn)行監(jiān)控管理,值班員只需要打開(kāi)一個(gè)網(wǎng)頁(yè)界面就可以獲取所有需要監(jiān)控的信息。監(jiān)控平臺(tái)同時(shí)可實(shí)現(xiàn)作業(yè)詳細(xì)執(zhí)行情況查詢、歷史狀態(tài)信息查詢等功能。
數(shù)據(jù)庫(kù)存儲(chǔ)系統(tǒng)用于存儲(chǔ)所有運(yùn)行狀態(tài)信息,為監(jiān)控平臺(tái)實(shí)時(shí)顯示和歷史查詢提供給信息數(shù)據(jù)。
(1)數(shù)據(jù)庫(kù)選型
數(shù)據(jù)庫(kù)用于存儲(chǔ)ΙBM和曙光高性能計(jì)算機(jī)的各種狀態(tài)監(jiān)控信息,采用SqlServer 數(shù)據(jù)庫(kù)系統(tǒng)可以滿足監(jiān)控?cái)?shù)據(jù)存儲(chǔ)需求。
(2)數(shù)據(jù)表設(shè)計(jì)
數(shù)據(jù)庫(kù)系統(tǒng)設(shè)計(jì)包括8張數(shù)據(jù)庫(kù)表,具體如下:
圖1 監(jiān)控界面
監(jiān)控界面的設(shè)計(jì)要求簡(jiǎn)潔明朗,一目了然,對(duì)各類資料的監(jiān)控狀態(tài)能夠快速瀏覽。于是,在設(shè)計(jì)的時(shí)候便將所有監(jiān)控元素集合在一個(gè)頁(yè)面中顯示,綠色代表狀態(tài)正常,紅色代表故障,橙色代表節(jié)點(diǎn)的利用率。同時(shí),配合語(yǔ)音報(bào)警,嚴(yán)重的故障會(huì)產(chǎn)生語(yǔ)音報(bào)警,使監(jiān)控人員能第一時(shí)間對(duì)故障進(jìn)行處理。
監(jiān)控頁(yè)面分為兩大塊,上面一部分由顏色表示的是各類資料的監(jiān)控狀態(tài),下面一部分是正在運(yùn)行的作業(yè)的詳細(xì)情況。監(jiān)控界面如圖1所示。
本監(jiān)控系統(tǒng)的設(shè)計(jì)給高性能計(jì)算機(jī)監(jiān)控維護(hù)人員提供了直觀便捷的管理手段,大大縮短了故障的發(fā)現(xiàn)與解決周期。但是本系統(tǒng)暫時(shí)還不提供故障原因的分析功能,希望能在后續(xù)的工作中將這部分進(jìn)行完善,給系統(tǒng)維護(hù)者提供一個(gè)信息量更大的監(jiān)控平臺(tái)。
【參考文獻(xiàn)】
[1]倪晨華,杜敏.氣象觀測(cè)浮標(biāo)短信查詢及報(bào)警系統(tǒng)設(shè)計(jì)[J].海洋技術(shù),2012,01:10-13.
[2]葉穎,馮林強(qiáng),成方林,李博.基于ARM的海洋站水文氣象自動(dòng)觀測(cè)系統(tǒng)設(shè)計(jì)[J].海洋技術(shù),2012,02:40-44.
[3]裴翀,宋連春,吳可軍,李雁,李巍,邵楠.我國(guó)綜合氣象觀測(cè)運(yùn)行監(jiān)控系統(tǒng)的設(shè)計(jì)與實(shí)踐[J].氣象,2011,02:213-218.
[4]梁海河,孟昭林,張春暉,李雁.綜合氣象觀測(cè)運(yùn)行監(jiān)控系統(tǒng)[J].氣象,2011,10:1292-1300.
基金項(xiàng)目:湖北省氣象局青年科技專項(xiàng)基金“高性能計(jì)算機(jī)系統(tǒng)監(jiān)控管理平臺(tái)研制”項(xiàng)目資助
隨著氣象數(shù)值模式預(yù)報(bào)和氣象業(yè)務(wù)預(yù)報(bào)對(duì)高性能計(jì)算資源依賴程度的越來(lái)越高,急需開(kāi)發(fā)一套高性能計(jì)算機(jī)系統(tǒng)監(jiān)控平臺(tái),給業(yè)務(wù)值班人員提供一個(gè)直觀簡(jiǎn)介的監(jiān)控工具。本文提出并實(shí)現(xiàn)了湖北省氣象局高性能計(jì)算機(jī)監(jiān)控平臺(tái),該平臺(tái)通過(guò)shell腳本收集AIX、Linux兩套高性能計(jì)算機(jī)系統(tǒng)的狀態(tài)信息,采用ftp方式推送到windows系統(tǒng)并入庫(kù),然后通過(guò)監(jiān)控頁(yè)面讀取數(shù)據(jù)庫(kù)數(shù)據(jù)并顯示在監(jiān)控界面上。此平臺(tái)在高性能業(yè)務(wù)值班中極大的提高了值班的工作效率,降低了值班員的工作量。