蘇日亞 劉 芳
(內(nèi)蒙古自治區(qū)地震局,內(nèi)蒙古呼和浩特 010010)
“中國(guó)大陸構(gòu)造環(huán)境監(jiān)測(cè)網(wǎng)絡(luò)”(簡(jiǎn)稱陸態(tài)網(wǎng)絡(luò))是“十一五”期間建設(shè)的,以衛(wèi)星導(dǎo)航定位系統(tǒng)(Global Navigation Satellite System,GNSS)觀測(cè)為主的,主要用于監(jiān)測(cè)中國(guó)大陸地殼運(yùn)動(dòng)、重力場(chǎng)形態(tài)變化、大氣圈對(duì)流層水汽含量變化等,具有科學(xué)、工程和應(yīng)用方面價(jià)值的綜合網(wǎng)絡(luò)[1]。各省地震局共同擔(dān)負(fù)了260個(gè)GNSS基準(zhǔn)站的運(yùn)行維護(hù)任務(wù)[2]。GNSS基準(zhǔn)站地理分布廣且每一站點(diǎn)內(nèi)運(yùn)行著多個(gè)不同類型、不同型號(hào)的設(shè)備,運(yùn)維工作量大且復(fù)雜。目前,網(wǎng)絡(luò)管理標(biāo)準(zhǔn)主要有國(guó)際標(biāo)準(zhǔn)化組織(ISO)制定的CMIS(Common Management Information Service)/CMIP(Common Management Information Protocol)協(xié)議和Internet工程任務(wù)組(IETF)制定的SNMP(Simple Network Management Protocol)協(xié)議[3]。相對(duì)于ISO網(wǎng)絡(luò)管理標(biāo)準(zhǔn),SNMP協(xié)議簡(jiǎn)單、實(shí)用、易實(shí)現(xiàn)、成本低,廣泛應(yīng)用于校園網(wǎng)、油田、氣象、電力、船舶等各類網(wǎng)絡(luò)管理中[4-6]。SNMP協(xié)議可以為不同種類、不同廠家、不同型號(hào)的設(shè)備定義統(tǒng)一的接口,運(yùn)維人員可通過管理統(tǒng)一接口上的數(shù)據(jù)而屏蔽底層物理空間中管理不同設(shè)備的復(fù)雜性,從而對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行信息查詢、容量規(guī)劃、故障定位等?;赟NMP協(xié)議的GNSS基準(zhǔn)站網(wǎng)絡(luò)云監(jiān)控系統(tǒng)采用虛擬化技術(shù)為業(yè)務(wù)系統(tǒng)提供快速上線、無宕機(jī)連續(xù)運(yùn)行和資源的高效利用等能力[7],從而解決對(duì)不同物理設(shè)備的統(tǒng)一監(jiān)控難點(diǎn)和傳統(tǒng)機(jī)房存在的一項(xiàng)業(yè)務(wù)占用一臺(tái)服務(wù)器、服務(wù)器宕機(jī)業(yè)務(wù)即中斷等缺點(diǎn)。
GNSS基準(zhǔn)站采用H3C MSR 30-10路由器為核心的網(wǎng)絡(luò),路由器下連5個(gè)分支VLAN網(wǎng)絡(luò),分別規(guī)劃為總流量、氣象儀、IP電話、攝像頭、NAS存儲(chǔ)?;赟NMP協(xié)議的GNSS基準(zhǔn)站網(wǎng)絡(luò)云監(jiān)控系統(tǒng)采用客戶端/服務(wù)器(C/S)架構(gòu)模式,由SNMP管理站和代理兩個(gè)功能模塊構(gòu)成[8-10]。圖1為系統(tǒng)功能架構(gòu)圖,SNMP代理運(yùn)行于被管理設(shè)備上,用于采集設(shè)備端口流量、CPU負(fù)荷、網(wǎng)絡(luò)利用率等信息。被監(jiān)控設(shè)備開啟設(shè)備自帶SNMP協(xié)議后即成為SNMP代理,可通過SNMP協(xié)議讀取設(shè)備端口信息。SNMP管理站運(yùn)行在遠(yuǎn)端服務(wù)器上,負(fù)責(zé)收集SNMP代理反饋的設(shè)備數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)和處理操作。運(yùn)行在地震行業(yè)網(wǎng)私有云平臺(tái)上的SNMP管理站,借助云平臺(tái)提供的Web接口,實(shí)現(xiàn)底層物理資源的高效利用、服務(wù)器快速上線和業(yè)務(wù)的無故障運(yùn)行。本文中,系統(tǒng)主要對(duì)內(nèi)蒙古地震局所維護(hù)的16個(gè)GNSS基準(zhǔn)站進(jìn)行了監(jiān)控(表1)。
表1 系統(tǒng)監(jiān)控的GNSS基準(zhǔn)站分布情況Table 1 Distribution of GNSS reference stations monitored by the system
圖1 基于SNMP協(xié)議的GNSS基準(zhǔn)站云監(jiān)控系統(tǒng)功能架構(gòu)Fig. 1 Functional architecture of GNSS reference station cloud monitoring system based on SNMP protocol
SNMP代理是運(yùn)行在被管理設(shè)備上的進(jìn)程,默認(rèn)狀態(tài)下SNMP進(jìn)程處于關(guān)閉狀態(tài)。被管理設(shè)備開啟SNMP進(jìn)程后即可實(shí)現(xiàn)SNMP代理功能,向管理站發(fā)送設(shè)備狀態(tài)信息[11]。圖2為被監(jiān)控設(shè)備配置SNMP代理功能的流程圖。SNMP代理和管理站之間需定義同一個(gè)團(tuán)體名才能通信,起到權(quán)限設(shè)置作用。SNMP協(xié)議現(xiàn)有3個(gè)版本:v1版本提供基本功能,v2版本增加密碼驗(yàn)證功能,v3版本提供安全性傳輸功能[12-14]。為了數(shù)據(jù)的安全可靠傳輸,SNMP代理可選擇同時(shí)支持3種版本。SNMP管理站與代理之間除讀/寫通信外定義了Trap操作,在設(shè)備出現(xiàn)異常時(shí)SNMP代理按照Trap指定地址主動(dòng)向管理站發(fā)送消息。地震行業(yè)網(wǎng)內(nèi)登錄GNSS基準(zhǔn)站路由器,在H3C MSR 30-10上開啟SNMP協(xié)議并設(shè)置一個(gè)名為“private”的團(tuán)體名,且賦予其讀寫權(quán)限后便可完成設(shè)備的SNMP代理功能[15]。GNSS基準(zhǔn)站路由器0/0、2/1、2/2、2/3端口下對(duì)應(yīng)連接光纖收發(fā)器、監(jiān)控?cái)z像頭、IP電話、編解碼器等設(shè)備。路由器端口開啟SNMP協(xié)議直接監(jiān)控對(duì)應(yīng)設(shè)備,不指定端口則監(jiān)控路由器本身ID。
圖2 SNMP代理實(shí)現(xiàn)流程Fig. 2 SNMP agent implementation process
作為SNMP代理的客戶端,SNMP管理站向SNMP代理發(fā)送請(qǐng)求報(bào)文并接收SNMP代理反饋的信息。FusionCompute是華為公司推出的一款虛擬化引擎,將多臺(tái)服務(wù)器的計(jì)算資源、存儲(chǔ)資源、網(wǎng)絡(luò)資源虛擬化成共有資源,用戶通過統(tǒng)一接口對(duì)共有資源進(jìn)行再次分配利用[16-17]。地震行業(yè)網(wǎng)內(nèi)利用FusionCompute虛擬化引擎實(shí)現(xiàn)私有云平臺(tái),將SNMP管理站部署于私有云上,實(shí)現(xiàn)云監(jiān)控能力。
2.2.1 私有云上服務(wù)器部署
圖3 為地震私有云平臺(tái)邏輯架構(gòu),每臺(tái)服務(wù)器安裝FusionCompute虛擬化引擎后,主機(jī)的CPU、內(nèi)存、邏輯磁盤、本地磁盤等資源被虛擬化并合并成共有資源,通過圖4用戶Web接口為監(jiān)控系統(tǒng)規(guī)劃并分配資源。表2是地震行業(yè)網(wǎng)數(shù)據(jù)機(jī)房?jī)?nèi)待虛擬化的物理設(shè)備情況,表3是6臺(tái)華為Tecal RH2485 V2服務(wù)器安裝FusionCompute虛擬化引擎后完成的虛擬資源情況,表4是通過私有云平臺(tái)Web接口為SNMP管理站服務(wù)器分配的虛擬資源。運(yùn)行在私有云上的SNMP管理站不受物理服務(wù)器故障影響,底層物理設(shè)備發(fā)生故障時(shí),監(jiān)控系統(tǒng)將無縫切換至私有云其他正常運(yùn)行的服務(wù)器之上,實(shí)現(xiàn)監(jiān)控業(yè)務(wù)的“零宕機(jī)”運(yùn)行。
圖3 地震私有云平臺(tái)邏輯架構(gòu)Fig. 3 Logical architecture of earthquake private cloud platform
圖4 地震私有云平臺(tái)管理界面Fig. 4 Management interface of earthquake private cloud platform
表2 物理資源Table 2 Physical resources
表3 物理資源虛擬化Table 3 Physical resource virtualization
表4 業(yè)務(wù)系統(tǒng)分配資源Table 4 Allocating resources for business systems
2.2.2 PRTG實(shí)現(xiàn)SNMP管理站
PRTG(Paessler Router Traffic Grapher)是一款通過SNMP協(xié)議獲取服務(wù)器、路由器、交換機(jī)等設(shè)備流量數(shù)據(jù)并產(chǎn)生圖形化報(bào)表的軟件[18]。PRTG通過SNMP協(xié)議與SNMP代理之間通信,獲取GNSS基準(zhǔn)站被監(jiān)控設(shè)備流量信息并產(chǎn)生圖形化報(bào)表后以頁面的形式反饋給運(yùn)維人員,從而實(shí)現(xiàn)對(duì)整個(gè)網(wǎng)絡(luò)的監(jiān)控和維護(hù)[19]。PRTG軟件實(shí)現(xiàn)了SNMP管理站需要完成的3項(xiàng)操作:目標(biāo)設(shè)備連接、監(jiān)控信息配置和繪制信息發(fā)布。
(1)連接目標(biāo)設(shè)備。在PRTG軟件安裝界面,添加掃描器后選擇掃描器類型為“standard snmp traffic sensor”標(biāo)準(zhǔn)SNMP掃描器,用于監(jiān)控路由器和交換機(jī)。在選擇窗口中對(duì)GNSS基準(zhǔn)站設(shè)備信息進(jìn)行設(shè)置,設(shè)置信息包含GNSS基準(zhǔn)站名稱,路由器IP和SNMP團(tuán)體名稱(與SNMP代理設(shè)置相同團(tuán)體名)。設(shè)置完畢后,PRTG掃描器開始自動(dòng)連接目標(biāo)設(shè)備。
(2)配置監(jiān)控信息。設(shè)置PRTG要監(jiān)控的信息, “帶寬” “統(tǒng)計(jì)數(shù)據(jù)” “掃描器生成的圖表信息(包括自動(dòng)建立新圖表,實(shí)時(shí)繪制圖表,一小時(shí)平均圖,30天平均圖、365天平均圖)” 等。
(3)發(fā)布繪制信息。設(shè)置PRTG“Web Server”信息后將PRTG服務(wù)器設(shè)置成Web服務(wù)器,運(yùn)維人員通過任何一臺(tái)地震行業(yè)網(wǎng)內(nèi)主機(jī)瀏覽器頁面都可訪問PRTG監(jiān)控的結(jié)果。
基于SNMP協(xié)議的GNSS基準(zhǔn)站網(wǎng)絡(luò)云監(jiān)控系統(tǒng),實(shí)現(xiàn)了對(duì)分布在不同地區(qū)、不同設(shè)備的遠(yuǎn)程實(shí)時(shí)監(jiān)控,且系統(tǒng)部署于地震私有云上,實(shí)現(xiàn)了業(yè)務(wù)系統(tǒng)的快速上線、無宕機(jī)運(yùn)行和服務(wù)器資源的高效利用。經(jīng)功能測(cè)試,基于SNMP協(xié)議的GNSS基準(zhǔn)站網(wǎng)絡(luò)云監(jiān)控系統(tǒng)主要實(shí)現(xiàn)了表5所列功能。
表5 基于SNMP協(xié)議的GNSS基準(zhǔn)站網(wǎng)絡(luò)云監(jiān)控系統(tǒng)主要功能Table 5 Main functions of GNSS reference station network cloud monitoring system based on SNMP protocol
以內(nèi)蒙古區(qū)域內(nèi)GNSS基準(zhǔn)站網(wǎng)絡(luò)監(jiān)控為例。圖5是基于SNMP協(xié)議的GNSS基準(zhǔn)站網(wǎng)絡(luò)云監(jiān)控系統(tǒng)對(duì)內(nèi)蒙古區(qū)域內(nèi)分布在不同地區(qū)的16個(gè)GNSS基準(zhǔn)站進(jìn)行實(shí)時(shí)監(jiān)控的頁面。Web頁面每5分鐘輪詢一次設(shè)備并更新狀態(tài),提供Web頁面告警方式。圖6是GNSS二連浩特基準(zhǔn)站端口2/2(端口2/2連接衛(wèi)星接收機(jī))的流量監(jiān)控圖。頁面展示設(shè)備在不同時(shí)間段內(nèi)(1小時(shí)、24小時(shí)、30天、365天)的數(shù)據(jù)流量分布情況,運(yùn)維人員通過監(jiān)控頁面直觀獲取設(shè)備的當(dāng)前和歷史運(yùn)行情況,快速發(fā)現(xiàn)故障、定位故障、分析出故障原因。2019年3月17日開始端口輸入流量逐漸減少(圖6),但未突降為0,且無設(shè)備宕機(jī)告警,排除設(shè)備線路中斷和接收機(jī)設(shè)備故障可能,初步判定為天線接收故障。運(yùn)維人員實(shí)地排查,于20日更換天線接口后流量恢復(fù)正常,預(yù)判結(jié)果正確,大大減少了排查故障和故障修復(fù)時(shí)間。
圖5 基準(zhǔn)站監(jiān)控界面Fig. 5 Referenc station monitoring interface
圖6 不同時(shí)間段流量分布Fig. 6 Flow distribution in different time periods
自2014年將基于SNMP協(xié)議的GNSS基準(zhǔn)站網(wǎng)絡(luò)監(jiān)控系統(tǒng)應(yīng)用于內(nèi)蒙古自治區(qū)區(qū)域內(nèi)GNSS運(yùn)維工作至今,充分發(fā)揮了SNMP協(xié)議在網(wǎng)絡(luò)監(jiān)控、故障定位方面的優(yōu)勢(shì)。2022年將該監(jiān)控系統(tǒng)部署于地震私有云上,實(shí)現(xiàn)了服務(wù)器“零宕機(jī)”和硬件設(shè)備及機(jī)房空間的高效利用。該系統(tǒng)主要有以下3點(diǎn)優(yōu)勢(shì):
(1)安全性高:系統(tǒng)支持提供安全性傳輸功能的v3版本SNMP協(xié)議,因此,安全性能更高。
(2)操作便捷:系統(tǒng)采用人機(jī)互動(dòng)式界面,極大地簡(jiǎn)化了操作流程,維護(hù)人員可以迅速掌握系統(tǒng)操作流程。
(3)準(zhǔn)確高效:系統(tǒng)的云監(jiān)控與基準(zhǔn)站信息實(shí)時(shí)同步,因此,系統(tǒng)的統(tǒng)計(jì)數(shù)據(jù)可以及時(shí)更新維護(hù),確保相關(guān)數(shù)據(jù)準(zhǔn)確高效。
實(shí)際應(yīng)用中發(fā)現(xiàn),該系統(tǒng)在故障告警方面存在不足,需要改進(jìn)的地方: ① 采用單一的網(wǎng)頁告警方式,運(yùn)維監(jiān)控靈活性差; ② 目前,故障發(fā)生后僅區(qū)域主要運(yùn)維人員能夠接收到故障信息,系統(tǒng)未能實(shí)現(xiàn)故障信息的分類聯(lián)動(dòng)發(fā)送。