呂常勝,薄雙錄
(民航東北空管局氣象中心,遼寧沈陽 110043)
民航氣象信息系統(tǒng)包括民航氣象數(shù)據(jù)庫系統(tǒng)、民航氣象信息服務(wù)系統(tǒng)以及相關(guān)的輔助支持系統(tǒng)等。主要負(fù)責(zé)民航氣象信息的發(fā)布、接收、存儲(chǔ)、交換,并對外提供氣象信息的查詢服務(wù)等[1]。民航氣象信息資料包括有報(bào)文格式的實(shí)況報(bào)(METAR)和預(yù)報(bào)(TAF)[2],圖片格式的衛(wèi)星云圖、雷達(dá)圖、重要天氣預(yù)告圖以及專有氣象信息格式的自動(dòng)觀測資料等。民航氣象信息的及時(shí)、準(zhǔn)確發(fā)布與獲取,不僅關(guān)乎民航空管系統(tǒng)的服務(wù)質(zhì)量,也影響到民航運(yùn)輸?shù)陌踩c高效,所以,保證民航氣象信息系統(tǒng)的正常運(yùn)行至關(guān)重要。
民航氣象信息系統(tǒng)自開始運(yùn)行以來,其間經(jīng)歷了多次的更新改造,并且增加了其他一些相關(guān)輔助系統(tǒng)。雖然系統(tǒng)功能的逐步完善,服務(wù)質(zhì)量也有了顯著提高,但隨著系統(tǒng)軟、硬件的增加,系統(tǒng)的復(fù)雜程度也越來越高,相應(yīng)的系統(tǒng)監(jiān)控運(yùn)維也越來越難,按原有方式的系統(tǒng)運(yùn)維難以保障系統(tǒng)的穩(wěn)定運(yùn)行。
目前,民航氣象信息系統(tǒng)的運(yùn)維與監(jiān)控主要通過崗位日常監(jiān)控與巡視及用戶主動(dòng)報(bào)告問題來完成。雖然民航氣象信息系統(tǒng)的部分子系統(tǒng)有些自帶了監(jiān)控功能,但監(jiān)控信息不夠全面、深度不夠、定位不準(zhǔn),而且相關(guān)系統(tǒng)的監(jiān)控關(guān)聯(lián)度不高,也給系統(tǒng)的運(yùn)維造成一定的困難。另外,日常監(jiān)控主要是維護(hù)人員在崗監(jiān)控,如果是夜間或人員不在崗,則系統(tǒng)的運(yùn)行狀態(tài)及監(jiān)控信息不能及時(shí)獲得,則會(huì)延誤解決問題的時(shí)間,影響系統(tǒng)的正常運(yùn)行。
如何更好地整合各系統(tǒng)監(jiān)控信息,及時(shí)準(zhǔn)確定位故障原因,除了自行開發(fā)一套針對本系統(tǒng)的監(jiān)控外,市面上也有許多成熟的相關(guān)監(jiān)控產(chǎn)品可以采用,比如“監(jiān)控易”。
監(jiān)控易是美信時(shí)代自研的分布式、一體化數(shù)據(jù)采集與洞察管理平臺(tái)。專注對局域網(wǎng)、廣域網(wǎng)和互聯(lián)網(wǎng)中的IT 資源和網(wǎng)絡(luò)的故障監(jiān)測和性能管理,是集中式、跨平臺(tái)的一體化IT監(jiān)控運(yùn)維管理軟件。監(jiān)控易打破了采用多種監(jiān)控工具對數(shù)據(jù)中心進(jìn)行離散式管理的模式,采用多TS架構(gòu),集中統(tǒng)一實(shí)現(xiàn)IT、動(dòng)環(huán)、智能物聯(lián)網(wǎng)等智能設(shè)備和軟硬件系統(tǒng)的自動(dòng)采集、監(jiān)測、巡檢、告警及展現(xiàn),實(shí)現(xiàn)不同系統(tǒng)間的數(shù)據(jù)關(guān)聯(lián)與共享,從全局視角把控系統(tǒng)運(yùn)行態(tài)勢,實(shí)現(xiàn)故障快速定位和根源診斷[3]。
監(jiān)控易系統(tǒng)為B/S 架構(gòu),采用底層分布式架構(gòu)設(shè)計(jì),各地?cái)?shù)據(jù)中心可部署監(jiān)控終端,設(shè)備監(jiān)控指標(biāo)的采集在監(jiān)控終端完成,監(jiān)控終端的狀態(tài)數(shù)據(jù)和告警數(shù)據(jù)上傳到集中管理控制臺(tái),所有監(jiān)控內(nèi)容通過集中管理控制臺(tái)進(jìn)行統(tǒng)一展示。
監(jiān)控易的邏輯結(jié)構(gòu)如圖1所示。
圖1 監(jiān)控易的邏輯結(jié)構(gòu)
在IT基礎(chǔ)設(shè)施監(jiān)控方面,監(jiān)控易支持對上百家廠商的服務(wù)器、操作系統(tǒng)、數(shù)據(jù)庫、中間件、應(yīng)用、網(wǎng)絡(luò)設(shè)備和存儲(chǔ)設(shè)備的深入監(jiān)控。除了支持自行研發(fā)的Agent 私有協(xié)議外,還支持SNMP、HTTP/HTTPS、ICMP、ODBC、SSH、TELNET 等公有協(xié)議[4]。并且有多種告警方式可供選擇,如聲音、短信、微信、郵件和腳本等,保證運(yùn)維人員第一時(shí)間獲得告警信息,及時(shí)排除系統(tǒng)故障,同時(shí),也減輕了運(yùn)維人員的工作強(qiáng)度。
監(jiān)控易支持多種形式的部署方式,常用的有本地部署、分布式部署、混合云部署、多層級(jí)部署等,本次安裝選擇本地部署。監(jiān)控易軟件安裝完成后,即可對監(jiān)控對象進(jìn)行配置操作,通常包括以下幾個(gè)步驟。
在設(shè)備管理界面選擇添加設(shè)備,這里包括服務(wù)器、應(yīng)用和業(yè)務(wù)、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備、虛擬機(jī)監(jiān)測等項(xiàng)目,每個(gè)項(xiàng)目下有各個(gè)系統(tǒng)及應(yīng)用廠家的產(chǎn)品及連接方式可供選擇,選擇好連接方式后,即可按照該連接方式的要求提供連接參數(shù),如選擇Linux 服務(wù)器的SSH Linux 連接方式,需要填寫服務(wù)器IP 地址、端口號(hào)、登錄名和登錄密碼等,之后選擇下一步,進(jìn)行與監(jiān)控設(shè)備的連接。
與監(jiān)控設(shè)備連接成功后,系統(tǒng)出現(xiàn)基本監(jiān)測點(diǎn)和高級(jí)監(jiān)測點(diǎn)兩個(gè)選項(xiàng),每個(gè)選項(xiàng)下面列出了若干可供選擇的監(jiān)控項(xiàng)目,用戶可以選擇所需的監(jiān)測項(xiàng)目并對其進(jìn)行基本配置,以滿足不同的監(jiān)控需求。如選擇監(jiān)控CPU、物理內(nèi)存、網(wǎng)卡、磁盤、進(jìn)程等。
通過以上設(shè)備連接和基本監(jiān)測點(diǎn)的添加后,在設(shè)備管理界面上便有了該設(shè)備項(xiàng)目。在該設(shè)備項(xiàng)目下列有多個(gè)監(jiān)測點(diǎn),對每個(gè)監(jiān)測點(diǎn)可以進(jìn)行編輯、測試、禁止和刪除等操作。通過選擇編輯監(jiān)測點(diǎn),可以對該監(jiān)測點(diǎn)的監(jiān)測參數(shù)重新設(shè)置,以滿足實(shí)際監(jiān)控需求。如執(zhí)行間隔時(shí)間、計(jì)劃任務(wù)、危險(xiǎn)閾值、故障閾值等,還可對該故障處理方法進(jìn)行描述,以提示用戶如何處理。
下面通過幾個(gè)具體示例,簡單描述監(jiān)控易在民航氣象信息系統(tǒng)監(jiān)控方面的應(yīng)用。
網(wǎng)絡(luò)設(shè)備有各種品牌的交換機(jī)、路由器、防火墻、負(fù)載均衡、VPN 等設(shè)備可供選擇監(jiān)控,如選擇銳捷交換機(jī)產(chǎn)品,通過配置SNMP端口進(jìn)行設(shè)備連接,監(jiān)控項(xiàng)目有交換機(jī)的CPU、內(nèi)存及各接口的連接狀態(tài)等。
可監(jiān)控的服務(wù)器包括Windows 服務(wù)器、Linux 服務(wù)器、IBM AIX服務(wù)器,HP和SUN的服務(wù)器等,如通過選擇IBM服務(wù)器類別、連接方式選擇SSH IBM AIX,配置好IP 地址、端口號(hào)22,登錄名和密碼后連接成功,可選監(jiān)控點(diǎn)CPU、交換分區(qū)、物理內(nèi)存、網(wǎng)卡、磁盤和進(jìn)程等。
如對民航氣象數(shù)據(jù)庫通信系統(tǒng)進(jìn)程rmqtxt 的監(jiān)控,該進(jìn)程負(fù)責(zé)獲取通信系統(tǒng)MQ 本地隊(duì)列LOCAL.TXT 的報(bào)文數(shù)據(jù),交由后續(xù)的進(jìn)程處理,如果該進(jìn)程down,則導(dǎo)致隊(duì)列數(shù)據(jù)積壓,影響報(bào)文數(shù)據(jù)的接收及處理。該監(jiān)控點(diǎn)的監(jiān)控參數(shù)可以選擇5分鐘監(jiān)控時(shí)間間隔、故障閾值為小于1。如果該進(jìn)程down,則系統(tǒng)監(jiān)測到該進(jìn)程運(yùn)行個(gè)數(shù)小于1,滿足故障閾值條件,監(jiān)控系統(tǒng)提示警告。
可監(jiān)控的數(shù)據(jù)庫類型包括Oracle 數(shù)據(jù)庫、IBM DB2 數(shù)據(jù)庫、Sybase 數(shù)據(jù)庫、MySQL 數(shù)據(jù)庫、SQL Server 數(shù)據(jù)庫等。民航氣象數(shù)據(jù)庫系統(tǒng)采用的是Oracle數(shù)據(jù)庫,首先選擇Oracle數(shù)據(jù)庫連接,設(shè)置數(shù)據(jù)庫用戶名、密碼、數(shù)據(jù)庫SID、端口號(hào)、數(shù)據(jù)庫IP 地址后,連接成功[5]。監(jiān)控點(diǎn)包括連接會(huì)話數(shù)、Oracle 當(dāng)前狀態(tài)、邏輯讀語句Top10、執(zhí)行語句Top10、Oracle表空間等。
另外,可以配置SQL 自定義監(jiān)測,通過查詢數(shù)據(jù)庫表信息內(nèi)容,對數(shù)據(jù)庫業(yè)務(wù)進(jìn)行監(jiān)控。如民航氣象數(shù)據(jù)庫系統(tǒng)會(huì)每分鐘接收到本場的自動(dòng)觀測數(shù)據(jù)并處理入庫,通過自定義SQL語句可監(jiān)控自動(dòng)觀察數(shù)據(jù)是否按時(shí)收到。自定義SQL語句如下:
其中:
DBINFO.INFO_AWOS_RPT為自觀數(shù)據(jù)表名
CCCC=′ZYXX′選擇查詢本場數(shù)據(jù)
OTIME為自觀數(shù)據(jù)時(shí)間
該SQL 查詢語句通過計(jì)算最新本場自觀數(shù)據(jù)時(shí)間與系統(tǒng)時(shí)間的差值,再通過設(shè)置危險(xiǎn)閾值和故障閾值的行數(shù)信息,得出自觀數(shù)據(jù)是否收到的結(jié)果。如調(diào)試后設(shè)置故障閾值為行數(shù)60,當(dāng)自定義SQL語句執(zhí)行結(jié)果大于60 時(shí),說明已有10 分鐘未收到本場的自觀數(shù)據(jù),監(jiān)控系統(tǒng)隨即警告。
IBM MQ 是消息傳遞中間件,用于簡化和加速多個(gè)平臺(tái)中各種應(yīng)用和業(yè)務(wù)數(shù)據(jù)的集成。民航氣象數(shù)據(jù)庫系統(tǒng)使用了MQ(消息隊(duì)列)進(jìn)行數(shù)據(jù)的傳輸??梢酝ㄟ^添加監(jiān)控點(diǎn)完成對MQ的監(jiān)控。
首先對MQ服務(wù)端進(jìn)行配置,具體步驟如下:
1)切換到系統(tǒng)root 用戶,在MQ 服務(wù)器上創(chuàng)建SYSTEM用戶,并添加到mqm組
2)切換到MQ 管理員mqm 用戶,查看MQ 服務(wù)器上的隊(duì)列管理器
3)創(chuàng)建服務(wù)器連接通道,并指定為SYSTEM用戶
中國的物流是個(gè)很極端化的行業(yè),當(dāng)然也許并不特殊。有明哲保身,謀求生存的物流企業(yè),也有敢于叫板國際物流巨頭,甚至收購國際物流巨頭的物流企業(yè)。
4)創(chuàng)建監(jiān)聽器,注意端口號(hào)(默認(rèn)1414)
其中,ZYXX是MQ本地隊(duì)列管理器名稱。之后,在監(jiān)控易上選擇添加中間件設(shè)備的IBM MQ 選項(xiàng),輸入MQ服務(wù)器IP地址、端口號(hào)、隊(duì)列管理器名稱、服務(wù)器連接通道后,完成IBM MQ 中間件的連接,并對隊(duì)列、通道、系統(tǒng)隊(duì)列、系統(tǒng)通道及偵聽器狀態(tài)等指標(biāo)進(jìn)行監(jiān)控。
通過安裝監(jiān)控易私有Agent 插件,可以完成對文件信息的有效監(jiān)控。
1)文件大小的監(jiān)控
民航氣象信息服務(wù)系統(tǒng)在Linux 服務(wù)器安裝了Web服務(wù),可以通過添加監(jiān)控點(diǎn)完成對文件大小的監(jiān)控。首先下載安裝監(jiān)控易Agent Linux 插件,完成對Linux 系統(tǒng)的Agent 方式連接,Agent 端口號(hào)默認(rèn)是2198。配置監(jiān)測點(diǎn)選擇高級(jí)監(jiān)測點(diǎn)的Linux File 選項(xiàng),監(jiān)控參數(shù)有要監(jiān)控的文件名、危險(xiǎn)閾值和故障閾值為文件的大小。如要監(jiān)控tomcat 日志文件/home/tomcat/tomcat1/logs/catalina.out 大小,可設(shè)置危險(xiǎn)閾值和故障閾值分別為2GB和4GB,當(dāng)日志文件字節(jié)數(shù)大于4GB時(shí),監(jiān)控系統(tǒng)告警。
通過一些輔助的腳本編寫,也可以完成對新增文件的監(jiān)控。例如,氣象雷達(dá)基數(shù)據(jù)每2~6分鐘自動(dòng)更新,而且數(shù)據(jù)會(huì)以不同的文件名存儲(chǔ)在Windows服務(wù)器中。首先通過同步軟件將最新獲取的文件拷貝到其他目錄,并更改為一固定文件名如radar.new。再通過編寫定時(shí)刪除腳本將其刪除,如設(shè)置10分鐘定時(shí)刪除radar.new文件。這樣通過監(jiān)控易監(jiān)控是否存在radar.new文件,即可完成對新增文件的監(jiān)控目的。
首先下載安裝監(jiān)控易Agent Windows 插件,完成對Windows系統(tǒng)的Agent方式連接,Agent端口號(hào)默認(rèn)是2198。配置監(jiān)測點(diǎn)選擇高級(jí)監(jiān)測點(diǎn)的Windows 文件信息選項(xiàng),監(jiān)控參數(shù)有要監(jiān)控的文件名、危險(xiǎn)閾值和故障閾值為文件的大小。如要監(jiān)控新增文件D:DATARADAR adar.new 大小,可設(shè)置危險(xiǎn)閾值和故障閾值為none,當(dāng)未監(jiān)控到該文件存在時(shí),也就是監(jiān)控周期內(nèi)沒有新增文件到達(dá),監(jiān)控系統(tǒng)告警。
民航氣象信息系統(tǒng)在空管服務(wù)及航空運(yùn)輸方面起著至關(guān)重要的作用,維護(hù)該系統(tǒng)的正常運(yùn)行是提供保障的基礎(chǔ)。監(jiān)控易在民航氣象信息系統(tǒng)監(jiān)控運(yùn)維上的應(yīng)用,不僅提高了系統(tǒng)運(yùn)維效率,也降低維護(hù)人員的工作強(qiáng)度。隨著監(jiān)控易系統(tǒng)在民航氣象信息系統(tǒng)監(jiān)控運(yùn)維方面的不斷開發(fā)與應(yīng)用,必將在保障民航飛行安全,提高服務(wù)質(zhì)量方面發(fā)揮更大的作用。