周美佳, 王一鳴
(中海信息系統(tǒng)有限公司,上海200120)
隨著企業(yè)信息化程度不斷加深,信息化對企業(yè)業(yè)務(wù)發(fā)展的支撐作用日漸突出,這給信息系統(tǒng)管理員的日常運(yùn)維工作提出了前所未有的挑戰(zhàn),需要管理員更多地關(guān)注系統(tǒng)的運(yùn)行情況。在人力資源有限的情況下,如何實現(xiàn)對設(shè)備和系統(tǒng)健康狀況的有效監(jiān)控,是企業(yè)信息化建設(shè)過程中需要思考的問題。
當(dāng)今國內(nèi)外市場,大多設(shè)備供應(yīng)商或系統(tǒng)軟件提供商都能夠提供自主品牌的管理系統(tǒng),一些國際著名公司還推出了自己的監(jiān)控軟件,如IBM公司的Tivoli,HP公司的Open View,Quest公司(現(xiàn)被DELL并購)的Foglight。通過對市場產(chǎn)品進(jìn)行調(diào)研和測試發(fā)現(xiàn),許多國際品牌的產(chǎn)品復(fù)雜度較高,界面交互不夠友好,產(chǎn)品功能不能滿足企業(yè)在復(fù)雜品牌環(huán)境下對服務(wù)器、網(wǎng)絡(luò)設(shè)備、存儲進(jìn)行全方位監(jiān)控的需要。因此,為滿足企業(yè)運(yùn)維的需要,設(shè)計出一款功能清晰完備、簡單易操作、具有直觀圖形展現(xiàn)界面、后期易運(yùn)維、價格適中的監(jiān)控軟件具有重要意義。
在企業(yè)中,隨著業(yè)務(wù)不斷增多,監(jiān)控設(shè)備的數(shù)量也在不斷增加。通過對企業(yè)運(yùn)維工作中發(fā)生的安全事件進(jìn)行統(tǒng)計分析發(fā)現(xiàn),在影響系統(tǒng)正常運(yùn)行的事件中,有95%以上是由網(wǎng)絡(luò)線路故障、應(yīng)用中間件故障、設(shè)備宕機(jī)等基礎(chǔ)平臺層故障引起的,且這些故障的報障來源大多為最終用戶,一線運(yùn)維人員接到宕機(jī)消息往往會滯后系統(tǒng)宕機(jī)時間15~30 min。此外,一些可以提前避免的事故也時有發(fā)生。因此,只靠管理員進(jìn)行人工管理維護(hù)很難保證系統(tǒng)的良好正常運(yùn)轉(zhuǎn),需要管理員主動、實時地獲取設(shè)備的靜態(tài)或動態(tài)信息,獲取故障報警或潛在故障的預(yù)報,保證在設(shè)備維護(hù)工作不斷增加的情況下更加穩(wěn)定地管理自己的系統(tǒng)。
利用已有的開放網(wǎng)絡(luò)協(xié)議,即可實現(xiàn)對遠(yuǎn)程設(shè)備健康狀況進(jìn)行實時數(shù)據(jù)查看和控制,確保被監(jiān)控設(shè)備和服務(wù)的安全性和正常平穩(wěn)運(yùn)行,實現(xiàn)數(shù)據(jù)中心服務(wù)器、存儲、網(wǎng)絡(luò)設(shè)備的全方位監(jiān)控,無需在被監(jiān)控的遠(yuǎn)程設(shè)備上安裝任何軟件。
已有的開放網(wǎng)絡(luò)協(xié)議Windo ws管理規(guī)范(Windows Management Instr u mentation,WMI)協(xié)議、簡單網(wǎng)絡(luò)管理(Sinple Net wor k Management Protocol,SNMP)協(xié)議、存儲管理接口規(guī)范(Storage Management Initiative Specification,SMI-S)協(xié)議。
1.WMI是微軟開發(fā)的一種系統(tǒng)組件,幾乎可以對所有Windows系統(tǒng)資源進(jìn)行描述,因此,通過這一規(guī)范不僅可以幾乎配置管理所有的 Windows軟硬件資源[1],還可以獲取被管理設(shè)備的硬件軟件信息,監(jiān)視被管理設(shè)備軟件和服務(wù)等的運(yùn)行狀況。
2.SNMP是網(wǎng)絡(luò)中管理設(shè)備和被管理設(shè)備間的通信規(guī)則,是一個從設(shè)備上收集管理信息的公用通信協(xié)議,其定義了一系列消息、方法和語法,用于實現(xiàn)管理設(shè)備對被管理設(shè)備(如交換機(jī)、路由器、主機(jī)操作系統(tǒng)等)的訪問和管理[2]。SNMP模型結(jié)構(gòu)由四部分組成:管理端、被管理端、管理信息庫(Management Inf ormation Bace,MIB)、管理協(xié)議[3]。
3.SMI-S是一種存儲管理的接口標(biāo)準(zhǔn),其在存儲網(wǎng)絡(luò)中的存儲設(shè)備和管理軟件之間提供了標(biāo)準(zhǔn)化的通信方式,遵守該規(guī)范的產(chǎn)品都可以通過統(tǒng)一的應(yīng)用程序接口進(jìn)行管理,使存儲管理真正實現(xiàn)廠商無關(guān)性,提高管理效率,降低管理成本。
由兩臺高性能服務(wù)器提供監(jiān)控系統(tǒng)硬件架構(gòu),其中一臺作為存儲數(shù)據(jù)庫運(yùn)行,另一臺作為數(shù)據(jù)收集和處理平臺展現(xiàn)應(yīng)用程序(Application,APP)。
監(jiān)控系統(tǒng)拓?fù)浣Y(jié)構(gòu)見圖1,服務(wù)器配置見表1。
圖1 監(jiān)控系統(tǒng)拓?fù)浣Y(jié)構(gòu)
表1 監(jiān)控系統(tǒng)服務(wù)器配置
監(jiān)控系統(tǒng)主要涉及的對象有:被管理對象、Agent服務(wù)器、采集到的數(shù)據(jù)、數(shù)據(jù)庫、命令及配置信息、APP展示界面、報警信息、管理員等。監(jiān)控系統(tǒng)的工作流程如下:
(1)監(jiān)控系統(tǒng)(管理端)發(fā)起對被管理端運(yùn)行狀態(tài)的輪詢,按照實際要求設(shè)置輪詢采集間隔;
(2)被監(jiān)控對象與管理端通過開放網(wǎng)絡(luò)協(xié)議進(jìn)行信息采集;
圖2 監(jiān)控系統(tǒng)模塊設(shè)計
(3)將輪詢原始數(shù)據(jù)存入數(shù)據(jù)庫,以方便前臺展示和制作報表;
(4)對采集數(shù)據(jù)進(jìn)行分析,當(dāng)符合告警的事件發(fā)生時,以郵件或短信的形式進(jìn)行故障告警;
(5)通過B/S的WEB頁面展示監(jiān)控結(jié)果;
根據(jù)以上監(jiān)控系統(tǒng)工作流程,將監(jiān)控系統(tǒng)設(shè)計劃分為多個模塊,包括設(shè)備添加配置模塊、信息采集模塊、存儲模塊、數(shù)據(jù)分析模塊、輪詢模塊、告警模塊、展示模塊,見圖2。
1)設(shè)備添加配置模塊根據(jù)用戶要求添加被管理對象(包括被管理對象的主機(jī)IP地址、配置
信息、數(shù)據(jù)采集方式、輪詢間隔),以及對被管理對象的配置做出及時更新。
2)信息采集模塊利用網(wǎng)絡(luò)協(xié)議對被管理對象進(jìn)行信息采集,為系統(tǒng)監(jiān)控提供原始數(shù)據(jù)。
3)存儲模塊是將采集到的原始數(shù)據(jù)以特定的方式存入到數(shù)據(jù)庫,供數(shù)據(jù)分析處理模塊使用。
4)輪詢模塊是根據(jù)用戶需要設(shè)置采集數(shù)據(jù)的間隔周期,體現(xiàn)監(jiān)控系統(tǒng)的實時性和靈活性。
5)告警模塊是將采集處理后的數(shù)據(jù)與系統(tǒng)預(yù)先設(shè)置的告警閥值進(jìn)行對比,當(dāng)超過閥值時觸發(fā)郵件或短信告警管理人員。
3.3.1 在 Windows系統(tǒng)中的應(yīng)用
在Windows系統(tǒng)中使用WMI協(xié)議,執(zhí)行從管理主機(jī)A到被管理主機(jī)B的遠(yuǎn)程WMI訪問時,必須建立從A到B的COM連接。在B上,需開啟WMI協(xié)議,并為A提供有效的管理員權(quán)限的用戶名和用戶密碼。B的操作系統(tǒng)需做出一定的設(shè)置,對 Windows防火墻及COM/DCOM端口進(jìn)行配置,同時,其需開放TCP 135(RPC通訊端口)、445、1025端口。在 Windows 2003系統(tǒng)中,由于遠(yuǎn)程過程調(diào)用(Remote Pr ocedure Call,RPC)端口為動態(tài)分配,還需對該動態(tài)端口進(jìn)行手動限制。利用WMI協(xié)議可以監(jiān)控到Windows服務(wù)器的CPU使用情況、磁盤空間和利用率、內(nèi)存容量和使用率、磁盤IO信息、網(wǎng)絡(luò)接口流量信息、操作系統(tǒng)信息、主機(jī)信息等幾十種具體參數(shù)。效果圖見圖3。
圖3 服務(wù)器監(jiān)控效果圖
3.3.2 在網(wǎng)絡(luò)設(shè)備監(jiān)控上的應(yīng)用
對于網(wǎng)絡(luò)設(shè)備的監(jiān)控,一般采用SNMP協(xié)議,需要被監(jiān)控的網(wǎng)絡(luò)設(shè)備支持SNMP協(xié)議,在設(shè)備上開啟此服務(wù),并設(shè)置訪問連接的團(tuán)體字符串。在監(jiān)控平臺的輪詢主機(jī)上配置此團(tuán)體字符串,作為監(jiān)控平臺輪詢被監(jiān)控設(shè)備的訪問憑證。利用SNMP協(xié)議可以監(jiān)控到網(wǎng)絡(luò)設(shè)備的網(wǎng)絡(luò)接口流量、丟棄事件、Jabber數(shù)據(jù)包、碎片數(shù)、尺寸過大的數(shù)據(jù)包、溫度等重要參數(shù)。接口流量效果圖見圖4。
圖4 接口流量效果圖
3.3.3 在存儲設(shè)備監(jiān)控上的應(yīng)用
對于存儲設(shè)備的監(jiān)控,不同廠商提供了不同的方式,但底層通訊遵循相同的存儲服務(wù)協(xié)議SMI-S。EMC低端存儲通過EMC公司提供的Navisphere CLI工具的Navi SECCli命令收集網(wǎng)絡(luò)中EMC的存儲信息,監(jiān)控平臺讀取收集到的存儲信息,并將結(jié)果返回給監(jiān)控平臺,監(jiān)控平臺通過圖形化界面展示給用戶。EMC高端存儲Sy mmetrix DMX系列的監(jiān)控方式與低端存儲不同,存儲信息的收取需要通過EMC公司為高端存儲專門定制的Provider。配置一臺通過光纖交換機(jī)與被監(jiān)控存儲連接的主機(jī),在被監(jiān)控存儲上劃出一小塊盤給此臺主機(jī),并在主機(jī)上安裝EMC SMI-S Pr ovider。此臺主機(jī)通過Pr ovider收集存儲信息,并將信息發(fā)送給監(jiān)控平臺。IBM System Storage Manager是一款使用方便、具有圖形化界面的存儲管理軟件,通過SMI-S協(xié)議,其能夠獲取存儲的狀態(tài)信息;監(jiān)控平臺通過IBM System Storage Manager獲取網(wǎng)絡(luò)中的被監(jiān)控存儲設(shè)備的信息,完成對IBM存儲的監(jiān)控,并進(jìn)行監(jiān)控平臺上的圖形化界面展示。利用SMI-S協(xié)議可以監(jiān)控到存儲設(shè)備控制器信息、RAID卡信息、磁盤容量和L UN信息、存儲卷信息、存儲卷所映射的主機(jī)等幾十種重要參數(shù)。存儲監(jiān)控效果見圖5。
圖5 存儲監(jiān)控效果
企業(yè)監(jiān)控系統(tǒng)主動的設(shè)備狀態(tài)監(jiān)控告警模式,能夠使系統(tǒng)管理員及時了解設(shè)備運(yùn)行情況,減輕了系統(tǒng)管理員的工作壓力,提高了工作效率和設(shè)備故障響應(yīng)速度,縮短了故障處理時間,使信息運(yùn)維工作管理更加規(guī)范和標(biāo)準(zhǔn),有效保障了公司信息基礎(chǔ)設(shè)施的安全、連續(xù)、可靠運(yùn)行。
[1] Luke zhang.WMI入門[EB/OL].(2014-06-02)[2013-03-22].http://www.cnblogs.com/ceachy/archive/2013/03/22/wmi_usage.ht ml.
[2] Shan Zhizi.SNMP 協(xié) 議 詳 解 [EB/OL].(2014-05-13)[2013-09-12].http://blog.csdn.net/shanzhizi/article/details/11606767.
[3] 李明江.SNMP簡單網(wǎng)絡(luò)管理協(xié)議[M].北京:電子工業(yè)出版社,2007.