王立平 何 榮
富陽市供電局經過多年的信息化建設,已有多個信息系統在使用,所采用的服務器和信息系統日益復雜。由于對現有的系統缺乏有效的管理手段,對計算機資源分布和性能分布缺乏有效的監(jiān)控手段,對系統故障和效率下降缺乏預警、分析工具。因此,需要建設一套服務器綜合管理系統來提高基礎設施的可靠性、利用率和安全性等,減少混合網絡管理環(huán)境下的運營成本。同時,系統還能為信息化的長期發(fā)展規(guī)劃提供必要的依據,在建設基礎設施的同時,提供規(guī)劃和實現信息協調和資源管理,實現高效的系統管理,從而獲得可靠的信息支持。
一、管理系統功能需求
實現所轄的主機設備、服務器的監(jiān)控管理;
實現告警信息的定制、獲取、處理和統計功能;
實現對信息網上所有服務器設備的性能數據的采集和統計功能;
根據監(jiān)測到的性能原始數據,對信息系統運行狀況,運行趨勢等進行分析;
提供靈活的報表定制功能,針對需求定制開發(fā)報表。
二、管理系統的設計與建設
富陽市供電局已經部署了北塔的IT綜合管理系統的網管模塊,為了保證管理平臺的統一,通過在北塔IT綜合管理系統中,增加主機、數據庫管理等功能模塊,實現了服務器綜合管理。
1.系統部署
(1)主機設備管理使用SNMP協議,開放只讀權限,并使用不同的字符串。在服務端進行設置,實現服務器拓撲圖。
(2)對每個數據庫服務器建立管理用戶,開放最小權限,僅能查詢對應的視圖與表,以免管理用戶權限過大。在服務器端將每個數據庫服務添加到應用服務中進行管理。
(3)通過對服務告警類進行定義,可以對所有設備的CPU、內存、應用服務、數據庫重要參數等信息定義閥值,設置規(guī)則,在系統中進行告警。
(4)通過報表設置,定義如設備負載、告警事件、服務報表等,按類別在不同的時間段生成報表,可生成EXCEL或HTML格式,便于分析總結。
2.系統實現的主要功能
(1)進程狀態(tài)分析
服務器進程控制對整個服務器的運行至關重要,會影響到其操作系統的正常運行和關鍵服務的正常運行,所以實時掌握服務器的所有進程運行情況是很有必要的。
管理系統每分鐘從服務器上獲取最新的進程運行數據,提供各進程的運行趨勢分析圖,包括進程的CPU占用趨勢圖、物理內存利用率趨勢圖等,方便管理人員查看各進程一段時間以來的運行情況。
(2)文件系統分析
文件系統分析主要提供服務器上各文件系統的空間大小和使用情況(已用空間、剩余空間、利用率)以及文件系統的名稱、類型等基本信息。
管理人員可以指定系統的刷新間隔,以一定的頻率自動從服務器上讀取文件系統信息和參數,便于服務器文件系統的狀態(tài)監(jiān)視和處理。
(3)CPU/內存利用率分析
管理系統收集服務器的CPU/內存利用率的性能狀態(tài),并與預設的CPU/內存利用率閾值進行比較和處理,以便及時處理系統的資源分配出現的不正常,避免可能遭到病毒攻擊或可能的有非法服務在活動。
(4)硬盤性能分析
管理系統可以收集磁盤性能I/O狀態(tài)信息。幫助用戶分析磁盤讀取的繁忙程度,由于磁盤I/O信息是影響系統性能的常見因素,進而得到對優(yōu)化整個系統性能的參考指標。
(5)服務器日志查詢、分析
管理系統可以采用syslog、WMI、telnet、ssh的方式來讀取所監(jiān)控服務器的日志,并可按分鐘、小時、日等方式對日志進行查詢與分析。
(6)數據庫管理
信息系統的運行離不開數據庫,通過管理系統,將數據庫加入管理中,可以實現oracle數據庫的會話、表空間、SGA、PGA等參數以及其他各類型數據庫各項參數的監(jiān)控。
三、系統建設和應用的幾點思考
1.服務器管理系統實施前,均是通過手工方式對各臺設備進行管理,需要對每臺設備進行查看,出現問題時,并不能第一時間發(fā)現,而且記錄的數據有限,每臺設備的硬件資源使用情況不能做到一目了然,對設備運行分析沒有準確的數據支撐。通過服務器管理系統的實施,管理人員不需要每臺設備進行巡視,就能獲取設備與系統的實時運行情況。
2.對網絡設備、主機、應用系統在內的跨廠家、跨平臺的統一管理;網絡產品管理、服務器管理、應用服務管理等進行監(jiān)控;提供了較快速的故障告警信息、被監(jiān)視設備的故障日志等信息;能對這些系統提供的數據進行整理和分析,為系統運維以及信息基礎設施方面的規(guī)劃提供有力幫助。
3.信息系統是不斷發(fā)展的,網點的數量也在不斷增加。因此,在系統管理的范圍上將最終提供涵蓋從系統基礎設施到業(yè)務系統的全面的管理功能。這就需要所設計的系統具有從橫向(管理系統向多個業(yè)務系統擴展)和縱向(管理功能的增加)兩個方面的可擴展能力。
(作者單位:浙江省富陽市供電局)