IT綜合監(jiān)控系統(tǒng)在企業(yè)的運維工作中發(fā)揮了越來越重要的作用,小王所在IT運維組的同事們都越來越依賴這一監(jiān)控工具。為了進一步深化IT綜合監(jiān)控功能應用,同時也為了考察員工們對IT綜合監(jiān)控功能的應用掌握情況,主管大劉召集了一次IT綜合監(jiān)控功能應用探討會議,讓大家都說說利用IT綜合監(jiān)控工具解決了自己哪些問題、還存在什么問題,以下為發(fā)言記錄。
1.MES服務器有一段時間經(jīng)常死機,原因未明。后來我通過主機性能報表發(fā)現(xiàn)在死機前的一段時間里,這臺服務器的磁盤繁忙率特別高,我就聯(lián)系了MES開發(fā)人員調(diào)整了應用程序不合理的地方,現(xiàn)在死機現(xiàn)象再也沒有了。
2.我現(xiàn)在把我所管理的服務器都做了很精細的性能告警定制,確保收到的告警都是有效告警。例如,ERP服務器的cpu性能運行在40%以下屬于正常,我就把告警閥值定為40%;LIMS服務器的cpu性能運行在60%以下屬于正常,我就把告警閥值定義為60%。這樣做的好處就是我收到的告警都是需要我關(guān)注的。
3.資金結(jié)算應用是我管理的十分重要的應用,我就定制了對這一應用進程的監(jiān)控,什么時候這個進程出了異常,比如宕了、占用cpu內(nèi)存高了,IT綜合監(jiān)控系統(tǒng)都能及時通知到我。自從這么做以來,我就再也沒接收到投訴了。
4.我還定制了對errpt log、system等日志的監(jiān)控,什么時候硬件有了異?,F(xiàn)象我都能及時發(fā)現(xiàn)。
5.我利用主機監(jiān)控功能還做了些監(jiān)控腳本,重要的系統(tǒng)文件被改動,重要的日志文件很久沒更新(例如,通信接口日志文件如果超過30分鐘沒更新,這就很可能是接口程序出了異常)我都能及時發(fā)現(xiàn)。
6.以前咱們公司的主頁,還有OA系統(tǒng)不太穩(wěn)定,總有不能訪問的情況。以前都是投訴電話打來了我才知道,后來我利用IT綜合監(jiān)控系統(tǒng)的業(yè)務撥測功能,每隔1—5分鐘就探測下這些頁面能否正常訪問,有了異常我先知道。
7.以前我都是通過手工巡檢的方式查看各個服務器的運行狀態(tài),有了IT綜合監(jiān)控系統(tǒng),我的工作模式徹底改變。在做好各項告警定之后,系統(tǒng)有了問題就會發(fā)告警給我,我的精力可以解放出來做系統(tǒng)優(yōu)化更有意義的工作了。
1.我管理著所有重要的數(shù)據(jù)庫,以前壓力特別大,生怕哪個數(shù)據(jù)文件滿了影響生產(chǎn),現(xiàn)在我對這些增長比較快的數(shù)據(jù)文件全都定義了性能閥值,超過70%就會告警,我的工作再也不會手忙腳亂了。
2.有一段時間應用開發(fā)人員老是反映數(shù)據(jù)庫訪問慢,我通過數(shù)據(jù)庫性能監(jiān)控報表發(fā)現(xiàn)那一時刻有不少的死鎖存在,把這一現(xiàn)象告訴了應用開發(fā)人員后,他們調(diào)整了訪問那幾張表的頻率和時間,現(xiàn)在這種現(xiàn)象已經(jīng)沒有了。
3.數(shù)據(jù)庫的alert日志監(jiān)控我很關(guān)心,里面記錄著數(shù)據(jù)庫的各種異常信息。我就把常見的錯誤關(guān)鍵字做了日志監(jiān)控,什么時候出現(xiàn)了ora-600之類的錯誤我都能及時發(fā)現(xiàn)。
4.美中不足的是,現(xiàn)在IT綜合監(jiān)控系統(tǒng)還不能告訴我數(shù)據(jù)庫慢的時候是什么sql語句導致的,要是能有這個信息應用開發(fā)人員就能更快地調(diào)整程序了。
IT綜合監(jiān)控管理系統(tǒng)(Integrated Monitor System,IMS)是東華軟件ForceView IT運維管理套件的重要組成部分,實現(xiàn)數(shù)據(jù)中心的IT環(huán)境、IT設備、IT應用以及業(yè)務的7X24小時自動監(jiān)控。
通過IMS產(chǎn)品,運維部門能夠?qū)崿F(xiàn)數(shù)據(jù)中心IT環(huán)境、IT設備、IT應用以及業(yè)務四個層面的綜合監(jiān)控及管理數(shù)據(jù)的分析,能夠?qū)崿F(xiàn)不同廠家、不同型號/版本的軟硬件設備/應用的綜合監(jiān)控,從根本上根治數(shù)據(jù)中心IT系統(tǒng)四國八制帶來的管理問題,單位領(lǐng)導、業(yè)務人員、CIO、運維人員都能夠通過IMS系統(tǒng)獲得各自感興趣并能夠理解的管理數(shù)據(jù):
單位領(lǐng)導可獲知IT系統(tǒng)對本單位業(yè)務的支持情況以及信息部門的運維水平。
業(yè)務人員可獲知業(yè)務交易的可用性及性能。
CIO可提高數(shù)據(jù)中心IT系統(tǒng)的運維效率并可評估運維人員的運維工作能力,同時可量化的評估IT系統(tǒng)的使用效率、系統(tǒng)業(yè)務容量及升級方案。
運維人員工作效率大幅提高,工作由被動的救火轉(zhuǎn)為主動的管理和優(yōu)化,故障的發(fā)現(xiàn)、定位、修復時間大大縮短。