李偉霄,趙 潔,鄧 潔,李光鍇,姜 寧
(中國移動通信集團設(shè)計院有限公司山東分公司 濟南250001)
某電信運營商公司目前有信息化系統(tǒng)37 套,主要包括硬件、軟件、應(yīng)用、數(shù)據(jù)庫、業(yè)務(wù)等多類。經(jīng)過幾年的運維工作積累,公司的硬件(包括小型機、PC Server 和交換機等)自動監(jiān)控、業(yè)務(wù)流程梳理等都有相關(guān)系統(tǒng)進行服務(wù)支撐。2013年底,政府主管部門明確要求全面深入地掌握公司信息化系統(tǒng)情況,提升快速發(fā)現(xiàn)問題和解決問題的能力。在此要求下,項目組決定在軟件自動化監(jiān)控方面進行突破。據(jù)統(tǒng)計分析,信息化系統(tǒng)擁有307 套軟件,包括Web 服務(wù)軟件、中間件、數(shù)據(jù)庫、安全軟件、備份軟件、第三方軟件和其他類型的軟件,其中,數(shù)據(jù)庫為103個,數(shù)據(jù)庫的數(shù)量最大,所以本文重點研究實現(xiàn)數(shù)據(jù)庫軟件的自動監(jiān)控與告警。移動信息化軟件分布如圖1 所示。
經(jīng)過對常規(guī)1 臺數(shù)據(jù)庫巡檢流程進行分析,可以看出,數(shù)據(jù)庫手工檢查內(nèi)容繁瑣,耗費時間。數(shù)據(jù)庫日常巡檢流程如圖2 所示。
結(jié)合目前IT 系統(tǒng)運維管理現(xiàn)狀以及多年運維管理和技術(shù)經(jīng)驗,通過“頭腦風(fēng)暴法”和“德爾菲法”提出了4個數(shù)據(jù)庫智能監(jiān)控解決方案,如圖3 所示。
圖1 移動信息化軟件分布
圖2 數(shù)據(jù)庫日常巡檢流程
圖3 實現(xiàn)解決方案
針對圖3 所示的4 種備選方案,從成本、實施難易程度、實施周期、需求變動難度、運維管理職責(zé)等角度分別進行了分析,方案評估見表1。
為了將4 種方案的優(yōu)劣進行量化對比,對成本、實施難度、實施周期、實施效果、后期需求變動難度共5個維度制定了評分標準,具體內(nèi)容見表2。
根據(jù)上面制定的評分標準對3 種備選方案進行打分(最高分5 分),方案評分見表3,可選方案最終得分如圖4 所示。
評估結(jié)果表明:成熟開源監(jiān)控平臺的方案實現(xiàn)最為合理,實施難易度適中,成本較低,后期維護難度最小,綜合得分最高。
先后研究和評估了國際上主流的開源軟件,根據(jù)平臺的用戶規(guī)模、漢化程度以及監(jiān)控功能,選擇了Nagios、Zabbix、Cacti 作為監(jiān)控平臺的研究方向。隨后根據(jù)軟件選型方案,結(jié)合實際工作情況,整理出了軟件選型的評估項,見表4。
分3 組對Nagios、Zabbix、Cacti 進行環(huán)境測試,根據(jù)實際監(jiān)控需求,部署和配置了3 套軟件平臺,最終評分(最高分10 分)見表5。
開源監(jiān)控平臺的最終得分如圖5 所示,通過對比選優(yōu),最終選擇Zabbix 開源監(jiān)控平臺。
數(shù)據(jù)庫監(jiān)控平臺接入實施流程為:監(jiān)控數(shù)據(jù)庫→監(jiān)控項→觸發(fā)器→告警動作→告警方式→告警用戶組,具體實施內(nèi)容可參考相應(yīng)的接入實施手冊,本文不再贅述。數(shù)據(jù)庫智能化監(jiān)控流程如圖6所示,數(shù)據(jù)庫接入后展示效果如圖7 所示。
監(jiān)控內(nèi)容、參數(shù)、Agent 程序等經(jīng)反復(fù)測試、數(shù)據(jù)收集,已經(jīng)正式將信息化相關(guān)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫內(nèi)容接入。通過Zabbix 集中監(jiān)控平臺實現(xiàn)了對數(shù)據(jù)庫(Oracle、DB2、MySQL)可用性、連接情況、表空間情況、鎖信息、日志信息等的監(jiān)控,監(jiān)控參數(shù)多達20 余個。現(xiàn)網(wǎng)數(shù)據(jù)庫接入集中監(jiān)控體系,將運維中常見的網(wǎng)絡(luò)問題、應(yīng)用服務(wù)問題、數(shù)據(jù)庫問題進行有效區(qū)分,有助于迅速定位故障原因。另外,作為一種常規(guī)監(jiān)控手段,當數(shù)據(jù)庫性能觸發(fā)設(shè)定閾值進行及時預(yù)警,可大幅提升因性能瓶頸出現(xiàn)的一系列應(yīng)用故障處理效率。
表1 方案評估
表2 方案評分標準
表3 方案評分
圖4 可選方案最終得分
表4 開源監(jiān)控平臺的選型評估模型
表5 開源監(jiān)控平臺的評分
圖5 開源監(jiān)控平臺最終得分
圖6 數(shù)據(jù)庫智能化監(jiān)控流程
圖7 監(jiān)控平臺效果