楊旸 呼和 李為沖 張垚
摘要:隨著業(yè)務(wù)的不斷拓展,新系統(tǒng)的不斷上線,系統(tǒng)運維團隊的壓力變得越來越大。為提高運維工作效率,降低工作強度并控制人力成本,本文提出了了一種輕量級運維管理系統(tǒng)設(shè)計和實現(xiàn)方案。通過該系統(tǒng),運維人員將能直觀地了解各個系統(tǒng)、服務(wù)器的運行狀態(tài),并能方便地對各業(yè)務(wù)熱度和服務(wù)器壓力進行統(tǒng)計和對比,還能將運維經(jīng)驗有效地收集、共享和討論,方便了其他運維人員和各系統(tǒng)用戶的工作,也為多地協(xié)作提供了解決方案。
關(guān)鍵詞:運維管理;監(jiān)控報警;日志采集;交流共享;統(tǒng)計分析
中圖分類號:TP311.52 文獻標識碼:A 文章編號:1007-9416(2018)05-0172-02
1 背景
對于非專業(yè)IT公司的信息部門,運維團隊往往只有有限的人力物力資源。隨著系統(tǒng)不斷增加,運維壓力也逐年增加,需要一個自動化的運維管理工具幫助運維人員解決日常的機械性重復(fù)工作,把寶貴的精力集中在判斷和處理運維風險上;也需要一個平臺收集和共享運維人員經(jīng)驗,并提供用戶查找、提問同時方便運維人員發(fā)現(xiàn)和反饋問題。
因此,我們需要設(shè)計一個能統(tǒng)一管理各個系統(tǒng)及相應(yīng)資源的運維管理系統(tǒng),協(xié)助運維人員監(jiān)測和分析運維風險,同時提供一個用戶和運維人員交流的平臺,以提高工作效率。
2 平臺應(yīng)當具備的功能
為了實現(xiàn)設(shè)計目標,系統(tǒng)需要具備以下功能:
(1)統(tǒng)一監(jiān)控和管理:包括服務(wù)器、業(yè)務(wù)系統(tǒng)、數(shù)據(jù)庫、應(yīng)用服務(wù)、業(yè)務(wù)關(guān)鍵服務(wù)、業(yè)務(wù)關(guān)鍵進程、各類硬件資源和各類賬號密碼等;(2)提問、檢索和交流:提供一個用戶和運維人員互相交流的平臺,并能將解決方案和經(jīng)驗技巧分類保存;(3)及時通知和報警:包括各個監(jiān)控對象的異常情況、用戶提出的問題、長時間未被反饋的問題和長時間沒有結(jié)題的問題等;(4)統(tǒng)計和分析:包括系統(tǒng)日志、應(yīng)用服務(wù)日志、數(shù)據(jù)庫日志、業(yè)務(wù)系統(tǒng)日志以及運維工作量的統(tǒng)計和分析。
3 系統(tǒng)設(shè)計
3.1 統(tǒng)一信息管理平臺
對運維系統(tǒng)涉及的各個目標進行統(tǒng)一管理。以業(yè)務(wù)系統(tǒng)為單位,由各運維人員注冊服務(wù)器、業(yè)務(wù)系統(tǒng)、數(shù)據(jù)庫和應(yīng)用服務(wù)信息;并填報正常運行所需的關(guān)鍵服務(wù)和進程信息、硬件資源信息;同時提供具有一定權(quán)限的服務(wù)器、數(shù)據(jù)庫、業(yè)務(wù)系統(tǒng)的賬號及密碼。
3.2 狀態(tài)監(jiān)控平臺
為了實現(xiàn)狀態(tài)檢查的自動化,從機械化重復(fù)勞動中釋放人力資源,使用了基于Webservice和C/S端程序的狀態(tài)監(jiān)測方式,各系統(tǒng)運維人員在運維管理系統(tǒng)中設(shè)定的周期檢查以下內(nèi)容:
對于服務(wù)器、數(shù)據(jù)庫和應(yīng)用服務(wù)的連通情況,主監(jiān)測服務(wù)器主動進行通信測試;
對于關(guān)鍵服務(wù)、進程、硬件資源(如硬盤容量、CPU負荷、內(nèi)存使用情況等)等,由C/S端監(jiān)控程序根據(jù)預(yù)先設(shè)定的掃描周期通過各服務(wù)器上的監(jiān)控WebService獲取目標后自動檢查,如圖1所示。
3.3 信息采集平臺
目標信息主要有兩種,非結(jié)構(gòu)化(文件形式)的日志信息和結(jié)構(gòu)化數(shù)據(jù)的日志信息:
對于各個業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫中本身已經(jīng)結(jié)構(gòu)化的業(yè)務(wù)系統(tǒng)日志,直接按照預(yù)設(shè)的周期取出并標準化存入運維管理系統(tǒng);
對于系統(tǒng)、應(yīng)用服務(wù)、數(shù)據(jù)庫等以文件方式儲存的日志,將根據(jù)各系統(tǒng)運維人員在運維管理系統(tǒng)重配置的絕對路徑,由C/S端監(jiān)控程序根據(jù)預(yù)先設(shè)定的掃描周期通過各服務(wù)器上的監(jiān)控WebService獲取路徑后,按照增量采集策略,從文件夾中提取并標準化,再發(fā)送到運維管理系統(tǒng)的數(shù)據(jù)庫相應(yīng)表,同時通過WebService獲取并重設(shè)下一個掃描周期。由于日志數(shù)量可能為海量數(shù)據(jù),運維管理系統(tǒng)將根據(jù)日志類型、業(yè)務(wù)類型,每個月自動創(chuàng)建數(shù)個新日志表,如圖2所示。
3.4 交流共享平臺
為方便用戶根據(jù)系統(tǒng)或問題類型找到運維專家,同時方便運維人員討論和解決問題,并為日后統(tǒng)計工作量和貢獻度提供依據(jù),基于網(wǎng)絡(luò)論壇設(shè)計了運維經(jīng)驗交流共享平臺,如圖3所示。
3.5 統(tǒng)計和分析平臺
通過數(shù)據(jù)進行可視化處理(折線圖、散點圖等)使用圖表對自動采集到的日志數(shù)據(jù)、交流平臺運維工作記錄和監(jiān)控報警信息進行統(tǒng)計,并通過基于Excel的協(xié)方差公式(COVAR)和協(xié)方差矩陣對n組數(shù)據(jù)進行對比計算,找到數(shù)據(jù)中正相關(guān)的變量(兩個變量的變化趨勢一致則協(xié)方差是正值)進行相關(guān)性分析,自動生成周報和月報等資料。
4 應(yīng)用效果
運維管理系統(tǒng)在應(yīng)用中取得了良好效果。經(jīng)過對比,狀態(tài)監(jiān)控平臺有效地減少了運維風險的發(fā)現(xiàn)和報警時間,縮短30%以上:交流共享平臺極大地提高了運維人員的工作效率和用戶滿意度,工作效率提高40%,用戶滿意度達到95%以上:信息采集平臺顯著地減輕了運維人員的日常運維工作壓力;統(tǒng)計分析平臺為領(lǐng)導(dǎo)決策提供了信息支持。
5 前景展望
運維管理系統(tǒng)已在廣大用戶和運維人員中廣受好評,下一步計劃從大數(shù)據(jù)和機械學(xué)習(xí)角度出發(fā),挖掘現(xiàn)有海量數(shù)據(jù)的應(yīng)用價值,對業(yè)務(wù)系統(tǒng)的日志進行同步分析,緊跟每個用戶的操作并學(xué)習(xí)各個用戶的使用習(xí)慣,為進一步優(yōu)化業(yè)務(wù)流程、改進系統(tǒng)設(shè)計提供精準的數(shù)據(jù)支持。
參考文獻
[1]梅長林,范金城.數(shù)據(jù)分析方法[M].高等教育出版社,2006.
[2]任育偉,呂學(xué)強,李卓,徐麗萍.搜索日志中熱點查詢的內(nèi)容抽取[J].計算機應(yīng)用與軟件,2015,32(12):16-21.