湯劍++董劍
摘要:隨著學(xué)校信息化建設(shè)的推廣,用于信息化系統(tǒng)支持的IT系統(tǒng)基礎(chǔ)設(shè)施在不斷增加,故障率與維護(hù)工作量也隨著增加,分析造成故障率增加、運(yùn)維效率低、可用性無(wú)法保障的原因,規(guī)劃設(shè)計(jì)一個(gè)實(shí)現(xiàn)資源統(tǒng)一管理、故障自動(dòng)修復(fù)、問(wèn)題快速排除的統(tǒng)一運(yùn)維系統(tǒng)。
關(guān)鍵詞: 統(tǒng)一管理;虛擬化;運(yùn)行維護(hù);資源配置
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)21-0066-02
Unified Operation and Maintenance of Virtualized Environments
TANG Jian,DONG Jian
(Suzhou Vocational University Suzhou 215104,China)
Abstract: As the school informatization promotion, support for information system of the IT system infrastructure are on the increase.Also increases as the failure rate and maintenance work.Analyzes fault rate increase, low operational efficiency and availability cannot guarantee.Planning and design an implementation resources unified management, automatic fault repair, question quickly ruled out the unification of the operational system.
Key words: unified management; virtualization; operation maintenance; configuration management
1概述
伴隨著信息技術(shù)的不斷發(fā)展,信息系統(tǒng)運(yùn)維的概念已經(jīng)非常普及,根據(jù)自動(dòng)化運(yùn)維服務(wù)商Puppet labs發(fā)布的2013運(yùn)維報(bào)告顯示,采用自動(dòng)化運(yùn)維后,完成部署的速度提高很多倍,減少50%失敗概率,恢復(fù)系統(tǒng)的速度提高12倍,國(guó)內(nèi)外的互聯(lián)網(wǎng)公司都在開(kāi)發(fā)自己的運(yùn)維軟件,國(guó)內(nèi)大型互聯(lián)網(wǎng)公司阿里巴巴、百度、網(wǎng)易等都有專門的運(yùn)維體系研究部門。運(yùn)維管理在高校領(lǐng)域處于逐步實(shí)驗(yàn)階段,國(guó)內(nèi)一些高校已經(jīng)重視虛擬化應(yīng)用及運(yùn)維服務(wù)工作,大多采用自主研發(fā)與整合工具相結(jié)合的方式實(shí)現(xiàn),在運(yùn)維服務(wù)專業(yè)化、流程化、規(guī)范化方面取得了不同程度的成果。
2運(yùn)維的現(xiàn)狀
隨著學(xué)校信息化建設(shè)的發(fā)展,信息門戶、學(xué)工管理、教務(wù)管理、校園卡管理、迎新離校、支付平臺(tái)等系統(tǒng)相繼投入使用,系統(tǒng)基礎(chǔ)平臺(tái)的穩(wěn)定可用性顯得更加重要,學(xué)校信息系統(tǒng)支撐平臺(tái)主要以Vmware虛擬化平臺(tái)為主,通過(guò)虛擬化技術(shù)實(shí)現(xiàn)了硬件整合管理和可高用性、改善業(yè)務(wù)可靠性、優(yōu)化系統(tǒng)部署、降低設(shè)備能耗特點(diǎn),但虛擬化管理平臺(tái)的管理只涉及主機(jī)系統(tǒng)級(jí)別,應(yīng)用系統(tǒng)業(yè)務(wù)的管理需要各利用各自獨(dú)立的工具來(lái)管理,運(yùn)維管理整體上基本處于“半自動(dòng)”狀態(tài)。突出的有以下問(wèn)題:定位實(shí)際故障點(diǎn)的效率低,故障修復(fù)缺乏自動(dòng)化、流程化響應(yīng)機(jī)制,缺乏事件監(jiān)控、診斷、故障響應(yīng)的有效運(yùn)維工具;系統(tǒng)配置變更需人工操作工作量大,缺乏集中的主機(jī)、虛擬機(jī)、應(yīng)用業(yè)務(wù)等的監(jiān)控和預(yù)警機(jī)制;信息系統(tǒng)基礎(chǔ)設(shè)備沒(méi)有統(tǒng)一配置管理信息庫(kù),信息登記混亂常造成設(shè)備配置信息的沖突。系統(tǒng)的可用性與運(yùn)維管理有著緊密聯(lián)系,當(dāng)前運(yùn)維工作的重心放在應(yīng)用檢查、部署上線、服務(wù)器配置、數(shù)據(jù)備份、故障搜索處理等方面。
3 統(tǒng)一運(yùn)維的設(shè)想
統(tǒng)一運(yùn)維平臺(tái)規(guī)劃以信息系統(tǒng)基礎(chǔ)設(shè)施及應(yīng)用系統(tǒng)的全局統(tǒng)一管理為出發(fā)點(diǎn),實(shí)現(xiàn)配置批量變更、故障自定義修復(fù)、定期自動(dòng)巡檢、信息集中管理等功能,考慮到免費(fèi)運(yùn)維系統(tǒng)功能有限、大公司自主研發(fā)技術(shù)很難獲取,計(jì)劃采用開(kāi)源軟件、Vmware管理平臺(tái)的功能接口和開(kāi)發(fā)相結(jié)合的方式來(lái)實(shí)現(xiàn)統(tǒng)一運(yùn)維。
系統(tǒng)規(guī)劃實(shí)現(xiàn)的主要功能包括以下幾項(xiàng):集中化管理信息系統(tǒng)基礎(chǔ)架構(gòu)中的服務(wù)器、虛擬機(jī)、應(yīng)用系統(tǒng)、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)、應(yīng)用等配置資源;通過(guò)預(yù)先定義主機(jī)系統(tǒng)、虛機(jī)系統(tǒng)、通用應(yīng)用的模板及配置腳本,實(shí)現(xiàn)主機(jī)系統(tǒng)、虛機(jī)系統(tǒng)與應(yīng)用系統(tǒng)的統(tǒng)一配置管理與自動(dòng)化部署,保證配置變更在規(guī)范的流程下有序準(zhǔn)確地執(zhí)行;實(shí)現(xiàn)主機(jī)狀態(tài)、應(yīng)用狀態(tài)、應(yīng)用業(yè)務(wù)、負(fù)載性能、存儲(chǔ)狀態(tài)等信息的統(tǒng)一監(jiān)控與預(yù)警,通過(guò)預(yù)定義故障狀態(tài)與系統(tǒng)巡檢計(jì)劃實(shí)現(xiàn)自動(dòng)化檢查及修復(fù);建立統(tǒng)一的日志中心庫(kù),采集來(lái)自基礎(chǔ)設(shè)備及應(yīng)用的日志信息,在日志系統(tǒng)上配置基于應(yīng)用流程的相關(guān)性規(guī)則,對(duì)日志信息進(jìn)行有效性預(yù)處理,將有效及緊急的日志的集中展示,實(shí)現(xiàn)基礎(chǔ)設(shè)備的日志信息的集中化管理及智能化匯總。
4 系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
ITIL即IT基礎(chǔ)架構(gòu)庫(kù)(Information Technology Infrastructure Library,信息技術(shù)基礎(chǔ)架構(gòu)庫(kù))為設(shè)計(jì)IT服務(wù)管理架構(gòu)提供了一個(gè)客觀、嚴(yán)謹(jǐn)、可量化的標(biāo)準(zhǔn)和規(guī)范,參考ITIL2中服務(wù)支持部分,設(shè)計(jì)與實(shí)現(xiàn)統(tǒng)一運(yùn)維的5項(xiàng)功能模塊。
表1 統(tǒng)一運(yùn)維平臺(tái)的功能模塊
[統(tǒng)一運(yùn)維平臺(tái)\&資源配置管理\&系統(tǒng)發(fā)布管理\&配置變更管理\&事件預(yù)警處理\&問(wèn)題跟蹤管理\&]
4.1資源配置管理
建立符合的統(tǒng)一運(yùn)維管理架要求的配置管理數(shù)據(jù)庫(kù),將多處的數(shù)據(jù)源合并至統(tǒng)一視圖中,配置信息庫(kù)提供IT基礎(chǔ)架構(gòu)的邏輯模型,定義、識(shí)別、控制基礎(chǔ)設(shè)施與應(yīng)用服務(wù)的部件,對(duì)資源信息按技術(shù)參數(shù),屬主,關(guān)系等屬性進(jìn)行存取,記錄每個(gè)資源的唯一標(biāo)識(shí)名、主機(jī)狀態(tài)、硬件信息、位置、功能用途、網(wǎng)絡(luò)配置等技術(shù)參數(shù)信息及資源間的屬主關(guān)系,按照基礎(chǔ)設(shè)施與應(yīng)用業(yè)務(wù)的依賴性信息完成關(guān)系屬性的建立,在配置信息庫(kù)的基礎(chǔ)上開(kāi)發(fā)資源配置管理程序,實(shí)現(xiàn)記錄配置信息的狀態(tài)采集、記錄、整合、檢驗(yàn)、變更等功能。
4.2系統(tǒng)發(fā)布管理
發(fā)布管理是將經(jīng)過(guò)實(shí)際應(yīng)用測(cè)試的新增配置與系統(tǒng)在環(huán)境進(jìn)行分發(fā),通過(guò)流程化實(shí)現(xiàn)系統(tǒng)與配置信息的發(fā)布、交付、分發(fā)。具體到實(shí)際環(huán)境中是Vmware中的虛擬機(jī)發(fā)布管理,通過(guò)調(diào)用Vmware管理平臺(tái)提供的接口及工具包,實(shí)現(xiàn)統(tǒng)一化、流程化的虛擬機(jī)申請(qǐng)與管理功能,將虛擬化平臺(tái)中虛擬機(jī)的創(chuàng)建、發(fā)布、交付、回收等功能集成到運(yùn)維平臺(tái)。
4.3配置變更管理
配置變更要求以受控方式在最短時(shí)間內(nèi)完成基礎(chǔ)架構(gòu)或應(yīng)用服務(wù)配置變更,在變更實(shí)施過(guò)程中使用標(biāo)準(zhǔn)化、自動(dòng)化的方法,以將由變更所導(dǎo)致的業(yè)務(wù)中斷影響減小到最低。學(xué)校信息系統(tǒng)所使用的操作系統(tǒng)平臺(tái)分為Windows與Linux二類,同類環(huán)境的配置變更非常類似,經(jīng)過(guò)測(cè)試選擇Puppet(開(kāi)源的基于Ruby的自動(dòng)化系統(tǒng)配置管理工具)來(lái)實(shí)現(xiàn)自動(dòng)化的配置變更管理,Puppet支持DNS設(shè)置、系統(tǒng)參數(shù)、系統(tǒng)更新、主機(jī)名規(guī)則變更、批量系統(tǒng)的密碼修改、防火墻策略變更等配置的自動(dòng)下發(fā),管理程序讀取指令及配置管理信息庫(kù)中設(shè)備的配置,通過(guò)調(diào)用Puppet管理端來(lái)實(shí)現(xiàn)配置批量自動(dòng)分發(fā)變更,根據(jù)Puppet反饋信息來(lái)記錄或變更管理配置信息。
4.4事件預(yù)警處理
在確定事件類型、優(yōu)先級(jí)的前提下,實(shí)現(xiàn)快速的服務(wù)恢復(fù)與應(yīng)用切換,實(shí)現(xiàn)服務(wù)器級(jí)故障自動(dòng)修復(fù)依賴監(jiān)控預(yù)警信息,信息系統(tǒng)平臺(tái)中需要預(yù)警處理的設(shè)備包括基礎(chǔ)設(shè)備、Vmware平臺(tái)、虛擬主機(jī)、應(yīng)用系統(tǒng)等,使用免費(fèi)工具作為信息采集低層服務(wù)端工具,數(shù)據(jù)采集使用SNMP協(xié)議、SSH訪問(wèn)與自定義腳本相結(jié)合的方式,預(yù)警方式使用SNMP Trap與郵件告警,通過(guò)開(kāi)發(fā)程序來(lái)讀取采集到狀態(tài)數(shù)據(jù)和警告信息匯總到統(tǒng)一的數(shù)據(jù)庫(kù),定義主機(jī)或應(yīng)用的錯(cuò)誤類型代碼及相應(yīng)故障事件的觸發(fā)規(guī)則、運(yùn)行流程、修復(fù)腳本或指令,當(dāng)故障事件發(fā)生時(shí)管理平臺(tái)依據(jù)來(lái)源及事件標(biāo)識(shí)讀取事件響應(yīng)配置并發(fā)出指令,事件故障主機(jī)或關(guān)聯(lián)主機(jī)根據(jù)指令主動(dòng)執(zhí)行流程化修復(fù)指令,執(zhí)行修復(fù)指令的結(jié)果被反饋回管理平臺(tái),管理平臺(tái)將結(jié)果記錄入配置信息庫(kù)或發(fā)出進(jìn)一步修復(fù)指令。
4.5問(wèn)題跟蹤管理
問(wèn)題跟蹤管理利用logstash,redis等日志采集工具來(lái)收集問(wèn)題信息及日志,管理平臺(tái)對(duì)日志信息按照應(yīng)用類型與業(yè)務(wù)邏輯關(guān)系進(jìn)行分類過(guò)濾,形成可用的、有針對(duì)性的日志事件數(shù)據(jù),管理平臺(tái)根據(jù)日志信息分析IT基礎(chǔ)架構(gòu)的薄弱環(huán)節(jié)并確定引起問(wèn)題發(fā)生的故障根源,管理人員利用管理平臺(tái)制定解決事故的方案和防止事故再次發(fā)生的措施。
5 進(jìn)一步的思考
規(guī)劃統(tǒng)一運(yùn)維平臺(tái)管理幾百臺(tái)服務(wù)器與應(yīng)用,考慮運(yùn)維管理的高效化與信息安全預(yù)防的標(biāo)準(zhǔn)化,系統(tǒng)設(shè)計(jì)在通用性與擴(kuò)展性還有許多要繼續(xù)改進(jìn),在自動(dòng)化部署方面應(yīng)用系統(tǒng)的類型較多且自動(dòng)化管理工具欠缺,如何實(shí)現(xiàn)應(yīng)用系統(tǒng)軟件的自動(dòng)化配置是繼續(xù)關(guān)注,故障巡檢方面要深一步考慮如何實(shí)現(xiàn)精確、有效的故障恢復(fù)策略,缺少考慮多人使用平臺(tái)時(shí)的授權(quán)機(jī)制與安全審計(jì)模塊。
參考文獻(xiàn):
[1] 陸春, 黃杰, 陳云. 高校信息系統(tǒng)運(yùn)維自動(dòng)化的研究與實(shí)踐[J]. 中國(guó)教育信息化, 2014(5): 85-87.
[2] 王慶霞. 淺談運(yùn)維管理的應(yīng)用與實(shí)踐[J]. 信息安全與技術(shù), 2012(11): 12-13.
[3] 袁芳, 沈立強(qiáng), 戚麗,等. 運(yùn)維服務(wù)管理標(biāo)準(zhǔn)在高校的應(yīng)用研究[J]. 實(shí)驗(yàn)技術(shù)與管理, 2008,25(7): 10-13.
[4] 毛承國(guó). 大規(guī)模集群運(yùn)維自動(dòng)化的探索與實(shí)踐[J].信息安全與技術(shù), 2014(2): 60-61.
[5] 陸春, 黃杰, 陳云. 自動(dòng)化配置技術(shù)在高校IT運(yùn)維的應(yīng)用[J]. 中國(guó)教育網(wǎng)絡(luò), 2013(12): 79-80.