國家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心湖南分中心 李 晶
中國移動(dòng)通信集團(tuán)湖南有限公司 劉莉莉
數(shù)據(jù)中心在數(shù)據(jù)存儲(chǔ)備份和信息交換、處理等過程中發(fā)揮著至關(guān)重要的作用,只有保障數(shù)據(jù)中心的高效運(yùn)轉(zhuǎn),才能為社會(huì)發(fā)展創(chuàng)造可靠的條件。隨著技術(shù)水平的逐步提升,對(duì)于數(shù)據(jù)中心系統(tǒng)功能也提出了更高的要求,應(yīng)該逐步實(shí)現(xiàn)自動(dòng)化運(yùn)維管理,以減輕工作人員的負(fù)擔(dān),提高數(shù)據(jù)中心的運(yùn)行效率和質(zhì)量,有利于降低運(yùn)行成本,符合當(dāng)前信息化時(shí)代的發(fā)展潮流和趨勢(shì)。本文將對(duì)數(shù)據(jù)中心自動(dòng)化運(yùn)維的工具進(jìn)行介紹,明確數(shù)據(jù)中心自動(dòng)化運(yùn)維的建設(shè)方法,為實(shí)踐工作提供參考。
進(jìn)入到數(shù)字化時(shí)代以來,我國社會(huì)發(fā)展速度逐漸加快,多種先進(jìn)科學(xué)技術(shù)的誕生,為社會(huì)改革注入了強(qiáng)勁的動(dòng)力。數(shù)據(jù)中心是以互聯(lián)網(wǎng)為依托的信息傳遞、計(jì)算和存儲(chǔ)平臺(tái),除了依靠強(qiáng)大的計(jì)算機(jī)系統(tǒng)外,還要設(shè)置相應(yīng)的配套設(shè)備,滿足數(shù)據(jù)中心的高效化運(yùn)行需求。因此,數(shù)據(jù)中心的運(yùn)維難度相對(duì)較大,具有明顯的技術(shù)性和專業(yè)性特點(diǎn),對(duì)于運(yùn)維管理人員的專業(yè)能力和素養(yǎng)提出了更高要求。逐步實(shí)現(xiàn)自動(dòng)化運(yùn)維管理,是時(shí)代發(fā)展的必然要求,可以降低運(yùn)維工作中的人力、物力和財(cái)力投入,不斷提高數(shù)據(jù)中心的自動(dòng)化、數(shù)字化和智能化水平。
數(shù)據(jù)中心自動(dòng)化運(yùn)維工具主要包括了自動(dòng)監(jiān)控工具、自動(dòng)檢測(cè)配置變更工具、自動(dòng)提示待維護(hù)事件工具和自動(dòng)生成維護(hù)記錄工具等。針對(duì)交換機(jī)、路由器和防火墻等組件的運(yùn)行情況實(shí)施監(jiān)控,以便及時(shí)體現(xiàn)工作人員進(jìn)行預(yù)防和控制。通過配置的查找和維護(hù),滿足設(shè)備配置參數(shù)的設(shè)計(jì)要求。自動(dòng)提示待維護(hù)事件工具的應(yīng)用,能夠使運(yùn)維管理更具透明性,運(yùn)維技術(shù)人員可以獲得更加全面的故障報(bào)警信息。維護(hù)記錄也實(shí)現(xiàn)了自動(dòng)化生成,以便為今后運(yùn)維管理提供依據(jù)。
(1)管理平臺(tái)建設(shè)
系統(tǒng)運(yùn)行中會(huì)出現(xiàn)不同類型的故障問題,這也是影響系統(tǒng)安全性和可靠性的主要因素,為此應(yīng)該以自動(dòng)化運(yùn)維管理平臺(tái)為依托,達(dá)到集中處理的目的。在計(jì)算機(jī)設(shè)備的運(yùn)行中,可以通過運(yùn)維管理平臺(tái)對(duì)其實(shí)施監(jiān)控,涉及服務(wù)端、計(jì)算機(jī)房、數(shù)據(jù)庫、存檔和相關(guān)應(yīng)用等等。尤其是對(duì)于關(guān)鍵節(jié)點(diǎn)更要實(shí)施全面監(jiān)控,從而在故障出現(xiàn)后能夠及時(shí)發(fā)出警報(bào)信息,從而幫助工作人員迅速找到故障位置并處理。
(2)系統(tǒng)故障自動(dòng)觸發(fā)
自動(dòng)化運(yùn)維管理平臺(tái)運(yùn)行中出現(xiàn)問題時(shí),會(huì)自動(dòng)發(fā)出警報(bào),采用人工匯報(bào)或者系統(tǒng)報(bào)警的方式,都需要在屏幕中運(yùn)用紅色標(biāo)識(shí)進(jìn)行處理,大大減輕了運(yùn)維人員的工作量。在故障及事件處理機(jī)制構(gòu)建中,應(yīng)該以流程化為基本原則,為運(yùn)維管理人員提供更多的便捷,出現(xiàn)故障問題時(shí)能夠?qū)ο嚓P(guān)事件進(jìn)行自動(dòng)觸發(fā),運(yùn)維人員獲得相應(yīng)的處理流程后就能夠直接按照要求進(jìn)行處理,提高了故障響應(yīng)速度,促進(jìn)系統(tǒng)運(yùn)行效率的提升。
(3)事件跟蹤
出現(xiàn)事故后應(yīng)該做好運(yùn)維日志記錄工作,通過信息的定期分析和評(píng)估,來對(duì)故障線索和根源進(jìn)行獲取,有利于降低系統(tǒng)運(yùn)行的事故率。為此,在自動(dòng)化運(yùn)維管理平臺(tái)建設(shè)中應(yīng)該做好事件跟蹤流程的全面優(yōu)化,防止在實(shí)踐中出現(xiàn)不規(guī)范操作行為,降低運(yùn)維管理中的隨意性。
(4)關(guān)鍵流程優(yōu)化
通過關(guān)鍵流程的全面優(yōu)化,可以使運(yùn)維管理人員明確各個(gè)流程的重要性,同時(shí)借助于事件處理機(jī)制來及時(shí)響應(yīng),避免給數(shù)據(jù)中心造成難以挽回的損失。以緊急事件優(yōu)先處理為基本原則,而采用常規(guī)處理的方式解決普通事件,有利于明確運(yùn)維管理工作的輕重緩急,從而降低對(duì)整個(gè)系統(tǒng)運(yùn)行的影響,有利于事件處理效率的提高。
2.2.1 設(shè)計(jì)目標(biāo)
在自動(dòng)化運(yùn)維管理中需要借助于SQL腳本、Shell腳本和CMD腳本等,確保系統(tǒng)的高效運(yùn)行,以增強(qiáng)系統(tǒng)穩(wěn)定性及安全性。在系統(tǒng)設(shè)計(jì)中應(yīng)該制定明確的設(shè)計(jì)目標(biāo),以滿足數(shù)據(jù)中心的運(yùn)行需求。首先,應(yīng)該更具指導(dǎo)性。分析信息基礎(chǔ)設(shè)施的運(yùn)行特點(diǎn),確保在系統(tǒng)建設(shè)中更具規(guī)范性,及時(shí)發(fā)現(xiàn)其中的漏洞和風(fēng)險(xiǎn)并采取控制措施,防止給數(shù)據(jù)中心造成安全風(fēng)險(xiǎn)。其次,應(yīng)該確保數(shù)據(jù)的實(shí)時(shí)性。當(dāng)設(shè)備出現(xiàn)故障問題時(shí),應(yīng)該在第一時(shí)間找到故障的原因并實(shí)施準(zhǔn)確定位,防止系統(tǒng)運(yùn)行效率受到影響。此外,還應(yīng)該確保數(shù)據(jù)的可靠性,注重對(duì)底層監(jiān)控對(duì)象的全面校驗(yàn),以提高數(shù)據(jù)準(zhǔn)確性。
2.2.2 系統(tǒng)平臺(tái)設(shè)計(jì)
(1)頂層結(jié)構(gòu)
在設(shè)計(jì)系統(tǒng)頂層架構(gòu)的過程中,應(yīng)該明確當(dāng)前運(yùn)維系統(tǒng)的運(yùn)行要求,防止當(dāng)前架構(gòu)體系受到自動(dòng)化運(yùn)維管理系統(tǒng)的干擾。在構(gòu)建自動(dòng)化平臺(tái)時(shí),需要確保界面的清晰性,以圖形的方式呈現(xiàn)關(guān)鍵信息,為信息運(yùn)維及管理提供保障。自動(dòng)化運(yùn)維管理平臺(tái)設(shè)計(jì)主要以信息中心、設(shè)備管理、日常巡檢和運(yùn)維監(jiān)控等為主。
(2)底層數(shù)據(jù)抓取
基礎(chǔ)信息采集模塊是決定監(jiān)控模塊運(yùn)行狀況的關(guān)鍵,除了要明確系統(tǒng)健康狀況外,還可以通過該模塊對(duì)整體服務(wù)質(zhì)量進(jìn)行評(píng)估。如果系統(tǒng)資源難以滿足運(yùn)行需求,則會(huì)造成系統(tǒng)的卡頓,因此會(huì)降低整體服務(wù)質(zhì)量。在對(duì)設(shè)備性能或者寬帶性能進(jìn)行評(píng)估時(shí),可以充分發(fā)揮設(shè)備流量的價(jià)值,依靠系統(tǒng)數(shù)據(jù)信息、網(wǎng)絡(luò)地址庫和Linux系統(tǒng)信息等輔助分析和決策工作。在了解系統(tǒng)服務(wù)狀態(tài)的基礎(chǔ)上,針對(duì)故障問題實(shí)現(xiàn)快速響應(yīng),防止對(duì)系統(tǒng)功能及安全造成威脅。在應(yīng)用Unix小型機(jī)和Linux系統(tǒng)時(shí),可以借助于Unix Shell&Python獲取服務(wù)進(jìn)程,深度檢測(cè)系統(tǒng)狀況。
(3)自動(dòng)化運(yùn)維功能
應(yīng)該明確數(shù)據(jù)中心的業(yè)務(wù)需求和特點(diǎn),從而在在自動(dòng)化運(yùn)維功能設(shè)計(jì)中更具針對(duì)性,除了應(yīng)該考慮到服務(wù)方面的要求外,還應(yīng)該從安全性方面出發(fā),為數(shù)據(jù)監(jiān)管提供可靠的依據(jù),在數(shù)據(jù)獲取時(shí)保障良好的精確性和實(shí)時(shí)性。為了獲取系統(tǒng)的健康狀況,應(yīng)該對(duì)日常檢查與管理模塊進(jìn)行針對(duì)性設(shè)計(jì),在記錄時(shí)采用工作表單,以便借助于事件管理系統(tǒng)處理故障問題。對(duì)于數(shù)據(jù)中心運(yùn)維系統(tǒng)運(yùn)行狀況的監(jiān)督,需要設(shè)置相應(yīng)的監(jiān)控管理模塊,業(yè)務(wù)系統(tǒng)和數(shù)據(jù)庫的運(yùn)行狀況可以通過圖形化的方式呈現(xiàn)出來,通過專業(yè)化命令行代碼實(shí)現(xiàn)異地/本地災(zāi)備環(huán)境的數(shù)據(jù)庫同步,以便工作人員對(duì)其進(jìn)行及時(shí)處理。在數(shù)據(jù)中心運(yùn)行中涉及較多類型的設(shè)備,自動(dòng)化運(yùn)維功能設(shè)計(jì)也應(yīng)該以設(shè)備信息管理模塊為核心,通過數(shù)字化檔案的構(gòu)建實(shí)現(xiàn)設(shè)備狀況的實(shí)時(shí)化評(píng)估和管控,降低設(shè)備的故障率。嚴(yán)格監(jiān)控系統(tǒng)運(yùn)行過程中的漏洞和病毒情況,從而對(duì)運(yùn)維管理系統(tǒng)的安全性進(jìn)行評(píng)估,以便制定相應(yīng)的防護(hù)措施。
(1)同時(shí)監(jiān)控
同時(shí)監(jiān)控功能的實(shí)現(xiàn),是異地?cái)?shù)據(jù)庫和本地?cái)?shù)據(jù)庫建設(shè)中的關(guān)鍵,只有確保各項(xiàng)數(shù)據(jù)復(fù)制的及時(shí)性和精確性,才能保障數(shù)據(jù)的安全性,體現(xiàn)數(shù)據(jù)的應(yīng)用價(jià)值。在傳統(tǒng)工作體系下,對(duì)于數(shù)據(jù)庫管理人員的依賴程度較高,同時(shí)也會(huì)存在一定的局限性。而自動(dòng)化運(yùn)維管理平臺(tái)的構(gòu)建,則可以為檢查數(shù)據(jù)庫服務(wù)狀況、數(shù)據(jù)積壓和延遲量等提供可靠保障,減輕管理人員的工作負(fù)擔(dān)。通過編寫Shell腳本在服務(wù)器上運(yùn)維,能夠快速獲取本地?cái)?shù)據(jù)并借助于信息傳輸機(jī)制實(shí)現(xiàn)實(shí)時(shí)化傳送,滿足數(shù)據(jù)庫的運(yùn)行需求。工作人員能夠更加直觀地獲取相關(guān)數(shù)據(jù),對(duì)于系統(tǒng)運(yùn)行故障的定位更加精確和及時(shí),通過發(fā)出警報(bào)體現(xiàn)運(yùn)維人員進(jìn)行處理,避免對(duì)數(shù)據(jù)安全造成威脅。
(2)可用性監(jiān)控
可用性監(jiān)控主要是針對(duì)數(shù)據(jù)庫服務(wù)和應(yīng)用服務(wù)而言,會(huì)對(duì)數(shù)據(jù)中心的運(yùn)行效率和工作評(píng)估產(chǎn)生影響。針對(duì)其可用性實(shí)施全面監(jiān)控,能夠增進(jìn)運(yùn)維部門和研發(fā)人員的交流溝通,以便及時(shí)發(fā)現(xiàn)其中的異常問題并處理,使得運(yùn)維部門工作效率得到全面提高。在平臺(tái)前端可以實(shí)現(xiàn)數(shù)據(jù)信息的大批傳送,滿足實(shí)時(shí)監(jiān)管的要求,借助于自動(dòng)報(bào)警系統(tǒng)快速響應(yīng)異常狀況,從而解決了人工監(jiān)控中的弊端。
(3)備用存檔檢查
最好各類數(shù)據(jù)和文件的備用存檔檢查,也是保障數(shù)據(jù)安全的關(guān)鍵,能夠在發(fā)生異常狀況時(shí)及時(shí)恢復(fù),防止給使用者造成較大的損失。備用存檔檢查也應(yīng)該實(shí)現(xiàn)自動(dòng)化處理,同樣是借助于Shell腳本能夠滿足自動(dòng)化檢驗(yàn)的要求,在結(jié)果顯示中更加直觀,幫助運(yùn)維人員及時(shí)了解備用存檔情況,以便做好數(shù)據(jù)安全性和保密性的管理。
結(jié)語:在數(shù)據(jù)中心的運(yùn)維管理工作當(dāng)中,應(yīng)該順應(yīng)時(shí)代發(fā)展逐步實(shí)現(xiàn)自動(dòng)化處理,以提高資源整合及利用效率,保障數(shù)據(jù)中心的良好運(yùn)行效果。在實(shí)踐個(gè)當(dāng)中,應(yīng)該以管理平臺(tái)建設(shè)、系統(tǒng)故障自動(dòng)觸發(fā)、事件跟蹤和關(guān)鍵流程優(yōu)化等為重點(diǎn),滿足自動(dòng)化運(yùn)維的需求。同時(shí),在明確設(shè)計(jì)目標(biāo)的基礎(chǔ)上,加強(qiáng)對(duì)頂層結(jié)構(gòu)設(shè)計(jì)、底層數(shù)據(jù)抓取設(shè)計(jì)和自動(dòng)化運(yùn)維功能設(shè)計(jì)等各個(gè)要點(diǎn)的嚴(yán)格把控,確保設(shè)計(jì)方案的可行性,促進(jìn)運(yùn)維管理平臺(tái)的高效運(yùn)行。在系統(tǒng)功能實(shí)現(xiàn)中,應(yīng)該做好同時(shí)監(jiān)控、可用性監(jiān)控和備用存檔檢查,真正體現(xiàn)自動(dòng)化的優(yōu)勢(shì)和價(jià)值。