張晨霞
摘 要:云計算基于其計算能力、儲存能力一直以來得到廣大企業(yè)的追捧與應(yīng)用。而在應(yīng)用的過程中,對于數(shù)據(jù)的穩(wěn)定性有著極高的要求,要求云計算服務(wù)商在提供相關(guān)服務(wù)的同時能夠具備較強的穩(wěn)定性與安全性。因此,加強云計算平臺健康與故障預(yù)警成為云計算服務(wù)商必須重視的問題。本文從云計算平臺監(jiān)控工具軟件結(jié)構(gòu)入手,對狀態(tài)監(jiān)控與故障告警系統(tǒng)進(jìn)行了分析。
關(guān)鍵詞:云計算平臺;監(jiān)控技術(shù);應(yīng)用
一、云計算平臺監(jiān)控結(jié)構(gòu)概述
計算平臺的服務(wù)與節(jié)點性能以及存活狀態(tài)有著密切關(guān)系,如果沒有平臺狀態(tài)監(jiān)控與故障告警等等功能,那么一旦發(fā)生故障,相關(guān)工作人員就無法及時發(fā)展故障以及明確故障原因,從而難以及時恢復(fù)平臺計算能力。 作為目前成熟的監(jiān)控工具能夠管控集群節(jié)點性能,但是繁雜的監(jiān)控指標(biāo)又會讓用戶眼花繚亂; 等等是一個核心框架,而監(jiān)控任務(wù)必須要有相關(guān)的插件支持才可以完成,意味著工具自身與平臺的耦合度比較低。
為了能夠達(dá)到云計算平臺對于集群運行狀態(tài)與硬件性能的監(jiān)控需求,本文提出云計算平臺監(jiān)控工具軟件結(jié)構(gòu)模型,從而提升云計算監(jiān)控的有效性與實效性(見圖1):
二、云計算平臺監(jiān)控與故障報警系統(tǒng)分析
云計算平臺監(jiān)控結(jié)構(gòu)模型主要包括數(shù)據(jù)采集、處理、分析、儲存、異常警告以及可視化現(xiàn)實等等基本模塊。云計算平臺監(jiān)控與故障報警系統(tǒng)運行流程具體如下:
(一)數(shù)據(jù)采集與數(shù)據(jù)處理
通常來講,對性能指標(biāo)進(jìn)行采集,實則就是對系統(tǒng)文件進(jìn)行讀取,同時還要對指標(biāo)數(shù)據(jù)進(jìn)行計算、上報等等。本文所提出的云計算平臺監(jiān)控方案。在采集數(shù)據(jù)方面主要是定時從平臺系統(tǒng)文件 中,對系統(tǒng)硬件性能指標(biāo)的原始性數(shù)據(jù)進(jìn)行讀取,然后按照對應(yīng)的計算方法計算目標(biāo)指標(biāo)的數(shù)據(jù)。為了能夠確保數(shù)據(jù)能夠及時上報與收集,方案中提到了 ,在對數(shù)據(jù)處理插件進(jìn)行設(shè)計時,則可以利用 的指標(biāo)擴(kuò)展能力。而插件一般由 的語言來實現(xiàn)。需要注意的是,在插件中還要實現(xiàn)指標(biāo)信息的定義、指標(biāo)清除、指標(biāo)初始化以及指標(biāo)計算、處理等等功能。
(二)數(shù)據(jù)存儲
傳統(tǒng)的監(jiān)控工具在存儲時,主要對監(jiān)控指標(biāo)數(shù)據(jù)采用文件的形式實現(xiàn)存儲,而這種形式不利于展示與使用。因此,為了能夠?qū)崿F(xiàn)可視化,數(shù)據(jù)存儲方式需要進(jìn)行改進(jìn)。本文認(rèn)為將指標(biāo)數(shù)據(jù)存儲到 表當(dāng)中,同時還應(yīng)當(dāng)應(yīng)用到定時任務(wù)與觸發(fā)器事件。在數(shù)據(jù)庫之中構(gòu)建指標(biāo)數(shù)據(jù)歷史存儲表(見表1):
表1中監(jiān)控節(jié)點則代表了該記錄是平臺上哪一個節(jié)點,其性能值主要包括此時的狀態(tài)值以及兩個閾值,對閾值進(jìn)行記錄主要是方便之后能夠?qū)厔菡故具M(jìn)行標(biāo)記,不用再對配置文件進(jìn)行遍歷,主要:正常、告警以及嚴(yán)重告警三種狀態(tài)。與 中的數(shù)據(jù)進(jìn)行結(jié)合可以對操作流程進(jìn)行更新,在當(dāng)數(shù)據(jù)庫表中的狀態(tài)數(shù)據(jù)在更新時,觸發(fā)器事件完成此次數(shù)據(jù)更新的過程中便會觸發(fā)一次插入數(shù)據(jù)庫表這一操作,即將監(jiān)控指標(biāo)的歷史數(shù)據(jù)保存下來?;诒O(jiān)控具有實時性,更新速度快的特點,很容易產(chǎn)生大量的歷史數(shù)據(jù),所以又需要通過觸發(fā)定時任務(wù)功能將歷史數(shù)據(jù)刪除。例如,每天可以可以執(zhí)行一次定時任務(wù),將一個月之前的數(shù)據(jù)數(shù)據(jù),同時保留最近一個月的歷史數(shù)據(jù)。
(三)數(shù)據(jù)分析與異常告警
數(shù)據(jù)分析的功能是對指標(biāo)進(jìn)行分析,看其是否正常;異常告警則是指標(biāo)數(shù)據(jù)出現(xiàn)異常時,給出告警提示。在數(shù)據(jù)分析的過程中,需要給每一個指標(biāo)設(shè)置亞健康狀態(tài)與故障狀態(tài)兩個閾值。通常來講,CPU利用率如果保持在0-75%之間,代表著任務(wù)運行正常;如果長時間處于90%以上,那么任務(wù)運行會將逐漸緩慢。所以,針對CPU利用率可以設(shè)置對應(yīng)的閾值,即75%與90%。
以單核處理器為例,如果CPU負(fù)載維持在0.70較為穩(wěn)定;一旦達(dá)到1.0則表示CPU滿載;如果已經(jīng)超過1.0的話,則會出現(xiàn)等待。依此類推,多核處理器負(fù)載的兩個閾值則可以設(shè)置為0.70×CPU內(nèi)核數(shù)、1.0×CPU內(nèi)核數(shù)。因為不同服務(wù)器配置不同,為了滿足其要求,閾值不能設(shè)置為固定值,通常采用百分比機(jī)制,這樣即使集群內(nèi)節(jié)點的配置不同,而監(jiān)控配置閾值都不需要進(jìn)行修改。另外,磁盤的IO往往與磁盤種類有密切關(guān)系,磁盤不同其讀寫速率的極限自然也不同,例如,7200轉(zhuǎn)臺式機(jī)硬盤讀寫速率大約在130-190MB之間,所以磁盤讀速率對應(yīng)的兩個閾值可以設(shè)置為100M/S與130M/S,而寫速率對應(yīng)的兩個閾值則設(shè)置為50M/S與65M/S。通過相關(guān)實踐證明,當(dāng)內(nèi)存使用率低于88%時,系統(tǒng)通常不會有卡頓情況出現(xiàn);一旦超過90%,而卡頓情況就會嚴(yán)重。所以,對應(yīng)的內(nèi)存使用率閾值設(shè)置為88%與90%。將以上故障告警閾值匯總(見表2):
同時,還要將故障告警與 軟件結(jié)合,對監(jiān)控插件進(jìn)行自定義設(shè)置,同時設(shè)置好監(jiān)控指標(biāo)閾值。一旦指標(biāo)數(shù)據(jù)超過閾值時,則及時發(fā)出警告。
(四)可視化
實時指標(biāo)數(shù)據(jù)與歷史數(shù)據(jù)趨勢是可視化的兩部分。相關(guān)人員可以通過監(jiān)控系統(tǒng)查看指標(biāo)數(shù)據(jù)的數(shù)據(jù)與狀態(tài),一旦發(fā)現(xiàn)故障,要及時對云計算平臺進(jìn)行修復(fù)。歷史數(shù)據(jù)趨勢變化能夠幫助相關(guān)人員進(jìn)一步了解指標(biāo)的變化趨勢,從而分析故障發(fā)生的原因。
三、結(jié)語
綜上所述,本文主要結(jié)合云計算平臺監(jiān)控結(jié)構(gòu)模型,進(jìn)一步提出了云計算平臺監(jiān)控系統(tǒng)實現(xiàn)的具體方案。該監(jiān)控系統(tǒng)能夠?qū)π阅苓M(jìn)行監(jiān)控,及時發(fā)出告警,同時可以實現(xiàn)可視化展示,能夠達(dá)到云計算平臺監(jiān)控軟件的基本需求。同時,基于云計算的發(fā)展其需求也會改變,所以還需要進(jìn)一步研究以達(dá)到逐步完善的目標(biāo),進(jìn)而提升云計算平臺運行的穩(wěn)定性。
參考文獻(xiàn):
[1]康文龍,王廣楨,蒲志新,叢佩超.基于云計算平臺的圖像識別技術(shù)研究[J/OL].傳感器與微系統(tǒng),2018(06):30-32+35.
[2]王猛,譚躍生.云計算平臺網(wǎng)絡(luò)公共資源應(yīng)急調(diào)度仿真研究[J].計算機(jī)仿真,2018,35(02):371-374+405.
[3]王俊童.云計算平臺與傳統(tǒng)服務(wù)平臺的區(qū)別[J].電子技術(shù)與軟件工程,2018(01):150.