張曉藝
所有IT部門都面臨這個問題———當(dāng)服務(wù)器、網(wǎng)絡(luò)和應(yīng)用出現(xiàn)問題時,必須盡快做出反應(yīng)。這些情形往往具有破壞性和高壓性,并可能引發(fā)影響整個組織運營和利潤的停機(jī)時間。根據(jù)去年的報告,平均IT停機(jī)損失高達(dá)155萬美元。更嚴(yán)重的問題是,暴力事件導(dǎo)致每年545小時的員工產(chǎn)能損失。
出于這些原因,企業(yè)越來越多地投資于應(yīng)用性能監(jiān)視(APM)、服務(wù)器監(jiān)控軟件以及其他解決方案。由于“基礎(chǔ)設(shè)施監(jiān)控是否是企業(yè)所需的解決方案”已不再是問題,因此問題變成了應(yīng)該使用哪些監(jiān)控工具。
服務(wù)器和網(wǎng)絡(luò)監(jiān)控工具的目標(biāo)是確保IT服務(wù)24×7小時全天候穩(wěn)定運行,并在出現(xiàn)問題時告警IT支持人員。這樣,可以最大化正常運行時間并制定更好的災(zāi)難恢復(fù)計劃。
一般來說,所有工具都有共性,但又不盡相同。以下列出了個人認(rèn)為最佳的工具列表。
1. Zabbix
Zabbix是市場上最流行和健壯的實時監(jiān)控解決方案之一。Zabbix是開源的,它具有一套簡潔的特性,擁有完善可靠的文檔,并且有活躍的社區(qū)用戶、更新和支持。其他好處還包括良好的易用性,當(dāng)然,它還提供了一個不受制于任何供應(yīng)商鎖定的解決方案。
Zabbix的眾多亮點之一是它能夠預(yù)測流量趨勢和收集歷史數(shù)據(jù)來提供系統(tǒng)行為預(yù)測。
主要特點:主動監(jiān)控、容量規(guī)劃、內(nèi)置Java應(yīng)用服務(wù)器監(jiān)控功能、硬件監(jiān)控、網(wǎng)頁服務(wù)和虛擬機(jī)監(jiān)控。
Zabbix可以為各行各業(yè)提供監(jiān)控解決方案———從航空航天到金融和零售,也適用于大中型企業(yè)。Romexsoft團(tuán)隊依靠此工具為客戶提供24×7全天候IT支持。
2. Prometheus
這是另一個開源監(jiān)控工具,它基于時間序列數(shù)據(jù)提供詳細(xì)的基礎(chǔ)設(shè)施洞悉能力。它是監(jiān)控高動態(tài)環(huán)境(如AWS上的容器)的可靠選擇。
從本質(zhì)上講,Prometheus爬?。╯crape)指標(biāo),在本地存儲采樣數(shù)據(jù)并在數(shù)據(jù)之上運行其“規(guī)則”來聚合或生成告警。
Prometheus的主要優(yōu)勢包括:
既適用于以機(jī)器為中心的架構(gòu)的監(jiān)控,又適用于面向服務(wù)的架構(gòu)的監(jiān)控;
是服務(wù)中斷期間“首選”的完美工具,因為它使得用戶能夠快速診斷問題;
即使在故障情況下,用戶始終可以查看系統(tǒng)的統(tǒng)計信息(每個Prometheus服務(wù)器都是獨立的)。
3. Grafana
Grafana是一款用于時間序列的、免費的、出色的分析和監(jiān)控工具。它能夠創(chuàng)建有吸引力的、一目了然的全局?jǐn)?shù)據(jù)可視化圖像。特別是可以可視化系統(tǒng)CPU、內(nèi)存、磁盤和I/O利用率等指標(biāo)。
Grafana這個工具比較萬能,可以創(chuàng)建來自不同數(shù)據(jù)源的自定義儀表板和特征數(shù)據(jù),并將它們展示為曲線圖,單一狀態(tài)圖、表格、熱圖或自由文本。
Grafana可輕松與Prometheus,Graphite,InfluxDB,MySQL,PostgreSQL,Elasticsearch集成,還可以通過插件與更多的其他數(shù)據(jù)源連接。雖然Grafana不是一個獨立的解決方案,但它是一個值得考慮進(jìn)監(jiān)控體系的優(yōu)秀插件。
4. ManageEngine OpManager
ManageEngine OpManager是一款綜合全面的監(jiān)控工具,可提供服務(wù)器監(jiān)控,并允許主動管理網(wǎng)絡(luò),執(zhí)行網(wǎng)絡(luò)配置和網(wǎng)絡(luò)流量分析,它還有一個應(yīng)用性能管理插件。但它必須安裝到每個目標(biāo)節(jié)點上才能正常使用。
可以設(shè)置可自定義的儀表板來監(jiān)控不同組件的網(wǎng)絡(luò)和指標(biāo),還可以將其用于LAN/WAN監(jiān)控,并接收詳細(xì)的流量路徑可視化,查看帶寬流量監(jiān)測并運行各種網(wǎng)絡(luò)系統(tǒng)性能指標(biāo)的測定。
與前面的幾個工具不同,Manage Engine屬于收費工具,它將會根據(jù)業(yè)務(wù)需求提供定制性報價。
5. Amazon CloudWatch
Amazon Cloud Watch可以提供更好的應(yīng)用性能、資源利用率及整體云基礎(chǔ)設(shè)施監(jiān)控狀況的可視化能力,并幫助識別和糾正問題。
Cloud Watch以日志、指標(biāo)和事件的形式收集運維數(shù)據(jù)。該工具在AWS和本地服務(wù)器上運行,意味著可以真正獲得所有資產(chǎn)的統(tǒng)一視圖;其儀表板是可配置的,允許管理員指示AWS根據(jù)預(yù)定義事件采取特定操作。
如果最近將基礎(chǔ)設(shè)施遷移到AWS云,應(yīng)考慮使用此云基礎(chǔ)設(shè)施管理軟件,至少應(yīng)用到某些容量的規(guī)劃上。
6. WhatsUp Gold 2017
其中一些亮點如下:
最新的“plus”版本包括混合云監(jiān)控,實時性能,自動和手動故障轉(zhuǎn)移,以及分布式網(wǎng)絡(luò)的可視化;
高度可定制的告警系統(tǒng),包括電子郵件、文本、松弛告警、IFTTT推送、服務(wù)重啟和Web警報;
自動發(fā)現(xiàn)和整個網(wǎng)絡(luò)映射;
伴隨移動應(yīng)用可以隨時洞察應(yīng)用監(jiān)控;
WhatsUp Gold可為不同的用戶提供完全可定制且極其友好的儀表板。
缺點:僅對Windows操作系統(tǒng)提供支持。
7. Icinga
Icinga是最好的免費監(jiān)控工具之一,它是企業(yè)和初創(chuàng)公司的熱門選擇。其優(yōu)勢是適應(yīng)于各種規(guī)模組織的靈活性,致力于監(jiān)控基礎(chǔ)設(shè)施和服務(wù),而且它提供了很好的閾值分析、清晰的報告和告警。這些都可以友好地顯示在儀表板上,并可以通過郵件、短信或其它消息應(yīng)用進(jìn)行分發(fā)。
此外,它還可以連接到許多流行的DevOps工具,為業(yè)務(wù)需求創(chuàng)建更加個性化的監(jiān)控解決方案。包括Chef,Puppet,Graylog,Ansible等。
8. Datadog
Datadog被設(shè)計成一個為混合云生態(tài)系統(tǒng)提供監(jiān)控的服務(wù),它可以配置為網(wǎng)絡(luò)、服務(wù)和應(yīng)用性能提供監(jiān)控。實際上,它附帶了業(yè)內(nèi)最大支持應(yīng)用的集成列表,可以安插這些集成來獲得整個生態(tài)系統(tǒng)的統(tǒng)一視圖。
該工具可以聚合以下指標(biāo)和事件:
SaaS和云提供商、自動化工具、數(shù)據(jù)庫和通用服務(wù)器組件監(jiān)控和儀表工具和源代碼控制和錯誤跟蹤解決方案。
用戶根據(jù)一系列可選的圖形、指標(biāo)和警報來輕松自定義可視化儀表板和報告;擁有最多5臺主機(jī)的小公司,可以免費獲得Datadog,專業(yè)版和企業(yè)版則要按每主機(jī)定價收費。