孔小婧 王強(qiáng)
摘 要:目前我們面臨的網(wǎng)絡(luò)的規(guī)模和復(fù)雜與日俱增。管理人員如何保障網(wǎng)絡(luò)穩(wěn)定、可靠的運(yùn)行,是一個(gè)非常重要的問(wèn)題。深入了解網(wǎng)絡(luò)故障的起因,對(duì)于網(wǎng)絡(luò)管理和保障正常運(yùn)轉(zhuǎn)具有重要意義。本文以SNMP協(xié)議為主,著重介紹SNMP在網(wǎng)絡(luò)故障分析和網(wǎng)絡(luò)管理中的應(yīng)用。
關(guān)鍵詞:網(wǎng)絡(luò)管理;故障監(jiān)控;SNMP;SNMP4J
中圖分類(lèi)號(hào):G40-057 文獻(xiàn)標(biāo)識(shí)碼:A
Abstract:We are faced with the network size and complexity grow with each passing day.Management personnel to ensure network stability,reliable operation,is a very important problem.Further understanding of the causes of network fault,the network management and guarantee the normal operation has the important significance.Based on the SNMP protocol, introduces the application of SNMP in the network fault analysis and network management.
Keywords:network management;fault monitoring;SNMP
1 引言(Introduction)
及時(shí)處理網(wǎng)絡(luò)故障是網(wǎng)絡(luò)管理的重要工作之一。我們都希望網(wǎng)絡(luò)可靠。當(dāng)網(wǎng)絡(luò)中出現(xiàn)故障時(shí),網(wǎng)絡(luò)管理器能夠查到故障并排除,保障網(wǎng)絡(luò)的暢通。
故障管理可分為三個(gè)功能模塊:
(1)檢測(cè)和報(bào)警:故障監(jiān)視代理負(fù)責(zé)隨時(shí)記錄系統(tǒng)在出現(xiàn)故障時(shí)的內(nèi)容以及引起故障原因,并且負(fù)責(zé)把這些信息記錄在運(yùn)行日志中。如采用輪詢(xún)通信來(lái)管理網(wǎng)絡(luò),那么管理程序就會(huì)定期訪問(wèn)運(yùn)行日志,以便發(fā)現(xiàn)問(wèn)題;對(duì)于重要的網(wǎng)絡(luò)故障的檢測(cè),代理會(huì)主動(dòng)向有關(guān)管理者報(bào)告錯(cuò)誤事件。另外,對(duì)出錯(cuò)報(bào)警的數(shù)量、報(bào)告的頻率也要控制,避免增加網(wǎng)絡(luò)負(fù)擔(dān)。
(2)網(wǎng)絡(luò)故障預(yù)測(cè):對(duì)各種容易引起網(wǎng)絡(luò)故障的參數(shù)設(shè)定極限值,及時(shí)監(jiān)督參數(shù)的變化,如果超過(guò)門(mén)限值,就立即警報(bào)。例如當(dāng)出錯(cuò)產(chǎn)生的分組碎片數(shù)達(dá)到一定值時(shí)就開(kāi)始警報(bào),表示網(wǎng)絡(luò)通信狀況惡化,出錯(cuò)率開(kāi)始上升。
(3)診斷功能:一旦網(wǎng)絡(luò)出現(xiàn)故障時(shí),能夠及時(shí)鏈路測(cè)試,找出鏈路中的故障和引起故障的原因。
例如可以進(jìn)行下列測(cè)試:
a.鏈接測(cè)試;
b.數(shù)據(jù)完整性測(cè)試;
c.協(xié)議完整性測(cè)試;
d.數(shù)據(jù)飽和測(cè)試
e.鏈接飽和測(cè)試;
f.環(huán)路測(cè)試;
g功能測(cè)試;
h.診斷測(cè)試。
2 故障監(jiān)測(cè)技術(shù)(Fault monitoring technology)
2.1 ICMP監(jiān)控技術(shù)
ICMP是“Internet Control Message Protocol”(Internet控制消息協(xié)議)的縮寫(xiě)。“錯(cuò)誤偵測(cè)與回報(bào)機(jī)制”它是一個(gè)讓我們能夠檢測(cè)鏈路的連接狀況,確保連接的準(zhǔn)確性。
它在網(wǎng)絡(luò)中主要作用包括:
(1)偵測(cè)遠(yuǎn)端主機(jī)是否存在。
(2)建立及維護(hù)路由資料。
(3)重導(dǎo)資料傳送路徑。
(4)資料流量控制。
通過(guò)ICMP,我們可以判斷主機(jī)網(wǎng)絡(luò)連接是否正常。如果不正常,就可以初步判斷主機(jī)關(guān)機(jī)或者網(wǎng)絡(luò)連接不正常。在實(shí)際網(wǎng)絡(luò)管理中經(jīng)常使用的ping命令,用來(lái)檢查本機(jī)與目標(biāo)主機(jī)的聯(lián)通是否正常[1]。
2.2 HTTP監(jiān)控技術(shù)
HTTP協(xié)議(Hypertext transfer protocol)一個(gè)互聯(lián)網(wǎng)服務(wù)器與工作站之間的超文本傳輸協(xié)議。它對(duì)于減少網(wǎng)絡(luò)負(fù)擔(dān)、提高瀏覽器的效率有著不可替代的作用。
客戶(hù)與Web服務(wù)器通過(guò)一個(gè)稱(chēng)為瀏覽器(browser)的專(zhuān)門(mén)的應(yīng)用程序進(jìn)行交互。瀏覽器負(fù)責(zé)正確地顯示文檔。瀏覽器還負(fù)責(zé)接受用戶(hù)的輸入,通常是讓用戶(hù)選擇對(duì)另一個(gè)文檔的引用,然后去獲取并顯示被選文檔。
通過(guò)HTTP協(xié)議,我們可以判斷Web服務(wù)或本地網(wǎng)絡(luò)配置是否運(yùn)行正常。
2.3 SNMP監(jiān)控技術(shù)
在這里我們主要通過(guò)SNMP協(xié)議輪詢(xún)管理信息庫(kù)(MIB),獲得相應(yīng)的狀態(tài)位信息,從而評(píng)價(jià)網(wǎng)絡(luò)的運(yùn)行狀況,并揭示網(wǎng)絡(luò)當(dāng)前的運(yùn)行狀態(tài),如哪個(gè)網(wǎng)段接近通信負(fù)載的最大能力或鏈路出錯(cuò)等。
MIB中包括三類(lèi)信息:實(shí)時(shí)信息、非實(shí)時(shí)信息、靜態(tài)信息。
實(shí)時(shí)信息,就是根據(jù)網(wǎng)絡(luò)狀況反映出來(lái)的實(shí)時(shí)信息,當(dāng)然數(shù)值也是在不斷變化中。如Interface組中的ifInOctets、ifOutOctets、ifInErrors等。
另一類(lèi)非實(shí)時(shí)信息。它的信息內(nèi)容相對(duì)穩(wěn)定,如ipRouteTable表。
還有一類(lèi)是靜態(tài)信息,它在相當(dāng)長(zhǎng)的時(shí)間,內(nèi)呈現(xiàn)出相對(duì)穩(wěn)定的狀態(tài)或者對(duì)應(yīng)值無(wú)變化,例如System組中顯示部分的信息。
在SNMP監(jiān)測(cè)技術(shù)中,我們主要關(guān)注MIB中的實(shí)時(shí)信息,監(jiān)測(cè)實(shí)時(shí)信息的變化,從而了解主機(jī)或網(wǎng)絡(luò)存在的故障。如果能夠在MIB中設(shè)置合適的關(guān)聯(lián)閥值,漲跌出設(shè)定的閥值時(shí)就會(huì)報(bào)警的話,那么就可以做到早發(fā)現(xiàn)早處理,避免網(wǎng)絡(luò)故障給我們帶來(lái)的麻煩。
SNMP還支持主動(dòng)發(fā)送trap消息給被管理主機(jī),報(bào)告當(dāng)前網(wǎng)絡(luò)運(yùn)行狀態(tài)。這樣就能把網(wǎng)絡(luò)當(dāng)前的狀態(tài)及時(shí)報(bào)告給網(wǎng)管,減少和避免可能出現(xiàn)的網(wǎng)絡(luò)故障。endprint
3 SNMP獲得網(wǎng)絡(luò)信息的方法(Method of SNMP to
obtain the network information)
管理工作站向代理獲取管理信息的途徑有兩種:一是輪詢(xún)(poll),由管理站向代理發(fā)出查詢(xún)信息,代理處理后會(huì)給詢(xún)問(wèn)方送出有關(guān)消息。其次是陷阱(trap),如果本地設(shè)備和鏈路運(yùn)行狀態(tài)發(fā)生問(wèn)題時(shí),就及時(shí)向外發(fā)出檢測(cè)的故障內(nèi)容。
3.1 輪詢(xún)
管理站主要是依靠輪詢(xún)收集需要的信息,輪詢(xún)的頻率會(huì)對(duì)管理的效果影響很大。因此,需要提高網(wǎng)絡(luò)管理的輪詢(xún)策略,找到一個(gè)合適的輪詢(xún)頻率。
比較麻煩的是,我們?cè)谠O(shè)定的輪詢(xún)頻率時(shí),會(huì)考慮網(wǎng)絡(luò)規(guī)模以及網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜程度,還有代理有多少。具體頻率多少合適,沒(méi)有標(biāo)準(zhǔn),需要結(jié)合實(shí)際情況反復(fù)試驗(yàn),最終得出與管理站本身的處理速度匹配,網(wǎng)絡(luò)負(fù)擔(dān)較輕的參數(shù)。
3.2 陷阱
陷阱是通知SNMP管理器在代理或節(jié)點(diǎn)上已發(fā)生的重大事件的異步消息。陷阱在未經(jīng)請(qǐng)求的情況下發(fā)送到被配置來(lái)接收它們的SNMP管理器。這樣的設(shè)計(jì)有缺陷,當(dāng)網(wǎng)絡(luò)每個(gè)環(huán)節(jié)突然斷電,代理就不能發(fā)出警告。陷阱在網(wǎng)絡(luò)管理方面的作用很有限,對(duì)于端口故障、連接失敗、設(shè)備啟動(dòng)可以發(fā)出警告信息。除此以外就無(wú)能為力了。在這種狀況下,就需要系統(tǒng)輪詢(xún)的方法來(lái)檢查網(wǎng)絡(luò)設(shè)備了。
4 故障的判斷策略(Method to judge the fault)
檢測(cè)故障的檢測(cè)手段是確定故障的關(guān)鍵,它可以及時(shí)準(zhǔn)確了解告警信息的。但是,經(jīng)常有些網(wǎng)絡(luò)故障用一種手段不能準(zhǔn)確的監(jiān)測(cè)出來(lái),需要增加多種監(jiān)測(cè)手段。如果對(duì)某種故障采用的監(jiān)測(cè)手段過(guò)多,就會(huì)有過(guò)多的告警信息,增加故障排查的難度。
為了確認(rèn)故障,要對(duì)產(chǎn)生的警告信息進(jìn)行過(guò)濾分析。過(guò)濾告警信息有多種方法,如閾值過(guò)濾、分組過(guò)濾、優(yōu)先級(jí)過(guò)濾等。通過(guò)過(guò)濾會(huì)取出大量冗余的告警信息,有利于針對(duì)主要問(wèn)題進(jìn)行分析和判斷。
4.1 簡(jiǎn)單的MIB監(jiān)測(cè)管理
當(dāng)一個(gè)網(wǎng)絡(luò)管理員接手一個(gè)新網(wǎng)絡(luò)管理工作時(shí),首先會(huì)設(shè)定MIB庫(kù)對(duì)象的上限或是下限值。MIB的內(nèi)容對(duì)于解決網(wǎng)絡(luò)故障會(huì)起到很大的作用。當(dāng)管理站進(jìn)行常規(guī)輪詢(xún)時(shí),凡是超過(guò)門(mén)限值的MIB對(duì)象,就會(huì)報(bào)一個(gè)故障信息。這種故障報(bào)告內(nèi)容只有哪個(gè)MIB上的哪個(gè)MIB對(duì)象越界了,對(duì)于越界情況不作任何處理。原因分析、修復(fù)故障等由管理員來(lái)完成。這種故障管理的成本低、管理能力弱,這就要求管理員的管理水平相對(duì)要高。
4.2 基于專(zhuān)家系統(tǒng)的智能管理
目前專(zhuān)家系統(tǒng)已相對(duì)成熟,它對(duì)于解決網(wǎng)絡(luò)管理中的一些簡(jiǎn)單問(wèn)題很有作用的。如實(shí)時(shí)性、協(xié)調(diào)管理等實(shí)際應(yīng)用效果很好。專(zhuān)家系統(tǒng)也經(jīng)常被應(yīng)用到神經(jīng)網(wǎng)絡(luò)以及人工智能等。它的特性非常適合用于大型網(wǎng)絡(luò)的管理。
(1)處理不確定性的能力
網(wǎng)絡(luò)系統(tǒng)是一個(gè)分布式系統(tǒng),它由各種大大小小的結(jié)點(diǎn)組成,如主機(jī)、路由器、交換機(jī)等。這些結(jié)點(diǎn)及結(jié)點(diǎn)上運(yùn)行的各種軟件構(gòu)成了網(wǎng)絡(luò)中的資源。網(wǎng)絡(luò)管理要對(duì)所轄的網(wǎng)絡(luò)設(shè)備進(jìn)行監(jiān)管,保持網(wǎng)絡(luò)高效運(yùn)行。如果對(duì)系統(tǒng)資源狀態(tài)都能及時(shí)了解,那么專(zhuān)家系統(tǒng)就能很好地運(yùn)作。因?yàn)檎麄€(gè)系統(tǒng)設(shè)備一直是會(huì)變化的,當(dāng)網(wǎng)絡(luò)管理得到某個(gè)狀態(tài)信息時(shí),有可能發(fā)出信息的那個(gè)設(shè)備的狀態(tài)已經(jīng)改變了。故此管理系統(tǒng)只能了解整個(gè)系統(tǒng)的局部情況,得到的系統(tǒng)信息不完整,因此對(duì)網(wǎng)絡(luò)的管理就必須要求管理系統(tǒng)能夠在信息不完整的情況下,根據(jù)有限的信息對(duì)網(wǎng)絡(luò)資源管理和控制[3]。
(2)協(xié)作能力和層次性
目前,我們網(wǎng)絡(luò)的規(guī)模和結(jié)構(gòu)已經(jīng)達(dá)到很高的程度,網(wǎng)絡(luò)管理也應(yīng)隨網(wǎng)絡(luò)的擴(kuò)展采取相應(yīng)方法。單一的管理方式肯定不能管理好當(dāng)前的網(wǎng)絡(luò),必須采取多種多樣的管理模式。各種網(wǎng)絡(luò)管理系統(tǒng)之間都能夠相互融合,為管理者提供有用的信息和作用。而每個(gè)子系統(tǒng)只要管理好自己轄下的網(wǎng)絡(luò)就可。此外,如果把層次概念引入到網(wǎng)絡(luò)管理中,能使網(wǎng)絡(luò)管理架構(gòu)清晰,提高網(wǎng)絡(luò)管理效率。分級(jí)輪詢(xún)分級(jí)向上報(bào)告。網(wǎng)絡(luò)專(zhuān)家管理系統(tǒng)的協(xié)調(diào)性以及層次性是目前人工智能方面研究的熱點(diǎn)之一。
(3)適應(yīng)系統(tǒng)變化的能力
由于網(wǎng)絡(luò)系統(tǒng)一直處在不斷的變化,因此網(wǎng)絡(luò)管理系統(tǒng)也應(yīng)該有適應(yīng)變化的能力,比較常規(guī)的做法就是不斷輪詢(xún)網(wǎng)絡(luò)資源是否改變并且根據(jù)反饋的信息進(jìn)行網(wǎng)絡(luò)管理和控制。這種管理方法一般稱(chēng)作“數(shù)據(jù)驅(qū)動(dòng)”,管理控制是建立在管理者得到的數(shù)據(jù)基礎(chǔ)上的。
(4)解釋和推理能力
網(wǎng)絡(luò)管理系統(tǒng)應(yīng)具有綜合解釋低層信息的能力,并且推斷出一些有用的可能信息,而不是簡(jiǎn)單地詢(xún)問(wèn)底層代理。并將這些高層的信息應(yīng)用到對(duì)網(wǎng)絡(luò)系統(tǒng)的管理和控制。
5 故障報(bào)警策略(Fault alarm strategy)
當(dāng)發(fā)生網(wǎng)絡(luò)故障后,應(yīng)盡快通知網(wǎng)絡(luò)管理員,以減少故障帶來(lái)的不便和損失。報(bào)警策略主要有以下幾種方式:
(1)給網(wǎng)絡(luò)管理員發(fā)送郵件報(bào)告故障情況。
(2)給網(wǎng)絡(luò)管理員發(fā)送手機(jī)信息報(bào)告故障情況。
(3)管理站調(diào)用相關(guān)程序來(lái)發(fā)出預(yù)設(shè)音樂(lè)提示發(fā)生網(wǎng)絡(luò)故障。
可以用一種或幾種以上方式來(lái)報(bào)告故障信息。
6 故障恢復(fù)策略(Fault recovery strategy)
網(wǎng)絡(luò)故障恢復(fù)策略是:當(dāng)網(wǎng)絡(luò)出現(xiàn)故障時(shí),首先利用迂回路由打通網(wǎng)絡(luò),或者使用備用資源來(lái)保障網(wǎng)絡(luò)的暢通。
恢復(fù)策略主要包含以下幾種:
(l)隔離包含故障的設(shè)備,利用其余資源繼續(xù)提供網(wǎng)絡(luò)服務(wù)。這種策略通常會(huì)減少網(wǎng)絡(luò)可提供的服務(wù)。
(2)將故障設(shè)備提供的網(wǎng)絡(luò)服務(wù)切換到預(yù)備設(shè)備上。
(3)使用環(huán)或者網(wǎng)絡(luò)本身具有的異徑功能來(lái)保障網(wǎng)絡(luò)暢通。
7 結(jié)論(Conclusion)
網(wǎng)絡(luò)管理的重要內(nèi)容就是要確保網(wǎng)絡(luò)運(yùn)行正常,網(wǎng)絡(luò)故障的監(jiān)測(cè)是這項(xiàng)工作中比較棘手的事情。如何運(yùn)用SNMP監(jiān)測(cè)網(wǎng)絡(luò)運(yùn)行狀況,本文提出了一些監(jiān)控的可行的方法,以便在解決網(wǎng)絡(luò)故障時(shí)有章可循。
參考文獻(xiàn)(References)
[1] 郭軍.網(wǎng)絡(luò)管理(第二版).北京:北京郵電大學(xué)出版社,2001.
[2] 雷震甲.計(jì)算機(jī)網(wǎng)絡(luò)管理.西安:西安電子科技大學(xué)出版社,2006.
[3] 張鵬.基于多Agent的分布式網(wǎng)絡(luò)管理技術(shù)及其在性能管理中的研究與實(shí)踐[D].西安交通大學(xué)博士論文,2001.
作者簡(jiǎn)介:
孔小婧(1983-),女,學(xué)士,講師.研究領(lǐng)域:計(jì)算機(jī)網(wǎng)絡(luò).
王 強(qiáng)(1962-),男,學(xué)士,講師.研究領(lǐng)域:計(jì)算機(jī)網(wǎng)絡(luò),通訊.endprint
3 SNMP獲得網(wǎng)絡(luò)信息的方法(Method of SNMP to
obtain the network information)
管理工作站向代理獲取管理信息的途徑有兩種:一是輪詢(xún)(poll),由管理站向代理發(fā)出查詢(xún)信息,代理處理后會(huì)給詢(xún)問(wèn)方送出有關(guān)消息。其次是陷阱(trap),如果本地設(shè)備和鏈路運(yùn)行狀態(tài)發(fā)生問(wèn)題時(shí),就及時(shí)向外發(fā)出檢測(cè)的故障內(nèi)容。
3.1 輪詢(xún)
管理站主要是依靠輪詢(xún)收集需要的信息,輪詢(xún)的頻率會(huì)對(duì)管理的效果影響很大。因此,需要提高網(wǎng)絡(luò)管理的輪詢(xún)策略,找到一個(gè)合適的輪詢(xún)頻率。
比較麻煩的是,我們?cè)谠O(shè)定的輪詢(xún)頻率時(shí),會(huì)考慮網(wǎng)絡(luò)規(guī)模以及網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜程度,還有代理有多少。具體頻率多少合適,沒(méi)有標(biāo)準(zhǔn),需要結(jié)合實(shí)際情況反復(fù)試驗(yàn),最終得出與管理站本身的處理速度匹配,網(wǎng)絡(luò)負(fù)擔(dān)較輕的參數(shù)。
3.2 陷阱
陷阱是通知SNMP管理器在代理或節(jié)點(diǎn)上已發(fā)生的重大事件的異步消息。陷阱在未經(jīng)請(qǐng)求的情況下發(fā)送到被配置來(lái)接收它們的SNMP管理器。這樣的設(shè)計(jì)有缺陷,當(dāng)網(wǎng)絡(luò)每個(gè)環(huán)節(jié)突然斷電,代理就不能發(fā)出警告。陷阱在網(wǎng)絡(luò)管理方面的作用很有限,對(duì)于端口故障、連接失敗、設(shè)備啟動(dòng)可以發(fā)出警告信息。除此以外就無(wú)能為力了。在這種狀況下,就需要系統(tǒng)輪詢(xún)的方法來(lái)檢查網(wǎng)絡(luò)設(shè)備了。
4 故障的判斷策略(Method to judge the fault)
檢測(cè)故障的檢測(cè)手段是確定故障的關(guān)鍵,它可以及時(shí)準(zhǔn)確了解告警信息的。但是,經(jīng)常有些網(wǎng)絡(luò)故障用一種手段不能準(zhǔn)確的監(jiān)測(cè)出來(lái),需要增加多種監(jiān)測(cè)手段。如果對(duì)某種故障采用的監(jiān)測(cè)手段過(guò)多,就會(huì)有過(guò)多的告警信息,增加故障排查的難度。
為了確認(rèn)故障,要對(duì)產(chǎn)生的警告信息進(jìn)行過(guò)濾分析。過(guò)濾告警信息有多種方法,如閾值過(guò)濾、分組過(guò)濾、優(yōu)先級(jí)過(guò)濾等。通過(guò)過(guò)濾會(huì)取出大量冗余的告警信息,有利于針對(duì)主要問(wèn)題進(jìn)行分析和判斷。
4.1 簡(jiǎn)單的MIB監(jiān)測(cè)管理
當(dāng)一個(gè)網(wǎng)絡(luò)管理員接手一個(gè)新網(wǎng)絡(luò)管理工作時(shí),首先會(huì)設(shè)定MIB庫(kù)對(duì)象的上限或是下限值。MIB的內(nèi)容對(duì)于解決網(wǎng)絡(luò)故障會(huì)起到很大的作用。當(dāng)管理站進(jìn)行常規(guī)輪詢(xún)時(shí),凡是超過(guò)門(mén)限值的MIB對(duì)象,就會(huì)報(bào)一個(gè)故障信息。這種故障報(bào)告內(nèi)容只有哪個(gè)MIB上的哪個(gè)MIB對(duì)象越界了,對(duì)于越界情況不作任何處理。原因分析、修復(fù)故障等由管理員來(lái)完成。這種故障管理的成本低、管理能力弱,這就要求管理員的管理水平相對(duì)要高。
4.2 基于專(zhuān)家系統(tǒng)的智能管理
目前專(zhuān)家系統(tǒng)已相對(duì)成熟,它對(duì)于解決網(wǎng)絡(luò)管理中的一些簡(jiǎn)單問(wèn)題很有作用的。如實(shí)時(shí)性、協(xié)調(diào)管理等實(shí)際應(yīng)用效果很好。專(zhuān)家系統(tǒng)也經(jīng)常被應(yīng)用到神經(jīng)網(wǎng)絡(luò)以及人工智能等。它的特性非常適合用于大型網(wǎng)絡(luò)的管理。
(1)處理不確定性的能力
網(wǎng)絡(luò)系統(tǒng)是一個(gè)分布式系統(tǒng),它由各種大大小小的結(jié)點(diǎn)組成,如主機(jī)、路由器、交換機(jī)等。這些結(jié)點(diǎn)及結(jié)點(diǎn)上運(yùn)行的各種軟件構(gòu)成了網(wǎng)絡(luò)中的資源。網(wǎng)絡(luò)管理要對(duì)所轄的網(wǎng)絡(luò)設(shè)備進(jìn)行監(jiān)管,保持網(wǎng)絡(luò)高效運(yùn)行。如果對(duì)系統(tǒng)資源狀態(tài)都能及時(shí)了解,那么專(zhuān)家系統(tǒng)就能很好地運(yùn)作。因?yàn)檎麄€(gè)系統(tǒng)設(shè)備一直是會(huì)變化的,當(dāng)網(wǎng)絡(luò)管理得到某個(gè)狀態(tài)信息時(shí),有可能發(fā)出信息的那個(gè)設(shè)備的狀態(tài)已經(jīng)改變了。故此管理系統(tǒng)只能了解整個(gè)系統(tǒng)的局部情況,得到的系統(tǒng)信息不完整,因此對(duì)網(wǎng)絡(luò)的管理就必須要求管理系統(tǒng)能夠在信息不完整的情況下,根據(jù)有限的信息對(duì)網(wǎng)絡(luò)資源管理和控制[3]。
(2)協(xié)作能力和層次性
目前,我們網(wǎng)絡(luò)的規(guī)模和結(jié)構(gòu)已經(jīng)達(dá)到很高的程度,網(wǎng)絡(luò)管理也應(yīng)隨網(wǎng)絡(luò)的擴(kuò)展采取相應(yīng)方法。單一的管理方式肯定不能管理好當(dāng)前的網(wǎng)絡(luò),必須采取多種多樣的管理模式。各種網(wǎng)絡(luò)管理系統(tǒng)之間都能夠相互融合,為管理者提供有用的信息和作用。而每個(gè)子系統(tǒng)只要管理好自己轄下的網(wǎng)絡(luò)就可。此外,如果把層次概念引入到網(wǎng)絡(luò)管理中,能使網(wǎng)絡(luò)管理架構(gòu)清晰,提高網(wǎng)絡(luò)管理效率。分級(jí)輪詢(xún)分級(jí)向上報(bào)告。網(wǎng)絡(luò)專(zhuān)家管理系統(tǒng)的協(xié)調(diào)性以及層次性是目前人工智能方面研究的熱點(diǎn)之一。
(3)適應(yīng)系統(tǒng)變化的能力
由于網(wǎng)絡(luò)系統(tǒng)一直處在不斷的變化,因此網(wǎng)絡(luò)管理系統(tǒng)也應(yīng)該有適應(yīng)變化的能力,比較常規(guī)的做法就是不斷輪詢(xún)網(wǎng)絡(luò)資源是否改變并且根據(jù)反饋的信息進(jìn)行網(wǎng)絡(luò)管理和控制。這種管理方法一般稱(chēng)作“數(shù)據(jù)驅(qū)動(dòng)”,管理控制是建立在管理者得到的數(shù)據(jù)基礎(chǔ)上的。
(4)解釋和推理能力
網(wǎng)絡(luò)管理系統(tǒng)應(yīng)具有綜合解釋低層信息的能力,并且推斷出一些有用的可能信息,而不是簡(jiǎn)單地詢(xún)問(wèn)底層代理。并將這些高層的信息應(yīng)用到對(duì)網(wǎng)絡(luò)系統(tǒng)的管理和控制。
5 故障報(bào)警策略(Fault alarm strategy)
當(dāng)發(fā)生網(wǎng)絡(luò)故障后,應(yīng)盡快通知網(wǎng)絡(luò)管理員,以減少故障帶來(lái)的不便和損失。報(bào)警策略主要有以下幾種方式:
(1)給網(wǎng)絡(luò)管理員發(fā)送郵件報(bào)告故障情況。
(2)給網(wǎng)絡(luò)管理員發(fā)送手機(jī)信息報(bào)告故障情況。
(3)管理站調(diào)用相關(guān)程序來(lái)發(fā)出預(yù)設(shè)音樂(lè)提示發(fā)生網(wǎng)絡(luò)故障。
可以用一種或幾種以上方式來(lái)報(bào)告故障信息。
6 故障恢復(fù)策略(Fault recovery strategy)
網(wǎng)絡(luò)故障恢復(fù)策略是:當(dāng)網(wǎng)絡(luò)出現(xiàn)故障時(shí),首先利用迂回路由打通網(wǎng)絡(luò),或者使用備用資源來(lái)保障網(wǎng)絡(luò)的暢通。
恢復(fù)策略主要包含以下幾種:
(l)隔離包含故障的設(shè)備,利用其余資源繼續(xù)提供網(wǎng)絡(luò)服務(wù)。這種策略通常會(huì)減少網(wǎng)絡(luò)可提供的服務(wù)。
(2)將故障設(shè)備提供的網(wǎng)絡(luò)服務(wù)切換到預(yù)備設(shè)備上。
(3)使用環(huán)或者網(wǎng)絡(luò)本身具有的異徑功能來(lái)保障網(wǎng)絡(luò)暢通。
7 結(jié)論(Conclusion)
網(wǎng)絡(luò)管理的重要內(nèi)容就是要確保網(wǎng)絡(luò)運(yùn)行正常,網(wǎng)絡(luò)故障的監(jiān)測(cè)是這項(xiàng)工作中比較棘手的事情。如何運(yùn)用SNMP監(jiān)測(cè)網(wǎng)絡(luò)運(yùn)行狀況,本文提出了一些監(jiān)控的可行的方法,以便在解決網(wǎng)絡(luò)故障時(shí)有章可循。
參考文獻(xiàn)(References)
[1] 郭軍.網(wǎng)絡(luò)管理(第二版).北京:北京郵電大學(xué)出版社,2001.
[2] 雷震甲.計(jì)算機(jī)網(wǎng)絡(luò)管理.西安:西安電子科技大學(xué)出版社,2006.
[3] 張鵬.基于多Agent的分布式網(wǎng)絡(luò)管理技術(shù)及其在性能管理中的研究與實(shí)踐[D].西安交通大學(xué)博士論文,2001.
作者簡(jiǎn)介:
孔小婧(1983-),女,學(xué)士,講師.研究領(lǐng)域:計(jì)算機(jī)網(wǎng)絡(luò).
王 強(qiáng)(1962-),男,學(xué)士,講師.研究領(lǐng)域:計(jì)算機(jī)網(wǎng)絡(luò),通訊.endprint
3 SNMP獲得網(wǎng)絡(luò)信息的方法(Method of SNMP to
obtain the network information)
管理工作站向代理獲取管理信息的途徑有兩種:一是輪詢(xún)(poll),由管理站向代理發(fā)出查詢(xún)信息,代理處理后會(huì)給詢(xún)問(wèn)方送出有關(guān)消息。其次是陷阱(trap),如果本地設(shè)備和鏈路運(yùn)行狀態(tài)發(fā)生問(wèn)題時(shí),就及時(shí)向外發(fā)出檢測(cè)的故障內(nèi)容。
3.1 輪詢(xún)
管理站主要是依靠輪詢(xún)收集需要的信息,輪詢(xún)的頻率會(huì)對(duì)管理的效果影響很大。因此,需要提高網(wǎng)絡(luò)管理的輪詢(xún)策略,找到一個(gè)合適的輪詢(xún)頻率。
比較麻煩的是,我們?cè)谠O(shè)定的輪詢(xún)頻率時(shí),會(huì)考慮網(wǎng)絡(luò)規(guī)模以及網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜程度,還有代理有多少。具體頻率多少合適,沒(méi)有標(biāo)準(zhǔn),需要結(jié)合實(shí)際情況反復(fù)試驗(yàn),最終得出與管理站本身的處理速度匹配,網(wǎng)絡(luò)負(fù)擔(dān)較輕的參數(shù)。
3.2 陷阱
陷阱是通知SNMP管理器在代理或節(jié)點(diǎn)上已發(fā)生的重大事件的異步消息。陷阱在未經(jīng)請(qǐng)求的情況下發(fā)送到被配置來(lái)接收它們的SNMP管理器。這樣的設(shè)計(jì)有缺陷,當(dāng)網(wǎng)絡(luò)每個(gè)環(huán)節(jié)突然斷電,代理就不能發(fā)出警告。陷阱在網(wǎng)絡(luò)管理方面的作用很有限,對(duì)于端口故障、連接失敗、設(shè)備啟動(dòng)可以發(fā)出警告信息。除此以外就無(wú)能為力了。在這種狀況下,就需要系統(tǒng)輪詢(xún)的方法來(lái)檢查網(wǎng)絡(luò)設(shè)備了。
4 故障的判斷策略(Method to judge the fault)
檢測(cè)故障的檢測(cè)手段是確定故障的關(guān)鍵,它可以及時(shí)準(zhǔn)確了解告警信息的。但是,經(jīng)常有些網(wǎng)絡(luò)故障用一種手段不能準(zhǔn)確的監(jiān)測(cè)出來(lái),需要增加多種監(jiān)測(cè)手段。如果對(duì)某種故障采用的監(jiān)測(cè)手段過(guò)多,就會(huì)有過(guò)多的告警信息,增加故障排查的難度。
為了確認(rèn)故障,要對(duì)產(chǎn)生的警告信息進(jìn)行過(guò)濾分析。過(guò)濾告警信息有多種方法,如閾值過(guò)濾、分組過(guò)濾、優(yōu)先級(jí)過(guò)濾等。通過(guò)過(guò)濾會(huì)取出大量冗余的告警信息,有利于針對(duì)主要問(wèn)題進(jìn)行分析和判斷。
4.1 簡(jiǎn)單的MIB監(jiān)測(cè)管理
當(dāng)一個(gè)網(wǎng)絡(luò)管理員接手一個(gè)新網(wǎng)絡(luò)管理工作時(shí),首先會(huì)設(shè)定MIB庫(kù)對(duì)象的上限或是下限值。MIB的內(nèi)容對(duì)于解決網(wǎng)絡(luò)故障會(huì)起到很大的作用。當(dāng)管理站進(jìn)行常規(guī)輪詢(xún)時(shí),凡是超過(guò)門(mén)限值的MIB對(duì)象,就會(huì)報(bào)一個(gè)故障信息。這種故障報(bào)告內(nèi)容只有哪個(gè)MIB上的哪個(gè)MIB對(duì)象越界了,對(duì)于越界情況不作任何處理。原因分析、修復(fù)故障等由管理員來(lái)完成。這種故障管理的成本低、管理能力弱,這就要求管理員的管理水平相對(duì)要高。
4.2 基于專(zhuān)家系統(tǒng)的智能管理
目前專(zhuān)家系統(tǒng)已相對(duì)成熟,它對(duì)于解決網(wǎng)絡(luò)管理中的一些簡(jiǎn)單問(wèn)題很有作用的。如實(shí)時(shí)性、協(xié)調(diào)管理等實(shí)際應(yīng)用效果很好。專(zhuān)家系統(tǒng)也經(jīng)常被應(yīng)用到神經(jīng)網(wǎng)絡(luò)以及人工智能等。它的特性非常適合用于大型網(wǎng)絡(luò)的管理。
(1)處理不確定性的能力
網(wǎng)絡(luò)系統(tǒng)是一個(gè)分布式系統(tǒng),它由各種大大小小的結(jié)點(diǎn)組成,如主機(jī)、路由器、交換機(jī)等。這些結(jié)點(diǎn)及結(jié)點(diǎn)上運(yùn)行的各種軟件構(gòu)成了網(wǎng)絡(luò)中的資源。網(wǎng)絡(luò)管理要對(duì)所轄的網(wǎng)絡(luò)設(shè)備進(jìn)行監(jiān)管,保持網(wǎng)絡(luò)高效運(yùn)行。如果對(duì)系統(tǒng)資源狀態(tài)都能及時(shí)了解,那么專(zhuān)家系統(tǒng)就能很好地運(yùn)作。因?yàn)檎麄€(gè)系統(tǒng)設(shè)備一直是會(huì)變化的,當(dāng)網(wǎng)絡(luò)管理得到某個(gè)狀態(tài)信息時(shí),有可能發(fā)出信息的那個(gè)設(shè)備的狀態(tài)已經(jīng)改變了。故此管理系統(tǒng)只能了解整個(gè)系統(tǒng)的局部情況,得到的系統(tǒng)信息不完整,因此對(duì)網(wǎng)絡(luò)的管理就必須要求管理系統(tǒng)能夠在信息不完整的情況下,根據(jù)有限的信息對(duì)網(wǎng)絡(luò)資源管理和控制[3]。
(2)協(xié)作能力和層次性
目前,我們網(wǎng)絡(luò)的規(guī)模和結(jié)構(gòu)已經(jīng)達(dá)到很高的程度,網(wǎng)絡(luò)管理也應(yīng)隨網(wǎng)絡(luò)的擴(kuò)展采取相應(yīng)方法。單一的管理方式肯定不能管理好當(dāng)前的網(wǎng)絡(luò),必須采取多種多樣的管理模式。各種網(wǎng)絡(luò)管理系統(tǒng)之間都能夠相互融合,為管理者提供有用的信息和作用。而每個(gè)子系統(tǒng)只要管理好自己轄下的網(wǎng)絡(luò)就可。此外,如果把層次概念引入到網(wǎng)絡(luò)管理中,能使網(wǎng)絡(luò)管理架構(gòu)清晰,提高網(wǎng)絡(luò)管理效率。分級(jí)輪詢(xún)分級(jí)向上報(bào)告。網(wǎng)絡(luò)專(zhuān)家管理系統(tǒng)的協(xié)調(diào)性以及層次性是目前人工智能方面研究的熱點(diǎn)之一。
(3)適應(yīng)系統(tǒng)變化的能力
由于網(wǎng)絡(luò)系統(tǒng)一直處在不斷的變化,因此網(wǎng)絡(luò)管理系統(tǒng)也應(yīng)該有適應(yīng)變化的能力,比較常規(guī)的做法就是不斷輪詢(xún)網(wǎng)絡(luò)資源是否改變并且根據(jù)反饋的信息進(jìn)行網(wǎng)絡(luò)管理和控制。這種管理方法一般稱(chēng)作“數(shù)據(jù)驅(qū)動(dòng)”,管理控制是建立在管理者得到的數(shù)據(jù)基礎(chǔ)上的。
(4)解釋和推理能力
網(wǎng)絡(luò)管理系統(tǒng)應(yīng)具有綜合解釋低層信息的能力,并且推斷出一些有用的可能信息,而不是簡(jiǎn)單地詢(xún)問(wèn)底層代理。并將這些高層的信息應(yīng)用到對(duì)網(wǎng)絡(luò)系統(tǒng)的管理和控制。
5 故障報(bào)警策略(Fault alarm strategy)
當(dāng)發(fā)生網(wǎng)絡(luò)故障后,應(yīng)盡快通知網(wǎng)絡(luò)管理員,以減少故障帶來(lái)的不便和損失。報(bào)警策略主要有以下幾種方式:
(1)給網(wǎng)絡(luò)管理員發(fā)送郵件報(bào)告故障情況。
(2)給網(wǎng)絡(luò)管理員發(fā)送手機(jī)信息報(bào)告故障情況。
(3)管理站調(diào)用相關(guān)程序來(lái)發(fā)出預(yù)設(shè)音樂(lè)提示發(fā)生網(wǎng)絡(luò)故障。
可以用一種或幾種以上方式來(lái)報(bào)告故障信息。
6 故障恢復(fù)策略(Fault recovery strategy)
網(wǎng)絡(luò)故障恢復(fù)策略是:當(dāng)網(wǎng)絡(luò)出現(xiàn)故障時(shí),首先利用迂回路由打通網(wǎng)絡(luò),或者使用備用資源來(lái)保障網(wǎng)絡(luò)的暢通。
恢復(fù)策略主要包含以下幾種:
(l)隔離包含故障的設(shè)備,利用其余資源繼續(xù)提供網(wǎng)絡(luò)服務(wù)。這種策略通常會(huì)減少網(wǎng)絡(luò)可提供的服務(wù)。
(2)將故障設(shè)備提供的網(wǎng)絡(luò)服務(wù)切換到預(yù)備設(shè)備上。
(3)使用環(huán)或者網(wǎng)絡(luò)本身具有的異徑功能來(lái)保障網(wǎng)絡(luò)暢通。
7 結(jié)論(Conclusion)
網(wǎng)絡(luò)管理的重要內(nèi)容就是要確保網(wǎng)絡(luò)運(yùn)行正常,網(wǎng)絡(luò)故障的監(jiān)測(cè)是這項(xiàng)工作中比較棘手的事情。如何運(yùn)用SNMP監(jiān)測(cè)網(wǎng)絡(luò)運(yùn)行狀況,本文提出了一些監(jiān)控的可行的方法,以便在解決網(wǎng)絡(luò)故障時(shí)有章可循。
參考文獻(xiàn)(References)
[1] 郭軍.網(wǎng)絡(luò)管理(第二版).北京:北京郵電大學(xué)出版社,2001.
[2] 雷震甲.計(jì)算機(jī)網(wǎng)絡(luò)管理.西安:西安電子科技大學(xué)出版社,2006.
[3] 張鵬.基于多Agent的分布式網(wǎng)絡(luò)管理技術(shù)及其在性能管理中的研究與實(shí)踐[D].西安交通大學(xué)博士論文,2001.
作者簡(jiǎn)介:
孔小婧(1983-),女,學(xué)士,講師.研究領(lǐng)域:計(jì)算機(jī)網(wǎng)絡(luò).
王 強(qiáng)(1962-),男,學(xué)士,講師.研究領(lǐng)域:計(jì)算機(jī)網(wǎng)絡(luò),通訊.endprint