蔣萍 申志紅
[摘 要] 隨著企業(yè)應用系統(tǒng)飛速地發(fā)展,使得網(wǎng)絡承載能力也得到了考驗。此時,各種應用系統(tǒng)加載的網(wǎng)絡也變得更加脆弱,網(wǎng)絡故障因此層出不窮。在紛繁復雜的網(wǎng)絡結(jié)構(gòu)中,要以技術(shù)為實力、技巧為主力,逐步分析診治網(wǎng)絡病癥,確保網(wǎng)絡的正常運行。文章通過網(wǎng)絡故障分析與排查為宗指,運用工具、命令、實例、完整而深入地討論了當前企業(yè)網(wǎng)絡應用中所遇見的常見故障。
[關(guān)鍵詞] 網(wǎng)絡;故障診斷;分層排查
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2018. 11. 061
[中圖分類號] TP311 [文獻標識碼] A [文章編號] 1673 - 0194(2018)11- 0139- 04
1 引 言
企業(yè)信息化是實現(xiàn)信息技術(shù)與工業(yè)化融合為主體的數(shù)字化生產(chǎn)、運營、管理的系統(tǒng)平臺。然而,企業(yè)局域網(wǎng)建設更是信息化發(fā)展的基石,網(wǎng)絡運維的穩(wěn)定性直接影響著業(yè)務承載的可靠性和安全性。面對著網(wǎng)絡技術(shù)和紛繁復雜的網(wǎng)絡維護變化,網(wǎng)絡故障的日益加劇,如何快速有效的管理好網(wǎng)絡,預防故障的發(fā)生,是網(wǎng)絡管理員面臨的首要任務。因此,必須掌握網(wǎng)絡的診斷方法、工具與命令,能夠從廣域網(wǎng)到局域網(wǎng),硬件到軟件進行系統(tǒng)的檢測與運維,保障網(wǎng)絡安全穩(wěn)定的運行。
2 排查故障基本原則
排查是一件很抽象的工作,沒有什么固定的套路可循。因為影響結(jié)果的變量實在是太多,不同的表象可能有同一個原因,同樣的現(xiàn)象也可能根本不是一回事。應把握一些基本的原則,然后見招拆招,嘗試做去一個好的網(wǎng)絡醫(yī)生。目前,在本企業(yè)網(wǎng)中總結(jié)出四項網(wǎng)絡運維故障排查原則,以下予以逐個說明。
2.1 由下至上
由于網(wǎng)絡是分層的,簡單的功能在底層實現(xiàn),復雜的功能在高層實現(xiàn),所以測試時優(yōu)先測試相對底層的功能。
2.2 由近至遠
網(wǎng)絡是連接個人自己的計算機到其他計算機之間的橋梁。人們自己的計算機就擺在面前的桌子上,而對端的計算機可能就是坐在自己旁邊女同事的筆記本,也可能是遠在天涯海角的一臺噸級重的大型機。再或者,自己根本不知道對端是什么,在哪里。
很明顯,我們對自己的計算機相對的更了解一些。能獲得的信息的多少及精確程度對人們做出準確的判斷具有至關(guān)重要的作用。能獲得的信息量又隨著距離的增加而減少。因此先從自己的計算機開始整個測試過程是個不錯的選擇。
2.3 由點至面
如果自己的計算機看起來還不錯,沒有什么明顯的問題,測試也都通過了,那么是不是可以就此認定網(wǎng)絡壞了或者對端的計算機壞了呢?如果和你同一個辦公室的同事都沒問題,那十有八九是你自己的問題。如果其他公司沒有問題而你所在的公司有問題,那基本上是你們公司內(nèi)部的問題。如果整個區(qū)域都有問題,那么就有可能是廣域網(wǎng)鏈路、路由的問題。如果全國都有問題,很不幸,估計是哪臺核心服務器出問題了。
準確鑒別故障影響的范圍會對故障原因的判定起到?jīng)Q定性的作用。故障范圍的不同也會導致排查步驟的不同。確定了故障范圍基本上也就完成了一多半的排查工作。
2.4 由易至難
當故障原因已經(jīng)定位到一個比較小的范圍,需要做一些測試才能做出最后的判斷?;蛘咭呀?jīng)定位了故障原因,需要用一些不同的方法解決問題。這時適用于由易至難的原則:影響范圍小的操作優(yōu)先、耗用時間短的操作優(yōu)先、操作可回退的操作優(yōu)先、安全系數(shù)高的操作優(yōu)先。
假設服務器上的Web服務進程失去響應導致應用系統(tǒng)停止服務,則可以通過重啟Web服務或者重啟服務器來試圖修復。其中重啟Web服務耗時小于10秒,重啟服務器耗時約5~10分鐘。而且重啟Web服務影響范圍較小、危險程度也比較低,重啟服務器還可能會產(chǎn)生其他不可預料的問題。基于由易至難的原則綜合考慮后,可以認為重啟Web服務是應該優(yōu)先執(zhí)行的操作。如果重啟Web服務后故障被修復,就節(jié)省了重啟服務器所需要的5~10分鐘時間和對應的風險。就算重啟Web服務后故障依舊,也只是消耗了不到10秒的時間,再重啟服務器也來得及。
3 日常運維思路及方法
3.1 查詢本地信息
首先要了解自己的計算機的一些基本信息,這會幫助你更好的使用計算機。表1是一張需要知道的信息的表格,請?zhí)顚懮厦嫠械捻椖坎⒔?jīng)常核對。至于核對的頻率嘛,把它當成家里的水電煤氣表好了。如何獲得這些信息在表格后面會做出詳細的說明。
具體方法:
(1)<網(wǎng)絡連接>中<本地連接>的屬性,從此處可以看到:a.IP地址;b.子網(wǎng)掩碼;c.網(wǎng)關(guān);d.是自動獲取IP地址還是設置靜態(tài)IP地址;e.是自動獲取DNS還是設置靜態(tài)IP地址;f.網(wǎng)卡的品牌;g.網(wǎng)卡的型號。
(2)<控制面板>中的
(3)<控制面板>中的<系統(tǒng)> ,從此處可以看到:
操作系統(tǒng)。
3.2 查詢對端信息
僅僅了解自己的網(wǎng)絡基礎(chǔ)信息也是不夠的,還要知道身邊其他人的網(wǎng)絡基礎(chǔ)信息,這樣做會讓你安全得多。比較可以暴露出很多的問題。如果你和大多數(shù)人都不一樣,那么多半是你錯了,趕快向網(wǎng)管咨詢什么是正確的吧。 另外,如果你使用了不該你使用的代理服務器、DNS之類的基礎(chǔ)服務,人家準備停機檢修的時候你是不會收到通知的。而平時與其他人的比較可以幫助你較早地發(fā)現(xiàn)這些安全隱患。
具體方法如下。
3.2.1 了解服務
企業(yè)網(wǎng)承載著生產(chǎn)、賬務、OA辦公、郵件等系統(tǒng),這些都是“網(wǎng)絡服務”,是通過網(wǎng)絡可以實現(xiàn)的傳輸服務。如果生產(chǎn)系統(tǒng)的網(wǎng)頁打不開,準確的描述應該是“服務中斷”。網(wǎng)絡中斷可以表現(xiàn)為服務中斷,但服務中斷卻有多種原因,而網(wǎng)絡故障只是其中的一個而已。
最好在自己的頭腦中梳理一下,自己平時需要的網(wǎng)絡服務都有哪些?當某一項服務中斷的時候馬上嘗試一下其他的服務是不是同時中斷,這樣可以幫你明確排查的方向。
3.2.2 了解網(wǎng)絡
記住幾個關(guān)鍵節(jié)點的IP地址絕對是件很劃算的事情。利用這些關(guān)鍵節(jié)點的IP地址我們可以快速的判斷網(wǎng)絡在哪里中斷,順便還可以知道該由誰修復、由誰負責。在企業(yè)網(wǎng)中內(nèi)網(wǎng)是分段維護的,每段的邊界設備就是關(guān)鍵節(jié)點。目前大致能分為三個大段:局域內(nèi)網(wǎng)、骨干廣域網(wǎng)、核心機房。
例如,局域內(nèi)網(wǎng)的邊界是一臺華為AR46路由器。AR46到終端用戶側(cè)由局域內(nèi)網(wǎng)自行維護,AR46以外是骨干廣域網(wǎng)。骨干廣域網(wǎng)的另一個邊界是核心NE40路由器。了解這些信息后,我們就得知鏈路情況和運維人員信息。
3.2.3 了解工具
a.從桌面切換到命令行模式下,點擊<開始>菜單->點擊<運行>->在出現(xiàn)的輸入框里輸入CMD->點擊”確定”;點擊<開始>菜單->選擇<程序>->選擇<附件>->選擇<命令提示符>。
b.想要關(guān)掉命令行窗口的話可以直接點擊窗口右上角的叉,或者在命令行窗口里面輸入EXIT并回車就好了。常用命令有:Ipconfig,Ping,Tracert,Arp。
c.查詢DNS配置的主備正確性。
d.如有代理服務器,還要查詢代理服務器的配置正確性。
了解了以上信息,就如大腦里有了一張很清晰的網(wǎng)絡地圖,出現(xiàn)故障時可以很快做出應急反應。
4 網(wǎng)絡故障處理實例
4.1 網(wǎng)絡中斷排查
測試步驟一:
判斷中斷服務器是內(nèi)網(wǎng)還是外網(wǎng),如果你當前訪問的服務突然中斷,那么首先看看是內(nèi)網(wǎng)的服務還是外網(wǎng)的服務。然后再在內(nèi)網(wǎng)和外網(wǎng)分別自選一種服務嘗試訪問一下。例如生產(chǎn)系統(tǒng)突然無法訪問了,那就嘗試訪問一下內(nèi)網(wǎng)的門戶系統(tǒng)和郵件系統(tǒng)和外網(wǎng)的一個知名網(wǎng)站。
(1)內(nèi)網(wǎng)服務的網(wǎng)絡關(guān)鍵節(jié)點如下所示:
a.終端計算機->網(wǎng)關(guān)->局域內(nèi)網(wǎng)邊界路由器 -> 骨干廣域網(wǎng)路由器 ->核心機房的服務器。
b.依賴的基礎(chǔ)服務為:內(nèi)網(wǎng)DNS服務器、AD服務器。
(2)外網(wǎng)服務的網(wǎng)絡關(guān)鍵節(jié)點如下所示:
a.終端計算機->網(wǎng)關(guān)->代理服務器->外網(wǎng)服務器;
b.依賴的基礎(chǔ)服務為:內(nèi)網(wǎng)DNS服務器,公網(wǎng)DNS服務器。
(3)做信息排查表(表2)分類排查故障信息。
測試步驟二:
判斷是軟件或硬件導致服務中斷。如果某個服務出現(xiàn)中斷,大致上的原因一般為網(wǎng)絡鏈路、網(wǎng)絡設備、服務器等硬件問題或者服務器操作系統(tǒng)、應用系統(tǒng)等軟件問題??梢允褂肞ing這個操作系統(tǒng)自帶的命令行工具來對這兩種原因進行區(qū)分。
a.判斷原則:Ping不通服務的IP地址屬于硬件故障,能Ping通則為軟件故障。
b.只是從自己的機器對網(wǎng)絡和服務做出判斷還是不夠客觀的,還需要更嚴謹?shù)恼撟C。前面已經(jīng)大致的推測出故障原因,在這一節(jié)嘗試對這個推測進行證明。
c.判斷原則:可重復的結(jié)果才是基本可靠的結(jié)果。
網(wǎng)絡結(jié)構(gòu)如圖1所示。
假設1:A用戶Ping不通甲服務器而B用戶可以。因為A與B用戶訪問甲服務器走過的是同樣的網(wǎng)絡路徑,都是經(jīng)過1和6兩臺路由器,所以問題出在甲用戶的自身。
假設2:A用戶可以訪問甲服務器而不能訪問乙服務器,B用戶有同樣的故障現(xiàn)象。因為A與B用戶訪問甲、乙兩臺服務器走過的是同樣的網(wǎng)絡路徑,都是經(jīng)過1和6兩臺路由器,所以可以證明是乙服務器本身問題或者是乙服務器到6路由器之間的鏈路問題。
假設3:E用戶與F用戶不能訪問任何一臺服務器,其他ABCD四個用戶沒問題。因為E、F用戶訪問任何一臺服務器都要經(jīng)過3、5兩臺路由器,所以應該是3、5兩臺路由器其中的一個或兩個有問題,或者3到5之間的鏈路有問題.
假設4:C用戶發(fā)現(xiàn)無法訪問丁和丙服務器,詢問后得知其他用戶故障現(xiàn)象相同。由于每個用戶訪問丙丁服務器的路徑不同,所以大家都要經(jīng)過的路徑可疑性最大。從圖上來看大家都要經(jīng)過的節(jié)點是4路由器。
根據(jù)前面的排查,已經(jīng)可以基本的確定是不是服務器的問題。如果是網(wǎng)絡的問題,那么還要確定出斷點才行?,F(xiàn)在,要使用Ping和Tracert這兩條命令完成這項工作。 假如事前已經(jīng)對網(wǎng)絡的拓撲很了解,并且知道一些關(guān)鍵節(jié)點的IP地址,那么只需要參考由近至遠的原則逐個Ping這些IP地址就可以知道斷點的位置了??墒侨藗?nèi)粘RL問的服務有很多,怎樣才能知道數(shù)據(jù)怎樣從自己的計算機流向某個服務器的呢?Tracert命令就是為了回答這個問題的。只要Tracert某個域名或者IP地址,它就會把經(jīng)過的設備的IP地址按照先后順序顯示在屏幕上。如果從某一行開始就不再顯示IP地址,那么它的前一行的IP就是你嘗試訪問的目標所能到達的最后一臺設備的IP地址。建議在平時網(wǎng)絡正常的時候就Tracert一些經(jīng)常訪問服務器的IP地址,記錄下來正確的步驟是怎樣的。等服務中斷時可以用來比較路由有沒有發(fā)生變化。
故障的原因永遠是匪夷所思的。因此,需要專業(yè)的技能來做綜合的分析、全盤的考慮和一些專業(yè)的測試。服務中斷會給人們造成損失,損失大小與中斷時間成正比。如果能有辦法以更短的時間排查故障,損失也會相應減小。
下面簡單介紹一下如何縮短排查時間。
4.2 經(jīng)常出現(xiàn)的故障原因優(yōu)先測試
(1)假設某網(wǎng)站今年已經(jīng)出現(xiàn)了4次服務中斷,其中3次是因為DNS無法解析造成的。那么當?shù)?次發(fā)生服務中斷時,請優(yōu)先測試是不是DNS問題。
(2)又假設上周剛剛發(fā)生一起因服務器某軟件進程不穩(wěn)定導致的Web服務停止,今天又出現(xiàn)了很相似的故障現(xiàn)象,請優(yōu)先測試。
4.3 最近有變動的部分優(yōu)先測試
如果午飯前改動了一些程序代碼,下午就有終端用戶報告無法訪問服務,那么請優(yōu)先考慮變化對服務的影響。
4.4 二分法
假設從你的計算機到服務器之間途徑10個網(wǎng)絡關(guān)鍵節(jié)點,很不巧第7個節(jié)點出了問題。如果從第一個節(jié)點開始Ping的話,需要Ping7次才能確定故障點。如果采用二分法,第一次Ping目標服務器,第二次Ping第5個節(jié)點,第三次Ping第7個節(jié)點,第四次Ping第6個節(jié)點,大約需要4次就可以確定故障點。二分法用于測試步驟很多的情況下速度優(yōu)勢比較明顯。
5 結(jié) 語
網(wǎng)絡故障發(fā)生是在所難免的,企業(yè)網(wǎng)的運行維護需要網(wǎng)絡管理員堅實的技術(shù)來支撐。提高網(wǎng)絡安全平衡的運行,需要網(wǎng)管人員注意以下幾個問題:認真學習有關(guān)網(wǎng)絡技術(shù)理論,掌握網(wǎng)絡結(jié)構(gòu)設計,包括網(wǎng)絡架構(gòu),網(wǎng)絡拓撲,鏈路接口,系統(tǒng)配置參數(shù)及軟件知識,收集網(wǎng)絡運行各項參數(shù)和數(shù)據(jù)報告,熟悉常用診斷工具及命令,準確描述故障現(xiàn)象。
主要參考文獻
[1]杭州華工通信技術(shù)有限公司.新一代網(wǎng)絡建設理論與實踐[M].北京:電子工業(yè)出版社,2012.
[2]劉希儉.企業(yè)信息化管理實務[M].北京:石油工業(yè)出版社,2013.
[3]羅昶,黎連業(yè),潘朝陽,等.計算機網(wǎng)絡故障診斷與排除[M].北京:清華大學出版社,2007.