摘要:本文主要介紹批處理技術(shù)在集團(tuán)專線故障處理中的應(yīng)用,通過批處理技術(shù)實現(xiàn)集團(tuán)專線故障定位和修復(fù)引導(dǎo),降低維護(hù)成本,提高故障處理及時率。并結(jié)合理論和工作實踐,總結(jié)了編制批處理程序?qū)崿F(xiàn)網(wǎng)絡(luò)故障定位的經(jīng)驗和應(yīng)用批處理技術(shù)的優(yōu)勢。
關(guān)鍵詞:批處理技術(shù);集團(tuán)專線;故障處理
一、引言
集團(tuán)專線作為中國移動基于自身CMNET數(shù)據(jù)網(wǎng)以及自己的接入網(wǎng)和傳輸網(wǎng)絡(luò)資源向集團(tuán)用戶提供專線接入,嚴(yán)格執(zhí)行SLA服務(wù)等級協(xié)議,為用戶提供包括網(wǎng)絡(luò)可用率、數(shù)據(jù)包傳輸成功率、延遲時間、抖動量、故障受理時間等指標(biāo)方面的承諾,從而實現(xiàn)集團(tuán)用戶專享各種高質(zhì)量的通信服務(wù)。作為集團(tuán)專線維護(hù)人員,每天會面對各式各樣的網(wǎng)絡(luò)故障,在有限成本下光靠人工處理效率太低,如何縮短故障歷時,控制維護(hù)支出,提高故障處理及時率和用戶滿意度,使用方便、靈活,自動化程度高,功能強(qiáng)大,適用范圍廣的批處理技術(shù)就是一個“不二人選”。
二、什么是批處理
批處理是一種腳本語言,它應(yīng)用于DOS和Windows系統(tǒng)中,由DOS或者Windows系統(tǒng)內(nèi)嵌的命令解釋器(通常是COMMAND.COM或者CMD.EXE)解釋運行。通俗地說,批處理就是按規(guī)定的順序自動執(zhí)行若干個指定的DOS命令或程序,將原來一個一個執(zhí)行的命令匯總起來成批的執(zhí)行,通過程序的運算,自動輸出對應(yīng)的結(jié)果,從而大大提高效率。
批處理具有一個鮮明的特點:使用方便、靈活,自動化程度高,功能強(qiáng)大,適用范圍廣。批處理文件使用時在cmd.exe下鍵入對應(yīng)名稱,或者雙擊該批處理文件,系統(tǒng)就會調(diào)用cmd.exe運行它,在系統(tǒng)中形成一個自動轉(zhuǎn)接的連續(xù)的作業(yè)流,依次執(zhí)行每個命令或程序,中途無需操作人員介入,實現(xiàn)高度的自動化。由于編寫所需的代碼全部來自Windows內(nèi)帶的命令,所以注冊表、文件、服務(wù)等幾乎windows的各個方面操作都可以用批處理實現(xiàn),并能移植到所有運行windows系統(tǒng)的電腦上,這也是批處理技術(shù)能運用在各行各業(yè)的關(guān)鍵所在。
三、IP數(shù)據(jù)包的傳輸方式
IP數(shù)據(jù)包在TCP/IP協(xié)議棧中的網(wǎng)絡(luò)層上實現(xiàn)發(fā)送、轉(zhuǎn)發(fā)、接收。在網(wǎng)絡(luò)層,每個端系統(tǒng)都具有唯一IP地址,當(dāng)源主機(jī)向目的端系統(tǒng)發(fā)送數(shù)據(jù)包時,數(shù)據(jù)包的首部包含了目的地的IP地址,當(dāng)數(shù)據(jù)包到達(dá)網(wǎng)絡(luò)中的路由器時,路由器會根據(jù)數(shù)據(jù)包中的目的IP地址判斷下一個路由器的位置,然后通過以太網(wǎng)將數(shù)據(jù)包發(fā)送到下一個路由器,當(dāng)數(shù)據(jù)包到達(dá)下一個路由器后,同樣又會重新委托以太網(wǎng)將數(shù)據(jù)包傳輸?shù)皆傧乱粋€路由器。隨著這一過程反復(fù)執(zhí)行,數(shù)據(jù)包就會最終到達(dá)IP的目的地。事實上IP數(shù)據(jù)包在傳輸過程中所通過的路由器實則就是一個個不同網(wǎng)段的網(wǎng)關(guān),它們分布在不同的網(wǎng)絡(luò)位置,擁有固定的IP地址,與路由協(xié)議一起實現(xiàn)了不同鏈路的互聯(lián)互通。
四、集團(tuán)專線中的數(shù)據(jù)流
常見的集團(tuán)專線有互聯(lián)網(wǎng)專線和數(shù)據(jù)專線,前者由運營商向集團(tuán)客戶提供固定的公網(wǎng)IP地址用于互聯(lián)網(wǎng)接入業(yè)務(wù),后者通過運營商的MPLS L3 VPN技術(shù)實現(xiàn)集團(tuán)客戶不同區(qū)域局域網(wǎng)間的互聯(lián)互通。兩者是截然不同的業(yè)務(wù),所形成的數(shù)據(jù)流也不盡相同,如圖1所示。
(一)互聯(lián)網(wǎng)專線中的數(shù)據(jù)流
圖1中,用戶終端1通過互聯(lián)網(wǎng)專線訪問互聯(lián)網(wǎng),數(shù)據(jù)流從終端1出發(fā),通過用戶交換機(jī)、用戶路由器/OUN(局域網(wǎng)網(wǎng)關(guān))后穿越局域網(wǎng)進(jìn)入運營商網(wǎng)絡(luò),然后再通過ODN網(wǎng)到達(dá)BRAS1(專線網(wǎng)關(guān)),最后經(jīng)CMnet網(wǎng)接入到Internet。整個數(shù)據(jù)流全程穿越了3段鏈路,分別是①局域網(wǎng)鏈路、②城域網(wǎng)接入層鏈路、③CMnet網(wǎng)鏈路。
(二)數(shù)據(jù)專線中的數(shù)據(jù)流
圖1中,用戶終端1通過數(shù)據(jù)專線訪問總部的服務(wù)器,數(shù)據(jù)流從終端1出發(fā),到達(dá)BRAS1(專線網(wǎng)關(guān))后通過MPLS L3 VPN技術(shù)進(jìn)入BRAS2(對端專線網(wǎng)關(guān)),再穿越ODN網(wǎng)進(jìn)入用戶總部局域網(wǎng),最后通過交換機(jī)抵達(dá)目標(biāo)服務(wù)器。整個數(shù)據(jù)流全程穿越了4段鏈路,分別是①局域網(wǎng)鏈路、②城域網(wǎng)接入層鏈路、④城域網(wǎng)核心層鏈路、⑤城域網(wǎng)接入層鏈路。
五、Ping命令在網(wǎng)絡(luò)中的應(yīng)用
Ping命令用于確定源主機(jī)是否能與目的主機(jī)成功交換(發(fā)送與接收)數(shù)據(jù)包,再根據(jù)返回的信息,就可以推斷TCP/IP參數(shù)是否設(shè)置正確,以及運行是否正常、網(wǎng)絡(luò)是否通暢等。正常情況下,用Ping命令來查找問題所在或檢驗網(wǎng)絡(luò)運行情況時,需要逐段進(jìn)行Ping測,如果所有都運行正確,可以確認(rèn)基本的連通性和配置參數(shù)都沒有問題;反之,則可根據(jù)顯示信息對應(yīng)查找問題。專線業(yè)務(wù)中數(shù)據(jù)流穿越的各段鏈路上均有固定的IP地址,如網(wǎng)關(guān)IP、端設(shè)備的IP及互聯(lián)網(wǎng)中DNS服務(wù)器IP等,使用Ping命令對數(shù)據(jù)流傳輸方向中關(guān)鍵IP進(jìn)行檢測,通過回顯信息分析即可完成故障定位。通常情況下,互聯(lián)網(wǎng)業(yè)務(wù)會選擇用戶路由器網(wǎng)關(guān)IP及專線IP地址、專線網(wǎng)關(guān)IP地址、DNS服務(wù)器IP地址作為關(guān)鍵IP用于檢測時的Ping測地址;數(shù)據(jù)專線業(yè)務(wù)會選擇用戶路由器網(wǎng)關(guān)IP及專線IP地址、專線網(wǎng)關(guān)IP地址、對端專線網(wǎng)關(guān)IP地址、對端設(shè)備IP地址作為關(guān)鍵IP用于檢測時的Ping測地址。
六、網(wǎng)絡(luò)故障定位批處理文件
在網(wǎng)絡(luò)故障判斷過程時,維護(hù)人員會按數(shù)據(jù)流傳輸方向逐段Ping測來定位故障,這種檢測方式完全可以編寫專用的批處理文件來實現(xiàn)。經(jīng)實踐應(yīng)用,一個穩(wěn)定、精準(zhǔn)、完整的網(wǎng)絡(luò)故障定位批處理文件至少應(yīng)包括三個部分:①輸入控制,確保信息準(zhǔn)確無誤;②邏輯跳轉(zhuǎn),實現(xiàn)按序逐段檢測;③結(jié)果顯現(xiàn),讓電腦發(fā)“聲”。
(一)輸入控制
首先,在批處理文件中所有需輸入的關(guān)鍵IP地址和專線基本信息建議直接嵌入到批處理文件中,通過set命令在文件固定區(qū)域由維護(hù)人員根據(jù)填寫說明和現(xiàn)場組網(wǎng)方式完成相應(yīng)設(shè)置并保存,使用時無需再進(jìn)行任何配置,大大減少了使用難度并擴(kuò)大了使用人的范圍,同時也能起到控制輸入信息被錯誤修改的作用。
其次,在批處理文件中添加輸入信息檢測模塊。當(dāng)維護(hù)人員設(shè)置好相關(guān)參數(shù)后,點擊啟動批處理文件后會前先調(diào)用該模塊對填寫信息的完整性、格式、有無漏填和錯填情況進(jìn)行檢測,檢測到錯誤后會彈出相應(yīng)的提示界面并指出具體錯誤信息(如圖2所示),并指導(dǎo)如何修改直至完全正確,實現(xiàn)從源頭上控制信息輸入的準(zhǔn)確性。
(二)邏輯跳轉(zhuǎn)
主程序通過goto命令實現(xiàn)邏輯上的連續(xù)檢測,采用Ping命令進(jìn)行確認(rèn)鏈路的連通性,對Ping測試結(jié)果采用IF %ERRORLEVEL%==0和IF not %ERRORLEVEL%==0及其他必要條件共同實現(xiàn)不同類型的集團(tuán)專線鏈路通斷判定,當(dāng)測試正常時結(jié)合判斷條件通過goto命令跳轉(zhuǎn)到對應(yīng)的下一段鏈路繼續(xù)檢測,直至整條數(shù)據(jù)流目的端;當(dāng)測試中檢測到鏈路故障時則會跳轉(zhuǎn)到對應(yīng)故障信息顯示界面。
(三)結(jié)果顯現(xiàn)
網(wǎng)絡(luò)故障定位批處理文件執(zhí)行后,無外乎會出現(xiàn)兩種結(jié)果,網(wǎng)絡(luò)連接狀態(tài)正?;虍惓?。當(dāng)網(wǎng)絡(luò)連接狀態(tài)正常時,會在信息顯示界面中插入網(wǎng)絡(luò)測試結(jié)果和常見的終端設(shè)置導(dǎo)致網(wǎng)絡(luò)訪問異常的解決方法,如無法打開網(wǎng)頁時檢查及設(shè)置DNS的方法;當(dāng)網(wǎng)絡(luò)連接狀態(tài)異常時,會在故障信息顯示界面插入相關(guān)檢測信息,主要包括五部分:專線基本信息及檢測時間、鏈路故障定位、本次測試結(jié)果、引起該故障的可能情況分析、故障處理基本步驟。在此以互聯(lián)網(wǎng)集團(tuán)專線故障為例,當(dāng)無法Ping通專線網(wǎng)關(guān)時跳轉(zhuǎn)到故障顯示界面,如圖3所示。
七、批處理技術(shù)在處理網(wǎng)絡(luò)故障中的優(yōu)勢
在集團(tuán)專線故障處理中發(fā)現(xiàn),用戶局域網(wǎng)問題引起的網(wǎng)絡(luò)故障占總故障的51.6%~67.9%(眉山移動2022年1月-4月數(shù)據(jù))遠(yuǎn)高于運營商網(wǎng)絡(luò)問題引起的故障。但由于大多數(shù)用戶無法區(qū)分網(wǎng)絡(luò)故障原因,很多局域網(wǎng)故障被誤認(rèn)為是運營商網(wǎng)絡(luò)問題,運營商無奈中槍,客戶滿意度也受到影響。究其原因,主要是用戶不具備網(wǎng)絡(luò)故障判斷能力和處理能力。
如何解決集團(tuán)專線中所面臨的這個問題,應(yīng)用批處理技術(shù)不乏是一種行之有效的手段,它適用于所有window系統(tǒng),具有廣泛的使用空間,通過編輯完全可以模擬維護(hù)人員對網(wǎng)絡(luò)故障進(jìn)行常規(guī)測試,快速完成集團(tuán)專線網(wǎng)絡(luò)故障定位,除此之外它還具備獨有的優(yōu)勢。
(一)實現(xiàn)集團(tuán)專線故障預(yù)處理
以往集團(tuán)專線發(fā)生故障時,用戶通過售后電話或客戶經(jīng)理報障,維護(hù)人員受理后趕往現(xiàn)場進(jìn)行故障處理,通常在此期間維護(hù)人員無法有效獲取故障準(zhǔn)確信息,只能是到場后著手排查,導(dǎo)致故障歷時普遍較長。如果在集團(tuán)專線開通后,就將批處理文件拷貝在用戶指定的電腦上,當(dāng)專線無法正常連接時,用戶可自行運行批處理文件進(jìn)行故障檢測,此刻用戶成了故障預(yù)處理第一人,無需其具備任何計算機(jī)網(wǎng)絡(luò)技能,都能在第一時間完成故障信息收集,并通過故障信息顯示界面直觀判斷出網(wǎng)絡(luò)故障發(fā)生的位置。若為本地局域網(wǎng)故障,用戶可根據(jù)提示中的故障原因分析并結(jié)合故障處理基本步驟,自行排查或?qū)⒐收闲畔⒏嬷k公網(wǎng)絡(luò)代維人員處理;若為運營商側(cè)網(wǎng)絡(luò)故障,用戶可直接通過報障電話將故障信息進(jìn)行精準(zhǔn)描述,維護(hù)人員通過該信息能清晰地了解到故障情況,能更加精準(zhǔn)地針對處理,真正做到有的放矢。
(二)特別適合無規(guī)律且短時自復(fù)故障處理
在集團(tuán)專線故障中,有一類無規(guī)律且短時間內(nèi)又自動修復(fù)的網(wǎng)絡(luò)故障最令人頭痛,當(dāng)用戶報障后,往往維護(hù)人員還未到達(dá)現(xiàn)場,故障就自動修復(fù)了;或者在維護(hù)人員剛剛離開不久,故障再次發(fā)生。通常這類故障出現(xiàn)后,用戶會認(rèn)為是運營商網(wǎng)絡(luò)不穩(wěn)定造成的,要求運營商進(jìn)行修復(fù),雖說運營商通過網(wǎng)管信息能夠確認(rèn)運營商設(shè)備狀態(tài),但由于用戶側(cè)故障原因無法確認(rèn),最后大多情況下運營商會采用維護(hù)人員現(xiàn)場蹲點來捕捉網(wǎng)絡(luò)故障,或者采用設(shè)備替換法逐個替換直至問題不再發(fā)生,這種故障處理方式效率低、運氣成分重。
但如果引入批處理技術(shù),精準(zhǔn)定位這類網(wǎng)絡(luò)故障就變得簡單可行。2022年4月某園區(qū)內(nèi)公司互聯(lián)網(wǎng)專線開始出現(xiàn)不定期中斷,每次3~5分鐘后自行恢復(fù),非故障期間網(wǎng)絡(luò)運行一切正常。由于運營商使用的烽火OLT網(wǎng)管日志上無法提供OUN實時故障檢測信息,雖多次組織處理但由于故障間隙短,問題一直無法準(zhǔn)確定位,故障遲遲未能解決。期間曾對用戶進(jìn)行過簡單的網(wǎng)絡(luò)技能培訓(xùn),希望能在故障第一時間定位問題,但收效甚微。最終選擇采用批處理技術(shù)編寫網(wǎng)絡(luò)故障定位工具進(jìn)行故障定位。當(dāng)網(wǎng)絡(luò)故障再次發(fā)生時,用戶立即運行批處理文件,檢測發(fā)現(xiàn)無法正常Ping通用戶路由器,確認(rèn)故障發(fā)生在用戶局域網(wǎng)側(cè),然后結(jié)合故障發(fā)生時間和用戶提供的其他異常信息進(jìn)行排查,最終判定為園區(qū)某臺設(shè)備啟動時負(fù)荷較大,使得和它連接的交流線路電壓不穩(wěn)定,引起用戶路由器重啟導(dǎo)致網(wǎng)絡(luò)中斷,在將路由器接入電源更換到其他線路上以后閃斷故障消失,網(wǎng)絡(luò)恢復(fù)正常。
(三)既省錢又省時,效果立竿見影
2022年5月眉山移動?xùn)|坡區(qū)公司開始了集團(tuán)專線網(wǎng)絡(luò)故障定位工具(批處理程序)的應(yīng)用,有效減少了用戶局域網(wǎng)故障導(dǎo)致的投訴,對于有基本網(wǎng)絡(luò)維護(hù)能力的用戶,實現(xiàn)了指導(dǎo)用戶局域網(wǎng)故障自行檢查、處理,減少了無關(guān)故障處理成本。經(jīng)分析,5月在網(wǎng)絡(luò)故障定位工具應(yīng)用后,局域網(wǎng)報障環(huán)比減少39件,與應(yīng)用前相比下降15.61%。以140.41元/次的按次工單計算,節(jié)省成本5475.99元,預(yù)計全市推廣后,全年僅局域網(wǎng)故障處理成本能節(jié)省約26萬。
同時通過網(wǎng)絡(luò)故障定位工具的應(yīng)用,用戶可以在上報故障的同時將檢測結(jié)果一并精準(zhǔn)反饋,維護(hù)人員能清晰地了解到故障情況,可以更加精準(zhǔn)地針對處理和優(yōu)化解決方案,初步測算,5月份集團(tuán)專線平均故障處理時長較應(yīng)用前減少約0.5小時。
八、結(jié)束語
本文結(jié)合實際工作,通過批處理技術(shù)自行設(shè)計開發(fā)出集團(tuán)專線網(wǎng)絡(luò)故障定位工具,大大提高了故障處理效率并減少了無關(guān)故障處理成本支出。通信行業(yè)中類似的應(yīng)用場景很多,具有較高的分享和推廣價值,也為相關(guān)專業(yè)運維提供了一個新的參考思路。
作者單位:祝每周 中國移動通信集團(tuán)四川有限公司眉山分公司
參" 考" 文" 獻(xiàn)
[1]謝希仁.計算機(jī)網(wǎng)絡(luò).(第6版)[M].北京:電子工業(yè)出版社,2013.
[2]周自恒.網(wǎng)絡(luò)是怎樣連接的.(第1版)[M].北京:人民郵電出版社,2017.
祝每周(1982.10-),男,漢族,重慶銅梁,大學(xué)本科,通信工程師,研究方向:集團(tuán)專線及ICT項目建設(shè)管理、IP城域網(wǎng)、計算機(jī)網(wǎng)絡(luò)。