張譽(yù) 剛占博 王望 商龍
摘 要:采用故障樹分析法,對(duì)某裝備網(wǎng)絡(luò)通訊鏈路異常故障進(jìn)行分析,對(duì)導(dǎo)致通訊異常的各線路進(jìn)行分析,定位故障原因,并制定解決措施,保證裝備的可靠性。
關(guān)鍵詞:網(wǎng)絡(luò)交換設(shè)備;故障分析;通信鏈路
1 通信異?,F(xiàn)象及故障問題定位
某裝備通電檢查時(shí),主機(jī)1、主機(jī)2出現(xiàn)異常報(bào)故現(xiàn)象,當(dāng)主機(jī)1作為主控端時(shí),故障顯示為:主機(jī)1接收主機(jī)2故障”,當(dāng)主機(jī)2作為主控端時(shí),故障顯示為:主機(jī)2接收主機(jī)1故障”。系統(tǒng)斷電重新啟動(dòng)后,故障依舊。
根據(jù)主機(jī)1與主機(jī)2之間的交聯(lián)關(guān)系,判斷此故障為主機(jī)1與主機(jī)2之間通信鏈路異常所致,而主機(jī)1與主機(jī)2之間的信息交互備份是通過網(wǎng)絡(luò)交換設(shè)備進(jìn)行的。通過監(jiān)控網(wǎng)絡(luò)數(shù)據(jù),發(fā)現(xiàn)網(wǎng)絡(luò)交換設(shè)備與主機(jī)2之間的通信鏈路時(shí)通時(shí)斷,定位為網(wǎng)絡(luò)交換設(shè)備故障。
2 網(wǎng)絡(luò)交換設(shè)備工作原理
網(wǎng)絡(luò)交換設(shè)備由冗余交換板、路由交換板、電源板、底板、航插板、轉(zhuǎn)接板等部分組成,冗余交換板是網(wǎng)絡(luò)交換設(shè)備的主交換功能組件,兩塊板卡冗余備份,均對(duì)外提供百兆交換網(wǎng)口和鏡像網(wǎng)口,兩塊交換板之間通過千兆網(wǎng)口互聯(lián)。路由交換板實(shí)現(xiàn)網(wǎng)絡(luò)交換設(shè)備冗余鏡像網(wǎng)口功能和單網(wǎng)口功能。電源板為冗余交換板和路由交換板供電。底板提供冗余交換板、路由交換板、電源板信號(hào)互聯(lián)和物理承載功能。航插板承載網(wǎng)絡(luò)交換設(shè)備各航插連接器,匯集電源和串口、以太網(wǎng)口信號(hào)。轉(zhuǎn)接板為背板和航插板之間信號(hào)傳遞提供物理通道。
如圖1所示,交換板A和B 為冗余交換板,為兩塊同樣的板卡,其出來的P1至P7網(wǎng)口均互為備份。雙口主機(jī)1-7為雙網(wǎng)卡設(shè)備,兩網(wǎng)口邏輯上為一個(gè)網(wǎng)口,共享同一個(gè)IP和MAC 地址,其中一個(gè)為active 模式,另一個(gè)為block 模式,終端A和B同時(shí)只有一個(gè)工作。
所有終端設(shè)備均為百兆網(wǎng)口,交換板A和B支持基于端口的鏡像,配置接口為SPI,CPU通過SPI總線管理交換芯片,處理器負(fù)責(zé)板卡的狀態(tài)監(jiān)控,通過網(wǎng)口實(shí)時(shí)上報(bào)板卡的狀態(tài)信息,包括各端口的up/down、速率和全半雙工信息及其變化。CPU的監(jiān)測(cè)網(wǎng)口接入網(wǎng)絡(luò)交換設(shè)備,將板卡監(jiān)測(cè)信息上報(bào)給監(jiān)控設(shè)備。
路由交換板包含兩個(gè)獨(dú)立網(wǎng)絡(luò)交換設(shè)備C和D,其中網(wǎng)絡(luò)交換設(shè)備D實(shí)現(xiàn)單口終端A和B與冗余交換板A和B互聯(lián),網(wǎng)絡(luò)交換設(shè)備C實(shí)現(xiàn)雙口記錄設(shè)備與冗余交換板A和B的鏡像端口互聯(lián),網(wǎng)絡(luò)交換設(shè)備C上的各網(wǎng)口均設(shè)置為不同VLAN內(nèi),防止廣播風(fēng)暴,且不影響端口鏡像功能。
3 故障定位
網(wǎng)絡(luò)交換設(shè)備有A、B、C、D、E、F、G、H 共8個(gè)端口,采用測(cè)試設(shè)備對(duì)各端口逐個(gè)測(cè)試,發(fā)現(xiàn)F端口工作異常,現(xiàn)象為網(wǎng)絡(luò)交換設(shè)備與測(cè)試設(shè)備之間數(shù)據(jù)包時(shí)通時(shí)斷,通信鏈路不穩(wěn)定,其他端口工作正常。根據(jù)網(wǎng)絡(luò)交換設(shè)備的故障現(xiàn)象,首先網(wǎng)絡(luò)交換設(shè)備進(jìn)行功能測(cè)試,陪測(cè)設(shè)備包括28V電源、測(cè)試計(jì)算機(jī)和測(cè)試線纜。
通過對(duì)網(wǎng)絡(luò)交換設(shè)備進(jìn)行功能測(cè)試,發(fā)現(xiàn)該設(shè)備接口板的通信鏈路不穩(wěn)定。
根據(jù)網(wǎng)絡(luò)交換設(shè)備功能測(cè)試發(fā)現(xiàn)的故障現(xiàn)象,并結(jié)合設(shè)備的軟硬件設(shè)計(jì)原理進(jìn)行下一步分析排查,列出網(wǎng)絡(luò)交換設(shè)備F端口工作異常的故障樹,如圖2所示。
對(duì)上述故障樹因素逐個(gè)進(jìn)行排查如下:
X1 冗余交換板A故障
打開機(jī)箱上蓋,目視冗余交換板A電源指示燈和工作指示燈指示正常,通過調(diào)試串口和網(wǎng)口訪問板卡處理器工作正常,該故障分支可排除。
X2冗余交換板B故障
打開機(jī)箱上蓋,目視冗余交換板B電源指示燈和工作指示燈指示正常,通過調(diào)試串口和網(wǎng)口訪問板卡處理器工作正常,該故障分支可排除。
X3路由交換板故障
打開機(jī)箱上蓋,目視路由交換板電源指示燈和工作指示燈指示正常,通過調(diào)試串口和網(wǎng)口訪問板卡處理器工作正常,該故障分支可排除。
X4 電源板故障
故障放生時(shí),各交換板電源指示燈正常,網(wǎng)絡(luò)交換設(shè)備正常工作,該故障分支可排除。
X5 轉(zhuǎn)接板故障
目測(cè)轉(zhuǎn)接板和航插板對(duì)插的連接器外觀正常,螺釘緊固正常;目測(cè)轉(zhuǎn)接板和交換背板對(duì)插的連接器外觀正常,但固定該連接器的三組合螺釘有松動(dòng)現(xiàn)象,將網(wǎng)絡(luò)交換設(shè)備斷電后使用十字螺絲刀緊固該螺釘。將網(wǎng)絡(luò)交換設(shè)備重新上電,進(jìn)行功能測(cè)試,網(wǎng)絡(luò)交換設(shè)備所有接口功能正常,并通過長時(shí)間測(cè)試,F(xiàn)端口通信鏈路穩(wěn)定,故障消除。
X6 航插板故障
目測(cè)航插板上各航插連接器外觀正常,螺釘緊固正常。目測(cè)轉(zhuǎn)接板J1與航插面板J2連接器對(duì)插緊固正常,沒有松動(dòng)現(xiàn)象。該故障分支可排除。
X7 交換背板故障
目測(cè)交換背板上各CPCI插板連接器外觀正常。轉(zhuǎn)接板J2與交換背板J9連接器對(duì)插緊固螺釘松動(dòng),緊固后故障消除。
4 故障機(jī)理分析
轉(zhuǎn)接板作為交換背板與航插板之間的信號(hào)互聯(lián),包括全部網(wǎng)口和調(diào)試接口,轉(zhuǎn)接板與交換背板之間通過三組合螺釘緊固,三組合螺釘松動(dòng)引起轉(zhuǎn)接板與交換背板A1針腳接觸不良,造成網(wǎng)絡(luò)交換設(shè)備物理鏈路故障,最終導(dǎo)致網(wǎng)絡(luò)交換設(shè)備與主機(jī)2等外設(shè)之間通信異常。轉(zhuǎn)接板部分信號(hào)定義如表2所示。
現(xiàn)場(chǎng)采用網(wǎng)絡(luò)交換設(shè)備專用調(diào)試線纜和測(cè)試設(shè)備進(jìn)行網(wǎng)絡(luò)交換設(shè)備單機(jī)功能測(cè)試,網(wǎng)絡(luò)交換設(shè)備F端口通信鏈路不穩(wěn)定,該故障現(xiàn)象與檢查通電時(shí)故障現(xiàn)象相同,故障復(fù)現(xiàn)。
結(jié)束語
基于以上故障問題排查情況,對(duì)生產(chǎn)組裝人員進(jìn)行培訓(xùn),在《網(wǎng)絡(luò)交換設(shè)備裝配工藝》中增加對(duì)固定螺釘進(jìn)行涂膠處理,增加對(duì)轉(zhuǎn)接板與交換背板之間的固定螺釘扭矩檢查。
網(wǎng)絡(luò)通信異常問題是大型交聯(lián)系統(tǒng)的常見問題,在問題排查的過程中應(yīng)運(yùn)用科學(xué)的方法剖析癥結(jié),總結(jié)可能導(dǎo)致的關(guān)鍵因素并歸類分析,從而找到發(fā)生問題的根本原因。此次采用故障樹分析法,高效的找到問題原因,并排除故障。