某大型集團(tuán)召開全集團(tuán)安全大會(huì),全部子公司參加,在會(huì)議期間視頻會(huì)議系統(tǒng)出現(xiàn)異常中斷,大屏黑屏,所有分子公司全部掉線,造成會(huì)議中斷十余分鐘。影響非常嚴(yán)重,本次視頻故障升級(jí)為網(wǎng)絡(luò)事故級(jí)別。集團(tuán)領(lǐng)導(dǎo)非常重視本次問題,要求信息中心在一天內(nèi)找到故障根源。
網(wǎng)絡(luò)管理人員在問題發(fā)生后,第一時(shí)間聯(lián)系視頻廠家工程師、網(wǎng)絡(luò)工程師,組織進(jìn)行排查工作。
● 詳細(xì)排查網(wǎng)絡(luò)狀態(tài),沒有發(fā)現(xiàn)任何告警信息及異常情況。
● 進(jìn)行長時(shí)間模擬測試,未能總結(jié)問題規(guī)律。
● 更換三臺(tái)正常使用的MCU設(shè)備,依舊不定時(shí)出現(xiàn)視頻中斷現(xiàn)象。
由于故障不定時(shí)出現(xiàn),排查難度大,未能在一天內(nèi)找到問題原因。
故障發(fā)生后第二天上午,聯(lián)系科來廠家進(jìn)行技術(shù)支持,工程師在三臺(tái)MCU上聯(lián)的3560交換機(jī)上部署科來網(wǎng)絡(luò)回溯分析系統(tǒng),采集3560交換機(jī)上聯(lián)6509交換機(jī)鏈路和下聯(lián)3條MCU的鏈路。
科來網(wǎng)絡(luò)回溯分析系統(tǒng)能夠長期保存原始通訊數(shù)據(jù),可以對(duì)瞬時(shí)、不定時(shí)發(fā)生的疑難故障進(jìn)行深入到數(shù)據(jù)包級(jí)的分析。我們定位到問題發(fā)生時(shí)段,進(jìn)行如下分析:
在3560交換機(jī)上聯(lián)接口進(jìn)行抓包分析,發(fā)現(xiàn)快速問題發(fā)生時(shí)段出現(xiàn)的流量異常,如圖1所示。
圖1 問題時(shí)段3560交換機(jī)上聯(lián)鏈路趨勢及參數(shù)
在3560交換機(jī)上聯(lián)鏈路追蹤問題的數(shù)據(jù),發(fā)現(xiàn)問題時(shí)段只有視頻終端向MCU發(fā)送的數(shù)據(jù)包,沒有收到MCU任何的回應(yīng)數(shù)據(jù)包。
同時(shí),我們?cè)?560交換機(jī)下聯(lián)接口進(jìn)行對(duì)比分析,同樣發(fā)現(xiàn)了流量異?,F(xiàn)象,如圖2所示。
圖2 問題時(shí)段3560交換機(jī)下聯(lián)鏈路趨勢及參數(shù)
通過上述分析不難看出,在故障發(fā)生時(shí),MCU能夠向3560交換機(jī)發(fā)送數(shù)據(jù)包,但收不到3560交換機(jī)的回應(yīng)數(shù)據(jù)包;6509交換機(jī)能向3560交換機(jī)正常發(fā)送數(shù)據(jù)包,但收不到3560交換機(jī)的回應(yīng)數(shù)據(jù)包(如圖3)。
圖3 問題分析
可判斷出問題發(fā)生時(shí)3560交換機(jī)出現(xiàn)只接收數(shù)據(jù)包,不發(fā)送數(shù)據(jù)包的情況,造成短時(shí)間內(nèi)不能正常轉(zhuǎn)發(fā)數(shù)據(jù)。懷疑3560交換機(jī)出現(xiàn)不轉(zhuǎn)發(fā)數(shù)據(jù)造成本次視頻閃斷問題。
通過科來回溯分析系統(tǒng)對(duì)故障進(jìn)行分析,半小時(shí)內(nèi)定位問題根源為3560交換機(jī)出現(xiàn)不轉(zhuǎn)發(fā)問題,網(wǎng)絡(luò)工程師于中午休息時(shí)段更換全部相關(guān)交換機(jī)接口光模塊,視頻系統(tǒng)再?zèng)]有出現(xiàn)故障。
科來網(wǎng)絡(luò)回溯分析系統(tǒng)能夠?qū)σ曨l流量進(jìn)行實(shí)時(shí)抓取、長期保存、精細(xì)分析,捕獲完整故障數(shù)據(jù),幫助用戶快速處理網(wǎng)絡(luò)及應(yīng)用的疑難故障,解決了網(wǎng)絡(luò)、視頻管理人員的燃眉之急,獲得了領(lǐng)導(dǎo)的認(rèn)可。