沈 豐
(上海地鐵維護(hù)保障有限公司通號(hào)分公司,200235,上海 ∥ 助理工程師)
上海軌道交通2號(hào)線(以下簡(jiǎn)為“2號(hào)線”)DTS(信號(hào)數(shù)據(jù)傳輸系統(tǒng)),在整個(gè)信號(hào)系統(tǒng)中負(fù)責(zé)集中站與集中站間的數(shù)據(jù)轉(zhuǎn)發(fā)、校驗(yàn)和控制,猶如人體中的大動(dòng)脈一般,起著至關(guān)重要的作用。2016年,2號(hào)線東延伸段(張江高科站—浦東國(guó)際機(jī)場(chǎng)站)的東環(huán)網(wǎng)DTS發(fā)生了數(shù)次故障。這些故障影響范圍大、面積廣,處理時(shí)間長(zhǎng),嚴(yán)重影響了運(yùn)營(yíng)秩序,并造成了不良的社會(huì)影響。
通過(guò)不斷改造、升級(jí)及優(yōu)化,目前的環(huán)網(wǎng)系統(tǒng)速度快、容量大、性能相對(duì)穩(wěn)定,信號(hào)傳輸?shù)目煽啃砸灿懈纳疲詴?huì)發(fā)生故障。本文基于對(duì)DTS故障的分析,制定出合理、有效的預(yù)防維護(hù)措施及方法,以確保DTS的穩(wěn)定與安全。
2號(hào)線信號(hào)系統(tǒng)通信線路由2個(gè)獨(dú)立工作的環(huán)網(wǎng)組成:徐涇東站至龍陽(yáng)路站為西環(huán)網(wǎng)范圍,龍陽(yáng)路站至浦東國(guó)際機(jī)場(chǎng)站為東環(huán)網(wǎng)范圍。
環(huán)網(wǎng)各節(jié)點(diǎn)(交換機(jī))通過(guò)光纖直接串連在1條首尾相連的閉合環(huán)型通信線路中,只要任何1個(gè)節(jié)點(diǎn)發(fā)生故障,就有可能造成該環(huán)網(wǎng)的中斷或癱瘓。而在主備熱冗余環(huán)網(wǎng)(見(jiàn)圖1)中,即使其中1個(gè)環(huán)網(wǎng)發(fā)生了故障,信號(hào)系統(tǒng)也能迅速切換至正常環(huán)網(wǎng)繼續(xù)工作。為保證通信的穩(wěn)定,2號(hào)線DTS采用主備熱冗余環(huán)網(wǎng)結(jié)構(gòu)。其中,主環(huán)網(wǎng)為L(zhǎng)AN A(局域網(wǎng)A),備環(huán)網(wǎng)為L(zhǎng)AN B(局域網(wǎng)B),各站MOXA Switch交換機(jī)為中繼節(jié)點(diǎn)。
圖1 主備熱冗余環(huán)網(wǎng)結(jié)構(gòu)示意圖
各站點(diǎn)中的NVLE(非安全邏輯仿真控制器)、SCW(人機(jī)對(duì)話工作站)、Rugged TerminalServer(終端服務(wù)器)及AP(無(wú)線訪問(wèn)接入點(diǎn))等設(shè)備,均通過(guò)交換機(jī)進(jìn)行數(shù)據(jù)傳輸與轉(zhuǎn)換協(xié)議的處理(見(jiàn)圖2)。
圖2 2號(hào)線站點(diǎn)聯(lián)鎖設(shè)備通信連接示意圖
2號(hào)線DTS故障類型主要有:交換機(jī)閾值過(guò)高,造成交換機(jī)宕機(jī);終端服務(wù)器串口數(shù)據(jù)異常,影響聯(lián)鎖通信等。
2.1.1 故障現(xiàn)象
在浦東機(jī)場(chǎng)站、創(chuàng)新中路站及川沙站等多個(gè)集中站,ATS(列車自動(dòng)監(jiān)控)面板顯示比實(shí)際滯后,控制中心調(diào)度員及車站值班員無(wú)法通過(guò)人工操作來(lái)干預(yù)。
2.1.2 故障分析
利用Wireshark抓包軟件對(duì)交換機(jī)通信數(shù)據(jù)進(jìn)行長(zhǎng)時(shí)間檢測(cè)發(fā)現(xiàn),當(dāng)交換機(jī)CPU(中央處理器)閾值≥90%時(shí),通道內(nèi)存在大量的RSTP(快速生成樹(shù)協(xié)議)廣播數(shù)據(jù)包。
使用FLUKE網(wǎng)絡(luò)分析儀長(zhǎng)時(shí)間監(jiān)測(cè)全網(wǎng)通信狀態(tài),并匯總數(shù)據(jù)進(jìn)行分析發(fā)現(xiàn),大量的RSTP廣播數(shù)據(jù)包是造成交換機(jī)閾值過(guò)高的主要原因。這些數(shù)據(jù)包主要流經(jīng)LAN A或LAN B交換機(jī)的1-8端口(連接屏蔽門終端服務(wù)器的端口)、4-1及4-2端口(連接環(huán)網(wǎng)主干道的端口)。
進(jìn)一步分析發(fā)現(xiàn):如MOXA PT7828交換機(jī)CPU閾值≥50%,則說(shuō)明交換機(jī)處理的網(wǎng)絡(luò)數(shù)據(jù)量極大;當(dāng)長(zhǎng)時(shí)間閾值≥90%時(shí),容易發(fā)生交換機(jī)宕機(jī),從而使所有連接交換機(jī)的終端都無(wú)法通信;屏蔽門終端服務(wù)器發(fā)生異常,是交換機(jī)閾值過(guò)高的原因之一。
2.1.3 故障處理
當(dāng)交換機(jī)閾值異常時(shí),可開(kāi)啟MOXA交換機(jī)的廣播風(fēng)暴抑制功能。這一處理措施可抑制環(huán)網(wǎng)中廣播幀數(shù)量的急劇增加,從而有效緩解交換機(jī)閾值過(guò)高的現(xiàn)象。
環(huán)網(wǎng)中的屏蔽門終端服務(wù)器數(shù)量較多,其故障數(shù)也居高不下。由于屏蔽門終端服務(wù)器跨接LAN A與LAN B,并分布在全網(wǎng)的每個(gè)節(jié)點(diǎn)上,因此,屏蔽門終端服務(wù)器一旦發(fā)生故障,就會(huì)有較高的概率導(dǎo)致雙網(wǎng)同時(shí)發(fā)生故障,進(jìn)而使信號(hào)系統(tǒng)癱瘓,形成極大安全隱患。對(duì)此提出割接屏蔽門終端服務(wù)器及AP至單網(wǎng)的解決方案:將廣蘭路站、創(chuàng)新中路站、川沙站、徐涇東站和虹橋2號(hào)航站樓站的屏蔽門終端服務(wù)器及AP割接至LAN A,將張江高科站、凌空路站、遠(yuǎn)東大道站、海天三路站和浦東國(guó)際機(jī)場(chǎng)站的屏蔽門終端服務(wù)器及AP割接至LAN B。
長(zhǎng)時(shí)間的運(yùn)營(yíng)效果顯示:通過(guò)開(kāi)啟MOXA交換機(jī)網(wǎng)絡(luò)風(fēng)暴抑制功能,優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)并將屏蔽門終端服務(wù)器與AP割接至單網(wǎng)后,再未發(fā)生過(guò)類似故障。
2.2.1 故障現(xiàn)象
2016年6月,2號(hào)線的多個(gè)集中站上行進(jìn)路無(wú)法正常排列,聯(lián)鎖失去通信;創(chuàng)新中路集中站控制線切斷,相關(guān)聯(lián)鎖區(qū)域大范圍列車無(wú)速度碼,且人工無(wú)法干預(yù)操作等。經(jīng)檢查,確診為創(chuàng)新中路60終端服務(wù)器串口數(shù)據(jù)異常故障。重置相關(guān)端口后,設(shè)備恢復(fù)正常運(yùn)行。該故障造成列車晚點(diǎn)15 min。
2.2.2 故障分析
利用telnet遠(yuǎn)程虛擬終端服務(wù)和要登入的終端服務(wù)器IP(互聯(lián)網(wǎng)協(xié)議)地址,觀察串口通信數(shù)據(jù),發(fā)現(xiàn)聯(lián)鎖通信數(shù)據(jù)中斷。檢查聯(lián)鎖 CPU板的相應(yīng)通信通道發(fā)現(xiàn),聯(lián)鎖系統(tǒng)正常將數(shù)據(jù)轉(zhuǎn)發(fā)至聯(lián)鎖終端服務(wù)器,而終端服務(wù)器并未正常轉(zhuǎn)發(fā),導(dǎo)致鄰站間聯(lián)鎖數(shù)據(jù)中斷,無(wú)法正常排列進(jìn)路,區(qū)間內(nèi)列車均收不到正常速度碼。
使用FLUKE網(wǎng)絡(luò)分析儀長(zhǎng)時(shí)間監(jiān)測(cè)聯(lián)鎖通信終端服務(wù)器。分析監(jiān)測(cè)數(shù)據(jù)發(fā)現(xiàn),聯(lián)鎖終端服務(wù)器發(fā)生了數(shù)據(jù)環(huán)繞現(xiàn)象。鄰站聯(lián)鎖系統(tǒng)通信數(shù)據(jù)通過(guò)RS 910終端服務(wù)器后,先進(jìn)行協(xié)議轉(zhuǎn)換(RS 232串口通訊協(xié)議轉(zhuǎn)RJ 45網(wǎng)線TCP/IP協(xié)議),再基于安全型TCP/IP協(xié)議傳輸??梢?jiàn),信號(hào)數(shù)據(jù)在傳輸前需經(jīng)過(guò)TCP/IP三次握手。簡(jiǎn)單來(lái)說(shuō),TCP/IP三次握手過(guò)程為:設(shè)備A先產(chǎn)生1個(gè)隨機(jī)序列號(hào)(Seq Number),并發(fā)送給設(shè)備B;設(shè)備B在序列號(hào)數(shù)值上加1形成確認(rèn)號(hào)(ACK Number),并發(fā)給設(shè)備A,表示設(shè)備B已經(jīng)收到設(shè)備A的發(fā)送請(qǐng)求,且允許通信;設(shè)備A收到正確的ACK Number后,再加1,并發(fā)送給設(shè)備B,完成TCP/IP三次握手。其中Seq Number是隨機(jī)產(chǎn)生的二進(jìn)制數(shù)。Seq Number在達(dá)到上限后,如再加1,就歸位成0,進(jìn)而形成數(shù)據(jù)環(huán)繞,無(wú)法完成TCP/IP三次握手,使通信中斷。
由上述分析可知,聯(lián)鎖通信終端服務(wù)器RS 910本身存在固件缺陷。這是導(dǎo)致鄰站聯(lián)鎖通信中斷的主要原因。
2.2.3 故障處理
將該故障現(xiàn)象及相應(yīng)的大量數(shù)據(jù)報(bào)告遞送至供應(yīng)商后,由供應(yīng)商對(duì)固件升級(jí)補(bǔ)丁。該故障得以修復(fù)。
2.3.1 故障現(xiàn)象
2016年1月26日,2號(hào)線東環(huán)網(wǎng)DTS通信中斷故障,凌空路站61網(wǎng)段交換機(jī)宕機(jī)。此次故障造成凌空路站、遠(yuǎn)東大道站和浦東國(guó)際機(jī)場(chǎng)站61網(wǎng)段的交換機(jī)、NVLE和終端服務(wù)器通信中斷。重啟凌空路61網(wǎng)段交換機(jī)后,設(shè)備恢復(fù)正常運(yùn)行。
2.3.2 故障分析
2號(hào)線東環(huán)網(wǎng)60網(wǎng)段交換機(jī)邏輯連接示意圖如圖3所示。圖3中,張江高科站為master交換機(jī),4-1端口為邏輯斷點(diǎn)(防止環(huán)網(wǎng)形成環(huán)路)。
圖3 2號(hào)線東環(huán)網(wǎng)60網(wǎng)段邏輯連接示意圖
2號(hào)線東環(huán)網(wǎng)61網(wǎng)段的交換機(jī)邏輯連接示意圖如圖4所示。圖4中,浦東機(jī)場(chǎng)站為 master交換機(jī),4-1端口為邏輯斷點(diǎn)。
圖4 2號(hào)線東環(huán)網(wǎng)61網(wǎng)段邏輯連接示意圖
2號(hào)線DTS系統(tǒng)環(huán)網(wǎng)交換機(jī)所用的MOXA PT-7828系列交換機(jī),采用自主研發(fā)的Turbo Ring專用協(xié)議,其主交換機(jī)會(huì)通過(guò)監(jiān)測(cè)物理層信號(hào)來(lái)主動(dòng)偵測(cè)環(huán)網(wǎng)中的各交換機(jī)是否發(fā)生斷電或線路斷開(kāi)等故障。如有交換機(jī)發(fā)生故障,則啟用備用線路隔開(kāi)故障點(diǎn)。在2號(hào)線東環(huán)網(wǎng)60網(wǎng)段中,張江高科站為邏輯主交換機(jī),張江高科站的4-1端口與創(chuàng)新中路站的4-2端口之間為邏輯斷點(diǎn)。如果廣蘭路站的交換機(jī)發(fā)生斷電或線路斷開(kāi)等故障,則Turbo Ring協(xié)議會(huì)啟用張江高科站的4-1端口與創(chuàng)新中路站的4-2端口之間的物理線路,使環(huán)網(wǎng)中只有廣蘭路站這1個(gè)站點(diǎn)受影響。然而,在日常運(yùn)營(yíng)中,交換機(jī)宕機(jī)時(shí)有發(fā)生,且宕機(jī)時(shí)交換機(jī)在物理層仍有連通,故Turbo Ring協(xié)議不會(huì)啟用備用線路。在此情況下,只要廣蘭路站發(fā)生宕機(jī),就會(huì)造成控制中心與廣蘭路站至川沙站都沒(méi)有通信。
2.3.3 故障處理
鑒于故障起因分析,安排搶修人員到機(jī)房查看交換機(jī)、NVLE和終端服務(wù)器的通信狀態(tài)和燈位。
當(dāng)搶修人員配有筆記本電腦時(shí):搶修人員將故障范圍內(nèi)及鄰站每個(gè)機(jī)房的RS 530 A/B切換器切換到正常網(wǎng)段;人工配置筆記本電腦的IP地址(IP地址不得與網(wǎng)內(nèi)其它信號(hào)設(shè)備相同)后,將筆記本電腦插入交換機(jī)插口連接交換機(jī);打開(kāi)MOXA PT-7828專用軟件,點(diǎn)擊Boardcast Search按鈕,以查看界面中的信息;若環(huán)內(nèi)1個(gè)或多個(gè)交換機(jī)并未在顯示菜單中,則初步判斷離本站最近的邏輯站點(diǎn)交換機(jī)可能存在故障;對(duì)故障網(wǎng)段交換機(jī)進(jìn)行重啟。
當(dāng)搶修人員未配有筆記本電腦時(shí):可通過(guò)信號(hào)機(jī)房?jī)?nèi)的NVLE進(jìn)行操作;按照DTS交換機(jī)邏輯連接結(jié)構(gòu)使用ping命令來(lái)排查大致故障點(diǎn);如離本站最近的邏輯站點(diǎn)交換機(jī)無(wú)法ping通,基本可以判斷該站交換機(jī)發(fā)生故障;重啟故障交換機(jī),確認(rèn)其重啟成功、無(wú)告警,且各連接端口通信正常,則故障排除。
本文基于2號(hào)線DTS典型故障的故障處理辦法和預(yù)防經(jīng)驗(yàn),總結(jié)了常規(guī)的維護(hù)措施。
措施1:定期查看控制中心的H3C網(wǎng)絡(luò)管理系統(tǒng)。增加中央網(wǎng)絡(luò)管理系統(tǒng)的巡檢頻次及內(nèi)容,通過(guò)控制中心H3C網(wǎng)絡(luò)管理系統(tǒng)的SNMP(簡(jiǎn)單網(wǎng)絡(luò)管理協(xié)議)功能來(lái)監(jiān)測(cè)全網(wǎng)中間設(shè)備是否正常。監(jiān)測(cè)內(nèi)容包括:網(wǎng)絡(luò)管理系統(tǒng)有無(wú)設(shè)備不可達(dá)、離線狀態(tài)等告警;查看各站點(diǎn)交換機(jī)閾值是否≤50%,利用ping命令測(cè)試各網(wǎng)絡(luò)節(jié)點(diǎn)間通道是否正常等。
措施2:定期查看終端服務(wù)器通信狀態(tài)。每日必須通過(guò)“Telnet +電腦 IP地址” 命令遠(yuǎn)程登入各終端服務(wù)器以查看通信狀態(tài)。登入終端服務(wù)器后,在Serial Port串行端口菜單中查看數(shù)據(jù)統(tǒng)計(jì),正常的字節(jié)傳輸速度應(yīng)為15bit/s, 正常的packet數(shù)據(jù)包傳輸速度應(yīng)為1packet/s;若數(shù)據(jù)包傳輸量之和為0,則串口通信已經(jīng)中斷,需立即處理。
措施3:定期查看AP是否正常。每日必須通過(guò)“Telnet +電腦 IP地址” 命令來(lái)遠(yuǎn)程登入AC無(wú)線管理交換機(jī),獲取AP登入權(quán)限,以查看AP工作狀態(tài)。
措施4:下載分析交換機(jī)系統(tǒng)數(shù)據(jù)及日志。在每次中央H3C網(wǎng)管系統(tǒng)告警后,需要下載MOXA交換機(jī)系統(tǒng)數(shù)據(jù)及日志并進(jìn)行分析。交換機(jī)系統(tǒng)數(shù)據(jù)及日志可通過(guò)Edscfgui專用軟件和虛擬終端(VTY)等多種方式下載。其中,使用Edscfgui專用軟件最為方便,使用RJ 45網(wǎng)線連接筆記本電腦與交換機(jī)空閑端口,并將該端口VLAN ID(虛擬局域網(wǎng)賬號(hào))改成VLAN 1(管理ID)。打開(kāi)專用軟件Edscfgui.exe后,輸入交換機(jī)IP地址與密碼登入交換機(jī)管理模式,選擇Configuration配置菜單中的Export Configuration輸出系統(tǒng)配置文件命令進(jìn)行下載。
措施5:下載分析終端服務(wù)器系統(tǒng)日志。當(dāng)終端服務(wù)器發(fā)生串口通信數(shù)據(jù)異常時(shí),及時(shí)下載RS 910終端服務(wù)器系統(tǒng)日志數(shù)據(jù),以便分析查找故障原因。
本文分析了2號(hào)線DTS設(shè)備發(fā)生故障的原因,總結(jié)了相關(guān)的維護(hù)經(jīng)驗(yàn)。主要的故障處理措施及維護(hù)措施為:開(kāi)啟MOXA交換機(jī)網(wǎng)絡(luò)風(fēng)暴抑制功能,并優(yōu)化網(wǎng)絡(luò)配置結(jié)構(gòu);升級(jí)終端服務(wù)器固件;加強(qiáng)對(duì)中央H3C網(wǎng)絡(luò)管理系統(tǒng)的巡視,定期查看終端服務(wù)器通信狀態(tài),查看AP是否正常。
這些經(jīng)驗(yàn)也總結(jié)在《2號(hào)線設(shè)備排故手冊(cè)》和《2號(hào)線信號(hào)DTS傳輸系統(tǒng)維規(guī)》中。實(shí)踐結(jié)果表明,這些故障預(yù)防措施做到了事前控制,能有效降低DTS設(shè)備故障發(fā)生率,保證了設(shè)備的穩(wěn)定運(yùn)行。