三峽電力職業(yè)學院 王麗麗
目前國內(nèi)在運的換流站中,采用MACH2系統(tǒng)的現(xiàn)場通信總線主要有CAN總線和TDM總線兩種,其中CAN總線用于實現(xiàn)數(shù)字量信號的傳輸,是MACH2系統(tǒng)中設(shè)備數(shù)據(jù)交換的基礎(chǔ)之一[1]。在這些直流工程中,CAN總線故障通常表現(xiàn)為主機誤發(fā)信號、板卡不明原因stall、瞬發(fā)性CAN總線通信故障等,極易造成單套控制保護系統(tǒng)退出運行,嚴重時甚至造成開關(guān)偷跳、直流閉鎖等后果,嚴重威脅跨區(qū)電網(wǎng)[2]安全穩(wěn)定運行。CAN總線故障通常不易確定故障原因,長期以來困擾著一線直流控制保護系統(tǒng)運維人員。
某公司2015年以來,所轄A換流站(整流站)和B換流站(整流站)換流變接口屏TFT頻繁出現(xiàn)PS860板卡stall現(xiàn)象。每次出現(xiàn)故障時,后臺事件記錄均報“緊急故障”、“CAN TFT故障”、“DSP/TDM PCI板故障”等告警,現(xiàn)場TFT屏內(nèi)PS860板卡stall紅燈亮。表1是2017年A換流站與B換流站TFT屏內(nèi)PS860板卡stall情況的統(tǒng)計。
表1 A換流站、B換流站TFT屏內(nèi)PS860板卡stall故障情況統(tǒng)計表Tab.1 The statistics table of PS860 board stall failure in TFT cabinet at A converter station and B converter station
從表1中看出,TFT屏內(nèi)的B4/H5.13位置的PS860板反復出現(xiàn)stall故障,且更換新板卡后依然無法解決問題。2017年以來兩站TFT屏B4/H5.13位置的PS860板卡共發(fā)生了18次故障,每次故障均會導致直流極控單系統(tǒng)退出,若此時另一系統(tǒng)發(fā)生緊急故障,會造成直流單極閉鎖,給電網(wǎng)造成巨大影響,對此急需找到故障原因來消除該重大隱患。
為了消除A換流站、B換流站TFT屏內(nèi)B4/H5.13位置的PS860板反復stall故障,該公司組織運維人員對PS860故障問題進行了長期跟蹤分析。前期主要采取的方法為對板卡程序源代碼進行分析和外接超級終端捕捉故障信息,這兩種方法縮小了故障范圍,但對故障處理方法并未有實質(zhì)性指導意義,仍然采用的是重啟或者更換板卡的方法來臨時解決問題。
運維人員依據(jù)現(xiàn)場報警報文和故障情況,在對PS860板卡DSP程序的C語言源代碼進行研究后,判斷導致PS860出現(xiàn)DSP/TDM故障的可能原因共有4種,分別為:板卡硬件故障、C167要求DSP停運、DSP過載、DSP自停止。對板卡程序源代碼分析僅將故障可能的原因縮小范圍,無法明確具體故障原因。
2017年2月28日,B換流站再次發(fā)生PS860故障,運維人員在現(xiàn)場通過外接筆記本電腦,捕捉到了PS860板卡故障瞬間的串口打印信息。如圖1所示。
圖1 2017年2月28日B換流站PS860板故障信息Fig.1 The fault information of PS860 board in B converter station on February 28,2017
由以上信息可判斷PS860板卡故障原因為程序出現(xiàn)過載。正常運行時PS860板卡負載維持在較低水平,但仍然出現(xiàn)程序過載,極可能由于PS860板負載出現(xiàn)突變而導致程序過載,板卡程序停止運行,發(fā)出過載報警。
通過外接筆記本電腦捕捉到了PS860板的故障信息,初步分析認為PS860板卡負載出現(xiàn)突變,但對于負載突變的原因仍不能明確,無法徹底解決PS860板頻繁故障的隱患。
該公司經(jīng)過多方研究探討,首次嘗試在換流站引入CAN總線分析儀進行故障診斷。經(jīng)過不懈努力,終于找到了PS860板負載突變的原因,徹底解決了TFT屏PS860板頻繁stall的重大隱患。
使用CAN總線分析儀進行故障診斷的原理是將其接入控制保護系統(tǒng)CAN網(wǎng)中,通過捕捉CAN總線報文并對報文進行解析,用于故障原因分析。[3]由于現(xiàn)場TFT屏I/O機箱內(nèi)已無端口用于直接接入CAN總線分析儀,因此可采用在原有I/O機箱備用插槽位置新增PS8761板卡后與CAN總線分析儀連接的方式,不影響現(xiàn)有控制保護系統(tǒng)設(shè)備正常運行,不改變其運行方式。以本文案例為例,可按如圖2所示方法將CAN總線分析儀接入控制保護系統(tǒng)。(1)在控制保護系統(tǒng)I/O機箱內(nèi)備用插槽上安裝一塊PS8761板卡;(2)將CAN總線分析儀與筆記本電腦通過USB電纜連接;(3)啟動筆記本電腦上的CAN總線分析軟件,設(shè)置其為只聽狀態(tài)(不會向CAN網(wǎng)發(fā)送報文);
圖2 CAN總線分析儀接入控制保護系統(tǒng)方法Fig.2 The method of CAN bus analyzer accessing control and protection system
(4)將CAN總線分析儀與PS8761板卡通過CAN總線電纜測試夾頭連接。
2017年7月29日,運維人員在B換流站現(xiàn)場通過CAN總線分析儀監(jiān)視TFT柜內(nèi)CAN總線報文,發(fā)現(xiàn)CAN總線報文流量不均勻,存在尖峰。若尖峰持續(xù)時間較長,足以導致PS860出現(xiàn)過載故障。如圖3所示。
圖3 CAN報文流量統(tǒng)計Fig.3 The traffic statistics of CAN message
2017年8月3日12點,B換流站極1TFT屏B系統(tǒng)的PS860板再次發(fā)生故障,由CAN總線分析儀捕捉到的報文可以看出,PS860板最后一幀心跳報文(08100083)發(fā)出時間為12:22:44,此后經(jīng)過一個持續(xù)時間較長的CAN流量報文尖峰后,再未發(fā)出心跳報文,由此判斷PS860故障是由CAN總線流量突然增大導致過載引起。如圖4所示。
圖4 PS860板卡經(jīng)過CAN報文流量尖峰后過載故障Fig.4 The overload fault ofPS860 board after CAN packet traffic spikes
2017年8月4日,運維人員對流量尖峰處的報文進行解析,發(fā)現(xiàn)導致CAN報文流量出現(xiàn)尖峰的原因是由于水冷系統(tǒng)PS830板卡報文重復發(fā)送所致。如圖5所示。
圖5 CAN報文流量尖峰處放大后的情況Fig.5 The enlarging of CAN message fl ow spikes
在整個報文捕捉過程中,所有導致CAN總線利用率[4]大于10%的尖峰都是由幀ID為 0x06017404的報文造成。這類報文是極控制保護主機內(nèi)PCIB板卡應(yīng)答水冷系統(tǒng)PS830板卡事件的報文。如圖6所示。
圖6 來自PCIB板卡的水冷系統(tǒng)事件應(yīng)答報文Fig.6 The responsive message from PCIB board of cooling system
檢查應(yīng)答報文內(nèi)容,發(fā)現(xiàn)水冷系統(tǒng)的事件均被重復應(yīng)答兩次,由此推斷站內(nèi)水冷系統(tǒng)報文存在重復發(fā)送的異?,F(xiàn)象。由于MACH2系統(tǒng)事件報文的背景更新機制,無論是否有報文產(chǎn)生,均會周期性發(fā)送背景更新事件。B換流站水冷系統(tǒng)兩塊PS830板卡共有120多個事件,若同時發(fā)送且重復發(fā)送兩遍,會在CAN總線上集中產(chǎn)生240幀報文,誘發(fā)PS860過載故障。
2017年8月4日,現(xiàn)場臨時修改水冷系統(tǒng)程序,消除水冷系統(tǒng)事件重發(fā)異常。程序修改完成后,B換流站TFT屏內(nèi)最高CAN總線利用率從12%下降到6%,效果明顯。如圖7和圖8所示。
圖7 水冷系統(tǒng)程序修改前B換流站CAN總線報文流量Fig.7 The CAN bus message fl ow of B converter station before modifing the cooling system program
圖8 水冷系統(tǒng)程序修改后B換流站CAN總線報文流量Fig.8 The CAN bus message fl ow of B converter station after modifing the cooling system program
在經(jīng)過長期的跟蹤檢查并引入CAN總線分析儀進行故障診斷后,A換流站、B換流站TFT屏PS860板卡頻繁故障的問題得以徹底解決。故障原因為水冷系統(tǒng)事件報文重復發(fā)送,導致極控主機PCIB板卡重復應(yīng)答,大幅增加CAN總線報文流量,造成報文分布不均,出現(xiàn)大量高流量尖峰,一旦PS860板卡自身負載短時增加或CAN網(wǎng)上其他報文同時發(fā)送,就會引起PS860板卡過載故障。
(1)通過板卡程序源代碼分析、外接筆記本電腦捕捉故障信息等方法僅能作為一般故障診斷手段,對故障處理無實質(zhì)性指導意義,不能準確定位故障點,無法深入分析故障原因。
(2)使用CAN總線分析儀可以迅速定位故障原因,極大地縮短故障診斷時間,尤其是對頻繁出現(xiàn)的、原因不明的控制保護設(shè)備故障,故障處理方案明確,優(yōu)勢明顯。
[1]張尊揚,李學生,哈文森. 總線技術(shù)及CAN總線技術(shù)簡介[J].電子世界,2013,(12):98.
[2]曾南超. 高壓直流輸電在我國電網(wǎng)發(fā)展中的作用[J].高電壓技術(shù),2004,(11):11-12.
[3]韓成浩,高曉紅. CAN總線技術(shù)及其應(yīng)用[J].制造業(yè)自動化,2010,32(02):146-149.
[4]史久根,劉蓬,張培仁.CAN數(shù)據(jù)傳送的實時性研究及其應(yīng)用[J].信息與控制,2004,(03):342-346.