高龍剛,陳紅征,李誠香
(山東萊城發(fā)電廠,山東 萊蕪 271113)
DCS系統(tǒng)已經(jīng)在火力發(fā)電廠得到廣泛應(yīng)用,但無論哪種DCS系統(tǒng),網(wǎng)絡(luò)通訊故障都是影響機組安全穩(wěn)定運行的重要原因。由原國家電力公司發(fā)布的 《防止電力生產(chǎn)重大事故的二十五項重點要求》[1]對DCS系統(tǒng)的配置和緊急處理措施作了詳細的要求,各家電廠也根據(jù)自己的系統(tǒng)實際制定了專門的防止DCS系統(tǒng)失靈措施,這些都為DCS系統(tǒng)的安全可靠運行奠定了基礎(chǔ)。
TELEPERM_XP系統(tǒng)由德國西門子公司制造,該系統(tǒng)主要包括自動過程控制系統(tǒng)(AS620)、過程處理及監(jiān)視系統(tǒng)(OM650)、工程組態(tài)及調(diào)試系統(tǒng)(ES680)和SINEC總線系統(tǒng)。SINEC總線系統(tǒng)采用了以廠網(wǎng)和終端網(wǎng)為主體的雙環(huán)網(wǎng)結(jié)構(gòu),采用CSMA/CD,TCP/IP通訊協(xié)議,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,其核心部件是星形耦合器[2]。
OM650系統(tǒng)主要由過程處理單元(PU)、歷史服務(wù)單元(SU)、操作員站(OT)、外部網(wǎng)絡(luò)連接單元(XU)組成。PU配雙網(wǎng)卡,一端聯(lián)接廠網(wǎng),一端聯(lián)接終端網(wǎng),完成數(shù)據(jù)的傳送、處理、短期歸檔及報警功能;SU掛在終端網(wǎng)上,完成數(shù)據(jù)的長期歸檔及描述功能;OT掛在終端網(wǎng)上,完成畫面監(jiān)視及操作功能;XU配雙網(wǎng)卡,一端聯(lián)終端網(wǎng),一端聯(lián)SIS網(wǎng)絡(luò),完成DCS數(shù)據(jù)向SIS的傳輸。機組的OM650系統(tǒng)均配置 6臺 OT、4臺 PU、2臺 SU、1臺XU。機組的AS620系統(tǒng)配置8個AP柜及一個APF柜。
圖1 TELEPERM_XP系統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)圖
機組負荷288 MW,制粉系統(tǒng)A、B磨全磨運行,C磨C1層噴燃器運行,煤量161 t/h,爐膛負壓-71Pa,機組在手動方式下穩(wěn)定運行。17:11:19,BTG 盤“RB”報警發(fā)出,DCS上“RB 跳 B 磨”、“RB跳C磨”信號發(fā)出,B、C磨同時跳閘。機組MFT,首出原因“爐膛壓力低低”。風(fēng)機RB、一次風(fēng)機RB同時發(fā)出。
機組負荷296 MW,制粉系統(tǒng)A、B磨全磨運行,煤量152 t/h,運行人員發(fā)現(xiàn) 2臺 OT(OT1、OT2)死機。然后其他OT相繼死機,所有運行參數(shù)均無法監(jiān)視,熱控人員檢查廠網(wǎng)及所屬AP均運行正常。
以上兩次均為TXP系統(tǒng)典型故障,一個是底層通訊一個是上層通訊,而且此類故障在同型號DCS上或多或少均有出現(xiàn)。
TXP中的工業(yè)以太網(wǎng)(Ethernet)使用CSMA/CD訪問機制 (帶沖突檢測的載波偵聽多路存取)。在CSMA/CD總線上,所有站都與總線檢查或偵聽相連,偵聽在總線上的發(fā)送。每個站在任何時候都有權(quán)在其它站不使用總線的情況下訪問傳輸介質(zhì) (邊對話邊偵聽)。如果其它站在傳輸數(shù)據(jù)時,一個站想發(fā)送數(shù)據(jù),則該站只好等待,等到正在發(fā)送的數(shù)據(jù)包被接收后,再經(jīng)過一個時間間隔,此站才能開始發(fā)送數(shù)據(jù)。如果傳輸站檢測到?jīng)_突,該站會停止發(fā)送數(shù)據(jù),沖突后丟失的數(shù)據(jù)包重新發(fā)送。
過程圖象傳遞。AP<>AP及AP<>FUM卡件通訊通過傳遞過程圖像來完成,AP系統(tǒng)軟件從附屬層獲取過程數(shù)據(jù),并將其貯存在輸入的過程圖象(PAE)中。反過來,AP系統(tǒng)軟件將由用戶程序已經(jīng)產(chǎn)生的數(shù)據(jù)和貯存在輸出的過程圖象(PAA)中的數(shù)據(jù)傳送到附屬層。過程圖象傳遞能使用戶程序在兩個AP中通過SINEC H1 FO來交換數(shù)據(jù)。數(shù)據(jù)交換是通過AP<>AP鏈進行的。鏈的數(shù)目(多達32個)可以被組態(tài),每個鏈允許最長256個字節(jié)的一個數(shù)據(jù)塊被接收或循環(huán)地傳遞。如果一個信息幀在一有關(guān)鏈的時間內(nèi)通過一個完整的鏈而沒有收到,則一個信息(DMZ)就產(chǎn)生了。如果一個AP<>AP鏈完全故障,則也發(fā)布一個信息。
圖2 AP處理器與FUM卡件過程圖像傳遞
圖3 AP處理器與上位系統(tǒng)過程圖像傳遞
TXP系統(tǒng)硬件連接如圖4所示,根據(jù)硬件接線及過程圖像通訊原理、AP源文件組態(tài),可以得出AP的通訊鏈路是左側(cè)AP與其他左側(cè)AP通訊,右側(cè)AP與其他右側(cè)AP通訊,該通訊通過網(wǎng)卡CP1430實現(xiàn),通訊時左右AP通過IM324R和IM304卡來保證兩側(cè)AP過程圖像一致,當(dāng)AP、CP1430故障導(dǎo)致其固有通訊中斷,則通過CP1430<>AP<>IM324<>IM304<>AP<>CP1430環(huán)形通訊鏈通訊,這時候如有硬件或軟件故障,則通訊中斷。
圖4 TXP系統(tǒng)硬件連接圖
本次底層故障前AP9右側(cè)AP故障,退出運行,使右側(cè)AP通訊中斷,AP9與AP4通訊僅靠左側(cè)通訊,此時AP4左側(cè)AP故障重新啟動,造成左側(cè)通訊鏈路也中斷,此時兩AP自身及AP與上位系統(tǒng)通訊雖然正常,但兩AP之間數(shù)據(jù)中斷,送、引風(fēng)機、一次風(fēng)機運行信號消失,導(dǎo)致AP9內(nèi)RB邏輯誤判斷發(fā)出跳磨煤機信號,爐膛負壓瞬間下降機組MFT。
上層處理器 OT、PU、SU功能分布如表1所示,分別為人機接口(MMI)、AS 通訊(ASR)、短期歸檔(ARC)、處理功能(MAC)、描述數(shù)據(jù)管理程序(BDM)、長期歸檔(LTA)、運行記錄/打?。≒RT)、筆記本(NTB)功能,同時SU由于長期歸檔,每一個服務(wù)器單元通常配備磁光盤的內(nèi)部MOD驅(qū)動器。
表1 上層處理器OT、PU、SU功能分布
目前該機型配置為CPU為奔騰II系列,主頻166 MHz,內(nèi)存64 MB;顯卡采用加拿大MATRON公司的彩顯,顯存8 MB,硬盤采用西捷公司的1.9G SCSI硬盤,SCSI卡為 ULTRA2-LVD/SE,版本2.0,網(wǎng)卡型號為3COM EtherLink III,ESIA接口,最大傳輸速率10 Mbps。SU配置有明顯的弱點:硬盤容量較小,僅為1.9 G。傳輸速率較低,還配有MOD光驅(qū)。現(xiàn)在運行人員在操作及問題分析時經(jīng)常長期調(diào)用歷史曲線,歷史曲線調(diào)用時耗費大量的資源,特別是周期較長曲線,有時還會讀取MOD,若此時通訊發(fā)生沖突或硬盤、MOD偶發(fā)小故障,導(dǎo)致歷史曲線較長時間調(diào)不出來,通常會在其他OT上調(diào)用,導(dǎo)致數(shù)據(jù)傳輸量加大,通訊沖突加劇,系統(tǒng)會發(fā)送大量的故障信息,由于硬盤容量較小,信息積累到一定程度會導(dǎo)致SU、PU、OT死機,整個上位系統(tǒng)癱瘓,而SU硬盤容量較大機組則不容易發(fā)生此類問題。
加強電子間環(huán)境、溫濕度檢查,特別做好灰塵、濕度控制,防止因為灰塵積累在空氣濕度大情況下造成卡件故障。
加強設(shè)備巡回檢查,每天兩次對AP、卡籠通訊模塊狀態(tài)記錄,報警信息檢查記錄,出現(xiàn)問題及時分析并采取相應(yīng)措施。
對AP柜間通訊點進行全面排查,對于重要的聯(lián)鎖保護、自動通訊點進行整理,盡量避免采用柜間通訊方式,減少通訊故障時危害,確實無法避免的柜間通訊,應(yīng)采取防誤動措施,在邏輯中進行甄別,可根據(jù)生產(chǎn)實際采取兩個以上通訊點同時發(fā)生中斷抑制措施。
硬件故障發(fā)生后,迅速進行判斷,對于AP故障可以采取清灰、更換措施,IM通訊卡、CP1430網(wǎng)卡、電源模件應(yīng)在停機時更換,此時應(yīng)加大巡回檢查頻次,并對另一側(cè)AP采取通風(fēng)、抽濕等特護措施,做好事故預(yù)想,爭取合適機會予以停機消除。
對于卡籠通訊模塊IM614故障應(yīng)及時對本卡籠內(nèi)I/O卡件進行檢查,排除現(xiàn)場因素,并對本卡籠I/O點失效進行預(yù)想,避免問題擴大。
1)減少長時間調(diào)用長周期歷史曲線次數(shù),特別要避免曲線調(diào)用不出時在其他多個OT上同時調(diào)用。
2)避免操作MOD光驅(qū),減少MOD光驅(qū)產(chǎn)生故障信息及垃圾文件。
3)定期檢查工控機負荷、重啟機器,清除垃圾文件,防止硬盤空間過小。
4)保持工程師站環(huán)境、溫濕度合格,減少粉塵對上微機危害。
5)利用機組停運機會加大SU硬盤容量、MOD,如無法更換暫時在軟件中將MOD設(shè)備刪除。
6)操作員站故障應(yīng)急處理措施:長按XU主機電源按鈕,停掉XU;長按所有OT主機電源按鈕,停掉OT(包括工程師站室內(nèi)的OT);從屏幕切換器或工程師站上對所有PU、SU執(zhí)行init 0操作,若無法執(zhí)行init操作時,則長按主機電源按鈕,停掉 PU、SU(可同時停);P1a上電重啟,若 OM軟件不自動啟動,執(zhí)行Om.Start操作;用PL-t命令,查看P1a運行正常后,P2a上電重啟,若OM軟件不自動啟動,執(zhí)行Om.Start操作;P2a運行正常后,SUa上電重啟,若OM軟件不自動啟動,執(zhí)行Om.Start操作;SUa啟動正常后,可將控制室內(nèi)的任一臺OT上電啟動,該OT的功能正常后,可依次啟動控制室內(nèi)的其它OT;依次啟動P1b、P2b、SUb、XU及工程師站內(nèi)OT;用PL-t檢查所有上位機的運行情況。
注意事項:不能同時啟動兩臺及以上的OM上位機;當(dāng)PU重啟不成功時,將終端網(wǎng)停電,1min后上電,再次重啟PU;異常處理過程中,當(dāng)有OT功能正常后,運行人員不要查看曲線,并盡量減少操作。
DCS系統(tǒng)上層及底層網(wǎng)絡(luò)通訊故障都會對電廠安全穩(wěn)定運行造成重大影響,而通信問題則是DCS系統(tǒng)維護工作最為復(fù)雜和難以控制的。通信故障大都因通訊設(shè)計存在一定局限性,僅在特定工況下才表現(xiàn)出來,需要對通信原理進行系統(tǒng)分析并找出薄弱環(huán)節(jié)才能制定針對性預(yù)防措施,從消除導(dǎo)致通訊故障的特定工況作為切入點,完善應(yīng)急處理方案,保證DCS系統(tǒng)可靠穩(wěn)定運行。