黃 逸,管運全,穆海洋,龐宇琦
(江蘇核電有限公司,江蘇 連云港 222000)
作為信息技術(shù)、控制技術(shù)和網(wǎng)絡技術(shù)高度結(jié)合的產(chǎn)物,數(shù)字化儀控系統(tǒng)被廣泛應用于核電項目中。歷經(jīng)數(shù)十年的技術(shù)革新和應用積淀,核電廠數(shù)字化儀控系統(tǒng)朝著更加精益、高效的方向發(fā)展,對系統(tǒng)運行可靠性提出更高要求。
通訊網(wǎng)絡作為數(shù)字化儀控系統(tǒng)的重要組成,承載著系統(tǒng)內(nèi)部大量的數(shù)據(jù)傳遞任務,是實現(xiàn)核電廠工藝系統(tǒng)及設備監(jiān)視和控制功能的核心環(huán)節(jié)。通訊網(wǎng)絡所基于的工業(yè)以太網(wǎng)技術(shù)特點、運行原理、可靠性逐漸成為在建電廠數(shù)字化儀控系統(tǒng)設計選型的要素,也勢必成為數(shù)字化儀控系統(tǒng)可靠性提升領(lǐng)域的熱點議題。
核電廠數(shù)字化儀控系統(tǒng)是一個大型系統(tǒng)集合。其中,非安全級數(shù)字化儀控系統(tǒng)為電廠正常運行工況下對機組參數(shù)及重要系統(tǒng)設備狀態(tài)進行事實監(jiān)視,為操縱員安全有效控制及操作核電廠提供各類必要的信息,對機組運行期間的安全性、穩(wěn)定性及經(jīng)濟性意義重大。
表1 非安全DCS系統(tǒng)應用情況Table 1 Application of non safety DCS system
圖1 HRP協(xié)議測試幀傳遞示意Fig.1 Schematic diagram of HRP protocol test frame transfer
目前,國內(nèi)在建及運行電廠中,非安全系統(tǒng)及其網(wǎng)絡技術(shù)應用情況見表1。
西門子公司TXP/T2000平臺作為最早應用于國內(nèi)核電廠的DCS系統(tǒng),其基于單環(huán)網(wǎng)絡結(jié)構(gòu)搭建的通訊網(wǎng)絡有其顯著的特點和優(yōu)點:層級清晰、結(jié)構(gòu)簡明,實現(xiàn)網(wǎng)絡負載分離;基于HRP[1](High-speed Redundancy Protocol)協(xié)議,網(wǎng)絡故障響應及網(wǎng)絡重構(gòu)快速;提供多種遠程診斷功能(基于SNMP/HTTP/PROINET協(xié)議),可用性高且維護便捷。但其相較隨后出現(xiàn)的雙環(huán)、MESH、雙網(wǎng)冗余等網(wǎng)絡形式,在容錯能力和可靠性等方面存在一定優(yōu)化和改進空間。
TXP/T2000系統(tǒng)通訊網(wǎng)絡符合“單一故障”[2]設計準則,在保證冗余功能的同時,確保通訊路徑唯一。網(wǎng)絡結(jié)構(gòu)基于單環(huán)網(wǎng)絡(又稱“虛擬環(huán)”[3])形式,遵循HRP協(xié)議,通過指定或自動協(xié)商方式確定一臺RM(Ring Manager)交換機進行網(wǎng)絡拓撲管理,實現(xiàn)單一故障下總線通訊的冗余功能。具體過程如下:
HRP協(xié)議下,RM交換機以20 ms時間頻率“虛擬環(huán)”雙向發(fā)送對MAC層以上網(wǎng)絡層透明[4]的測試幀,測試幀經(jīng)過環(huán)網(wǎng)中其余交換轉(zhuǎn)發(fā)后,會返回RM交換機。
正常情況下,RM交換機的2個組網(wǎng)端口(ring port)上,連續(xù)接收到對端發(fā)出的測試幀。RM交換機將指定其中1個組網(wǎng)端口置于“監(jiān)聽”狀態(tài),即不轉(zhuǎn)發(fā)數(shù)據(jù)包,以保證環(huán)網(wǎng)內(nèi)各交換機遵循CSMA/CD協(xié)議進行數(shù)據(jù)通訊[5]。
當發(fā)生網(wǎng)絡故障,測試幀轉(zhuǎn)發(fā)過程中斷。RM交換機通過雙向上同時連續(xù)丟失3個測試幀判斷網(wǎng)絡故障,并將在300 ms內(nèi)啟用“監(jiān)聽”端口數(shù)據(jù)轉(zhuǎn)發(fā)功能,確保環(huán)網(wǎng)內(nèi)數(shù)據(jù)通訊功能及時恢復。
圖2 TXP/T2000系統(tǒng)通訊網(wǎng)絡拓撲示意Fig.2 Topology of TXP/T2000 system communication network
基于上述“虛擬環(huán)”基本結(jié)構(gòu),結(jié)合工藝系統(tǒng)設計及功能分布,將TXP/T2000系統(tǒng)通訊網(wǎng)絡劃分為若干個環(huán)網(wǎng)。其中,子環(huán)網(wǎng)絡直接連接一層控制器,范圍覆蓋其所在的控制功能通道;主環(huán)網(wǎng)絡連通各個子環(huán),成為TXP/T2000系統(tǒng)通訊網(wǎng)絡核心部分。主環(huán)與子環(huán)間設有兩路獨立上行鏈路,以熱備用方式冗余運行。
TXP/T2000系統(tǒng)中,一層過程控制功能由AS620(Automation System 620)系統(tǒng)完成。AS620系統(tǒng)承擔工藝過程的自動控制任務,是DCS系統(tǒng)與工藝系統(tǒng)的接口。它采集來自現(xiàn)場變送器的過程測量值和狀態(tài)量,根據(jù)實際應用情況對這些信息在AS620中進行開環(huán)和閉環(huán)控制運算和處理,然后把產(chǎn)生的命令送往現(xiàn)場執(zhí)行機構(gòu)(如閥門、電機等),實現(xiàn)控制功能。
AS620系統(tǒng)控制運算功能,實際由分布于若干自動處理機柜內(nèi)的冗余控制器(控制器AP_a和AP_b)完成,并依托“單環(huán)網(wǎng)結(jié)構(gòu)”的通訊網(wǎng)絡實現(xiàn)控制站間及一層、二層系統(tǒng)間數(shù)據(jù)通訊和控制命令交互。其過程可簡單描述為:冗余配置的控制器AP_a和AP_b同步接收數(shù)據(jù),同步計算處理,互為冗余熱備用。其中,一個控制器作為主用控制器的輸出處理結(jié)果,當主用控制器發(fā)生故障,可以自動無擾切換到冗余備用控制器,繼續(xù)運行。與此同時,自動處理機柜與其他控制系統(tǒng)組件之間保持兩條物理通訊鏈路,以實現(xiàn)AS620系統(tǒng)內(nèi)的通訊冗余功能。
基于上述系統(tǒng)及網(wǎng)絡冗余運行原理,TXP/T2000系統(tǒng)可以承受單環(huán)中出現(xiàn)“單斷點”故障。在此情況下,AS620系統(tǒng)可用性和通訊冗余不受任何影響。但如果“單斷點”故障進一步惡化,形成“雙斷點”,則可能導致雙斷點范圍內(nèi)的自動處理機柜通訊中斷。核電廠運行人員無法監(jiān)控通訊故障范圍內(nèi)自動處理機柜中的設備和信號,且因雙斷點故障范圍內(nèi)的自動處理機柜與其余機柜之間通訊中斷,極可能導致重要工藝設備誤動的情況出現(xiàn),進而影響機組正常運行。
國內(nèi)某核電站曾因交換機組環(huán)端口性能下降,出現(xiàn)“閃斷閃連”故障,引發(fā)一起機組非計劃停運事件,“閃斷閃連”故障導致環(huán)網(wǎng)中單方向通訊間歇性中斷。若RM交換機此時啟動監(jiān)聽端口的數(shù)據(jù)轉(zhuǎn)發(fā)功能,則未出現(xiàn)通訊中斷的數(shù)據(jù)流向,形成物理環(huán)網(wǎng)。由此形成“網(wǎng)絡風暴”將一瞬間蔓延至整個網(wǎng)絡,并最終導致系統(tǒng)癱瘓。為此,上述網(wǎng)絡故障期間環(huán)網(wǎng)冗余功能強制未觸發(fā),“閃斷閃連”故障點疊加RM交換機上監(jiān)聽端口,最終演化為“雙斷點”故障。
通訊網(wǎng)絡中的“閃斷閃連”狀態(tài)是物理鏈路老化、通訊性能下降的表現(xiàn),在工程應用中無法被完全消除?!伴W斷閃連”故障期間,網(wǎng)絡拓撲處于一種非穩(wěn)定的切換狀態(tài),這將對冗余網(wǎng)絡協(xié)議(HRP協(xié)議及生成樹協(xié)議)的正常運作和通訊負荷產(chǎn)生極大的沖擊和挑戰(zhàn)。
通過增加并啟用鏈路監(jiān)測機制,可以有效解決因物理鏈路性能下降引發(fā)的網(wǎng)絡異常。TXP/T2000系統(tǒng)通信網(wǎng)絡中,可通過“測試幀”雙向收發(fā),實現(xiàn)對每一條物理鏈路狀態(tài)的實時監(jiān)測。在物理鏈路性能下降時,“測試幀”接受計數(shù)<發(fā)送計數(shù)。若兩者差值滿足特定的變化率,則判斷物理鏈路不可靠,并以閉鎖通訊端口方式主動切斷問題鏈路,確保通訊網(wǎng)絡始終處于穩(wěn)定狀態(tài),為冗余網(wǎng)絡協(xié)議對網(wǎng)絡故障識別和響應提供輔助和支持。
圖3 環(huán)網(wǎng)形成“雙斷點”故障示意Fig.3 “double breakpoints” fault of ring network
圖4 優(yōu)化后網(wǎng)絡結(jié)構(gòu)分布Fig.4 Distribution of optimized network structure
合理規(guī)劃子環(huán)網(wǎng)絡范圍和關(guān)鍵網(wǎng)絡節(jié)點設置,對優(yōu)化傳輸路徑、降低通訊負荷和提升網(wǎng)絡故障容錯性意義重大。在上述網(wǎng)絡故障導致非停事件的經(jīng)驗反饋中,網(wǎng)絡結(jié)構(gòu)及配置存在不合理之處:
“閃斷閃連”故障所在子環(huán)網(wǎng)絡范圍過大,其下連接有40對AP控制器,承載著全廠60%以上的自動控制器通訊任務;同時,冗余上行鏈路交換機和RM交換機采用緊鄰設置,位置分布不合理。上述因素疊加,致使“閃斷閃連”故障期間超過半數(shù)以上AP控制器通訊中斷,大范圍設備及其信號失去監(jiān)視。
針對上述情況的優(yōu)化方案為:在不違背功能及實體隔離原則的前提下,根據(jù)交換機物理位置,將原子環(huán)網(wǎng)絡“一分為二”拆解成兩個獨立子環(huán),并對子環(huán)關(guān)鍵網(wǎng)絡節(jié)點做合理化配置:兩臺上行交換機呈對稱分布,即中間盡量間隔等量的交換機;RM交換機設置在距離兩臺上行交換機中間位置。
圖6 "雙斷點"故障測試情況示意Fig.6 Schematic diagram of "double breakpoint" fault test
上述調(diào)整優(yōu)化可以減少子環(huán)網(wǎng)絡故障期間受影響的控制機柜數(shù)量,有效控制并緩解子環(huán)網(wǎng)絡“雙斷點”故障對AS620系統(tǒng)功能的影響,降低系統(tǒng)失效風險。
“雙斷點”故障突破了“虛擬環(huán)”網(wǎng)絡的冗余設計準則,其潛在影響及風險具體,必須予以有效控制和規(guī)避。解決子環(huán)網(wǎng)絡內(nèi)“雙斷點”故障影響的關(guān)鍵所在為:如何確保冗余控制器2路物理通訊鏈路始終維持1路以上的正常工作。
結(jié)合冗余控制器和“虛擬環(huán)”網(wǎng)絡工作原理,對控制器在子環(huán)網(wǎng)絡連接方式進行重新排布,可以消除子環(huán)網(wǎng)絡“雙斷點”故障對控制系統(tǒng)的影響,具體為:
以子環(huán)網(wǎng)絡中兩個上行交換機為界,將子環(huán)分為了A側(cè)半環(huán)和B側(cè)半環(huán)兩部分。子環(huán)中所有控制器AP_a分配在A側(cè)半環(huán),將所有處理控制器AP_b分配在子環(huán)的B側(cè)半環(huán)。上述結(jié)構(gòu)可應對子環(huán)中出現(xiàn)的各種雙斷點故障。
1)當雙斷點出現(xiàn)在A側(cè)半環(huán),極端情況下會導致A側(cè)半環(huán)連接的所有自動處理機柜中的控制器A離線,但是由于B側(cè)半環(huán)連接著自動處理機柜中所有的控制器B,各自動處理機柜仍可以實現(xiàn)子環(huán)中各機柜間的通訊以及通過上行鏈路與主環(huán)通訊,所以自動處理機柜的功能不受影響。
2)當雙斷點出現(xiàn)在B側(cè)半環(huán),極端情況下會導致B側(cè)半環(huán)連接的所有自動處理機柜中的控制器B離線,但是由于A側(cè)半環(huán)掛載著自動處理機柜中所有的控制器A,各自動處理機柜仍可以實現(xiàn)子環(huán)中各機柜間的通訊以及通過上行鏈路與主環(huán)通訊,所以自動處理機柜的功能不受影響。
3)當雙斷點分別出現(xiàn)在A側(cè)和B側(cè)半環(huán),即A側(cè)半環(huán)出現(xiàn)1個斷點并且同時B側(cè)半環(huán)出現(xiàn)1個斷點,此時子環(huán)被分割成兩段獨立的總線,其中一段經(jīng)上行鏈路A與主環(huán)通訊,另一段經(jīng)上行鏈路B與主環(huán)通訊,子環(huán)中所有自動處理機柜均有一個控制器保持在線,所以自動處理機柜功能不受影響。
圖5 優(yōu)化后控制器網(wǎng)絡接入分布Fig.5 Network access distribution of optimized controller
在經(jīng)過理論分析及實體測試以驗證其可行性及有效性后,上述網(wǎng)絡優(yōu)化方案被成功實施應用于運行核電機組。
具體測試方式為:手動斷開通訊鏈路或?qū)粨Q機斷電方式模擬網(wǎng)絡故障,并重點對子環(huán)網(wǎng)絡“雙斷點”故障情況進行逐一驗證,包括:“上行交換機同側(cè)雙斷點”“上行交換機異側(cè)雙斷點”“單交換機雙斷點”等。
測試結(jié)果顯示:網(wǎng)絡故障出現(xiàn)前后二層系統(tǒng)對全廠系統(tǒng)及設備的監(jiān)視、控制功能不受任何影響,報警序列中不會出現(xiàn)AP完全故障(Total Failure)和AP-AP通訊故障(conn.flt Failure)報警,僅在“上行交換機同側(cè)雙斷點”和“單交換機兩側(cè)雙斷點”時,出現(xiàn)部分AP-AP通訊冗余失去(Redundancy Loss)的報警。
表2 測試驗證結(jié)果Table 2 Test verification results
測試結(jié)果表明:優(yōu)化后的網(wǎng)絡拓撲結(jié)構(gòu)更加合理,功能配置更加完善,故障監(jiān)測響應能力和容錯能力進一步提升,同時能有效應對子環(huán)網(wǎng)絡“雙斷點”故障對控制系統(tǒng)實時數(shù)據(jù)通訊的影響,降低或減少由此引發(fā)的機組瞬態(tài)乃至非停事件。
伴隨著國內(nèi)核電行業(yè)的跨越式發(fā)展,數(shù)字化DCS系統(tǒng)技術(shù)取得了長足的進步,并對系統(tǒng)網(wǎng)絡的可用性和可靠性提出更高的要求。TXP/T2000系統(tǒng)網(wǎng)絡作為一種典型工業(yè)控制網(wǎng)絡,在國內(nèi)核電廠中取得較為廣泛的應用。結(jié)合TXP/T2000系統(tǒng)運行原理及其網(wǎng)絡固有特點,開展網(wǎng)絡技術(shù)解析及優(yōu)化策略研究意義重大,且具備一定的參考借鑒意義和推廣價值。