魏永斌
(中核龍安有限公司,浙江 臺(tái)州 317100)
近幾年來,國(guó)內(nèi)多個(gè)核電廠發(fā)生了運(yùn)行期間主控室突發(fā)全部“黑屏”,即主控室內(nèi)所有操縱員站同時(shí)不可用的異常事件。在國(guó)內(nèi)目前已經(jīng)應(yīng)用了數(shù)字化儀控系統(tǒng)的核電廠,一般將此類事件歸結(jié)為電廠計(jì)算機(jī)信息和控制系統(tǒng)不可用事件。一旦電廠所有操縱員站同時(shí)“黑屏”,電廠將短時(shí)進(jìn)入類似“盲運(yùn)”的狀態(tài),此時(shí)核電廠需要按照其特定的事件響應(yīng)規(guī)程迅速做出響應(yīng),并采取措施進(jìn)行快速修復(fù)。
考慮到核設(shè)施控制室在安全性和穩(wěn)定性方面的特殊要求,針對(duì)所有核設(shè)施,包括核電廠、后處理廠等,在其控制系統(tǒng)設(shè)計(jì)及開發(fā)階段就需考慮防范控制室發(fā)生同時(shí)“黑屏”事件的措施。本文將參考國(guó)內(nèi)核電廠近期發(fā)生的主控室同時(shí)“黑屏”事件經(jīng)驗(yàn)反饋,結(jié)合三代核電機(jī)組控制系統(tǒng)設(shè)計(jì)、調(diào)試和運(yùn)行經(jīng)驗(yàn),從控制系統(tǒng)結(jié)構(gòu)特點(diǎn)出發(fā),分析控制室發(fā)生同時(shí)“黑屏”事件的情況,并給出建議措施,以用于后續(xù)國(guó)內(nèi)核設(shè)施控制系統(tǒng)及控制室設(shè)計(jì)參考。
在國(guó)家核安全局2015年組織編制的《運(yùn)行核電廠數(shù)字化儀控系統(tǒng)(DCS)異常專題報(bào)告》[1]選取了22起相對(duì)重要的電廠計(jì)算機(jī)信息和控制系統(tǒng)(一般稱KIC系統(tǒng))典型異常進(jìn)行了分析??偨Y(jié)近幾年幾起典型的核電廠主控室“黑屏”事件如下:
1)2014年12月,國(guó)內(nèi)某核電廠2號(hào)機(jī)組由于冗余歷史數(shù)據(jù)服務(wù)器數(shù)據(jù)同步過程與中央數(shù)據(jù)服務(wù)器數(shù)據(jù)交換過程疊加,SAR插入操作時(shí)因同步數(shù)據(jù)量大而使CCT超負(fù)荷停運(yùn),導(dǎo)致主控室操縱員站不可用32min。
2)2015年9月,國(guó)內(nèi)某核電廠CN3 進(jìn)程使SAR7-STR7-GTW1 服務(wù)器CPU消耗過高,導(dǎo)致CCT服務(wù)器運(yùn)行變慢。在重啟電廠計(jì)算機(jī)信息和控制系統(tǒng)(KIC)備用的中央數(shù)據(jù)處理服務(wù)器CCT1過程中,出現(xiàn)了主控4臺(tái)操縱員站同時(shí)不可用的事件。
3)2016年5月,國(guó)內(nèi)某核電廠由于DCS時(shí)鐘系統(tǒng)中一級(jí)母鐘提供的時(shí)鐘源信號(hào)跳變故障,導(dǎo)致DCS2層與1層的接口服務(wù)器離線,進(jìn)而導(dǎo)致兩臺(tái)機(jī)組主控突發(fā)黑屏事件。
上述電廠的DCS監(jiān)控層(一般稱KIC系統(tǒng))基本運(yùn)行流程如下:來自儀控1層的數(shù)據(jù)首先進(jìn)入KIC系統(tǒng)前端處理服務(wù)器(CFR),然后傳輸?shù)街醒霐?shù)據(jù)處理服務(wù)器(CCT)進(jìn)行處理,處理結(jié)果再分別傳輸?shù)綄?shí)時(shí)數(shù)據(jù)處理服務(wù)器(STR)和歷史數(shù)據(jù)存檔服務(wù)器(SAR),操縱員工作站(OWP)則調(diào)用實(shí)時(shí)數(shù)據(jù)處理服務(wù)器(STR)和歷史數(shù)據(jù)存檔服務(wù)器(SAR)中的數(shù)據(jù)實(shí)現(xiàn)電廠監(jiān)控。KIC系統(tǒng)中的前端處理服務(wù)器(CFR)負(fù)責(zé)連接DCS1層和2層子系統(tǒng),是1層和2層數(shù)據(jù)的接口服務(wù)器;中央數(shù)據(jù)處理服務(wù)器(CCT)負(fù)責(zé)所有電廠計(jì)算機(jī)信息和控制系統(tǒng)(KIC)的數(shù)據(jù)處理;實(shí)時(shí)數(shù)據(jù)處理服務(wù)器(STR)負(fù)責(zé)電廠計(jì)算機(jī)信息和控制系統(tǒng)(KIC)實(shí)時(shí)數(shù)據(jù)處理和儲(chǔ)存;歷史數(shù)據(jù)存檔服務(wù)器(SAR)負(fù)責(zé)電廠計(jì)算機(jī)信息和控制系統(tǒng)(KIC)的歷史數(shù)據(jù)處理和儲(chǔ)存。
分析一些典型事件及KIC系統(tǒng)結(jié)構(gòu)后,總結(jié)出了以下幾個(gè)可能導(dǎo)致其主控“黑屏”的風(fēng)險(xiǎn)點(diǎn):
◆ DCS 2層與1層由不同的DCS平臺(tái)構(gòu)建,接口非常關(guān)鍵,由于兩層軟硬件由不同的廠家設(shè)計(jì)和供貨,所以兩層系統(tǒng)之間需要建立數(shù)據(jù)接口服務(wù)器(如CFR)進(jìn)行數(shù)據(jù)交互,該數(shù)據(jù)接口服務(wù)器的可靠性直接影響2層系統(tǒng)監(jiān)控功能的可靠性。
◆ DCS監(jiān)控層數(shù)據(jù)處理量大,進(jìn)程復(fù)雜,2層在收到1層數(shù)據(jù)后,需要通過各種專用服務(wù)器對(duì)所有數(shù)據(jù)進(jìn)行二次運(yùn)算和處理,各專用服務(wù)器運(yùn)算數(shù)據(jù)量大,服務(wù)器之間的任何數(shù)據(jù)、進(jìn)程沖突或異常等都有可能導(dǎo)致2層監(jiān)控功能喪失。
◆ DCS時(shí)鐘系統(tǒng)結(jié)構(gòu)復(fù)雜,故障點(diǎn)多,DCS的1層、2層設(shè)備分別要與其接口的時(shí)鐘服務(wù)器對(duì)時(shí),同時(shí)接口服務(wù)器又要逐級(jí)與二級(jí)母鐘、一級(jí)母鐘進(jìn)行對(duì)時(shí),一旦上游時(shí)鐘故障,很容易導(dǎo)致兩層系統(tǒng)時(shí)鐘混亂并出現(xiàn)服務(wù)停運(yùn)。
目前,國(guó)內(nèi)已經(jīng)建成或正在新建的新型三代核電機(jī)組包括采用美國(guó)技術(shù)的AP1000、采用法國(guó)技術(shù)的EPR以及中國(guó)自主設(shè)計(jì)研發(fā)的華龍一號(hào)等,其中AP1000國(guó)內(nèi)首批建設(shè)的4臺(tái)機(jī)組均已陸續(xù)商運(yùn),研究分析AP1000機(jī)組的控制系統(tǒng)結(jié)構(gòu)特點(diǎn)[2],可以發(fā)現(xiàn):
1)其控制系統(tǒng)2層與1層基于同一個(gè)軟硬件平臺(tái)構(gòu)建,故不存在兩層之間設(shè)置專用接口的問題。
非安全級(jí)控制系統(tǒng)整體基于一個(gè)平臺(tái)構(gòu)建,這個(gè)平臺(tái)覆蓋了控制系統(tǒng)1層(控制與數(shù)據(jù)處理層)和2層(監(jiān)控層)所有功能。在該平臺(tái)上,所有的電廠人機(jī)接口,包括主控區(qū)的操縱員站、高級(jí)操縱員站、墻面大屏以及主控區(qū)以外的工程師站、就地控制站等均作為一個(gè)個(gè)標(biāo)準(zhǔn)的控制站點(diǎn),同時(shí)“懸掛”在控制系統(tǒng)的高速以太網(wǎng)上。上述這種控制系統(tǒng)1層、2層“渾然一體”的結(jié)構(gòu),不需要中間數(shù)據(jù)處理服務(wù)器等專用接口設(shè)備。因此,不存在由于中間數(shù)據(jù)接口設(shè)備故障而導(dǎo)致主控室操縱員站全部“黑屏”的可能性。
2)其控制系統(tǒng)網(wǎng)絡(luò)采用標(biāo)準(zhǔn)的開放式實(shí)時(shí)數(shù)據(jù)傳輸網(wǎng)絡(luò),網(wǎng)絡(luò)上的所有站點(diǎn)地位平等,獨(dú)立工作,單一站點(diǎn)故障并不影響其他站點(diǎn)的正常運(yùn)行。
非安全級(jí)控制系統(tǒng)采用標(biāo)準(zhǔn)的開放式實(shí)時(shí)數(shù)據(jù)傳輸網(wǎng)絡(luò),整個(gè)網(wǎng)絡(luò)為雙層分布式結(jié)構(gòu),通過一組根交換機(jī)(ROOT級(jí))將下層多組擴(kuò)展交換機(jī)(FAN-OUT級(jí))連接從而構(gòu)成網(wǎng)絡(luò)干線,F(xiàn)AN-OUT級(jí)則由8組24口的網(wǎng)絡(luò)交換機(jī)組成,以提供足夠的網(wǎng)絡(luò)節(jié)點(diǎn)端口。對(duì)整個(gè)控制系統(tǒng)網(wǎng)絡(luò)而言,每個(gè)交換機(jī)端口對(duì)應(yīng)一個(gè)站點(diǎn),整個(gè)控制系統(tǒng)網(wǎng)絡(luò)中的所有站點(diǎn)處于同一網(wǎng)段,在該網(wǎng)段內(nèi),所有站點(diǎn)端口地位平等,獨(dú)立工作,網(wǎng)絡(luò)數(shù)據(jù)可以被任何站點(diǎn)調(diào)用,任意某個(gè)或幾個(gè)站點(diǎn)故障并不影響其他站點(diǎn)的正常工作。因此,不存在一些站點(diǎn)故障進(jìn)而導(dǎo)致整個(gè)主控室操縱員站全部“黑屏”的可能。
3)其控制系統(tǒng)網(wǎng)絡(luò)由成熟的商業(yè)化的高速以太網(wǎng)設(shè)備構(gòu)建,網(wǎng)絡(luò)性能穩(wěn)定可靠。
控制系統(tǒng)網(wǎng)絡(luò)采用標(biāo)準(zhǔn)的基于交換機(jī)的快速以太網(wǎng),優(yōu)化了網(wǎng)絡(luò)負(fù)荷,避免出現(xiàn)網(wǎng)絡(luò)風(fēng)暴,整個(gè)網(wǎng)絡(luò)帶寬達(dá)到100MB,可以支持每秒20萬點(diǎn)的實(shí)時(shí)刷新速度,最大可以支持1000個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)(站點(diǎn)),遠(yuǎn)高于電站的實(shí)際應(yīng)用,同時(shí)在控制系統(tǒng)軟件設(shè)計(jì)和開發(fā)過程中,設(shè)計(jì)方針對(duì)控制系統(tǒng)網(wǎng)絡(luò)實(shí)際負(fù)荷進(jìn)行了嚴(yán)格限制和工廠測(cè)試,保證了控制系統(tǒng)周期性的網(wǎng)絡(luò)數(shù)據(jù)廣播不能超過總帶寬的40%,75%的主控室操縱員站對(duì)同一歷史數(shù)據(jù)的同時(shí)請(qǐng)求不能導(dǎo)致系統(tǒng)故障或重啟。控制系統(tǒng)網(wǎng)絡(luò)穩(wěn)定可靠,由于網(wǎng)絡(luò)故障導(dǎo)致主控室全部“黑屏”的概率極低。
4)其控制系統(tǒng)全網(wǎng)采用同一套GPS時(shí)鐘系統(tǒng),通過NTP網(wǎng)絡(luò)協(xié)議自動(dòng)對(duì)時(shí)。
控制系統(tǒng)全網(wǎng)所有站點(diǎn)使用唯一的一套GPS時(shí)鐘系統(tǒng),兩臺(tái)冗余的GPS時(shí)鐘服務(wù)器通過各自的天線獲取GPS衛(wèi)星標(biāo)準(zhǔn)時(shí)間,之后通過DCS網(wǎng)絡(luò)外部IP交換機(jī)接入DCS網(wǎng)絡(luò),作為外部NTP時(shí)間服務(wù)器向DCS網(wǎng)內(nèi)所有用戶授時(shí)(包括所有DCS網(wǎng)絡(luò)站點(diǎn)和交換機(jī)),GPS時(shí)間服務(wù)器與DCS用戶之間不存在其他層級(jí)的中間接口,所有站點(diǎn)的對(duì)時(shí)基準(zhǔn)唯一,不存在控制系統(tǒng)1、2層之間由于采用不同的對(duì)時(shí)服務(wù)器而可能導(dǎo)致時(shí)間偏差,進(jìn)而導(dǎo)致系統(tǒng)癱瘓,主控全部“黑屏”的情況。
5)其主控室操縱員站后臺(tái)多重冗余設(shè)計(jì),可有效避免同時(shí)故障。
主控室所有工作站的后臺(tái)設(shè)備,包括主控室操縱員站、墻面大屏的主機(jī)設(shè)備,均為數(shù)據(jù)處理與顯示系統(tǒng)設(shè)備,這些設(shè)備和其他數(shù)據(jù)處理與顯示系統(tǒng)設(shè)備一起布置在遠(yuǎn)離主控室的另外兩個(gè)房間。設(shè)計(jì)上為了避免這些主控室后臺(tái)設(shè)備同時(shí)失效,采取了多重冗余設(shè)計(jì),包括:
◆ 物理冗余
主控室所有工作站的后臺(tái)主機(jī)設(shè)備被分為兩組編入了數(shù)據(jù)處理與顯示系統(tǒng)的兩個(gè)冗余序列中,這兩個(gè)序列分別布置在兩個(gè)計(jì)算機(jī)房間,設(shè)備布置在不同的機(jī)柜中,兩個(gè)序列的房間僅可以通過一道防火門互通,兩個(gè)序列的位置分布有效實(shí)現(xiàn)了冗余序列間的物理隔離。
◆ 電源冗余
主控室所有工作站的后臺(tái)設(shè)備按兩組分布于兩個(gè)序列,序列A的電源取自電廠非1E級(jí)直流和不間斷電源序列1和4,序列B的電源取自電廠非1E級(jí)直流和不間斷電源序列2和3;系統(tǒng)大部分設(shè)備采用冗余電源供電的工作模式,包括網(wǎng)絡(luò)交換機(jī)、服務(wù)器等,這些設(shè)備同時(shí)使用所屬序列的上述兩路電源,主電源使用具有兩小時(shí)電池后備能力的UPS電源,次電源使用正常調(diào)壓后的電源,兩路電源互為熱備,主次之間可以實(shí)現(xiàn)無擾切換,主控室的后臺(tái)設(shè)備雖然不支持上述冗余電源工作模式,只使用所屬序列的UPS電源一路電源進(jìn)行工作。
◆ 網(wǎng)絡(luò)冗余
如前所述,控制系統(tǒng)網(wǎng)絡(luò)采用標(biāo)準(zhǔn)的高速以太網(wǎng)體系,通過冗余網(wǎng)絡(luò)配置的方式最大限度地保證了運(yùn)行期間整個(gè)網(wǎng)絡(luò)的可靠性。所有網(wǎng)絡(luò)設(shè)備同樣隸屬于數(shù)據(jù)處理與顯示系統(tǒng),并按兩個(gè)冗余序列進(jìn)行冗余網(wǎng)絡(luò)硬件配置和冗余電源配置等,主控室后臺(tái)設(shè)備作為一個(gè)個(gè)標(biāo)準(zhǔn)工作站,均地位對(duì)等地接入控制系統(tǒng)高速網(wǎng)絡(luò)中,每個(gè)設(shè)備具有多個(gè)網(wǎng)絡(luò)接口,其中配置1個(gè)設(shè)備網(wǎng)口接入網(wǎng)絡(luò)序列A,另一個(gè)設(shè)備網(wǎng)口接入網(wǎng)絡(luò)序列B,并且接入端口分布在不同組的網(wǎng)絡(luò)交換機(jī)上。
6)其主控室人機(jī)接口設(shè)備多重冗余設(shè)計(jì),可有效避免同時(shí)故障。
除了上述主控室后臺(tái)設(shè)備的多重冗余設(shè)計(jì)外,對(duì)于主控室內(nèi)的人機(jī)接口設(shè)備,包括大屏幕、KVM(鼠標(biāo)顯示器鍵盤)接收器、顯示器鼠標(biāo)鍵盤等外設(shè),在設(shè)計(jì)上也同樣采用了多重冗余設(shè)計(jì)的理念。
◆ 硬件冗余
主控區(qū)內(nèi)布置有3個(gè)操縱員臺(tái)和1個(gè)高級(jí)操縱員臺(tái),每個(gè)操縱員臺(tái)則分別配備了兩套非安全級(jí)控制系統(tǒng)人機(jī)接口,分別對(duì)應(yīng)控制系統(tǒng)網(wǎng)絡(luò)上的兩個(gè)工作站,同一個(gè)操縱員臺(tái)上的兩個(gè)工作站的主機(jī)在控制系統(tǒng)中分屬兩個(gè)序列;主控室內(nèi)的14塊墻面大屏對(duì)應(yīng)的14臺(tái)工作站也同樣分兩組隸屬兩個(gè)序列,設(shè)備同時(shí)失效的可能性極低。
◆ 電源冗余
主控室內(nèi)的所有人機(jī)接口設(shè)備按位置分布分為兩個(gè)序列,同時(shí)這兩個(gè)序列設(shè)備的工作電源也取自不同的電廠電源序列,其中一組取自電廠非1E級(jí)直流和不間斷電源序列1的不間斷電源;另一組取自序列2的不間斷電源,從而有效避免了電廠正常運(yùn)行甚至電廠短時(shí)失電期間,主控室所有人機(jī)接口設(shè)備同時(shí)意外失電進(jìn)而導(dǎo)致主控室操縱員站全部“黑屏”的發(fā)生。
通過以上分析可見,新型核電機(jī)組的控制系統(tǒng)在設(shè)計(jì)上具有諸多顯著特點(diǎn),采取了多項(xiàng)措施從而降低了主控室操縱員站同時(shí)“黑屏”的可能性,但即使設(shè)計(jì)再完備,也并不能完全避免運(yùn)行期間發(fā)生類似極端事件。結(jié)合項(xiàng)目經(jīng)驗(yàn),對(duì)于后續(xù)采用類似新型控制系統(tǒng)結(jié)構(gòu)的核設(shè)施,還需關(guān)注一些薄弱點(diǎn)并注意通過長(zhǎng)期的技術(shù)維護(hù)手段來盡量避免發(fā)生控制室操縱員站全部“黑屏”或部分功能喪失的事件。
1)關(guān)注“咽喉”設(shè)備,進(jìn)行重點(diǎn)監(jiān)視維護(hù)
對(duì)于幾處位于系統(tǒng)“咽喉”位置的關(guān)鍵設(shè)備,保守起見則要同時(shí)考慮防止其冗余序列同時(shí)失效的措施。包括:①負(fù)責(zé)整個(gè)控制系統(tǒng)網(wǎng)絡(luò)主干的根交換機(jī)(ROOT級(jí)交換機(jī))。
②負(fù)責(zé)主控人機(jī)接口與其后臺(tái)主機(jī)之間物理連接的KVM路由器。
對(duì)于上述設(shè)備,建議運(yùn)行期間,首先要加強(qiáng)設(shè)備巡檢頻度,對(duì)設(shè)備運(yùn)行狀態(tài)進(jìn)行重點(diǎn)監(jiān)視;同時(shí)在發(fā)現(xiàn)單側(cè)設(shè)備故障后要以最高優(yōu)先級(jí)安排進(jìn)行糾正性維修以盡快恢復(fù)故障序列,確保冗余序列同時(shí)正常運(yùn)行。
2)提前做好籌劃,開展設(shè)備日常維護(hù)改造
控制系統(tǒng)設(shè)備采用了成熟的商業(yè)化設(shè)備構(gòu)建,一方面,一旦某些環(huán)境條件持續(xù)接近或超過設(shè)備耐受限值,設(shè)備故障率會(huì)明顯提高;另一方面,設(shè)備本身可靠性[3]會(huì)隨著設(shè)備壽期逐漸下降,同時(shí)要注意部分現(xiàn)場(chǎng)設(shè)備型號(hào)目前已經(jīng)停產(chǎn)。
對(duì)此建議首先對(duì)控制系統(tǒng)設(shè)備機(jī)房環(huán)境進(jìn)行高標(biāo)準(zhǔn)管控和保守管控;其次要合理規(guī)劃預(yù)防性維修和維護(hù)頻度,對(duì)控制系統(tǒng)設(shè)備定期檢查和清灰保養(yǎng);對(duì)于廠家已停產(chǎn)或更新的設(shè)備,建議在設(shè)備故障率達(dá)到一定程度后,即考慮提前進(jìn)行整體升級(jí)改造。
3)做好系統(tǒng)維護(hù),加強(qiáng)系統(tǒng)整體安全管理。
控制系統(tǒng)設(shè)計(jì)上高度集成和統(tǒng)一,一旦出現(xiàn)系統(tǒng)共性軟件缺陷或漏洞,影響面非常廣;同時(shí)控制系統(tǒng)存在大量對(duì)外接口,這些接口的安全可靠程度也會(huì)影響整個(gè)控制系統(tǒng)的安全穩(wěn)定性;整個(gè)控制系統(tǒng)以域的形式進(jìn)行統(tǒng)一的安全管理,在對(duì)域的管理操作過程中一旦出現(xiàn)失誤,則很有可能導(dǎo)致整個(gè)系統(tǒng)不可用或者可靠性降低。
對(duì)此建議采取措施,一是要對(duì)系統(tǒng)軟件和病毒防護(hù)系統(tǒng)隨時(shí)進(jìn)行補(bǔ)丁升級(jí),提高系統(tǒng)自身“免疫性”;二是對(duì)控制系統(tǒng)對(duì)外接口進(jìn)行定期巡檢,嚴(yán)格管控端口操作;三是對(duì)控制系統(tǒng)域的管理要嚴(yán)格謹(jǐn)慎,對(duì)全域策略變更前要做好充足的影響評(píng)估,保持域的穩(wěn)定。
通過本文分析可見,國(guó)內(nèi)某些核電廠控制系統(tǒng)的結(jié)構(gòu)特點(diǎn)導(dǎo)致其主控室發(fā)生同時(shí)“黑屏”事件的可能性增加,而新型核電機(jī)組的控制系統(tǒng)的結(jié)構(gòu)設(shè)計(jì)和軟硬件配置可以有效降低其主控室發(fā)生同時(shí)“黑屏”事件的可能性。為了進(jìn)一步提高核設(shè)施控制室的安全性和可靠性,以保證控制系統(tǒng)正常運(yùn)行期間,盡量避免發(fā)生控制室工作站同時(shí)“黑屏”或部分喪失功能的事件,除了設(shè)計(jì)采用先進(jìn)的控制系統(tǒng)結(jié)構(gòu)之外,還需要重點(diǎn)關(guān)注控制系統(tǒng)結(jié)構(gòu)和軟硬件體系中存在的薄弱點(diǎn),并通過日常管理和技術(shù)維護(hù)手段補(bǔ)足短板。