鄭偉智 李相建 朱毅明 張 弋
(北京廣利核系統(tǒng)工程有限公司,北京 100094)
共因故障(common cause failure,CCF)是指由一個特定事件或原因引起若干裝置或部件不能執(zhí)行其功能的故障。這些事件可能來自外界環(huán)境,也可能是設(shè)計(jì)本身的缺陷所造成[1-2]。
隨著數(shù)字化技術(shù)在核電站中的應(yīng)用,其在帶來便于維護(hù)、可用性強(qiáng)和可自診斷等優(yōu)點(diǎn)的同時,也因?yàn)榫哂懈呒尚院蛷?fù)雜性的特點(diǎn),使其無法進(jìn)行全面測試,尤其不能證明軟件沒有錯誤,因而增加了發(fā)生共因故障的風(fēng)險。一旦發(fā)生CCF,可能會使運(yùn)行相同軟件的冗余系統(tǒng)同時失效。所以,共因故障是極其危險的。
共因故障還具有不易探測且不易定量評估的特點(diǎn),所以需要在設(shè)計(jì)時充分考慮共因故障的風(fēng)險,從而使共因故障的發(fā)生概率和影響最小化。在核安全相關(guān)法規(guī)和標(biāo)準(zhǔn)中,為防止CCF的發(fā)生,提供了很多設(shè)計(jì)要求和指導(dǎo)性意見,如獨(dú)立性、多樣性和縱深防御等。因此,通過研究相關(guān)法規(guī)和標(biāo)準(zhǔn),整理出設(shè)計(jì)準(zhǔn)則,并依據(jù)準(zhǔn)則進(jìn)行保護(hù)系統(tǒng)設(shè)計(jì),是實(shí)現(xiàn)防CCF設(shè)計(jì)的有效途徑。
共因故障的產(chǎn)生有因外部事件(如環(huán)境因素)引起的,也有因內(nèi)部事件(如設(shè)計(jì)缺陷)引起的,其中主要原因和對應(yīng)的防護(hù)手段如表1所示[3-5]。
表1 共因故障原因及其防護(hù)手段Tab.1 Reasons of CCF and protection measures
其中,對于基于同一技術(shù)或方法的設(shè)計(jì),可能會由于固有缺陷或風(fēng)險而造成共因故障,所以需要進(jìn)行縱深防御和多樣性設(shè)計(jì)。如保護(hù)系統(tǒng)DCS均是基于微處理器的,雖然采用了多重冗余通道,但各通道中的軟件(包括基礎(chǔ)軟件和應(yīng)用軟件)并無本質(zhì)區(qū)別,所以相同的軟件設(shè)計(jì)錯誤可能會同時存在于多重冗余通道中,一旦爆發(fā)便可能造成整個數(shù)字系統(tǒng)的失效。此外,與傳統(tǒng)模擬電路相比,數(shù)字化設(shè)備是依靠高頻信號驅(qū)動的,較模擬電路更容易受高頻脈沖噪聲影響,且有可能因外界因素影響而造成整個數(shù)字化控制系統(tǒng)癱瘓。所以,有必要設(shè)計(jì)一套模擬裝置作為數(shù)字化系統(tǒng)關(guān)鍵安全功能的多樣性后備。
但是,共因故障的具體原因和影響常常是不可預(yù)見的(如果能預(yù)見共因故障的原因,就有可能用設(shè)計(jì)手段來防止其發(fā)生)。因此,難以找到一種足以對抗共因故障而起到保護(hù)作用的單一防御措施。
基于上述共因故障產(chǎn)生的原因,為了盡量避免共因故障的發(fā)生或最小化共因故障的影響,在進(jìn)行保護(hù)系統(tǒng)設(shè)計(jì)時,應(yīng)遵循以下設(shè)計(jì)準(zhǔn)則[6-8]。
根據(jù)IAEA NS-G1.3規(guī)定,安全系統(tǒng)應(yīng)符合單一故障準(zhǔn)則,且應(yīng)考慮發(fā)生共因故障的可能性。為了保證安全功能不喪失,某些共因故障應(yīng)當(dāng)根據(jù)故障的原因進(jìn)行符合單一故障準(zhǔn)則的多樣性設(shè)計(jì),根據(jù)IEEE 379規(guī)定,不屬于單一故障分析的共因故障包括:可能由外部環(huán)境(如電壓、頻率、輻射、溫度、濕度、壓力、振動和電磁干擾)、設(shè)計(jì)缺陷、制造錯誤、維修錯誤和運(yùn)行錯誤引起的故障[9]。例如,當(dāng)數(shù)字系統(tǒng)發(fā)生共因故障后,為了符合單一故障準(zhǔn)則,保證安全功能不喪失,可通過后備的基于模擬技術(shù)的控制裝置執(zhí)行安全功能。
各冗余系統(tǒng)間應(yīng)當(dāng)有充分的獨(dú)立性,應(yīng)進(jìn)行實(shí)體分隔且盡量避免有通信連接關(guān)系,如果因?yàn)樾枰M(jìn)行多重邏輯表決(如2oo4)而無法避免相互通信時,則須進(jìn)行電氣隔離和通信隔離,以避免當(dāng)一個系統(tǒng)故障后,使故障傳遞到其他冗余系統(tǒng)而造成共因故障。通常采用的電氣隔離手段有光耦隔離、光纖通信和繼電器隔離等。通信隔離可通過與CPU分離的通信模塊(內(nèi)部有通信隔離芯片)或由網(wǎng)關(guān)實(shí)現(xiàn)[10]。對于互為多樣性的冗余系統(tǒng),則應(yīng)完全避免相互數(shù)據(jù)通信,以防止虛假數(shù)據(jù)造成多樣性功能的喪失,尤其應(yīng)避免安全級系統(tǒng)從非安全級系統(tǒng)接收通信信號的情況發(fā)生。
多樣性設(shè)計(jì)是指采用不同的技術(shù)、算法或邏輯方法以及驅(qū)動手段,來監(jiān)測不同的參數(shù),探測和響應(yīng)一個預(yù)期運(yùn)行事件或預(yù)期事故[11]。在多樣性防御策略方面,NUREG/CR7007根據(jù)防御深度由強(qiáng)到弱分為三種[12]:① 采用不同的技術(shù),如模擬技術(shù)相對數(shù)字技術(shù);②采用相同的技術(shù)、不同的方法,如同為數(shù)字技術(shù)的CPU和FPGA;③采用相同的技術(shù)、不同的結(jié)構(gòu),如不同廠家的CPU。具體的多樣性設(shè)計(jì)方法如下。
2.3.1 信號多樣性
為了應(yīng)對同一預(yù)期運(yùn)行事件(anticipated operational occurrence,AOO),若采用相同物理效應(yīng)的傳感器來探測信號,可能會出現(xiàn)CCF,所以采用基于不同物理效應(yīng)的傳感器來實(shí)現(xiàn)信號的多樣性。如對于壓水堆一回路的超壓保護(hù),可分別通過探測穩(wěn)壓器壓力(高)和穩(wěn)壓器水位(高)來進(jìn)行保護(hù)控制。
2.3.2 設(shè)備多樣性
設(shè)備多樣性是指采用不同的設(shè)備來完成相同的功能,通過減少設(shè)備的共有特性來避免CCF的發(fā)生。特別是對運(yùn)行經(jīng)驗(yàn)有限的復(fù)雜系統(tǒng)宜考慮設(shè)備多樣性。設(shè)備多樣性主要有4種實(shí)現(xiàn)方式:①不同類型設(shè)備,如觸摸屏與硬接線開關(guān);②采用不同設(shè)計(jì)原理的同一類型設(shè)備,如氣動閥與電磁閥;③采用相同設(shè)計(jì)原理的不同版本設(shè)備;④不同廠家的設(shè)備,但如果不同廠家采用了相同設(shè)計(jì)原理,也會增加CCF的風(fēng)險,如不同廠家的DCS可能采用同樣的處理器或同樣的操作系統(tǒng),這樣也會潛在地引入一些共同故障模式。所以,方式①和方式②可更有效地防止CCF的發(fā)生。
2.3.3 設(shè)計(jì)多樣性
設(shè)計(jì)多樣性一般指采用不同的技術(shù)或設(shè)計(jì)方法來實(shí)現(xiàn)相同的功能,如采用模擬技術(shù)設(shè)計(jì)的電路與采用數(shù)字技術(shù)設(shè)計(jì)的電路互為設(shè)計(jì)多樣性,采用FPGA實(shí)現(xiàn)邏輯與采用微處理器實(shí)現(xiàn)也互為設(shè)計(jì)多樣性。采用設(shè)計(jì)多樣性,可有效避免因設(shè)計(jì)錯誤或技術(shù)缺陷而造成CCF的發(fā)生。
2.3.4 功能多樣性
功能多樣性是指采用不同的功能手段實(shí)現(xiàn)相同的控制目的,如反應(yīng)性控制可由對控制棒的控制或硼酸濃度控制實(shí)現(xiàn)。一般采用信號多樣性設(shè)計(jì)的同時,也相應(yīng)實(shí)現(xiàn)了功能多樣性,如壓力信號的處理與水位信號的處理須采用不同的功能算法及邏輯實(shí)現(xiàn)。
2.3.5 軟件多樣性
美國核管會(NRC)認(rèn)為,由于數(shù)字系統(tǒng)的固有復(fù)雜性,不可能在系統(tǒng)開發(fā)階段識別出所有軟件錯誤。在系統(tǒng)運(yùn)行期間,隱藏的軟件錯誤會持續(xù)保持在不可探測狀態(tài),這種軟件錯誤可能會在某一個時間點(diǎn)造成CCF而影響多重系統(tǒng)。因此,軟件的多樣性尤為重要。即使軟件有多個版本,若都是根據(jù)同一個軟件需求規(guī)格書開發(fā)的,也無法達(dá)到故障模式的獨(dú)立性。所以實(shí)現(xiàn)軟件的多樣性首先是要基于不同的設(shè)計(jì)需求,并盡量采用不同的操作系統(tǒng)、計(jì)算機(jī)語言、運(yùn)算法則、邏輯和程序構(gòu)架、時序等方式實(shí)現(xiàn)最大程度的多樣性。另外,若采用了信號多樣性和功能多樣性,也會導(dǎo)致不同的軟件需求,從而形成一個更好的多樣性基礎(chǔ)。
2.3.6 手動為自動的多樣性
為防止自動控制失效,一般需要備有可實(shí)現(xiàn)重要安全功能的手動控制。根據(jù)IEEE 603的規(guī)定,應(yīng)在控制室對自動觸發(fā)的序列級保護(hù)動作提供手動觸發(fā)的方法,手動方法應(yīng)使操縱員的離散操作次數(shù)消減到最少,且使用的設(shè)備應(yīng)盡量少。根據(jù)IEEE 7-4.3.2的規(guī)定,如果可以利用必需的控制器和顯示器在可接受的時間內(nèi)支持操縱員完成適當(dāng)?shù)牟僮?,則操縱員的手動操作是可以接受的。
2.3.7 人因多樣性
人因多樣性一般指由不同的人員來設(shè)計(jì),以避免同一設(shè)計(jì)人員的設(shè)計(jì)錯誤造成CCF,尤其是對于不存在其他多樣性的冗余系統(tǒng)的設(shè)計(jì)更重要。此外,一定要由設(shè)計(jì)者之外的人員來進(jìn)行設(shè)計(jì)結(jié)果的驗(yàn)證和確認(rèn)。
BTP7-19提出了防止共因故障的四層防御邊界,即:①控制系統(tǒng)——使核電站系統(tǒng)保持在運(yùn)行限值內(nèi);②停堆系統(tǒng)——使核電站系統(tǒng)保持在安全限值內(nèi);③專設(shè)安全系統(tǒng)——用于減輕事故后果;④監(jiān)視和顯示系統(tǒng)——必要時可參照其進(jìn)行手動控制。
設(shè)計(jì)要求四個層次間應(yīng)保證充分的獨(dú)立性,任何一個系統(tǒng)故障都不能影響其他系統(tǒng)的功能實(shí)現(xiàn)。
為防止共因故障(CCF)而增設(shè)的設(shè)備,會使得I&C系統(tǒng)的構(gòu)成復(fù)雜化,這便增加了維護(hù)和試驗(yàn)的工作量。因此,應(yīng)該確保在能有效防止CCF范圍內(nèi)進(jìn)行最小化設(shè)計(jì),同時要考慮誤動作和誤操作對電廠安全性的阻礙。對于防止CCF的設(shè)備,不要求達(dá)到安全保護(hù)系統(tǒng)級別一樣的動作可靠性,但應(yīng)充分考慮不降低電廠可用性。
根據(jù)上述設(shè)計(jì)原則,設(shè)計(jì)了防共因故障保護(hù)系統(tǒng),其體現(xiàn)了最小化結(jié)構(gòu)原理,在較大程度上防止了CCF的發(fā)生。
本系統(tǒng)結(jié)構(gòu)在縱深防御上主要體現(xiàn)為:①保護(hù)系統(tǒng)與控制系統(tǒng)完全分離,保護(hù)系統(tǒng)不接收控制系統(tǒng)的通信傳輸信號而獨(dú)立實(shí)現(xiàn)控制;②RTS、ESFAS分布在不同的機(jī)柜RPC、ESFAC中實(shí)現(xiàn);③重要安全參數(shù)顯示可不經(jīng)數(shù)字系統(tǒng)處理,而通過硬接線直接分配到控制盤進(jìn)行顯示。防共因故障系統(tǒng)結(jié)構(gòu)如圖1所示。多樣性設(shè)計(jì)主要體現(xiàn)在如下幾個方面。
圖1 防共因故障系統(tǒng)結(jié)構(gòu)圖Fig.1 Structure of the system to against CCF
如圖1中①所示,采用兩個不同的過程參數(shù)或基于不同原理的傳感器實(shí)現(xiàn)對同一AOO的探測。這兩個互為多樣性的傳感器分別對應(yīng)獨(dú)立機(jī)柜的控制器,實(shí)現(xiàn)信號采集和處理,體現(xiàn)了信號多樣性設(shè)計(jì)原則。
如圖1中②所示,在RTS的每個保護(hù)通道,設(shè)計(jì)有兩組獨(dú)立的子系統(tǒng)(Gr1、Gr2)來實(shí)現(xiàn)功能多樣性,以應(yīng)對同一AOO或PA,并進(jìn)行不同的功能邏輯處理和啟動要求的保護(hù)驅(qū)動。其一般與信號多樣性對應(yīng)實(shí)現(xiàn)。這兩個子系統(tǒng)分布在不同的機(jī)柜,且相互間沒有通信和電氣連接,所以可以在很大程度上避免同時發(fā)生CCF。
如圖1中③所示,在數(shù)字系統(tǒng)中,除可自動驅(qū)動專設(shè)安全設(shè)施外,還設(shè)計(jì)有可通過安全操作單元(S-VDU)進(jìn)行手動控制。手動控制與自動控制采用不同的控制器且分布在不同的機(jī)柜,相互間沒有通信和電氣連接。所以手動控制方式是自動控制的多樣性設(shè)計(jì)方案。
如圖1中④所示,設(shè)計(jì)有多樣性驅(qū)動系統(tǒng)(DAS)作為數(shù)字系統(tǒng)的后備。DAS的設(shè)計(jì)采用與保護(hù)系統(tǒng)數(shù)字化平臺所不同的模擬技術(shù)實(shí)現(xiàn),可實(shí)現(xiàn)最小化的停堆和專設(shè)安全設(shè)施的自動驅(qū)動功能,可從更深的程度上防止數(shù)字系統(tǒng)的CCF,體現(xiàn)了設(shè)計(jì)多樣性和設(shè)備多樣性的設(shè)計(jì)原則。
如圖1中⑤所示,設(shè)計(jì)有通過硬接線直接連接到優(yōu)選驅(qū)動模塊的手操器,可實(shí)現(xiàn)停堆、專設(shè)安全設(shè)施和余熱排出等功能的手動驅(qū)動。即使在S-VDU與DCS控制器同時失效時,也能實(shí)現(xiàn)必要保護(hù)功能的手動驅(qū)動。硬接線手操器和S-VDU體現(xiàn)了設(shè)計(jì)多樣性和設(shè)備多樣性的設(shè)計(jì)原則。
如圖1中⑥所示,多樣性驅(qū)動系統(tǒng)(DAS)控制CRDM實(shí)現(xiàn)緊急停堆,不同于數(shù)字化保護(hù)系統(tǒng)控制的停堆斷路器,體現(xiàn)了設(shè)備多樣性設(shè)計(jì)原則。
本文通過分析核安全法規(guī)、標(biāo)準(zhǔn)的要求,整理出為應(yīng)對共因故障(CCF),保護(hù)系統(tǒng)設(shè)計(jì)應(yīng)遵循的設(shè)計(jì)準(zhǔn)則;并依據(jù)這些設(shè)計(jì)準(zhǔn)則,設(shè)計(jì)了一保護(hù)系統(tǒng)最小典型原理結(jié)構(gòu),此結(jié)構(gòu)可有效應(yīng)對軟件及一些重要設(shè)備的CCF。此外,在設(shè)計(jì)時,不要擴(kuò)大多樣性的范圍去涵蓋一些極不可能的或極低后果的假設(shè)始發(fā)事件,因?yàn)楸M管存在發(fā)生CCF的可能性,但這類事件的風(fēng)險也許是可接受的。同時,應(yīng)在應(yīng)對必要的CCF的前提下進(jìn)行最小化設(shè)計(jì),以避免設(shè)計(jì)過于復(fù)雜而使核電站不便于維護(hù)或影響電站的可用性。
[1]國家核安全局.HAD102-10核動力廠設(shè)計(jì)總的安全原則[S].北京:中國法制出版社,1989.
[2]IAEA.NS-G-1.3 Instrumentation and control systems important to safety in nuclear power plants[S].VIENNA,2002.
[3]International Electrotechnical Commission.IEC Std.61513 Nuclear power plants-instrumentation and control for systems important to safety-general requirements for systems[S].Switzerland,2001.
[4]International Electrotechnical Commission.IEC Std.62340 Nuclear power plants-instrumentation and control systems important to safetyrequirements for coping with common cause failure(CCF)[S].Switzerland,2007.
[5]國防科學(xué)技術(shù)工業(yè)委員會.EJ-T1058.2核電廠安全系統(tǒng)計(jì)算機(jī)軟件.第2部分:預(yù)防軟件導(dǎo)致的共因故障、軟件工具和預(yù)開發(fā)軟件的使用[S].北京:核工業(yè)標(biāo)準(zhǔn)化所,2005.
[6]US NRC.DI&C-ISG-02 Interim staff guidance on diversity and defense-in-depth issues[S].2007.
[7]US NRC.BTP7-19 Guidance for evaluation of diversity and defensein-depth in digital computer-based instrumentation and control systems[S].2007.
[8]US NRC.NUREG/CR-6303 Method for performing diversity and defense-in-depth analyses of reactor protection systems[S].1994.
[9]Institute of Electrical and Electronics Engineers.IEEE Std.379 Standard application of the single-Failure criterion to nuclear power generating station safety systems[S].New York,2000.
[10]Institute of Electrical and Electronics Engineers.IEEE Std.384 IEEE standard criteria for independence of class 1E equipment and circuits[S].New York,2008.
[11]Institute of Electrical and Electronics Engineers.IEEE Std.7-4.3.2 IEEE standard criteria for digital computers in safety systems of nuclear power generating stations[S].New York,2003.
[12]US NRC.NUREG/CR-7007 Diversity strategies for nuclear power plant instrumentation and control systems[S].2009.