李學(xué)偉,姚常青,高 嵩
(1.華電章丘發(fā)電有限公司,濟南 251200;2.國網(wǎng)山東省電力公司電力科學(xué)研究院,濟南 250003)
MaxDNA控制系統(tǒng)DPU頻繁切換導(dǎo)致機組跳閘故障分析
李學(xué)偉1,姚常青2,高 嵩2
(1.華電章丘發(fā)電有限公司,濟南 251200;2.國網(wǎng)山東省電力公司電力科學(xué)研究院,濟南 250003)
對一起335 MW機組MaxDNA控制系統(tǒng)DPU(分布式處理單元)頻繁切換導(dǎo)致機組跳閘的故障進行分析,通過進行切換試驗、故障統(tǒng)計,對比DPU版本號和查閱MaxDNA系統(tǒng)硬件手冊,發(fā)現(xiàn)該切換故障是由DPU本身硬件缺陷所導(dǎo)致的。制定解決方案對相應(yīng)的DPU模塊進行更換,有效地防止了該類型故障的發(fā)生。
機組跳閘;分散控制系統(tǒng);分布式處理單元;頻繁切換
1.1 系統(tǒng)組成
華電章丘發(fā)電有限公司二期工程建設(shè)2臺350 MW機組,機組分散控制系統(tǒng) (Distribution Control System,DCS)采用MaxDNA系統(tǒng)。3號機組和4號機組分別于2006年8月和2006年11月相繼投產(chǎn)。
MaxDNA系統(tǒng)的結(jié)構(gòu)如圖1所示。MaxDNA的網(wǎng)絡(luò)結(jié)構(gòu)取消了過程級控制和監(jiān)督級控制之間的區(qū)分,把兩者的控制組建在了同一層網(wǎng)絡(luò)拓?fù)渲校Q之為MaxNet通信網(wǎng)絡(luò)。MaxNet通信網(wǎng)絡(luò)采用符合IEEC802.3的雙層以太網(wǎng)介質(zhì)、物理星型、邏輯環(huán)型拓?fù)?,具有冗余通信功能。MaxNet的網(wǎng)絡(luò)帶寬可達1 G bit/s,足以勝任大型控制系統(tǒng)的通信負(fù)載要求,直連在MaxNet網(wǎng)絡(luò)上的有工作站和DPU,共享MaxNet帶寬。工作站與DPU之間的數(shù)據(jù)通信不需要服務(wù)器中轉(zhuǎn),可以直接點對點(DPU與DPU之間)或通過廣播 (工作站與工作站或工作站與DPU之間)進行數(shù)據(jù)通信[1-2]。每1臺工作站或1個DPU在MaxNet網(wǎng)絡(luò)看來都是1個結(jié)點(Node),也就是MaxDNA取消了過程級控制和監(jiān)督級控制之間的區(qū)分,解決了這兩層控制層之間存在的服務(wù)器瓶頸問題。
3號機組DCS由25對DPU構(gòu)成 (含2對公用系統(tǒng)),4號機組DCS由23對DPU構(gòu)成,軟件版本為DPU4F 4.3,操作員站各7臺,歷史站各1臺,工程師站各1臺。各對DPU功能分配如表1所示。
正常情況下,每對分布式處理單元的2臺DPU同時運行,1臺工作1臺熱備用。當(dāng)主DPU故障時將自動切換到副DPU運行,副DPU將接管網(wǎng)絡(luò)和I/O系統(tǒng)。主、副DPU通過組態(tài)來選擇,一對DPU中任何一個都可以作為主控制器。如果檢測到重大的診斷錯誤,控制權(quán)將自動傳給副控制器。DPU可以下載變化的數(shù)據(jù)并無擾傳給組態(tài)。組態(tài)的下載可以是整個控制策略也可以是一個單獨的點。完全面向?qū)ο蟮脑O(shè)計允許對控制策略的數(shù)據(jù)進行封裝以防止在下載和測試過程中由于疏忽引起的擾動。
圖1 MaxDNA系統(tǒng)結(jié)構(gòu)
表1 DPU功能分配
1.2 系統(tǒng)故障情況
2014-07-19T02∶10∶14,4號機組A引風(fēng)機和B引風(fēng)機動葉調(diào)節(jié)指令由48%突減至18%(引風(fēng)機動葉調(diào)節(jié)指令自動時低限設(shè)置為18%,手動時低限設(shè)置為0%),動葉調(diào)節(jié)開度減小,引風(fēng)機出力降低,爐膛壓力升高,達到跳閘值,鍋爐MFT。期間4號機組參與引風(fēng)機自動控制運算的BO6副DPU控制故障,向主DPU自動切換。查閱DCS引風(fēng)機系統(tǒng)控制器4B06_P在線組態(tài)數(shù)據(jù),參與控制器間調(diào)用的中間變量信號間通信故障報警,無法讀取其余控制器的變量,通過切換實驗初步判斷為DPU故障。
1.3 故障測試
由于DCS系統(tǒng)采用的是MaxDNA早期產(chǎn)品,存在網(wǎng)絡(luò)通信故障的隱患[3-4]。2012年和2014年利用機組檢修的機會,委托DCS廠家先后對4號、3號機組DCS控制系統(tǒng)進行了升級,更換了上位機硬件,DPU軟件版本由4.1升級到4.3,控制器(DPU)硬件未進行更換,升級后各項功能正常,切換試驗正常。系統(tǒng)升級后,通過運行一段時間的觀察,DPU切換次數(shù)較升級前明顯增多。問題發(fā)生后,對DPU頻繁切換的原因進行了分析,并將故障DPU返廠進行進一步測試,分別進行3種切換方式試驗。1)復(fù)位切換:復(fù)位主控制器,則輔助控制器應(yīng)接管運行,然后復(fù)位輔助控制器,則主控制器接管運行;2)拔卡切換:拔掉主控制器,則輔助控制器應(yīng)接管運行,然后拔掉輔助控制器,則主控制器接管運行;3)畫面軟件切換:在控制器監(jiān)控畫面中,選擇輔助控制TAKEOVER按鈕,點確認(rèn),則輔助控制器接管運行。在控制器監(jiān)控畫面中,選擇主控制器TAKEOVER按鈕,點確認(rèn),則主控制器接管運行,每次都切換正常。在測試過程中,DPU工作正常未出現(xiàn)網(wǎng)絡(luò)通信故障或DPU切換故障。為了徹底排除靜電干擾,增設(shè)了獨立的DCS接地極和接地電纜并經(jīng)測試合格。
1.4 故障影響
自2014年2月至2015年1月,3號、4號機組共發(fā)生DPU切換45次,其中3號機組23次、4號機組22次,DPU切換相當(dāng)頻繁,且不具有周期性和規(guī)律性。DPU頻繁切換增大了控制器故障的概率。DPU頻繁切換的主要風(fēng)險有:一旦主控制器異常切換副控制器失敗時,相關(guān)的所有參數(shù)將無法顯示,設(shè)備無法操作;而當(dāng)主控制器切換后,接管的副DPU故障時,也可能造成切換不成功控制器內(nèi)部保護信號的翻轉(zhuǎn)或者模擬量指令的跳變,造成保護誤動,重要輔機跳閘甚至機組跳閘。如:2011-12-28T09∶16,3號爐C磨煤機跳閘,首出原因為 “一次風(fēng)機全?!?。C1、C2給煤機連鎖跳閘,就地檢查3號爐C磨煤機電機開關(guān)無報警信號。檢查歷史趨勢發(fā)現(xiàn)從09∶14中斷2 min,查看DCS系統(tǒng)狀態(tài)中3F03控制器狀態(tài),發(fā)現(xiàn)3F03主控制器在09∶14重啟復(fù)位。檢查磨煤機跳閘邏輯,3F03控制器調(diào)用的一次風(fēng)機關(guān)反饋的初始值為1,即在控制器重啟復(fù)位時,默認(rèn)初始值,一次風(fēng)機全停信號被誤發(fā)出來,C磨煤機跳閘。主控制器故障復(fù)位,由于控制器軟件版本較低,副DPU切換不成功。
針對DPU頻繁切換的情況,通過深入分析現(xiàn)場的一些故障信息與現(xiàn)象,基本上可以確定DPU切換是由DPU故障[5-7]造成的,DPU4F所采用的CPU芯片存在相應(yīng)的缺陷(BUG)。
DPU4F的CPU采用AMD公司的GeodeSC2200。早期的DPU4F采用D3版本的GeodeTMSC2200,D3版本的CPU由于存在相應(yīng)不足,后來經(jīng)過AMD公司的改進,GeodeTMSC2200升級到D3.3版,在CPU升級后,DPU4F也采用D3.3版本的CPU。D3.3與D3版的一個重要升級,修復(fù)了存在于D3版本中嚴(yán)重BUG。關(guān)于這個BUG,AMD官方有一個文檔描述[3-5],具體如下。
異步事件的具體調(diào)整導(dǎo)致宕機
說明:如果CPU取指令跨越了頁邊界,并導(dǎo)致tablewalk,PCI總線主控事件,中斷事件發(fā)生在一個非常具體的調(diào)整;CPU可能出現(xiàn)宕機。
含義:這個宕機的概率是非常小的。根據(jù)長期以非常極端的負(fù)載條件測試微軟WindowsXP和Linux操作系統(tǒng)內(nèi)核2.4.17版本及以上的版本,宕機現(xiàn)象已經(jīng)被觀察到。而這種危險應(yīng)該也在其他操作系統(tǒng)存在,只是故障還沒有被觀察到。
解決方法:無。宕機的概率有可能通過減少的IRQ和/或SMIs的頻率被降低。總線一次掌管高速緩存行大?。?字節(jié)),而不是更少的量,這樣也將減少宕機發(fā)生的概率。
通過上述說明可以看出當(dāng)CPU在某種情況下,會出現(xiàn)宕機現(xiàn)象。雖然發(fā)生這種宕機的概率較小,但當(dāng)計算負(fù)荷大且測試時間足夠長,這種宕機現(xiàn)象是確實存在的。
因此可以判斷,當(dāng)DPU運行時間較長后,D3版本中存在的這個BUG就可能導(dǎo)致該DPU發(fā)生宕機,如果此時該DPU的狀態(tài)正是Active時,由于Active DPU已不能產(chǎn)生相應(yīng)的心跳信息,那么此時就會發(fā)生切換,另一個DPU就會進行接管。該DPU的心跳信號,與發(fā)生宕機時會出現(xiàn)的現(xiàn)象非常吻合。另外從全廠所有的DPU來看,一個月內(nèi)會發(fā)生一次DPU的切換,然而根據(jù)用戶報告,發(fā)生切換的DPU并不是同一個,即這次切換是這個DPU,下次是另一個DPU,可以看出這種情況只有在DPU運行時間足夠長的時候才會出現(xiàn),因此與AMD官方文檔的描述也基本吻合。由于這個問題,牽涉到CPU底層的硬件問題,單獨的軟件修復(fù)解決這個問題的可能性不大,因此唯一的辦法就是更換DPU,徹底解決D3版本的GeodeTMSC2200所存在的這個BUG。最后確定徹底解決這一問題的方法就是硬件升級和更換新的DPU卡件徹底替換掉那一批DPU,特別是計算負(fù)荷大的DPU要優(yōu)先更換。
DCS廠家研發(fā)人員對現(xiàn)場情況進行檢查,2013年脫硝DPU連續(xù)運行2年多未發(fā)生切換的情況基本確定頻繁切換的原因為DPU本身硬件存在BUG造成。
利用機組調(diào)停的時間,首先對4號機組的部分DPU進行了更換和調(diào)整。利用現(xiàn)有的4塊全新的備品以及后上系統(tǒng)(脫硝系統(tǒng)、4B塔脫硫系統(tǒng)、脫硝空壓機系統(tǒng))DPU為2005年以后的產(chǎn)品,不存在設(shè)計漏洞。對10塊DPU進行了調(diào)換,通過對低版本升高版本以及將相對重要性差一點或者輔助運行的高版本DPU更換到相對重要的主DPU運行各5塊。這樣4號機組23對DPU中保證有16對DPU的主運行DPU為高版本DPU,低版本的DPU作為熱后備使用;2015年9月15日對3號機組DCS系統(tǒng)DPU升級,更換DPU 8對,DPU軟件升級為MR版,運行情況正常,至此所有整改措施完成,這個結(jié)果與能夠大幅的降低DPU頻繁切換的次數(shù)的分析相符合,也進一步證明了DPU頻繁切換確是由于2004生產(chǎn)的DPU存在BUG的推斷,隨著DPU全面升級計劃(考慮電子元器件壽命)的實行,故障得到徹底解決。
對一起335 MW機組MAXDNA系統(tǒng)DPU頻繁切換導(dǎo)致機組跳閘的故障進行分析,通過切換試驗、故障統(tǒng)計、對比DPU版本號和查閱MAXDNA系統(tǒng)硬件手冊,發(fā)現(xiàn)該切換故障是由DPU本身硬件BUG所導(dǎo)致的,并制定了相應(yīng)的解決方案對相應(yīng)的DPU模塊進行了更換,實際運行中大大降低了DPU的切換次數(shù),4號機組運行近一年多時間、3號機組運行近半年的時間內(nèi)未發(fā)生DPU頻繁切換的故障,取得了預(yù)期的效果。在現(xiàn)場設(shè)備維護過程中DPU頻繁切換是一種異常狀態(tài),是機組跳閘的先兆,一旦發(fā)現(xiàn)一定要找出真正原因并徹底解決,徹底消除控制系統(tǒng)安全隱患。
除了要加強設(shè)備巡檢維護,對電源電壓經(jīng)常檢測灰塵清理和接地檢查外,建議廠家完善對DPU運行狀態(tài)的監(jiān)視功能,提高DPU切換及故障報警級別,運行過程中主DPU要時刻監(jiān)測副DPU的心跳信號和網(wǎng)絡(luò)狀態(tài),發(fā)現(xiàn)異常語音報警同時對副DPU進行隔離,一旦此時主DPU也發(fā)生故障將不再進行切換,而是根據(jù)實際情況模擬量保持安全值、開關(guān)量保持原狀態(tài)。
[1]何滔.MaxDNA集散控制系統(tǒng)故障分析[J].電工技術(shù),2013(3):50-51.
[2]曹曉雨.國電智深DCS系統(tǒng)DPU異常切換的處理[J].電子技術(shù)與軟件工程,2015(24):134.
[3]楊麗.MaxDNA分散控制系統(tǒng)的分析與探討[J].儀器儀表用戶,2012,19(1):88-91.
[4]曹光偉.MaxDNA分散控制系統(tǒng)在安慶電廠的應(yīng)用[J].電力建設(shè),2008,29(3):88-90.
[5]吳科,馬振華,朱能飛,等.國產(chǎn)MaxDNA大型分散控制系統(tǒng)在1 000 MW機組一體化控制中的應(yīng)用[J].華電技術(shù),2015,37(8):6-9.
[6]陳建.新華DCS系統(tǒng)DPU頻繁切換故障的處理[J].寧夏電力,2011(5):47-48.
[7]何滔,張宇飛.MaxDNA集散控制系統(tǒng)在火力發(fā)電廠中的應(yīng)用[J].工業(yè)控制計算機,2013,26(7):6-7.
[8]陳珍順.DCS系統(tǒng)DPU網(wǎng)絡(luò)故障導(dǎo)致操作失控案例分析[J].內(nèi)蒙古電力技術(shù),2015,33(1):94-97.
Fault Analysis of Unit Trip Caused by DPU Frequent Switching of MaxDNA System
LI Xuewei1,YAO Changqing2,GAO Song2
(1.Huadian Zhangqiu Corporation,Zhangqiu 251200,China;2.State Grid Shandong Electric Power Research Institute,Jinan 250002,China)
A unit trip fault caused by DPU frequent switching of MaxDNA system in a 350 MW power unit is analyzed.The switch fault is found to be caused by the DPU hardware bug through analyzing the switching test and fault statistics,contrasting the DPU version number and consulting the MaxDNA system hardware manual.The corresponding solution is formulated,and the corresponding DPU module is replaced,which effectively prevents the occurrence of the fault.
unit trip;distribution control system (DCS);distribution processing unit(DPU);frequent switching
TM621.6
B
1007-9904(2017)03-0070-04
2016-09-11
李學(xué)偉(1967),男,高級工程師,從事發(fā)電廠熱工控制系統(tǒng)維護工作。