王 毅
(中鐵第一勘察設(shè)計院集團有限公司,西安 710043)
?
基于異步動態(tài)的地鐵綜合監(jiān)控系統(tǒng)可靠性分析
王 毅
(中鐵第一勘察設(shè)計院集團有限公司,西安 710043)
以綜合監(jiān)控系統(tǒng)為研究對象,在對地鐵綜合監(jiān)控系統(tǒng)整體架構(gòu)進行研究的基礎(chǔ)上,將系統(tǒng)看作一個離散的異步動態(tài)系統(tǒng),對系統(tǒng)主要設(shè)備的控制部分建立可靠性數(shù)學(xué)模型。運用Lyapunov函數(shù)的分析方法證明模型的可靠性,依據(jù)控制網(wǎng)絡(luò)可靠性理論對綜合監(jiān)控系統(tǒng)的平均無故障時間及平均故障修復(fù)時間兩個指標(biāo)進行計算,驗證系統(tǒng)在不同程度失效時的可靠性。
地鐵;綜合監(jiān)控系統(tǒng);可靠性;分析
近年來,城市軌道交通的飛速發(fā)展,對社會經(jīng)濟和人民的日常生活都起到長期的重要影響。為保證軌道交通的正常運營并創(chuàng)造安全、舒適的乘車和候車環(huán)境,地鐵全線配備了信號系統(tǒng)、環(huán)境與設(shè)備監(jiān)控系統(tǒng)、安防系統(tǒng)、電扶梯、火災(zāi)自動報警系統(tǒng)、站臺門等機電系統(tǒng)。為確保以上這些系統(tǒng)的安全可靠運行,設(shè)置綜合監(jiān)控系統(tǒng)(Integrated Supervisory & Control System,簡稱ISCS)。
綜合監(jiān)控系統(tǒng)是城市軌道交通綜合自動化的一部分[1],它通過統(tǒng)一的軟硬件平臺,對地鐵環(huán)境與設(shè)備監(jiān)控系統(tǒng)、電力監(jiān)控系統(tǒng)等進行集成,對信號系統(tǒng)、通信系統(tǒng)、自動售檢票系統(tǒng)等進行互聯(lián)管理,有效提高了地鐵的服務(wù)能力,優(yōu)化了運營組織結(jié)構(gòu)。
目前,綜合監(jiān)控系統(tǒng)已在國內(nèi)的地鐵、輕軌工程中得到廣泛應(yīng)用。作為全線機電設(shè)備的監(jiān)控平臺,它的應(yīng)用和工作性質(zhì)決定了系統(tǒng)必須具備高可靠性和高安全性,而且必須保證24 h不間斷正常運轉(zhuǎn)。一旦系統(tǒng)中斷或故障,將會直接影響整個地鐵的正常運營。
綜合監(jiān)控系統(tǒng)采用兩級管理、三級控制的結(jié)構(gòu)體系[2]。兩級管理是在線路的控制中心和車站控制室進行系統(tǒng)管理,三級控制分別在控制中心、各車站和現(xiàn)場各被集成的子系統(tǒng)實現(xiàn)。
控制中心是綜合監(jiān)控系統(tǒng)的中央級系統(tǒng)所在位置,負責(zé)監(jiān)控沿線各車站的車站級綜合監(jiān)控系統(tǒng)(含車輛段系統(tǒng))、軟件測試平臺、培訓(xùn)管理系統(tǒng)、維修管理系統(tǒng)、集中告警系統(tǒng)、綜合后備盤等[3]。綜合監(jiān)控系統(tǒng)車站級構(gòu)成如圖1所示。
圖1 綜合監(jiān)控系統(tǒng)車站級構(gòu)成示意
3.1 系統(tǒng)可靠性指標(biāo)
綜合監(jiān)控系統(tǒng)是一個綜合型的計算機監(jiān)控網(wǎng)絡(luò)系統(tǒng),它的軟件體系結(jié)構(gòu)是層次組織劃分的,每個上層軟件的系統(tǒng)都是建立在低一層軟件系統(tǒng)的基礎(chǔ)上;其分布式系統(tǒng)由多個獨立運行的服務(wù)器、工作站和軟件等組成,分布在不同的地理和網(wǎng)絡(luò)位置。
綜合監(jiān)控系統(tǒng)的可靠性來源于系統(tǒng)24 h不間斷的正常運行,當(dāng)系統(tǒng)發(fā)生軟件閃斷或硬件宕機時,迅速地進行故障修復(fù)并遷移到熱備系統(tǒng)正常運行是其可靠性的保證手段。
系統(tǒng)平均無故障時間(Mean Time Between Failures,簡稱MTBF)和系統(tǒng)平均修復(fù)時間(Mean Time To Repair,簡稱MTTR)是衡量一個系統(tǒng)可靠性的兩個重要指標(biāo)[4]。綜合監(jiān)控系統(tǒng)單臺設(shè)備平均無故障時間(MTBF)要求不小于10 000 h,系統(tǒng)故障修復(fù)時間(MTTR)要求小于60 min[5]。MTBF反映了系統(tǒng)的時間質(zhì)量,是系統(tǒng)在規(guī)定的時間內(nèi)保持正常運行能力的一種指標(biāo);MTTR則反映了從系統(tǒng)故障時刻起,到系統(tǒng)恢復(fù)正常運行之前的所需時間,它有效地衡量了一個系統(tǒng)在可維護性和響應(yīng)時間上的能力。由于綜合監(jiān)控系統(tǒng)對軌道交通的正常運營具有重要意義,一旦系統(tǒng)發(fā)生故障,系統(tǒng)必須在第一時間發(fā)生修復(fù)響應(yīng)。根據(jù)網(wǎng)絡(luò)控制系統(tǒng)可靠性理論,衡量綜合監(jiān)控系統(tǒng)的可靠性指標(biāo)之一,可以用系統(tǒng)有效性(Availability)來表示。有效性更加準確地反映了綜合監(jiān)控系統(tǒng)網(wǎng)絡(luò)的性能,它是在部分軟硬件失效的情況下,系統(tǒng)能達到保障性能要求的概率。系統(tǒng)有效性通過平均無故障時間和平均故障修復(fù)時間兩個指標(biāo)的比值關(guān)系來表示,計算公式為[6]
在綜合監(jiān)控系統(tǒng)的控制網(wǎng)絡(luò)中,平均無故障時間和平均故障修復(fù)時間交替穿插在系統(tǒng)的運行過程中[7],他們的相互關(guān)系如圖2所示。
圖2 控制系統(tǒng)MTBF與MTTR關(guān)系
由圖2可見:
綜合監(jiān)控系統(tǒng)的平均無故障時間和平均故障修復(fù)時間發(fā)生的可能性是隨機的,因此MTBF和MTTR均是一組隨機的概率統(tǒng)計數(shù)值,它們所表示的系統(tǒng)有效性A也是一個概率統(tǒng)計數(shù)值。
構(gòu)成綜合監(jiān)控系統(tǒng)的主要設(shè)備有前置機FEP、歷時服務(wù)器、實時服務(wù)器、磁盤陣列、網(wǎng)絡(luò)交換機、系統(tǒng)工作站,它們中的任何一組設(shè)備發(fā)生故障,都會導(dǎo)致系統(tǒng)中斷運行。這些主要設(shè)備的可靠性指標(biāo),直接影響到整個系統(tǒng)的可靠性。
3.2 系統(tǒng)可靠性分析
構(gòu)成綜合監(jiān)控系統(tǒng)的關(guān)鍵設(shè)備有前置機FEP、歷時服務(wù)器、實時服務(wù)器、磁盤陣列、網(wǎng)絡(luò)交換機、系統(tǒng)工作站。關(guān)鍵設(shè)備可靠性指標(biāo)如表1所示。
表1 關(guān)鍵設(shè)備可靠性指標(biāo)
綜合監(jiān)控系統(tǒng)的前置機FEP、歷時服務(wù)器、實時服務(wù)器、磁盤陣列、網(wǎng)絡(luò)交換機、系統(tǒng)工作站全都采用完全冗余配置且并聯(lián)[8],并聯(lián)方式如圖3所示。
圖3 冗余設(shè)備并聯(lián)示意
地鐵綜合監(jiān)控系統(tǒng)負責(zé)全線各個軟硬件設(shè)備及子系統(tǒng)的監(jiān)管和控制,它自身所發(fā)出的指令依靠網(wǎng)絡(luò)和代碼實現(xiàn)。由于其與生俱來的架構(gòu)特點和功能要求,使得綜合監(jiān)控系統(tǒng)故障點數(shù)量巨大,任何一個節(jié)點的實效,都會影響到系統(tǒng)的有效性和可靠性。從綜合監(jiān)控系統(tǒng)的網(wǎng)絡(luò)控制結(jié)構(gòu)來看,它的工作流程如圖4所示。
圖4 綜合監(jiān)控系統(tǒng)工作流程示意
對于任何一個控制網(wǎng)絡(luò)來說,系統(tǒng)7×24 h的無故障運行是不可能的,只能最大程度地提高其有效工作時間。綜合監(jiān)控系統(tǒng)利用雙機熱備等技術(shù),有效提高了系統(tǒng)的可靠性。根據(jù)圖4,可將綜合監(jiān)控系統(tǒng)看作一個離散線性系統(tǒng),系統(tǒng)主要設(shè)備的控制部分可以建立一個近似為離散時間方程的數(shù)學(xué)模型。
3.2.1 控制部分數(shù)學(xué)模型
系統(tǒng)控制部分的數(shù)學(xué)建模結(jié)構(gòu)為[9-10]
式中,xt是系統(tǒng)狀態(tài)量;ut是指令輸入量;Ln是系統(tǒng)增益;n定義為綜合監(jiān)控網(wǎng)絡(luò)傳輸時由于故障等原因發(fā)送的錯誤指令或失效數(shù)據(jù);yt是系統(tǒng)數(shù)據(jù)執(zhí)行后的輸出量。系統(tǒng)正常工作時,失效數(shù)據(jù)為零,即L0=0;當(dāng)系統(tǒng)發(fā)生故障時,Ln即為非零向量。A、B為矩陣系數(shù)。系統(tǒng)模型的估計誤差值定義為
(1)綜合監(jiān)控系統(tǒng)正常工作時,L0=0,離散時間方程為
式中,dt為t時間的網(wǎng)絡(luò)延時,將dt=0代入式(6)可得
那么同理可得系統(tǒng)模型的估計誤差值為
(2)綜合監(jiān)控系統(tǒng)發(fā)生失效故障時,將故障時刻t之前已經(jīng)完成發(fā)送的信息定義為y(t-dt),離散時間方程為
系統(tǒng)模型的估計誤差值為
結(jié)合公式,推導(dǎo)可得出
Δ1=A,Δ2=A-LC
3.2.2 數(shù)學(xué)模型可靠性分析
綜合監(jiān)控系統(tǒng)在運行過程中發(fā)生的故障狀態(tài)可以劃分為狀態(tài)1,2,3,…,n,因此可以把這些發(fā)生的狀態(tài)看作是n個離散的狀態(tài),實時運行的綜合監(jiān)控系統(tǒng)看作是一個異步動態(tài)系統(tǒng)[11]。則系統(tǒng)的狀態(tài)變量[12]
代入Lyapunov函數(shù)Vxt,當(dāng)函數(shù)滿足條件
此時認為此異步動態(tài)系統(tǒng)是穩(wěn)定可靠的。當(dāng)公式(11)滿足不等式矩陣組
那么系統(tǒng)就是穩(wěn)定的,E和F為兩個正定矩陣,系統(tǒng)變量λ1>0,λ2>0,網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)丟失比率為γ。
把Δ1=A,Δ2=A-LC代入公式(18),定義F=LTE
3.2.3 MTBF計算
綜合監(jiān)控系統(tǒng)設(shè)備的總運行時間可以拆分為MTBF和MTTR,通過計算MTBF和MTTR的數(shù)值,得出系統(tǒng)有效性指標(biāo)。
綜合監(jiān)控系統(tǒng)主要設(shè)備采用冗余熱備的架構(gòu)方式并行連接,因此系統(tǒng)的控制部分MTBF取平方值
以表1中的指標(biāo)為計算數(shù)據(jù),則
MTBF工作站=1×105h
與其他主要設(shè)備不同的是,磁盤陣列是放置在歷史服務(wù)器的機柜中,與歷史服務(wù)器為串行連接方式,它的MTBF為
MTBF服務(wù)器系統(tǒng)≈Min(MTBF服務(wù)器,MTBF磁盤陣列)=
1.67×105h
綜合監(jiān)控系統(tǒng)前置機FEP、歷時服務(wù)器、實時服務(wù)器、磁盤陣列、網(wǎng)絡(luò)交換機、系統(tǒng)工作站組成的串聯(lián)控制系統(tǒng)中,當(dāng)系統(tǒng)中有一個或一個以上的設(shè)備失效時,系統(tǒng)就失效,所以主要設(shè)備中的最小無故障運行時間即為系統(tǒng)的平均無故障運行時間。
根據(jù)上述公式,綜合監(jiān)控系統(tǒng)控制部分MTBF計算為
3.2.4 MTTR計算
根據(jù)可靠性理論的MTTR計算公式,平均故障修復(fù)時間=系統(tǒng)故障總修復(fù)時間/系統(tǒng)故障次數(shù),綜合監(jiān)控系統(tǒng)的MTTR可以通過設(shè)備故障率λ和故障修復(fù)時間的加權(quán)平均關(guān)系來表示[15]
MTTR=(MTTR1×λ1+MTTR2×λ2+MTTR3×
λ3+MTTR4×λ4+MTTR5×λ5)/
將綜合監(jiān)控系統(tǒng)主要設(shè)備的MTBF數(shù)值代入公式(20),公式(21)中,可得
以表1中的MTTR指標(biāo)可得前置機FEP:MTTR1=1;服務(wù)器:MTTR2=1;磁盤陣列:MTTR3=1;交換機:MTTR4=0.5;系統(tǒng)工作站MTTR5=1。
經(jīng)計算,
MTTR=(MTTR1×λ1+MTTR2×λ2+MTTR3×
λ3+MTTR4×λ4+MTTR5×λ5)/
(λ1+λ2+λ3+λ4+λ5)≈0.99h
據(jù)系統(tǒng)有效性公式(1),得出綜合監(jiān)控系統(tǒng)的有效性為
計算得出的綜合監(jiān)控系統(tǒng)有效性的數(shù)值高達99.997 8%,能夠保證系統(tǒng)的可靠運行,但不是100%。通過對系統(tǒng)的數(shù)學(xué)建模和函數(shù)方程的求解,推導(dǎo)出綜合監(jiān)控系統(tǒng)適用于MTBF和MTTR公式計算的依據(jù),從而得出綜合監(jiān)控系統(tǒng)的有效性數(shù)值。
該有效性值是基于表1中關(guān)鍵設(shè)備可靠性指標(biāo)的數(shù)據(jù)計算得出的。由于設(shè)備供應(yīng)商的不同,設(shè)備的設(shè)計和工藝的差異,可靠性指標(biāo)會有差別。因此計算出的MTBF和MTTR值也是不一樣的,有效性A的數(shù)值是隨著MTBF和MTTR的變化而變化,是一個變量。
(1)綜合監(jiān)控系統(tǒng)是地鐵運營生產(chǎn)不可或缺的部分,數(shù)據(jù)的丟失以及系統(tǒng)的失效將會給運營生產(chǎn)安全、運輸效率以及社會服務(wù)造成重大影響,利用冗余、改變網(wǎng)絡(luò)連接架構(gòu)等技術(shù)對系統(tǒng)進行改進和優(yōu)化,對提高可靠性和安全性具有十分重大的意義。
(2)考慮到故障率、修復(fù)響應(yīng)時間等多種因素對冗余系統(tǒng)可靠性的影響,經(jīng)分析可知設(shè)備故障率對系統(tǒng)達到平穩(wěn)運行狀態(tài)所需時間的影響較大,系統(tǒng)恢復(fù)到正常運行狀態(tài)的可靠性由平均無故障時間和平均故障修復(fù)時間兩個指標(biāo)的比值關(guān)系來表示,增加無故障運行時間和減少維修時間是提高系統(tǒng)可靠性的有效方法。
(3)在綜合考慮硬件系統(tǒng)多種失效方式的基礎(chǔ)上,將綜合監(jiān)控系統(tǒng)抽象為一個離散的異步動態(tài)系統(tǒng),建立數(shù)學(xué)模型分析其可靠性,并提出利用Lyapunov函數(shù)的分析方法求解,可以得到在任意時刻系統(tǒng)處于各狀態(tài)的概率,通過對系統(tǒng)可靠性進行分析,驗證了硬件在不同程度失效時對系統(tǒng)可用度的影響。
[1] 李強.地鐵綜合監(jiān)控系統(tǒng)應(yīng)用發(fā)展研究[J].自動化與儀器儀表,2015(10):112-116.
[2] 程媛.軌道交通綜合監(jiān)控系統(tǒng)區(qū)域式構(gòu)成方案研究[J].城市軌道交通研究,2011(3):44-50.
[3] 徐杰.城市軌道交通綜合監(jiān)控平臺系統(tǒng)集成的研究[J].鐵道學(xué)報,2007(6):107-112.
[4] 劉愛民.關(guān)于可修復(fù)系統(tǒng)的MTBF和MTTR[J].電子學(xué)報,1998(1):70-72.
[5] 中華人民共和國住房和城鄉(xiāng)建設(shè)部.GB50157—2013地鐵設(shè)計規(guī)范[S].北京:中國建筑工業(yè)出版社,2014.
[6] 孫建平.控制系統(tǒng)可靠性分析與設(shè)計[J].華北電力學(xué)院學(xué)報,1995(4):39-44.
[7] 陳鵬.平均無故障時間(MTBF)的概述與應(yīng)用[J].電子產(chǎn)品可靠性與環(huán)境試驗,2012(5):272-276.
[8] 章?lián)P.地鐵綜合監(jiān)控系統(tǒng)的可靠性、可用性、可維修性、安全性設(shè)計[J].城市軌道交通研究,2009(4):64-66.
[9] 吳欽木,李葉松,秦億.網(wǎng)絡(luò)控制系統(tǒng)穩(wěn)定性分析和控制方法[J].電氣傳動,2006(36):8-15.
[10]孫海燕,侯朝楨,趙奇.基于模型的網(wǎng)絡(luò)控制系統(tǒng)穩(wěn)定性[J].控制與決策,2005(4):412-416.
[11]樊衛(wèi)華,蔡驊, 陳慶偉,等.基于異步動態(tài)系統(tǒng)的網(wǎng)絡(luò)控制系統(tǒng)建模[J].東南大學(xué)學(xué)報,2003(3):194-196.
[12]RABELLO A,BHAYA A. Stability of asynchronous dynamical sys-teems with rate constraints and application[J]. IEEE Proceeding on Control Theory Application, 2003(5):546-550.
[13]李金娜,張慶靈,于海斌.網(wǎng)絡(luò)控制系統(tǒng)穩(wěn)定性的圖理論[J].控制理論與應(yīng)用,2009(11):1309-1315.
[14]莫毓昌,楊孝宗,崔剛,等.一般階段任務(wù)系統(tǒng)的任務(wù)可靠性分析[J].軟件學(xué)報,2007(4):1068-1076.
[15]王婷婷.城市軌道交通綜合監(jiān)控系統(tǒng)數(shù)據(jù)規(guī)模和系統(tǒng)性能分析[J].無線互聯(lián)科技,2015(1):165-167.
Reliability Analysis of Integrated Supervisory & Control System in Metro Based on Asynchronous Dynamic
WANG Yi
(China Railway First Survey and Design Institute Group Co., Ltd., Xi’an 710043, China)
To study the Integrated Supervisory & Control System(ISCS), a reliability mathematical model is established for the control of the main equipment of the system, which is regarded as a discrete asynchronous dynamic system based on the study of the overall architecture of ISCS. The reliability of the model is proved with the analysis of Lyapunov function, and the mean fault-free time and mean fault recovery time of the comprehensive monitoring system are calculated based on the control theory of network reliability, and the reliability of the system in different degree of failure is verified.
Metro; Integrated supervisory control system; Reliability; Analysis
2016-05-23;
2016-07-14
王 毅(1985—)男,工程師,2010年畢業(yè)于中國鐵道科學(xué)研究院交通信息工程及控制專業(yè),工學(xué)碩士,E-mail:894402933@qq.com。
1004-2954(2016)12-0128-04
U231+.6
A
10.13238/j.issn.1004-2954.2016.12.028