莫蔚然
摘要:本文對地鐵綜合監(jiān)控系統(tǒng)非計劃停機時所采用的雙機集群熱備和容錯機這兩種冗余設(shè)計進行介紹,同時對兩種冗余處理方案的進行研究分析及應用方面的探討。
關(guān)鍵字:地鐵 綜合監(jiān)控系統(tǒng) 雙機冗余服務器
中圖分類號: U231文獻標識碼: A
1.緒論
地鐵綜合監(jiān)控系統(tǒng)是一個面向調(diào)度和車站操作人員的大型計算機集成系統(tǒng),采用了當代最先進的計算機及網(wǎng)絡(luò)技術(shù),集成和互聯(lián)多個系統(tǒng),如電力監(jiān)控系統(tǒng)、消防報警系統(tǒng)、機電設(shè)備監(jiān)控系統(tǒng)、屏蔽門、防淹門、時鐘系統(tǒng)等等。
地鐵綜合監(jiān)控系統(tǒng)運行的非計劃停機時間(系統(tǒng)失效時間)對于系統(tǒng)的建造成本和運行成本有著巨大的影響,綜合監(jiān)控系統(tǒng)服務器作為系統(tǒng)的關(guān)鍵設(shè)備,其故障將會造成系統(tǒng)停用。因此,綜合監(jiān)控系統(tǒng)服務器架構(gòu)應采用冗余設(shè)計。
2.地鐵綜合監(jiān)控系統(tǒng)冗余架構(gòu)設(shè)計方式
地鐵綜合監(jiān)控系統(tǒng)服務器主要滿足數(shù)據(jù)的傳輸和存儲處理的功能,國內(nèi)地鐵綜合監(jiān)控系統(tǒng)的服務器一般采用雙機集群熱備和容錯機這兩種冗余架構(gòu)。
2.1雙機熱備集群架構(gòu)
服務器集群技術(shù)是為了提高系統(tǒng)的穩(wěn)定性和網(wǎng)絡(luò)中心的數(shù)據(jù)處理能力及服務能力,將至少兩個系統(tǒng)連接到一起,使兩個服務器能夠像一臺機器那樣工作。因為集群能夠提供高可用性和可伸縮性,所以,它迅速成為企業(yè)和ISP計算的支柱。
目前國內(nèi)大多數(shù)地鐵綜合監(jiān)控系統(tǒng)服務器架構(gòu)均采用雙機集群熱備方案。雙機集群熱備的服務器架構(gòu)如下圖所示:
雙機熱備集群是一種較為簡單的集群技術(shù)應用。雙機熱備集群中的主、備服務器同時工作,但只有一臺服務器處于聯(lián)機狀態(tài),響應所有用戶的請求和操作,另外一臺作為“主”服務器的“熱備份”。兩臺服務器共享一個置于外部的磁盤陣列,以實現(xiàn)數(shù)據(jù)的一致性,同時通過心跳線進行連接,監(jiān)測對方“心跳”,當一臺服務器或一個應用程序故障時,可根據(jù)事先定義的故障轉(zhuǎn)移策略屏蔽故障,并由另一臺服務器自動接替運行。故障恢復后,兩臺服務器重新進入熱備狀態(tài)。
雙機熱備集群具有實現(xiàn)簡單,較高性能、低價格的特點。同時硬件和軟件上都有冗余,實現(xiàn)高可用性。其中一個服務器的切入和切出不會中斷服務,對用戶完全透明。
雙機熱備集群提供了集群方案中最高的可用性,雖然其性能只能接近或等于單臺服務器,但對于不需要大量數(shù)據(jù)計算和處理的地鐵綜合監(jiān)控系統(tǒng)來說,雙機熱備集群方案完全滿足系統(tǒng)的數(shù)據(jù)傳輸和處理要求。由于其性價比高,所以被大多數(shù)地鐵綜合監(jiān)控系統(tǒng)所采用。
容錯機技術(shù)
容錯技術(shù)的一個典型應用即容錯機。容錯機通過特殊的軟硬件設(shè)計,最大限度地提高了系統(tǒng)的可用性。
在容錯機中,每一個部件都采用模塊化、冗余設(shè)計,且雙工同步運行。從這一點來看,集群技術(shù)是部件級別冗余,而容錯機則是硬件執(zhí)行機制級別的冗余,避免了單一應用下一主一備的雙機集群所產(chǎn)生的故障切換時間和數(shù)據(jù)的丟失等問題。
對用戶來說,完全可以將容錯機當作單機看待,容錯機能有效的減少系統(tǒng)的節(jié)點,簡化了整個系統(tǒng)的維護量。同時,由于容錯機所有部件均采用冗余設(shè)計,這使得容錯計算機的所有部件均具備熱插拔的功能,大大減少了服務器硬件故障的修復時間。
另外,容錯機雖然是部件級冗余,系統(tǒng)內(nèi)部有雙重或者三重的冗余部件,但從軟件角度上來看,它是單軟件映像的,也就是說任何單機上開發(fā)的軟件可以無縫移植到容錯服務器上,而不需要進行任何修改和二次開發(fā)。容錯機的這種單軟件映像在一定程度上節(jié)約了系統(tǒng)軟件的購買成本,簡化系統(tǒng)的軟件安裝調(diào)試過程。
3. 雙機集群熱備和容錯機技術(shù)優(yōu)選比較探討
3.1 性能結(jié)構(gòu)的比較
目前雙機集群技術(shù)的可靠性指標通常在99.9%至99.99%之間,即集群技術(shù)可以保證系統(tǒng)的每年平均計劃外停機時間在8小時到53分鐘;容錯機的可靠性指標則至少能達到99.999%, 同時包括操作系統(tǒng)在內(nèi)的年平均計劃外停機時間小于5分鐘。
典型的雙機熱備集群及容錯機方案的拓撲結(jié)構(gòu)及軟硬件結(jié)構(gòu)比較如下圖所示:
集群與容錯方案拓撲結(jié)構(gòu)
集群與容錯方案軟硬件結(jié)構(gòu)
3.2 服務器架構(gòu)選擇
兩種技術(shù)相比較,集群技術(shù)保證了服務器的較高性能,同時也具有較高可靠性;容錯技術(shù)則最大限度的保證了服務器的高可靠性。容錯機的單軟件鏡像方式節(jié)約了一定的系統(tǒng)軟件購買成本,但其本身特殊的軟硬件設(shè)計卻使其價格非常昂貴。再者,目前僅有國外的極少數(shù)廠商能夠提供容錯產(chǎn)品,綜合考慮以上因素,國內(nèi)地鐵綜合監(jiān)控系統(tǒng)多采用服務器集群熱備技術(shù)。
4.結(jié)束語
綜合監(jiān)控系統(tǒng)率先在廣州地鐵引進實施后,現(xiàn)已在全國軌道交通全面使用。綜合監(jiān)控系統(tǒng)經(jīng)過多年的積累和改善,計算機硬件性能的提升,都使系統(tǒng)的可靠性、實時性、數(shù)據(jù)處理能力都有了很大提高。綜合監(jiān)控系統(tǒng)服務器架構(gòu)應采用冗余設(shè)計是整個地鐵系統(tǒng)一切正常工作的保證,必須采取適當?shù)拇胧﹣泶_保計算機系統(tǒng)的容錯性和不間斷性,以維護系統(tǒng)的高可用性和高安全性。所以深入研究雙機集群熱備和容錯機這兩種冗余架構(gòu)或進一步改善綜合監(jiān)控系統(tǒng)功能是十分有必要的。
5.參考文獻
[1] 《處理器容錯技術(shù)研究與展望》 作者:傅忠傳,陳紅松等。
[2] 《高可靠容錯實時系統(tǒng)的支撐技術(shù)研究》 作者:陳宇。
[3] 《具有容錯結(jié)構(gòu)的高可用計算機雙系統(tǒng)研究》 作者:金士堯,胡華平,李宏亮
作者簡介:作者現(xiàn)就職佛山市南海區(qū)鐵路投資有限公司,負責南海區(qū)現(xiàn)代有軌電車工程建設(shè)及機電設(shè)備技術(shù)工作;曾在廣州市地下鐵道總公司從事機電設(shè)備技術(shù)管理工作。