□劉克武 李 亞 呂朋舉(河南省水利信息中心)
河南省水利業(yè)務系統(tǒng)容災平臺高可用研究與應用
□劉克武 李 亞 呂朋舉(河南省水利信息中心)
隨著信息技術的飛速發(fā)展,社會需求的刺激,河南省水利業(yè)務系統(tǒng)呈幾何增長,隨之水利業(yè)務應用系統(tǒng)的穩(wěn)定性和高可用性就顯得日益重要,為有效地防止因本地網絡的中斷或業(yè)務系統(tǒng)的故障引起的數據丟失和服務不可用,研究和建設河南省水利業(yè)務系統(tǒng)容災平臺高可用,實現(xiàn)若生產端服務器故障或宕機,應用服務自動或手動切換到容災端的服務器上,由其上對應的應用對外提供服務,關鍵業(yè)務系統(tǒng)達到“RPO≈0,RTO<5m”的目標,保證河南省水利業(yè)務系統(tǒng)的連續(xù)性。
容災;高可用;水利業(yè)務系統(tǒng)
容災技術是現(xiàn)在信息化建設的重要組成部分,是防范災難、降低損失、提高業(yè)務持續(xù)性的重要手段,是提升服務質量、承擔社會責任的重要保障,目前已廣泛應用于各行各業(yè)。
河南省水利信息化建設起步比較早,從20世紀70年代開始,隨著社會的發(fā)展和互聯(lián)網技術水平的提高,一方面水利系統(tǒng)業(yè)務的不斷擴展,刺激了水利業(yè)務系統(tǒng)突飛猛進的增長,另一方面隨著水利業(yè)務系統(tǒng)的推廣、使用以及無紙化辦公的要求,現(xiàn)在的工作已依賴于網上辦公,網絡的中斷或業(yè)務系統(tǒng)的故障都會嚴重影響日常工作的正常完成,同時也會對社會和公眾造成嚴重的影響。如何有效地規(guī)避故障風險,如何提高水利系統(tǒng)業(yè)務連續(xù)性的接管能力,降低或減少網絡、業(yè)務系統(tǒng)中斷產生的影響,保證其安全穩(wěn)定的運行,已經成為河南省水利信息化應用管理的當務之急。
在網絡層,河南省水利廳信息網絡建設了省水利廳至18個省轄市水利(務)局、10個省直管縣(市)水利(務)局、12座大型水庫、26個廳屬單位及124個縣(市、區(qū))水利部門的計算機網絡系統(tǒng),實現(xiàn)省、市、縣三級計算機網絡系統(tǒng)的互聯(lián)互通,并與水利部、濟南軍區(qū)、河南省委、省政府、省氣象局、省國土資源廳等相聯(lián),但帶寬非常有限。
在業(yè)務應用層,河南省水利業(yè)務系統(tǒng)從2010年開始建設,現(xiàn)已完成河南省水利廳門戶網站、水利綜合辦公系統(tǒng)、網上行政審批系統(tǒng)、水利電子郵件系統(tǒng)等水利電子政務系統(tǒng),以及防汛抗旱決策指揮系統(tǒng)、山洪災害系統(tǒng)、水資源管理系統(tǒng),水利普查系統(tǒng)等重要業(yè)務系統(tǒng),承載著河南省、市、縣三級水利機構的日常辦公、山洪預警、水文監(jiān)控、水資源監(jiān)測等工作,為越來越多的河南省水利業(yè)務提供基礎支撐。這其中的業(yè)務系統(tǒng)大多數都是涉及全省范圍的業(yè)務,但卻都是在單機上運行,如果出現(xiàn)業(yè)務系統(tǒng)服務器硬件或服務故障,都會等待服務器配件到貨或從網絡層逐節(jié)點查找原因,甚至會重新搭建服務器環(huán)境、重新配置程序,這時間就不是半天、一天能恢復正常運行的。
為提高業(yè)務系統(tǒng)的服務質量、減少業(yè)務系統(tǒng)中斷時間,梳理河南省水利業(yè)務系統(tǒng)的實際情況,按照容災的等級要求,河南省水利業(yè)務系統(tǒng)容災平臺高可用的需求如下:第一,生產端服務器發(fā)生故障時,容災端服務器按容災等級通過自動/手動方式實現(xiàn)一個或多個應用的接管,關鍵業(yè)務系統(tǒng)做到自動的應用接管。第二,容災備份的一致性校驗。第三,生產端及容災端網絡的最低帶寬的快速傳輸。
容災的等級標準是按恢復點目標RPO、恢復時間目標RTO兩個指標來劃分。RTO是針對服務丟失,從業(yè)務系統(tǒng)故障開始,到業(yè)務系統(tǒng)恢復正常之間的時間段。RPO是針對數據丟失,指業(yè)務系統(tǒng)和應用數據恢復正常后,系統(tǒng)及生產數據能恢復到過去的哪個時間點。
河南省水利業(yè)務系統(tǒng)容災平臺高可用能在現(xiàn)帶寬網絡環(huán)境下快速地容災數據復制與傳輸、跨多網段應用接管,實現(xiàn)對業(yè)務系統(tǒng)的按需切換。
根據河南省水利廳的實際業(yè)務系統(tǒng)環(huán)境,業(yè)務重要性和部署方式不同,分級對現(xiàn)有業(yè)務進行設計。其核心業(yè)務系統(tǒng)的應用與數據十分重要,RPO和RTO要求級別較高,不僅要保證數據不丟失,而且在發(fā)生故障時,也需要快速地接管應用,保障業(yè)務系統(tǒng)連續(xù)性,因此要求RPO≈0、RTO<5m;對于一般的業(yè)務系統(tǒng),不涉及下面市、縣,數據變化頻率不高,而且是在內網運行的,要求RPO≈0、RTO<120m。
分析國內外高可用容災技術實現(xiàn),經過詳細的探討研究,現(xiàn)河南省水利系統(tǒng)業(yè)務部署在不同的網段內,為實現(xiàn)高可用,容災平臺通過對生產端服務器業(yè)務應用、服務器等資源的狀態(tài)進行實時監(jiān)控,在發(fā)現(xiàn)業(yè)務應用突然異常停止(如業(yè)務應用異常退出、服務器斷電、硬件故障等)、或者達到需要切換的條件時(如生產端服務器資源即將耗盡、軟硬件升級等),通過負載均衡設備自動或者手工將應用切換到容災端服務器上,實現(xiàn)業(yè)務多種模式的加密高效率地傳輸、跨網段的業(yè)務系統(tǒng)雙活。如圖1所示。
圖1 河南省水利業(yè)務系統(tǒng)容災平臺高可用總體架構圖
2.3.1 窄帶寬網絡環(huán)境下容災數據快速復制與傳輸技術
數據復制與傳輸技術是容災方案設計中最基本也是最為核心的技術。傳統(tǒng)的數據容災和備份技術,是對生產端文件系統(tǒng)的關鍵數據,進行定期的完全或增量備份,并使用去重技術減少對存儲空間的耗費,它存在著為了保證數據一致性,需要對生產端設備相關狀態(tài)進行暫時凍結或進行快照,然后再進行定期的完全或增量備份,無法在用戶使用過程中實時捕獲增量修改,不能保證數據的同步;另一方面需要考慮使用額外的數據來滿足去重技術,增加了系統(tǒng)資源和處理開銷。因此備份的時間粒度和系統(tǒng)開銷需求都不能滿足實際。經過多方的溝通、測試,容災數據復制與傳輸功能最終選擇基于字節(jié)級的復制技術及數據序列化傳輸技術。一方面它可以通過旁路式監(jiān)聽源端的數據變化,以最小字節(jié)級增量數據捕捉方式,將生產端字節(jié)級的數據變化量實時的容災復制,不需對生產端設備相關狀態(tài)進行暫時凍結或進行快照。另一方面字節(jié)級的復制技術對生產端服務器計算資源占用可以忽略。僅僅是旁路捕獲數據,通過旁路式截獲生產系統(tǒng)的數據變化,所有的數據都是從內存中獲得,處理和復制正在使用的文件與目錄時,無需要求關閉該文件,相關的應用仍然保持在線和活躍運行狀態(tài),不會對您的工作有任何負面影響,因此數據復制過程不占用主機的IO資源。第三方面基于字節(jié)級的數據復制粒度最小到字節(jié),數據保護和恢復粒度可以做到毫秒級,因此對于帶寬資源的要求也是極低的。綜上容災數據的快速復制、傳輸,在不影響現(xiàn)有生產端應用的前提下,保證了信息在整個過程中的安全及完整性。
2.3.2 基于負載均衡的業(yè)務應用無縫切換技術
分析國內外跨網段容災技術,目前有3種技術方式:一是基于網絡虛擬化技術。通過使用MAC地址路由規(guī)則,打通生產端與容災端的二層通信,實現(xiàn)IP地址跨數據中心的遷移,從而有效滿足了生產端與容災端資源調度和虛機遷移的要求,但是網絡虛擬化技術對硬件要求較高,投資成本較高,對當前網絡環(huán)境及設置改動較大,不符合實際建設需求。二是基于VPN技術。利用VPN技術使主機集群二層可達,缺點是維護復雜,系統(tǒng)節(jié)點較多的情況下維護更復雜,不支持H.232視頻協(xié)議等,經過詳細調查研究,放棄此解決方案。三是基于負載均衡技術。采用負載均衡技術,旁路接入對當前網絡環(huán)境沒有任何改變,利用負載監(jiān)控業(yè)務端口或靜態(tài)頁,當生產端應用異?;虺霈F(xiàn)各種異常(如服務異常停止、網絡異常、硬件故障、生產應用宕機維護)而導致應用不可用時,將相關的應用立刻切換到容災端服務器上,由容災端服務器上的應用來提供服務,實現(xiàn)業(yè)務系統(tǒng)的無縫切換。根據河南省水利廳網段較多、網絡復雜及安全性的要求,經過詳細的研究與測試,關鍵業(yè)務系統(tǒng)最終采用負載均衡來實現(xiàn)業(yè)務的雙活。
2.3.3 信息一致性技術
文件系統(tǒng)的I/O操作是序列化的,這些操作日志必須保持它原有的操作次序,如數據庫文件,在I/O操作被截獲時為每個操作日志進行序列化排序,要求對數據的截獲、傳輸、存儲嚴格的按源序處理,容災端收到I/O操作日志后對個別亂序通過日志記錄中的數字序號重新將I/O操作序列化,與生產端序列嚴格一致后再提交到容災端寫入,從而保證兩端信息的一致性。
根據河南省水利信息化業(yè)務系統(tǒng)現(xiàn)狀和特點,經過針對性研究,利用最新容災技術,采用最經濟的手段建設一套復雜網絡下業(yè)務應用高可用的容災平臺,為河南省水利信息化業(yè)務系統(tǒng)提供完善安全的容災體系。
從長遠看,業(yè)務高可用的價值并非僅僅是業(yè)務系統(tǒng)應對災難、提高生存能力的工具,而是已經成為提升政府服務質量、承擔社會責任的重要保障;是水利系統(tǒng)提高政府辦事效率和透明度,減少行政環(huán)節(jié),節(jié)約行政成本,適應需求變化的重要基礎。
[1]馬獻章.數據庫云平臺理論與實踐[M].北京∶清華大學出版社,2016(1).
[2]武春嶺.數據存儲與容災[M].北京∶高等教育出版社,2015(1).
[3]肖良華.從災備到雙活[J].金融電子化,2013(11)∶55-56.
[4]詹浩,李陽,郗新江.大型數據中心“雙活”應用探析[J].金融電子化,2013(8)∶69-70.
[5]韓兆云.綜合業(yè)務異地災備系統(tǒng)三層異構云服務平臺[J].金融電子化,2014(9):70-72.
TP311.5
A
1673-8853(2017)09-0092-02
2017-6-16
編輯:劉 青