張順仕 竇光芒 張旭
(1.安徽南瑞繼遠軟件有限公司,安徽 合肥 230088;2.安徽省煙草公司合肥市公司,安徽 合肥 230022;3.安徽電力天長供電有限責任公司,安徽 天長 239300)
摘要: 該文闡述了省級電力信息網絡系統(tǒng)面對災害,為了保障全省電力信息網絡業(yè)務在短時間內恢復正常運行和電力應急服務的正常開展,保障電力業(yè)務的持續(xù)性,建立遠程電力信息容災備份系統(tǒng)的必要性,并對容災備份系統(tǒng)中的關鍵技術進行了分析。重點討論了幾種異地容災技術和數(shù)據(jù)復制技術,指出了各種技術的優(yōu)劣和局限,對基于數(shù)據(jù)庫復制的災難恢復技術進行了深入研究。
關鍵詞:容災;異地災備;實時復制;災難恢復;Goldengate復制
中圖分類號:TP311 文獻標識碼:A文章編號:1009-3044(2012)29-6901-03
災難備份是通過在異地建立和維護一個備份存儲系統(tǒng),利用地理上的分離來保證系統(tǒng)和數(shù)據(jù)對災難性事件的抵御能力。災難備份建設是一項周密的系統(tǒng)工程,也是一個全新的危機管理領域。災難備份建設不僅需要進行災難備份中心建設和系統(tǒng)設備購置。更需要有災難備份技術、危機管理、風險管理、業(yè)務連續(xù)計劃制訂、災難演練和災難恢復等災難備份專業(yè)領域知識。此外,災難備份也是業(yè)務流程的延續(xù),它需要建立完善的災難備份中心運營管理體系,需要不斷保持業(yè)務連續(xù)性計劃的有效性,以保障災難備份中心能持續(xù)發(fā)揮災難備份功能。
按照行業(yè)通俗的說法,災難備份從保障的層次上一般分為三個級別:數(shù)據(jù)級、應用級和業(yè)務級。應用容災是在數(shù)據(jù)容災的基礎上,在異地建立一套完整的與本地生產系統(tǒng)相當?shù)膫浞輵孟到y(tǒng)(可以是互為備份),在災難情況下,遠程系統(tǒng)迅速接管業(yè)務運行。數(shù)據(jù)容災是抗御災難的保障,而應用容災則是容災系統(tǒng)建設的目標,業(yè)務級則考慮到IT系統(tǒng)之外的業(yè)務因素,包括備用辦公場所、辦公人員等。本文主要探討數(shù)據(jù)級容災。
隨著國家電網公司信息化工程和重要業(yè)務信息系統(tǒng)陸續(xù)完成建設和逐步投入運行,各項業(yè)務和關鍵數(shù)據(jù)實時在線并高度集中,系統(tǒng)和數(shù)據(jù)的安全已成為突出問題,災難備份中心的建立成為應對重大災難或者遭遇突發(fā)公共事件的重要手段。
1 數(shù)據(jù)級遠程備份容災關鍵技術
1.1 復制模式的“異”和“同”
災備的實時性由數(shù)據(jù)復制模式決定,可分為同步復制和異步復制。一般而言,硬件級災備同時可支持同步復制和異步復制,而軟件級災備只提供異步復制模式。
1)同步復制(實時災備)
同步復制模式中,本地系統(tǒng)必須確認數(shù)據(jù)已成功寫到異地系統(tǒng),才能執(zhí)行下一個 I/O 操作。同步復制可保證本地和異地的數(shù)據(jù)完全一致,達到最高的數(shù)據(jù)保護級別,尤其適合于核心和關鍵業(yè)務,如要求RPO/RTO接近于零的應用。
同步復制模式對網絡的性能和穩(wěn)定性要求較高,如高帶寬和低延時,而延時又取決于距離和中間設備的協(xié)議轉換時延。因此,同步復制只適用于短距離(不超過200公里)的FC-SAN災備系統(tǒng),同時須采用硬件級災備技術。
2)異步復制(非實時容災)
異步復制模式中,本地系統(tǒng)無須等待異地系統(tǒng)確認即可進行后續(xù)I/O處理,大幅提高了數(shù)據(jù)復制效率,但代價是異地數(shù)據(jù)和本地數(shù)據(jù)可能存在不一致。
和同步復制相比,異步復制模式大大降低了對網絡性能、帶寬和距離的要求。因此,不僅適用于所有的IP-SAN災備場景,也適用于FC-SAN長距災備場景(超過200公里)。
1.2基于存儲備份容災技術
存儲系統(tǒng)型異地容災備份系統(tǒng)就是基于存儲系統(tǒng)(光纖磁盤陣列、NAS)進行備份容災的模式。通過存儲系統(tǒng)內建的固件(firmware)或操作系統(tǒng),通過IP網絡或DWDM、光纖通道等傳輸介面連結,將數(shù)據(jù)以同步或異步的方式復制到遠端。
基于存儲備份容災的優(yōu)點是對主機的性能影響比較小。由于運行機制大多是利用鏡像(mirror)來復制數(shù)據(jù),并能有效借助高速緩沖存儲器加速I/O存取,加上存儲自身具備的容錯能力,大大提高了整個容災系統(tǒng)的性能和可靠性。
虛擬化容災備份系統(tǒng)方式是一種網絡存儲型遠程容災備份系統(tǒng)架構,是在前端應用服務器與后端存儲系統(tǒng)之間的存儲區(qū)域網絡(SAN),加入一層存儲網關。由于網省公司內部存儲不統(tǒng)一,需要利用存儲虛擬化技術對存儲進行虛擬化,然后才能對數(shù)據(jù)進行存儲復制。
1.3基于數(shù)據(jù)庫備份容災技術
數(shù)據(jù)庫備份容災產品比較多,目前市面上有代表性的有Oracle的新貴GoldenGate、DSG公司的RealSync與Quest公司的SharePlex數(shù)據(jù)庫復制軟件。這三種軟件的原理都是一樣的,都是基于數(shù)據(jù)庫的日志進行復制。由于本文選用的是Goldengate軟件,所以重點介紹Goldengate軟件。
OracleGoldenGate(以下簡稱OGG)軟件是一種基于日志的結構化數(shù)據(jù)復制備份軟件,它通過解析源數(shù)據(jù)庫在線日志或歸檔日志來獲得數(shù)據(jù)的增量變化,再將這些變化應用到目標數(shù)據(jù)庫,從而實現(xiàn)源數(shù)據(jù)庫與目標數(shù)據(jù)庫同步。因為GoldenGate在標準配置下,是通過源端抓取進程向目標端發(fā)送隊列文件的方式傳輸數(shù)據(jù)的,但在實際應用中,會出現(xiàn)這么一個關于安全方面的問題:如果上級機器的安全策略不允許外網直接往里發(fā)送數(shù)據(jù),如何進行數(shù)據(jù)同步配置?
GoldenGate提供一個由目標端主動“申請”源端進行數(shù)據(jù)傳輸?shù)姆绞?,以保證內外網不同安全域下的數(shù)據(jù)安全保障。解決方案的體系架構如下:
主要是通過目標端一個額外的alias Extract進程,實現(xiàn)由目標端(可信任域)主動請求、向源端(未信任域)提供數(shù)據(jù)傳輸?shù)倪B接的過程。
2 數(shù)據(jù)級容災技術比較
2.1 如何選擇適合自己的復制方案
選擇數(shù)據(jù)復制解決方案要從幾方面著手:
首先,應從業(yè)務影響分析入手,來確定所需要的恢復時間目標(RTO)和恢復點目標(RPO)。
成本,不是所有的系統(tǒng)都有必要追求RTO和RPO的趨零,沒必要高射炮打蚊子。
對于不能接受數(shù)據(jù)丟失(RTO等于零)的應用,則需要同步復制。請注意同步復制的延時,因為它將拖累應用I/O的性能。如果存在任何延時風險或不可靠的帶寬,或是對于超過一定距離(50到300公里)的復制,異步復制是比較理想的選擇。
除了復制模式外,應用性能也會受到復制平臺的影響?;谥鳈C的復制會與應用爭奪寶貴的處理器、內存和I/O資源。用戶需要了解數(shù)據(jù)復制對帶寬的需求、對帶寬費用的影響以及會給其它應用和用戶造成什么影響,可考慮采用廣域網(WAN)優(yōu)化設備來保持帶寬。
以下針對數(shù)據(jù)級容災技術做了比較。
2.2 GoldenGate軟件復制與存儲復制技術相比
我們在最初產品和技術選型時,根據(jù)網省公司應用和數(shù)據(jù)庫特點,關鍵業(yè)務系統(tǒng)數(shù)據(jù)級容災采用Goldengate軟件復制,其它業(yè)務系統(tǒng)數(shù)據(jù)庫采用存儲復制技術,另外由于業(yè)務系統(tǒng)的存儲不統(tǒng)一,我們借助了存儲虛擬化技術,保證異構存儲環(huán)境下存儲復制的順利進行。
3 企業(yè)級數(shù)據(jù)級容災系統(tǒng)技術實現(xiàn)
災備中心的建設是一個系統(tǒng)的綜合工程,企業(yè)級災備中心需要綜合考慮安全管理、制度完善、數(shù)據(jù)庫管理、運維管理、存儲管理等諸多方面,從而確保災備系統(tǒng)的正常運行,不會因為其中任何一個環(huán)節(jié)發(fā)生問題而受到影響。我們在咨詢國際一流公司后,決定采用如下的實施線路:
1)首先對各業(yè)務系統(tǒng)進行調研,重點調研數(shù)據(jù)庫、操作系統(tǒng)方面的信息,并形成調研表格。
2)根據(jù)調研表格收集的信息,針對各業(yè)務系統(tǒng)制定詳細的實施方案和應急預案。
3)做好實施前的方案評審工作。
4)充分做好實施前的準備工作,如:操作系統(tǒng)和數(shù)據(jù)庫補丁安裝,操作系統(tǒng)內核參數(shù)和數(shù)據(jù)庫參數(shù)調整等。
5)對實施方案進行相關測試和驗證工作,并做好確認工作。
6)按照既定方案實施。
4 結論
電力信息容災備份系統(tǒng)的建設,能進一步提高全省信息網絡系統(tǒng)的安全性,推進電力信息資源的整合,促進電力信息網絡系統(tǒng)與信息共享業(yè)務的發(fā)展,為全省信息網絡和部門內外的信息共享技術的研發(fā)和試驗提供平臺,進一步提升公共應急服務能力。
國網公司三地容災中心的成立在很大程度上提高了公司信息系統(tǒng)的可用性、技術創(chuàng)新和業(yè)務連續(xù)性,對數(shù)據(jù)復制方法的深入研究有利于下一步應用級災備的開展。在技術方面沒有采用單一技術,而是根據(jù)生產實際的需要,根據(jù)不同應用場景靈活采用存儲復制和數(shù)據(jù)庫復制相結合的技術,提高了災備系統(tǒng)的可靠性、安全性和連續(xù)性。
參考文獻:
[1] Richard barker、Mark Erickson.企業(yè)重生-信息系統(tǒng)的災難恢復[M].北京:機械工業(yè)出版社,2004.
[2] 牛云,徐慶,辛陽,數(shù)據(jù)備份與災難恢復[M].北京:機械工業(yè)出版社,2004.
[3] 康春榮.數(shù)據(jù)安全項目案例:存儲與備份SAN與NAS容錯與容災[M].北京:科學出版社,2004.
[4] 孟敬,劉壽強.銀行災難備份系統(tǒng)解決方案解析[J].計算機安全,2003(12).