摘要:隨著云計算、大數(shù)據(jù)、人工智能等新一代信息技術快速發(fā)展,給企業(yè)信息化發(fā)展插上了翅膀。我們正處在一個信息數(shù)據(jù)爆炸性增長的大數(shù)據(jù)時代,數(shù)據(jù)的存儲方式由分散在各個服務器硬盤轉變?yōu)榧械拇鎯Y源池。各種信息數(shù)據(jù)給企業(yè)帶來不菲價值的同時,信息數(shù)據(jù)缺失帶來的影響也隨之而來,容災備份突顯出其重要性。該文在容災備份概述、容災級別和容災備份技術介紹的基礎上,描述災備中心系統(tǒng)架構和建設策略,指出應根據(jù)實際情況針對性地建設災備中心,最大程度的保障企業(yè)信息化。
關鍵詞:容災備份;災備中心;建設策略
中圖分類號:TP311 ? ? ? ?文獻標識碼:A
文章編號:1009-3044(2021)31-0065-03
現(xiàn)在是信息化時代,信息數(shù)據(jù)成為各行各業(yè)的基礎和命脈,信息數(shù)據(jù)的缺失將影響業(yè)務系統(tǒng)的正常運行,導致企業(yè)的生產(chǎn)經(jīng)營受到重大影響。傳統(tǒng)的數(shù)據(jù)備份模式將數(shù)據(jù)備份至本地存儲資源池,避免個人因素、服務器硬盤故障、操作系統(tǒng)中毒等原因造成的數(shù)據(jù)缺失,但對于自然災害造成的損毀則無法挽救。當下虛擬化和云計算的業(yè)務系統(tǒng)有更高的響應要求,傳統(tǒng)的數(shù)據(jù)備份模式無法滿足新時代的RTO和RPO需求。從戰(zhàn)略角度研究如何建設災備中心保障企業(yè)信息化顯得尤為重要。
1 容災備份概述
1.1容災備份的含義
容災指在物理上間隔開的兩處或多處場所,各自建設一套完整的業(yè)務系統(tǒng)。業(yè)務系統(tǒng)可以切換至任意一處場所,各處業(yè)務系統(tǒng)互相檢測對方運行狀態(tài)。當自然災害導致某一處場所業(yè)務系統(tǒng)無法運行時,另外一處場所業(yè)務系統(tǒng)可以及時接管,保證業(yè)務系統(tǒng)穩(wěn)定、安全運行。單從目的出發(fā),所有為了保障業(yè)務系統(tǒng)可用性做出的工作都稱之為容災。
備份指對信息數(shù)據(jù)、操作系統(tǒng)的額外復制。避免個人因素、服務器硬盤故障、操作系統(tǒng)中毒等原因造成的數(shù)據(jù)缺失,從服務器硬盤、存儲資源池中手工拷貝或使用備份軟件將數(shù)據(jù)復制到其他存儲介質的過程。完整備份、增量備份、差異備份都是備份的不同模式。
備份和容災是存儲領域兩個極其重要的部分,備份是信息數(shù)據(jù)可用性的最后一道防線,是容災的根本和基礎;容災是達成應用高可用性的手段之一[1]。
1.2 容災級別
根據(jù)應對突發(fā)災難時,容災所給出的不同程度的應急解決方案,可以區(qū)分為數(shù)據(jù)級容災、應用級容災和業(yè)務級容災。
1.2.1 數(shù)據(jù)級容災
數(shù)據(jù)級容災,顧名思義就是針對數(shù)據(jù)本身層面的容災。當發(fā)生災難時,數(shù)據(jù)容災可以及時恢復信息數(shù)據(jù),保證數(shù)據(jù)完整性。但數(shù)據(jù)容災僅僅保護信息數(shù)據(jù),如果災難發(fā)生時業(yè)務系統(tǒng)也遭受損壞,恢復的信息數(shù)據(jù)也無法使用。
1.2.2 應用級容災
應用級容災在數(shù)據(jù)級容災的基礎上,對業(yè)務系統(tǒng)也進行容災。在災備環(huán)境中搭建一套同樣的業(yè)務系統(tǒng),保持與運行的業(yè)務系統(tǒng)數(shù)據(jù)同步傳輸。當發(fā)生災難時,信息數(shù)據(jù)和業(yè)務系統(tǒng)同時快速切換至災備環(huán)境的業(yè)務系統(tǒng),保證業(yè)務系統(tǒng)運行連續(xù)性。應用級容災可以讓業(yè)務系統(tǒng)隨時切換運行場所,保證業(yè)務系統(tǒng)始終都在線,不受外界環(huán)境的變化影響。
1.2.3 業(yè)務級容災
除了保證信息數(shù)據(jù)、業(yè)務系統(tǒng)在災備環(huán)境可用之外,還要保障整個企業(yè)的業(yè)務仍對外服務,這里面就包含了業(yè)務服務可用,管理部門可用、業(yè)務生產(chǎn)部門可用、對外服務部門可用等,這是最終層次的容災[2]。
信息化時代高速發(fā)展,對業(yè)務系統(tǒng)提出了更高的“四不原則”:業(yè)務不停、網(wǎng)絡不斷、系統(tǒng)不癱、數(shù)據(jù)不丟[3],這一核心理念在業(yè)務系統(tǒng)安全生產(chǎn)過程中起到了非常重要的指導作用。
2 容災備份的技術
2.1 ?數(shù)據(jù)備份技術
數(shù)據(jù)備份是容災備份的基礎工作,為了防止個人因素、硬盤故障、系統(tǒng)中毒等原因造成的數(shù)據(jù)缺失,從硬盤、存儲資源池將數(shù)據(jù)復制到其他存儲介質的過程。傳統(tǒng)的數(shù)據(jù)備份通常采用磁帶庫進行冷備份,隨著網(wǎng)絡帶寬發(fā)展,數(shù)據(jù)備份采用了數(shù)據(jù)備份管理軟件結合備份存儲設備實時在線運行。
2.2 遠程復制技術
通過遠程復制技術,來實現(xiàn)數(shù)據(jù)中心和災備中心之間的數(shù)據(jù)傳輸,保證數(shù)據(jù)傳輸?shù)囊恢滦?、可靠性。將?shù)據(jù)中心產(chǎn)生的數(shù)據(jù)源源不斷的復制到災備中心,保證災難發(fā)生時業(yè)務系統(tǒng)恢復的數(shù)據(jù)損失最小化。
2.3 實時檢測技術
當災難發(fā)生,如何盡早發(fā)現(xiàn)業(yè)務系統(tǒng)不可用,如何盡快將業(yè)務系統(tǒng)切換到災備環(huán)境,都可以讓災難帶來的損失降到最低。除了人工發(fā)現(xiàn)災難到來時手動切換業(yè)務系統(tǒng),業(yè)務系統(tǒng)如何能自動檢測異常情況發(fā)生,自動切換成為關鍵。目前檢測技術一般采用心跳技術,即在數(shù)據(jù)中心和容災中心設定定期廣播機制,數(shù)據(jù)中心每隔一段時間向容災中心發(fā)送信號,表示自己處于正常運行狀態(tài)。當容災中心在設定的最大容忍時間內(nèi)都沒有收到信號時,容災中心便認為數(shù)據(jù)中心出現(xiàn)異常,采取接管行動。
3 災備中心的系統(tǒng)架構
容災中心的系統(tǒng)架構規(guī)劃,結合地域、功能的不同劃分為:本地備份、異地熱備、異地互備。
3.1 本地備份
數(shù)據(jù)僅僅在本地存儲設備做了備份保存,并沒有在異地單獨建設一個災備中心,如果遇到災難情況比較嚴重,本地備份難以實現(xiàn)數(shù)據(jù)恢復。
3.2異地熱備
在異地獨立建設一個災備中心,災備中心與數(shù)據(jù)中心數(shù)據(jù)傳輸通過網(wǎng)絡專線進行。在日常業(yè)務系統(tǒng)正常運行情況下,災備中心僅僅只是備份數(shù)據(jù),不涉及業(yè)務系統(tǒng)運行。如果數(shù)據(jù)中心通信發(fā)生異常,災備中心及時響應并接管業(yè)務系統(tǒng)運行,保證業(yè)務系統(tǒng)正常運行的連續(xù)性[4]。
3.3 異地互備
在與數(shù)據(jù)中心有一定物理距離的異地建設另外一個數(shù)據(jù)中心。業(yè)務系統(tǒng)在日常情況下隨機運行在一個數(shù)據(jù)中心,另外一個靜默同步數(shù)據(jù)。在遇到突發(fā)災難時,兩個數(shù)據(jù)中心可以根據(jù)自身情況相互接管業(yè)務系統(tǒng)。
4 災備中心的建設策略
災備中心的建設策略,應全盤考慮企業(yè)成長結合不同時期的業(yè)務需求。創(chuàng)業(yè)伊始,企業(yè)的業(yè)務系統(tǒng)還剛剛起步,完全可以依照數(shù)據(jù)級容災的要求對關鍵信息數(shù)據(jù)進行備份;到了成長階段,企業(yè)的發(fā)展伴依托業(yè)務系統(tǒng)信息化快速成長,這個時候需要選擇應用級容災來保障企業(yè)成長需要;來到穩(wěn)定發(fā)展階段,企業(yè)經(jīng)過高速的發(fā)展,業(yè)務系統(tǒng)伴隨著企業(yè)規(guī)模不斷擴展。這個時候就可以考慮選擇同城雙活或者兩地三中心的容災備份方案,確保企業(yè)發(fā)展的信息數(shù)據(jù)不丟失,業(yè)務系統(tǒng)安全、穩(wěn)定地運行。在當今以服務為導向和以客戶為中心的業(yè)務環(huán)境下,保障災備中心的正常運行對數(shù)據(jù)中心具有重大意義[5]。
4.1 本地數(shù)據(jù)備份
當數(shù)據(jù)中心正常運行時,將業(yè)務系統(tǒng)不間斷運行的過程中產(chǎn)生的數(shù)據(jù)實時或定期備份到除本地存儲之外的備份存儲。如果硬件設備允許,可以同時歸檔到磁帶庫保存。
4.2 雙活數(shù)據(jù)中心
在數(shù)據(jù)中心之外,再獨立建設一個災備中心,災備中心與數(shù)據(jù)中心通過網(wǎng)絡通信進行數(shù)據(jù)備份傳輸。在業(yè)務系統(tǒng)正常運行情況下,災備中心只備份數(shù)據(jù),不涉及業(yè)務系統(tǒng)運行,但可以對外提供信息數(shù)據(jù)讀取服務。如果數(shù)據(jù)中心通信發(fā)生異常,災備中心及時響應并接管業(yè)務系統(tǒng)運行,保證業(yè)務系統(tǒng)正常運行的連續(xù)性。
4.3 兩地三中心
在雙活業(yè)務中心的架構基礎之上,在異地建設一個獨立的災備中心。不同于其他容災方案,兩地三中心的容災依靠資源組的狀態(tài)來判斷是否需要進行業(yè)務接管切換。資源組的狀態(tài)一共有三種,分別為online、offline、fault。在online或者offline的狀態(tài)下,資源組都能夠按照既定的方案運行腳本和程序,保障業(yè)務系統(tǒng)始終在線運行。數(shù)據(jù)中心正常運行時,其資源組的狀態(tài)顯示為online,其他兩個災備中心的資源組狀態(tài)為offline。當數(shù)據(jù)中心的資源組出現(xiàn)fault狀態(tài)時,資源組判斷災難已經(jīng)發(fā)生,同時進行業(yè)務系統(tǒng)切換,從而保障了業(yè)務的連續(xù)性。
4.4 ?災備中心的容災指標
在大數(shù)據(jù)時代,企業(yè)對業(yè)務的連續(xù)性有嚴苛的要求,但有些天災人禍和人為故障難以避免,一旦發(fā)生意外就需要啟用災備方案,保障業(yè)務系統(tǒng)的連續(xù)性。RPO和RTO可以很好地反映出企業(yè)系統(tǒng)的容災性能如何。這兩個指標值的高低,直接反映了當前系統(tǒng)數(shù)據(jù)在災難恢復方面的能力。
4.4.1 RPO(Recovery Point Object)恢復點目標
當災難發(fā)生時,備份的數(shù)據(jù)能夠恢復到具體哪個時間節(jié)點,在這個時間節(jié)點之后到災難發(fā)生時的數(shù)據(jù)則丟失了,體現(xiàn)業(yè)務系統(tǒng)能承受的最大數(shù)據(jù)缺失時間段。比如定時備份在每天0點進行,設置的業(yè)務系統(tǒng)RPO為12小時。如果早上8點發(fā)生災難,最大數(shù)據(jù)缺失時間就是8個小時,沒有超過RPO規(guī)定時間并無大礙;如果晚上8點發(fā)生災難,最大數(shù)據(jù)缺失時間就是20個小時,大大超過RPO規(guī)定時間,那么會導致業(yè)務系統(tǒng)受到影響以致造成損失。
4.4.2 RTO(Recovery Time Objective)恢復時間目標
當災難發(fā)生時,業(yè)務系統(tǒng)容忍停止運行的最長時間,也就是災難發(fā)生到業(yè)務系統(tǒng)恢復運行功能所需要的最短時間。如果業(yè)務系統(tǒng)設定災難發(fā)生的6個小時內(nèi)必須恢復,那么RTO就是6小時。這意味著能容忍業(yè)務系統(tǒng)停止運行的時間為6小時,即雖然業(yè)務系統(tǒng)在這6小時內(nèi)不能運行,但業(yè)務可以正常維持進行。如果業(yè)務系統(tǒng)在6小時后仍不能恢復運行,那么業(yè)務可能會遭受無法彌補的損失。
4.5 完備的災備中心設計
首先區(qū)分同城災備中心和異地災備中心的功能和差異,數(shù)據(jù)中心與同城災備中心的距離比較近,通信線路質量較好,比較容易實現(xiàn)數(shù)據(jù)的快速恢復,保證數(shù)據(jù)完整性和數(shù)據(jù)零丟失。而異地災備中心與數(shù)據(jù)中心之間的距離較遠,異地災備中心不僅可以防范區(qū)域性災難時夠保障關鍵業(yè)務的安全性,做到數(shù)據(jù)不丟失,還能夠防范戰(zhàn)爭、地震、水災等風險。而兩地三中心比同城災備中心多了一個異地數(shù)據(jù)中心。這個異地數(shù)據(jù)中心主要用于規(guī)避大自然災害發(fā)生時,異地的數(shù)據(jù)中心能夠立即啟動,保障業(yè)務和數(shù)據(jù)最大限度不受影響,仍能夠正常運行[6]。其次建設前期應該特別關注,業(yè)務系統(tǒng)對業(yè)務的重要性決定了容災級別是數(shù)據(jù)級還是應用級;業(yè)務系統(tǒng)的硬件性能高低決定了災備中心的設備選型;業(yè)務對RTO/RPO的要求決定了容災備份是同步備份數(shù)據(jù)還是異步備份數(shù)據(jù);生產(chǎn)存儲的數(shù)據(jù)大小和增長快慢,決定了災備中心容災存儲的選擇。
5 結束語
當前自然災害頻發(fā)、網(wǎng)絡攻擊越來越嚴重的背景下,盡快建設災備中心的任務迫在眉睫。如何建設災備中心是一項縝密細致的工程,我們應該從業(yè)務系統(tǒng)建設情況出發(fā),結合企業(yè)自身發(fā)展情況進行科學有效的規(guī)劃和建設,保證災備管理程序嚴格執(zhí)行,讓災備中心真正地發(fā)揮作用,為信息化領域的關鍵業(yè)務和業(yè)務系統(tǒng)安全保駕護航。
參考文獻:
[1] 林小村.馬玉林.翁小云.數(shù)據(jù)中心建設與運行管理[M].北京:科學出版社,2010.
[2] 張冬.大話存儲[M].北京:清華大學出版社,2008.
[3] 趙晟華.數(shù)據(jù)中心運維服務管理與呼叫中心整合的有關技術分析[J].中國信息化,2020(7):58-59.
[4] 狄廣義.數(shù)據(jù)中心災備系統(tǒng)建設研究[J].通訊世界,2017(23):47-49.
[5] 顧大偉,郭建兵,黃偉.數(shù)據(jù)中心建設與管理指南[M].北京:電子工業(yè)出版社,2010.
[6] 吳瑩.兩地三中心容災備份系統(tǒng)建設及成效[J].金融科技時代,2016,24(5):23-27.
【通聯(lián)編輯:代影】
收稿日期:2021-03-20
作者簡介:許上鑒(1988—),男,福建長汀人,中級職稱,大學本科,主要從事信息數(shù)據(jù)安全管理和數(shù)據(jù)庫管理工作。