吳志峰
企業(yè)和政府部門對數(shù)據(jù)的高可靠性和高可用性越來越重視。數(shù)據(jù)丟失,尤其是核心數(shù)據(jù)丟失,很有可能造成整個系統(tǒng)的癱瘓,給企業(yè)帶來無法估量的損失。
導致數(shù)據(jù)丟失的原因很多,包括人為的操作錯誤、軟件缺陷、硬件故障、電腦病毒、黑客攻擊、自然災難等。IDC的調查數(shù)據(jù)顯示,造成企業(yè)數(shù)據(jù)丟失的原因中,44%是物理錯誤,53%是邏輯錯誤,3%是自然災難。無論是哪種原因導致的數(shù)據(jù)丟失,都可能輕而易舉地摧毀企業(yè)賴以生存的IT系統(tǒng)。
針對企業(yè)數(shù)據(jù)丟失可能造成的嚴重后果,2007年7月頒布的《信息系統(tǒng)災難恢復規(guī)范》(GB/T 20988-2007)要求,企業(yè)要根據(jù)RPO(恢復點目標)和RTO(恢復時間目標)指標的不同要求,制定不同的容災機制,建立不同級別的容災系統(tǒng)。
容災系統(tǒng)是不是只有硬件廠商推崇的兩地三中心這一種模式?是不是所有的企業(yè)都需要拿出幾百萬元甚至更多,建設只防范小概率災難事件的容災系統(tǒng)?答案當然是否定的。事實上,容災的要求因不同的企業(yè)、不同的應用類型而異,究竟采取什么樣的容災措施,應該依據(jù)災難的程度而定,這樣才能保證最低的整體擁有成本和最大的投資回報率。
不同級別的容災要求各異
用戶無論采用什么樣的容災方案,災難備份都是必須的。建立災難備份系統(tǒng)是企業(yè)實現(xiàn)容災的第一步。
《信息系統(tǒng)災難恢復規(guī)范》(GB/T 20988-2007)明確了信息系統(tǒng)災難的概念。一旦信息系統(tǒng)出現(xiàn)了災難,就要進行災難恢復,而為了進行災難恢復,就必須提前進行災難備份。
按照《信息系統(tǒng)災難恢復規(guī)范》(GB/T 20988-2007)的定義,災難備份系統(tǒng)由數(shù)據(jù)備份系統(tǒng)、備用數(shù)據(jù)處理系統(tǒng)和備用網(wǎng)絡系統(tǒng)三個子系統(tǒng)構成,其中最為復雜的是建立滿足災難恢復要求的數(shù)據(jù)備份系統(tǒng)。
數(shù)據(jù)備份系統(tǒng)的作用是對數(shù)據(jù)進行保護。為防止物理錯誤和邏輯錯誤,滿足RPO、RTO指標和數(shù)據(jù)保留時間的要求,數(shù)據(jù)備份系統(tǒng)普遍采用了復制技術、快照技術及備份技術。這三項技術各有利弊,但無論哪一種技術都不能完全滿足災難恢復的所有目標。因此,企業(yè)在規(guī)劃設計災難備份系統(tǒng)時,應該綜合采用上述這些技術。
尋找適合的容災方案
選擇容災解決方案,切忌貪大求全,適合的才是最好的。
1~2 級災難備份方案 1~2級災難備份系統(tǒng)要求每周做備份,但沒有數(shù)據(jù)復制要求。要滿足上述要求,用戶可以選擇一款具有多副本管理功能的備份軟件。
與傳統(tǒng)備份軟件在多副本管理方面不夠完善、存在很大局限性不同,CommVault Simpana備份/恢復軟件提供了內嵌的災難恢復能力,當災難發(fā)生后可以快速而輕易地在某個熱備中心恢復數(shù)據(jù)。為了改善備份/恢復的RTO指標,CommVault Simpana備份/恢復軟件采用自動預恢復的策略,在每次備份完成后,把備份數(shù)據(jù)提前恢復到備用系統(tǒng)上,從而更好地滿足了RTO指標的要求。
3~4級災難備份方案 3~4級災難備份系統(tǒng)要求每天進行備份,定時進行數(shù)據(jù)復制,RPO指標要求小于24小時,RTO指標要求小于兩天。要實現(xiàn)這一目標,災難備份解決方案除了要具有數(shù)據(jù)復制和快照功能以外,重復數(shù)據(jù)刪除功能也是必不可少的。
CommVault Simpana復制解決方案是一款能滿足3~4級災難備份需求、性價比很高的方案,能提高數(shù)據(jù)可用性和存儲、網(wǎng)絡等資源的利用率,滿足客戶應用級容災的需求。CommVault Simpana復制解決方案能很好地利用CommVault領先的重復數(shù)據(jù)刪除功能,消除來自遠程辦公室的冗余的備份數(shù)據(jù),從而減少數(shù)據(jù)備份量,并將經(jīng)重復數(shù)據(jù)刪除的數(shù)據(jù)以壓縮格式復制到中央站點,使得在帶寬有限的廣域網(wǎng)創(chuàng)建災難恢復副本成為可能。
5級災難備份方案 5級災難備份系統(tǒng)要求實現(xiàn)實時復制,對RPO、RTO指標的要求比較高。傳統(tǒng)的容災方案通常采用昂貴的存儲設備或卷管理軟件來實現(xiàn),投入非常高,而且對原有系統(tǒng)的改變也很大,需要重新安裝系統(tǒng)或數(shù)據(jù)庫。
CommVault的CDR連續(xù)數(shù)據(jù)復制方案是一個性價比很高的解決方案。CommVault CDR以近似實時的方式把數(shù)據(jù)從源計算機復制到目的計算機,保護應用數(shù)據(jù)和文件系統(tǒng)。
6級災難備份方案 6級災難備份系統(tǒng)要求能實時復制,實現(xiàn)數(shù)據(jù)零丟失,備份場地和設備要與生產系統(tǒng)完全一致,并且能無縫切換,RTO小于幾分鐘,RPO為零。
要實現(xiàn)上述目標,軟件、硬件和網(wǎng)絡的投入都相當大,在應用數(shù)據(jù)變化比較大的時候尤其如此。用戶要想實現(xiàn)零數(shù)據(jù)丟失,可以采用兩種方式。第一種是基于應用軟件的容災,即通過應用軟件同時向兩個中心提交事務,當兩個中心都成功進行事務處理后,應用軟件才確認該事務提交成功。這種方法的優(yōu)點是對網(wǎng)絡和存儲的要求不高,最大的缺點是必須隨著應用的變化不斷更新應用軟件。第二種方式是,在存儲層建立同步的數(shù)據(jù)復制,要求兩中心有高速、穩(wěn)定的網(wǎng)絡連接。
CommVault的解決方案也能滿足6級災難備份的要求,具體來說,在生產中心和容災中心同時進行數(shù)據(jù)備份或快照管理,一旦生產中心或容災中心的系統(tǒng)發(fā)生問題或崩潰時,可以利用備份數(shù)據(jù)或快照副本進行快速恢復。例如,當容災中心的數(shù)據(jù)丟失時,如果容災中心沒有本地備份數(shù)據(jù),則需要花費很長時間把生產中心的全部數(shù)據(jù)同步到容災中心;如果容災中心本地有備份數(shù)據(jù),就可以先恢復本地的備份數(shù)據(jù),再同步差異的生產數(shù)據(jù),花費的時間比較短。
應急庫容災解決方案是不錯的選擇
不同的行業(yè)、不同的企業(yè)甚至是企業(yè)內不同的應用系統(tǒng)對容災的要求都是不同的。對于電信、金融等行業(yè)大型用戶而言,一些關鍵的核心業(yè)務系統(tǒng)的容災必須做到瞬間起效,絕對不能讓突如其來的災難影響企業(yè)業(yè)務的正常運營,中斷一秒也不行。但是對一些輔助的系統(tǒng),容災的要求相對較低。很多中小企業(yè)雖然也需要容災方案。
對于既要求較高的RPO和RTO指標,又無法承擔高昂的容災系統(tǒng)建設費用的用戶來說,建設應急庫是一個比較好的選擇。建設應急容災解決方案的目標是提高備份恢復的RPO和RTO級別,確保數(shù)據(jù)丟失后能在一定時間內恢復。
CommVault首推的應急庫并不是容災系統(tǒng),只是為了保證數(shù)據(jù)和系統(tǒng)的正常應用,但是無法實現(xiàn)自動切換數(shù)據(jù)庫應用,RPO的指標也相對較差(只是分鐘級別,而不是秒級別)。應急庫能夠幫助企業(yè)在發(fā)生極端災難的情況下臨時應急;能夠避免用戶生產庫的物理和邏輯故障;方便用戶實現(xiàn)數(shù)據(jù)災備系統(tǒng)的驗證和演練;提高傳統(tǒng)應急方式(備份恢復)的RPO/RTO級別;利用自動化的手段,實現(xiàn)數(shù)據(jù)庫應急。