顧建榮 顧純
(上海工程技術大學信息化辦公室 上海市 201620)
隨著各高校智慧校園的全面發(fā)展與轉型,信息化技術在教學、科研和管理中發(fā)揮出越來越大的作用,但隨之而來的就是信息系統(tǒng)的爆發(fā)式增長,如果依然采用傳統(tǒng)的系統(tǒng)部署方式將無法滿足高校信息化的需要,因此虛擬化技術得到了最廣泛的應用[1]。
虛擬化技術是在硬件基礎架構(數(shù)據存儲、網絡、CPU、內存)與操作系統(tǒng)之間增加一個虛擬化層,通過虛擬化軟件將這些硬件資源進行池化,按需分配給各個操作系統(tǒng),最大限度的實現(xiàn)資源高效利用。對于業(yè)務系統(tǒng)的管理人員而言將不再關心底層硬件的品牌、型號、軟硬件兼容性等,只需根據業(yè)務的實際需要向云平臺申請相應的資源即可。
虛擬化技術為高校帶來便利的同時也帶來了許多的挑戰(zhàn),包括平臺系統(tǒng)架構的全新構建、資源池的合理規(guī)劃、網絡安全以及業(yè)務連續(xù)性和數(shù)據保護等。本文則基于我校的備份一體機項目對數(shù)據保護及業(yè)務連續(xù)性方案設計與實施的應用。
我校于2013年打造了虛擬化平臺,并完成了全業(yè)務上虛擬化,共計102 臺虛擬機實現(xiàn)P2V(Physical to Virtual)轉換,之后每年的虛機數(shù)量以20%左右的速度進行高速增長,截止2020年12月共計虛機423 臺。
云主機高速增長的同時數(shù)據安全卻面臨極大的風險。業(yè)務系統(tǒng)安全策略由各個業(yè)務系統(tǒng)負責人自行制定,通常包括數(shù)據的本地備份、網盤備份、光盤刻錄、虛擬機克隆等;業(yè)務連續(xù)性包括負載均衡、數(shù)據庫集群等。核心系統(tǒng)的安全策略是否執(zhí)行到位難以確認,大量非核心系統(tǒng)根本沒有備份機制,一旦發(fā)生問題可能導致數(shù)據直接丟失。
因此為我校的虛擬化數(shù)據中心打造一個統(tǒng)一、全覆蓋的數(shù)據安全管理平臺是非常必要的,但同時會面臨五大挑戰(zhàn)[2]:
(1)覆蓋范圍問題:我校的虛擬機操作系統(tǒng)與業(yè)務類型繁多,對于數(shù)據安全的要求也不盡相同,既然打造一個統(tǒng)一的數(shù)據安全平臺,那么必然要做到全面覆蓋。
(2)備份策略的制定:根據業(yè)務的重要性、類型不同需制定不同的備份策略。滿足各個業(yè)務系統(tǒng)的需求。
(3)備份時間窗口的設定:由于備份時會占用部分系統(tǒng)資源,包括磁盤IO、網絡帶寬等。為避免備份對學校日常工作造成影響,因此整個備份任務須在23:00 到次日6:00 進行。
(4)備份介質的選擇:傳統(tǒng)的備份介質有很多,包括磁帶庫、光盤、數(shù)據存儲等。按照常見的備份策略(每天增量備份,周末全備,數(shù)據保留2 個月),則需準備源數(shù)據10 倍的存儲空間,且隨著業(yè)務系統(tǒng)的快速增長,備份介質也隨之不斷的增長,這會給備份體系帶來極大的存儲容量的挑戰(zhàn)。
(5)備份及業(yè)務連續(xù)性的災難恢復演練:對于一個備份或容災系統(tǒng)來說應急預案和災難恢復演練是非常重要卻容易忽視的兩個環(huán)節(jié)。應急預案制定容易,但定期的災難恢復演練卻難以做到,原因是很多破壞性測試會增加業(yè)務系統(tǒng)損壞的風險,給我校帶來不必要的損失,因此業(yè)務系統(tǒng)管理人員不愿意承擔這額外的風險,導致災難恢復演練難以推進。因此數(shù)據安全平臺必須要提供一種安全可靠的解決方案,既能測試備份及容災系統(tǒng)的可用性,又能不對現(xiàn)有業(yè)務造成額外風險。
我校通過在災備數(shù)據中心部署備份一體機構建了數(shù)據安全平臺,對全校所有業(yè)務系統(tǒng)實現(xiàn)異地數(shù)據安全保護,針對部分核心業(yè)務系統(tǒng)實現(xiàn)異地業(yè)務連續(xù)性保護,如圖1所示。
圖1:備份架構拓撲圖
在制定數(shù)據備份策略時,我們需要重點考慮RPO、RTO 這兩個指標。
● 恢復點目標(Recovery-Point Objective - RPO)
恢復點目標指在發(fā)生災難的情況下企業(yè)可容忍的數(shù)據丟失量的衡量標準。
● 恢復時間目標(Recovery-Time Objective - RTO)
恢復時間目標指災難發(fā)生后,企業(yè)業(yè)務系統(tǒng)恢復運營所需要耗費的時間。
我們對所有業(yè)務系統(tǒng)和數(shù)據庫進行梳理,按照其重要性分為1級、2 級、3 級,并針對不同安全級別制定不同的備份策略,如表1所示。
表1:備份策略
傳統(tǒng)的備份介質,如磁帶庫、光盤等,其常規(guī)的備份策略需大約原始數(shù)據量的10 倍空間保存?zhèn)浞莞北綶3]。備份一體機采用的備份介質是帶去重功能的磁盤備份,根據廠商的數(shù)據,去重比最高可達1:50。磁盤備份相比磁帶庫等其他方式的備份可大大縮短備份副本恢復的時間。源端去重技術結合CBT(changing block tracing 基于快照技術(ROW),將虛擬機快照后變化的數(shù)據塊進行記錄并放到CBT 中;備份:僅需傳輸當天變化的數(shù)據量;恢復:只恢復變更的數(shù)據塊,提高恢復時間,通過一根萬兆裸光纖就可滿足備份、恢復傳輸?shù)男枨蟆?/p>
全校所有業(yè)務系統(tǒng)按傳統(tǒng)的備份方式進行備份,則備份數(shù)據量達到近500TB(每天全備,數(shù)據保留2 周),通過去重后實際備份容量為13.68TB(包含一些系統(tǒng)文件),去重比為1:39.8。
通過觀察最近一個月的數(shù)據增量,可發(fā)現(xiàn)存儲介質使用量基本趨于穩(wěn)定,保持在55% ~65%之間。未來可根據實際使用情況決定是否進行存儲的擴容。
數(shù)據保護的方式分成兩類,第一類是虛擬化映像級備份,第二類是針對數(shù)據庫實現(xiàn)客戶機級別備份(客戶機級別備份需要根據不同操作系統(tǒng)、數(shù)據庫類型安裝相應的探針)[4]。
2.3.1 映像級備份
在時間窗口內完成一次整臺虛機的全備份,配置改變塊跟蹤(CBT)備份模式,每天全備份實際僅備份了改變塊的數(shù)據。
2.3.2 客戶機級備份
對于部署了數(shù)據庫的虛擬機,通過安裝相應的探針進行文件級備份。備份一體機兼容Oracle、SQL Server、DB2、Sybase、SAP和SAP HANA 等數(shù)據庫類型,滿足不同業(yè)務的需求。
單純的數(shù)據備份只能保障RPO=24Hour,極端情況下可能會丟失24Hour 的數(shù)據。針對核心數(shù)據庫及部分有實時數(shù)據更新的虛機需要,通過備份一體機中的RecoverPoint for VMs 實現(xiàn)RPO=0。
簡單來說通過Recover Point 的IO 拆分器會拆分寫入到某個虛機VMDK/RDM 的IO 寫操作,并將發(fā)送一份拷貝至生產VMDK 以及災備的集群中。同時會將寫IO 信息發(fā)送至復制副本日志,從而使終端用戶能在執(zhí)行恢復操作時恢復到任意時間點。
這樣,當生產環(huán)境的某臺虛機發(fā)生故障時,可直接在災備集群將業(yè)務恢復,或者回滾到某一個時間點,確保業(yè)務的連續(xù)性。
針對不同的虛擬機類型及故障場景建立不同的應急預案:
2.5.1 單臺虛擬機無法正常使用
使用技術:備份一體機DP 進行恢復
RPO =1Day (可恢復1 天前的備份副本);RTO = 2-3Hour(200G數(shù)據需恢復需10Min)。
業(yè)務恢復步驟:
選擇虛擬機及備份副本,完成虛擬機及業(yè)務恢復。
2.5.2 業(yè)務系統(tǒng)文件誤刪除或丟失
使用技術:備份一體機DP 進行恢復
RPO =1Day (可恢復1 天前的文件);RTO = 30Min-2Hour(200G數(shù)據需恢復需10Min)。
業(yè)務恢復步驟:
選擇虛擬機及備份副本,確認丟失文件的路徑,選擇恢復的目標,完成丟失文件的恢復。
2.5.3 非核心數(shù)據庫文件損壞或丟失
使用技術:備份一體機DP 進行恢復
RPO =1Day (可恢復1 天前的文件);RTO = 30Min-2Hour(200G數(shù)據需恢復需10Min)。
業(yè)務恢復步驟:
選擇數(shù)據庫副本文件進行數(shù)據恢復,恢復后確保數(shù)據完整性及數(shù)據庫可用性。
2.5.4 核心業(yè)務系統(tǒng)發(fā)生宕機無法快速恢復
使用技術:通過RP 技術進行恢復
RPO = 30sec ;RTO = 5min。
業(yè)務恢復步驟:選擇相應的時間點,進行容災切換,將備機直接開啟,并確認業(yè)務是否可以使用。
災難恢復演練是整個數(shù)據安全體系中非常重要的環(huán)節(jié),通過災難恢復演練可以達到訓練人員、提高災難恢復能力、確保備份容災數(shù)據可用性等目的[5]。因此需要根據實際的情況,制定災難恢復演練計劃。
首先,確立組織演練規(guī)劃小組。然后約定演練范圍及周期:前期的演練會盡量降低復雜度,在零風險的前提下進行多次小規(guī)模演練,提升管理人員的災難恢復能力。設計演練場景并制定恢復策略:針對應急預案設立不同的演練場景及相應的恢復策略。最后進行實戰(zhàn)演練及總結:監(jiān)控并記錄整個恢復過程,驗證災難恢復流程及備份數(shù)據的有效性。
2.6.1 虛擬機備份恢復
將演練計劃中需恢復的虛機進行恢復,恢復后將虛機開啟,并修改指定IP 地址。由業(yè)務負責人確認恢復后的虛機是否可用,數(shù)據是否完整。
2.6.2 虛擬機文件恢復
將演練計劃中需恢復的虛機文件恢復到指定目錄,由業(yè)務負責人確認恢復的文件是否數(shù)據完整。
2.6.3 容災切換演練
同業(yè)務系統(tǒng)的所有虛機會放置在一個一致性組下,業(yè)務恢復時選擇test 測試選項。RP 軟件會將一致性組下災備的業(yè)務系統(tǒng)全部開啟,并允許讀寫,同時將這些虛機放置在一個孤立的網絡下,確保不會對生產環(huán)境造成影響。然后由業(yè)務人員對災備的業(yè)務系統(tǒng)進行測試,確保災備業(yè)務系統(tǒng)的可用。
數(shù)據安全平臺設計的目標是實現(xiàn)所有業(yè)務系統(tǒng)的全面覆蓋,滿足不同業(yè)務級別、類型系統(tǒng)的備份恢復需求,保證數(shù)據安全,確保關鍵業(yè)務的連續(xù)性,滿足學校對數(shù)據安全的要求。
方案設計上要充分考慮備份恢復的方式、備份介質的空間及類型、故障恢復的預案等問題。同時通過定期的災難恢復演練不斷提升人員技術能力與系統(tǒng)災難恢復能力,災難恢復演練的復雜度逐漸從易到難,最終實現(xiàn)業(yè)務的整體切換。