張 亮 北京電信規(guī)劃設(shè)計(jì)院有限公司工程師楊春麗 北京電信規(guī)劃設(shè)計(jì)院有限公司工程師馬媛媛 北京電信規(guī)劃設(shè)計(jì)院有限公司工程師
?
數(shù)據(jù)中心業(yè)務(wù)連續(xù)性方案設(shè)計(jì)
張亮北京電信規(guī)劃設(shè)計(jì)院有限公司工程師
楊春麗北京電信規(guī)劃設(shè)計(jì)院有限公司工程師
馬媛媛北京電信規(guī)劃設(shè)計(jì)院有限公司工程師
摘要:目前,信息已經(jīng)成為企業(yè)的生命源泉,數(shù)據(jù)中心業(yè)務(wù)連續(xù)性也越來(lái)越重要,信息系統(tǒng)需要依據(jù)災(zāi)難恢復(fù)等級(jí)來(lái)統(tǒng)籌考慮業(yè)務(wù)連續(xù)性策略,探索信息系統(tǒng)容災(zāi)及災(zāi)難恢復(fù)方案。
關(guān)鍵詞:業(yè)務(wù)連續(xù)性;容災(zāi);災(zāi)難恢復(fù)
隨著信息化進(jìn)程快速發(fā)展,信息已經(jīng)成為企業(yè)的生命源泉,業(yè)務(wù)數(shù)據(jù)的安全、可靠及可用性成為企業(yè)信息化亟需解決的問(wèn)題。而信息化程度較高的電信、金融等行業(yè),大量數(shù)據(jù)甚至是海量數(shù)據(jù)在一個(gè)或幾個(gè)數(shù)據(jù)中心進(jìn)行集中存儲(chǔ),一方面提高了信息和數(shù)據(jù)管理的自動(dòng)化,提高了效率;另一方面也使數(shù)據(jù)中心的風(fēng)險(xiǎn)不斷提高,數(shù)據(jù)中心發(fā)生意外而造成的業(yè)務(wù)中斷或數(shù)據(jù)丟失都會(huì)給企業(yè)造成巨大的損失,因此保障業(yè)務(wù)連續(xù)性對(duì)企業(yè)變得越來(lái)越重要。本文依據(jù)國(guó)務(wù)院信息辦頒發(fā)的《重要信息系統(tǒng)災(zāi)難恢復(fù)指南》,對(duì)不同等級(jí)災(zāi)難恢復(fù)進(jìn)行了業(yè)務(wù)連續(xù)性的策略研究及方案設(shè)計(jì)。
2.1業(yè)務(wù)連續(xù)性概述
2.1.1業(yè)務(wù)連續(xù)性的定義
從廣義上來(lái)講,對(duì)于信息系統(tǒng)而言,一切引起系統(tǒng)非正常宕機(jī)的事件都可以稱之為災(zāi)難。災(zāi)難大致可以分為以下幾種類型:
(1)自然災(zāi)難,包括地震、臺(tái)風(fēng)、水災(zāi)、雷電、火災(zāi)等,這種災(zāi)難破壞性很大,影響面比較廣,但不常見(jiàn),頻率較低。
(2)設(shè)備故障,包括CPU、硬盤(pán)等設(shè)備損壞、電源中斷以及網(wǎng)絡(luò)故障等,這類災(zāi)難影響范圍比較小,破壞性也較小,但比較常見(jiàn)。
(3)人為操作失誤,包括誤操作、人為蓄意破壞等。業(yè)務(wù)連續(xù)性是指當(dāng)認(rèn)為以上災(zāi)難來(lái)臨的時(shí)候,基于建設(shè)完備的災(zāi)難備份系統(tǒng)切換,達(dá)到業(yè)務(wù)中斷時(shí)間最短和業(yè)務(wù)數(shù)據(jù)丟失最少的狀態(tài)。
2.1.2業(yè)務(wù)連續(xù)性水平指標(biāo)
業(yè)務(wù)連續(xù)性水平現(xiàn)在一般是以數(shù)據(jù)丟失量和數(shù)據(jù)恢復(fù)時(shí)間作為標(biāo)準(zhǔn)進(jìn)行評(píng)價(jià)的,所公認(rèn)的評(píng)價(jià)標(biāo)準(zhǔn)是RTO和RPO。
●RPO(RecoveryPointObject):即數(shù)據(jù)恢復(fù)點(diǎn)目標(biāo),主要指的是業(yè)務(wù)系統(tǒng)所能容忍的數(shù)據(jù)丟失量。
●RTO(RecoveryTimeObject):即恢復(fù)時(shí)間目標(biāo),主要指的是所能容忍的業(yè)務(wù)停止服務(wù)的最長(zhǎng)時(shí)間。
RPO針對(duì)的是數(shù)據(jù)丟失,而RTO針對(duì)的是服務(wù)丟失,二者沒(méi)有必然的關(guān)聯(lián)性。RPO和RTO的確定必須在進(jìn)行風(fēng)險(xiǎn)和業(yè)務(wù)影響分析后根據(jù)不同的業(yè)務(wù)需求確定。
2.2業(yè)務(wù)連續(xù)性層次
根據(jù)國(guó)務(wù)院信息辦發(fā)布的《重要信息系統(tǒng)災(zāi)難恢復(fù)指南》,業(yè)務(wù)連續(xù)性劃分為以下7個(gè)等級(jí):
(1)第1級(jí):這一級(jí)別的容災(zāi),實(shí)際上只有很低的災(zāi)難恢復(fù)能力,提供支持備份介質(zhì)場(chǎng)外存放,只能應(yīng)付CPU以及磁盤(pán)損壞等硬件方面的系統(tǒng)災(zāi)難,并且在這類災(zāi)難發(fā)生后,也無(wú)法保證業(yè)務(wù)的連續(xù)性,需要較長(zhǎng)的恢復(fù)時(shí)間。
(2)第2級(jí):這一級(jí)別的容災(zāi),提供備份場(chǎng)地,能調(diào)配所需資源。能夠保證CPU以及磁盤(pán)損壞等硬件方面系統(tǒng)災(zāi)難,但系統(tǒng)能夠迅速切換,保持業(yè)務(wù)的連續(xù)性。
(3)第3級(jí):在本地將關(guān)鍵數(shù)據(jù)備份,定時(shí)傳送。災(zāi)難發(fā)生后,按預(yù)定數(shù)據(jù)恢復(fù)程序恢復(fù)系統(tǒng)和數(shù)據(jù)。當(dāng)數(shù)據(jù)量增大時(shí),存在存儲(chǔ)介質(zhì)難管理的問(wèn)題,并且當(dāng)災(zāi)難發(fā)生時(shí)存在大量數(shù)據(jù)難以及時(shí)恢復(fù)的問(wèn)題。并且出現(xiàn)災(zāi)難時(shí),損失的數(shù)據(jù)量也較大。
(4)第4級(jí):通過(guò)網(wǎng)絡(luò)進(jìn)行定時(shí)數(shù)據(jù)備份。也就是通過(guò)網(wǎng)絡(luò)以異步方式,把主站點(diǎn)的數(shù)據(jù)復(fù)制到備份站點(diǎn),備份站點(diǎn)只備份數(shù)據(jù),不承擔(dān)業(yè)務(wù)。當(dāng)出現(xiàn)災(zāi)難時(shí),可以利用備份站點(diǎn)的數(shù)據(jù)進(jìn)行恢復(fù)。采用了通過(guò)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)復(fù)制的方式,因此兩個(gè)站點(diǎn)的數(shù)據(jù)同步程度要比等級(jí)3高,因此只會(huì)丟失少量數(shù)據(jù)。
(5)第5級(jí):通過(guò)網(wǎng)絡(luò)進(jìn)行實(shí)時(shí)數(shù)據(jù)備份。也就是通過(guò)網(wǎng)絡(luò)以同步方式,把主站點(diǎn)的數(shù)據(jù)復(fù)制到備份站點(diǎn),備份站點(diǎn)只備份數(shù)據(jù),不承擔(dān)業(yè)務(wù)。當(dāng)出現(xiàn)災(zāi)難時(shí),數(shù)據(jù)丟失量比等4級(jí)小,數(shù)據(jù)丟失趨于零,但是仍然存在系統(tǒng)恢復(fù)速度較慢的缺點(diǎn),可能造成系統(tǒng)服務(wù)的長(zhǎng)時(shí)間停止。
(6)第6級(jí):在異地建立一個(gè)與生產(chǎn)系統(tǒng)完全相同的備用系統(tǒng)。當(dāng)生產(chǎn)中心發(fā)生災(zāi)難時(shí),備用系統(tǒng)接替其工作任務(wù)。數(shù)據(jù)零損失,并能立即自動(dòng)轉(zhuǎn)移到災(zāi)備中心。
(7)第7級(jí):在異地建立一個(gè)與生產(chǎn)系統(tǒng)完全相同的備用系統(tǒng)。它們之間采用同步的方式進(jìn)行數(shù)據(jù)復(fù)制。當(dāng)生產(chǎn)中心發(fā)生災(zāi)難時(shí),備用系統(tǒng)接替其工作任務(wù)。
3.1關(guān)鍵技術(shù)方案設(shè)計(jì)
3.1.1數(shù)據(jù)復(fù)制保護(hù)方案設(shè)計(jì)
由于業(yè)務(wù)連續(xù)性分為7個(gè)等級(jí),不同等級(jí)災(zāi)難恢復(fù)需要不同的數(shù)據(jù)備份、復(fù)制保護(hù)技術(shù),故需要按照不同等級(jí)災(zāi)難恢復(fù)要求來(lái)配置不同的數(shù)據(jù)備份及復(fù)制保護(hù)措施。
(1)第1級(jí):只提供支持備份介質(zhì)場(chǎng)外存放,即備份介質(zhì)(如光盤(pán)、磁帶等)具備場(chǎng)外存放的條件即可滿足需求。
(2)第2級(jí):提供備份場(chǎng)地及調(diào)配所需資源,建議對(duì)關(guān)鍵應(yīng)用所需數(shù)據(jù)進(jìn)行復(fù)制保護(hù),即主機(jī)采用雙機(jī)熱備方式,存儲(chǔ)采用Raid方式對(duì)數(shù)據(jù)進(jìn)行保護(hù)。
(3)第3級(jí):在本地將關(guān)鍵數(shù)據(jù)備份,定時(shí)傳送。在第2級(jí)的基礎(chǔ)上,建議對(duì)關(guān)鍵數(shù)據(jù)進(jìn)行磁帶庫(kù)備份。
(4)第4級(jí):定時(shí)對(duì)關(guān)鍵數(shù)據(jù)進(jìn)行數(shù)據(jù)快照,完成數(shù)據(jù)在某一時(shí)間點(diǎn)的靜態(tài)映像,實(shí)現(xiàn)關(guān)鍵數(shù)據(jù)的快速?gòu)?fù)制與備份。
(5)第5級(jí):通過(guò)網(wǎng)絡(luò)以同步方式,把主站點(diǎn)的數(shù)據(jù)復(fù)制到備份站點(diǎn),備份站點(diǎn)只備份數(shù)據(jù),不承擔(dān)業(yè)務(wù)。此等級(jí)的數(shù)據(jù)復(fù)制保護(hù)建議采用數(shù)據(jù)遠(yuǎn)程復(fù)制技術(shù)(IBMPPRC、EMCSRDF、HDSTruecopy等),將本地?cái)?shù)據(jù)同步鏡像到備份站點(diǎn)。
(6)第6級(jí):在異地建立一個(gè)與生產(chǎn)系統(tǒng)完全相同的備用系統(tǒng)。通過(guò)各種數(shù)據(jù)同步技術(shù)將本地?cái)?shù)據(jù)同步到備用系統(tǒng)中。目前,主要的數(shù)據(jù)同步技術(shù)分為:基于磁盤(pán)數(shù)據(jù)復(fù)制、基于數(shù)據(jù)庫(kù)的復(fù)制、基于操作系統(tǒng)級(jí)鏡像的復(fù)制、基于應(yīng)用的復(fù)制。
●基于磁盤(pán)數(shù)據(jù)復(fù)制:主要是在磁盤(pán)級(jí)別對(duì)數(shù)據(jù)進(jìn)行復(fù)制,包括磁盤(pán)鏡象等,對(duì)生產(chǎn)系統(tǒng)的性能影響較小,但是網(wǎng)絡(luò)帶寬要求高,依賴存儲(chǔ)廠商。
●基于數(shù)據(jù)庫(kù)的復(fù)制:在主系統(tǒng)正常工作的同時(shí),將主系統(tǒng)產(chǎn)生的歸檔日志文件(ArchivedLog)不斷地傳送到備份數(shù)據(jù)庫(kù)系統(tǒng),并且利用這些日志文件在備份數(shù)據(jù)庫(kù)系統(tǒng)上連續(xù)進(jìn)行恢復(fù)(Recover)操作,以保持備份系統(tǒng)與主系統(tǒng)的數(shù)據(jù)的一致性,此類技術(shù)依賴于數(shù)據(jù)庫(kù)廠商,主要有IBM DB2 HADR、Oracle ODG/ ADG等主流技術(shù)。
●基于操作系統(tǒng)級(jí)鏡像的復(fù)制:通過(guò)主機(jī)上安裝的操作系統(tǒng)級(jí)鏡像軟件進(jìn)行遠(yuǎn)程數(shù)據(jù)鏡像也可實(shí)現(xiàn)數(shù)據(jù)的容災(zāi)。操作系統(tǒng)級(jí)鏡像軟件能將主系統(tǒng)卷上每次I/O操作的數(shù)據(jù)實(shí)時(shí)地復(fù)制到備份系統(tǒng)的相應(yīng)卷上,從而實(shí)現(xiàn)兩地?cái)?shù)據(jù)的同步或準(zhǔn)同步。
●基于應(yīng)用的復(fù)制:由應(yīng)用軟件實(shí)現(xiàn)數(shù)據(jù)的遠(yuǎn)程復(fù)制和同步。通過(guò)應(yīng)用軟件每次的業(yè)務(wù)處理數(shù)據(jù)分別存入主中心和備份中心的數(shù)據(jù)庫(kù)中。
以上4種數(shù)據(jù)同步技術(shù)的具體比較如表1所示。通過(guò)對(duì)比可知,適用于數(shù)據(jù)中心的數(shù)據(jù)同步技術(shù)為基于磁盤(pán)數(shù)據(jù)復(fù)制和數(shù)據(jù)庫(kù)的復(fù)制的技術(shù)。基于應(yīng)用的復(fù)制技術(shù)適用于特定應(yīng)用場(chǎng)景,而基于操作系統(tǒng)級(jí)鏡像的復(fù)制技術(shù)則占用主機(jī)資源較高,對(duì)主機(jī)性能有影響,適用于生產(chǎn)壓力不大的系統(tǒng)。
(7)第7級(jí):數(shù)據(jù)保護(hù)方案同第6級(jí)。
3.1.2網(wǎng)絡(luò)部署方案設(shè)計(jì)
考慮到未來(lái)數(shù)據(jù)中心的發(fā)展趨勢(shì),數(shù)據(jù)中心不僅有日益增長(zhǎng)的南北向流量,而且服務(wù)器之間交互也會(huì)越來(lái)越頻繁,產(chǎn)生大量的東西向流量。未來(lái)數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)需要能夠支撐虛擬機(jī)在數(shù)據(jù)中心的范圍內(nèi)進(jìn)行動(dòng)態(tài)遷移。因此,數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)及部署應(yīng)滿足以下特點(diǎn):
表1 4種數(shù)據(jù)同步技術(shù)比較
(1)應(yīng)滿足大規(guī)模東西及南北向流量,高吞吐高性能需求。
(2)支持更高系統(tǒng)級(jí)及數(shù)據(jù)中心網(wǎng)絡(luò)的可靠性。
(3)支持更高的隨需擴(kuò)展需求。
(4)支持虛機(jī)及物理機(jī)的簡(jiǎn)單無(wú)縫遷移。
由于第1~5級(jí)容災(zāi)方案主要是針對(duì)數(shù)據(jù)級(jí)保護(hù),沒(méi)有建立備用的業(yè)務(wù)系統(tǒng),因此網(wǎng)絡(luò)部署比較簡(jiǎn)單,不再一一闡述。本文主要關(guān)注第6、7級(jí)容災(zāi)方案中的網(wǎng)絡(luò)部署設(shè)計(jì)。
根據(jù)業(yè)務(wù)連續(xù)性需求,當(dāng)災(zāi)難發(fā)生后,業(yè)務(wù)系統(tǒng)能夠自動(dòng)切換到備用網(wǎng)絡(luò)系統(tǒng),并且可以直接通過(guò)備用網(wǎng)絡(luò)訪問(wèn)備用數(shù)據(jù)中心。
數(shù)據(jù)中心互聯(lián)方案包括局域網(wǎng)絡(luò)延展、存儲(chǔ)網(wǎng)絡(luò)設(shè)計(jì)和接入網(wǎng)絡(luò)設(shè)計(jì)(見(jiàn)表2)。
表2 數(shù)據(jù)中心互聯(lián)方案設(shè)計(jì)目標(biāo)對(duì)比
傳統(tǒng)數(shù)據(jù)中心一般采用二/三層組網(wǎng)架構(gòu),POD內(nèi)采用二層組網(wǎng),POD間通過(guò)三層網(wǎng)絡(luò)進(jìn)行互聯(lián)。虛擬機(jī)只能在一個(gè)POD內(nèi)進(jìn)行遷移,如果需要跨二層區(qū)域遷移,需要更改虛擬機(jī)的IP地址。
3.1.2.1局域網(wǎng)延展方案設(shè)計(jì)
傳統(tǒng)數(shù)據(jù)中心一般采用二/三層組網(wǎng)架構(gòu),POD內(nèi)采用二層組網(wǎng),POD間通過(guò)三層網(wǎng)絡(luò)進(jìn)行互聯(lián)。虛擬機(jī)只能在一個(gè)POD內(nèi)進(jìn)行遷移,如果需要跨二層區(qū)域遷移,需要更改虛擬機(jī)的IP地址。
為了更充分地利用數(shù)據(jù)中心資源,虛擬機(jī)需要更大的遷移范圍,可以通過(guò)TRILL構(gòu)建的大二層網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)。TRILL(Transparent Interconnection of Lots of Links,多鏈路透明互聯(lián))是將成熟的三層路由的控制算法引入到二層交換中,將原先的L2報(bào)文加一個(gè)新的封裝(隧道封裝)轉(zhuǎn)換到新的地址空間上進(jìn)行轉(zhuǎn)發(fā)。而新的地址有與IP類似的路由屬性,具備大規(guī)模組網(wǎng)、最短路徑轉(zhuǎn)發(fā)、等價(jià)多路徑、快速收斂、易擴(kuò)展等諸多優(yōu)勢(shì),從而規(guī)避STP/MSTP等技術(shù)的缺陷。TRILL與傳統(tǒng)的L2POD和L2/L3POD方案的對(duì)比分析情況如表3所示。
建議選擇TRILL方案作為主備數(shù)據(jù)中心互聯(lián)方案,基于TRILL技術(shù)構(gòu)建的網(wǎng)絡(luò)架構(gòu)能夠很好地滿足數(shù)據(jù)中心業(yè)務(wù)需求。
3.1.2.2接入網(wǎng)絡(luò)設(shè)計(jì)
接入路徑優(yōu)化即數(shù)據(jù)中心切換方式的選擇。目前,數(shù)據(jù)中心接入網(wǎng)絡(luò)互聯(lián)主要有3種方式:手工切換、基于域名解析(DNS)以及基于RHI(路由健康注入)。3種不同切換方式的對(duì)比情況如表4所示。
通過(guò)對(duì)比可知:手工切換適用于規(guī)模不大、流量較小、業(yè)務(wù)簡(jiǎn)單的場(chǎng)景;RHI路由適用于業(yè)務(wù)流量較大、IP規(guī)劃復(fù)雜、業(yè)務(wù)連續(xù)性要求較高的場(chǎng)景,但安全性存在隱患(防火墻禁用狀態(tài)監(jiān)測(cè));DNS方式則需要增加相應(yīng)的DNS服務(wù)器。具體的方案選擇還是要在實(shí)踐中根據(jù)具體的應(yīng)用場(chǎng)景來(lái)確定。
表3 TRILL與傳統(tǒng)的L2 POD和L2/L3 POD方案的對(duì)比分析
表4 3種不同切換方式對(duì)比
3.1.2.3存儲(chǔ)網(wǎng)絡(luò)設(shè)計(jì)
主備數(shù)據(jù)中心存儲(chǔ)網(wǎng)絡(luò)互聯(lián)主要有FCIP、DWDM 及SDH3種實(shí)現(xiàn)方式:●FCIP是主數(shù)據(jù)中心存儲(chǔ)網(wǎng)絡(luò)通過(guò)SAN路由器的FCIP功能將FC協(xié)議轉(zhuǎn)換為IP協(xié)議,通過(guò)IP網(wǎng)絡(luò)與備數(shù)據(jù)中心的SAN路由器互聯(lián),實(shí)現(xiàn)基于FC的高速數(shù)據(jù)通信。
●DWDM接入方案將主數(shù)據(jù)中心SAN路由器接到DWDM設(shè)備上,通過(guò)DWDM設(shè)備的波分復(fù)用功能將多條FC通信,通過(guò)裸光纖傳輸?shù)絺鋽?shù)據(jù)中心的DWDM設(shè)備,實(shí)現(xiàn)基于FC的高速數(shù)據(jù)通信。
●SDH接入方案與DWDM方案類似。
以上3種方案的對(duì)比情況如表5所示。
表5 3種方案對(duì)比
3.1.3時(shí)間同步策略設(shè)計(jì)
主、備數(shù)據(jù)中心服務(wù)器等設(shè)備的系統(tǒng)時(shí)間不一致,可能會(huì)導(dǎo)致業(yè)務(wù)切換后,對(duì)時(shí)間敏感類應(yīng)用程序的運(yùn)行出現(xiàn)異?;蛘邩I(yè)務(wù)邏輯錯(cuò)誤,因此在主、備數(shù)據(jù)中心內(nèi)均部署一臺(tái)時(shí)間同步服務(wù)器與標(biāo)準(zhǔn)源時(shí)鐘實(shí)現(xiàn)同步,所有設(shè)備均與時(shí)間同步服務(wù)器實(shí)現(xiàn)時(shí)鐘同步。
3.2應(yīng)急與災(zāi)難恢復(fù)計(jì)劃
災(zāi)難恢復(fù)計(jì)劃的關(guān)鍵內(nèi)容包括應(yīng)急響應(yīng)、災(zāi)難恢復(fù)和重續(xù)運(yùn)行流程、災(zāi)后重建和回退流程3個(gè)階段。
(1)應(yīng)急響應(yīng)流程
●災(zāi)難預(yù)警處理流程
災(zāi)難預(yù)警是在災(zāi)難即將發(fā)生時(shí)所采取的通知流程。在災(zāi)難預(yù)警處理流程的制定中,需要明確規(guī)定通知流程、通知策略和通知內(nèi)容等。
●損害評(píng)估流程
災(zāi)難發(fā)生時(shí),損害評(píng)估人員應(yīng)該盡快到達(dá)災(zāi)難現(xiàn)場(chǎng)查看災(zāi)難狀況和確定事態(tài)的嚴(yán)重程度,并且召集相應(yīng)的專業(yè)人員對(duì)災(zāi)難事件進(jìn)行慎重評(píng)估,確認(rèn)災(zāi)難事件對(duì)信息系統(tǒng)造成的影響程度,確定下一步將要采取的行動(dòng)。
●災(zāi)難決策流程
在災(zāi)難決策流程的制定中,首先需要確定災(zāi)難恢復(fù)計(jì)劃啟動(dòng)的條件,啟動(dòng)條件可以基于以下幾個(gè)方面來(lái)考慮:
——評(píng)估員工傷亡狀況。
——執(zhí)行災(zāi)難恢復(fù)流程的足夠人員需求。
——損失是否足以構(gòu)成立即宣布災(zāi)難。
——轉(zhuǎn)移至災(zāi)備中心比修復(fù)此損失需花費(fèi)更多時(shí)間。
——所需設(shè)備均已具備還是有些設(shè)備必須更換。
——受影響的服務(wù)的恢復(fù)時(shí)間為多少(此服務(wù)是否經(jīng)過(guò)營(yíng)運(yùn)單位判定為關(guān)鍵服務(wù))。
如果損害評(píng)估的結(jié)果達(dá)到一項(xiàng)或多項(xiàng)啟動(dòng)條件時(shí),將由之前授權(quán)的人員正式發(fā)出災(zāi)難宣告。如果達(dá)到災(zāi)難恢復(fù)計(jì)劃啟動(dòng)條件時(shí),則繼續(xù)監(jiān)控事態(tài)發(fā)展和損害評(píng)估直到問(wèn)題解決或者提升為災(zāi)難。
●災(zāi)難宣告流程
災(zāi)難宣告是區(qū)分災(zāi)難和一般性操作問(wèn)題的重要標(biāo)識(shí)。災(zāi)難的正式宣告可以讓企業(yè)內(nèi)部的各個(gè)部門(mén)馬上提供恢復(fù)所需的資源。
(2)災(zāi)難恢復(fù)處理流程
災(zāi)難恢復(fù)從大的方面來(lái)說(shuō),包括技術(shù)恢復(fù)和業(yè)務(wù)恢復(fù)。技術(shù)恢復(fù)包括對(duì)硬件、軟件、數(shù)據(jù)、網(wǎng)絡(luò)等的恢復(fù)。業(yè)務(wù)恢復(fù)指在災(zāi)難恢復(fù)團(tuán)隊(duì)按照預(yù)先制訂的恢復(fù)規(guī)程完成技術(shù)恢復(fù)后,技術(shù)和應(yīng)用業(yè)務(wù)的人員對(duì)業(yè)務(wù)完整性、數(shù)據(jù)一致性、網(wǎng)點(diǎn)和服務(wù)渠道進(jìn)行檢查和審核,確定具備條件后恢復(fù)業(yè)務(wù)運(yùn)作。
(3)災(zāi)后重建和回退流程
●災(zāi)后重建流程
災(zāi)后重建階段應(yīng)該設(shè)定負(fù)責(zé)重建工作的團(tuán)隊(duì)。這個(gè)階段進(jìn)行的主要工作有:
——確認(rèn)災(zāi)難種類和應(yīng)該召集的人員,并按照各項(xiàng)災(zāi)難情形召集各相關(guān)單位人員。
——盡快安排檢查災(zāi)難現(xiàn)場(chǎng),災(zāi)難場(chǎng)地有可能因?yàn)楣踩藛T、醫(yī)護(hù)搶救而被限制出入,尤其在災(zāi)難造成人員死亡的情況下。
——評(píng)估基礎(chǔ)設(shè)施和環(huán)境,包括場(chǎng)地建筑結(jié)構(gòu)、環(huán)境污染、設(shè)備管道損害等。
——與保險(xiǎn)公司評(píng)估人員、硬件廠商和災(zāi)難搶救專業(yè)人員評(píng)估和決定需要搶救的設(shè)施和設(shè)備。
——確定重建方案。
——實(shí)施重建方案,包括IT系統(tǒng)修復(fù)重建、網(wǎng)絡(luò)連接、系統(tǒng)測(cè)試、數(shù)據(jù)裝載等內(nèi)容。
●災(zāi)后回退處理流程
災(zāi)后重建完成后,將生產(chǎn)由災(zāi)備中心回切到原生產(chǎn)中心是一個(gè)復(fù)雜的過(guò)程。在執(zhí)行前需要進(jìn)行嚴(yán)密的計(jì)劃和廣泛的測(cè)試。在制定災(zāi)后回退處理流程時(shí)主要需考慮以下內(nèi)容:
——恢復(fù)和充分測(cè)試驗(yàn)證各應(yīng)用系統(tǒng),保證系統(tǒng)和應(yīng)用功能的一致性、完整性。
——生產(chǎn)數(shù)據(jù)的裝載和驗(yàn)證,保證數(shù)據(jù)的一致性、完整性。
——進(jìn)行網(wǎng)絡(luò)和系統(tǒng)切換。
——關(guān)閉災(zāi)難備份系統(tǒng)。
——安排恢復(fù)人員回到原生產(chǎn)中心。
目前,保障信息系統(tǒng)的業(yè)務(wù)連續(xù)性已經(jīng)是企業(yè)不能回避的問(wèn)題,因此數(shù)據(jù)中心的業(yè)務(wù)連續(xù)性也凸顯重要,但是保障業(yè)務(wù)的連續(xù)性需要大量的人員及投資,企業(yè)應(yīng)依據(jù)不同系統(tǒng)的重要性劃分災(zāi)難恢復(fù)等級(jí),根據(jù)災(zāi)難恢復(fù)等級(jí)實(shí)行不同的容災(zāi)方案,實(shí)現(xiàn)保障業(yè)務(wù)連續(xù)性與成本的平衡。
參考文獻(xiàn)
[1]國(guó)務(wù)院信息化工作辦公室.重要信息系統(tǒng)災(zāi)難恢復(fù)指南.
[2]湯勇,呂英杰.數(shù)據(jù)容災(zāi)技術(shù)介紹[J].郵電設(shè)計(jì)技術(shù),2002 (10):40-43.
收稿日期:(2016-03-29)
Business continuity of data center design
ZHANGLiang,YANGChunli,MAYuanyuan
Abstract:Currently information has become the lifeblood of the enterprise,business continuity of data center has become increasingly important;information systems disaster recovery needs to be based rating and consider business continuity strategy to explore information systems disaster recovery scenarios.
Key words:business continuity;disaster tolerance;disaster recovery