胡立
過(guò)去的幾個(gè)月中,發(fā)生了一些重大的IT故障事件:富國(guó)銀行的業(yè)務(wù)停止運(yùn)營(yíng)長(zhǎng)達(dá)一天,導(dǎo)致客戶(hù)無(wú)法訪問(wèn)他們的賬戶(hù);芝加哥鐵路公司故障導(dǎo)致60 000名乘客滯留;Gmail和Google Docs發(fā)生故障導(dǎo)致全球各地用戶(hù)無(wú)法訪問(wèn)和使用這些產(chǎn)品。此外,2019年2月VFEmail.net遭遇黑客攻擊,導(dǎo)致所有客戶(hù)端數(shù)據(jù)(包括備份)完全丟失。
這些事件和IT問(wèn)題為人們提供了2個(gè)重要信息:IT中斷可能發(fā)生在任何人身上;一次IT中斷造成的損害程度取決于現(xiàn)在的準(zhǔn)備情況。
值得注意的是,超過(guò)60 %的IT中斷或“災(zāi)難事件”都是由人為錯(cuò)誤引起的。那么,企業(yè)如何才能最大限度地減少下一次IT中斷對(duì)其收入、聲譽(yù)和客戶(hù)造成的損害?
首先,確保企業(yè)有一個(gè)業(yè)務(wù)連續(xù)性計(jì)劃(BCP),其中包括災(zāi)難恢復(fù)計(jì)劃(概述企業(yè)將如何處理IT事務(wù))以及保持業(yè)務(wù)其余部分的計(jì)劃(如果是關(guān)鍵渠道確保關(guān)鍵人員知道發(fā)生了什么、會(huì)面地點(diǎn)和定義指揮鏈等)。
在IT方面取得成效的4個(gè)關(guān)鍵步驟如下:
1定義潛在的災(zāi)難情景
對(duì)于大多數(shù)企業(yè)而言,主要有2種IT災(zāi)難場(chǎng)景:
系統(tǒng)中斷,網(wǎng)絡(luò)或應(yīng)用程序的某些關(guān)鍵部分出現(xiàn)故障,企業(yè)或其服務(wù)在一段時(shí)間內(nèi)處于“脫機(jī)”狀態(tài)。這通常是一個(gè)相對(duì)簡(jiǎn)單的恢復(fù)點(diǎn),因?yàn)槠髽I(yè)重新上線運(yùn)營(yíng),受停機(jī)影響的事務(wù)最少。
數(shù)據(jù)丟失,企業(yè)丟失信息、內(nèi)容或數(shù)據(jù)(企業(yè)自己或其客戶(hù))。而且并不總是可以從數(shù)據(jù)丟失中恢復(fù),例如在VFEmail.net的黑客攻擊事件中,刪除了其所有備份副本。
確保企業(yè)為災(zāi)難做好準(zhǔn)備的第一步是了解這些常見(jiàn)類(lèi)型的中斷風(fēng)險(xiǎn)狀況:例如,系統(tǒng)中斷會(huì)影響哪些功能,這些功能對(duì)企業(yè)的業(yè)務(wù)有多重要,中斷是否會(huì)導(dǎo)致數(shù)據(jù)丟失,還有哪些其他事件會(huì)導(dǎo)致數(shù)據(jù)丟失等。
此外,人為錯(cuò)誤是造成這2種災(zāi)難的最常見(jiàn)原因(如在芝加哥鐵路公司的停機(jī)事件中,一名工人在更新服務(wù)器期間摔倒在電路板上)。
2評(píng)估對(duì)企業(yè)的業(yè)務(wù)可能造成的損害
這是IT部門(mén)和其他領(lǐng)導(dǎo)共同完成的工作。企業(yè)的目標(biāo)是了解單個(gè)數(shù)據(jù)塊出現(xiàn)故障或各種類(lèi)型的數(shù)據(jù)丟失,其業(yè)務(wù)將受到的影響。
在這些對(duì)話中,目的是了解業(yè)務(wù)關(guān)鍵型應(yīng)用程序之間的依賴(lài)關(guān)系(企業(yè)知道需要激活支付處理應(yīng)用程序,但它是否取決于庫(kù)存應(yīng)用程序的功能)闡明停機(jī)對(duì)用戶(hù)的影響,并評(píng)估每分鐘停機(jī)對(duì)企業(yè)業(yè)務(wù)的財(cái)務(wù)影響。
衡量標(biāo)準(zhǔn)如下:
恢復(fù)時(shí)間目標(biāo)(RTO),定義企業(yè)的業(yè)務(wù)可以在業(yè)務(wù)中斷后多長(zhǎng)時(shí)間而不會(huì)造成嚴(yán)重?fù)p害。企業(yè)的災(zāi)難恢復(fù)計(jì)劃應(yīng)概述通過(guò)企業(yè)定義的RTO恢復(fù)業(yè)務(wù)運(yùn)營(yíng)的策略。
恢復(fù)點(diǎn)目標(biāo)(RPO),定義數(shù)據(jù)備份之間的時(shí)間長(zhǎng)度,而不會(huì)顯著損害企業(yè)和業(yè)務(wù)運(yùn)營(yíng)。企業(yè)的業(yè)務(wù)中斷分析將定義企業(yè)的RPO。因此,如果企業(yè)的災(zāi)難恢復(fù)計(jì)劃要求從上次已知備份中恢復(fù)數(shù)據(jù),則RPO會(huì)定義該備份可接受的時(shí)間。
如果企業(yè)想再采取其他步驟,請(qǐng)確保評(píng)估中包含對(duì)停機(jī)時(shí)間可能造成聲譽(yù)損害的評(píng)估。這很難計(jì)算,但它可以成為決策過(guò)程中的一個(gè)有價(jià)值的組成部分。
3查看當(dāng)前的災(zāi)難恢復(fù)計(jì)劃
一旦企業(yè)想了解自己可以合理承擔(dān)的停機(jī)時(shí)間,可以查看其當(dāng)前的災(zāi)難恢復(fù)計(jì)劃。如果像大多數(shù)企業(yè)一樣擁有一個(gè)災(zāi)難恢復(fù)計(jì)劃,但是沒(méi)有努力去更新或者定期測(cè)試它,那么現(xiàn)在是時(shí)候改變了。
在查看災(zāi)難恢復(fù)計(jì)劃時(shí),請(qǐng)考慮以下事項(xiàng):
它是否反映了企業(yè)當(dāng)前業(yè)務(wù)的現(xiàn)實(shí)情況,包括企業(yè)之前的對(duì)話中闡述的業(yè)務(wù)關(guān)鍵型應(yīng)用的計(jì)劃,如果沒(méi)有,就需要更新它。
規(guī)模合適嗎?IT團(tuán)隊(duì)非常擅長(zhǎng)提出創(chuàng)造性的災(zāi)難恢復(fù)方法。因?yàn)檫@些系統(tǒng)是他們創(chuàng)建的,他們非常適應(yīng)所有可能出錯(cuò)的方式。但精心設(shè)計(jì)的災(zāi)難恢復(fù)通常不僅僅是企業(yè)的需求,而且比其能夠承受的成本更高。如果企業(yè)確定可以承受3天的停機(jī)時(shí)間,并且當(dāng)前的災(zāi)難恢復(fù)計(jì)劃讓其在6小時(shí)內(nèi)重新上線運(yùn)營(yíng),則需要進(jìn)行一些更改。
企業(yè)測(cè)試過(guò)嗎?制定了許多災(zāi)難恢復(fù)計(jì)劃來(lái)檢查選項(xiàng)或滿(mǎn)足監(jiān)管要求。但如果企業(yè)沒(méi)有測(cè)試自己的計(jì)劃,那么其在真正的災(zāi)難中對(duì)企業(yè)毫無(wú)價(jià)值。企業(yè)無(wú)法知道它是否會(huì)有實(shí)際阻止意外中斷和數(shù)據(jù)丟失的可能,導(dǎo)致收入損失和聲譽(yù)損害。
4更新并測(cè)試企業(yè)災(zāi)難恢復(fù)計(jì)劃
大多數(shù)企業(yè)不會(huì)定期更新和測(cè)試他們的災(zāi)難恢復(fù)計(jì)劃,這是一個(gè)很大的問(wèn)題,因?yàn)檫^(guò)時(shí)的災(zāi)難恢復(fù)計(jì)劃在發(fā)生真正災(zāi)難時(shí)或多或少會(huì)變得毫無(wú)價(jià)值。
在進(jìn)行更改時(shí),請(qǐng)執(zhí)行以下步驟:
指派專(zhuān)人負(fù)責(zé)災(zāi)難恢復(fù)和測(cè)試。這意味著如果出現(xiàn)錯(cuò)誤,就會(huì)有人負(fù)責(zé),這大大增加測(cè)試完成的機(jī)會(huì)。
確保企業(yè)管理層與制定災(zāi)難恢復(fù)計(jì)劃和進(jìn)行定期壓力測(cè)試的重要性保持一致。這對(duì)于獲得非IT同事所需的參與至關(guān)重要。
災(zāi)難的定義。管理人員知道何時(shí)以及如何啟動(dòng)災(zāi)難恢復(fù)計(jì)劃,停機(jī)1小時(shí)后?1天?也可以確定聯(lián)系人,如果不在,還有哪個(gè)人可以處理。
制定防災(zāi)規(guī)則。之前提到的芝加哥鐵路公司災(zāi)難發(fā)生的部分原因是因?yàn)樵摴驹诟叻鍟r(shí)段對(duì)服務(wù)器進(jìn)行了升級(jí)。這是一個(gè)令人難以置信的卻可以避免的錯(cuò)誤:如果那名工人沒(méi)有在半夜摔倒在電路板上,就不會(huì)有那么多客戶(hù)受到影響。
溝通計(jì)劃。在災(zāi)難期間和災(zāi)難之后與利益相關(guān)者保持透明,對(duì)于減輕災(zāi)難可能造成的聲譽(yù)損害將有很大幫助。
雖然每個(gè)企業(yè)都應(yīng)擁有并測(cè)試災(zāi)難恢復(fù)計(jì)劃,但企業(yè)能夠滿(mǎn)足他們的需求或應(yīng)對(duì)災(zāi)難的方式并不都是相同的。對(duì)于任何企業(yè)來(lái)說(shuō),災(zāi)難恢復(fù)應(yīng)該基于兩個(gè)方面:風(fēng)險(xiǎn)狀況和從事件中恢復(fù)的能力。
為了確保企業(yè)的下一次IT中斷對(duì)其客戶(hù)、收入和聲譽(yù)造成盡可能小的損害,需要花費(fèi)時(shí)間了解可能出現(xiàn)問(wèn)題的具體情況以及這些問(wèn)題將如何影響其客戶(hù),并制定災(zāi)難恢復(fù)計(jì)劃以盡量減少這種影響。
計(jì)算機(jī)與網(wǎng)絡(luò)2019年13期