文|美國康寧公司
避免無計劃的數(shù)據(jù)中心業(yè)務(wù)中斷對任何關(guān)鍵性設(shè)備來說都是需要優(yōu)先考慮的。無論這個策略是不惜一切代價避免業(yè)務(wù)中斷或減少其影響還是兩者兼具,所有操作原件都需被檢查。本文對此提出減輕業(yè)務(wù)中斷相關(guān)風(fēng)險的問題和策略。
文中所提出的問題和策略由DatacenterDynamics代表康寧在2011年5、6月對數(shù)據(jù)中心業(yè)主和運(yùn)營商進(jìn)行了調(diào)研。這些數(shù)據(jù)中心分布在英國、德國、荷蘭、法國、中東和美國的關(guān)鍵市場,包括在這些地區(qū)排名前100位的數(shù)據(jù)中心的業(yè)主和運(yùn)營商。
這次調(diào)查結(jié)果收集到以下信息:
普遍情況:樣本的百分比在過去一年中經(jīng)歷一些形式的業(yè)務(wù)中斷,其中23%的數(shù)據(jù)中心在2010年前經(jīng)歷過業(yè)務(wù)中斷。
報告顯示:平均每三年就有一次或者雙倍頻率的是因為其他原因而導(dǎo)致業(yè)務(wù)中斷,每個數(shù)據(jù)中心允許一年平均1小時的停機(jī)時間。
很難診斷:業(yè)務(wù)中斷的原因有千差萬別,但我們可根據(jù)診斷所有中斷的幾個主要原因來分析中斷發(fā)生的頻率,何種原因或誰導(dǎo)致中斷,中斷的后果以及業(yè)務(wù)中斷帶來的成本支出。
存在不確定性的原因診斷事件:在144個康寧報告的抽樣事件中,38%的事件由不確定性原因造成,這意味著不能提出有效的校正或解決方案。
費(fèi)用通常很昂貴:康寧抽樣數(shù)據(jù)顯示,抽樣區(qū)域的組織為數(shù)據(jù)中斷總費(fèi)用為1090萬美元,平均每個中斷成本為78000美元或者14000美元每小時。投射到全球數(shù)據(jù)中心,業(yè)務(wù)中斷成本將達(dá)到平均每年45億美金,這是法國一年的財務(wù)總投資預(yù)算。
完全或部分由布線網(wǎng)絡(luò)設(shè)備或管理失敗造成的中斷損失平均每年約4億美金,8%~9%的總損失占高達(dá)15%的年度對該類別方面的總投資支出。
圖1 布線問題導(dǎo)致數(shù)據(jù)業(yè)務(wù)中斷的成本表
為進(jìn)一步的研究進(jìn)行了(每組30)測試與數(shù)據(jù)中心有關(guān)的“熵”的原則。在這種情況下,“熵”可以被定義為“逐漸增加的布線復(fù)雜性不可避免地導(dǎo)致業(yè)務(wù)中斷發(fā)生。熵發(fā)生在跳線、布線路徑密度過高,布線系統(tǒng)像鳥巢一樣的狀態(tài)時將導(dǎo)致業(yè)務(wù)中斷的高風(fēng)險”。
在特定的網(wǎng)絡(luò)布線熵的情況下(通常在數(shù)據(jù)中心中它看起來非常明顯),其中一些樣本的數(shù)據(jù)中心顯示布線系統(tǒng)混沌的趨勢適用于他們自己的設(shè)施。設(shè)施會逐漸老化并毀壞甚至是在管理有效的設(shè)施也會逐漸老化并毀壞,這能被映射。在這里,設(shè)備操作生命周期被標(biāo)準(zhǔn)化為100%,指從設(shè)備開始使用到現(xiàn)在,便于不同使用年限的設(shè)備間進(jìn)行比較。這個數(shù)據(jù)顯示業(yè)務(wù)中斷的速度隨著設(shè)備使用壽命的增加而增加。第一次破壞性的事件發(fā)生在設(shè)備使用到57%左右的壽命,第二次發(fā)生在88%,第三次發(fā)生在96%。
伴隨“熵”出現(xiàn)的風(fēng)險會加重并以幾何倍數(shù)增加數(shù)據(jù)中心運(yùn)營成本,樣本中的事件顯示,成本與事件間的關(guān)系是第四次事件的平均成本,是第一次事件平均成本的兩倍(101000美元與43000美元)。隨著設(shè)備使用年限增加,設(shè)備老化,同時還采用了高密度的IT架構(gòu),則需要承擔(dān)更大的運(yùn)營責(zé)任,顯然這是風(fēng)險管理中巨大的挑戰(zhàn)。
此樣本數(shù)據(jù)中心中布線系統(tǒng)的分析方式可被視為設(shè)備運(yùn)營管理的立見分曉的檢驗方法準(zhǔn)則。
使用一個正式的布線管理計劃顯示能降低布線系統(tǒng)相關(guān)中斷,尤其是在網(wǎng)絡(luò)布線責(zé)任歸屬于IT和房地產(chǎn)兩者時。其他設(shè)施管理信息表明,這不僅僅只是做一個簡單的鏈接布線管理計劃,而是對整個系統(tǒng)的包含組織性能和通信需求的整體策略。
對一些少量的已經(jīng)升級到40G的網(wǎng)絡(luò)系統(tǒng),數(shù)據(jù)證明業(yè)務(wù)中斷并沒有減少,但是金融風(fēng)險顯著地減少了。
圖2 事件發(fā)生間隔與生命周期比例統(tǒng)計表