• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    簡析數(shù)據(jù)中心精細化運維風險管理思路

    2022-03-01 10:26:52
    大眾標準化 2022年1期
    關鍵詞:機房數(shù)據(jù)中心運維

    杜 宇

    (內(nèi)蒙古自治區(qū)氣象信息中心,內(nèi)蒙古自治區(qū) 呼和浩特 010051)

    1 引言

    近年來,移動技術、云計算、大數(shù)據(jù)等新技術和氣象觀測數(shù)據(jù)、 產(chǎn)品數(shù)據(jù)的快速發(fā)展,對氣象數(shù)據(jù)中心的整體運行能力和服務效率帶來了前所未有的挑戰(zhàn)。如何合理調(diào)配運維保障策略、確保數(shù)據(jù)安全運行平穩(wěn),是全氣象行業(yè)數(shù)據(jù)中心面臨的重大難題。風險管理作為數(shù)據(jù)中心精細化運維中重要的一環(huán),對穩(wěn)固運維基礎、持續(xù)提升運維管理水平、保障業(yè)務安全穩(wěn)定運行,發(fā)揮了非常大的作用。

    2 風險管理

    風險管理是在運行中以考量生產(chǎn)目的與勞動成果之間的不確定性或受到的影響為目標,制定決策,采取適宜的措施,把造成不良影響的可能性減至最小程度的管理過程,提高應對風險的能力,保護資產(chǎn)的安全完整,用最小的成本換取最大的安全保障,對數(shù)據(jù)中心運維具有重要意義(圖1)。

    圖1 風險管理示意圖

    2.1 風險識別

    風險識別在風險管理里是首要環(huán)節(jié)。在全面了解各種風險的基礎上,分析項目運行內(nèi)部及外部環(huán)境,排查伴隨風險的部位、場所、設備、設施或區(qū)域,按照對風險的定義和監(jiān)管內(nèi)容,對涉及財務、采購、生產(chǎn)、運輸、技術、管理、人員、制度保障的多個方面,判斷可能會遇到服務中斷、信息安全、人員安全、環(huán)境安全等風險概率,設法避免風險而采取最佳手段,做到盡早識別風險,損害降到最低,盡責總結教訓,完成風險預案。

    2.2 運行風險分析

    按照人員、物資、運行環(huán)境和管理四個層面進行危險源的識別。針對危險源進行風險評估,從而確定重大特大風險。依據(jù)技術、管理、防護和應急處置的順序組織制定相對完善的風險管控措施手段。

    風險分析能夠有效識別風險。風險按照嚴重程度分為三類:高級風險為無法承受的可能帶來嚴重損失的風險,一旦發(fā)生,機房將無法在短時間內(nèi)恢復到正常狀態(tài),會造成嚴重的損失。中、低級風險也會危害運行安全,但可能只會造成局部異?;蛐纬砂踩[患,屬于可承受的并且能夠控制的運行風險。

    高風險包括但不限于:機房發(fā)生火災、機房大面積漏水、機房空調(diào)系統(tǒng)全部失效、核心設備故障停機、機房大面積停電、空調(diào)水系統(tǒng)爆管、整套柴發(fā)系統(tǒng)故障、核心網(wǎng)絡線纜中斷、人為破壞事故、人員傷亡、雷擊導致供電或網(wǎng)絡通訊中斷、發(fā)生嚴重電磁干擾等。

    中風險包括但不限于:機房部分設備發(fā)生火險、主要機房地面積水、消防系統(tǒng)失控、部分空調(diào)系統(tǒng)失效或失控、門禁系統(tǒng)失控、機房照明系統(tǒng)失效、主要設備因故障停機、機房局部區(qū)域雙路供電異常、單個機房空調(diào)系統(tǒng)故障停機、柴油發(fā)電機組故障停機、主/備網(wǎng)絡線纜中斷、嚴重操作失誤、管理機構及責任缺失、規(guī)章制度不健全、局部設備損毀、發(fā)生雷擊、鼠害損毀線纜、發(fā)生一般電磁干擾等。

    低風險為程度更低、損失或危害更低、概率更小的事故發(fā)生場景。

    表1 機房運行風險分析表

    2.3 風險管理表

    在識別風險后,整理為風險管理表對風險進行后續(xù)的管控、跟進、處理以及關閉或者將風險轉換為問題處置。詳細描述可能發(fā)生的風險,根據(jù)可能發(fā)生的幾率判斷并定義風險等級,并指派專人負責管理和跟進風險。風險管理的策略主要包括規(guī)避、減緩、接收三個策略,由風險負責人對風險進行評估后做策略分類。對已經(jīng)完成識別的風險要進行定性分析、定量分析和風險排序,制定詳細的風險處置方案。如果發(fā)生風險要迅速做出反應。應急處置措施包括啟動風險處置的報告體系流程、組織負責人力資源調(diào)動和現(xiàn)場指揮協(xié)調(diào)的組織機構和專業(yè)人員安排等。風險管理過程中所有的重要操作、相關進展、都要規(guī)范詳細記錄。

    2.4 風險管理計劃

    風險管理計劃是至關重要的,好的風險管理計劃,能夠把可能面臨的所有風險及問題納入到遏制風險行動計劃中,有助于數(shù)據(jù)中心的運維管理人員預測和防范更糟糕的風險。創(chuàng)建合理的風險管理計劃包括以下幾方面:

    (1)各項風險類型要做到詳盡說明。數(shù)據(jù)中心可能會同時面臨多種類型的風險,對安全穩(wěn)定運行是極為不利的。仔細鑒別風險的類型,細致分析風險的不同需求,厘清各種風險的級別。針對各級風險制定長遠的計劃,在不同時間有序規(guī)避不同風險。

    (2)每個人要在風險管控中發(fā)揮關鍵作用,明確每個節(jié)點中人員的職責和目標。管理過程中最大的風險來自于人,而把人管理好則是能夠?qū)L險最小化并帶來最直接效益。通過建立完善規(guī)章制度、明確崗位職責分工,強化風險意識,注重崗位知識培訓,發(fā)揮每個人在風險管控中的關鍵作用。

    (3)做好第三方公司的評估工作。數(shù)據(jù)中心可以引入ISO 質(zhì)量管理體系、ITIL 流程體系以及M&O運維標準等國際上成熟的管理體系,結合自己的實際情況,采納適合自己特點的管理方法,強化自身建設,夯實基礎,才能在風險管控中應對更多已知和的未知狀況。

    (4)應急演練和方案制定的重要性。針對嚴重的風險事件制定應急預案和應急演練方案,組織風險管控中的所有人員定期進行舉行演練,使所有環(huán)節(jié)中人員都能按照指令執(zhí)行,迅速準確處理,從演練過程中發(fā)現(xiàn)不足和新的處置方法,提高運維人員的專業(yè)水平,優(yōu)化應急處置流程,補充應急預案,在真正遇到風險時能夠從容處理。備用電源、消防措施、數(shù)據(jù)備份、業(yè)務恢復都要考慮進去,制定災難恢復計劃,每年追加投資,加強基礎設施的購置和運維,逐步提升風險抵御能力。

    (5)噪聲風險也要考慮到其中。大部分時候,噪聲風險未被重視。但實際情況是,數(shù)據(jù)機房中的噪音對設備硬盤、制冷設備都會有很大影響,通常噪聲超過135 dB 會對電子設備元器件有影響。在風險計劃里增加相關風險的處置措施,比如房頂、墻壁采用柔性材料,能夠降低噪聲分貝,減少聲波反射對電子設備產(chǎn)生的影響。

    (6)風險計劃中的各方人員聯(lián)系方式一定要確保是最新的,這樣能夠在風險來臨時及時聯(lián)系到各方,協(xié)調(diào)配合處理問題,控制事態(tài)升級。

    2.5 風險處置

    風險處置流程:風險處置如何選擇要根據(jù)風險評估結果并結合實施的成本和預期效益,選擇實施開支小但是可以有效降低風險的選項,這些實施后效果不理想再進行改進是需要增加大量成本,所以在設計之初,就要對處置的選項進行合理性判斷,以降低風險造成的影響為考慮,成本越低,降低風險效果越好越適宜。

    這里所指的風險處置選項可以進行有效組合,考慮到效益最大化,怎樣才能將風險后果降到最低,或者能把殘余的風險解決,對風險處置的選項進行兩兩或多項組合。要明確各個風險處置的實施順序、時間要求,按照風險登記、成本效益、技術要求等等確定優(yōu)先級,要對成本和預算直接進行平衡和控制。

    整改是在風險處置中十分常見的能夠有效降低風險的方法。風險評估報告中會提出相關整改建議,整改建議是根據(jù)風險的等級、處置措施實施的難易程度、風險的時限要求,以及經(jīng)濟因素、人員因素進行綜合考慮得出的。

    風險等級高、時間緊迫且易于實施的安全風險,建議立即采取整改措施。

    對于風險等級高、時間緊迫但實施難度大的安全風險,評估組織要求馬上制定整改方案,進行開展實施,同時要進行嚴格的風險監(jiān)控,制定好相關應急預案。

    對于風險等級中等,時間要求不那么緊迫且不易于實施,評估組織會要求限期整改,制定相關實施方案,實施前要對風險隱患進行監(jiān)控。

    風險降低:為降低風險的可能性和不好的結果而采取保護措施來降低風險。保護措施可以從威脅源、威脅行為、脆弱性、資產(chǎn)和影響5 個方面來降低風險。比如,采取法律手段遏制犯罪(包括竊取涉密信息,攻擊信息系統(tǒng)設施,傳播病毒和發(fā)送垃圾郵件等);及時修補系統(tǒng)漏洞,關閉無用的服務端口,減少系統(tǒng)的脆弱性;建立網(wǎng)絡安全邊界防護,保護網(wǎng)絡、系統(tǒng)、信息的安全運行;采取容災備份、應急響應等措施,從而降低安全事件造成的安全風險。

    風險保留:如果風險對數(shù)據(jù)中心的策略目標不會造成太大影響、并且在可接受的范圍之內(nèi),那就沒有必要實施額外的控制措施,該風險可以被保留。

    風險規(guī)避:為了達到預期目標,改變原有的實施計劃,采取適宜規(guī)避風險的措施,從而降低風險帶來的影響。比如項目在方案設計、招標、合同擬定階段采取規(guī)避風險,在實施過程中遇到不可回避風險時,應采取適宜應對措施;再比如,機房基礎環(huán)境檢修時,空調(diào)檢修應該一臺一臺輪流檢查,保證機房制冷散熱,避免同時關閉所有精密空調(diào);檢修UPS 時,必須制定檢修計劃,避開斷電及檢修時段,造成重大風險損失;按照機房的使用率、容積率,合理調(diào)配機房內(nèi)精密空調(diào)的溫度、濕度指標,提高空調(diào)的運行效率,做到高效和節(jié)能。

    風險轉移:風險轉移的目的是要將可以預見的但發(fā)生概率比較低的風險轉嫁給除主體外的第三方,包括風險的影響和職責??梢酝ㄟ^購買商業(yè)保險、外包設備維修服務等形式,轉嫁給保險公司和運維及設備服務商。比如通過購買財產(chǎn)保險,能夠?qū)C房資產(chǎn)的風險(機房建筑物風險、火災風險等)轉嫁至保險公司;通過與設備運維公司簽訂外包合同,可將機房的基礎資源設備如機房不間斷電源設備、精密空調(diào)等設備故障風險轉移。

    風險預防:風險預防就是為了防范已經(jīng)存在的風險,積極制定相應的應急預案,采取有效的應急處置手段,避免風險發(fā)生。比如定期開展應急演練,內(nèi)容包括重大業(yè)務故障、網(wǎng)絡安全、消防安全等,能夠有效提高運維人員對突發(fā)事件的應急處置能力。針對機房的高效管理,定期清理僵尸服務器、僵尸業(yè)務,制定科學的業(yè)務上線、下線審批制度,集約優(yōu)化數(shù)據(jù)中心的運行環(huán)境。

    風險接受:是指組織管理者決定對風險不采取進一步的處置措施,接受風險的處置計劃和殘余風險的結果,接受并做出正式記錄接受風險的決策及相應的責任。但前提是確定了風險等級,評估了風險的可能性以及破壞程度,分析了采取處理措施的可能性,并進行了成本效益分析,綜合考慮下認定某些功能、服務、信息或資產(chǎn)無需進一步的保護。

    風險溝通:風險溝通是在組織管理者和利益相關者之間通過交換或共享風險信息來進行管理風險從而達成一致的活動。風險信息包括但不限于風險的存在、性質(zhì)、形式、可能性、嚴重程度、處置措施和可接受程度。

    風險溝通的目的是為風險管理結果提供相關保證,收集各方風險信息,共享風險評估的結論,確定風險處置計劃,避免或減少由于決策者和利益相關者之間缺少溝通而造成的后果。

    風險監(jiān)視:持續(xù)有效的監(jiān)視包括但不限于風險管理范圍內(nèi)的新資產(chǎn);變化的業(yè)務要求;在組織內(nèi)部和外部活躍的且未被評估的新威脅;新的或增加的脆弱性以及可能性;因風險聚合而可能造成的影響或結果,進而發(fā)展為不可接受的風險級別;信息安全事件。

    風險管理方法應用在數(shù)據(jù)中心運維方面展現(xiàn)了較好的管理效力,制定更加精細的可量化的制度及標準,利用標準化方法可以更加有效幫助量化數(shù)據(jù)中心的風險,是數(shù)據(jù)中心精細化管理中的重要內(nèi)容。

    猜你喜歡
    機房數(shù)據(jù)中心運維
    酒泉云計算大數(shù)據(jù)中心
    運維技術研發(fā)決策中ITSS運維成熟度模型應用初探
    風電運維困局
    能源(2018年8期)2018-09-21 07:57:24
    民航綠色云數(shù)據(jù)中心PUE控制
    電子測試(2018年11期)2018-06-26 05:56:24
    雜亂無章的光伏運維 百億市場如何成長
    能源(2017年11期)2017-12-13 08:12:25
    基于ITIL的運維管理創(chuàng)新實踐淺析
    N通信公司機房節(jié)能技改實踐
    新型有線電視機房UPS系統(tǒng)的配置
    大功率發(fā)射機房冷卻送風改造
    基于云計算的交通運輸數(shù)據(jù)中心實現(xiàn)與應用
    汉源县| 永修县| 册亨县| 安达市| 正安县| 家居| 长宁县| 若羌县| 错那县| 伊通| 潼关县| 布尔津县| 台南市| 应用必备| 浑源县| 兴安盟| 依兰县| 常熟市| 勐海县| 大城县| 百色市| 乾安县| 武定县| 临漳县| 砀山县| 光泽县| 威远县| 寿光市| 太谷县| 绿春县| 长顺县| 东城区| 玛曲县| 曲沃县| 桐庐县| 晋城| 兴隆县| 海兴县| 准格尔旗| 阜新| 合山市|