岳 備
(上海寶信數(shù)據(jù)中心有限公司 上海 200949)
伴隨著大數(shù)據(jù)技術與云計算計算的飛快發(fā)展,許多公司都對服務器運維十分重視。一些大型的互聯(lián)網(wǎng)計算公司的服務器機房數(shù)據(jù)中心占地面積越來越大,而且還存在多地多數(shù)據(jù)中心聯(lián)動工作[1],數(shù)據(jù)中心的平穩(wěn)運行關系著公司業(yè)務的命脈。在數(shù)據(jù)中心維護中,公司對數(shù)據(jù)中心也越來越重視,數(shù)據(jù)中心的供配電、暖通空調、消防弱電等系統(tǒng)日益變得復雜,大量傳感器、智能儀表應用于各系統(tǒng)。通過采集并監(jiān)控現(xiàn)場各類傳感器和智能儀表數(shù)據(jù),并加以分析和處理,能夠有效降低電力成本,減少事故發(fā)生率,提高設備運行效率,保障設備機組安全,提高數(shù)據(jù)中心的經(jīng)濟效益[2]。
由于大型數(shù)據(jù)中心采集海量數(shù)據(jù),機房維護人員往往難以通過傳統(tǒng)手工模式及時完成數(shù)據(jù)校核分析,從而導致故障信息無法提前獲取,延誤處理時機,給機房管理工作帶來運營風險。另外,由于一些測量設備隨著運行時間增加而發(fā)生測量偏差,也會誤導維護人員對故障和業(yè)務容量的準確判斷,從而影響機房運維質量和成本等。針對這些低概率測量誤差設備,采用大面積統(tǒng)一校核不太合適,還會增加運營成本和維護風險[3]。機房維護部門通常把數(shù)據(jù)校核分析業(yè)務外包給各類供應商。由于各類供應商主要針對各自設備單獨校核,工具方法標準不統(tǒng)一,相互間提供校核數(shù)據(jù)和分析結果就會出現(xiàn)偏差,達不到維護效果,也給機房運營帶來巨額成本。
本文所述校核不是簡單核對的意思,而是指針對尋找和發(fā)現(xiàn)大型數(shù)據(jù)中心所產生數(shù)據(jù)之間的關聯(lián)依附關系,進行比對、校正、匯總、處理和相關性分析,進而發(fā)現(xiàn)系統(tǒng)或設備運行規(guī)律和趨勢。最終為機房管理者和運行維護人員提供決策依據(jù)等系列工作。
大型數(shù)據(jù)中心現(xiàn)場通過傳感器采集溫度、壓力、真空、熱電偶、熱電阻、電壓、電流、電阻、頻率等運行數(shù)據(jù)。運行設備根據(jù)這些初步采集數(shù)據(jù)進行一些加工成中間數(shù)據(jù)[4],如功率因數(shù)、功率、有功功率、無功功率、電能、流量、冷量等。環(huán)控系統(tǒng)將這些不同設備和傳感器初步數(shù)據(jù)和中間數(shù)據(jù)集中匯總。關于這些不同系統(tǒng)、設備和傳感器,本文根據(jù)已研究的成果,主要從6個維度進行數(shù)據(jù)的關聯(lián),分別為上下級關聯(lián)校驗、同級左右校驗和歷史前后校驗。(1) 上下級校核:通過校核上下級儀表之間數(shù)據(jù),進而發(fā)現(xiàn)數(shù)據(jù)是否異常和運行趨勢。(2) 同級左右校核:通過校核同級儀表之間數(shù)據(jù),進而發(fā)現(xiàn)數(shù)據(jù)是否異常和運行趨勢[5]。(3) 時間前后校核:通過校核儀表歷史前后之間數(shù)據(jù),進而發(fā)現(xiàn)數(shù)據(jù)是否異常和運行趨勢。
隨著自動化和信息化技術的不斷發(fā)展,目前大型數(shù)據(jù)中心數(shù)據(jù)將逐漸由手工校核工作向自動化校核的方向發(fā)展。本文根據(jù)上文數(shù)據(jù)關聯(lián)性研究成果,通過信息化系統(tǒng)自動完成大型數(shù)據(jù)中心數(shù)據(jù)統(tǒng)計、匯總、處理和相關性分析。研究如何呈現(xiàn)哪些主要關聯(lián)性數(shù)據(jù)及其處理,從而幫助機房維護人員提高工作效率,降低運維風險。
數(shù)據(jù)中心服務終極目標為用最低成本提供最好服務。根據(jù)行業(yè)實際調查結果,大部分機房運營目標主要有兩點:確??蛻魳I(yè)務持續(xù)性,即業(yè)務和設備運行不得中斷;運營成本有效降低,即降低維護成本和實現(xiàn)機房設備運行節(jié)能[6]。為此,數(shù)據(jù)校核分析系統(tǒng)作為數(shù)據(jù)中心信息化管理系統(tǒng)的子系統(tǒng),其建設主要圍饒以上兩個目標開展,即通過實施數(shù)據(jù)校核分析系統(tǒng)可有效幫助機房維護人員確保客戶業(yè)務連續(xù)性,并降低運營成本,數(shù)據(jù)校核分析系統(tǒng)如圖1所示。
圖1 數(shù)據(jù)校核分析系統(tǒng)
從圖1可以看出,數(shù)據(jù)校核系統(tǒng)可通過不同層面實現(xiàn)以下目標:通過機房全系統(tǒng)數(shù)據(jù)校核,可發(fā)現(xiàn)全系統(tǒng)運行健康程度、系統(tǒng)隱患和能效,進而幫助機房管理者從整體上把控整個機房運行狀況;通過子系統(tǒng)數(shù)據(jù)校核,可發(fā)現(xiàn)子系統(tǒng)健康程度、系統(tǒng)隱患和能效,進而幫助專業(yè)工程師從子系統(tǒng)層而把控其運行狀況,調整和改善子系統(tǒng)運行策略,從而實現(xiàn)機房節(jié)能運行;通過設備數(shù)據(jù)校核,可幫助一線運維人員發(fā)現(xiàn)設備健康程度、設備運行隱患和能效,提醒運維人員提前做好設備維護保養(yǎng)、檢修準備[7];通過業(yè)務數(shù)據(jù)校核,可幫助客戶調整和優(yōu)化實際業(yè)務策略,并提高客戶滿意度;通過儀表數(shù)據(jù)校核,及時發(fā)現(xiàn)個別儀表誤差,避免大面積計劃性維護帶來成本。根據(jù)上述不同層面數(shù)據(jù)校核,設計了5個系統(tǒng)子模塊,并與上述目標一一對應。
全系統(tǒng)級校核模塊主要從全局視角關注機房全系統(tǒng)運行數(shù)據(jù)校核,如圖2所示。涉及機房全系統(tǒng)校核數(shù)據(jù)主要有兩個輸入變量,分別為IT負載變量和機房環(huán)境變量,輸出數(shù)據(jù)主要有PUE、用電總量、總耗冷量以及之間比較機房EOP。通過校核輸入變量與輸出變量變化,進而提取整系統(tǒng)運行規(guī)律和趨勢,從而可以判斷出存在哪些隱患,系統(tǒng)健康程度如何以及能效高低,進而幫助機房管理者做出系統(tǒng)級項目改造和調整。
圖2 全系統(tǒng)級校核模塊圖
子系統(tǒng)級模塊主要從局部關注子系統(tǒng)運行數(shù)據(jù)校核,主要分為供配電子系統(tǒng)、暖通空調子系統(tǒng)、消防子系統(tǒng)和弱電子系統(tǒng)。本文只介紹暖通空調子系統(tǒng),子系統(tǒng)校核模塊圖如圖3所示。涉及暖通空調子系統(tǒng)校核數(shù)據(jù)主要有4個輸入變量[8],分別為IT負載數(shù)據(jù)、冷機出水溫度數(shù)據(jù)、末端空調出風溫度數(shù)據(jù)、室外環(huán)境干濕球溫度數(shù)據(jù)。輸出變量數(shù)據(jù)主要有:暖通設備總功耗及組成功耗、暖通設備供冷量、冷機EOP等。通過校核輸入變量與輸出變量變化趨勢和規(guī)律,幫助專業(yè)工程師及時發(fā)現(xiàn)子系統(tǒng)存在運行隱患、健康和能效狀況,提前做應對防范措施,調整和優(yōu)化運行設備及其參數(shù),從而避免故障發(fā)生,提高系統(tǒng)能效。
圖3 子系統(tǒng)校核模塊圖
設備級校核模塊主要關注具體設備運行數(shù)據(jù),并通過6個維度校核設備之間數(shù)據(jù)。設備級校核模塊圖如圖4所示。主要數(shù)據(jù)有:電能、電壓、電流、有功功率、功率因數(shù)等。通過上下儀表、同級儀表和歷史數(shù)據(jù)校核[9],發(fā)現(xiàn)儀表數(shù)據(jù)是否誤差,運行數(shù)據(jù)趨勢突變規(guī)律或異常,進而幫助專業(yè)工程師或一線運維人員提前發(fā)現(xiàn)設備運行隱患和故障情況,做好提前檢修和維保準備。可通過不同顏色(本文用灰度表示)顯示其偏差,如校核數(shù)據(jù)按偏差范圍設為三個級別,顯示三種顏色,分別為紅色、黃色、綠色。目前暫定偏差≤±10%區(qū)間顯間綠色,±10%≤偏差≤±20%顯示黃色,偏差≥±20%顯示紅色。
圖4 設備級校核模塊圖
業(yè)務級校核模塊主要關注客戶機柜及其列頭柜運行數(shù)據(jù)校核。主要有整個IT機房運行功率、整個冷通道運行功率、機柜電流、電壓和功率、精密空調供冷量、機房溫濕度、精密空調功耗等校核數(shù)據(jù)[10]。業(yè)務級校核模塊圖如圖5所示。通過校核這些數(shù)據(jù),并提供相應機柜負載報表,可以幫助客戶及時發(fā)現(xiàn)IT設備異常狀況,精密空調運行健康狀況等,進而可以幫助客戶合理調整IT設備負載和空調供冷模式。
圖5 業(yè)務級校核模塊圖
儀表級校核模塊主要關注傳感器數(shù)據(jù)與環(huán)控數(shù)據(jù)之間校核,儀表級校核模塊如圖6所示。儀表級校核模塊主要校核數(shù)據(jù)有電壓、電流、電阻、頻率、壓力、溫度、濕度、流量計等。現(xiàn)場運維人員通過一些校驗工具,將測量的數(shù)據(jù)錄入手持終端系統(tǒng)后,系統(tǒng)自動判斷數(shù)據(jù)偏差,進而幫助一線運維人員工作量,節(jié)省運維成本。原先校核方法是:兩名維護人員,一名在現(xiàn)場測量,另一名在監(jiān)控大廳通過對講機聯(lián)系校核環(huán)控數(shù)據(jù)與傳感器,效率較低。
圖6 儀表級校核模塊圖
大型數(shù)據(jù)中心數(shù)據(jù)校核由于工作量較大,校核難度高,往往外包給維護商。供應商采用方法往往采用手工校核,采集數(shù)據(jù)時間一致性存在一定誤差。供應商技術人員經(jīng)常出入機房且進行大量接觸性操作,給機房帶一些不確定因素,也給管理增加一些難度和成本。采用自動化校核不僅能節(jié)省維護外包費用,還能避免一些不必要事件發(fā)生。另外,自動化校核通過同時關聯(lián)實時數(shù)據(jù),引入許多數(shù)學分析模型,比逐點校核效率高,且能發(fā)現(xiàn)一些系統(tǒng)層面上的問題,系統(tǒng)自動化校核取代人工校核示意圖如圖7所示。
圖7 系統(tǒng)自動化校核取代人工校核示意圖
關于故障診斷與故障預測方法的分類,現(xiàn)在許多方法的標準都是不統(tǒng)一的,基于經(jīng)驗、趨勢、模型和數(shù)據(jù)等分類方法也是片面化的方法。本文系統(tǒng)從故障診斷與故障預測的運行趨勢數(shù)據(jù)出發(fā),依據(jù)采集數(shù)據(jù)校核分析,對眾多的故障診斷與故障預測方法進行歸類分析,形成較為完善故障診斷與故障預測技術。設備健康管理把設備分為三類狀態(tài):健康——亞健康——故障。設備使用壽命是一個由健康——亞健康——故障——報廢,即設備形態(tài)與性能由量變到質變的動態(tài)過程。設備現(xiàn)行管理和維修的理論、模式、制度是一種被動式滯后性管理。它以設備的故障管理與維修為核心,重點關注設備的故障階段,以被動保養(yǎng)、排故診斷、解體換件維修為基本模式,缺乏對設備在“亞健康”階段的形態(tài)與性能的動態(tài)劣化和系統(tǒng)平衡紊亂的控制對策。其結果勢必造成無可挽回的能源、備件、人力、時間、生產和產品的損失。因此,設備健康管理是監(jiān)控的重中之重。本文系統(tǒng)根據(jù)設備數(shù)據(jù)校核分析,診斷系統(tǒng)及設備的健康狀態(tài),為設備健康管理提供決策信息。圖8為冷水機組數(shù)據(jù)校核分析表,其中深色區(qū)域數(shù)據(jù)已超出其基準范圍,代表設備運行不健康,而淺色區(qū)域在基準范圍之內,代表健康。
圖8 冷水機故障校核表
根據(jù)校核數(shù)據(jù)得到的結果,可以給數(shù)據(jù)中心節(jié)能降耗提供直觀科學的依據(jù),為機房查找能耗弱點,促進機房管理水平的進一步提高及運營成本的進一步降低,冷凍機設備動態(tài)分析圖如圖9所示。通過數(shù)據(jù)分析,一方面可以使能源使用合理,控制能源浪費,達到節(jié)能減排的目的,節(jié)能降耗,創(chuàng)造能源效益;另一方面,可以幫助機房對整個系統(tǒng)進行全面的了解,對各個機房以及主要耗能設備進行實時考核比較,防止能源浪費,并可以幫助機房進一步優(yōu)化用電措施,以降低單位能耗成本。圖9中關聯(lián)了冷卻水出水溫度和冷凝器飽合溫度,當冷凝器飽合溫度與冷卻水出水溫度數(shù)據(jù)貼合度較近時,表明整個冷機系統(tǒng)換熱效率較高,冷機能效較高。當冷凝器飽合溫度偏離冷卻水出水溫度較大時,表明冷機系統(tǒng)換熱效率差,能效較低,需要清洗冷凝器。
圖9 冷凍機設備動態(tài)分析圖
通過校核分析系統(tǒng)研究并實現(xiàn),可及時發(fā)現(xiàn)系統(tǒng)和設備隱患,提前做好檢修和維保工作,從而減少甚至避免事件發(fā)生,最終提高機房服務質量和效率。另外, 該系統(tǒng)通過數(shù)據(jù)校核,可及時發(fā)現(xiàn)影響系統(tǒng)能效指標 因素,通過技改或調整系統(tǒng)和設備運行模式,從而達到 節(jié)能降耗目標。