陳瑞,冷迪,李英
(深圳供電局有限公司,廣東 深圳 518000)
伴隨著經(jīng)濟(jì)的發(fā)展,人類社會用電量越來越龐大,智能化設(shè)備及信息系統(tǒng)采集數(shù)據(jù)越來越多,伴之而來的是數(shù)據(jù)量不斷膨脹的數(shù)據(jù)中心。數(shù)據(jù)中心的構(gòu)成比較復(fù)雜,處理的信息涉及設(shè)備、器件較多,且相互之間具有很強(qiáng)的關(guān)聯(lián)性,因此必須要及時(shí)有效的處理數(shù)據(jù)中心的告警信息,這還包括要告警信息的甄別與收斂,不能錯失任何一條告警信息的解決機(jī)會,但也應(yīng)盡可能減少在無效告警時(shí)間上浪費(fèi)時(shí)間與資源。由于物聯(lián)網(wǎng)的出現(xiàn)使得數(shù)據(jù)中心告警信息量越來越大,結(jié)合大數(shù)據(jù)與機(jī)器學(xué)習(xí)手段打造一個(gè)數(shù)據(jù)中心告警事件全面自愈系統(tǒng)是既有效又節(jié)約時(shí)間與資源的解決辦法。
數(shù)據(jù)中心是一個(gè)數(shù)據(jù)核心交通樞紐,而各色各樣的邊緣數(shù)據(jù)中心就像一個(gè)個(gè)星羅密布的小樞紐,不僅需要適應(yīng)各種運(yùn)行環(huán)境,還對設(shè)備功耗、成本、空間、軟硬件集成與優(yōu)化、自動化部署與運(yùn)維有著極高要求,需支持聯(lián)接、數(shù)據(jù)、管理、控制、安全、應(yīng)用等的協(xié)同。數(shù)據(jù)中心組成設(shè)備眾多,設(shè)備間的連接復(fù)雜[1]。一般情況下,數(shù)據(jù)中心連接有多條工作鏈(即同一系統(tǒng)下),而每一工作鏈均包含有對應(yīng)的器件,如大一點(diǎn)的天線、服務(wù)器、交換機(jī)、路由器及PC端等,又或者小一點(diǎn)的CPU、電源、磁盤、內(nèi)存卡、電容、電阻、繼電器、傳感器等,而這些器件之間工作關(guān)系緊密,每一個(gè)器件的工作參數(shù)的變化都會對同一系統(tǒng)下的相關(guān)聯(lián)器件產(chǎn)生一些影響(特殊情況下會達(dá)到很大影響),這些影響輕者包括改變器件的工作參數(shù),重者燒壞或損壞相鄰器件,而對整個(gè)數(shù)據(jù)中心而講,損壞器件是小事,雖然成本會增大,但如果影響整個(gè)系統(tǒng)甚至整個(gè)數(shù)據(jù)中心的工作而導(dǎo)致整個(gè)系統(tǒng)或者整個(gè)互聯(lián)網(wǎng)數(shù)據(jù)中心無法正常工作,隨之而來的經(jīng)濟(jì)損失更是無法想象。
對于數(shù)據(jù)中心的安全與穩(wěn)定性,常規(guī)的考慮主要是從其拓?fù)浣Y(jié)構(gòu)與傳輸協(xié)議出發(fā),這兩方面可能會造成一些無法避免的數(shù)據(jù)告警,對于這一部分告警與實(shí)際的被檢測設(shè)備、信息內(nèi)容關(guān)系不大,需要從數(shù)據(jù)中心的設(shè)計(jì)上進(jìn)行考慮以解決告警信息。傳統(tǒng)的數(shù)據(jù)中心的拓?fù)浣Y(jié)構(gòu)是樹形拓?fù)?,但因?yàn)檫@種結(jié)構(gòu)對設(shè)備要求高、容錯性差等原因已經(jīng)不再適合現(xiàn)代要求,現(xiàn)在的數(shù)據(jù)中心主要采用是以交換機(jī)為核心和以服務(wù)器為核心的拓?fù)浣Y(jié)構(gòu),新的拓?fù)浣Y(jié)構(gòu)很大的提高了數(shù)據(jù)中心的穩(wěn)定性,但依舊存在一些難以處理的技術(shù)問題。數(shù)據(jù)中心的數(shù)據(jù)傳輸協(xié)議是以TCP協(xié)議為主的,從協(xié)議角度出發(fā),數(shù)據(jù)中心會出現(xiàn)TCP Incast問題即因交換機(jī)緩沖區(qū)溢出造成的數(shù)據(jù)吞吐量急速下降,為此許多數(shù)據(jù)中心采用多路徑TCP傳輸模式甚至定制協(xié)議的方式進(jìn)行數(shù)據(jù)傳輸。由于物聯(lián)網(wǎng)技術(shù)的發(fā)展,數(shù)據(jù)中心不再單純的使用傳統(tǒng)連接方式進(jìn)行數(shù)據(jù)傳輸,傳統(tǒng)無線因?yàn)閹挕⒋┩噶Φ燃夹g(shù)性問題可能引發(fā)一些告警,5G技術(shù)的出現(xiàn)使得這些問題得到了極大地改善,但依舊存在一些問題,在一些特殊場景物聯(lián)網(wǎng)傳輸數(shù)據(jù)還是要依賴于短距離傳輸網(wǎng)絡(luò),因此在處理告警信息時(shí)應(yīng)當(dāng)予以甄別[2]。
當(dāng)數(shù)據(jù)中心出現(xiàn)事件告警時(shí),數(shù)據(jù)中心是否能夠有效地甄別與收斂告警信息并進(jìn)行自愈,是一個(gè)數(shù)據(jù)中心安全可靠的重要標(biāo)志。對于一個(gè)數(shù)據(jù)中心來講,應(yīng)當(dāng)實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)中心的系統(tǒng)下所有器件的運(yùn)維數(shù)據(jù),并進(jìn)行有效地存儲,一方面是為了存檔留據(jù),另一方面是為了進(jìn)行大數(shù)據(jù)挖掘與智能分析比對。通過事先設(shè)置的運(yùn)維數(shù)據(jù)閾值或者智能分析出的數(shù)據(jù)閾值比對來判斷該大數(shù)據(jù)中心的系統(tǒng)下的器件是否產(chǎn)生告警事件。經(jīng)過數(shù)據(jù)的比對判斷,如果發(fā)現(xiàn)確為器件告警,一方面要根據(jù)預(yù)設(shè)屏蔽策略對告警事件進(jìn)行屏蔽,另一方面要根據(jù)預(yù)設(shè)收斂策略對告警事件進(jìn)行收斂,以獲得最終的有效告警事件??偠灾?,一些告警事件能夠被系統(tǒng)自動處理,只需存檔加入日志信息即可,可不進(jìn)行告警提示,這部分告警事件會屏蔽;對于多次出現(xiàn)的同樣的告警事件,應(yīng)當(dāng)對這些告警事件進(jìn)行收斂,即采用告警提示等級加重的模式告知相關(guān)人員進(jìn)行處理,避免一些重要性較低的告警占用大量的帶寬與處理資源,影響重大事件告警的發(fā)出[3]。
與環(huán)境比較穩(wěn)定的工作內(nèi)容的告警信息處理不同的是,對于電網(wǎng)相關(guān)的告警信息,大部分無法通過智能化設(shè)備進(jìn)行智能處理。因此數(shù)據(jù)中心獲取到有效告警事件所對應(yīng)的器件信息,從器件信息中解析出對應(yīng)的工作人員,并將有效告警事件及器件信息及時(shí)發(fā)送給對應(yīng)的工作人員是非常重要的工作。當(dāng)獲取到與該器件相關(guān)聯(lián)的設(shè)備的信息后,系統(tǒng)應(yīng)當(dāng)與工作人員都將逐一對與該器件相關(guān)聯(lián)的同一系統(tǒng)下的設(shè)備進(jìn)行檢測,當(dāng)然這一過程更多依賴于系統(tǒng)。得益于物聯(lián)網(wǎng)的發(fā)展,現(xiàn)階段設(shè)備與器件信息都比較全面,獲取的信息可以包括設(shè)備的ID號、名稱、工作時(shí)長等。而對關(guān)聯(lián)設(shè)備進(jìn)行檢測,包括檢測工作電流、工作電壓,工作功率、溫度和工作時(shí)長的情況,以判斷工作電流是否大于安全電流,判斷工作電壓是否大于安全電壓、判斷工作功率是否大于安全功率、判斷設(shè)備的溫度是否過高等等。
在進(jìn)行告警設(shè)備相關(guān)聯(lián)的設(shè)備信息獲取與排查時(shí),首先是設(shè)備的供電電源的排查,其次是與告警設(shè)備具有點(diǎn)相連的設(shè)備,然后是與告警設(shè)備存在數(shù)據(jù)交互的設(shè)備。檢查之后,判斷這些設(shè)備是否已經(jīng)瀕臨告警或者收告警設(shè)備影響即將產(chǎn)生告警。如果監(jiān)測結(jié)果符合設(shè)定的閾值,系統(tǒng)則將接近產(chǎn)生故障或告警(或者即將產(chǎn)生故障或告警)的設(shè)備的信息一同發(fā)送給工作人員,使得工作人員關(guān)注這些關(guān)聯(lián)的設(shè)備,提前預(yù)知這些設(shè)備會產(chǎn)生告警并處理[4]。
基于數(shù)據(jù)中心系統(tǒng)下所有器件的告警事件處理,應(yīng)當(dāng)采用多接口與每一器件連接,實(shí)時(shí)獲取每一器件的操作事件,并記錄每一器件的告警事件。實(shí)現(xiàn)單一器件產(chǎn)生告警事件,對所有器件或者相關(guān)聯(lián)器件均需進(jìn)行詳細(xì)檢測,以免因?yàn)槟骋黄骷a(chǎn)生告警事件而漏掉與之相關(guān)聯(lián)的器件產(chǎn)生告警事件,從而有效避免不必要的事故發(fā)生,一方面提高安全性,另一方面避免器件的損壞,降低運(yùn)維成本。
基于數(shù)據(jù)中心的告警事件的全面處理系統(tǒng)包括檢測、告警判斷、告警屏蔽、告警收斂、信息解析、第一收發(fā)、關(guān)聯(lián)設(shè)備獲取、關(guān)聯(lián)設(shè)備檢測、關(guān)聯(lián)設(shè)備判斷和第二收發(fā)等模塊。其中,檢測模塊用于實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)中心的系統(tǒng)下所有器件的運(yùn)維數(shù)據(jù)。告警判斷模塊用于通過運(yùn)維數(shù)據(jù)判斷該大數(shù)據(jù)中心的系統(tǒng)下的器件是否產(chǎn)生告警事件。告警屏蔽模塊用于在確定有產(chǎn)生告警事件時(shí),根據(jù)預(yù)設(shè)屏蔽策略對告警事件進(jìn)行屏蔽。告警收斂模塊在確定有產(chǎn)生告警事件時(shí),根據(jù)預(yù)設(shè)收斂策略對告警事件進(jìn)行收斂,以獲得最終的有效告警事件。再次要說明的是,一些告警事件能夠系統(tǒng)自動處理,因此這些告警事件會屏蔽,而如果屬于多次同樣的告警事件,則對這些同樣的告警事件進(jìn)行收斂。
信息解析模塊用于獲取有效告警事件所對應(yīng)的器件信息,從器件信息中解析出對應(yīng)的工作人員。第一收發(fā)模塊用于將有效告警事件及器件信息發(fā)送給工作人員。關(guān)聯(lián)設(shè)備獲取模塊用于獲取與該器件相關(guān)聯(lián)的設(shè)備的信息,這一關(guān)聯(lián)設(shè)備獲取模塊具有可以用于獲取為該器件供電的電源的信息、獲取與該器件電連接的設(shè)備的信息、獲取與該器件有進(jìn)行數(shù)據(jù)傳輸?shù)脑O(shè)備的信息。關(guān)聯(lián)設(shè)備檢測模塊用于逐一對與該器件相關(guān)聯(lián)的設(shè)備進(jìn)行檢測。關(guān)聯(lián)設(shè)備判斷模塊用于判斷與該器件相關(guān)聯(lián)的設(shè)備是否接近產(chǎn)生故障或告警的條件[5]。
第二收發(fā)模塊用于在確定關(guān)聯(lián)設(shè)備產(chǎn)生故障時(shí)將接近產(chǎn)生故障或告警(或者即將產(chǎn)生故障或告警)的設(shè)備的信息一同發(fā)送給工作人員,使得工作人員關(guān)注這些關(guān)聯(lián)的設(shè)備,提前預(yù)知這些設(shè)備會產(chǎn)生告警,提前處理。在一些實(shí)施例中,先判斷產(chǎn)生有效告警事件的器件是否為發(fā)熱器件(如電源、電阻、電阻或其他發(fā)熱器件),如果是,關(guān)聯(lián)設(shè)備獲取模塊獲取位置與該器件相鄰的設(shè)備的信息。因?yàn)槠骷绻l(fā)熱而產(chǎn)生告警事件,這勢必會影響該器件的周圍的設(shè)備,因此需要對這些相鄰設(shè)備進(jìn)行檢測。在另外一些實(shí)施例中,獲取與該器件相關(guān)聯(lián)的設(shè)備的信息的步驟具體還包括:獲取與該器件的型號相同的設(shè)備。應(yīng)理解,如果某一器件發(fā)生告警事件,說明這種型號的器件容易出故障,因此對相同型號的器件進(jìn)行檢測,能夠避免同樣的告警再次發(fā)生。此外,獲取與該器件相關(guān)聯(lián)的設(shè)備的信息的步驟具體還包括:獲取與該器件同時(shí)正在工作的設(shè)備的信息,又或者獲取與該器件同時(shí)正在工作且位置處于預(yù)設(shè)范圍內(nèi)(即距離比較近的)的設(shè)備的信息。
由此邏輯獲取與該器件相關(guān)聯(lián)的設(shè)備的信息的步驟具體還包括:獲取系統(tǒng)中的同一信號經(jīng)過的所有設(shè)備的信息,如某一信號經(jīng)過第一器件、第二器件、第三器件、第四器件......第n器件進(jìn)行處理,而當(dāng)?shù)谌骷l(fā)生告警事件時(shí),則獲取與該器件相關(guān)聯(lián)的設(shè)備的信息的步驟具體包括:獲取第一器件、第二器件……第n器件的信息,以使得對第一器件、第二器件……第n器件進(jìn)行檢測。
信息化時(shí)代數(shù)據(jù)中心的地位越來越重要,在輸配電系統(tǒng)中尤為突出。由于輸配電網(wǎng)絡(luò)中的信息設(shè)備、信息點(diǎn)多且復(fù)雜,產(chǎn)生事件告警的頻率極高,對告警信息的來源與潛在問題進(jìn)行分析甄別,實(shí)現(xiàn)一個(gè)能夠告警自愈的數(shù)據(jù)中心告警自愈軟件系統(tǒng),可以很好的提升數(shù)據(jù)中心工作性能。