張杰
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都 610064)
基于CBM的信息設(shè)備狀態(tài)檢修研究與嘗試
張杰
(四川大學(xué)計(jì)算機(jī)學(xué)院,成都610064)
故障預(yù)測(cè);CBM;規(guī)則集合;BP神經(jīng)網(wǎng)絡(luò)
進(jìn)入云計(jì)算時(shí)代,依托于云服務(wù)構(gòu)建的企業(yè)級(jí)應(yīng)用越來越多。為滿足客戶的需求,云提供商部署了大規(guī)模不同用途的集群,而隨著計(jì)算機(jī)體系結(jié)構(gòu)日趨復(fù)雜、計(jì)算規(guī)模不斷擴(kuò)大,集群內(nèi)部出現(xiàn)故障的可能性遠(yuǎn)高于單一計(jì)算節(jié)點(diǎn),出現(xiàn)故障也已成為常態(tài)[1]。2002年,Google分析了其部署在不同地域的幾十個(gè)站點(diǎn)的一年內(nèi)運(yùn)行數(shù)據(jù),指出每年節(jié)點(diǎn)故障率為2-3%,即每36小時(shí),就有一個(gè)節(jié)點(diǎn)發(fā)生故障[2]。
云提供商必須保證系統(tǒng)的高可用,才能避免給客戶帶來損失。主動(dòng)冗余技術(shù),是公認(rèn)的保證系統(tǒng)高可用的唯一方式。通過主動(dòng)冗余,可及時(shí)對(duì)集群內(nèi)故障節(jié)點(diǎn)進(jìn)行隔離,并完成失效轉(zhuǎn)移,將業(yè)務(wù)處理轉(zhuǎn)移到正常節(jié)點(diǎn)進(jìn)行處理[3-5]。在主動(dòng)冗余技術(shù)中,如何判斷集群內(nèi)計(jì)算節(jié)點(diǎn)的工作狀態(tài)是否正常,是非常重要的,它直接關(guān)系到主動(dòng)冗余策略的有效性。故障預(yù)測(cè)技術(shù),就是用來判斷、預(yù)測(cè)節(jié)點(diǎn)工作狀態(tài)的。
上世紀(jì)70年代以來,設(shè)備維護(hù)得到了大量研究,并在機(jī)械、航天、電力等領(lǐng)域得到了大量的實(shí)踐,積累了寶貴的經(jīng)驗(yàn)和教訓(xùn)[6-7]。近10年來的研究與實(shí)踐,CBM在故障預(yù)測(cè)方面的巨大潛力,更是得到了學(xué)術(shù)界、工業(yè)界的充分認(rèn)可。然而,經(jīng)實(shí)踐、研究發(fā)現(xiàn),在信息設(shè)備領(lǐng)域(如主機(jī)、存儲(chǔ)、網(wǎng)絡(luò)設(shè)備等),CBM的研究仍處于起步階段,企業(yè)級(jí)的軟件產(chǎn)品(如zabbix、cacti、openstdb等),仍存在明顯不足,如不易部署、預(yù)測(cè)精度差。
因此,針對(duì)信息設(shè)備領(lǐng)域的狀態(tài)檢修進(jìn)行了研究,提出了適用于信息設(shè)備領(lǐng)域故障預(yù)測(cè)的相關(guān)定義、評(píng)估標(biāo)準(zhǔn),并提出了一種基于規(guī)則集合、BP神經(jīng)網(wǎng)絡(luò)相結(jié)合的企業(yè)級(jí)狀態(tài)檢修應(yīng)用、開發(fā)、部署方案,滿足企業(yè)易部署、易擴(kuò)展、故障預(yù)測(cè)精度高的需求。
信息設(shè)備狀態(tài)檢修,指的是對(duì)主機(jī)、存儲(chǔ)、網(wǎng)絡(luò)等信息設(shè)備進(jìn)行基于狀態(tài)的維護(hù)。設(shè)備運(yùn)行期間的狀態(tài),可通過SNMP、IPMI、SysLog等手段獲取,經(jīng)過數(shù)據(jù)分析模型的計(jì)算、評(píng)估,對(duì)潛在故障進(jìn)行預(yù)測(cè),并做出科學(xué)的維修決策。通過這種方式,將信息設(shè)備檢修的時(shí)間點(diǎn)前移,在真正故障出現(xiàn)之前完成對(duì)設(shè)備的檢修、維護(hù),為設(shè)備安全可靠運(yùn)行提供保障。
基于CBM技術(shù)進(jìn)行設(shè)備檢修的前提,是要求設(shè)備的狀態(tài)劣化過程存在一個(gè)“潛在故障-功能故障”間隔,簡(jiǎn)稱為P-F間隔期,如圖1 所示。
圖1 設(shè)備狀態(tài) “P-F間隔期”
P-F間隔期,其中的“P”點(diǎn)是潛在故障點(diǎn),即故障可被檢測(cè)到的最早時(shí)間點(diǎn),在“P”點(diǎn)之前,故障的副作用不明顯,故障無法檢測(cè);經(jīng)過“P”點(diǎn)之后,如不維護(hù)設(shè)備,設(shè)備會(huì)以較快的速度劣化到故障點(diǎn)“F”點(diǎn),此時(shí)設(shè)備出現(xiàn)明顯故障,已不可用?!癙-F間隔期”的存在,是進(jìn)行基于狀態(tài)維護(hù)的前提條件[8]。
信息設(shè)備的狀態(tài)劣化過程,存在明顯的“P-F間隔期”,因此可以對(duì)其進(jìn)行基于狀態(tài)的維護(hù)。信息設(shè)備狀態(tài)檢修的范圍包括主機(jī)、存儲(chǔ)、網(wǎng)絡(luò)設(shè)備,主機(jī)類設(shè)備主要包括小型機(jī)、PC服務(wù)器等,網(wǎng)絡(luò)類設(shè)備主要包括路由器、交換機(jī)等,存儲(chǔ)類設(shè)備主要包括磁盤陣列、磁帶庫等。
信息設(shè)備在狀態(tài)劣化的過程中,存在明顯的“P-F間隔期”。在不加維護(hù)的情況下,設(shè)從“P點(diǎn)”到“F點(diǎn)”需要經(jīng)過△t的時(shí)間,為了能夠更加形象地描述設(shè)備在劣化過程中的不同階段,并針對(duì)不同的劣化階段提供更加精確的故障預(yù)測(cè)能力,有必要對(duì)“P-F間隔期”進(jìn)行更加細(xì)致的劃分。根據(jù)設(shè)備故障的嚴(yán)重性,將故障等級(jí)劃分為“良好、異常、警告、嚴(yán)重”4個(gè)級(jí)別。
對(duì)設(shè)備進(jìn)行基于狀態(tài)的故障預(yù)測(cè),其實(shí)質(zhì)是建立一個(gè)用于故障預(yù)測(cè)的數(shù)學(xué)模型,通過該模型對(duì)表征設(shè)備狀態(tài)的特征量進(jìn)行計(jì)算,根據(jù)模型的計(jì)算結(jié)果來判斷、預(yù)測(cè)設(shè)備的故障等級(jí)。表征設(shè)備狀態(tài)的特征量的選擇尤為重要,因?yàn)椴煌脑O(shè)備類型,在運(yùn)行期間存在不同的特點(diǎn),表征其運(yùn)行狀態(tài)的特征量存在差異,相同特征量在不同故障等級(jí)情況下的取值范圍也存在差異。
針對(duì)信息設(shè)備的運(yùn)行特點(diǎn),選擇了一系列關(guān)鍵指標(biāo),作為表征設(shè)備狀態(tài)的特征量。以主機(jī)設(shè)備類型為例,選擇的有效特征量多達(dá)幾十個(gè),可以歸納為性能、設(shè)備生命周期、供電系統(tǒng)、環(huán)境情況、安保運(yùn)維、供應(yīng)商6個(gè)類別。
這里選擇與性能相關(guān)的部分特征量作為重點(diǎn)描述對(duì)象,選擇的部分性能特征量如表1所示。
表1 信息設(shè)備特征參量選擇
考慮到企業(yè)級(jí)信息設(shè)備狀態(tài)檢修的應(yīng)用場(chǎng)景,要求滿足易部署、易擴(kuò)展、預(yù)測(cè)精度高的需求,因此采用基于規(guī)則集合、BP神經(jīng)網(wǎng)絡(luò)相結(jié)合的的故障預(yù)測(cè)方法。
基于規(guī)則集合的故障預(yù)測(cè)模型,提供了一套規(guī)則集合模板,實(shí)際運(yùn)維過程中可以創(chuàng)建派生模板對(duì)規(guī)則集合加以調(diào)整,以適應(yīng)不同設(shè)備類型、不同業(yè)務(wù)場(chǎng)景的需要,滿足易擴(kuò)展的需求;該模型可以在不依賴歷史故障數(shù)據(jù)的情況下,完成對(duì)狀態(tài)檢修任務(wù),滿足易部署的需求[9]。
但是,針對(duì)產(chǎn)自不同廠商、不同型號(hào)、歷經(jīng)不同上線時(shí)間、處于不同故障級(jí)別的設(shè)備制定一個(gè)近乎完備的規(guī)則集合,對(duì)運(yùn)維管理人員來說,是非常困難的。在制定具體的規(guī)則集合的時(shí)候,如不能全面地了解設(shè)備的狀況,就難免存在試錯(cuò)的可能性,制定出的規(guī)則集合有可能會(huì)損失預(yù)測(cè)精度,甚至造成嚴(yán)重的誤判,給設(shè)備帶來致命的損壞。
為了在易部署、易擴(kuò)展的基礎(chǔ)上提高故障預(yù)測(cè)的精度,在基于規(guī)則集合故障預(yù)測(cè)的基礎(chǔ)上,結(jié)合基于BP神經(jīng)網(wǎng)絡(luò)的故障預(yù)測(cè)。系統(tǒng)部署后首先基于規(guī)則集合進(jìn)行故障預(yù)測(cè),運(yùn)維人員可以將預(yù)測(cè)結(jié)果與設(shè)備具體健康狀況進(jìn)行對(duì)比,并對(duì)預(yù)測(cè)結(jié)果進(jìn)行校準(zhǔn)。歷史故障數(shù)據(jù)及校準(zhǔn)記錄,可作為BP神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練數(shù)據(jù),經(jīng)訓(xùn)練后,BP神經(jīng)網(wǎng)絡(luò)模型可以接管對(duì)信息設(shè)備的故障預(yù)測(cè)任務(wù),提高預(yù)測(cè)精度。
4.1基于規(guī)則集合的故障預(yù)測(cè)模型
基于規(guī)則集合的故障預(yù)測(cè)模型,是根據(jù)實(shí)踐經(jīng)驗(yàn)和知識(shí)庫,人工制定的一系列故障預(yù)測(cè)規(guī)則。規(guī)則集合中的每條規(guī)則,都存在對(duì)應(yīng)的分值表達(dá)式,將某一時(shí)刻采集到的設(shè)備狀態(tài)特征量,輸入到規(guī)則集合,規(guī)則集合就可以對(duì)當(dāng)前輸入計(jì)算出一個(gè)分值,以表征設(shè)備的健康狀況。
下表是主機(jī)相關(guān)的部分性能特征量的權(quán)重、規(guī)則表達(dá)式、分值表達(dá)式的相關(guān)說明。
表2 部分性能特征量的規(guī)則、分值表達(dá)式說明
表2中該部分性能評(píng)價(jià)的得分情況為,各個(gè)特征量的分值表達(dá)式的和。狀態(tài)評(píng)價(jià)結(jié)果分4個(gè)等級(jí),“良好、異常、告警、嚴(yán)重”,評(píng)級(jí)與對(duì)應(yīng)分值如表3所示。
表3 信息設(shè)備狀態(tài)檢修評(píng)價(jià)標(biāo)準(zhǔn)
上述狀態(tài)評(píng)價(jià)評(píng)級(jí)與設(shè)備所處的故障等級(jí)一一對(duì)應(yīng),在不同的故障等級(jí)階段,可以在知識(shí)庫或決策支持系統(tǒng)的輔助下,制定出詳細(xì)的狀態(tài)檢修策略和狀態(tài)檢修計(jì)劃,保障設(shè)備正常運(yùn)行。
4.2基于BP的神經(jīng)網(wǎng)絡(luò)的故障預(yù)測(cè)模型
如表1所示,各性能相關(guān)特征量之間關(guān)系密切,如高CPU利用率易導(dǎo)致核心溫度升高、風(fēng)扇轉(zhuǎn)速增加,且它們間的關(guān)系大部分是非線性關(guān)系,考慮到BP神經(jīng)網(wǎng)絡(luò)恰能以任意精度逼近任何非線形函數(shù),所以基于BP神經(jīng)網(wǎng)絡(luò)構(gòu)建故障預(yù)測(cè)模型來提高預(yù)測(cè)精度的方法是可行的。
BP神經(jīng)網(wǎng)絡(luò)故障預(yù)測(cè)模型,其狀態(tài)評(píng)價(jià)維度是規(guī)則集合故障預(yù)測(cè)模型評(píng)價(jià)維度的子集,即,其關(guān)注的特征量?jī)H限于相互之間存在非線形關(guān)系的部分。表4列出了所關(guān)注的特征量。
表4 BP神經(jīng)網(wǎng)絡(luò)故障預(yù)測(cè)模型的參考特征量
(1)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)
神經(jīng)網(wǎng)絡(luò)包括輸入層、隱層、輸出層,各神經(jīng)元層包含一定數(shù)量的神經(jīng)元,每個(gè)神經(jīng)元有多個(gè)輸入和1個(gè)輸出,神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建,其實(shí)質(zhì)就是對(duì)神經(jīng)元各輸入引腳的權(quán)值的訓(xùn)練。針對(duì)性能特征量的故障預(yù)測(cè),構(gòu)建神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包括輸入層、隱層、輸出層。輸入層、輸出層神經(jīng)元的數(shù)量,可以根據(jù)實(shí)際情況進(jìn)行調(diào)整,隱層神經(jīng)元的數(shù)量,根據(jù)如下經(jīng)驗(yàn)公式進(jìn)行計(jì)算:
式(1)中,m為隱層節(jié)點(diǎn)數(shù)量,n為輸入層節(jié)點(diǎn)數(shù)量,l為輸出層節(jié)點(diǎn)數(shù)量,a為1-10之間的常數(shù)。
輸出層神經(jīng)元傳遞函數(shù)選用log-sigmoid型函數(shù),中間層神經(jīng)元的傳遞函數(shù),依據(jù)BP神經(jīng)網(wǎng)絡(luò)的一般原則設(shè)定為S型正切函數(shù)tan-sigmoid。
(2)訓(xùn)練樣本確定及分級(jí)
訓(xùn)練樣本,是通過基于規(guī)則集合的故障預(yù)測(cè)所得到的?;谝?guī)則集合的故障預(yù)測(cè)結(jié)果,運(yùn)維人員根據(jù)設(shè)備實(shí)際健康狀況對(duì)其進(jìn)行了校準(zhǔn),校準(zhǔn)的原則如下:
①對(duì)比確認(rèn)結(jié)果為“故障預(yù)測(cè)值準(zhǔn)確”,對(duì)預(yù)測(cè)結(jié)果不予調(diào)整;
②對(duì)比確認(rèn)結(jié)果為“故障預(yù)測(cè)值偏高”,預(yù)測(cè)結(jié)果降低一個(gè)故障等級(jí),例如從“嚴(yán)重”降為“警告”;
③對(duì)比確認(rèn)結(jié)果為“故障預(yù)測(cè)值偏低”,預(yù)測(cè)結(jié)果升高一個(gè)故障等級(jí),例如從“良好”升高到“異常”;
上述校準(zhǔn)后的故障預(yù)測(cè)結(jié)果可用于構(gòu)建BP神經(jīng)網(wǎng)絡(luò)故障預(yù)測(cè)模型的訓(xùn)練樣本,對(duì)應(yīng)的故障等級(jí)保持不變。訓(xùn)練樣本中,輸入向量定義為InputX=[x1,x2,x3,x4],代表當(dāng)日的設(shè)備狀態(tài)特征量的值,其中各分量x1、x2、x3、x4依次表示 CON_FAN、CON_CPU、CON_ RAM、CON_TEMP;輸出向量OutputY=[y1,y2,y3,y4],代表次日的設(shè)備特征量的值,其中各分量y1、y2、y3、y4依次表示CON_FAN、CON_CPU、CON_RAM、CON_ TEMP;故障級(jí)別代表在當(dāng)日、次日這個(gè)時(shí)間窗口內(nèi)設(shè)備所處的故障等級(jí)。
4.3規(guī)則集合、BP神經(jīng)網(wǎng)絡(luò)相結(jié)合的故障預(yù)測(cè)模型
將基于規(guī)則集合、基于BP神經(jīng)網(wǎng)絡(luò)的故障預(yù)測(cè)模型相結(jié)合,為實(shí)現(xiàn)易部署、易擴(kuò)展、預(yù)測(cè)精度高的企業(yè)級(jí)狀態(tài)檢修提供了一個(gè)有效方案。狀態(tài)檢修系統(tǒng)中,兩種故障預(yù)測(cè)模型的協(xié)作關(guān)系如圖2 所示。
針對(duì)信息設(shè)備領(lǐng)域狀態(tài)檢修研究及企業(yè)級(jí)實(shí)踐現(xiàn)狀,提出了一種新的思路,即,將易實(shí)現(xiàn)、易部署、易擴(kuò)展的基于規(guī)則集合的故障預(yù)測(cè)模型,與預(yù)測(cè)精度高的BP神經(jīng)網(wǎng)絡(luò)故障預(yù)測(cè)模型相結(jié)合,利用前者在狀態(tài)檢修中積累下的數(shù)據(jù)以及運(yùn)維人員的校準(zhǔn),構(gòu)建后者的訓(xùn)練樣本,便于訓(xùn)練一個(gè)適應(yīng)具體設(shè)備類型、業(yè)務(wù)場(chǎng)景的可靠的故障預(yù)測(cè)模型,在后期的設(shè)備檢修過程中提高預(yù)測(cè)精度。
圖2 兩種故障預(yù)測(cè)模型協(xié)作檢修流程
[1]Chakravorty S.,Mendes C.L.,and Kale L.V.Proactive Fault Tolerance in MPI Applications Via Task Migration[M].High Performance Computing-HiPC,2006:485-496.
[2]Bosila G.,Etal.MPICH-V:Toward a Scalable Fault Tolerant MPI for Volatile Nodes[C].In Supercomputing.ACM/IEEE 2002 Conference,2002.
[3]Chen G.,Jin H.,Zou D.Q.,Zhou B.B.,Qiang W.Z.A Lightweight Software System in the Cloud Environment[J].Concurrency and Computation-Practice&Experience,2015,27(12):2982-2998.
[4]Dai H.J.,Zhao S.L.,Zhang J.T.,Qiu M.K.,Tao L.X.Security Enhancement of Cloud Servers with a Redundancy-Based Fault-Tolerant Cache Structure[J].Future Generation Computer Systems-The International Journal of Grid Computing and Science,2015,52:147-155.
[5]Liu Dong.A Fault-Tolerant Architecture for ROIA in Cloud[J].Journal of Ambient Intelligence and Humanized Computing,2015,6(5): 587-595.
[6]彭穎.基于退化隱式半馬爾科夫模型的設(shè)備健康預(yù)測(cè)及系統(tǒng)性維護(hù)策略研究[D].上海:上海交通大學(xué)機(jī)械與動(dòng)力工程學(xué)院,2011.
[7]徐皚冬,于海斌,郭前進(jìn).基于狀態(tài)的設(shè)備維護(hù)-CBM技術(shù)研究[J].工程機(jī)械,2005(6):9-13.
[8]侯曉凱,李師謙,王杰瓊,胡彬,鄧晶.一種基于神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)設(shè)備故障預(yù)測(cè)系統(tǒng)[J].山東理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,28(6):29-34.
[9]嚴(yán)然,孟由,錢德沛,欒鐘治.故障預(yù)測(cè)技術(shù)研究綜述[J].高性能計(jì)算發(fā)展與應(yīng)用,2013(2):38-49.
Fault Prediction;CBM;Rules Set;BP Neural Network
Research and Trying of Information Devices Status Maintenance Based on CBM
ZHANG Jie
(College of Computer Science,Sichuan University,Chengdu 610064)
張杰(1990-),男,山東濱州人,碩士研究生,研究方向?yàn)榫W(wǎng)絡(luò)與信息安全
2015-12-22
2016-02-01
隨著計(jì)算機(jī)體系結(jié)構(gòu)、計(jì)算規(guī)模的不斷擴(kuò)大,相比于單一計(jì)算節(jié)點(diǎn),集群內(nèi)部出現(xiàn)故障的可能性顯著提升,故障已經(jīng)成為一種常態(tài)。主動(dòng)冗余技術(shù),是保證系統(tǒng)可靠性的常用方式。故障預(yù)測(cè),在主動(dòng)冗余技術(shù)中起著至關(guān)重要的作用。通過故障預(yù)測(cè),可以對(duì)集群中計(jì)算節(jié)點(diǎn)的運(yùn)行狀態(tài)進(jìn)行評(píng)估、判斷,保證計(jì)算節(jié)點(diǎn)在真正的故障出現(xiàn)之前,完成節(jié)點(diǎn)的失效轉(zhuǎn)移,從而提高系統(tǒng)的可靠性。提出適用于信息設(shè)備的故障預(yù)測(cè)的相關(guān)定義、評(píng)估標(biāo)準(zhǔn),并提出一種適用于企業(yè)級(jí)應(yīng)用部署的狀態(tài)檢修方案。
With the enlargement of computing scale,faults are more likely to appear in computing factory compared with single computing node,and faults have been becoming a common problem.Active Redundancy is the most effective method to guarantee the robustness of system. Faults prediction is of vital importance in active redundancy.By faults prediction,devices'health status can be evaluated and side effects of faults can be detected before the real faults appear in order to failover.Describes the relevant definition,evaluation standard of faults prediction in information devices area,puts forward a CBM based scheme adapt to enterprise level application,development and deployment.