馮懿 張展 左德承 楊孝宗
摘要:應(yīng)用在金融、電信等關(guān)鍵業(yè)務(wù)領(lǐng)域中的高端容錯計算機(jī)具有事務(wù)處理能力極強(qiáng)、可用性高、可靠性高等特點。有關(guān)此類計算機(jī)開展故障分布研究對于故障預(yù)測、系統(tǒng)維修,保障系統(tǒng)高可用運行具有重要意義。提出一種基于極值理論的故障分布研究方法,將高端容錯計算機(jī)故障發(fā)生事件作為稀有事件,集中關(guān)注數(shù)據(jù)的尾部特征。與傳統(tǒng)方式的故障分布研究方法相比,省去了數(shù)據(jù)分布形式的先驗假設(shè),更適用于小樣本的情況。
關(guān)鍵詞:故障分布; 高端容錯計算機(jī); 極值理論
中圖分類號:TP307 文獻(xiàn)標(biāo)識碼:A文章編號:2095-2163(2013)06-0018-04
0引言
高端容錯計算機(jī)作為事務(wù)處理能力極強(qiáng)、可用性極高的服務(wù)器系統(tǒng),廣泛應(yīng)用在金融、電信、能源、交通、航空等國家關(guān)鍵業(yè)務(wù)領(lǐng)域中。這些關(guān)鍵行業(yè)對系統(tǒng)的處理能力和容錯能力均有嚴(yán)苛的要求,系統(tǒng)一旦失效就可能會造成無法挽回的巨大損失,所以高端容錯計算機(jī)在投入使用之前必須對其處理能力和可用性進(jìn)行嚴(yán)格的評測,而針對此類計算機(jī)系統(tǒng)開展故障分布研究和故障注入技術(shù)研究則可為高端容錯計算機(jī)評測提供了有效的技術(shù)支持和理論支撐,因而具有高度必要性和現(xiàn)實重要性。
在對高端容錯計算機(jī)故障分布進(jìn)行研究時,傳統(tǒng)的統(tǒng)計分析方法一般要預(yù)先假定故障數(shù)據(jù)服從某一先驗分布。而此分布的選取至關(guān)重要,需要大量故障數(shù)據(jù)的統(tǒng)計特性作為基礎(chǔ)參數(shù)。當(dāng)故障數(shù)據(jù)很少時,先驗分布的選擇就很困難,這時對所有數(shù)據(jù)進(jìn)行建模而得到的母體分布一般不能準(zhǔn)確反應(yīng)尾數(shù)分布,因此,如果單獨對尾部數(shù)據(jù)進(jìn)行研究,可能會得到更為準(zhǔn)確的分析結(jié)果。
分析和研究真實系統(tǒng)的故障特征,對于高可靠/高可用系統(tǒng)的設(shè)計和應(yīng)用具有很強(qiáng)的支持和指導(dǎo)作用,有利于高可靠/高可用系統(tǒng)的管理與維護(hù)[1]、故障診斷[2]、故障預(yù)測[3]以及故障傳播[4]方面的研究。
本文提出一種基于極值理論的故障分布研究方法,將高端容錯計算機(jī)故障發(fā)生事件作為稀有事件,集中關(guān)注數(shù)據(jù)的尾部特征。與傳統(tǒng)方式的故障分布研究方法相比,省去了數(shù)據(jù)分布形式的先驗假設(shè),更適用于小樣本的情況。
1極值理論
極值理論[5]為準(zhǔn)確估計一個分布的尾部概率提供了強(qiáng)大的理論基礎(chǔ),有效地減少了選擇的自由度而又不降低準(zhǔn)確性。極值統(tǒng)計是以次序統(tǒng)計量為基礎(chǔ),研究由一系列獨立觀測所得到的最小或最大隨機(jī)變量分布的理論。極值事件常出現(xiàn)在某種分布的尾數(shù)部分,但對所有事件進(jìn)行擬合時,所得分布函數(shù)往往不能很好地反映其尾部事件,這時母體分布尾數(shù)部分的分布可用極值分布來精確擬合。對大多數(shù)分布來說,當(dāng)觀察值的個數(shù)趨于無窮時,極大值或極小值的分布屬于3種漸近分布形式之一,即:Gumbel-I型,Gumbel-II型,Gumbel-III型,分別對應(yīng)3種不同的原始分布,即指數(shù)型分布、柯西分布和有界型分布,又可分別稱為Gumbel分布、Frechet分布、Weibull分布。
對于上極限分布來說,必收斂于以下3種形式的漸進(jìn)分布:
對任何分布函數(shù)未知的獨立隨機(jī)變量,若該隨機(jī)變量為極值事件,在確定其屬于上極限分布還是下極限分布后,可以利用相應(yīng)的吸引域的確定方法來得到屬于3種極值分布形式中的哪一種,再利用已知數(shù)據(jù)與之?dāng)M合,由此得到極限分布函數(shù)。
分布函數(shù)的尾部形態(tài)決定了其應(yīng)該歸屬于哪種漸近形式。如果該分布函數(shù)在最小值方向的尾部是指數(shù)衰減的,則將屬于Gumbel族;如果該分布函數(shù)在最小值方向的尾部是多項式衰減的,則其屬于Frechet族;如果該分布函數(shù)在最小值方向的尾部是有上下限的,具有一個有限的較高值或較低值,那么就屬于Weibull族。
如果得到了一個特定數(shù)據(jù)集的吸引域,就能夠推算得到分布函數(shù)的漸近分布的參數(shù)。但是用于分析的樣本數(shù)據(jù)規(guī)模往往有限,尤其是分布函數(shù)未知的情況下,就需要使用特定方法來確定數(shù)據(jù)集的吸引域。本文使用尾部曲率法,通過計算尾部曲率來判斷吸引域,采用相鄰區(qū)域中平均斜率的比值來計算尾部曲率,可減小方差。
在概率紙上利用最小二乘方法擬合直線,得到兩個相鄰區(qū)域的平均斜率,之后利用兩個斜率的商來描述尾部曲率,計算公式為:
Q=Qn1,n2Qn3,n4(1)
式中,Qi,j表示第k個統(tǒng)計量(i≤k≤j)在Gumbel概率紙上利用最小二乘法擬合出的直線斜率的逆,可表示為
Qni,nj=mΦ11-Φ10Φ01mΦ20-Φ210(2)
其中,m=nj-ni+1, Φ01=∑njk=nixk,Φ10=∑njk=ni-ln-lnk-0.5n,Φ20=∑njk=ni-ln-lnk-0.5n2,Φ11=∑njk=ni-xkln-lnk-0.5n
參數(shù)n表示樣本數(shù)量,基于樣本數(shù)量和漸進(jìn)分布的收斂速度不同,適度選取參數(shù)n1,n2,n3,n4。對于右尾分布,可以這樣選?。?/p>
n1=n-2n」+1,n2=n3=n-n」 ,n4=n(3)
利用上述公式以及極值分布理論中三種漸進(jìn)分布形勢,可以確定特定數(shù)據(jù)集的吸引域。如果尾部曲率Q趨近于1,說明分布函數(shù)的尾部形態(tài)近似為直線,則分布函數(shù)屬于Gumbel族;如果分布函數(shù)的尾部曲率Q遠(yuǎn)大于1,說明尾部斜率接近垂直,則分布函數(shù)屬于Weibull族;如果分布函數(shù)的尾部曲率Q遠(yuǎn)小于1,說明尾部斜率接近水平,則分布函數(shù)屬于Frechet族。
此外,還可以同概率紙法描繪的結(jié)果進(jìn)行比對:根據(jù)特定分布函數(shù)的特征來規(guī)定坐標(biāo),使得該分布函數(shù)在概率紙上的圖形呈一條直線。在Gumbel概率紙上畫出樣本數(shù)據(jù)的分布圖后,觀察分布圖的曲率特征,并利用表1中的規(guī)則來判斷分布函數(shù)屬于哪一個分布族。
極大值(右尾分布)極小值(左尾分布)Gumbel直線直線Frechet下凹下凸Weibull下凸下凹2基于極值理論的故障分布研究
高端容錯計算機(jī)具有很強(qiáng)的容錯機(jī)制,可保證故障定位和系統(tǒng)恢復(fù),系統(tǒng)可靠性很高,故障事件不易發(fā)生,其故障間隔時間(Time Between Failure, TBF)很長,位于母體分布的尾數(shù)部分,為了利用極值理論對其故障分布進(jìn)行統(tǒng)計分析,可做如下假設(shè):
(1)由于系統(tǒng)發(fā)生故障的次數(shù)很少且離散性強(qiáng),可認(rèn)為系統(tǒng)故障的發(fā)生為稀有事件;
(2)系統(tǒng)一旦發(fā)生故障,立即進(jìn)行恢復(fù)或糾正,不引入新的故障,又由于故障的發(fā)生為稀有事件,因此可以認(rèn)為TBF是獨立的;
(3)由于高端容錯計算機(jī)系統(tǒng)的可靠性已經(jīng)很高,失效時故障的恢復(fù)或糾正對可靠性影響不大,因而可以認(rèn)為TBF是同分布的,同時,結(jié)合(2)可以假定TBF是獨立同分布的;
(4)隨著高端容錯計算機(jī)故障的發(fā)生和糾正,系統(tǒng)的可靠性有增長的趨勢。
基于以上假設(shè),可認(rèn)為高端容錯計算機(jī)故障的發(fā)生是稀有事件,并且隨著時間的增加,系統(tǒng)可靠性有增長的趨勢,TBF將趨于極大值,因此可以認(rèn)為高端容錯計算機(jī)TBF服從某種極大值分布,可以運用極值統(tǒng)計理論對其進(jìn)行分析。
為了研究實際應(yīng)用中的部件故障規(guī)律以及部件相關(guān)性問題,從某銀行取得了過往的部分故障記錄。該部分故障記錄共計494條,時間跨度為2000年10月16日至2004年7月25日,共計1 378天。經(jīng)仔細(xì)統(tǒng)計與甄別,其故障現(xiàn)象可歸屬于操作系統(tǒng)故障、數(shù)據(jù)庫系統(tǒng)故障、外圍設(shè)備故障、網(wǎng)絡(luò)系統(tǒng)故障、應(yīng)用系統(tǒng)故障、主機(jī)設(shè)備故障等六類。
表2列出了不同類別的故障個數(shù)以及在總故障數(shù)中所占的比例??梢园l(fā)現(xiàn)軟件故障,尤其是應(yīng)用系統(tǒng)故障在總故障數(shù)中占據(jù)了很大比重,這是由于銀行使用的計算系統(tǒng)主要用于在線事務(wù)處理型業(yè)務(wù),業(yè)務(wù)處理頻繁造成應(yīng)用軟件故障頻率很高。外圍設(shè)備故障和網(wǎng)絡(luò)系統(tǒng)故障在硬件故障中比例較高,這是由于在線事務(wù)處理型業(yè)務(wù)屬于訪存密集型操作,外圍存儲設(shè)備和網(wǎng)絡(luò)設(shè)備承受壓力較大,因此造成故障率較高。
3實驗結(jié)果與分析
本節(jié)應(yīng)用極值理論(extreme value theory)對前面提到的銀行故障數(shù)據(jù)中的外圍設(shè)備故障、網(wǎng)絡(luò)系統(tǒng)故障和主機(jī)設(shè)備故障三類硬件故障的故障間隔(TBF,time to failure)分布情況進(jìn)行分析。
極值統(tǒng)計是以次序統(tǒng)計量為基礎(chǔ)的,首先將上述三類故障的故障間隔數(shù)據(jù)按從小到大的順序進(jìn)行排序,如表3所示。其中外圍設(shè)備故障記錄24條,網(wǎng)絡(luò)系統(tǒng)設(shè)備故障記錄28條,主機(jī)設(shè)備故障記錄8條。
4結(jié)束語
為了更好地針對應(yīng)用在金融、電信等關(guān)鍵業(yè)務(wù)領(lǐng)域中的高端容錯計算機(jī)開展故障分布研究,保障系統(tǒng)高可用地運行,本文提出一種基于極值理論的故障分布研究方法,將高端容錯計算機(jī)故障發(fā)生事件作為稀有事件,集中關(guān)注數(shù)據(jù)的尾部特征。與傳統(tǒng)方式的故障分布研究方法相比,省去了數(shù)據(jù)分布形式的先驗假設(shè),更適用于小樣本的情況。利用此方法對某銀行的小樣本故障數(shù)據(jù)進(jìn)行曲率法和概率紙法對比分析后,證明該銀行系統(tǒng)的高端容錯計算機(jī)硬件故障的故障間隔時間符合Weibull分布。
參考文獻(xiàn):
[1]HEATH T, MARTIN R P, NGUYEN T D. Improving cluster availability using workstation validation[C]//New York, NY, USA: Proceedings of the 2002 ACM SIGMETRICS international conference on Measurement and modeling of computer systems, 2002, 6:217-227.
[2]PANDIT N, KALBARCZYK Z, IYER R K. Effectiveness of machine checks for error diagnostics[C]//Lisbon, Portugal: Proceedings of IEEE/IFIP International Conference on Dependable System & Networks, 2009, 7:578-583.
[3]ZHENG Z, LAN Z, PARK B H. System log pre-processing to improve failure prediction[C]//Lisbon, Portugal: Proceedings of IEEE/IFIP International Conference on Dependable System & Networks, 2009, 7:572-577.
[4]HILLER M, JHUMAKA A, SURI N. An approach for analysing the propagation of data errors in software[C]//Goteborg, Sweden: International Conference on Dependable System & Networks, 2001, 7:161-170.
[5]李秀敏. 極值統(tǒng)計模型族的參數(shù)估計及其應(yīng)用研究[D]. 天津:天津大學(xué),2007: 13-29.