邱小藍(lán),李云飛
(西華師范大學(xué)數(shù)學(xué)與信息學(xué)院,四川 南充637002)
如今處于信息社會(huì),在科學(xué)技術(shù)研究領(lǐng)域中人類面對(duì)的問題日益復(fù)雜。在這些研究過程中,最重要的問題是如何有效地收集、分析和處理包含大量信息的試驗(yàn)數(shù)據(jù)。然而,由于種種原因,在實(shí)際研究工作中,學(xué)者們獲得的試驗(yàn)數(shù)據(jù)中會(huì)存在一些異常數(shù)據(jù)。所謂異常數(shù)據(jù),是指一批數(shù)據(jù)中的個(gè)別值,其數(shù)值明顯偏離它或它們所屬的這批數(shù)據(jù)的其余觀測(cè)值[1]。異常數(shù)據(jù)的存在會(huì)增大分析結(jié)果的誤差,使一些經(jīng)典的統(tǒng)計(jì)分析方法變得毫無用處,甚至導(dǎo)致整體決策上的失誤,造成無法估計(jì)的損失。因此,如何檢驗(yàn)這些異常數(shù)據(jù)是一個(gè)重要的現(xiàn)實(shí)問題。
許多統(tǒng)計(jì)工作者針對(duì)不同的分布(正態(tài)分布、極值分布、雙參數(shù)Weibull 分布等)中的異常數(shù)據(jù)檢驗(yàn)問題進(jìn)行了深入的研究[2-8]。然而,針對(duì)可靠性理論中的一種重要分布——指數(shù)分布相關(guān)的異常數(shù)據(jù)檢驗(yàn)研究不多。指數(shù)分布是描述電子系統(tǒng)、產(chǎn)品壽命的模型,它不但在電子元器件,機(jī)電產(chǎn)品的偶然失效期內(nèi)普遍使用,而且在復(fù)雜系統(tǒng)和整機(jī)方面以及機(jī)械技術(shù)的可靠性領(lǐng)域也得到廣泛應(yīng)用[9]。因此,指數(shù)分布中異常數(shù)據(jù)的檢驗(yàn)問題很重要,具有理論意義和現(xiàn)實(shí)價(jià)值。
FⅠSHER[10]提出構(gòu)造統(tǒng)計(jì)量分別檢驗(yàn)樣品極值X(1)、X(n)是否為異常數(shù)據(jù)。KⅠMBER[11]提出利用同時(shí)檢驗(yàn)X(1)、X(n)是否為異常數(shù)據(jù)。在KⅠM B E R 的基礎(chǔ)上,唐年勝等[12]提出利用分別檢驗(yàn)X(1),…,X(s)和X(n-k+1)是否為異常數(shù)據(jù)?;贔ⅠSHER 的統(tǒng)計(jì)量,朱宏[13]提出基于樣本中位數(shù)構(gòu)造統(tǒng)計(jì)量和分別檢驗(yàn)樣本極值X(1)、X(n)是否為異常數(shù)據(jù)。李云飛[14]提出基于樣本分位數(shù)構(gòu)造統(tǒng)計(jì)量,可以通過分別檢驗(yàn)樣本極值X(1)、X(n)是否為異常數(shù)據(jù)。
本文在王蓉華等[15]提出的均值比檢驗(yàn)方法的基礎(chǔ)上,引入波動(dòng)率[16]的概念,構(gòu)造檢驗(yàn)統(tǒng)計(jì)量,給出一種新的檢驗(yàn)方法,用于檢驗(yàn)指數(shù)分布的異常數(shù)據(jù)。
記X1,X2,…,Xn是來自于指數(shù)分布總體X的樣本,其分布函數(shù)為:
假定x1,x2,…,xn是樣本X1,X2,…,Xn的觀測(cè)值,將x1,x2,…,xn按照從小到大的順序排列,得到x(1)≤x(2)≤…≤x(n),即是樣本X1,X2,…,Xn的次序統(tǒng)計(jì)量X(1),X(2),…,X(n)的觀測(cè)值[9],如果樣本中存在異常數(shù)據(jù),則一定會(huì)出現(xiàn)在X(1),X(2),…,X(n)的左側(cè)低端或右側(cè)高端。
設(shè)X(1),X(2),…,X(r)(1≤r≤n)是來自指數(shù)分布的樣本容量為n的前r個(gè)次序統(tǒng)計(jì)量,平均壽命參數(shù)μ=θ,可以得到θ的最小方差無偏估計(jì),即是MLE 為:
定義1[15]:設(shè)X(1),X(2),…,X(r)(1≤r≤n)是來自總體分布F(x,θ)的樣本容量為n的前r個(gè)次序統(tǒng)計(jì)量,是僅依賴于X(1),X(2),…,X(k)的均值μ的點(diǎn)估計(jì),稱是均值點(diǎn)估計(jì) ?kμ在點(diǎn)k的跳躍度(簡(jiǎn)稱k點(diǎn)的跳躍度)。
由于點(diǎn)估計(jì)的跳躍度可能存在負(fù)數(shù)值,故在跳躍度的基礎(chǔ)上提出波動(dòng)率的概念,進(jìn)而由此衡量異常數(shù)據(jù)對(duì)點(diǎn)估計(jì)的影響。同樣假設(shè)X(1),X(2),…,X(r)(1≤r≤n)是來自總體分布F(x,θ)的樣本容量為n的前r個(gè)次序統(tǒng)計(jì)量, ?kμ是僅依賴于X(1),X(2),…,X(k)的均值μ的點(diǎn)估計(jì),稱為X(k)對(duì)均值μ的點(diǎn)估計(jì)的波動(dòng)率(簡(jiǎn)稱k點(diǎn)的波動(dòng)率)[16]。
以下討論跳躍度的精確分布及其分位數(shù)。
引理1[17]:設(shè)X1,X2,…,Xn是來自于指數(shù)分布的樣本容量為n的樣本,X(1),X(2),…,X(r)(1≤r≤n)為前r個(gè)次序統(tǒng)計(jì)量。約定X(0)=0,令Y(1)=nX(1),Y(2)=(n-1)(X(2)-X(1)),…,Y(i)=(n-i+1)(X(i)-X(i-1)),…,Y(r)=(n-r+1)(X(r)-X(r-1)),(2)。則…,r;2°Y(i)相互獨(dú)立,i=1,…,r。
定理1[15]:設(shè)X(1),X(2),…,X(r)(1≤r≤n)是來自指數(shù)分布的樣本容量為n的前r個(gè)次序統(tǒng)計(jì)量,則對(duì)任意的1≤k<r≤n,有分布的1-α分位數(shù),其中,F(xiàn)1-α(2(r-k),2k)是自由度為2(r-k),2k的F-分布的1-α分位數(shù)。
異常數(shù)據(jù)的檢驗(yàn)通常有以下2 種檢驗(yàn)方法:①?gòu)恼w出發(fā),利用檢驗(yàn)統(tǒng)計(jì)量逐步檢驗(yàn)異常數(shù)據(jù);②利用某種方法,即根據(jù)一定規(guī)則先找出可疑的異常數(shù)據(jù)集合,而后用合適的檢驗(yàn)統(tǒng)計(jì)量來檢測(cè)這個(gè)集合是否異常[16]。第一種方法由于統(tǒng)計(jì)量的選取不當(dāng),很容易遭受屏蔽效應(yīng)或吞噬效應(yīng),而不易確定異常數(shù)據(jù)個(gè)數(shù)是第二種方法的弊端。本文將采用完全相反的方式,利用王蓉華[15]的均值比方法,首先按照相應(yīng)的準(zhǔn)則找出有序數(shù)列的正常數(shù)據(jù)集,隨后從正常數(shù)據(jù)集出發(fā),每次向左或向右添加一個(gè)相鄰數(shù)據(jù),用合適的檢驗(yàn)統(tǒng)計(jì)量來檢測(cè)是否為異常數(shù)據(jù),如此下去,直至找到所有的正常數(shù)據(jù)。以下介紹檢驗(yàn)步驟。
以上兩者相互獨(dú)立,由定理1 可知:
顯然,對(duì)于給定的顯著性水平α(0.10,0.05,0.01),如果,則可以認(rèn)為是異常大數(shù)據(jù)。如果,則認(rèn)為在顯著性水平α下,是異常大數(shù)據(jù), 也是最小的異常大數(shù)據(jù), 從而認(rèn)為都是異常大數(shù)據(jù);否則,則繼續(xù)添加下一個(gè)數(shù)據(jù),進(jìn)行考察:
如上述方法步驟重復(fù)進(jìn)行,直至找到最小的異常大數(shù)據(jù),那么該數(shù)據(jù)后面的所有數(shù)據(jù)都為異常大數(shù)據(jù)。在剔除所有的異常大數(shù)據(jù)后,在正常數(shù)據(jù)的左側(cè)低端依次添加數(shù)據(jù)來檢驗(yàn)是否為異常小數(shù)據(jù),顯然,后面的檢驗(yàn)步驟和檢驗(yàn)異常大數(shù)據(jù)的步驟完全相似。在找到最大的異常小數(shù)據(jù)后,則該數(shù)據(jù)以前的所有數(shù)據(jù)都為異常小數(shù)據(jù)。在剔除所有的異常小數(shù)據(jù)后,得到的數(shù)據(jù)就為來自指數(shù)分布的正常樣本數(shù)據(jù)。
本文僅對(duì)只存在異常大數(shù)據(jù)的樣本進(jìn)行實(shí)例分析。案例[15]:對(duì)指數(shù)分布取n=10、k=6,其中X(1),…,X(6)來自標(biāo)準(zhǔn)指數(shù)分布,X(7),…,X(10)來自參數(shù)θ=5 的指數(shù)分布,用Monte-Carlo 模擬的方法產(chǎn)生這10 個(gè)隨機(jī)數(shù)為0.079 9、0.136 3、0.279 3、0.423 1、0.617 9、0.921 2、4.821 6、5.833 6、8.549 4、13.059 9。
首先計(jì)算各點(diǎn)的波動(dòng)率如下(2≤k≤10):0.182 6、0.250 4、0.058 2、0.070 4、0.106 4、2.034 3、0.002 8、0.083 7、0.034 2。
從中可以看出在ξ(7)=2.034 3 點(diǎn)波動(dòng)率最大,為一極大值點(diǎn),所以X(7)、X(8)、X(9)、X(10)極其可能是異常大數(shù)據(jù),由于,所以,取1-α=0.95,樞軸量的分位數(shù)U,由此可確定X(7)為最小的異常大數(shù)據(jù),進(jìn)而確定是異常大數(shù)據(jù)。
異常數(shù)據(jù)的出現(xiàn)在一定程度上降低了數(shù)據(jù)的質(zhì)量,使相應(yīng)的數(shù)據(jù)分析結(jié)果發(fā)生明顯變異,最終導(dǎo)致人們對(duì)所分析的問題給出不正確的結(jié)論,因此,異常數(shù)據(jù)的檢驗(yàn)是統(tǒng)計(jì)分析中首要的工作[18]。
本文針對(duì)指數(shù)分布樣本中的異常數(shù)據(jù),在跳躍度[15]的基礎(chǔ)上,引入波動(dòng)率的概念,構(gòu)造檢驗(yàn)統(tǒng)計(jì)量,并給出相應(yīng)的精確分布,求出它的分位數(shù),給出了一種新的異常數(shù)據(jù)檢驗(yàn)方法,最后通過實(shí)例說明本文所討論的方法是實(shí)際可行的。