王丙參,魏艷華,丁恒飛
(天水師范學(xué)院 數(shù)學(xué)與統(tǒng)計學(xué)院,甘肅 天水 741001)
正態(tài)分布應(yīng)用廣泛,比如許多統(tǒng)計方法(如方差分析、回歸分析等)都是以正態(tài)分布為前提建立的[1]17-50[2]118-150[3-4]。因此,對數(shù)據(jù)進行正態(tài)性檢驗在理論和應(yīng)用上都十分有意義。正態(tài)概率紙檢驗通過數(shù)據(jù)變換能使正態(tài)總體的取值x和分布函數(shù)值F(x)組成的數(shù)對(x,F(x))在具有特殊刻度的坐標(biāo)紙上呈現(xiàn)一條直線,從而通過觀察概率紙上的散點是否在一條直線附近來判斷數(shù)據(jù)是否來自正態(tài)總體。因此,正態(tài)概率紙檢驗是一種直觀、簡單、方便的圖形檢驗,特別適合于工程應(yīng)用,但是,它具有一定的主觀性,不太嚴(yán)。正態(tài)概率紙檢驗歷史悠久,學(xué)者主要將其作為其他正態(tài)檢驗方法的定性補充[1]17-50[5]258-270,曹晉華等根據(jù)正態(tài)概率紙檢的基本思想將其推廣到威布爾分布、對數(shù)正態(tài)分布,但它們也是定性觀察,沒有量化[6]400-430。朱力行與許王莉等給出數(shù)據(jù)近似呈現(xiàn)一條直線可通過相關(guān)系數(shù)進行量化[7]1-26,孟杰與王佐仁等根據(jù)蒙特卡洛方法仿真目標(biāo)分布,得到感興趣的量,這為“概率紙上的散點在一條直線附近”進行量化提供了方法[3,4]。簽于此,本文利用蒙特卡洛方法在正態(tài)概率紙檢驗中引入相關(guān)系數(shù)等指標(biāo),將定性與定量判斷相結(jié)合,使得檢驗結(jié)果更加客觀,最后將此方法推廣到了對數(shù)正態(tài)分布、指數(shù)分布、威布爾分布。
如果樣本x1,x2,…,xn的次序統(tǒng)計量記為x(1)≤x(2)≤…≤x(n),則樣本的經(jīng)驗分布函數(shù)就是:
國標(biāo)GB/T 4882-2001建議使用修正2,但也不反對使用其它兩個修正。隨著樣本容量的增大,3種修正方法的區(qū)別也越來越小,且無法從理論上證明哪種修正嚴(yán)格更優(yōu)。進一步有:
i=1,2,…,n。
顯然,概率紙檢驗具有很大的主觀性。為了克服概率紙檢驗的主觀性缺點,可作以下改進:首先將觀測數(shù)據(jù)進行標(biāo)準(zhǔn)化的排序處理并標(biāo)在概率紙上,然后計算標(biāo)準(zhǔn)化數(shù)據(jù)的簡單相關(guān)系數(shù)
‖Y*-aX*-b‖=E(Y*-aX*-b)2
=1+a2-2aρ+b2
=(a-ρ2)+b2+1-ρ2
其中,ρ是X*、Y*的相關(guān)系數(shù)。顯然,當(dāng)a=ρ,b=0時,‖Y*-aX*-b‖最小,值為1-ρ2。這說明:Y*關(guān)于X*的最佳線性預(yù)測為h(X*)=ρX*,|ρ|越大,預(yù)測效果越好。當(dāng)|ρ|=1時,Y*可以由X*完全準(zhǔn)確的線性預(yù)測。因此,相關(guān)系數(shù)也稱為線性相關(guān)系數(shù)。
假定n個觀測數(shù)據(jù)x1,x2,…,xn來自總體F(x),先將觀測數(shù)據(jù)進行標(biāo)準(zhǔn)化的排序處理,然后求得n個觀測數(shù)據(jù)在概率紙上對應(yīng)散點的簡單相關(guān)系數(shù)為r0??紤]以下假設(shè)檢驗問題:
H0∶F(x)=F0(x);
H1∶F(x)≠F0(x),其中F0(x)為正態(tài)分布。
生成n個標(biāo)準(zhǔn)正態(tài)分布隨機數(shù),并計算這些隨機數(shù)在概率紙上對應(yīng)散點的簡單相關(guān)系數(shù),一共重復(fù)m次,相關(guān)系數(shù)分別記為r1,r2,…,rm。對于給定的顯著性水平α,計算相關(guān)系數(shù)r1,r2,…,rm的α分位數(shù),并記為rα(m)。將r0與rα(m)進行比較,如果觀測數(shù)據(jù)的簡單相關(guān)系數(shù)r0≥rα(m),則不能拒絕原假設(shè)(在二者差距較大時也可認(rèn)為接受原假設(shè)),即不能拒絕觀測數(shù)據(jù)來自正態(tài)總體F0(x);如果r0 下面對改進的正態(tài)概率紙檢驗進行蒙特卡洛分析。 假定每次生成n=100個標(biāo)準(zhǔn)正態(tài)分布N(0,1)隨機數(shù),并計算這些隨機數(shù)在概率紙上對應(yīng)散點的相關(guān)系數(shù),一共重復(fù)m=1 000次,相關(guān)系數(shù)的直方圖如圖1左所示,其0.05下側(cè)分位數(shù)為0.987 8。 圖1 參考相關(guān)系數(shù)直方圖(左)與F(10,10)的正態(tài)概率檢驗圖 假設(shè)觀測數(shù)據(jù)來自F(10,10)總體,即利用計算機隨機生成100個F(10,10)隨機數(shù),其概率紙檢驗圖如圖1右所示,對應(yīng)的相關(guān)系數(shù)r0=0.906 8。顯然,它是一條曲線,可直觀上判斷觀測數(shù)據(jù)不是來自正態(tài)總體。因為0.906 8<0.987 7,故拒絕原假設(shè),即認(rèn)為觀測數(shù)據(jù)不是來自正態(tài)總體??梢姡琎Q圖的直觀判斷與定量判斷是一致的,且都與真實情況吻合。 假定觀測數(shù)據(jù)來自總體F(10,10),χ2(6),分別利用計算機模擬1 000次,對應(yīng)的簡單相關(guān)系數(shù)如圖2所示,正確判斷的概率分別為1,0.990 0。顯然,對于一般總體而言,本文中概率紙檢驗改進方法的正確率高,即概率紙改進方法可靠性高。 圖2 總體F(10,10)(左)與χ2(6)(右)在正態(tài)概率紙檢驗下對應(yīng)參考相關(guān)系數(shù)的直方圖 假定觀測數(shù)據(jù)來自總體t(3),t(30),分別利用計算機模擬1 000次,對應(yīng)的簡單相關(guān)系數(shù)如圖3所示,正確判斷的頻率分別為0.903 0,0.045 0.這說明:假定數(shù)據(jù)來自總體F(x)(不是正態(tài)總體),如果F(x)與正態(tài)總體越接近,則正確判斷的概率會越低。對于t分布而言,當(dāng)其參數(shù)較大時,它非常接近正態(tài)分布,故否定原假設(shè)的可能性很低,即正確判斷的概率很低。事實上,t(30)可以用N(0,1)近似,即兩個總體幾乎沒有區(qū)分,即來自t(30)的數(shù)據(jù)檢驗為“不拒絕來自總體N(0,1)”也是合理的。 圖3 總體t(3)(左)與t(30)(右)在正態(tài)概率紙檢驗下對應(yīng)參考相關(guān)系數(shù)的直方圖 進一步模擬,如果數(shù)據(jù)來自正態(tài)總體,在顯著性水平取0.05的前提下,本文方法的正確率很高,接近0.95,這與假設(shè)檢驗理論相吻合。 (1)對數(shù)正態(tài)分布 (2)指數(shù)分布 設(shè)X~Exp(λ),即F(x)=1-exp{-λx},x≥0,則-ln(1-F(x))=λx,x≥0。它表明(x,-ln(1-F(x)))是一條過原點的直線,斜率為λ。實際上,(-ln(1-F(x)),x)也是一條直線。因為它們在本質(zhì)上是一樣的,只是斜率互為倒數(shù)。為便于表述與計算,本文采用前一種表示方法。所以,如果樣本數(shù)據(jù)來自指數(shù)總體X,則散點圖: 在概率紙上大體呈直線,且該直線過原點。相仿,若樣本數(shù)據(jù)來自雙參數(shù)指數(shù)總體: F(x)=1-exp{-λ(x-μ)},x≥0 (3)威布爾分布 在概率紙上大體呈直線,則樣本數(shù)據(jù)來自威布爾總體,反之則否。 下面對改進的威布爾分布概率紙檢驗進行蒙特卡洛分析。假定觀測數(shù)據(jù)來自F(10,10)總體,即利用計算機生成100個F(10,10)隨機數(shù)xi,i=1,2,…,n??紤]以下假設(shè)檢驗:H0:F(x)=Weibull(m,x0)。其威布爾概率紙檢驗圖如圖4右所示,對應(yīng)的相關(guān)系數(shù)r0=0.959 1。顯然,它是一條曲線,可直觀上判斷觀測數(shù)據(jù)不來自威布爾分布。 圖4 F(10,10)的參考相關(guān)系數(shù)直方圖(左)與的威布爾概率檢驗圖 因為0.959 1<0.978 7,故拒絕原假設(shè),即認(rèn)為觀測數(shù)據(jù)不是來自威布爾總體??梢?,威布爾概率檢驗圖的直觀判斷與定量判斷是一致的,且都與真實情況吻合。進一步模擬可知,對于總體F(10,10),本文方法的正確率在80%附近,具有較大的參考價值。但客觀來說,這有點偏低,主要是因為數(shù)據(jù)總體F(10,10)與威布爾分布具有一定的相似性。這也是所有檢驗存在的共性問題,即數(shù)據(jù)總體與檢驗總體有差異且差異越小,檢驗的效率越低。 假定觀測數(shù)據(jù)來自總體Weibull(3,5),Exp(0.1),同上,一次模擬結(jié)果如圖5和6所示。 對于總體Exp(0.1),r0=0.996 2>R0.05=0.978 2,故接受原假設(shè),認(rèn)為觀測數(shù)據(jù)來自威布爾總體。這與威布爾概率檢驗圖的結(jié)果一致,且都與事實相符,因為指數(shù)分布是特殊的威布爾分布。 圖5 Weibull(3,5)的參考相關(guān)系數(shù)直方圖(左)與威布爾概率檢驗圖(右) 對于總體Weibull(3,5),r0=0.994 9>R0.05=0.976 4,故接受原假設(shè),即認(rèn)為觀測數(shù)據(jù)來自威布爾總體。這與威布爾概率檢驗圖的結(jié)果一致,且都與事實相符。 圖6 Exp(0.1)的參考相關(guān)系數(shù)直方圖(左)與威布爾概率檢驗圖(右) 進一步模擬可知,對于總體Weibull(3,5)與Exp(0.1),本文方法的正確率很高,在99.5%附近。 本文根據(jù)傳統(tǒng)的正態(tài)概率紙檢驗,通過生成正態(tài)隨機數(shù)xi,i=1,2,…,n,并計算概率紙上對應(yīng)隨機數(shù)yi,i=1,2,…,n及二者簡單相關(guān)系數(shù),結(jié)合顯著性水平確定假設(shè)檢驗的臨界值。最后,將此方法推廣到對數(shù)正態(tài)分布、指數(shù)分布、威布爾分布。通過大量仿真實驗可以看出,通過將定性與定量判斷相結(jié)合,提高了傳統(tǒng)概率紙檢驗的客觀性。注意,概率紙檢驗的正確率與數(shù)據(jù)來自總體有關(guān),數(shù)據(jù)總體與檢驗分布有差異且差異越小正確率越低,如果二者一致,正確率接近95%(假定顯著性水平為0.05),與假設(shè)檢驗理論相符。 [1] 劉軍著,唐年勝,周勇,徐亮譯.科學(xué)計算中的蒙特卡羅策略[M].北京大學(xué)出版社,2009. [2] Givens G H,Hoeting J A著,王兆軍,劉民千,鄒長亮等譯.計算統(tǒng)計[M].北京:人民郵電出版社,2009. [3] 孟杰,王欣,張然.修正Benford分布律及其模擬研究[J].統(tǒng)計與信息論壇,2017,32 (9). [4] 王佐仁,徐生霞.蒙特卡羅方法下線性模型的異方差性檢驗方法[J].統(tǒng)計與信息論壇,2016,31 (11). [5] 魏艷華,王丙參編著.概率論與數(shù)理統(tǒng)計[M].成都:西南交通大學(xué)出版社,2013. [6] 曹晉華,程侃著.可靠性數(shù)學(xué)引論[M].高等教育出版社,2006. [7] 朱力行,許王莉著.非參數(shù)蒙特卡羅檢驗及其應(yīng)用[M].北京:科學(xué)出版社,2008. [8] 郝麗,劉樂平,申亞飛.統(tǒng)計顯著性:一個被誤讀的p值[J].統(tǒng)計與信息論壇,2016,31 (12) .三、概率紙檢驗及其改進的推廣
四、結(jié)論