陳 軍
(新疆師范大學(xué) 商學(xué)院,新疆 烏魯木齊 830017)
多數(shù)統(tǒng)計檢驗都要求數(shù)據(jù)滿足正態(tài)分布,特別是針對小樣本。如果誤差項不服從正態(tài)性假定,雖然可以利用最小二乘法進行參數(shù)估計,但卻無法進行檢驗和預(yù)測。如果解釋變量不能很好地匹配因變量的峰度和偏度,將會導(dǎo)致樣本性質(zhì)中的統(tǒng)計推斷結(jié)果發(fā)生偏差。實際情形中,出于樣本可獲得性的考慮,通常采用對數(shù)據(jù)進行變換的方法,將其數(shù)據(jù)轉(zhuǎn)換成正態(tài)分布,但應(yīng)該注意到,在數(shù)據(jù)轉(zhuǎn)換的同時已將數(shù)據(jù)蘊含的原始信息發(fā)生了改變。由此得到的回歸結(jié)果,其參數(shù)的意義解釋也已和變換前有所改變。
數(shù)據(jù)正態(tài)性檢驗的方法主要有兩類:使用圖形進行大致的判斷以及使用統(tǒng)計檢驗。圖形檢驗中常用的是直方圖和正態(tài)分位數(shù)圖。如果得到的數(shù)據(jù)直方圖和鐘形相差很大,則拒絕正態(tài)性分布,這是一種非常直觀的方法,實用性強。使用統(tǒng)計檢驗多基于卡方統(tǒng)計量,實質(zhì)是根據(jù)下表1 中標注的區(qū)間找到落在該區(qū)間內(nèi)的實際觀測值個數(shù)和期望觀測值個數(shù),然后進行卡方檢驗。
表1 卡方檢驗區(qū)間劃分
數(shù)據(jù)正態(tài)性的其他統(tǒng)計檢驗,包括偏度-峰度檢驗、D′Agostino 檢驗、Shapiro-Wilk w 檢驗和Shapiro-Francia w′檢驗。應(yīng)該注意,隨著樣本量的增大,所有的統(tǒng)計檢驗趨于拒絕原假設(shè),而圖形、偏度及峰度的數(shù)值分析可能更有利于研判數(shù)據(jù)正態(tài)性狀況。
Excel 對于數(shù)據(jù)正態(tài)性的檢驗方法相對單一,一般采用繪制正態(tài)概率圖。如果標準正態(tài)概率圖中的點基本圍繞在一條直線周圍,那么可以說該組數(shù)據(jù)基本服從正態(tài)分布。下面結(jié)合具體的例題進行。
例:某車間加工一批零件尺寸如下表2,請問零件尺寸是否呈正態(tài)分布。
表2 車間加工的零件尺寸數(shù)據(jù) 單位:毫米
25.45 25.38 25.39 25.42 25.44 25.48 25.46 25.43 25.4 25.39 25.41 25.36 25.4 25.37 25.37 25.44 25.34 25.42 25.5 25.37 25.27 25.43 25.54 25.39 25.44 25.41 25.53 25.37 25.36 25.42 25.39 25.46 25.4 25.36 25.41 25.32 25.37 25.41 25.49 25.35 25.36 25.46 25.29 25.4 25.41 25.37 25.47 25.39
【實驗操作步驟】
Step1:將表格數(shù)據(jù)按照升序排序成一列。
Step2:計算(j-0.5)/100。
Step3:根據(jù)(j-0.5)/100=P(Z),求出正態(tài)分位數(shù)。單擊D2 單元格,選擇“公式-〉插入函數(shù)”。在“插入函數(shù)”對話框,“選擇類別”選取“統(tǒng)計”,“選擇函數(shù)”選擇“NORM.S.INV”,點擊“確定”。結(jié)果見下圖1。
圖1 正態(tài)分位數(shù)及標準正態(tài)分位數(shù)計算結(jié)果
Step4:,選擇“數(shù)據(jù)-〉數(shù)據(jù)分析”,在“分析工具”中選擇“回歸”,單擊“確定”。以Zi 為縱軸,X(j)為橫軸,繪制標準正態(tài)概率圖。然后單擊“確定”,得到標準正態(tài)概率圖,如圖2 所示。其中,X(j)轉(zhuǎn)化為其對應(yīng)的百分比排位。可以看出,由(X(j),Zi)形成的點基本圍繞在一條直線周圍,可以說該組數(shù)據(jù)基本上服從正態(tài)分布。
圖2 標準正態(tài)概率圖
SPSS 軟件對于數(shù)據(jù)正態(tài)性的檢驗是建立在數(shù)據(jù)分布直方圖的基礎(chǔ)上,可采用多種檢驗方法。為比較方便,案例數(shù)據(jù)同上例。
【實驗操作步驟】
在SPSS 里執(zhí)行“分析-〉描述統(tǒng)計-〉頻數(shù)”(菜單見下圖,英文版的可以找到相應(yīng)位置),然后彈出一個對話框,變量選擇左邊的“零件尺寸”,再點下面的“圖表”按鈕,彈出圖中右邊的對話框,選擇“直方圖”,并選中“包括正態(tài)曲線”。點擊“繼續(xù)”、“確定”按鈕。數(shù)據(jù)分布直方圖如下圖3。
圖3 輸出的正態(tài)分布圖(直方圖)
圖中橫坐標為期零件尺寸,縱坐標為分數(shù)出現(xiàn)的頻數(shù)。從圖中可以看出根據(jù)直方圖繪出的曲線是很像正態(tài)分布曲線。如何證明這些數(shù)據(jù)符合正態(tài)分布呢,光看曲線還不夠,還需要進一步檢驗。
(1)檢驗方法一:看偏度系數(shù)和峰度系數(shù)
Step1:在“頻率”對話框,點擊“統(tǒng)計量”按鈕,選取如下復(fù)選框。點擊“繼續(xù)”、“確定”按鈕。選項界面見下圖4。
圖4 頻率:統(tǒng)計量對話框及輸出統(tǒng)計量結(jié)果
Step2:從“統(tǒng)計量”結(jié)果中,看到“偏度”為0.113,“峰度”為0.505,均小于1,可認為近似于正態(tài)分布。
(2)檢驗方法二:單個樣本K-S 檢驗
操作步驟:在SPSS 里執(zhí)行“分析-〉非參數(shù)檢驗-〉單個樣本K-S 檢驗”,彈出對話框,檢驗變量選擇“零件尺寸”,檢驗分布選擇“常規(guī)(正態(tài)分布)”,然后點“確定”。結(jié)果如下圖5。
圖5 單樣本K-S 檢驗對話框及輸出結(jié)果
從結(jié)果可以看出,K-S 檢驗中,Z 值為0.735,P 值(sig 2-tailed)=0.652〉0.05,因此數(shù)據(jù)呈近似正態(tài)分布。
(3)檢驗方法三:Q-Q 圖檢驗
操作步驟:在SPSS 里執(zhí)行“分析-〉描述統(tǒng)計-〉Q-Q 圖”,彈出對話框,變量選擇“零件尺寸”,檢驗分布選擇“正態(tài)”,其他選擇默認,然后點“確定”,最后可以得到Q-Q 圖檢驗結(jié)果,結(jié)果很多,我們只需要看最后一個圖,見下圖6。
圖6 Q-Q 圖檢驗結(jié)果(零件尺寸的正態(tài)Q-Q 圖)
QQ Plot 中,各點近似圍繞著直線,說明數(shù)據(jù)呈近似正態(tài)分布。
Stata 軟件對于數(shù)據(jù)正態(tài)性的檢驗方法主要有分位正態(tài)圖、正態(tài)性統(tǒng)計檢驗。為比較方便,案例數(shù)據(jù)同上例。
(1)檢驗方法一:分位正態(tài)圖
分位正態(tài)圖的繪制命令格式如下:Qnorm varname[if][in][,options]
該命令的大部分選項都是繪圖命令所共有,獨有選項是grid,加入grid 項可以在圖中依次標 注 0.05、0.10、0.25、0.50、0.75、0.90、0.95百分位的坐標刻度。分位正態(tài)圖將觀測變量分布的分位數(shù)與一個具有相同平均數(shù)和標準差的理論正態(tài)分布的分位數(shù)進行比較,通過比較偏離程度進行直觀研判正態(tài)性狀況。
Step1:打開數(shù)據(jù)文件。
Step2:在“command”區(qū)域輸入如下命令:.qnorm size,grid
回車,執(zhí)行結(jié)果如下:
圖7 size 的分位正態(tài)圖
與完全正態(tài)分布相比(圖中對角線),數(shù)據(jù)分布近似呈現(xiàn)正態(tài)性。
(2)檢驗方法二:正態(tài)性統(tǒng)計檢驗
【實驗操作步驟】
Step1:打開數(shù)據(jù)文件。
Step2:在“command”區(qū)域輸入如下命令:sktest size
回車,執(zhí)行結(jié)果如下:
結(jié)果顯示峰度、偏度檢驗以及峰度-偏度合并檢驗都表明呈現(xiàn)正態(tài)性(P 大于0.05)。
Step3:在“command”區(qū)域輸入如下命令:lnskew0 size2=size回車,執(zhí)行結(jié)果如下:
Step4:在“command”區(qū)域輸入如下命令:.swilk size
回車,執(zhí)行結(jié)果如下:
Step5:在“command”區(qū)域輸入如下命令:swilk size2,lnnormal
回車,執(zhí)行結(jié)果如下:
結(jié)果顯示,同sktest 檢驗結(jié)果一樣,表明數(shù)據(jù)分布呈現(xiàn)正態(tài)性。需要說明的是,lnskew0 命令是為變量size 找一個k 使得ln(size-k)的偏度為0,并定義這個新的變量為size2;當(dāng)對完成這一變換的變量進行swilk 檢驗時,需要加入lnnormal 選項。
Step6:在“command”區(qū)域輸入如下命令:.sfrancia size
回車,執(zhí)行結(jié)果如下:
結(jié)果顯示,同sktest 及swilk 檢驗結(jié)果一樣,表明數(shù)據(jù)分布呈現(xiàn)正態(tài)性。
通過上文分析,可以看到Excel、SPSS、Stata 幾種軟件都能處理數(shù)據(jù)正態(tài)性檢驗,但在具體的應(yīng)用操作上存在一定差異:Excel 相對簡單;SPSS 軟件在分布直方圖基礎(chǔ)上檢驗方法較多;Stata 軟件的檢驗方法則更為靈活。在實際應(yīng)用中,要結(jié)合數(shù)據(jù)分析對于總體正態(tài)性的要求,像方差分析就要求數(shù)據(jù)分布滿足正態(tài)性的條件,而回歸分析(特別是大樣本)則對于正態(tài)性檢驗的要求就沒有那么重要。