南京農(nóng)業(yè)大學(xué)大豆研究所/國(guó)家大豆改良中心/作物遺傳與種質(zhì)創(chuàng)新國(guó)家重點(diǎn)實(shí)驗(yàn)室(210095) 邢光南 趙團(tuán)結(jié) 蓋鈞鎰
用SAS程序模擬抽樣繪制t、F和χ2分布*
南京農(nóng)業(yè)大學(xué)大豆研究所/國(guó)家大豆改良中心/作物遺傳與種質(zhì)創(chuàng)新國(guó)家重點(diǎn)實(shí)驗(yàn)室(210095) 邢光南 趙團(tuán)結(jié) 蓋鈞鎰△
△通訊作者:蓋鈞鎰,E-mail:sri@njau.edu.cn
長(zhǎng)期以來(lái)作為國(guó)際著名的統(tǒng)計(jì)軟件SAS以其強(qiáng)大的統(tǒng)計(jì)功能受到廣大使用者的青睞,并被廣泛介紹〔1-3〕。利用計(jì)算機(jī)輔助教學(xué)有利于改進(jìn)統(tǒng)計(jì)課程的教學(xué)〔4〕,對(duì)那些內(nèi)容抽象,學(xué)生難以理解,用傳統(tǒng)教學(xué)方法難以奏效的教學(xué)內(nèi)容開(kāi)展SAS系統(tǒng)輔助教學(xué)卓有成效〔5-7〕。t、F 和 χ2分布是重要的抽樣分布,是 t、F和χ2檢驗(yàn)的基礎(chǔ),由于這些分布的概率密度函數(shù)公式復(fù)雜,也是生物統(tǒng)計(jì)學(xué)教學(xué)的重點(diǎn)和難點(diǎn)。本文結(jié)合教科書(shū)的基本原理通過(guò)編寫(xiě)SAS程序模擬上述抽樣分布,以加深教學(xué)過(guò)程中對(duì)t、F和χ2分布及其檢驗(yàn)的理解。
χ2分布若所研究的總體μ不知,而以樣本代替,則,此時(shí)獨(dú)立的離差個(gè)數(shù)為 n -1 個(gè),v=n-1〔8〕。
F分布 在一個(gè)平均數(shù)為μ、方差為σ2的正態(tài)總體中,隨機(jī)抽取兩個(gè)獨(dú)立樣本,分別求得其均方和,將和的比值定義為 F :F(vv,v2)=/,此 F 值具有的自由度v1和的自由度v2〔8〕。如果在給定的v1和v2下按上述方法從正態(tài)總體中進(jìn)行一系列抽樣,就可得到一系列的F值而形成一個(gè)F分布。
宏creat用于產(chǎn)生樣本及其特征數(shù)如平均數(shù)、總和數(shù)、t值、u值、χ2值和F值,其中數(shù)據(jù)步data cy有三個(gè)循環(huán)語(yǔ)句,外循環(huán)語(yǔ)句用于產(chǎn)生100000個(gè)樣本,兩個(gè)并列的內(nèi)循環(huán)語(yǔ)句分別用于產(chǎn)生樣本容量分別為n1和n2的隨機(jī)樣本(F測(cè)驗(yàn)需要兩個(gè)樣本),并分別于每個(gè)樣本后計(jì)算相應(yīng)的方差。依據(jù)基本原理中的相應(yīng)公式,第一個(gè)內(nèi)循環(huán)后計(jì)算樣本容量為n1的t值、u值和χ2值,第二個(gè)內(nèi)循環(huán)后計(jì)算分子樣本容量為n1,分母樣本容量為n2的F值。
宏pct用于輸出t、u、χ2和F分布的特征數(shù)、分位數(shù)及繪制累積概率分布圖。proc univariate過(guò)程用于輸出t、u、χ2和F 分布的分位數(shù),如常見(jiàn)的P=0.95,用于理解其為何作為假設(shè)檢驗(yàn)統(tǒng)計(jì)推斷的臨界值。
宏dist通過(guò)調(diào)用宏creat、宏pct和改變宏參數(shù),產(chǎn)生各種分布的特征數(shù)、分位數(shù)及繪制累積概率分布圖和頻數(shù)分布圖。通過(guò)改變宏參數(shù)可隨時(shí)改變樣本容量,從而獲得不同樣本容量下的分布,以滿足不同樣本容量下各分布的異同比較。詳細(xì)的語(yǔ)句解釋見(jiàn)程序。
t分布是一組對(duì)稱密度函數(shù)曲線,具有一個(gè)單獨(dú)參數(shù)v以確定某一特定分布,v是自由度〔8〕。本實(shí)驗(yàn)中當(dāng)樣本容量分別為5、10和30時(shí),t分布的平均數(shù)分別為0.00541、-0.00045和 -0.00007,方差分別為2.00821、1.27955和1.06911。自由度較小的t分布比自由度較大的t分布具有較大的變異度??梢?jiàn)當(dāng)v增大時(shí),t分布趨向于標(biāo)準(zhǔn)正態(tài)分布。t分布曲線是對(duì)稱的,圍繞其平均數(shù)ut=0向兩側(cè)遞降。由于t分布受自由度制約,所以t值與其相應(yīng)的概率也隨自由度而不同,如本實(shí)驗(yàn)中當(dāng)樣本容量分別為5、10和30時(shí)累積概率P=0.95對(duì)應(yīng)的t值分別為2.15626、1.82674和1.68806,與文獻(xiàn)〔8〕附表4一致。在假設(shè)測(cè)驗(yàn)時(shí),當(dāng)算得的|t|大于tα?xí)r,則表明其屬于隨機(jī)誤差的概率小于規(guī)定的顯著水平,因而可否定原假設(shè)。反之,若算得的|t|<tα,則接受無(wú)效假設(shè)。
本實(shí)驗(yàn)中當(dāng)樣本容量分別為5、10和30時(shí),同時(shí)模擬的u分布的平均數(shù)分別為0.00189、0.00204和0.00171,方差分別為 0.99367、0.99621 和 1.00937。可見(jiàn)差異不大,都是標(biāo)準(zhǔn)正態(tài)分布。
χ2分布圖形為一組具不同自由度v值的曲線。χ2值最小為0,最大為+∞,因而在坐標(biāo)軸的右面。自由度小時(shí)呈偏態(tài),隨著自由度增加,偏度降低,至+∞時(shí),呈對(duì)稱分布。該分布的平均數(shù)為v,方差為2v〔8〕,如在本實(shí)驗(yàn)中當(dāng)樣本容量分別為5、10和30時(shí),模擬的χ2分布的平均數(shù)分別為4.01224、8.97165和28.9879,方差分別為7.98599、17.7960和58.1971。χ2分布分位數(shù)與文獻(xiàn)〔8〕附表6一致。
從圖1可見(jiàn),F(xiàn)分布乃具有平均數(shù)μF=1和取值區(qū)間為〔0,+∞〕的一組曲線;而某一特定曲線的形狀則僅決定于參數(shù)v1和v2。在v1=1或v1=2時(shí),F(xiàn)分布曲線是嚴(yán)重傾斜成反向J型;當(dāng)v1≥3時(shí),曲線轉(zhuǎn)為偏態(tài)。隨著分子自由度的增加,F(xiàn)分布逐漸趨向于正態(tài)分布〔8〕。本實(shí)驗(yàn)中分母自由度為29,分子自由度分別為1、4和29的F分布平均數(shù)分別為1.06977、1.07854和 1.07491,方 差 分 別 為 2.50501、0.71181 和0.17673,可見(jiàn)隨著分子自由度的增加,F(xiàn)分布的方差逐漸減小。本實(shí)驗(yàn)中F分布分位數(shù)與文獻(xiàn)〔8〕附表5一致,說(shuō)明了模擬的可靠性。
圖1 樣本容量n1分別為2、5和30,n2為30的F頻數(shù)分布圖和累積概率分布圖
本文通過(guò)學(xué)生較熟悉的SAS軟件編寫(xiě)程序進(jìn)行模擬抽樣,獲得了t、u、χ2和F抽樣分布,統(tǒng)計(jì)出的抽樣分布分位數(shù)與理論值一致。分位數(shù)是判斷假設(shè)檢驗(yàn)是否顯著的標(biāo)準(zhǔn)。通過(guò)模擬抽樣求出各自由度下t、χ2和F分布所對(duì)應(yīng)的分位數(shù)加深了學(xué)生對(duì)t、χ2和F抽樣分布和統(tǒng)計(jì)假設(shè)檢驗(yàn)的理解。本文中的程序在課堂上作為講授理論課的例子輔助教學(xué),激發(fā)了學(xué)生的學(xué)習(xí)興趣,收到了良好的教學(xué)效果。
1.曾平,劉桂芬,曹紅艷.廣義線性模型貝葉斯分析的SAS實(shí)現(xiàn).中國(guó)衛(wèi)生統(tǒng)計(jì),2009,26(1):104-106.
2.修良昌,丁元林.SAS中網(wǎng)頁(yè)格式輸出的實(shí)現(xiàn).中國(guó)衛(wèi)生統(tǒng)計(jì),2009,26(2):209-211.
3.徐英,李燕芬.日期型數(shù)據(jù)在SAS和SPSS中的處理.中國(guó)衛(wèi)生統(tǒng)計(jì),2010,27(1):94-95.
4.岳朝龍.99’SAS軟件應(yīng)用高級(jí)研討會(huì)交流論文選登 SAS系統(tǒng)輔助教學(xué)的實(shí)踐與體會(huì).統(tǒng)計(jì)教育,2000,(1):44-45.
5.林愛(ài)華,柳青,方積乾.二項(xiàng)分布及其正態(tài)近似的電腦實(shí)驗(yàn)設(shè)計(jì)與教學(xué)實(shí)踐.醫(yī)學(xué)信息,2000,13(4):179-180.
6.林愛(ài)華,駱福添,朱淑明,等.樣本均數(shù)的抽樣誤差與置信區(qū)間估計(jì)的電腦實(shí)驗(yàn).衛(wèi)生軟科學(xué),2004,18(3):109-112.
7.邢光南,趙團(tuán)結(jié),蓋鈞鎰.生物統(tǒng)計(jì)教學(xué)中用SAS程序講解抽樣分布.農(nóng)業(yè)網(wǎng)絡(luò)信息,2010,(3):107-110.
8.蓋鈞鎰.試驗(yàn)統(tǒng)計(jì)方法.北京:中國(guó)農(nóng)業(yè)出版社,2000:74-144.
國(guó)家重點(diǎn)基礎(chǔ)研究發(fā)展規(guī)劃項(xiàng)目(2009CB118404),教育部高等學(xué)校創(chuàng)新引智計(jì)劃項(xiàng)目(B08025),農(nóng)業(yè)部公益性行業(yè)專項(xiàng)(200803060),國(guó)家自然科學(xué)基金項(xiàng)目(30900902)
中國(guó)衛(wèi)生統(tǒng)計(jì)2011年2期