呂付華
(1.云南民族大學 社會學系,云南 昆明 650223;2.云南大學 公共管理學院,云南 昆明 650223)
可作為σ的最佳估值使用。費歇爾卻
什么是自由度?在Fisher與Pearson(以下稱費歇爾、皮爾遜)關于自由度的激烈爭論塵埃落定80多年后[1-5],追問這一問題似乎有些不合時宜,但事實上直到現(xiàn)在,它仍是一個極為基本卻在統(tǒng)計學教科書、專著以至相關論文中沒有得到圓滿回答的問題。在統(tǒng)計學三大分布(χ2、t、F分布)中,自由度是決定這些分布特征、性質(zhì)最重要的參數(shù)。在列聯(lián)表、回歸與方差分析等統(tǒng)計方法中,自由度也是決定統(tǒng)計結(jié)果的關鍵變量之一。假若沒有自由度概念,那么從樣本統(tǒng)計量估計總體參數(shù)的統(tǒng)計過程必將在邏輯上缺失關鍵環(huán)節(jié),在準確性上出現(xiàn)巨大偏差。而一旦弄錯自由度的數(shù)目,則從三大分布的概率分布表中得到的將是錯誤的概率值,從而也必將錯誤解釋相應假設檢驗的顯著性。
費歇爾提出自由度概念之后,國外統(tǒng)計學界一直就如何一般化解釋自由度進行探討。Walker借助n維幾何工具把自由度理解為樣本統(tǒng)計量中觀察值數(shù)目減去約束條件數(shù)目后的結(jié)果,但Good批評Walker不能在復雜情形下把所謂的約束條件解釋清楚[6-7]。Cramer把自由度定義為二次型統(tǒng)計量的秩,但是因為這一定義涉及極為艱深的數(shù)學推理,它并不為一般統(tǒng)計學者所采用[8]379-381。即使 Good站在Walker與Cramer肩膀上提出了對自由度的簡化理解,即自由度就是假設檢驗中檢驗包含于K中的假設H時的參數(shù)空間維度差異d(K)-d(H),后來事實也證明,它只不過是訓練學生快速寫出自由度的工具而已[7]。所以,一方面有學者如Pandey和Bright等抱怨教科書中充斥著各種各樣使學生備感疑惑的自由度解釋[9];另一方面,Good等學者也不得不承認無論針對學生還是統(tǒng)計學專家,自由度都是一個非常難于解釋清楚的概念[7]。
相比國外,在國內(nèi)有代表性的教科書中,陳希孺把自由度解釋為三大分布中能夠隨意變化的變量值個數(shù),并在附錄中指出,若相關變量中有n個約束則自由度相應減少n個[10]95-104;陳家鼎等則只在有關定義、定理中提到自由度及其算法而未作特別解釋[11]43-59。在極為有限的幾篇專門討論自由度的論文中,李友平認為自由度指一組數(shù)據(jù)中可以自由取值的個數(shù),并以為統(tǒng)計量的“確定性”限制了與之相關的一組數(shù)據(jù)的“自由度”[12]。實踐中,這些解釋或能應用于簡單條件下,可一旦涉及較復雜情形,如列聯(lián)表中自由度的計算和理解,或者追問自由度與待估參數(shù)的本質(zhì)關系,再或深究自由度的統(tǒng)計意義時,不難發(fā)現(xiàn):以上解釋不僅不能從根本上回答這些問題,而且往往導致相關專業(yè)師生對自由度的理解流于形式,以致自由度實際上成為了統(tǒng)計學中一個時??梢妳s又格外陌生的概念。
針對上述局面,F(xiàn)ienberg就皮爾遜與費歇爾在分類數(shù)據(jù)擬合優(yōu)度檢驗上主要分歧的歷史探討為梳理自由度問題提供了基本線索[13]。Stigler對皮爾遜卡方檢驗推理邏輯和其理論錯誤以及費歇爾修正該錯誤的統(tǒng)計學史研究,則指出了深入理解自由度概念的根本路徑[14]。陳希孺關于皮爾遜、費歇爾的統(tǒng)計學史研究也提供了有關自由度問題的廣博數(shù)理知識和具體歷史背景[15]213-246。借鑒這些成果,本文從統(tǒng)計學史角度,通過研究皮爾遜、費歇爾等人與自由度問題相關的原始文獻,系統(tǒng)、深入、全面地拓展了已有相關解釋,指出了Fienberg、Stigler論證過程中的不足之處,彌補了陳希孺主要依賴于Fienberg、Stigler及E.S.Pearson等人提供的二手資料以及論述不夠清楚的缺陷。具體而言,本文包含了以下三個方面的分析:第一,皮爾遜是怎樣論證卡方檢驗的理論邏輯,論證過程中出現(xiàn)了什么樣的錯誤判斷;第二,皮爾遜的錯誤判斷是如何在統(tǒng)計實踐中被發(fā)現(xiàn)的;第三,費歇爾通過自由度修正皮爾遜錯誤的理論、方法根據(jù)何在,怎么理解并以當代術(shù)語闡釋這些根據(jù)。
皮爾遜卡方檢驗曾被美國統(tǒng)計學史專家Hacking評為20世紀科學技術(shù)所有分支中20個主要發(fā)現(xiàn)之一,因為它不僅在實用上提供了檢驗已知數(shù)據(jù)和某個給定假設是否一致的極其簡便的標準,還在理論方面成為了后繼相似檢驗的先驅(qū)[16]。不過,在皮爾遜這一對現(xiàn)代統(tǒng)計學里程碑式貢獻的原始論證中,卻存在著一個不小的錯誤。
1900年,皮爾遜在其標志性論文中提出[4]:假設對一個呈多項分布的k維正態(tài)總體進行隨機抽樣實驗,得到的所有樣本的頻次分布在n+1個間格內(nèi),如果每個間格分別有變 量 值m1′,m2′,…,mn′,mn+1′;變量值m1,m2,…,mn,mn+1;以及變量值ms1,ms2,…,msn,msn+1。其中m′= 每個間格的 觀 測 頻次;m=每個間格預先假定理論頻次;ms= 每個間格從樣本數(shù)據(jù)中推斷出的理論頻次。
皮爾遜認為,在上述頻次分布中,只存在著一個限制,即:∑m′=∑m=∑ms=N=樣本大小。尤其重要的是,如果誤差e=m′-m,則有e1+e2+…+en+en+1=0。因此他認為,n+1個誤差中只有n個是自由變量,當前面的n個變量已知時第n+1個就能確定。由此,經(jīng)過一系列推理,皮爾遜得到:
作為刻畫n+1個間格中的實際觀測頻次和預先假定理論頻次擬合程度的統(tǒng)計量,顯然,χ2越小,說明觀測頻次與理論頻次越一致。
進一步,皮爾遜證明,如果預先假定的理論頻次是正確的,那么,隨著樣本大小N的無限增長,用式(1)得到的χ2統(tǒng)計量的抽樣分布將完全獨立于假定理論頻次的概率分布,從而服從皮爾遜Ⅲ型分布(Γ分布),記為:
其中n′=n+1是樣本間格數(shù),并且該分布除χ2統(tǒng)計量外唯一決定因素就是n′。
皮爾遜隨后斷定,如果記大樣本條件下由隨機抽樣導致的χ2為χn2′,由樣本實際觀測值與理論值算出的χ2為χ20,那么統(tǒng)計學家能夠得到的樣本由于隨機抽樣原因?qū)е鲁闃诱`差大于或等于實際觀測中觀測值與理論值之間差異的概率將為:
鑒于式(3)不易計算,經(jīng)由簡化,皮爾遜又導出了兩個更為當時的統(tǒng)計學者頻繁使用的公式,即如果n′=n+1為奇數(shù),將有:
如果n′=n+1為偶數(shù),則有:
因此,實際操作中只需通過式(1)計算出χ20,再由n′的奇偶選擇相應式(4)或式(5)代入χ0算出p值,就能得到在預先假定的理論頻次正確條件下,隨機抽樣出現(xiàn)χ20這么大差異或更大差異的可能性有多大的判斷。毋庸置疑,p值就是皮爾遜所謂的衡量樣本觀測頻次與其假定理論頻次之間擬合優(yōu)度的標準,它介于(0,1)之間,并與χ20成反比,χ20越小,則p值越大,說明樣本觀測頻次與理論頻次之間的擬合度愈好,也說明預先假定的理論頻次愈為可靠。所以,它也被稱為皮爾遜(χ2,p)檢驗。
按當時慣例,皮爾遜還以實例對上述思路進行了具體說明。以同事 Weldon實際觀察到的骰子投擲實驗結(jié)果為例,經(jīng)整理他得到表1數(shù)據(jù)[4]。
表1 皮爾遜卡方檢驗數(shù)據(jù)表
表1中,理論頻次m1按Weldon最初設想的二項式理論分布26 306×(1/3+2/3)12算出。而在皮爾遜對實驗結(jié)果檢查之后,他發(fā)現(xiàn)12顆骰子同時擲26 306次,5點或6點出現(xiàn)的總和值是106 602次。于是,皮爾遜用106 602取代用概率1/3得到的理論值105 224,得到新概率值0.337 7,然后用26 306×(0.337 7+0.662 2)12的二項式理論分布算出理論頻次m2
。因為n′=n+1=13,通過式(1)和式(4),可輕易得到:按理 論頻次m1,χ2= 43.872 41,p=0.000 016;而按理論頻次m2,χ2=17.775 755 5,p=0.122 7。皮爾遜這樣表述實驗結(jié)果:對于前者,p=0.000 016=1/62 550說明,如果作62 550次隨機實驗,只有1次實驗由于隨機原因?qū)е碌南到y(tǒng)偏差會大于或等于實驗觀測到的樣本觀測頻次與理論頻次的偏差,其余62 549次實驗所得系統(tǒng)偏差都將小于實驗觀測偏差,這是一個極少見的小概率事件,它在實驗中出現(xiàn)將使人們不得不懷疑由26 306×(1/3+2/3)12所得理論頻次的正確性;對于后者,p=0.122 7≈1/8表明,8次隨機實驗中就有1次實驗由于隨機原因?qū)е碌南到y(tǒng)偏差大于或等于實驗觀測到的偏差,這已經(jīng)在可以接受的范圍內(nèi)。因而,實驗結(jié)果證明,使用二項分布(0.337 7+0.662 2)12去擬合實際觀測數(shù)據(jù)將比(1/3+2/3)12更可靠。這也說明,可以否定實驗中骰子是均勻的,其每面出現(xiàn)的概率均為1/6,而接受骰子均勻度有偏差的假設。
考慮到卡方檢驗的應用前景,皮爾遜和他的學生Elderton還制作了現(xiàn)代統(tǒng)計學史上第一張標準的χ2分布表[17]28。
表2 Elderton標準χ2分布表
可明顯看出,在假定隨機抽樣所得樣本的理論頻次已知(即抽樣總體的分布已知)條件下,(χ2,p)檢驗的決定因素在于n′的數(shù)量,且n′=n+1。
在皮爾遜卡方檢驗構(gòu)想中,總體的理論概率都是假定預先已知的,但實際中很多案例并不如此,總體理論分布未知并需要從樣本中進行推斷反而更常見。皮爾遜也意識到了這個問題,但遺憾的是,他做出了一個錯誤判斷。
上文提到,皮爾遜視隨機樣本中的m′為每個間格的觀測頻次,m為每個間格預先假定的理論頻次,ms為每個間格從樣本數(shù)據(jù)中推斷出的理論頻次。他特別聲明,如果記m=ms+u,則在大樣本條件下,原則上,比率u/ms將很?。?]。
皮爾遜對式(6)有兩個重要判斷:第一,等式后左邊第一項要么是負的(因而可以與第二項部分抵消),要么是很小的正數(shù)。第二,等式后第二項雖然為正,但在任何情況下它都將很小,因為它包含了每一個被加總的)2。因此,在這兩個判斷支撐下,皮爾遜斷言,χ2與χs2相差不大,在大樣本條件下,χ2與χs2應有同一極限分布。
客觀而言,皮爾遜錯誤判斷的后果并非微不足道。在 Weldon骰子實驗中,n′=13與n′=12意味著p值接近0.05的差異,這已經(jīng)非常顯著了。而在列聯(lián)表中,皮爾遜錯誤判斷的影響更為突出,如后文所述,皮爾遜認為2×2列聯(lián)表的n′=4而非2,3×3列聯(lián)表的n′=9而非5,在假設檢驗中這必將導致災難性的結(jié)果。
客觀地說,皮爾遜卡方檢驗仍是現(xiàn)代統(tǒng)計學史上最偉大的發(fā)現(xiàn)之一,它是第一個也是最重要的一個溝通了描述數(shù)據(jù)分析與推斷數(shù)據(jù)分析的檢驗準則。皮爾遜用公式分離、表達出了另一個重要問題,以至于20年后另一個天才用他自己簡單的方法做出了一個巨大發(fā)現(xiàn) —— 自由度。
或許是皮爾遜對χ2與χ2s相差不大的論證過于隱晦,在卡方檢驗提出后的20多年里,大多數(shù)統(tǒng)計學家即使錯誤地使用了卡方檢驗也往往毫無察覺。但也有例外,Greenwood與Yule就在反復檢查、比對收集到的大量數(shù)據(jù)后,對卡方檢驗的準確性產(chǎn)生了疑問,這種疑問在他們對四格表(2×2列聯(lián)表)的分析中更是達到了頂點,并成為了費歇爾討論自由度問題時最重要的論據(jù)。然而,Stigler對此僅一筆帶過,F(xiàn)ienberg也對細節(jié)囫圇吞棗、含糊其辭[13-14],所以,對此問題有必要重新細致梳理。
按皮爾遜的看法,如果對形式為表3的四格表中兩屬性相關問題進行研究,首先必須利用χ2統(tǒng)計量考察p值,以檢驗兩屬性間是否相互獨立[17]27-30。
表3 一般形式的四格表
具體而言,皮爾遜認為,最好的方法就是應用統(tǒng)計量:
代入Elderton表找到相應p值,如果p值很大,則說明觀測頻次與預先假設的兩屬性間相互獨立的理論頻次相當擬合,也就表明兩屬性相互獨立的假設成立。不過,皮爾遜認為,雖然四格表中的理論頻次是由樣本觀測頻次推斷而得,但在卡方檢驗中,它和理論頻次事前已知差異不大,所以代入Elderton表匹配相應p值時,n′=2×2=4。
Yule作為皮爾遜的學生,他對皮爾遜卡方檢驗的思路十分熟悉,在1906年對一個3×3列聯(lián)表進行檢驗時,他依然使用n′=3×3作為(χ2,p)檢驗的n′值。直到1915年,他才在對四格表的分析中透露出了自己的不同看法。
這一年,Greenwood與Yule考察了歐洲大陸針對傷寒和霍亂進行接種預防的大量數(shù)據(jù)[18]。為了弄清楚接種是否能夠預防霍亂和傷寒,他們把收集到的數(shù)據(jù)整理為表4的形式。
表4 歐洲傷寒、霍亂接種實際數(shù)據(jù)表
如果依照皮爾遜的方法,則首先應用式(9)算出χ2統(tǒng)計量,再按n′=4,找到相應p值,就可以判斷接種和感染之間是否相互獨立。例如表4中可得χ2=56.23,p小于0.000 1,說明接種與感染之間有顯著相關。不過,雖然Greenwood與Yule有保留地承認皮爾遜(χ2,p)方法能夠為這些數(shù)據(jù)提供有效的判定標準,但在反復檢驗和比較后他們發(fā)現(xiàn),如果按照皮爾遜的方法,四格表中的χ2統(tǒng)計量必然服從n′=4的卡方分布,也即必然有:
而按照他們的理解,設p1=a/(a+b)= 接種感染的人/所有接種的人,p2=c/(c+d)=未接種感染的人/所有未接種的人,那么統(tǒng)計量(p1-p2)/σp1-p2也能夠為判定兩屬性之間相互獨立提供同樣標準。進而,假設表3中A、B兩因素相互獨立,則必然有p1=p2= (a+c)/N,這樣一來,他們發(fā)現(xiàn):當四格表中的N充分大時,按棣莫弗 — 拉普拉斯中心極限定理,統(tǒng)計量
必將漸進于標準正態(tài)N(0,1)。而使他們疑惑的是,如果對式(11)取平方,則有:
顯然,由于式(11)中統(tǒng)計量服從N(0,1),則式(12)中χ2統(tǒng)計量的分布必服從以下公式:
毫無疑問,式(13)等價于把n′=2代入皮爾遜卡方檢驗所得之結(jié)果,而非式(10)代入n′=4的結(jié)果。所以,Greenwood與Yule在文中多次指出,他們和皮爾遜之間就列聯(lián)表的獨立性檢驗存在著不同的看法[18]。
但是,Greenwood與Yule在1915年并未意識到他們上述發(fā)現(xiàn)的意義,也沒有對他們和皮爾遜在列聯(lián)表卡方檢驗上的分歧實質(zhì)給出進一步說明。他們僅僅宣稱,用皮爾遜卡方檢驗得出的因為隨機抽樣導致的任何可能事件或不可能事件的概率,總是大于用其他方法檢驗出的概率,因此,必須謹慎使用卡方檢驗。總之,他們在當時回避了困難,這種局面直到費歇爾提出自由度概念以后才得以徹底改觀。
在現(xiàn)代統(tǒng)計學史上,費歇爾是繼皮爾遜之后的又一個巨人,費歇爾對現(xiàn)代統(tǒng)計學有著多方面的貢獻,其中就包括他利用自由度概念對皮爾遜卡方檢驗錯誤的修正。費歇爾的修正過程,不僅集中體現(xiàn)了其出色的數(shù)學直覺與通過個案一般化重要問題的思想風格,也使自由度的本質(zhì)含義和其蘊含的統(tǒng)計思想淋漓盡致地體現(xiàn)出來。
可作為σ的最佳估值使用。費歇爾卻
費歇爾認為,利用n維幾何的直觀方法,可以把樣本(x1,x2,…,xn)視為n維歐幾里得空間Rn中的一點,統(tǒng)計量的除數(shù)之所以為n,在于確定珚x時,由于沒有任何獨立約束,點(x1,x2,…,xn)可以在n維空間中自由活動。而統(tǒng)計量s的除數(shù)應為n-1的理由在于,確定s的前提是珚x已經(jīng)確定,這意味著點(x1,x2,…,xn)將受到一個獨立約束(xi-)=0。因此,點(x1,x2,…,xn)就只能在一個通過點(x珚,x珚,…,x珚)的n-1維超平面上活動,統(tǒng)計量s只有n-1個自由度。以三維為例,樣本(x1,x2,x3)可以看成是以總體均值為原點的3維空間中的一點,確定x珚時,由于沒有任何限制,點(x1,x2,x3)可在3維空間中任意活動,而一旦確定,也就意味著3維空間中必存在一點A(),使得(xi-)=0。顯然,一旦有了這個獨立約束,點(x1,x2,x3)就不可能再在3維空間中自由活動,而只能在一個2維平面上活動了,因此,計算統(tǒng)計量s時就只有2個自由度了。
有了自由度與n維幾何工具,費歇爾對Greenwood與Yule在列聯(lián)表卡方檢驗中發(fā)現(xiàn)的問題進行了新的思考[1]。他開宗明義地宣稱:在每個間格的觀察值都很大的條件下,卡方檢驗毫無疑問具有普遍效力,不過,當列聯(lián)表卡方檢驗的理論頻次需要從樣本觀察頻次中推斷出時,必須對n′的取值進行修正。進一步,費歇爾認為,在r×c列聯(lián)表中,Elderton表雖仍然適用,不過,必須用自由度的數(shù)目加1,即n′= (r-1)(c-1)+1取代皮爾遜認為的n′=rc代入列聯(lián)表進行卡方檢驗。
由度。而且,因為有eij=0,i=1,2,…,r以及=0,j=1,2,…,c,故還有r+c個約束條件,但由于行誤差總和為零與列誤差總和為零的限制,其中只有r+c-2個是獨立的。因此,r×c列聯(lián)表獨立性檢驗中的χ2統(tǒng)計量的自由度應為rc-1-(r+c-2)= (r-1)(c-1)。
不料,費歇爾的文章一經(jīng)發(fā)表,就遭到了來自各方的猛烈攻擊。不僅皮爾遜曾輕蔑地說:“我希望我的批評者原諒我把他比作與風車作戰(zhàn)的堂吉訶德”[5]。而且很多批評者認為,費歇爾對n′=2的修正適用的是這樣的四格表[19]:牌局中甲、乙兩選手各拿由26張紅花色牌和26張黑花色牌組成的52張牌中一半,在紅花色牌和黑花色牌期望頻次均等條件下,問實際觀察中出現(xiàn)如下頻次(表5)的概率是多少?
表5 由挑選樣本構(gòu)成的四格表
顯然,利用式(1)可得χ2=16/13,又因為表5中有獨立約束條件m1=m2=m3=m4=13,以及e1=2=e4、e2=2=e3,所以有1個自由度。把n′=2代入式(5),最終可得p=0.27。
批評者認為,只有出現(xiàn)表5這樣的非隨機樣本,卡方檢驗中的n′才需加以修正,而在表4那樣他們稱之為可疑個案的四格表中,無需修正n′=4。
針對這一批評,費歇爾指出了暗含于卡方檢驗中的三種假設前提(見表6)[2]。
表6 卡方檢驗的三種假設前提表
表6中,A代表著卡方檢驗中的理論頻次在檢驗前預先已知的類型,在這樣的前提下,1900年皮爾遜定義的、被多數(shù)統(tǒng)計學家代入Elderton表的n′無需做任何修正。皮爾遜利用預先已知的理論概率1/3對骰子實驗結(jié)果的證明就屬于這種類型。
B代表雖然總體的理論頻次預先已知,但樣本卻非隨機樣本而是挑選樣本,因此,代入Elderton表的n′需要修正。批評者對如表5那樣的個案的討論屬于這個類型。
在費歇爾看來,卡方檢驗中真正重要的是C所代表的類型,它是實驗、觀察中最頻繁出現(xiàn)的類型。其中理論頻次必須依靠樣本的邊緣和進行人為計算,所以和B一樣,必須對n′加以修正,Greenwood與Yule對四格表的檢驗就是典型。
費歇爾指出,就表3而言,他和皮爾遜分歧的實質(zhì)在于:若設a,b,c,d所對應的概率為p1,p2,p3,p4,則必有p1+p2+p3+p4=1,如果兩變量間相互獨立,則p1p4=p2p3,假設從總體中抽取了N個樣本,那么a,b,c,d必然服從如下多項分布:
顯然,只要知道p1,p2,p3,p4和N,a,b,c,d的聯(lián)合分布就將確定,任何關于a,b,c,d關系的函數(shù)分布也將確定。依皮爾遜的思路,在p1,p2,p3,p4預先已知的前提假設下,a,b,c,d相應的函數(shù)關系應為:
此時,必須把代入獨立性卡方檢驗的n′修正為n′=2。其實,對費歇爾最有利的是Yule的實驗結(jié)果。根據(jù)隨機模擬方法,Yule獲得了350個四格表的實驗結(jié)果[20]。費歇爾把這些數(shù)據(jù)加以整理得到表7。得到函數(shù)關系為:
表7 Yule實驗數(shù)據(jù)表
表中第2列得到的結(jié)果表示χ2值落入相應標示區(qū)間的實際觀察頻數(shù),第3和第4列表示χ2值服從n′=2、n′=4的卡方分布時應有的理論頻數(shù)。一目了然,n′=2時觀察值與理論值的符合程度遠勝n′=4,這證實了費歇爾的判斷。
費歇爾認為,無論是基于直覺的n維幾何證明,還是對不同前提假設的分析,都缺乏堅實的數(shù)學基礎。于是,利用其1922年提出的最大似然估計方法,費歇爾對自由度問題做出了總結(jié)性的分析[3]。
然而,當研究目的不在于直接得到m(),而是要對包含有m(θ)的χ2統(tǒng)計量的有效性進行判斷時,情況又有所不同。此時,應該取什么樣的χ2估計量作為含有參數(shù)真值的χ2的最佳估計呢?費歇爾以為,在這種情形下,應該以最小χ2為原則,取使
最小的χ2()作為最佳估計。理由很明顯,作為刻畫由于隨機原因?qū)е聦嶋H觀察值與其理論概率值偏差程度的統(tǒng)計量,當取得最小χ2值時,說明此時χ2值中包含的m(θ)將最接近總體真值。因而,在諸多χ2(θ)的估計中,如果χ2()是其最佳估計,那它必然是關于θ的函數(shù)χ2(θ)的最小值點。又根據(jù)可微函數(shù)達極值的必要條件可得:
回到實際案例中,事實將更為明顯。在1925年首版的《研究工作者用的統(tǒng)計方法》中,費歇爾對表1進行了新的解釋。已知在表1中,皮爾遜利用樣本觀測數(shù)據(jù)估計了5點或6點出現(xiàn)的概率為0.337 7后,其代入卡方檢驗的n′仍然是n′=n+1=13。而費歇爾認為,因為0.337 7是從樣本中估計出來的一個總體未知參數(shù),因此代入卡方檢驗的n′必將失去一個自由度,也即應該用n′=12進行同樣的檢驗。
3.小結(jié)。同一時期,費歇爾還利用自由度概念詳細討論了t分布和F分布(當時費歇爾考慮的是統(tǒng)計量logF的分布,即z分布),初步奠立了三大分布的數(shù)理邏輯基礎。這些工作不僅在數(shù)理統(tǒng)計學界影響巨大,它們還成為了經(jīng)濟學、社會學等社會科學學科定量研究思想、方法的重要源泉,自由度概念也由于三大分布的廣泛使用深入人心。隨著20世紀30年代后統(tǒng)計學的高速發(fā)展,對那些不熟悉現(xiàn)代統(tǒng)計理論的基礎文獻,或者是從教科書中了解它們的人來說,自由度概念的實質(zhì)及其蘊涵的統(tǒng)計思想?yún)s變得越來越陌生和難于理解。
基于第一手文獻資料,從統(tǒng)計學史角度,本文厘清了皮爾遜在其卡方檢驗原初構(gòu)想中的判斷錯誤,探討了這一錯誤的發(fā)現(xiàn)過程,細致闡釋了費歇爾創(chuàng)造自由度概念修正該錯誤的數(shù)理邏輯。研究表明:
第一,Walker、Cramer與Good提出的三個被廣泛引用的一般化經(jīng)典解釋,實際來源于他們對費歇爾原始論證的理解和抽象,但這三個解釋都只選取了費歇爾全面論證中的一個方面。
第二,本質(zhì)上,自由度是從樣本統(tǒng)計量估計總體參數(shù)時的一次邏輯飛躍。因此,自由度可理解為樣本統(tǒng)計量中排除了待估總體參數(shù)影響后仍能自由取值的隨機變量個數(shù)。所謂獨立約束條件,本質(zhì)上就是待估總體參數(shù)。
第三,費歇爾與皮爾遜的自由度之爭,并不是簡單的概念爭論,背后體現(xiàn)的是那個時代人們從描述統(tǒng)計走向推斷統(tǒng)計時,對現(xiàn)代統(tǒng)計方法的創(chuàng)造性發(fā)明,以及圍繞這些方法進行嚴格邏輯推導、實驗說明和數(shù)學論證,從而奠定統(tǒng)計學沿用至今的理論基礎的思維過程。
最后,在當前有關數(shù)理統(tǒng)計學史的中文專著、論文極為稀缺,而相關學科師生迫切希望了解統(tǒng)計學中一些基本概念、方法與思想的歷史源流和演變發(fā)展背景下,筆者期望本文能拋磚引玉,以使統(tǒng)計學史研究引起人們更多重視。
[1] Fisher R A.On the Interpretation ofχ2from Contingency Tables,and the Calculation[J].Journal of the Royal Statistical Society,1922,85(1).
[2] Fisher R A.Statistical Tests of Agreement between Observation and Hypothesis[J].Economica,1923(8).
[3] Fisher R A.The Conditions Under Whichχ2Measures the Discrepancy between Observation and Hypothesis[J].Journal of the Royal Statistical Society,1924,87(3).
[4] Pearson K.On the Criterion that a Given System of Deviations from the Probable in the Case of a Correlated System of Variables is Such that It can be Reasonably Supposed to have Arisen from Random Sampling[J].Philosophical Magazine,1900,50(5).
[5] Pearson K.On theχ2Test of Goodness of Fit[J].Biometrika,1922,14(1/2).
[6] Walker H M.Degrees of Freedom [J].Journal of Educational Psychology,1940,31(4).
[7] Good I J.What are Degrees of Freedom[J].The American Statistician,1973,27(5).
[8] Cramer H.Mathematical Methods of Statistics[M].New Jersey:Princeton University Press,1961.
[9] Pandey S,Bright C L.What are Degrees of Freedom [J].Social Work Research,2008,32(2).
[10]陳希孺.概率論與數(shù)理統(tǒng)計[M].北京:科學出版社,2000.
[11]陳家鼎,孫山澤.數(shù)理統(tǒng)計學講義[M].2nd.北京:高等教育出版社,2006.
[12]李友平.關于社會統(tǒng)計中"自由度"概念的解析[J].統(tǒng)計與決策,2007(12).
[13]Fienberge S E.Fisher's Contributions to the Analysis of Categorical Data[C]∥Fienberg S E,Hinkley D V R A Fisher,An Appreciation.New York:Springer,1980.
[14]Stigler S M.Karl Pearson's Theoretical Errors and the Advances they Inspired[J].Statistical Science,2008,23(2).
[15]陳希孺.數(shù)理統(tǒng)計學簡史[M].長沙:湖南教育出版社,2002.
[16]Hacking I.Trial by Number[J].Science,1984,84(5).
[17]Pearson K.Tables for Statisticians and Biometricians[M].London:Cambridge University Press,1914.
[18]Greenwood M,Yule G U.The Statistics of Anti-cholera and Anti-typhoid Inoculations,and the Interpretation of such Statistics in General[J].Proceedings of Royal Society,Medicine(Epidemiology),1915(8).
[19]Bowley A L,Connor L R.Tests of Correspondence between Statistical Grouping and Formulae[J].Economica,1923(7).
[20]Yule G U.On the Application of theχ2Method to Association and Contingency Tables,with Experimental Illustrations[J].Journal of the Royal Statistical Society,1922,85(1).