禹建奇
摘要:本文討論二維列聯(lián)表數(shù)據(jù)的兩種抽樣模型,以及相關(guān)的齊性和獨(dú)立性檢驗(yàn)問題,說明兩種抽樣模型的聯(lián)系,以及齊性及獨(dú)立性檢驗(yàn)的一致性.
關(guān)鍵詞:列聯(lián)表;抽樣模型;齊性;獨(dú)立性檢驗(yàn)
中圖分類號(hào):G642.0 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-9324(2015)14-0071-02
作者在講授統(tǒng)計(jì)課程時(shí),經(jīng)常會(huì)遇到列聯(lián)表的齊性和獨(dú)立性檢驗(yàn)問題,這兩個(gè)問題分別牽涉到兩種抽樣方式,但兩種檢驗(yàn)的檢驗(yàn)統(tǒng)計(jì)量與結(jié)果卻是一樣的.大多數(shù)教材,如吳喜之、趙博娟所著《非參數(shù)統(tǒng)計(jì)》,只是簡單指出兩種抽樣方式的不同,兩種檢驗(yàn)的一致性只是殊途同歸,巧合而已.本文論證了這兩種模型的聯(lián)系,導(dǎo)出兩種檢驗(yàn)的一致性,可見,這種一致性絕不是巧合.
一、乘積多項(xiàng)分布模型與整體多項(xiàng)分布模型
首先我們來看兩個(gè)二位列聯(lián)表的例子(摘自吳喜之、趙博娟所著《非參數(shù)統(tǒng)計(jì)》第八章).
例1 對于某種疾病有三種處理方法,某醫(yī)療機(jī)構(gòu)分別對22,15和19個(gè)病人用這三種方法處理,處理的結(jié)果分“改善”和“沒有改善”兩種,并且列在下表中:
問:不同處理的改善比例是不是一樣?
例2 在一個(gè)有三個(gè)主要百貨商場的商貿(mào)中心,調(diào)查者問479個(gè)不同年齡段的人首先去三個(gè)商場中的哪一個(gè),結(jié)果如下:
問:人們對這三個(gè)商場的選擇和他們的年齡是否獨(dú)立?
這兩個(gè)例子的數(shù)據(jù)都有下面的兩因子列聯(lián)表形式:
這里,每個(gè)格子的頻數(shù)nij為隨機(jī)變量,行頻數(shù)總和ni?誗=∑jnij,列頻數(shù)總和n?誗j=∑inij,頻數(shù)總和n?誗?誗=∑ini?誗=∑jn?誗j,A1,A2,…,Ar為行因子的r個(gè)水平,B1,B2,…,Bc為列因子的c個(gè)水平.用pij表示第ij個(gè)格子頻數(shù)占總頻數(shù)的理論比例(概率).顯然,pij=E(nij)/n?誗?誗,這里E(nij)為nij的數(shù)學(xué)期望,而相應(yīng)的第i行的理論比例(概率)pi?誗及第j列的理論比例(概率)p?誗j分別為pi?誗=∑jpij,p?誗j=∑ipij?誗
對于例1的具體問題,零假設(shè)為:“對于各種不同的處理,改善的比例或概率相同.”注意,這里因?yàn)橹挥袃煞N結(jié)果,所以,對不同處理改善的比例相同就意味著對各種處理沒有改善的比例也相同.這種關(guān)于齊性的檢驗(yàn)的數(shù)據(jù)獲取,一般都類似于例8.1,對行變量的每一水平i,試驗(yàn)前選定一定數(shù)目(ni·)的對象,然后在試驗(yàn)時(shí)觀測并記錄在列變量的不同水平所得到的相應(yīng)頻數(shù).
可以看到,這和前面檢驗(yàn)齊性時(shí)零假設(shè)下的期望值一樣,由此可以得到和上面檢驗(yàn)齊性時(shí)導(dǎo)出的同樣的統(tǒng)計(jì)量Q,這樣導(dǎo)出的Q當(dāng)然也有同樣的漸近 χ2分布.這類關(guān)于獨(dú)立性的問題的數(shù)據(jù)獲取,通常是隨機(jī)選取一定數(shù)目的樣本,然后記錄這些個(gè)體分配到各個(gè)格子的數(shù)目(頻數(shù)).它并不事先固定某變量各水平的觀測對象數(shù)目,這和齊性問題有所區(qū)別.
一般地,對r×c的列聯(lián)表,試驗(yàn)前先選定總頻數(shù)n?誗?誗,再進(jìn)行獨(dú)立抽樣,記錄n?誗?誗個(gè)對象落在各個(gè)格子的頻數(shù),這樣,整個(gè)列聯(lián)表的分布為一多項(xiàng)分布
這種抽樣模型稱列聯(lián)表的整體多項(xiàng)分布模型.
二、兩種模型的聯(lián)系
如上所述,很多的統(tǒng)計(jì)教材也都指出,同一個(gè)列聯(lián)表數(shù)據(jù)可以有兩種抽樣模型,而且對兩種模型分別做齊性和獨(dú)立性檢驗(yàn)時(shí),檢驗(yàn)過程與結(jié)論完全一樣,但是其中的緣由卻未見說明.其實(shí)可以證明,這并不是巧合, 它是下面兩個(gè)定理的結(jié)果.
定理一:齊性問題與獨(dú)立性問題等價(jià), 即各行的齊性等價(jià)于行與列變量的獨(dú)立性.
三、最后結(jié)論
整體抽樣模型的獨(dú)立性當(dāng)然等價(jià)于固定各行總頻數(shù)時(shí)的齊性,所以,綜合可得以下結(jié)論:
二維列聯(lián)表的數(shù)據(jù),可能來自兩種不同的抽樣模型: 整體多項(xiàng)分布模型和乘積多項(xiàng)分布模型, 但是兩種模型其實(shí)是一致的, 即乘積多項(xiàng)分布模型可以認(rèn)為是整體多項(xiàng)分布模型在限定各行總頻數(shù)的條件下的條件分布模型, 同時(shí)由于齊性與獨(dú)立性的等價(jià), 不論以何種模型分析同一個(gè)列聯(lián)表的齊性或獨(dú)立性,得到的結(jié)果是一樣的.
參考文獻(xiàn):
[1]吳喜之,趙博娟.非參數(shù)統(tǒng)計(jì)[M].中國統(tǒng)計(jì)出版社,2013.
[2]阿蘭,阿格萊斯蒂.分類數(shù)據(jù)分析[M].重慶大學(xué)出版,2012.