趙鵬輝,崔 蕊
(大慶師范學(xué)院 數(shù)學(xué)科學(xué)學(xué)院,黑龍江 大慶163712)
列聯(lián)表是統(tǒng)計同時確定兩個變量的值,對總體中要討論的個體分類并分組,將其分布進(jìn)行分析,來探究分類變量間的相關(guān)性[1]。對疾病和疾病成因進(jìn)行分級,建立列聯(lián)表的基礎(chǔ)上,對疾病的成因進(jìn)行分析,便于對疾病的預(yù)防與治療,這樣列聯(lián)表在醫(yī)學(xué)中的應(yīng)用極為廣泛。
統(tǒng)計學(xué)中,對研究對象進(jìn)行分類并對樣本的頻數(shù)進(jìn)行統(tǒng)計并進(jìn)行探究。依據(jù)樣本分組的指標(biāo)變量,對其排序即得到列聯(lián)表。分析研究列聯(lián)表中的數(shù)據(jù),來檢驗兩個變量的關(guān)系,應(yīng)用假設(shè)檢驗中的卡方檢驗研究列聯(lián)表中分類變量是否獨立,稱這種檢驗為列聯(lián)表檢驗[2]。列聯(lián)表分析法的應(yīng)用極為廣泛,它可以分析研究總體中個體的屬性之間是否相關(guān),稱為獨立性檢驗。例如,帕金森與其性別是否有關(guān)?在以二者為研究對象所列出的列聯(lián)表中,以Pi.、Pj.和Pij代表研究對象中樣本分類于等級Ai,等級Bj,以及同時屬于AiBj的概率,帕金森與性別之間是否相關(guān)這樣的問題可以轉(zhuǎn)化為在統(tǒng)計學(xué)中的問題,表述為H0:Pij= Pi·Pj,進(jìn)行列聯(lián)表檢驗,查對臨界值表若χ2值足夠大,則拒絕假設(shè),即二者相關(guān)。依此方法檢驗即可以較大的把握判定出性別與帕金森是相關(guān)的。明確變量之間的相關(guān)性后,還需要引入某個定量指標(biāo)例如列聯(lián)系數(shù)來刻畫二者的相互聯(lián)系的程度[3]。
假設(shè)檢驗方法中的卡方檢驗的應(yīng)用較為廣泛,它包括利用卡方檢驗對兩個率或兩個構(gòu)成進(jìn)行比較??ǚ綑z驗?zāi)軐Χ鄠€率或多個構(gòu)成比進(jìn)行比較以及對分類變量的性質(zhì)進(jìn)行相關(guān)分析??ǚ綑z驗用來判斷構(gòu)成比之間是否存在差別并推斷分類變量之間是否有關(guān)系[4]。
對總體分布中的樣本的頻數(shù)分布或是列聯(lián)表中的頻數(shù)進(jìn)行檢驗,卡方檢驗的應(yīng)用性較為廣泛,用假設(shè)檢驗分析并探究它是服從某種理論分布還是某種假設(shè)分布。即在推斷總體的分布時參照樣本的分布,這種檢驗方法屬于自由分布中的非參數(shù)檢驗。它主要應(yīng)用于一個樣本分為多種類,或多個樣本各有多種類的數(shù)據(jù),即比較兩個或兩個以上的構(gòu)成比的統(tǒng)計方法,在藥學(xué)與醫(yī)學(xué)中應(yīng)用極為廣泛,在應(yīng)用統(tǒng)計中常常需要用到卡方檢驗進(jìn)行假設(shè)檢驗[2]。
卡方檢驗是對樣本的實際頻數(shù)與期望頻數(shù)進(jìn)行比較并比較二者之間的偏離程度,它們相差或偏離的幅度大小與卡方值的大小相關(guān)性很大,當(dāng)二者完全相符時卡方值為0,而卡方值越小則表明二者越趨于相符,卡方值越大,則代表二者不相符[5]。
若列聯(lián)表四個格子排序后的實際值分別為a,b,c,d,n = a+b+c+d,則對列聯(lián)表進(jìn)行卡方檢驗,為此引進(jìn)統(tǒng)計量
這個統(tǒng)計量服從 (p -1)(q -1)的卡方分布,其中p 代表行數(shù),q 代表列數(shù).這里要求樣本含量大于40,而且列聯(lián)表中的理論頻數(shù)不小于5,或者小于5 的數(shù)據(jù)不超過數(shù)據(jù)的五分之一,當(dāng)樣本量較小時,可直接求得概率值進(jìn)行判斷,當(dāng)樣本量大于40,而頻數(shù)小于5 時,通過對卡方值的進(jìn)一步修正即可判斷[2]。
某醫(yī)療機(jī)構(gòu)為了了解糖尿病與酗酒是否有關(guān),進(jìn)行了一次抽樣調(diào)查,共調(diào)查了200 個成年人,其中酗酒者106 人,不酗酒者94 人,調(diào)查結(jié)果是:酗酒的106 人中有82 人患糖尿病,24 人不患糖尿病;不酗酒的94 人中44 人患糖尿病,50 人不患糖尿病,研究對象可以分為I 和II,1 有兩類取值,即酗酒與不酗酒,II 有兩類取值,即患糖尿病與不患糖尿病,統(tǒng)計以上數(shù)據(jù)可得到如下列聯(lián)表:
表1 糖尿病與酗酒人數(shù)統(tǒng)計表
我們要研究的問題是能否依據(jù)這些數(shù)據(jù)來判斷患糖尿病與酗酒相關(guān),很多實際問題需要判斷分類變量之間是否有關(guān)系,既二者是否相互獨立,根據(jù)列聯(lián)表和卡方檢驗的性質(zhì),我們可以利用它們來探究疾病的成因??梢愿鶕?jù)以根據(jù)抽樣調(diào)查出來的數(shù)據(jù)繪制直方圖1、圖2。
圖1 糖尿病與酗酒人數(shù)直方圖1
圖2 糖尿病與酗酒人數(shù)直方圖2
從圖中分析,在直觀印象認(rèn)為患糖尿病與酗酒是有關(guān)的,而實際是否相關(guān),需要用統(tǒng)計觀點來考察這個問題,利用列聯(lián)表來探究以下問題:
1)判斷酗酒與否和患病的可能性大小的差異性及其標(biāo)準(zhǔn);
2)差異性達(dá)到多大才能作出患糖尿病與酗酒有關(guān)的判斷;
3)能否用數(shù)量來刻畫二者相關(guān)的判斷;
4)做出相應(yīng)判斷的把握為多大。
通過樣本數(shù)據(jù)的計算得出,在不酗酒者中患糖尿病所占人數(shù)比重為46.81%;在酗酒者中患糖尿病所占人數(shù)的比重為77.36%。
上面我們通過分析數(shù)據(jù)和圖形,得到的直觀印象是酗酒和患糖尿病有關(guān),還需要利用統(tǒng)計觀點做出判斷。利用列聯(lián)表以及假設(shè)檢驗來分析研究這個分類變量的相關(guān)性的問題?,F(xiàn)在想要知道能夠以多大的把握認(rèn)為酗酒與糖尿病有關(guān),由抽樣的隨機(jī)性,根據(jù)樣本得到的推斷可能正確也可能錯誤。利用χ2做假設(shè)檢驗,對所推斷的變量之間進(jìn)行估計,為使估計較準(zhǔn)確,應(yīng)使樣本量n 盡量大一些[6]。
為此先假設(shè):H0:酗酒與患糖尿病不具有相關(guān)性
H1:酗酒與患糖尿病具有相關(guān)性
用M 表示酗酒,N 表示患糖尿病,則命題酗酒與患糖尿病沒有關(guān)系等價于“酗酒與患糖尿病獨立。即假設(shè)H0等價于P(MN)= P(M)P(N)。在H0成立的條件下,構(gòu)造出與H0矛盾的小概率事件,如果樣本使得這個小概率事件發(fā)生,就能以一定把握說明H1成立;否則H0成立。
為了一般化,將上表中的調(diào)查數(shù)字用字母代替,則得到2 ×2 列聯(lián)表
表2 糖尿病與酗酒人數(shù)列聯(lián)表
在表2中,事件MN 發(fā)生的頻數(shù)為a;事件M 和N 發(fā)生的頻數(shù)分別為a +b 和a +c。由于在大事件中頻率接近于概率,所以在H0成立的條件下應(yīng)該有酗酒者中患糖尿病的比例等于不酗酒者中患糖尿病的比例,即
| ad - bc |其值越小,則說明酗酒與患病之間的關(guān)系越弱;其值越大,則說明酗酒與患病的關(guān)系越強(qiáng)。通過計算有:
統(tǒng)計學(xué)中常常用卡方統(tǒng)計量來描述實際觀測值與估計值的差異,為此構(gòu)造卡方統(tǒng)計量χ2= ∑來使不同樣本容量的數(shù)據(jù)有統(tǒng)一的評判標(biāo)準(zhǔn),構(gòu)造一個統(tǒng)計量稱它為卡方統(tǒng)計量
因此若H0成立,即酗酒與患糖尿病沒有關(guān)系,則χ2的觀測值應(yīng)該很小。最后查對臨界值表來作相應(yīng)判斷。
表3 χ2 檢驗臨界值表
參照上表即可以一定的把握進(jìn)行判斷,其意義如下表所示:
表4 χ2 檢驗臨界值表的意義
因此可以依據(jù)這些步驟來驗證酗酒是否與患糖尿病有關(guān),通過計算可知
在H0建立的情況下χ2大于10.828,出現(xiàn)這樣觀測值的概率不超過0.001,因此99.9%的把握認(rèn)為H0不成立,即99.9%的把握認(rèn)為患病與酗酒有關(guān)。
2.2.1 簡介交叉列聯(lián)表及SPSS[4]
在實際問題分析中,除了需要對某個單個變量的分布情況進(jìn)行分析外,還要分析多個變量在不同取值情況下的數(shù)據(jù)分布情況,而更加深刻的分析變量之間的相關(guān)性,即為交叉列聯(lián)表分析。當(dāng)有多個因素影響所調(diào)查的對象時,通過交叉列聯(lián)表可以確定這些因素與所研究的樣本之間的相關(guān)性且能分析出這些因素之間的關(guān)系。多個特征決定的分類變量的頻數(shù)的排序分布所成的表定義為列聯(lián)表,又定義它為頻數(shù)交叉表,在SPSS 的Crosstabs 過程可以得到交叉列聯(lián)表,它可以提供了多種檢驗方法和相關(guān)性度量方法,其中在分析列聯(lián)表資料的數(shù)據(jù)中常常結(jié)合到假設(shè)檢驗中的χ2檢驗。所以在分析研究分類變量的性質(zhì)時可以通過調(diào)查的樣本數(shù)據(jù)來得到二維交叉列聯(lián)表,然后通過得到交叉列聯(lián)表對這兩個變量的關(guān)聯(lián)性進(jìn)行分析。在這過程中,借助假設(shè)檢驗中的非參數(shù)檢驗和能準(zhǔn)確刻畫變量間相關(guān)程度的統(tǒng)計量。在本例中,利用SPSS 所提供的相關(guān)系數(shù)適用于不同類型數(shù)據(jù),相關(guān)性檢驗的原假設(shè)H0:行列變量之間相互獨立,顯著關(guān)系不明顯,每個單元格的頻數(shù)期望值和實際頻數(shù)相差不大,不拒絕原假設(shè);如果二者相差很大,則拒絕原假設(shè),并根據(jù)SPSS 檢驗,來判斷是否存在相關(guān)關(guān)系[6]。
同列聯(lián)表所介紹的一樣,交叉列聯(lián)表中各表格的期望值大小應(yīng)大于1,小于的個數(shù)不能超過的表格,這種情況應(yīng)對假設(shè)檢驗的統(tǒng)計量即卡方量進(jìn)行修正。
在SPSS 中,檢驗相關(guān)關(guān)系中的方法中一下三種方法較為常用:
1)卡方檢驗:對行列變量之間是否相關(guān)進(jìn)行驗證。χ2=,其中f0表示實際觀察頻數(shù),f1表示期望頻數(shù)且統(tǒng)計量服從自由度為 (行數(shù)-1)(列數(shù)-1)的卡方統(tǒng)計。若在SPSS 中判斷行列變量之間的相關(guān)性需要計算卡方統(tǒng)計量時和相應(yīng)的相伴概率,常適用于名義變量的計算。
2)ψ 系數(shù):計算公式是由χ2修改得到的,計算變量的相關(guān)系數(shù)。其中0 <ψ <1 ,M = min (行數(shù),列數(shù))。
3,列聯(lián)系數(shù):計算公式由χ2修改得到的,計算相關(guān)系數(shù),但是它常常應(yīng)用于分類變量的計算,其值為C
2.2.2 事例探究
在生活中,人們會患有多種疾病,我們常常關(guān)心這些疾病之間是否相關(guān),一些高血壓患者常?;加行呐K病,那么血壓疾病和心臟病是相互影響的還是獨立,這可以利用交叉列聯(lián)表來分析血壓與心臟病之間的關(guān)系。
在抽樣調(diào)查的過程中,將調(diào)查對象相對于血壓以及心臟按健康的程度進(jìn)行分級,即健康、亞健康、患病三類,形成血壓等級和心臟健康等級的交叉列聯(lián)表,并考察血壓和心臟間有無關(guān)聯(lián)性。
以某患病人群為樣本進(jìn)行抽樣調(diào)查,利用SPSS 對所得到的數(shù)據(jù)進(jìn)行操作。
表5 患病人群的血壓及心臟健康程度分級統(tǒng)計表
依據(jù)前文對列聯(lián)表以及假設(shè)檢驗的介紹,可以依此分析步驟探究問題:
1)提出原假設(shè)H0:血壓與心臟的健康狀況這兩個變量互相無影響;
H1:血壓與心臟的健康狀況不相互獨立。
2)之所以利用交叉列聯(lián)表分析是由于這兩個變量不是連續(xù)型而都屬于離散分類型。
3)采用SPSS 操作,利用Chi - Square 卡方檢驗、皮爾森卡方檢驗(Pearson)、似然比卡方檢驗(Likelihood - ration)、連續(xù)性校正卡方檢驗來探究心臟的健康與否與血壓的關(guān)系。通過樣本的數(shù)據(jù)可以由SPSS 輸出以下主要內(nèi)容:
表6 患病人群的血壓及心臟健康程度分級計數(shù)與期望對比表
表7 Chi - Square 卡方檢驗
在上表中看出χ2統(tǒng)計量的值為225.274,所對應(yīng)的p 值為0.000 .由于p 值遠(yuǎn)遠(yuǎn)小于通常使用的顯著性水平,因此檢驗的結(jié)論是拒絕原假設(shè),很大把握認(rèn)為血壓的健康狀況和心臟的健康狀況是相互獨關(guān)的。
列聯(lián)表將研究對象按某些特征分類并統(tǒng)計排序列出的數(shù)據(jù)表。由于樣本所涉及的數(shù)據(jù)形式較簡單,在統(tǒng)計檢驗中常常出現(xiàn)錯誤,常常會因選擇統(tǒng)計方法的不適宜;或者數(shù)據(jù)不滿足統(tǒng)計方法的條件而出現(xiàn)錯誤[7],列聯(lián)表的具體特征決定列聯(lián)表檢驗的統(tǒng)計方法,列聯(lián)表常常又可以分為相關(guān)列聯(lián)表和獨立列聯(lián)表。前者的兩個變量的特性完全相同。因此首先需要檢驗這個表中的兩個變量特性是否形同。如果其中的兩個變量的特性不同,則它是獨立列聯(lián)表。在與假設(shè)檢驗結(jié)合的過程中假設(shè)檢驗的結(jié)論,僅僅代表樣本從同一總體中抽取的概率。例如當(dāng)藥效的差異性并不明顯時,并不代表兩種藥的藥效相同,只能說這兩種藥作為樣本來自同一總體的概率大。而當(dāng)兩種藥的治療率差異性較大時,這并不能說明其中一種藥的藥性明顯高于另一種藥的藥性,只能代表兩種藥從同一總體抽取的可能性或概率小,也存在著這兩種樣本來自不同的總體的可能性,此種差異具有代表性。因此,作出有無差異性或相關(guān)性的結(jié)論,要從實際并結(jié)合專業(yè)上加以研究,要根據(jù)醫(yī)學(xué)上的實際意義來評論。同時注意在假設(shè)檢驗抽取樣本數(shù)據(jù)時最好采取抽樣調(diào)查并具有隨機(jī)性,且分類變量除在控制處理條件不同外,應(yīng)盡量使其他條件相同,這樣才能避免其它條件的干擾。不能以百分百的把握對檢驗結(jié)果下結(jié)論,這是由于顯著性性水平不是固定的而是是人為規(guī)定的,相對的。以根據(jù)P <0.01 作出的結(jié)論,即使有99% 的把握來說明其關(guān)系,仍有1% 錯誤的可能。
在對樣本進(jìn)行定量的分析時,假設(shè)總體服從正態(tài)分布,并采取參數(shù)檢驗統(tǒng)計方法分析研究。而對于總體分布未知的情況下和對定性資料的分析,無法進(jìn)行參數(shù)檢驗,常采用非參數(shù)檢驗方法。例如χ2檢驗,列聯(lián)表分析是非參數(shù)檢驗方法中應(yīng)用最廣泛的方法之一,它在經(jīng)濟(jì)、社會、醫(yī)學(xué)、教育等學(xué)領(lǐng)域定性分析中應(yīng)用的較為廣泛,它是定性資料進(jìn)行定量分析的基礎(chǔ),在醫(yī)學(xué)的應(yīng)用中極為廣泛,適合醫(yī)學(xué)中難以量化的定性變量間相關(guān)或獨立性分列。列聯(lián)表獨立性檢驗方法最大的優(yōu)點就是讓我們從孤立的數(shù)據(jù)本身分析問題的本質(zhì),及時的發(fā)現(xiàn)問題和解決問題[8]。
[1]陳希孺.數(shù)理統(tǒng)計理論[M].北京:科學(xué)出版社,1981:203 -209,297 -299.
[2]楊廷芬.2 ×2 列聯(lián)表檢驗方法的回顧與比較[D].廣州:中山大學(xué)碩士學(xué)位論文,2009:9 -12.
[3]孫振球,徐勇勇.醫(yī)學(xué)統(tǒng)計學(xué)[M].北京:人民衛(wèi)生出版社,2008:136 -156.
[4]方穎.利用SPSS 軟件處理臨床治療率[J].醫(yī)學(xué)理論與實踐,2011,24(16):15 -17.
[5]何平平.配對設(shè)計2 ×2 列聯(lián)表的精確檢驗方法及應(yīng)用[J].中國衛(wèi)生統(tǒng)計,2006(5):10 -12.
[6]B.S.Everitt.The Analysis of Contingency Tables[M].London,1977:11 -36.
[7]陸運清.列聯(lián)表資料檢驗的幾種常見錯誤辨析[J].統(tǒng)計與決策,2010(15):161 -163.
[8]蔣慶瑯.實用統(tǒng)計分析方法[M].方積乾,等譯.北京:北京醫(yī)科大學(xué),中國協(xié)和醫(yī)科大學(xué)聯(lián)合出版社,1988:102,118 -134.