張清良
[摘? ? ? ? ? ?要]? 淺析通過獨立性檢驗思想方法的應用來分析多個分類變量之間的關系,進一步感受獨立性檢驗的思想在現實生活中的應用。
[關? ? 鍵? ?詞]? 獨立性檢驗;多個分類變量;應用
[中圖分類號]? G642? ? ? ? ? ? [文獻標志碼]? A? ? ? ? ? [文章編號]? 2096-0603(2019)31-0190-02
獨立性檢驗思想方法在醫(yī)學分析、教學評價、現實生活等各個領域都有重要的作用。那么,如何將抽象的數學理論應用到具體的生活實踐中去?本文通過獨立性檢驗的思想方法探討現實生活問題分類變量的相互關系。
一、獨立性檢驗的基本思想
在日常生活中,分類變量是大量存在的,例如吃檳榔與患口腔癌等,在實際問題中我們常常關心兩個變量之間是否有關系,從直觀上看吃檳榔與不吃檳榔患口腔癌的可能性是存在差異的。假設事件Q與E和F沒有關系,若Q成立,即E與F沒有關系,則K2應該很小,只需要計算出K2或K2的觀測值k=■的大小,其中n=a+b+c+d為樣本容量。在Q成立的條件下,統(tǒng)計學家估計出的概率P(K2≥6.635)≈0.01即在Q成立的情況下K2的值大于6.635的概率非常小,近似于0.01,也就是說,在Q成立的情況下,對隨機變量K2進行多次觀測,觀測值超過6.635的頻率約為0.01,如果K2≥6.635,就可以判定Q不成立。因而E和F有關系成立,并且我們有99%以上的把握認為E與F的有關系成立。
利用隨機變量K2來確定在大多程度上可以認為“兩個分類變量有關系”的方法稱為兩個分類變量的獨立性檢驗。獨立性檢驗的基本思想類似于反證法。要確認“兩個分類變量有關系”這一結論成立的可信度,需要假設“兩個分類變量沒有關系”成立,在該假設下構造的隨機變量K2應該很小,如果由觀測數據計算得到的K2的觀測值很大,則在一定程度上說明假設不合理,根據隨機變量K2的含義,可以通過概率P(K2≥6.635)≈0.01來評價該假設不合理的程度,由實際計算出的k≥6.635,說明該假設不合理程度約為99%,即“兩個分類變量有關系”這一結論成立的可信程度約為99%。
二、獨立性檢驗的實際應用
利用獨立性檢驗解決實際問題的步驟為:
(1)K2=計算。
(2)比較K2與四個臨界值:2.706,3.841,5.024和6.635的大小。
(3)利用K2檢驗值為依據也可能有失誤,它強調的是最大的可能性。其樣本越大,這個估計值越準確。使用K2統(tǒng)計量作2×2列聯表的獨立性檢驗時,要求表中的四個數大于5,因此,在選取樣本容量時一定要注意這一點。
三、實例分析
實例1:對某校做一次大型調查,語文成績優(yōu)秀和非優(yōu)秀的學生中,歷史、英語、總分也為優(yōu)秀的人數如下表所示,則語文成績優(yōu)秀與歷史、英語、總分也為優(yōu)秀哪個關系較大?
所以有99%的把握認為其親屬的飲食習慣與年齡有關。
四、在日常生活中,分類變量是大量存在的
例如,戶外運動是否與性別有關;大學生每周運動時間是否與性別有關;中年人禿發(fā)是否與心臟病有關;了解某種疾病是否與性別有關等。都可以隨機對自己要調查研究的問題抽取樣本進行問卷調查,利用獨立性檢測來考查兩個分類變量是否有關聯關系,并且能比較精確地給出這種判斷的可靠程度。具體做法是:根據觀測數據計算由(1)式給出的檢驗隨機變量K2的值k,其值越大,說明“X與Y有關系”成立的可能性越大。當得到的觀測數據a,b,c,d都不小于5時,可以通過查閱下表來確定結論“X與Y有關系”的可信程度。
五、結語
在準確理解實際問題的基礎上正確建立數學模型,然后應用獨立性檢驗思想方法來分析多個分類變量之間的關系,對實際問題作出正確的判斷有著十分重要的作用。
參考文獻:
[1]郭金,韋程東.在數值分析教學中融入數學建模思想的研究與實踐[J].廣西師范學院學報(自然科學版),2008,25(3):124
[2]閔杰,李義寶.高校數值分析課程組合式教學方法探索研究[J].高教論壇,2001(6):72.
[3]袁蔭棠.概率論與數理統(tǒng)計[M].北京:中國人民大學出版社,1989.
編輯 張 慧