何正文
(廣東省肇慶市百花中學(xué) 526000)
超幾何分布和二項(xiàng)分布是高中階段最重要的兩種離散型隨機(jī)變量的概率分布,超幾何分布和二項(xiàng)分布是人教A版選修2-3第二章隨機(jī)變量及其分布列中的兩種重要分布,也是高考概率統(tǒng)計(jì)大題中重點(diǎn)考查的內(nèi)容,二者的區(qū)別難以分清.本文就二者的聯(lián)系和區(qū)別進(jìn)行思考.
先看一下課本給出的兩種分布的概念:
這個(gè)概念的給出還是挺耐人尋味的,出自正品次品混合取件的例子,有點(diǎn)類(lèi)似于判例法,這在高中課本中僅此一例.如果嚴(yán)格按照定義,要先計(jì)算分布列,然后才能判定是否服從超幾何分布,這樣本來(lái)也無(wú)可厚非,但對(duì)于解題來(lái)說(shuō)可能就不太方便了,更多的時(shí)候我們需要先判定再計(jì)算.而且定義中引入了大量字母,公式也略顯復(fù)雜,對(duì)學(xué)生來(lái)講難以把握.簡(jiǎn)單總結(jié)就是:總體較少且分兩類(lèi),則樣本中關(guān)注類(lèi)的個(gè)數(shù)服從超幾何分布.依據(jù)這個(gè)簡(jiǎn)易概念去判定就會(huì)方便多了.
這個(gè)概念相對(duì)較好把握,簡(jiǎn)單總結(jié)就是:獨(dú)立重復(fù)試驗(yàn)中成功次數(shù)服從二項(xiàng)分布,關(guān)鍵就是獨(dú)立重復(fù)試驗(yàn)的判定.
這兩種分布從概念來(lái)看有很大的不同,甚至看不到有什么相似之處,但在具體問(wèn)題中的就不像看定義這樣簡(jiǎn)單易區(qū)分了.我們不妨就用課本中的例子通過(guò)改編來(lái)體會(huì)一下二者的區(qū)別.
例1 在含有M件次品的N件產(chǎn)品中,按下列取法依次取n件,求取到的次品數(shù)X的分布列:
(1)不放回地?。?/p>
(2)有放回地取.
分析 第(1)問(wèn)中,不放回地取,最終取出n件,總體顯然分為正品和次品兩類(lèi),則所取n件樣本中次品類(lèi)的個(gè)數(shù)一定會(huì)服從超幾何分布.而第(2)問(wèn)中,有放回地取,每次取出后放回,則每次取出次品的概率相同,是n次獨(dú)立重復(fù)試驗(yàn),則取到的次品數(shù)X一定會(huì)服從二項(xiàng)分布.
通過(guò)兩道小題的比較分析,我們不難得到初步結(jié)論:當(dāng)總體個(gè)數(shù)較少時(shí),“有放回”地取件,目標(biāo)類(lèi)的個(gè)數(shù)服從二項(xiàng)分布,“不放回”地取件,目標(biāo)類(lèi)的個(gè)數(shù)服從超幾何分布.
再看一個(gè)例子.
例2 二十世紀(jì)50年代,日本熊本縣水俁市的許多居民都患了運(yùn)動(dòng)失調(diào)、四肢麻木等癥狀,人們把它稱(chēng)為水俁病.經(jīng)調(diào)查發(fā)現(xiàn)一家工廠排出的廢水中含有甲基汞,使魚(yú)類(lèi)受到污染,人們長(zhǎng)期食用含高濃度甲基汞的魚(yú)類(lèi)引起汞中毒.引起世人對(duì)食品安全的關(guān)注.《中華人民共和國(guó)環(huán)境保護(hù)法》規(guī)定食品的汞含量不得超過(guò)1.00ppm.羅非魚(yú)是體型較大,生命周期長(zhǎng)的食肉魚(yú),其體內(nèi)汞含量比其他魚(yú)偏高.現(xiàn)從一批羅非魚(yú)中隨機(jī)地抽出15條作樣本,經(jīng)檢測(cè)得各條魚(yú)的汞含量的莖葉圖(以小數(shù)點(diǎn)前一位數(shù)字為莖,小數(shù)點(diǎn)后一位數(shù)字為葉)如下:
羅非魚(yú)的汞含量(ppm)01321598732112354
(1)在這15條樣本魚(yú)中,任取3條,記η表示抽到的魚(yú)汞含量超標(biāo)的條數(shù),求η的分布列及Eη.
(2)以此15條魚(yú)的樣本數(shù)據(jù)來(lái)估計(jì)這批魚(yú)的總體數(shù)據(jù).若從這批數(shù)量很大的魚(yú)中任選3條魚(yú),記ξ表示抽到的魚(yú)汞含量超標(biāo)的條數(shù),求ξ的分布列及Eξ.
分析 (1)由題知,15條魚(yú)作為樣本總體,個(gè)數(shù)較少且明顯分為汞含量超標(biāo)和汞含量不超標(biāo)兩類(lèi),個(gè)數(shù)分別為5條和10條,任取3條,則這3條中的汞含量超標(biāo)類(lèi)的魚(yú)的條數(shù)η顯然服從超幾何分布,η的可能值為0,1,2,3.
則η的分布列為:
η0123P(η)249145912091291
ξ0123P(ξ)C03(13)0(23)3C13(13)1(23)2C23(13)2(23)1C23(13)3(23)0
所以Eξ=1.
通過(guò)對(duì)例2的分析,我們發(fā)現(xiàn)考察對(duì)象從樣本變到總體后,分布類(lèi)型由超幾何分布變?yōu)榱硕?xiàng)分布!
我們更愿意通過(guò)對(duì)大量魚(yú)群中的一條魚(yú)“漠視”,忽略它對(duì)魚(yú)群的影響,這樣概率的計(jì)算就會(huì)變得容易很多,我們的統(tǒng)計(jì)和計(jì)算工作都大大地簡(jiǎn)化了!超幾何分布就近似“變?yōu)椤绷硕?xiàng)分布,這個(gè)變化其實(shí)是兩種分布概率的一種近似,對(duì)應(yīng)取值的概率用兩種分布去計(jì)算肯定不相等,但隨著總體趨于無(wú)窮大,我們可以推測(cè),他們的概率會(huì)越來(lái)越接近!在本例中,從有限到無(wú)限,從超幾何分布到二項(xiàng)分布,客觀上并沒(méi)有轉(zhuǎn)變,其實(shí)是我們主觀選擇的結(jié)果!我們選擇了一個(gè)“錯(cuò)誤”的分布來(lái)減少計(jì)算量!這也是不得已而為之,而這也是用樣本估計(jì)總體的一個(gè)不得已的選擇.
所以我們對(duì)兩種分布的進(jìn)一步結(jié)論是:考察對(duì)象“有限”時(shí)服從超幾何分布,“無(wú)限”時(shí)則服從二項(xiàng)分布.
在例2中其實(shí)還有一個(gè)很有意思的地方我們可以關(guān)注一下,兩種分布的期望值是相同的!這是不是巧合呢?
通過(guò)剛才的分析我們已經(jīng)知道,當(dāng)總體數(shù)目非常大時(shí),超幾何分布與二項(xiàng)分布對(duì)應(yīng)取值的概率近似相等,那它們的期望也是近似相等的,這很好理解.那為什么總體數(shù)目非常少的時(shí)候,超幾何分布的期望值算出來(lái)和二項(xiàng)分布也是相等的呢?我們還是繼續(xù)從例2中體會(huì)一下.
這一個(gè)結(jié)論還可以通過(guò)代數(shù)的方法進(jìn)行證明,過(guò)程如下:
通過(guò)上面的思考與證明,我們發(fā)現(xiàn)兩種分布的期望確實(shí)是相同的!
超幾何分布與二項(xiàng)分布這兩種重要的離散型隨機(jī)變量的分布之間關(guān)系基本已經(jīng)理清了,“有放回”和“無(wú)放回”的區(qū)別,“有限”和“無(wú)限”時(shí)的轉(zhuǎn)化,期望值的“巧合”,無(wú)不體現(xiàn)出二者的千絲萬(wàn)縷的聯(lián)系.