林益強(qiáng)
摘 要:在人教A版《普通高中課程標(biāo)準(zhǔn)實(shí)驗(yàn)教科書·數(shù)學(xué)·選修2-3》課本中,第二章的2.1.2節(jié)末尾,教材用具體實(shí)例引出了“超幾何分布(hyper-geometric distribution)”的概念,而在2.2.3節(jié)中,教材也是在介紹“獨(dú)立重復(fù)試驗(yàn)”的前提下,通過實(shí)例探究引出了“二項(xiàng)分布(binomial distribution)”的定義。作為離散型隨即變量的兩種重要分布,教材的設(shè)計(jì)很明顯是希望通過實(shí)例,讓學(xué)生認(rèn)識模型所刻畫的隨機(jī)變量的共同特點(diǎn),從而建立新的模型,并能運(yùn)用兩模型解決一些實(shí)際問題。然而學(xué)生的實(shí)際學(xué)習(xí)情況是怎樣的呢?
關(guān)鍵詞:離散分布;超幾何分布;二項(xiàng)分布;比較學(xué)習(xí)
階段性測試題:某公司生產(chǎn)一種新產(chǎn)品,從產(chǎn)品中抽取100件作為樣本,測量這些產(chǎn)品的質(zhì)量指標(biāo)值,由測量結(jié)果得到如圖所示的頻率分布直方圖。從指標(biāo)值落在[215,235]的產(chǎn)品中隨機(jī)抽取2件做進(jìn)一步檢測,設(shè)抽取的產(chǎn)品的指標(biāo)在[225,235]的件數(shù)為X,求X的分布列和數(shù)學(xué)期望;
參考答案:指標(biāo)值落在[215,235]的產(chǎn)品有件,產(chǎn)品的指標(biāo)落在[225,235]的件數(shù)為100×0.02=2.所以X的取值為0,1,2;,
,所以X的分布列為:
X的數(shù)學(xué)期望
X 0 1 2
P
學(xué)生的解答:指標(biāo)值落在[215,235]的產(chǎn)品有(件),產(chǎn)品指標(biāo)落在[225,235]的有100×0.02=2件,所以產(chǎn)品指標(biāo)落在[225,235]的概率,∴,則
單從最后的結(jié)果來看,數(shù)學(xué)期望是一樣的,但過程顯然是完全兩回事,學(xué)生誤將超幾何分布問題當(dāng)成二項(xiàng)分布問題來解了,而根本原因是對這兩模型的定義不能很好的理解。我們先一起來看看課本對這兩個(gè)模型的定義:
超幾何分布
一般地,在含有M件次品的N件產(chǎn)品中,任取n件,其中恰有X件次品,則,k=0,1,2,…,m,其中m=min{M,n},且n≤N,M≤N,n,M,N∈N*,稱分布列
X 0 1 … m
P …
為超幾何分布列。如果隨機(jī)變量X的分布列為超幾何分布列,則稱隨機(jī)變量X服從超幾何分布。
二項(xiàng)分布
一般地,在n次獨(dú)立重復(fù)試驗(yàn)中,用X表示事件A發(fā)生的次數(shù),設(shè)每次試驗(yàn)中事件A發(fā)生的概率為p,則。此時(shí)稱隨機(jī)變量X服從二項(xiàng)分布,記作X~B(n,p),并稱p為成功概率。
從兩個(gè)模型的定義來看,隨機(jī)變量X都是在整數(shù)值1,2,3…中取值,所以兩者都屬于離散型隨機(jī)變量。超幾何分布模型的建立是利用抽取產(chǎn)品中次品數(shù)的問題,即在含有M件次品的N件產(chǎn)品中,無放回的抽取n件,其中恰有的次品數(shù)X服從超幾何分布。而二項(xiàng)分布模型是建立在拋擲圖釘?shù)脑囼?yàn)上,即拋擲圖釘n次,針尖向上的次數(shù)X服從二項(xiàng)分布,其中1次試驗(yàn)過程中,針尖向上的概率即相當(dāng)于N件產(chǎn)品中的次品數(shù)。所以,我們也可以把這個(gè)模型敘述為:在含有M件次品的N件產(chǎn)品中,有放回的抽取n件,其中恰有的次品數(shù)X服從二項(xiàng)分布。這時(shí)候,我們發(fā)現(xiàn)兩種分布的區(qū)別主要是在“有放回”和“無放回”的問題上,即放不放回是區(qū)別的關(guān)鍵。文章開頭引入的測試題,學(xué)生就是將“隨機(jī)抽取2件”當(dāng)成“進(jìn)行2次獨(dú)立重復(fù)試驗(yàn)”來考慮,導(dǎo)致解題的錯(cuò)誤。那為什么在計(jì)算數(shù)學(xué)期望的問題上,兩種的計(jì)算結(jié)果卻是一樣的,難道只是“偶然”嗎?還是兩者之間有什么聯(lián)系呢?
課本中只對二項(xiàng)分布的數(shù)學(xué)期望做了推導(dǎo),并沒有對超幾何分布的數(shù)學(xué)期望做介紹,這跟課程對兩種分布的要求不同有關(guān)。我們先來看看課本對于二項(xiàng)分布的數(shù)學(xué)期望的介紹:如果X~B(n,p),那么由,可得
于是有:若X~B(n,p)則E(x)=np.
接下來,我們試著推導(dǎo)下超幾何分布的數(shù)學(xué)期望:根據(jù)課本定義,若隨機(jī)變量X服從超幾何分布,則:
因此,.
(注:利用恒等式的二項(xiàng)展開式中的系數(shù)相等可證。)
這時(shí)候,我們會發(fā)現(xiàn)表示的是抽取的這N件產(chǎn)品中的次品率,當(dāng)產(chǎn)品數(shù)量無限多的話,放不放回對的值幾乎沒有影響的,即=p。這也就是為什么使用不同的分布方法,數(shù)學(xué)期望的結(jié)果卻有可能是相同的。
超幾何分布和二項(xiàng)分布這兩種離散型隨機(jī)變量的概率分布表面上看來風(fēng)馬牛不相及:
1.一種是不放回的隨機(jī)試驗(yàn),一種是有放回的隨機(jī)試驗(yàn)。
2.二項(xiàng)分布的概率公式的等號右邊可以看成二項(xiàng)展開式的一般項(xiàng),而超幾何分布的概率公式的等號右邊是超幾何級數(shù)一般項(xiàng)的系數(shù)。
然而,我們通過剛剛的推導(dǎo)分析也發(fā)現(xiàn),當(dāng)抽取的樣本容量無限大的時(shí)候,放不放回產(chǎn)生的區(qū)別已經(jīng)不是那么明顯了,即兩者所計(jì)算出來的概率值相差無幾了,換而言之超幾何分布的極限就是二項(xiàng)分布!人們在實(shí)際工作中常利用這一點(diǎn),把抽取對象數(shù)量較大時(shí)的無放回抽樣(例如破壞性試驗(yàn)發(fā)射炮彈;產(chǎn)品的壽命試驗(yàn)等),當(dāng)作有放回來處理。
但是,作為高中教學(xué)的兩個(gè)知識點(diǎn),本質(zhì)上是不一樣的,如何進(jìn)行區(qū)分顯得更為重要。我們是否能在題目的敘述中找到一些分辨的“蛛絲馬跡”呢?讓我們一起來分析下2020年福州市質(zhì)檢中一道概率統(tǒng)計(jì)題。
(2020·福州質(zhì)檢)某工廠對A,B兩種型號的產(chǎn)品進(jìn)行質(zhì)量檢測,從檢測的數(shù)據(jù)中隨機(jī)抽取6次,記錄數(shù)據(jù)如下:
A:8.3,8.4,8.4,8.5,8.5,8.9;
B:7.5,8.2,8.5,8.5,8.8,9.5.(注:數(shù)值越大表示產(chǎn)品質(zhì)量越好)
(1)若要從A,B中選一種型號產(chǎn)品投入生產(chǎn),從統(tǒng)計(jì)學(xué)角度考慮,你認(rèn)為生產(chǎn)哪種型號產(chǎn)品合適?簡單說明理由;
(2)若將頻率視為概率,對產(chǎn)品A今后的4次檢測數(shù)據(jù)進(jìn)行預(yù)測,記這4次數(shù)據(jù)中不低于8.5分的次數(shù)為ξ,求ξ的分布列及期望E(ξ).
試題第一問主要是考查了統(tǒng)計(jì)學(xué)中的均值和方差的計(jì)算,通過均值和方差計(jì)算的結(jié)果判定哪種型號產(chǎn)品合適。
參考答案:
(1)A產(chǎn)品的平均數(shù):.
B產(chǎn)品的平均數(shù):
A產(chǎn)品的方差:sA2=[(8.3-8.5)2+(8.4-8.5)2+(8.4-8.5)2+(8.5-8.5)2+(8.5-8.5)2+(8.9-8.5)2]≈0.037.
B產(chǎn)品的方差:sB2=[(7.5-8.5)2+(8.2-8.5)2+(8.5-8.5)2+(8.5-8.5)2+(8.8-8.5)2+(9.5-8.5)2]=0.363.
因?yàn)?,sA2<sB2,所以兩種產(chǎn)品的質(zhì)量平均水平一樣,A產(chǎn)品的質(zhì)量更穩(wěn)定,選擇A產(chǎn)品合適。
試題的第二問顯然是考查了隨機(jī)變量的分布問題。題目敘述中“若將頻率視為概率,對產(chǎn)品A今后的4次檢測數(shù)據(jù)進(jìn)行預(yù)測”這些字眼很關(guān)鍵。為什么要“將頻率視為概率”?因?yàn)槲覀兂槿〉臉颖局挥?個(gè),但是要預(yù)測的是整條產(chǎn)品線,即檢測的產(chǎn)品有無限多,這些不都體現(xiàn)著二項(xiàng)分布的基本前提,所以參考答案是這么給定的。
(2)由題意得ξ的所有可能取值為0,1,2,3,4,數(shù)據(jù)不低于8.5的頻率為,將頻率視為概率,則ξ~B,所以E(ξ)=.
如果我們把第二問做如下的修改:從已知的6次檢測數(shù)據(jù)中隨機(jī)抽取4次,記這4次數(shù)據(jù)中不低于8.5分的次數(shù)為η,求η的分布列及期望E(η)。這樣不就跟我們超幾何分布的模型是一樣的,都是一種不放回的抽樣問題,所以區(qū)分的關(guān)鍵還是在于能否通過字眼的區(qū)別,判斷出是否放回,有放回即體現(xiàn)抽取前后是獨(dú)立的,互不影響的,這是二項(xiàng)分布的前提,而如果是不放回,即體現(xiàn)前面的抽取結(jié)果對后面的抽取是有影響的,這也是超幾何分布模型的特點(diǎn)。
參考文獻(xiàn)
[1]高延軍.由兩道模擬考試題引發(fā)的思考——超幾何分布與二項(xiàng)分布辨析[J].中國數(shù)學(xué)教育,2013,000(009):9-10.
[2]匡婷、葛雙林.抓定義透實(shí)質(zhì)——二項(xiàng)分布及其應(yīng)用重難點(diǎn)解析[J].高中生學(xué)習(xí):試題研究,2017.
[3]賀艷.《超幾何分布與二項(xiàng)分布》教學(xué)設(shè)計(jì)[J].科普童話,2019,000(003):P.96-96.