孫廷哲
(安慶師范大學(xué) 生命科學(xué)學(xué)院,安徽 安慶 246133)
生物統(tǒng)計(jì)學(xué)是一門運(yùn)用概率論和數(shù)理統(tǒng)計(jì)方法,研究生命現(xiàn)象數(shù)據(jù)的科學(xué)[1]。生命科學(xué)領(lǐng)域的數(shù)據(jù)包括現(xiàn)象和調(diào)查資料,通過數(shù)據(jù)提取特征并得出相應(yīng)結(jié)論,都需要運(yùn)用到生物統(tǒng)計(jì)學(xué)的相關(guān)知識(shí)。在大數(shù)據(jù)時(shí)代,更需要統(tǒng)計(jì)學(xué)的分析方法提煉有效信息?!吧锝y(tǒng)計(jì)學(xué)”是生命科學(xué)本科各專業(yè)的必修課程,對(duì)培養(yǎng)學(xué)生的科研素質(zhì)和解決問題的能力起到了至關(guān)重要的作用。但生物統(tǒng)計(jì)學(xué)的理論性強(qiáng)、公式較多、內(nèi)容抽象,同時(shí)受限于課程安排,生命科學(xué)各專業(yè)的學(xué)生數(shù)學(xué)基礎(chǔ)普遍較為薄弱,所以學(xué)生學(xué)習(xí)“生物統(tǒng)計(jì)學(xué)”的積極性不高,普遍無法理解和掌握統(tǒng)計(jì)學(xué)核心內(nèi)容。因此,探索“生物統(tǒng)計(jì)學(xué)”核心內(nèi)容教學(xué)的合適方法,掙脫復(fù)雜理論的束縛至關(guān)重要。
概率質(zhì)量函數(shù)(Probability Mass Function,PMF)是離散隨機(jī)變量在其定義域內(nèi)特定取值的概率。由于現(xiàn)行中學(xué)教材已對(duì)基本概率統(tǒng)計(jì)進(jìn)行介紹,同時(shí)概率質(zhì)量函數(shù)多涉及有限情形,所以學(xué)生對(duì)其理解并不困難。當(dāng)從離散隨機(jī)變量演化到連續(xù)隨機(jī)變量,隨機(jī)變量的描述需要從概率質(zhì)量函數(shù)演變成概率密度函數(shù)(Probability Density Function,PDF)[2]。國內(nèi)較為通用的“生物統(tǒng)計(jì)學(xué)”教材皆是先引入?yún)^(qū)間內(nèi)取值概率的定義,進(jìn)而通過取區(qū)間極限的方式定義概率密度[3]。但從離散隨機(jī)變量到連續(xù)隨機(jī)變量,本質(zhì)上是從“有限、可列無限”到“不可列無限”情形的轉(zhuǎn)變,需要學(xué)生對(duì)“不可列無限”有較為直觀的認(rèn)識(shí),這是統(tǒng)計(jì)學(xué)的基礎(chǔ)。但對(duì)于初學(xué)者,尤其是生命科學(xué)相關(guān)專業(yè)的學(xué)生而言,概率密度并不是一個(gè)容易理解的概念。其基本思想,即“觀察到連續(xù)隨機(jī)變量任意特定取值的概率為0”和“連續(xù)隨機(jī)變量在特定非零區(qū)間取值的概率為概率密度函數(shù)在此區(qū)間積分”并非十分直觀。
直方圖(Histogram)是統(tǒng)計(jì)學(xué)中進(jìn)行數(shù)據(jù)分布描述的一種重要圖譜,可用于描述數(shù)據(jù)的分布形式。通過使用MATLAB軟件繪制直方圖,比較了相對(duì)頻數(shù)(relative frequency,也稱為頻率)和頻率密度(frequency density)的不同,演示了相對(duì)頻數(shù)、頻率密度和累積頻率密度隨直方圖中組數(shù)(bin)的變化趨勢。由于相對(duì)頻數(shù)和頻率密度的極限分別對(duì)應(yīng)于概率和概率密度,此演化過程有助于學(xué)生正確理解概率密度基本思想,為學(xué)習(xí)統(tǒng)計(jì)分析方法打下堅(jiān)實(shí)基礎(chǔ)。
概率是生物統(tǒng)計(jì)學(xué)中的基本概念,在“生物統(tǒng)計(jì)學(xué)”教材中,一般以“統(tǒng)計(jì)概率”和“古典概率”的形式引入概率的概念。統(tǒng)計(jì)概率以事件發(fā)生的頻率逼近事件的概率,而古典概率則是在特殊的基本事件等可能性前提下給出了概率的定義。但受到生命科學(xué)專業(yè)課程設(shè)置和學(xué)生數(shù)學(xué)基礎(chǔ)限制,傳統(tǒng)的“生物統(tǒng)計(jì)學(xué)”教材都無法從勒貝格測度(Lebesgue measure)角度引入概率的概念[4],而多以相對(duì)頻數(shù)的極限方式介紹概率。因此,概率密度在“生物統(tǒng)計(jì)學(xué)”教材中一般是以頻率密度的方式引入。設(shè)fi為直方圖中第i 組的頻數(shù),N 為數(shù)據(jù)總數(shù),n 為直方圖組數(shù),記:。這里表示相對(duì)頻數(shù)[5],也稱為頻率,其中
設(shè)直方圖第i組的組距為hi,記:表示頻率密度,其中
為了規(guī)避測度論的復(fù)雜內(nèi)容而直觀地揭示概率密度的含義,首先使用MATLAB 生成一組偽隨機(jī)數(shù),通過直方圖對(duì)相對(duì)頻數(shù)和頻率密度進(jìn)行描述。此組隨機(jī)數(shù)服從標(biāo)準(zhǔn)正態(tài)分布N(0,1),隨機(jī)數(shù)樣本的容量為2×105,這里可以通過MATLAB 命令randn(1,2e5)或randn(2e5,1)實(shí)現(xiàn)。此組隨機(jī)數(shù)的分布如圖1A 所示,其中黑色的曲線作為參考線(下同),表示標(biāo)準(zhǔn)正態(tài)分布的密度函數(shù),灰色直方圖則描述了2×105個(gè)隨機(jī)數(shù)的分布狀態(tài)。圖1B中繪制了此組隨機(jī)數(shù)相對(duì)頻數(shù)直方圖(圖中直方圖的組數(shù)為30,直方圖組距hi相等)。而當(dāng)組距hi不等時(shí),相對(duì)頻數(shù)直方圖的形態(tài)很可能發(fā)生顯著的變化(組數(shù)=30,見圖1C)。注意到相對(duì)頻數(shù)直方圖與標(biāo)準(zhǔn)正態(tài)分布概率密度函數(shù)一般具有比較明顯的偏離(見圖1B和C)。直方圖中組距越大,組中可能包含的數(shù)據(jù)個(gè)數(shù)則越多,其相對(duì)頻數(shù)則較大。此時(shí),若用相對(duì)頻數(shù)除以組距,則可得到頻率密度直方圖(見圖1D),這里使用“頻率密度”可更好地描述數(shù)據(jù)分布的集中性特征。另外,注意到即使在直方圖中組數(shù)不多的情況下,頻率密度直方圖和標(biāo)準(zhǔn)正態(tài)分布曲線趨勢較為一致(比較圖1C和1D),因此,“頻率密度”直方圖與標(biāo)準(zhǔn)正態(tài)分布概率密度函數(shù)在圖形上的一致性表明,“頻率密度”可以更好地描述數(shù)據(jù)的分布特征。在“統(tǒng)計(jì)概率”定義下,“頻率”在極限意義下可以逼近“概率”。因此,“頻率密度”可以作為“概率密度”的一個(gè)近似。
圖1 相對(duì)頻數(shù)和頻率密度直方圖
進(jìn)一步,運(yùn)用MATLAB繪制相對(duì)頻數(shù)直方圖隨著組數(shù)的變化趨勢,這里使用MATLAB內(nèi)置的histogram 函數(shù)。隨機(jī)數(shù)仍為以上生成的一組2×105個(gè)隨機(jī)數(shù)。注意到,當(dāng)組數(shù)為100時(shí),直方圖中相對(duì)頻數(shù)的最高值約為0.04(見圖2A)。而當(dāng)組數(shù)增至500時(shí),圖中顯示相對(duì)頻數(shù)的最高值將降至0.01以下(見圖2B)。而當(dāng)進(jìn)一步增加組數(shù)時(shí),相對(duì)頻數(shù)圖的峰值將進(jìn)一步降低(見圖2C,組數(shù)=2 000)。當(dāng)組數(shù)設(shè)置為10 000時(shí),注意到相對(duì)頻數(shù)峰值幾乎接近于0(見圖2D)。由于直方圖都使用同一組隨機(jī)數(shù)進(jìn)行繪制,直方圖的組數(shù)越多,則組間距越小;較小的組間距可覆蓋的隨機(jī)數(shù)的數(shù)量也相應(yīng)降低。以下使用一種形象化的描述:直方圖中組數(shù)的增多會(huì)導(dǎo)致落入每一組隨機(jī)數(shù)的數(shù)量減小,即每一組取值的相對(duì)頻數(shù)逐漸降低;對(duì)于真實(shí)服從標(biāo)準(zhǔn)正態(tài)分布N(0,1)的隨機(jī)變量,其取值數(shù)目為正無窮大。當(dāng)增加直方圖的組數(shù)直至正無窮大時(shí),每一組將最終只包含1個(gè)隨機(jī)數(shù)(即組距收斂為0)并且每一組的相對(duì)頻數(shù)將隨之降為0。通常情況下,根據(jù)概率的統(tǒng)計(jì)定義,相對(duì)頻數(shù)是概率的一種估計(jì),概率為相對(duì)頻數(shù)的極限。因此,此圖形象地驗(yàn)證了“觀察到連續(xù)隨機(jī)變量任意特定取值的概率為0”這一結(jié)論。
圖2 相對(duì)頻數(shù)隨組數(shù)變化直方圖
接下來,基于同一組隨機(jī)數(shù)分別繪制頻率密度和累積頻率密度直方圖,并探討其隨著組數(shù)的變化趨勢,結(jié)果如圖3所示。注意,累積頻率密度直方圖與對(duì)應(yīng)的頻率密度直方圖在橫軸的組劃分方式相同。累積頻率密度直方圖中某一條形高度為其頻率密度直方圖對(duì)應(yīng)位置(此處指橫坐標(biāo)相同位置)及其左側(cè)所有條形高度之和。圖3中,上圖為頻率密度直方圖。當(dāng)組數(shù)=30時(shí),發(fā)現(xiàn)頻率密度直方圖和標(biāo)準(zhǔn)正態(tài)分布曲線較為吻合(見圖1A,圖3A 上)。增加組數(shù)至300,頻率密度直方圖中的組間距減小,而對(duì)應(yīng)的累積頻率密度直方圖的進(jìn)一步逼近一條平滑曲線,這條平滑曲線為標(biāo)準(zhǔn)正態(tài)分布的(累積)分布函數(shù)(見圖3B)。組數(shù)增至3 000時(shí),注意到此時(shí)頻率密度直方圖的組距將進(jìn)一步降低,而累積頻率密度直方圖的邊緣幾乎與標(biāo)準(zhǔn)正態(tài)分布的分布函數(shù)重合(見圖3C)。同時(shí),也注意到一些特點(diǎn):(1)與相對(duì)頻數(shù)直方圖不同,(累積)頻率密度直方圖的圖形特征相對(duì)穩(wěn)定;(2)頻率密度直方圖中條形最大值并不隨組數(shù)的增加發(fā)生顯著改變,維持相對(duì)恒定。原因在于,雖然隨著組數(shù)的增加,落在每組中的隨機(jī)數(shù)減少,進(jìn)而導(dǎo)致相對(duì)頻數(shù)降低,但直方圖的組間距也相應(yīng)變小,故頻率密度趨于穩(wěn)定;(3)累積頻率密度呈現(xiàn)單調(diào)不減趨勢,且逐漸趨近于1(由概率的歸一化性質(zhì)決定)。由于累積頻率密度直方圖中條形高度為其對(duì)應(yīng)頻率密度條形高度之和,而積分亦是一種求和運(yùn)算。所以,當(dāng)直方圖的組數(shù)逐漸增大至正無窮大,組距將逐漸降低至“只包含一個(gè)點(diǎn)”,此時(shí)的求和運(yùn)算將“收斂”為積分。因此,“連續(xù)隨機(jī)變量在區(qū)間取值的概率為概率密度函數(shù)在此區(qū)間積分”。另外如前所述,概率為相對(duì)頻數(shù)(即頻率)的極限,則概率密度為頻率密度的極限。那么同樣,當(dāng)組距縮小至“只包含一個(gè)點(diǎn)”,頻率密度將演化為概率密度,其條(線)形高度為隨機(jī)變量取值的概率密度。利用直方圖可形象化地探討概率密度及其相關(guān)概念。
圖3 頻率密度和累積頻率密度直方圖
通過MATLAB軟件繪制相對(duì)頻數(shù)、頻率密度和累積頻率密度直方圖,直觀地解釋了生物統(tǒng)計(jì)學(xué)中較難理解的概率密度及其相關(guān)概念。之所以使用MATLAB 進(jìn)行統(tǒng)計(jì)學(xué)教學(xué),是因?yàn)镸ATLAB 作為一種高級(jí)語言,其數(shù)據(jù)結(jié)構(gòu)和函數(shù)較之其他統(tǒng)計(jì)學(xué)軟件更接近自然語義并兼具強(qiáng)大的科學(xué)計(jì)算功能[6],此科學(xué)計(jì)算功能是SPSS所不具備的,而SAS,Python和R 的語法則不如MATLAB接近自然語義。另外,MATLAB具有友好的用戶圖形界面和強(qiáng)大的繪圖功能,這也是SPSS、SAS、Python和R 所欠缺的(如Python為了實(shí)現(xiàn)MATLAB的部分繪圖功能,特意引入了Matplotlib庫[7])。
值得注意的是,通過逐步繪制直方圖的方式來理解概率密度及其相關(guān)概念,雖然較為直觀,但并不能替代概率統(tǒng)計(jì)中對(duì)概率密度定義的正式介紹(即概率密度函數(shù)的積分為分布函數(shù),或分布函數(shù)的導(dǎo)數(shù)為概率密度函數(shù))[8]。另外,通過增加直方圖中組數(shù)的方式來逼近真實(shí)概率密度函數(shù)亦是不完備的,無法確切解釋概率作為一種“測度”的本質(zhì)。只是由于生命科學(xué)專業(yè)的基礎(chǔ)課程不包含實(shí)變函數(shù)和概率論等經(jīng)典數(shù)學(xué)內(nèi)容,所以采用直方圖逼近的方式引出概率密度的概念可能只適用于非數(shù)學(xué)相關(guān)專業(yè)的本科生。另外,直方圖逼近的方式引出概率密度等概念亦無法完整描述概率論中“零測集”的概念[9],因此在直方圖中收縮組距至“只包含一個(gè)點(diǎn)”嚴(yán)格來講亦是一種不精確表述,這也是此方法的一個(gè)不足之處。但此方法本質(zhì)上是建立在伯努利大數(shù)定律(Bernoulli's Law of Large Numbers,n 次獨(dú)立重復(fù)試驗(yàn)中事件A 發(fā)生的頻率依概率收斂于事件A 發(fā)生的概率pA,即頻率穩(wěn)定于概率[10])基礎(chǔ)之上。用相對(duì)頻數(shù)逼近概率,以頻率密度近似概率密度,仍不失為一種輔助生命科學(xué)各專業(yè)學(xué)生正確理解概率密度相關(guān)概念的重要手段。