隨著計算機的廣泛使用和人工智能時代的來臨,數據量越來越龐大,如何處理這些數據?如何從數據中發(fā)現規(guī)律,提煉出有價值的信息?這些都是非常重要的問題,為此,很多人開始從事這些問題的研究工作,他們被稱為數據挖掘工程師,現在,讓我們一起來探索數據挖掘中的奧妙,
舉一個身邊的例子,我們先觀察某中學男生的身高數據,從中找出身材最高和最矮的同學,或者算出他們身高的平均值,如果我們想要知道男生身高數據的分布情況,比如1.7米至1.75米之間有多少人,占所有男生的比例是多少,我們應該怎么做?如圖1所示,我們可以畫出頻率分布直方圖,將身高最小值至最大值這一區(qū)間等分成若干組,統(tǒng)計每一組男生的人數和頻率,然后,在平面直角坐標系中,用橫坐標代表身高,縱坐標是每個小組的頻率除以相應的組距,并繪制出相應的矩形,每個矩形的面積就是該小組男生身高的頻率。
從身高的頻率分布直方圖中我們可以看到,數據大致呈現“中間高,兩邊低”的特點,在十六七歲的男生中,身高超過1.85米和低于1.5米的人數都非常少,而大部分人的身高集中在1.6米至1.75米之間,因此,雖然每個人的身高具有隨機性,但對同一年齡、同一性別的人群來說,其身高的分布是有規(guī)律的。
這種規(guī)律性是只在身高數據中體現,還是在自然界中普遍存在呢?英國生物統(tǒng)計學家法蘭西斯·高爾頓做了一個實驗,他在一塊木板上畫了一塊等腰三角形,并在三角形區(qū)域內釘上n+1層釘子,第1層釘2個釘子,第2層釘3個釘子,下面每一層都比上一層增加1個釘子,上一層的每個釘子都在下一層2個釘子的中間位置,之后,在第n+1層的下面,放人n+2個球槽。
建成后,高爾頓從頂端逐個扔下小球,這些小球在下落的過程中與眾多釘子發(fā)生碰撞,每次碰撞都會使得小球隨機向左或向右下落,隨著小球個數的增加,掉入各個球槽內的小球的個數會越來越多,堆積的高度也會不斷增加,最終,如圖2所示,各球槽將呈現出“中間高,兩邊低”的分布,這與我們身高數據的分布非常相似。
并且,如果進一步增加釘子的層數和小球的個數,球槽中小球分布形成的曲線就會越來越光滑,最終趨向于圖3“中間高,兩邊低”的“鐘型”曲線,我們將這條曲線稱為正態(tài)分布密度曲線,簡稱正態(tài)曲線。
我們通過觀察這條曲線可以發(fā)現,正態(tài)曲線是單峰的,有一條對稱軸,對稱軸所在的位置正是數據的平均值,用字母u表示,例如我們的平均身高等。對比圖4中的兩條正態(tài)曲線,我們可以看出虛線對應的平均值更大,
圖5中兩條正態(tài)曲線的平均值相同,但是形狀不同,實線的正態(tài)曲線更加“矮胖”,而虛線的正態(tài)曲線更加“高瘦”,我們用另一個希臘字母σ(σ>0)來反映這種“矮胖”或“高瘦”的程度,假設這兩條曲線分別代表了兩個班學生成績的分布情況,兩個班學生的平均成績相差較小,但虛線對應的班級,學生的成績更集中于平均成績附近,它的σ小,而實線對應的班級,學生的成績相對分散,它的σ大,可能出現兩極分化的情況,所以,σ反映了數據的離散程度,它代表了數據的標準差,知道了u和σ這兩個參數,我們就能畫出正態(tài)曲線。
我們也可以從另一個角度理解σ,正態(tài)曲線與直線x=a,x=b和x軸所圍成圖象的面積代表了數據在區(qū)間(a,b)所占的比例,假設工廠生產某種零件,要求孔徑為10mm,但在實際生產中會有誤差,如果孔徑的分布近似服從平均值為10mm、標準差為0.1mm的正態(tài)分布,那么如圖6(1)(2)(3)所示,孔徑落在9.9-10.1這一范圍的比例應該是0.683.這是數據分布的主體孔徑落在9.3-10.3這一范圍的比例應該是0.997.落在該區(qū)間之外的機率非常小,如果出現比較多的產品超出了這一范圍,那么我們可以懷疑生產過程出現了問題,這稱為“3σ原則”,在生產的過程中,我們可以根據這一原則進行產品質量檢測。
正態(tài)分布在統(tǒng)計中是很常用的,例如在醫(yī)學上,可以運用正態(tài)分布估計人體的某些生理指標,比如白細胞數的正常值范圍,白細胞數在正常人群中近似正態(tài)分布,我們可以制定一個上限和下限,比如95%的人在正常范圍之內,而超出這一范圍的人,我們就認為需要對其進行特殊關注了。