摘要:肥胖問題一直是人類難以擺脫的健康問題。為了更深入了解肥胖問題,本文從KDD Dataset下載有關(guān)公民身體各項(xiàng)指標(biāo)的有關(guān)調(diào)查數(shù)據(jù),選擇的主要指標(biāo)有性別(Gender)、種族(Race_Ethnicity)、婚姻狀況(Marital_Status)、身體質(zhì)量指數(shù)(BMI)、腰圍(Waist)共5項(xiàng)指標(biāo)來反映公民健康情況。本文使用數(shù)據(jù)挖掘分類規(guī)則中的樸素貝葉斯分類進(jìn)行分析,對樣本所屬分類進(jìn)行預(yù)測。
關(guān)鍵詞:數(shù)據(jù)挖掘;樸素貝葉斯;分類
中圖分類號:G254.11文獻(xiàn)標(biāo)識碼:A文章編號:1008-4428(2019)03-0126-02
一、 引言
數(shù)據(jù)挖掘(Data Mining),是數(shù)據(jù)庫中知識發(fā)現(xiàn)(KDD, Knowledge Discovery in Databases)的步驟之一,是從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中提取人們感興趣的知識的過程,這些知識是隱含的、實(shí)現(xiàn)未知的、潛在有用的信息。數(shù)據(jù)挖掘作為一門交叉學(xué)科,涉及機(jī)器學(xué)習(xí)、模式識別、歸納推理、統(tǒng)計學(xué)、智能數(shù)據(jù)庫、數(shù)據(jù)可視化高性能計算等多個領(lǐng)域。
數(shù)據(jù)挖掘的主要任務(wù)是從大量數(shù)據(jù)中提取出可信的、新穎的、有效的并能被人們理解的模式,挖掘數(shù)據(jù)背后蘊(yùn)含的許多重要的信息以便充分利用這些數(shù)據(jù)。數(shù)據(jù)挖掘的兩個高層次目標(biāo)是預(yù)測和描述。前者是根據(jù)一些變量或數(shù)據(jù)庫的若干已知字段預(yù)測其他感興趣的變量或字段的未知的未來的值;后者是找到描述數(shù)據(jù)的可理解模式。根據(jù)發(fā)現(xiàn)知識的不同,可以將數(shù)據(jù)挖掘人為歸納為特征規(guī)則、序列模式、分類、關(guān)聯(lián)規(guī)則、聚類、預(yù)測、變化和偏差分析。
在數(shù)據(jù)挖掘的各種方法中,分類是一種主要的分析手段,旨在生成一個分類函數(shù)或分類模型,由該模型把數(shù)據(jù)庫中的數(shù)據(jù)映射到某一給定類別中,從而實(shí)現(xiàn)對數(shù)據(jù)的分類。目前研究的分類模型主要有決策樹、貝葉斯分類、神經(jīng)網(wǎng)絡(luò)、粗糙集、統(tǒng)計方法、遺傳算法等。
近年來,隨著人民生活水平的普遍提高,人民的身體健康問題越來越被得到重視。在國家發(fā)布“健康中國”的號令后,健身、慢走等運(yùn)動成了百姓們更熱衷的休閑方式。為了探究什么因素對人類肥胖有影響,本文從KDD Dataset下載有關(guān)公民身體各項(xiàng)指標(biāo)的有關(guān)調(diào)查數(shù)據(jù),使用分類方法中的樸素貝葉斯分類進(jìn)行分析,對樣本所屬分類進(jìn)行預(yù)測,這能對人們有效地關(guān)注人類健康問題提供建議。
二、 貝葉斯理論背景
(一)條件概率和乘法定理
已知事件A發(fā)生的條件下,事件B發(fā)生的概率,叫作事件B在事件A發(fā)生下的條件概率,記為P(B|A),其中P(A)叫作先驗(yàn)概率,P(B|A)叫作后驗(yàn)概率,
計算條件概率的公式為:P(B|A)=P(B∩A)P(A)
條件概率公式通過變形得到乘法公式:P(B∩A)=P(B|A)×P(A)
(二)事件的獨(dú)立性
設(shè)A,B為兩個隨機(jī)事件,如果有P(AB)=P(A)×P(B)成立,則稱事件A和B相互獨(dú)立,此時有P(A|B)=P(A),P(AB)=P(A)P(B)成立。
設(shè)A1,A2,…,An為n個隨機(jī)事件,如果對其中任意m個(2≤m≤n)個事件Ak1,Ak2,…,Akm,都有P(Ak1,Ak2,…,Akm)=P(Ak1)P(Ak2)…,P(Akm)成立,則稱事件Ak1,Ak2,…,Akm相互獨(dú)立。
(三)貝葉斯公式
設(shè)B1,B2,…,Bn為互不相容事件,P(Bi)>0,i=1,2,…,n,P(A)>0,則在事件A發(fā)生的條件下,事件Bi發(fā)生的概率為,P(Bi|A)=P(BiA)P(A)=P(Bi)×P(A|Bi)∑ni=1P(Bi)×P(A|Bi)則該公式稱為貝葉斯公式。
(四)極大后驗(yàn)假設(shè)和極大似然假設(shè)
首先介紹先驗(yàn)概率。先驗(yàn)概率(prior probability)表示的是還沒有訓(xùn)練數(shù)據(jù)前,某一假設(shè)所擁有的初始概率,它反映了這一假設(shè)是正確假設(shè)的背景知識多少。令P(C)是假設(shè)C的先驗(yàn)概率,X為訓(xùn)練樣本,P(X)為將要觀察的訓(xùn)練樣本X的先驗(yàn)概率。P(X|C)表示在假設(shè)C正確的條件下樣本X出現(xiàn)的概率,根據(jù)貝葉斯公式可以得到后驗(yàn)概率的計算公式:P(C|X)=P(X|C)P(C)P(X),它反映了訓(xùn)練樣本X出現(xiàn)后假設(shè)C成立的置信度。
設(shè)C為待選的假設(shè)集合,在給定訓(xùn)練樣本X時,通過計算找到可能性最大的假設(shè)(或存在多個這樣的假設(shè)時選擇其中之一)c∈C,具有最大可能性的假設(shè)被稱為極大后驗(yàn)假設(shè)(maximum a posteriori),記cmap=argmaxc∈CP(c|X)=argmaxc∈CP(X|c)P(c)P(X)。由于P(C)與假設(shè)C無關(guān),上式可變?yōu)椋篶map=argmaxc∈CP(X|c)P(c)。確定極大后驗(yàn)假設(shè)的方法是用貝葉斯公式計算每個候選假設(shè)的后驗(yàn)概率。
如果沒有給定類別概率的情形下,假設(shè)C中每個假設(shè)都有相等的先驗(yàn)概率(即對C中任意的ci,cj∈C(i≠j),有 P(ci)=P(cj)),進(jìn)一步簡化后,計算使P(X|c)達(dá)到最大的假設(shè),這時P(X|c)被稱為極大似然假設(shè)(maximum likelihood),記為cml=argmaxc∈CP(X|c)。
三、 樸素貝葉斯分類模型
樸素貝葉斯分類器(Naive Bayes Classifier, NBC)是貝葉斯分類模型中一種最簡單、有效而且易于實(shí)現(xiàn)的分類器,多用于文本分類,比如垃圾郵件過濾。其基本思想是:對于待分類的樣本,求解在此項(xiàng)出現(xiàn)的條件下各個類別出現(xiàn)的概率,將此待分類項(xiàng)歸類為概率最大的類別。求解樸素貝葉斯分類的工作過程如下:
1. 設(shè)待分類樣本為X={x1,x2,…,xn}。
2. 設(shè)類別集合為C={c1,c2,…,cm},預(yù)測X屬于某一類的過程即為求解P(ci|X)最大值的過程。
3. 根據(jù)貝葉斯定理,要使得P(ci|X)最大化,需要P(X|ci)P(ci)最大化。其中ci類的先驗(yàn)概率P(ci)用頻率Si/S去估計,Si是給定類別Ci中訓(xùn)練樣本的個數(shù),S是訓(xùn)練樣本的總數(shù)。
4. 對待分類樣本進(jìn)行劃分,如果有:P(ci|X)=max{P(c1|X),P(c2|X),…,P(cm|X)},則X∈Ci。
四、 樸素貝葉斯分類模型
(一)實(shí)驗(yàn)平臺
本實(shí)驗(yàn)是在WEKA 3.6平臺上完成的。WEKA(Waikato Environment for Knowledge Analysis)是一種具有全面功能的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘應(yīng)用程序平臺。該軟件集成了許多能完成數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,其中包括對數(shù)據(jù)進(jìn)行預(yù)處理、聚類、分類、關(guān)聯(lián)規(guī)則挖掘等,它還能夠提供豐富的可視化功能。
(二)數(shù)據(jù)來源及預(yù)處理
本文數(shù)據(jù)來源于KDD Dataset中的分類數(shù)據(jù),通過刪除一些不相關(guān)因素和缺失數(shù)據(jù),再進(jìn)行規(guī)約后,得到10149個公民的身體狀況表。
(三)分析過程與結(jié)果
本次實(shí)驗(yàn)分為兩次進(jìn)行,第一次實(shí)驗(yàn)隨機(jī)選擇70%的數(shù)據(jù)作為訓(xùn)練集,剩余30%作為測試集。WEKA的分類結(jié)果展示如表1:
五、 總結(jié)
本文從KDD Dataset下載有關(guān)公民身體各項(xiàng)指標(biāo)的有關(guān)調(diào)查數(shù)據(jù),選擇的主要指標(biāo)有性別(Gender)、種族(Race_Ethnicity)、婚姻狀況(Marital_Status)、身體質(zhì)量指數(shù)(BMI)、腰圍(Waist)共5項(xiàng)指標(biāo)來反映公民健康情況。本文使用分類規(guī)則中的樸素貝葉斯分類進(jìn)行分析,對樣本所屬分類進(jìn)行預(yù)測。預(yù)測結(jié)果顯示,基于樸素貝葉斯算法分類對結(jié)果的預(yù)測準(zhǔn)確率很高,一個人是否肥胖,確實(shí)和性別、種族、婚姻狀況、身體質(zhì)量指數(shù)相關(guān),但文中并沒有指出他們之間的具體關(guān)系,這是本文的不足之處。
參考文獻(xiàn):
[1]王峻.樸素貝葉斯分類模型的研究與應(yīng)用[D].合肥:合肥工業(yè)大學(xué),2006.
[2]韓家煒,Kamber.M.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001.
[3]蔣良孝.樸素貝葉斯分類器及其改進(jìn)算法研究[D].武漢:中國地質(zhì)大學(xué),2009.
[4]段晶.樸素貝葉斯分類及其應(yīng)用研究[D].大連:大連海事大學(xué),2011.
作者簡介:
張旭光,男,河南商丘人,新疆財經(jīng)大學(xué)統(tǒng)計與信息學(xué)院碩士研究生,研究方向:大數(shù)據(jù)應(yīng)用。