(河北經(jīng)貿(mào)大學(xué) 河北 石家莊 050000)
本文主要是對(duì)數(shù)據(jù)挖掘以及對(duì)使用貝葉斯方法進(jìn)行數(shù)據(jù)挖掘的研究。
數(shù)據(jù)挖掘是一門交叉學(xué)科,它涉及到統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫技術(shù)、模式識(shí)別和機(jī)器學(xué)習(xí),它主要對(duì)大型數(shù)據(jù)庫進(jìn)行相關(guān)分析,以發(fā)現(xiàn)先前未知的、用戶感興趣的有用知識(shí)。數(shù)據(jù)挖掘的目標(biāo)是從數(shù)據(jù)集中發(fā)現(xiàn)隱含的、有意義的知識(shí),它所處理的數(shù)據(jù)可以是結(jié)構(gòu)化的,如關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),也可以是非結(jié)構(gòu)化的,如文本、圖形、圖像數(shù)據(jù),甚至是分布在網(wǎng)絡(luò)上的異構(gòu)型數(shù)據(jù)。發(fā)現(xiàn)知識(shí)的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。數(shù)據(jù)挖掘是一門廣義的交叉學(xué)科,它匯聚了不同領(lǐng)域的研究者,尤其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等方面的學(xué)者和工程技術(shù)人員。這里所說的數(shù)據(jù)挖掘,不是要求發(fā)現(xiàn)放之四海而皆準(zhǔn)的真理,也不是要去發(fā)現(xiàn)嶄新的自然科學(xué)定理和純數(shù)學(xué)公式,更不是什么機(jī)器定理證明。所有發(fā)現(xiàn)的知識(shí)都是相對(duì)的,是有特定前提和約束條件、面向特定領(lǐng)域的,同時(shí)還要能夠易于被用戶理解,最好能用自然語言表達(dá)發(fā)現(xiàn)結(jié)果。
數(shù)據(jù)挖掘技術(shù)的一個(gè)重要應(yīng)用就是挖掘先前未知的知識(shí),數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報(bào)表、聯(lián)機(jī)應(yīng)用分析)的本質(zhì)區(qū)別之一是數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí)。數(shù)據(jù)挖掘所得到的知識(shí)應(yīng)具有先前未知,有效和實(shí)用三個(gè)特征。
數(shù)據(jù)挖掘一般分五個(gè)步驟,各個(gè)步驟解釋如下:
1.問題定義:了解相關(guān)領(lǐng)域的有關(guān)情況,熟悉背景知識(shí),弄清用戶要求。定義要挖掘的目標(biāo)。
2.數(shù)據(jù)提取:根據(jù)要求從數(shù)據(jù)庫中提取相關(guān)的數(shù)據(jù)。
3.數(shù)據(jù)預(yù)處理:主要對(duì)前一階段產(chǎn)生的數(shù)據(jù)進(jìn)行再加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對(duì)其中的噪音數(shù)據(jù)進(jìn)行處理,對(duì)丟失的數(shù)據(jù)進(jìn)行填補(bǔ)。
4.知識(shí)獲取:運(yùn)用選定的數(shù)據(jù)挖掘算法,從數(shù)據(jù)中提取用戶所需要的知識(shí),這些知識(shí)可以用一種特定的方式表示或使用一些常用的表示方式。
5.評(píng)估:將發(fā)現(xiàn)的知識(shí)以用戶能理解的方式呈現(xiàn),例如某種規(guī)則,再根據(jù)實(shí)際執(zhí)行情況對(duì)知識(shí)發(fā)現(xiàn)過程中的具體處理階段進(jìn)行優(yōu)化,直到滿足用戶要求。
貝葉斯方法就是可以通過看結(jié)果來了解假設(shè)的一種方法,也就是說,在對(duì)一些必要信息之甚少,或者毫不知情的情況下,貝葉斯方法可以通過先驗(yàn)信息來推得后驗(yàn)結(jié)果。貝葉斯方法的一個(gè)特點(diǎn)是使用概率去表示所有形式的不確定性,學(xué)習(xí)或其他形式的推理都用概率規(guī)則來實(shí)現(xiàn)。貝葉斯理論在數(shù)據(jù)挖掘中的應(yīng)用主要包括貝葉斯方法用于分類及回歸分析、因果推理和不確定知識(shí)表達(dá)以及聚類模式發(fā)現(xiàn)等。貝葉斯統(tǒng)計(jì)是貝葉斯理論和方法的應(yīng)用之一,其基本思想是:假定對(duì)所研究的對(duì)象在抽樣前己有一定的認(rèn)識(shí),常用先驗(yàn)分布來描述這種認(rèn)識(shí),然后基于抽取的樣本再對(duì)先驗(yàn)認(rèn)識(shí)作修正,得到后驗(yàn)分布,而各種統(tǒng)計(jì)推斷均是基于后驗(yàn)分布進(jìn)行。經(jīng)典統(tǒng)計(jì)學(xué)的出發(fā)點(diǎn)是根據(jù)樣本,在一定的統(tǒng)計(jì)模型下做出統(tǒng)計(jì)推斷。而貝葉斯方法是在取得樣本觀測值X之前,往往對(duì)參數(shù)統(tǒng)計(jì)模型中的參數(shù)夕有某些先驗(yàn)知識(shí),關(guān)于夕的先驗(yàn)知識(shí)的數(shù)學(xué)描述就是先驗(yàn)分布。貝葉斯方法的主要特點(diǎn)是使用先驗(yàn)分布,而在得到樣本觀測值X二x(xZ,…,x)r后,由X與先驗(yàn)分布提供的信息,經(jīng)過計(jì)算和處理,形成較完整的后驗(yàn)信息。這一后驗(yàn)分布是貝葉斯推斷的基礎(chǔ)。
1.貝葉斯方法用于聚類。首先根據(jù)先驗(yàn)信息假定數(shù)據(jù)集中可能要聚為一類的數(shù)據(jù)服從某種分布,再用某種距離測度檢驗(yàn)先驗(yàn)信息給出的這種分布是否符合聚為一類的要求。如果達(dá)不到聚類的要求,則根據(jù)計(jì)算概率找出不符合要求的原因,重新確定其分布,或修正此分布的參數(shù),以獲得更準(zhǔn)確的分布。分類規(guī)則是根據(jù)數(shù)據(jù)集的樣本數(shù)據(jù)及其它約束條件將其分到某個(gè)類別中,在數(shù)據(jù)挖掘中,主要研究如何從數(shù)據(jù)或經(jīng)驗(yàn)中學(xué)習(xí)這些分類規(guī)則。對(duì)于分類問題,有些情況下,輸入的某些樣本唯一的對(duì)應(yīng)著一個(gè)類別,在這種情況下,可以直接對(duì)數(shù)據(jù)對(duì)象分而治之,無需用貝葉斯方法或者其它方法進(jìn)行復(fù)雜的處理;而在有些情況下,則會(huì)出現(xiàn)樣本重疊的現(xiàn)象,也就是說,來自于不同類別的樣本數(shù)據(jù)從外觀特征上具有極大的相似性,由于必須為一個(gè)樣本選擇一個(gè)類別,因此可以從某一樣本屬于某一類別的概率大小來判斷。貝葉斯方法就是這樣一種處理方法處理此種情況,即選擇后驗(yàn)概率最大的類別。
2.貝葉斯方法用于發(fā)現(xiàn)關(guān)聯(lián)規(guī)則。挖掘關(guān)聯(lián)規(guī)則的目的就是找出所有這樣的規(guī)則,它們的支持度和可信度大于用戶指定的最小支持度和可信度。
3.貝葉斯方法用于偏差分析。偏差分析探測數(shù)據(jù)現(xiàn)狀和歷史記錄或標(biāo)準(zhǔn)之間的差別,例如結(jié)果與期望的偏離,異常實(shí)例等。用于偏差檢測的方法很多,其中數(shù)據(jù)挖掘本身的其它方法也可用于偏差分析,如前所述的關(guān)聯(lián)規(guī)則挖掘方法、聚類方法等。偏差分析的目的之一就是去除異常點(diǎn),從而不能使這些異常點(diǎn)干擾挖掘過程。
在運(yùn)用貝葉斯方法時(shí),由于要對(duì)先驗(yàn)概率進(jìn)行計(jì)算而得出后驗(yàn)概率,不可避免的多花費(fèi)時(shí)間開銷,特別是對(duì)數(shù)據(jù)量不大的數(shù)據(jù)集進(jìn)行分析時(shí),這種差距比較明顯。即使這樣,其準(zhǔn)確率卻是顯而易見的。使用貝葉斯方法后,準(zhǔn)確率增加是山于貝葉斯方法是一個(gè)修正的過程,通過后驗(yàn)結(jié)果來修正前面所得的結(jié)果,當(dāng)然這有一個(gè)前提,就是先驗(yàn)信自、的正確性。如果先驗(yàn)信息不充分或者不正確,那所得的結(jié)果會(huì)與實(shí)際結(jié)果大相徑庭。
總結(jié):本項(xiàng)研究中,仍存在的一些問題,有待今后進(jìn)一步探討和解決,并闡明了數(shù)據(jù)挖掘的研究方向和應(yīng)用前景。