摘要:面對(duì)“人類被數(shù)據(jù)淹沒,人類卻饑餓于知識(shí)”的挑戰(zhàn),本文從數(shù)據(jù)挖掘的涵義與作用入手,簡單描述了關(guān)系數(shù)據(jù)庫數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)與基本原理,并且對(duì)基于SQL Server2000關(guān)系型數(shù)據(jù)庫中數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘的實(shí)現(xiàn)進(jìn)行了詳細(xì)而全面的闡述。
關(guān)鍵詞:數(shù)據(jù)倉庫;數(shù)據(jù)挖掘;聯(lián)機(jī)分析處理
1引言
當(dāng)今世界,隨著計(jì)算機(jī)技術(shù)與數(shù)據(jù)庫技術(shù)的快速發(fā)展,全球范圍內(nèi)的數(shù)據(jù)倉庫中數(shù)據(jù)儲(chǔ)存量急驟上升,“海量數(shù)據(jù)”背后蘊(yùn)含了大量潛在的信息與商機(jī),一直以來,缺少一種能對(duì)海量數(shù)據(jù)進(jìn)行深層次分析的技術(shù),導(dǎo)致了“數(shù)據(jù)豐富但知識(shí)匱乏”的現(xiàn)象。另一方面,關(guān)系型數(shù)據(jù)倉庫也已經(jīng)在各個(gè)領(lǐng)域得到了廣泛的應(yīng)用,基于關(guān)系型數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)具有十分廣闊的發(fā)展前景。
2數(shù)據(jù)挖掘及其系統(tǒng)結(jié)構(gòu)
2、1數(shù)據(jù)挖掘的涵義
數(shù)據(jù)挖掘是一門剛剛興起的多學(xué)科綜合的新生技術(shù),起步較晚,但發(fā)展迅猛。目前還沒有形成一個(gè)完整統(tǒng)一的定義,雖然數(shù)據(jù)挖掘的定義有多種版本,但是其核心內(nèi)容大致相同。例如:美國SAS研究所在1997年提出數(shù)據(jù)挖掘是“在大量栩關(guān)數(shù)據(jù)基礎(chǔ)之上進(jìn)行數(shù)據(jù)探索和建立相關(guān)模型的先進(jìn)方法”的概念;1999年Bhavani提出新的概念,認(rèn)為數(shù)據(jù)挖掘是“使用模式識(shí)別技術(shù)、統(tǒng)計(jì)和數(shù)學(xué)技術(shù),在大量的數(shù)據(jù)中發(fā)現(xiàn)有意義的新關(guān)系、模式和趨勢的過程”。隨后在2000年Handetal也給數(shù)據(jù)挖掘下了一個(gè)定義,他認(rèn)為“數(shù)據(jù)挖掘就是在大型數(shù)據(jù)庫中尋找有意義、有價(jià)值信息的過程”。
綜合上面的捕述,筆者認(rèn)為數(shù)據(jù)挖掘就是從海量的數(shù)據(jù)中挖掘出可能有潛在價(jià)值的信息的技術(shù)。這些信息是可能有潛在價(jià)值的,支持決策,可以為企業(yè)帶來利益,或者為科學(xué)研究尋找突破口。
數(shù)據(jù)挖掘綜合了多個(gè)學(xué)科技術(shù),具有分類、聚類、關(guān)聯(lián)規(guī)則與序列模式的發(fā)現(xiàn)、預(yù)測、偏差的檢測等五大功能,這幾項(xiàng)功能并不是相互孤立的,而是相輔相成,互相聯(lián)系共同起作用的一個(gè)整體。
2、2數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)
數(shù)據(jù)挖掘技術(shù)的分析方法可以分為直接數(shù)據(jù)挖掘和間接數(shù)據(jù)挖掘兩種,其中直接的數(shù)據(jù)挖掘包括分類、估值、預(yù)言三種分析方法,這些分析方法的目標(biāo)是利用可用的數(shù)據(jù)建立一個(gè)模型,這個(gè)模型對(duì)剩余的數(shù)據(jù)或?qū)σ粋€(gè)特定的變量進(jìn)行描述;而間接數(shù)據(jù)挖掘包含相關(guān)性分組或關(guān)聯(lián)規(guī)則、聚集、描述與可視化三種分析方法,這些分析方法并不直按用模型來對(duì)目標(biāo)中選出某一具體的變量進(jìn)行描述;而是在所有的變量中建立起某種關(guān)系。
典型的數(shù)據(jù)挖掘系統(tǒng)其結(jié)構(gòu)相對(duì)簡單,如圖l所示,后臺(tái)數(shù)據(jù)倉庫中的海量數(shù)據(jù)(潛在價(jià)值的數(shù)據(jù))通過數(shù)據(jù)倉庫服務(wù)器的整理、集成和選擇等數(shù)據(jù)庫操作形成有價(jià)值知識(shí),用戶借助于數(shù)據(jù)挖掘工具(如數(shù)據(jù)挖掘引擎、模式評(píng)估等)通過用戶表示層來獲取到對(duì)自己有用的知識(shí)或信息;當(dāng)然這個(gè)過程也具有可逆性,外界的信息同樣可以相應(yīng)的數(shù)據(jù)挖掘工具處理后通過數(shù)據(jù)倉庫服務(wù)器進(jìn)行到后臺(tái)數(shù)據(jù)庫中。
圖1典型數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)圖
3關(guān)系型數(shù)據(jù)倉庫的數(shù)據(jù)挖掘的實(shí)現(xiàn)策略
目前,數(shù)據(jù)挖掘?qū)A繑?shù)據(jù)的探索分析的起點(diǎn)是聯(lián)機(jī)分析處理OLAP(0n Line AnalyticaI Processing),也就是說,數(shù)據(jù)挖掘是建立在聯(lián)機(jī)分析處理的數(shù)據(jù)環(huán)境基礎(chǔ)之上。同時(shí),科學(xué)合理的數(shù)據(jù)環(huán)境是確保數(shù)據(jù)挖掘有效和正確實(shí)施的基礎(chǔ)和關(guān)鍵,它需要服務(wù)于數(shù)據(jù)挖掘總體目標(biāo)的數(shù)據(jù)再組織,需要有單獨(dú)的數(shù)據(jù)分析和數(shù)據(jù)處理環(huán)境,而數(shù)據(jù)倉庫正是為了構(gòu)建這種新的分析處理環(huán)境而出現(xiàn)的一種數(shù)據(jù)存儲(chǔ)和組織技術(shù)產(chǎn)品。
如何把存放大量業(yè)務(wù)數(shù)據(jù)的關(guān)系數(shù)據(jù)庫經(jīng)過篩選、抽取、歸納、統(tǒng)計(jì)、轉(zhuǎn)換到一個(gè)新的數(shù)據(jù)倉庫中,然后再進(jìn)行數(shù)據(jù)展現(xiàn)。下面筆者以基于SQL Server2000數(shù)據(jù)庫的數(shù)據(jù)挖掘?yàn)槔?,?duì)關(guān)系型數(shù)據(jù)倉庫中數(shù)據(jù)挖掘技術(shù)的實(shí)現(xiàn)作一個(gè)簡單介紹,目的在于讓讀者了解如何從豐富的后臺(tái)數(shù)據(jù)庫中挖掘出有價(jià)值的知識(shí)。
3、1數(shù)據(jù)倉庫的數(shù)據(jù)加載
數(shù)據(jù)倉庫信息的數(shù)據(jù)挖掘可以使數(shù)據(jù)倉庫成為具有較高商業(yè)價(jià)值,為決策者從中提取指導(dǎo)性的數(shù)據(jù)模式和信息,并為做出相應(yīng)的決策提供理論基礎(chǔ)。正確的決策知識(shí)與數(shù)據(jù)倉庫中的數(shù)據(jù)密切相關(guān),同時(shí)數(shù)據(jù)倉庫中大量的數(shù)據(jù)來源于傳統(tǒng)數(shù)據(jù)庫,相近的事件和相關(guān)的數(shù)據(jù)總是需要周期性地加入到倉庫平臺(tái)中從而豐富和反映當(dāng)前事件的變化,因此倉庫數(shù)據(jù)的構(gòu)成與具體加載策略密切相關(guān)。
在關(guān)系型數(shù)據(jù)庫管理系統(tǒng)SQL Server2000中,提供了數(shù)據(jù)轉(zhuǎn)換服務(wù)(DTS模塊),它可以實(shí)現(xiàn)數(shù)據(jù)從源向目標(biāo)庫的轉(zhuǎn)換,比如說,將Access、MySQL、文本數(shù)據(jù)、XML數(shù)據(jù)等轉(zhuǎn)換成SQL Server關(guān)系型數(shù)據(jù),再由目標(biāo)管理系統(tǒng)進(jìn)行數(shù)據(jù)的檢索、修改、鉆取等管理工作,從而實(shí)現(xiàn)數(shù)據(jù)記錄的分析,從中挖掘出隱藏的有價(jià)值的信息(知識(shí))。
3、2數(shù)據(jù)倉庫的數(shù)據(jù)鉆取
數(shù)據(jù)鉆取是數(shù)據(jù)倉庫中數(shù)據(jù)抽取的具體形式,它包含兩種模式:上鉆與下鉆。上鉆是實(shí)現(xiàn)通過一個(gè)維從低層次向較高的層次攀升,從而獲取數(shù)據(jù)立方體的聚合數(shù)據(jù)的過程,這是一個(gè)由具體到抽象的過程;而下鉆則是上鉆的逆操作,是一個(gè)由抽象到具體的過程,它是由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù),比如沿著時(shí)間維度,從年到季度,再到月下鉆,可以獲取更加詳細(xì)的數(shù)據(jù)。SQL Server2000中依托企業(yè)管理器中的數(shù)據(jù)鉆取通過新建挖掘模型功能來實(shí)現(xiàn)數(shù)據(jù)庫數(shù)據(jù)的鉆取操作,通過這種分析方法對(duì)關(guān)系數(shù)據(jù)庫中的一維或多維數(shù)據(jù)進(jìn)行抽取,并將結(jié)果呈現(xiàn)給用戶。
3、3數(shù)據(jù)倉庫的數(shù)據(jù)挖掘
2000年,微軟首次KSQL Server2000中引入了數(shù)據(jù)挖掘特性,把數(shù)據(jù)挖掘引擎集成到rsQL Server 2000的分析服務(wù)中,從而極大地降低從關(guān)系數(shù)據(jù)倉庫中實(shí)現(xiàn)數(shù)據(jù)挖掘的復(fù)雜性。在數(shù)據(jù)挖掘特性中包含兩個(gè)可擴(kuò)展的數(shù)據(jù)挖掘算法:Microsoft的決策樹和Microsoft的集群。
下面筆者就關(guān)系型數(shù)據(jù)庫數(shù)據(jù)挖掘的具體實(shí)現(xiàn)作一個(gè)描述,以便讀者對(duì)基于關(guān)系數(shù)據(jù)庫的數(shù)據(jù)挖掘有一個(gè)詳細(xì)全面的理解。
3、3、1挖掘數(shù)據(jù)源選擇
首先,根據(jù)用戶需要可以使用多維數(shù)據(jù)或關(guān)系數(shù)據(jù)來創(chuàng)建相應(yīng)的數(shù)據(jù)挖掘模型。如果是使用關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)的話,則選擇[關(guān)系數(shù)據(jù)(R)]單選鈕;否則選擇[OLAP數(shù)據(jù)(0)]按鈕。
3、3、2挖掘事例表選擇
在[挖掘模型向?qū)對(duì)話框中選擇需要進(jìn)行數(shù)據(jù)挖掘的源數(shù)據(jù)表,這張表必須包含對(duì)應(yīng)的事例鍵,因?yàn)樵撌吕I是唯一標(biāo)識(shí)待分析事例的列,根據(jù)需要作出相應(yīng)選擇。
3、3、3挖掘技術(shù)選擇
這一步需要用戶對(duì)要分析的數(shù)據(jù)采用何種數(shù)據(jù)挖掘技術(shù)作出選擇。前面已經(jīng)介紹過,SQL Server2000的數(shù)據(jù)挖掘特性中包含兩個(gè)可擴(kuò)展的數(shù)據(jù)挖掘算法:Microsoft的決策樹和Microsoft的集群。這里請(qǐng)根據(jù)需要選擇相應(yīng)的數(shù)據(jù)挖掘算法。
3、3、4挖掘事件例關(guān)鍵字選擇
前面已經(jīng)選擇了相應(yīng)的事例表,在這里,將要求進(jìn)一步選擇相應(yīng)的事例鍵,該事例鍵可以唯一地標(biāo)識(shí)待分析事例的列。
3、3、5挖掘模型參數(shù)選擇
接下來,需要從事例表中選擇輸入列和預(yù)測列;其中輸入列包含關(guān)系所要依據(jù)的信息,預(yù)測列包含挖掘模型依據(jù)輸入列中的信息而作出的預(yù)測。
3、3、5挖掘結(jié)果瀏覽
通過上面的設(shè)置,挖掘工具將依據(jù)用戶輸入列的信息進(jìn)行數(shù)據(jù)分析、抽取等挖掘方法,對(duì)預(yù)測列給出一個(gè)預(yù)測值,這就是挖掘出數(shù)據(jù)背后隱藏的有價(jià)值的信息(知識(shí))的過程。
4結(jié)語
數(shù)據(jù)倉庫技術(shù)是數(shù)據(jù)庫技術(shù)的一個(gè)重要發(fā)展方向,而利用數(shù)據(jù)挖掘技術(shù)將數(shù)據(jù)加工轉(zhuǎn)換成有價(jià)值的信息供決策者使用已經(jīng)成為當(dāng)今IT行業(yè)研究的熱點(diǎn)問題。同時(shí)數(shù)據(jù)倉庫技術(shù)和數(shù)據(jù)挖掘技術(shù)是相互融合與互動(dòng)發(fā)展的,筆者認(rèn)為數(shù)據(jù)倉庫與數(shù)據(jù)挖掘相結(jié)合的技術(shù),其應(yīng)用研究的前景肯定是十分廣闊的。
參考文獻(xiàn)
1美George M,Marakas,敖富江譯,Modem Data Warehousing Mining,and VkuaIiz撕on Core Concepts,清華大學(xué)出版社
[2]陳文偉,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教程[M]清華大學(xué)出版社,2006
[3]廖開際,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M]:北京大學(xué)出版社,2008
作者簡介:
肖玉朝(1974-),男,長沙商貿(mào)旅游職業(yè)技術(shù)學(xué)院軟件技術(shù)教研室,在讀研究生,主要研究方向是軟件工程。