湖北工業(yè)大學(xué) 馬國(guó)良
數(shù)據(jù)挖掘中聚類(lèi)算法的分析與研究
湖北工業(yè)大學(xué) 馬國(guó)良
本文主要系統(tǒng)地歸納了數(shù)據(jù)挖掘的基本原理、主要的技術(shù)方法以及在相關(guān)技術(shù)的基礎(chǔ)之上,對(duì)數(shù)據(jù)挖掘中存在的相關(guān)關(guān)鍵技術(shù)之一的聚類(lèi)分析進(jìn)行了探索性的研究。
數(shù)據(jù)挖掘;聚類(lèi)分析
伴隨著計(jì)算機(jī)技術(shù)的普及和發(fā)展,人們?cè)谏钷k公中所產(chǎn)生的數(shù)據(jù)量也在海量地增長(zhǎng),對(duì)于我們來(lái)說(shuō),怎樣去最有效地利用海量的原始數(shù)據(jù)來(lái)分析現(xiàn)狀以及預(yù)測(cè)未知的事物,成了當(dāng)今人類(lèi)所面臨的一項(xiàng)很?chē)?yán)峻的挑戰(zhàn),隨著計(jì)算機(jī)技術(shù)的迅猛發(fā)展,數(shù)據(jù)挖掘技術(shù)應(yīng)用而生,同時(shí)也得到了飛速的發(fā)展。
建筑物整體移位技術(shù)是一種在保證建筑物結(jié)構(gòu)完整性和功能穩(wěn)定性的前提下,將被遷移的建筑物由其原址遷移到目標(biāo)地址的建筑工程技術(shù)。該技術(shù)最早在19世紀(jì)初被應(yīng)用于建筑工程領(lǐng)域,在我國(guó)還是在20世紀(jì)80年代末才被引入,其在當(dāng)代的城市改造工程和道路改擴(kuò)建工程中具有十分顯著的社會(huì)效益和經(jīng)濟(jì)效益。
數(shù)據(jù)挖掘(Data Mining),也可以叫做數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn),簡(jiǎn)單地說(shuō),數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中提取或者挖掘知識(shí),數(shù)據(jù)挖掘是一門(mén)比較新的技術(shù),它是以數(shù)據(jù)庫(kù)技術(shù)作為基礎(chǔ),綜合統(tǒng)計(jì)學(xué)、邏輯學(xué)、機(jī)器學(xué)習(xí)、信息檢索、模式識(shí)別、神經(jīng)網(wǎng)絡(luò)等知識(shí)、然后再去數(shù)據(jù)庫(kù)中尋找有用的信息,數(shù)據(jù)挖掘技術(shù)受到了許多研究人員的普遍關(guān)注,并被廣泛地應(yīng)用到商務(wù)、科學(xué)、政府、教育、運(yùn)輸?shù)雀鱾€(gè)企事業(yè)單位以及國(guó)防科研上。
本文主要系統(tǒng)地歸納了數(shù)據(jù)挖掘的基本原理、主要的技術(shù)方法以及在相關(guān)技術(shù)的基礎(chǔ)之上,對(duì)數(shù)據(jù)挖掘中存在的相關(guān)關(guān)鍵技術(shù)之一的聚類(lèi)分析進(jìn)行了探索性的研究,主要包括下面幾個(gè)方面:
(1)簡(jiǎn)要地介紹了課題的研究背景以及國(guó)內(nèi)外的研究現(xiàn)狀和選題的意義,研究了數(shù)據(jù)挖掘的基本原理以及相關(guān)的基本方法和在各個(gè)領(lǐng)域上的應(yīng)用。
(2)詳細(xì)地介紹了聚類(lèi)分析的基本原理、相關(guān)步驟以及具體的方法技術(shù),最主要的是介紹了聚類(lèi)分析的主要應(yīng)用,分析了聚類(lèi)分析的常用工具,并且結(jié)合了當(dāng)前的實(shí)際應(yīng)用對(duì)聚類(lèi)算法的性能進(jìn)行了評(píng)價(jià)和比較,研究并分析了當(dāng)前主流的聚類(lèi)算法,分析了這些主流的聚類(lèi)算法的優(yōu)缺點(diǎn)和適用的場(chǎng)景,給人們快速和準(zhǔn)確地找到適合自己領(lǐng)域的聚類(lèi)算法提供了比較好的技術(shù)支撐。
(3)最后詳細(xì)地介紹了聚類(lèi)分析算法中常用的工具,并進(jìn)行了仿真分析,通過(guò)仿真分析,可以更好地認(rèn)識(shí)到數(shù)據(jù)挖掘中聚類(lèi)分析算法的作用以及實(shí)用性。
一個(gè)典型的數(shù)據(jù)挖掘系統(tǒng),主要包含以下主要部分:
(1)數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其它信息庫(kù)。它表示數(shù)據(jù)挖掘?qū)ο笫怯梢粋€(gè)(或組)數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)表單或其它信息數(shù)據(jù)庫(kù)組成。通常需要使用數(shù)據(jù)清洗和數(shù)據(jù)集成操作,對(duì)這些數(shù)據(jù)對(duì)象進(jìn)行初步的處理。
(2)數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)服務(wù)器。這類(lèi)服務(wù)器負(fù)責(zé)根據(jù)用戶(hù)的數(shù)據(jù)挖掘請(qǐng)求,讀取相關(guān)的數(shù)據(jù)。
(3)知識(shí)庫(kù)。此處存放數(shù)據(jù)挖掘所需要的領(lǐng)域知識(shí),這些知識(shí)將用于指導(dǎo)數(shù)據(jù)挖掘的搜索過(guò)程,或者用于幫助對(duì)挖掘結(jié)果的評(píng)估。挖掘算法中所使用的用戶(hù)定義的閾值就是最簡(jiǎn)單的領(lǐng)域知識(shí)。
(4)數(shù)據(jù)挖掘引擎。這是數(shù)據(jù)挖掘系統(tǒng)的最基本部件,它通常包含一組挖掘功能模塊,以便完成定性歸納、關(guān)聯(lián)分析、分類(lèi)歸納、進(jìn)化計(jì)算和偏差分析等挖掘功能。
[1]李嶶,李宛州.基于數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的進(jìn)銷(xiāo)存系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).2001(10):93-94.
[2]Jiawei Han.數(shù)據(jù)挖掘概念與技術(shù).機(jī)械工業(yè)出版社2001,8.
[3]W.H.Inmon.數(shù)據(jù)倉(cāng)庫(kù).機(jī)械工業(yè)出版社2000,5.
2017-09-10)