• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      大規(guī)模數(shù)據(jù)庫的數(shù)據(jù)挖掘系統(tǒng)概述

      2015-05-06 01:28:36張?jiān)品?/span>
      山東工業(yè)技術(shù) 2015年3期
      關(guān)鍵詞:數(shù)據(jù)源數(shù)據(jù)挖掘關(guān)聯(lián)

      張?jiān)品?宋 艷

      (1.北華航天工業(yè)學(xué)院,河北 廊坊 065000;2.北奔重型汽車集團(tuán)有限公司,內(nèi)蒙古 包頭 014032)

      1 數(shù)據(jù)挖掘技術(shù)

      1.1 數(shù)據(jù)庫的數(shù)據(jù)挖掘系統(tǒng)

      數(shù)據(jù)庫的挖掘在廣義上是數(shù)據(jù)挖掘過程中從存儲在數(shù)據(jù)庫中的大量數(shù)據(jù)中挖掘出有用的信息。從這個(gè)角度看,數(shù)據(jù)庫挖掘系統(tǒng)包括以下幾個(gè)部分。

      (1)數(shù)據(jù)庫:數(shù)據(jù)庫可以恢復(fù)信息,它可以整理數(shù)據(jù)庫中的數(shù)據(jù);

      (2)數(shù)據(jù)倉庫服務(wù)器:根據(jù)用戶的數(shù)據(jù)挖掘需求,提取相關(guān)數(shù)據(jù)的數(shù)據(jù)倉庫服務(wù)器;

      (3)知識庫:它是一種領(lǐng)域知識用來評估結(jié)果的有趣程度模式或指導(dǎo)研究。這種知識庫的概念是有層次的,包括了解用戶的認(rèn)可;

      (4)數(shù)據(jù)挖掘引擎:這是數(shù)據(jù)挖掘的重要組成部分,它是由一組功能模塊的組合,用來進(jìn)行描述,分類,轉(zhuǎn)換和偏差分析等;

      (5)數(shù)據(jù)評價(jià)模塊:它通常是由有趣度去衡量,并且能夠與數(shù)據(jù)挖掘模塊進(jìn)行交互,使得搜索專注于有趣程度的模型;

      (6)圖形用戶界面:用戶和數(shù)據(jù)挖掘系統(tǒng)在這個(gè)模塊之間的通信,這使得系統(tǒng)與用戶進(jìn)行交互,并且為數(shù)據(jù)搜索,提供信息,幫助搜索聚焦,和探索性數(shù)據(jù)挖掘。

      1.2 數(shù)據(jù)挖掘系統(tǒng)的功能

      1.2.1 清洗泛化

      數(shù)據(jù)挖掘系統(tǒng)可以把現(xiàn)有的數(shù)據(jù)提高到一個(gè)更高的水平。利用GDBR廣義積分算法,通過空間和時(shí)間上的復(fù)雜性的相關(guān)性,然后采用N-gram方法可以有效地搜索和準(zhǔn)確的重復(fù)記錄系統(tǒng)中的相似信息,然后進(jìn)行排序和測試。智能化操作,如規(guī)范的插入,刪除,交換和置換可以處理常見的拼寫錯(cuò)誤,數(shù)據(jù)清洗。但也有一些偏差,采用精度檢測正常消除基本算法,本系統(tǒng)提高了基本消除算法,利用統(tǒng)計(jì)原理,結(jié)合合理的直接和逆重復(fù)矩陣,能夠提高拼寫錯(cuò)誤的檢測和正確的修改。

      1.2.2 數(shù)據(jù)挖掘的功能

      根據(jù)相關(guān)的關(guān)聯(lián)規(guī)則和序列規(guī)則,系統(tǒng)的分類以及數(shù)據(jù)聚集的數(shù)據(jù)挖掘方法,實(shí)現(xiàn)了數(shù)據(jù)挖掘系統(tǒng)的預(yù)期的應(yīng)用目標(biāo)。通過搜索與集成的頻繁項(xiàng)目集之間的數(shù)據(jù)實(shí)現(xiàn)Apriori算法。頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則的基本思想是:通過記錄I的頻繁項(xiàng),并記錄下I所有非空子集內(nèi)容。如果值的支持(I)/支持(a)大于最小置信度,規(guī)則= >(1-a)將直接輸出。如果I中的非空子集不符合條件,相關(guān)規(guī)則將不輸出。換句話說,關(guān)聯(lián)規(guī)則不是由a形成的,但時(shí)間序列規(guī)則往往與系統(tǒng)中的項(xiàng)目集的時(shí)間相關(guān)聯(lián)。該系統(tǒng)中的時(shí)間序列規(guī)則是由AprionAII決定的。在廣泛的意義上說,關(guān)聯(lián)規(guī)則包含強(qiáng)烈規(guī)則,例外規(guī)則和隨機(jī)規(guī)則。規(guī)則的少量數(shù)據(jù)服從的例外規(guī)則的代表。雖然數(shù)量少,其有趣性高。它是未知的信息在這個(gè)階段的和不可預(yù)知的信息規(guī)則。該系統(tǒng)中的最小可信度的關(guān)聯(lián)規(guī)則設(shè)置了例外。因此,系統(tǒng)可以形成分類關(guān)聯(lián)規(guī)則(CAR)和分類關(guān)聯(lián)規(guī)則(ECAR)和虛假的規(guī)則(SCAR)。

      這些定義數(shù)據(jù)和分類數(shù)據(jù),代表可以形成的數(shù)據(jù)類別,并根據(jù)分類標(biāo)準(zhǔn)中屬于未知類別的數(shù)據(jù)來形成分類。在這個(gè)系統(tǒng)中,應(yīng)用區(qū)間分類器可以提高正確率和分類精度水平、降低過深樹擴(kuò)展的決策樹分類器。

      聚類算法結(jié)合高密度集群采用CURE算法進(jìn)行標(biāo)記的許多不同的簇代表點(diǎn)。所以能夠形成一定的集群分布式架構(gòu)。然后有效地識別特殊的形態(tài),使數(shù)據(jù)處理更高效和提高處理能力。利用數(shù)據(jù)挖掘之前,系統(tǒng)會自動劃分空間分布,使信息對象形成了許多數(shù)據(jù)單元。然后,根據(jù)本單位的特點(diǎn),計(jì)算機(jī)集群分布。另一個(gè)獨(dú)特的聚類算法是基于密度的聚類算法。通過改進(jìn)Dbscan算法,數(shù)據(jù)部門可以實(shí)現(xiàn)由小部門集群,實(shí)現(xiàn)和算法的加速速度通過選擇代表擴(kuò)大種子點(diǎn)的相鄰對象,和整個(gè)數(shù)據(jù)庫集群實(shí)現(xiàn)樣本數(shù)據(jù)的聚類。它使系統(tǒng)的聚類算法更有效。

      2 基于大規(guī)模數(shù)據(jù)庫的數(shù)據(jù)挖掘系統(tǒng)的構(gòu)建方法

      2.1 整體框架結(jié)構(gòu)的設(shè)置

      該系統(tǒng)集成了各種模塊密切相關(guān),形成數(shù)據(jù)結(jié)構(gòu)層次,包括多個(gè)獨(dú)特的輸出操作功能,具有多數(shù)據(jù)源、多參數(shù)的特點(diǎn)。因此,每個(gè)挖掘操作模塊之間的可以是相互獨(dú)立的,這可以產(chǎn)生更多的功能和更穩(wěn)定的系統(tǒng)。作為一個(gè)集成系統(tǒng),有一個(gè)協(xié)調(diào)統(tǒng)一的模塊進(jìn)行模塊之間的關(guān)聯(lián),從而提高并實(shí)現(xiàn)數(shù)據(jù)的傳遞、標(biāo)準(zhǔn)化系統(tǒng)的操作和數(shù)據(jù)源的挖掘結(jié)果。

      在數(shù)據(jù)挖掘系統(tǒng)的基礎(chǔ)上考慮一個(gè)龐大的數(shù)據(jù)庫,本系統(tǒng)的數(shù)據(jù)挖掘的范圍必須要擴(kuò)大,因此實(shí)現(xiàn)挖掘?qū)ο蟛粦?yīng)該僅存在于數(shù)據(jù)庫中,也應(yīng)該在文件中。因此,根據(jù)文件系統(tǒng)提供的信息處理方法。呈現(xiàn)更容易挖掘結(jié)果,實(shí)現(xiàn)遠(yuǎn)程決策支持分析,該系統(tǒng)還具有自動恢復(fù)的功能挖掘結(jié)果,擴(kuò)大應(yīng)用范圍。因?yàn)樗遣僮麟娔X的人,該系統(tǒng)配備了良好的操作界面,這能夠很方便用戶的操作和幫助決策者做決策分析并做出準(zhǔn)確的決定。

      2.2 模塊設(shè)置

      根據(jù)本系統(tǒng)的上述結(jié)構(gòu),以下模塊設(shè)置是實(shí)現(xiàn)數(shù)據(jù)挖掘系統(tǒng)的相關(guān)功能。

      (1)挖掘模塊可以實(shí)現(xiàn)挖掘工作功能,采集不同數(shù)據(jù)庫中的數(shù)據(jù)。每個(gè)挖掘模塊是獨(dú)立的。數(shù)據(jù)庫管理模塊可以控制單個(gè)模塊。存儲模塊的數(shù)據(jù)源,通過挖掘讀入相應(yīng)的數(shù)據(jù)挖掘基礎(chǔ),為其他模塊提供的基礎(chǔ)數(shù)據(jù)。

      (2)在預(yù)處理模塊的主要功能是過濾,定義和格式的數(shù)據(jù)源,進(jìn)一步提高整個(gè)系統(tǒng)的可操作性和實(shí)用性。主要的子模塊進(jìn)行數(shù)據(jù)映射操作,映射的列映射和類型映射。數(shù)據(jù)映射到地圖源表成為身份類型,并形成相應(yīng)的對照表。不同的數(shù)據(jù)映射并形成一個(gè)統(tǒng)一的模塊。列映射到數(shù)據(jù)源中提取有用的柱,有利于減少數(shù)據(jù)量,加快了計(jì)算速度。類型映射是將不同的數(shù)據(jù)源的類型強(qiáng)制性轉(zhuǎn)換成統(tǒng)一數(shù)據(jù)庫中的數(shù)據(jù)類型,有利于挖掘。

      (3)存儲模塊操作整個(gè)數(shù)據(jù)庫中的數(shù)據(jù)。然而,首先必須導(dǎo)入外部文件,然后存儲和控制。采用ODBC技術(shù)底層界面。利用內(nèi)存索引和緩沖功能,加快系統(tǒng)的計(jì)算能力。

      整個(gè)系統(tǒng)的核心模塊是挖掘管理模塊。各種信息用戶實(shí)現(xiàn)從數(shù)據(jù)庫的挖掘應(yīng)存放在挖掘基地。挖掘基地直接設(shè)置在系統(tǒng)數(shù)據(jù)庫中,便于傳輸和管理。挖掘庫管理包括所有類型的數(shù)據(jù)挖掘過程,數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)存儲。數(shù)據(jù)挖掘操作在整個(gè)挖掘過程中依賴一個(gè)其他數(shù)據(jù)挖掘和生成的一個(gè)新挖掘的運(yùn)行結(jié)果。此外,新的結(jié)果可能是另一個(gè)挖掘過程中的數(shù)據(jù)源。

      3 結(jié)論

      本文探討了基于大數(shù)據(jù)的數(shù)據(jù)挖掘系統(tǒng)的構(gòu)建。首先,介紹了數(shù)據(jù)挖掘技術(shù),包括數(shù)據(jù)挖掘的內(nèi)容和實(shí)質(zhì),數(shù)據(jù)庫挖掘過程和挖掘系統(tǒng)的組成,以及數(shù)據(jù)挖掘系統(tǒng)的功能。然后,論述了構(gòu)建數(shù)據(jù)挖掘系統(tǒng)的方法,包括總體框架結(jié)構(gòu)設(shè)置,模塊設(shè)置界面設(shè)置。越來越多的相關(guān)數(shù)據(jù)集成系統(tǒng)進(jìn)行發(fā)布和得到認(rèn)可,企業(yè)應(yīng)當(dāng)根據(jù)自己的特點(diǎn)和需求構(gòu)建數(shù)據(jù)挖掘系統(tǒng),來為他們自己提供更好的服務(wù)和完善的應(yīng)用及經(jīng)濟(jì)效益。

      [1]王元卓等,網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2013,36(06).

      [2]李國杰,程學(xué)旗. 大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會發(fā)展的重大戰(zhàn)略領(lǐng)域--大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊,2012(06):647-657.

      [3]程學(xué)旗等.網(wǎng)絡(luò)大數(shù)據(jù)計(jì)算技術(shù)與應(yīng)用綜述[J].科研信息化技術(shù)與應(yīng)用,2013(06).

      猜你喜歡
      數(shù)據(jù)源數(shù)據(jù)挖掘關(guān)聯(lián)
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
      Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
      奇趣搭配
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評價(jià)研究
      智趣
      讀者(2017年5期)2017-02-15 18:04:18
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價(jià)算法
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      翁牛特旗| 阳泉市| 湛江市| 息烽县| 登封市| 淳安县| 玉龙| 大埔区| 临猗县| 沛县| 饶平县| 汉寿县| 霍州市| 太和县| 乌拉特后旗| 府谷县| 甘孜县| 兰州市| 高碑店市| 剑川县| 哈密市| 金湖县| 措勤县| 青神县| 电白县| 信宜市| 孝感市| 南郑县| 铅山县| 财经| 封开县| 库车县| 佛冈县| 宜兴市| 玉门市| 大足县| 虹口区| 台北县| 兰溪市| 黄浦区| 阜康市|