• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于大型數(shù)據(jù)庫的數(shù)據(jù)挖掘應(yīng)用研究

      2017-04-25 19:00:48王照付李麟
      關(guān)鍵詞:數(shù)據(jù)挖掘

      王照付+李麟

      摘要:隨著當(dāng)前大數(shù)據(jù)時代的到來,在海量數(shù)據(jù)庫的數(shù)據(jù)處理和數(shù)據(jù)分析過程中,應(yīng)用有效的數(shù)據(jù)挖掘技術(shù)能夠大大提升數(shù)據(jù)處理的速度,同時也能夠提升數(shù)據(jù)處理的準(zhǔn)確性。本文我們基于此主要來探究在大型數(shù)據(jù)庫的處理過程中數(shù)據(jù)挖掘技術(shù)的相關(guān)應(yīng)用,我們從大型數(shù)據(jù)庫的數(shù)據(jù)挖掘概念入手,分析大型數(shù)據(jù)挖掘系統(tǒng)的概況以及當(dāng)前比較經(jīng)典的兩類多數(shù)據(jù)挖掘技術(shù)。

      關(guān)鍵詞:大數(shù)據(jù)庫;數(shù)據(jù)挖掘;多數(shù)據(jù)

      中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2017)01-0108-02

      目前,數(shù)據(jù)挖掘技術(shù)融合了多項學(xué)科內(nèi)容,不僅包含數(shù)據(jù)庫技術(shù),而且也包含有人工智能以及統(tǒng)計學(xué)的相關(guān)內(nèi)容,數(shù)據(jù)挖掘技術(shù)在當(dāng)前大數(shù)據(jù)庫的數(shù)據(jù)處理方面貢獻(xiàn)了非常大的力量,數(shù)據(jù)挖掘系統(tǒng)在數(shù)據(jù)庫的數(shù)據(jù)處理過程中作為一個獨立模塊而存在,有效的協(xié)調(diào)了不同模塊之間的工作,下面我們首先來看一下大數(shù)據(jù)時代之下的數(shù)據(jù)挖掘信息概括。

      1 大數(shù)據(jù)時代下的數(shù)據(jù)挖掘相關(guān)內(nèi)容概述

      1.1 數(shù)據(jù)挖掘技術(shù)的基本概念

      數(shù)據(jù)挖掘技術(shù)主要就是指在數(shù)據(jù)庫的信息處理過程中,通過特定的方式和特定的手段來進(jìn)行數(shù)據(jù)信息的搜索。換句話說數(shù)據(jù)挖掘技術(shù)是基于當(dāng)前大數(shù)據(jù)時代而存在的,在海量數(shù)據(jù)信息處理的過程中,數(shù)據(jù)挖掘技術(shù)能夠大大提升數(shù)據(jù)處理的效率。數(shù)據(jù)挖掘技術(shù)需要從當(dāng)前海量數(shù)據(jù)庫中不同形式,不同結(jié)構(gòu)不同內(nèi)容的數(shù)據(jù)通過特定方式搜尋出來,其中包含了大量不同領(lǐng)域的學(xué)科,通過數(shù)據(jù)挖掘技術(shù)我們能夠做出歸納性的分析和總結(jié),對于企業(yè)來說,數(shù)據(jù)挖掘技術(shù)能夠有效的對市場進(jìn)行預(yù)測和評估,同時也能夠有效的根據(jù)客戶的信息預(yù)測其未來的動向等。需要注意的是數(shù)據(jù)挖掘技術(shù)在實際的應(yīng)用當(dāng)中最重要的一門學(xué)科技術(shù)就是人工智能。

      1.2 數(shù)據(jù)挖掘的特點以及應(yīng)用

      數(shù)據(jù)挖掘技術(shù)主要有以下幾個特點:

      (1)數(shù)據(jù)挖掘的模型是非常復(fù)雜的,數(shù)據(jù)挖掘技術(shù)主要重視的就是數(shù)據(jù)庫中信息的建模過程,通過對相關(guān)數(shù)據(jù)關(guān)系進(jìn)行有效的建模,把數(shù)學(xué)問題通過模型來表示出來從而有效地解決復(fù)雜的數(shù)據(jù)關(guān)系。(2)數(shù)據(jù)挖掘技術(shù)是基于當(dāng)前大數(shù)據(jù)庫而存在的,因此在處理數(shù)據(jù)信息上其基本的數(shù)據(jù)量是非常大的,數(shù)據(jù)挖掘主要就是從海量數(shù)據(jù)庫中提出相關(guān)信息,海量數(shù)據(jù)庫中的信息數(shù)據(jù)的格式結(jié)構(gòu)以及內(nèi)容都是具有一定差異的??偟膩碚f,數(shù)據(jù)挖掘技術(shù)在具體實施的過程中需要有效的注意這幾個方面的問題,從而保證數(shù)據(jù)挖掘的有效性和時效性。(3)數(shù)據(jù)挖掘技術(shù)跟隨用戶的實際需求出發(fā),如果用戶無法給出具體的要求,那么數(shù)據(jù)挖掘就會將用戶所提出的有關(guān)信息進(jìn)行提取,將用戶所感興趣的所有數(shù)據(jù)信息都進(jìn)行反映,也就是說數(shù)據(jù)挖掘的規(guī)則性并不是唯一的,而是隨著用戶要求的準(zhǔn)確性而發(fā)生變化的。(4)數(shù)據(jù)挖掘最關(guān)鍵的一個特點是其不同的算法最優(yōu)化是不同的,評判數(shù)據(jù)挖掘技術(shù)優(yōu)劣的一個關(guān)鍵主要就是判斷數(shù)據(jù)挖掘技術(shù)的有效性而不是最優(yōu)性。

      1.3 數(shù)據(jù)挖掘任務(wù)探究

      數(shù)據(jù)挖掘可以有以下幾種不同的分類:

      第一分類分析,即數(shù)據(jù)挖掘通過將一個特定的任務(wù)進(jìn)行分類,通過用戶所提出的具體要求,將某些特征數(shù)據(jù)信息反映到特定的類別上。分類分析的過程主要是建立一棵樹,通過枝葉來向下進(jìn)行逐級劃分,將滿足數(shù)據(jù)要求的類別進(jìn)行下設(shè),最終建立一棵樹與規(guī)范要求的樹。第二就是關(guān)聯(lián)規(guī)則,在關(guān)聯(lián)規(guī)則中比較經(jīng)典的方式有Apriori算法、Sampling算法等,關(guān)聯(lián)規(guī)則主要是根據(jù)用戶的這一信息數(shù)據(jù)來推算出其他方面的信息數(shù)據(jù),比如說用戶在數(shù)字化圖書館借閱書籍的過程中,關(guān)聯(lián)規(guī)則可以根據(jù)用戶在借閱書籍的種類以及根據(jù)用戶的年齡、學(xué)歷等信息來推算出用戶的實際工作階層,工作內(nèi)容等,通過這種方式,企業(yè)可以有效發(fā)現(xiàn)潛在的市場等。第三是聚類分析,聚類分析主要是指在數(shù)據(jù)信息處理的過程中,將屬于同一類別的數(shù)據(jù)信息存儲到一個特定的數(shù)據(jù)庫當(dāng)中,聚類分析與數(shù)據(jù)信息的自身結(jié)構(gòu)形式有關(guān),它會根據(jù)系統(tǒng)所給定的相關(guān)性能指標(biāo)來直接確定數(shù)據(jù)信息的類別,當(dāng)前聚類分析比較經(jīng)典的算法有分解法、動態(tài)聚類法等。

      2 大型數(shù)據(jù)庫的數(shù)據(jù)挖掘系統(tǒng)

      前面我們對當(dāng)前大數(shù)據(jù)庫時代下的挖掘技術(shù)的相關(guān)概念以及分類進(jìn)行了簡單的分析和概述,下面我們主要來看一下挖掘技術(shù)中關(guān)聯(lián)規(guī)則、聚類以及分類三種不同算法的相關(guān)內(nèi)容。

      2.1 關(guān)聯(lián)規(guī)則挖掘

      關(guān)聯(lián)規(guī)則挖掘前面我們已經(jīng)簡單的說明了其主要就是指針對數(shù)據(jù)信息的一個特定特征來推算出其他的數(shù)據(jù)信息,通過這種推算方式來發(fā)現(xiàn)數(shù)據(jù)信息中具有價值的內(nèi)容。當(dāng)前來看,關(guān)聯(lián)規(guī)則挖掘中最為基本的算法就是Apriori算法,Apriori算法能夠有效的根據(jù)用戶信息的數(shù)據(jù)特征來推算出其他的數(shù)據(jù)特征,Apriori算法的基本運轉(zhuǎn)原理是通過將海量數(shù)據(jù)庫進(jìn)行搜索之后,將數(shù)據(jù)庫中的頻繁集項進(jìn)行搜索,然后根據(jù)所生成的頻繁集項來建立一定的關(guān)聯(lián)規(guī)則,最終實現(xiàn)有效的關(guān)聯(lián)算法。在這一個具體的算法過程中,Apriori算法具有兩個非常顯著的問題,首先它在進(jìn)行數(shù)據(jù)特征挖掘的過程中,會重復(fù)的搜索同一海量數(shù)據(jù)庫,也就是說它每進(jìn)行以此頻繁集項的確定,就需要搜索一次數(shù)據(jù)庫,而這種頻繁搜素數(shù)據(jù)庫的方式大大增加了搜索所花費的時間,對于數(shù)據(jù)信息巨大的數(shù)據(jù)庫來說,這種方式是存在一定局限性的。其次,Apriori算法在所得出的頻繁項集中,項集的數(shù)量規(guī)模是非常大的,對于Apriori算法的效率來說也造成了一定的影響,而當(dāng)前人們基于Apriori算法對其進(jìn)行了一定的改造,使其在運算效率和運算準(zhǔn)確性上得到了有效的提升。

      首先就是散列項集計數(shù),通過人工智能的相關(guān)學(xué)科知識,對Apriori算法進(jìn)行改造,使其能夠辨識頻繁項集,即如果數(shù)據(jù)庫中一個具體的項集的哈希桶計數(shù)如果低于支持度,那么其不可能稱為頻繁項集。其次事物壓縮,前面所排除在外的數(shù)據(jù)信息是不可能成為頻繁項集的數(shù)據(jù)信息,也就是說這些數(shù)據(jù)信息在后續(xù)的篩選過程中可以不進(jìn)行計算,不加以考慮。第三,劃分,如果數(shù)據(jù)庫中存在潛在的頻繁項集,那么我們不能在前面兩個階段就將其排除在外,因為潛在的頻繁項集在數(shù)據(jù)庫中的一個劃分中應(yīng)當(dāng)作為頻繁項集存在。我們通過這幾個階段的優(yōu)化,將Apriori算法的運算效率和運算準(zhǔn)確度大大提升,使其能夠在數(shù)據(jù)庫的搜索過程中不再出現(xiàn)重復(fù)搜索數(shù)據(jù)庫這一現(xiàn)象的出現(xiàn),解決了Apriori算法的一個局限性。

      2.2 聚類

      聚類算法在實際的數(shù)據(jù)挖掘應(yīng)用當(dāng)中分為兩個不同的部分,分割和分層,對于分割聚類算法來說,它主要是將所需要進(jìn)行處理的數(shù)據(jù)信息進(jìn)行分割,然后計算出所分割出來的程序之間的距離,根據(jù)所計算出來的距離來進(jìn)行比較,然后選取其中距離最短的兩個數(shù)據(jù)信息進(jìn)行結(jié)合,將所結(jié)合的數(shù)據(jù)信息當(dāng)做一個新的樣本而存在,然后這個新的樣本重新與其他的數(shù)據(jù)信息進(jìn)行比較,將所計算的實際距離再次進(jìn)行比對,仍然將最小距離的兩個數(shù)據(jù)整合,通過這一過程不斷的循環(huán),最終就能夠形成一個有效的分類距離對稱表。最終所形成的就只剩下兩個類別的數(shù)據(jù)信息,我們通過這種方式實現(xiàn)了數(shù)據(jù)信息的分類過程。

      對于分層來說,其相比于分割聚類算法又進(jìn)行了一定技術(shù)上的優(yōu)化,既不需要進(jìn)行數(shù)據(jù)信息的分割,當(dāng)前比較經(jīng)典的分層聚類算法是Birch算法,這一算法的優(yōu)化原理主要就是能夠在分類的過程中首先將一簇信息通過三元組來表述出來,為后續(xù)的分類奠定良好的基礎(chǔ),這種算法所得出來的樹主要由具備兩個參數(shù)分支因子B和類直徑T高度平衡樹組成。

      2.3 分類

      最后對于大型數(shù)據(jù)庫的數(shù)據(jù)挖掘應(yīng)用來說,其在分類上也有顯著的作用,分類主要是根據(jù)數(shù)據(jù)信息的一個隱層信息數(shù)據(jù)來得出數(shù)據(jù)的顯層信息,通過映射關(guān)系來得出二者之間的關(guān)聯(lián),然后通過RBF網(wǎng)絡(luò)來把通過這種方式所分類出來的數(shù)據(jù)信息進(jìn)行呈現(xiàn)。

      3 多數(shù)據(jù)挖掘技術(shù)概述

      前面我們對當(dāng)前大數(shù)據(jù)時代之下的數(shù)據(jù)挖掘的三個主要算法進(jìn)行了簡單的概述,就目前來看,關(guān)聯(lián)規(guī)則、分類和聚類這三種算法是比較經(jīng)典在數(shù)據(jù)處理上應(yīng)用比較廣泛的。下面我們具體來看一下庫存管理數(shù)據(jù)挖掘以及空間數(shù)據(jù)挖掘這兩項技術(shù)。

      3.1 庫存管理數(shù)據(jù)挖掘

      當(dāng)前制造業(yè)發(fā)展極為迅速,在制造業(yè)的庫存管理中應(yīng)用數(shù)據(jù)挖掘技術(shù)能夠有效的提升庫存管理的效率,企業(yè)在應(yīng)用庫存管理數(shù)據(jù)挖掘能夠有效的提供庫存量以及訂貨量的相關(guān)數(shù)據(jù),提升企業(yè)的經(jīng)濟效益,在庫存管理的過程中,應(yīng)用庫存管理系統(tǒng)能夠有效的提升庫存管理數(shù)據(jù)的有效性,應(yīng)用了智能化的庫存數(shù)據(jù)挖掘能夠有效地解決傳統(tǒng)交易記錄繁多,記錄信息繁雜的問題,同時解決屬性關(guān)系復(fù)雜的問題,不同的數(shù)據(jù)信息的層次信息是不同的,應(yīng)用一定的數(shù)據(jù)挖掘則能夠大大提升對不同層次數(shù)據(jù)的分類以及特征提取[1]。

      就當(dāng)前發(fā)展來看,庫存數(shù)據(jù)挖掘系統(tǒng)主要就是對庫存異常信息的檢測、庫存商品庫齡的計算以及對庫存預(yù)測這三項主要功能,通過這三項功能來實現(xiàn)有效的庫存管理,提升制造業(yè)企業(yè)的經(jīng)濟效益等[2]。

      3.2 空間數(shù)據(jù)挖掘

      空間數(shù)據(jù)挖掘技術(shù),這一項技術(shù)主要就是隨著當(dāng)前衛(wèi)星通訊設(shè)備的發(fā)展,為了能夠獲得時效性的用戶空間數(shù)據(jù)信息,而建立的空間數(shù)據(jù)挖掘模型,在當(dāng)前的發(fā)展來看,在一些水電資源管理、交通運輸業(yè)中應(yīng)用空間數(shù)據(jù)挖掘技術(shù)是非常常見的,空間數(shù)據(jù)挖掘系統(tǒng)主要包括空間數(shù)據(jù)分析階段、空間數(shù)據(jù)查詢功能,空間數(shù)據(jù)挖掘依賴于可視化地圖而存在,通過可視化地圖來實現(xiàn)對對象空間信息數(shù)據(jù)的準(zhǔn)確記錄,并且將相關(guān)的數(shù)據(jù)信息應(yīng)用到救援事業(yè)、交通事業(yè)等[3]。

      4 結(jié)語

      綜合上文所述,本文我們主要從當(dāng)前基于大型數(shù)據(jù)庫的數(shù)據(jù)挖掘應(yīng)用相關(guān)問題進(jìn)行分析和探究,通過對數(shù)據(jù)挖掘的基本概況以及數(shù)據(jù)挖掘的基本分類來探討分析了關(guān)聯(lián)規(guī)則、聚類以及分類三種不同形式的數(shù)據(jù)挖掘。就目前的發(fā)展來看,在關(guān)聯(lián)規(guī)則中,Apriori算法是比較基礎(chǔ)典型的,在聚類算法中,Birch算法則能夠在數(shù)據(jù)庫的信息掃描過程中,降低掃描的時間,提升掃描的效率,從而有效的保障當(dāng)前基于大型數(shù)據(jù)的數(shù)據(jù)挖掘的效率[4]。

      最后,我們又討論了當(dāng)前在實際的企業(yè)發(fā)展和社會應(yīng)用當(dāng)中,庫存數(shù)據(jù)挖掘和空間數(shù)據(jù)挖掘這兩項技術(shù)的概述,總的來說,當(dāng)前大數(shù)據(jù)時代的到來,數(shù)據(jù)挖掘技術(shù)一定會得到非常良好的發(fā)展前景,在未來的發(fā)展中也一定能夠發(fā)揮其可行性和有效性。

      參考文獻(xiàn)

      [1]王元卓,靳小龍,程學(xué)旗,等.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計算機學(xué)報,2013(6):1125-1138.

      [2]王元卓,賈巖濤,劉大偉,等.基于開放網(wǎng)絡(luò)知識的信息檢索與數(shù)據(jù)挖掘[J].計算機研究與發(fā)展,2015(2):456-474.

      [3]張引,陳敏,廖小飛,等.大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J].計算機研究與發(fā)展,2013(z2):216-233.

      [4]余偉,李石君,楊莎,等.Web大數(shù)據(jù)環(huán)境下的不一致跨源數(shù)據(jù)發(fā)現(xiàn)[J].計算機研究與發(fā)展,2015(2):295-308.

      猜你喜歡
      數(shù)據(jù)挖掘
      基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
      數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
      基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
      數(shù)據(jù)挖掘的分析與探索
      河南科技(2014年23期)2014-02-27 14:18:43
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
      乌兰浩特市| 陕西省| 繁昌县| 甘谷县| 临澧县| 康平县| 凤冈县| 广元市| 扶余县| 拉萨市| 江门市| 忻州市| 武宣县| 四平市| 攀枝花市| 通河县| 鸡东县| 桂平市| 铜川市| 左权县| 靖边县| 静海县| 伊川县| 堆龙德庆县| 西畴县| 丰台区| 壶关县| 洮南市| 南宁市| 丹棱县| 昭通市| 吴忠市| 巨鹿县| 丰原市| 肃南| 北川| 西和县| 安新县| 射阳县| 宝清县| 长岭县|