• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)挖掘的發(fā)展及功能概述

      2019-12-11 12:23:14張東澤
      科學(xué)與財(cái)富 2019年19期
      關(guān)鍵詞:發(fā)展進(jìn)程數(shù)據(jù)挖掘應(yīng)用研究

      張東澤

      摘 要:數(shù)據(jù)挖掘是人工智能和自然語(yǔ)言理解等相關(guān)技術(shù)的綜合利用,目的是從大量數(shù)據(jù)中提取出可利用、有價(jià)值的信息或模式。人工智能、數(shù)據(jù)庫(kù)技術(shù)、概率與數(shù)理統(tǒng)計(jì)等技術(shù)是現(xiàn)代數(shù)據(jù)挖掘技術(shù)的主要支柱。而數(shù)據(jù)挖掘過(guò)程中應(yīng)用的技術(shù)越多,其得到的結(jié)果就越準(zhǔn)確。

      關(guān)鍵詞:數(shù)據(jù)挖掘;發(fā)展進(jìn)程;應(yīng)用研究

      1 數(shù)據(jù)挖掘相關(guān)概念

      數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報(bào)告、在線分析處理)不同的是,數(shù)據(jù)挖掘的前提假設(shè)是沒(méi)有明確的信息挖掘和知識(shí)發(fā)現(xiàn)。數(shù)據(jù)挖掘得到的信息應(yīng)該具有未知,有效和實(shí)用三個(gè)特點(diǎn)。事先未知的信息指的是不可預(yù)見(jiàn)的,也就是說(shuō),數(shù)據(jù)挖掘就是發(fā)現(xiàn)那些找不到信息,甚至違反直覺(jué)的信息或知識(shí),挖掘出更意想不到的信息,可能會(huì)更有價(jià)值,而且它是一個(gè)重要的過(guò)程,也可能開(kāi)采過(guò)程不是線性的,而是反復(fù)循環(huán),挖掘知識(shí)不是通過(guò)一個(gè)簡(jiǎn)單的分析,而是通過(guò)大量數(shù)據(jù)的比較分析,利用一些特殊的處理大量的數(shù)據(jù)所使用的據(jù)挖掘工具才可以實(shí)現(xiàn)。

      2 數(shù)據(jù)挖掘的功能應(yīng)用

      數(shù)據(jù)挖掘的任務(wù)通??煞譃閮深悾好枋龊皖A(yù)測(cè)。描述性挖掘任務(wù)顯示數(shù)據(jù)庫(kù)中的數(shù)據(jù)的一般特征。預(yù)測(cè)性挖掘任務(wù)在當(dāng)前數(shù)據(jù)上進(jìn)行推斷,以進(jìn)行預(yù)測(cè)。

      (l)通過(guò)概念描述發(fā)現(xiàn)廣義知識(shí)

      廣義知識(shí)是知識(shí)特性的一般描述,是對(duì)數(shù)據(jù)的概括、提煉和抽象。概念描述是對(duì)某些對(duì)象的內(nèi)涵進(jìn)行描述,總結(jié)這種類型的對(duì)象的特征。概念描述分成特征描述和區(qū)別性描述,前者描述特定對(duì)象的共同特征,后者描述不同的類和對(duì)象之間的區(qū)別。生成一個(gè)類的特征性描述只涉及該類對(duì)象中所有對(duì)象的共性。產(chǎn)生區(qū)別性描述的方法很多,如決策樹(shù)方法、遺傳算法等。概念描述方法和實(shí)現(xiàn)技術(shù)有很多,如數(shù)據(jù)立方體,面向?qū)傩詺w納等等。數(shù)據(jù)立方體也有其他別名,如“多維數(shù)據(jù)庫(kù)”、“視圖”、“OLA”等。

      (2)通過(guò)關(guān)聯(lián)分析發(fā)現(xiàn)關(guān)聯(lián)知識(shí)

      數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類重要的可被發(fā)現(xiàn)的知識(shí)。如果兩個(gè)或兩個(gè)以上的變量值之間存在某種某種規(guī)律,則稱為一個(gè)關(guān)聯(lián)。關(guān)聯(lián)可分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián)。關(guān)聯(lián)知識(shí)是反映一個(gè)事件和其他事件之間依賴或關(guān)聯(lián)的知識(shí)。如果兩個(gè)或更多屬性之間存在關(guān)聯(lián),那么其中一項(xiàng)的屬性值就可以依據(jù)其他屬性值進(jìn)行預(yù)測(cè)。

      (3)通過(guò)分類和聚類方法發(fā)現(xiàn)分類知識(shí)

      分類知識(shí)反映了同類事物共同性質(zhì)的特征型知識(shí)和不同事物之間的差異型特征知識(shí)。其中最典型的分類方法是基于決策樹(shù)的分類方法,即從實(shí)例構(gòu)建決策樹(shù),是一種指導(dǎo)學(xué)習(xí)方法。該方法根據(jù)訓(xùn)練子集(也被稱為窗口)形成決策樹(shù)。如果樹(shù)不能給所有對(duì)象的正確分類,然后選擇一些例外添加到窗口,重復(fù)這個(gè)過(guò)程,直到形成正確的決策集。最終的結(jié)果是一棵樹(shù),它的葉子節(jié)點(diǎn)是類名,中間節(jié)點(diǎn)屬性是一個(gè)分支,分支應(yīng)是屬性的某一個(gè)可能值。常用分類技術(shù)有貝葉斯分類和貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、遺傳算法、粗糙集、模糊邏輯等。

      (4)通過(guò)預(yù)測(cè)方法得到預(yù)測(cè)型知識(shí)

      預(yù)測(cè)型知識(shí)指的是根據(jù)時(shí)間序列數(shù)據(jù),通過(guò)歷史和當(dāng)前數(shù)據(jù)推測(cè)未來(lái)的數(shù)據(jù),也可以認(rèn)為這是以時(shí)間為關(guān)鍵屬性的關(guān)聯(lián)知識(shí)。目前,時(shí)間序列預(yù)測(cè)方法有經(jīng)典統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)等。1968博克斯和詹金斯已經(jīng)提出了一套相對(duì)完整的時(shí)間序列建模理論和分析方法,這些經(jīng)典的數(shù)學(xué)方法通過(guò)建立隨機(jī)模型,如自回歸移動(dòng)平均模型和季節(jié)性調(diào)整模型等對(duì)時(shí)間序列進(jìn)行預(yù)測(cè)。因?yàn)榇罅康臅r(shí)間序列是非平穩(wěn)的,特征參數(shù)和數(shù)據(jù)分布隨時(shí)間變化的,因此,僅僅通過(guò)對(duì)某段歷史數(shù)據(jù)的分析,創(chuàng)建一個(gè)單一的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型不能準(zhǔn)確預(yù)測(cè)任務(wù)。由于這個(gè)原因,人們提出了基于統(tǒng)計(jì)學(xué)和基于精度性的再訓(xùn)練方法,當(dāng)發(fā)現(xiàn)現(xiàn)有的預(yù)測(cè)模型不再適合當(dāng)前數(shù)據(jù)時(shí),對(duì)模型重新排練,獲得一個(gè)新的權(quán)重參數(shù),建立一個(gè)新的模型。

      (5)通過(guò)偏差檢測(cè)得到偏差型知識(shí)

      偏差檢測(cè)對(duì)檢測(cè)數(shù)據(jù)庫(kù)中常出現(xiàn)的異常記錄是非常有意義的,而偏差知識(shí)就是對(duì)差異和極端特例的描述,它揭示了事物偏離常規(guī)的異常現(xiàn)象,例如在分類中存在的反常實(shí)例、觀測(cè)值與預(yù)測(cè)值之間的偏差、隨時(shí)間而變化的量值和不滿足規(guī)則的特例等。隨著概念層次的提升,這些知識(shí)都可以被發(fā)現(xiàn),從微觀到宏觀滿足不同用戶的需要,也能滿足不同層次決策的需要。

      4 當(dāng)前數(shù)據(jù)挖掘的主要技術(shù)

      人工智能、數(shù)據(jù)庫(kù)技術(shù)、概率與數(shù)理統(tǒng)計(jì)等技術(shù)是現(xiàn)代數(shù)據(jù)挖掘技術(shù)的主要支柱。而數(shù)據(jù)挖掘過(guò)程中應(yīng)用的技術(shù)越多,其得到的結(jié)果就越準(zhǔn)確。以下是常用的數(shù)據(jù)挖掘技術(shù):

      (1)關(guān)聯(lián)分析。關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘研究的主要模式之一。通過(guò)關(guān)聯(lián)分析可以挖掘隱藏在數(shù)據(jù)間的相互關(guān)系以及發(fā)現(xiàn)用戶瀏覽時(shí)的相關(guān)頁(yè)面,從數(shù)據(jù)中挖掘出最大頻繁訪問(wèn)項(xiàng)集,再經(jīng)過(guò)關(guān)聯(lián)商品喜好分析得出顧客的購(gòu)物傾向。在電子商務(wù)中,用戶關(guān)聯(lián)分析的典型例子是購(gòu)物籃分析,描述顧客的購(gòu)買(mǎi)行為,可以幫助零售商決定商品的捆綁銷售策略如著名的(面包-黃油-牛奶)例子就屬于關(guān)聯(lián)分析訪問(wèn)模式。所以網(wǎng)頁(yè)上擺放商品的時(shí)候可以將面包、黃油、牛奶一起出售,這對(duì)于企業(yè)確定生產(chǎn)銷售產(chǎn)品分類,設(shè)計(jì)市場(chǎng)分析等多方面是有價(jià)值的。

      (2)聚類分析方法。聚類分析就是直接比較樣本中各事物之間的性質(zhì),將性質(zhì)相近的歸為一類,而將性質(zhì)差別較大的分在不同的類。對(duì)變量聚類計(jì)算變量之間的距離,對(duì)樣本聚類則計(jì)算樣本之間的距離它的目的是使得屬于同一類別的個(gè)體之間的距離盡可能小,而不同類別上的個(gè)體間的距離盡可能大。

      在電子商務(wù)中,聚類分析常用于市場(chǎng)細(xì)分,根據(jù)已有客戶的數(shù)據(jù),利用聚類技術(shù)將市場(chǎng)按客戶消費(fèi)模式的相似性分為若干細(xì)分市場(chǎng),以進(jìn)行有針對(duì)性的市場(chǎng)營(yíng)銷,提供更適合、更滿意的服務(wù)。通過(guò)對(duì)聚類的客戶特征的分析,電子商務(wù)網(wǎng)站可以為客戶提供個(gè)性化的服務(wù)。

      (3)分類和預(yù)測(cè)。分類和預(yù)測(cè)功能可以用來(lái)提取描述重要數(shù)據(jù)類的模型,并使用模型來(lái)預(yù)測(cè)未來(lái)的數(shù)據(jù)趨勢(shì)。最常用的算法有判定歸納樹(shù)、貝葉斯分類法、距離分割算法等。分類分析是數(shù)據(jù)挖掘中應(yīng)用最多的方法,分類是將事件或?qū)ο髿w類,這樣既可以分析已有的數(shù)據(jù),也可以用來(lái)預(yù)測(cè)未來(lái)的數(shù)據(jù)分類,通過(guò)分析已知分類信息的歷史數(shù)據(jù),總結(jié)出一個(gè)預(yù)測(cè)模型,預(yù)測(cè)哪些人可能會(huì)對(duì)產(chǎn)品目錄等有反應(yīng),可以針對(duì)這一類客戶的特點(diǎn)展開(kāi)商務(wù)活動(dòng),同樣可以提供個(gè)性化的信息服務(wù)。

      (4)序列模式分析。序列模式挖掘就是要挖掘出交易集之間有時(shí)間序列關(guān)系的模式。它挖掘的側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后或因果關(guān)系,序列模式中要找到一些項(xiàng)跟隨另一些項(xiàng),以預(yù)測(cè)未來(lái)。與序列模式分析和關(guān)聯(lián)分析類似,其目的也是為了挖掘數(shù)據(jù)之間的聯(lián)系,但序列模式分析的側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后或者因果關(guān)系,序列模式便于進(jìn)行電子商務(wù)的組織,預(yù)測(cè)客戶的訪問(wèn)模式,對(duì)客戶開(kāi)展有針對(duì)性的廣告服務(wù)或者主動(dòng)推薦客戶感興趣的頁(yè)面,以滿足訪問(wèn)者的特定要求。

      在實(shí)際的應(yīng)用過(guò)程中,上述所有技術(shù)往往不是單獨(dú)使用的,各種方法的綜合利用才能夠最好的滿足人們的不同需求。

      參考文獻(xiàn):

      [1]任新. Web數(shù)據(jù)挖掘及其在電子商務(wù)中的應(yīng)用研究[D].貴州大學(xué),2008.

      [2]沈紅超. 數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用研究[D].江南大學(xué),2009.

      [3]韓英. 淺談數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用[J]. 太原城市職業(yè)技術(shù)學(xué)院報(bào),2013,04:170-171.

      猜你喜歡
      發(fā)展進(jìn)程數(shù)據(jù)挖掘應(yīng)用研究
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      淺析黨建信息化的發(fā)展進(jìn)程與“互聯(lián)網(wǎng)+黨建”
      中文信息(2017年4期)2017-05-23 18:23:28
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      “黑農(nóng)”大豆育種技術(shù)及應(yīng)用研究
      進(jìn)駐數(shù)字課堂的新興教學(xué)媒體
      AG接入技術(shù)在固網(wǎng)NGN的應(yīng)用研究
      分層教學(xué),兼顧全體
      考試周刊(2016年76期)2016-10-09 08:38:18
      農(nóng)業(yè)現(xiàn)代化評(píng)價(jià)指標(biāo)體系的構(gòu)建及其應(yīng)用
      淺談?dòng)⒄Z(yǔ)語(yǔ)言學(xué)的發(fā)展與研究
      青春歲月(2015年24期)2016-01-05 11:56:53
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      都兰县| 临沭县| 潞城市| 漳浦县| 惠东县| 平安县| 蒲城县| 海盐县| 垫江县| 米泉市| 平陆县| 张家港市| 南平市| 巫溪县| 东明县| 平远县| 盐津县| 会东县| 当雄县| 阿拉尔市| 乌什县| 额敏县| 武胜县| 青川县| 巴东县| 宜城市| 舞钢市| 萝北县| 南充市| 竹溪县| 诸暨市| 拉萨市| 潢川县| 克什克腾旗| 卓资县| 芦山县| 东丰县| 巴楚县| 盐池县| 禹州市| 台东县|