• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      數(shù)據(jù)挖掘技術(shù)在傳統(tǒng)煤礦產(chǎn)業(yè)中的應(yīng)用

      2017-04-10 21:19:54張慧萍賀紅艷陳小娟
      關(guān)鍵詞:數(shù)據(jù)挖掘電子商務(wù)

      張慧萍+賀紅艷+陳小娟

      摘要:隨著數(shù)據(jù)挖掘的興起和蓬勃發(fā)展,該技術(shù)對(duì)于大數(shù)據(jù)的分析和處理能力吸引了眾多研究者的關(guān)注。除了互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等新技術(shù)領(lǐng)域,很多傳統(tǒng)產(chǎn)業(yè)同樣需要數(shù)據(jù)挖掘方法解決實(shí)際生產(chǎn)問題。本文首先介紹了數(shù)據(jù)挖掘常見的基本算法,然后以電子商務(wù)和用戶節(jié)點(diǎn)特征挖掘?yàn)槔?,介紹了數(shù)據(jù)挖掘技術(shù)在煤礦產(chǎn)業(yè)中的應(yīng)用場(chǎng)景和具體方法,旨在啟發(fā)更多的傳統(tǒng)產(chǎn)業(yè)通過數(shù)據(jù)挖掘手段加快信息處理過程,提高信息整合效率。

      關(guān)鍵詞:數(shù)據(jù)挖掘;煤礦產(chǎn)業(yè);電子商務(wù);節(jié)點(diǎn)特征挖掘

      一、引言

      數(shù)據(jù)挖掘是一個(gè)年青的、動(dòng)態(tài)變化的、生機(jī)勃勃且快速成長(zhǎng)的領(lǐng)域,該技術(shù)是在當(dāng)前大量數(shù)據(jù)日積月累的時(shí)代背景下應(yīng)運(yùn)而生的[1]?!皵?shù)據(jù)挖掘”一詞有廣義和狹義兩種理解:廣義的數(shù)據(jù)挖掘等同于知識(shí)發(fā)現(xiàn)過程,共包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評(píng)估、知識(shí)表示七個(gè)步驟;狹義的數(shù)據(jù)挖掘是知識(shí)發(fā)現(xiàn)過程中的一個(gè)基本步驟。本文的“數(shù)據(jù)挖掘”更像以上步驟中的第五步,但在此之前通常需要對(duì)獲取的數(shù)據(jù)進(jìn)行清理、選擇或變換等預(yù)處理操作,為挖掘階段做準(zhǔn)備。

      隨著數(shù)據(jù)挖掘技術(shù)的興起、發(fā)展與成熟,很多研究者已將其運(yùn)用到互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等各個(gè)領(lǐng)域,用于發(fā)現(xiàn)海量數(shù)據(jù)中隱藏的信息。事實(shí)上,數(shù)據(jù)挖掘?qū)τ诖髷?shù)據(jù)的分析和處理能力同樣可以運(yùn)用在傳統(tǒng)產(chǎn)業(yè)中[2],本文將從煤礦產(chǎn)業(yè)角度出發(fā),介紹數(shù)據(jù)挖掘技術(shù)在傳統(tǒng)產(chǎn)業(yè)中的應(yīng)用。首先,本文著重介紹數(shù)據(jù)挖掘常用的技術(shù);其次,我們以電子商務(wù)和用戶節(jié)點(diǎn)特征挖掘?yàn)槔?,介紹數(shù)據(jù)挖掘技術(shù)在煤礦產(chǎn)業(yè)中的應(yīng)用場(chǎng)景,并總結(jié)在具體應(yīng)用中常見的思路和具體方法。

      二、數(shù)據(jù)挖掘技術(shù)綜述

      現(xiàn)實(shí)世界中的數(shù)據(jù)極易受到許多干擾,如噪聲、缺失值、不一致數(shù)據(jù)等,低質(zhì)量的數(shù)據(jù)將直接影響挖掘的結(jié)果,因此本章將首先介紹數(shù)據(jù)挖掘中常用的預(yù)處理方法。對(duì)數(shù)據(jù)中隱藏模式的挖掘主要通過監(jiān)督模型和無監(jiān)督模型實(shí)現(xiàn)。監(jiān)督模型基于對(duì)數(shù)據(jù)的先驗(yàn)知識(shí),分為分類和回歸方法;而無監(jiān)督模型用于對(duì)要挖掘的模式毫無先驗(yàn)知識(shí)的情況,分為聚類和關(guān)聯(lián)分析方法。本章將以分類和聚類算法為例,具體介紹數(shù)據(jù)挖掘的基本思想[3]。

      1. 數(shù)據(jù)預(yù)處理

      數(shù)據(jù)預(yù)處理方法很多,一般分為四個(gè)步驟:

      數(shù)據(jù)清理:包括補(bǔ)全缺失值、光滑噪聲、識(shí)別離群點(diǎn)、糾正數(shù)據(jù)不一致性。

      數(shù)據(jù)集成:把多種數(shù)據(jù)源的數(shù)據(jù)組合從而形成一個(gè)完整的數(shù)據(jù)集,這里的數(shù)據(jù)源可能包括多個(gè)數(shù)據(jù)庫、數(shù)據(jù)立方體及一般文件。

      數(shù)據(jù)規(guī)約:通過聚集、刪除冗余特征或聚類來降低數(shù)據(jù)規(guī)模,得到數(shù)據(jù)集的規(guī)約表示,而使得信息內(nèi)容的損失最小化。

      數(shù)據(jù)變換:用匯總、聚集等方式,將數(shù)據(jù)變換為可挖掘的統(tǒng)一形式。

      2. 監(jiān)督模型

      分類算法是監(jiān)督模型中常用的算法,適用于數(shù)據(jù)集或數(shù)據(jù)集中的部分?jǐn)?shù)據(jù)有標(biāo)簽的情況,它從每個(gè)數(shù)據(jù)元素都包含分類標(biāo)簽的訓(xùn)練數(shù)據(jù)開始,通過對(duì)訓(xùn)練數(shù)據(jù)的學(xué)習(xí)建立一個(gè)分類模型,用于將新的數(shù)據(jù)元素自動(dòng)分類到訓(xùn)練數(shù)據(jù)提供的類別中。也就是說,數(shù)據(jù)分類是一個(gè)兩階段過程,包括學(xué)習(xí)階段(構(gòu)建分類模型)和分類階段(使用模型預(yù)測(cè)給定數(shù)據(jù)的類別)。常用的算法有決策樹、貝葉斯分類和基于規(guī)則的分類等[1]。

      決策樹分類器:是從有分類結(jié)果標(biāo)號(hào)的訓(xùn)練數(shù)據(jù)中學(xué)習(xí),從而形成一種類似流程圖的樹結(jié)構(gòu),每個(gè)內(nèi)部結(jié)點(diǎn)表示在某一個(gè)屬性上的測(cè)試,每個(gè)分枝代表該測(cè)試的一個(gè)輸出,而每個(gè)樹葉結(jié)點(diǎn)代表一個(gè)分類標(biāo)號(hào)。決策樹構(gòu)造的主要方法是自頂向下遞歸的分治方式。

      貝葉斯分類器:屬于一種統(tǒng)計(jì)學(xué)分類方法,用于預(yù)測(cè)類隸屬關(guān)系的概率。對(duì)分類算法的比較研究發(fā)現(xiàn),樸素貝葉斯的分類結(jié)果可以與決策樹和神經(jīng)網(wǎng)絡(luò)相媲美。

      基于規(guī)則的分類器:規(guī)則是表示信息或少量知識(shí)的好方法,基于規(guī)則的分類器是通過一組IF-THEN規(guī)則指導(dǎo)分類結(jié)果。IF部分表示規(guī)則的前提,THEN部分表示規(guī)則的結(jié)論。

      3. 無監(jiān)督模型

      聚類算法是無監(jiān)督模型中的常見算法,適用于數(shù)據(jù)集合不包含任何標(biāo)簽的情況,即每個(gè)數(shù)據(jù)元素的類標(biāo)號(hào)是未知的。聚類是把數(shù)據(jù)對(duì)象集劃分成多個(gè)組或簇的過程,使簇內(nèi)對(duì)象相似性很高,但與其他簇中對(duì)象相似性很低。相異性和相似性是對(duì)結(jié)果的評(píng)估,主要用距離度量。如果數(shù)據(jù)源包含大量文本內(nèi)容,對(duì)其進(jìn)行聚類操作時(shí),通常將文本關(guān)鍵詞表示為矩陣形式,進(jìn)而用余弦距離度量文本相似性。聚類算法可從多方面分類,如根據(jù)劃分標(biāo)準(zhǔn)、簇的分離性、所使用的相似性度量和聚類空間等。下面介紹幾種主要的基本聚類方法。

      劃分方法:聚類分析最簡(jiǎn)單、最基本的方法是劃分,它是把數(shù)據(jù)對(duì)象劃分成多個(gè)互斥的組或簇的過程。具體來說,劃分方法是將目標(biāo)集合中的n個(gè)對(duì)象劃分成k個(gè)分區(qū),每個(gè)分區(qū)即代表聚類結(jié)果中的一個(gè)簇(kn)。

      層次方法:通過對(duì)數(shù)據(jù)集的層次分解完成聚類,分為凝聚聚類和分裂聚類兩種。凝聚聚類是自底向上的,首先認(rèn)為每個(gè)對(duì)象各自為一個(gè)簇,然后通過迭代逐漸把初始的小簇合并成越來越大的簇,直到所有對(duì)象成為一個(gè)簇,或滿足某種終止條件。分裂聚類是自頂向下的,首先它把所有對(duì)象置于一個(gè)簇中,然后從根開始遞歸地把這些簇劃分成多個(gè)較小的子簇。

      基于密度的方法:基于密度的方法在于彌補(bǔ)基于對(duì)象間距離的方法只能發(fā)現(xiàn)球狀簇的缺陷,該方法可用于發(fā)現(xiàn)任意形狀的簇?;诿芏鹊姆椒ò汛乜醋鰯?shù)據(jù)空間中被稀疏區(qū)域分開的稠密區(qū)域,當(dāng)“鄰域”中的密度超過某個(gè)閾值時(shí),該方法繼續(xù)增長(zhǎng)給定的簇。

      基于網(wǎng)格的方法:上述方法都是數(shù)據(jù)驅(qū)動(dòng)的,它們劃分對(duì)象集并自動(dòng)適應(yīng)嵌入空間中的數(shù)據(jù)分布。而基于網(wǎng)格的方法采用空間驅(qū)動(dòng)的方法,把嵌入空間劃分成獨(dú)立于輸入對(duì)象分布的單元。該方法中的網(wǎng)格指多分辨率的網(wǎng)格數(shù)據(jù)結(jié)構(gòu),它將對(duì)象空間量化成有限數(shù)目的單元而形成網(wǎng)格結(jié)構(gòu),在該結(jié)構(gòu)上進(jìn)行所有的聚類操作。

      三、數(shù)據(jù)挖掘技術(shù)在傳統(tǒng)煤礦產(chǎn)業(yè)中的應(yīng)用

      傳統(tǒng)煤礦產(chǎn)業(yè)每天也產(chǎn)生著大量的數(shù)據(jù),這些數(shù)據(jù)中同樣隱藏著各類有價(jià)值的信息,通過數(shù)據(jù)挖掘技術(shù)可以幫助分析數(shù)據(jù)中暗含的隱藏價(jià)值。本章將以電子商務(wù)和用戶特征挖掘?yàn)槔榻B數(shù)據(jù)挖掘方法在煤礦產(chǎn)業(yè)中的應(yīng)用場(chǎng)景,并介紹具體求解思路和方法。

      1. 煤礦電子商務(wù)的數(shù)據(jù)挖掘場(chǎng)景

      當(dāng)全球資源化越發(fā)暢通和普及,網(wǎng)絡(luò)技術(shù)和信息的傳播作為數(shù)據(jù)大幅增長(zhǎng)的重要傳載體,企業(yè)中產(chǎn)生了以電子商務(wù)領(lǐng)域?yàn)橹鞯拇罅繕I(yè)務(wù)數(shù)據(jù)。如何滿足企業(yè)運(yùn)作的高效要求,是目前電子商務(wù)急需解決的問題,將數(shù)據(jù)挖掘技術(shù)完善地應(yīng)用到企業(yè)電子商務(wù)中,也顯得更為必要[4]。文獻(xiàn)[5]從現(xiàn)在電子商務(wù)的的概念與特性講起,介紹了煤炭交易的電子商務(wù)活動(dòng)中的數(shù)據(jù)分析和運(yùn)用特點(diǎn),并針對(duì)這些特點(diǎn)引入數(shù)據(jù)挖掘技術(shù)概念,詳細(xì)分析了煤炭交易中電子商務(wù)數(shù)據(jù)挖掘的類型及相關(guān)方法。這里我們將概括該論文的具體思路,論述數(shù)據(jù)挖掘技術(shù)在煤炭交易電子商務(wù)場(chǎng)景下的應(yīng)用。

      煤炭交易電子是利用計(jì)算機(jī)技術(shù)、計(jì)算機(jī)互聯(lián)網(wǎng)技術(shù)和通信技術(shù),實(shí)現(xiàn)在煤炭交易的活動(dòng)過程中的電子化、數(shù)字化和網(wǎng)絡(luò)化。煤炭交易電子商務(wù)中產(chǎn)生的是基于計(jì)算機(jī)和Internet的Web數(shù)據(jù),其具有鮮明的數(shù)據(jù)新特性:動(dòng)態(tài)性、海量性和直接性。在電子商務(wù)的實(shí)際運(yùn)用過程中,根據(jù)用戶訪問和顧客或企業(yè)訪問產(chǎn)生的信息進(jìn)行數(shù)據(jù)提取,大致可以分為3種數(shù)據(jù)挖掘的數(shù)據(jù)類型,即使用記錄數(shù)據(jù)、內(nèi)容數(shù)據(jù)和結(jié)構(gòu)數(shù)據(jù)類型。相應(yīng)地,基于Web的數(shù)據(jù)挖掘技術(shù)分為:使用日志或訪問記錄的數(shù)據(jù)挖掘模式、內(nèi)容數(shù)據(jù)挖掘模式、結(jié)構(gòu)數(shù)據(jù)挖掘模式。數(shù)據(jù)挖掘在電子商務(wù)的應(yīng)用實(shí)現(xiàn)過程大致分為4個(gè)步驟:數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、模型評(píng)估、解釋模型得出結(jié)論。

      2. 煤礦產(chǎn)業(yè)中的用戶節(jié)點(diǎn)特征挖掘場(chǎng)景

      社交網(wǎng)絡(luò)中有很多關(guān)于用戶節(jié)點(diǎn)特征挖掘的研究,如對(duì)用戶基本信息的挖掘、對(duì)用戶行為和人格特征的挖掘、對(duì)用戶興趣喜好的挖掘等。這類方法同樣可以借鑒到煤礦產(chǎn)業(yè)中,具體可以有兩類應(yīng)用:一是將員工看作用戶節(jié)點(diǎn),根據(jù)已記錄的員工基本信息和工作信息,推斷員工的工作習(xí)慣、興趣愛好等隱藏信息,從而對(duì)員工有更深入的了解,有助于企業(yè)人文關(guān)懷的開展;二是將煤礦資源看作用戶節(jié)點(diǎn),根據(jù)已知的煤礦資源位置、屬性及特點(diǎn)預(yù)測(cè)其他煤礦資源的信息,并幫助預(yù)測(cè)未發(fā)掘的煤礦資源位置。

      該場(chǎng)景最常用到的方法是統(tǒng)計(jì)分析、分類、聚類和推斷學(xué)習(xí)。其中,統(tǒng)計(jì)分析是各類方法的基礎(chǔ),幾乎所有的研究都需要首先通過一定的統(tǒng)計(jì)分析過程發(fā)現(xiàn)數(shù)據(jù)規(guī)律,進(jìn)而根據(jù)這一規(guī)律建模求解。分類是已知要挖掘的用戶節(jié)點(diǎn)標(biāo)簽類別時(shí)常用的一種方法,除了本文第二章介紹的基本分類方法外,神經(jīng)網(wǎng)絡(luò)、SVM支持向量機(jī)、遺傳算法、瀑布分類器等也都是常用的分類方法。聚類是在要挖掘的用戶標(biāo)簽類別未知時(shí)常用的一種方法,除本文第二章介紹的基本聚類方法外,實(shí)際中常用的還有模糊聚類、基于概率模型的聚類等方法。推斷和學(xué)習(xí)算法是根據(jù)其他信息學(xué)習(xí)目標(biāo)信息,常用的是基于概率或網(wǎng)絡(luò)圖譜的方法。

      四、結(jié)語

      在當(dāng)今數(shù)據(jù)時(shí)代下,每天來自商業(yè)、社會(huì)、科學(xué)和工程、醫(yī)療以及我們?nèi)粘I畹姆椒矫婷娴臄?shù)兆兆字節(jié)或數(shù)千兆字節(jié)的數(shù)據(jù)注入我們的計(jì)算機(jī)網(wǎng)絡(luò)、萬維網(wǎng)和各種數(shù)據(jù)存儲(chǔ)設(shè)備??捎脭?shù)據(jù)的爆炸式增長(zhǎng)、廣泛可用和巨大數(shù)量使得我們的時(shí)代成為真正的數(shù)據(jù)時(shí)代。急需功能強(qiáng)大和通用的工具,以便從這些海量數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值的信息,把這些數(shù)據(jù)轉(zhuǎn)化成有組織的知識(shí)。這種需求導(dǎo)致了數(shù)據(jù)挖掘的誕生,這一技術(shù)已經(jīng)并將就在我們從數(shù)據(jù)時(shí)代大步跨入信息時(shí)代的歷程中做出貢獻(xiàn)。

      很多傳統(tǒng)產(chǎn)業(yè)也開始利用數(shù)據(jù)挖掘技術(shù)解決生產(chǎn)過程中的實(shí)際問題。本文首先介紹了數(shù)據(jù)挖掘的常用基本算法,然后舉例提出了在煤礦產(chǎn)業(yè)中可能的應(yīng)用場(chǎng)景:一是將基于Web的數(shù)據(jù)挖掘方法應(yīng)用到企業(yè)電子商務(wù)中;二是通過統(tǒng)計(jì)分析、分類、聚類和推斷學(xué)習(xí)方法挖掘用戶員工或煤礦資源的特征。事實(shí)上,數(shù)據(jù)挖掘理論在煤礦產(chǎn)業(yè)中的應(yīng)用遠(yuǎn)不止這些,對(duì)生產(chǎn)資料的調(diào)控與分配、安全事故的分析和預(yù)警等同樣可以通過數(shù)據(jù)挖掘技術(shù)解決。數(shù)據(jù)挖掘在傳統(tǒng)煤礦產(chǎn)業(yè)的應(yīng)用在為傳統(tǒng)產(chǎn)業(yè)帶來新機(jī)遇的同時(shí),也為理論算法的進(jìn)一步完善提出了新的挑戰(zhàn)。

      參考文獻(xiàn):

      [1]韓家煒,坎伯.數(shù)據(jù)挖掘:概念與技術(shù)[J].北京:機(jī)械工業(yè)出版社, 2001: 232-233.

      [2] 董建新.計(jì)算機(jī)數(shù)據(jù)挖掘技術(shù)在煤礦行業(yè)的應(yīng)用[J].煤炭技術(shù),2012,31(004):87-89.

      [3] Barbier G,Liu H.Data mining in social media[M]//Social Network Data Analytics.Springer US, 2011: 327-352.

      [4] 劉振東.企業(yè)電子商務(wù)中數(shù)據(jù)挖掘分析及方法論[J].煤炭技術(shù),2012,31(3):272-274.

      [5] 宋浩杰,趙浩婕.煤炭電子商務(wù)的數(shù)據(jù)挖掘技術(shù)應(yīng)用[J].煤炭技術(shù),2012,31(008):273-275.

      猜你喜歡
      數(shù)據(jù)挖掘電子商務(wù)
      2025年我國農(nóng)村電子商務(wù)交易額達(dá)到2.8萬億元
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      《電子商務(wù)法》如何助力直銷
      電子商務(wù)
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
      關(guān)于加快制定電子商務(wù)法的議案
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      電子商務(wù)人的核心能力
      期刊訂閱電子商務(wù)平臺(tái)
      托里县| 手游| 松阳县| 泉州市| 封开县| 平邑县| 应城市| 西林县| 靖远县| 子长县| 延边| 砚山县| 横山县| 甘谷县| 兴文县| 渑池县| 舒城县| 衡阳市| 固始县| 罗源县| 东丰县| 湾仔区| 长武县| 宁远县| 乐清市| 岳普湖县| 平昌县| 巴林左旗| 读书| 福泉市| 繁昌县| 阿瓦提县| 都昌县| 南皮县| 胶州市| 光山县| 大新县| 馆陶县| 阿坝县| 神池县| 兴国县|