• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)研究

      2017-07-14 13:30:57張春麗
      電腦知識(shí)與技術(shù) 2017年16期
      關(guān)鍵詞:信息數(shù)據(jù)云計(jì)算數(shù)據(jù)挖掘

      張春麗

      摘要:現(xiàn)如今,基于互聯(lián)網(wǎng)信息技術(shù)的飛速發(fā)展,使用互聯(lián)網(wǎng)的用戶(hù)的數(shù)量也在與日俱增,而用戶(hù)在使用互聯(lián)網(wǎng)的過(guò)程中,就會(huì)產(chǎn)生大量的信息數(shù)據(jù)。信息數(shù)據(jù)的激增,推動(dòng)了社會(huì)從信息匱乏時(shí)代進(jìn)入到了如今的信息過(guò)載時(shí)代,于是人們開(kāi)始探求一種新的技術(shù)來(lái)保存并分析這些數(shù)據(jù),進(jìn)而將這些數(shù)據(jù)背后所隱藏的價(jià)值提取出來(lái)。要想實(shí)現(xiàn)這一點(diǎn),就需要解決海量數(shù)據(jù)信息的儲(chǔ)存問(wèn)題、處理問(wèn)題以及挖掘問(wèn)題,而云計(jì)算的誕生,為該問(wèn)題的解決提供了一個(gè)方向和途徑。該文正是在這樣的背景下,就基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)展開(kāi)相應(yīng)的研究探討。

      關(guān)鍵詞:互聯(lián)網(wǎng)信息技術(shù);信息數(shù)據(jù);云計(jì)算;數(shù)據(jù)挖掘

      現(xiàn)代大量的互聯(lián)網(wǎng)信息中蘊(yùn)藏著極其豐富的具有非常重要利用價(jià)值的數(shù)據(jù)信息,倘若能夠快速準(zhǔn)確地將這些有用的數(shù)據(jù)信息挖掘出來(lái),不論是對(duì)互聯(lián)網(wǎng)提供商而言,還是對(duì)整個(gè)互聯(lián)網(wǎng)產(chǎn)業(yè)而言,都具有尤為重要的意義和作用。數(shù)據(jù)挖掘最開(kāi)始僅能用于對(duì)少量數(shù)據(jù)的處理,然而隨著產(chǎn)生的數(shù)據(jù)信息量的激增,原本的程序處理方式不僅耗時(shí)較長(zhǎng),而且也無(wú)法有效應(yīng)對(duì)新的數(shù)據(jù)信息處理形勢(shì)需要。而云計(jì)算由于具有極高的可拓展性,以及非常適合用于對(duì)大規(guī)模數(shù)據(jù)的處理,倘若能夠基于云計(jì)算對(duì)傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)進(jìn)行相應(yīng)的改造,相信一定有助于很好地解決互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)信息挖掘這一難題。

      1數(shù)據(jù)挖掘概述

      在百度百科中,數(shù)據(jù)挖掘的定義是:數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專(zhuān)家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。數(shù)據(jù)挖掘流程如下:數(shù)據(jù)選擇一數(shù)據(jù)預(yù)處理一模式發(fā)現(xiàn)一模式評(píng)估一知識(shí)表示。數(shù)據(jù)挖掘主要有決策樹(shù)方法、仿生全局優(yōu)化的遺傳算法、神經(jīng)網(wǎng)絡(luò)方法、統(tǒng)計(jì)分析方法、覆蓋正例排斥反例方法、粗集理論、模糊集方法等7種方法。

      2傳統(tǒng)數(shù)據(jù)挖掘與基于云計(jì)算的數(shù)據(jù)挖掘

      雖然兩種數(shù)據(jù)挖掘方式都是以將有價(jià)值的信息和知識(shí)挖掘出來(lái)為目的,但是兩者的處理對(duì)象以及數(shù)據(jù)挖掘程度卻存在著較大差異。

      2.1處理對(duì)象對(duì)比分析

      在所面臨的數(shù)據(jù)信息環(huán)境方面,由于傳統(tǒng)數(shù)據(jù)挖掘與基于云計(jì)算的數(shù)據(jù)挖掘兩者存在著極大的差異,因此在所面臨的處理對(duì)象上,兩者也存在著極大的差異。比如對(duì)于傳統(tǒng)數(shù)據(jù)挖掘而言,待挖掘數(shù)據(jù)信息的來(lái)源主要來(lái)自某個(gè)信息系統(tǒng)(某一特定范圍)所產(chǎn)生的被動(dòng)數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)是該被動(dòng)數(shù)據(jù)的主要類(lèi)型,兼有少部分非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)。但是對(duì)于基于云計(jì)算的數(shù)據(jù)挖掘而言,除了Web信息系統(tǒng)以及管理系統(tǒng)等是其來(lái)源之外,還包含感知信息系統(tǒng)所產(chǎn)生的仿真數(shù)據(jù)。因此與傳統(tǒng)數(shù)據(jù)挖掘相比較而言,基于云計(jì)算的數(shù)據(jù)挖掘其數(shù)據(jù)類(lèi)型更加復(fù)雜、體量更加巨大、來(lái)源更加廣泛。相應(yīng)地,基于云計(jì)算的數(shù)據(jù)挖掘其采集范圍變得更加廣泛,不再局限于被動(dòng),數(shù)據(jù)挖掘不僅及時(shí)快速,而且吞吐量高,但由于在數(shù)據(jù)的精確度方面并沒(méi)有太高的要求,因此基于云計(jì)算的數(shù)據(jù)挖掘的數(shù)據(jù)不確定性以及冗余度就要比傳統(tǒng)數(shù)據(jù)挖掘要高。

      2.2挖掘程度對(duì)比分析

      在挖掘程度方面,傳統(tǒng)數(shù)據(jù)挖掘與基于云計(jì)算的數(shù)據(jù)挖掘兩者在深度與廣度存在的差異性,當(dāng)復(fù)雜模式、結(jié)構(gòu)及類(lèi)型的數(shù)據(jù)融合交錯(cuò)時(shí),基于云計(jì)算的數(shù)據(jù)挖掘正是利用云計(jì)算的多種挖掘算法以及計(jì)算模式來(lái)實(shí)現(xiàn)對(duì)這么龐雜的數(shù)據(jù)信息的實(shí)時(shí)處理以及多維分析。從這里就可以看到,基于云計(jì)算的數(shù)據(jù)挖掘顯然挖掘更加全面,數(shù)據(jù)信息的處理分析范圍顯然更加廣泛。但是對(duì)于傳統(tǒng)數(shù)據(jù)挖掘而言,其挖掘?qū)ο髢H僅限于具有較小維度的結(jié)構(gòu)化數(shù)據(jù)(某一特定范圍),因此相比較而言,其對(duì)數(shù)據(jù)信息的挖掘處理就顯得較為局限,而且處理分析數(shù)據(jù)信息的方式也比較單一。再加之傳統(tǒng)數(shù)據(jù)挖掘并沒(méi)有形成一個(gè)完整的體系,以及其挖掘、計(jì)算算法的可拓展性并不強(qiáng),這些都導(dǎo)致傳統(tǒng)數(shù)據(jù)挖掘在對(duì)多源異構(gòu)數(shù)據(jù)信息的獲取、處理以及挖掘分析方面存在著諸多限制,而這也正是探討探究基于云計(jì)算的數(shù)據(jù)挖掘的重要意義所在。

      3基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)的優(yōu)勢(shì)

      基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)的優(yōu)勢(shì)主要體現(xiàn)在以下幾個(gè)方面:首先,基于云計(jì)算的數(shù)據(jù)挖掘能夠?qū)崿F(xiàn)對(duì)數(shù)據(jù)信息的分布式挖掘,進(jìn)而實(shí)現(xiàn)對(duì)數(shù)據(jù)信息挖掘的實(shí)時(shí)高效。同時(shí)還能夠很好地適應(yīng)各種具有不同規(guī)模的組織。比如對(duì)于大型企業(yè)而言,基于云計(jì)算的數(shù)據(jù)挖掘針對(duì)某些特定數(shù)據(jù)信息的計(jì)算挖掘?qū)⒋蟠鬁p輕對(duì)大型高性能機(jī)的依賴(lài)性,而對(duì)于中小型企業(yè)而言,能夠大大降低中小型企業(yè)的數(shù)據(jù)挖掘成本。其次,基于云計(jì)算的數(shù)據(jù)挖掘其挖掘出來(lái)的數(shù)據(jù)信息具有開(kāi)發(fā)方便這一優(yōu)勢(shì),這樣對(duì)于用戶(hù)而言,就不需要考慮劃分?jǐn)?shù)據(jù)、分配數(shù)據(jù)、加載數(shù)據(jù)以及調(diào)度計(jì)算任務(wù)等等環(huán)節(jié)。再次,基于云計(jì)算的數(shù)據(jù)挖掘能夠?qū)崿F(xiàn)對(duì)原先設(shè)備的利用,提高對(duì)較大規(guī)模數(shù)據(jù)信息處理能力的同時(shí),在增加結(jié)點(diǎn)方面無(wú)疑也變得更加方便與自由,同時(shí)還大大提高了自身的容錯(cuò)性。最后,基于云計(jì)算的數(shù)據(jù)挖掘大大降低了應(yīng)用數(shù)據(jù)挖掘技術(shù)的門(mén)檻,能夠充分滿(mǎn)足人們對(duì)于海量數(shù)據(jù)信息的挖掘需求。

      4基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)

      4.1基于云計(jì)算的數(shù)據(jù)挖掘研究方法

      一是數(shù)據(jù)關(guān)聯(lián)性挖掘法。在對(duì)海量數(shù)據(jù)信息進(jìn)行細(xì)節(jié)分析和價(jià)值提取的時(shí)候,關(guān)聯(lián)性數(shù)據(jù)挖掘,能夠使發(fā)散的網(wǎng)絡(luò)數(shù)據(jù)信息集中化。關(guān)聯(lián)性數(shù)據(jù)挖掘法通常分成三個(gè)步驟:第一,確定被挖掘數(shù)據(jù)的范圍,收集待處理的數(shù)據(jù)對(duì)象,從而使得關(guān)聯(lián)性研究的屬性得以明確。第二,對(duì)海量數(shù)據(jù)予以預(yù)處理,從而確保挖掘數(shù)據(jù)的真實(shí)性和完整性,而預(yù)處理結(jié)果將會(huì)被保存在挖掘數(shù)據(jù)庫(kù)中。第三,塑造訓(xùn)練的數(shù)據(jù)挖掘。借助排列組合對(duì)其予以實(shí)體閾值分析。

      二是數(shù)據(jù)模糊性學(xué)習(xí)法。其原理就是首先假設(shè)云計(jì)算平臺(tái)下存在一定數(shù)量的信息樣本,然后對(duì)任意一個(gè)信息樣本進(jìn)行指標(biāo)描述,對(duì)所有信息樣本進(jìn)行標(biāo)準(zhǔn)差計(jì)算,最終實(shí)現(xiàn)數(shù)據(jù)的挖掘價(jià)值信息操作與高度壓縮。面對(duì)海量數(shù)據(jù)的挖掘,應(yīng)用數(shù)據(jù)模糊性學(xué)習(xí)法的關(guān)鍵就是篩選與確定模糊隸屬函數(shù),最終實(shí)現(xiàn)基于云計(jì)算的海量數(shù)據(jù)挖掘價(jià)值信息的模糊化實(shí)際操作。但是這里需要注意一點(diǎn),需要在激活的條件下才能實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)的結(jié)點(diǎn)信息的收集。

      三是數(shù)據(jù)挖掘Apriori算法。Apriori算法是一個(gè)挖掘關(guān)聯(lián)規(guī)則的算法,是Agrawal等設(shè)計(jì)的一個(gè)基本算法,這是一個(gè)采用兩階段挖掘的思想,并且基于多次掃描事務(wù)數(shù)據(jù)庫(kù)來(lái)執(zhí)行的。與其他算法不同的是,面對(duì)海量數(shù)據(jù)的冗繁性和復(fù)雜性會(huì)導(dǎo)致數(shù)據(jù)挖掘算法收斂性較差這一問(wèn)題,Apriori算法能夠?qū)崿F(xiàn)對(duì)這一點(diǎn)的有效規(guī)避。在盡量節(jié)省投人成本的前提下,利用計(jì)算機(jī)仿真模擬,將使得海量數(shù)據(jù)的挖掘速度大大提升。

      4.2基于云計(jì)算的數(shù)據(jù)挖掘體系架構(gòu)

      基于云計(jì)算的數(shù)據(jù)挖掘正是憑借云計(jì)算的海量存儲(chǔ)能力以及對(duì)海量數(shù)據(jù)信息的并行處理能力,從而實(shí)現(xiàn)解決傳統(tǒng)數(shù)據(jù)挖掘所面臨的難以處理海量數(shù)據(jù)信息的問(wèn)題。圖1給出了基于云計(jì)算的數(shù)據(jù)挖掘體系架構(gòu)圖?;谠朴?jì)算的數(shù)據(jù)挖掘體系架構(gòu)主要分為三層。第一層是云計(jì)算服務(wù)層,提供對(duì)海量數(shù)據(jù)信息的儲(chǔ)存以及并行處理服務(wù)。第二層是數(shù)據(jù)挖掘處理層,該層包含數(shù)據(jù)預(yù)處理和數(shù)據(jù)挖掘算法并行化,通過(guò)對(duì)數(shù)據(jù)信息的預(yù)處理,能夠有效提高挖掘出來(lái)的數(shù)據(jù)的質(zhì)量,并讓整個(gè)挖掘過(guò)程變得更加容易、更加有效。第三層是面向用戶(hù)的用戶(hù)層,這一層主要是接收來(lái)自于用戶(hù)的關(guān)于數(shù)據(jù)挖掘的請(qǐng)求,并將這項(xiàng)請(qǐng)求傳遞給第二層和第一層,并將最后的數(shù)據(jù)信息挖掘結(jié)果在展示模塊展示給用戶(hù)。

      4.3基于云計(jì)算的數(shù)據(jù)挖掘體系架構(gòu)存在的不足

      由于云計(jì)算技術(shù)自身就一直處于一個(gè)高速發(fā)展的時(shí)期,因此這也會(huì)導(dǎo)致基于云計(jì)算的數(shù)據(jù)挖掘體系架構(gòu)也存在著一些不足。一是由云計(jì)算所帶來(lái)的個(gè)性化、多樣化服務(wù)需求;二是挖掘處理的數(shù)據(jù)其數(shù)量可能還會(huì)不斷升高,此外動(dòng)態(tài)數(shù)據(jù)、各種噪聲數(shù)據(jù)以及高維數(shù)據(jù)等,也為數(shù)據(jù)的挖掘處理造成了阻礙;三是如何選擇恰當(dāng)合適的算法,這直接關(guān)乎到最終的挖掘結(jié)果;四是在數(shù)據(jù)挖掘過(guò)程中或許存在諸多不明確性,如何處理這些不明確性,并將這些不明確性所造成的負(fù)面影響降到最低,這也是基于云計(jì)算的數(shù)據(jù)挖掘所需要考慮的問(wèn)題。

      5結(jié)束語(yǔ)

      基于云計(jì)算的諸多優(yōu)點(diǎn),文章試圖研究如何將云計(jì)算技術(shù)應(yīng)用到數(shù)據(jù)挖掘技術(shù)之中,促進(jìn)數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)信息的挖掘處理能力的提升。文章介紹了數(shù)據(jù)挖掘的概念及內(nèi)涵,然后分析了傳統(tǒng)數(shù)據(jù)挖掘與基于云計(jì)算的數(shù)據(jù)挖掘兩者之間的區(qū)別,最后分析了基于云計(jì)算的數(shù)據(jù)挖掘體系結(jié)構(gòu)的優(yōu)勢(shì)以及存在的不足,這有待在今后的研究中繼續(xù)對(duì)其予以不斷完善。

      猜你喜歡
      信息數(shù)據(jù)云計(jì)算數(shù)據(jù)挖掘
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      基于云計(jì)算的移動(dòng)學(xué)習(xí)平臺(tái)的設(shè)計(jì)
      實(shí)驗(yàn)云:理論教學(xué)與實(shí)驗(yàn)教學(xué)深度融合的助推器
      云計(jì)算中的存儲(chǔ)虛擬化技術(shù)應(yīng)用
      科技視界(2016年20期)2016-09-29 13:34:06
      計(jì)算機(jī)信息數(shù)據(jù)的安全與加密技術(shù)
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      論CDISC標(biāo)準(zhǔn)與中醫(yī)臨床試驗(yàn)數(shù)據(jù)交換標(biāo)準(zhǔn)的開(kāi)發(fā)
      低壓電力線載波技術(shù)在用電信息采集系統(tǒng)建設(shè)中的應(yīng)用
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      新绛县| 汝城县| 漯河市| 宜都市| 财经| 同德县| 定边县| 广河县| 鹤庆县| 陆河县| 扎赉特旗| 汪清县| 抚远县| 吐鲁番市| 团风县| 康乐县| 英德市| 建宁县| 威信县| 班戈县| 枞阳县| 灵宝市| 屯昌县| 平凉市| 化州市| 栾川县| 平舆县| 依兰县| 博湖县| 淄博市| 武山县| 洛宁县| 彩票| 杭锦后旗| 偏关县| 阿拉善盟| 昌宁县| 建昌县| 额尔古纳市| 宿松县| 松溪县|