• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      物聯(lián)網(wǎng)與數(shù)據(jù)挖掘云服務(wù)

      2012-09-24 13:44:42何清
      智能系統(tǒng)學(xué)報(bào) 2012年3期
      關(guān)鍵詞:結(jié)點(diǎn)數(shù)據(jù)挖掘分布式

      何清

      (中國(guó)科學(xué)院計(jì)算技術(shù)研究所智能信息處理重點(diǎn)實(shí)驗(yàn)室,北京100190)

      所謂物聯(lián)網(wǎng)就是物物相連的互聯(lián)網(wǎng),也有人把它縮寫成 CPS(cyber physics system),“The Internet of things”是對(duì)其直觀的解釋.物聯(lián)網(wǎng)實(shí)際上通過(guò)射頻識(shí)別(RFID)裝置、紅外感應(yīng)器、全球定位系統(tǒng)、激光掃描器等信息傳感設(shè)備,按約定的協(xié)議,把任何物品與互聯(lián)網(wǎng)相連接,進(jìn)行信息交換和通信,目標(biāo)是實(shí)現(xiàn)智能化識(shí)別、定位、跟蹤、監(jiān)控和管理的一種網(wǎng)絡(luò),人們稱之為物聯(lián)網(wǎng)[1].

      1 物聯(lián)網(wǎng)的現(xiàn)狀

      目前物聯(lián)網(wǎng)的現(xiàn)狀包括以下幾方面.

      1)國(guó)內(nèi)比國(guó)外熱——行業(yè)需求旺盛.我國(guó)人口眾多,每一個(gè)行業(yè)所涉及的人員也比較多,因此行業(yè)需求比較旺盛.

      2)政府比市場(chǎng)熱——跨部門、跨行業(yè).這是由我國(guó)的國(guó)情所決定的,因?yàn)槲锫?lián)網(wǎng)涉及到跨部門、跨行業(yè)問(wèn)題,面對(duì)這樣的難題,只有政府才有協(xié)調(diào)的能力.因此政府看到了物聯(lián)網(wǎng)技術(shù)發(fā)展的趨勢(shì),并且正在主導(dǎo)物聯(lián)網(wǎng)的發(fā)展.

      3)教育比科研熱——渴求技術(shù)和就業(yè)壓力.這種情況一個(gè)具體的表現(xiàn)就是有的高校已經(jīng)開始試圖設(shè)立物聯(lián)網(wǎng)專業(yè).物聯(lián)網(wǎng)專業(yè)所涉及的上下游技術(shù)比較多,所以可以說(shuō)是一個(gè)相當(dāng)綜合的專業(yè).從追求科學(xué)技術(shù)方面和就業(yè)壓力方面看,對(duì)于物聯(lián)網(wǎng)方面的知識(shí)是渴望掌握的.

      4)應(yīng)用比基礎(chǔ)熱——技術(shù)集成創(chuàng)新.因?yàn)槲锫?lián)網(wǎng)應(yīng)該是以技術(shù)集成創(chuàng)新為基礎(chǔ)的,所以說(shuō)目前的研究更多的是如何有效地集成多種技術(shù)和進(jìn)行技術(shù)集成創(chuàng)新,因此應(yīng)用比基礎(chǔ)更熱門.

      5)硬件比軟件熱——可見(jiàn)、可檢.目前可以看到傳感器及傳感器網(wǎng)絡(luò)是非常熱門的研究方向,并且這些相關(guān)的產(chǎn)品都是可見(jiàn)的,它的效果也是可檢的,因此目前大家看到的研究狀況是硬件比軟件熱.

      6)采集比處理熱——存儲(chǔ)在先挖掘在后.物聯(lián)網(wǎng)的技術(shù)處理必須以信息、數(shù)據(jù)為基礎(chǔ),首先必須先采集信息,之后才會(huì)進(jìn)行處理,存儲(chǔ)在先,挖掘在后,因此大家能看到的是采集比處理熱.

      2 物聯(lián)網(wǎng)面臨的挑戰(zhàn)

      物聯(lián)網(wǎng)目前正面臨著以下一系列的挑戰(zhàn)[1].

      1)物聯(lián)網(wǎng)的商業(yè)模式有待清晰:因?yàn)槲锫?lián)網(wǎng)涉及到上下游的很多行業(yè),在這種情況下采用什么樣的商業(yè)模式,各行業(yè)如何去切分這塊蛋糕,是有待解決的問(wèn)題.

      2)物聯(lián)網(wǎng)的安全性、可靠性、可管理性有待加強(qiáng).信息共享與保護(hù)隱私的矛盾未得到解決,這個(gè)問(wèn)題在云計(jì)算方面已經(jīng)得到了很大的重視.我國(guó)在云安全方面也已經(jīng)投入了很多的資金和力量來(lái)解決這個(gè)問(wèn)題.

      3)物聯(lián)網(wǎng)行業(yè)性太強(qiáng),其公眾性和公用性不足,目前的物聯(lián)網(wǎng)還沒(méi)有強(qiáng)大到讓公眾能夠用起來(lái).

      4)物聯(lián)網(wǎng)的產(chǎn)業(yè)鏈長(zhǎng)但分散,每一環(huán)節(jié)的規(guī)模效益不夠.

      5)技術(shù)上重視數(shù)據(jù)收集,而忽略數(shù)據(jù)挖掘與智能處理.其原因在于目前物聯(lián)網(wǎng)發(fā)展過(guò)程的第一階段就是要把它部署成一個(gè)物聯(lián)網(wǎng),通過(guò)這個(gè)建成的物聯(lián)網(wǎng)把數(shù)據(jù)收集上來(lái),之后才會(huì)進(jìn)行數(shù)據(jù)挖掘和智能處理.但是就總體規(guī)劃而言,必須首先認(rèn)識(shí)到數(shù)據(jù)挖掘和智能處理是將來(lái)物聯(lián)網(wǎng)智能水平的一個(gè)衡量標(biāo)準(zhǔn).

      應(yīng)該說(shuō)發(fā)展物聯(lián)網(wǎng)的關(guān)鍵是看系統(tǒng)的智能體現(xiàn)在什么地方,只有突出智能服務(wù)的特征,才能建立起一個(gè)巨大的物聯(lián)網(wǎng)產(chǎn)業(yè).

      3 物聯(lián)網(wǎng)中的計(jì)算模式

      物聯(lián)網(wǎng)的計(jì)算模式分為云計(jì)算模式和物計(jì)算模式2種,只有這2種模式有機(jī)地結(jié)合起來(lái)才能實(shí)現(xiàn)物聯(lián)網(wǎng)中所需的計(jì)算、控制和決策.

      1)云計(jì)算模式.

      云計(jì)算作為一種基于互聯(lián)網(wǎng)、大眾參與、提供服務(wù)方式的新型計(jì)算模式,其目的是實(shí)現(xiàn)資源分享與整合,其中計(jì)算資源是動(dòng)態(tài)、可伸縮且被虛擬化的.大量復(fù)雜的計(jì)算任務(wù),如服務(wù)計(jì)算、變粒度計(jì)算、軟計(jì)算、不確定計(jì)算、人參與的計(jì)算乃至于物參與的計(jì)算,都是云計(jì)算所面臨的任務(wù)[2].云計(jì)算模式就是通過(guò)分布式的架構(gòu)采集物聯(lián)網(wǎng)中的數(shù)據(jù),然后采用上面的云計(jì)算模式集的方法進(jìn)行數(shù)據(jù)和信息處理.此模式一般用于輔助決策的數(shù)據(jù)挖掘和信息處理過(guò)程,系統(tǒng)的智能主要體現(xiàn)在數(shù)據(jù)挖掘和處理上,需要較強(qiáng)的集中計(jì)算能力和高帶寬,但終端設(shè)備比較簡(jiǎn)單[3].

      2)物計(jì)算模式.

      物計(jì)算模式更多的是基于嵌入式,強(qiáng)調(diào)實(shí)時(shí)控制,對(duì)終端設(shè)備的性能要求較高,系統(tǒng)的智能的外在表現(xiàn)主要在終端設(shè)備上;但這種智能是嵌入的,是智能信息處理結(jié)果的利用,不能建立在復(fù)雜的終端計(jì)算基礎(chǔ)上,對(duì)集中處理能力和系統(tǒng)帶寬要求比較低.

      之所以在物聯(lián)網(wǎng)中采用云計(jì)算模式,原因就在于云計(jì)算事實(shí)上具備了很好的特性,是并行計(jì)算、分布式計(jì)算和網(wǎng)格計(jì)算的發(fā)展.而物聯(lián)網(wǎng)中就迫切需要這種分布式的并行,目前物聯(lián)網(wǎng)采用的云計(jì)算模式正是這種分布式并行計(jì)算模式,其主要原因是:1)低成本的分布式并行計(jì)算環(huán)境;2)云計(jì)算模式開發(fā)方便,屏蔽掉了底層;3)數(shù)據(jù)處理的規(guī)模大幅度提高;3)物聯(lián)網(wǎng)對(duì)計(jì)算能力的需求是有差異的,云計(jì)算的擴(kuò)展性好,都能滿足這種差異性所帶來(lái)的不同需求;4)云計(jì)算模式的容錯(cuò)計(jì)算能力還是比較強(qiáng)的,健壯性也比較強(qiáng),在物聯(lián)網(wǎng)中,由于傳感器在數(shù)據(jù)采集過(guò)程的物理分布比較廣泛,這種容錯(cuò)計(jì)算是非常必要的.

      4 數(shù)據(jù)挖掘是物聯(lián)網(wǎng)中的重要環(huán)節(jié)

      4.1 物聯(lián)網(wǎng)架構(gòu)

      從物聯(lián)網(wǎng)的架構(gòu)來(lái)看,基本分為4層:感知層、傳輸層、信息處理層和決策控制層.

      1)感知層:主要是通過(guò)傳感器實(shí)現(xiàn)對(duì)物品的識(shí)別和信息數(shù)據(jù)的采集.

      2)傳輸層:通過(guò)現(xiàn)有的2G、3G以及未來(lái)4G通信網(wǎng)絡(luò)將信息進(jìn)行可靠傳輸.

      3)信息處理層:通過(guò)后臺(tái)系統(tǒng)進(jìn)行智能信息處理,其中一個(gè)重要方面就是數(shù)據(jù)管理.

      4)決策控制層:根據(jù)數(shù)據(jù)挖掘結(jié)果和預(yù)案庫(kù)來(lái)反饋控制和管理物聯(lián)網(wǎng),而數(shù)據(jù)挖掘是決策支持和過(guò)程控制的重要技術(shù)支撐手段.

      4.2 數(shù)據(jù)挖掘在物聯(lián)網(wǎng)中的作用

      互聯(lián)網(wǎng)將信息互聯(lián)互通,物聯(lián)網(wǎng)將現(xiàn)實(shí)世界的物體通過(guò)傳感器和互聯(lián)網(wǎng)連接起來(lái),并通過(guò)云存儲(chǔ)、云計(jì)算實(shí)現(xiàn)云服務(wù).物聯(lián)網(wǎng)具有行業(yè)應(yīng)用的特征,依賴云計(jì)算對(duì)采集到的各行各業(yè)、數(shù)據(jù)格式各不相同的海量數(shù)據(jù)進(jìn)行整合、管理、存儲(chǔ),并在整個(gè)物聯(lián)網(wǎng)中提供數(shù)據(jù)挖掘服務(wù),實(shí)現(xiàn)預(yù)測(cè)、決策,進(jìn)而反向控制這些傳感網(wǎng)絡(luò),達(dá)到控制物聯(lián)網(wǎng)中客觀事物運(yùn)動(dòng)和發(fā)展進(jìn)程的目的.

      數(shù)據(jù)挖掘是決策支持和過(guò)程控制的重要技術(shù)制成手段,它是物聯(lián)網(wǎng)中的重要一環(huán)[4].物聯(lián)網(wǎng)中的數(shù)據(jù)挖掘已經(jīng)從傳統(tǒng)意義上的數(shù)據(jù)統(tǒng)計(jì)分析、潛在模式的發(fā)現(xiàn)與挖掘,轉(zhuǎn)向物聯(lián)網(wǎng)中不可缺少的工具和環(huán)節(jié).

      4.3 物聯(lián)網(wǎng)中數(shù)據(jù)挖掘的新挑戰(zhàn)

      1)分布式并行整體數(shù)據(jù)挖掘.物聯(lián)網(wǎng)的計(jì)算設(shè)備和數(shù)據(jù)在物理上是天然分布的,因此不得不采用分布式并行數(shù)據(jù)挖掘,需要云計(jì)算模式.

      2)實(shí)時(shí)高效的局部數(shù)據(jù)處理.物聯(lián)網(wǎng)任何一個(gè)控制端均需要對(duì)瞬息萬(wàn)變的環(huán)境實(shí)時(shí)分析并做出反應(yīng)和處理,需要物計(jì)算模式和利用數(shù)據(jù)挖掘結(jié)果.

      3)數(shù)據(jù)管理與質(zhì)量控制.多源、多模態(tài)、多媒體、多格式數(shù)據(jù)的存儲(chǔ)與管理是控制數(shù)據(jù)質(zhì)量和獲得真實(shí)結(jié)果的重要保證,需要基于云計(jì)算的存儲(chǔ).

      4)決策和控制.挖掘出的模式、規(guī)則、特征指標(biāo)用于預(yù)測(cè)、決策和控制.

      4.4 物聯(lián)網(wǎng)中數(shù)據(jù)挖掘算法的選擇

      物聯(lián)網(wǎng)特有的分布式特征,決定了物聯(lián)網(wǎng)中的數(shù)據(jù)挖掘具有以下特征.

      1)高效的數(shù)據(jù)挖掘算法:算法復(fù)雜度低、并行化程度高.

      2)分布式數(shù)據(jù)挖掘算法:適合數(shù)據(jù)垂直劃分的算法、重視數(shù)據(jù)挖掘多任務(wù)調(diào)度算法.

      3)并行數(shù)據(jù)挖掘算法:適合數(shù)據(jù)水平劃分、基于任務(wù)內(nèi)并行的挖掘算法.

      4)保護(hù)隱私的數(shù)據(jù)挖掘算法:數(shù)據(jù)挖掘在物聯(lián)網(wǎng)中一定要注意保護(hù)隱私.

      5 分布式與并行數(shù)據(jù)挖掘的比較

      云計(jì)算相關(guān)技術(shù)的飛速發(fā)展和高速寬帶網(wǎng)絡(luò)的廣泛使用,使得實(shí)際應(yīng)用中分布式數(shù)據(jù)挖掘的需求不斷增長(zhǎng).分布式數(shù)據(jù)挖掘是數(shù)據(jù)挖掘技術(shù)與分布式計(jì)算技術(shù)的有機(jī)結(jié)合,主要用于分布式環(huán)境下的數(shù)據(jù)模式發(fā)現(xiàn),它是物聯(lián)網(wǎng)中要求的數(shù)據(jù)挖掘,是在網(wǎng)絡(luò)中挖掘出來(lái)的.通過(guò)與云計(jì)算技術(shù)相結(jié)合,可能會(huì)產(chǎn)生更多、更好、更新的數(shù)據(jù)挖掘方法和技術(shù)手段.

      5.1 分布式數(shù)據(jù)挖掘

      1)分布式數(shù)據(jù)挖掘的優(yōu)點(diǎn).

      考慮到商業(yè)競(jìng)爭(zhēng)和法律約束等多方面的因素,在許多情況下,為了保證數(shù)據(jù)挖掘的安全性和容錯(cuò)性,需要保護(hù)數(shù)據(jù)隱私,將所有數(shù)據(jù)集中在一起進(jìn)行分析往往是不可行的[5].分布式數(shù)據(jù)挖掘系統(tǒng)能將數(shù)據(jù)合理地劃分為若干個(gè)小模塊,并由數(shù)據(jù)挖掘系統(tǒng)并行處理,最后再將各個(gè)局部的處理結(jié)果合成最終的輸出模式,這樣做可以充分利用分布式計(jì)算的能力和并行計(jì)算的效率,對(duì)相關(guān)的數(shù)據(jù)進(jìn)行分析與綜合,從而節(jié)省大量的時(shí)間和空間開銷.

      2)分布式數(shù)據(jù)挖掘面臨的問(wèn)題.

      a)算法方面.實(shí)現(xiàn)數(shù)據(jù)預(yù)處理中各種數(shù)據(jù)挖掘算法,以及多數(shù)據(jù)挖掘任務(wù)的調(diào)度算法.

      b)系統(tǒng)方面.能在對(duì)稱多處理機(jī)(symmetrical multi-processing,SMP)、大規(guī)模并行處理機(jī)(massively parallel processor,MPP)等具體的分布式平臺(tái)上實(shí)現(xiàn),考慮結(jié)點(diǎn)間負(fù)載平衡、減少同步與通訊開銷、異構(gòu)數(shù)據(jù)集成等問(wèn)題[5].

      3)分布式數(shù)據(jù)挖掘的系統(tǒng)分類.

      分布式數(shù)據(jù)挖掘系統(tǒng),按照不同的角度可以劃分為以下幾類[5].

      a)根據(jù)結(jié)點(diǎn)間數(shù)據(jù)分布情況是否同構(gòu)分為同構(gòu)和異構(gòu)2類,同構(gòu)的分布式數(shù)據(jù)挖掘系統(tǒng)的結(jié)點(diǎn)間數(shù)據(jù)的屬性空間相同,異構(gòu)的分布式數(shù)據(jù)挖掘系統(tǒng)的結(jié)點(diǎn)間數(shù)據(jù)具有不同的屬性空間.

      b)按照數(shù)據(jù)模式的生成方式,分布式數(shù)據(jù)挖掘系統(tǒng)分為集中式、局部式和重分布式3類.①在集中式分布式數(shù)據(jù)挖掘系統(tǒng)中,先把數(shù)據(jù)集中于中心點(diǎn),再生成全局?jǐn)?shù)據(jù)模式,該系統(tǒng)適合模型精度較高、但數(shù)據(jù)量較小的情況;②在局部式分布式數(shù)據(jù)挖掘系統(tǒng)中,先在各結(jié)點(diǎn)處生成局部數(shù)據(jù)模式,然后再將局部數(shù)據(jù)模式集中到中心結(jié)點(diǎn)生成全局?jǐn)?shù)據(jù)模式,該系統(tǒng)適合模型精度較低,但效率較高的情形;③在重分布式數(shù)據(jù)挖掘系統(tǒng)中,首先將所有數(shù)據(jù)在各個(gè)結(jié)點(diǎn)間重新分布,然后再按照與局部式系統(tǒng)相同的方法生成數(shù)據(jù)模式.

      5.2 并行數(shù)據(jù)挖掘與分布式數(shù)據(jù)挖掘的比較

      并行數(shù)據(jù)挖掘系統(tǒng)與分布式數(shù)據(jù)挖掘系統(tǒng)都用網(wǎng)絡(luò)連接各個(gè)數(shù)據(jù)處理結(jié)點(diǎn),網(wǎng)絡(luò)中的所有結(jié)點(diǎn)構(gòu)成一個(gè)邏輯上的統(tǒng)一整體,用戶可以對(duì)各個(gè)結(jié)點(diǎn)上的數(shù)據(jù)進(jìn)行透明存取.

      并行挖掘與分布式挖掘的不同點(diǎn)主要有如下.

      1)應(yīng)用目標(biāo)不同.并行數(shù)據(jù)挖掘中各個(gè)處理機(jī)結(jié)點(diǎn)并行完成數(shù)據(jù)挖掘任務(wù),以提高數(shù)據(jù)挖掘系統(tǒng)的整體性能;分布式數(shù)據(jù)挖掘?qū)崿F(xiàn)場(chǎng)地自治和數(shù)據(jù)的全局透明共享,而不要求利用網(wǎng)絡(luò)中的所有結(jié)點(diǎn)來(lái)提高系統(tǒng)的處理性能.

      2)實(shí)現(xiàn)方式不同.并行數(shù)據(jù)挖掘中各結(jié)點(diǎn)間可以采用高速網(wǎng)絡(luò)連接,結(jié)點(diǎn)間的數(shù)據(jù)傳輸代價(jià)相對(duì)較低;分布式數(shù)據(jù)挖掘的各結(jié)點(diǎn)間一般采用局域網(wǎng)或廣域網(wǎng)相連,網(wǎng)絡(luò)帶寬較低,點(diǎn)到點(diǎn)的通信開銷較大.

      3)各結(jié)點(diǎn)的地位不同.并行數(shù)據(jù)挖掘的各結(jié)點(diǎn)是非獨(dú)立的,在數(shù)據(jù)處理中只能發(fā)揮協(xié)同作用,而不能有局部應(yīng)用,適合于算法內(nèi)并行;分布式數(shù)據(jù)挖掘系統(tǒng)的各結(jié)點(diǎn)除了能通過(guò)網(wǎng)絡(luò)協(xié)同完成全局事務(wù)外,每個(gè)結(jié)點(diǎn)可以獨(dú)立運(yùn)行自己的數(shù)據(jù)挖掘任務(wù),執(zhí)行局部應(yīng)用,具有高度的自治性,適合不同算法之間的并行.

      云計(jì)算通過(guò)廉價(jià)的PC服務(wù)器,可以管理大數(shù)據(jù)量與大集群,其關(guān)鍵技術(shù)在于能夠?qū)υ苾?nèi)的基礎(chǔ)設(shè)施進(jìn)行動(dòng)態(tài)按需分配與管理.云計(jì)算的任務(wù)可以被分割成多個(gè)進(jìn)程在多臺(tái)服務(wù)器上并行計(jì)算,然后得到最終結(jié)果,其優(yōu)點(diǎn)是對(duì)大數(shù)據(jù)量的操作性能非常好.從用戶角度來(lái)看,并行計(jì)算是由單個(gè)用戶完成的,分布式計(jì)算是由多個(gè)用戶合作完成的,云計(jì)算是在可以沒(méi)有用戶參與指定計(jì)算結(jié)點(diǎn)的情況下,交給網(wǎng)絡(luò)另一端的云計(jì)算平臺(tái)的服務(wù)器結(jié)點(diǎn)自主完成計(jì)算,這樣云計(jì)算就同時(shí)具備了并行與分布式的特征.

      6 數(shù)據(jù)挖掘云服務(wù)方式

      數(shù)據(jù)挖掘在物聯(lián)網(wǎng)中采取了云服務(wù)的方式來(lái)提供數(shù)據(jù)挖掘的結(jié)果用于決策與控制.云計(jì)算模式是物聯(lián)網(wǎng)的基石,能夠保證分布式并行數(shù)據(jù)挖掘,實(shí)現(xiàn)高效、實(shí)時(shí)挖掘.云服務(wù)模式是數(shù)據(jù)挖掘的普適模式,能夠保證挖掘技術(shù)的共享,降低數(shù)據(jù)挖掘應(yīng)用的門檻,滿足海量挖掘的需求.國(guó)內(nèi)中國(guó)科學(xué)院計(jì)算技術(shù)研究所于2008年底開發(fā)完成了基于Hadoop的并行分布式數(shù)據(jù)挖掘系統(tǒng)PDMiner.中國(guó)移動(dòng)進(jìn)一步建設(shè)了256臺(tái)服務(wù)器、1 000個(gè)CPU、256TB存儲(chǔ)組成的“大云”試驗(yàn)平臺(tái),并在與中國(guó)科學(xué)院計(jì)算技術(shù)研究所合作開發(fā)的并行數(shù)據(jù)挖掘系統(tǒng)基礎(chǔ)上,結(jié)合數(shù)據(jù)挖掘、用戶行為分析等需求,在上海、江蘇等地進(jìn)行了應(yīng)用試點(diǎn),在提高效率、降低成本、節(jié)能減排等方面取得了極為顯著的效果[6].在此基礎(chǔ)上中國(guó)科學(xué)院計(jì)算技術(shù)研究所2009年開發(fā)完成了面向云計(jì)算的數(shù)據(jù)挖掘服務(wù)平臺(tái)COMS,現(xiàn)已用于國(guó)家電網(wǎng)與國(guó)家信息安全領(lǐng)域.數(shù)據(jù)挖掘云服務(wù)平臺(tái)COMS作為無(wú)錫“感知環(huán)境,智慧環(huán)保”環(huán)境監(jiān)控物聯(lián)網(wǎng)應(yīng)用示范工程重要的一環(huán),2010年7月2日通過(guò)了環(huán)保部組織的專家論證,現(xiàn)正在落實(shí)中.

      在國(guó)際上,CHU等采用Map-Reduce并行編程模式實(shí)現(xiàn)了機(jī)器學(xué)習(xí)算法[7],這是在多核環(huán)境下并行算法的實(shí)現(xiàn).另外,在多節(jié)點(diǎn)的云計(jì)算平臺(tái)上的開源項(xiàng)目Apache Mahout 0.5于2011年5月27日發(fā)布[8].

      6.1 數(shù)據(jù)挖掘云服務(wù)平臺(tái)要求

      數(shù)據(jù)挖掘云服務(wù)平臺(tái)包括以下幾個(gè)方面的要求[9].

      1)基礎(chǔ)建設(shè):專業(yè)人士成為服務(wù)的提供者,大眾和各種組織成為服務(wù)的受益方,按領(lǐng)域、行業(yè)進(jìn)行構(gòu)建.

      2)虛擬化:計(jì)算資源自主分配和調(diào)度.

      3)需求:大眾參與應(yīng)對(duì)個(gè)性化和多樣化的需求.

      4)可信:算法通用、可查、可調(diào)和可視.

      5)安全:隱私數(shù)據(jù)由客戶自己在平臺(tái)終端完成加密保護(hù).

      6.2 數(shù)據(jù)挖掘云服務(wù)平臺(tái)結(jié)構(gòu)

      數(shù)據(jù)挖掘云服務(wù)平臺(tái)的結(jié)構(gòu)如圖1所示.可以看出,1)硬件資源管理子系統(tǒng)和后臺(tái)并行挖掘子系統(tǒng)緊密結(jié)合;2)平臺(tái)對(duì)用戶透明,資源抽象成提供數(shù)據(jù)挖掘服務(wù)的“云”;3)用戶通過(guò)前臺(tái)的Web交互界面定制數(shù)據(jù)挖掘任務(wù).

      圖1 數(shù)據(jù)挖掘云服務(wù)平臺(tái)Fig.1 Data mining cloud service platform

      圖2是數(shù)據(jù)挖掘云服務(wù)系統(tǒng)架構(gòu),既包括了數(shù)據(jù)挖掘預(yù)處理云服務(wù)[10],也包括了數(shù)據(jù)挖掘算法云服務(wù),如關(guān)聯(lián)規(guī)則云服務(wù)[11]、分類云服務(wù)[6,12-13]、聚類云服務(wù)[14]和異常發(fā)現(xiàn)云服務(wù)[15],總體上還有工作流子系統(tǒng),對(duì)數(shù)據(jù)挖掘的任務(wù)進(jìn)行多任務(wù)的組合,以達(dá)到數(shù)據(jù)挖掘的目標(biāo).

      圖2 數(shù)據(jù)挖掘云服務(wù)系統(tǒng)架構(gòu)Fig.2 System architecture of data mining cloud services

      7 結(jié)束語(yǔ)

      云計(jì)算是物聯(lián)網(wǎng)的基石,數(shù)據(jù)挖掘是物聯(lián)網(wǎng)不可缺少的重要一環(huán).物聯(lián)網(wǎng)如果不加入智能信息處理和數(shù)據(jù)挖掘就不能體現(xiàn)智能,就只是傳感器網(wǎng).而數(shù)據(jù)挖掘云服務(wù)是物聯(lián)網(wǎng)中先進(jìn)、實(shí)用、可持續(xù)、可推廣的數(shù)據(jù)挖掘方式.

      [1]鄔賀銓.中國(guó)物聯(lián)網(wǎng)應(yīng)用應(yīng)該考慮中國(guó)國(guó)情[EB/OL].(2010-06-29)[2011-11-25].http://cloud.csdn.net/a/20100629/267886.html.

      [2]李德毅.2012云計(jì)算技術(shù)發(fā)展報(bào)告[M].北京:科學(xué)出版社,2012.

      [3]馬文方.泛在計(jì)算:少談些概念多做些實(shí)事[N].中國(guó)計(jì)算機(jī)報(bào),2010-05-10(38).

      [4]張誠(chéng),郭毅.數(shù)據(jù)挖掘與云計(jì)算——專訪中國(guó)科學(xué)院計(jì)算機(jī)研究所何清博士[J].數(shù)字通信,2011,38(3):5-7.

      [5]王媛媛.基于概念格模型的關(guān)聯(lián)規(guī)則挖掘算法研究及實(shí)現(xiàn)[D].合肥:合肥工業(yè)大學(xué),2005:55-56.WANG Yuanyuan.Research and implementation of algorithms of mining association rules based on concept lattice[D].Hefei:Hefei University of Technology,2005:55-56.

      [6]HE Qing,DU Changying,WANG Qun,et al.A parallel incremental extreme SVM classifier[J].Neurocomputing,2011,74(16):2532-2540.

      [7]CHU C T,KIM S K,LIN Y A,et al.Map-reduce for machine learning on multicore[C]//Proceedings of the Twentieth Annual Conference on Neural Information Processing Systems.Vancouver,Canada,2006:281-288.

      [8]The Apache Software Foundation.27 May 2011—Apache Mahout 0.5 released[EB/OL].[2011-12-25].http://mahout.apache.org/.

      [9]何清.基于云計(jì)算的海量數(shù)據(jù)挖掘[EB/OL].(2010-05-25)[2011-11-25].http://cloud.csdn.net/a/20100525/267105.html.

      [10]HE Qing,TAN Qing,MA Xudong,et al.The high-activity parallel implementation of data preprocessing based on MapReduce[C]//The Fifth International Conference on Rough Set and Knowledge Technology(RSKT).Beijing,China,2010:646-654.

      [11]LI Ning,ZENG Li,HE Qing,et al.Parallel implementation of apriori algorithm based on MapReduce[C]//Proceedings of the 13th ACIS International Conference on Software Engineering,Artificial Intelligence,Networking and Parallel/Distributed Computing.Kyoto,Japan,2012(accepted).

      [12]HE Qing,ZHUANG Fuzhen,LI Jincheng,et al.Parallel implementation of classification algorithms based on MapReduce[C]//The Fifth International Conference on Rough Set and Knowledge Technology(RSKT).Beijing,China,2010:655-662.

      [13]HE Qing,WANG Qun,DU Changying,et al.A parallel hyper-surface classifier for high dimensional data[C]//Proceedings of the 3rd International Symposium on Knowledge Acquisition and Modeling.Wuhan,China,2010:338-343.

      [14]ZHAO Weizhong,MA Huifang,HE Qing.Parallel K-means clustering based on mapreduce[C]//The 1st International Conference on Cloud Computing.Beijing,China,2009:674-679.

      [15]HE Qing,MA Yunlong,WANG Qun,et al.Parallel outlier detection using KD-tree based on mapreduce[C]//Proceedings of the 2011 IEEE Third International Conference on Cloud Computing Technology and Science.Athen,Greece,2011:75-80.

      猜你喜歡
      結(jié)點(diǎn)數(shù)據(jù)挖掘分布式
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      Ladyzhenskaya流體力學(xué)方程組的確定模與確定結(jié)點(diǎn)個(gè)數(shù)估計(jì)
      分布式光伏熱錢洶涌
      能源(2017年10期)2017-12-20 05:54:07
      分布式光伏:爆發(fā)還是徘徊
      能源(2017年5期)2017-07-06 09:25:54
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于DDS的分布式三維協(xié)同仿真研究
      西門子 分布式I/O Simatic ET 200AL
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      基于Raspberry PI為結(jié)點(diǎn)的天氣云測(cè)量網(wǎng)絡(luò)實(shí)現(xiàn)
      广西| 昂仁县| 水城县| 乾安县| 大渡口区| 洛扎县| 鄂州市| 海兴县| 富平县| 乌兰县| 县级市| 泽州县| 平原县| 姜堰市| 黑水县| 保靖县| 章丘市| 岳池县| 桂东县| 富民县| 克拉玛依市| 南涧| 普兰县| 宾川县| 白河县| 上饶县| 梁山县| 喜德县| 东光县| 民权县| 安溪县| 弋阳县| 来凤县| 陇西县| 沧州市| 会昌县| 石城县| 济南市| 中西区| 霍州市| 西乌|