賈曉冬
(中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司石家莊市分公司,石家莊 050000)
人類在2010年提出了“數(shù)字地球”的概念,此后這一概念的影響力在不斷增強(qiáng),與此同時(shí)中國(guó)民眾的生活與物聯(lián)網(wǎng)技術(shù)的聯(lián)系越來(lái)越密切。社會(huì)各界對(duì)物聯(lián)網(wǎng)提出了更高的要求,而在目前的發(fā)展階段中,數(shù)據(jù)挖掘是物聯(lián)網(wǎng)技術(shù)所面臨的一大難題,本文就此展開(kāi)討論。
云計(jì)算是在互聯(lián)網(wǎng)技術(shù)的基礎(chǔ)上提出的,該計(jì)算方式以用戶的需求為依據(jù),通過(guò)互聯(lián)網(wǎng)為用戶提供相關(guān)服務(wù)。由于云計(jì)算的整個(gè)服務(wù)資源來(lái)源于互聯(lián)網(wǎng)內(nèi)的數(shù)據(jù),而且互聯(lián)網(wǎng)在顯示相關(guān)資源時(shí)也大多應(yīng)用云狀圖案,因此該技術(shù)被稱作為云計(jì)算。在相關(guān)應(yīng)用技術(shù)的基礎(chǔ)上,云計(jì)算的性能十分先進(jìn),具有規(guī)模較大的特點(diǎn),就比如說(shuō)谷歌云計(jì)算,就是由100多萬(wàn)臺(tái)服務(wù)器構(gòu)成。而其他的較大型搜索引擎也擁有數(shù)十萬(wàn)臺(tái)服務(wù)器[1]。虛擬化也是云計(jì)算的顯著特征,用戶能夠在任意位置登錄,也能在任意終端實(shí)現(xiàn)服務(wù)器登錄。而這些操作步驟都在云空間內(nèi)實(shí)現(xiàn)。云計(jì)算的另外一個(gè)特征是可靠性,在數(shù)據(jù)多副本絨促的作用下,應(yīng)用數(shù)據(jù)的節(jié)點(diǎn)同構(gòu)作用,實(shí)現(xiàn)可靠性服務(wù)。云計(jì)算的通用性特征十分明顯,不會(huì)特別針對(duì)某一項(xiàng)應(yīng)用,而是創(chuàng)造出海量應(yīng)用。此外,超大規(guī)模的云計(jì)算還能實(shí)現(xiàn)動(dòng)態(tài)伸縮,如此一來(lái),用戶日益增長(zhǎng)的各類需求都能被滿足。
物聯(lián)網(wǎng)感知層能夠?qū)崿F(xiàn)感知作用,通過(guò)在目標(biāo)區(qū)域范圍內(nèi)設(shè)置大量的數(shù)據(jù)采集點(diǎn),實(shí)現(xiàn)有效的感知作用。通過(guò)傳感器和攝像頭完成數(shù)據(jù)采集工作。將采集到數(shù)據(jù)集中處理,此時(shí)要用到物聯(lián)網(wǎng)感知層的所具備的網(wǎng)路通信作用,這些被需要的數(shù)據(jù)會(huì)被傳送至各點(diǎn),之后集中保存并再一次通過(guò)傳輸層到達(dá)云計(jì)算平臺(tái)的數(shù)據(jù)處理中心,此時(shí)整個(gè)感知層的職能就全部實(shí)現(xiàn)。數(shù)據(jù)傳輸?shù)恼麄€(gè)過(guò)程都要經(jīng)歷的中間環(huán)節(jié)就是物聯(lián)網(wǎng)傳輸層,其中包含的技術(shù)有傳感器和無(wú)限網(wǎng)絡(luò)。多種設(shè)備連接在一起,構(gòu)建的傳輸系統(tǒng)能夠高效率、無(wú)縫式傳遞信息。物聯(lián)網(wǎng)感知層在收集數(shù)據(jù)之后,通過(guò)傳輸系統(tǒng)能夠更有效地將收集到的數(shù)據(jù)傳輸至數(shù)據(jù)處理中心,此時(shí)全方位的互通互聯(lián)目標(biāo)也能完整實(shí)現(xiàn)。仔細(xì)分析實(shí)際的工作內(nèi)容,可以發(fā)現(xiàn)檢測(cè)處理設(shè)備具有多種屬性,將所指向的屬性相連接并實(shí)現(xiàn)聯(lián)網(wǎng),不僅傳輸效率會(huì)明顯提高,還能在各設(shè)備節(jié)點(diǎn)之間完成信息傳播。
在數(shù)據(jù)挖掘服務(wù)層中,有數(shù)據(jù)準(zhǔn)備模塊、數(shù)據(jù)挖掘引擎模塊,另外還有用戶模塊。在數(shù)據(jù)準(zhǔn)備模塊中,能夠?qū)崿F(xiàn)的功能有分析數(shù)據(jù)情況、轉(zhuǎn)變數(shù)據(jù)格式、制定數(shù)據(jù)規(guī)則。在數(shù)據(jù)挖掘引擎模塊中,具備的內(nèi)容有挖掘數(shù)據(jù)算法、評(píng)估數(shù)據(jù)模式。而在用戶模塊中,涵蓋的功能是將數(shù)據(jù)挖掘的知識(shí)采用可視化手段展現(xiàn)出來(lái)。各種數(shù)據(jù)挖掘類型之間存在一定差異,因此數(shù)據(jù)挖掘引擎模塊的功能十分多元化,能夠?qū)?shù)據(jù)進(jìn)行類似性分析、偏差性分析、趨勢(shì)分析、關(guān)聯(lián)分析、聚類分析,正是數(shù)據(jù)挖掘模塊中的算法集提供了上述多種功能算法。要想實(shí)現(xiàn)在Hadoop 平臺(tái)中挖掘相關(guān)算法,就要對(duì)傳統(tǒng)的數(shù)據(jù)挖掘算法進(jìn)行適當(dāng)調(diào)整,運(yùn)用并行化模式處理相應(yīng)算法。比如在用戶的直接接觸端,也就是物聯(lián)網(wǎng)數(shù)據(jù)挖掘平臺(tái)的用戶模塊,該模塊擔(dān)負(fù)著重要的職責(zé),要將系統(tǒng)的信息轉(zhuǎn)化為用戶能夠識(shí)別的信息,因此該模塊必須要具備明顯的友好性。
異構(gòu)性和海量性是物聯(lián)網(wǎng)數(shù)據(jù)的明顯特征,為此Hadoop 平臺(tái)在開(kāi)發(fā)物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng)時(shí)要能夠較高質(zhì)量開(kāi)發(fā)物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng),以實(shí)現(xiàn)更好存儲(chǔ)和處理物聯(lián)網(wǎng)數(shù)據(jù)。比如在某次構(gòu)建物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng)時(shí),建立了數(shù)據(jù)源轉(zhuǎn)換模塊和分布式存儲(chǔ)模塊。數(shù)據(jù)源轉(zhuǎn)換模塊實(shí)現(xiàn)的功能是轉(zhuǎn)換物聯(lián)網(wǎng)異構(gòu)數(shù)據(jù),分布式存儲(chǔ)模塊的功能是分布式儲(chǔ)存物聯(lián)網(wǎng)所產(chǎn)生的海量數(shù)據(jù)[2]。在分布式儲(chǔ)存模塊實(shí)現(xiàn)功能時(shí),要依賴于Hadoop 云計(jì)算基礎(chǔ)的HDFS 文件系統(tǒng)。在顯示物聯(lián)網(wǎng)中的不同對(duì)象時(shí),要用到不同的數(shù)據(jù)類型,因此物聯(lián)網(wǎng)的根本性特征便是異構(gòu)性質(zhì),能夠比較直觀說(shuō)明這一特點(diǎn)的情況是不同的對(duì)象要用不同的數(shù)據(jù)形式來(lái)表示。數(shù)據(jù)源轉(zhuǎn)換器的功能是保證數(shù)據(jù)存儲(chǔ)完整,同時(shí)也能保證挖掘工作科學(xué)順利地進(jìn)行
綜上所述,物聯(lián)網(wǎng)數(shù)據(jù)挖掘會(huì)在云平臺(tái)技術(shù)的支持下獲得良好發(fā)展。在Hadoop 平臺(tái)的基礎(chǔ)上開(kāi)發(fā)物聯(lián)網(wǎng)數(shù)據(jù)挖掘系統(tǒng),能夠?qū)崿F(xiàn)更加全面完善的功能。本文做出的功能實(shí)現(xiàn)分析在未來(lái)會(huì)進(jìn)一步深入,提高數(shù)據(jù)挖掘的智能性和工作效率。