徐之欣 張皖哲 鄭書朋 哈爾濱東北農(nóng)業(yè)大學電氣與信息學院 150030
?
物聯(lián)網(wǎng)的大數(shù)據(jù)處理
徐之欣 張皖哲 鄭書朋 哈爾濱東北農(nóng)業(yè)大學電氣與信息學院 150030
【文章摘要】
物聯(lián)網(wǎng)中數(shù)據(jù)管理是一個重要的方面,考慮到一個相互關(guān)聯(lián)的對象是不斷進行各種信息交流的世界,是產(chǎn)生數(shù)據(jù)量和參與的過程,這就使數(shù)據(jù)管理成為關(guān)鍵的問題。我們打算驗證和評估物聯(lián)網(wǎng)的架構(gòu)與大型數(shù)據(jù)庫,根據(jù)大數(shù)據(jù)的概念我們將實現(xiàn)一個估計算法集成的物聯(lián)網(wǎng)架構(gòu)。此外,我們意愿在物聯(lián)網(wǎng)體系結(jié)構(gòu)中提出并驗證跨層通信的可能性。
【關(guān)鍵詞】
物聯(lián)網(wǎng);K-means算法;大數(shù)據(jù);體系結(jié)構(gòu)
物聯(lián)網(wǎng)(IOT)是一種新的溝通模式,是虛擬擴展世界與物理世界的物體相互連接。運行大量的應用程序和服務,然后進行開發(fā)的同時必須克服極大的挑戰(zhàn)使物聯(lián)網(wǎng)得以實現(xiàn)。物聯(lián)網(wǎng)涉及不同的知識領域例如普適計算、網(wǎng)絡通信、目標識別和特殊的數(shù)據(jù)處理。在這樣的背景下,我們引入模式識別機制,本文的重點是一個算法,利用大數(shù)據(jù)處理檢測的離群點,以便選擇和實施物聯(lián)網(wǎng)架構(gòu)。
物聯(lián)網(wǎng)是一個全球性的網(wǎng)絡基礎設施,通過自動識別連接物理和虛擬的物體,具有數(shù)據(jù)采集和通信的能力。這個基礎設施包括現(xiàn)有的和不斷發(fā)展的互聯(lián)網(wǎng)和其他網(wǎng)絡。它將提供特定對象的識別、傳感器的設置和自動的連接能力,是獨立的聯(lián)邦服務和應用開發(fā)的基礎。這將實現(xiàn)高度自治的數(shù)據(jù)采集、事件傳遞,網(wǎng)絡的連通性和互操作性,驅(qū)動與控制。
一方面,物聯(lián)網(wǎng)構(gòu)成一個網(wǎng)絡的物理對象與嵌入式技術(shù)用于內(nèi)部網(wǎng)絡內(nèi)的相互作用以及物與環(huán)境的相互作用。例子包括各種內(nèi)置傳感器,智能家居技術(shù)和尖端的通訊工具,如重量控制管理計劃,攝影和視頻設備,警報,掃描儀,游戲等
這里物聯(lián)網(wǎng)的概念只是一個方面,它反映的是事物的性質(zhì)與材料的組成。一個對象可以是物質(zhì)(一個物質(zhì)或一類事物)或者擬想(例如,權(quán)力的形象)。因此,
物聯(lián)網(wǎng)可以被視為一種資源,用來創(chuàng)建一個象征性的資本,作為一個非物質(zhì)的虛擬對象或者作為一個網(wǎng)絡存在的互聯(lián)網(wǎng)空間。
K-means算法,是由MacQueen 提出的,是一個基于對象之間的相似度的聚類算法。它的工作原理如下:算法中簇的數(shù)目為k,選取每一個質(zhì)心為代表,1≤i≤K;它接收N個隨機對象觀察對比。在每一次迭代中,每個對象都被分配到一個最短距離的集群。在每次迭代算法之后,算法重新定位質(zhì)心通過減少聚類中所有目標點的距離,當質(zhì)心位置穩(wěn)定了算法收斂。
3.1簡述
Sun and Heller提出大數(shù)據(jù)是指難以存儲、搜索、查看的大型數(shù)據(jù)集。Smith指出,大數(shù)據(jù)是指按常規(guī)工具不能被處理或分析的非常大的數(shù)據(jù)集。大數(shù)據(jù)需要大的計算能力,在合理時間內(nèi)有效地處理這樣大的數(shù)據(jù)集。這項技術(shù)涉及大規(guī)模并行處理(MPP)數(shù)據(jù)庫,數(shù)據(jù)挖掘網(wǎng)格,分布式文件系統(tǒng),云計算,互聯(lián)網(wǎng)和可擴展存儲系統(tǒng)。大數(shù)據(jù)的終極核心價值在于資源優(yōu)化配置,具體來說,要實現(xiàn)大數(shù)據(jù)的核心價值,有兩個重要的步驟:一是通過“眾包”的形式收集海量數(shù)據(jù),二是通過大數(shù)據(jù)的技術(shù)途徑進行“全量數(shù)據(jù)挖掘”,最后利用分析結(jié)果進行資源優(yōu)化配置。下面具體解釋一下大數(shù)據(jù)的工作流程:首先,只靠單一的部門進行數(shù)據(jù)采集更新是緩慢的,并且數(shù)據(jù)時時變化總是進行修改浪費人力物力,因此將任務以自由自愿的形式承包給大型網(wǎng)絡,從而形成海量數(shù)據(jù)。第二步通過海量數(shù)據(jù)進行數(shù)據(jù)分析結(jié)果,更準確全面。第三步資源優(yōu)化配置,舉例子來說,隨著DMP(Data Management Platform)技術(shù)的不斷成熟,我們就可以積累用戶行為從而判斷出性別,所以資源化配置最終目的是分步挖掘和深度學習。
3.2在物聯(lián)網(wǎng)中的應用
大數(shù)據(jù)與服務業(yè)緊密相連,致使物體與網(wǎng)絡的連接更加高效,農(nóng)業(yè)上推出決策服務,用智能終端檢測園地作物的數(shù)據(jù)解放雙手;信息化工業(yè)化產(chǎn)業(yè),利用大數(shù)據(jù)和物聯(lián)網(wǎng)的結(jié)合,實現(xiàn)建筑的低碳、綠色、智能,信息化的分布式查詢;交通運輸業(yè)做到緩解交通壓力,實時避免擁堵,加快運輸速率;醫(yī)藥方面,增強儀器的魯棒性,儀器聯(lián)網(wǎng)后會加入更多等復雜的病例,增加可靠性。
【參考文獻】
[1]Souza,A.M.,Amazonas,J.R..A novel smart home application using an internet of things middleware.In∶ Smart Objects,Systems and Technologies(SmartSysTech),Proceedings of 2013 European Conference on.2013,p.1-7.
[2]White,T..Hadoop∶ The Definitive Guide.O’Reilly Media,Inc.;1st ed.;2009.ISBN 0596521979,9780596521974.
[3]Owen,S.,Anil,R.,Dunning,T.,F(xiàn)riedman,E..Mahout in Action.Greenwich,CT,USA∶Manning Publications Co.;2011.ISBN 1935182684,9781935182689.
[4]Tan,P.N.,Steinbach,M.,Kumar,V..Introduction to Data Mining,(First Edition).Boston,MA,USA∶ Addison-Wesley Longman Publishing Co.,Inc.;2005.ISBN 0321321367.
[5]Angiulli,F(xiàn).,Basta,S.,Pizzuti,C..Distancebased detection and prediction of outliers.Knowledge and Data Engineering,IEEE Transactions on 2006;18(2)∶145-160.