摘要:隨著我國云計算和物聯(lián)網技術的持續(xù)發(fā)展,數(shù)據(jù)挖掘技術和模型逐漸發(fā)展成熟,提高了網絡數(shù)據(jù)利用率。文章基于云計算和互聯(lián)網技術下的數(shù)據(jù)挖掘技術以及模型、系統(tǒng)研究,在簡單闡述云計算和物聯(lián)網技術內涵的前提下,針對以云計算和互聯(lián)網技術所形成的數(shù)據(jù)挖掘系統(tǒng)中的數(shù)據(jù)匯集調度、挖掘算法并行、服務調度管理等多項關鍵技術進行探討,并對以云計算和物聯(lián)網技術形成的數(shù)據(jù)挖掘模型、系統(tǒng)建立進行了分析。
關鍵詞:云計算;物聯(lián)網;數(shù)據(jù)挖掘
中圖法分類號:TP391文獻標識碼:A
Data mining based on cloud computing and Internet of things technology
LU Yu
(Wuxi City Cloud Computing CenterCo.,Ltd.,Wuxi,Jiangsu 214135,China)
Abstract:With the continuous development of cloud computing and Internet of things technologies in China,data mining technologies and models have gradually developed and matured,improving the utilization of network data. Based on the data mining technology and model and system research under cloud computing and Internet technology, this paper briefly expounds the connotation of cloud computing and Internet of things technology, and aims at the data collection and integration in the data mining system formed by cloud computing and Internet technology. Scheduling,mining algorithm parallelism, service scheduling and management and other key technologies are discussed. and the data mining model and system establishment formed by cloud computing and Internet of things technology are analyzed.
Key words:cloud computing, Internet of things, data mining
數(shù)據(jù)挖掘技術能夠幫助企業(yè)以及相關部門發(fā)掘社會生活中存在的海量數(shù)據(jù),以便在掌握人們真實需求的前提下,為其提供針對性的產品和服務。對于相關部門而言,數(shù)據(jù)挖掘技術能夠深刻發(fā)掘目前國內經濟社會發(fā)展問題背后的原因,在采取針對性措施解決相關問題的基礎上,推動國內經濟社會的發(fā)展。企業(yè)則可以利用數(shù)據(jù)挖掘技術將業(yè)務經營中積累的各項數(shù)據(jù)進行分析,充分利用這些數(shù)據(jù)反映出的市場變化規(guī)律形成正確的企業(yè)發(fā)展決策。
1概述
1.1云計算技術
云計算技術可以憑借分布式計算平臺對海量數(shù)據(jù)背后的隱藏規(guī)律進行挖掘。云計算技術可以幫助用戶結合真實需求隨時訪問計算機和數(shù)據(jù)庫,并提供不同類型數(shù)據(jù)的分析處理服務,對提高數(shù)據(jù)挖掘效率及數(shù)據(jù)利用率都有著重要作用[1]。為了進一步提高數(shù)據(jù)的安全性,云計算技術可以同步實施儲存和計算操作,對各項數(shù)據(jù)進行高效處理,并能夠解決其中的融合性和存儲問題。隨著國內云計算技術的持續(xù)發(fā)展,逐漸展現(xiàn)出如下特征:第一,規(guī)模較大。云計算技術通常會涉及百萬臺服務器,這意味著能夠在極短時間內對海量數(shù)據(jù)進行全面計算和挖掘;第二,資源的虛擬特征。用戶可以憑借基于云計算技術的現(xiàn)代化裝置在任意時間和地點實現(xiàn)和數(shù)據(jù)中心的連接,獲得自己所需要的各種服務,同時數(shù)據(jù)不會在任何實體服務器內進行儲存,通常會被存入云端系統(tǒng)中;第三,可靠性和通用性特征。云計算系統(tǒng)中分布的各種節(jié)點能夠實現(xiàn)同構互換的效果,與本地計算機相比,計算可靠性得到了明顯提升。
1.2物聯(lián)網技術
物聯(lián)網技術實際上是一種全新的網絡模式,能夠使用節(jié)點表示對象,并涉及數(shù)據(jù)的查詢、應用、匯總等多個環(huán)節(jié),能夠將數(shù)據(jù)分別傳送到不同的傳感器和服務器中。隨著國內物聯(lián)網技術的持續(xù)發(fā)展,計算機技術和第5代通信技術的融合也變得越發(fā)深入,物聯(lián)網技術可以借助實體對象與信息網絡進行無縫連接,以保障業(yè)務經營的有效性[2]。國內物聯(lián)網技術發(fā)展體現(xiàn)出如下特征:第一,可以憑借現(xiàn)代信息技術和電子標簽技術獲得生產、生活的基礎性信息;第二,有著較高的信息傳輸可靠性,物聯(lián)網可以通過無線、有線網絡技術的集成處理,借助傳感器和通信網絡獲取、傳輸各種信息;第三,物聯(lián)網技術可以與云計算技術進行結合,進行數(shù)據(jù)信息的傳輸和處理,通過使用標準化數(shù)據(jù)識別技術對各項異構數(shù)據(jù)及時進行處理,從而維護海量數(shù)據(jù)的有效性。
2數(shù)據(jù)挖掘中的關鍵技術
2.1數(shù)據(jù)匯集調度技術
以云計算和物聯(lián)網平臺作為基礎,數(shù)據(jù)挖掘體系逐漸形成,其能夠借助云計算平臺匯集和調度多種不同類型的數(shù)據(jù),最終實現(xiàn)綜合性管理和應用數(shù)據(jù)信息的目標。數(shù)據(jù)匯集調度技術作為數(shù)據(jù)挖掘技術的核心,能夠有效連接不同格式、類型之間的數(shù)據(jù),實現(xiàn)二者之間的交流,同時不同類型的數(shù)據(jù)也能夠同步進行處理和連接。數(shù)據(jù)處理技術可以幫助相關人員在設計問題解決方案時,保障不同數(shù)據(jù)生成格式的統(tǒng)一化,具體包括聯(lián)機事務處理系統(tǒng)的形式數(shù)據(jù)、分析處理系統(tǒng)的形式數(shù)據(jù)和各種日常維護日志數(shù)據(jù)等[3]。數(shù)據(jù)匯集調度技術的應用能夠在深入挖掘海量數(shù)據(jù)信息背后價值的前提下,幫助企業(yè)做出正確決策。
2.2挖掘算法并行技術
基于云計算和物聯(lián)網技術的數(shù)據(jù)挖掘系統(tǒng)擁有挖掘算法并行技術,具體可以分為可行化算法、并行化算法和并行策略等。在數(shù)據(jù)挖掘算法應用的過程中,挖掘算法并行技術同樣可以引入決策樹算法和關聯(lián)規(guī)則算法。用戶可以在使用云計算平臺時,結合自己的具體需求以及數(shù)據(jù)規(guī)模選擇不同的挖掘算法,以便對數(shù)據(jù)背后的價值進行挖掘以及利用。
2.3服務調度管理技術
出于滿足不同業(yè)務系統(tǒng)服務需求的考慮,需要在綜合使用云計算和物聯(lián)網技術的過程中融入服務調度管理技術。服務調度管理技術可以針對服務等級、資源匹配進行科學分析,從而實現(xiàn)優(yōu)先級服務的調度工作。在應用這一技術的過程中,同樣需要保障隔離不同服務以及維持彼此之間的互斥狀況,確保服務調度管理技術能夠發(fā)揮應有的作用,保證云服務的安全穩(wěn)定運行[4]。此外,應用服務調度管理技術時,可以通過設置服務注冊、服務暴露等功能模塊,開展用戶所需的一體化服務管理工作。以服務調度管理技術為基礎所形成的數(shù)據(jù)挖掘系統(tǒng)能夠接入第三方數(shù)據(jù),從而進一步提高系統(tǒng)的數(shù)據(jù)挖掘能力。
2.4基于云計算數(shù)據(jù)的挖掘技術
在國內信息技術持續(xù)發(fā)展的影響下,數(shù)據(jù)信息已經成為各個行業(yè)可持續(xù)發(fā)展的重要基礎資源,使用云計算數(shù)據(jù)的行業(yè)若要取得市場競爭力方面的優(yōu)勢,必須深入挖掘核心數(shù)據(jù)中的商業(yè)價值,以實現(xiàn)數(shù)據(jù)價值的利益最大化目標。隨著云計算數(shù)據(jù)下的挖掘技術不斷發(fā)展,企業(yè)內部的數(shù)據(jù)挖掘工作在質量和效率方面也得到了明顯的進步。同時,企業(yè)的數(shù)據(jù)挖掘工作總量也得到了控制,企業(yè)完全可以憑借云計算技術、物聯(lián)網應用獲取關于生產、生活的關鍵數(shù)據(jù)信息,對數(shù)據(jù)背后的規(guī)律進行全面挖掘,確保企業(yè)的生產、生活信息應用逐漸向著高質量方向發(fā)展。
3數(shù)據(jù)挖掘模型及系統(tǒng)
3.1數(shù)據(jù)挖掘模型
以目前結合云計算和物聯(lián)網技術所形成的數(shù)據(jù)挖掘模式看來,通常是以物聯(lián)網環(huán)境作為基礎。但當下物聯(lián)網應用擁有明顯的復雜性、煩瑣性和關聯(lián)性特征,企業(yè)為了避免數(shù)據(jù)模型中的應用出現(xiàn)問題,會在數(shù)據(jù)應用的過程中進行創(chuàng)新,發(fā)揮云計算和物聯(lián)網數(shù)據(jù)技術在數(shù)據(jù)挖掘過程中的重要作用。以云計算和物聯(lián)網技術為基礎形成的數(shù)據(jù)挖掘模型可以幫工作人員對互聯(lián)網世界中的數(shù)據(jù)分布特征進行全面解析,從而選擇符合自身需求以及數(shù)據(jù)處理規(guī)模的方法,能夠進一步推動云計算和物聯(lián)網下的數(shù)據(jù)挖掘模型的發(fā)展。隨著國內信息化社會的持續(xù)發(fā)展和進步,物聯(lián)網數(shù)據(jù)同樣出現(xiàn)了關聯(lián)性弱、容量大、質量差等缺點。針對數(shù)據(jù)挖掘模型的應用,也需要結合數(shù)據(jù)規(guī)模方面的變化進行科學調整?;谠朴嬎愫臀锫?lián)網技術所形成的數(shù)據(jù)挖掘模式和傳統(tǒng)的數(shù)據(jù)挖掘模式存在較大的差異,尤其是原始數(shù)據(jù)來源于四維空間中的時空網絡表現(xiàn)得最為明顯,而傳統(tǒng)的物聯(lián)網數(shù)據(jù)則是使用個體用點進行表示。數(shù)據(jù)挖掘模型可以合理應用云計算數(shù)據(jù)成果,尤其是網絡發(fā)掘技術,實現(xiàn)對生產、生活數(shù)據(jù)的高質量處理,并且數(shù)據(jù)挖掘操作中的失誤事件發(fā)生概率有所降低。
基于云計算和物聯(lián)網技術所形成的數(shù)據(jù)挖掘模型建立需要綜合考慮物與物之間的個體聯(lián)系。并且,聯(lián)系方面的差異意味著建立的數(shù)據(jù)挖掘模型也存在明顯不同。一般而言,物與物之間存在的間接聯(lián)系可以使用拉普拉斯變換模型或者是 SVD 模型表示,數(shù)學模型的差異也會帶來表現(xiàn)結果的不同[5]。比如,目前較為常用的超圖物聯(lián)網數(shù)據(jù)模型就可以隨意的連接預編點,借此客觀展示網內的數(shù)據(jù)關聯(lián)關系,最為常見的表示如下:A={ v1,v2,v3,v4,v5,v6,v7}超邊集合,B={ e1,e2,e3,e4}={{ v1,v2,v3},{ v2,v3}。同時,穩(wěn)定性相對較好的可外推非參數(shù)模型的建立也需要相關人員針對事物之間的聯(lián)系進行深入分析,通過建立數(shù)學模型,獲得完整的數(shù)量效果。但實際上,這種模型的應用也會受到網絡數(shù)據(jù)丟失以及錯誤方面的阻礙。
3.2數(shù)據(jù)挖掘系統(tǒng)
基于云計算和物聯(lián)網技術所形成的數(shù)據(jù)挖掘系統(tǒng),其內部結構可以分為應用層、中間層、網絡層、接入網絡層和感知層等。感知層作為整個數(shù)據(jù)挖掘系統(tǒng)的底層,一般都是以硬件和物理設施為主;中間層則是感知層和應用層之間的連接和過渡層,能夠實現(xiàn)數(shù)據(jù)在二者之間的有效傳遞。中間層是處于底層的硬件層和上層應用層之間的接口,具備設備、信息管理等關鍵功能,同時數(shù)據(jù)過濾、語義分析、信息發(fā)現(xiàn)等工作也需要在這一層進行處理;應用層需要為用戶提供相應的服務或者是應用程序;接入網絡層在數(shù)據(jù)挖掘系統(tǒng)中主要是負責消息發(fā)布,并且在必要的情況下能夠實時跨平臺通信。
數(shù)據(jù)挖掘系統(tǒng)中的應用程序和中間層需要使用云計算技術實現(xiàn)其功能,云計算技術能夠提供帶有伸縮性的儲存、計算時間和其他工具,為用戶提供應用程序服務?;诖?,網絡層能夠進行物聯(lián)網設備和云端的連接。數(shù)據(jù)挖掘系統(tǒng)可以借助云計算和物聯(lián)網技術形成較大的流量,在解決相關問題的過程中可以引入 fog 計算方式來否定節(jié)點。因為提供了本地化服務,以及擁有明顯的低延遲和上下文感知特征,云計算技術能夠提供全局集中的服務。
為了建立完善的以物聯(lián)網技術和云計算技術為基礎的數(shù)據(jù)挖掘系統(tǒng),通常會使用readmake云或者是大數(shù)據(jù)的數(shù)據(jù)挖掘系統(tǒng)。微軟的 Azure 機器學習作為一個以 SaaS 技術所形成的預測分析服務,能夠向用戶提供必要的包括數(shù)據(jù)獲取、預處理、特征定義等在內的完善數(shù)據(jù)分析服務。但用戶只能夠在 Azure ML 學習算法中應用包括分類、回歸、異常檢測和聚類等方式,并且在算法擴展的過程中也只能添加有關機器學習市場上其他成熟、可用的算法,這項技術可以憑借 Azure API 發(fā)布集成性質的其他模塊以及服務。
Apache Spark 機器學習庫作為一種以 Apache Spark 平臺為基礎形成的帶有擴展性的機器學習庫,涵蓋了最為常見的學習算法和工具,以分類、回歸、聚類、協(xié)同處理等為主,擁有屬于自己的 MapReduce 范例實現(xiàn),可借助已有內存進行數(shù)據(jù)的儲存和管理。同時,這種機器學習庫算法能夠進一步提高算法效率,用戶也可以根據(jù)自己的需求拓展機器學習算法。但實際上,用戶在對其進行具體應用的過程中,需要在地圖上進行算法分解,這使得部分機器學習庫中的功能有所減少,限制了數(shù)據(jù)挖掘算法的并行化能力。
作為國際社會知名度較高的開源數(shù)據(jù)挖掘庫下的拓展成果,Weka4WS 實現(xiàn)了 WSRF 網格中的數(shù)據(jù)挖掘算法執(zhí)行框架,可以做到在遠程網絡節(jié)點上執(zhí)行擁有的挖掘算法。Weka4WS 可以實現(xiàn)產品的遠程調用目標,Weka 提供的數(shù)據(jù)挖掘算法是一種以 Web 服務的形式進行全面公開,能夠在各個網絡節(jié)點上進行部署。但實際上,這種算法也只能夠針對單個儲存節(jié)點中儲存的數(shù)據(jù)集合進行處理,并且需要將數(shù)據(jù)集合傳輸?shù)叫枰诰虻挠嬎愎?jié)點中。
4結束語
基于物聯(lián)網和云計算技術所形成的數(shù)據(jù)挖掘算法和模型通常使用的是集中式或者是分布式架構,又以集中式結構體系為主。由于分布式結構體系能夠減少終端在互聯(lián)網上的網絡流量,逐漸得以推廣和應用。在今后的數(shù)據(jù)挖掘系統(tǒng)算法持續(xù)優(yōu)化的過程中,相關人員需要結合物聯(lián)網和云計算技術發(fā)展的全新技術成果,將數(shù)據(jù)挖掘算法分解成系統(tǒng)中的各個功能逐一映射到參與者身上,以便在進一步提高數(shù)據(jù)挖掘系統(tǒng)的數(shù)據(jù)分析性能的同時,降低終端設備和云端之間的網絡流量,以最小的成本提高數(shù)據(jù)挖掘系統(tǒng)算法以及模型的數(shù)據(jù)處理效率。
參考文獻:
[1]周鑫隆,梁婧.云計算與物聯(lián)網技術的數(shù)據(jù)挖掘分析[J].電子世界,2022(2):28?29+32.
[2]王艷雨,劉萍.基于云計算與物聯(lián)網技術的數(shù)據(jù)挖掘分析[J].科技創(chuàng)新與應用,2021,11(35):94?97.
[3]楊烈龍.基于云計算與物聯(lián)網技術的數(shù)據(jù)挖掘[J].中小企業(yè)管理與科技(下旬刊),2021(2):148?149.
[4]房悅.基于云計算與物聯(lián)網技術的數(shù)據(jù)挖掘分析[ J].粘接,2021,45(1):163?166.
[5]湯勇峰.基于云計算平臺的物聯(lián)網數(shù)據(jù)挖掘研究[J].電腦知識與技術,2017,13(7):218?219.
作者簡介:
陸煜(1983—),碩士,工程師,研究方向:物聯(lián)網產業(yè)和云計算產業(yè)的發(fā)展。